




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于單義域鄰接圖-工程圖紙掃描圖象-字符提取摘要 工程圖紙掃描圖象的圖文分割是一個(gè)重要問(wèn)題。本文在構(gòu)建單義域鄰接圖基礎(chǔ)上來(lái)提取字符及其特征。圖文分離先從單義域中篩選字符筆劃域,進(jìn)行初步分離。然后,以字符筆劃域?yàn)槠瘘c(diǎn),遍歷鄰接圖來(lái)搜索鄰接字符筆劃域,提取字符域,分析特性作進(jìn)一步篩選。以字符域鄰近與共線為判據(jù)來(lái)組合字符串域,字符域鄰近是用其外接膨脹矩形相交來(lái)判定。利用共串字符域外接矩形中心及所附圖形對(duì)字符域進(jìn)行定向。對(duì)非水平字符域旋轉(zhuǎn)至水平,并構(gòu)建其單義域鄰接圖,以表達(dá)幾何與拓?fù)涮卣?,為后續(xù)識(shí)別作準(zhǔn)備。實(shí)例表明,本算法可以較好地處理字符與圖形的粘連問(wèn)題,提取效果很好,且能夠描述字符整體特征。1 引
2、言工程圖紙掃描圖象的識(shí)別與理解是目前學(xué)術(shù)界和工程界研究的熱點(diǎn),在機(jī)械、電子、建筑及地理信息系統(tǒng)等應(yīng)用領(lǐng)域中具有重要的實(shí)際意義。圖樣中有兩部分信息,一是圖形,由幾何圖素組成,用來(lái)表達(dá)產(chǎn)品形體;二是文字,用來(lái)定義產(chǎn)品尺寸及描述其它信息,有的附于圖形,如尺寸數(shù)字等,也有獨(dú)立存在的,如技術(shù)要求等。文字是圖樣中非常重要的信息。因此,工程圖紙掃描圖象的字符提取與識(shí)別是一個(gè)重要問(wèn)題,對(duì)進(jìn)一步的尺寸理解、圖像理解等高層次理解都有較大作用。工程圖樣中的文字包括多種字符,如漢字、數(shù)字、字母及符號(hào)等。字符情況較為復(fù)雜,有自己的一些特點(diǎn):字符多為手寫(xiě),具有一定的隨意性,不同于印刷體;具有多種方向,不僅有水平書(shū)寫(xiě),而且
3、有的垂直放置,還有其它各種角度的斜向;有直體與斜體;有時(shí)字符與字符及圖形粘連,增加了圖文分割及字符提取的難度;位置分散,大小不一。上述情況在字符的分割及識(shí)別時(shí)都必須考慮。所以,工程圖樣字符提取及識(shí)別是一個(gè)十分困難的問(wèn)題。鑒于工程圖樣字符的特點(diǎn),其處理方法與光柵文檔具有很大差別,一般的處理過(guò)程是:先標(biāo)識(shí)連通體,從中選出字符域,再根據(jù)字符域鄰近和共線來(lái)生成字符串域,并判斷方向,然后分割字符域,最后進(jìn)行字符識(shí)別及校正。經(jīng)過(guò)多年研究,工程圖樣字符的分割及識(shí)別算法已有多種:一是基于連通體1;二是基于輪廓跟蹤2,利用同步邊緣特性檢測(cè)進(jìn)行輪廓跟蹤,分離字符輪廓,采用鄰域搜索來(lái)生成字符串,最后通過(guò)分類(lèi)樹(shù)進(jìn)行字
4、符識(shí)別,并根據(jù)專(zhuān)業(yè)知識(shí)作校正;三是行程編碼匹配法3,采用圖分割集方法來(lái)分割與字符及圖形粘連的字符。本文提出一種基于單義域鄰接圖的圖文分割方法,在二值圖象水平黑游程編碼基礎(chǔ)上,以相關(guān)游程線寬和拓?fù)涞囊恢聻榧s束生成條形域,對(duì)其中多義域作分裂獲得單義域:線段域和圓弧域,并建立其鄰接圖。字符筆劃可以表示為一個(gè)或多個(gè)單義域。字符筆劃的長(zhǎng)度較小,線寬一致。根據(jù)這些特點(diǎn),從單義域中篩選字符筆劃域,進(jìn)行初步圖文分離。字符筆劃多是鄰接的,以字符筆劃域?yàn)槠瘘c(diǎn),通過(guò)遍歷鄰接圖搜索鄰接的字符筆劃域,來(lái)提取字符域。字符結(jié)構(gòu)與圖元差別較大,根據(jù)字符域特性實(shí)現(xiàn)字符進(jìn)一步篩選。采用字符域外接矩形來(lái)標(biāo)識(shí)字符的大小和位置。根據(jù)字
5、符域外接矩形相交來(lái)判定字符鄰近,再加上字符共線為判據(jù)來(lái)生成字符串域。圖樣中字符串多是附于圖形的,單義域可以很容易獲取方向,即可得圖形方向。利用共串字符外接矩形中心及所附圖形對(duì)字符進(jìn)行定向。然后將非水平字符域旋轉(zhuǎn)至水平,并重新進(jìn)行水平黑游程編碼,以單義域鄰接圖來(lái)表達(dá)字符的結(jié)構(gòu)特征,為后續(xù)識(shí)別作準(zhǔn)備。下面進(jìn)行詳細(xì)介紹。2 圖象的單義域鄰接圖描述在工程圖形中,既有圖元又有字符。圖元有多種,如線段、圓弧、圓、箭頭等,而且圖元多為相交。不同圖元需要用一種結(jié)構(gòu)來(lái)統(tǒng)一描述,然后通過(guò)分析其幾何與拓?fù)涮卣鞔_定類(lèi)型來(lái)進(jìn)行矢量化。交點(diǎn)信息對(duì)提取同一圖元及不同圖元之間拓?fù)潢P(guān)系具有重要指導(dǎo)意義。字符是由筆劃組成的,在提
6、取筆劃的基礎(chǔ)上進(jìn)行識(shí)別是一種很好的方法。但筆劃的提取難度較大?,F(xiàn)有對(duì)圖樣字符的識(shí)別多是處理數(shù)字和字母,較少涉及漢字,而我國(guó)圖紙均有大量漢字信息,還有數(shù)字及字母等。因此,需要建立一種模型,既能表達(dá)幾何數(shù)據(jù),還可以描述拓?fù)潢P(guān)系,便于各種特征提取?,F(xiàn)有圖文分離算法多是以象素為單元,進(jìn)行連通體生成。而連通體對(duì)后續(xù)識(shí)別貢獻(xiàn)較小,尤其是對(duì)圖元的識(shí)別。這就要求采用一種模型能夠統(tǒng)一描述圖形和文字的幾何與拓?fù)湫畔??;趩瘟x域鄰接圖的描述模型,可以統(tǒng)一描述圖元和文字,不但能提取圖元,還為字符識(shí)別的筆劃特征提取提供啟發(fā)。下面給出單義域鄰接圖的建立方法。2007-04-203 字符提取圖文分離算法已有多種,主要是基于
7、連通域。多數(shù)字符是一個(gè)連通域,數(shù)字、字母及漢字多是連通的,或是由幾個(gè)連通域構(gòu)成的,而且字符域具有許多與幾何圖元域不同的特征。在實(shí)際中多以象素八鄰域來(lái)進(jìn)行字符提取,且輔以多種字符屬性判斷,確認(rèn)是字符域而不是圖形域,并生成其最小外接矩形,用以標(biāo)識(shí)字符域的大小與位置。上述算法主要是分析連通域的特征來(lái)確定字符,在生成連通體時(shí),對(duì)于圖文粘連情況,勢(shì)必形成一體,需要后續(xù)分割或造成圖文誤分。這主要是因?yàn)樵谛纬蛇B通體時(shí)只是基于象素。如果能夠在確定筆劃域的基礎(chǔ)上進(jìn)行圖文分割及字符提取,則毫無(wú)疑問(wèn)會(huì)提高分割及提取效果。根據(jù)制圖規(guī)則,圖樣中的漢字、數(shù)字、字母的字體均有規(guī)定,在一定掃描率下,可以確定字符的范圍閾值,從
8、而確定字符筆劃的長(zhǎng)度,而字符筆劃線寬又是基本一致的,根據(jù)這兩個(gè)條件從單義域中選取字符筆劃域。鄰接的字符筆劃域?yàn)橐粋€(gè)字符,或是一個(gè)字符的部分筆劃。字符提取是以字符筆劃域?yàn)榛A(chǔ)的,遍歷鄰接圖搜索鄰接的字符筆劃域來(lái)完成。下面給出具體算法:(1)取出未訪問(wèn)字符筆劃域,設(shè)為當(dāng)前域,新建字符域及其外接矩形,將當(dāng)前域插入字符域。(2)如果當(dāng)前域無(wú)鄰接的可訪問(wèn)域,則轉(zhuǎn)到(4),否則,取當(dāng)前域鄰接的未訪問(wèn)字符筆劃域,設(shè)為當(dāng)前域,插入字符域,字符域外接矩形生長(zhǎng)。(3)返回(2)。(4)得一字符。字符結(jié)構(gòu)與圖元差別較大,根據(jù)字符域特性1我國(guó)圖紙多是中西文混合,字符識(shí)別的特征提取必須考慮漢字特點(diǎn),筆劃特征明顯。字符識(shí)
9、別的特征提取方法很多,如果能夠提取筆劃,則必定會(huì)大大提高識(shí)別效果8。采用單義域鄰接圖可以較好地提取、表達(dá)字符的幾何與拓?fù)湫畔?。圖4給出字符單義域表示實(shí)例。6 結(jié)束語(yǔ)本文采用單義域鄰接圖來(lái)表達(dá)圖象信息,在確定筆劃域的基礎(chǔ)上進(jìn)行圖文分割及字符提取,整體性很強(qiáng)。本研究算法已被應(yīng)用于我們開(kāi)發(fā)的工程圖紙掃描圖象識(shí)別與理解系統(tǒng)之中,字符提取效果較好。但仍需進(jìn)一步完善,研究各種復(fù)雜情況,以提高字符及其筆劃特征提取精度,尤其是研究各種結(jié)構(gòu)漢字,進(jìn)行以筆劃為基礎(chǔ)的中西文識(shí)別。參考文獻(xiàn)1 鄒榮金,蔡士杰,張福炎等. 字符粘連及字線相交的分割與識(shí)別方法. 軟件學(xué)報(bào),1999,10(3):241-2472 胡友蘭,黃
10、樹(shù)槐,常明. 工程圖中字符分離和標(biāo)注字符串生成技術(shù). 華中理工大學(xué)學(xué)報(bào),1997,25(3):30-333 陳勇,朱林,常明. 工程圖中粘連字符的提取與分割. 華中理工大學(xué)學(xué)報(bào),1996,24(4):23-264 S. Di Zenzo, L. Cinque, and S. Levialdi. Run-Based Algorithms for Binary Image Analysis and Processing. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996,18(1):83-895 王金鶴. 基于
11、條形域結(jié)構(gòu)的掃描圖樣識(shí)別理論與方法研究(博士學(xué)位論文). 大連,大連理工大學(xué),1999.66 江早,劉積仁,劉晉軍. 工程圖紙圖象圖文自動(dòng)分割工具SegChar. 軟件學(xué)報(bào),1999,10(6):589-5947 李偉青,彭群生. 一種新的字符提取和組合算法. 工程圖學(xué)學(xué)報(bào),1997,No.2-3:38-458 L. Y. Tseng and C. T. Chuang. An efficient Knowledge-Based Stroke Extraction Method for Multi-Font Chinese Characters. Pattern Recognition, 199
12、2, 25(12): 1445-1458An Algorithm of Extracting Characters from Scanned Image of Engineering Drawings Using Primitive Region Adjacency Graph Abstract It is a important issue how to separate text from scanned image of engineering drawings. The paper presents an algorithm to extract characters and thei
13、r features from images using Primitive Region Adjacency Graph. We can easily get character stroke regions from primitive regions. At start of a character stroke region, a character region grows by traversing the graph for adjacent character stroke regions. After analyzing features of character regio
14、ns, we can get real character regions. A string can be got through combining those near and collinear character regions. If rectangles inflated of two character regions are intersected, they are near. The direction of a string region is attained by the center points of enclosed rectangles of characters shared by the string and figures attached. Then characters not horizontal are rotated to horizontal. A Primitive Region Adjacency Graph can represent geometrical and topol
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 抗震支座鋼筋施工方案
- 果園道路安全施工方案
- 二零二五年度信用卡聯(lián)名信用卡與專(zhuān)屬客戶(hù)關(guān)懷服務(wù)合同
- 二零二五年度勞動(dòng)合同解除及競(jìng)業(yè)限制合同模板
- 二零二五年度旅行社與旅行社旅游意外險(xiǎn)合作合同
- 2025年度電子商務(wù)就業(yè)人員勞動(dòng)合同范本
- 二零二五年度股權(quán)激勵(lì)計(jì)劃股份占比變更合同范本
- 二零二五年度辦公用品代理銷(xiāo)售服務(wù)合同
- 2025年度股東合作分紅與信息安全保障協(xié)議
- 二零二五年度辦公室文員企業(yè)財(cái)務(wù)支持聘用合同
- 2023年湖南省普通高中學(xué)業(yè)水平考試數(shù)學(xué)版含答案
- 積極情緒的力量
- 自相矛盾課件(省一等獎(jiǎng))
- 小學(xué)數(shù)學(xué)思想方法(課件)
- 中學(xué)地理課堂教學(xué)設(shè)計(jì)課件
- 焊工安全技術(shù)操作規(guī)程
- 義務(wù)教育道德與法治課程標(biāo)準(zhǔn)(2022年版)
- 生理學(xué)第六章消化與吸收(供中等衛(wèi)生職業(yè)教育)課件
- 現(xiàn)代文學(xué)新詩(shī)課件
- 讀書(shū)書(shū)香校園課件
- 中醫(yī)基礎(chǔ)理論:經(jīng)絡(luò) 第二節(jié) 十二經(jīng)脈課件
評(píng)論
0/150
提交評(píng)論