脫機手寫體漢字識別綜述_第1頁
脫機手寫體漢字識別綜述_第2頁
脫機手寫體漢字識別綜述_第3頁
脫機手寫體漢字識別綜述_第4頁
脫機手寫體漢字識別綜述_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、脫機手寫體漢字識別綜述 摘 要: 脫機手寫體漢字識別是模式識別領(lǐng)域最具挑戰(zhàn)性的課題之一.本文分析了近年來脫機手寫體漢字識別的最新進展,討論了脫機手寫體漢字分割、特征提取和分類器設(shè)計等關(guān)鍵技術(shù)的各種主流方法,介紹了3種典型的漢字識別數(shù)據(jù)庫,并提出了脫機手寫體漢字識別的難點問題和今后發(fā)展的趨勢,為該領(lǐng)域的研究者指明研究方向,共同促進脫機手寫體漢字識別技術(shù)的發(fā)展.關(guān)鍵詞: 脫機手寫體漢字識別;字符分割;特征提取;分類器設(shè)計;1 引言 漢字識別是模式識別的一個重要分支,也是文字識別領(lǐng)域最為困難的問題之一,它涉及模式識別、圖像處理、統(tǒng)計理論等學(xué)科,呈現(xiàn)出綜合性的特點,在辦公和教學(xué)自動化、銀行票據(jù)自動識別

2、、郵政自動分揀、少數(shù)民族語言文字信息處理等技術(shù)領(lǐng)域,都有著重要的理論意義和實用價值1.漢字識別技術(shù)可分為印刷體和手寫體漢字識別兩大類.手寫體漢字識別又可分為聯(lián)機(on2line)和脫機(off2line)手寫體漢字識別.脫機手寫體漢字識別可分為受限和非受限兩種情況,如圖1所示.清華大學(xué)、中科院自動化所等著名高校和科研院所都致力于漢字識別的研究,以漢王科技股份有限公司為首的科技企業(yè)也推出了一系列成熟的商業(yè)產(chǎn)品2.目前,很多論文提出的脫機手寫體漢字識別的方法在不同的字符數(shù)據(jù)庫試驗中,取得了95%99%的識別率,但是對真正的手寫文檔的識別效果卻難以達到實際應(yīng)用的要求.目前脫機手寫體漢字識別仍處于實驗

3、室研究階段,成功的商業(yè)產(chǎn)品仍未發(fā)布24.本文著重討論脫機手寫體漢字識別的現(xiàn)狀和存在的問題,明確今后的發(fā)展趨勢,為脫機手寫體漢字識別領(lǐng)域的廣大研究人員提供參考和借鑒.2 手寫漢字字體特點 從識別的角度分析,漢字具有如下4個特點.2.1 漢字類別多漢字的個數(shù)很多,國家標(biāo)準(zhǔn)GB1803022000信息交換用漢字編碼字符集基本集的擴充收錄27484個漢字5.漢字個數(shù)在模式識別問題中體現(xiàn)為漢字的類別,因此漢字識別問題屬于超大規(guī)模數(shù)據(jù)集的模式識別問題.2.2 字體結(jié)構(gòu)復(fù)雜漢字基本筆畫(stroke)分為:橫、豎、撇、點、折6.筆畫的組合方式分為相離、相接和相交三種.特征結(jié)構(gòu)筆畫和相應(yīng)筆畫的組合方式在以筆畫

4、為特征的漢字識別中起到關(guān)鍵作用.漢字的組合方式包括獨體字和合體字.合體字又包括上下結(jié)構(gòu)、左右結(jié)構(gòu)、品字結(jié)構(gòu)等多種結(jié)構(gòu).以部件(radical)為基礎(chǔ)的手寫體漢字識別中,需根據(jù)漢字的組合方式對已提取的部件進行重新組合.2.3 字形變化多手寫體漢字字形總的來說可以分為:手寫印刷體(hand2printfashionscripts)、行書(fluentscripts)和草書(cursivescripts).對于相同的字形又因不同人書寫風(fēng)格的差異造成手寫漢字的變形.脫機手寫漢字在日常生活中以行書為主.對于行書和草書等筆跡相連的情況,字符分割是識別的關(guān)鍵環(huán)節(jié),如果出現(xiàn)分割錯誤,將影響后續(xù)識別結(jié)果的精度.

5、2.4 相似字多漢字集合中相似字較多,由于手寫體漢字變形的存在,使得手寫體中相似字的區(qū)分比印刷體要困難得多1.比如,在手寫體中的一點,可能會因為不當(dāng)?shù)念A(yù)處理而消失,從而造成字符的誤識.因此要求預(yù)處理方法能夠針對手寫漢字的特點,做到盡量不丟失筆畫信息.在識別過程中,對于相似的字體,可以采用更精確的細分類過程進行鑒別.在識別后處理階段,通常采用相似字符集作為候選字符集的主體.3 識別過程 對于脫機手寫體漢字識別而言,其識別過程通常如圖2所示.原始的手寫文稿通過掃描儀等OCR(OpticalCharac2terRecognition)設(shè)備,轉(zhuǎn)換成灰度圖像或者二值圖像,并進行預(yù)處理.字符特征分為統(tǒng)計和

6、結(jié)構(gòu)特征兩種模式.識別階段,根據(jù)提取的特征,選擇相應(yīng)的分類器及其組合形式進行模式分類.識別后處理根據(jù)前后文字的上下文關(guān)系選擇最合乎邏輯的字詞,能進一步提高識別準(zhǔn)確率,最后輸出分類結(jié)果.4 圖像預(yù)處理 很多圖像處理技術(shù)可以應(yīng)用于脫機手寫體漢字圖像,包括:(對灰度圖像)二值化、(對二值圖像)偽灰度化、去噪、骨架化、邊緣提取、傾斜矯正等.本節(jié)主要介紹字符圖像分割的關(guān)鍵技術(shù)和方法.基于切分的漢字識別方法是目前漢字識別的主流方法.漢字的分割通常首先對整篇文檔做行切分,再在行分割的基礎(chǔ)上進行單個字符的分割.圖3顯示了手寫體漢字分割處理的一般流程只有當(dāng)每一單個字符的圖像都能正確地從整個文本頁面圖像中分割出來

7、,才有可能進行正確的文字識別5.然而,手寫體漢字的書寫隨意性很大,相鄰漢字之間的位置關(guān)系也復(fù)雜多樣.手寫體漢字的書寫可能產(chǎn)生如下4種基本位置排列情況7,8,如圖4所示.(1) 正常:漢字各自分開獨立為整體;單個漢字中各個部件間的距離遠小于字間距離.(2) 粘連:漢字的某一筆在一點或幾點與相鄰漢字接觸;(3) 重疊:漢字間無接觸,但無法用垂直分割線分割;(4)過分:漢字左右部分間距過大或漢字內(nèi)部出現(xiàn)筆畫斷裂.真實手寫文檔上述情況往往同時出現(xiàn),這是造成無法正確分割漢字的主要因素,對這種手寫體漢字的切分是今后研究的重點和難點問題8.目前手寫體漢字分割廣泛采用的方法如下:4.1 投影法投影法(Proj

8、ectProfileHistogram,PPH)通過統(tǒng)計圖像中每一列(行)黑像素的個數(shù)得到投影直方圖.在直方圖中字符區(qū)域?qū)?yīng)于波峰,字符間隔對應(yīng)于波谷.投影法簡單,速度快,對印刷體漢字和手寫印刷體漢字的分割有相當(dāng)好的效果,但是會將粘連或重疊的字符識別為一個字符,出現(xiàn)弱分割現(xiàn)象;或?qū)⑦^分字符識別為若干字符,產(chǎn)生過分割現(xiàn)象.4.2 連通域分析法連通域分析法8(ConnectedComponentAnalysis,CCA)是在整個字符圖像中尋找相連的像素作為連通元,分析這些連通元本身的圖像屬性,判斷它們是否屬于同一個字符圖像,然后利用先驗知識對它們進行拆分和合并.連通域分析法對于重疊字符和傾斜字符能

9、夠取得理想的分割效果.但使用該方法時連通元容易過碎,使嚴(yán)重斷裂的字符圖像無法重新合并,真正粘連的字符也不能通過連通元切分開,需在后續(xù)的識別模塊中加入粘連字符模板或者通過其它方法進行再切分.4.3 Viterbi算法字符分割路徑可視為一個自上而下的m層單向圖,建立一個隱馬爾可夫模型(HiddenMarkovModel,HMM)來表示該有向圖8,9.圖中的每個節(jié)點對應(yīng)隱含狀態(tài),有向邊表示狀態(tài)的轉(zhuǎn)移方向,用節(jié)點軌跡組成觀測序列,其概率分布為分割路徑穿過結(jié)點的幾率大小,m是觀測序列的長度.采用Viterbi算法1012尋求分割路徑,相當(dāng)于在圖中沿著有向邊方向找出所有路徑中的最大概率者,組成順向首尾相接

10、的一串有向邊的集合,即得到非線性的分割路徑.Viterbi算法對于交錯、單處筆劃粘連等字符能夠得到較好的分割效果,但并未從根本上解決多種粘連方式的分割問題.4.4 基于識別的方法將字符分割與識別截然分開,分割將是手寫體漢字識別誤差的主要來源,基于識別的統(tǒng)計分割方法是漢字分割的新出路5.基于識別的方法首先將字符分成若干組成部分,并采用合并策略在多條候選的合并路徑中通過識別結(jié)果選擇一條最佳路徑13,14.基于識別的字符分割方法通過識別模塊來指導(dǎo)切分,識別結(jié)果對分割起著決定性的作用,分割是識別的副產(chǎn)品9,分割結(jié)果依賴于識別分類器的性能13.圖像預(yù)處理會給字符圖像帶來干擾或形變,引入新的誤差.改進的二

11、值化、細線化、字符歸一化、字符分割等圖像預(yù)處理算法1517,能夠減少預(yù)處理帶來的字體變形等不利影響,但不能從根本上解決預(yù)處理帶來的干擾.由于目前尚不能完全實現(xiàn)字符的正確分割,所以,對于基于分割的脫機手寫體漢字識別,字符分割的精度直接決定后續(xù)漢字識別的精度,是手寫體識別系統(tǒng)精度的瓶頸.文獻18提出了一種無分割的手寫體漢字識別方法,并通過實驗證明了該方法的可行性.這種方法實質(zhì)上是對文本進行行分割,再在行分割的基礎(chǔ)上提取字符特征,而非精確到單個字符的分割.行分割相對字符分割簡單,計算量小,引入誤差更小.無分割脫機手寫體漢字識別更符合人類識別字符的習(xí)慣,將是未來漢字手寫體識別的新趨勢.5 特征提取 手

12、寫體漢字識別特征提取方法可分為基于結(jié)構(gòu)特征、統(tǒng)計特征和將結(jié)構(gòu)特征和統(tǒng)計特征相融合的方法.5.1 結(jié)構(gòu)特征結(jié)構(gòu)特征是漢字識別研究初期的主流方法,需要先抽取結(jié)構(gòu)基本單元,再由這些基本單元構(gòu)成來描述漢字特征.結(jié)構(gòu)特征比較直觀,符合人們書寫漢字的過程,能較好地反映漢字的結(jié)構(gòu)特性;缺點是對結(jié)構(gòu)基本單元提取困難,各結(jié)構(gòu)元素之間的拓撲關(guān)系復(fù)雜,抗干擾性較差.同時,由于漢字的結(jié)構(gòu)特征通常都要利用細化算法提取,不僅計算量大而且會出現(xiàn)形變問題,給漢字識別帶來新的噪聲影響.5.1.1 基于特征點特征點是反映漢字形體特征整體分布狀況的關(guān)鍵點.通常對大多數(shù)結(jié)構(gòu)穩(wěn)定的漢字,一旦獲得了正確的特征點集,就可能順利地按一定的策

13、略和步驟(連接筆劃、結(jié)構(gòu)匹配等)將漢字形體劃歸為正確的字類.根據(jù)不同的研究思路,研究人員對特征點的定義也不盡相同。5.1.2 基于筆畫一個漢字區(qū)分于其它漢字的主要特征就是筆畫及其所在的位置,“橫”、“豎”、“撇”、“捺”四種筆畫的數(shù)量及其相對位置唯一地確定了一個漢字22.基于筆畫的特征提取方法將字符分解成筆畫,并根據(jù)筆畫的數(shù)量、順序和位置進行識別2326.“橫”、“豎”、“撇”、“捺”是構(gòu)成漢字的四種基本筆畫,所占比重大,并且提取容易,因而在識別系統(tǒng)中常采用它們作為識別特征.5.1.3 基于部件部件是一個居于筆畫和單字之間的中間層次,相當(dāng)于西文的字母.把若干個部件按照一定規(guī)則加以組合就可構(gòu)成方

14、塊漢字.我國語言文字工作委員會對GB130001字符集中的20902個漢字逐個進行拆分、歸納與統(tǒng)計后,制定漢字基礎(chǔ)部件表,共有560個可供獨立使用的部件.這560種部件并不都適用于漢字識別,通常從中選用若干部件作為識別特征27.文獻28提出的基于部件的漢字分解示意圖,如圖5所示.圖中的4個漢字具有相同的3個部件,可根據(jù)最后一級分解部件來進行識別5.2 統(tǒng)計特征統(tǒng)計特征一般針對單個漢字,即整字(Holistic),提取方便,抗干擾能力強.文獻5指出,漢字結(jié)構(gòu)的復(fù)雜,在統(tǒng)計識別方法中,不僅不是缺點,而且使得漢字具有比其他西方文字具有更強的鑒別能力,不僅可以識別成千上萬個超多類漢字,而且具有高抗干擾

15、和高魯棒識別性能,這是結(jié)構(gòu)分析方法無法達到的.統(tǒng)計特征的缺點是沒有充分利用漢字的結(jié)構(gòu)信息.本節(jié)針對脫機手寫體漢字主流的統(tǒng)計特征方法進行介紹.5.2.1 彈性網(wǎng)格特征彈性網(wǎng)格特征(ElasticMesh,EM)用一種彈性網(wǎng)格將漢字圖像分塊,對每一塊內(nèi)的像素進行變換或者分析后產(chǎn)生特征向量2932.對字符進行彈性網(wǎng)絡(luò)的劃分能有效地反映漢字的結(jié)構(gòu)細節(jié)和字符的共同特征,避免手寫體漢字中因個人書寫風(fēng)格差異引起的字體變形和因數(shù)據(jù)采集、非線性變換等因素導(dǎo)致的樣本變形等問題.但該方法各個塊之間互不關(guān)聯(lián),不能體現(xiàn)漢字的整體結(jié)構(gòu)信息.5.2.2 方向線素特征方向線素特征(DirectionalElementFeat

16、ure,DEF)首先抽取漢字的輪廓,并考察輪廓點像素的8鄰域內(nèi)的黑像素點在水平、垂直、+45°、-45°四個方向上的分布情況.如有符合四個方向上的任一種情況,則該像素對應(yīng)方向上的方向線素值加一個常數(shù)3335.方向線素特征同時反映了字符的結(jié)構(gòu)和統(tǒng)計特征,比較全面地代表圖像信息,是漢字識別領(lǐng)域一種成熟的特征提取方法.但方向線素特征的特征維數(shù)多,在進行特征匹配之前要對特征向量進行降維處理,增加了識別算法的復(fù)雜度.5.2.3 Gabor特征Gabor濾波器是窄帶帶通濾波器,有明顯的方向選擇和頻率選擇特性,能在空域和時域同時達到最優(yōu)聯(lián)合分辨率31,因此Gabor濾波器在脫機手寫體漢字

17、識別中提取特征方面得到了廣泛應(yīng)用3638.Gabor變換提取漢字特征充分反映了筆畫結(jié)構(gòu)在空間上的局域性,筆畫的方向性以及在頻域上筆畫與干擾的可分性等重要特性,提高了識別算法的魯棒性和對細節(jié)的分辨率.Gabor濾波器缺點在于特征提取時間較長且提取的特征數(shù)據(jù)存在冗余性,需通過主成分分析等方法進行壓縮.5.2.4 矩特征脫機手寫體漢字識別中采用Hu不變矩、Legendre矩、Zernike矩、Krawtchouk矩、小波矩3946.Hu矩為非正交矩,含有大量冗余信息.正交矩對模式具有位移、旋轉(zhuǎn)和變換不變性,在應(yīng)用中最具代表性的是Legendre矩和Zernike矩.CHO2HUAKTHE和ROLAN

18、DT.CHIN47對Legendre矩和Zernike矩在噪聲敏感性、信息冗余和圖像表示能力三方面進行了實驗對比和理論分析,結(jié)論表明Zernike矩的效果在各方面都優(yōu)于Legendre矩.Zernike矩可以任意構(gòu)造高價矩,因而包含更全面的圖像信息,所以Zernike矩識別效果更好.與Zernike矩和Legendre矩等連續(xù)正交矩特征相比,Krawtchouk矩是數(shù)字域的離散正交矩,不存在數(shù)字化過程中所帶來的近似誤差問題,在計算過程中不需要進行坐標(biāo)轉(zhuǎn)換,而且構(gòu)造簡單,更加適合用來描述數(shù)字圖像46.小波矩能同時得到圖像的全局特征和局部特征,因而在識別相似形狀的物體時有更高的識別率48,49.對

19、于手寫體漢字識別,單獨運用結(jié)構(gòu)特征和統(tǒng)計特征中的任何一種單一的特征,必然存在識別的盲區(qū).將漢字結(jié)構(gòu)特征和統(tǒng)計特征等多種特征相結(jié)合,可以實現(xiàn)各種特征的優(yōu)勢互補,能夠更全面地反映漢字的特征.特征融合后的脫機手寫體漢字通常具有多維的特征,增加了識別算法的計算復(fù)雜度,因此普遍采用PCA,LDA和FDA等方法5052對特征向量進行降維處理后再送入分類器分類.多特征融合的方法成為手寫體漢字識別特征提取的主流方法5356,是未來發(fā)展的必然趨勢.如果能夠借鑒相關(guān)領(lǐng)域的研究成果,引入更適于手寫體漢字的特征描述方法,特別是能夠直接從原始字符圖像提取的特征,將簡化圖像預(yù)處理步驟,減少因預(yù)處理帶來的誤差,進一步提高脫

20、機手寫體漢字的識別精度.6 分類器設(shè)計 手寫體漢字識別的對象是幾千個(種)漢字,脫機手寫體漢字識別常用的分類器可分為單分類器和多分類器集成兩種.多分類器集成的方法是目前的主流技術(shù),同時也是未來的發(fā)展趨勢.6.1 單分類器6.1.1 改進的二次判別函數(shù)改進的二次判別函數(shù)(ModifiedQuadraticDiscrimina2tionFunction,MQDF)分類器以一個Gauss分布去描述每個類的樣本分布,直接采用常數(shù)代替偏小特征值,有效地緩解了小特征值估計誤差所帶來的系統(tǒng)性能下降5.基于統(tǒng)計模型的MQDF分類器便于設(shè)計與實現(xiàn),且具有很好的魯棒性和較高的識別準(zhǔn)確率,因此在脫機手寫體漢字識別中

21、得到廣泛的應(yīng)用57,58.6.1.2 支持向量機支持向量機(SupportVectorMachine,SVM)根據(jù)Vap2nik提出的結(jié)構(gòu)風(fēng)險最小化原理,通過最大化分類間隔,使學(xué)習(xí)機的泛化性能盡量提高,其優(yōu)越性在理論和實驗方面都得到了深入地研究和驗證.SVM是一個兩類問題的判別方法,在對多類問題實現(xiàn)分類時,采用一對一、一對多、SVM決策樹和有向無環(huán)圖支持向量等分解策略,因此SVM的計算復(fù)雜度和時間復(fù)雜度較大,一般不用于直接分類52.針對這個問題,目前研究者15,5963提出了如下解決方法:(1)采用SVM作細分類;(2)將大規(guī)模字符集劃分成小的子集;(3)采用多種SVM算法的改進形式.引入各種

22、改進的快速SVM多分類算法6466到脫機手寫體漢字識別領(lǐng)域中,也能夠提高識別的速度.6.1.3 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)具有并行處理、自組織、自適應(yīng)和學(xué)習(xí)能力,被廣泛的應(yīng)用于脫機手寫體漢字識別領(lǐng)域,包括:BP網(wǎng)絡(luò)67、多層感知器網(wǎng)絡(luò)、模塊徑向基神經(jīng)網(wǎng)絡(luò)50、自適應(yīng)振蕩神經(jīng)網(wǎng)絡(luò)68,69、Hopfield網(wǎng)絡(luò)、自組織特征映射網(wǎng)絡(luò)等1.ANN用于大字符集分類時,訓(xùn)練時間和分類時間太長,一般不用于直接分類52.文獻70針對這個問題,提出了在預(yù)分類結(jié)果的基礎(chǔ)上,采用簡化的樣本集對ANN進行訓(xùn)練的策略,在不降低識別效果的基礎(chǔ)上,大大縮短了ANN在

23、大樣本集上的收斂時間.6.1.4 隱馬爾科夫模型常用的統(tǒng)計語言模型是建立在將文本語言看作為字或詞的不同階的馬爾可夫鏈的基礎(chǔ)上,語言相關(guān)模型的參數(shù)可以通過大型語料庫的學(xué)習(xí)而獲得.語言模型和單字識別結(jié)果的可信度結(jié)合,利用Viterbi算法,獲得在考慮上下文信息的語言模型條件下的最優(yōu)文本識別結(jié)果.由于實際資源的限制,實際系統(tǒng)中往往采用字或詞的一階或二階馬爾科夫模型71,72.隱馬爾科夫模型適合于大規(guī)模分類,缺點是尚缺乏公認權(quán)威的語言模型.目前廣泛應(yīng)用的是對某種特定領(lǐng)域進行小規(guī)模的建模,如郵政地址系統(tǒng),銀行手寫支票金額的模型.6.2 多分類器集成多分類器集成算法通過特定的組合方式,能夠?qū)畏诸惼魅¢L補

24、短,發(fā)揮各個組成分類器的最大優(yōu)勢.多分類器集成算法中每一個組成的分類器稱為元分類器,可以采用611節(jié)介紹的任何一種單分類器的形式.集成算法根據(jù)其結(jié)構(gòu)可分為串行和并行結(jié)構(gòu)兩類.6.2.1 串行結(jié)構(gòu)串行結(jié)構(gòu)的集成算法73是根據(jù)漢字識別特點對整個識別過程進行分級,或分階段處理.前一級的輸出結(jié)果是后一級的輸入,后一級識別是對前一級識別的細化和延續(xù),實現(xiàn)多特征多方法的互補以及多識別級間信息的利用,以進一步提高漢字識別率.6.2.2 并行結(jié)構(gòu)并行結(jié)構(gòu)的集成算法首先構(gòu)造多個分類器,這些分類器基于不同特征、不同分類器形式或是不同訓(xùn)練樣本集合,每個分類器獨立訓(xùn)練,相互之間沒有影響.針對各分類器的輸出結(jié)果,采取一

25、定的規(guī)則進行融合或表決,得到最終的輸出結(jié)果.常用的表決策略有投票法、D2S(Dempster2Shafer)法、行為知識空間法、綜合集成法、基于置信度的神經(jīng)網(wǎng)絡(luò)集成法等1.從模式識別的觀點來說,漢字識別是一種超多類的模式集合,已有的適用于模式類別較少的識別方法和理論已不完全適用27.應(yīng)選擇針對大規(guī)模數(shù)據(jù)集的分類方法或者對漢字類別進行合理的劃分,以適應(yīng)目前的分類方法.采用結(jié)合了串、并行結(jié)構(gòu)的混合結(jié)構(gòu)多分類器集成對脫機手寫體漢字進行分類是未來的發(fā)展趨勢.串行分類器具有分類遞進,后級分類器能夠彌補前一級識別的不足,實現(xiàn)細節(jié)上的互補的優(yōu)點;并行分類器能夠在全局的分類器輸出結(jié)果間取得整體上的平衡.因此,

26、采用混合結(jié)構(gòu)的多分類器集成策略,能夠?qū)崿F(xiàn)細節(jié)與整體上的雙保險,從而提高脫機手寫體漢字識別的精度.7 數(shù)據(jù)庫 建立手寫漢字數(shù)據(jù)庫是研究和開發(fā)手寫漢字識別技術(shù)的基礎(chǔ).目前國內(nèi)外一些研究團體已建立并公開了大規(guī)模的字符識別數(shù)據(jù)庫.脫機手寫體漢字識別的結(jié)果在這些數(shù)據(jù)庫上實驗,更有利于公正客觀地對比實驗結(jié)果,促進漢字識別技術(shù)研究的深入與發(fā)展.目前,具有典型代表性的數(shù)據(jù)庫有以下幾種.7.1 ETL字符數(shù)據(jù)庫ETL字符數(shù)據(jù)庫由日本電子工業(yè)發(fā)展協(xié)會(JapanElectronicIndustryDevelopmentAssociation,現(xiàn)在的Japanelectronicsandinformationtec

27、hnologyindustriesassociation)、大學(xué)和研究機構(gòu)聯(lián)合協(xié)助的電工技術(shù)實驗室(Elec2trotechnicalLaboratory,現(xiàn)在的Tsukubacentral2,nationalinstituteofadvancedindustrialscienceandtechnology,AIST)收集74.ETL數(shù)據(jù)庫包含了120萬手寫和機器印刷字符圖片,涵蓋了用于識別研究的日文,中文,拉丁文和數(shù)字字符.數(shù)據(jù)庫圖片分別有60×60,64×63,72×76,和128×127不同像素規(guī)格.字符圖片文件包含不止一個記錄,每個記錄有一個字符圖片和對應(yīng)的ID信息的編碼.該數(shù)據(jù)庫不包含書寫者信息.圖6是ETL8中的字符樣本24和ETL9B數(shù)據(jù)庫中的部分字符56.7.2 HCL2000數(shù)據(jù)庫HCL2000數(shù)據(jù)庫75是由北京郵電大學(xué)信息工程系在國家863計劃的資助下研發(fā)的一個大規(guī)模脫機手寫漢字數(shù)據(jù)庫系統(tǒng).該數(shù)據(jù)庫面向一級漢字,包含了3755×1300個手寫漢字樣本和1300個書寫者的個人信息,可實現(xiàn)漢字樣本信息和書寫者信息間的互查,為研究各類人員的文字書寫特征及影響識別率的相關(guān)因素提供了方便.每個漢字樣本采用64×64個二值像素描述

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論