VC+手寫體數(shù)字識別_第1頁
VC+手寫體數(shù)字識別_第2頁
VC+手寫體數(shù)字識別_第3頁
VC+手寫體數(shù)字識別_第4頁
VC+手寫體數(shù)字識別_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、手寫體數(shù)字識別 第一章 緒論41.1課題研究的意義41.2國內(nèi)外究動(dòng)態(tài)目前水平41.3手寫體數(shù)字識別簡介51.4識別的技術(shù)難點(diǎn)51.5主要研究工作6第二章 手寫體數(shù)字識別基本過程:62.1手寫體數(shù)字識別系統(tǒng)結(jié)構(gòu)62.2分類器設(shè)計(jì)72.2.1 特征空間優(yōu)化設(shè)計(jì)問題72.2.2分類器設(shè)計(jì)準(zhǔn)則82.2.3分類器設(shè)計(jì)基本方法93.4 判別函數(shù)93.5訓(xùn)練與學(xué)習(xí)10第三章 貝葉斯方法應(yīng)用于手寫體數(shù)字識別113.1貝葉斯由來113.2貝葉斯公式113.3貝葉斯公式Bayes決策理論:123.4貝葉斯應(yīng)用于的手寫體數(shù)字理論部分:163.4.1.特征描述:163.4.2最小錯(cuò)誤分類器進(jìn)行判別分類17第四章 手

2、寫體數(shù)字識別的設(shè)計(jì)流程及功能的具體實(shí)現(xiàn)184.1 手寫體數(shù)字識別的流程圖184.2具體功能實(shí)現(xiàn)方法如下:19結(jié)束語25致謝詞25參考文獻(xiàn)26附錄27摘要數(shù)字識別就是通過計(jì)算機(jī)用數(shù)學(xué)技術(shù)方法來研究模式的自動(dòng)處理和識別。隨著計(jì)算機(jī)技術(shù)的發(fā)展,人類對模式識別技術(shù)提出了更高的要求。特別是對于大量己有的印刷資料和手稿,計(jì)算機(jī)自動(dòng)識別輸入己成為必須研究的課題,所以數(shù)字識別在文獻(xiàn)檢索、辦公自動(dòng)化、郵政系統(tǒng)、銀行票據(jù)處理等方面有著廣闊的應(yīng)用前景。對手寫數(shù)字進(jìn)行識別,首先將漢字圖像進(jìn)行處理,抽取主要表達(dá)特征并將特征與數(shù)字的代碼存儲在計(jì)算機(jī)中,這一過程叫做“訓(xùn)練”。識別過程就是將輸入的數(shù)字圖像經(jīng)處理后與計(jì)算機(jī)中的

3、所有字進(jìn)行比較,找出最相近的字就是識別結(jié)果。本文主要介紹了數(shù)字識別的基本原理和手寫的10個(gè)數(shù)字字符的識別系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)過程。第一章介紹了數(shù)字識別學(xué)科的發(fā)展?fàn)顩r。第二章手寫體數(shù)字識別基本過程。第三章貝葉斯方法應(yīng)用于手寫體數(shù)字識別。第四章手寫體數(shù)字識別的設(shè)計(jì)流程及功能的具體實(shí)現(xiàn),并對實(shí)驗(yàn)結(jié)果做出簡單的分析。關(guān)鍵詞:手寫體數(shù)字識別 分類器 貝葉斯 vc+6.0IABSTRACTThe digital recognition researches how to treat with and recognize pattern automatically through computer with ma

4、th arithmetic. Along with the development of computer technology, human need more advanced digital recognition technology. Especially for large numbers of printed data and manuscript, the automatic recognition and input of Chinese characters becomes a stringent task, therefore the digital recognitio

5、n will have a broad application prospect on literature retrieval, office automation, postal service system, bank bill processing.In order to recognize digital characters, the first task we have to do is feature extraction of a map, after that we have to store the feature in the computer. This proces

6、s is called the training. This process compares the hand-written digitals feature and the stored features in the computer.This paper mainly introduces the basic principles of hand-written digital recognition and the design、 realization process of ten hand-written digital recognition system. The firs

7、t chapter mainly introduces the concepts related to the digital recognition and this disciplines development condition. The second chapter introduces the digital recognitions process. The third chapter mainly introduces digital recognition with Bayes. The fourth chapter introduces design process and

8、 functions carried out, the experimental result and the simple analysis.Kewords: Hand-Written Digital Rocognition Classification Bayes vc+6.0 第一章 緒論1.1課題研究的意義手寫體數(shù)字識別的研究有很大的實(shí)用價(jià)值,例如在郵政編碼、稅務(wù)報(bào)表、統(tǒng)計(jì)報(bào)表財(cái)務(wù)報(bào)表、銀行票據(jù)、海關(guān)等需要處理大量字符信息錄入的場合,在很大程度上要依賴數(shù)據(jù)信息的輸入。隨著人們生活水平的提高,經(jīng)濟(jì)活動(dòng)的發(fā)展,通信聯(lián)系的需求使信函的互換量大幅度增加,我國函件業(yè)務(wù)量也在不斷增長,預(yù)計(jì)到201

9、0年,一些大城市的中心郵局每天處理量將高達(dá)幾百萬件,業(yè)務(wù)量的急劇上升使得郵件的分揀自動(dòng)化成為大勢所趨。在郵件的自動(dòng)分揀中,手寫數(shù)字識別(OCR)往往與光學(xué)條碼識別(OBR-Optical Bar Reading),人工輔助識別等手段相結(jié)合,完成郵政編碼的閱讀。目前使用量最大的OVCS分揀機(jī)的性能指標(biāo):OCR拒分率30%,OCR分揀差錯(cuò)率1.1%。如果能通過手寫數(shù)字識別技術(shù)實(shí)現(xiàn)信息的自動(dòng)錄入,將會促進(jìn)這一事業(yè)的進(jìn)展。手寫體數(shù)字識別的研究不僅有很大的應(yīng)用價(jià)值,而且有重要的理論價(jià)值,由于數(shù)字別的類別較小,有助于作深入分析及驗(yàn)證一些新的理論。例如人工神經(jīng)網(wǎng)絡(luò),相當(dāng)一部分的ANN模型和算法都以手寫數(shù)字識

10、別作為具體的實(shí)驗(yàn)平臺??梢哉f,手寫體數(shù)字識別的研究將有助于模式識別、機(jī)器理解、機(jī)器人技術(shù)的發(fā)展,對今后研究如何更好地進(jìn)行人機(jī)交互,使計(jì)算機(jī)具有和人一樣的能力有很大的理論價(jià)值。1.2國內(nèi)外究動(dòng)態(tài)目前水平 手寫體字符的識別在很早以前就開始了。國外從20世紀(jì)70年代初研制成“光學(xué)字符別機(jī)(OCR)”,能夠自動(dòng)識別印刷體的英文文字及阿拉伯?dāng)?shù)字。20世紀(jì)70年代中期出現(xiàn)了能識別手寫數(shù)字的OCR。在20世紀(jì)70年代末和80年代初又出現(xiàn)了能識別手寫英文母的OCR。日本于20世紀(jì)80年代初研制了印刷體漢字識別樣機(jī),這是最早的漢字OCR。我國從20世紀(jì)70年代就開始進(jìn)行了字符(英文字母和數(shù)字)識別的研究,20世

11、紀(jì)80年代己進(jìn)入實(shí)用階段,主要用于郵政信函自動(dòng)分檢,人口普查和生產(chǎn)統(tǒng)計(jì)報(bào)表。手寫體數(shù)字識別是手寫字符識別的一個(gè)重要分支,它又分為在線手寫體識別和離線寫體識別。在線手寫體識別通過記錄文字圖像抬筆、落筆、筆跡上各像素的空間位,以及各筆段之間的時(shí)間關(guān)系等信息,對這些信息進(jìn)行處理,在處理過程中,系統(tǒng)以定的規(guī)則提取信息特征,再由識別模塊將信息特征與識別庫的特征進(jìn)行比較、加以識別,最后轉(zhuǎn)化為計(jì)算機(jī)所使用的文字代碼。在線手寫體識別的一個(gè)重要的不足就是要求寫入者必須在指定的設(shè)備上書寫。而離線手寫體識別則是通過使用任何一種圖像采集設(shè)備,如CCD、掃描儀、數(shù)碼相機(jī)等將手寫者已寫好的文字作為圖像輸入到計(jì)算機(jī)中,然后

12、由計(jì)算機(jī)去識別。在過去的數(shù)十年中,研究者們提出了許許多多的識別方法。按使用的特征不同,這方法主要可以分為三類:基于結(jié)構(gòu)特征的方法、基于統(tǒng)計(jì)特征的方法和人工神經(jīng)網(wǎng)結(jié)構(gòu)特征通常包括圓、端點(diǎn)、交叉點(diǎn)、筆劃、輪廓等,對于一個(gè)復(fù)雜的模式,采用分解的方法將其劃分為若干較簡單的子模式乃至基元,通過對基元和子模式識別的綜合建立在統(tǒng)計(jì)數(shù)學(xué),特別是貝葉斯決策理論基礎(chǔ)上,通過模式緊密性、距離和相似性度量等感念和假定,形成了統(tǒng)計(jì)決策方法的一系列結(jié)論。人工神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)和聯(lián)想功能,在字符識別中主要采用基于BP算法的多層感知機(jī)及多層卷積神經(jīng)網(wǎng)絡(luò);基于正規(guī)化方法構(gòu)建的徑向基函數(shù)網(wǎng)絡(luò);以及具有“拓?fù)浔3帧碧匦缘淖越M織特征映

13、射(包括學(xué)習(xí)矢量量化LvQ)等。一般來說,各類特征各有優(yōu)勢。例如,使用統(tǒng)計(jì)特征的分類器易于訓(xùn)練,而且對于使用統(tǒng)計(jì)特征的分類器,在給定訓(xùn)練集上能夠得到相對較高識別率;而結(jié)構(gòu)特征的主要優(yōu)點(diǎn)之一是能描述字符的結(jié)構(gòu),在識別過程中能有效的結(jié)合幾何和結(jié)構(gòu)的知識,因此能夠得到可靠性較高的識別結(jié)果。神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、容錯(cuò)性、分類能力強(qiáng)和并行處理等特點(diǎn)。手寫體識別目前的研究方向是:特征提取問題,這個(gè)方面一是在現(xiàn)有基礎(chǔ)上進(jìn)行組合,另一個(gè)是引入新的特征技術(shù);分類器研究,一是多分類器繼集成,另一個(gè)方向是研究新的分類器。、1.3手寫體數(shù)字識別簡介 手寫體數(shù)字識別是指利用電子計(jì)算機(jī)自動(dòng)辨認(rèn)手寫體阿拉伯?dāng)?shù)字的一種技術(shù),它

14、屬于光學(xué)字符識別(OCR)的范疇手寫體數(shù)字識別又分為聯(lián)機(jī)識別(on-line)和脫機(jī)識別(off-line)兩種。其中,最為困難的就是脫機(jī)手寫字符的識別。主要是因?yàn)槊摍C(jī)手寫體識別過程無法獲得字符書寫時(shí)的一些動(dòng)態(tài)信息。然而,手寫體數(shù)字識別技術(shù)的研究是非常有價(jià)值的,它具有廣闊的應(yīng)用前景。手寫體數(shù)字識別系統(tǒng)性能的評價(jià)方法 作為一個(gè)識別系統(tǒng),我們最終要用某些參數(shù)來評價(jià)其性能的高低,手寫數(shù)字識別也不例外。評價(jià)的指標(biāo)除了借用一般文字識別里的通常做法外,還要根據(jù)數(shù)字識別的特點(diǎn)進(jìn)行修改和補(bǔ)充。對一個(gè)手寫數(shù)字識別系統(tǒng),可以用兩方面的指標(biāo)表征系統(tǒng)的性能:識別率 A 正確識別樣本數(shù)/全部樣本數(shù)*100%誤識率 S

15、誤識樣本/全部樣本數(shù) *100%兩者的關(guān)系 A+S=100%數(shù)字識別的應(yīng)用中,人們往往很關(guān)心的一個(gè)指標(biāo)是“識別精度”,即在所有識別的字符中,正確識別的比例,表示如下:識別精度:P=A/(A+S)*100%一個(gè)理想的系統(tǒng)應(yīng)是S盡量小,然而A盡可能大。1.4識別的技術(shù)難點(diǎn)手寫體數(shù)字識別的研究是一項(xiàng)具有相當(dāng)難度的工作,此項(xiàng)工作的難點(diǎn)主要在于以下幾方面:1.阿拉伯?dāng)?shù)字的字形信息量很小,不同數(shù)字寫法字形相差不大,使得準(zhǔn)確區(qū)分某些數(shù)字相當(dāng)困難。2.要識別的數(shù)字雖然只有十種,而且筆劃簡單,但同一數(shù)字寫法千差萬別,不同的人寫法也不盡相同,很難完全做到兼顧各種寫法的極高識別率的通用性數(shù)字識別系統(tǒng)。3.在實(shí)際應(yīng)用

16、中,對數(shù)字的單字識別正確率的要求要比文字要苛刻得多。這是因?yàn)槲淖钟猩舷挛年P(guān)系,但數(shù)字沒有上下文關(guān)系,每個(gè)單字的識別都至關(guān)重要,而且數(shù)字識別經(jīng)常涉及的財(cái)會、金融領(lǐng)域,其嚴(yán)格性更是不言而喻的。因此,用戶的要求不是單純的高正確率,更重要的是極低的誤識率。4.大批量數(shù)據(jù)處理對系統(tǒng)速度又有相當(dāng)?shù)囊螅S多理論上很完美但速度過低的方法也是行不通的。綜上所述,研究高性能的手寫數(shù)字識別算法是一個(gè)有相當(dāng)?shù)奶魬?zhàn)性的課題,同樣的把高效的手寫體數(shù)字識別算法應(yīng)用于實(shí)際工作之中也是具有重要意義的。1.5主要研究工作 本論文主要介紹了手寫體數(shù)字識別的一些基本知識和發(fā)展概況,然后介紹了貝葉斯理論分類器原理,及貝葉斯分類器應(yīng)用

17、關(guān)于手寫體數(shù)字識別的設(shè)計(jì)原理,最后本文敘述了利用貝葉斯原理識別數(shù)字的開發(fā)過程。第二章 手寫體數(shù)字識別基本過程:2.1手寫體數(shù)字識別系統(tǒng)結(jié)構(gòu)一個(gè)典型的手寫體數(shù)字識別系統(tǒng)如圖2-1所示,由數(shù)據(jù)獲取、預(yù)處理、特征提取、分類決策及分類器設(shè)計(jì)五部分組成,一般分為上下兩部分。上半部分完成未知類別模式的分類;下半部分屬于設(shè)計(jì)分類器的訓(xùn)練過程,利用樣品進(jìn)行訓(xùn)練,確定分類器的具體參數(shù),完成分類器的設(shè)計(jì)。而分類決策在識別過程中起作用,對待識別的樣品進(jìn)行分類決策。未知類別模式的分類獲取數(shù)據(jù)預(yù)處理特征提取分類決策分類結(jié)果訓(xùn)練樣本輸入預(yù)處理特征選擇確定判別函數(shù)改進(jìn)判別函數(shù)誤差檢驗(yàn)分類器設(shè)計(jì) 圖2-1 手寫體數(shù)字識別系統(tǒng)

18、結(jié)構(gòu)數(shù)字識別組成單元功能介紹如下。1.數(shù)據(jù)獲取。用計(jì)算機(jī)可以運(yùn)算的符號來表示所研究的對象,一般獲取的數(shù)據(jù)類型有以下幾種。二維圖像:文字、指紋、臉譜照片等。一維波形:腦電圖、心電圖、季節(jié)震動(dòng)波形等。物理參量和邏輯值:體溫、化驗(yàn)數(shù)據(jù)、參量正確與否的描述。2.預(yù)處理。對輸入測量儀器或其他因素所造成的退化現(xiàn)象進(jìn)行復(fù)原、去噪聲、提取有用信息。3.特征提取。對原始數(shù)據(jù)進(jìn)行變換,得到最能反映分類本質(zhì)的特征。將維數(shù)較高的測量空間轉(zhuǎn)變?yōu)榫S數(shù)較低的特征空間。4.分類決策。在特征空間中用模式識別方法把被識別的對象歸為某一類。5.分類器設(shè)計(jì)?;咀龇ㄊ鞘占瘶悠酚?xùn)練集,在此基礎(chǔ)上確定判別函數(shù),改進(jìn)判別函數(shù)和誤差檢驗(yàn)。2

19、.2分類器設(shè)計(jì)2.2.1 特征空間優(yōu)化設(shè)計(jì)問題確定合適的特征空間是設(shè)計(jì)模式識別系統(tǒng)一個(gè)十分重要,甚至最為關(guān)鍵的問題。如果所選用的特征空間能使同類物體分布具有緊致性,不同類別物體彼此分開,即各類樣品能分布在該特征空間中彼此分割開的區(qū)域內(nèi),這就為分類器設(shè)計(jì)提供良好的基礎(chǔ)。反之,如果不同類別的樣品在該特征空間中混雜在一起,再好的設(shè)計(jì)方法也無法提高分類器的準(zhǔn)確性。特征空間的設(shè)計(jì)往往是一個(gè)逐步優(yōu)化的過程,設(shè)計(jì)的初期階段,選擇的特征空間維數(shù)較高,需要對它進(jìn)行改造,改造的目的在于提高某方面的性能,因此又稱為特征的優(yōu)化問題。一般說要對初始的特征空間進(jìn)行優(yōu)化就是為了降維,即將初始的高維特征向量改成一個(gè)維數(shù)較低的

20、空間。優(yōu)化后的特征空間應(yīng)該更有利于后續(xù)的分類計(jì)算。對特征空間進(jìn)行優(yōu)化有兩種基本方法,一是特征選擇,另一種是特征的優(yōu)化組合。1、特征選擇在模式識別中特征提取是首先要解決的問題。為了對樣品進(jìn)行準(zhǔn)確的識別,需要進(jìn)行特征選擇或特征壓縮。特征選擇指對原始數(shù)據(jù)進(jìn)行抽取,抽取那些對區(qū)別不同類別最為重要的特征,而舍去那些對分類并無多大貢獻(xiàn)的特征,能得到反映分類本質(zhì)的特征。如果區(qū)別不同類別的特征都能從輸入數(shù)據(jù)中找到,這時(shí)自動(dòng)模式識別問題就簡化為匹配和查表,模式識別就不困難了。2、特征提取假設(shè)已有D維特征向量空間, ,特征的組合優(yōu)化問題涉及特征選擇和特征提取兩部分。特征選擇是指從原有的D維特征空間中刪去一些特征描

21、述量,從而得到精簡后的特征空間。在這個(gè)特征空間中,樣品由d維空間的特征向量描述:, dD。由于X只是Y的一個(gè)子集,因此每個(gè)分量xi必然能在原特征集中找到其對應(yīng)的描述量xi=yj。特征提取則是找到一個(gè)映射關(guān)系: A:Y X (3.1)使新樣品特征描述維數(shù)比原維數(shù)低。其中每個(gè)分量xi是原特征向量各分量的函數(shù),即 xi=xi(y1,y2,yD) (3.2)因此這兩種降維的基本方法是不同的。在實(shí)際應(yīng)用中可將兩者結(jié)合起來使用,比如先進(jìn)行特征選擇,即從原有的D維特征空間,刪去一些特征描述量,從而得到精簡后的特征空間,然后再進(jìn)一步特征提取,或反過來??傊卣鬟x擇與特征提取的任務(wù)是求出一組對分類最有效的特征

22、,有效是在特征維數(shù)減少到同等水平時(shí),其分類性能最佳。2.2.2分類器設(shè)計(jì)準(zhǔn)則模式識別分類問題是指根據(jù)待識別對象所呈現(xiàn)的觀察值,將其分到某個(gè)類別中去。具體步驟如下:第一步:建立特征空間中的訓(xùn)練集,已知訓(xùn)練集里每個(gè)點(diǎn)所屬類別。第二步:從這些條件出發(fā),尋求某種判別函數(shù)或判別準(zhǔn)則,設(shè)計(jì)判決函數(shù)模型。第三步:根據(jù)訓(xùn)練集中的樣品確定模型中的參數(shù)。第四步:將這一模型用于判決,利用判決函數(shù)或判別準(zhǔn)則去判別每個(gè)未知類別的點(diǎn)應(yīng)該屬于哪一類。模式識別的基本框架制定準(zhǔn)則函數(shù),實(shí)現(xiàn)準(zhǔn)則函數(shù)極值化。常用的準(zhǔn)則有以下幾種。1、最小錯(cuò)分率準(zhǔn)則完全以減少分類錯(cuò)誤為原則,這是一個(gè)通用原則,它使錯(cuò)分類的樣品數(shù)量最小。2、最小風(fēng)險(xiǎn)準(zhǔn)

23、則當(dāng)接觸到實(shí)際問題時(shí),可以發(fā)現(xiàn)使錯(cuò)誤率最小不一定是一個(gè)普遍適用的最佳選擇。有的分類系統(tǒng)對錯(cuò)誤率大小并不看重,而是要考慮錯(cuò)分類的不同后果,為使總的損失最小,有時(shí)寧肯將錯(cuò)分率加大。因此引入風(fēng)險(xiǎn)、損失這些概念,以便在決策時(shí)兼顧不同后果的影響。在實(shí)際中計(jì)算損失與風(fēng)險(xiǎn)是復(fù)雜的,在使用數(shù)學(xué)公式計(jì)算時(shí),往往用賦予不同權(quán)值來表示。在做出決策時(shí),要考慮所承擔(dān)的風(fēng)險(xiǎn)?;谧钚★L(fēng)險(xiǎn)的貝葉斯決策規(guī)則是為了體現(xiàn)這一點(diǎn)而產(chǎn)生的。3、近鄰準(zhǔn)則近鄰準(zhǔn)則是分段線形判別函數(shù)的一種典型方法。這種方法主要依據(jù)同類物體在特征空間具有聚類特性的原理。同類物體由于其性質(zhì)相近,它們在特征空間中應(yīng)具有聚類的現(xiàn)象,因此可以利用這種性質(zhì)產(chǎn)生分類決

24、策的規(guī)則。例如有兩類樣品,可以求出某一類的平均值,對于任何一個(gè)未知樣品,先求出它到各個(gè)類的平均值距離,判斷距離哪個(gè)類近就屬于哪個(gè)類。4、Fisher準(zhǔn)則根據(jù)兩類樣品一般類內(nèi)密集,類間分離的特點(diǎn),尋找線性分類器最佳的法線向量,使兩類樣品在該方向上的投影滿足類內(nèi)盡可能密集,類間盡可能分開。相反如果把它們投影到任意一根直線上,有可能不同類別的樣品就混在一起了,無法區(qū)分。如果把投影直線旋轉(zhuǎn)一定的角度,就有可能找到一個(gè)方向,樣品投影到這個(gè)方向直線上,各類樣品就能很好的分開。如何找到一個(gè)最好方向及如何實(shí)現(xiàn)向最好方向投影的變換,這正是Fisher算法要解決的基本問題。5、感知準(zhǔn)則感知準(zhǔn)則函數(shù)以使錯(cuò)分類樣品到

25、分界面距離之和最小為原則。采用錯(cuò)誤提供信息實(shí)現(xiàn)迭代修正的學(xué)習(xí)原理。用錯(cuò)分類提供的信息修正錯(cuò)誤,這種思想對機(jī)器學(xué)習(xí)的發(fā)展以及人工神經(jīng)元網(wǎng)絡(luò)的發(fā)生發(fā)展產(chǎn)生深遠(yuǎn)影響。其優(yōu)點(diǎn)是通過錯(cuò)分類樣品提供的信息對分類器函數(shù)進(jìn)行修正,這種準(zhǔn)則是人工神經(jīng)元網(wǎng)絡(luò)多層感知器的基礎(chǔ)。2.2.3分類器設(shè)計(jì)基本方法在d維特征空間已經(jīng)確定的前提下,討論的分類器設(shè)計(jì)問題是一個(gè)選擇什么準(zhǔn)則,使用什么方法,將已確定的d 維特征空間劃分為決策域的問題。分類器設(shè)計(jì)有兩種基本方法:模板匹配法和判別函數(shù)法。1、模板匹配法將待分類樣品與標(biāo)準(zhǔn)模板進(jìn)行比較,看與哪個(gè)模板匹配程度更相似,從而確定待測試樣品的分類。而近鄰準(zhǔn)則在原理上屬于模板匹配。它將

26、訓(xùn)練樣品集中的每個(gè)樣品都作為模板,用測試樣品與每個(gè)模板做比較,看與哪個(gè)模板最相似(即為近鄰),就按最近似的模板的類別作為自己的類別。2、判別函數(shù)法設(shè)計(jì)基于判別函數(shù)法的分類方法有兩種:基于概率統(tǒng)計(jì)的分類法和幾何分類法。直接使用Bayes決策需要首先得到有關(guān)樣品總體分布的知識,包括各類先驗(yàn)概率P(w1)及類條件概率密度函數(shù),計(jì)算出樣品的后驗(yàn)概率P(w1|X),并以此作為產(chǎn)生判別函數(shù)的必要數(shù)據(jù),設(shè)計(jì)出相應(yīng)的判別函數(shù)與決策面。當(dāng)各類樣品近似于正態(tài)分布時(shí),可以算出使錯(cuò)誤率最小或風(fēng)險(xiǎn)最小的分界面及相應(yīng)的分界面方程。因此如果訓(xùn)練樣品處于近似的正態(tài)分布,可以用Bayes決策方法對分類器進(jìn)行設(shè)計(jì)。幾何分類法由于

27、一個(gè)模式通過某種變換映射為一個(gè)特征向量后,該特征向量可以理解為特征空間的一個(gè)點(diǎn),在特征空間中,屬于一個(gè)類的點(diǎn)集,總是在某種程度上與屬于另一個(gè)類的點(diǎn)集相分離,各個(gè)類之間是確定可分的。因此如果能夠找到一個(gè)分離函數(shù)(線性或非性形函數(shù)),把不同類的點(diǎn)集分開,則分類任務(wù)就解決了。幾何分類器不依賴于條件概率密度的知識,可以理解為通過幾何的方法,把特征空間分解為相應(yīng)與不同類別的子空間。而且呈線形的分離函數(shù),將使計(jì)算簡化。分離函數(shù)又分為線性判別函數(shù)和非線性判別函數(shù)。3.4 判別函數(shù)無論是設(shè)計(jì)一個(gè)基于概率統(tǒng)計(jì)的分類器,還是設(shè)計(jì)一個(gè)幾何分類器,最終都轉(zhuǎn)化為判別函數(shù)的形式。1、二類情況對于只有簡單的兩類情況,判別函

28、數(shù)形式如圖2-1所示,根據(jù)計(jì)算結(jié)果的符號將X分類。 dX1X2Xn+1W1-1W2決策判別計(jì)算閥值單元圖2-1 兩類分類器形式假定判別函數(shù)d(X)是X的線性函數(shù),d(X)=WTX+W0,用矢量X=T來表示模式,一般的線性判別函數(shù)形式為: (3.3)式中W0=稱為權(quán)矢量或參數(shù)矢量。2、多類情況對于多類別問題,假如有M類模式,它們對應(yīng)于M類圖像。對于M個(gè)類別,就要給出M個(gè)判別函數(shù):,各個(gè)判別函數(shù)構(gòu)成分類器,基本形式如圖3-1所示:d1d2dMMAX/MINX1X2Xn最值選擇器決策圖3-2 判別函數(shù)構(gòu)成的多類分類器對于線性情況,判別函數(shù)形式為 (3.4)其中,。3.5訓(xùn)練與學(xué)習(xí)所謂模式識別的學(xué)習(xí)與

29、訓(xùn)練是從訓(xùn)練樣品提供的數(shù)據(jù)中找出某種數(shù)學(xué)式子的最優(yōu)解,這個(gè)最優(yōu)解使分類器得到一組參數(shù),按這組參數(shù)設(shè)計(jì)的分類器使人們設(shè)計(jì)的某種準(zhǔn)則達(dá)到極值。確定分類決策的具體數(shù)學(xué)公式是通過分類器設(shè)計(jì)這個(gè)過程確定的。這個(gè)過程稱為訓(xùn)練與學(xué)習(xí)的過程。訓(xùn)練與學(xué)習(xí)的過程中的訓(xùn)練集是指一個(gè)已知的樣品集,在監(jiān)督學(xué)習(xí)方法中用它來開發(fā)模式分類器。在本系統(tǒng)中,自己手寫的50個(gè)漢字字符,從這50個(gè)字符中提取信息組成特征庫,這50個(gè)字符就是訓(xùn)練集。訓(xùn)練與學(xué)習(xí)的過程中的測試集就是識別時(shí)隨機(jī)用手寫的漢字。第三章 貝葉斯方法應(yīng)用于手寫體數(shù)字識別3.1貝葉斯由來貝葉斯(R.T.Bayes,17021761)學(xué)派奠基性的工作,是英國學(xué)者貝葉斯的

30、一篇具有哲學(xué)性的論文關(guān)于幾率性問題求解的討論。著名數(shù)學(xué)家拉普拉斯利用貝葉斯的方法導(dǎo)出了重要的“相繼律”,從而引起人們對貝葉斯的方法和理論的重視。盡管利用貝葉斯方法可以推導(dǎo)出很多有意義的結(jié)果,但是,由于理論上和實(shí)際應(yīng)用中存在很多問題,在19世紀(jì),貝葉斯理論并未被普遍接受。進(jìn)入20世紀(jì),意大利的菲納特、英國的杰弗萊、古特、薩凡奇、林德萊對貝葉斯學(xué)派的形成做出了重要貢獻(xiàn),1958年英國歷史最長的統(tǒng)計(jì)雜志Biometrika重新全文刊載了貝葉斯的論文。20世紀(jì)50年代,羅賓斯(H.Robbins)將經(jīng)典統(tǒng)計(jì)學(xué)派的方法和貝葉斯學(xué)派的方法進(jìn)行融合,提出了經(jīng)驗(yàn)貝葉斯方法(EB方法)。如今,貝葉斯學(xué)派的思想方

31、法已滲透到了許多學(xué)科。貝葉斯理論在人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方面也有廣泛應(yīng)用。20世紀(jì)80年代,貝葉斯網(wǎng)絡(luò)被用于專家系統(tǒng)的知識表示,90年代可學(xué)習(xí)的貝葉斯網(wǎng)絡(luò)被用于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。涉及因果推理、不確定性知識表達(dá)、聚類分析等方面的貝葉斯方法的文章大量涌現(xiàn)。并且出現(xiàn)了專門研究貝葉斯理論的組織和學(xué)術(shù)刊物ISBA。貝葉斯分類是一種統(tǒng)計(jì)學(xué)分類方法,可以預(yù)測類成員關(guān)系的可能性,如給定樣本屬于一個(gè)特定類的概率。目前,貝葉斯分類方法已在文本分類、字母識別、經(jīng)濟(jì)預(yù)測等領(lǐng)域獲得了成功的應(yīng)用。貝葉斯方法正在以其獨(dú)特的不確定性知識表達(dá)形式、豐富的概率表達(dá)能力、綜合先驗(yàn)知識的增量學(xué)習(xí)等特性成為眾多數(shù)據(jù)挖掘方法中

32、最引人注目的焦點(diǎn)之一。3.2貝葉斯公式貝葉斯公式建立起先驗(yàn)概率和后驗(yàn)概率的聯(lián)系。先驗(yàn)概率是指根據(jù)歷史資料或主觀判斷確定的各事件發(fā)生的概率,由于沒能經(jīng)過實(shí)驗(yàn)證實(shí),屬于檢驗(yàn)前的概率,所以稱為先驗(yàn)概率。先驗(yàn)概率一般分為兩類,一是客觀先驗(yàn)概率,指利用歷史資料計(jì)算得到的概率;二是主觀先驗(yàn)概率,指在沒有歷史資料或歷史資料不全的情況下,僅僅憑借主觀經(jīng)驗(yàn)判斷得到的概率。后驗(yàn)概率是指利用貝葉斯公式,結(jié)合調(diào)查等方式獲取了新的附加信息,對先驗(yàn)概率進(jìn)行修正后得到的更符合實(shí)際的概率。1. 先驗(yàn)概率 先驗(yàn)概率針對M個(gè)事件出現(xiàn)的可能性而言,不考慮其他任何條件。例如,由統(tǒng)計(jì)資料表明總藥品數(shù)為N,其中正常的藥品數(shù)位,異常藥品數(shù)

33、位,則: 我們稱及為先驗(yàn)概率。顯然在一般情況下正常藥品占比例大,即。僅按先驗(yàn)概率來決策,就會吧所有藥品都劃歸為正常藥品,并沒有達(dá)到將正常藥品與異常藥品分開的目的。這表明由先驗(yàn)概率所提供的信息太少。2.貝葉斯公式也稱為后驗(yàn)概率公式或逆概率公式,有幾種不同的形式。通常采用事件形式或隨機(jī)變量形式表示。2.1.事件形式設(shè)A1, A2, An互不相容,并且有(必然事件),則對于任一事件B,有 (i=1, 2, n) (8.14)2.2隨機(jī)變量形式設(shè)x和為兩個(gè)隨機(jī)變量,x是觀測向量,是未知參數(shù)向量,其聯(lián)合分布密度是p(x,),p(x|)是x對的條件密度, ()是的先驗(yàn)分布密度,于是對x的條件密度p(|x)

34、為 (8.15)貝葉斯假設(shè)指出,在沒有任何關(guān)于的信息時(shí),可以認(rèn)為的先驗(yàn)分布是均勻分布。當(dāng)然,確定先驗(yàn)分布的準(zhǔn)則還包括杰弗萊準(zhǔn)則、最大熵準(zhǔn)則、共軛分布族等??傊?,貝葉斯方法的重點(diǎn)在于研究如何合理地使用先驗(yàn)信息。3.3貝葉斯公式Bayes決策理論:在分類的時(shí)候難免出現(xiàn)錯(cuò)分類的情況,如何做出合理的判決就是Bayes決策理論所要討論的問題,其中具有代表性的是最小錯(cuò)誤概率的Bayes決策3基于最小錯(cuò)誤率的貝葉斯決策: 假定得到一個(gè)待識別量的特征X后,每個(gè)樣品X有n個(gè)特征,即,通過樣品庫,計(jì)算先驗(yàn)概率及類別條件概率密度函數(shù),得到呈現(xiàn)狀態(tài)X時(shí),該樣品分屬各類別的概率,顯然這個(gè)概率值可以作為識別對象判屬的依據(jù)

35、,從后驗(yàn)概率分布圖44可見。在X值小時(shí),藥品被判為正常比較合理的,判斷錯(cuò)誤的可能性小?;谧钚″e(cuò)誤概率的貝葉斯決策就是按后驗(yàn)概率的大小判別的。這個(gè)判別又可以根據(jù)類別數(shù)目,寫成不同的集中等價(jià)形式。 1.兩類問題 若兩類樣品屬于類中的一類,已知兩類的先驗(yàn)概率分別為,。兩類的類條件概率密度為,.則任給一X。判別X的類別。由貝葉斯公式可知: 由全概率公式可知 其中M為類別。對于兩類問題 所以用后驗(yàn)概率來判別為 判別函數(shù)還有另外兩種形式。(1)似然比形式 其中上面公式中的在統(tǒng)計(jì)學(xué)中稱為似然比,而稱為似然比閥值。(2) 對數(shù)形式 上面三種判別函數(shù)是一致的,也可以用后驗(yàn)概率來表示判別函數(shù)。2. 多類問題 現(xiàn)

36、在討論多類問題的情況。判別函數(shù)的一般形式如下圖:d1d2dMMAX/MINX1X2Xn最值選擇器決策若樣本分為M類,各類的先驗(yàn)概率分別為 ,.,各類的類條件概率密度分別為,.,就有M個(gè)判別函數(shù)。在取得一個(gè)觀察特征X之后,在特征X的條件下,看哪個(gè)類的概率最大,就應(yīng)該把X歸于概率最大的那個(gè)類。因此對于任一模式X,可以通過比較各個(gè)判別函數(shù)來確定X的類別。 就是把X代入M個(gè)判別函數(shù)中,看哪個(gè)判別函數(shù)最大,就把X歸于這一類。 判別函數(shù)的對數(shù)形式為: 由于先驗(yàn)概率通常是很容易求出來的,貝葉斯分類器的核心問題就是求出類條件概率密度如果求出了條件概率,則后驗(yàn)概率就可以求出了,判別問題就可以解決了。在大多數(shù)情況

37、下,類條件密度可以采用多維變量的正態(tài)密度函數(shù)來模擬。在工程上的許多問題中,統(tǒng)計(jì)數(shù)據(jù)往往滿足正態(tài)分布規(guī)律,多維變量的正態(tài)密度函數(shù)為: 其中: 所以此時(shí)的正態(tài)分布的貝葉斯分類器判別函數(shù)為: 3.4貝葉斯應(yīng)用于的手寫體數(shù)字理論部分:3.4.1.特征描述:在模式識別技術(shù)中,被觀測的每個(gè)對象稱為樣品,例如本文中的每個(gè)手寫數(shù)字可以作為一個(gè)樣品,共寫了10個(gè)數(shù)字,所以就有10個(gè)樣品(X1,X2,X3,X4,X5,X6,X7,X8,X9,X10),一共有10個(gè)不同的類別。對于一個(gè)樣品來說,必須確定一些與識別有關(guān)的因素作為研究的根據(jù),每一個(gè)因素稱為一個(gè)特征。模式就是樣品所具有的特征描述。模式的特征集由處于同一個(gè)

38、特征空間的特征向量表示,特征向量的每個(gè)元素稱為特征,該向量也因此稱為特征向量。一般用小寫字母x, y, z來表示特征。如果一個(gè)樣品X有n 個(gè)特征,則可把X看成一個(gè)n維列向量,該向量稱為特征向量X,記作:X=T (1.1)抽取圖像特征的目的是為了進(jìn)行分類,識別圖像。也就是把圖像變成n維空間的一個(gè)向量,實(shí)際上就是看成n維空間中的一個(gè)點(diǎn),這樣有利于從幾何上考慮問題,計(jì)算上比較方便。 如果一個(gè)對象的特征觀察值為x1,x2,,xn,它可構(gòu)成一個(gè)n維的特征向量值X,即X=x1,x2,,xnT,式中x1,x2,,xn為特征向量X的各個(gè)分量。在模式識別的過程中,要對許多具體對象進(jìn)行測量,以獲得許多觀測值,其中

39、有均值、方差、協(xié)方差與協(xié)方差矩陣。1.均值 N 個(gè)樣品的均值可表示為: (1.2) 其中是第i 個(gè)特征的平均值, (1.3)2.方差 方差用來描述一批數(shù)的分散程度,第i 個(gè)特征的N個(gè)數(shù)的方差公式是: (1.4) 3.協(xié)方差與協(xié)方差矩陣:在N個(gè)樣品中,第i個(gè)特征和第j個(gè)特征之間的協(xié)方差定義為: (1.5)對于同一批樣品來說,很明顯有: 如果一批樣品有n個(gè)特征x1,x2,,xn。求出沒兩個(gè)特征的協(xié)方差,總共得到n2個(gè)值,將這n2個(gè)值排列成以下的n維方陣,稱為協(xié)方差矩陣: ,協(xié)方差矩陣是對稱矩陣,而且主對角線元素sij就是特征xi的方差si2,i=1,2,3,n。3.4.2最小錯(cuò)誤分類器進(jìn)行判別分類

40、寫體數(shù)字,提取特征后,應(yīng)用Bayes分類器進(jìn)行判別分類。在手寫體數(shù)字的識別屬于多類情況,可以認(rèn)為每類樣品呈正態(tài)分布。 1)求出每一類手寫體數(shù)字樣品的均值: 公式中,代表類的樣品個(gè)數(shù);n代表特征數(shù)目。2) 求每一類的協(xié)方差矩陣: 公式中,l代表樣品在類中的序號,其中; 3) 計(jì)算出每一類的協(xié)方差矩陣的逆矩陣以及協(xié)方差矩陣的行列式4) 求出每一類的先驗(yàn)概率 其中:5) 將各個(gè)數(shù)值代入判別函數(shù): 6) 判別函數(shù)最大值所對應(yīng)類別就是手寫體數(shù)字的類別第四章 手寫體數(shù)字識別的設(shè)計(jì)流程及功能的具體實(shí)現(xiàn)4.1 手寫體數(shù)字識別的流程圖系統(tǒng)設(shè)計(jì)的第一部分為讀取庫信息,這一部分是有監(jiān)督的訓(xùn)練學(xué)習(xí)過程;第二部分為用戶

41、手寫輸入一個(gè)漢字及識別功能。設(shè)計(jì)流程如圖4-1設(shè)計(jì)流程圖所示:圖4-1設(shè)計(jì)流程圖4.2具體功能實(shí)現(xiàn)方法如下: 開發(fā)環(huán)境:vc+6.01.數(shù)字樣品庫信息:1) 這些0,到9的數(shù)據(jù)樣品信息是在因特網(wǎng)上下載的,它是對每一個(gè)數(shù)字提取25個(gè)特征。2) 將數(shù)字區(qū)域平均分為5*5的小區(qū)域。3) 計(jì)算5*5的每一個(gè)小區(qū)域中黑像素所占比例,第一行的5個(gè)比例值保存到特征的前5個(gè),第二行的對應(yīng)特征的610個(gè),依次類推。4)讀取數(shù)據(jù)信息庫:程序首先打開template.dat文件,然后定義了一個(gè)CArchive類的對象, 把數(shù)據(jù)信息讀取出來存取在下面的結(jié)構(gòu)中struct pattern/pattern結(jié)構(gòu)體,保存某個(gè)

42、數(shù)字類別(09)的所有樣品特征int number;/該手寫數(shù)字樣品個(gè)數(shù)double feature20025;/各樣品特征,每類手寫數(shù)字最多有200個(gè)樣品,每個(gè)樣品有25個(gè)特征;5)用戶單擊“數(shù)據(jù)庫信息”“打開數(shù)據(jù)庫信息”可以看到每個(gè)數(shù)字的樣品個(gè)數(shù):然后然后在“數(shù)字”和“第幾個(gè)”中輸入數(shù)字和第幾個(gè)樣品,單擊“顯示”就可以查看對應(yīng)的數(shù)字特征(每個(gè)區(qū)域中黑像素所占的比例)2.手寫體數(shù)字輸入:系統(tǒng)中CPen畫筆的直徑設(shè)置為8個(gè)像素,畫圖的區(qū)域被限制在視圖客戶區(qū)CRect(0,0),(240,240)矩形內(nèi),畫筆的位置和圖像的數(shù)據(jù)指針相關(guān)聯(lián),設(shè)鼠標(biāo)焦點(diǎn)的坐標(biāo)為Point(x,y),m_pData 為

43、位圖的數(shù)據(jù)指針,則數(shù)據(jù)指針應(yīng)變換為:m_pData+240 *y+x,鼠標(biāo)的被按下(響應(yīng)消息LButtonDown時(shí))以鼠標(biāo)焦點(diǎn)為中心,4像素為半徑的區(qū)域內(nèi)的像素值都賦值為0,同時(shí)刷新視圖。重要的幾個(gè)函數(shù):CPen pen(PS_DASH, 8, RGB(255, 0, 0);/畫筆函數(shù)dc.MoveTo(m_ptOrigin);/畫線函數(shù)dc.LineTo(point);3.特征提取在實(shí)驗(yàn)中,對每一個(gè)數(shù)字提取25個(gè)特征。手寫數(shù)字的特征提取步驟如下:1 利用搜索m_pData數(shù)組中為0,找出手寫數(shù)字的上下左右邊界區(qū)域top,bottom, left, right2 利用top,bottom,l

44、eft,right將數(shù)字區(qū)域平均分為5*5的小區(qū)域。3 計(jì)算5*5的每一個(gè)小區(qū)域中黑像素(m_pData數(shù)組中為0,)所占比例,第一行的5個(gè)比例值保存到特征的前5個(gè),第二行的對應(yīng)特征的610個(gè),依次類推。(對于像素點(diǎn)大于0.1,用1標(biāo)注);4 具體用類CGetFeature類來實(shí)現(xiàn):5 用戶在畫板上輸入數(shù)字后,單擊“提取數(shù)據(jù)信息”中的“數(shù)據(jù)信息”就能查看待定樣品 class CGetFeature public:pattern pattern10;/手寫數(shù)字樣品特征庫double testsample25;/待測的手寫數(shù)字int width;/手寫數(shù)字的寬int height;/手寫數(shù)字的高d

45、ouble Cal(int row, int col, BYTE *m_Data);/計(jì)算分割好的55小區(qū)域中,黑像素所占的比例void SetFeature(BYTE *m_Data);/計(jì)算手寫數(shù)字的特征,賦值testsamplevoid GetPosition(BYTE *m_Data);/獲得手寫數(shù)字的位置CGetFeature();/構(gòu)造函數(shù)virtual CGetFeature();/析構(gòu)函數(shù)int BayesErzhishuju(); /貝葉斯方法int BayesLeasterror(); /貝葉斯最小錯(cuò)誤;CMenuView *m_pMenuView;protected:in

46、t bottom;/手寫數(shù)字的底部int top;/手寫數(shù)字的頂部int left;/手寫數(shù)字的左邊int right;/手寫數(shù)字的右邊;4數(shù)字識別用戶只要在視圖的灰色區(qū)域中輸入合法的漢字,然后單擊“圖像操作”“識別”,系統(tǒng)就回自動(dòng)提取漢字的特征,與樣品庫中漢字特征按照最小距離算法識別手寫漢字。實(shí)際效果如圖4-5漢字識別示意圖所示。四:實(shí)驗(yàn)結(jié)果分析:結(jié)果分析:識別正確率雖然很高,在識別的過程中有誤判情況的發(fā)生,經(jīng)分析原因有以下幾種:1.每個(gè)數(shù)字特征的維數(shù)只有25,所以只能把圖象分割為25份精度不高。2.在輸入手寫漢字時(shí),有時(shí)太小或者不規(guī)范,在特征提取時(shí)就會發(fā)生差錯(cuò)。例如下圖:圖4-6誤判示意圖

47、結(jié)束語本文主要介紹了手寫體數(shù)字識別的基本理論和方法,并實(shí)現(xiàn)了用了最小錯(cuò)誤的貝葉斯方法識別10個(gè)數(shù)字。在本系統(tǒng)設(shè)計(jì)中所涉及的技術(shù)如下:1、 手寫體數(shù)字識別基本過程。2、 分類器的設(shè)計(jì)方法。3、 VC+6.0的界面設(shè)計(jì)。歸納起來,在做畢業(yè)設(shè)計(jì)的過程中,我主要做了以下工作:第一階段:收集、閱讀和分析有關(guān)模式識別及手寫體數(shù)字識別的書籍,從中找到一種合理的設(shè)計(jì)方法。第二階段:學(xué)習(xí)VC+6.0界面設(shè)計(jì)的方法,掌握了MFC的基本構(gòu)架,文檔視圖結(jié)構(gòu),消息映射,對話框的使用等知識。第三階段:在VC的開發(fā)環(huán)境中編寫實(shí)現(xiàn)數(shù)字識別的代碼,讀取庫信息,特征提取,貝葉斯方法等,并對各個(gè)部分進(jìn)行了調(diào)試。第四階段:撰寫論文。

48、限于我的水平有限,知識掌握不足,本系統(tǒng)還有許多有待改進(jìn)的地方:1、 圖形界面還不完善,能夠支持的操作比較少。2、 識別率不是特高,有許多錯(cuò)誤的判斷。3、 實(shí)現(xiàn)手寫數(shù)字識別的算法比較多,例如:基于概率統(tǒng)計(jì)的貝葉斯算法,神經(jīng)網(wǎng)絡(luò),分形幾何等算法,由于時(shí)間關(guān)系,只用了簡單的方法。模式識別是一門綜合性、交叉性學(xué)科,在理論上它涉及代數(shù)學(xué)、矩陣論、概率論、圖論、模糊數(shù)學(xué)、最優(yōu)化理論等等眾多學(xué)科的知識,在應(yīng)用上又與其他許多領(lǐng)域的工程技術(shù)密切相關(guān),其內(nèi)涵可以概括為信息處理、分析與決策。在模式識別學(xué)科中,并沒有一種普遍適應(yīng)的算法,模式識別的算法要根據(jù)具體的識別對象和任務(wù)來確定,所以模式識別學(xué)科中還有很多創(chuàng)新性的

49、工作,我打算在研究生學(xué)習(xí)階段在這方面做深入的研究。 致謝詞本論文是在李軍老師的親切關(guān)懷與精心指導(dǎo)下完成的,感謝我的導(dǎo)師李軍教授,他在我做畢業(yè)設(shè)計(jì)過程中,從選題到具體實(shí)施都給予我很多的幫助和指導(dǎo),他循循善誘的教導(dǎo)和不拘一格的思路給予我無盡的啟迪。真誠感謝理學(xué)院的領(lǐng)導(dǎo)和老師,感謝理學(xué)院教研室的各位老師,他們在我平常的學(xué)習(xí)與日常生活中,給了我許多關(guān)心與幫助。在此我表示深深的感謝! 感謝我的室友們,從遙遠(yuǎn)的家來到這個(gè)陌生的城市里,是你們和我共同維系著彼此之間兄弟般的感情,維系著寢室那份家的融洽。 感謝我的父親母親,焉得諼草,言樹之背,養(yǎng)育之恩,無以回報(bào),你們永遠(yuǎn)健康快樂是我最大的心愿。 在論文即將完成

50、之際,我的心情無法平靜,從開始進(jìn)入課題到論文的順利完成,有多少可敬的師長、同學(xué)、朋友給了我無言的幫助,在這里請接受我誠摯的謝意!參考文獻(xiàn)1楊淑瑩.圖像模式識別-VC+技術(shù)實(shí)現(xiàn).北京:清華大學(xué)出版社.20052徐士良.C常用算法程序集.北京:清華大學(xué)出版社.19963黃振華,吳誠一.模式識別原理.杭州:浙江大學(xué)出版社.19914沈清,湯霖.模式識別導(dǎo)輪.長沙:國防科技大學(xué)出版社.19915邊肇祺,張學(xué)工.模式識別.北京:清華大學(xué)出版社.20006羅耀光,盛立東.模式識別.北京:人民郵電出版社.19897譚浩強(qiáng).C程序設(shè)計(jì).北京:清華大學(xué)出版社.20018鄭莉,董淵.C+語言程序設(shè)計(jì).北京:清華大

51、學(xué)出版社.20029黃維通.Visual C+ 面向?qū)ο笈c可視化程序設(shè)計(jì). 北京:清華大學(xué)出版社.200210王育堅(jiān). Visual C+ 面向?qū)ο缶幊探坛? 北京:清華大學(xué)出版社.200411章毓晉.圖象處理和分析. 北京:清華大學(xué)出版社.200112HildebrandTH, LiuW. Optical recognition of handwritten Chinese characters: advances since 1980JPattern Recognition, 1993,26(2): 205-22513 Liao C W, Huang J S. Atransformatio

52、n invariant matching algorithm for handwritten Chinesecharacter recognition J. Pattern Recognition, 1990, 23(11):1 167-1 18814吳佑壽,丁曉青.漢字識別原理方法與實(shí)現(xiàn).高等教育出版社.1992.15英厄爾曼.文字、圖形識別技術(shù).人民郵電出版社.1983.16 孫偉.用Visual C+構(gòu)造用于手寫漢字識別的模擬系統(tǒng).微處理機(jī),2002. 17 Carlos M. Travieso, Ciro R.Morales, Itziar G. Alonso, et al. Hand

53、written Digits Parameterizationfor HMM based recognition, Image Processing and its Applications. IEEE Conference Publication,1999, 465: 770-774.附錄1. BayesLeasterror()/* 函數(shù)名稱:BayesLeasterror()* 函數(shù)類型:int * 函數(shù)功能:最小錯(cuò)誤概率的Bayes分類器 ,返回手寫數(shù)字的類別*/int CGetFeature:BayesLeasterror()double X25;/待測樣品double Xmeans2

54、5;/樣品的均值double S2525;/協(xié)方差矩陣double S_2525;/S的逆矩陣double Pw;/先驗(yàn)概率double hx10;/判別函數(shù)int i,j,k,n;for(n=0;n10;n+)/循環(huán)類別09int num=patternn.number;/樣品個(gè)數(shù)/求樣品平均值for(i=0;i25;i+)Xmeansi=0.0;for(k=0;knum;k+)for(i=0;i0.10?1.0:0.0;for(i=0;i25;i+)Xmeansi/=(double)num;/求協(xié)方差矩陣double mode20025;for(i=0;inum;i+)for(j=0;j0

55、.10?1.0:0.0;for(i=0;i25;i+)for(j=0;j25;j+)double s=0.0;for(k=0;knum;k+)s=s+(modeki-Xmeansi)*(modekj-Xmeansj);s=s/(double)(num-1);Sij=s;/求先驗(yàn)概率int total=0;for(i=0;i10;i+)total+=patterni.number;Pw=(double)num/(double)total;/求S的逆矩陣for(i=0;i25;i+)for(j=0;j25;j+)S_ij=Sij;double(*p)25=S_;brinv(*p,25);/S的逆矩

56、陣/求S的行列式double (*pp)25=S;double DetS;DetS=bsdet(*pp,25);/S的行列式/求判別函數(shù)for(i=0;i0.10?1.0:0.0;for(i=0;i25;i+)Xi-=Xmeansi;double t25;for(i=0;i25;i+)ti=0;brmul(X,S_,25,t);/矩陣的乘積double t1=brmul(t,X,25);double t2=log(Pw);double t3=log(DetS+1);hxn=-t1/2+t2-t3/2;double maxval=hx0;int number=0;/判別函數(shù)的最大值for(n=1

57、;nmaxval)maxval=hxn;number=n;return number;2.CGetFeature 的一些函數(shù):CGetFeature:CGetFeature()CFile TheFile(template.dat,CFile:modeRead);CArchive ar(&TheFile,CArchive:load,40960);TheFile.SeekToBegin();for(int i=0;ipatterni.number;for(int n=0;npatterni.number;n+)for(int j=0;jpatterni.featurenj;ar.Close();T

58、heFile.Close();CGetFeature:CGetFeature()/* 函數(shù)名稱:GetPosition()* 函數(shù)類型:void * 函數(shù)功能:搜索手寫數(shù)字的位置,賦值給bottom,down,right,left*/void CGetFeature:GetPosition(BYTE *m_Data)width = 240;height = 240;intLineBytes = 240;int i,j;BOOL flag;for(j=0;jheight;j+)flag=FALSE;for(i=0;i0;j-)flag=FALSE;for(i=0;iwidth;i+)if(m_D

59、ataj*LineBytes+i=0)flag=TRUE;break;if(flag)break;top=j;for(i=0;iwidth;i+)flag=FALSE;for(j=0;j0;i-)flag=FALSE;for(j=0;jheight;j+)if(m_Dataj*LineBytes+i=0)flag=TRUE;break;if(flag)break;right=i;/* 函數(shù)名稱:SetFeature()* 函數(shù)類型:void * 函數(shù)功能:將手寫數(shù)字特征保存在變量testsample中*/void CGetFeature:SetFeature(BYTE *m_Data)int

60、i,j;for(j=0;j5;j+)for(i=0;i0.10)?1:0;/testsamplej * 5 + i = Cal(j, i, m_Data);/* 函數(shù)名稱:Cal(int row, int col)* 函數(shù)類型:double * 參數(shù)說明:int row, int col:第row行,第col個(gè)區(qū)域* 函數(shù)功能:計(jì)算某一小區(qū)域內(nèi)黑像素所占比例,返回某一小區(qū)域內(nèi)黑像素所占比例*/double CGetFeature:Cal(int row, int col, BYTE *m_Data)double w,h,count;int LineBytes = 240;w=(right-left)/5;h=(top-bottom)/5;count=0; /注意是bottom,注意;for(int j=bottom + row*h; jbottom+(row+1)*h;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論