基于cnn的手寫體識(shí)別分析與實(shí)現(xiàn)_第1頁(yè)
基于cnn的手寫體識(shí)別分析與實(shí)現(xiàn)_第2頁(yè)
基于cnn的手寫體識(shí)別分析與實(shí)現(xiàn)_第3頁(yè)
基于cnn的手寫體識(shí)別分析與實(shí)現(xiàn)_第4頁(yè)
基于cnn的手寫體識(shí)別分析與實(shí)現(xiàn)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于寫體識(shí)別分析與實(shí)現(xiàn)一、研究背景卷積神經(jīng)網(wǎng)絡(luò)作為人工神經(jīng)網(wǎng)絡(luò)的分支近年來(lái)成為圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域的熱點(diǎn)。用來(lái)處理數(shù)組數(shù)據(jù),包括 2D 的圖像或聲音、3D 的或有聲音的圖像。卷積神經(jīng)網(wǎng)絡(luò)包括四個(gè)關(guān)鍵:局部連接、權(quán)值共享、池化以及多網(wǎng)絡(luò)層的使用。21 實(shí)際開(kāi)始,卷積神經(jīng)網(wǎng)絡(luò)就被成功的大量用于檢測(cè)、分割、物體識(shí)別以及圖像的各個(gè)領(lǐng)域,近年來(lái)卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別、圖像分類方面取得巨大的成功,例如當(dāng)前的 IMAGENET 圖像分類競(jìng)賽。二、問(wèn)題的提出鑒于卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的廣泛應(yīng)用,本實(shí)驗(yàn)旨在以手寫體識(shí)別為目的,研究卷積的網(wǎng)絡(luò)結(jié)構(gòu),極其相關(guān)的 BP 神經(jīng)網(wǎng)絡(luò),完成整個(gè)卷積網(wǎng)絡(luò)實(shí)現(xiàn)與測(cè)試。三

2、、的設(shè)計(jì)與實(shí)現(xiàn)數(shù)據(jù)集:MNIST,此數(shù)據(jù)庫(kù)含有 0-9 的訓(xùn)練數(shù)據(jù)集和 0-9 測(cè)試集兩種訓(xùn)練樣例和 10000 個(gè)測(cè)試樣例,包括 60000 個(gè)四、如圖 1 所示,一個(gè)完整的卷積神經(jīng)網(wǎng)絡(luò)包括輸入、卷基層、降采樣層、全連接層圖 1在本次實(shí)驗(yàn)中設(shè)計(jì)了一個(gè) 8 層的卷積網(wǎng)絡(luò),其中 3 個(gè) S 層,3 個(gè) C 層,2 個(gè)全連接層,網(wǎng)絡(luò)的輸入圖像數(shù)量為 1,針對(duì) 0-9 的數(shù)字識(shí)別,網(wǎng)絡(luò)的輸出神經(jīng)元數(shù)為 10,首先對(duì)原始數(shù)據(jù)集的圖像進(jìn)行預(yù)處理,將 28x28 的圖像擴(kuò)展為 32x32 位,作為 網(wǎng)絡(luò)的輸入。(1)(2)(3)(4)(5)(6)(7)(8)輸入層:32X32 像素的圖像降采樣層:參數(shù)為

3、1,這一層不對(duì)圖像尺度進(jìn)行改變卷積層,卷積核數(shù)為 6,核大小為 5x5,卷積后 feature map:28x28降采樣層:縮放尺度為 2,降采樣后大小為 14x14卷積層:卷積核數(shù)為 12,核大小 5x5,卷積后 feature map:10 x10降采樣層:采樣尺度為 2, 降采樣后 feature map:5x5卷積層:卷積核 120,核大小 5x5,卷積后為 1x1全連接 1:84 神經(jīng)元(9) 輸出神經(jīng)元:對(duì)于數(shù)字,為 10 個(gè)神經(jīng)元4.1 卷積層卷積核比較常見(jiàn)的為高斯核,用來(lái)對(duì)圖像進(jìn)行平滑,針對(duì)不同的核參數(shù),圖像提取的特征也是不同的,在 CNN 里前期的訓(xùn)練就是要根據(jù)訓(xùn)練集的輸入不

4、斷學(xué)習(xí)卷積的參數(shù)。輸入圖像為 32x32 的灰度圖像,第一個(gè)卷積層有 6 個(gè)卷積和,每個(gè)核大小為 5x5,以及一個(gè)偏置值 b。在訓(xùn)練之前,將所有的核參數(shù)隨機(jī)初始化,偏置值置 0。在后面的卷積層中,輸入有多張圖像,所以當(dāng)前層的卷積核每個(gè)卷積核對(duì)于多幅圖像是全職共享的。而每個(gè)輸入的 Feature map 經(jīng)過(guò)多個(gè)核卷積之后再進(jìn)行疊加形成下一層的 Feature map,如下圖所示:圖 2第一層卷積之后的大小為 28x28,即D N + 1,其中 D 為輸入圖像的維度,N 為卷積核的維度。4.2、降采樣層這一層在二維空間上,將圖像分為規(guī)定大小的 block,然后在在每個(gè) block 中計(jì)算特征。目

5、的是減少隱含層節(jié)點(diǎn)的個(gè)數(shù),針對(duì) pooling 的尺度參數(shù) 2,則 24X24 大小的圖像將采樣之后為12x12 大小。在降采樣層每個(gè)單元的4 個(gè)輸入相加然后乘以訓(xùn)練參數(shù),再加上一個(gè)偏置,通過(guò) sigmod 函數(shù)計(jì)算輸出,如圖 3,是利用一個(gè)均值模板對(duì)圖像進(jìn)行降采樣。圖 3可訓(xùn)練的系數(shù)和偏置控制著 sigmoid 函數(shù)的非線性程度。如果系數(shù)比較小,那么運(yùn)算近似于線性運(yùn)算,降采樣相當(dāng)于模糊圖像。如果系數(shù)比較大,根據(jù)偏置的大小亞采樣可以被看成是有噪聲的“或”運(yùn)算或者有噪聲的“與”運(yùn)算。每個(gè)單元的 2*2 感受野并不重疊。計(jì)算過(guò)程如下(1)所示:(, ) = ( 1( + , + ) + )(1)(

6、,)這樣通過(guò)對(duì)圖像降采樣,可以減少數(shù)據(jù)處理量的同時(shí)保留有用信息。4.3 BP 算法的分析與實(shí)現(xiàn)經(jīng)過(guò)前面一系列卷積層與降采樣層,得到了每層神經(jīng)元的參數(shù),根據(jù)期望值與輸出值產(chǎn)生了一定的誤差。常見(jiàn)的誤差有兩種:均方誤差(MSE),交叉熵。在反向傳播階段根據(jù)誤差來(lái)不斷修正權(quán)值,使網(wǎng)絡(luò)的輸出值更接近于期望輸出值。反向傳播從網(wǎng)絡(luò)的最后一層開(kāi)始向前知道第一層,其誤差函數(shù)相對(duì)權(quán)值來(lái)說(shuō)是一個(gè)非線性函數(shù),在計(jì)算過(guò)程中會(huì)產(chǎn)生許多局部極小值,所以由此導(dǎo)致了 BP 算法收斂式,不能確定此解是否是最優(yōu)解。BP 帶來(lái)的問(wèn)題是學(xué)習(xí)速率固定,網(wǎng)絡(luò)收斂速度慢,需要較長(zhǎng)的訓(xùn)練時(shí)間。Levenberg-Marquardt Back

7、Propagation(LMBP)算法是牛頓法的變形,因?yàn)榭梢宰钚』芙鉃榉蔷€性函數(shù)平方和的函數(shù),所以可用于求解誤差函數(shù)的最優(yōu)解。它的特點(diǎn)是不需要手動(dòng)調(diào)整學(xué)習(xí)率,訓(xùn)練速度快;并且需要的神經(jīng)元少,更能獲得最優(yōu)解。本次實(shí)驗(yàn)嘗試采用 LMBP 算法進(jìn)行 CNN 網(wǎng)絡(luò)的參數(shù)調(diào)整?;诟咚?牛頓方法的迭代方法,將一階雅可比矩陣和二階赫森矩陣代入得1x(k + 1) = x(k) () () ()() (2)為了使得上式可求逆,可以在赫森矩陣進(jìn)行近似改進(jìn),以使其可逆。則上式轉(zhuǎn)化為差項(xiàng):1x(k) = () () + ()()(3)當(dāng)增加時(shí),上式接近于具有小的學(xué)習(xí)速度的最速下降法,剛開(kāi)始時(shí)其值取較小的值,總

8、體的思想是使得 J(X)下降,最后產(chǎn)生最小值。將 Levenberg-Marquardt 算法應(yīng)用于多層的 CNN,則其中的雅可比矩陣是均方誤差和對(duì)參數(shù)求偏導(dǎo)。然后定義 Marquardt 靈敏度矩陣。下面是 LMBP 算法的基本步驟:計(jì)算各層的輸出以及誤差,通過(guò)誤差計(jì)算所有輸入的平方誤差和。反向傳播。首先初始化靈敏度,然后遞歸計(jì)算各層的靈敏度。最后計(jì)算雅可比矩陣的元素通過(guò)求解上述(3)式計(jì)算x(k)用x(k) + x(k)重復(fù)計(jì)算平方誤差的和。當(dāng)梯度的模小與給定值或平方誤差和減小到某個(gè)目標(biāo)誤差是,則算法達(dá)到收斂五、實(shí)驗(yàn)結(jié)果與分析(1) CNN(BP)利用 MNIST 數(shù)據(jù)集的子集,模型為 5

9、 層的傳統(tǒng) CNN,參數(shù)訓(xùn)練算法為 BP 算法,訓(xùn)練集為 10000,測(cè)試集為 1000,則每 50 圖像收斂效果如圖 5圖 4(2)增加訓(xùn)練集為 60000,測(cè)試集為 10000,則每 50 圖像收斂效果如圖 5,可以看到相比于較小的訓(xùn)練集,此次訓(xùn)練效果達(dá)到了明顯的提升,目標(biāo)函數(shù) MSE 更趨向于穩(wěn)定。圖 5 MSE(LMBP)采用原來(lái)數(shù)據(jù)集的子集,訓(xùn)練樣本為 10000,測(cè)試集 1000,收斂誤(3)差為 0.0005,MSE 為 0.22圖 6 10000/1000(LMBP)(4)增加訓(xùn)練集和測(cè)試集為 60000 和 10000,因?yàn)橛?xùn)練時(shí)間太長(zhǎng),所以截取了圖 5 和圖 6 兩個(gè)時(shí)間點(diǎn)

10、的效果。圖 6 60000/10000(LMBP)表 1結(jié)果分析:如表 1 所示,在兩種不同的 BP 算法下,當(dāng)擴(kuò)增數(shù)據(jù)集時(shí),兩種模型的效果都有,普通 BP 算法的錯(cuò)誤率比原來(lái)減少了 0.08;而基于 LMBP 的在 子數(shù)據(jù)集上可以獲得 0.04 的錯(cuò)誤率,在整個(gè)數(shù)據(jù)集上為 2%,相比梯度下降法的 BP 算法 提高了 9.1%,效果已經(jīng)比較好了。所以本次實(shí)驗(yàn)所采用的基于 LMBP 的識(shí)別中更能獲得最優(yōu)解。六 實(shí)驗(yàn)總結(jié)在 MNIST 手寫體本次實(shí)驗(yàn)的方向是基于寫體識(shí)別,通過(guò)在實(shí)驗(yàn)過(guò)程中自己親身體會(huì)了三網(wǎng)絡(luò)模型的特點(diǎn),根據(jù)老師上課的講解和自己的研究?;菊莆樟说囊话肟蚣?,怎樣搭建一個(gè)基于特定問(wèn)題的網(wǎng)絡(luò)。在此之上,為了優(yōu)化的性能,本次實(shí)驗(yàn)將 LMBP用于獲得了比較好的效果,而且自己對(duì)于LMBP 和普通的BP 算法有了一定一定的了解。希望自己在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和實(shí)驗(yàn)中能夠?yàn)樽约涸趫D像分析方面做一定的鋪墊。實(shí)驗(yàn)數(shù)據(jù)集:MNISndw

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論