




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、卷積神經(jīng)網(wǎng)絡摘要:卷積神經(jīng)網(wǎng)絡是近年來廣泛應用于模式識別、圖像處理等領域的一種高效識別算法,它具有結構簡單、訓練參數(shù)少和適應性強等特點。本文從卷積神經(jīng)網(wǎng)絡的發(fā)展歷史開始,詳細闡述了卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構、神經(jīng)元模型和訓練算法。在此基礎上以卷積神經(jīng)網(wǎng)絡在人臉檢測和形狀識別方面的應用為例,簡單介紹了卷積神經(jīng)網(wǎng)絡在工程上的應用,并給出了設計思路和網(wǎng)絡結構。關鍵字:模型;結構;訓練算法;人臉檢測;形狀識別0 引言卷積神經(jīng)網(wǎng)絡是人工神經(jīng)網(wǎng)絡的一種已成為當前語音分析和圖像識別領域的研究熱點,它的權值共享網(wǎng)絡結構使之更類似于生物神經(jīng)網(wǎng)絡,降低了網(wǎng)絡模型的復雜度,減少了權值的數(shù)量。該優(yōu)點在網(wǎng)絡的輸入是多維圖像
2、時表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡的輸入,避免了傳統(tǒng)識別算法中復雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡是為識別二維形狀而特殊設計的一個多層感知器,這種網(wǎng)絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。 1 卷積神經(jīng)網(wǎng)絡的發(fā)展歷史 1962年Hubel和Wiesel通過對貓視覺皮層細胞的研究,提出了感受野(receptive field)的概念,1984年日本學者Fukushima基于感受野概念提出的神經(jīng)認知機(neocognitron)可以看作是卷積神經(jīng)網(wǎng)絡的第一個實現(xiàn)網(wǎng)絡,也是感受野概念在人工神經(jīng)網(wǎng)絡領域的首次應用。神經(jīng)認知機將一個視覺模式分解成許多子模式(特征),然后進入
3、分層遞階式相連的特征平面進行處理,它試圖將視覺系統(tǒng)模型化,使其能夠在即使物體有位移或輕微變形的時候,也能完成識別。神經(jīng)認知機能夠利用位移恒定能力從激勵模式中學習,并且可識別這些模式的變化形,在其后的應用研究中,F(xiàn)ukushima將神經(jīng)認知機主要用于手寫數(shù)字的識別。隨后,國內外的研究人員提出多種卷積神經(jīng)網(wǎng)絡形式,在郵政編碼識別和人臉識別方面得到了大規(guī)模的應用。通常神經(jīng)認知機包含兩類神經(jīng)元,即承擔特征抽取的S-元和抗變形的C-元。S-元中涉及兩個重要參數(shù),即感受野與閾值參數(shù),前者確定輸入連接的數(shù)目,后者則控制對特征子模式的反應程度。許多學者一直致力于提高神經(jīng)認知機的性能的研究:在傳統(tǒng)的神經(jīng)認知機中
4、,每個S-元的感光區(qū)中由C-元帶來的視覺模糊量呈正態(tài)分布。如果感光區(qū)的邊緣所產生的模糊效果要比中央來得大,S-元將會接受這種非正態(tài)模糊所導致的更大的變形容忍性。我們希望得到的是,訓練模式與變形刺激模式在感受野的邊緣與其中心所產生的效果之間的差異變得越來越大。為了有效地形成這種非正態(tài)模糊,F(xiàn)ukushima提出了帶雙C-元層的改進型神經(jīng)認知機。Trotin 等人提出了動態(tài)構造神經(jīng)認知機并自動降低閉值的方法1,初始態(tài)的神經(jīng)認知機各層的神經(jīng)元數(shù)目設為零,然后會對于給定的應用找到合適的網(wǎng)絡規(guī)模。在構造網(wǎng)絡過程中,利用一個反饋信號來預測降低閾值的效果,再基于這種預測來調節(jié)閾值。他們指出這種自動閾值調節(jié)后
5、的識別率與手工設置閾值的識別率相若,然而,上述反饋信號的具體機制并未給出,并且在他們后來的研究中承認這種自動閾值調節(jié)是很困難的【8】。Hildebrandt將神經(jīng)認知機看作是一種線性相關分類器,也通過修改閾值以使神經(jīng)認知機成為最優(yōu)的分類器。Lovell應用Hildebrandt的訓練方法卻沒有成功。對此,Hildebrandt解釋的是,該方法只能應用于輸出層,而不能應用于網(wǎng)絡的每一層。事實上,Hildebrandt沒有考慮信息在網(wǎng)絡傳播中會逐層丟失。Van Ooyen和Niehuis為提高神經(jīng)認知機的區(qū)別能力引入了一個新的參數(shù)。事實上,該參數(shù)作為一種抑制信號,抑制了神經(jīng)元對重復激勵特征的激勵。
6、多數(shù)神經(jīng)網(wǎng)絡在權值中記憶訓練信息。根據(jù)Hebb學習規(guī)則,某種特征訓練的次數(shù)越多,在以后的識別過程中就越容易被檢測。也有學者將進化計算理論與神經(jīng)認知機結合【9】,通過減弱對重復性激勵特征的訓練學習,而使得網(wǎng)絡注意那些不同的特征以助于提高區(qū)分能力。上述都是神經(jīng)認知機的發(fā)展過程,而卷積神經(jīng)網(wǎng)絡可看作是神經(jīng)認知機的推廣形式,神經(jīng)認知機是卷積神經(jīng)網(wǎng)絡的一種特例。卷積神經(jīng)網(wǎng)絡本身可采用不同的神經(jīng)元和學習規(guī)則的組合形式。其中一種方法是采用M-P神經(jīng)元和BP學習規(guī)則的組合,常用于郵政編碼識別中。還有一種是先歸一化卷積神經(jīng)網(wǎng)絡,然后神經(jīng)元計算出用輸入信號將權值和歸一化處理后的值,再單獨訓練每個隱層得到權值,最后
7、獲勝的神經(jīng)元輸出活性,這個方法在處理二值數(shù)字圖像時比較可行,但沒有在大數(shù)據(jù)庫中得到驗證。第三種方法綜合前兩種方法的優(yōu)勢,即采用McCulloch-Pitts神經(jīng)元代替復雜的基于神經(jīng)認知機的神經(jīng)元。在該方法中,網(wǎng)絡的隱層和神經(jīng)認知機一樣,是一層一層訓練的,但是回避了耗時的誤差反向傳播算法。這種神經(jīng)網(wǎng)絡被稱為改進的神經(jīng)認知機。隨后神經(jīng)認知機和改進的神經(jīng)認知機作為卷積神經(jīng)網(wǎng)絡的例子,廣泛用于各種識別任務中,比如大數(shù)據(jù)庫的人臉識別和數(shù)字識別。下面詳細介紹卷積神經(jīng)網(wǎng)絡的原理、網(wǎng)絡結構及訓練算法。2 卷積神經(jīng)網(wǎng)絡 2.1 網(wǎng)絡結構 卷積神經(jīng)網(wǎng)絡是一個多層的神經(jīng)網(wǎng)絡,每層由多個二維平面組成,而每個平面由多個
8、獨立神經(jīng)元組成。網(wǎng)絡中包含一些簡單元和復雜元,分別記為S-元和C-元。S-元聚合在一起組成S-面,S-面聚合在一起組成S-層,用Us表示。C-元、C-面和C-層(Us)之間存在類似的關系。網(wǎng)絡的任一中間級由S-層與C-層串接而成,而輸入級只含一層,它直接接受二維視覺模式,樣本特征提取步驟已嵌入到卷積神經(jīng)網(wǎng)絡模型的互聯(lián)結構中。一般地,Us為特征提取層,每個神經(jīng)元的輸入與前一層的局部感受野相連,并提取該局部的特征,一旦該局部特征被提取后,它與其他特征間的位置關系也隨之確定下來;Uc是特征映射層,網(wǎng)絡的每個計算層由多個特征映射組成,每個特征映射為一個平面,平面上所有神經(jīng)元的權值相等。特征映射結構采用
9、影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個映射面上的神經(jīng)元共享權值,因而減少了網(wǎng)絡自由參數(shù)的個數(shù),降低了網(wǎng)絡參數(shù)選擇的復雜度。卷積神經(jīng)網(wǎng)絡中的每一個特征提取層(S-層)都緊跟著一個用來求局部平均與二次提取的計算層(C-層),這種特有的兩次特征提取結構使網(wǎng)絡在識別時對輸入樣本有較高的畸變容忍能力【10】。網(wǎng)絡中神經(jīng)元的輸出連接值符合“最大值檢出假說”【15】,即在某一小區(qū)域內存在的一個神經(jīng)元集合中,只有輸出最大的神經(jīng)元才強化輸出連接值。所以若神經(jīng)元近旁存在有輸出比其更強的神經(jīng)元時,其輸出連接值將不被強化。根據(jù)上述假說,就限定了只有一個神經(jīng)元
10、會發(fā)生強化。卷積神經(jīng)網(wǎng)絡的種元就是某S-面上最大輸出的S-元,它不僅可以使其自身強化,而且還控制了鄰近元的強化結果。因而,所有的S-元漸漸提取了幾乎所有位置上相同的特征。在卷積神經(jīng)網(wǎng)絡早期研究中占主導的無監(jiān)督學習中,訓練一種模式時需花費相當長的時間去自動搜索一層上所有元中具有最大輸出的種元,而現(xiàn)在的有監(jiān)督學習方式中,訓練模式同它們的種元皆由教師設定。圖1是文獻12中卷積神經(jīng)網(wǎng)絡的典型結構圖。將原始圖像直接輸入到輸入層(Uc1),原始圖像的大小決定了輸入向量的尺寸,神經(jīng)元提取圖像的局部特征,因此每個神經(jīng)元都與前一層的局部感受野相連。文中使用了4層網(wǎng)絡結構,隱層由S-層和C-層組成。每層均包含多個
11、平面,輸入層直接映射到Us2層包含的多個平面上。每層中各平面的神經(jīng)元提取圖像中特定區(qū)域的局部特征,如邊緣特征,方向特征等,在訓練時不斷修正S-層神經(jīng)元的權值。同一平面上的神經(jīng)元權值相同,這樣可以有相同程度的位移、旋轉不變性。S-層中每個神經(jīng)元局部輸入窗口的大小均為5x5,由于同一個平面上的神經(jīng)元共享一個權值向量,所以從一個平面到下一個平面的映射可以看作是作卷積運算,S-層可看作是模糊濾波器,起到二次特征提取的作用。隱層與隱層之間空間分辨率遞減,而每層所含的平面數(shù)遞增,這樣可用于檢測更多的特征信息。 圖1 卷積神經(jīng)網(wǎng)絡結構圖Fig.1 The structure of convolutional
12、 neural network2.2 神經(jīng)元模型在卷積神經(jīng)網(wǎng)絡中,只有S-元間的輸入連接是可變的,而其他元的輸入連接是固定的。用Usl(kl,n)表示第l級,第kl個S-面上,一個S-元的輸出,用Ucl(kl,n)表示在該級第kl個C-面上一個C-元的輸出。其中,n是一個二維坐標,代表輸入層中神經(jīng)元的感受野所在位置,在第一級,感受野的面積較小,隨后隨著l的增大而增加。 (2.1)式(2.1)中al(v,kl-1,k)和bl(k)分別表示興奮性輸入和抑制性輸入的連接系數(shù);rl(k)控制特征提取的選擇性,其值越大,對噪音和特征畸變的容錯性越差,它是一常量,它控制著位于每一S-層處的單個抑制子平面中
13、每個神經(jīng)元的輸入: rl(k)的值越大,與抑制性成比例的興奮性就得越大,以便能產生一個非零輸出,換句話說就是相當好的匹配才一能激活神經(jīng)元,然而因為rl(k)還需乘以(),所以rl值越大就能產生越大的輸出,相反,小的rl(k)值允許不太匹配的神經(jīng)元興奮,但它只能產生一個比較小的輸出;(x)為非線性函數(shù)。v是一個矢量,表示處于n感受野中的前層神經(jīng)元n的相對位置,Al確定S神經(jīng)元要提取特征的大小,代表n的感受野。所以式中對v的求和也就包含了指定區(qū)域當中所有的神經(jīng)元;外面對于勺kl-1的求和,也就包含了前一級的所有子平面,因此在分子中的求和項有時也被稱作興奮項,實際上為乘積的和,輸入到n的神經(jīng)元的輸出
14、都乘上它們相應的權值然后再輸出到nc。 (2.2)式(2.2)表示的是指定某級(第l級)、某層(S-層)、某面(第kl個S-面)、某元(向量為n處)的一個輸出。對于一個S-元的作用函數(shù)可分為兩部分,即興奮性作用函數(shù)和抑制性作用函數(shù)。興奮性作用使得膜電位上升,而抑制性作用起分流作用。興奮性作用為: (2.3) S-元與其前一級C-層的所有C-面均有連接,所連接的C-元個數(shù)由該S-級的參數(shù)感受野Al唯一確定。網(wǎng)絡中另一個重要的神經(jīng)元是假設存在的抑制性神經(jīng)元V-元Uvl (n),它位于S-面上滿足以下三個條件:環(huán)元的抑制作用影響整個網(wǎng)絡的運作;C-元與V-元間存在著固定的連接;V-元的輸出事先設為多
15、個C-元輸出的平均值??梢杂盟鼇肀硎揪W(wǎng)絡的抑制性作用,發(fā)送一個抑制信號給Usl(kl,n)神經(jīng)元,從與Usl(kl,n)類似的元接收它的輸入連接值,并輸出: (2.4) 權cl(v)是位于V元感受野中的v處的神經(jīng)元相連的權值,不需要訓練這些值,但它們應隨著v的增加而單調減小。因此,選擇式2.5的歸一化權值。 (2.5) 式2.5中的歸一化常量C由式2.6給出,其中:r(v)是從v處到感受野中心的歸一化距離: (2.6) C神經(jīng)元的輸出由式2.7給出: (2.7)上式中(x)為: (2.8)式中為一常量。kl是第l級中的S子平面的數(shù)量。Dl是C元的感受野。因此,它和特征的大小相對應。dl(v)是
16、固定興奮連接權的權值,它是v的單調遞減函數(shù)。如果第kl個S神經(jīng)元子平面從第kl-1子平面處收到信號,那么jl(kl,kl-1)的值為,1否則為0。最后,S_層的Vs神經(jīng)元的輸出為 (2.9)圖2為卷積神經(jīng)網(wǎng)絡中不同神經(jīng)元之間的連接關系圖,從圖中可以很清楚地看出各種不同神經(jīng)元之間的連接關系。圖2 卷積神經(jīng)網(wǎng)絡中不同神經(jīng)元間的連接Fig.2 The connections convolutional neural network among different neurons2.3 卷積網(wǎng)絡的訓練過程 神經(jīng)網(wǎng)絡用于模式識別的主流是有指導學習網(wǎng)絡,無指導學習網(wǎng)絡更多的是用于聚類分析。對于有指導的模式
17、識別,由于任一樣本的類別是已知的,樣本在空間的分布不再是依據(jù)其自然分布傾向來劃分,而是要根據(jù)同類樣本在空間的分布及不同類樣本之間的分離程度找一種適當?shù)目臻g劃分方法,或者找到一個分類邊界,使得不同類樣本分別位于不同的區(qū)域內。這就需要一個長時間且復雜的學習過程,不斷調整用以劃分樣本空間的分類邊界的位置,使盡可能少的樣本被劃分到非同類區(qū)域中。由于本文主要是檢測圖像中的人臉,所以可將樣本空間分成兩類:樣本空間和非樣本空間,因而本文所使用的學習網(wǎng)絡也是有指導的學習網(wǎng)絡。卷積網(wǎng)絡在本質上是一種輸入到輸出的映射,它能夠學習大量的輸入與輸出之間的映射關系,而不需要任何輸入和輸出之間的精確的數(shù)學表達式,只要用已
18、知的模式對卷積網(wǎng)絡加以訓練,網(wǎng)絡就具有輸入輸出對之間的映射能力。卷積網(wǎng)絡執(zhí)行的是有導師訓練,所以其樣本集是由形如:(輸入向量,理想輸出向量)的向量對構成的。所有這些向量對,都應該是來源于網(wǎng)絡即將模擬的系統(tǒng)的實際“運行”結果。它們可以是從實際運行系統(tǒng)中采集來的。在開始訓練前,所有的權都應該用一些不同的小隨機數(shù)進行初始化?!靶‰S機數(shù)”用來保證網(wǎng)絡不會因權值過大而進入飽和狀態(tài),從而導致訓練失敗;“不同”用來保證網(wǎng)絡可以正常地學習。實際上,如果用相同的數(shù)去初始化權矩陣,則網(wǎng)絡無能力學習。訓練算法主要包括4步,這4步被分為兩個階段:第一階段,向前傳播階段:從樣本集中取一個樣本(X,Yp),將X輸入網(wǎng)絡;
19、計算相應的實際輸出Op。在此階段,信息從輸入層經(jīng)過逐級的變換,傳送到輸出層。這個過程也是網(wǎng)絡在完成訓練后正常運行時執(zhí)行的過程。在此過程中,網(wǎng)絡執(zhí)行的是由式(2.7)計算: Op=Fn(F2(F1(XpW(1)W(2)W(n)第二階段,向后傳播階段計算實際輸出Op與相應的理想輸出Yp的差;按極小化誤差的方法調整權矩陣。這兩個階段的工作一般應受到精度要求的控制,在這里,用式(2.8)計算Ep。作為網(wǎng)絡關于第p個樣本的誤差測度。而將網(wǎng)絡關于整個樣本集的誤差測度定義為:E=Ep。 (2.8)如前所述,之所以將此階段稱為向后傳播階段,是對應于輸入信號的正常傳播而言的。因為在開始調整神經(jīng)元的連接權時,只能
20、求出輸出層的誤差,而其他層的誤差要通過此誤差反向逐層后推才能得到。有時候也稱之為誤差傳播階段。為了更清楚地說明本文所使用的卷積神經(jīng)網(wǎng)絡的訓練過程,首先假設輸入層、中間層和輸出層的單元數(shù)分別是N、L和M。X=(x0,x1,xN)是加到網(wǎng)絡的輸入矢量,H=(h0,h1,hL)是中間層輸出矢量,Y=(y0,y1,yM)是網(wǎng)絡的實際輸出矢量,并且用D=(d0,d1,dM)來表示訓練組中各模式的目標輸出矢量輸出單元i到隱單元j的權值是Vij,而隱單元j到輸出單元k的權值是Wjk。另外用k和j來分別表示輸出單元和隱含單元的閾值。于是,中間層各單元的輸出為式(2.9): (2.9)而輸出層各單元的輸出是式(
21、2.10): (2.10)其中f(*)是激勵函數(shù)采用S型函數(shù)式(2.11): (2.11)在上述條件下,網(wǎng)絡的訓練過程如下:1)選定訓練組。從樣本集中分別隨機地選取300個樣本作為訓練組。2)將各權值Vij,Wjk和閾值j,k置成小的接近于0的隨機值,并初始化精度控制參數(shù)和學習率。3)從訓練組中取一個輸入模式X加到網(wǎng)絡,并給定它的目標輸出矢量D。4)利用式(2.9)計算出一個中間層輸出矢量H,再用式(2.10)計算出網(wǎng)絡的實際輸出矢Y。5)將輸出矢量中的元素yk與目標矢量中的元素dk進行比較,計算出M個輸出誤差項式(2.12): (2.12) 對中間層的隱單元也計算出L個誤差項式(2.13):
22、 (2.13)6)依次計算出各權值的調整量式(2.14)和式(2.15): (2.14) (2.15)和閾值的調整量式(2.16)和(2.17): (2.16) (2.17)7)調整權值式(2.18)和式(2.19): (2.18) (2.19)調整閾值式(2.20)和(2.21): (2.20) (2.21)8)當k每經(jīng)歷1至M后,判斷指標是否滿足精度要求:E,其中E是總誤差函數(shù),且。如果不滿足,就返回(3),繼續(xù)迭代。如果滿足就進入下一步。9)訓練結束,將權值和閾值保存在文件中。這時可以認為各個權值已經(jīng)達穩(wěn)定,分類器形成。再一次進行訓練時,直接從文件導出權值和閾值進行訓練,不需要進行初始化
23、。2.4 卷積神經(jīng)網(wǎng)絡的優(yōu)點 卷積神經(jīng)網(wǎng)絡CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測層通過訓練數(shù)據(jù)進行學習,所以在使用CNN時,避免了顯示的特征抽取,而隱式地從訓練數(shù)據(jù)中進行學習;再者由于同一特征映射面上的神經(jīng)元權值相同,所以網(wǎng)絡可以并行學習,這也是卷積網(wǎng)絡相對于神經(jīng)元彼此相連網(wǎng)絡的一大優(yōu)勢。卷積神經(jīng)網(wǎng)絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優(yōu)越性,其布局更接近于實際的生物神經(jīng)網(wǎng)絡,權值共享降低了網(wǎng)絡的復雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡這一特點避免了特征提取和分類過程中數(shù)據(jù)重建的復雜度。流的分類方式幾乎都是基于統(tǒng)計特征的
24、,這就意味著在進行分辨前必須提取某些特征。然而,顯式的特征提取并不容易,在一些應用問題中也并非總是可靠的。卷積神經(jīng)網(wǎng)絡,它避免了顯式的特征取樣,隱式地從訓練數(shù)據(jù)中進行學習。這使得卷積神經(jīng)網(wǎng)絡明顯有別于其他基于神經(jīng)網(wǎng)絡的分類器,通過結構重組和減少權值將特征提取功能融合進多層感知器。它可以直接處理灰度圖片,能夠直接用于處理基于圖像的分類。卷積網(wǎng)絡較一般神經(jīng)網(wǎng)絡在圖像處理方面有如下優(yōu)點: a) 輸入圖像和網(wǎng)絡的拓撲結構能很好的吻合;b) 特征提取和模式分類同時進行,并同時在訓練中產生;c)權重共享可以減少網(wǎng)絡的訓練參數(shù),使神經(jīng)網(wǎng)絡結構變得更簡單, 適應性更強。3 卷積神經(jīng)網(wǎng)絡的應用3.1基于卷積網(wǎng)絡
25、的形狀識別 物體的形狀是人的視覺系統(tǒng)分析和識別物體的基礎,幾何形狀是物體的本質特征的表現(xiàn),并具有平移、縮放和旋轉不變等特點,所以在模式識別領域,對于形狀的分析和識別具有十分重要的意義,而二維圖像作為三維圖像的特例以及組成部分,因此二維圖像的識別是三維圖像識別的基礎。物體形狀的識別方法可以歸納為如下兩類,其中,第一類是基于物體邊界形狀的識別,這種邊界的特征主要有周長、角、彎曲度、寬度、高度、直徑等,第二類是基于物體所覆蓋區(qū)域的形狀識別,這種區(qū)域的特征主要有面積、圓度、矩特征等,上述兩類方法都適用于物體形狀的結構或區(qū)域的識別。卷積神經(jīng)網(wǎng)絡也是一種基于物體邊界形狀的識別,它既可以識別封閉形狀同時對不
26、封閉形狀也有較高的識別率。 圖3 試驗用卷積神經(jīng)網(wǎng)絡的結構圖Fig.3 The structure of convolutional neural network圖3 是所用的網(wǎng)絡結構,U0是輸入層,Uc4是識別層。Us為特征提取層,Us1的輸入是光感受器的像素位圖,該層只是提取一些相對簡單的像素特征,隨后幾層的S-元提取一些更為復雜的像素特征,隨著層數(shù)的增加,提取的特征也相應遞增;Uc是特征映射層,提取高階特征,提取這些高階特征時不需要提取像簡單特征那樣的精確位置信息。網(wǎng)絡中S-元的閉值是預先設定值,訓練時權值的更新基于Fukushima提出的增強型學習規(guī)則,如式(2.10)所示,網(wǎng)絡的訓練
27、方式采用的是無監(jiān)督學習方式。圖4與圖5是部分實驗樣本圖 圖4部分訓練樣本圖Fig.4 Part of the training sample plans圖5部分測試樣本圖Fig.5 Part of the test sample plans樣本分為三角形,四邊形,八邊形,圓形四類,每類10個共80個樣本,實驗訓練時采用40個樣本,測試時采用剩余的40個樣本,最終的識別結果如表2所示。 表1 訓練后網(wǎng)絡參數(shù)Table1 Network parameters after training級數(shù)S-層包含的S-面數(shù)S-元數(shù)第一級1632第二級19290第三級15272第四級789 表2 識別結果Tab
28、le3.2 Recognition results待識別形狀識別結果三角形10個全對四邊形10個全對八邊形10個全對圓形對9個,另一個錯識成四邊形識別錯誤樣本如圖6所示: 圖6測試出錯樣本 Fig.6 The sample error in test識別錯誤的原因是由于訓練所用樣本模式較少,不能覆蓋所有的圓形模式,以至于該測試模式輸入網(wǎng)絡時,與之相近的四邊形模式獲勝,最終得到錯誤的輸出結果。這里采用卷積神經(jīng)網(wǎng)絡進行形狀識別目的主要是為了驗證卷積神經(jīng)網(wǎng)絡的模式識別能力,所以雖然采用的樣本圖片較少,但已經(jīng)能夠說明卷積網(wǎng)。絡在形狀識別時有較高的識別率和抗畸變性,而識別前的車牌字符由于前期處理(定位、
29、分割)能力的局限性,具有一定的噪聲和變形,因此可以將卷積神經(jīng)網(wǎng)絡應用于車牌識別系統(tǒng)。3.2基于卷積網(wǎng)絡的人臉檢測卷積神經(jīng)網(wǎng)絡與傳統(tǒng)的人臉檢測方法不同,它是通過直接作用于輸入樣本,用樣本來訓練網(wǎng)絡并最終實現(xiàn)檢測任務的。它是非參數(shù)型的人臉檢測方法,可以省去傳統(tǒng)方法中建模、參數(shù)估計以及參數(shù)檢驗、重建模型等的一系列復雜過程。本文針對圖像中任意大小、位置、姿勢、方向、膚色、面部表情和光照條件的人臉,提出了一種基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,簡稱CNN)的人臉檢測方法。設計了一個輸入層節(jié)點數(shù)為400、輸出層節(jié)點數(shù)為2、四層隱藏層的CNN網(wǎng)絡。網(wǎng)絡結構如圖7。
30、圖7 卷積網(wǎng)絡結構Fig.1 The structure of convolutional neural network輸入、輸出層的設計:卷積神經(jīng)網(wǎng)絡是一種分層型網(wǎng)絡,具有輸入層、中間層(隱含層)和輸出層的三層結構。對于一個神經(jīng)網(wǎng)絡,中間層可以有兩個以上,而具有一個中間層的神經(jīng)網(wǎng)絡則是一種基本的神經(jīng)網(wǎng)絡模型。實驗表明,增加隱含層的層數(shù)和隱含層神經(jīng)元的個數(shù)不一定能夠提高網(wǎng)絡的精度和表達能力。使用輸入窗口的大小都是20×20,這是通常能使用的最小窗口,這個窗口包含了人臉非常關鍵的部分。因此,可將輸入層節(jié)點數(shù)設計為400,對應于20×20圖像窗口中按行展開的各個像素。考慮到本文
31、使用卷積神經(jīng)網(wǎng)絡是用作分類器,其類別數(shù)為2(即人臉和非人臉),所以輸出層的節(jié)點數(shù)為2。隱藏層的設計:隱藏層為四層,分別是圖像特征增強的卷積層、數(shù)據(jù)縮減的子抽樣層、和兩個激活函數(shù)層。其結構如圖7所示。設計方法如下:卷積層的設計:信號的卷積運算是信號處理領域中最重要的運算之一。比如,在圖像處理、語音識別、地震勘探、超聲診斷、光學成像、系統(tǒng)辨識及其他諸多信號處理領域中。卷積運算一個重要的特點就是,通過卷積運算,可以使原信號特征增強,并且降低噪音。在進行人臉檢測時使用離散的卷積核,對圖像進行處理。由于離散卷積核只需要進行優(yōu)先次的加法運算,而且是整數(shù)運算,沒有浮點運算,計算機可以迅速的計算出結果。本文選
32、定的四個卷積核,分別為兩個拉普拉斯算子和兩個Sobel邊緣算子。輸入圖像分別經(jīng)過這四個卷積核的卷積得到四個18×18的待測圖像。其中拉普拉斯算子是圖像的整體特征增強。而Sobel邊緣算子則強化了邊緣特征。子抽樣層的設計:利用圖像局部相關性的原理,對圖像進行子抽樣,可以減少數(shù)據(jù)處理量同時保留有用信息。本層把卷積層輸出的四個圖像作為輸入,分別進行子抽樣運算后輸出四個9×9圖像。而該圖像保留了原圖像的絕大部分有用信息。子抽樣點的值是原圖像相鄰四個點的平均值。激活函數(shù)層:本層分為兩層激活函數(shù)層,一層為通過與抽樣層輸出的四個圖像分別進行全連結,得到四個中間輸出。第二層為有四個中間結果
33、連接的四個激活函數(shù)并與輸出層連接,得出網(wǎng)絡判斷結果。這層有9×9×41×4個激活函數(shù)參數(shù)需要訓練。激勵函數(shù)的選擇:網(wǎng)絡的拓撲結構和訓練數(shù)據(jù)確定后,總誤差函數(shù)就完全由激勵函數(shù)決定了,因此,激發(fā)函數(shù)的選擇對網(wǎng)絡的收斂性具有很重要的作用。對每一個人工神經(jīng)元來說,它可以接受一組來自系統(tǒng)中其他神經(jīng)元的輸入信號,每個輸入對應一個權,所以輸入的加權和決定該神經(jīng)元的激活狀態(tài)。按照卷積網(wǎng)絡算法的要求,這些神經(jīng)元所用的激活函數(shù)必須是處處可導的。在設計基于人工神經(jīng)網(wǎng)絡的分類系統(tǒng)中,不僅網(wǎng)絡的結構設計非常重要,而且訓練數(shù)據(jù)的收集也十分重要。在人臉檢測系統(tǒng)中除了選擇好的人臉樣本外同時還要解
34、決從大量非人臉圖像中選擇非人臉樣本的問題。對于人臉樣本圖像還要進行一些預處理,以消除噪音和光線差異的影響。為了提高網(wǎng)絡的健壯性,收集各種不同類型的人臉樣本;為了得到更多的樣本,并提高旋轉不變性和亮度可變性的能力,對初始人臉樣本集中的部分圖像進行一些變換。然后是關于非人臉樣本的收集,這是基于神經(jīng)網(wǎng)絡的檢測方法中的一個難題,按照常用的Bootstrap處理方法,可以從大量的圖像中收集這些邊界樣本,同時根據(jù)卷積神經(jīng)網(wǎng)絡的特點,做出一些改進,降低隨機性,提高了效率。在獲得圖像數(shù)據(jù)后,通過一些歸一化和預處理步驟,減小圖像噪聲的影響和消除圖像亮度及對比度的差異,提高數(shù)據(jù)的針對性和魯棒性,得到統(tǒng)計的方法進行
35、學習處理樣本的最基本的特征向量,然后使用這些特征向量訓練網(wǎng)絡。4 總結 本文首先闡述了卷積神經(jīng)網(wǎng)絡的原理。卷積神經(jīng)網(wǎng)絡是在神經(jīng)認知機的基礎上為了處理模式識別問題而提出的網(wǎng)絡。此網(wǎng)絡是多層的分級神經(jīng)網(wǎng)絡,每層的神經(jīng)元都是相同類型的,或簡單,或復雜,或是超復雜的神經(jīng)元,在每層之間都有非常稀少并且固定模式的連接。介紹了基本的卷積神經(jīng)網(wǎng)絡結構及其神經(jīng)元模型,接著討論了卷積神經(jīng)網(wǎng)絡的訓練過程,當需要的特征已預先確定,那么就采用有監(jiān)督算法,網(wǎng)絡一層一層地學習,反之則進行無監(jiān)督學習。最后簡要的介紹了卷積神經(jīng)網(wǎng)絡在形狀識別和人臉檢測中的應用。目前,卷積神經(jīng)網(wǎng)絡已經(jīng)被應用于二維圖像處理、模式識別、機器視覺、形狀
36、識別、智能交通等領域,并且能夠很好的解決各個領域中的問題。參考文獻1 王天翼. 基于卷積網(wǎng)絡的三位特征提取 學位論文.吉林:吉林大學,2006.2 李葆青. 基于卷積神經(jīng)網(wǎng)絡的模式分類器 J.大連大學學報,2003,24(2):19-23.3 Simon Haykin 著,葉世偉,史忠植譯.神經(jīng)網(wǎng)絡原理 M. 北京:機械工業(yè)出版社,2004.4 肖柏旭.基于卷積網(wǎng)絡的人臉檢測的研究與實現(xiàn)學位論文.北京:華北電力大學, 2009.5 陸璐. 卷積神經(jīng)網(wǎng)絡的研究及其在車牌識別系統(tǒng)中的應用 學位論文.合肥:合肥工業(yè)大學,2006.6顧佳玲,彭宏京.增長式卷積神經(jīng)網(wǎng)絡及其在人臉檢測中的應用 J.系統(tǒng)仿
37、真學報, 2009,21(8):2441-2445.7 趙志宏,楊紹普,馬增強.基于卷積神經(jīng)網(wǎng)絡LeNet-5的車牌字符識別研究 J.系統(tǒng)仿真學報,2010,22(3):638-641.8 T .H .Hildebrandt, Optimal Training of Thresholded Linear Correlation Classifiers, IEEE Transactions on Neural Networks Z(6),PP.577一588,Nov.(1991).9 K. Fukushima,“Neocognitron:A self-organizing neural-netw
38、ork model for a Mechanism of Pattern recognition unaffected by shift in position,Biol. Cybern.,vol.36,pp.193一202,1980.10 C.Neubauer,Shape, position and size invariant visual pattern recognition based on principles of neocognitron and perception in Artificial Neural Networks,1.AlexanderandJ.Taylor,Ed
39、s. Amsterdam the Netherlands: North一Holland,vol.2,1992,PP.833一837.11 D. Lovell,et al.,Comments on“Optimal Training of Thresholded Linear Correlation Classifiers”,IEEE Trans .On Neural Networks 4(2),PP.367一369,March(1993). 12 K. Fukushima,“Analysis of the process of visual pattern recognition by the
40、neocognitron,”Neural Networks,vol.2,pp.413-421,1989 13 Van Ooyen and B. Nienhuis,Pattern Recognition in the Neocognitron Is Improved一by Neuronal Adaption,Biological Cyberneties70,pp.47-53(1993).14 石大明,劉海濤,舒文豪.結合進化計算的神經(jīng)認知機.計算機學報J,2001,24(5):468一47315 Claus Neubauer. Evaluation of Convolutional Neural
41、 Networks for VisualRecognition,Neural Netwoks,vol.9,no.4,pp.685-696(1998)16 K.Fukushima and M.Tanigawa,“Use of different thresholds in learning and recognition,”NeuroeomPuting,vol.11,pp.1-17,1996.17 G. W. Cottrell,“EMPATH: Face,emotion,and gender recognition using holons,”in Advances in Neural Information Processing Sys18 H. Bourlard and Y. Kamp,“Autoassoziation by multilayerperceptrons and singular value decomposition,”Biol. Cybern.,vol.59,pp.291-294,1988.19洪家榮,李星原. Neocognitron學習算法分析. 軟件學
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東省泰安一中、寧陽一中2025年高三第一次模擬考試化學試卷含解析
- 護士臨床工作總結
- 五項管理主題班會
- 北京豐臺區(qū)北京第十二中學2025屆高三第六次模擬考試化學試卷含解析
- 學院年度工作總結報告
- 2023年廣東省廣州市第27屆WMO小學二年級上學期奧林匹克數(shù)學競賽復賽試卷
- 2025屆云南省臨滄市高三第六次模擬考試化學試卷含解析
- 廣西壯族自治區(qū)柳州市柳州高級中學2025年高三下學期第六次檢測化學試卷含解析
- 小班幼兒勞動教研工作總結
- 全肺切除術后護理診斷
- 湖北省部分名校2024-2025學年高二下學期3月聯(lián)考物理試卷(A)(原卷版+解析版)
- 第5課+光色交匯+課件-2024-2025學年浙人美版(2024)初中美術七年級下冊
- (2025)政工職稱考試題庫(附參考答案)
- 臨沂考科目一試題及答案
- 2025年初級等保測評試題及答案
- 真需求-打開商業(yè)世界的萬能鑰匙
- 執(zhí)行款收款賬戶確認書模版
- 機組DEH、ETS、FSSS、MEH、METS系統(tǒng)邏輯
- 教練技術一階段講義
- 乙烯裂解爐焊接施工工藝及驗收規(guī)程
- 鋼格柵板安裝方案
評論
0/150
提交評論