深度學(xué)習(xí)與信號處理:原理與實踐 課件 第8、9章-深度受限玻爾茲曼機、深度置信網(wǎng)絡(luò).完成_第1頁
深度學(xué)習(xí)與信號處理:原理與實踐 課件 第8、9章-深度受限玻爾茲曼機、深度置信網(wǎng)絡(luò).完成_第2頁
深度學(xué)習(xí)與信號處理:原理與實踐 課件 第8、9章-深度受限玻爾茲曼機、深度置信網(wǎng)絡(luò).完成_第3頁
深度學(xué)習(xí)與信號處理:原理與實踐 課件 第8、9章-深度受限玻爾茲曼機、深度置信網(wǎng)絡(luò).完成_第4頁
深度學(xué)習(xí)與信號處理:原理與實踐 課件 第8、9章-深度受限玻爾茲曼機、深度置信網(wǎng)絡(luò).完成_第5頁
已閱讀5頁,還剩128頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第8章深度受限玻爾茲曼機8.1玻爾茲曼機8.2稀疏受限玻爾茲曼機及競爭學(xué)習(xí)8.3分類受限玻爾茲曼機8.4(2D)2PCA受限玻爾茲曼機8.5受限玻爾茲曼機的步態(tài)特征提取及其識別深度玻爾茲曼機是一種以受限玻爾茲曼機(RestrictedBoltzmannMachine,RBM)為基礎(chǔ)的深度學(xué)習(xí)模型,其本質(zhì)是一種特殊構(gòu)造的神經(jīng)網(wǎng)絡(luò)。深度玻爾茲曼機由多層受限玻爾茲曼機疊加而成的,中間層與相鄰層是雙向連接的。第8章深度受限玻爾茲曼機隨機網(wǎng)絡(luò)不是按某種確定性的網(wǎng)絡(luò)方程進行狀態(tài)演變,而是按某種概率分布決定其狀態(tài)轉(zhuǎn)移。神經(jīng)元的凈輸入不能決定其狀態(tài)?。边€是取0,但能決定其狀態(tài)取1還是?。暗母怕?。這就是隨機神經(jīng)網(wǎng)絡(luò)算法的基本概念。玻爾茲曼機(BoltzmannMachineBM)是一種結(jié)合模擬退火思想的隨機神經(jīng)網(wǎng)絡(luò),與其他神經(jīng)網(wǎng)絡(luò)的主要區(qū)別如下:學(xué)習(xí)(訓(xùn)練)階段運行(預(yù)測)階段隨機網(wǎng)絡(luò)不像其他網(wǎng)絡(luò)那樣基于某種確定性算法調(diào)整權(quán)值,而是按某種概率分布進行修改;8.1.1BM網(wǎng)絡(luò)結(jié)構(gòu)及運行原理BM機的結(jié)構(gòu)介于離散型Hopfield神經(jīng)網(wǎng)絡(luò)(DiscreteHopfiledNeuralNetworkDHNN)全互連與BP網(wǎng)絡(luò)的層次結(jié)構(gòu)之間。BM網(wǎng)絡(luò)結(jié)構(gòu)形式上,與單層反饋網(wǎng)絡(luò)DHNN相似,權(quán)值對稱且自身無反饋;功能上,與三層BP網(wǎng)相似,具有輸入神經(jīng)元(或節(jié)點)、輸出節(jié)點和隱層神經(jīng)元。一般把輸入與輸出節(jié)點稱為可見神經(jīng)元,隱節(jié)點稱為不可見神經(jīng)元,訓(xùn)練時輸入輸出節(jié)點收集訓(xùn)練樣本,而隱節(jié)點主要起輔助作用,用來實現(xiàn)輸入輸出之間的聯(lián)系,使得訓(xùn)練集能在可見單元再現(xiàn),如圖所示。BM機的3類神經(jīng)元之間沒有明顯的層次。1.結(jié)構(gòu)2.運行原理

BM網(wǎng)絡(luò)中每個神經(jīng)元的興奮或抑制具有隨機性,其概率取決于輸入的神經(jīng)元。設(shè)BM網(wǎng)絡(luò)中單個神經(jīng)元的形式化描述,如圖所示。單個神經(jīng)元設(shè)BM網(wǎng)絡(luò)中單個神經(jīng)元的凈輸入為

為輸入層第i個輸入,為神經(jīng)元j與神經(jīng)元i之間的連接權(quán),為偏置。與DHNN不同的是,凈輸入并不能通過符號轉(zhuǎn)移函數(shù)直接獲得確定的輸出狀態(tài),實際的輸出狀態(tài)將按照某種概率發(fā)生,神經(jīng)元j輸出依概率取1或0。取1的概率為狀態(tài)為0的概率就用1減去即可。溫度T對概率的影響凈輸入越大,神經(jīng)元狀態(tài)?。钡母怕试酱?;凈輸入越小,神經(jīng)元狀態(tài)?。暗母怕试酱?。而溫度T的變化可改變概率曲線的形狀。當(dāng)溫度T較高時,概率曲線變化平緩,對于同一凈輸入得到的狀態(tài)為0或1的概率差別?。欢鴾囟鹊蜁r,概率曲線陡峭,對于同一凈輸入狀態(tài)為1或0的概率差別大;當(dāng)T=0時,概率函數(shù)退化為符號函數(shù),神經(jīng)元輸出狀態(tài)將無隨機性。8.1.2網(wǎng)絡(luò)能量函數(shù)與搜索機制BM機采用與DHNN網(wǎng)絡(luò)相同的能量函數(shù)描述網(wǎng)絡(luò)狀態(tài),即設(shè)BM機按異步方式工作,每次第j個神經(jīng)元改變狀態(tài),根據(jù)能量變化公式為(1)當(dāng)凈輸入大于0時,狀態(tài)為1的概率大于0.5。若原來狀態(tài),則,從而;若原來狀態(tài),則,從而,能量下降;(2)當(dāng)凈輸入小于0時,狀態(tài)為1的概率小于0.5。若原來狀態(tài),則,從而;若原來狀態(tài),則,從而,能量下降;8.1.2網(wǎng)絡(luò)能量函數(shù)與搜索機制以上各種可能的情況表明,對于BM機,隨著網(wǎng)絡(luò)狀態(tài)的演變,從概率意義上網(wǎng)絡(luò)的能量總是朝著減小的方向變化。這就意味著盡管網(wǎng)絡(luò)能量的總趨勢是朝著減小的方向演進,但不排除在有些神經(jīng)元狀態(tài)可能會按照小概率取值,從而使網(wǎng)絡(luò)能量暫時增加。正是因為有了這種可能性,BM機才具有從局部極小的低谷中跳出的“爬山”能力,這一點是BM機與DHNN網(wǎng)能量變化的根本區(qū)別。由于采用神經(jīng)元狀態(tài)按概率隨機取值的工作方式,BM機具有不斷跳出位置較高的低谷搜索位置較低的新低谷的能力。這種運行方式稱為搜索機制,即網(wǎng)絡(luò)在運行過程中不斷地搜索更低的能量極小值,直到達到能量的全局最小。從模擬退火的原理可以看出,溫度T不斷下降可使網(wǎng)絡(luò)"爬山"能力由強減弱,這正是保證BM機能成功搜索到能量全局最小的有效措施。8.1.3Boltzmann分布設(shè)時對應(yīng)的網(wǎng)絡(luò)能量為,時網(wǎng)絡(luò)能量為,當(dāng)由1變?yōu)?時,有,于是;對應(yīng)的狀態(tài)為1或狀態(tài)為0的概率為將上式推廣到網(wǎng)絡(luò)中任意兩個狀態(tài)出現(xiàn)的概率與之對應(yīng)能量之間的關(guān)系,有8.1.3Boltzmann分布這就是著名的Boltzmann分布,式表明:BM機處于某一狀態(tài)的概率主要取決于此狀態(tài)下的能量,能量越低概率越大;BM機處于某一狀態(tài)的概率還取決于溫度參數(shù)T,溫度越高,不同狀態(tài)出現(xiàn)的概率越近,網(wǎng)絡(luò)能量較容易跳出局部極小而搜索全局最小,溫度越低,不同狀態(tài)出現(xiàn)的概率差別越大,網(wǎng)絡(luò)能量較不容易改變,從而可以使網(wǎng)絡(luò)搜索收斂。這正是采用模擬退火方法搜索全局最小的原因所在。8.1.3Boltzmann分布用BM機進行優(yōu)化計算時,可構(gòu)造目標(biāo)函數(shù)為網(wǎng)絡(luò)的能量函數(shù),為防止目標(biāo)函數(shù)陷入局部最優(yōu),采用上述模擬退火算法進行最優(yōu)解的搜索,開始時溫度設(shè)置很高,此時神經(jīng)元狀態(tài)為1或0概率幾乎相等,因此網(wǎng)絡(luò)能量可以達到任意可能的狀態(tài),包括局部最小或全局最小。當(dāng)溫度下降,不同狀態(tài)的概率發(fā)生變化,能量低的狀態(tài)出現(xiàn)的概率大,而能量高的狀態(tài)出現(xiàn)的概率小。當(dāng)溫度逐漸降至0時,每個神經(jīng)元要么只能取1,要么只能取0,此時網(wǎng)絡(luò)的狀態(tài)就凝固在目標(biāo)函數(shù)全局最小附近。對應(yīng)的網(wǎng)絡(luò)狀態(tài)就是優(yōu)化問題的最優(yōu)解。溫度對網(wǎng)絡(luò)能量的影響:BM網(wǎng)絡(luò)類型用BM機進行聯(lián)想時,可通過學(xué)習(xí)用網(wǎng)絡(luò)穩(wěn)定狀態(tài)的概率來模擬訓(xùn)練樣本的出現(xiàn)概率。根據(jù)學(xué)習(xí)類型,BM機可分為自聯(lián)想和異聯(lián)想。其中隱節(jié)點個數(shù)可以為0,而且有些線是單向的。自聯(lián)想型BM機中的可見節(jié)點V與DHNN網(wǎng)中的節(jié)點相似,既是輸入節(jié)點也是輸出節(jié)點,隱節(jié)點H的數(shù)目由學(xué)習(xí)的需要決定,而最少可以為0;異聯(lián)想BM機中的可見節(jié)點V需按照功能分為輸入節(jié)點組I和輸出節(jié)點組O。8.1.4Boltzmann學(xué)習(xí)算法1.學(xué)習(xí)過程通過有導(dǎo)師學(xué)習(xí),BM網(wǎng)絡(luò)可以對訓(xùn)練集中各種模式的概率分布進行模擬,從而實現(xiàn)聯(lián)想記憶。學(xué)習(xí)目的是通過調(diào)整權(quán)值使訓(xùn)練集中的模式在網(wǎng)絡(luò)狀態(tài)中以相同的概率再現(xiàn)。學(xué)習(xí)過程可以分為兩個階段:正向?qū)W習(xí)階段或輸入期: 即向網(wǎng)絡(luò)輸入一對輸入輸出模式,將網(wǎng)絡(luò)輸入輸出節(jié)點的狀態(tài)鉗制到期望的狀態(tài),而讓隱節(jié)點自由活動以捕捉模式對之間的對應(yīng)規(guī)律。反向?qū)W習(xí)階段或自由活動期: 對于異聯(lián)想學(xué)習(xí),鉗制住輸入節(jié)點而讓隱含節(jié)點和輸出節(jié)點自由活動;對于自聯(lián)想學(xué)習(xí),可以讓可見節(jié)點和隱節(jié)點都自由活動,體現(xiàn)在網(wǎng)絡(luò)輸入輸出的對應(yīng)規(guī)律。這個對應(yīng)規(guī)律表現(xiàn)為網(wǎng)絡(luò)到達熱平衡時,相連節(jié)點狀態(tài)同時為1的平均概率。期望對應(yīng)規(guī)律與模擬對應(yīng)規(guī)律之間的差別就表現(xiàn)為兩個學(xué)習(xí)階段對應(yīng)的平均概率的差值,此差值做為權(quán)值調(diào)整的依據(jù)。2.網(wǎng)絡(luò)熱平衡狀態(tài)

步驟1:在正向?qū)W習(xí)階段,用一對訓(xùn)練模式鉗住網(wǎng)絡(luò)的可見節(jié)點;在反向?qū)W習(xí)階段,用訓(xùn)練模式中的輸入部分鉗住可見節(jié)點中的輸入節(jié)點。步驟2:隨機選擇自由活動節(jié)點j,使其更新狀態(tài):步驟3:計算節(jié)點j狀態(tài)更新而引起的網(wǎng)絡(luò)能量變化。步驟4:若,則接受狀態(tài)更新;若,當(dāng)時接受新狀態(tài),否則維持原狀態(tài)。是預(yù)先設(shè)置的數(shù)值,在模擬遇火過程中,溫度T隨時間逐漸降低,由式①知,對于常數(shù),為使,必須使,也在訓(xùn)練中不斷減小,因此網(wǎng)絡(luò)的爬山能力是不斷減小的步驟5:返回步驟2~步驟4直到自由節(jié)點被全部選擇一遍。步驟6:按事先選定的降溫方程降溫,退火算法的降溫規(guī)律沒有統(tǒng)一規(guī)定,一般要求初始溫度。為統(tǒng)計以上概率,需要反復(fù)使BM網(wǎng)絡(luò)按模擬退火算法運行并達到熱平衡狀態(tài)。具體步驟如下:18.1.5Boltzmann機的運行步驟步驟1:初始化:Boltzmann機神經(jīng)元個數(shù)為N,第j個神經(jīng)元與第i個神經(jīng)元的連接權(quán)重為,初始溫度為,終止溫度,初始化神經(jīng)元狀態(tài)。步驟2:在溫度下,第j個神經(jīng)元的輸入為如果,即,則能量有減小的趨勢,取1為神經(jīng)元j的下一個狀態(tài)值;如果,則按照概率選擇神經(jīng)元下一個狀態(tài)。概率為若大于等于一個給的閾值,則取為神經(jīng)元j的下一個狀態(tài)值,否則保持神經(jīng)元j的下一個狀態(tài)值。在此過程中,其它節(jié)點狀態(tài)保持不變。步驟3:檢查小循環(huán)的終止條件,在小循環(huán)中,使用同一個溫度值;如果當(dāng)前狀態(tài)已經(jīng)達到了熱平衡,則轉(zhuǎn)到步驟4進行降溫,否則轉(zhuǎn)到步驟2,繼續(xù)隨機選擇一個神經(jīng)元選擇迭代。否則,執(zhí)行下一步。步驟4:按照指定規(guī)律降溫,并檢查大循環(huán)的終止條件:判斷溫度是否達到了終止溫度,若到到終止溫度則算法結(jié)束,否則轉(zhuǎn)到步驟2繼續(xù)計算。初始溫度的選擇:可以隨機選擇網(wǎng)絡(luò)中的N個神經(jīng)元,取其能量的方差,或者隨機選擇若干神經(jīng),取其能量的最大差值

8.2.1受限玻爾茲曼機及稀疏受限玻爾茲曼機1.受限玻爾茲曼機

受限玻爾茲曼機(RestrictedBoltzmannMachine,RBM)是通過限定玻爾茲曼機(BoltzmannMachine,BM)層內(nèi)單元連接構(gòu)成的雙層神經(jīng)網(wǎng)絡(luò)。作為無向圖模型,RBM中可見單元層v為觀測數(shù)據(jù),隱單元層h為特征檢測器。RBM結(jié)構(gòu)模型RBM是一種基于能量的模型,其可見單元v和隱含單元h的聯(lián)合配置的能量為為RBM的參數(shù),為隱含單元h和可見單元v之間的邊的權(quán)重,為可見單元的偏置(bias),為隱含單元的偏置。有了v和h的聯(lián)合配置能量之后,就可以得到v和h的聯(lián)合概率1是歸一化因子(也稱配分函數(shù))

212代入實際應(yīng)用中關(guān)注的是觀測數(shù)據(jù)v的概率分布,它對于的邊緣分布具體為通過最大化得到RBM的參數(shù),最大化等同于最大化,即8.2.1受限玻爾茲曼機及稀疏受限玻爾茲曼機等號右側(cè)多項式中的第1個項稱為正項(positivephase,PP),可以將訓(xùn)練數(shù)據(jù)代入

和直接計算出來;第2個項稱為負(fù)項(negativephase,NP),其中是無法直接通過數(shù)學(xué)推導(dǎo)出來的,因此Hinton提出了對比散度(contrastivedivergence)算法,分別以各個訓(xùn)練數(shù)據(jù)作為初始狀態(tài),通過執(zhí)行blockGibbs采樣進行幾次狀態(tài)轉(zhuǎn)移,然后以轉(zhuǎn)移后的狀態(tài)作為樣本來估算NP的均值。Hinton還通過實驗證明,在實際應(yīng)用中甚至只需要一次狀態(tài)轉(zhuǎn)移就能保證良好的估算效果。通過隨機梯度下降來最大化由于層間單元是無連接的,可以很方便地推導(dǎo)出隱單元和可見單元的后驗概率分布分別為

123123

在多層RBM機網(wǎng)絡(luò)結(jié)構(gòu)中,可將所有相鄰的兩層結(jié)構(gòu)看作是一個RBM,而將較低一級的隱含層作為與其相鄰的高一級隱含層的輸入層;采用貪心逐層訓(xùn)練算法以圖像的特征向量作為輸入自底向上每次訓(xùn)練1個RBM,以此可初步確定整個RBM網(wǎng)絡(luò)的空間參數(shù);之后還需要對所有層之間的參數(shù)進行基于反向BP神經(jīng)網(wǎng)絡(luò)的整體微調(diào)和優(yōu)化,經(jīng)多次反復(fù)訓(xùn)練不斷調(diào)整層與層之間的空間參數(shù),使網(wǎng)絡(luò)達到一個平衡狀態(tài)。8.2.1受限玻爾茲曼機及稀疏受限玻爾茲曼機2.稀疏受限玻爾茲曼機

稀疏受限玻爾茲曼機(SparseRestrictedBoltzmannMachine,SRBM)優(yōu)化了RBM的訓(xùn)練目標(biāo),即在RBM最大似然目標(biāo)函數(shù)基礎(chǔ)上增加稀疏懲罰因子,使所有隱含單元的平均激活概率接近一個很小的常數(shù)p(即稀疏目標(biāo))。當(dāng)給定訓(xùn)練樣本V時,稀疏RBM的優(yōu)化問題變?yōu)?/p>

為數(shù)據(jù)已知時的條件期望;λ是一個正則化常數(shù);p是一個控制隱含單元稀疏度的常數(shù);和分別表示隱含單元的個數(shù)和訓(xùn)練樣本個數(shù)。8.2.1受限玻爾茲曼機及稀疏受限玻爾茲曼機3.改進的稀疏RBM

在稀疏編碼上,對于稀疏正則項R而言應(yīng)選用L0范數(shù)來度量稀疏性(即參數(shù)向量中非零元素的個數(shù))。然而,L0范數(shù)的求解是非凸的且為NP-hard問題,直接求解非常困難。近年來涌現(xiàn)了很多的逼近算法,如Lp范數(shù)稀疏約束算法,即用范數(shù)代替。根據(jù)壓縮感知理論,L1范數(shù)提供了更有效的稀疏性能,在一定條件下最小L1范數(shù)的解就是函數(shù)的最稀疏解。與L1范數(shù)相比,tan-sigmoid函數(shù)的斜率更接近于零,可以提供更有效的稀疏誘導(dǎo)性能,如圖所示。使用tan-sigmoid函數(shù)作為似然函數(shù)的懲罰項為T是一個縮放系數(shù),控制著tan-sigmid函數(shù)和L0范數(shù)的相似程度。當(dāng)T趨近于0時,tan-sigmoid函數(shù)趨近于L0范數(shù);式中正則項R并不限制每一個隱含單元的稀疏度,而是可以根據(jù)不同的任務(wù)自動獲取,即每個隱含單元的稀疏水平可以根據(jù)輸入的數(shù)據(jù)計算得到,而不是通過添加的正則項強制每個隱含單元擁有相同的稀疏度(稀疏目標(biāo)p)。||x||的不同范數(shù)和8.2.1受限玻爾茲曼機及稀疏受限玻爾茲曼機稀疏表示可以基于每個隱含單元的稀疏度來實現(xiàn),實現(xiàn)稀疏表示的方法是讓隱含單元盡可能少活躍(即隱含單元應(yīng)該僅有一小部分被激活);這里直接通過正則項限制所有隱含單元的激活概率產(chǎn)生稀疏性。前者通過限制每個隱含單元在N個訓(xùn)練樣本上的激活時間產(chǎn)生稀疏表示;而這里是通過限制隱含單元的活動數(shù)量達到稀疏表示。這是最自然的稀疏表示誘導(dǎo)方式。這樣當(dāng)給定訓(xùn)練樣本v時,稀疏RBM優(yōu)化問題變?yōu)樵瓌t上,應(yīng)該用梯度下降法來解決這個優(yōu)化問題,然而計算對數(shù)似然函數(shù)的梯度是很耗時的。因此參照先采用CD快速學(xué)習(xí)算法計算對數(shù)似然函數(shù)的梯度近似值,再對正則項R進行梯度下降直到參數(shù)收斂。8.2.1受限玻爾茲曼機及稀疏受限玻爾茲曼機正則項R上參數(shù)的梯度為式中,在模型訓(xùn)練學(xué)習(xí)時,先用CD快速學(xué)習(xí)算法計算對數(shù)似然函數(shù)的梯度近似值,再對正則項按式進行梯度下降計算。為了提高最小化正則項R的計算效率,只更新隱含層偏置項。如稀疏RBM訓(xùn)練算法稀疏RBM訓(xùn)練算法步驟如下:8.2.1受限玻爾茲曼機及稀疏受限玻爾茲曼機步驟1:用CD快速學(xué)習(xí)算法更新權(quán)值式中,為學(xué)習(xí)速率,表示通過Gibbs采樣重建的數(shù)據(jù)。步驟2:對正則項R更新偏置步驟3:重復(fù)步驟1-步驟2,直到參數(shù)收斂。競爭型神經(jīng)網(wǎng)絡(luò)有很多具體形式和不同的學(xué)習(xí)算法,但最主要的特點體現(xiàn)在競爭層中神經(jīng)元之相互競爭,最終只有一個神經(jīng)元獲勝,以適應(yīng)訓(xùn)練樣本。自組織映射網(wǎng)絡(luò)(Selforganizingmapnetwork,SOMN)是競爭型神經(jīng)網(wǎng)絡(luò)中應(yīng)用較為廣泛的一種。SOMN能夠自動尋找訓(xùn)練數(shù)據(jù)間的類似度,并將相似的數(shù)據(jù)在網(wǎng)絡(luò)中就近配置,其訓(xùn)練步驟如下:步驟1:網(wǎng)絡(luò)初始化。使用隨機數(shù)初始化輸入層與映射層之間的連接權(quán)值。步驟2:計算映射層的權(quán)值向量和輸入向量的距離。計算網(wǎng)絡(luò)中各神經(jīng)元權(quán)向量和輸入向量之間的歐氏距離,得到具有最小距離的神經(jīng)元j作為最優(yōu)神經(jīng)元。步驟3:權(quán)值學(xué)習(xí)。依據(jù)最優(yōu)神經(jīng)元,對輸出神經(jīng)元及其鄰近神經(jīng)元權(quán)值進行修改,即式中,為模型訓(xùn)練第k次迭代中輸入層單元j與映射層單元i之間的連接權(quán)值,為第k次迭代中單元i對應(yīng)的訓(xùn)練數(shù)據(jù)。8.2.2競爭學(xué)習(xí)1.基于競爭的稀疏懲罰機制CDSRBM采用了類似于SOM網(wǎng)絡(luò)的神經(jīng)元競爭機制對隱單元進行稀疏化。在模型訓(xùn)練過程中,CDSRBM首先依據(jù)訓(xùn)練樣本選擇最優(yōu)匹配隱單元,然后依據(jù)最優(yōu)匹配隱單元激活狀態(tài)對其他隱單元進行稀疏抑制,最后執(zhí)行參數(shù)更新,具體機制如下:1)距離度量RBM將原始數(shù)據(jù)通過模型連接權(quán)值由原始維度空間映射至多維0-1空間,樣本所生成的0-1序列即為對應(yīng)的多特征組合。鑒于RBM模型連接權(quán)值為可見單位維數(shù)×隱單元維數(shù),即連接權(quán)值的列數(shù)等于隱單元個數(shù),且連接權(quán)值與樣本在單位刻度上并不一致,因此,CDSRBM沒有采用SOMN常用的歐氏距離作為度量標(biāo)準(zhǔn),而是選用神經(jīng)元權(quán)值向量與輸入向量之間的夾角余弦值評估兩者相似度,即樣本i與隱單元j之間余弦相似度定義為式中,代表第i個訓(xùn)練樣本,為模型連接權(quán)值的第j列。8.2.3競爭型深度稀疏受限玻爾茲曼機1.基于競爭的稀疏懲罰機制2)最優(yōu)匹配隱單元選取依據(jù)樣本i與所有隱單元之間的余弦相似度,可確定針對樣本i的最優(yōu)匹配隱單元,即與樣本i相似度最高的隱單元,有式中,J為隱單元個數(shù),為尋找最大值函數(shù),。3)最優(yōu)神經(jīng)元稀疏抑制CDSRBM根據(jù)最優(yōu)神經(jīng)元狀態(tài)設(shè)置其他單元的稀疏化程度。最優(yōu)神經(jīng)元的稀疏抑制依據(jù)連接權(quán)值列間的余弦相似度,其過程如下:(1)計算對應(yīng)于最優(yōu)隱單元的連接權(quán)值列與其他列的余弦相似度,得到相似度向量;(2)對進行歸一化處理,得到向量;(3)將中元素設(shè)置為對應(yīng)隱單元的稀疏懲罰度p。RBM的訓(xùn)練為無監(jiān)督訓(xùn)練,其目標(biāo)為最大化訓(xùn)練數(shù)據(jù)出現(xiàn)的似然概率,采用的訓(xùn)練方法為對比散度(ContrastiveDivergence,CD)算法。CDSRBM的競爭稀疏機制對參數(shù)和隱單元偏置的更新公式為2.CDSRBM訓(xùn)練流程式中,為向量中第j個元素,即與間歸一化后的余弦相似度。CDSRBM訓(xùn)練的流程:輸入:學(xué)習(xí)速率η,網(wǎng)絡(luò)連接權(quán)值w,可見單元偏置b,隱單元偏置c。輸出:更新后的w,b,c。訓(xùn)練步驟如下。步驟1:依據(jù)CD算法更新w,b,c:步驟2:依據(jù)

,查找當(dāng)前樣本p最優(yōu)匹配隱單元。步驟3:應(yīng)用、計算并依據(jù)最優(yōu)神經(jīng)元稀疏抑制流程更新w,c:步驟4:重復(fù)步驟1-步驟3直到模型收斂或超過訓(xùn)練迭代次數(shù)。2.CDSRBM訓(xùn)練流程深度玻爾茲曼機(DeepBoltzmannMachine,DBM)是以RBM為基礎(chǔ)的深度學(xué)習(xí)模型,其類似人腦的信息處理機制和多個RBM疊加組成的結(jié)構(gòu)體系??紤]到DBM訓(xùn)練過程中,首先完成的是疊加RBM的貪婪逐層初始化訓(xùn)練,因此將CDSRBM的稀疏懲罰機制引入到DBM的構(gòu)建中,就構(gòu)成了競爭深度稀疏玻爾茲曼機(Competition-SparseDeepBoltzmannMachine,CDSDBM)。分類受限玻爾茲曼機(classificationrestrictedBoltzmannmachine,CFRBM)是基于能量函數(shù)的無向圖模型,是一個自帶標(biāo)簽的隨機神經(jīng)網(wǎng)絡(luò)模型,用于解決分類問題。CFRBM的標(biāo)簽層采用一個神經(jīng)元代表一個類別。因此,標(biāo)簽層的神經(jīng)元個數(shù)與數(shù)據(jù)的類別數(shù)一致。標(biāo)簽層神經(jīng)元總是稀疏的,而且每個神經(jīng)元僅能為模型參數(shù)提供很少的信息,這可能會導(dǎo)致過擬合。為了解決該問題,可以對分類受限玻爾茲曼機進行改進,用K個神經(jīng)元表示一個類別,目的是為模型參數(shù)提供更多的信息,從而提高模型的分類性能。8.3.1分類受限玻爾茲曼機分類受限玻爾茲曼機可以看作是一個具有三層結(jié)構(gòu)的隨機神經(jīng)網(wǎng)絡(luò)模型?;镜腞BM模型第一層是可見層,由個神經(jīng)元組成用以表示輸入數(shù)據(jù)v;第二層是隱層,由J個神經(jīng)元組成用以表示數(shù)據(jù)h;第三層是標(biāo)簽層,代表輸入數(shù)據(jù)的標(biāo)簽y,其中可見層與隱層之間的全連接權(quán)重用w表示,標(biāo)簽層和隱層之間的全連接權(quán)重用U表示,每層各神經(jīng)元之間沒有連接?,F(xiàn)考慮二值單元模型,當(dāng)然也可以考慮高斯單元、多項式單元、可矯正線性單元等。帶有標(biāo)簽的二值CFRBM的聯(lián)合概率分布為8.3.1分類受限玻爾茲曼機式中,

,也稱配分函數(shù),以確保聯(lián)合概率分布是有效的。能量函數(shù)

定義為式中,θ是實數(shù)型參數(shù)bi、cj、wji、Uti和dt的集合。vi、hj∈{0,1},當(dāng)且僅當(dāng)標(biāo)簽為t時,yt=1,其他時候均為0。i∈{1,2,…,Nv},j∈{1,2,…,J}和,t∈{1,2,…,C}。wji是神經(jīng)元vi和hj之間的連接權(quán)重,Uti是神經(jīng)元yt和hj之間的連接權(quán)重,bi是第i個可見神經(jīng)元的偏置,cj是第j個隱含層神經(jīng)元的偏置,而dt是第t個標(biāo)簽層神經(jīng)元的偏置。對于分類任務(wù),需要計算后驗概率,該條件概率為式中,,

代表輸入數(shù)據(jù)的標(biāo)簽且。CFRBM的訓(xùn)練通常采用與RBM類似的訓(xùn)練目標(biāo)函數(shù),即生成模型作為訓(xùn)練目標(biāo).給定聯(lián)合概率,通過最大化CFRBM在訓(xùn)練數(shù)據(jù)集上的對數(shù)似然函數(shù),使用隨機梯度上升法來求解。式中,N是用于分類的訓(xùn)練樣本個數(shù)。為了更新參數(shù)θ,其關(guān)鍵步驟是計算

關(guān)于模型參數(shù)的偏導(dǎo)數(shù)。以第n個樣本數(shù)據(jù)為例,其對數(shù)似然函數(shù)關(guān)于θ的梯度為式中,第一項比較容易計算;第二項由于配分函數(shù)Z(θ)的存在,其計算復(fù)雜度很高。為了避免計算的復(fù)雜性,目前有多種算法對梯度進行近似計算,如CD算法、PCD算法、PT算法等。其中,CD算法是完成CFRBM訓(xùn)練的常用算法。在CFRBM模型中,w學(xué)到有標(biāo)簽信息的數(shù)據(jù)特征。執(zhí)行分類任務(wù)時,CFRBM通過U進行類別區(qū)分,從而確定數(shù)據(jù)的標(biāo)簽。因此,U是控制不同類別信息非常重要的參數(shù)。CFRBM模型的標(biāo)簽層僅使用一個神經(jīng)元表示某個具體類別,神經(jīng)元總是稀疏的,而且單個神經(jīng)元攜帶數(shù)據(jù)的類別信息是有限的,會影響分類效果。1.改進模型描述8.3.2改進CFRBM模型使用L個神經(jīng)元表示某個具體類別,增加神經(jīng)元攜帶的類別信息,從而提高分類精度。為此,建立一個除標(biāo)簽部分以外,其他與CFRBM結(jié)構(gòu)一樣的分類模型(L-ClassificationRestrictedBoltzmannMachine,L-CFRBM)。標(biāo)簽部分使用CL個神經(jīng)元,每類使用連續(xù)的L個神經(jīng)元,如圖所示。如果數(shù)據(jù)的類別是t類,則神經(jīng)元取值1,剩余其他神經(jīng)元取值。同樣,w是可見層和隱層之間神經(jīng)元的連接權(quán)重,U是標(biāo)簽層和隱含層之間神經(jīng)元的連接權(quán)重。含CL個標(biāo)簽神經(jīng)元的RBM模型(L-CRBM)帶有標(biāo)簽的二值L-CRBM模型的能量函數(shù)為8.3.2改進CFRBM模型

當(dāng)給定可見層數(shù)據(jù)和對應(yīng)標(biāo)簽時,第i個隱含層單元被激活的概率為8.3.2改進CFRBM模型

給定隱層神經(jīng)元,可得可見層第j個神經(jīng)元為1的條件概率為給定隱層數(shù)據(jù)表達,類別t神經(jīng)元對應(yīng)的條件概率為

2.改進模型訓(xùn)練8.3.2改進CFRBM模型式中,η是學(xué)習(xí)率。模型參數(shù)梯度的更新公式為

步驟2:參數(shù)更新:L-CFRBM的具體訓(xùn)練步驟不斷執(zhí)行正向、反向階段以及參數(shù)更新直到滿足訓(xùn)練結(jié)束條件。3.改進模型分析改進模型在分類模型上增加了標(biāo)簽層的神經(jīng)元數(shù)量,使神經(jīng)元攜帶更多的類別信息。改進模型與分類模型的計算公式有一些區(qū)別,這些區(qū)別在于每類用L個標(biāo)簽神經(jīng)元來標(biāo)識。為了能更好地分析增加的神經(jīng)元對模型參數(shù)的影響和對最終分類性能的改善,以參數(shù)U為例介紹改進模型參數(shù)的變化。L-CFRBM的梯度為CFRBM的梯度為上述公式表明,兩個模型的連接權(quán)重更新公式不同之處在于

和3.改進模型分析它們所使用的重構(gòu)標(biāo)簽也有差異,但都?xì)w因于模型參數(shù)U.為了更好地描述兩個模型的不同,僅僅比較梯度公式中不同的部分。定義,

,假設(shè)訓(xùn)練數(shù)據(jù)的標(biāo)簽為第一類,則有

在圖像分類中,主成分分析(principalcomponentanalysis,PCA)又稱K-L變換是最成功的線性鑒別分析方法之一。傳統(tǒng)的PCA方法首先將圖像矩陣轉(zhuǎn)化為圖像向量,然后以該圖像向量作為原始特征進行線性鑒別分析。PCA方法具有速度快、實現(xiàn)方便、圖像識別率高等優(yōu)點,但是容易受光照、表情和姿態(tài)等因素的影響。文獻[158]以均方誤差為度量給出了PCA與2DPCA(2-dimensionPCA)樣本協(xié)方差陣的估計準(zhǔn)確度表達式,并由此得到2DPCA圖像特征優(yōu)于PCA的判定條件。文獻[159]用2DPCA方法對分塊差圖像進行特征提取,提高了人臉識別效果。文獻[160]提出了一種基于L1范式的2DPCA降維方法,并將其應(yīng)用到無監(jiān)督學(xué)習(xí)中。文獻[161]提出了一種改進的加權(quán)2DPCA算法,可有效提高目標(biāo)識別效率。二維線性鑒別分析(2DLDA)是線性鑒別器(lineardiscriminantanalysisLDA)在矩陣模式下的平行推廣,相當(dāng)于按行分塊的PCA,但手工設(shè)計特征需大量的經(jīng)驗、調(diào)試工作量大?,F(xiàn)介紹一種基于(2D)2PCA的RBM圖像分類算法,在Hadoop平臺上對該算法進行了并行化設(shè)計。與傳統(tǒng)的RBM算法相比,該算法能有效提升高分辨率圖像的處理速度,且具備良好的并行性。8.4.1(2D)2PCA圖像分類RBM網(wǎng)絡(luò)假設(shè)訓(xùn)練圖像,所有訓(xùn)練圖像的平均圖為

123248.4.1(2D)2PCA圖像分類RBM網(wǎng)絡(luò)

567基于(2D)2PCA提取的RBM圖像分類算法實現(xiàn)步驟如下:

14578.4.2(2D)2PCA圖像分類RBM并行化實現(xiàn)本節(jié)在Hadoop平臺上,采用MapReduce分布式編程模型實現(xiàn)了基于(2D)2PCA提取的圖像分類RBM。首先將整個數(shù)據(jù)集分割成若干個小數(shù)據(jù)集(假設(shè)為N個,N>0),在Map階段由每個mapper實體處理每個小split訓(xùn)練集,即分別對自己所負(fù)責(zé)的訓(xùn)練集提取(2D)2PCA主成分和訓(xùn)練RBM;在Reduce過程中,接收mapper階段的計算結(jié)果,并將其輸出到文件系統(tǒng)中。該算法的并行化編程模型,如右圖所示。(2D)2PCA圖像分類RBM算法并行實現(xiàn)模型步態(tài)識別是一種利用步態(tài)特征進行遠(yuǎn)距離感知的生物識別技術(shù),具有非侵犯性、可遠(yuǎn)距離獲取和難以偽裝等特點。目前,關(guān)于步態(tài)特征的提取方法主要可以分為2類:一種是基于模型的方法;另一種是基于整體的方法(也稱基于非模型的方法)。基于模型的方法主要依據(jù)人體步態(tài)的生理特征,將人體區(qū)域分割成為若干部分,并從中提取步態(tài)特征;而基于整體的方法不需要構(gòu)建模型,是從整體考慮且采用數(shù)學(xué)方法描述步態(tài)特征,較常用的方法是步態(tài)輪廓的特征。研究表明,步態(tài)識別的準(zhǔn)確率往往受行走速度、服裝變化和視角變化的影響,其中,視角變化會極大影響識別方法的泛化能力。目前,大多數(shù)步態(tài)識別的研究主要集中在從步態(tài)視頻序列中提取特征,并使用傳統(tǒng)的主成分分析與線性判別分析法,然而,如何自動提取有效的步態(tài)特征是步態(tài)識別的難點問題。本節(jié)分析文獻利用受限玻爾茲曼機進行步態(tài)特征提取與識別的方法。8.5.1基于受限玻爾茲曼機的步態(tài)特征提取

將步態(tài)能量圖輸入到訓(xùn)練好的RBM,通過式得到隱藏層神經(jīng)元的激活概率,該值即為經(jīng)過特征提取后得到的新的特征。式中,η是學(xué)習(xí)率,通常取一個較小的數(shù)。2.特征提取步態(tài)識別由特征提取與分類識別二部分構(gòu)成。其中,特征提取主要通過提取步態(tài)特征,通過樣本使用選取的特征將其表示出來,具體包括背景分割、歸一化、步態(tài)周期的計算以及步態(tài)能量圖的生成;而分類識別主要使用分類器分類方法進行識別。(1)背景分割運動目標(biāo)的分割就是從圖像中將變化區(qū)域從背景圖像中提取出來,但由于背景圖像可能存在的動態(tài)變化,如天氣改變、色溫變化、影子和物體遮擋等影響,使得運動檢測成為一項較為困難的工作。目前,運動分割算法主要包括背景減除法、時域差分法和時空梯度法,文獻使用背景減除法提取行人側(cè)面輪廓,具體步驟如下:步驟1:背景估計。利用混合高斯模型對背景建模,獲得圖像序列中的背景圖像。步驟2:目標(biāo)檢測與分割。使用背景減除法用來檢測序列圖像中運動的目標(biāo),并在設(shè)定閾值下對圖像進行二值分割。步驟3:填充處理。由于二值分割后的輪廓圖像會產(chǎn)生一些噪聲和空洞,所以需要對二值圖像使用開運算處理,然后再使用連通域分析填補殘留的噪聲區(qū)域。如下圖給出了一個行人步態(tài)輪廓圖的生成過程。行人輪廓圖像的生成(2)輪廓的歸一化處理

行人輪廓圖像的生成(3)計算步態(tài)周期由于運動人體輪廓的面積隨時間呈現(xiàn)周期性的變化,所以時間軸上的面積曲線具有明顯的波峰和波谷,如圖所示。為此,將2個連續(xù)波峰之間包含的序列劃分到同一個周期中,進而將整個序列劃分成較小的周期序列,為獲得步態(tài)能量圖提供依據(jù)。雙線性插值法輪廓面積隨時間的變化曲線4.步態(tài)特征提取步態(tài)能量圖是步態(tài)識別中常用的一種獲取特征的方法,通過對中心歸一化的步態(tài)周期序列圖像,采用二值輪廓圖像疊加的方式構(gòu)成步態(tài)能量圖。假設(shè)輪廓圖像集為,表示k時刻的輪廓圖像,是此周期序列的長度,則步態(tài)能量圖定義為式中,表示k時刻在坐標(biāo)處的灰度值,為步態(tài)輪廓圖像疊加后處的像素值,G為相應(yīng)的步態(tài)能量圖。本節(jié)所使用的步態(tài)能量圖,如圖所示。步態(tài)能量圖示例對所得的步態(tài)能量圖向量化,再通過受限玻爾茲曼機的訓(xùn)練,從而得到步態(tài)的特征表示。8.5.3仿真實驗與結(jié)果分析1.實驗數(shù)據(jù)與方法該實驗選擇了中科院的步態(tài)識別數(shù)據(jù)庫CASIADatasetA中的數(shù)據(jù)進行測試。該數(shù)據(jù)庫包含20個行人樣本,每個行人樣本由12個不同的圖像序列構(gòu)成,其中前4個是拍攝于90°視角下正常狀態(tài)的行走序列,每個圖像序列大約有70幅原始圖像。首先,將CASIADatasetA中拍攝角度為90°的原始步態(tài)圖像經(jīng)過人體區(qū)域檢測、歸一化處理并轉(zhuǎn)化為步態(tài)能量圖,且大小為64×64;然后,隨機選取每個行人的2/3步態(tài)能量圖樣本作為訓(xùn)練集,其余1/3作為測試集。主要使用受限玻爾茲曼機作為特征提取器,并與主成分分析法(PCA)、線性判別分析法(LDA)以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征提取方法進行對比。分類器分別使用支持向量機(SVM)、孿生支持向量機(TSVM)、K-近鄰(K-NN)和神經(jīng)網(wǎng)絡(luò)(ANN)進行步態(tài)識別。對于不同特征提取器和分類器的組合,通過調(diào)整相應(yīng)的參數(shù)并記錄得到的識別準(zhǔn)確率。重復(fù)上述實驗步驟5次,取每組參數(shù)的平均識別率作為最終的輸出。2.實驗結(jié)果與分析RBM的步態(tài)特征提取與識別

其中,圖(a)至圖(d)分別為使用SVM、TSVM、K-NN和ANN的識別結(jié)果??梢钥吹?,在使用SVM與TSVM分類器時,隨著參數(shù)c值的增大,其識別率逐步提高,只是TSVM的識別率低于SVM。對于K-NN分類器,使用最近鄰方法的步態(tài)識別率高于K(K≥2)近鄰,但其識別率低于SVM分類器。同樣,對于ANN,隨著特征數(shù)與隱含層神經(jīng)元個數(shù)的增加,其步態(tài)識別率不斷提高,當(dāng)神經(jīng)元個數(shù)超過70時,其識別率開始下降。a支持向量機;b孿生支持向量機;cK-近鄰;d神經(jīng)網(wǎng)絡(luò)RBM的步態(tài)特征提取及不同分類方法的識別率主成分?jǐn)?shù)的取值為50~300,實驗結(jié)果如圖所示。圖表明,對于PCA方法,當(dāng)使用SVM與TSVM分類器時,取得了較高的識別率。a支持向量機;b孿生支持向量機;cK-近鄰;d神經(jīng)網(wǎng)絡(luò)PCA的步態(tài)特征提取及不同分類方法的識別率2.實驗結(jié)果與分析2)PCA與LDA的步態(tài)特征提取及識別(1)PCA特征提取與識別由于LDA使用了類標(biāo)簽作為先驗知識,可以使用更少的特征空間維度來表示樣本。本實驗特征數(shù)的取值為1~19,實驗結(jié)果如圖所示。圖表明,使用K-NN作為分類器的識別率高于SVM、TSVM與ANN分類器的識別率,而SVM、TSVM與ANN分類器的識別率大體相當(dāng)。2.實驗結(jié)果與分析2)PCA與LDA的步態(tài)特征提取及識別(2)

LDA特征提取與識別a支持向量機;b孿生支持向量機;cK-近鄰;d神經(jīng)網(wǎng)絡(luò)LDA的步態(tài)特征提取及不同分類方法的識別率實驗中,CNN由2個卷積層、2個池化層組成,全連接層以及SVM、TSVM、K-NN與ANN分類器,卷積核的大小分別為3和5,實驗結(jié)果如圖所示。2.實驗結(jié)果與分析2)PCA與LDA的步態(tài)特征提取及識別(3)

CNN步態(tài)特征提取與識別a支持向量機;b孿生支持向量機;cK-近鄰;d神經(jīng)網(wǎng)絡(luò)

CNN的步態(tài)特征提取及不同分類方法的識別率特征提取方法SVMTSVMK-NNANNRBM(250,2-11)(300,20)(300,1)(200,70)0.98970.95690.97130.9374PCA(250,24)(150,2-1)(250,1)(250,90)0.99180.99180.96720.9733LDA(19,2-9)(17,2-4)(17,1)(19,70)0.97640.97950.98560.9795CNN(5,25)(5,2-1)(5,1)(3,70)0.98770.98770.98970.9815為了比較不同方法的性能,針對4種特征提取與分類方法進行實驗研究,實驗結(jié)果如表所示,其中括號內(nèi)容是獲得較好識別準(zhǔn)確率時的參數(shù)值??傮w來說,對于不同的特征提取方法,當(dāng)使用SVM分類器時,其步態(tài)識別率要優(yōu)于TSVM、K-NN與ANN方法的識別率;另外,使用RBM方法提取特征的識別率高于LDA、CNN方法的識別率,稍遜于PCA方法的識別率,但RBM方法卻實現(xiàn)了自動提取步態(tài)特征。2.實驗結(jié)果與分析2)PCA與LDA的步態(tài)特征提取及識別(4)不同步態(tài)特征提取方法的實驗結(jié)果比較不同特征提取與識別方法的實驗結(jié)果綜上,針對步態(tài)識別問題,利用受限玻爾茲曼機的步態(tài)特征提取及其識別,將步態(tài)能量圖作為RBM的輸入,利用RBM自動提取步態(tài)特征;針對CASIA步態(tài)數(shù)據(jù)庫,并選取支持向量機、孿生支持向量機、神經(jīng)網(wǎng)絡(luò)與K-近鄰識別方法對RBM的特征提取進行步態(tài)識別;同時,與主成分分析PCA、線性判別分析LDA、卷積神經(jīng)網(wǎng)絡(luò)CNN特征提取進行了比較。獲得的結(jié)果如下:(1)對于自動提取特征方法,當(dāng)使用SVM分類器時,RBM方法的識別率優(yōu)于CNN方法的識別率,而使用TSVM、K-NN和ANN分類器時,CNN方法的識別率優(yōu)于RBM。(2)對于不同的特征提取方法,當(dāng)使用SVM分類器時,RBM方法的識別率優(yōu)于LDA、CNN方法的識別率,稍遜于PCA方法的識別率。PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

9.1深度置信網(wǎng)絡(luò)9.2Gamma深度置信網(wǎng)絡(luò)9.3自適應(yīng)深度信念網(wǎng)絡(luò)9.4KPCA深度信念網(wǎng)絡(luò)模型9.5全參數(shù)動態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)9.6深度信念網(wǎng)絡(luò)優(yōu)化算法9.7基于貪婪方法的深度置信網(wǎng)絡(luò)診斷注意缺陷多動障礙第九章深度置信網(wǎng)絡(luò)9.1深度置信網(wǎng)絡(luò)以3層隱含層結(jié)構(gòu)的深度置信神經(jīng)網(wǎng)絡(luò)(DBN-DNN)為例,網(wǎng)絡(luò)一共由3個受限玻爾茲曼機(RBM)單元堆疊而成。RBM一共有兩層,上層為隱層,下層為顯層。堆疊成DNN時,前一個RBM的輸出層(隱層)作為下一個RBM單元的輸入層(顯層),依次堆疊,便構(gòu)成了基本的DBN結(jié)構(gòu),最后再添加一層輸出層,就是最終的DBN-DNN結(jié)構(gòu)。9.1.1常規(guī)DBM網(wǎng)絡(luò)9.1深度置信網(wǎng)絡(luò)圖中是基于RBM構(gòu)建的DBN和DBM模型。DBN模型通過疊加RBM逐層預(yù)訓(xùn)練時,某層的分布只由上一層決定。

例如,DBN的v層依賴于h1的分布,h1只依賴于h2的分布,也就是說h1的分布不受v的影響;確定了v的分布,h1的分布只由h2來確定。DBM模型為無向圖結(jié)構(gòu),也就是說,DBM的h1層是由h2層和v層共同決定的,是雙向的。1.DBM網(wǎng)絡(luò)結(jié)構(gòu)9.1深度置信網(wǎng)絡(luò)從效果來看,DBM結(jié)構(gòu)會比DBN結(jié)構(gòu)具有更好的魯棒性,但其求解的復(fù)雜度太大,需要將所有的層一起訓(xùn)練,不利于應(yīng)用。從借用RBM逐層預(yù)訓(xùn)練方法看,DBN結(jié)構(gòu)就方便快捷了很多,便于廣泛應(yīng)用。9.1深度置信網(wǎng)絡(luò)1)基于RBM的無監(jiān)督預(yù)訓(xùn)練利用對比散度算法(ContrastiveDivergenceK,CD-k)進行權(quán)值初始化,Hinton發(fā)現(xiàn)k取為1時,就可以有不錯的學(xué)習(xí)效果。2)基于RBM的有監(jiān)督反向調(diào)參有監(jiān)督的調(diào)優(yōu)訓(xùn)練時,需要先利用前向傳播算法,從輸入得到一定的輸出值,然后再利用反向傳播算法來更新網(wǎng)絡(luò)的權(quán)重值和偏置值。2.DBN訓(xùn)練與反向調(diào)優(yōu)9.1深度置信網(wǎng)絡(luò)1.常規(guī)稀疏深度信念網(wǎng)絡(luò)稀疏深度信念網(wǎng)絡(luò)(稀疏DBNs)由多層稀疏RBM模型構(gòu)成,每一層從上一層的隱單元中捕獲高度相關(guān)的關(guān)聯(lián)。稀疏DBNs模型學(xué)習(xí)主要分為兩步:第一步:預(yù)訓(xùn)練。根據(jù)CD算法逐層訓(xùn)練每個稀疏RBM模型獲得可見層和隱含層間的連接權(quán)值。第二步:微調(diào)。在預(yù)訓(xùn)練之后,為了使模型具有更好的特征表示能力,用帶標(biāo)簽的數(shù)據(jù)利用共軛梯度法對模型的判別性能作優(yōu)化調(diào)整。9.1.2稀疏深度信念網(wǎng)絡(luò)9.1深度置信網(wǎng)絡(luò)2.改進稀疏DBNs堆疊多層改進的稀疏RBM模型,構(gòu)成一種新的稀疏深度信念網(wǎng)絡(luò)(sparseDBNs)。在對網(wǎng)絡(luò)進行訓(xùn)練時,采用改進稀疏RBM算法對底層的稀疏RBM模型進行訓(xùn)練,得到一組參數(shù)、和

。用這組參數(shù)作為下一層稀疏RBM的輸入進行訓(xùn)練。一個L層稀疏深度信念網(wǎng)絡(luò)的訓(xùn)練架構(gòu)如下:步驟1:訓(xùn)練第一層稀疏RBM并得到的權(quán)值矩陣

。步驟2:用上一層的隱含層數(shù)據(jù)以相同的方法訓(xùn)練下一層稀疏RBM并固定連接權(quán)值

,重復(fù)到第L-1層。步驟3:初始化權(quán)值,用數(shù)據(jù)的標(biāo)簽值作為輸出層。步驟4:用共軛梯度方法對得到的權(quán)值9.2Gamma深度置信網(wǎng)絡(luò)Gamma深度信念網(wǎng)絡(luò)由底層至頂層分別為觀測層,第1層隱含層、…、第L-1層隱含層,第L層頂層。最底層為觀測層,由觀測單元組成,利用Poisson因子分析,可將其表示為連接權(quán)重與下一層隱含單元的乘積:9.2.1Gamma深度信念網(wǎng)絡(luò)結(jié)構(gòu)式中,為連接權(quán)重,為第1層隱含層,表示服從參數(shù)的Poisson分布。9.2Gamma深度置信網(wǎng)絡(luò)由觀測層至頂層依次為第1,…,l,…L層隱含層,第1,…,l,…,L-1層可表示為式中,為連接權(quán)重,為第l層隱含層,為概率參數(shù),滿足9.2Gamma深度置信網(wǎng)絡(luò)表示服從形狀參數(shù)為,尺度參數(shù)為的Gamma分布。其概率密度函數(shù)為類似地,第L層可表示為對于頂層,為共享的Gamma分布形狀參數(shù);為尺度參數(shù)。9.2Gamma深度置信網(wǎng)絡(luò)為限制網(wǎng)絡(luò)復(fù)雜度、便于參數(shù)推斷,對的毎一列基于L1正則化,對于,使式中,表示服從參數(shù)為的Dirichlet分布。其概率密度函數(shù)為表示Dirichlet分布的歸一化常數(shù)9.2Gamma深度置信網(wǎng)絡(luò)式中,為的第i列,,服從Gamma分布:對于,有因此,行各隱含單元的關(guān)系可由的列向量

表示。式中,表示服從參數(shù)為的Beta分布,概率密度函數(shù)為9.2Gamma深度置信網(wǎng)絡(luò)由于網(wǎng)絡(luò)中Gamma分布形狀參數(shù)的共軛先驗未知,計算條件后驗推導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)存在困難,因此利用文獻中的數(shù)據(jù)增強算法簡化計算進行推導(dǎo),得在的單層網(wǎng)絡(luò)中,每層的隱含單元獨立于先驗,的深度網(wǎng)絡(luò)可以捕獲隱含單元的關(guān)聯(lián)性。對,有然后,(時為觀測層,時為隱含層)可由與的乘積在層Poisson概率為上述公式式對成立,時,有9.2Gamma深度置信網(wǎng)絡(luò)令表示k層中因子出現(xiàn)在觀察單元n的次數(shù),。然后邊緣化,得由以上Poisson概率中邊緣化Gamma分布,得9.2Gamma深度置信網(wǎng)絡(luò)Gibbs采樣難以直接對樣本采樣時,從某一個多分量概率分布中近似抽樣樣本序列的算法。深度信念網(wǎng)絡(luò)中,受限玻爾茲曼機使用二維Gibbs采樣近似估計參數(shù),將可見向量的值映射到隱含單元,再基于隱含單元重建可見單元,不斷重復(fù)以上步驟進行逐層訓(xùn)練。

類似地,Gamma信念網(wǎng)絡(luò),可以采用N維Gibbs算法估計隱變量,聯(lián)合訓(xùn)練網(wǎng)絡(luò)所有層,在每次迭代中對一層網(wǎng)絡(luò)進行采樣,向上采樣服從Dirichlet分布的連接權(quán)重,向下采樣服從Gamma分布的隱含單元,將其記作Gibbs向上向下采樣。9.2.2Gibbs向上向下采樣9.2Gamma深度置信網(wǎng)絡(luò)對Gamma深度信念網(wǎng)絡(luò)中的每一層,迭代采樣如下:對采樣:由式(9.2.17),在所有層中對進行采樣,但對第1層隱含層,可以將觀察單元看作是第n個狀態(tài)中第m個特征的序列,將逐個分配給隱含因子,并將與邊緣化,對

,有式中,是的特征標(biāo)簽,符號表示對應(yīng)標(biāo)簽的求和,如,

表示不考慮第n個狀態(tài)中特征j的計數(shù)序列。為簡化模型,加入截斷步驟,即如果,則限制隱含單元數(shù)量為,并令。對采樣:9.2Gamma深度置信網(wǎng)絡(luò)對采樣:對采樣,將替換為。對采樣:由式(9.2.13)及Gamma分布與Poisson分布的共軛性,對采樣:對a采樣:對

采樣:先對采樣,即再由式(9.2.17),得式中,9.3自適應(yīng)深度信念網(wǎng)絡(luò)經(jīng)典動量將以前梯度的衰減和(與衰變常數(shù))累積成動量向量,并用它代替真正的梯度,具有加速梯度下降學(xué)習(xí)沿著尺寸的優(yōu)點,其中梯度在訓(xùn)練步驟中保持相對一致。其更新公式為9.3.1動量更新規(guī)則式中,為梯度向量;為目標(biāo)函數(shù)。m為動量向量(初始值為0);為衰變常數(shù);為學(xué)習(xí)率;k代表更新次數(shù)。將式(9.3.1)-式(9.3.3)展開,得可以看到,動量沿著先前的動量向量和當(dāng)前的梯度方向邁出一步。9.3自適應(yīng)深度信念網(wǎng)絡(luò)Nadam類似于帶有Nesterov動量項的Adam算法。這里給Adam添加Nesterov動量,類似采用前一個動量向量代替以前的動量向量。因此,在Adam算法中更新公式為9.3.2Nadam算法優(yōu)化DBN式中,、分別為梯度的一階矩估計和二階矩估計,可視為對

和期望的估計;、和為修正參數(shù)。9.3自適應(yīng)深度信念網(wǎng)絡(luò)大量實驗表明,測試的機器學(xué)習(xí)問題參數(shù)的良好默認(rèn)設(shè)置為:,

,

,的作用是防止分母為0。展開得括號內(nèi)第1項只是前一時間步的動量向量的偏差校正估計值,用代替。添加Nesterov動量,直接應(yīng)用前瞻動量向量來更新參數(shù),只需將上一個時間步的動量向量的偏差校正估計值替換為當(dāng)前動量向量的偏差校正估計,所以Nadam更新公式為9.3自適應(yīng)深度信念網(wǎng)絡(luò)傳統(tǒng)的隨機梯度下降保持單一學(xué)習(xí)率更新所有權(quán)重,學(xué)習(xí)率在訓(xùn)練過程中并不會改變。而Nadam通過計算梯度的一階矩估計和二階矩估計而為不同的參數(shù)設(shè)計獨立的自適應(yīng)性學(xué)習(xí)率。

可以看出,Nadam對學(xué)習(xí)率有了更強的約束,同時對梯度的更新也有更直接的影響。一般而言,在使用帶動量的RMSprop或者Adam的地方,大多可以使用Nadam并取得更好的效果。

由于Nadam考慮了目標(biāo)函數(shù)的二階導(dǎo)數(shù)信息,相對于傳統(tǒng)的動量方法,多了一個本次梯度相對上次梯度的變化量,這個變化量本質(zhì)上是目標(biāo)函數(shù)二階導(dǎo)數(shù)的近似,從而具有強大的自適應(yīng)性。9.4KPCA深度信念網(wǎng)絡(luò)模型核主成分分析法(kernelprincipalcomponentanalyses,KPCA)能有效減少樣本數(shù)據(jù)維度、消除數(shù)據(jù)間的非線性關(guān)聯(lián)。

將經(jīng)KPCA分析提取后的數(shù)據(jù)以及對應(yīng)的數(shù)據(jù)類型輸入到DBN網(wǎng)絡(luò)模型中,充分學(xué)習(xí)提取出樣本特征。9.4.1核主成分分析法

1.統(tǒng)計平滑法統(tǒng)計平滑法是建立在數(shù)理統(tǒng)計基礎(chǔ)上的一種平滑方法,用該方法可以減少測量的誤差。統(tǒng)計平滑法的定義為式中,為k時刻經(jīng)平滑法處理后的數(shù)據(jù);為k時刻的觀測值。在一組原始數(shù)據(jù)集中,與其他點存在較大程度差異的點記作為離群點。由于離群點與其他點存在顯著區(qū)別,其中可能會包含有重要的信息,所以不對離群點進行平滑處理。9.4KPCA深度信念網(wǎng)絡(luò)模型將N個觀測數(shù)據(jù)按照測量時間先后順序進行排列,構(gòu)成一個符合正態(tài)分布的隨機數(shù)據(jù)集。樣本的標(biāo)準(zhǔn)方差為根據(jù)置信準(zhǔn)則,若隨機序列中第個數(shù)據(jù)落在99.7%的置信區(qū)間內(nèi),則對數(shù)據(jù)進行平滑處理;若數(shù)據(jù)不在內(nèi),則該數(shù)據(jù)為離群點,保留原始數(shù)據(jù)不變。9.4KPCA深度信念網(wǎng)絡(luò)模型2.歸一化處理實際中,不同觀測參數(shù)單位不同,為了消除各個參數(shù)不同量綱的影響,需要對經(jīng)平滑法處理后的數(shù)據(jù)歸一化為式中,為原始測量值;和分別為樣本數(shù)據(jù)中的最大和最小測量值;為經(jīng)歸一化處理后的值,的取值范圍為。3.核主成分分析法在復(fù)雜多變的實驗環(huán)境中,參數(shù)觀測值之間會存在著非線性相關(guān)性。為消除數(shù)據(jù)之間的非線性關(guān)聯(lián)性,降低數(shù)據(jù)維度,提出KPCA分析法。KPCA方法關(guān)鍵在于利用非線性映射函數(shù)將有關(guān)聯(lián)性的數(shù)據(jù)集映射到高維特征空間中,然后再進行傳統(tǒng)的主成分分析,并用核矩陣替代高維特征空間中內(nèi)積矩陣。9.4KPCA深度信念網(wǎng)絡(luò)模型1)核函數(shù)設(shè)函數(shù)是將有關(guān)聯(lián)性的低維監(jiān)測數(shù)據(jù)映射到高維特征空間中的非線性函數(shù),低維特征空間中的向量經(jīng)過函數(shù)映射后的向量為。若在低維空間中存在函數(shù)符合要求,則稱該函數(shù)為核函數(shù)。如果高維空間中的矩陣

滿足式(9.4.3),即矩陣K中的元素均使用核函數(shù)表示,則稱矩陣K為核矩陣。式中,為核函數(shù);為映射到高維空間中的樣本矩陣;N表示樣本個數(shù)。9.4KPCA深度信念網(wǎng)絡(luò)模型由于不知道函數(shù)的具體形式,在對高維特征空間中的數(shù)據(jù)進行主成分提取時,通過核矩陣來替換高維特征空間中的內(nèi)積矩陣,只需要對K進行分析。目前主要使用的核函數(shù)如下:①線性核函數(shù)②高斯核函數(shù)③多項式核函數(shù)④拉普拉斯核函數(shù)9.4KPCA深度信念網(wǎng)絡(luò)模型⑤Sigmoid型核函數(shù)式中,,和為函數(shù)表達式中的參數(shù);為冪指數(shù)。(3)核主元計算核主元計算就是把核主成分的提取轉(zhuǎn)變成計算核矩陣特征值及其特征向量相關(guān)的問題。核主成分分析計算流程如下:步驟1:觀測參數(shù)進行N次觀測得到的樣本矩陣。通過分析選擇符合要求的核函數(shù),并根據(jù)核函數(shù)和樣本矩陣求得對應(yīng)的核矩陣K,即9.4KPCA深度信念網(wǎng)絡(luò)模型步驟2:將核主元分析是在假設(shè)向量為零均值的前提條件下進行的,由于函數(shù)的具體表現(xiàn)形式?jīng)]有給出,因此,不能對核矩陣直接進行中心化處理。通過公式中心化矩陣。式中,為維的數(shù)值全為1的矩陣,為經(jīng)過式(9.4.10)處理后的核矩陣。步驟3:求的特征值及相應(yīng)的特征向量。步驟4:求的核主元向量9.4KPCA深度信念網(wǎng)絡(luò)模型步驟5:計算方差貢獻率和累計貢獻率式中,為主元的方差;為主元的方差貢獻率;為個主元累計方差貢獻率。9.4KPCA深度信念網(wǎng)絡(luò)模型對觀測的原始數(shù)據(jù)進行歸一化預(yù)處理后,再利用KPCA提取數(shù)據(jù)主要特征進行降維,再將數(shù)據(jù)依次輸入第一個RBM的顯層中,利用訓(xùn)練RBM,通過貪婪逐層學(xué)習(xí),逐步地完成所有RBM的學(xué)習(xí)訓(xùn)練。9.4.2基于KPCA分析的DBN模型最后在DBN的頂層設(shè)置一個神經(jīng)網(wǎng)絡(luò)來完成分類,使用反向傳播算法,結(jié)合有標(biāo)簽的樣本對整體DBN網(wǎng)絡(luò)進行參數(shù)的微調(diào)?;贙PCA分析的深度信念網(wǎng)絡(luò)模型,如圖所示。9.5全參數(shù)動態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)對DBN進行訓(xùn)練的過程主要有兩步:第一,使用無監(jiān)督學(xué)習(xí)方法訓(xùn)練每一層RBM,且每個RBM的輸入為上一個RBM的輸出,即每一層RBM都要單獨訓(xùn)練,確保特征向量映射到不同的特征空間時,盡可能多的保留特征信息;第二,使用最后一層的BP網(wǎng)絡(luò)接收最后一個RBM的輸出,用有監(jiān)督的方式訓(xùn)練整個網(wǎng)絡(luò),對其進行微調(diào)。對一個典型的由三個RBM堆疊成的DBN結(jié)構(gòu)模型(圖9.1),在無監(jiān)督前向堆疊RBM學(xué)習(xí)中,首先在可見層生成一個向量,將輸入數(shù)據(jù)從可見層傳到隱層。在這個過程中,可見層的輸入會被隨機選擇,用來嘗試重構(gòu)原始的輸入信號;接著,新得到的可見層神經(jīng)元激活單元將繼續(xù)前向傳遞,來重構(gòu)隱層神經(jīng)元激活單元獲得;這些重復(fù)后退和前進的步驟就是Gibbs采樣[186183]。整個過程中,權(quán)值更新的主要依據(jù)就是隱層激活單元與可見輸入信號之間的相關(guān)性差別。9.5全參數(shù)動態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)對所有的隱含層單元計算式中,。對所有的隱含層單元計算式中,。對所有的隱含層單元計算式中,。9.5全參數(shù)動態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)參數(shù)更新公式為按上述步驟完成迭代更新,并依次訓(xùn)練下一個RBM,最終得到DBN網(wǎng)絡(luò)的最后更新參數(shù)。9.5全參數(shù)動態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)無監(jiān)督前向堆疊RBM學(xué)習(xí)完成后可以初始化RBM每層的參數(shù),相當(dāng)于為后續(xù)的監(jiān)督學(xué)習(xí)提供了輸入數(shù)據(jù)的先驗知識,然后使用有監(jiān)督后向微調(diào)算法對DBN的權(quán)值進行微調(diào),接著利用輸出誤差值進行輸出層與前一層之間的誤差估計。

同理,經(jīng)過逐層的反向傳播訓(xùn)練,來獲取其余各層之間的誤差,最后使用批梯度下降法計算并更新各節(jié)點權(quán)值,直到輸出誤差滿足要求。后向微調(diào)是從DBN網(wǎng)絡(luò)的最后一層出發(fā)的,微調(diào)公式為9.5全參數(shù)動態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)DBN的BP算法只需要對權(quán)值參數(shù)空間進行一個局部的搜索,這樣的權(quán)值微調(diào)算法克服了傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)因隨機初始化權(quán)值參數(shù)而容易陷入局部最小和訓(xùn)練時間過長的缺點,只需在已知權(quán)值空間內(nèi)進行微調(diào)即可,大大縮減了參數(shù)尋優(yōu)的收斂時間。其次,使用CD算法可進行快速訓(xùn)練,將DBN整體框架簡化為多個RBM結(jié)構(gòu),這樣避免了直接從整體上訓(xùn)練DBN的復(fù)雜度。采用這種方式進行網(wǎng)絡(luò)訓(xùn)練,再使用傳統(tǒng)反向傳播算法進行網(wǎng)絡(luò)微調(diào),大大提升了網(wǎng)絡(luò)的建模能力,使模型快速收斂到最優(yōu)。DBN模型中有兩個過程使用了學(xué)習(xí)率:RBM前向堆疊和后向微調(diào)過程。學(xué)習(xí)率能夠影響網(wǎng)絡(luò)的學(xué)習(xí)進度,合適的學(xué)習(xí)速率是保證參數(shù)學(xué)習(xí)到最佳狀態(tài)的必要條件。9.5全參數(shù)動態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)DBN模型中參數(shù)優(yōu)化,即權(quán)重與偏置的一般更新公式為式中,為迭代次的參數(shù)值;為迭代次的參數(shù)值,為學(xué)習(xí)率(步長);為定義在數(shù)據(jù)集上的損失函數(shù)的梯度。根據(jù)連接權(quán)重和偏置的不同特點和作用,這里給出一種全參數(shù)動態(tài)學(xué)習(xí)策略,數(shù)學(xué)表達式如下:(1)RBM前向堆疊過程中參數(shù)的學(xué)習(xí)策略9.5全參數(shù)動態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)式中,為連接權(quán)重下一回合的學(xué)習(xí)率;為當(dāng)前回合連接權(quán)重的學(xué)習(xí)率;取1;為一定比例的上一梯度和當(dāng)前梯度的平方和,為衰減因子,取值為0.9;和分別為迭代第次可見單元和隱含單元偏置的學(xué)習(xí)率;和分別為迭代第

次可見單元和隱含單元偏置的學(xué)習(xí)率;使用呈下降趨勢的冪指數(shù)函數(shù);為最大迭代次數(shù);q取0.75。(2)后向微調(diào)過程中參數(shù)的學(xué)習(xí)策略式中,為后向微調(diào)過程中連接權(quán)重下一回合的學(xué)習(xí)率;為當(dāng)前回合連接權(quán)重的學(xué)習(xí)率9.5全參數(shù)動態(tài)學(xué)習(xí)深度信念網(wǎng)絡(luò)該學(xué)習(xí)策略的思想是:對于權(quán)重而言,利用當(dāng)前學(xué)習(xí)率與最近兩個梯度平方和,自適應(yīng)調(diào)節(jié)下一回合的學(xué)習(xí)率。只使用最近兩個梯度的平方和,減少了歷史梯度的冗長計算;同時學(xué)習(xí)率隨著迭代次數(shù)動態(tài)變化,這樣都使模型的收斂速度有所加快。對于偏置而言,從減少計算量的角度出發(fā),為其設(shè)置了只與當(dāng)前學(xué)習(xí)率有關(guān)的冪指數(shù)函數(shù),這樣可以加快模型的收斂速度。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法傳統(tǒng)的深度信念網(wǎng)絡(luò)(DBN)參數(shù)訓(xùn)練方法存在一定的缺陷,在一定程度上影響了其特征提取能力和收斂速度。首先,網(wǎng)絡(luò)參數(shù)的隨機初始化使其淺層網(wǎng)絡(luò)在學(xué)習(xí)訓(xùn)練過程易陷入局部搜索,影響了DBN的特征提取能力。

其次,DBN在提取高維數(shù)據(jù)的底層特征時,需將高維數(shù)據(jù)直接作為網(wǎng)絡(luò)的輸入,導(dǎo)致網(wǎng)絡(luò)參數(shù)大幅度增加,從而使網(wǎng)絡(luò)訓(xùn)練的收斂速度變慢。

為克服這些缺點,可使用粒子群優(yōu)化算法確定DBN的最優(yōu)結(jié)構(gòu)、網(wǎng)絡(luò)連接權(quán)值和偏置;也可使用dropout技術(shù)訓(xùn)練DBN結(jié)構(gòu),在DBN訓(xùn)練過程中每次隨機去掉一部分隱含層節(jié)點,避免了訓(xùn)練過程中可能出現(xiàn)的過擬合現(xiàn)象,但隨機去掉節(jié)點的過程中可能會造成一定的誤差。9.6.1混沌免疫算法優(yōu)化深度信念網(wǎng)絡(luò)9.6深度信念網(wǎng)絡(luò)優(yōu)化算法DBN的優(yōu)勢在于具有強大的特征提取能力,而其特征提取能力取決于網(wǎng)絡(luò)參數(shù)。DBN的網(wǎng)絡(luò)參數(shù)包括超參數(shù)和可訓(xùn)練獲得參數(shù)。超參數(shù)包括隱含層層數(shù)及節(jié)點數(shù)、學(xué)習(xí)率和動量等;可訓(xùn)練獲得參數(shù)是指通過網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練獲得的DBN連接權(quán)值和偏置。人工免疫算法具有搜索能力強、尋優(yōu)速度快等特點,被廣泛應(yīng)用于優(yōu)化神經(jīng)網(wǎng)絡(luò),以提高網(wǎng)絡(luò)的收斂速度和泛化性能。本節(jié)介紹一種利用改進的混沌免疫算法進行DBN參數(shù)優(yōu)化的方法。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法1.克隆選擇算法克隆選擇算法(cloneselectionalgorithm,CSA)借鑒了人工免疫系統(tǒng)中抗體克隆選擇的免疫機理,具有全局搜索能力強、尋優(yōu)速度快等優(yōu)點,與其它智能算法相比能夠產(chǎn)生更有利于復(fù)雜優(yōu)化問題的最優(yōu)解。

將CSA應(yīng)用于復(fù)雜優(yōu)化問題時,待優(yōu)化問題的解映射為抗體,待優(yōu)化問題的目標(biāo)函數(shù)映射為親和力,優(yōu)化解與目標(biāo)函數(shù)的匹配程度映射為抗原和抗體親和力,對具有較高親和力的抗體進行克隆選擇,通過高頻變異和濃度抑制保持抗體多樣性,實現(xiàn)流程如圖所示。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法2.改進的混沌免疫算法基本的CSA算法在抗體變異時由于變異的隨機性、無向性,尋優(yōu)過程中易陷入局部最優(yōu)值,影響算法的收斂速度。本節(jié)利用自適應(yīng)變異改善算法的全局搜索能力和局部搜索能力,利用螢火蟲優(yōu)化變異對抗體種群進行定向搜索,混沌變異進行全局搜索,邊界變異控制種群的搜索范圍。此外,CSA算法的時間復(fù)雜度為(T為進化代數(shù),Ab為抗體規(guī)模),因此,對于低維解的優(yōu)化問題,抗體規(guī)模小,算法很快收斂;而對于高維參數(shù)的優(yōu)化問題,所需抗體規(guī)模異常龐大,算法收斂減慢。這里給出可變選擇算子,抗體選擇規(guī)模隨著進化代數(shù)逐漸減小,加快算法的尋優(yōu)速度。9.6深度信念網(wǎng)絡(luò)優(yōu)化算法(1)混沌初始化。引入混沌算法,用于初始化CSA抗體種群。采用Logistic映射的混沌公式,對抗體進行快速搜索,混沌公式為(2)親和力計算??乖涂贵w親和力通過DBN的輸出誤差來衡量,DBN輸出誤差越小,親和力越小,抗原和抗體的匹配程度越高,計算公式為式中,為第n個訓(xùn)練樣本的網(wǎng)絡(luò)實際輸出,為第n個訓(xùn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論