神經(jīng)網(wǎng)絡(luò)-周志華西瓜書_第1頁
神經(jīng)網(wǎng)絡(luò)-周志華西瓜書_第2頁
神經(jīng)網(wǎng)絡(luò)-周志華西瓜書_第3頁
神經(jīng)網(wǎng)絡(luò)-周志華西瓜書_第4頁
神經(jīng)網(wǎng)絡(luò)-周志華西瓜書_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

高斌斌第五章神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)發(fā)展史第一階段1943年,McCulloch和Pitts提出第一個神經(jīng)元數(shù)學(xué)模型,即M-P模型,并從原理上證明了人工神經(jīng)網(wǎng)絡(luò)能夠計算任何算數(shù)和邏輯函數(shù)1949年,Hebb發(fā)表《TheOrganizationofBehavior》一書,提出生物神經(jīng)元學(xué)習(xí)的機(jī)理,即Hebb學(xué)習(xí)規(guī)則1958年,Rosenblatt提出感知機(jī)網(wǎng)絡(luò)(Perceptron)模型和其學(xué)習(xí)規(guī)則1960年,Widrow和Hoff提出自適應(yīng)線性神經(jīng)元(Adaline)模型和最小均方學(xué)習(xí)算法1969年,Minsky和Papert發(fā)表《Perceptrons》一書,指出單層神經(jīng)網(wǎng)路不能解決非線性問題,多層網(wǎng)絡(luò)的訓(xùn)練算法尚無希望.這個論斷導(dǎo)致神經(jīng)網(wǎng)絡(luò)進(jìn)入低谷神經(jīng)網(wǎng)絡(luò)發(fā)展史第二階段1982年,物理學(xué)家Hopfield提出了一種具有聯(lián)想記憶、優(yōu)化計算能力的遞歸網(wǎng)絡(luò)模型,即Hopfield網(wǎng)絡(luò)1986年,Rumelhart等編輯的著作《ParallelDistributedProceesing:ExplorationsintheMicrostructuresofCognition》報告了反向傳播算法1987年,IEEE在美國加州圣地亞哥召開第一屆神經(jīng)網(wǎng)絡(luò)國際會議(ICNN)90年代初,伴隨統(tǒng)計學(xué)習(xí)理論和SVM的興起,神經(jīng)網(wǎng)絡(luò)由于理論不夠清楚,試錯性強(qiáng),難以訓(xùn)練,再次進(jìn)入低谷神經(jīng)網(wǎng)絡(luò)發(fā)展史第三階段2006年,Hinton提出了深度信念網(wǎng)絡(luò)(DBN),通過“預(yù)訓(xùn)練+微調(diào)”使得深度模型的最優(yōu)化變得相對容易2012年,Hinton組參加ImageNet競賽,使用CNN模型以超過第二名10個百分點的成績奪得當(dāng)年競賽的冠軍伴隨云計算、大數(shù)據(jù)時代的到來,計算能力的大幅提升,使得深度學(xué)習(xí)模型在計算機(jī)視覺、自然語言處理、語音識別等眾多領(lǐng)域都取得了較大的成功神經(jīng)網(wǎng)絡(luò)發(fā)展史第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3

誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3

誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.1神經(jīng)元模型神經(jīng)網(wǎng)絡(luò)的定義“神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡單單元組成的廣泛并行互聯(lián)的網(wǎng)絡(luò),它的組織能夠模擬生物神經(jīng)系統(tǒng)對真實世界物體所作出的反應(yīng)”

[Kohonen,1988]機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)通常是指“神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)”

或者機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)兩個學(xué)科的交叉部分神經(jīng)元模型即上述定義中的“簡單單元”是神經(jīng)網(wǎng)絡(luò)的基本成分生物神經(jīng)網(wǎng)絡(luò):每個神經(jīng)元與其他神經(jīng)元相連,當(dāng)它“興奮”時,就會向相連的神經(jīng)云發(fā)送化學(xué)物質(zhì),從而改變這些神經(jīng)元內(nèi)的電位;如果某神經(jīng)元的電位超過一個“閾值”,那么它就會被激活,即“興奮”起來,向其它神經(jīng)元發(fā)送化學(xué)物質(zhì)

M-P神經(jīng)元模型[McCullochandPitts,1943]輸入:來自其他

個神經(jīng)云傳遞過來的輸入信號處理:輸入信號通過帶權(quán)重的連接進(jìn)行傳遞,神經(jīng)元接受到總輸入值將與神經(jīng)元的閾值進(jìn)行比較輸出:通過激活函數(shù)的處理以得到輸出5.1神經(jīng)元模型5.1神經(jīng)元模型激活函數(shù)理想激活函數(shù)是階躍函數(shù),0表示抑制神經(jīng)元而1表示激活神經(jīng)元階躍函數(shù)具有不連續(xù)、不光滑等不好的性質(zhì),常用的是Sigmoid函數(shù)

第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3

誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)感知機(jī)由兩層神經(jīng)元組成,輸入層接受外界輸入信號傳遞給輸出層,輸出層是M-P神經(jīng)元(閾值邏輯單元)

感知機(jī)能夠容易地實現(xiàn)邏輯與、或、非運算

“與”:令,則,僅在時,

.“或”:令,則

,僅在或者

時,

.“非”:令

,

當(dāng)時,;當(dāng),

.5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)學(xué)習(xí)給定訓(xùn)練數(shù)據(jù)集,權(quán)重與閾值可以通過學(xué)習(xí)得到感知機(jī)學(xué)習(xí)規(guī)則

對訓(xùn)練樣例,若當(dāng)前感知機(jī)的輸出為

,則感知機(jī)權(quán)重調(diào)整規(guī)則為:其中稱為學(xué)習(xí)率

若感知機(jī)對訓(xùn)練樣例預(yù)測正確,則感知機(jī)不發(fā)生變化;否則根據(jù)錯誤程度進(jìn)行權(quán)重的調(diào)整.5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)求解異、或、非問題5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)求解異、或、非問題5.2感知機(jī)與多層網(wǎng)絡(luò)感知機(jī)學(xué)習(xí)能力若兩類模式線性可分,則感知機(jī)的學(xué)習(xí)過程一定會收斂;否感知機(jī)的學(xué)習(xí)過程將會發(fā)生震蕩

[MinskyandPapert,1969]單層感知機(jī)的學(xué)習(xí)能力非常有限,只能解決線性可分問題事實上,與、或、非問題是線性可分的,因此感知機(jī)學(xué)習(xí)過程能夠求得適當(dāng)?shù)臋?quán)值向量.而異或問題不是線性可分的,感知機(jī)學(xué)習(xí)不能求得合適解

對于非線性可分問題,如何求解?

多層感知機(jī)5.2感知機(jī)與多層網(wǎng)絡(luò)多層感知機(jī)解決異或問題的兩層感知機(jī)輸出層與輸入層之間的一層神經(jīng)元,被稱之為隱層或隱含層,隱含層和輸出層神經(jīng)元都是具有激活函數(shù)的功能神經(jīng)元5.2感知機(jī)與多層網(wǎng)絡(luò)多層前饋神經(jīng)網(wǎng)絡(luò)定義:每層神經(jīng)元與下一層神經(jīng)元全互聯(lián),神經(jīng)元之間不存在同層連接也不存在跨層連接前饋:輸入層接受外界輸入,隱含層與輸出層神經(jīng)元對信號進(jìn)行加工,最終結(jié)果由輸出層神經(jīng)元輸出學(xué)習(xí):根據(jù)訓(xùn)練數(shù)據(jù)來調(diào)整神經(jīng)元之間的“連接權(quán)”以及每個功能神經(jīng)元的“閾值”多層網(wǎng)絡(luò):包含隱層的網(wǎng)絡(luò)

第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3

誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.3誤差逆?zhèn)鞑ニ惴ㄕ`差逆?zhèn)鞑ニ惴ǎ‥rrorBackPropagation,簡稱BP)是最成功的訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法.給定訓(xùn)練集 ,即輸入示例由

個屬性描述,輸出

維實值向量. 為方便討論,給定一個擁有

個輸入神經(jīng)元,個輸出神經(jīng)元,個隱層神經(jīng)元的多層前向前饋網(wǎng)絡(luò)結(jié)構(gòu).記號:

:輸出層第

個神經(jīng)元閾值;

:隱含層第

個神經(jīng)元閾值;

:輸入層與隱層神經(jīng)元之間的連接權(quán)重;

:隱層與輸出層神經(jīng)元之間的連接權(quán)重;

5.3誤差逆?zhèn)鞑ニ惴?/p>

對于樣例,假設(shè)網(wǎng)絡(luò)的實際輸出為前向計算

step1:step2:

step3:參數(shù)數(shù)目權(quán)重:,閾值:,

因此網(wǎng)絡(luò)中需要個參數(shù)需要優(yōu)化參數(shù)優(yōu)化

BP是一個迭代學(xué)習(xí)算法,在迭代的每一輪中采用廣義的感知機(jī)學(xué)習(xí)規(guī)則對參數(shù)進(jìn)行更新估計,任意的參數(shù)的更新估計式為5.3誤差逆?zhèn)鞑ニ惴˙P學(xué)習(xí)算法

BP算法基于梯度下降策略,以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整.對誤差,給定學(xué)習(xí)率5.3誤差逆?zhèn)鞑ニ惴˙P學(xué)習(xí)算法類似的可以推導(dǎo)出:其中學(xué)習(xí)率控制著算法每一輪迭代中的更新步長,若太長則讓容易震蕩,太小則收斂速度又會過慢.5.3誤差逆?zhèn)鞑ニ惴˙P學(xué)習(xí)算法5.3誤差逆?zhèn)鞑ニ惴˙P算法實驗5.3誤差逆?zhèn)鞑ニ惴?biāo)準(zhǔn)BP算法每次針對單個訓(xùn)練樣例更新權(quán)值與閾值.參數(shù)更新頻繁,不同樣例可能抵消,需要多次迭代.累計BP算法其優(yōu)化的目標(biāo)是最小化整個訓(xùn)練集上的累計誤差讀取整個訓(xùn)練集一遍才對參數(shù)進(jìn)行更新,參數(shù)更新頻率較低.實際應(yīng)用但在很多任務(wù)中,累計誤差下降到一定程度后,進(jìn)一步下降會非常緩慢,這時標(biāo)準(zhǔn)BP算法往往會獲得較好的解,尤其當(dāng)訓(xùn)練集非常大時效果更明顯.5.3誤差逆?zhèn)鞑ニ惴ǘ鄬忧梆伨W(wǎng)絡(luò)表示能力只需要一個包含足夠多神經(jīng)元的隱層,多層前饋神經(jīng)網(wǎng)絡(luò)就能以任意精度逼近任意復(fù)雜度的連續(xù)函數(shù)

[Horniketal.,1989]多層前饋網(wǎng)絡(luò)局限神經(jīng)網(wǎng)絡(luò)由于強(qiáng)大的表示能力,經(jīng)常遭遇過擬合.表現(xiàn)為:訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升如何設(shè)置隱層神經(jīng)元的個數(shù)仍然是個未決問題.實際應(yīng)用中通常使用“試錯法”調(diào)整緩解過擬合的策略早停:在訓(xùn)練過程中,若訓(xùn)練誤差降低,但驗證誤差升高,則停止訓(xùn)練

正則化:在誤差目標(biāo)函數(shù)中增加一項描述網(wǎng)絡(luò)復(fù)雜程度的部分,例如連接權(quán)值與閾值的平方和第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3

誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.4全局最小與局部極小對和,若存在使得都有成立,則為局部極小解;若度參數(shù)空間中任意的,都有,則為全局最小解.兩者對應(yīng)的

分別稱為誤差函數(shù)的局部最小解和全局最小值.顯然參數(shù)空間梯度為零的點,只要氣誤差函數(shù)值小于鄰點的誤差函數(shù)值,就是局部極小點可能存在多個局部極小值,但卻只會有一個全局極最小值5.4全局最小與局部極小“跳出”局部最小的策略基于梯度的搜索是使用最為廣泛的參數(shù)尋優(yōu)方法.如果誤差函數(shù)僅有一個局部極小,那么此時找到的局部極小就是全局最小;然而,如果誤差函數(shù)具有多個局部極小,則不能保證找到的解是全局最小.在現(xiàn)實任務(wù)中,通常采用以下策略“跳出”局部極小,從而進(jìn)一步達(dá)到全局最小.多組不同的初始參數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò),選取誤差最小的解作為最終參數(shù).模擬退火技術(shù)[AartsandKorst,1989].每一步都以一定的概率接受比當(dāng)前解更差的結(jié)果,從而有助于跳出局部極小.隨機(jī)梯度下降.與標(biāo)準(zhǔn)梯度下降法精確計算梯度不同,隨機(jī)梯度下降法在計算梯度時加入了隨機(jī)因素.遺傳算法[Goldberg,1989].遺傳算法也常用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)以更好地逼近全局極小.第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3

誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.5其他常見神經(jīng)網(wǎng)絡(luò)RBF網(wǎng)絡(luò)[BroomheadandLowe,1988]RBF網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù),而輸出層則是隱層神經(jīng)元輸出的線性組合.RBF網(wǎng)絡(luò)模型假定輸入為維的向量,輸出為實值,則RBF網(wǎng)絡(luò)可以表示為其中為隱層神經(jīng)元的個數(shù),和分別是第神經(jīng)元對應(yīng)的中心和權(quán)重,是徑向基函數(shù).常用的高斯徑向基函數(shù)形如5.5其他常見神經(jīng)網(wǎng)絡(luò)RBF網(wǎng)絡(luò)RBF網(wǎng)絡(luò)性質(zhì)具有足夠多隱層神經(jīng)元RBF神經(jīng)網(wǎng)絡(luò)能以任意精度逼近任意連續(xù)函數(shù).

[ParkandSandberg,1991]RBF網(wǎng)絡(luò)訓(xùn)練Step1:確定神經(jīng)元中心,常用的方式包括隨機(jī)采樣、聚類等

Step2:利用BP算法等確定參數(shù)5.5其他常見神經(jīng)網(wǎng)絡(luò)ART網(wǎng)絡(luò)競爭學(xué)習(xí)競爭學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一種常用的無監(jiān)督學(xué)習(xí)策略,在使用該策略時,網(wǎng)絡(luò)的輸出神經(jīng)元相互競爭,每一時刻僅有一個神經(jīng)元被激活,其他神經(jīng)元的狀態(tài)被抑制.ART網(wǎng)絡(luò)[CarpenterandGrossberg,1987]ART網(wǎng)絡(luò)是競爭學(xué)習(xí)的重要代表ART網(wǎng)絡(luò)由比較層、識別層、識別閾值和重置模塊構(gòu)成

比較層負(fù)責(zé)接收輸入樣本,并將其傳送給識別層神經(jīng)元識別層每個神經(jīng)元對應(yīng)一個模式類,神經(jīng)元的數(shù)目可在訓(xùn)練過程中動態(tài)增長以增加新的模式類5.5其他常見神經(jīng)網(wǎng)絡(luò)ART網(wǎng)絡(luò)ART網(wǎng)絡(luò)性能依賴于識別閾值識別閾值高時,輸入樣本將會分成比較多、得到較精細(xì)分類識別閾值低時,輸入樣本將會分成比較少、產(chǎn)生較粗略分類ART網(wǎng)絡(luò)的優(yōu)勢ART較好的解決了競爭學(xué)習(xí)中的“可塑性-穩(wěn)定性窘境”,可塑性是指神經(jīng)網(wǎng)絡(luò)要有學(xué)習(xí)新知識的能力;穩(wěn)定性是指神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)新知識時要保持對舊知識的記憶.ART網(wǎng)絡(luò)可以增量學(xué)習(xí)或在線學(xué)習(xí)ART網(wǎng)絡(luò)的發(fā)展

ART2網(wǎng)絡(luò)、FuzzyART網(wǎng)絡(luò)、ARTMAP網(wǎng)絡(luò)5.5其他常見神經(jīng)網(wǎng)絡(luò)SOM網(wǎng)絡(luò)[Kohonen,1982]SOM網(wǎng)絡(luò)是一種競爭型的無監(jiān)督神經(jīng)網(wǎng)絡(luò),它能將高維數(shù)據(jù)映射到低維空間(通常為2維),同時保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間中相似的樣本點映射到網(wǎng)絡(luò)輸出層中鄰近神經(jīng)元.如圖,SOM網(wǎng)絡(luò)中的輸出層神經(jīng)元以矩陣方式排列在二維空間中,每個神經(jīng)元都擁有一個權(quán)值向量,網(wǎng)絡(luò)在接收輸入向量后,將會確定輸出層獲勝神經(jīng)元,它決定了該輸入向量在低維空間中的位置.5.5其他常見神經(jīng)網(wǎng)絡(luò)SOM網(wǎng)絡(luò)[Kohonen,1982]SOM網(wǎng)絡(luò)訓(xùn)練Step1:接受到一個訓(xùn)練樣本后,每個輸出層神經(jīng)元計算該樣本與自身攜帶的權(quán)向量之間的距離,距離最近的神經(jīng)元成為競爭獲勝者Step2:最佳匹配單元及其近鄰神經(jīng)元的權(quán)值將被調(diào)整,使得這些權(quán)向量與當(dāng)前輸入樣本的距離縮小5.5其他常見神經(jīng)網(wǎng)絡(luò)級聯(lián)相關(guān)網(wǎng)絡(luò)[FahlmanandLebiere1990]級聯(lián)相關(guān)網(wǎng)絡(luò)不僅利用訓(xùn)練樣本優(yōu)化連接權(quán)值,閾值參數(shù),將網(wǎng)絡(luò)的結(jié)構(gòu)也當(dāng)做學(xué)習(xí)的目標(biāo)之一,希望在訓(xùn)練過程中找到適合數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu).級聯(lián)與相關(guān)級聯(lián):建立層次連接的層級結(jié)構(gòu)相關(guān):最大化神經(jīng)元的輸出與網(wǎng)絡(luò)誤差時間的相關(guān)性來訓(xùn)練相關(guān)參數(shù)網(wǎng)絡(luò)優(yōu)化演示5.5其他常見神經(jīng)網(wǎng)絡(luò)Elman網(wǎng)絡(luò)[Elman1990]遞歸神經(jīng)網(wǎng)絡(luò)允許網(wǎng)絡(luò)中出現(xiàn)環(huán)形結(jié)構(gòu),使得神經(jīng)元的輸出反饋回來作為輸入信號t

時刻網(wǎng)絡(luò)的輸出狀態(tài):由

t

時刻的輸入狀態(tài)和t-1時刻的網(wǎng)絡(luò)狀態(tài)決定Elman網(wǎng)絡(luò)Elamn網(wǎng)絡(luò)是最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一,結(jié)構(gòu)如圖所示,這種結(jié)構(gòu)與前饋神經(jīng)網(wǎng)絡(luò)很相似,但是隱層神經(jīng)元的輸出被反饋回來,與下一時刻輸入層神經(jīng)元提供的信號一起,作為隱層神經(jīng)元在下一時刻的輸入訓(xùn)練算法推廣的BP算法.

[Pineda,1987]5.5其他常見神經(jīng)網(wǎng)絡(luò)Boltzmann機(jī)能量模型神經(jīng)網(wǎng)絡(luò)中有一類模型為網(wǎng)絡(luò)定義一個“能量”,能量最小化時網(wǎng)絡(luò)達(dá)到理想狀態(tài),而網(wǎng)絡(luò)的訓(xùn)練就是在最小化這個能量函數(shù).Boltzmann機(jī)Boltzmann

機(jī)就是一種基于能量的模型結(jié)構(gòu):顯層與隱層顯層:數(shù)據(jù)的輸入輸出隱層:數(shù)據(jù)的內(nèi)在表達(dá)神經(jīng)元布爾型,即只能取0和1兩種狀態(tài),其中1表示激活,0表示抑制.5.5其他常見神經(jīng)網(wǎng)絡(luò)Boltzmann機(jī)[Ackleyetal.,1985]Boltzmann機(jī)能量令狀態(tài)向量,則其對應(yīng)的Boltzmann機(jī)能量定義為其中表示兩個神經(jīng)元之間的連接權(quán)值,表示神經(jīng)元的閾值.Boltzmann分布網(wǎng)絡(luò)中的神經(jīng)元以任意不依賴與輸入值得順序進(jìn)行更新,則網(wǎng)絡(luò)最終將達(dá)到

Boltzmann分布,此時狀態(tài)向量出現(xiàn)的概率將僅由其能量與所有可能狀態(tài)向量的能量確定:5.5其他常見神經(jīng)網(wǎng)絡(luò)Boltzmann機(jī)[Ackleyetal.,1985]Boltzmann

機(jī)訓(xùn)練將每個訓(xùn)練樣本視為一個狀態(tài)向量,使其出現(xiàn)的概率盡可能大

標(biāo)準(zhǔn)的Boltzmann

機(jī)是一個全連接圖,訓(xùn)練網(wǎng)絡(luò)的復(fù)雜度很高,這使其難以用于解決現(xiàn)實任務(wù)現(xiàn)實中常用受限Boltzmann

機(jī),簡稱RBM.RBM僅保留顯層與隱層之間的連接,從而將Boltzmann機(jī)結(jié)構(gòu)有完全圖簡化為二部圖

5.5其他常見神經(jīng)網(wǎng)絡(luò)受限Boltzmann機(jī)[Ackleyetal.,1985]受限Boltzmann機(jī)常用“對比散度”(簡稱:CD)算法

[Hinton,2010]來進(jìn)行訓(xùn)練

假定網(wǎng)絡(luò)中有個顯層神經(jīng)元個隱層神經(jīng)元,令和分別是顯層與隱層的狀態(tài)向量,由于同一層內(nèi)不存在連接,有CD算法對每個訓(xùn)練樣本,先計算出隱層神經(jīng)元狀態(tài)的概率分布,然后根據(jù)這個概率分布采樣得到;類似的方法從中產(chǎn)生,再從

中產(chǎn)生;連接權(quán)重的更新公式為:第五章神經(jīng)網(wǎng)絡(luò)主要內(nèi)容5.1神經(jīng)元模型5.2感知機(jī)與多層網(wǎng)絡(luò)5.3

誤差逆?zhèn)鞑ニ惴?.4全局最小與局部最小5.5其他常見神經(jīng)網(wǎng)絡(luò)5.6深度學(xué)習(xí)5.6深度學(xué)習(xí)深度學(xué)習(xí)模型典型的深度學(xué)習(xí)模型就是很深層的神經(jīng)網(wǎng)絡(luò).模型復(fù)雜度增加隱層神經(jīng)元的數(shù)目(模型寬度)增加隱層數(shù)目(模型深度)從增加模型復(fù)雜度的角度看,增加隱層的數(shù)目比增加隱層神經(jīng)元的數(shù)目更有效.這是因為增加隱層數(shù)不僅增加額擁有激活函數(shù)的神經(jīng)元數(shù)目,還增加了激活函數(shù)嵌套的層數(shù).復(fù)雜模型難點多隱層網(wǎng)絡(luò)難以直接用經(jīng)典算法(例如標(biāo)準(zhǔn)BP算法)進(jìn)行訓(xùn)練,因為誤差在多隱層內(nèi)逆?zhèn)鞑r,往往會”發(fā)散”而不能收斂到穩(wěn)定狀態(tài).5.6深度學(xué)習(xí)復(fù)雜模型訓(xùn)練方法預(yù)訓(xùn)練+微調(diào)預(yù)訓(xùn)練:監(jiān)督逐層訓(xùn)練是多隱層網(wǎng)絡(luò)訓(xùn)練的有效手段,每次訓(xùn)練一層隱層結(jié)點,訓(xùn)練時將上一層隱層結(jié)點的輸出作為輸入,而本層隱結(jié)點的輸出作為下一層隱結(jié)點的輸入,這稱為”預(yù)訓(xùn)練”.微調(diào):在預(yù)訓(xùn)練全部完成后,再對整個網(wǎng)絡(luò)進(jìn)行微調(diào)訓(xùn)練.微調(diào)一般使用BP算法.例子:深度信念網(wǎng)絡(luò)[Hintonetal.,2006]結(jié)構(gòu):每一層都是一個受限Boltzmann機(jī)訓(xùn)練方法:無監(jiān)督預(yù)訓(xùn)練+BP微調(diào)分析預(yù)訓(xùn)練+微調(diào)的做法可以視為將大量參數(shù)分組,對每組先找到局部看起來比較好的設(shè)置,然后再基于這些局部較優(yōu)的結(jié)果聯(lián)合起來進(jìn)行全局尋優(yōu).5.6深度學(xué)習(xí)復(fù)雜模型訓(xùn)練方法權(quán)共享一組神經(jīng)元使用相同的連接權(quán)值.權(quán)共享策略在卷積神經(jīng)網(wǎng)絡(luò)(CNN)[Le

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論