人工神經(jīng)網(wǎng)絡(luò)_第1頁
人工神經(jīng)網(wǎng)絡(luò)_第2頁
人工神經(jīng)網(wǎng)絡(luò)_第3頁
人工神經(jīng)網(wǎng)絡(luò)_第4頁
人工神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural NetworksANNs)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進行信息處理的數(shù)學(xué)模型。在工程與學(xué)術(shù)界也常直接簡稱為神經(jīng)網(wǎng)絡(luò)或類神經(jīng)網(wǎng)絡(luò)。 ANN學(xué)習(xí)對于訓(xùn)練數(shù)據(jù)中的錯誤魯棒性很好,且已經(jīng)成功地應(yīng)用到很多領(lǐng)域,例如視覺場景分析(interpreting visual scenes)、語音識別、以及機器人控制等。 人工神經(jīng)網(wǎng)絡(luò)的研究者分為兩個團體。一個團體的目標(biāo)是使用ANN研究和模擬生物學(xué)習(xí)過程。另一個團體的目標(biāo)是獲得高效的機器學(xué)習(xí)算法。我們主要學(xué)習(xí)如何獲得高效的機器學(xué)習(xí)算法。4.1 簡介4.2神經(jīng)網(wǎng)絡(luò)表示nPomerleau的AL

2、VINN系統(tǒng)是ANN學(xué)習(xí)的一個典型實例,這個系統(tǒng)使用一個學(xué)習(xí)到的ANN以正常的速度在高速公路上駕駛汽車。ANN的輸入是一個30*32像素的網(wǎng)格,像素的亮度來自一個安裝在車輛上的前向攝像機。ANN的輸出是車輛行進的方向。這個ANN通過模仿分類駕駛時的操縱命令進行訓(xùn)練,訓(xùn)練過程大約5分鐘。ALVINN用學(xué)習(xí)到的網(wǎng)絡(luò)在高速公路上以70英里時速成功駕駛了90英里。4.3 適合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的問題nANN學(xué)習(xí)非常適合于這樣的問題:n訓(xùn)練集合為含有噪聲的復(fù)雜傳感器數(shù)據(jù),例如來自攝像機和麥克風(fēng)的數(shù)據(jù)。n也適合于需要較多符號表示的問題,例如決策樹。n反向傳播算法是最常用的ANN學(xué)習(xí)技術(shù)。它適合具有以下特征的問題

3、:n1 實例是用很多“屬性-值”對表示的n2 目標(biāo)函數(shù)的輸出可能是離散值、實數(shù)值或者由若干實屬屬性或離散屬性組成的向量n3 訓(xùn)練數(shù)據(jù)可能包含錯誤n4 可容忍長時間的訓(xùn)練n5 可能需要快速求出目標(biāo)函數(shù)值n6 人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的4.4 感知器n一種類型的ANN系統(tǒng)是以被稱為感知器(perceptron)的單元為基礎(chǔ)的,如圖4-2所示。感知器以一個實數(shù)值向量作為輸入,計算這些輸入的線性組合,然后如果結(jié)果大于某個閾值就輸出1,否則輸出-1。nn如果輸入為x1到xn,那么感知器計算的輸出為:n其中每一個wi是一個實數(shù)常量,或叫做權(quán)值(weight),用來決定輸入xi對感知器輸出的貢獻率

4、。請注意,常量(-w0)是一個閾值,它是為了使感知器輸出1,輸入的加權(quán)和必須超過的閾值。nn為了簡化表示,我們假想有一個附加的常量輸入x0=1 ,那么我們就可以把上邊的不等式寫為 ,或以向量形式寫為:n我們有時會把感知器函數(shù)寫為:n其中,00niiixw)sgn()(xwxootherwiseyify101)sgn(0 xw4.4.1感知器的表征能力n我們可以把感知器看作是n維實例空間(即點空間)中的超平面決策面。對于超平面一側(cè)的實例,感知器輸出1,對于另一側(cè)的實例輸出-1,如圖4-3所示。這個決策超平面方程是 。當(dāng)然,像圖4.3b正反樣例集合不可能被任一超平面分割。那些可以被分割的稱為線性可

5、分(linearly separable)樣例集合。4.4.2 感知器訓(xùn)練法則n這里的學(xué)習(xí)任務(wù)是如何學(xué)習(xí)決定一個權(quán)向量,它可以使感知器對于給定的訓(xùn)練樣例輸出正確的1或-1。n主要有兩種算法:感知器法則和delta法則n從隨機的權(quán)值開始,然后反復(fù)地應(yīng)用這個感知器到每個訓(xùn)練樣例,只要它誤分類樣例就修改感知器的權(quán)值。重復(fù)這個過程,直到感知器正確分類所有的訓(xùn)練樣例。每一步根據(jù)感知器訓(xùn)練法則(perceptron training rule)來修改權(quán)值,也就是根據(jù)下面的法則修改與輸入xi對應(yīng)的權(quán)wi:n wiwi+win其中n wi =(t-o)xin這里t是當(dāng)前訓(xùn)練樣例的目標(biāo)輸出,o是感知器的輸出,是

6、一個正的常數(shù)稱為學(xué)習(xí)速率(learning rate)。學(xué)習(xí)速率的作用是緩和每一步調(diào)整權(quán)的程度。它通常被設(shè)為一個小的數(shù)值(例如0.1),而且有時會使其隨著權(quán)調(diào)整次數(shù)的增加而衰減。n事實上可以證明,在有限次使用感知器訓(xùn)練法則后,上面的訓(xùn)練過程會收斂到一個能正確分類所有訓(xùn)練樣例的權(quán)向量,前提是訓(xùn)練樣例線性可分,并且使用了充分小的(參見Minskey & Papert 1969)。如果數(shù)據(jù)不是線性可分的,那么不能保證收斂。nDelta法則ndelta法則的關(guān)鍵思想是使用梯度下降(gradient descent)來搜索可能權(quán)向量的假設(shè)空間,以找到最佳擬合訓(xùn)練樣例的權(quán)向量。 n最好把delta

7、訓(xùn)練法則理解為訓(xùn)練一個無閾值的感知器,也就是一個線性單元(linear unit),它的輸出o如下:n (4.1)n于是,一個線性單元對應(yīng)于感知器的第一階段,不帶有閾值。n為了推導(dǎo)線性單元的權(quán)值學(xué)習(xí)法則,先指定一個度量標(biāo)準(zhǔn)來衡量假設(shè)(權(quán)向量)相對于訓(xùn)練樣例的訓(xùn)練誤差(training error)。xwxo)(n盡管有很多辦法定義這個誤差,一個常用的特別方便的度量標(biāo)準(zhǔn)為:n n (4.2)n其中D是訓(xùn)練樣例集合,td是訓(xùn)練樣例d的目標(biāo)輸出,od是線性單元對訓(xùn)練樣例d的輸出。在這個定義中,是目標(biāo)輸出td和線性單元輸出od的差異的平方在所有的訓(xùn)練樣例上求和后再除以2 。這里我們把E定為的函數(shù),是因

8、為線性單元的輸出o依賴于這個權(quán)向量。當(dāng)然E也依賴于特定的訓(xùn)練樣例集合,但我們認為它們在訓(xùn)練期間是固定的,所以不必麻煩地把E寫為訓(xùn)練樣例的函數(shù) 。DdddotwE2)(21)(n可視化假設(shè)空間n為了理解梯度下降算法,可視化表示包含所有可能的權(quán)向量和相關(guān)的E值的整個假設(shè)空間是有幫助的,圖4-4畫出了包含可能權(quán)向量的整個假設(shè)空間和與它們相關(guān)聯(lián)的E值。這里,坐標(biāo)軸w0,w1表示一個簡單的線性單元中兩個權(quán)的可能的取值。縱軸指出相對于某固定的訓(xùn)練樣例的誤差E。 n梯度下降法則的推導(dǎo)n通過計算E相對向量 的每一個分量的導(dǎo)數(shù)得到這個方向。這個方向?qū)?shù)被稱為E對 的梯度,記作n既然梯度確定了E最陡峭上升方向,那

9、么梯度下降的訓(xùn)練法則是: 其中: 這個訓(xùn)練法則也可以寫成它的分量形式: 其中: n把公式(4.6)代入公式(4.5)便得到了梯度下降權(quán)值更新法則。n梯度下降的隨機近似n梯度下降可以用于滿足以下條件的任何情況:n(1)假設(shè)空間包含連續(xù)參數(shù)化的假設(shè)n(2)誤差對于這些假設(shè)參數(shù)可微n主要實踐問題是:n(1)有時收斂過程可能非常慢;n(2)如果在誤差曲面上有多個局部極小值,那么不能保證這個過程會找到全局最小值。n為了緩解這些困難,提出一種梯度下降的變體:增量梯度下降或叫隨機梯度下降。n隨機梯度下降的思想是根據(jù)每個單獨樣例的誤差增量計算權(quán)值更新,得到近似的梯度下降搜索。 隨機梯度下降訓(xùn)練法則與公式(4.

10、7)給出的相似,只是在迭代計算每個訓(xùn)練樣例時根據(jù)下面的公式來更新權(quán)值n wi =(t-o)xi (4.10)n其中t,o,和xi分別是目標(biāo)值、單元輸出和第i個訓(xùn)練樣例的輸入。要修改表4-1的梯度下降算法,只要簡單地刪除(4.9)式并把式(4.8)替換為wi wi +(t-o)xi。隨機梯度下降的一種方法可以被看做為每個單獨的訓(xùn)練樣例d定義不同的誤差函數(shù)Ed( ) (4.11)n其中td和od是訓(xùn)練樣例d的目標(biāo)輸出值和單元輸出值。 2)(21)(dddotwEwn標(biāo)準(zhǔn)的梯度下降和隨機的梯度下降之間的關(guān)鍵區(qū)別是:n在標(biāo)準(zhǔn)的梯度下降中,是在權(quán)值更新前對所有樣例匯總誤差,然而在隨機的梯度下降中,權(quán)值是

11、通過考查每個訓(xùn)練實例來更新的。n在標(biāo)準(zhǔn)的梯度下降中權(quán)值更新的每一步對多個樣例求和,這需要更多的計算。另一方面,因為使用真正的梯度,標(biāo)準(zhǔn)的梯度下降對于每一次權(quán)值更新經(jīng)常使用比隨機梯度下降較大的步長。n如果E( )有多個局部極小值,隨機的梯度下降有時可能避免陷入這些局部極小值,因為它使用不同的Ed( )而不是E( )來引導(dǎo)搜索。n公式(4.10)中的訓(xùn)練法則被稱為增量法則。n增量法則和感知器訓(xùn)練法則公式相似,但內(nèi)容卻不同。n事實上兩個表達式看起來完全一致。然而它們是不同的,因為在增量法則中o是指線性單元的輸出o( )= ,而對于感知器法則,o是指閾值輸出o( )=sgn( )。xwxwx4.5 多

12、層網(wǎng)絡(luò)和反向傳播算法n單個感知器僅能表現(xiàn)線性決策面。多層網(wǎng)絡(luò)能夠表示種類繁多的非線性曲面。n可微閾值單元n我們找到一種單元,它的輸出是輸入的非線性函數(shù),并且輸出是輸入的可微函數(shù)。一種答案是sigmoid單元單元(sigmoid unit),這是一種非常類似于感知器的單元,但它基于一個平滑的可微閾值函數(shù)。n圖4-6畫出了sigmoid單元。與感知器相似,sigmoid單元先計算它的輸入的線性組合,然后應(yīng)用一個閾值到此結(jié)果。 nsigmoid單元這樣計算它的輸出:n o= ( )n其中n (4.12)n 經(jīng)常被稱為sigmoid函數(shù)或者也可以稱為logistic函數(shù)(logistic functi

13、on)。注意它的輸出范圍為0到1,隨輸入單調(diào)遞增(參見圖4-6中的閾值函數(shù)曲線)。因為這個函數(shù)把非常大的輸入值域映射到一個小范圍的輸出,它經(jīng)常被稱為sigmoid單元的擠壓函數(shù)(squashing function)。nsigmoid函數(shù)有一個有用的特征,它的導(dǎo)數(shù)很容易以它的輸出表示確切地講, =(y)(1-(y) xwyey11)(dyyd)(n反向傳播算法n對于由一系列確定的單元互連形成的多層網(wǎng)絡(luò),反向傳播算法可用來學(xué)習(xí)這個網(wǎng)絡(luò)的權(quán)值。它采用梯度下降方法試圖最小化網(wǎng)絡(luò)輸出值和目標(biāo)值之間的誤差平方。 n因為要考慮多個輸出單元的網(wǎng)絡(luò),所以我們要從新定義誤差E,以便對所有網(wǎng)絡(luò)輸出的誤差求和。n其

14、中outputs是網(wǎng)絡(luò)輸出單元的集合,tkd和okd是與訓(xùn)練樣例d和第k個輸出單元相關(guān)的輸出值。n多層網(wǎng)絡(luò)的一個主要不同是它的誤差曲面可能有多個局部極小值,而圖4-4表示的拋物曲面僅有一個最小值。不幸的是,這意味著梯度下降僅能保證收斂到局部極小值,而未必得到全局最小的誤差。 n增加沖量項n因為反向傳播算法的應(yīng)用如此廣泛,所以已經(jīng)開發(fā)出了很多反向傳播算法的變體。其中最常見的是修改算法中公式 n (4.16)的權(quán)值更新法則,使第n次迭代的權(quán)值更新部分地依賴于發(fā)生在第n-1次迭代時的更新,即把公式(4.16)換為如下的形式:nwji(n)=jxji + wji(n 1)(4.17)n這里wji(n)

15、是算法主循環(huán)中的第n次迭代進行的權(quán)值更新,并且01是一個稱為沖量沖量(momentum)的常數(shù)。注意這個公式右側(cè)的第一項就是反向傳播算法的公式(4.16)中的權(quán)值更新。右邊的第二項是新的,被稱為沖量項。為了理解這個沖量項的作用,設(shè)想梯度下降的搜索軌跡就好像一個(無沖量的)球滾下誤差曲面。的作用是增加沖量使這個球從一次迭代到下一次迭代時以同樣的方向滾動。沖量有時會使這個球滾過誤差曲面的局部極小值;或使其滾過誤差曲面上的平坦區(qū)域,如果沒有沖量,這個球有可能在這個區(qū)域停止。它也具有在梯度不變的區(qū)域逐漸增大搜索步長的效果,從而可以加快收斂。n學(xué)習(xí)任意的無環(huán)網(wǎng)絡(luò)n表4-2給出的反向傳播算法的定義僅適用于

16、兩層的網(wǎng)絡(luò)。然而那里給出的算法可以簡單地推廣到任意深度的前饋網(wǎng)絡(luò)。公式(4.16)的權(quán)值更新法則保持不變,惟一的變化是計算值的過程。概括地說,第m層的單元r的r值是由更深的m+1層的值根據(jù)下式計算的:n注意這個公式與表4-2算法的第3步相同,這里要說明的是對于網(wǎng)絡(luò)中的任意數(shù)量的隱藏單元,該步驟要被重復(fù)很多遍。n如果推廣到任何有向無環(huán)結(jié)構(gòu)也一樣的簡單,而不論網(wǎng)絡(luò)中的單元是否像我們目前假定的那樣被排列在統(tǒng)一的層上。對于網(wǎng)絡(luò)單元沒有按此排列的情況,計算任意內(nèi)部單元(也就是所有非輸出單元)的的法則是:n其中DownStream(r)是在網(wǎng)絡(luò)中單元r的直接的下游(immediately downstre

17、am)單元的集合,或者說輸入中包括r的輸出的所有單元。 反向傳播法則的推導(dǎo)n對于每一個訓(xùn)練樣例d,每一權(quán)Wji被增加 n其中,Ed是訓(xùn)練樣例d的誤差,通過對網(wǎng)絡(luò)中所有輸出單元的求和得到:n現(xiàn)在我們可以導(dǎo)出 的一個表達式。n輸出單元的權(quán)值訓(xùn)練法則n首先考慮第一項:n當(dāng)k=j時:n在考慮第二項:n代入:n結(jié)果:n隱藏單元的權(quán)值訓(xùn)練法則n重組各項可得:4.6 反向傳播算法的說明n4.6.1收斂性和局部極小值n正如前面所描述的,反向傳播算法實現(xiàn)了一種對可能的網(wǎng)絡(luò)權(quán)值空間的梯度下降搜索,它迭代地減小訓(xùn)練樣例的目標(biāo)值和網(wǎng)絡(luò)輸出間的誤差。因為對于多層網(wǎng)絡(luò),誤差曲面可能含有多個不同的局部極小值,梯度下降可能陷

18、入這些局部極小值中的一個。因此,對于多層網(wǎng)絡(luò),反向傳播算法僅能保證收斂到誤差E的某個局部極小值,不一定收斂到全局的最小誤差。n用來緩解局部極小值問題的一些啟發(fā)式規(guī)則:n(1)為梯度更新法則加一個沖量項n(2)使用隨機的梯度下降而不是真正的梯度下降n(3)使用同樣的數(shù)據(jù)訓(xùn)練多個網(wǎng)絡(luò),但用不同的隨機權(quán)值初始化每個網(wǎng)絡(luò)n4.6.2 前饋網(wǎng)絡(luò)的表征能力n可以用前饋網(wǎng)絡(luò)表示的三種函數(shù):n布爾函數(shù):任何布爾函數(shù)可以被具有兩層單元的網(wǎng)絡(luò)準(zhǔn)確表示,盡管在最壞的情況下所需隱藏單元的數(shù)量隨著網(wǎng)絡(luò)輸入數(shù)量的增加成指數(shù)級增長。n連續(xù)函數(shù):任何有界的連續(xù)函數(shù)可以由一個兩層的網(wǎng)絡(luò)以任意小的誤差(在有限的范數(shù)下)逼近(Cy

19、benko 1989;Hornik et al. 1989)。 n任意函數(shù):任意函數(shù)可以被一個有三層單元的網(wǎng)絡(luò)以任意精度逼近(Cybenko 1988)。與前面相同,輸出層使用線性單元,兩個隱藏層使用sigmoid單元,每一層所需的單元數(shù)量一般不確定。 n這表明有限深度的前饋網(wǎng)絡(luò)為反向傳播算法提供了非常有表征力的假設(shè)空間。梯度下降是從一個初始的權(quán)值開始的,因此搜索范圍里的網(wǎng)絡(luò)權(quán)向量可能不包含所有的權(quán)向量。 n4.6.3 隱藏層表示n反向傳播算法的一個迷人的特性是,它能夠在網(wǎng)絡(luò)內(nèi)部的隱藏層發(fā)現(xiàn)有用的中間表示。因為訓(xùn)練樣例僅包含網(wǎng)絡(luò)輸入和輸出,權(quán)值調(diào)節(jié)的過程可以自由地設(shè)置權(quán)值,來定義任何隱藏單元表

20、示,這些隱藏單元使誤差平方E達到最小化時最有效。這能夠引導(dǎo)反向傳播算法定義新的隱藏層特征,這些特征在輸入中沒有明確表示出來,但卻能捕捉輸入實例中與學(xué)習(xí)目標(biāo)函數(shù)最相關(guān)的特征。n4.6.4 泛化、過度擬合和停止判據(jù)n終止權(quán)值更新循環(huán)的合適條件是什么呢!一種選擇是繼續(xù)訓(xùn)練直到訓(xùn)練樣例的誤差降低到某個預(yù)先定義的閾值之下。事實上,這不是一個好的策略,因為反向傳播算法容易過度擬合訓(xùn)練樣例,降低對于其他未見過實例的泛化精度。n為什么過度擬合往往是發(fā)生在迭代的后期,而不是迭代的早期呢?n設(shè)想網(wǎng)絡(luò)的權(quán)值是被初始化為小隨機值的,使用這些幾乎一樣的權(quán)值僅能描述非常平滑的決策面。隨著訓(xùn)練的進行,一些權(quán)值開始增長,以降

21、低在訓(xùn)練數(shù)據(jù)上的誤差,同時學(xué)習(xí)到?jīng)Q策面的復(fù)雜度也在提高。于是,隨著權(quán)值調(diào)整迭代次數(shù)的增加,反向傳播算法獲得的假設(shè)的有效復(fù)雜度也在增加。如果權(quán)值調(diào)整迭代次數(shù)足夠多,反向傳播算法經(jīng)常會產(chǎn)生過度復(fù)雜的決策面,擬合了訓(xùn)練數(shù)據(jù)中的噪聲和訓(xùn)練樣例中沒有代表性的特征。n過度擬合解決辦法n權(quán)值衰減n它在每次迭代過程中以某個小因子降低每個權(quán)值。這等效于修改E的定義,加入一個與網(wǎng)絡(luò)權(quán)值的總量相應(yīng)的懲罰項。此方法的動機在于保持權(quán)值較小,從而使學(xué)習(xí)過程向著復(fù)雜決策面的反方向偏置。n驗證數(shù)據(jù)n一個最成功的方法就是在訓(xùn)練數(shù)據(jù)外再為算法提供一套驗證數(shù)據(jù)。算法在使用訓(xùn)練集合驅(qū)動梯度下降搜索的同時,監(jiān)視對于這個驗證集合的誤差。

22、應(yīng)該使用在驗證集合上產(chǎn)生最小誤差的迭代次數(shù),因為這是網(wǎng)絡(luò)性能對未見過實例的最好表征。4.7 舉例:人臉識別n4.7.1 任務(wù)n這里的學(xué)習(xí)任務(wù)是對不同人的不同姿態(tài)的攝影圖像進行分類。n從這些圖像數(shù)據(jù)中可以學(xué)習(xí)到很多不同的目標(biāo)函數(shù)。我們可以訓(xùn)練一個ANN,使輸入給定的一幅圖像時輸出這個人的唯一標(biāo)識,臉的朝向,性別,是否帶太陽鏡等。n4.7.2 設(shè)計要素n應(yīng)用反向傳播算法到一個任務(wù)時,必須決定幾個設(shè)計要素:輸入編碼,輸出編碼,網(wǎng)絡(luò)結(jié)構(gòu)圖,學(xué)習(xí)算法的其他參數(shù)。n輸入編碼n已經(jīng)知道ANN的輸入必然是圖像的某種表示,那么設(shè)計的關(guān)鍵是如何編碼這幅圖像。例如我們可以對圖像進行預(yù)處理,來分解出邊緣、亮度一致的區(qū)

23、域或其他局部圖像特征,然后把這些特征輸入網(wǎng)絡(luò)。這種設(shè)計的一個問題是會導(dǎo)致每幅圖像有不同數(shù)量的特征參數(shù)(例如邊緣的數(shù)量),然而ANN具有固定數(shù)量的輸入單元。對于這種情況,我們的設(shè)計是把圖像編碼成固定的3032像素的亮度值,每個像素對應(yīng)一個網(wǎng)絡(luò)輸入。并且把范圍是0到255的亮度值按比例線性縮放到0到1的區(qū)間內(nèi),以使網(wǎng)絡(luò)輸入與隱藏單元和輸出單元在同樣的區(qū)間取值。 n輸出編碼nANN必須輸出四個值中的一個來表示輸入圖像中人臉的朝向。我們使用4個不同的輸出單元,每一個對應(yīng)四種可能朝向中的一種,取具有最高值的輸出作為網(wǎng)絡(luò)的預(yù)測值,這種方法被稱為n取1(1-of-n)輸出編碼。選擇這種方法有兩個原因。第一,

24、這為網(wǎng)絡(luò)表示目標(biāo)函數(shù)提供了更大的自由度(即在輸出層單元中有n倍的可用權(quán)值)。第二,在n取1中,最高值輸出和次高值輸出間的差異可以作為對網(wǎng)絡(luò)預(yù)測的置信度。n網(wǎng)絡(luò)結(jié)構(gòu)圖n這個網(wǎng)絡(luò)可以包含多少個單元以及如何互聯(lián)。最普遍的一種網(wǎng)絡(luò)結(jié)構(gòu)是分層網(wǎng)絡(luò),一層的每個單元連接到下一層的每一個單元。目前實際選擇使用兩層sigmoid單元(一個隱藏層和一個輸出層)。使用一或兩層sigmoid單元很普遍,偶爾使用三層。三層是不常見的,因為訓(xùn)練時間會變得很長,而且三層sigmoid單元的網(wǎng)絡(luò)已經(jīng)能夠表示數(shù)量相當(dāng)大的目標(biāo)函數(shù)。n學(xué)習(xí)算法的其他參數(shù)n在這個實驗中,學(xué)習(xí)速率被設(shè)定為0.3,沖量被設(shè)定為0.3。賦予這兩個參數(shù)更低

25、的值會產(chǎn)生大體相當(dāng)?shù)姆夯?,但需要更長的訓(xùn)練時間。如果這兩個值被設(shè)定得太高,訓(xùn)練將不能收斂到一個具有可接受誤差(在訓(xùn)練集合上)的網(wǎng)絡(luò)。 n訓(xùn)練的迭代次數(shù)的選擇可以通過分割可用的數(shù)據(jù)為訓(xùn)練集合和獨立的驗證集合。梯度下降方法被用于最小化訓(xùn)練集合上的誤差,并且每隔50次梯度下降迭代根據(jù)驗證集合評估一次網(wǎng)絡(luò)的性能。最終選擇的網(wǎng)絡(luò)是對驗證集合精度最高的網(wǎng)絡(luò)。 4.8 人工神經(jīng)網(wǎng)絡(luò)的高級課程n4.8.1 其他可選的誤差函數(shù)n只要函數(shù)E相對參數(shù)化的假設(shè)空間可微,那么就可以執(zhí)行梯度下降。雖然基本的反向傳播算法以網(wǎng)絡(luò)誤差平方和的形式定義E,但也有人提出其他的定義,以便把其他的約束引入權(quán)值調(diào)整法則。 E的其他可

26、選定義:n為權(quán)值增加一個懲罰項:把一個隨著權(quán)向量幅度增長的項加到E中。這導(dǎo)致梯度下降搜尋較小的權(quán)值向量,從而減小過度擬合的風(fēng)險。一種辦法是按照下面的等式重新定義E:n對誤差增加一項目標(biāo)函數(shù)的斜率或?qū)?shù)n某些情況下,訓(xùn)練信息中不僅有目標(biāo)值,而且還有關(guān)于目標(biāo)函數(shù)的導(dǎo)數(shù)。有下面這樣一個誤差函數(shù)的公式:n使網(wǎng)絡(luò)對目標(biāo)值的交叉熵最小化: 比如根據(jù)貸款申請人的年齡和存款余額,預(yù)測是否會還貸。盡管這里的訓(xùn)練樣例僅提供了布爾型的目標(biāo)值(1或0),但基本的目標(biāo)函數(shù)最好以申請者還貸的概率的形式輸出,而不是以0和1的形式輸出。在這種情況下,我們希望網(wǎng)絡(luò)輸出一個概率估計,可以證明最小化交叉熵的網(wǎng)絡(luò)可以給出最好的概率估計,交叉熵的定義如下: DdoutputskinputsjjdkdjdkdkdkdxoxtotwE22)(21)(n通過權(quán)值共享改變有效誤差n把與不同單元或輸入相關(guān)聯(lián)的權(quán)“捆綁在一起” ,強迫不同的網(wǎng)絡(luò)權(quán)值取一致的值,通常是為了實施人類設(shè)計者事先知道的某個約束。為了實施這個約束,必須強迫接受這個時間窗不同部分的不同單元共享權(quán)值。這樣做的效果是結(jié)束了假設(shè)的潛在空間,從而減少了過度擬合的風(fēng)險。n權(quán)值共享的實現(xiàn):首先在共享權(quán)值的每個單元分別更新各個權(quán)值,然后取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論