人工神經(jīng)網(wǎng)絡(luò)ppt_第1頁
人工神經(jīng)網(wǎng)絡(luò)ppt_第2頁
人工神經(jīng)網(wǎng)絡(luò)ppt_第3頁
人工神經(jīng)網(wǎng)絡(luò)ppt_第4頁
人工神經(jīng)網(wǎng)絡(luò)ppt_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人工神經(jīng)網(wǎng)絡(luò)ppt人工神經(jīng)網(wǎng)絡(luò)ppt第1頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬2概述人工神經(jīng)網(wǎng)絡(luò)提供了一個普遍且實用方法從樣例中學(xué)習(xí)值為實數(shù)、離散值或向量函數(shù)反向傳輸算法,使用梯度下降來調(diào)整網(wǎng)絡(luò)參數(shù)以最正確擬合由輸入-輸出對組成訓(xùn)練集合人工神經(jīng)網(wǎng)絡(luò)對于訓(xùn)練數(shù)據(jù)中錯誤健壯性很好人工神經(jīng)網(wǎng)絡(luò)已被成功應(yīng)用到很多領(lǐng)域,比如視覺場景分析,語音識別,機(jī)器人控制人工神經(jīng)網(wǎng)絡(luò)ppt第2頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬3介紹神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)對于迫近實數(shù)值、離散值或向量值目標(biāo)函數(shù)提供了一個健壯性很強(qiáng)方法對于一些類型問題,如學(xué)習(xí)解釋復(fù)雜現(xiàn)實世界中傳感器數(shù)據(jù),人工神經(jīng)網(wǎng)絡(luò)是當(dāng)前知道最有效學(xué)習(xí)方法反向傳輸算法成功例子,學(xué)習(xí)識別手寫字符,學(xué)習(xí)識別口語,學(xué)習(xí)識他人臉人工神經(jīng)網(wǎng)絡(luò)ppt第3頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬4生物學(xué)動機(jī)ANN受到生物學(xué)啟發(fā),生物學(xué)習(xí)系統(tǒng)是由相互連接神經(jīng)元組成異常復(fù)雜網(wǎng)絡(luò)。ANN由一系列簡單單元相互密集連接組成,其中每一個單元有一定數(shù)量實值輸入,并產(chǎn)生單一實數(shù)值輸出人腦組成,大約有1011個神經(jīng)元,平均每一個與其它104個相連神經(jīng)元活性通常被通向其它神經(jīng)元連接激活或抑制最快神經(jīng)元轉(zhuǎn)換時間比計算機(jī)慢很多,然而人腦能夠以驚人速度做出復(fù)雜度驚人決議很多人推測,生物神經(jīng)系統(tǒng)信息處理能力一定得益于對分布在大量神經(jīng)元上信息表示高度并行處理人工神經(jīng)網(wǎng)絡(luò)ppt第4頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬5生物學(xué)動機(jī)(2)ANN系統(tǒng)一個動機(jī)就是取得這種基于分布表示高度并行算法ANN并未模擬生物神經(jīng)系統(tǒng)中很多復(fù)雜特征ANN研究分為兩個團(tuán)體使用ANN研究和模擬生物學(xué)習(xí)過程取得高效機(jī)器學(xué)習(xí)算法,不論這種算法是否反應(yīng)了生物過程本書屬于后一個研究團(tuán)體人工神經(jīng)網(wǎng)絡(luò)ppt第5頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬6神經(jīng)網(wǎng)絡(luò)表示ALVINN系統(tǒng)Pomerleau1993使用一個學(xué)習(xí)到ANN以正常速度在高速公路上駕駛汽車ANN輸入是一個30x32像素網(wǎng)格,輸出是車輛行進(jìn)方向每個節(jié)點對應(yīng)一個網(wǎng)絡(luò)單元輸出,而從下方進(jìn)入節(jié)點實線為其輸入隱藏單元,輸出僅在網(wǎng)絡(luò)內(nèi)部,不是整個網(wǎng)絡(luò)輸出一個別每個輸出單元對應(yīng)一個特定駕駛方向,這些單元輸出決定哪一個方向是被最強(qiáng)烈推薦人工神經(jīng)網(wǎng)絡(luò)ppt第6頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬7神經(jīng)網(wǎng)絡(luò)表示(2)ALVINN是很多ANN經(jīng)典結(jié)構(gòu),全部單元分層互連形成一個有向無環(huán)圖通常,ANN圖結(jié)構(gòu)能夠有很各種類型無環(huán)或有環(huán)有向或無向本章討論以反向傳輸算法為基礎(chǔ)ANN方法反向傳輸算法假定網(wǎng)絡(luò)是一個固定結(jié)構(gòu),對應(yīng)一個有向圖,可能包含環(huán)ANN學(xué)習(xí)就是為圖中每一條邊選取權(quán)值大多數(shù)實際應(yīng)用與ALVINN相同人工神經(jīng)網(wǎng)絡(luò)ppt第7頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬8適合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)問題訓(xùn)練集合為含有噪聲復(fù)雜傳感器數(shù)據(jù),比如來自攝像機(jī)和麥克風(fēng)需要較多符號表示問題,比如決議樹學(xué)習(xí)任務(wù),能夠取得和決議樹學(xué)習(xí)大致相當(dāng)結(jié)果反向傳輸算法是最常見ANN學(xué)習(xí)技術(shù)人工神經(jīng)網(wǎng)絡(luò)ppt第8頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬9反向傳輸算法適合問題特征實例是用很多“屬性-值”對表示目標(biāo)函數(shù)輸出可能是離散值、實數(shù)值或者由若干實數(shù)屬性或離散屬性組成向量訓(xùn)練數(shù)據(jù)可能包含錯誤可容忍長時間訓(xùn)練可能需要快速求出目標(biāo)函數(shù)值人類能否了解學(xué)到目標(biāo)函數(shù)是不主要人工神經(jīng)網(wǎng)絡(luò)ppt第9頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬10本章余后個別提要討論訓(xùn)練單個單元學(xué)習(xí)算法介紹組成神經(jīng)網(wǎng)絡(luò)幾個主要單元感知器(perceptron)線性單元(linerunit)sigmoid單元(sigmoidunit)給出訓(xùn)練多層網(wǎng)絡(luò)反向傳輸算法考慮幾個普通性問題ANN表征能力假設(shè)空間搜索本質(zhì)特征過分?jǐn)M合問題反向傳輸算法變體例子,利用反向傳輸算法訓(xùn)練識他人臉ANN人工神經(jīng)網(wǎng)絡(luò)ppt第10頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬11感知器一個類型ANN系統(tǒng)是以感知器為基礎(chǔ)感知器以一個實數(shù)值向量作為輸入,計算這些輸入線性組合,假如結(jié)果大于某個閾值,就輸出1,不然輸出-1

其中每個wi是一個實數(shù)常量,或叫做權(quán)值,用來決定輸入xi對感知器輸出貢獻(xiàn)率。尤其地,-w0是閾值。人工神經(jīng)網(wǎng)絡(luò)ppt第11頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬12感知器(2)兩種簡化形式,附加一個常量輸入x0=1,前面不等式寫成

或?qū)懗上蛄啃问?/p>

為了簡短起見,把感知器函數(shù)寫為 其中,人工神經(jīng)網(wǎng)絡(luò)ppt第12頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬13感知器(3)學(xué)習(xí)一個感知器意味著選擇權(quán)w0,…,wn值。所以感知器學(xué)習(xí)要考慮候選假設(shè)空間H就是全部可能實數(shù)值權(quán)向量集合

人工神經(jīng)網(wǎng)絡(luò)ppt第13頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬14感知器表征能力能夠把感知器看作是n維實例空間(即點空間)中超平面決議面對于超平面一側(cè)實例,感知器輸出1,對于另一側(cè)實例,輸出-1這個決議超平面方程是能夠被某個超平面分割樣例集合,稱為線性可分樣例集合人工神經(jīng)網(wǎng)絡(luò)ppt第14頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬15感知器表征能力(2)單獨(dú)感知器能夠用來表示很多布爾函數(shù)表示m-of-n函數(shù)感知器能夠表示全部原子布爾函數(shù):與、或、與非、或非然而,一些布爾函數(shù)無法用單一感知器表示,比如異或人工神經(jīng)網(wǎng)絡(luò)ppt第15頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬16感知器表征能力(3)因為全部布爾函數(shù)都可表示為基于原子函數(shù)互連單元某個網(wǎng)絡(luò),所以感知器網(wǎng)絡(luò)能夠表示全部布爾函數(shù)。實際上,只需要兩層深度網(wǎng)絡(luò),比如表示析取范式注意,要把一個AND感知器輸入求反只要簡單地改變對應(yīng)輸入權(quán)符號因為感知器網(wǎng)絡(luò)能夠表示大量函數(shù),而單獨(dú)單元不能做到這一點,所以咱們感興趣是學(xué)習(xí)感知器組成多層網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)ppt第16頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬17感知器訓(xùn)練法則即使咱們目標(biāo)是學(xué)習(xí)由多個單元互連網(wǎng)絡(luò),但咱們還是要從怎樣學(xué)習(xí)單個感知器權(quán)值開始單個感知器學(xué)習(xí)任務(wù),決定一個權(quán)向量,它能夠使感知器對于給定訓(xùn)練樣例輸出正確1或-1咱們主要考慮兩種算法感知器法則delta法則這兩種算法確保收斂到可接收假設(shè),在不一樣條件下收斂到假設(shè)略有不一樣這兩種算法提供了學(xué)習(xí)多個單元組成網(wǎng)絡(luò)基礎(chǔ)人工神經(jīng)網(wǎng)絡(luò)ppt第17頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬18感知器法則算法過程從隨機(jī)權(quán)值開始重復(fù)應(yīng)用這個感知器到每個訓(xùn)練樣例,只要它誤分類樣例就修改感知器權(quán)值重復(fù)這個過程,直到感知器正確分類全部訓(xùn)練樣例感知器訓(xùn)練法則

其中

人工神經(jīng)網(wǎng)絡(luò)ppt第18頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬19感知器法則(2)為何這個更新法則會成功收斂到正確權(quán)值呢?一些例子能夠證實(Minskey&Papert1969)假如訓(xùn)練樣例線性可分,而且使用了充分小不然,不能確保人工神經(jīng)網(wǎng)絡(luò)ppt第19頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬20梯度下降和delta法則delta法則克服感應(yīng)器法則不足,在線性不可分訓(xùn)練樣本上,收斂到目標(biāo)概念最正確近似delta法則關(guān)鍵思想是,使用梯度下降來搜索可能權(quán)向量假設(shè)空間,以找到最正確擬合訓(xùn)練樣例權(quán)向量delta法則為反向傳輸算法提供了基礎(chǔ),而反向傳輸算法能夠?qū)W習(xí)多個單元互連網(wǎng)絡(luò)對于包含各種不一樣類型連續(xù)參數(shù)化假設(shè)假設(shè)空間,梯度下降是必須遍歷這么空間全部算法基礎(chǔ)人工神經(jīng)網(wǎng)絡(luò)ppt第20頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬21梯度下降和delta法則(2)把delta訓(xùn)練法則了解為訓(xùn)練一個無閾值感知器

指定一個度量標(biāo)準(zhǔn)來衡量假設(shè)相對于訓(xùn)練樣例訓(xùn)練誤差

第6章給出了選擇這種E定義一個貝葉斯論證,在一定條件下,使E最小化假設(shè)就是H中最可能假設(shè)人工神經(jīng)網(wǎng)絡(luò)ppt第21頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬22可視化假設(shè)空間圖4-4依據(jù)E定義,誤差曲面是一個拋物面,存在一個單一全局最小值梯度下降搜索從一個任意初始權(quán)向量開始,然后沿誤差曲面最陡峭下降方向,以很小步伐重復(fù)修改這個向量,直到得到全局最小誤差點人工神經(jīng)網(wǎng)絡(luò)ppt第22頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬23梯度下降法則推導(dǎo)怎樣發(fā)覺沿誤差曲面最陡峭下降方向?經(jīng)過計算E相對向量每個分量導(dǎo)數(shù),這個向量導(dǎo)數(shù)被稱為E對于梯度,記作當(dāng)梯度被解釋為權(quán)空間一個向量時,它確定了使E最陡峭上升方向,所以這個向量反方向給出了最陡峭下降方向梯度訓(xùn)練法則

其中,

人工神經(jīng)網(wǎng)絡(luò)ppt第23頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬24梯度下降法則推導(dǎo)(2)需要一個高效方法在每一步都計算這個梯度

梯度下降權(quán)值更新法則

人工神經(jīng)網(wǎng)絡(luò)ppt第24頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬25梯度下降法則推導(dǎo)(3)表4-1,訓(xùn)練線性單元梯度下降算法Gradient-Descent(training_examples,)training_examples中每個訓(xùn)練樣例形式為序偶<,t>,是輸入值向量,t是目標(biāo)輸出值,是學(xué)習(xí)速率初始化每個wi為某個小隨機(jī)值碰到終止條件之前,做以下操作初始化每個wi為0對于訓(xùn)練樣例training_examples中每個<,t>,做把實例輸入到此單元,計算輸出o對于線性單元每個權(quán)增量wi,做wiwi+(t-o)xi對于線性單元每個權(quán)wi,做

wiwi+wi人工神經(jīng)網(wǎng)絡(luò)ppt第25頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬26梯度下降法則推導(dǎo)(4)梯度下降算法以下選取一個初始隨機(jī)權(quán)向量應(yīng)用線性單元到全部訓(xùn)練樣例,依據(jù)公式4.7計算每個權(quán)值更新權(quán)值因為誤差曲面僅包含一個全局最小值,所以不論訓(xùn)練樣例是否線性可分,算法都會收斂到含有最小誤差權(quán)向量,條件是使用足夠小學(xué)習(xí)速率算法一個常見改進(jìn)方法是伴隨梯度下降步數(shù)增加逐步減小學(xué)習(xí)速率人工神經(jīng)網(wǎng)絡(luò)ppt第26頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬27梯度下降隨機(jī)近似梯度下降是一個主要通用學(xué)習(xí)范型,它是搜索龐大假設(shè)空間或無限假設(shè)空間一個策略梯度下降應(yīng)用于滿足以下條件任何情況假設(shè)空間包含連續(xù)參數(shù)化假設(shè)誤差對于這些假設(shè)參數(shù)可微梯度下降主要實踐問題有時收斂過程可能非常慢假如在誤差曲面上有多個局部極小值,那么不能確保找到全局最小值人工神經(jīng)網(wǎng)絡(luò)ppt第27頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬28梯度下降隨機(jī)近似(2)隨機(jī)梯度下降(或稱增量梯度下降)依據(jù)某個單獨(dú)樣例誤差增量計算權(quán)值更新,得到近似梯度下降搜索(隨機(jī)取一個樣例)對表4-1算法修改能夠看作為每個單獨(dú)訓(xùn)練樣例定義不一樣誤差函數(shù)在迭代全部訓(xùn)練樣例時,這些權(quán)值更新序列給出了對于原來誤差函數(shù)梯度下降一個合理近似經(jīng)過使下降速率值足夠小,能夠使隨機(jī)梯度下降以任意程度靠近于真實梯度下降人工神經(jīng)網(wǎng)絡(luò)ppt第28頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬29梯度下降隨機(jī)近似(2)標(biāo)準(zhǔn)梯度下降和隨機(jī)梯度下降之間關(guān)鍵區(qū)分標(biāo)準(zhǔn)梯度下降是在權(quán)值更新前對全部樣例匯總誤差,而隨機(jī)梯度下降權(quán)值是經(jīng)過考查每個訓(xùn)練樣例來更新在標(biāo)準(zhǔn)梯度下降中,權(quán)值更新每一步對多個樣例求和,需要更多計算(?)標(biāo)準(zhǔn)梯度下降,因為使用真正梯度,標(biāo)準(zhǔn)梯度下降對于每一次權(quán)值更新經(jīng)常使用比隨機(jī)梯度下降大步長假如標(biāo)準(zhǔn)誤差曲面有多個局部極小值,隨機(jī)梯度下降有時可能防止陷入這些局部極小值中實踐中,標(biāo)準(zhǔn)和隨機(jī)梯度下降方法都被廣泛應(yīng)用人工神經(jīng)網(wǎng)絡(luò)ppt第29頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬30梯度下降隨機(jī)近似(3)delta法則(增量法則),又稱LMS法則、Adaline法則、Windrow-Hoff法則公式4.10與4.4.2節(jié)感知器法則相同和區(qū)分delta法則能夠?qū)W習(xí)非閾值線性單元權(quán),也能夠用來訓(xùn)練有閾值感知器單元。假如非閾值輸出能夠被訓(xùn)練到完美擬合這些值,那么閾值輸出也會完美擬合它們即使不能完美地擬合目標(biāo)值,只要線性單元輸出含有正確符號,閾值輸出就會正確擬合目標(biāo)值盡管這個過程會得到使線性單元輸出誤差最小化權(quán)值,但這些權(quán)值不能確保閾值輸出誤差最小化(?)人工神經(jīng)網(wǎng)絡(luò)ppt第30頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬31感知器學(xué)習(xí)小結(jié)感知器法則和delta法則關(guān)鍵差異前者依據(jù)閾值化感知器輸出誤差更新權(quán)值后者依據(jù)輸入非閾值化線性組合誤差來更新權(quán)值這個差異帶來不一樣收斂特征前者經(jīng)過有限次迭代收斂到一個能理想分類訓(xùn)練數(shù)據(jù)假設(shè),條件是訓(xùn)練樣例線性可分后者可能經(jīng)過極長時間,漸近收斂到最小誤差假設(shè),但不論訓(xùn)練樣例是否線性可分都會收斂人工神經(jīng)網(wǎng)絡(luò)ppt第31頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬32感知器學(xué)習(xí)小結(jié)(2)學(xué)習(xí)權(quán)向量第3種方法是線性規(guī)劃線性規(guī)劃是解線性不等式方程組一個通用有效方法這種方法僅當(dāng)訓(xùn)練樣例線性可分時有解Duda和Hart給出了一個更巧妙適合非線性可分情況方法更大問題是,無法擴(kuò)展到訓(xùn)練多層網(wǎng)絡(luò),而delta法則能夠很輕易擴(kuò)展到多層網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)ppt第32頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬33多層網(wǎng)絡(luò)和反向傳輸算法多層網(wǎng)絡(luò)能夠表示種類繁多非線性曲面圖4-5描述了一個經(jīng)典多層網(wǎng)絡(luò)和它決議曲面人工神經(jīng)網(wǎng)絡(luò)ppt第33頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬34可微閾值單元使用什么類型單元來構(gòu)建多層網(wǎng)絡(luò)?多個線性單元連接仍產(chǎn)生線性函數(shù),而咱們希望構(gòu)建表征非線性函數(shù)網(wǎng)絡(luò)感知器單元能夠構(gòu)建非線性函數(shù),但它不連續(xù)閾值使它不可微,不適合梯度下降算法咱們需要單元滿足條件輸出是輸入非線性函數(shù)輸出是輸入可微函數(shù)Sigmoid單元,類似于感知器單元,但基于一個平滑可微閾值函數(shù)人工神經(jīng)網(wǎng)絡(luò)ppt第34頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬35可微閾值單元(2)圖4-6sigmoid單元先計算它輸入線性組合,然后應(yīng)用到一個閾值上,閾值輸出是輸入連續(xù)函數(shù)

其中

人工神經(jīng)網(wǎng)絡(luò)ppt第35頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬36可微閾值單元(3)sigmoid函數(shù)也稱logistic函數(shù)擠壓函數(shù)輸出范圍是0到1單調(diào)遞增導(dǎo)數(shù)很輕易用函數(shù)本身表示sigmoid函數(shù)變型其它易計算導(dǎo)數(shù)可微函數(shù)增加陡峭性雙曲正切函數(shù)人工神經(jīng)網(wǎng)絡(luò)ppt第36頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬37反向傳輸算法用來學(xué)習(xí)多層網(wǎng)絡(luò)權(quán)值采取梯度下降方法試圖最小化網(wǎng)絡(luò)輸出值和目標(biāo)值之間誤差平方網(wǎng)絡(luò)誤差定義公式,對全部網(wǎng)絡(luò)輸出誤差求和

人工神經(jīng)網(wǎng)絡(luò)ppt第37頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬38反向傳輸算法(2)反向傳輸算法面臨學(xué)習(xí)任務(wù)搜索一個巨大假設(shè)空間,這個空間由網(wǎng)絡(luò)中全部單元全部可能權(quán)值定義,得到類似圖4-4誤差曲面在多層網(wǎng)絡(luò)中,誤差曲面可能有多個局部極小值,梯度下降僅能確保收斂到局部極小值盡管有這個障礙,已經(jīng)發(fā)覺對于實踐中很多應(yīng)用,反向傳輸算法都產(chǎn)生了出眾結(jié)果人工神經(jīng)網(wǎng)絡(luò)ppt第38頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬39反向傳輸算法(3)表4-2包含兩層sigmoid單元前饋網(wǎng)絡(luò)反向傳輸算法BackPropagation(training_examples,,nin,nout,nhidden)training_examples是序偶<,>集合,是網(wǎng)絡(luò)輸入值向量,是目標(biāo)輸出值。是學(xué)習(xí)速率,nin是網(wǎng)絡(luò)輸入數(shù)量,nhidden是隱藏層單元數(shù),nout是輸出單元數(shù),從單元i到單元j輸入表示為xji,單元i到單元j權(quán)值表示為wji。創(chuàng)建含有nin個輸入,nhidden個隱藏,nout個輸出單元網(wǎng)絡(luò)初始化全部網(wǎng)絡(luò)權(quán)值為小隨機(jī)值在碰到終止條件前對于訓(xùn)練樣例training_examples中每個<,>:把輸入沿網(wǎng)絡(luò)前向傳輸把實例輸入網(wǎng)絡(luò),并計算網(wǎng)絡(luò)中每個單元u輸出ou使誤差沿網(wǎng)絡(luò)反向傳輸對于網(wǎng)絡(luò)每個輸出單元k,計算它誤差項kok(1-ok)(tk-ok)對于網(wǎng)絡(luò)每個隱藏單元h,計算它誤差項hoh(1-oh)更新每個網(wǎng)絡(luò)權(quán)值wjiwji+wji,其中wji=jxji人工神經(jīng)網(wǎng)絡(luò)ppt第39頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬40反向傳輸算法(4)表4-2給出反向傳輸算法適合用于包含兩層sigmoid單元分層前饋網(wǎng)絡(luò),而且每一層單元與前一層全部單元相連。表4-2是反向傳輸算法增量梯度下降(或隨機(jī)梯度下降)版本使用符號做了以下擴(kuò)展網(wǎng)絡(luò)中每個節(jié)點被賦予一個序號,這里節(jié)點要么是網(wǎng)絡(luò)輸入,要么是網(wǎng)絡(luò)中某個單元輸出xji表示節(jié)點i到單元j輸入,wji表示對應(yīng)權(quán)值n表示與單元n相關(guān)聯(lián)誤差項。人工神經(jīng)網(wǎng)絡(luò)ppt第40頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬41表4-2算法解釋從建立一個含有期望數(shù)量隱藏單元和輸出單元網(wǎng)絡(luò)并初始化全部網(wǎng)絡(luò)權(quán)值為小隨機(jī)數(shù)開始給定一個固定網(wǎng)絡(luò)結(jié)構(gòu),算法主循環(huán)就對訓(xùn)練樣例進(jìn)行重復(fù)迭代對于每一個訓(xùn)練樣例,它應(yīng)用當(dāng)前網(wǎng)絡(luò)到這個樣例,計算出對這個樣例網(wǎng)絡(luò)輸出誤差,然后更新網(wǎng)絡(luò)中全部權(quán)值對這么梯度下降步驟進(jìn)行迭代,直到網(wǎng)絡(luò)性能到達(dá)可接收精度為止人工神經(jīng)網(wǎng)絡(luò)ppt第41頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬42反向傳輸算法梯度下降法則表4-2梯度下降權(quán)更新法則與delta訓(xùn)練法則相同類似delta法則,依照以下三者來更新每一個權(quán)學(xué)習(xí)速率該權(quán)值包括輸入值xji該單元輸出誤差不一樣于delta法則地方delta法則中誤差項被替換成一個更復(fù)雜誤差項j人工神經(jīng)網(wǎng)絡(luò)ppt第42頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬43反向傳輸算法誤差項輸出單元k誤差項k與delta法則中(tk-ok)相同,但乘上了sigmoid擠壓函數(shù)導(dǎo)數(shù)ok(1-ok)。隱藏單元h誤差項因為訓(xùn)練樣例僅對網(wǎng)絡(luò)輸出提供了目標(biāo)值tk,所以缺乏直接目標(biāo)值來計算隱藏單元誤差值采取以下間接方法計算隱藏單元誤差項:對受隱藏單元h影響每一個單元誤差k進(jìn)行加權(quán)求和,每個誤差k權(quán)值為wkh,wkh就是從隱藏單元h到輸出單元k權(quán)值。這個權(quán)值刻畫了隱藏單元h對于輸出單元k誤差應(yīng)負(fù)責(zé)程度。人工神經(jīng)網(wǎng)絡(luò)ppt第43頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬44表4-2算法解釋(2)表4-2算法伴隨每個訓(xùn)練樣例出現(xiàn)而遞增地更新權(quán),這一點與梯度下降隨機(jī)近似算法一致要取得誤差E真實梯度,需要在修改權(quán)值之前對全部訓(xùn)練樣例jxji值求和在經(jīng)典應(yīng)用中,權(quán)值更新迭代會被重復(fù)上千次有很多終止條件能夠用來停頓這個過程迭代次數(shù)到了一個固定值時停頓當(dāng)在訓(xùn)練樣例上誤差降到某個閾值以下在分離驗證樣例集合上誤差符合某個標(biāo)準(zhǔn)終止條件很主要,太少迭代無法有效地降低誤差,太多迭代會造成對訓(xùn)練數(shù)據(jù)過分?jǐn)M合人工神經(jīng)網(wǎng)絡(luò)ppt第44頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬45增加沖量項因為反向傳輸算法應(yīng)用如此廣泛,所以已經(jīng)開發(fā)出了很多反向傳輸算法變體修改權(quán)值更新法則,使第n次迭代時權(quán)值更新個別地依賴于發(fā)生在第n-1次迭代時更新,比如wji(n)=jxji+wji(n-1)右側(cè)第一項就是表4-2中權(quán)值更新法則,第二項被稱為沖量項梯度下降搜索軌跡就像一個球沿誤差曲面滾下,沖量使球從一次迭代到下一次迭代時以一樣方向滾動沖量有時會使這個球滾過誤差曲面局部極小值或平坦區(qū)域沖量也含有在梯度不變區(qū)域逐步增大搜索步長效果,從而加緊收斂人工神經(jīng)網(wǎng)絡(luò)ppt第45頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬46學(xué)習(xí)任意無環(huán)網(wǎng)絡(luò)表4-2算法能夠簡單地推廣到任意深度前饋網(wǎng)絡(luò)第m層單元rr值由更深第m+1層值依據(jù)下式計算將這個算法推廣到任何有向無環(huán)結(jié)構(gòu)也一樣簡單,而不論網(wǎng)絡(luò)中單元是否被排列在統(tǒng)一層上,計算任意內(nèi)部單元法則是:,Downstream(r)是在網(wǎng)絡(luò)中單元r直接下游單元集合,即輸入中包含r輸出全部單元人工神經(jīng)網(wǎng)絡(luò)ppt第46頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬47反向傳輸法則推導(dǎo)隨機(jī)梯度下降算法迭代處理訓(xùn)練樣例,每次處理一個,對于每個訓(xùn)練樣例d,利用關(guān)于這個樣例誤差Ed梯度修改權(quán)值人工神經(jīng)網(wǎng)絡(luò)ppt第47頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬48符號說明xji,單元j第i個輸入wji,與xji相關(guān)聯(lián)權(quán)值netj,單元j輸入加權(quán)和oj,單元j計算出輸出tj,單元j目標(biāo)輸出,sigmoid函數(shù)outputs,網(wǎng)絡(luò)最終一層輸出單元集合Downstream(j),單元j輸出抵達(dá)單元集合人工神經(jīng)網(wǎng)絡(luò)ppt第48頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬49隨機(jī)梯度下降法則推導(dǎo),分情況討論推導(dǎo)輸出單元人工神經(jīng)網(wǎng)絡(luò)ppt第49頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬50隨機(jī)梯度下降法則推導(dǎo)(2)隱藏單元人工神經(jīng)網(wǎng)絡(luò)ppt第50頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬51收斂性和局部極小值對于多層網(wǎng)絡(luò),誤差曲面可能含有多個不一樣局部極小值,梯度下降可能陷入這些局部極小值中任何一個對于多層網(wǎng)絡(luò),反向傳輸算法僅能確保收斂到誤差E某個局部極小值,不一定收斂到全局最小誤差盡管缺乏對收斂到全局最小誤差確保,反向傳輸算法在實踐中仍是非常有效函數(shù)迫近算法人工神經(jīng)網(wǎng)絡(luò)ppt第51頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬52收斂性和局部極小值(2)網(wǎng)絡(luò)權(quán)越多,誤差曲面維數(shù)越多,也就越可能為梯度下降提供更多逃逸路線考慮伴隨訓(xùn)練中迭代次數(shù)增加網(wǎng)絡(luò)權(quán)值演化方式假如把網(wǎng)絡(luò)權(quán)值初始化為靠近于0值,那么在早期梯度下降步驟中,網(wǎng)絡(luò)將表現(xiàn)為一個非常平滑函數(shù),近似為輸入線性函數(shù),這是因為sigmoid函數(shù)本身在權(quán)值靠近0時靠近線性僅當(dāng)權(quán)值增加一定時間后,它們才會抵達(dá)能夠表示高度非線性網(wǎng)絡(luò)函數(shù)程度,能夠預(yù)期在這個能表示更復(fù)雜函數(shù)權(quán)空間區(qū)域存在更多局部極小值不過當(dāng)權(quán)抵達(dá)這一點時,它們已經(jīng)足夠靠近全局最小值,即便它是這個區(qū)域局部最小值也是能夠接收人工神經(jīng)網(wǎng)絡(luò)ppt第52頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬53收斂性和局部極小值(3)用來緩解局部極小值問題啟發(fā)式規(guī)則為梯度更新法則加一個沖量,能夠帶動梯度下降過程,沖過狹窄局部極小值(標(biāo)準(zhǔn)上,也可能沖過狹窄全局最小值)使用隨機(jī)梯度下降而不是真正梯度下降。隨機(jī)近似對于每個訓(xùn)練樣例沿一個不一樣誤差曲面有效下降,這些不一樣誤差曲面通常有不一樣局部極小值,這使得下降過程不太可能陷入一個局部極小值使用一樣數(shù)據(jù)訓(xùn)練多個網(wǎng)絡(luò),但用不一樣隨機(jī)權(quán)值初始化每個網(wǎng)絡(luò)。假如不一樣訓(xùn)練產(chǎn)生不一樣局部極小值,那么對分離驗證集合性能最好那個網(wǎng)絡(luò)將被選中,或者保留全部網(wǎng)絡(luò),輸出是全部網(wǎng)絡(luò)輸出平均值人工神經(jīng)網(wǎng)絡(luò)ppt第53頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬54前饋網(wǎng)絡(luò)表征能力布爾函數(shù):任何布爾函數(shù)能夠被含有兩層單元網(wǎng)絡(luò)準(zhǔn)確表示,盡管在最壞情況下所需隱藏單元數(shù)量伴隨網(wǎng)絡(luò)輸入數(shù)量增加成指數(shù)級增加??紤]下面通用方案:對于每一個可能輸入向量,創(chuàng)建不一樣隱藏單元,并設(shè)置它權(quán)值使當(dāng)且僅當(dāng)這個特定向量輸入到網(wǎng)絡(luò)時該單元被激活,這么就產(chǎn)生了一個對于任意輸入僅有一個單元被激活隱藏層,然后把輸出單元實現(xiàn)為一個僅由所希望輸入模式激活或門。人工神經(jīng)網(wǎng)絡(luò)ppt第54頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬55前饋網(wǎng)絡(luò)表征能力(2)連續(xù)函數(shù):每個有界連續(xù)函數(shù)能夠由一個兩層網(wǎng)絡(luò)以任意小誤差迫近。這個結(jié)論適合用于在隱藏層使用sigmoid單元、在輸出層使用(非閾值)線性單元網(wǎng)絡(luò)。所需隱藏單元數(shù)量依賴于要迫近函數(shù)。任意函數(shù):任意函數(shù)能夠被一個有三層單元網(wǎng)絡(luò)以任意精度迫近。兩個隱藏層使用sigmoid單元,輸出層使用線性單元,每層所需單元數(shù)不確定。證實方法:首先說明任意函數(shù)能夠被許多局部化函數(shù)線性組合迫近,這些局部化函數(shù)值除了某個小范圍外都為0;然后說明兩層sigmoid單元足以產(chǎn)生良好局部迫近注意:梯度下降從一個初始值開始,所以搜索范圍里網(wǎng)絡(luò)權(quán)向量可能不包含全部權(quán)向量人工神經(jīng)網(wǎng)絡(luò)ppt第55頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬56假設(shè)空間搜索和歸納偏置反向傳輸算法假設(shè)空間是n個網(wǎng)絡(luò)權(quán)值形成n維歐氏空間。這個空間是連續(xù),與決議樹學(xué)習(xí)和其它基于離散表示方法假設(shè)空間不一樣假設(shè)空間連續(xù)性以及誤差E關(guān)于假設(shè)連續(xù)參數(shù)可微,造成了一個定義良好誤差梯度,為最正確假設(shè)搜索提供了一個非常有用結(jié)構(gòu)。準(zhǔn)確地刻畫出反向傳輸學(xué)習(xí)歸納偏置是有難度,它依賴于梯度下降搜索和權(quán)空間覆蓋可表征函數(shù)空間方式相互作用性把這一偏置粗略地刻畫為在數(shù)據(jù)點之間平滑插值。假如給定兩個正例,它們之間沒有反例,反向傳輸算法會傾向于把這兩點之間點也標(biāo)識為正例人工神經(jīng)網(wǎng)絡(luò)ppt第56頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬57隱藏層表示反向傳輸算法一個迷人特征是:它能夠在網(wǎng)絡(luò)內(nèi)部隱藏層發(fā)覺有用中間表示訓(xùn)練樣例僅包含網(wǎng)絡(luò)輸入和輸出,權(quán)值調(diào)整過程能夠自由地設(shè)置權(quán)值,來定義任何隱藏單元表示,這些隱藏單元表示在使誤差E到達(dá)最小時最有效。引導(dǎo)反向傳輸算法定義新隱藏層特征,這些特征在輸入中沒有明確表示出來,但能捕捉輸入實例中與學(xué)習(xí)目標(biāo)函數(shù)最相關(guān)特征多層網(wǎng)絡(luò)在隱藏層自動發(fā)覺有用表示能力是ANN學(xué)習(xí)一個關(guān)鍵特征。允許學(xué)習(xí)器創(chuàng)造出設(shè)計者沒有明確引入特征。網(wǎng)絡(luò)中使用單元層越多,就能夠創(chuàng)造出越復(fù)雜特征人工神經(jīng)網(wǎng)絡(luò)ppt第57頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬58泛化、過分?jǐn)M合和停頓判據(jù)權(quán)值更新算法終止條件一個選擇是,對訓(xùn)練樣例誤差降低至某個預(yù)先定義閾值之下這不是一個好策略,因為反向傳輸算法輕易過分?jǐn)M合訓(xùn)練樣例,降低對于其它未見實例泛化精度泛化精度:網(wǎng)絡(luò)擬合訓(xùn)練數(shù)據(jù)外實例精度圖4-9,盡管在訓(xùn)練樣例上誤差連續(xù)下降,但在驗證樣例上測量到誤差先下降,后上升。因為這些權(quán)值擬合了訓(xùn)練樣例“特異性”,而這個特異性對于樣例普通分布沒有代表性。ANN中大量權(quán)值參數(shù)為擬合這么“特異性”提供了很大自由度人工神經(jīng)網(wǎng)絡(luò)ppt第58頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬59過分?jǐn)M合為何過分?jǐn)M合發(fā)生在迭代后期,而不是早期?構(gòu)想網(wǎng)絡(luò)權(quán)值是被初始化為小隨機(jī)值,使用這些幾乎一樣權(quán)值僅能描述非常平滑決議面伴隨訓(xùn)練進(jìn)行,一些權(quán)值開始增加,以降低在訓(xùn)練數(shù)據(jù)上誤差,同時學(xué)習(xí)到?jīng)Q議面復(fù)雜度也在增加假如權(quán)值調(diào)整迭代次數(shù)足夠多,反向傳輸算法可能會產(chǎn)生過分復(fù)雜決議面,擬合了訓(xùn)練數(shù)據(jù)中噪聲和訓(xùn)練樣例中沒有代表性特征人工神經(jīng)網(wǎng)絡(luò)ppt第59頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬60過分?jǐn)M合處理方法權(quán)值衰減它在每次迭代過程中以某個小因子降低每個權(quán)值,這等效于修改E定義,加入一個與網(wǎng)絡(luò)權(quán)值總量對應(yīng)處罰項,此方法動機(jī)是保持權(quán)值較小,從而使學(xué)習(xí)過程向著復(fù)雜決議面反方向偏置驗證數(shù)據(jù)一個最成功方法是在訓(xùn)練數(shù)據(jù)外再為算法提供一套驗證數(shù)據(jù),應(yīng)該使用在驗證集合上產(chǎn)生最小誤差迭代次數(shù),不是總能顯著地確定驗證集合何時到達(dá)最小誤差人工神經(jīng)網(wǎng)絡(luò)ppt第60頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬61過分?jǐn)M合處理方法(2)普通而言,過分?jǐn)M合是一個棘手問題交叉驗證方法在可取得額外數(shù)據(jù)提供驗證集合時工作得很好,不過小訓(xùn)練集合過分?jǐn)M合問題更為嚴(yán)重k-fold交叉方法把訓(xùn)練樣例分成k份,然后進(jìn)行k次交叉驗證過程,每次使用不一樣一份作為驗證集合,其余k-1份合并作為訓(xùn)練集合。每個樣例會在一次試驗中被用作驗證樣例,在k-1次試驗中被用作訓(xùn)練樣例每次試驗中,使用上面討論交叉驗證過程來決定在驗證集合上取得最正確性能迭代次數(shù),然后計算這些迭代次數(shù)均值最終,運(yùn)行一次反向傳輸算法,訓(xùn)練全部m個實例并迭代次人工神經(jīng)網(wǎng)絡(luò)ppt第61頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬62舉例:人臉識別訓(xùn)練樣例20個不一樣人攝影圖像每個人大約32張圖像不一樣表情高興、沮喪、憤恨、中性不一樣方向左、右、正前、上不一樣穿戴是否帶眼鏡共624幅灰度圖像分辨率為120x128,每個像素使用0(黑)到255(白)灰度值描述任務(wù):學(xué)習(xí)圖像中人臉朝向人工神經(jīng)網(wǎng)絡(luò)ppt第62頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬63人臉識別——設(shè)計要素輸入編碼ANN輸入必定是圖像某種表示,那么設(shè)計關(guān)鍵是怎樣編碼這幅圖像比如,能夠?qū)D像進(jìn)行預(yù)處理,分解出邊緣、亮度一致區(qū)域或其它局部圖像特征,然后把這些特征輸入網(wǎng)絡(luò),問題是造成每幅圖像有不一樣數(shù)量特征參數(shù),而ANN含有固定數(shù)量輸入單元把圖像編碼成固定30x32像素亮度值,每個像素對應(yīng)一個網(wǎng)絡(luò)輸入,把范圍是0到255亮度值按百分比線性縮放到0到1區(qū)間內(nèi),以使網(wǎng)絡(luò)輸入和隱藏單元、輸出單元在一樣區(qū)間取值。人工神經(jīng)網(wǎng)絡(luò)ppt第63頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬64人臉識別——設(shè)計要素(2)輸出編碼ANN必須輸出4個值中一個來表示輸入圖像中人臉朝向能夠使用單一輸出單元來編碼這4種情況這里使用4個不一樣輸出單元,每一個對應(yīng)4種可能朝向中一個,取含有最高值輸出作為網(wǎng)絡(luò)預(yù)測值。稱為1-of-n輸出編碼選擇1-of-n原因為網(wǎng)絡(luò)表示目標(biāo)函數(shù)提供了更大自由度最高值輸出和次高值輸出間差異能夠作為對網(wǎng)絡(luò)預(yù)測置信度人工神經(jīng)網(wǎng)絡(luò)ppt第64頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬65人臉識別——設(shè)計要素(3)輸出單元目標(biāo)值一個顯而易見方法,<1,0,0,0>...這里使用方法,<0.9,0.1,0.1,0.1>...防止使用0和1作為目標(biāo)值原因sigmoid單元對于有限權(quán)值不能產(chǎn)生這么輸出假如企圖訓(xùn)練網(wǎng)絡(luò)來準(zhǔn)確匹配目標(biāo)值0和1,梯度下降將會迫使權(quán)值無限增加0.1和0.9是sigmoid單元在有限權(quán)值情況下能夠完成人工神經(jīng)網(wǎng)絡(luò)ppt第65頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬66人臉識別——設(shè)計要素(4)網(wǎng)絡(luò)結(jié)構(gòu)圖網(wǎng)絡(luò)包含多少個單元以及怎樣互連?最普遍結(jié)構(gòu)是分層網(wǎng)絡(luò),一層每個單元向前連接到下一層每一個單元當(dāng)前采取了包含兩層sigmoid單元標(biāo)準(zhǔn)結(jié)構(gòu)隱藏單元數(shù)量3個,到達(dá)90%精度,訓(xùn)練時間約5分鐘30個,提升1~2個百分點,訓(xùn)練時間約1個小時實踐發(fā)覺,需要某個最小數(shù)量隱藏單元來準(zhǔn)確地學(xué)習(xí)目標(biāo)函數(shù),而且超出這個數(shù)量多出隱藏單元不會顯著地提升泛化精度假如沒有使用交叉驗證,那么增加隱藏單元數(shù)量經(jīng)常會增加過分?jǐn)M合訓(xùn)練數(shù)據(jù)傾向,從而降低泛化精度人工神經(jīng)網(wǎng)絡(luò)ppt第66頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬67人臉識別——設(shè)計要素(5)學(xué)習(xí)算法其它參數(shù)學(xué)習(xí)速率設(shè)定為0.3,沖量設(shè)定為0.3賦予這兩個參數(shù)更低值會產(chǎn)生大致相當(dāng)泛化精度,但需要更長訓(xùn)練時間假如賦予更高值,訓(xùn)練將不能收斂到一個含有可接收誤差網(wǎng)絡(luò)適用完全梯度下降輸出單元權(quán)值被初始化為小隨機(jī)值輸入單元權(quán)值被初始化為0訓(xùn)練迭代次數(shù)選擇能夠經(jīng)過分割可用數(shù)據(jù)為訓(xùn)練集合和驗證集合來實現(xiàn)最終選擇網(wǎng)絡(luò)是對驗證集合精度最高網(wǎng)絡(luò)最終匯報精度是在沒有對訓(xùn)練產(chǎn)生任何影響第三個集合——測試集合上測量得到人工神經(jīng)網(wǎng)絡(luò)ppt第67頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬68學(xué)習(xí)到隱藏層表示圖中緊挨人臉圖像下4個矩形,每個矩形描繪了網(wǎng)絡(luò)中4個輸出單元中一個權(quán)值,每個矩形中4個小方形表示和這個輸出單元關(guān)聯(lián)4個權(quán)值隱藏單元權(quán)值顯示在輸出單元下邊,每個隱藏單元接收全部30x32個像素輸入。與這些輸入關(guān)聯(lián)30x32個權(quán)值被顯示在它們對應(yīng)像素位置針對每一個訓(xùn)練樣例,梯度下降迭代100次后網(wǎng)絡(luò)權(quán)值顯示在圖下部。假如一個人臉是轉(zhuǎn)向他右面,那么他亮度高皮膚會大致與這個隱藏單元中較大正值對齊,同時他亮度低頭發(fā)會大致與負(fù)權(quán)值對齊,這造成此單元輸出一個較大值,一樣圖像會使第3個隱藏單元輸出一個靠近0值。人工神經(jīng)網(wǎng)絡(luò)ppt第68頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬69其它可選誤差函數(shù)為權(quán)值增加一個處罰項把一個伴隨權(quán)向量幅度增加項加入到E中,這造成梯度下降搜尋較小權(quán)值向量,從而減小過分?jǐn)M合風(fēng)險,等價于使用權(quán)衰減策略

對誤差增加一項目標(biāo)函數(shù)斜率或?qū)?shù)一些情況下,訓(xùn)練信息中不但有目標(biāo)值,而且還相關(guān)于目標(biāo)函數(shù)導(dǎo)數(shù)

人工神經(jīng)網(wǎng)絡(luò)ppt第69頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬70其它可選誤差函數(shù)(2)使網(wǎng)絡(luò)對目標(biāo)值交叉熵最小化比如依據(jù)借貸申請者年紀(jì)和存款余額,預(yù)測他是否會還貸,目標(biāo)函數(shù)最好以申請者還貸概率形式輸出,而不是輸出明確0和1。在這種情況下,能夠證實最小化交叉熵網(wǎng)絡(luò)能夠給出最好概率預(yù)計。交叉熵定義以下:

第6章討論了何時及為何最可能網(wǎng)絡(luò)假設(shè)就是使交叉熵最小化假設(shè),并推導(dǎo)了對應(yīng)sigmoid單元梯度下降權(quán)值調(diào)整法則,還描述了在什么條件下最可能假設(shè)就是使誤差平方和最小化假設(shè)。人工神經(jīng)網(wǎng)絡(luò)ppt第70頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬71其它可選誤差函數(shù)(3)經(jīng)過權(quán)值共享改變有效誤差函數(shù)把與不一樣單元或輸入相關(guān)聯(lián)權(quán)“捆綁在一起”,強(qiáng)迫不一樣網(wǎng)絡(luò)權(quán)值取一致值,通常是為了實施人類設(shè)計者事先知道某個約束約束了假設(shè)潛在空間,減小了過分?jǐn)M合風(fēng)險實現(xiàn)方法,首先在共享權(quán)值每個單元分別更新各個權(quán)值,然后取這些權(quán)值平均,再用這個平均值替換每個需要共享權(quán)值。被共享權(quán)值比沒有共享權(quán)值更有效地適應(yīng)一個不一樣誤差函數(shù)人工神經(jīng)網(wǎng)絡(luò)ppt第71頁.12.18機(jī)器學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)作者:Mitchell譯者:曾華軍等講者:陶曉鵬72其它可選誤差最小化過程梯度下降是搜尋使誤差函數(shù)最小化假設(shè)最通用方法之一,但不是最高效不妨把權(quán)值更新方法看作是要決定這么兩個問題:選擇一個改變當(dāng)前權(quán)值向量方向(梯度負(fù)值)選擇要移動距離(學(xué)習(xí)速率)線搜索,每當(dāng)選定了一條確定權(quán)值更新方向路線,那么權(quán)更新距離是經(jīng)過沿這條線尋找誤差函數(shù)最小值來選擇共軛梯度,進(jìn)行一系列線搜索來搜索誤差曲面最小值,這一系列搜索第一步依然使用梯度反方向,在以后每一步中,選擇使誤差梯度分量剛好為0并保持為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論