《計算機(jī)智能導(dǎo)論》課件-第4章_第1頁
《計算機(jī)智能導(dǎo)論》課件-第4章_第2頁
《計算機(jī)智能導(dǎo)論》課件-第4章_第3頁
《計算機(jī)智能導(dǎo)論》課件-第4章_第4頁
《計算機(jī)智能導(dǎo)論》課件-第4章_第5頁
已閱讀5頁,還剩185頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第4章人工神經(jīng)網(wǎng)絡(luò)4.1緒論4.2人工神經(jīng)單元——單感知器4.3人工神經(jīng)網(wǎng)絡(luò)4.4神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法4.5徑向基函數(shù)網(wǎng)絡(luò)4.6深度神經(jīng)網(wǎng)絡(luò)

4.1緒論

4.1.1人工神經(jīng)網(wǎng)絡(luò)簡介

1.什么是人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks)是指由大量的人工神經(jīng)單元互相連接而形成的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),是對人腦組織結(jié)構(gòu)和運(yùn)行機(jī)制的某種抽象、簡化和模擬。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖4-1所示。

圖4-1神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

神經(jīng)網(wǎng)絡(luò)從層次結(jié)構(gòu)上可以分為單層神經(jīng)網(wǎng)絡(luò)和多層神經(jīng)網(wǎng)絡(luò)。其中每一層包含若干神經(jīng)元,各神經(jīng)元之間用可變權(quán)重的有向弧連接,利用已知的信息對網(wǎng)絡(luò)進(jìn)行反復(fù)多次訓(xùn)

練,可以改變網(wǎng)絡(luò)之間的連接權(quán)重,得到對應(yīng)于網(wǎng)絡(luò)輸入和輸出的權(quán)值。神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于,不需要提前知道輸入和輸出之間的確切對應(yīng)關(guān)系,也不需大量參數(shù),只需要知道引起輸出變化的非恒定因素,通過網(wǎng)絡(luò)的多次迭代就可以自動得出對應(yīng)參數(shù)值。

2.人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)

人工神經(jīng)網(wǎng)絡(luò)的如下特點(diǎn):

(1)并行分布處理。

(2)非線性映射。

(3)信息分布存儲及容錯性。

(4)自組織學(xué)習(xí)能力。

3.人工神經(jīng)網(wǎng)絡(luò)(ANN)與傳統(tǒng)人工智能(AI)的比較

表4-1列舉了人工神經(jīng)網(wǎng)絡(luò)(ANN)與傳統(tǒng)人工智能(AI)的不同。

4.1.2人工神經(jīng)網(wǎng)絡(luò)的發(fā)展

1.啟蒙期

1943年,美國神經(jīng)生理學(xué)家WarrenMcculloch和數(shù)學(xué)家WalterPitts合寫了一篇關(guān)于神經(jīng)元如何工作的開拓性文章《ALogicalCalculusoftheIdeasImmanentinNervous

Activity》。作者認(rèn)為單神經(jīng)元的活動可以看作是開關(guān)的通斷,通過多個神經(jīng)元的組合可以實現(xiàn)邏輯運(yùn)算。他們用電路模擬了一個簡單的神經(jīng)網(wǎng)絡(luò)模型,如圖4-2所示。

2.第一次高潮期

1957年,計算機(jī)專家Rosenblatt提出了感知器模型,如圖4-3所示。圖4-3感知器模型

1959年,美國著名工程師B.Widrow和M.Hoff等人提出了自適應(yīng)線性元件ADALINE,如圖4-4所示,并在他們的論文中描述了它的學(xué)習(xí)方法:WidrowHoff算法。該網(wǎng)絡(luò)通過訓(xùn)練,可以用于抵消通信中的回波和噪聲,也可用于天氣預(yù)報,成為第一個用于實際問題的神經(jīng)網(wǎng)絡(luò)。圖4-4-ADALINE模型

3.反思期———神經(jīng)網(wǎng)絡(luò)的低潮

1969年,人工智能創(chuàng)始人之一MarvinMinsky和SeymourPapert合著了書籍《Perceptrons》。作者在這本書中指出簡單的線性感知器的功能是有限的,它無法解決線性不可分的兩類樣本的分類問題,例如簡單的“異或”問題。

4.第二次高潮期

1982年,美國物理學(xué)家Hopfield提出了一種離散神經(jīng)網(wǎng)絡(luò),即離散Hopfield網(wǎng)絡(luò),從而有力地推動了神經(jīng)網(wǎng)絡(luò)的研究。1984年,Hopfield又提出了一種連續(xù)神經(jīng)網(wǎng)絡(luò),將網(wǎng)絡(luò)中神經(jīng)元的激活函數(shù)由離散型改為連續(xù)型。

離散Hopfield和Hopfield的網(wǎng)狀結(jié)構(gòu)如圖4-5所示。圖4-5離散Hopfield和Hopfield的網(wǎng)狀結(jié)構(gòu)

5.第三次高潮期

Hinton等人于2006年提出了深度學(xué)習(xí)的概念,并在2009年將深層神經(jīng)網(wǎng)絡(luò)介紹給研究語音識別技術(shù)的學(xué)者們。由于深層神經(jīng)網(wǎng)絡(luò)的引入,語音識別領(lǐng)域在2010年取得了重大突破。緊接著在2011年卷積神經(jīng)網(wǎng)絡(luò)(CNN)被用于圖像識別領(lǐng)域,并在圖像識別分類上取得了舉世矚目的成就。2015年LeCun、Bengio和Hinton聯(lián)合在《Nature》上刊發(fā)了一篇題

為《DeepLearning》的文章,自此深度神經(jīng)網(wǎng)絡(luò)不僅在工業(yè)屆獲得了巨大成功,還真正被學(xué)術(shù)界所接受,神經(jīng)網(wǎng)絡(luò)的第三次高潮———深度學(xué)習(xí)就此展開。

4.1.3人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用與實現(xiàn)

1.神經(jīng)網(wǎng)絡(luò)的應(yīng)用

神經(jīng)網(wǎng)絡(luò)的應(yīng)用主要體現(xiàn)在以下方面:

(1)語音識別、視覺圖像處理;

(2)數(shù)據(jù)壓縮、模式匹配、系統(tǒng)建模、模糊控制、求組合優(yōu)化問題的最佳解的近似解;

(3)輔助決策、預(yù)報與智能管理;

(4)自適應(yīng)均衡、回波抵消、路由選擇、ATM中的呼叫接納、識別與控制;

(5)對接、導(dǎo)航、制導(dǎo)、飛行程序優(yōu)化。

如圖4-6所示是使用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)圖像識別。經(jīng)過多次的卷積、池化操作,將特征信息學(xué)習(xí)到網(wǎng)絡(luò)權(quán)重之中,最后輸入判別圖片,計算概率最大的結(jié)果為最終的識別輸出。

如圖4-7所示是目前廣泛應(yīng)用的iPhone手機(jī)Siri語音助手。語音助手首先要解決的問題就是語音識別,通過分析用戶語音最后得到準(zhǔn)確的命令。

如圖4-8所示是神經(jīng)網(wǎng)絡(luò)用于醫(yī)學(xué)圖像分割。經(jīng)過分割著色后的醫(yī)學(xué)圖像能清楚地顯示人體部位各個結(jié)構(gòu)的信息,極大地提升了醫(yī)生的決策效率。圖4-6圖像識別

圖4-7iPhone手機(jī)Siri語音助手圖4-8醫(yī)學(xué)圖像分割

雖然人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用已經(jīng)取得一定的成績,然而目前依然還是處于發(fā)展的初期階段,仍舊存在不少問題需要反思,具體如下:

(1)應(yīng)用類研究多,理論研究和實現(xiàn)研究較少;

(2)模型原理和學(xué)習(xí)算法突破性發(fā)現(xiàn)較少;

(3)已經(jīng)實現(xiàn)的應(yīng)用中多屬于驗證性的應(yīng)用,獨(dú)創(chuàng)性大的應(yīng)用較少;

(4)多數(shù)研究只重視神經(jīng)網(wǎng)絡(luò)的并行結(jié)構(gòu)以及自適應(yīng)處理能力,卻忽視了神經(jīng)網(wǎng)絡(luò)作為智能體系結(jié)構(gòu)的發(fā)展方向。

2.人工神經(jīng)網(wǎng)絡(luò)的實現(xiàn)方式

1)光學(xué)實現(xiàn)

2)硬件實現(xiàn)

3)軟件模擬

常用神經(jīng)網(wǎng)絡(luò)框架的基本信息如表4-2所示,其性能評價如表4-3所示。

4.2人工神經(jīng)單元———單感知器

4.2.1生物學(xué)基礎(chǔ)1.生物神經(jīng)元與生物神經(jīng)系統(tǒng)人工神經(jīng)網(wǎng)絡(luò)是對人腦功能的一種模擬,它在一定程度上揭示了生物神經(jīng)網(wǎng)絡(luò)運(yùn)行的基本規(guī)則。生物神經(jīng)網(wǎng)絡(luò)的基本單位是神經(jīng)元細(xì)胞,其主要由三個部分組成:細(xì)胞體、軸突、樹突。神經(jīng)元細(xì)胞的全體又連接成一個大型復(fù)雜的神經(jīng)網(wǎng)絡(luò),如圖4-9和圖4-10所示。

圖4-9生物神經(jīng)元

圖4-10生物神經(jīng)網(wǎng)絡(luò)

細(xì)胞體:也稱為胞體,由細(xì)胞核、細(xì)胞質(zhì)與細(xì)胞膜等組成。它是神經(jīng)元的新陳代謝中心,同時還用于接收并處理其他神經(jīng)元傳遞過來的信息。

軸突:由細(xì)胞體向外伸出的最長的一條分支。每個神經(jīng)元都有一個軸突,其作用相當(dāng)于神經(jīng)元的信息傳輸電纜,它通過尾部分出的許多神經(jīng)末梢以及突觸向其他神經(jīng)元輸出神

經(jīng)沖動。

樹突:由細(xì)胞體向外伸出的除軸突外的其他分支,長度一般均較短,但分支很多。它相當(dāng)于神經(jīng)元的輸入端,用于接收從四面八方傳來的神經(jīng)沖動。

2.功能實現(xiàn)

傳入的神經(jīng)元沖動經(jīng)整合使細(xì)胞膜的電位升高,當(dāng)電位升高到超過動作電位的閾值時,神經(jīng)元為興奮狀態(tài),產(chǎn)生神經(jīng)沖動由軸突經(jīng)神經(jīng)末梢傳出;傳入神經(jīng)元的沖動經(jīng)整合使細(xì)胞膜電位降低,當(dāng)電位降低到低于動作電位閾值時,神經(jīng)元為抑制狀態(tài),不產(chǎn)生神經(jīng)沖動。

3.生物神經(jīng)系統(tǒng)的特點(diǎn)

(1)生物神經(jīng)元之間相互連接,其連接強(qiáng)度決定了信號傳遞的強(qiáng)弱;

(2)神經(jīng)元之間的連接強(qiáng)度是可以隨著訓(xùn)練改變的;

(3)信號可以起刺激作用,也可以起抑制作用;

(4)一個神經(jīng)元接收信號的累積效果決定了該神經(jīng)元的狀態(tài);

(5)每個神經(jīng)元有一個動作閾值。

4.神經(jīng)網(wǎng)絡(luò)的功能模擬

目前人工神經(jīng)網(wǎng)絡(luò)的研究不具備從信息處理的整體結(jié)構(gòu)進(jìn)行系統(tǒng)分析的能力,因此還很難反映出人腦認(rèn)知的結(jié)構(gòu)。由于忽視了對于整體結(jié)構(gòu)和全局結(jié)構(gòu)的研究,神經(jīng)網(wǎng)絡(luò)對于

復(fù)雜模型結(jié)構(gòu)和功能模塊機(jī)理的認(rèn)識還處于十分無知的狀態(tài)。

4.2.2感知器模型

1957年,計算機(jī)專家Rosenblatt提出了感知器模型。這是一種具有連續(xù)可調(diào)權(quán)值矢量的神經(jīng)網(wǎng)絡(luò)模型,經(jīng)過訓(xùn)練可以達(dá)到對一定的輸入矢量模式進(jìn)行分類和識別的目的,它雖然比較簡單,卻是第一個真正意義上的神經(jīng)網(wǎng)絡(luò)。它可以被視為一種最簡單形式的前饋式人工神經(jīng)網(wǎng)絡(luò),是一種二元線性分類器。該感知器的模型如圖4-11所示。圖4-11感知器模型

1.單輸入感知器

單輸入感知器模型如圖4-12所示,它僅有一個輸入和一個輸出,功能也比較簡單,僅能對單輸入信號進(jìn)行一定變換后再次輸出。模型用公式可表達(dá)為a=f(wp+b),其中a為神經(jīng)元的輸出,f為傳輸函數(shù),w為權(quán)值,p為輸入,b為偏置。圖4-12單輸入感知器模型

2.多輸入感知器

實際應(yīng)用中使用的神經(jīng)網(wǎng)絡(luò)基本由多輸入單輸出的感知器組成,通過大量的感知器層疊組合能夠?qū)崿F(xiàn)復(fù)雜的神經(jīng)網(wǎng)絡(luò)功能,如圖4-13所示。圖4-13多輸入感知器原始模型和簡化模型

多輸入感知器模型用公式可表達(dá)為a=f(wp+b),其中a為神經(jīng)元的輸出,f為傳輸函數(shù),w為權(quán)值,p為輸入,b為偏置。但不同于單輸入感知器的單一值,這里參數(shù)可以表達(dá)為矩陣形式,其中S、R分別代表神經(jīng)網(wǎng)絡(luò)的層數(shù)和輸入?yún)?shù)數(shù)目。

4.2.3激活函數(shù)

激活函數(shù)模擬的是生物神經(jīng)元對輸入信息的處理。激活函數(shù)對輸入感知器的信息進(jìn)行處理,并決定其是否有對應(yīng)的輸出以及輸出幅度有多大,也可以稱為激勵函數(shù)、活化函數(shù)、

傳遞函數(shù)等,表達(dá)式為

其中φ(·)表示激活函數(shù)。激活函數(shù)是感知器處理的核心部分,引入激活函數(shù)增加了神經(jīng)網(wǎng)絡(luò)的非線性特性,從而使得神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)各種復(fù)雜功能。

1.硬極限傳輸函數(shù)

硬極限傳輸函數(shù)的形式如圖4-14所示,其表達(dá)式為

其中,β、γ、θ均為非負(fù)實數(shù),θ為閾值。當(dāng)β=1、γ=0時,函數(shù)表現(xiàn)為二值形式;當(dāng)β=1、γ=1時,函數(shù)表現(xiàn)為雙極形式。

圖4-14-硬極限傳輸函數(shù)的兩種形式

2.線性傳輸函數(shù)

線性傳輸函數(shù)的形式如圖4-15所示,其表達(dá)式為

當(dāng)b=0時時,傳輸函數(shù)關(guān)于原點(diǎn)中心對稱,這是常見的一種形式。

圖4-15線性傳輸函數(shù)的兩種形式

3.對數(shù)S型函數(shù)

對數(shù)S型傳輸函數(shù)的兩種形式分別為邏輯斯特函數(shù)和壓縮函數(shù),如圖4-16所示。圖4-16對數(shù)S型傳輸函數(shù)的兩種形式

4.其他常見傳輸函數(shù)

其他常見傳輸函數(shù)的具體信息如表4-4所示

例4.2.1單神經(jīng)元感知器的輸出層只有一個神經(jīng)元,輸出只有0或1,試分析其權(quán)值向量的特點(diǎn)。

解單神經(jīng)元感知器的具體結(jié)構(gòu)如圖4-17所示。圖4-17單神經(jīng)感知器結(jié)構(gòu)

其輸出為

感知器的判定邊界,由那些使得凈輸入n為零的輸入向量決定,即

若w1,1=1,w1,2=1,b=-1,則判定邊界為n=p1+p2-1=0

結(jié)論:

(1)對于邊界上的所有點(diǎn)而言,輸入向量與權(quán)值向量的內(nèi)積都是一樣的;

(2)權(quán)值向量總是指向神經(jīng)元輸出為1的區(qū)域。

例4.2.2設(shè)計一個能夠?qū)崿F(xiàn)“或門”邏輯功能的感知器,已知輸入向量及其對應(yīng)的輸出向量如下:

輸入和輸出向量在坐標(biāo)中的表示如圖4-18所示。

圖4-18輸入和輸出向量在坐標(biāo)中的表示

解權(quán)值向量應(yīng)與判定邊界垂直,如圖4-19所示,故權(quán)值向量應(yīng)為w=[0.5,0.5]。從判定邊界上選取一個合適的點(diǎn)以確定偏置值b,即

故設(shè)計的感知器可以表示為圖4-19權(quán)值向量的方向特點(diǎn)

4.2.4-感知器參數(shù)學(xué)習(xí)

1.單感知器參數(shù)學(xué)習(xí)規(guī)則

下面通過一個例子來體會感知器的學(xué)習(xí)規(guī)則。已知輸入向量和其對應(yīng)的輸出向量如下:

隨機(jī)初始化權(quán)值w=[1-0.8],可確定傳輸函數(shù)為

圖4-20感知器參數(shù)學(xué)習(xí)中權(quán)重的變化

2.離散單輸出感知機(jī)訓(xùn)練算法

訓(xùn)練樣本集為{(X,Y)|Y},其中Y為輸入向量X對應(yīng)的輸出。權(quán)向量W=(w1,w2,…,wn),其中n為輸入向量的維數(shù)。輸入向量X=(x1,x2,…,xn),其中n為輸入向量的維數(shù)。輸出向量O=(0,1)。激活函數(shù)為f。

算法的具體流程如下:

(1)隨機(jī)初始化權(quán)向量W;

(2)對每個樣本(X,Y),計算O=f(XW),對i∈[1,n],n為樣本數(shù),執(zhí)行下式:

(3)重復(fù)第(2)項,直到訓(xùn)練完成。

4.3人工神經(jīng)網(wǎng)絡(luò)

4.3.1單層神經(jīng)網(wǎng)絡(luò)如果神經(jīng)元之間只有并聯(lián)結(jié)構(gòu)而沒有串聯(lián)結(jié)構(gòu),就構(gòu)成了單層神經(jīng)網(wǎng)絡(luò),實現(xiàn)了多輸入多輸出的功能,如圖4-21所示。

圖4-21單層神經(jīng)網(wǎng)絡(luò)

4.3.2多層神經(jīng)網(wǎng)絡(luò)

多層神經(jīng)網(wǎng)絡(luò)的原始模型如圖4-22所示,其簡化模型如圖4-23所示。圖4-22多層神經(jīng)網(wǎng)絡(luò)原始模型

圖4-23多層神經(jīng)網(wǎng)絡(luò)簡化模型

多層神經(jīng)網(wǎng)絡(luò)(指普通多層神經(jīng)網(wǎng)絡(luò),不包括深度神經(jīng)網(wǎng)絡(luò))擁有眾多優(yōu)勢,但也有一定的不足,列舉如下:

(1)多層神經(jīng)網(wǎng)絡(luò)在處理大數(shù)據(jù)時,需要人為提取大量原始數(shù)據(jù)的特征輸入,在忽略個體之間差異的同時又要保留總體的相似特征。

(2)多層神經(jīng)網(wǎng)絡(luò)能表示的非線性關(guān)系的復(fù)雜度取決于其神經(jīng)網(wǎng)絡(luò)的層數(shù),且層數(shù)越多越逼近真實函數(shù),與之相矛盾的是層數(shù)越多網(wǎng)絡(luò)越難訓(xùn)練。

(3)多層神經(jīng)網(wǎng)絡(luò)因為不含時間參數(shù)而無法處理時間序列問題,在進(jìn)行自然語言處理時,這種多層神經(jīng)網(wǎng)絡(luò)就顯得十分力不從心。

4.3.3神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)

1.離散多輸出感知器模型

算法思想:將單輸出感知器的處理逐個地用于多輸出感知器輸出層的每一個神經(jīng)元的處理。

2.連續(xù)多輸出感知器參數(shù)訓(xùn)練算法

算法的具體流程如下:

4.3.4-人工神經(jīng)網(wǎng)絡(luò)的信息處理能力

1.神經(jīng)網(wǎng)絡(luò)的計算能力

在眾多的文獻(xiàn)中,人們都一致認(rèn)為:信息存儲能力和計算能力是現(xiàn)代計算機(jī)科學(xué)中的兩個基本問題,同樣,它們也構(gòu)成了人工神經(jīng)網(wǎng)絡(luò)研究中的基本問題。

在傳統(tǒng)的馮·諾依曼型計算機(jī)中,其計算與存儲是完全獨(dú)立的兩個部分。這兩個獨(dú)立部分(信息存儲器與運(yùn)算器)之間的通道,就成為提高計算機(jī)計算能力的瓶頸,并且只要這兩個部分是獨(dú)立存在的,這個問題就始終存在。

2.神經(jīng)網(wǎng)絡(luò)的信息存儲能力

4.4-神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法

4.4.1Hebb規(guī)則Hebb規(guī)則是由加拿大著名生理心理學(xué)家Hebb于1949年提出來的,是最早、最著名的訓(xùn)練算法,至今仍在各種神經(jīng)網(wǎng)絡(luò)模型中起著重要的作用。在此基礎(chǔ)上,人們提出了各種學(xué)習(xí)規(guī)則和算法,以適應(yīng)不同網(wǎng)絡(luò)模型的需要。有效的學(xué)習(xí)算法使得神經(jīng)網(wǎng)絡(luò)能夠通過聯(lián)結(jié)權(quán)重的調(diào)整,構(gòu)造客觀世界的內(nèi)在表征。

1.Hebb假設(shè)

1949年Hebb提出當(dāng)細(xì)胞A的軸突到細(xì)胞B的距離近到足夠刺激它,且反復(fù)地或持續(xù)地刺激B,那么在這兩個細(xì)胞或一個細(xì)胞中將會發(fā)生某種增長過程或代謝反應(yīng),增加細(xì)胞A對細(xì)胞B的刺激效果。

2.Hebb規(guī)則

3.Hebb學(xué)習(xí)規(guī)則性能分析

例4.4.1原型輸入向量為標(biāo)準(zhǔn)正交向量。

例4.4.2原型輸入向量不是標(biāo)準(zhǔn)正交向量。

4.仿逆規(guī)則

4.4.2梯度下降方法

1.損失函數(shù)

在機(jī)器學(xué)習(xí)中每個算法都會有一個目標(biāo)函數(shù),而算法的運(yùn)行求解過程通常也就是這個算法的優(yōu)化求解過程。在一些算法求解問題中,常會使用損失函數(shù)作為目標(biāo)函數(shù)。損失函

數(shù)代表的是預(yù)測值和真實值之間的差異程度,那么只要找到一個解使得二者之間的差異最小,該解就可以理解為此時的一個最優(yōu)解。通常損失函數(shù)越好,則模型的性能也越好。常見的損失函數(shù)有如下幾種:

2.經(jīng)驗風(fēng)險、期望風(fēng)險、結(jié)構(gòu)風(fēng)險

損失函數(shù)可以衡量一個樣本的預(yù)測值與實際值之間的差異,而在衡量整個集合的預(yù)測能力時可以采用疊加的方式:

其中,N是樣本的數(shù)目;Remp(f)又可以稱為代價函數(shù)或經(jīng)驗風(fēng)險。經(jīng)驗風(fēng)險即對數(shù)據(jù)集中的所有訓(xùn)練樣本進(jìn)行平均最小化。經(jīng)驗風(fēng)險越小,則表明該模型對數(shù)據(jù)集訓(xùn)練樣本的擬合程度越好,但對于未知測試樣本的預(yù)測能力卻不確定。

故又引入了一個期望風(fēng)險

其中Ep

表示數(shù)學(xué)期望計算,Rexp(f)表示期望風(fēng)險。

經(jīng)驗風(fēng)險是局部的,僅表示決策函數(shù)對訓(xùn)練樣本的預(yù)測能力,期望風(fēng)險表示的是全局,是對全部包括訓(xùn)練樣本和測試樣本的整體訓(xùn)練集的預(yù)測能力。從原理上顯然直接讓期望風(fēng)

險最小化就能得到我們想要的解,但恰恰問題在于期望風(fēng)險函數(shù)難以獲得。若只考慮經(jīng)驗風(fēng)險,則容易出現(xiàn)過擬合現(xiàn)象,即盡管模型對于訓(xùn)練集有非常好的預(yù)測能力,但是對測試集的預(yù)測能力卻非常差。其原因在于模型不僅學(xué)習(xí)了該集合的通用特征,還學(xué)習(xí)了訓(xùn)練集中樣本的特有特征。

為了解決這兩種問題,引入了一種折中的方案,即在經(jīng)驗風(fēng)險函數(shù)后再增加一個正則化(正則化也就是懲罰項),構(gòu)成結(jié)構(gòu)風(fēng)險:

其中,J(f)用于衡量模型的復(fù)雜程度;λ是大于0的系數(shù),衡量J對整個公式的影響程度。

其解決思路是,由于使用經(jīng)驗風(fēng)險容易出現(xiàn)過擬合,因而設(shè)法去防止過擬合的出現(xiàn)。通常過擬合是學(xué)習(xí)樣本所特有的特征,在其函數(shù)上表現(xiàn)為擁有復(fù)雜模型,如圖4-24所示。那么就可以將模型的復(fù)雜度作為懲罰項,從而避免過擬合現(xiàn)象。模型只學(xué)習(xí)樣本集合中通用性較強(qiáng)的特征,而忽略掉個體之間區(qū)別性較強(qiáng)的特征。

圖4-24-過擬合示意圖

3.梯度的理解

多元函數(shù)中對各個參數(shù)求偏導(dǎo),最后把各個參數(shù)的偏導(dǎo)數(shù)用向量的方式表示出來即梯度。從二維及三維函數(shù)的圖像中可知,梯度可以代表函數(shù)在這個參數(shù)上的變化速度快慢,梯度越大則變化越快。沿著梯度變換的方向直至梯度為0,該處通常是一個局部的高點(diǎn)或者低點(diǎn),即極大值或者極小值,在函數(shù)中這恰恰可以視為函數(shù)的最終解。

如圖4-25所示

圖4-25梯度變化示意圖

地理中的“等高線”概念,即將地面上海拔高度相同的點(diǎn)連成閉合曲線,并垂直投影到一個水平面上,再按比例繪制在圖紙上而獲得的曲線,如圖4.26所示。

圖4-26等高線示意圖

4.梯度下降方法的實現(xiàn)

(3)算法過程如下

(4)加快收斂的方法:

①特征縮放。在多特征問題中保證特征有相近的尺度將有利于梯度下降。

②通過調(diào)整學(xué)習(xí)率來更改收斂速度。學(xué)習(xí)率過小會導(dǎo)致梯度下降方法收斂過慢,但過大也可能使得網(wǎng)絡(luò)不能收斂。

(5)多種梯度下降方法:

①批量梯度下降方法(BatchGradientDescent)。

②隨機(jī)梯度下降方法(StochasticGradientDescent)。

③小批量梯度下降方法(Mini-batchGradientDescent)。該

4.4.3誤差反向傳播算法

誤差反向傳播算法即BP算法,是一種適合于多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。其建立在梯度下降方法的基礎(chǔ)之上,主要由激勵傳播和權(quán)重更新兩個環(huán)節(jié)組成,經(jīng)過反復(fù)迭代更新、修正權(quán)值從而輸出預(yù)期的結(jié)果。

1.算法推導(dǎo)

1)前向傳播

前向傳播簡而言之就是從輸入層開始,信號輸入神經(jīng)元,經(jīng)過加權(quán)偏置激活函數(shù)的處理輸出,成為下一級的輸入?yún)?shù),如此往復(fù)直到從輸出層輸出。

2)反向傳播

反向傳播以前向傳播為基礎(chǔ),從前向傳播得到的參數(shù)前反向推導(dǎo)更新每一層的權(quán)重和偏置。

2.BP算法的特點(diǎn)

(1)可以實現(xiàn)一個從輸入到輸出的映射功能,已有理論可以證明其有實現(xiàn)任何復(fù)雜非線性映射的能力,并且特別適合于內(nèi)部機(jī)制復(fù)雜的問題。

(2)能夠通過學(xué)習(xí)數(shù)據(jù)集特征和最終結(jié)果,自動提取求解規(guī)則,具有自學(xué)習(xí)能力,并有極強(qiáng)的推廣和概括能力。

3.BP算法存在的問題

(1)容易找到局部極小值而得不到全局最優(yōu)解;

(2)隱含節(jié)點(diǎn)的選取沒有理論指導(dǎo);

(3)訓(xùn)練次數(shù)多會使得學(xué)習(xí)效率低,收斂速度慢;

(4)訓(xùn)練時學(xué)習(xí)新樣本有逐漸遺忘舊樣本的趨勢。

4.4.4-其他學(xué)習(xí)方法

1.Delta規(guī)則

其數(shù)學(xué)表示如下:

2.Dropout規(guī)則

通常神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時采用先將神經(jīng)網(wǎng)絡(luò)進(jìn)行正向傳播,后再將誤差進(jìn)行反向傳播從而更新網(wǎng)絡(luò)權(quán)值的方法。然而,隨著神經(jīng)網(wǎng)絡(luò)的層數(shù)增多,神經(jīng)網(wǎng)絡(luò)進(jìn)行誤差反向傳播時會出現(xiàn)梯度消失的現(xiàn)象,導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練緩慢,且神經(jīng)網(wǎng)絡(luò)的深度難以進(jìn)一步提升。隨著訓(xùn)練迭代次數(shù)的增加,神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)過擬合現(xiàn)象。為了解決神經(jīng)網(wǎng)絡(luò)中的這兩個問題,Hinton等人于2012年提出了Dropout規(guī)則。其核心思想是隨機(jī)刪除隱藏層的部分單元。無Dropout的網(wǎng)絡(luò)結(jié)構(gòu)與有Dropout的網(wǎng)絡(luò)結(jié)構(gòu)對比如圖4-27所示。

圖4-27普通神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和Dropout網(wǎng)絡(luò)結(jié)構(gòu)對比

Dropout步驟如下:

(1)隨機(jī)讓部分隱藏神經(jīng)元不工作,即輸出0,輸入和輸出神經(jīng)元保持不變;

(2)將修改后的神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播,將誤差進(jìn)行反向傳播;

(3)對新的訓(xùn)練樣本重復(fù)步驟(1)。

表4-5列出了一些常見的學(xué)習(xí)規(guī)則的基本信息。

4.5徑向基函數(shù)網(wǎng)絡(luò)

4.5.1徑向基函數(shù)簡介1985年,Power提出了多變插值的徑向基函數(shù)(RadicalBasisFunction,RBF)方法,同年,Moody和Darken提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)。

常用的徑向基函數(shù)(RBF)有以下幾種。

4.5.2徑向基函數(shù)網(wǎng)絡(luò)概念

1.Cover定理

2.K均值聚類

4.5.3徑向基函數(shù)網(wǎng)絡(luò)的模型

RBF網(wǎng)絡(luò)屬于多層前向網(wǎng)絡(luò),共三層,分別為輸入層、隱含層和輸出層,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4-28所示。

圖4-28徑向基函數(shù)網(wǎng)絡(luò)結(jié)構(gòu)圖

兩種常見的網(wǎng)絡(luò)模型為正則化網(wǎng)絡(luò)(RegularizationNetwork,RN)和廣義網(wǎng)絡(luò)

(GeneralNetwork,GN)。

(1)正則化網(wǎng)絡(luò)(RN):一般用于通用逼近器。

基本思想:通過加入一個含有解的先驗知識的約束控制映射函數(shù)的光滑性,若輸入輸出映射函數(shù)是光滑的,則重建問題的解是連續(xù)的,意味著相似的輸入對應(yīng)著相似的輸出。

(2)廣義網(wǎng)絡(luò)(GN):一般用于模式分類。

基本思想:用RBF作為隱單元的“基”,構(gòu)成隱含層空間,隱含層對輸入向量進(jìn)行變換,將其變換到高維空間,使得在低維空間內(nèi)的線性不可分問題在高維空間內(nèi)線性可分。

4.5.4-徑向基函數(shù)網(wǎng)絡(luò)的工作原理及特點(diǎn)

1.徑向基函數(shù)網(wǎng)絡(luò)原理

1)函數(shù)逼近

函數(shù)逼近即以任意精度逼近任一連續(xù)函數(shù)。一般函數(shù)都可以表示成一組基函數(shù)的線性組合,RBF網(wǎng)絡(luò)相當(dāng)于用隱含層單元的輸出構(gòu)成一組基函數(shù),然后用輸出層來進(jìn)行線性組

合,從而完成逼近的功能

2)分類

分類可解決非線性可分問題?;诜蔷€性變換的基本理論,即

(1)一個模式分類問題如果映射到一個高維空間將會比映射到一個低維空間更可能實現(xiàn)線性可分。

(2)隱空間的維數(shù)越高,逼近就越準(zhǔn)確。RBF網(wǎng)絡(luò)用隱含層單元先將非線性可分的輸入空間設(shè)法變換到線性可分的特征空間,然后用輸出層來進(jìn)行線性劃分,從而完成分類的目的。

2.徑向基函數(shù)網(wǎng)絡(luò)特點(diǎn)

(1)只有一個隱層,且隱層神經(jīng)元與輸出神經(jīng)元模型相同。

(2)隱層節(jié)點(diǎn)激活函數(shù)為徑向基函數(shù),輸出層節(jié)點(diǎn)激活函數(shù)為線性函數(shù)。

(3)隱層節(jié)點(diǎn)激活函數(shù)的凈輸入是輸入向量與節(jié)點(diǎn)中心的距離(范數(shù))而非向量內(nèi)積,且節(jié)點(diǎn)中心不可調(diào)。

(4)隱層節(jié)點(diǎn)參數(shù)確定后,輸出權(quán)值可通過解線性方程組得到。

(5)隱層節(jié)點(diǎn)的非線性變換把線性不可分問題轉(zhuǎn)化為線性可分的問題。

(6)具有唯一的最佳逼近的特性,無局部最小。

(7)合適的隱層節(jié)點(diǎn)數(shù)、節(jié)點(diǎn)中心和寬度不易確定。

4.5.5徑向基函數(shù)網(wǎng)絡(luò)的學(xué)習(xí)算法

RBF網(wǎng)絡(luò)學(xué)習(xí)的三個參數(shù)包括:基函數(shù)的中心、方差以及隱層與輸出層間的權(quán)值。當(dāng)采用廣義RBF網(wǎng)絡(luò)結(jié)構(gòu),RBF網(wǎng)絡(luò)的學(xué)習(xí)算法應(yīng)該解決的問題包括:如何確定網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù),如何確定各徑向基函數(shù)的數(shù)據(jù)中心及方差,如何修正輸出權(quán)值。

1.確定數(shù)據(jù)中心

數(shù)據(jù)中心的選取有兩種方法,即

(1)中心從樣本輸入中選取:數(shù)據(jù)中心從樣本中直接得到,一般來說,樣本密集的地方中心點(diǎn)可以適當(dāng)多些,樣本稀疏的地方中心點(diǎn)可以少些;若數(shù)據(jù)本身是均勻分布的,中心點(diǎn)也可以均勻分布??傊?選出的數(shù)據(jù)中心應(yīng)具有代表性,徑向基函數(shù)的方差是根據(jù)數(shù)據(jù)中心的散布而確定的。

(2)中心自組織選取:常采用各種動態(tài)聚類算法對數(shù)據(jù)中心進(jìn)行自組織選擇,在學(xué)習(xí)過程中需對數(shù)據(jù)中心的位置進(jìn)行動態(tài)調(diào)節(jié)。常用的方法是K均值聚類,其優(yōu)點(diǎn)是根據(jù)各聚類中心之間的距離確定各隱節(jié)點(diǎn)的方差。

K-均值聚類算法步驟如下:

2.確定方差

聚類中心確定后,可根據(jù)各中心之間的距離確定對應(yīng)RBF的方差:

方差可取為σi=λdi,λ為重疊系數(shù)。

3.學(xué)習(xí)權(quán)值

權(quán)值的學(xué)習(xí)可以采用最小均方(LeastMeanSquare,LMS)算法,但需要注意以下兩點(diǎn):

(1)LMS算法的輸入為RBF網(wǎng)絡(luò)隱層的輸出;

(2)RBF輸出層的神經(jīng)元只是對隱層神經(jīng)元的輸出加權(quán)和。

4.RBF網(wǎng)絡(luò)的MATLAB實現(xiàn)

MATLAB中已有RBF網(wǎng)絡(luò)工具包,使用時可以直接調(diào)用相應(yīng)的函數(shù)。RBF網(wǎng)絡(luò)的MATLAB函數(shù)及功能如表4-6所示。

下面簡要介紹newrb()和newrbe()這兩個函數(shù)的使用方法,其他函數(shù)的使用方法類似。

1)newrb()函數(shù)

功能:建立一個RBF神經(jīng)網(wǎng)絡(luò)。

格式:net=newrb(P,T,GOAL,SPREAD,MN,DF)

說明:P為輸入向量,T為目標(biāo)函數(shù),GOAL為均方誤差,默認(rèn)值為0,SPREAD為RBF的分布密度(默認(rèn)值為1),MN為神經(jīng)元的最大數(shù)目,DF為兩次顯示之間所添加的神經(jīng)元數(shù)目。

2)newrbe()函數(shù)

功能:建立一個嚴(yán)格的徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)。嚴(yán)格是指徑向基函數(shù)(RBF)神經(jīng)

網(wǎng)絡(luò)的神經(jīng)元個數(shù)與輸入值個數(shù)相等。

格式:net=netrbe(P,T,GOAL,SPREAD)

說明:各參數(shù)的含義與newrb()函數(shù)參數(shù)含義一致。

4.6深度神經(jīng)網(wǎng)絡(luò)

4.6.1有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)根據(jù)不同的分類標(biāo)準(zhǔn),人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方式有不同的劃分,其中最常用的劃分方式為監(jiān)督學(xué)習(xí)(SupervisedLearning)和無監(jiān)督學(xué)習(xí)(UnsupervisedLearning)。監(jiān)督和無監(jiān)督根據(jù)訓(xùn)練樣本有無標(biāo)簽進(jìn)行區(qū)分,其中,訓(xùn)練樣本有標(biāo)簽的學(xué)習(xí)方式為監(jiān)督學(xué)習(xí),訓(xùn)練樣本無標(biāo)簽的學(xué)習(xí)方式為無監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí)是使用已標(biāo)注數(shù)據(jù)集訓(xùn)練已有的模型,得到該模型的最優(yōu)解,即從有類標(biāo)的樣本學(xué)習(xí)到對應(yīng)的特征,然后通過這些特征去識別其他的物體。

無監(jiān)督學(xué)習(xí)是指輸入數(shù)據(jù)并沒有準(zhǔn)確的類標(biāo)信息提供給模型,因此模型必須能夠從輸入數(shù)據(jù)中發(fā)現(xiàn)規(guī)律(如統(tǒng)計特征、相關(guān)性或類別等),并將所發(fā)現(xiàn)的這種規(guī)律在輸出中編碼。

4.6.2卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是一種深度前饋神經(jīng)網(wǎng)絡(luò),其根據(jù)人類視覺系統(tǒng)分級處理信息的原理設(shè)計實現(xiàn),較低層的神經(jīng)網(wǎng)絡(luò)提取淺層的特征,比如邊緣信息等,接著提取更深層次的特征,

比如圖像的某個像素塊,最后得到圖像的整體特征。信息處理有兩個過程:其一是特征提取,每個神經(jīng)元與前一層的局部感知域相連,并提取該局部的特征;其二是特征映射,每個網(wǎng)絡(luò)層由大量的特征映射組成,每個特征映射是一個平面,平面上的所有神經(jīng)元共享權(quán)值,從而大大降低了自由參數(shù)的數(shù)量,特征映射使用的激活函數(shù)通常為Sigmoid、Tanh、ReLU

等。

1.卷積流描述

卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)模塊為卷積流,包括卷積、非線性、池化和批歸一化等四種操作,下面以圖像處理為例詳解這四種操作。

1)卷積

數(shù)學(xué)中,卷積是一種重要的線性運(yùn)算。在卷積神經(jīng)網(wǎng)絡(luò)中卷積操作用于提取輸入信息的特征,通過不同的卷積核與原始輸入信息的局部感受域卷積提取出信息中的不同的特

征。神經(jīng)網(wǎng)絡(luò)中常用的卷積類型包括三種,即Full卷積、Same卷積和Valid卷積。舉例說明如下:假設(shè)輸入信號為一維信號,即x∈Rn,且濾波器為一維的,即w∈Rn,則有

圖4-29二維Valid卷積操作

另外,需要注意的是,深度學(xué)習(xí)平臺tensorflow中常用的卷積操作,包含兩個參數(shù)即stride和padding,其中stride是指卷積核從當(dāng)前位置到下一個位置跳過的像素個數(shù)。例如,二維圖像卷積過程中,卷積核每次移動一個像素,那么,stride為1。通俗地講,padding為對卷積輸入補(bǔ)0的圈數(shù)。通常在計算過程中,若輸入信號為x∈Rn×m,卷積核(即濾波器)尺寸大小為w∈Rs×k,則由stride和zeropadding的valid卷積得到的輸出信號的大小為

其中,“·”操作為向下取整。

卷積操作是卷積核與前一層局部感受域的卷積,這種局部連接策略,可以約減不必要的權(quán)值連接,達(dá)到稀疏的作用,使用相同的卷積核對不同的區(qū)域進(jìn)行卷積操作,實現(xiàn)權(quán)值共享極大地減少參數(shù)量,從而有效避免過擬合現(xiàn)象的出現(xiàn)。另外,由于卷積操作具有平移不變性,使得學(xué)到的特征具有拓?fù)鋵?yīng)性、泛化性等特性。不同連接類型網(wǎng)絡(luò)參數(shù)量如圖4-30所示,分別為全連接、局部連接和權(quán)值共享神經(jīng)網(wǎng)絡(luò)所對應(yīng)的參數(shù)量,其中權(quán)值共享是指相鄰神經(jīng)元的活性相似,從而共享相同的權(quán)值參數(shù)。

圖4-30不同連接類型網(wǎng)絡(luò)參數(shù)量

2)激活函數(shù)

卷積神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)是非線性函數(shù),激活函數(shù)一般是對卷積操作結(jié)果進(jìn)行非線性操作,通過彎曲和扭曲實現(xiàn)表征能力的提升。激活函數(shù)通過層級非線性映射使得整個網(wǎng)

絡(luò)的非線性刻畫能力得到提升,在激活函數(shù)應(yīng)用在卷積神經(jīng)網(wǎng)絡(luò)之前,僅使用線性的方式去逼近表征數(shù)據(jù)中高層語義特征的能力有限。

3)池化

池化操作的本質(zhì)是降采樣,根據(jù)池化半徑的大小和池化的方式進(jìn)行空間上的降維,結(jié)果是用一個值代替池化半徑范圍內(nèi)的值。其主要意義是:減少計算量,刻畫平移不變特性,約減下一層的輸入維度(核心是參數(shù)量有效的降低),從而有效控制過擬合風(fēng)險。池化操作有多種形式,如最大池化、平均池化、范數(shù)池化和對數(shù)概率池化等。卷積神經(jīng)網(wǎng)絡(luò)中常用的池化方式為最大池化(一種非線性下采樣的方式)和平均池化,其中最大池化對池化半徑鄰域內(nèi)的特征點(diǎn)取最大值,能更好地保留紋理信息;平均池化對池化半徑鄰域內(nèi)的特征點(diǎn)求平均,能更好地保留背景信息。圖4-31展示了一個4×4的像素塊進(jìn)行池化半徑為2的最大池化和平均池化后的結(jié)果。

圖4-31池化操作

在深度學(xué)習(xí)平臺上,除了池化半徑以外,還有stride參數(shù),與卷積中的stride意義相同。在使用反向傳播(BP)算法訓(xùn)練模型時,需要進(jìn)行池化的反向操作,最大池化和平均池化進(jìn)行反池化的操作不同。對最大池化,在進(jìn)行池化操作時不僅要保留池化區(qū)域中的最大值,還要保留最大值所對應(yīng)的位置,這樣,反池化結(jié)果中的最大值賦值到原來的位置,其他位置填充零。平均池化是對池化半徑內(nèi)的所有元素求平均值,反池化操作將池化后的值除以池化半徑的平方賦到每個像素中。最大池化和平均池化的反向操作如圖4-32所示。

圖4-32反池化操作

4)批歸一化

批歸一化是訓(xùn)練過程中對輸入數(shù)據(jù)處理的方式,目的是避免隨著層級的加深而導(dǎo)致信息的傳遞呈現(xiàn)逐層衰減的趨勢,因為數(shù)據(jù)范圍大的輸入在模式分類中的作用可能偏大,而數(shù)據(jù)范圍小的輸入作用可能偏小,總之?dāng)?shù)據(jù)范圍偏大或偏小,可能導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)收斂慢、訓(xùn)練時間長。常用的歸一化操作有:范數(shù)歸一化、Sigmoid函數(shù)歸一化(越往兩邊,區(qū)分度越小)等。

2.深度卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)

1)LeNet

LeNet是YannLeCun在1994年提出的,該網(wǎng)絡(luò)共有7層(不含輸入層),其中包含兩個卷積層、兩個池化層、三個全連接層。LeNet模型如圖4-33所示圖4-33LeNet模型

2)AlexNet

在LeNet網(wǎng)絡(luò)提出之后的很長一段時間,限于當(dāng)時的數(shù)據(jù)量較少,參數(shù)初始化以及非凸優(yōu)化并沒有深入的研究,當(dāng)時的硬件計算能力遠(yuǎn)遠(yuǎn)不能滿足深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的需求,LeNet網(wǎng)絡(luò)雖然在mnist數(shù)據(jù)集上取得了較好的結(jié)果,但在其他的數(shù)據(jù)集上并沒有太好的性能。這也是LeNet之后深度神經(jīng)網(wǎng)絡(luò)沒有被很快重視的原因。這種情況一直持續(xù)到2012年一個新的網(wǎng)絡(luò)模型———AlexNet的提出及其在ImageNet的比賽中獲得冠軍。AlexNet模型如圖4-34所示。

圖4-34-AlexNet模型

AlexNet網(wǎng)絡(luò)是在LeNet網(wǎng)絡(luò)上的進(jìn)一步發(fā)展,但和LeNet網(wǎng)絡(luò)也有很多不同之外,具體體現(xiàn)在以下幾個方面:

(1)網(wǎng)絡(luò)模型。

(2)激活函數(shù)。

(3)減少過擬合。

Inception是GoogLeNet中用于構(gòu)建深層網(wǎng)絡(luò)的基本模塊,其模型如圖4-35所示。圖4-35Inception模型

4)VGG

VGG在2014年ImageNet大賽中獲得第二名,該模型主要研究網(wǎng)絡(luò)的深度對結(jié)果的影響。不同深度VGG網(wǎng)絡(luò)模型的配置如表4-7所示。

5)ResNet

深度殘差網(wǎng)絡(luò)的特點(diǎn):①網(wǎng)絡(luò)層級較深,但每一隱層較神經(jīng)元數(shù)量較少,可以控制參數(shù)的數(shù)量;②存在層級,特征圖個數(shù)逐層遞進(jìn),保證輸出特征的表達(dá)能力;③使用了較少的池化層,大量使用下采樣,提高傳播效率;④沒有使用Dropout,利用批歸一化和全局平均池化進(jìn)行正則化,加快了訓(xùn)練速度;⑤層數(shù)較高時減少了3*3卷積個數(shù),并用1*1卷積控制了3*3卷積的輸入、輸出特征圖數(shù)量,這種結(jié)構(gòu)稱為“瓶頸”;⑥深度網(wǎng)絡(luò)受梯度彌散問題的困擾,批歸一化、ReLU等手段對梯度彌散的緩解能力有限,而深度殘差網(wǎng)絡(luò)中的單位映射的殘差結(jié)構(gòu)可以從本源上杜絕該問題。

3.卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

近年來,隨著深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在圖像的分類任務(wù)上(以ImageNet比賽為例)取得比人類更高的準(zhǔn)確率。其他的網(wǎng)絡(luò)模型如RCNN、FastRCNN、Faster

RCNN以及YOLO和SSD等在目標(biāo)檢測上也取得了較好的效果。深度卷積神經(jīng)網(wǎng)絡(luò)在語音識別以及自動駕駛領(lǐng)域投入商用,在自然語言處理等方面也在迅速發(fā)展。但網(wǎng)絡(luò)需要較多的訓(xùn)練數(shù)據(jù),且網(wǎng)絡(luò)層數(shù)的增加導(dǎo)致模型較大,很難在使用率較高的移動終端上應(yīng)用,這也是限制深度神經(jīng)網(wǎng)絡(luò)全面普及應(yīng)用的一個重要原因。

4.6.3循環(huán)神經(jīng)網(wǎng)絡(luò)

1.簡單循環(huán)神經(jīng)網(wǎng)絡(luò)

如圖4-36所示是一個簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖圖4-36循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

2.長短時記憶神經(jīng)網(wǎng)絡(luò)

已知(簡單的)循環(huán)神經(jīng)網(wǎng)絡(luò)的核心問題是隨著時間間隔的增加(即LongTermDependencies)容易出現(xiàn)梯度爆炸或梯度彌散,為了有效地解決這一問題通常引入門限機(jī)制來控制信息的累積速度,并可以選擇遺忘之前的累積信息。而這種門限機(jī)制下的循環(huán)神經(jīng)網(wǎng)絡(luò)包括長短時記憶(LSTM)神經(jīng)網(wǎng)絡(luò)和門限循環(huán)單元(GRU)神經(jīng)網(wǎng)絡(luò),這兩種網(wǎng)絡(luò)都是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體,其中門限循環(huán)單元神經(jīng)網(wǎng)絡(luò)(GRU)是長短時記憶神經(jīng)網(wǎng)絡(luò)的進(jìn)一步改進(jìn),使得網(wǎng)絡(luò)參數(shù)大大減少。

圖4-37增加新狀態(tài)后的循環(huán)神經(jīng)網(wǎng)絡(luò)

圖4-38長短時記憶神經(jīng)網(wǎng)路的標(biāo)準(zhǔn)模塊

4.6.4-生成對抗網(wǎng)絡(luò)

對不同的作用空間,深度生成網(wǎng)絡(luò)可以大致分為兩種類型:一種為作用在數(shù)據(jù)空間中的生成對抗網(wǎng)絡(luò),另一種為作用在特征空間中的變分自編碼網(wǎng)絡(luò)。作用在數(shù)據(jù)空間是指該

網(wǎng)絡(luò)多用于數(shù)據(jù)的生成及處理;作用在特征空間是指該網(wǎng)絡(luò)多用于提取數(shù)據(jù)的特征。

數(shù)據(jù)、深度學(xué)習(xí)模型和計算機(jī)的計算能力被稱為深度學(xué)習(xí)的“三駕馬車”,隨著各種深度學(xué)習(xí)框架的普及以及GPU、TPU在深度學(xué)習(xí)中的廣泛應(yīng)用,深度學(xué)習(xí)模型以及計算機(jī)的計算能力對深度學(xué)習(xí)發(fā)展的影響越來越小,而現(xiàn)階段可用于直接訓(xùn)練的數(shù)據(jù)還不能滿足深度學(xué)習(xí)在各種場景的應(yīng)用,大多數(shù)可用的訓(xùn)練樣本也較少,訓(xùn)練出的模型的泛化能力較弱,要得到泛化能力更強(qiáng)的模型不僅僅要有更優(yōu)的算法,大量數(shù)據(jù)也是不可或缺的一部分。數(shù)據(jù)擴(kuò)充除了使用數(shù)據(jù)增強(qiáng)的技術(shù),即通過對數(shù)據(jù)進(jìn)行裁剪、旋轉(zhuǎn)角度、加入服從不同分布下的隨機(jī)噪聲等,還可以使用無監(jiān)督的生成對抗網(wǎng)絡(luò)模型學(xué)習(xí)的方式,如圖4-39所示。

圖4-39生成對抗網(wǎng)絡(luò)的數(shù)據(jù)擴(kuò)充

1.生成對抗網(wǎng)絡(luò)簡介

生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN)是2014年6月由IanGoodfellow等學(xué)者提出的一種生成模型,其核心思想是通過訓(xùn)練學(xué)習(xí)數(shù)據(jù)的概率分布,然后根據(jù)概率分布來生成新的數(shù)據(jù)從而實現(xiàn)數(shù)據(jù)的擴(kuò)張。

2.網(wǎng)絡(luò)模型的數(shù)學(xué)描述

下面基于圖4-40給出生成對抗網(wǎng)絡(luò)的數(shù)學(xué)描述。

圖4-40深度卷積生成對抗網(wǎng)絡(luò)模型

4)求解

生成對抗網(wǎng)絡(luò)的求解方法和大多數(shù)神經(jīng)網(wǎng)絡(luò)的求解方法類似,利用梯度下降方法對(θG,θD)進(jìn)行交替優(yōu)化,在“對抗”的過程中使參數(shù)達(dá)到最優(yōu)。

3.生成對抗網(wǎng)絡(luò)改進(jìn)

1)深度卷積生成對抗網(wǎng)絡(luò)(DCGAN)

與傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)采用端到端的模式、用反向傳播算法進(jìn)行參數(shù)更新的方式不同,深度卷積生成對抗網(wǎng)絡(luò)由兩個類似對偶的網(wǎng)絡(luò)組成,一個是生成模型,一個是判別模型,如圖4-40所示。下面對DCGAN中的兩個模型分別介紹

圖4-40深度卷積生成對抗網(wǎng)絡(luò)模型

2)條件生成對抗網(wǎng)絡(luò)(CGAN)

和其他的生成網(wǎng)絡(luò)不同的是,生成對抗網(wǎng)絡(luò)不需要一個假設(shè)的數(shù)據(jù)分布,而是直接從一個確定的分布中采樣然后生成數(shù)據(jù),理論上這種方式雖然能生成和自然圖像相近的樣本,但不需要預(yù)先建模使得生成的結(jié)果不可控,雖然能生成和自然圖像近似度極高的樣本,但也生成太多其他無關(guān)的樣本,導(dǎo)致模型收斂速度較慢,甚至有可能不收斂。而CGAN的出現(xiàn)正好可以改善這一狀況,CGAN通過對生成模型(G)和判別模型(D)引入條件變量y,使得數(shù)據(jù)的生成過程受到條件的變量的控制,從而使訓(xùn)練朝著越來越好的方向進(jìn)行。條件變量可以基于多種信息,如類別標(biāo)簽、用于圖像修復(fù)的部分?jǐn)?shù)據(jù)、來自不同模態(tài)的數(shù)據(jù)等。

GAN通過交替優(yōu)化生成模型和判別模型,從而達(dá)到零和博弈即納什均衡,通過其優(yōu)化的目標(biāo)函數(shù)公式(4.90)也可以看出此過程。而條件生成對抗網(wǎng)絡(luò)通過對生成模型和判別模

型加入條件變量,即在目標(biāo)函數(shù)中加入先驗信息,從而使優(yōu)化的過程變?yōu)闂l件二元極大極小博弈,即最小化其參數(shù)θG和θD。通過對GAN的損失函數(shù)加入條件信息得到CGAN的目標(biāo)函數(shù):

3)InfoGAN

通常情況下網(wǎng)絡(luò)學(xué)習(xí)到的特征是混雜在一起的,這些特征在數(shù)據(jù)空間中以一種復(fù)雜無序的方式進(jìn)行編碼,很難對其進(jìn)行分析和理解,所以需要一種方法對特征進(jìn)行分解,提高特征的可解釋性,從而更容易對這些特征進(jìn)行編碼。而在GAN中,生成模型的輸入信號隨機(jī)噪聲z就是這樣一種沒有任何限制高度復(fù)雜的信號,z的任何一個維度和特征都沒有明顯的映射,所以我們很難清楚什么樣的噪聲信號z可以生成希望的輸出值。

4.生成對抗網(wǎng)絡(luò)的應(yīng)用

生成對抗網(wǎng)絡(luò)及其變形在圖像分類、分割、檢測以及圖像生成等方面均取得突破性的成果。其在不同的應(yīng)用場景下都有不同的調(diào)整,例如在圖像分類上首先使用無標(biāo)簽的數(shù)據(jù)學(xué)習(xí)特征,然后使用有標(biāo)簽的數(shù)據(jù)精調(diào),得到了較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論