版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、深度學(xué)習(xí)(Deep Learning)及其優(yōu)化方法1/25報告人:胡海根報告人:胡海根E-mail: 浙江工業(yè)大學(xué)計算機(jī)學(xué)院Outline 深度學(xué)習(xí)基本介紹Loss Function一般形式及數(shù)學(xué)概念一般形式及數(shù)學(xué)概念深度學(xué)習(xí)梯度優(yōu)化方法深度學(xué)習(xí)梯度優(yōu)化方法深度學(xué)習(xí)優(yōu)化方法深度學(xué)習(xí)優(yōu)化方法2/25深度學(xué)習(xí)的概念深度學(xué)習(xí)的概念3/25u什么是deep learning? 深度學(xué)習(xí):一種基于無監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法。 本質(zhì):通過構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。u含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。DL訓(xùn)練過程訓(xùn)練過程4/25u
2、深度學(xué)習(xí)的基本思想: 對于Deep Learning,需要自動地學(xué)習(xí)特征,假設(shè)有一堆輸入I,輸出是O,設(shè)計一個系統(tǒng)S(有n層),形象地表示為: I =S1=S2=.=Sn = O,通過調(diào)整系統(tǒng)中參數(shù),使得它的輸出仍然是輸入I,那么就可以自動地獲取得到輸入I的一系列層次特征,即S1,., Sn。u用自下而上的無監(jiān)督學(xué)習(xí) 1)逐層構(gòu)建單層神經(jīng)元。 2)每層采用wake-sleep算法進(jìn)行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào)整。5/25u第二步:自頂向下的監(jiān)督學(xué)習(xí) 這一步是在第一步學(xué)習(xí)獲得各層參數(shù)進(jìn)的基礎(chǔ)上,在最頂?shù)木幋a層添加一個分類器(如,SVM等),而后通過帶標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí),利用梯度下降法去微調(diào)整個
3、網(wǎng)絡(luò)參數(shù)。DL訓(xùn)練過程訓(xùn)練過程6/25u深度學(xué)習(xí)的具體模型及方法:u1、自動編碼器( AutoEncoder )u2、稀疏自動編碼器(Sparse AutoEncoder)u3、限制波爾茲曼機(jī)(Restricted Boltzmann Machine)u4、深信度網(wǎng)絡(luò)(Deep Belief Networks)u5、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)DL訓(xùn)練過程訓(xùn)練過程自動編碼器自動編碼器7/25u1、自動編碼器( AutoEncoder )通過調(diào)整encoder和decoder的參數(shù),使得重構(gòu)誤差最小,就得到了輸入input信號的第一個表示了,也就是編
4、碼code了。u因為是無標(biāo)簽數(shù)據(jù),所以誤差的來源就是直接重構(gòu)后與原輸入相比得到。稀疏自動編碼器稀疏自動編碼器8/25u如上圖,其實就是限制每次得到的表達(dá)code盡量稀疏。因為稀疏的表達(dá)往往比其他的表達(dá)要有效。u2、稀疏自動編碼器(Sparse AutoEncoder)AutoEncoder的基礎(chǔ)上加上L1的Regularity限制(L1主要是約束每一層中的節(jié)點中大部分都要為0,只有少數(shù)不為0),就可以得到Sparse AutoEncoder法。RBM9/25u3、限制波爾茲曼機(jī)(RBM) 定義:假設(shè)有一個二部圖,同層節(jié)點之間沒有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱藏層(h),如果假
5、設(shè)所有的節(jié)點都是隨機(jī)二值(0,1)變量節(jié)點,同時假設(shè)全概率分布p(v,h)滿足Boltzmann分布,稱這個模型是RBM。RBM10/25u給定隱層h的基礎(chǔ)上,可視層的概率確定:(可視層節(jié)點之間是條件獨立的)u給定可視層v的基礎(chǔ)上,隱層的概率確定:u給定一個滿足獨立同分布的樣本集:D=v(1), v(2), v(N),我們需要學(xué)習(xí)參數(shù)=W,a,b。 最大似然估計:對最大對數(shù)似然函數(shù)求導(dǎo),就可以得到L最大時對應(yīng)的參數(shù)W了。DBN11/25uDBNs由多個限制玻爾茲曼機(jī)(RBM)層組成,一個典型的神經(jīng)網(wǎng)絡(luò)類型如下圖所示。CNN12/25u5、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural
6、Networks)卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成。CNNs是第一個真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。核心思想:局部感受野、權(quán)值共享以及時間或空間子采樣這三種結(jié)構(gòu)思想結(jié)合起來獲得某種程度的位移、尺度、形變不變性。Loss Function一般形式一般形式13/25Loss Function一般形式一般形式14/25u回歸函數(shù)及目標(biāo)函數(shù)u以均方誤差作為目標(biāo)函數(shù)(損失函數(shù)),目的是使其值最小化,用于優(yōu)化上式。數(shù)學(xué)概念數(shù)學(xué)概念15/251、梯度(一階導(dǎo)數(shù))u某一點的梯度方向是在該點坡度最陡的方向,而梯度的大小告訴我們坡度到底有多陡;u對于一個
7、含有 n 個變量的標(biāo)量函數(shù),即函數(shù)輸入一個 n 維 的向量,輸出一個數(shù)值,梯度可以定義為:數(shù)學(xué)概念數(shù)學(xué)概念16/252、Hesse 矩陣(二階導(dǎo)數(shù))uHesse 矩陣常被應(yīng)用于牛頓法解決的大規(guī)模優(yōu)化問題,主要形式如下:u當(dāng) f(x) 是下列形式:其中 x為列向量,A 是 n 階對稱矩陣,b 是 n 維列向量, c 是常數(shù)。f(x) 梯度是 Ax+b, Hesse 矩陣等于 A。數(shù)學(xué)概念數(shù)學(xué)概念17/253、Jacobian 矩陣uJacobian 矩陣實際上是向量值函數(shù)的梯度矩陣,假設(shè)F:RnRm 是一個從n維歐氏空間轉(zhuǎn)換到m維歐氏空間的函數(shù)。這個函數(shù)由m個實函數(shù)組成: u這些函數(shù)的偏導(dǎo)數(shù)(如
8、果存在)可以組成一個m行n列的矩陣(m by n),這就是所謂的雅可比矩陣:優(yōu)化方法優(yōu)化方法18/251、Gradient DescentuGradient descent(steepest descent),也叫批量梯度下降法Batch Gradient Descent,BSD,利用一階的梯度信息找到函數(shù)局部最優(yōu)解的一種方法,主要迭代公式如下: 其中, 是第 k 次迭代我們選擇移動的方向, 是第 k 次迭代用 line search 方法選擇移動的距離,每次移動的距離系數(shù)可以相同,也可以不同,有時候我們也叫學(xué)習(xí)率(learning rate)。kkkkpxx1kpk優(yōu)化方法優(yōu)化方法19/25
9、1、Gradient Descentu該方法利用目標(biāo)函數(shù)的局部性質(zhì),得到局部最優(yōu)解,具有一定的“盲目性”,如果目標(biāo)函數(shù)是一個凸優(yōu)化問題,那么局部最優(yōu)解就是全局最優(yōu)解;u每一次迭代的移動方向都與出發(fā)點的等高線垂直,此外,鋸齒現(xiàn)象( zig-zagging)將會導(dǎo)致收斂速度變慢:優(yōu)化方法優(yōu)化方法20/252、Newtons methodu牛頓法則是利用局部的一階和二階偏導(dǎo)信息,推測整個目標(biāo)函數(shù)的形狀;u進(jìn)而可以求得出近似函數(shù)的全局最小值,然后將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值;u相比最速下降法,牛頓法帶有一定對全局的預(yù)測性,收斂性質(zhì)也更優(yōu)良。優(yōu)化方法優(yōu)化方法21/252、Newtons metho
10、du推導(dǎo)過程如下: u利用 Taylor 級數(shù)求得原目標(biāo)函數(shù)的二階近似:u把 x 看做自變量,所有帶有 xk 的項看做常量,令一階導(dǎo)數(shù)為 0 ,即可求近似函數(shù)的最小值:即:u 將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值(或者乘以步長)。優(yōu)化方法優(yōu)化方法22/252、Newtons methodu牛頓法主要存在的問題是:uHesse 矩陣不可逆時無法計算;u矩陣的逆計算復(fù)雜為 n 的立方,當(dāng)問題規(guī)模比較大時,計算量很大;u解決的辦法是采用擬牛頓法如 BFGS, L-BFGS, DFP, Broydens Algorithm 進(jìn)行近似;u如果初始值離局部極小值太遠(yuǎn),Taylor 展開并不能對原函數(shù)進(jìn)行良好
11、的近似。優(yōu)化方法優(yōu)化方法23/252、Newtons methodu在牛頓法的迭代中,需要計算海賽矩陣的逆矩陣H-1這一計算比較復(fù)雜,考慮用一個n階矩陣來近似代替H-1,這就是擬牛頓法的基本思路。uDFP(Davidon-Fletcher-Powell)使用一個n階矩陣Gk+1來近似H-1uBFGS(Broyden-Fletcher-Goldfarb-Shanno)使用一個n階矩陣Bk來逼近HuL-BFGS(Limited -BFGS ):由于上述兩種擬牛頓法都要保存一個n階矩陣,對于內(nèi)存消耗非常大,因此在此基礎(chǔ)上提出了一種節(jié)約內(nèi)存的方法L-BFGS。優(yōu)化方法優(yōu)化方法24/253、Conjug
12、ate Gradientsu共軛梯度法是介于最速下降法與牛頓法之間的一個方法;u它僅需利用一階導(dǎo)數(shù)信息,u但克服了最速下降法收斂慢的缺點;u避免牛頓法需要存儲和計算Hesse矩陣并求逆的缺點.u共軛梯度法不僅是解決大型線性方程組最有用的方法之一,也是解大型非線性最優(yōu)化最有效的算法之一。u與最速梯度下降的不同,共軛梯度的優(yōu)點主要體現(xiàn)在選擇搜索方向上:優(yōu)化方法優(yōu)化方法25/253、Conjugate Gradientsu共軛方向:u如上圖,d(1) 方向與二次函數(shù)的等值線相切, d(1) 的共軛方向 d(2) 則指向橢圓的中心。對于二維二次函數(shù),若在兩個共軛方向上進(jìn)行一維搜索,經(jīng)過兩次迭代必然達(dá)到
13、最小點。優(yōu)化方法優(yōu)化方法26/253、Conjugate Gradientsu確定了移動方向(GD:垂直于等值線,CG:共軛方向),并在該方向上搜索極小值點(恰好與該處的等值線相切),然后移動到最小值點,重復(fù)以上過程,過程如下圖:優(yōu)化方法優(yōu)化方法27/254、隨機(jī)梯度下降算法(SGD)優(yōu)化方法優(yōu)化方法28/254、隨機(jī)梯度下降算法(SGD)uSGD是最速梯度下降法的變種,每次只使用一個樣本,迭代一次計算量為n2,當(dāng)m很大的時候,隨機(jī)梯度下降迭代一次的速度要遠(yuǎn)高于梯度下降:u梯度下降需要把m個樣本全部帶入計算,迭代一次計算量為m*n2優(yōu)化方法優(yōu)化方法29/255、 Mini-batch Grad
14、ient Descentu介于BSD和SGD之間的一種優(yōu)化算法,每次選取一定量的訓(xùn)練樣本進(jìn)行迭代;u速度比BSD快,比SGD慢;精度比BSD低,比SGD高。u選擇n個訓(xùn)練樣本(nm,m為總訓(xùn)練集樣本數(shù))u在這n個樣本中進(jìn)行n次迭代,每次使用1個樣本u對n次迭代得出的n個gradient進(jìn)行加權(quán)平均再并求和,作為這一次mini-batch下降梯度;u不斷在訓(xùn)練集中重復(fù)以上步驟,直到收斂。優(yōu)化方法優(yōu)化方法30/255、 Mini-batch Gradient Descentu其思想是:SGD就是每一次迭代計算mini-batch的梯度,然后對參數(shù)進(jìn)行更新;u其中,是學(xué)習(xí)率, 是梯度,SGD完全依賴
15、于當(dāng)前batch的梯度,可理解為允許當(dāng)前batch的梯度多大程度影響參數(shù)更新。tg優(yōu)化方法優(yōu)化方法31/255、 Mini-batch Gradient Descentu面臨的挑戰(zhàn):ulearning rate選取比較困難u對于稀疏數(shù)據(jù)或者特征,有時我們可能想更新快一些;u對于常出現(xiàn)的特征更新慢一些,這時候SGD就不太能滿足要求了;uSGD容易收斂到局部最優(yōu),并且在某些情況下可能被困在鞍點優(yōu)化方法優(yōu)化方法-Momentum32/25umomentum是模擬物理里動量的概念,積累之前的動量來替代真正的梯度:其中, 是動量因子。優(yōu)化方法優(yōu)化方法-Momentum33/25SGD without m
16、omentumSGD with momentum優(yōu)化方法優(yōu)化方法-Momentum34/25u特點:u下降初期時,使用上一次參數(shù)更新,下降方向一致,乘上較大的 能夠進(jìn)行很好的加速;u下降中后期時,在局部最小值來回震蕩的時候, , 使得更新幅度增大,跳出陷阱;u在梯度改變方向的時候, 能夠減少更新;u總之,momentum項能夠在相關(guān)方向加速SGD,抑制振蕩,從而加快收斂。優(yōu)化方法優(yōu)化方法-Nesterov35/25unesterov項在梯度更新時做一個校正,避免前進(jìn)太快,同時提高靈敏度:u 并沒有直接改變當(dāng)前梯度 ,所以Nesterov的改進(jìn)就是讓之前的動量直接影響當(dāng)前的梯度。即:u 因此,加
17、上nesterov項后,梯度在大的跳躍后,進(jìn)行計算對當(dāng)前梯度進(jìn)行校正。 優(yōu)化方法優(yōu)化方法-Nesterov36/25umomentum首先計算一個梯度(短的藍(lán)色向量),然后在加速更新梯度的方向進(jìn)行一個大的跳躍(長的藍(lán)色向量),nesterov項首先在之前加速的梯度方向進(jìn)行一個大的跳躍(棕色向量),計算梯度然后進(jìn)行校正(綠色梯向量):u momentum項和nesterov項都是為了使梯度更新更加靈活,對不同情況有針對性。優(yōu)化方法優(yōu)化方法-Adagrad37/25uAdagrad其實是對學(xué)習(xí)率進(jìn)行了一個約束,即:u 對 從1到 進(jìn)行一個遞推形成一個約束項regularizer優(yōu)化方法優(yōu)化方法-A
18、dagrad38/25u特點:特點:u前期 較小時候,regularizer較大,能夠放大梯度 ;u后期 較大的時候,regularizer較小,能夠約束梯度; u適合處理稀疏梯度。 u缺點:缺點:u仍依賴于人工設(shè)置一個全局學(xué)習(xí)率; u 設(shè)置過大的話,會使regularizer過于敏感,對梯度的調(diào)節(jié)太大; u中后期,分母上梯度平方的累加將會越來越大,使 ,訓(xùn)練提前結(jié)束。優(yōu)化方法優(yōu)化方法-Adadelta39/25uAdadelta是對Adagrad的擴(kuò)展, Adagrad會累加之前所有的梯度平方,而Adadelta只累加固定大小的項,并且也不直接存儲這些項,僅僅是近似計算對應(yīng)的平均值。即: u
19、其實Adadelta還是依賴于全局學(xué)習(xí)率的,但作者做了一定處理,經(jīng)過近似牛頓迭代法之后: 此時Adadelta已經(jīng)不用依賴于全局學(xué)習(xí)率了優(yōu)化方法優(yōu)化方法-Adadelta40/25u特點:特點: u訓(xùn)練初中期,加速效果不錯,很快;u訓(xùn)練后期,反復(fù)在局部最小值附近抖動。優(yōu)化方法優(yōu)化方法-RMSprop41/25uRMSprop可以算作Adadelta的一個特例:u當(dāng) 時, 就變?yōu)榱饲筇荻绕椒胶偷钠骄鶖?shù);u如果再求根的話,就變成了RMS(均方根):u此時,這個RMS就可以作為學(xué)習(xí)率的一個約束:優(yōu)化方法優(yōu)化方法-RMSprop42/25uRMSprop:u其實RMSprop依然依賴于全局學(xué)習(xí)率;uR
20、MSprop算是Adagrad的一種發(fā)展,和Adadelta的變體,效果趨于二者之間;u適合處理非平穩(wěn)目標(biāo) - 對于RNN效果很好。優(yōu)化方法優(yōu)化方法-Adam43/25uAdam(Adaptive Moment Estimation)本質(zhì)上是帶有動量項的RMSprop,u它利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學(xué)習(xí)率;uAdam的優(yōu)點主要在于經(jīng)過偏置校正后,每一次迭代學(xué)習(xí)率都有個確定范圍,使得參數(shù)比較平穩(wěn)。優(yōu)化方法優(yōu)化方法-Adam44/25u公式如下:其中, 、 分別是對梯度的一階矩估計和二階矩估計,可以看作對期望 、 的估計; 、 是對 、 的校正,這樣可以近似為對期望的無偏估
21、計。 u 對學(xué)習(xí)率形成一個動態(tài)約束,而且有明確的范圍。優(yōu)化方法優(yōu)化方法-Adam45/25u特點:u結(jié)合了Adagrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標(biāo)的優(yōu)點;u對內(nèi)存需求較??;u為不同的參數(shù)計算不同的自適應(yīng)學(xué)習(xí)率;u也適用于大多非凸優(yōu)化 - 適用于大數(shù)據(jù)集和高維空間優(yōu)化方法優(yōu)化方法-Adamax46/25uAdamax是Adam的一種變體,此方法對學(xué)習(xí)率的上限提供了一個更簡單的范圍:u可以看出,Adamax學(xué)習(xí)率的邊界范圍更簡單優(yōu)化方法優(yōu)化方法-Nadam47/25uNadam類似于帶有Nesterov動量項的Adam :優(yōu)化方法優(yōu)化方法-Nadam48/25u可以看出,Nadam對學(xué)習(xí)率有了更強(qiáng)的約束,同時對梯度的更新也有更直接的影響;u一般而言,在想使用帶動量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。優(yōu)化方法優(yōu)化方法-Visualization of algorithms49/25優(yōu)化方法優(yōu)化方法-Visualization of algorithms50/25Adagrad, Adadelta, RMSprop, 和 Adam效果明顯優(yōu)化方法優(yōu)化方法-建議建議51/25u對于稀疏數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藝術(shù)品展覽租賃承包合同
- 2024年版:建筑工程施工分包協(xié)議書模板
- 醫(yī)療衛(wèi)生經(jīng)費管理規(guī)范
- 品牌故事講述櫥窗施工合同
- 2024年度電商企業(yè)文化建設(shè)與推廣合同6篇
- 珠寶加工工廠房屋租賃合同
- 教育培訓(xùn)機(jī)構(gòu)土地租賃協(xié)議
- 設(shè)備典當(dāng)合同樣本
- 醫(yī)療服務(wù)科醫(yī)生勞動合同
- 食品安全監(jiān)管投標(biāo)管理辦法
- 排水戶排水水質(zhì)、排水量排放承諾書
- 橋梁伸縮縫施工及質(zhì)量保證要點
- 醫(yī)療垃圾收集辦法及流程圖
- 復(fù)古中古風(fēng)非遺之蘇繡文化介紹PPT模板
- 手衛(wèi)生流程圖
- 小說情節(jié)的作用(課堂PPT)
- 介紹蘭州英文
- 建筑物放線驗線技術(shù)報告
- 壓縮固結(jié)試驗
- 人教部編版小學(xué)道德與法治《父母多愛我》教案 教學(xué)設(shè)計
- 屏式過熱器、高溫過熱器和高溫再熱器安裝作業(yè)指導(dǎo)書
評論
0/150
提交評論