2025神經網(wǎng)絡與深度學習網(wǎng)絡優(yōu)化與正則化_第1頁
2025神經網(wǎng)絡與深度學習網(wǎng)絡優(yōu)化與正則化_第2頁
2025神經網(wǎng)絡與深度學習網(wǎng)絡優(yōu)化與正則化_第3頁
2025神經網(wǎng)絡與深度學習網(wǎng)絡優(yōu)化與正則化_第4頁
2025神經網(wǎng)絡與深度學習網(wǎng)絡優(yōu)化與正則化_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

網(wǎng)絡優(yōu)化與正則化《神經網(wǎng)絡與深度學習》2025機器學習的矛與盾正則化優(yōu)化降低模型復雜度經驗風險最小深度學習網(wǎng)絡優(yōu)化網(wǎng)絡優(yōu)化的難點結構差異大沒有通用的優(yōu)化算法超參數(shù)多非凸優(yōu)化問題參數(shù)初始化逃離局部最優(yōu)梯度消失(爆炸)問題鞍點(SaddlePoint)駐點(StationaryPoint):梯度為0的點。平坦最小值(FlatMinima)一個平坦最小值的鄰域內,所有點對應的訓練損失都比較接近大部分的局部最小解是等價的局部最小解對應的訓練損失都可能非常接近于全局最小解對應的訓練損失高維空間的非凸優(yōu)化問題VISUALIZINGTHELOSSLANDSCAPEOFNNwithoutskipconnectionswithskipconnectionsLiH,XuZ,TaylorG,etal.Visualizingthelosslandscapeofneuralnets[C]//AdvancesinNeuralInformationProcessingSystems.2018:6389-6399.神經網(wǎng)絡優(yōu)化的改善方法更有效的優(yōu)化算法來提高優(yōu)化方法的效率和穩(wěn)定性動態(tài)學習率調整梯度估計修正更好的參數(shù)初始化方法、數(shù)據(jù)預處理方法來提高優(yōu)化效率修改網(wǎng)絡結構來得到更好的優(yōu)化地形優(yōu)化地形(OptimizationLandscape)指在高維空間中損失函數(shù)的曲面形狀好的優(yōu)化地形通常比較平滑使用ReLU激活函數(shù)、殘差連接、逐層歸一化等使用更好的超參數(shù)優(yōu)化方法優(yōu)化算法改進優(yōu)化算法:隨機梯度下降優(yōu)化算法:小批量隨機梯度下降MiniBatch

幾個關鍵因素:小批量樣本數(shù)量梯度學習率批量大小的影響批量大小不影響隨機梯度的期望,但是會影響隨機梯度的方差.批量越大,隨機梯度的方差越小,引入的噪聲也越小,訓練也越穩(wěn)定,因此可以設置較大的學習率.而批量較小時,需要設置較小的學習率,否則模型會不收斂.小批量梯度下降中,每次選取樣本數(shù)量對損失下降的影響。4種批量大小對應的學習率設置不同,因此并不是嚴格對比.如何改進?標準的(小批量)梯度下降學習率學習率衰減AdagradAdadeltaRMSprop梯度Momentum計算負梯度的“加權移動平均”作為參數(shù)的更新方向Nesterovacceleratedgradient梯度截斷Reference:AnoverviewofgradientdescentoptimizationalgorithmsOptimizingtheGradientDescentAdamisbetterchoice!Adam梯度方向實際更新方向學習率的影響https://www.jeremyjordan.me/nn-learning-rate/學習率衰減

學習率衰減梯級衰減(stepdecay)線性衰減(LinearDecay)學習率衰減周期性學習率調整CyclicalLearningRatesCyclicalLearningRatesOthersDon'tDecaytheLearningRate,

IncreasetheBatchSize/pdf?id=B1Yy1BxCZAccurate,LargeMinibatchSGD:TrainingImageNetin1HourWarmup/abs/1706.02677自適應學習率AdagradRMSpropAdadelta梯度方向優(yōu)化動量法(MomentumMethod)用之前積累動量來替代真正的梯度。每次迭代的梯度可以看作是加速度。/What-exactly-is-momentum-in-machine-learning梯度方向優(yōu)化Nesterov加速梯度梯度方向優(yōu)化+自適應學習率Adam算法≈動量法+RMSprop先計算兩個移動平均偏差修正更新優(yōu)化鞍點梯度截斷梯度截斷是一種比較簡單的啟發(fā)式方法,把梯度的模限定在一個區(qū)間,當梯度的模小于或大于這個區(qū)間時就進行截斷。按值截斷按模截斷大部分優(yōu)化算法可以使用下面公式來統(tǒng)一描述概括:優(yōu)化算法改進小結gt為第t步的梯度αt為第t步的學習率參數(shù)初始化/數(shù)據(jù)預處理參數(shù)初始化參數(shù)不能初始化為0!為什么?對稱權重問題!初始化方法預訓練初始化隨機初始化固定值初始化偏置(Bias)通常用0來初始化隨機初始化Gaussian分布初始化

Gaussian初始化方法是最簡單的初始化方法,參數(shù)從一個固定均值(比如0)和固定方差(比如0.01)的Gaussian分布進行隨機初始化。均勻分布初始化參數(shù)可以在區(qū)間[?r,r]內采用均勻分布進行初始化。隨機初始化范數(shù)保持性(Norm-Preserving)一個??層的等寬線性網(wǎng)絡為了避免梯度消失或梯度爆炸問題,我們希望誤差項基于方差縮放的參數(shù)初始化正交初始化參數(shù)初始化基于方差縮放的參數(shù)初始化Xavier初始化和He初始化正交初始化1)用均值為0、方差為1的高斯分布初始化一個矩陣;2)將這個矩陣用奇異值分解得到兩個正交矩陣,并使用其中之一作為權重矩陣。數(shù)據(jù)歸一化最小最大值歸一化標準化PCA數(shù)據(jù)歸一化對梯度的影響數(shù)據(jù)預處理逐層歸一化逐層歸一化目的更好的尺度不變性內部協(xié)變量偏移更平滑的優(yōu)化地形歸一化方法批量歸一化(BatchNormalization,BN)層歸一化(LayerNormalization)權重歸一化(WeightNormalization)局部響應歸一化(LocalResponseNormalization,LRN)批量歸一化給定一個包含K個樣本的小批量樣本集合,計算均值和方差批量歸一化層歸一化

批量歸一化VS層歸一化更多的歸一化超參數(shù)優(yōu)化超參數(shù)層數(shù)每層神經元個數(shù)激活函數(shù)學習率(以及動態(tài)調整算法)正則化系數(shù)mini-batch大小優(yōu)化方法網(wǎng)格搜索隨機搜索貝葉斯優(yōu)化動態(tài)資源分配神經架構搜索超參數(shù)優(yōu)化超參數(shù)優(yōu)化

α∈{0.01,0.1,0.5,1.0}超參數(shù)優(yōu)化超參數(shù)優(yōu)化貝葉斯優(yōu)化動態(tài)資源分配神經架構搜索網(wǎng)絡正則化神經網(wǎng)絡過度參數(shù)化擬合能力強重新思考泛化性泛化性差ZhangC,BengioS,HardtM,etal.Understandingdeeplearningrequiresrethinkinggeneralization[J].arXivpreprintarXiv:1611.03530,2016.正則化(regularization)L1/L2約束、數(shù)據(jù)增強權重衰減、隨機梯度下降、提前停止所有損害優(yōu)化的方法都是正則化。增加優(yōu)化約束干擾優(yōu)化過程正則化

神經網(wǎng)絡示例隱藏層的不同神經元個數(shù)/神經網(wǎng)絡示例不同的正則化系數(shù)提前停止我們使用一個驗證集(ValidationDataset)來測試每一次迭代的參數(shù)在驗證集上是否最優(yōu)。如果在驗證集上的錯誤率不再下降,就停止迭代。權重衰減(WeightDecay)

丟棄法(DropoutMethod)

Dropout意義集成學習的解釋每做一次丟棄,相當于從原始的網(wǎng)絡中采樣得到一個子網(wǎng)絡。如果一個神經網(wǎng)絡有n個神經元,那么總共可以采樣出2n個子網(wǎng)絡。貝葉斯學習的解釋其中f(x,θm)為第m次應用丟棄方法后的網(wǎng)絡。當在循環(huán)神經網(wǎng)絡上應用丟棄法,不能直接對每個時刻的隱狀態(tài)進行隨機丟棄,這樣會損害循環(huán)網(wǎng)絡在時間維度上記憶能力。變分Dropout根據(jù)貝葉斯學習的解釋,丟棄法是一種對參數(shù)θ的采樣。每次采樣的參數(shù)需要在每個時刻保持不變。因此,在對循環(huán)神經網(wǎng)絡上使用丟棄法時,需要對參數(shù)矩陣的每個元素進行隨機丟棄,并在所有時刻都使用相同的丟棄掩碼。循環(huán)神經網(wǎng)絡上的丟棄法虛線邊表示進行隨機丟棄,不同的顏色表示不同的丟棄掩碼。相同顏色表示使用相同的丟棄掩碼數(shù)據(jù)增強(DataAugmentation)圖像數(shù)據(jù)的增強主要是通過算法對圖像進行轉變,引入噪聲等方法來增加數(shù)據(jù)的多樣性。圖像數(shù)據(jù)的增強方法:旋轉(Rotation):將圖像按順時針或逆時針方向隨機旋轉一定角度;翻轉(Flip):將圖像沿水平或垂直方法隨機翻轉一定角度;縮放(ZoomIn/Out):將圖像放大或縮小一定比例;平移(Shift):將圖像沿水平或垂直方法平移一定步長;加噪聲(Noise):加入隨機噪聲。標簽平滑(LabelSmoothing)在輸出標簽中添加噪聲來避免模型過擬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論