智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)_第1頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)_第2頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)_第3頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)_第4頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩94頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

智能計(jì)算系統(tǒng)

第二章深度學(xué)習(xí)基礎(chǔ)中國(guó)科學(xué)院軟件研究所李玲研究員liling@DrivingExample輸入輸出建模實(shí)現(xiàn)運(yùn)行深度學(xué)習(xí)基礎(chǔ)深度學(xué)習(xí)應(yīng)用第二章將學(xué)習(xí)到搭建一個(gè)神經(jīng)網(wǎng)絡(luò)需要的基本知識(shí),為深入理解深度學(xué)習(xí)應(yīng)用打下基礎(chǔ)2提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)3包含關(guān)系人工智能機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)1深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)人工智能4機(jī)器學(xué)習(xí)相關(guān)概念訓(xùn)練數(shù)據(jù)機(jī)器學(xué)習(xí)方法新數(shù)據(jù)模型函數(shù)預(yù)測(cè)值典型機(jī)器學(xué)習(xí)過(guò)程機(jī)器學(xué)習(xí)是對(duì)能通過(guò)經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究(Mitchell)機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此提升計(jì)算機(jī)程序的能力(Alpaydin)機(jī)器學(xué)習(xí)是研究如何通過(guò)計(jì)算的手段、利用經(jīng)驗(yàn)來(lái)改善系統(tǒng)自身性能的一門(mén)學(xué)科(周志華)5符號(hào)說(shuō)明

6如何學(xué)習(xí)?如何理解?如何學(xué)會(huì)?從最簡(jiǎn)單的線性回歸模型開(kāi)始,直至搭建出一個(gè)完整的神經(jīng)網(wǎng)絡(luò)架構(gòu)7線性回歸

設(shè)計(jì)一個(gè)回歸程序進(jìn)行預(yù)測(cè)8

9單變量線性回歸模型(一元回歸模型)線性回歸可以找到一些點(diǎn)的集合背后的規(guī)律:一個(gè)點(diǎn)集可以用一條直線來(lái)擬合,這條擬合出來(lái)的直線的參數(shù)特征,就是線性回歸找到的點(diǎn)集背后的規(guī)律。

單變量線性模型

10多變量線性回歸模型

單變量線性模型多變量線性模型2個(gè)特征n個(gè)特征

11線性函數(shù)擬合得好不好?

通過(guò)求最大似然函數(shù),得到預(yù)測(cè)值與真實(shí)值之間誤差盡量小的目標(biāo)函數(shù)

損失函數(shù)

12似然函數(shù)

13提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)14生物神經(jīng)元15生物學(xué)領(lǐng)域,一個(gè)生物神經(jīng)元有多個(gè)樹(shù)突(dendrite,接受傳入信息);有一條軸突(axon),軸突尾端有許多軸突末梢(給其他多個(gè)神經(jīng)元傳遞信息)。軸突末梢跟其它生物神經(jīng)元的樹(shù)突產(chǎn)生連接的位置叫做“突觸”(synapse)。多層感知機(jī)即為一種全連接的神經(jīng)網(wǎng)絡(luò)模型上一個(gè)神經(jīng)元下一個(gè)神經(jīng)元人工神經(jīng)元16機(jī)器學(xué)習(xí)領(lǐng)域,人工神經(jīng)元是一個(gè)包含輸入,輸出與計(jì)算功能的模型。不嚴(yán)格地說(shuō),其輸入可類(lèi)比為生物神經(jīng)元的樹(shù)突,其輸出可類(lèi)比為神經(jīng)元的軸突,其計(jì)算可類(lèi)比為細(xì)胞體。生物神經(jīng)元:人工神經(jīng)元=老鼠:米老鼠一個(gè)神經(jīng)元的單層感知機(jī)第一代,單層感知機(jī)x1x2Σw2

=-5z=w1x1+w2x2+b

w1

=5b

=

11-1111-11-9-1x2zx1

17感知機(jī)(Perceptron)模型

尋找損失函數(shù),并將損失函數(shù)最小化18

尋找損失函數(shù)策略:假設(shè)誤分類(lèi)的點(diǎn)為數(shù)據(jù)集M,使用誤分類(lèi)點(diǎn)到超平面的總距離來(lái)尋找損失函數(shù)(直觀來(lái)看,總距離越小越好)

19

尋找損失函數(shù)

數(shù)據(jù)集中誤分類(lèi)點(diǎn)滿(mǎn)足條件:

所有誤分類(lèi)點(diǎn)到超平面S的總距離為

由此尋找到感知機(jī)的損失函數(shù)20感知機(jī)算法

損失函數(shù)

21損失函數(shù)極小化的最優(yōu)化問(wèn)題可使用:隨機(jī)梯度下降法

22兩層神經(jīng)網(wǎng)絡(luò)-多層感知機(jī)將大量的神經(jīng)元模型進(jìn)行組合,用不同的方法進(jìn)行連接并作用在不同的激活函數(shù)上,就構(gòu)成了人工神經(jīng)網(wǎng)絡(luò)模型全連接的兩層神經(jīng)網(wǎng)絡(luò)模型也稱(chēng)為多層感知機(jī)(MLP)輸入

隱層

輸出層

23

輸入

24

輸入

隱層

激活函數(shù)25

輸入

隱層

輸出層

激活函數(shù)26

偏置節(jié)點(diǎn)輸入

隱層

輸出層

27+1+1淺層神經(jīng)網(wǎng)絡(luò)特點(diǎn)需要數(shù)據(jù)量小、訓(xùn)練快,其局限性在于對(duì)復(fù)雜函數(shù)的表示能力有限,針對(duì)復(fù)雜分類(lèi)問(wèn)題其泛化能力受到制約WhyNotGoDeeper?KurtHornik證明了理論上兩層神經(jīng)網(wǎng)絡(luò)足以擬合任意函數(shù)過(guò)去也沒(méi)有足夠的數(shù)據(jù)和計(jì)算能力28深度學(xué)習(xí)(深層神經(jīng)網(wǎng)絡(luò))2006年,Hinton在Science發(fā)表了論文(Reducingthedimensionalityofdatawithneuralnetworks.Science,Vol.313.no.5786),給多層神經(jīng)網(wǎng)絡(luò)相關(guān)的學(xué)習(xí)方法賦予了一個(gè)新名詞--“深度學(xué)習(xí)”。他和LeCun以及Bengio三人被稱(chēng)為深度學(xué)習(xí)三位開(kāi)創(chuàng)者GeofferyHinton

29深度神經(jīng)網(wǎng)絡(luò)不斷發(fā)展不僅依賴(lài)于自身的結(jié)構(gòu)優(yōu)勢(shì),也依賴(lài)于如下一些外在因素Algorithm:算法日新月異,優(yōu)化算法層出不窮(學(xué)習(xí)算法->BP算法->Pre-training,Dropout等方法)Bigdata:數(shù)據(jù)量不斷增大(10->10k->100M)Computing:處理器計(jì)算能力的不算提升(晶體管->CPU->集群/GPU->智能處理器)深度神經(jīng)網(wǎng)絡(luò)的成功:ABC30多層神經(jīng)網(wǎng)絡(luò)

推導(dǎo)公式31

輸入隱層1輸出層隱層2

正向傳播

權(quán)重輸入輸入權(quán)重

32需8+9+12=29個(gè)參數(shù)

輸入隱層1輸出層隱層2

第一層參數(shù)2x3+2第二層參數(shù)3x2+3第三層參數(shù)3x3+333多層神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)的層數(shù)增加,每一層對(duì)于前一層次的抽象表示更深入,每一層神經(jīng)元學(xué)習(xí)到的是前一層神經(jīng)元更抽象的表示“邊緣”特征“形狀”特征“圖案”特征“目標(biāo)”特征第一個(gè)隱層第二個(gè)隱層第三個(gè)隱層第四個(gè)隱層通過(guò)抽取更抽象的特征來(lái)對(duì)事物進(jìn)行區(qū)分,從而獲得更好的區(qū)分與分類(lèi)能力34多層神經(jīng)網(wǎng)絡(luò)從單層神經(jīng)網(wǎng)絡(luò),到兩層神經(jīng)網(wǎng)絡(luò),再到多層神經(jīng)網(wǎng)絡(luò),隨著網(wǎng)絡(luò)層數(shù)的增加,以及激活函數(shù)的調(diào)整,神經(jīng)網(wǎng)絡(luò)擬合非線性分界不斷增強(qiáng)35多層神經(jīng)網(wǎng)絡(luò)sign36深度學(xué)習(xí)發(fā)展歷程1943MP神經(jīng)元數(shù)學(xué)模型1958感知機(jī)模型1969Minsky指出單層感知機(jī)不能解決XOR問(wèn)題1986反向傳播算法1998卷積神經(jīng)網(wǎng)絡(luò)LeNet2006深度置信網(wǎng)絡(luò)2012AlexNet2014VGGGoogLeNet2015ResNet2017Transformer2018GPTBERT2020GPT-32022ChatGPT第一階段第二階段淺層學(xué)習(xí)浪潮第三階段深度學(xué)習(xí)浪潮2024Claude3.02023GPT-437提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)38神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練

39神經(jīng)網(wǎng)絡(luò)訓(xùn)練正向傳播是根據(jù)輸入,經(jīng)過(guò)權(quán)重、激活函數(shù)計(jì)算出隱層,將輸入的特征向量從低級(jí)特征逐步提取為抽象特征,直到得到最終輸出結(jié)果的過(guò)程反向傳播是根據(jù)正向傳播的輸出結(jié)果和期望值計(jì)算出損失函數(shù),再通過(guò)鏈?zhǔn)角髮?dǎo),最終從網(wǎng)絡(luò)后端逐步修改權(quán)重使輸出和期望值的差距變到最小的過(guò)程

反向更新權(quán)值

40

輸入隱層輸出層41

+1+1

使用sigmoid函數(shù)作為激活函數(shù)

正向傳輸:輸入到隱層

42

+1+1

輸入隱層輸出層示例

43

初始化權(quán)重值

44輸入到隱層計(jì)算

45隱層到輸出層計(jì)算

46

計(jì)算值與真實(shí)值之間還有很大的差距,如何縮小計(jì)算值與真實(shí)值之間的誤差?通過(guò)反向傳播進(jìn)行反饋,調(diào)節(jié)權(quán)重值計(jì)算誤差

模型計(jì)算輸出期望輸出47鏈?zhǔn)椒▌t48反向傳播

49

根據(jù)偏導(dǎo)數(shù)的鏈?zhǔn)椒▌t推導(dǎo)

50

51根據(jù)偏導(dǎo)數(shù)的鏈?zhǔn)椒▌t推導(dǎo)

初始值

52反向傳播的作用是將神經(jīng)網(wǎng)絡(luò)的輸出誤差反向傳播到神經(jīng)網(wǎng)絡(luò)的輸入端,并以此來(lái)更新神經(jīng)網(wǎng)絡(luò)中各個(gè)連接的權(quán)重當(dāng)?shù)谝淮畏聪騻鞑シㄍ瓿珊?,網(wǎng)絡(luò)的模型參數(shù)得到更新,網(wǎng)絡(luò)進(jìn)行下一輪的正向傳播過(guò)程,如此反復(fù)的迭代進(jìn)行訓(xùn)練,從而不斷縮小計(jì)算值與真實(shí)值之間的誤差53提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)54訓(xùn)練完了結(jié)果就是不準(zhǔn),怎么辦?神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練調(diào)整網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)選擇合適的激活函數(shù)選擇合適的損失函數(shù)55神經(jīng)網(wǎng)絡(luò)的拓?fù)湔{(diào)節(jié)輸入:神經(jīng)元個(gè)數(shù)=特征維度輸出層:神經(jīng)元個(gè)數(shù)=分類(lèi)類(lèi)別數(shù)隱層:

隱層的數(shù)量?隱層神經(jīng)元的個(gè)數(shù)?神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)一般為:輸入×隱層×輸出層給定訓(xùn)練樣本后,輸入和輸出層節(jié)點(diǎn)數(shù)便已確定56隱層的設(shè)計(jì)隱層節(jié)點(diǎn)的作用是提取輸入特征中的隱藏規(guī)律,每個(gè)節(jié)點(diǎn)都賦予一定權(quán)重隱層節(jié)點(diǎn)數(shù)太少,則網(wǎng)絡(luò)從樣本中獲取信息的能力就越差,無(wú)法反映數(shù)據(jù)集的規(guī)律;隱層節(jié)點(diǎn)數(shù)太多,則網(wǎng)絡(luò)的擬合能力過(guò)強(qiáng),可能擬合數(shù)據(jù)集中的噪聲部分,導(dǎo)致模型泛化能力變差57選擇合適的激活函數(shù)

58

sigmoid函數(shù)

非0均值的輸出計(jì)算機(jī)進(jìn)行指數(shù)運(yùn)算速度慢飽和性問(wèn)題及梯度消失現(xiàn)象Sigmoid是最常見(jiàn)的非線性激活函數(shù)能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出;如果是非常小的負(fù)數(shù),那么輸出就變?yōu)?;如果是非常大的正數(shù),輸出就變?yōu)?數(shù)學(xué)表達(dá)式幾何圖像59tanh函數(shù)與sigmoid相比,tanh是0均值的

在輸入很大或是很小的時(shí)候,輸出幾乎平滑,梯度很小,不利于權(quán)重更新Sigmoid函數(shù)存在神經(jīng)元會(huì)產(chǎn)生非0均值的輸出的問(wèn)題尋找解決辦法60ReLU函數(shù)

ReLU能夠在x>0時(shí)保持梯度不衰減,從而緩解梯度消失問(wèn)題ReLU死掉。如果學(xué)習(xí)率很大,反向傳播后的參數(shù)可能為負(fù)數(shù),導(dǎo)致下一輪正向傳播的輸入為負(fù)數(shù)。當(dāng)輸入是負(fù)數(shù)的時(shí)候,ReLU是完全不被激活的,這就表明一旦輸入到了負(fù)數(shù),ReLU就會(huì)死掉輸出范圍是無(wú)限的tanh函數(shù)雖然解決了sigmoid函數(shù)存在非0均值輸出的問(wèn)題,但仍然沒(méi)改變梯度消失問(wèn)題尋找解決辦法61PReLU/LeakyReLU函數(shù)

負(fù)數(shù)區(qū)域內(nèi),LeakyReLU有一個(gè)很小的斜率,可以避免ReLU死掉的問(wèn)題出現(xiàn)了ReLU的改進(jìn)版本:LeakyReLUReLU在x<0時(shí),ReLU完全不被激活改進(jìn)

62ELU函數(shù)(ExponentialLinearUnit)

α是可調(diào)參數(shù),控制著ELU在負(fù)值區(qū)間的飽和位置ELU的輸出均值接近于零,所以收斂速度更快右側(cè)線性部分使得ELU能夠緩解梯度消失,而左側(cè)軟飽能夠讓ELU對(duì)輸入變化或噪聲更魯棒,避免神經(jīng)元死掉融合sigmoid和ReLUELU:63選擇恰當(dāng)?shù)膿p失函數(shù)

64常用損失函數(shù)均方差損失函數(shù)是神經(jīng)網(wǎng)絡(luò)優(yōu)化常用的損失函數(shù)

均方差損失函數(shù)以一個(gè)神經(jīng)元的均方差損失函數(shù)為例

65引入交叉熵?fù)p失函數(shù)交叉熵?fù)p失+Sigmoid激活函數(shù)可以解決參數(shù)更新緩慢的問(wèn)題。均方差損失函數(shù)+Sigmoid激活函數(shù)出現(xiàn)問(wèn)題—>如何解決?66交叉熵?fù)p失函數(shù)能夠有效克服使用sigmoid函數(shù)時(shí),均方差損失函數(shù)出現(xiàn)的參數(shù)更新慢的問(wèn)題交叉熵?fù)p失函數(shù):以二分類(lèi)為例,交叉熵?fù)p失函數(shù)為:

交叉熵?fù)p失函數(shù)

67以二分類(lèi)為例,則使用Sigmoid激活函數(shù)時(shí)的交叉熵?fù)p失函數(shù)為

同理得:

68神經(jīng)網(wǎng)絡(luò)中損失函數(shù)的特性同一個(gè)算法的損失函數(shù)不是唯一的損失函數(shù)是參數(shù)(w,b)的函數(shù)損失函數(shù)可以評(píng)價(jià)網(wǎng)絡(luò)模型的好壞,損失函數(shù)越小說(shuō)明模型和參數(shù)越符合訓(xùn)練樣本(x,y)損失函數(shù)是一個(gè)標(biāo)量選擇損失函數(shù)時(shí),挑選對(duì)參數(shù)(w,b)可微的函數(shù)(全微分存在,偏導(dǎo)數(shù)一定存在)損失函數(shù)又稱(chēng)為代價(jià)函數(shù)、目標(biāo)函數(shù)69提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)70欠擬合和過(guò)擬合x(chóng)1yx1yx1y欠擬合合適擬合過(guò)擬合欠擬合:訓(xùn)練考慮的維度太少,擬合函數(shù)無(wú)法滿(mǎn)足訓(xùn)練集,誤差較大過(guò)擬合:訓(xùn)練考慮的維度太多,使得擬合的函數(shù)很完美的接近訓(xùn)練數(shù)據(jù)集,但泛化能力差,對(duì)新數(shù)據(jù)預(yù)測(cè)能力不足71欠擬合和過(guò)擬合x(chóng)1yx1yx1y欠擬合合適擬合過(guò)擬合欠擬合:訓(xùn)練考慮的維度太少,擬合函數(shù)無(wú)法滿(mǎn)足訓(xùn)練集,誤差較大過(guò)擬合:訓(xùn)練考慮的維度太多,使得擬合的函數(shù)很完美的接近訓(xùn)練數(shù)據(jù)集,但泛化能力差,對(duì)新數(shù)據(jù)預(yù)測(cè)能力不足72神經(jīng)網(wǎng)絡(luò)存在的問(wèn)題及解決辦法神經(jīng)網(wǎng)絡(luò)規(guī)模不斷加大,可能會(huì)導(dǎo)致一個(gè)致命問(wèn)題:過(guò)擬合,泛化能力差正則化73定義機(jī)器學(xué)習(xí)不僅要求模型在訓(xùn)練集上求得一個(gè)較小的誤差,在測(cè)試集上也要表現(xiàn)好。因?yàn)槟P妥罱K是要部署到?jīng)]有見(jiàn)過(guò)訓(xùn)練數(shù)據(jù)的真實(shí)場(chǎng)景。提升模型在測(cè)試集上的預(yù)測(cè)效果叫做泛化。神經(jīng)網(wǎng)絡(luò)的層數(shù)增加,參數(shù)也跟著增加,表示能力大幅度增強(qiáng),極容易出現(xiàn)過(guò)擬合現(xiàn)象參數(shù)范數(shù)懲罰、稀疏化、Bagging集成、Dropout、提前終止、數(shù)據(jù)集擴(kuò)增等正則化方法可以有效抑制過(guò)擬合過(guò)擬合(overfitting)指模型過(guò)度接近訓(xùn)練的數(shù)據(jù),模型的泛化能力不足。具體表現(xiàn)為在訓(xùn)練數(shù)據(jù)集上的誤差很低,但在測(cè)試數(shù)據(jù)集上的誤差很大。74正則化思路

目標(biāo)函數(shù)75

76

在損失函數(shù)中增加一個(gè)懲罰項(xiàng),懲罰高階參數(shù),使其趨近于0正則化項(xiàng)/懲罰項(xiàng)

正則化后的損失函數(shù)記為

77

目標(biāo)函數(shù)

單步梯度更新權(quán)重

78

目標(biāo)函數(shù)

79單步梯度更新權(quán)重

稀疏化訓(xùn)練時(shí)讓網(wǎng)絡(luò)中的很多權(quán)重或神經(jīng)元為090%的權(quán)重或神經(jīng)元為0降低正向傳播時(shí)的計(jì)算量80稠密MLP突觸稀疏神經(jīng)元稀疏動(dòng)態(tài)稀疏Bagging集成方法Bagging訓(xùn)練不同的模型來(lái)共同決策測(cè)試樣例的輸出,不同的模型即使在同一個(gè)訓(xùn)練數(shù)據(jù)集上也會(huì)產(chǎn)生不同的誤差Bagging可以多次重復(fù)使用同一個(gè)模型、訓(xùn)練算法和目標(biāo)函數(shù)進(jìn)行訓(xùn)練Bagging的數(shù)據(jù)集從原始數(shù)據(jù)集中重復(fù)采樣獲取,數(shù)據(jù)集大小與原始數(shù)據(jù)集保持一致81假設(shè)集成k=3個(gè)網(wǎng)絡(luò)模型123原始數(shù)據(jù)集12采樣數(shù)據(jù)集12采樣數(shù)據(jù)集2123321采樣數(shù)據(jù)集3模型1模型2模型3“Cat”“Cat”“Dog”“Cat”取平均模型平均是減小泛化誤差的一種可靠方法82Dropout正則化

83乘零的Dropout算法基礎(chǔ)網(wǎng)絡(luò)子網(wǎng)絡(luò)集成從基礎(chǔ)網(wǎng)絡(luò)中丟棄不同的單元子集形成子網(wǎng)絡(luò)84基礎(chǔ)網(wǎng)絡(luò)

85其他正則化方法提前終止當(dāng)訓(xùn)練較大的網(wǎng)絡(luò)模型時(shí),能夠觀察到訓(xùn)練誤差會(huì)隨著時(shí)間的推移降低但測(cè)試集的誤差會(huì)再次上升。因此,在訓(xùn)練過(guò)程中返回預(yù)定迭代次數(shù)內(nèi)測(cè)試誤差達(dá)最低的參數(shù)設(shè)置,這種策略稱(chēng)之為提前終止。多任務(wù)學(xué)習(xí)多任務(wù)學(xué)習(xí)通過(guò)多個(gè)相關(guān)任務(wù)的同時(shí)學(xué)習(xí)來(lái)減少神經(jīng)網(wǎng)絡(luò)的泛化誤差。數(shù)據(jù)集增強(qiáng)使用更多的數(shù)據(jù)進(jìn)行訓(xùn)練,可對(duì)原數(shù)據(jù)集進(jìn)行變換形成新數(shù)據(jù)集添加到訓(xùn)練數(shù)據(jù)中。參數(shù)共享強(qiáng)迫兩個(gè)模型(監(jiān)督模式下的訓(xùn)練模型和無(wú)監(jiān)督模式下的訓(xùn)練模型)的某些參數(shù)相等,使其共享唯一的一組參數(shù)。86提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)87交叉驗(yàn)證傳統(tǒng)機(jī)器學(xué)習(xí)中,將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集利用訓(xùn)練集進(jìn)行訓(xùn)練利用測(cè)試集評(píng)估算法效果劃分測(cè)試集的目的避免過(guò)擬合評(píng)判各模型的魯棒性88交叉驗(yàn)證深度學(xué)習(xí)的數(shù)據(jù)集劃分:訓(xùn)練集、驗(yàn)證集、測(cè)試集利用訓(xùn)練集訓(xùn)練模型參數(shù)(權(quán)重和偏置)利用驗(yàn)證集確定神經(jīng)網(wǎng)絡(luò)超參數(shù)(網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)率、訓(xùn)練迭代次數(shù)等)利用測(cè)試集評(píng)估模型效果8990From:李宏毅《機(jī)器學(xué)習(xí)》課程最簡(jiǎn)單的驗(yàn)證方式缺點(diǎn):最終模型與參數(shù)的選取將極大程度依賴(lài)于對(duì)訓(xùn)練集和測(cè)試集的劃分方法

只有部分?jǐn)?shù)據(jù)參與了模型的訓(xùn)練數(shù)據(jù)集SS1測(cè)試集S2訓(xùn)練集將數(shù)據(jù)集S分成兩部分S1,和S2第1種劃分第2種劃分第3種劃分不同劃分方式下,得到的MSE(MeanSquaredError)變動(dòng)較大測(cè)試集和訓(xùn)練集91Leave-one-outcross-validation驗(yàn)證方法123123112321233123n…數(shù)據(jù)集S包含n個(gè)數(shù)據(jù)每次取出一個(gè)數(shù)據(jù)作為測(cè)試集的唯一元素,而其他n-1個(gè)數(shù)據(jù)都作為訓(xùn)練集用于訓(xùn)練模型和調(diào)參。最終訓(xùn)練出n個(gè)模型,得到n個(gè)MSE。將這n個(gè)MSE取平均得到最終的testMSE。缺點(diǎn):計(jì)算量過(guò)大,耗費(fèi)時(shí)間長(zhǎng)92K-折交叉驗(yàn)證(k-foldcrossvalidation)優(yōu)點(diǎn):所有的樣本都被作為了訓(xùn)練集和測(cè)試集,每個(gè)樣本都被驗(yàn)證一次,相比Leave-one-outcross-validation

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論