智能計(jì)算系統(tǒng)：從深度學(xué)習(xí)到大模型第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)

上傳人：q*** IP屬地：山東上傳時(shí)間：2025-01-03 格式：PPTX 頁(yè)數(shù)：99 大?。?6.77MB 積分：15 舉報(bào) 版權(quán)申訴

智能計(jì)算系統(tǒng)：從深度學(xué)習(xí)到大模型第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)_第2頁(yè)

智能計(jì)算系統(tǒng)：從深度學(xué)習(xí)到大模型第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)_第3頁(yè)

智能計(jì)算系統(tǒng)：從深度學(xué)習(xí)到大模型第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)_第4頁(yè)

智能計(jì)算系統(tǒng)：從深度學(xué)習(xí)到大模型第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)_第5頁(yè)

已閱讀5頁(yè)，還剩94頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

智能計(jì)算系統(tǒng)

第二章深度學(xué)習(xí)基礎(chǔ)中國(guó)科學(xué)院軟件研究所李玲研究員liling@DrivingExample輸入輸出建模實(shí)現(xiàn)運(yùn)行深度學(xué)習(xí)基礎(chǔ)深度學(xué)習(xí)應(yīng)用第二章將學(xué)習(xí)到搭建一個(gè)神經(jīng)網(wǎng)絡(luò)需要的基本知識(shí)，為深入理解深度學(xué)習(xí)應(yīng)用打下基礎(chǔ)2提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)3包含關(guān)系人工智能機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)1深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)人工智能4機(jī)器學(xué)習(xí)相關(guān)概念訓(xùn)練數(shù)據(jù)機(jī)器學(xué)習(xí)方法新數(shù)據(jù)模型函數(shù)預(yù)測(cè)值典型機(jī)器學(xué)習(xí)過(guò)程機(jī)器學(xué)習(xí)是對(duì)能通過(guò)經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究（Mitchell）機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn)，以此提升計(jì)算機(jī)程序的能力（Alpaydin）機(jī)器學(xué)習(xí)是研究如何通過(guò)計(jì)算的手段、利用經(jīng)驗(yàn)來(lái)改善系統(tǒng)自身性能的一門(mén)學(xué)科（周志華）5符號(hào)說(shuō)明

6如何學(xué)習(xí)？如何理解？如何學(xué)會(huì)？從最簡(jiǎn)單的線性回歸模型開(kāi)始，直至搭建出一個(gè)完整的神經(jīng)網(wǎng)絡(luò)架構(gòu)7線性回歸

設(shè)計(jì)一個(gè)回歸程序進(jìn)行預(yù)測(cè)8

9單變量線性回歸模型（一元回歸模型）線性回歸可以找到一些點(diǎn)的集合背后的規(guī)律：一個(gè)點(diǎn)集可以用一條直線來(lái)擬合，這條擬合出來(lái)的直線的參數(shù)特征，就是線性回歸找到的點(diǎn)集背后的規(guī)律。

單變量線性模型

10多變量線性回歸模型

單變量線性模型多變量線性模型2個(gè)特征n個(gè)特征

11線性函數(shù)擬合得好不好？

通過(guò)求最大似然函數(shù)，得到預(yù)測(cè)值與真實(shí)值之間誤差盡量小的目標(biāo)函數(shù)

損失函數(shù)

12似然函數(shù)

13提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)14生物神經(jīng)元15生物學(xué)領(lǐng)域，一個(gè)生物神經(jīng)元有多個(gè)樹(shù)突（dendrite，接受傳入信息）；有一條軸突（axon），軸突尾端有許多軸突末梢（給其他多個(gè)神經(jīng)元傳遞信息）。軸突末梢跟其它生物神經(jīng)元的樹(shù)突產(chǎn)生連接的位置叫做“突觸”（synapse）。多層感知機(jī)即為一種全連接的神經(jīng)網(wǎng)絡(luò)模型上一個(gè)神經(jīng)元下一個(gè)神經(jīng)元人工神經(jīng)元16機(jī)器學(xué)習(xí)領(lǐng)域，人工神經(jīng)元是一個(gè)包含輸入，輸出與計(jì)算功能的模型。不嚴(yán)格地說(shuō)，其輸入可類(lèi)比為生物神經(jīng)元的樹(shù)突，其輸出可類(lèi)比為神經(jīng)元的軸突，其計(jì)算可類(lèi)比為細(xì)胞體。生物神經(jīng)元：人工神經(jīng)元=老鼠：米老鼠一個(gè)神經(jīng)元的單層感知機(jī)第一代，單層感知機(jī)x1x2Σw2

=-5z=w1x1+w2x2+b

=5b

11-1111-11-9-1x2zx1

17感知機(jī)（Perceptron）模型

尋找損失函數(shù)，并將損失函數(shù)最小化18

尋找損失函數(shù)策略：假設(shè)誤分類(lèi)的點(diǎn)為數(shù)據(jù)集M，使用誤分類(lèi)點(diǎn)到超平面的總距離來(lái)尋找損失函數(shù)（直觀來(lái)看，總距離越小越好）

尋找損失函數(shù)

數(shù)據(jù)集中誤分類(lèi)點(diǎn)滿(mǎn)足條件：

所有誤分類(lèi)點(diǎn)到超平面S的總距離為

由此尋找到感知機(jī)的損失函數(shù)20感知機(jī)算法

損失函數(shù)

21損失函數(shù)極小化的最優(yōu)化問(wèn)題可使用：隨機(jī)梯度下降法

22兩層神經(jīng)網(wǎng)絡(luò)-多層感知機(jī)將大量的神經(jīng)元模型進(jìn)行組合，用不同的方法進(jìn)行連接并作用在不同的激活函數(shù)上，就構(gòu)成了人工神經(jīng)網(wǎng)絡(luò)模型全連接的兩層神經(jīng)網(wǎng)絡(luò)模型也稱(chēng)為多層感知機(jī)（MLP）輸入

隱層

輸出層

輸入

隱層

激活函數(shù)25

輸入

隱層

輸出層

激活函數(shù)26

偏置節(jié)點(diǎn)輸入

隱層

輸出層

27+1+1淺層神經(jīng)網(wǎng)絡(luò)特點(diǎn)需要數(shù)據(jù)量小、訓(xùn)練快，其局限性在于對(duì)復(fù)雜函數(shù)的表示能力有限，針對(duì)復(fù)雜分類(lèi)問(wèn)題其泛化能力受到制約WhyNotGoDeeper?KurtHornik證明了理論上兩層神經(jīng)網(wǎng)絡(luò)足以擬合任意函數(shù)過(guò)去也沒(méi)有足夠的數(shù)據(jù)和計(jì)算能力28深度學(xué)習(xí)（深層神經(jīng)網(wǎng)絡(luò)）2006年，Hinton在Science發(fā)表了論文（Reducingthedimensionalityofdatawithneuralnetworks.Science,Vol.313.no.5786），給多層神經(jīng)網(wǎng)絡(luò)相關(guān)的學(xué)習(xí)方法賦予了一個(gè)新名詞--“深度學(xué)習(xí)”。他和LeCun以及Bengio三人被稱(chēng)為深度學(xué)習(xí)三位開(kāi)創(chuàng)者GeofferyHinton

29深度神經(jīng)網(wǎng)絡(luò)不斷發(fā)展不僅依賴(lài)于自身的結(jié)構(gòu)優(yōu)勢(shì)，也依賴(lài)于如下一些外在因素Algorithm：算法日新月異，優(yōu)化算法層出不窮（學(xué)習(xí)算法->BP算法->Pre-training，Dropout等方法）Bigdata：數(shù)據(jù)量不斷增大（10->10k->100M）Computing：處理器計(jì)算能力的不算提升（晶體管->CPU->集群/GPU->智能處理器）深度神經(jīng)網(wǎng)絡(luò)的成功：ABC30多層神經(jīng)網(wǎng)絡(luò)

推導(dǎo)公式31

輸入隱層1輸出層隱層2

正向傳播

權(quán)重輸入輸入權(quán)重

32需8+9+12=29個(gè)參數(shù)

輸入隱層1輸出層隱層2

第一層參數(shù)2x3+2第二層參數(shù)3x2+3第三層參數(shù)3x3+333多層神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)的層數(shù)增加，每一層對(duì)于前一層次的抽象表示更深入，每一層神經(jīng)元學(xué)習(xí)到的是前一層神經(jīng)元更抽象的表示“邊緣”特征“形狀”特征“圖案”特征“目標(biāo)”特征第一個(gè)隱層第二個(gè)隱層第三個(gè)隱層第四個(gè)隱層通過(guò)抽取更抽象的特征來(lái)對(duì)事物進(jìn)行區(qū)分，從而獲得更好的區(qū)分與分類(lèi)能力34多層神經(jīng)網(wǎng)絡(luò)從單層神經(jīng)網(wǎng)絡(luò)，到兩層神經(jīng)網(wǎng)絡(luò)，再到多層神經(jīng)網(wǎng)絡(luò)，隨著網(wǎng)絡(luò)層數(shù)的增加，以及激活函數(shù)的調(diào)整，神經(jīng)網(wǎng)絡(luò)擬合非線性分界不斷增強(qiáng)35多層神經(jīng)網(wǎng)絡(luò)sign36深度學(xué)習(xí)發(fā)展歷程1943MP神經(jīng)元數(shù)學(xué)模型1958感知機(jī)模型1969Minsky指出單層感知機(jī)不能解決XOR問(wèn)題1986反向傳播算法1998卷積神經(jīng)網(wǎng)絡(luò)LeNet2006深度置信網(wǎng)絡(luò)2012AlexNet2014VGGGoogLeNet2015ResNet2017Transformer2018GPTBERT2020GPT-32022ChatGPT第一階段第二階段淺層學(xué)習(xí)浪潮第三階段深度學(xué)習(xí)浪潮2024Claude3.02023GPT-437提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)38神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練

39神經(jīng)網(wǎng)絡(luò)訓(xùn)練正向傳播是根據(jù)輸入，經(jīng)過(guò)權(quán)重、激活函數(shù)計(jì)算出隱層，將輸入的特征向量從低級(jí)特征逐步提取為抽象特征，直到得到最終輸出結(jié)果的過(guò)程反向傳播是根據(jù)正向傳播的輸出結(jié)果和期望值計(jì)算出損失函數(shù)，再通過(guò)鏈?zhǔn)角髮?dǎo)，最終從網(wǎng)絡(luò)后端逐步修改權(quán)重使輸出和期望值的差距變到最小的過(guò)程

反向更新權(quán)值

輸入隱層輸出層41

+1+1

使用sigmoid函數(shù)作為激活函數(shù)

正向傳輸：輸入到隱層

+1+1

輸入隱層輸出層示例

初始化權(quán)重值

44輸入到隱層計(jì)算

45隱層到輸出層計(jì)算

計(jì)算值與真實(shí)值之間還有很大的差距，如何縮小計(jì)算值與真實(shí)值之間的誤差？通過(guò)反向傳播進(jìn)行反饋，調(diào)節(jié)權(quán)重值計(jì)算誤差

模型計(jì)算輸出期望輸出47鏈?zhǔn)椒▌t48反向傳播

根據(jù)偏導(dǎo)數(shù)的鏈?zhǔn)椒▌t推導(dǎo)

51根據(jù)偏導(dǎo)數(shù)的鏈?zhǔn)椒▌t推導(dǎo)

初始值

52反向傳播的作用是將神經(jīng)網(wǎng)絡(luò)的輸出誤差反向傳播到神經(jīng)網(wǎng)絡(luò)的輸入端，并以此來(lái)更新神經(jīng)網(wǎng)絡(luò)中各個(gè)連接的權(quán)重當(dāng)?shù)谝淮畏聪騻鞑シㄍ瓿珊?，網(wǎng)絡(luò)的模型參數(shù)得到更新，網(wǎng)絡(luò)進(jìn)行下一輪的正向傳播過(guò)程，如此反復(fù)的迭代進(jìn)行訓(xùn)練，從而不斷縮小計(jì)算值與真實(shí)值之間的誤差53提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)54訓(xùn)練完了結(jié)果就是不準(zhǔn)，怎么辦？神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練調(diào)整網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)選擇合適的激活函數(shù)選擇合適的損失函數(shù)55神經(jīng)網(wǎng)絡(luò)的拓?fù)湔{(diào)節(jié)輸入：神經(jīng)元個(gè)數(shù)=特征維度輸出層：神經(jīng)元個(gè)數(shù)=分類(lèi)類(lèi)別數(shù)隱層：

隱層的數(shù)量？隱層神經(jīng)元的個(gè)數(shù)？神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)一般為：輸入×隱層×輸出層給定訓(xùn)練樣本后，輸入和輸出層節(jié)點(diǎn)數(shù)便已確定56隱層的設(shè)計(jì)隱層節(jié)點(diǎn)的作用是提取輸入特征中的隱藏規(guī)律，每個(gè)節(jié)點(diǎn)都賦予一定權(quán)重隱層節(jié)點(diǎn)數(shù)太少，則網(wǎng)絡(luò)從樣本中獲取信息的能力就越差，無(wú)法反映數(shù)據(jù)集的規(guī)律；隱層節(jié)點(diǎn)數(shù)太多，則網(wǎng)絡(luò)的擬合能力過(guò)強(qiáng)，可能擬合數(shù)據(jù)集中的噪聲部分，導(dǎo)致模型泛化能力變差57選擇合適的激活函數(shù)

sigmoid函數(shù)

非0均值的輸出計(jì)算機(jī)進(jìn)行指數(shù)運(yùn)算速度慢飽和性問(wèn)題及梯度消失現(xiàn)象Sigmoid是最常見(jiàn)的非線性激活函數(shù)能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出；如果是非常小的負(fù)數(shù)，那么輸出就變?yōu)?；如果是非常大的正數(shù)，輸出就變?yōu)?數(shù)學(xué)表達(dá)式幾何圖像59tanh函數(shù)與sigmoid相比，tanh是0均值的

在輸入很大或是很小的時(shí)候，輸出幾乎平滑，梯度很小，不利于權(quán)重更新Sigmoid函數(shù)存在神經(jīng)元會(huì)產(chǎn)生非0均值的輸出的問(wèn)題尋找解決辦法60ReLU函數(shù)

ReLU能夠在x>0時(shí)保持梯度不衰減，從而緩解梯度消失問(wèn)題ReLU死掉。如果學(xué)習(xí)率很大，反向傳播后的參數(shù)可能為負(fù)數(shù)，導(dǎo)致下一輪正向傳播的輸入為負(fù)數(shù)。當(dāng)輸入是負(fù)數(shù)的時(shí)候，ReLU是完全不被激活的，這就表明一旦輸入到了負(fù)數(shù)，ReLU就會(huì)死掉輸出范圍是無(wú)限的tanh函數(shù)雖然解決了sigmoid函數(shù)存在非0均值輸出的問(wèn)題，但仍然沒(méi)改變梯度消失問(wèn)題尋找解決辦法61PReLU/LeakyReLU函數(shù)

負(fù)數(shù)區(qū)域內(nèi)，LeakyReLU有一個(gè)很小的斜率，可以避免ReLU死掉的問(wèn)題出現(xiàn)了ReLU的改進(jìn)版本：LeakyReLUReLU在x<0時(shí)，ReLU完全不被激活改進(jìn)

62ELU函數(shù)(ExponentialLinearUnit)

α是可調(diào)參數(shù)，控制著ELU在負(fù)值區(qū)間的飽和位置ELU的輸出均值接近于零，所以收斂速度更快右側(cè)線性部分使得ELU能夠緩解梯度消失，而左側(cè)軟飽能夠讓ELU對(duì)輸入變化或噪聲更魯棒，避免神經(jīng)元死掉融合sigmoid和ReLUELU:63選擇恰當(dāng)?shù)膿p失函數(shù)

64常用損失函數(shù)均方差損失函數(shù)是神經(jīng)網(wǎng)絡(luò)優(yōu)化常用的損失函數(shù)

均方差損失函數(shù)以一個(gè)神經(jīng)元的均方差損失函數(shù)為例

65引入交叉熵?fù)p失函數(shù)交叉熵?fù)p失+Sigmoid激活函數(shù)可以解決參數(shù)更新緩慢的問(wèn)題。均方差損失函數(shù)+Sigmoid激活函數(shù)出現(xiàn)問(wèn)題—>如何解決？66交叉熵?fù)p失函數(shù)能夠有效克服使用sigmoid函數(shù)時(shí)，均方差損失函數(shù)出現(xiàn)的參數(shù)更新慢的問(wèn)題交叉熵?fù)p失函數(shù)：以二分類(lèi)為例，交叉熵?fù)p失函數(shù)為：

交叉熵?fù)p失函數(shù)

67以二分類(lèi)為例，則使用Sigmoid激活函數(shù)時(shí)的交叉熵?fù)p失函數(shù)為

同理得：

68神經(jīng)網(wǎng)絡(luò)中損失函數(shù)的特性同一個(gè)算法的損失函數(shù)不是唯一的損失函數(shù)是參數(shù)(w,b)的函數(shù)損失函數(shù)可以評(píng)價(jià)網(wǎng)絡(luò)模型的好壞，損失函數(shù)越小說(shuō)明模型和參數(shù)越符合訓(xùn)練樣本(x,y)損失函數(shù)是一個(gè)標(biāo)量選擇損失函數(shù)時(shí)，挑選對(duì)參數(shù)(w,b)可微的函數(shù)（全微分存在，偏導(dǎo)數(shù)一定存在）損失函數(shù)又稱(chēng)為代價(jià)函數(shù)、目標(biāo)函數(shù)69提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)70欠擬合和過(guò)擬合x(chóng)1yx1yx1y欠擬合合適擬合過(guò)擬合欠擬合：訓(xùn)練考慮的維度太少，擬合函數(shù)無(wú)法滿(mǎn)足訓(xùn)練集，誤差較大過(guò)擬合：訓(xùn)練考慮的維度太多，使得擬合的函數(shù)很完美的接近訓(xùn)練數(shù)據(jù)集，但泛化能力差，對(duì)新數(shù)據(jù)預(yù)測(cè)能力不足71欠擬合和過(guò)擬合x(chóng)1yx1yx1y欠擬合合適擬合過(guò)擬合欠擬合：訓(xùn)練考慮的維度太少，擬合函數(shù)無(wú)法滿(mǎn)足訓(xùn)練集，誤差較大過(guò)擬合：訓(xùn)練考慮的維度太多，使得擬合的函數(shù)很完美的接近訓(xùn)練數(shù)據(jù)集，但泛化能力差，對(duì)新數(shù)據(jù)預(yù)測(cè)能力不足72神經(jīng)網(wǎng)絡(luò)存在的問(wèn)題及解決辦法神經(jīng)網(wǎng)絡(luò)規(guī)模不斷加大，可能會(huì)導(dǎo)致一個(gè)致命問(wèn)題：過(guò)擬合，泛化能力差正則化73定義機(jī)器學(xué)習(xí)不僅要求模型在訓(xùn)練集上求得一個(gè)較小的誤差，在測(cè)試集上也要表現(xiàn)好。因?yàn)槟Ｐ妥罱K是要部署到?jīng)]有見(jiàn)過(guò)訓(xùn)練數(shù)據(jù)的真實(shí)場(chǎng)景。提升模型在測(cè)試集上的預(yù)測(cè)效果叫做泛化。神經(jīng)網(wǎng)絡(luò)的層數(shù)增加，參數(shù)也跟著增加，表示能力大幅度增強(qiáng)，極容易出現(xiàn)過(guò)擬合現(xiàn)象參數(shù)范數(shù)懲罰、稀疏化、Bagging集成、Dropout、提前終止、數(shù)據(jù)集擴(kuò)增等正則化方法可以有效抑制過(guò)擬合過(guò)擬合（overfitting）指模型過(guò)度接近訓(xùn)練的數(shù)據(jù)，模型的泛化能力不足。具體表現(xiàn)為在訓(xùn)練數(shù)據(jù)集上的誤差很低，但在測(cè)試數(shù)據(jù)集上的誤差很大。74正則化思路

目標(biāo)函數(shù)75

在損失函數(shù)中增加一個(gè)懲罰項(xiàng)，懲罰高階參數(shù)，使其趨近于0正則化項(xiàng)/懲罰項(xiàng)

正則化后的損失函數(shù)記為

目標(biāo)函數(shù)

單步梯度更新權(quán)重

目標(biāo)函數(shù)

79單步梯度更新權(quán)重

稀疏化訓(xùn)練時(shí)讓網(wǎng)絡(luò)中的很多權(quán)重或神經(jīng)元為090%的權(quán)重或神經(jīng)元為0降低正向傳播時(shí)的計(jì)算量80稠密MLP突觸稀疏神經(jīng)元稀疏動(dòng)態(tài)稀疏Bagging集成方法Bagging訓(xùn)練不同的模型來(lái)共同決策測(cè)試樣例的輸出，不同的模型即使在同一個(gè)訓(xùn)練數(shù)據(jù)集上也會(huì)產(chǎn)生不同的誤差Bagging可以多次重復(fù)使用同一個(gè)模型、訓(xùn)練算法和目標(biāo)函數(shù)進(jìn)行訓(xùn)練Bagging的數(shù)據(jù)集從原始數(shù)據(jù)集中重復(fù)采樣獲取，數(shù)據(jù)集大小與原始數(shù)據(jù)集保持一致81假設(shè)集成k=3個(gè)網(wǎng)絡(luò)模型123原始數(shù)據(jù)集12采樣數(shù)據(jù)集12采樣數(shù)據(jù)集2123321采樣數(shù)據(jù)集3模型1模型2模型3“Cat”“Cat”“Dog”“Cat”取平均模型平均是減小泛化誤差的一種可靠方法82Dropout正則化

83乘零的Dropout算法基礎(chǔ)網(wǎng)絡(luò)子網(wǎng)絡(luò)集成從基礎(chǔ)網(wǎng)絡(luò)中丟棄不同的單元子集形成子網(wǎng)絡(luò)84基礎(chǔ)網(wǎng)絡(luò)

85其他正則化方法提前終止當(dāng)訓(xùn)練較大的網(wǎng)絡(luò)模型時(shí)，能夠觀察到訓(xùn)練誤差會(huì)隨著時(shí)間的推移降低但測(cè)試集的誤差會(huì)再次上升。因此，在訓(xùn)練過(guò)程中返回預(yù)定迭代次數(shù)內(nèi)測(cè)試誤差達(dá)最低的參數(shù)設(shè)置，這種策略稱(chēng)之為提前終止。多任務(wù)學(xué)習(xí)多任務(wù)學(xué)習(xí)通過(guò)多個(gè)相關(guān)任務(wù)的同時(shí)學(xué)習(xí)來(lái)減少神經(jīng)網(wǎng)絡(luò)的泛化誤差。數(shù)據(jù)集增強(qiáng)使用更多的數(shù)據(jù)進(jìn)行訓(xùn)練，可對(duì)原數(shù)據(jù)集進(jìn)行變換形成新數(shù)據(jù)集添加到訓(xùn)練數(shù)據(jù)中。參數(shù)共享強(qiáng)迫兩個(gè)模型（監(jiān)督模式下的訓(xùn)練模型和無(wú)監(jiān)督模式下的訓(xùn)練模型）的某些參數(shù)相等，使其共享唯一的一組參數(shù)。86提綱機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)基礎(chǔ)過(guò)擬合與正則化交叉驗(yàn)證本章小結(jié)87交叉驗(yàn)證傳統(tǒng)機(jī)器學(xué)習(xí)中，將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集利用訓(xùn)練集進(jìn)行訓(xùn)練利用測(cè)試集評(píng)估算法效果劃分測(cè)試集的目的避免過(guò)擬合評(píng)判各模型的魯棒性88交叉驗(yàn)證深度學(xué)習(xí)的數(shù)據(jù)集劃分：訓(xùn)練集、驗(yàn)證集、測(cè)試集利用訓(xùn)練集訓(xùn)練模型參數(shù)（權(quán)重和偏置）利用驗(yàn)證集確定神經(jīng)網(wǎng)絡(luò)超參數(shù)（網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)率、訓(xùn)練迭代次數(shù)等）利用測(cè)試集評(píng)估模型效果8990From：李宏毅《機(jī)器學(xué)習(xí)》課程最簡(jiǎn)單的驗(yàn)證方式缺點(diǎn)：最終模型與參數(shù)的選取將極大程度依賴(lài)于對(duì)訓(xùn)練集和測(cè)試集的劃分方法

只有部分?jǐn)?shù)據(jù)參與了模型的訓(xùn)練數(shù)據(jù)集SS1測(cè)試集S2訓(xùn)練集將數(shù)據(jù)集S分成兩部分S1，和S2第1種劃分第2種劃分第3種劃分不同劃分方式下，得到的MSE(MeanSquaredError)變動(dòng)較大測(cè)試集和訓(xùn)練集91Leave-one-outcross-validation驗(yàn)證方法123123112321233123n…數(shù)據(jù)集S包含n個(gè)數(shù)據(jù)每次取出一個(gè)數(shù)據(jù)作為測(cè)試集的唯一元素，而其他n-1個(gè)數(shù)據(jù)都作為訓(xùn)練集用于訓(xùn)練模型和調(diào)參。最終訓(xùn)練出n個(gè)模型，得到n個(gè)MSE。將這n個(gè)MSE取平均得到最終的testMSE。缺點(diǎn)：計(jì)算量過(guò)大，耗費(fèi)時(shí)間長(zhǎng)92K-折交叉驗(yàn)證（k-foldcrossvalidation）優(yōu)點(diǎn)：所有的樣本都被作為了訓(xùn)練集和測(cè)試集，每個(gè)樣本都被驗(yàn)證一次，相比Leave-one-outcross-validation

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

智能計(jì)算系統(tǒng)：從深度學(xué)習(xí)到大模型第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

智能計(jì)算系統(tǒng)：從深度學(xué)習(xí)到大模型 第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

智能計(jì)算系統(tǒng)：從深度學(xué)習(xí)到大模型第2版課件 2、第二章-深度學(xué)習(xí)基礎(chǔ)