大模型原理與技術(shù)-課件 chap2 深度學(xué)習(xí)基礎(chǔ)_第1頁(yè)
大模型原理與技術(shù)-課件 chap2 深度學(xué)習(xí)基礎(chǔ)_第2頁(yè)
大模型原理與技術(shù)-課件 chap2 深度學(xué)習(xí)基礎(chǔ)_第3頁(yè)
大模型原理與技術(shù)-課件 chap2 深度學(xué)習(xí)基礎(chǔ)_第4頁(yè)
大模型原理與技術(shù)-課件 chap2 深度學(xué)習(xí)基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2章深度學(xué)習(xí)基礎(chǔ)魏明強(qiáng)、宮麗娜計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智周萬(wàn)物?道濟(jì)天下o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄23

目錄o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)o

人工神經(jīng)元人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN),簡(jiǎn)稱(chēng)為神經(jīng)網(wǎng)絡(luò)(NeuralNetwork:NN),是指一系列受生物學(xué)和神經(jīng)科學(xué)啟發(fā)的數(shù)學(xué)模型。人工神經(jīng)元,簡(jiǎn)稱(chēng)為神經(jīng)元,是構(gòu)成神經(jīng)網(wǎng)絡(luò)的基本單元。單個(gè)神經(jīng)元計(jì)算過(guò)程單層神經(jīng)網(wǎng)絡(luò)計(jì)算過(guò)程要想模擬人腦具有的能力,單一神經(jīng)元是遠(yuǎn)遠(yuǎn)不夠的,需要眾多神經(jīng)元的協(xié)作來(lái)完成復(fù)雜任務(wù),即神經(jīng)網(wǎng)絡(luò)。在得到單層神經(jīng)網(wǎng)絡(luò)的輸出之后,可以通過(guò)疊加類(lèi)似的層來(lái)構(gòu)建每層都包含若干神經(jīng)元的多層神經(jīng)網(wǎng)絡(luò)。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)o

激活函數(shù)激活函數(shù)(ActivationFunction)是神經(jīng)網(wǎng)絡(luò)中的一種非線性變換,它賦予神經(jīng)元更強(qiáng)大的表達(dá)能力。如果不使用激活函數(shù),則每層的操作只是對(duì)上一層的輸出結(jié)果進(jìn)行線性變換,多層神經(jīng)網(wǎng)絡(luò)會(huì)退化成單層神經(jīng)網(wǎng)絡(luò)。l

Sigmoid函數(shù)l

Tanh函數(shù)l

Softmax函數(shù)l

ReLU函數(shù)通常用于二分類(lèi)問(wèn)題的輸出層。通常用于多分類(lèi)問(wèn)題的輸出層。通常用于中間層或輸出層。廣泛應(yīng)用于隱藏層,其簡(jiǎn)單性和非飽和性使其在大多數(shù)情況下表現(xiàn)良好。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)o

全連接神經(jīng)網(wǎng)絡(luò)在全連接神經(jīng)網(wǎng)絡(luò)中,每個(gè)神經(jīng)元與前一層的所有神經(jīng)元相連接,形成一個(gè)完全連接的結(jié)構(gòu)。它的基本組成包括輸入層(InputLayer)、若干隱藏層(HiddenLayer)和輸出層(OutputLayer)。輸入層接收原始數(shù)據(jù)或特征作為網(wǎng)絡(luò)的輸入,每個(gè)輸入神經(jīng)元對(duì)應(yīng)于數(shù)據(jù)或特征的一個(gè)維度。隱藏層位于輸入層和輸出層之間,進(jìn)行特征的非線性變換和抽象。每個(gè)隱藏層包含多個(gè)神經(jīng)元,每個(gè)神經(jīng)元與前一層的所有神經(jīng)元相連接。多個(gè)隱藏層的存在使得網(wǎng)絡(luò)能夠?qū)W習(xí)更加復(fù)雜和抽象的表示。輸出層產(chǎn)生網(wǎng)絡(luò)的最終輸出。全連接神經(jīng)網(wǎng)絡(luò)在一些任務(wù)上表現(xiàn)良好,但隨著問(wèn)題復(fù)雜性的增加,更深層次、更復(fù)雜結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)逐漸取代了全連接神經(jīng)網(wǎng)絡(luò)。這是因?yàn)槿B接神經(jīng)網(wǎng)絡(luò)在參數(shù)數(shù)量和計(jì)算復(fù)雜度上容易受到限制,而深度學(xué)習(xí)任務(wù)通常需要更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

感受野1962年,生物學(xué)家D.H.Hubel和T.N.Wiesel對(duì)貓的視覺(jué)系統(tǒng)進(jìn)行了研究,貓的視覺(jué)系統(tǒng)實(shí)驗(yàn)示意圖如圖2.5所示。他們首次發(fā)現(xiàn)了在貓的視覺(jué)皮層中存在兩種主要類(lèi)型的神經(jīng)元,即簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞。這兩種類(lèi)型的細(xì)胞對(duì)邊緣和紋理的敏感性有所不同。神經(jīng)元對(duì)視野中的某一小塊區(qū)域內(nèi)的特定邊緣或紋理更為敏感,反映了感受野的特性。感受野(ReceptiveField)描述了神經(jīng)系統(tǒng)中一些神經(jīng)元對(duì)于特定刺激區(qū)域的敏感性,這意味著神經(jīng)元只對(duì)其支配區(qū)域內(nèi)的信號(hào)做出響應(yīng)。在視覺(jué)神經(jīng)系統(tǒng)中,視覺(jué)皮層中的神經(jīng)細(xì)胞的輸出受到視網(wǎng)膜上光感受器的影響,即當(dāng)視網(wǎng)膜上的光感受器受到刺激并興奮時(shí),會(huì)產(chǎn)生神經(jīng)沖動(dòng)信號(hào)并傳遞到視覺(jué)皮層。然而,并非所有視覺(jué)皮層中的神經(jīng)元都會(huì)接收這些信號(hào)。每個(gè)神經(jīng)元都有其特定的感受野,即只有視網(wǎng)膜上特定區(qū)域內(nèi)的刺激才能激活該神經(jīng)元。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)的設(shè)計(jì)靈感正是源自生物學(xué)中感受野的機(jī)制。卷積神經(jīng)網(wǎng)絡(luò)模仿了生物學(xué)中神經(jīng)元對(duì)于刺激的局部敏感性。它通過(guò)學(xué)習(xí)局部特征,逐漸建立對(duì)整體特征的抽象。它在處理空間結(jié)構(gòu)化數(shù)據(jù)和視覺(jué)數(shù)據(jù)方面的能力使其在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域都發(fā)揮著重要作用。下圖展示了第一個(gè)誕生的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)用于手寫(xiě)數(shù)字識(shí)別任務(wù)。LeNet-5由卷積層、池化層及全連接層組成,它的設(shè)計(jì)為后續(xù)卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ)。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

卷積卷積運(yùn)算通過(guò)滑動(dòng)一定間隔的卷積核(也稱(chēng)為濾波器)窗口,計(jì)算對(duì)應(yīng)位置的元素相乘再求和,得到輸出特征圖中每個(gè)位置的值,當(dāng)卷積核窗口移動(dòng)到所示位置時(shí),計(jì)算輸入特征圖與卷積核窗口對(duì)應(yīng)位置的元素乘積,并將其求和,即執(zhí)行計(jì)算:(-1)×1+0×0+1×2+(-1)×5+0×4+1×2+(-1)×3+0×4+1×5=0,從而計(jì)算得到輸出特征圖中相應(yīng)位置的值為0。之后,卷積核繼續(xù)向后滑動(dòng),重復(fù)相同的操作,直到得到完整的輸出特征圖。o

卷積操作的概念l

偏置(bias)l

步長(zhǎng)(stride)l

填充(padding)

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

池化池化操作通常應(yīng)用在卷積層之后,通過(guò)對(duì)特征圖的局部區(qū)域進(jìn)行采樣,從而獲得更小且具有抽象特征的特征圖。常見(jiàn)的池化類(lèi)型有最大池化和平均池化兩種。在最大池化中,每個(gè)池化窗口選擇局部區(qū)域的最大值作為采樣值。而在平均池化中,每個(gè)池化窗口計(jì)算局部區(qū)域的平均值作為采樣值。o

池化層的特點(diǎn)l

沒(méi)有可學(xué)習(xí)參數(shù)l

不改變通道數(shù)l

平移不變性

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

批歸一化批歸一化的作用是加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,提高模型的收斂速度,并且有助于避免梯度消失或梯度爆炸問(wèn)題。批歸一化的核心思想是對(duì)每層的輸入進(jìn)行歸一化,使其均值接近0,標(biāo)準(zhǔn)差接近1。這樣做有助于緩解梯度消失問(wèn)題,提高網(wǎng)絡(luò)的穩(wěn)定性。對(duì)于一個(gè)批次的輸入數(shù)據(jù),批歸一化首先計(jì)算批次的均值和方差,再對(duì)輸入進(jìn)行歸一化,即減去均值并除以標(biāo)準(zhǔn)差,然后使用可學(xué)習(xí)的縮放和平移參數(shù)對(duì)歸一化后的數(shù)據(jù)進(jìn)行線性變換。o

全連接全連接層(FullyConnectedLayer),也被稱(chēng)為密集連接層,是卷積神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵組成部分。在全連接層中,每個(gè)神經(jīng)元都與上一層的所有神經(jīng)元相連接,形成了一個(gè)全連接的結(jié)構(gòu)。對(duì)于自然語(yǔ)言處理任務(wù),輸入通常是一維向量,如文本數(shù)據(jù)的詞嵌入,以便進(jìn)行文本分類(lèi)、情感分析等任務(wù);對(duì)于計(jì)算機(jī)視覺(jué)任務(wù),輸入通常是多維特征圖,這些特征圖可能通過(guò)卷積層或其他特征提取層從原始圖像中提取而來(lái)。為了傳遞給全連接層,這些多維特征圖通常需要被展平成一維向量,作為全連接層的輸入,以便進(jìn)行后續(xù)處理。

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)o

DropoutDropout是一種常用的正則化技術(shù),旨在減少過(guò)擬合并提高模型的泛化能力。Dropout的基本思想是在訓(xùn)練過(guò)程中以一定概率隨機(jī)地忽略一部分神經(jīng)元的輸出。具體而言,假設(shè)有一個(gè)全連接層的輸出向量為h,Dropout的操作如下:(1)在訓(xùn)練中,以概率(通常為0.5)隨機(jī)選擇一部分神經(jīng)元,將它們的輸出置為0。(2)在測(cè)試過(guò)程中,保持所有神經(jīng)元的輸出,但將它們乘以1?p以保持期望輸出值不變。o

殘差連接殘差連接將若干卷積層學(xué)習(xí)到的特征與原始輸入相加,從而形成了一種“跳躍連接”的結(jié)構(gòu),從而使得神經(jīng)網(wǎng)絡(luò)更容易進(jìn)行優(yōu)化,并且能夠構(gòu)建更深層次的網(wǎng)絡(luò)結(jié)構(gòu)。殘差連接能夠在一定程度上緩解深層網(wǎng)絡(luò)的退化網(wǎng)絡(luò)問(wèn)題。并且既不增加額外的參數(shù)也不增加計(jì)算復(fù)雜度,使得網(wǎng)絡(luò)易于優(yōu)化,提高了泛化性能。o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2o

均方誤差損失函數(shù)均方誤差(MeanSquaredError,MSE)損失函數(shù)是一種應(yīng)用于回歸問(wèn)題的損失函數(shù),用于度量模型預(yù)測(cè)值與真實(shí)值之間的平方差的平均值。

損失函數(shù)和優(yōu)化算法4o

平方絕對(duì)誤差損失函數(shù)平均絕對(duì)誤差(MeanAbsoluteError,MAE)損失函數(shù)是應(yīng)用于回歸問(wèn)題的一種損失函數(shù),用于度量模型預(yù)測(cè)值與真實(shí)值之間的絕對(duì)差的平均值。o

交叉熵?fù)p失函數(shù)交叉熵?fù)p失(Cross-EntropyLoss)函數(shù)廣泛應(yīng)用于分類(lèi)問(wèn)題。它衡量模型輸出的概率分布與真實(shí)標(biāo)簽的概率分布之間的差異。二分類(lèi)問(wèn)題:多分類(lèi)問(wèn)題:損失函數(shù)o

序列交叉熵?fù)p失函數(shù)序列交叉嫡損失(SequenceCross-EntropyLoss)函數(shù)是用于序列到序列(sequence-to-sequence)任務(wù)中的一種損失函數(shù),主要應(yīng)用于自然語(yǔ)言處理領(lǐng)域的機(jī)器翻譯任務(wù)。在這種任務(wù)中,模型需要將一個(gè)輸入序列映射到另一個(gè)輸出序列,而且輸入和輸出的序列長(zhǎng)度是可變的。

損失函數(shù)和優(yōu)化算法4o

焦點(diǎn)損失函數(shù)焦點(diǎn)損失(FocalLoss)函數(shù)通過(guò)調(diào)整難易分類(lèi)樣本的權(quán)重,即降低易分類(lèi)樣本的權(quán)重,提高難分類(lèi)樣本的權(quán)重,使得模型更關(guān)注難以分類(lèi)的樣本。損失函數(shù)o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

損失函數(shù)和優(yōu)化算法4優(yōu)化算法o

梯度下降法變種l

批量梯度下降法l

隨機(jī)梯度下降法l

小批量梯度下降法使用整個(gè)訓(xùn)練集的數(shù)據(jù),計(jì)算每個(gè)樣本上損失函數(shù)的梯度并求和,然后更新參數(shù)。隨機(jī)選擇一個(gè)樣本計(jì)算梯度并更新參數(shù)。每次迭代使用一小批次的樣本來(lái)計(jì)算梯度。

損失函數(shù)和優(yōu)化算法優(yōu)化算法

損失函數(shù)和優(yōu)化算法優(yōu)化算法

損失函數(shù)和優(yōu)化算法優(yōu)化算法o

Adam算法Adam算法是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化算法,結(jié)合了動(dòng)量法和AdaGrad算法思想,在深度學(xué)習(xí)中得到了廣泛應(yīng)用,對(duì)于不同類(lèi)型的神經(jīng)網(wǎng)絡(luò)和任務(wù)都有較好的適應(yīng)性。其核心思想是為每個(gè)參數(shù)維護(hù)兩個(gè)移動(dòng)平均量,一個(gè)是梯度的一階矩估計(jì)(動(dòng)量項(xiàng)),另一個(gè)是梯度的二階矩估計(jì)(AdaGrad項(xiàng)),然后使用這兩個(gè)估計(jì)來(lái)調(diào)整學(xué)習(xí)率。

o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度和鏈?zhǔn)椒▌to

梯度的計(jì)算給定一個(gè)具有n個(gè)輸入和1個(gè)標(biāo)量輸出的函數(shù): 其對(duì)輸入計(jì)算梯度,得到一個(gè)與輸入具有相同維度的向量,向量的每個(gè)維度是輸出對(duì)于輸入中相應(yīng)維度的偏導(dǎo)數(shù):給定一個(gè)有n個(gè)輸入和m個(gè)輸出的函數(shù):可以將m個(gè)輸出拆分成m個(gè)具有n個(gè)輸入的單輸出函數(shù)。相當(dāng)于由m個(gè)神經(jīng)元構(gòu)成了一層神經(jīng)網(wǎng)絡(luò)。m個(gè)輸出分別對(duì)n個(gè)輸入求微分,得到m×n大小的雅可比矩陣(JacobianMatrix)。該矩陣的第i行第j列元素是第i個(gè)輸出對(duì)于第j個(gè)輸入的偏導(dǎo)數(shù)。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練梯度和鏈?zhǔn)椒▌to

鏈?zhǔn)椒▌t鏈?zhǔn)椒▌t是復(fù)合函數(shù)求導(dǎo)數(shù)的性質(zhì),其定義如下:如果某個(gè)函數(shù)由復(fù)合函數(shù)表示,則該復(fù)合函數(shù)的導(dǎo)數(shù)可以用構(gòu)成復(fù)合函數(shù)的各個(gè)函數(shù)的導(dǎo)數(shù)的乘積表示。以一元函數(shù)為例,為了求z對(duì)x的導(dǎo)數(shù),使用鏈?zhǔn)椒▌t,先求z對(duì)y的導(dǎo)數(shù),再求y對(duì)x的導(dǎo)數(shù),再將兩個(gè)導(dǎo)數(shù)相乘,即為z對(duì)x的導(dǎo)數(shù):推廣到多輸入多輸出的函數(shù):要求h對(duì)x的偏導(dǎo),同樣地運(yùn)用鏈?zhǔn)椒▌t,先求h對(duì)z的偏導(dǎo)以及z對(duì)x的偏導(dǎo),兩者都可以表示成雅可比矩陣,再將矩陣相乘,得到最終的結(jié)果。o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

神經(jīng)網(wǎng)絡(luò)訓(xùn)練前向傳播和反向傳播o

計(jì)算圖計(jì)算圖能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)的計(jì)算過(guò)程以圖形化的方式呈現(xiàn)。在這個(gè)圖中,源節(jié)點(diǎn)表示網(wǎng)絡(luò)的輸入,內(nèi)部節(jié)點(diǎn)表示各種計(jì)算操作,有向邊用于傳遞各節(jié)點(diǎn)計(jì)算出的值,同時(shí)存儲(chǔ)當(dāng)前計(jì)算操作得到的值。按照有向邊的方向進(jìn)行順序計(jì)算,就能得到神經(jīng)網(wǎng)絡(luò)的輸出值,這個(gè)過(guò)程稱(chēng)為前向傳播。反向傳播的過(guò)程則是沿著計(jì)算圖相反的方向進(jìn)行計(jì)算,計(jì)算每個(gè)參數(shù)的梯度,從而在優(yōu)化過(guò)程中更新這些參數(shù)。通過(guò)反向傳播,神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)調(diào)整權(quán)重和偏置,使得模型的預(yù)測(cè)與實(shí)際結(jié)果更加接近,從而提高整體性能。單個(gè)節(jié)點(diǎn)的反向傳播:下游梯度=上游梯度×本地梯度

神經(jīng)網(wǎng)絡(luò)訓(xùn)練前向傳播和反向傳播o

計(jì)算圖計(jì)算過(guò)程示例前向傳播反向傳播o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2

神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要先將訓(xùn)練數(shù)據(jù)輸入模型中,通過(guò)前向傳播計(jì)算預(yù)測(cè)值,然后計(jì)算損失函數(shù),并通過(guò)反向傳播調(diào)整模型參數(shù),以最小化損失。這一過(guò)程使用合適的優(yōu)化算法來(lái)更新模型的權(quán)重和偏置。以卷積神經(jīng)網(wǎng)絡(luò)為例,使用MNIST數(shù)據(jù)集完成手寫(xiě)數(shù)字識(shí)別任務(wù),使用PyTorch框架來(lái)演示訓(xùn)練神經(jīng)網(wǎng)絡(luò)的具體流程。(1)導(dǎo)入必要的庫(kù)

神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例(2)定義一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)模型,包括卷積層、激活函數(shù)、池化層和全連接層。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例(3)加載數(shù)據(jù)集并進(jìn)行數(shù)據(jù)預(yù)處理,將圖像轉(zhuǎn)換為T(mén)ensor格式并進(jìn)行歸一化。(4)定義損失函數(shù)和優(yōu)化器,損失函數(shù)使用交叉熵?fù)p失函數(shù),優(yōu)化器使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

PyTorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例(5)進(jìn)行模型訓(xùn)練,迭代數(shù)據(jù)集,計(jì)算損失,反向傳播更新模型參數(shù)。o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2https:///jittor/深度學(xué)習(xí)框架https:///11主流深度學(xué)習(xí)框架https://keras.io//https:////https:///https://www.tensorflow.org/o

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)l

神經(jīng)網(wǎng)絡(luò)l

卷積神經(jīng)網(wǎng)絡(luò)o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經(jīng)網(wǎng)絡(luò)訓(xùn)練l

梯度和鏈?zhǔn)椒▌tl

前向傳播和反向傳播l

訓(xùn)練神經(jīng)網(wǎng)絡(luò)示例o

深度學(xué)習(xí)框架l

主流深度學(xué)習(xí)框架l

框架選擇和優(yōu)缺點(diǎn)比較o

思考

目錄2深度學(xué)習(xí)框架

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論