2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò)_第1頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò)_第2頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò)_第3頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò)_第4頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

前饋神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2025內(nèi)容神經(jīng)網(wǎng)絡(luò)神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)計算圖與自動微分優(yōu)化問題神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)最早是作為一種主要的連接主義模型。20世紀(jì)80年代后期,最流行的一種連接主義模型是分布式并行處理(ParallelDistributedProcessing,PDP)網(wǎng)絡(luò),其有3個主要特性:1)信息表示是分布式的(非局部的);2)記憶和知識是存儲在單元之間的連接上;3)通過逐漸改變單元之間的連接強度來學(xué)習(xí)新的知識。引入誤差反向傳播來改進其學(xué)習(xí)能力之后,神經(jīng)網(wǎng)絡(luò)也越來越多地應(yīng)用在各種機器學(xué)習(xí)任務(wù)上。神經(jīng)元生物神經(jīng)元單個神經(jīng)細(xì)胞只有兩種狀態(tài):興奮和抑制video:structureofbrain人工神經(jīng)元一個簡單的線性模型!激活函數(shù)的性質(zhì)連續(xù)并可導(dǎo)(允許少數(shù)點上不可導(dǎo))的非線性函數(shù)??蓪?dǎo)的激活函數(shù)可以直接利用數(shù)值優(yōu)化的方法來學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。激活函數(shù)及其導(dǎo)函數(shù)要盡可能的簡單有利于提高網(wǎng)絡(luò)計算效率。激活函數(shù)的導(dǎo)函數(shù)的值域要在一個合適的區(qū)間內(nèi)不能太大也不能太小,否則會影響訓(xùn)練的效率和穩(wěn)定性。單調(diào)遞增???常見激活函數(shù)非零中心化的輸出會使得其后一層的神經(jīng)元的輸入發(fā)生偏置偏移(biasshift),并進一步使得梯度下降的收斂速度變慢。性質(zhì):飽和函數(shù)Tanh函數(shù)是零中心化的,而logistic函數(shù)的輸出恒大于0常見激活函數(shù)計算上更加高效生物學(xué)合理性單側(cè)抑制、寬興奮邊界在一定程度上緩解梯度消失問題死亡ReLU問題(DyingReLUProblem)常見激活函數(shù)Swish函數(shù)常見激活函數(shù)高斯誤差線性單元(GaussianErrorLinearUnit,GELU)其中P(X≤x)是高斯分布N(μ,σ2)的累積分布函數(shù),其中μ,σ為超參數(shù),一般設(shè)μ=0,σ=1即可由于高斯分布的累積分布函數(shù)為S型函數(shù),因此GELU可以用Tanh函數(shù)或Logistic函數(shù)來近似常見激活函數(shù)及其導(dǎo)數(shù)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)主要由大量的神經(jīng)元以及它們之間的有向連接構(gòu)成。因此考慮三方面:神經(jīng)元的激活規(guī)則主要是指神經(jīng)元輸入到輸出之間的映射關(guān)系,一般為非線性函數(shù)。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)不同神經(jīng)元之間的連接關(guān)系。學(xué)習(xí)算法通過訓(xùn)練數(shù)據(jù)來學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)。網(wǎng)絡(luò)結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元模型構(gòu)成,這種由許多神經(jīng)元組成的信息處理網(wǎng)絡(luò)具有并行分布結(jié)構(gòu)。圓形節(jié)點表示一個神經(jīng)元,方形節(jié)點表示一組神經(jīng)元。前饋神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)(全連接神經(jīng)網(wǎng)絡(luò)、多層感知器)各神經(jīng)元分別屬于不同的層,層內(nèi)無連接。相鄰兩層之間的神經(jīng)元全部兩兩連接。整個網(wǎng)絡(luò)中無反饋,信號從輸入層向輸出層單向傳播,可用一個有向無環(huán)圖表示。前饋網(wǎng)絡(luò)給定一個前饋神經(jīng)網(wǎng)絡(luò),用下面的記號來描述這樣網(wǎng)絡(luò):信息傳遞過程前饋神經(jīng)網(wǎng)絡(luò)通過下面公式進行信息傳播。前饋計算:深層前饋神經(jīng)網(wǎng)絡(luò)通用近似定理根據(jù)通用近似定理,對于具有線性輸出層和至少一個使用“擠壓”性質(zhì)的激活函數(shù)的隱藏層組成的前饋神經(jīng)網(wǎng)絡(luò),只要其隱藏層神經(jīng)元的數(shù)量足夠,它可以以任意的精度來近似任何從一個定義在實數(shù)空間中的有界閉集函數(shù)。應(yīng)用到機器學(xué)習(xí)

神經(jīng)網(wǎng)絡(luò)分類器參數(shù)學(xué)習(xí)應(yīng)用到機器學(xué)習(xí)對于多分類問題如果使用Softmax回歸分類器,相當(dāng)于網(wǎng)絡(luò)最后一層設(shè)置C個神經(jīng)元,其輸出經(jīng)過Softmax函數(shù)進行歸一化后可以作為每個類的條件概率。采用交叉熵?fù)p失函數(shù),對于樣本(x,y),其損失函數(shù)為參數(shù)學(xué)習(xí)

梯度下降

網(wǎng)絡(luò)參數(shù)如何計算梯度?神經(jīng)網(wǎng)絡(luò)為一個復(fù)雜的復(fù)合函數(shù)鏈?zhǔn)椒▌t反向傳播算法根據(jù)前饋網(wǎng)絡(luò)的特點而設(shè)計的高效方法一個更加通用的計算方法自動微分(AutomaticDifferentiation,AD)

矩陣微積分矩陣微積分(MatrixCalculus)是多元微積分的一種表達(dá)方式,即使用矩陣和向量來表示因變量每個成分關(guān)于自變量每個成分的偏導(dǎo)數(shù)。分母布局標(biāo)量關(guān)于向量的偏導(dǎo)數(shù)向量關(guān)于向量的偏導(dǎo)數(shù)鏈?zhǔn)椒▌t鏈?zhǔn)椒▌t(ChainRule)是在微積分中求復(fù)合函數(shù)導(dǎo)數(shù)的一種常用方法。反向傳播算法誤差項計算反向傳播算法計算圖與自動微分計算圖與自動微分自動微分是利用鏈?zhǔn)椒▌t來自動計算一個復(fù)合函數(shù)的梯度。計算圖計算圖當(dāng)x=1,w=0,b=0時,可以得到自動微分前向模式和反向模式反向模式和反向傳播的計算梯度的方式相同如果函數(shù)和參數(shù)之間有多條路徑,可以將這多條路徑上的導(dǎo)數(shù)再進行相加,得到最終的梯度。反向傳播算法(自動微分的反向模式)前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程可以分為以下三步前向計算每一層的狀態(tài)和激活值,直到最后一層反向計算每一層的參數(shù)的偏導(dǎo)數(shù)更新參數(shù)靜態(tài)計算圖和動態(tài)計算圖靜態(tài)計算圖是在編譯時構(gòu)建計算圖,計算圖構(gòu)建好之后在程序運行時不能改變。Theano和Tensorflow動態(tài)計算圖是在程序運行時動態(tài)構(gòu)建。兩種構(gòu)建方式各有優(yōu)缺點。DyNet,Chainer和PyTorch靜態(tài)計算圖在構(gòu)建時可以進行優(yōu)化,并行能力強,但靈活性比較差低。動態(tài)計算圖則不容易優(yōu)化,當(dāng)不同輸入的網(wǎng)絡(luò)結(jié)構(gòu)不一致時,難以并行計算,但是靈活性比較高。如何實現(xiàn)?Gettingstarted:30secondstoKerasfromkeras.modelsimportSequentialfromkeras.layersimportDense,Activationfromkeras.optimizersimportSGDmodel=Sequential()model.add(Dense(output_dim=64,input_dim=100))model.add(Activation("relu"))model.add(Dense(output_dim=10))model.add(Activation("softmax"))pile(loss='categorical_crossentropy',optimizer='sgd',metrics=['accuracy'])model.fit(X_train,Y_train,nb_epoch=5,batch_size=32)loss=model.evaluate(X_test,Y_test,batch_size=32)深度學(xué)習(xí)的三個步驟DeepLearningissosimple……1定義網(wǎng)絡(luò)2損失函數(shù)3優(yōu)化優(yōu)化問題優(yōu)化問題難點參數(shù)過多,影響訓(xùn)練非凸優(yōu)化問題:即存在局部最優(yōu)而非全局最優(yōu)解,影響迭代梯度消失問題,下層參數(shù)比較難調(diào)參數(shù)解釋起來比較困難需求計算資源要大數(shù)據(jù)要多算法效率要好:即收斂快優(yōu)化問題非凸優(yōu)化問題優(yōu)化問題梯度消失問題(VanishingGradientProblem)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論