2022年常用激活函數(shù)

上傳人：新*** IP屬地：河北上傳時(shí)間：2022-11-09 格式：DOCX 頁(yè)數(shù)：12 大?。?50.51KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

常用激活函數(shù)〔鼓勵(lì)函數(shù)〕理解與總結(jié)引言學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的時(shí)候我們總是聽(tīng)到激活函數(shù)這個(gè)詞,而且很多資料都會(huì)提到常用的激活函數(shù),比方Sigmoid函數(shù)、tanh函數(shù)、Relu函數(shù)。那么我們就來(lái)詳細(xì)了解下激活函數(shù)方方面面的知識(shí)。本文的內(nèi)容包含幾個(gè)局部:.什么是激活函數(shù)?.激活函數(shù)的用途〔為什么需要激活函數(shù)〕?.有哪些激活函數(shù),都有什么性質(zhì)和特點(diǎn)?.應(yīng)用中如何選擇適宜的激活函數(shù)?如果你對(duì)以上幾個(gè)問(wèn)題不是很清楚,下面的內(nèi)容對(duì)你是有價(jià)值的。什么是激活函數(shù)?首先要了解神經(jīng)網(wǎng)絡(luò)的根本模型。〔不熟悉的同學(xué)請(qǐng)去看本人其它一篇介紹:人エ神經(jīng)網(wǎng)絡(luò)根本原理〕單一神經(jīng)元模型如下列圖所示。

神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元節(jié)點(diǎn)接受上一層神經(jīng)元的輸出值作為本神經(jīng)元的輸入值,并將輸入值傳遞給下ー層,輸入層神經(jīng)元節(jié)點(diǎn)會(huì)將輸入屬性值直接傳遞給下ー層〔隱層或輸出層〕〇在多層神經(jīng)網(wǎng)絡(luò)中,上層節(jié)點(diǎn)的輸出和下層節(jié)點(diǎn)的輸入之間具有一個(gè)函數(shù)關(guān)系,這個(gè)函數(shù)稱為激活函數(shù)〔又稱鼓勵(lì)函數(shù)〕0激活函數(shù)的用途〔為什么需要激活函數(shù)〕?如果不用鼓勵(lì)函數(shù)〔其實(shí)相當(dāng)于鼓勵(lì)函數(shù)是f(x)=X〕,在這種情況下你每ー層節(jié)點(diǎn)的輸入都是上層輸出的線性函數(shù),很簡(jiǎn)單驗(yàn)證,無(wú)論你神經(jīng)網(wǎng)絡(luò)有多少層,輸出都是輸入的線性組合,與沒(méi)有隱藏層效果相當(dāng),這種情況就是最原始的感知機(jī)(Perceptron)了,那么網(wǎng)絡(luò)的逼近能力就相當(dāng)有限。正因?yàn)樯厦娴脑?我們決定引入非線性函數(shù)作為鼓勵(lì)函數(shù),這樣深層神經(jīng)網(wǎng)絡(luò)表達(dá)能力就更強(qiáng)化大〔不再是輸入的線性組合,而是幾乎可以逼近任意函數(shù)〕〇有哪些激活函數(shù),都有什么性質(zhì)和特點(diǎn)?早期研究神經(jīng)網(wǎng)絡(luò)主要采納sigmoid函數(shù)或者tanh函數(shù),輸出有界,很簡(jiǎn)單充當(dāng)下ー層的輸入。近些年Relu函數(shù)及其改良型〔如Leaky-ReLU、P-ReLU、R-ReLU等〕在多層神經(jīng)網(wǎng)絡(luò)中應(yīng)用比擬多。下面我們來(lái)總結(jié)下這些激活函數(shù):Sigmoid函數(shù)Sigmoid是常用的非線性的激活函數(shù),它的數(shù)學(xué)形式如下:f(z)=n+e-zf(z)=\frac{1}{1+eA{-z}}J(z)=1+e-zlSigmoid的幾何圖像如下:特點(diǎn):它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出,特別的,如果是非常大的負(fù)數(shù),那么輸出就是〇;如果是非常大的正數(shù),輸出就是1.缺點(diǎn):sigmoid函數(shù)曾經(jīng)被使用的很多,不過(guò)近年來(lái),用它的人越來(lái)越少了。主要是因?yàn)樗逃械囊恍┤秉c(diǎn)。缺點(diǎn)1:在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度爆炸和梯度消逝,其中梯度爆炸發(fā)生的概率非常小,而梯度消逝發(fā)生的概率比擬大。首先來(lái)看Sigmoid函數(shù)的導(dǎo)數(shù),如下列圖所示:如果我們初始化神經(jīng)網(wǎng)絡(luò)的權(quán)值為0,110,1]0,1]之間的隨機(jī)值,由反向傳播算法的數(shù)學(xué)推導(dǎo)可知,梯度從后向前傳播時(shí),每傳遞ー層梯度值都會(huì)減小為原來(lái)的0.25倍,如果神經(jīng)網(wǎng)絡(luò)隱層特別多,那么梯度在穿過(guò)多層后將變得非常小接近于。，即出現(xiàn)梯度消逝現(xiàn)象;當(dāng)網(wǎng)絡(luò)權(quán)值初始化為(1,+8)(1,+8)(1,+8)區(qū)間內(nèi)的值,則會(huì)出現(xiàn)梯度爆炸情況。詳纟田數(shù)學(xué)分析見(jiàn)文章:://neuralnetworksanddeeplearninq/chap5.html中文譯文:深度神經(jīng)網(wǎng)絡(luò)為何很難訓(xùn)練缺點(diǎn)2:Sigmoid的output不是。均值〔即zero-centered〕。這是不可取的,因?yàn)檫@會(huì)導(dǎo)致后ー層的神經(jīng)元將得到上一層輸出的非〇均值的信號(hào)作為輸入。產(chǎn)生的一個(gè)結(jié)果就是:如x>0,f=wTx+bx>O,\f=wATx+bx>0,J=wrx+b,那么對(duì)w求局部梯度則都為正,這樣在反向傳播的過(guò)程中w要么都往正方向更新,要么都往負(fù)方向更新,導(dǎo)致有一種捆綁的效果,使得收斂緩慢。當(dāng)然了,如果按batch去訓(xùn)練,那么那個(gè)batch可能得到不同的信號(hào),所以這個(gè)問(wèn)題還是可以緩解一下的。因此,非〇均值這個(gè)問(wèn)題雖然會(huì)產(chǎn)生一些不好的影響,不過(guò)跟上面提到的梯度消逝問(wèn)題相比還是要好很多的。缺點(diǎn)3:其解析式中含有幕運(yùn)算，計(jì)算機(jī)求解時(shí)相對(duì)來(lái)講比擬耗時(shí)。對(duì)于規(guī)模比擬大的深度網(wǎng)絡(luò)，這會(huì)較大地增加訓(xùn)練時(shí)間。tanh函數(shù)tanh函數(shù)解析式:tanh(x)=ex-e-xex+e-xtanh(x)=\frac{eA{x}-eA{-x}}{eA{x}+eA{-x}}tanh(x)=ex+e-xex-e-xtanh函數(shù)及其導(dǎo)數(shù)的幾何圖像如下列圖:tanh(x)dtanh(x)/dxtanh(x)tanh讀作HyperbolicTangent,它解決了Sigmoid函數(shù)的不是zero-centered輸出問(wèn)題,然而,梯度消逝(gradientvanishing)的問(wèn)題和幕運(yùn)算的問(wèn)題仍舊存在。Relu函數(shù)Relu函數(shù)的解析式:Relu=max(〇,x)Relu=max(O,x)He/〃=小以(〇メ)Relu函數(shù)及其導(dǎo)數(shù)的圖像如下列圖所示:ReLU(x)dReLU(x)/dxReLU(x)ReLU函數(shù)其實(shí)就是ー個(gè)取最大值函數(shù),注意這并不是全區(qū)間可導(dǎo)的,但是我們可以取sub-gradient,如上圖所示。ReLU雖然簡(jiǎn)單,但卻是近幾年的重要成果,有以下幾大優(yōu)點(diǎn):1）解決了gradientvanishing問(wèn)題（在正區(qū)間）2）計(jì)算速度非常快,只需要推斷輸入是否大于。3）收斂速度遠(yuǎn)快于sigmoid和tanhReLU也有幾個(gè)需要特別注意的問(wèn)題:ReLU的輸出不是zero-centeredDeadReLUProblem,指的是某些神經(jīng)元可能永遠(yuǎn)不會(huì)被激活,導(dǎo)致相應(yīng)的參數(shù)永遠(yuǎn)不能被更新。有兩個(gè)主要原因可能導(dǎo)致這種情況產(chǎn)生:（1）非常不幸的參數(shù)初始化,這種情況比擬少見(jiàn)⑵learningrate太高導(dǎo)致在訓(xùn)練過(guò)程中參數(shù)更新太大,不幸使網(wǎng)絡(luò)進(jìn)入這種狀態(tài)。解決方法是可以采納Xavier初始化方法,以及防止將!earningrate設(shè)置太大或使用adagrad等自動(dòng)調(diào)節(jié)learningrate的算法。

盡管存在這兩個(gè)問(wèn)題,ReLU目前仍是最常用的activationfunction?在搭建人工神經(jīng)網(wǎng)絡(luò)的時(shí)候推舉優(yōu)先嘗試!LeakyReLU函數(shù)［PReLU)函數(shù)表達(dá)式:f(x)=max(ax,x)f(x)=max(\alphax,x)J(x)=max(axrK)LeakyRelu函數(shù)及其導(dǎo)數(shù)的圖像如下列圖所示:〔有同學(xué)在評(píng)論中反映下列圖有誤,其實(shí)沒(méi)有錯(cuò)誤,左半邊直線斜率非常接近0,所以看起來(lái)像是平的。就不改了,a=0.01\alpha=0.0la=0.01看起來(lái)就是這樣的。感激大家提意見(jiàn)〔有同學(xué)在評(píng)論中反映下列圖有誤,其實(shí)沒(méi)有錯(cuò)誤,左半邊直線斜率非常接近0,所以看起來(lái)像是平的。就不改了,a=0.01\alpha=0.0la=0.01看起來(lái)就是這樣的。感激大家提意見(jiàn)ーA)0.80.60.40.2-6 —4 _2 0人們?yōu)榱私鉀QDeadReLUProblem?提出了將ReLU的前半段設(shè)為ax\alphaxoy而非〇,通常a=0.01\alpha=0.01a=0.01。其它一種直觀的想法是基于參數(shù)的方法,即ParametricReLU:f(x)=max(ax,x)ParametricReLU:f(x)=\max(\alphax,x)ParametricReLU:fix)=max(ax^c),其中a'alphaa可由方向傳播算法學(xué)出來(lái)。理論上來(lái)講(LeakyReLU有ReLU的全部?jī)?yōu)點(diǎn),外加不會(huì)有DeadReLU問(wèn)題,但是在實(shí)際操作當(dāng)中,并沒(méi)有完全證明LeakyReLU總是好于ReLU。ELU(ExponentialLinearUnits)函數(shù)函數(shù)表達(dá)式:f(x)={x,a(ex-l),ifx>Ootherwisef(x)=\begin{cases}x,&\text{if}x>0\\\alpha(eAx-1),&\text{otherwise}\end{cases}y(x)={x,a(ex-l),ifx>Ootherwise函數(shù)及其導(dǎo)數(shù)的圖像如下列圖所示:d*x)/dxELU也是為解決ReLUELU也是為解決ReLU存在的問(wèn)題而提出顯然,ELU有ReLU的根本全部?jī)?yōu)點(diǎn),以及:不會(huì)有DeadReLU問(wèn)題輸出的均值接近0,zero-centered

它的ー個(gè)小問(wèn)題在于計(jì)算量稍大。類(lèi)似于LeakyReLU,理論上雖然好于ReLU,但在實(shí)際使用中目前并沒(méi)有好的證據(jù)ELU總是優(yōu)于ReLU。MaxOut函數(shù)這個(gè)函數(shù)可以參考文章材料《maxoutnetworks》?Maxout是深度學(xué)習(xí)網(wǎng)絡(luò)中的ー層網(wǎng)絡(luò),就像池化層、卷積層ー樣等,我們可以把maxout看成是網(wǎng)絡(luò)的激活函數(shù)層,我們假設(shè)網(wǎng)絡(luò)某ー層的輸入特征向量為:X=[xl,x2，……xd],也就是我們輸入是d個(gè)神經(jīng)元。Maxout隱藏層每個(gè)神經(jīng)元的計(jì)算公式如下:hi(x)=maxzu上面的公式就是maxout隱藏層神經(jīng)元i的計(jì)算公式。其中,k就是maxout層所需要的參數(shù)了,由我們?nèi)藶樵O(shè)定大小。就像dropoutー樣,也有自己的參數(shù)p(每個(gè)神經(jīng)元dropout概率),maxout的參數(shù)是k0公式中Z的計(jì)算公式為:權(quán)重w是ー個(gè)大小為(d,m,k)三維矩陣,b是ー個(gè)大小為(m,k)的二維矩陣,這兩個(gè)就是我們需要學(xué)習(xí)的參數(shù)。如果我們?cè)O(shè)定參數(shù)k=l,那么這個(gè)時(shí)候,網(wǎng)絡(luò)就類(lèi)似于以前我們所學(xué)一般的MLP網(wǎng)絡(luò)。我們可以這么理解,本來(lái)傳統(tǒng)的MLP算法在第i層到第i+1層,參數(shù)只有一組,然而現(xiàn)在我們不這么干了,我們?cè)谶@ー層同時(shí)訓(xùn)練n組的w、b參數(shù),然后選擇激活值Z最大的作為下一層神經(jīng)元的激活值,這個(gè)max[z]函數(shù)即充當(dāng)了激活函數(shù)。應(yīng)用中如何選擇適宜的激活函數(shù)?這個(gè)問(wèn)題目前沒(méi)有確定的方法,憑一些經(jīng)驗(yàn)吧。1〕深度學(xué)習(xí)往往需要大量時(shí)間來(lái)處理大量數(shù)據(jù)模型的收斂速度是尤為重要的。所以,總體上來(lái)講,訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)盡量使用zero-centered數(shù)據(jù)（可以經(jīng)過(guò)數(shù)據(jù)預(yù)處理完成）

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2022年常用激活函數(shù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔