損失函數(shù)｜交叉熵損失函數(shù)

上傳人：小*** IP屬地：天津上傳時間：2022-07-27 格式：DOC 頁數(shù)：3 大?。?26.50KB 積分：15 舉報 版權申訴

全文預覽已結束

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、損失函數(shù)丨交叉熵損失函數(shù)SMRESPROBABILfTlESONEHOT2.01.00.11交叉熵(CrossEntropy)一F=0.7CROSSENIBOPHY0考慮一種情況，對于一個樣本集，存在兩個概率分布$p(x)$和$q($p$x)其中真實分布q(x)$為非真實分權于真實分布$p(x)$我們可以計算這個樣本集的信息熵也就是編碼長度的期望為：$H(p)=-sumlimits_xp(x)logp(x)$回顧一下負對數(shù)項表征了所含的信息量，如果我們用非真實分布$q(x)$來代表樣本集的信息量的話，那么：$H(p,q)=-sumlimits_xp(x)logq(x)$因為其中表示信息量的項來

2、自于非真實分布$q(x)$，而對其期望值的計算采用的是真實分布$p(x)$,所以稱其為交叉熵。CrossEntropy損失函數(shù)常用于分類問題中，但是為什么它會在分類問題中這么有效呢？先從一個簡單的分類例子來入手。2預測政治傾向例子我們希望根據(jù)一個人的年齡、性別、年收入等相互獨立的特征，來預測一個人的政治傾向，有三種可預測結果：民主黨、共和黨、其他黨。假設我們當前有兩個邏輯回歸模型(參數(shù)不同)，這兩個模型都是通過Sigmoid的方式得到對于每個預測結果的概率值：模型1CompuiscCornet?0.30.30.4C01(民主更)IE10.30.40.3c-10(共和黨)0.1C.20.7100

3、淇地黨模型1對于樣本1和樣本2以非常微弱的優(yōu)勢判斷正確，對于樣本3的判斷則徹底錯誤。模型2ComputedTargetsCornet?0.10.20.7001(民主黨)0.10.70.2010(共和創(chuàng)0.30.40.3100(其地黨)WiS模型2對于樣本1和樣本2判斷非常準確，對于樣本3判斷錯誤，但是相對來說沒有錯得太離譜。有了模型之后，需要通過定義損失函數(shù)來判斷模型在樣本上的表現(xiàn)，那么可以定義哪些損失函數(shù)呢？3損失函數(shù)分類錯誤率(ClassificationE)ror分類錯誤率是最為直接的損失函數(shù)，定義為：$largeclassificationquaderror=fraccountquad

4、ofquaderrorquaditemscountquadofquadallquaditems$模型1：$largetextclassificationerror=frac13$模型2：$largetextclassificationerror=frac13$模型1和模型2雖然都是預測錯了1個，但是相對來說模型2表現(xiàn)得更好，損失函數(shù)值照理來說應該更小。但是，$textclassificationerror$并不能判斷出來，所以這種損失函數(shù)雖然好理解，但表現(xiàn)不太好。均方誤差(MeanSquaredError)均方誤差損失也是一種比較常見的損失函數(shù)，其定義為：$MSE=frac1nsumlimit

5、s_iAnleft(haty_iy_iright)A2$模型1：$beginarrayltextsample1textloss=(0.3-0)人2+(0.3-0)人2+(0.4-1)人2=0.54textsample2operatornameloss=(0.3-0)A2+(0.4-1)A2+(0.3-0)A2=0.54textsample3textloss=(0.1-1)A2+(0.2-0)A2+(0.7-0)A2=1.34endarray$對所有樣本的$loss$求平均：$largeMSE=frac0.54+0.54+1.343=0.81$模型2:$beginarrayltextsample

6、1textloss=(0.1-0)人2+(0.2-0)人2+(0.7-1)人2=0.14textsample2operatornameloss=(0.1-0)人2+(0.7-1)人2+(0.2-0)人2=0.14textsample3operatornameloss=(0.3-1)人2+(0.4-0)人2+(0.3-0)人2=0.74endarray$對所有樣本的$loss$求平均：$MSE=frac0.14+0.14+0.743=0.34$顯然MSE能夠判斷出來模型2優(yōu)于模型1,那為什么不采樣這種損失函數(shù)呢？主要原因是邏輯回歸配合MSE損失函數(shù)時，采用梯度下降法進行學習時，會出現(xiàn)模型一開始訓

7、練時，學習速率非常慢的情況(MSE損失函數(shù))。有了上面的直觀分析，可以清楚的看到，對于分類問題的損失函數(shù)來說，分類錯誤率和均方誤差損失都不是很好的損失函數(shù)，下面我們來看一下交叉熵損失函數(shù)的表現(xiàn)情況。交叉熵損失函數(shù)(CrossEntropyLossFunction二分類在二分的情況下，模型最后需要預測的結果只有兩種情況，對于每個類別我們的預測得到的概率為$p$和$1-p$，此時表達式為：$L=frac1Nsumlimits_iL_i=frac1Nsumlimits_i-lefty_icdotlogleft(p_iright)+left(1-y_iright)cdotlogleft(1-p_iri

8、ght)right$其中：-$y_i$表示樣本$i$的$label$,正類為$1$,負類為$0$。-$p_i$表示樣本$i$預測為正類的概率。多分類多分類的情況實際上就是對二分類的擴展：$L=frac1Nsumlimits_iL_i=frac1Nsumlimits_i-sumlimits_c=1AMy_iclogleft(p_icright)$其中：-$M$類別的數(shù)量-$y_ic$符號函數(shù)$(0或1)$,如果樣本$i$的真實類別等于$c$取$1$,否則取$0$。-$p_ic$觀測樣本$i$屬于類別$c$的預測概率現(xiàn)在我們利用這個表達式計算上面例子中的損失函數(shù)值：模型1：$beginarrayl

9、textsample1textloss=-(0timeslog0.3+0timeslog0.3+1timeslog0.4)=0.91textsample2textloss=-(0timeslog0.3+1timeslog0.4+0timeslog0.3)=0.91textsample3textloss=-(1timeslog0.1+0timeslog0.2+0timeslog0.7)=2.30endarray$對所有樣本的$loss$求平均：$largeL=frac0.91+0.91+2.33=1.37$模型2:$beginarrayltextsample1textloss=-(0timesl

10、og0.1+0timeslog0.2+1timeslog0.7)=0.35textsample2textloss=-(0timeslog0.1+1timeslog0.7+0timeslog0.2)=0.35textsample3textloss=-(1timeslog0.3+0timeslog0.4+0timeslog0.4)=1.20endarray$對所有樣本的$loss$求平均：$largeL=frac0.35+0.35+1.23=0.63$可以發(fā)現(xiàn)，交叉熵損失函數(shù)可以捕捉到模型1和模型2預測效果的差異。交叉熵損失函數(shù)經(jīng)常用于分類問題中，特別是在神經(jīng)網(wǎng)絡做分類問題時，也經(jīng)常使用交叉熵作為

11、損失函數(shù)，此外，由于交叉熵涉及到計算每個類別的概率，所以交叉熵幾乎每次都和Sigmoid(或Softmax)函數(shù)一起出現(xiàn)。我們用神經(jīng)網(wǎng)絡最后一層輸出的情況，來看一眼整個模型預測、獲得損失和學習的流程：神經(jīng)網(wǎng)絡最后一層得到每個類別的得分（也叫）；該得分經(jīng)過或函數(shù)獲得概率輸出；模型預測的類別概率輸出與真實類別的形式進行交叉熵損失函數(shù)的計算。學習任務分為二分類和多分類情況，我們分別討論這兩種情況的學習過程。5.1二分類情況WSCOPES勺GMOEPROBABILITIESCRETOPHYONEHO-se=1.8*必尸亓藥一叮D.14一中-忱也護i+l-y加卵劇0如上圖所示，求導過程可分成三個子過程，

12、即拆成三項偏導的乘積：$argefracpartialL_ipartialw_i=frac1NfracpartialL_ipartialw_i=frac1NfracpartialL_ipartalp_icdotfracpartialp_ipartfels_icdotfracpartials_ipartialw_i$計算第一項:$largefracpartialL_ipartialp_i$largeL_i=-lefty_icdotlogleft(p_iright)+left(1-y_iright)cdotlogleft(1-p_iright)、right$其中：-$y_i$表示樣本$i$的$la

13、bel$,正類為$1$,負類為$0$。-$p_i$表示樣本$i$預測為正類的概率。$largebeginalignedfracpartialL_ipartialp_i&=fracpartial-lefty_icdotlogleft(p_iright)+left(1-y_iright)cdotlogleft(1-p_iright)rightpartialp_i&=-fracy_ip_i-leftleft(1-y_iright)cdotfrac11-p_icdot(-1)right&=-fracy_ip_i+frac1-y_i1-p_iendaligned$計算第二項:$largefracpart

14、ialp_ipartials_i$這一項要計算的是Sigmoid函數(shù)對于score的導數(shù)，我們先回顧一下Sigmoid函數(shù)和分數(shù)求導的公式：$largep=sigma(s)=fraceAs1+eAs$largefAprime(x)=fracg(x)h(x)=fracgAprime(x)h(x)-g(x)hAprime(x)hA2(x)$largebeginalignedfracpartialp_ipartials_i&=fracleft(eAs_iright)Aprimecdotleft(1+eAs_iright)-eAs_icdotleft(1+eAs_iright)Aprimeleft(1

15、+eAs_iright)A2&=fraceAs_icdotleft(1+eAs_iright)-eAs_icdoteAs_ileft(1+eAs_iright)A2&=fraceAs_ileft(1+eAs_iright)A2&=fraceAs_i1+eAs_icdotfrac11+eAs_i&=sigmaleft(s_iright)cdotleft1-sigmaleft(s_iright)rightendaligned$計算第三項:$largefracpartials_ipartialw_i$般來說，scores是輸入的線性函數(shù)作用的結果，所以有：$largefracpartials_ipa

16、rtialw_i=x_i$計算結果$largefracpartialipartialw_i$largebeginalignedfracpartialL_ipartialw_i&=fracpartialL_ipartialp_icdotfracpartialp_ipartials_icdotfracpartials_ipartialw_i&=left-fracy_ip_i+frac1-y_i1-p_irightcdotsigmaleft(s_iright)cdotleft1-sigmaleft(s_iright)rightcdotx_i&=left-fracy_isigmaleft(s_irig

17、ht)+frac1-y_i1-sigmaleft(s_iright)rightcdotsigmaleft(s_iright)cdotleft1-sigmaleft(s_iright)rightcdotx_i&=left-fracy_isigmaleft(s_iright)cdotsigmaleft(s_iright)cdotleft(1-sigmaleft(s_iright)right)+frac1-y_i1-sigmaleft(s_iright)cdotsigmaleft(s_iright)cdotleft(1-sigmaleft(s_iright)right)rightcdotx_i&=l

18、eft-y_i+y_icdotsigmaleft(s_iright)+sigmaleft(s_iright)-y_icdotsigmaleft(s_iright)rightcdotx_i&=leftsigmaleft(s_iright)-y_irightcdotx_iendaligned$可以看到，我們得到了一個非常漂亮的結果，所以，使用交叉熵損失函數(shù)，不僅可以很好的衡量模型的效果，又可以很容易的的進行求導計算。6優(yōu)缺點優(yōu)點在用梯度下降法做參數(shù)更新的時候，模型學習的速度取決于兩個值：一、學習率；二、偏導值。其中，學習率是我們需要設置的超參數(shù)，所以我們重點關注偏導值。從上面的式子中，我們發(fā)現(xiàn)，偏導值的大小取決于$x_i$和$sigma(s)-y$，我們重點關注后者，后者的大小值反映了我們模型的錯誤程度，該值越大，說明模型效果越差，但是該值越大同時也會使得偏導值越大，從而模型學習速度更快。所以，使用邏輯函數(shù)得到概率，并結合交叉熵當損失函數(shù)時，在模型效果差的時候學習速度比較快，在模型效果好的時候學習速度變慢。缺點Deng在2019年提出了ArcFaceLoss,并在論文里說了SoftmaxLoss的兩個缺點：1、隨著分類數(shù)目的增大

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

損失函數(shù)｜交叉熵損失函數(shù)

文檔簡介

溫馨提示

最新文檔

評論

損失函數(shù)｜交叉熵損失函數(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關文檔