




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、模型評價指標(biāo)-分類和回歸任務(wù)根據(jù)模型處理的任務(wù)不同,評價標(biāo)準(zhǔn)也不同,分類任務(wù)和回歸任務(wù)的評價指標(biāo)如下:分類:accuracy、誤分類率、precision、recall、F1score、ROC曲線、AUC、PR曲線、AP、mAP等;回歸:RMSE、MSE、MAE、MAPE、SMAPE;1.混淆矩陣(ConfusionMatrix)混淆矩陣是能夠比較全面的反映模型的性能,從混淆矩陣能夠衍生出很多的指標(biāo)來。真實情況預(yù)測結(jié)果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)其中:TP:真正例,實際為正預(yù)測為正;FP:假正例,實際為負(fù)但預(yù)測為正;FN:假反例,實際為正但預(yù)測為負(fù);
2、TN:真反例,實際為負(fù)預(yù)測為負(fù)sklearn.metrics.confusion_matrix(y_true,y_pred,labels=None,sample_weight=None)fromsklearn.metricsimportconfusion_matrixy_true=2,0,2,2,0,1y_pred=0,0,2,2,0,2confusion_matrix(y_true,y_pred)array(2,0,0,0,0,1,1,0,2)y_true=cat,ant,cat,cat,ant,birdy_pred=ant,ant,cat,cat,ant,catconfusion_matr
3、ix(y_true,y_pred,labels=ant,bird,cat)array(2,0,0,0,0,1,1,0,2)2.準(zhǔn)確率(正確率)(Accuracy)準(zhǔn)確率是分類正確的樣本占總樣本個數(shù)的比例,即為總樣本個數(shù)。為被正確分類的樣本個數(shù),其中,根據(jù)ConfusionMatrix,公式還可以這樣寫:準(zhǔn)確率是分類問題中最簡單直觀的評價指標(biāo),但存在明顯的缺陷。比如如果樣本中有99%的樣本為正樣本,那么分類器只需要一直預(yù)測為正,就可以得到99%的準(zhǔn)確率,但其實際性能是非常低下的。也就是說,當(dāng)不同類別樣本的比例非常不均衡時,占比大的類別往往成為影響準(zhǔn)確率的最主要因素。sklearn.metrics
4、.accuracy_score(y_true,y_pred,normalize=True,sample_weight=None)fromsklearn.metricsimportaccuracy_scorey_pred=0,2,1,3y_true=0,1,2,3accuracy_score(y_true,y_pred)0.5accuracy_score(y_true,y_pred,normalize=False)2#在具有二元標(biāo)簽指示符的多標(biāo)簽分類案例中importnumpyasnpaccuracy_score(np.array(0,1,1,1),np.ones(2,2)0.5因為準(zhǔn)確率的缺陷
5、比較明顯,所以在多分類問題中一般不直接使用整體的分類準(zhǔn)確率,而是使用每個類別下的樣本準(zhǔn)確率的算術(shù)平均作為模型的評估指標(biāo)。精確率、查準(zhǔn)率(精準(zhǔn)率)精確率指模型預(yù)測為正的樣本中實際也為正的樣本占被預(yù)測為正的樣本的比例。公式為:sklearn.metrics.precision_score(y_true,y_pred,labels=None,pos_label=1,average=binary,sample_weight=None)重要參數(shù)y_true:維數(shù)組,或標(biāo)簽指示符/稀疏矩陣,實際(正確的)標(biāo)簽.y_pred:維數(shù)組,或標(biāo)簽指示符/稀疏矩陣,分類器返回的預(yù)測標(biāo)簽.average:字符串,可選
6、值為None,binary,micro,macro,samples,weighted.多類或者多標(biāo)簽?zāi)繕?biāo)需要這個參數(shù).如果為None,每個類別的分?jǐn)?shù)將會返回否則,它決定了數(shù)據(jù)的平均值類型.binary:僅報告由pos_label指定的類的結(jié)果這僅適用于目示是二進(jìn)制的情況.micro:通過計算總的真正性、假負(fù)性和假正性來全局計算指標(biāo).macro:為每個標(biāo)簽計算指標(biāo),找到它們未加權(quán)的均值.它不考慮標(biāo)簽數(shù)量不平衡的情況.weighted:為每個標(biāo)簽計算指標(biāo),并通過各類占比找到它們的加權(quán)均值(每個標(biāo)簽的正例數(shù))它解決了macro的標(biāo)簽不平衡問題;它可以產(chǎn)生不在精確率和召回率之間的F-score.sam
7、ples:為每個實例計算指標(biāo),找到它們的均值(只在多標(biāo)簽分類的時候有意義,并且和函數(shù)accuracy_score不同).sample_weight:形狀為樣本數(shù)量的數(shù)組,可選參數(shù)樣本權(quán)重.fromsklearn.metricsimportprecision_scorey_true=0,1,2,0,1,2y_pred=0,2,1,0,0,1precision_score(y_true,y_pred,average=macro)0.22.precision_score(y_true,y_pred,average=micro)0.33.precision_score(y_true,y_pred,av
8、erage=weighted)0.22.precision_score(y_true,y_pred,average=None)array(0.66,0.,0.)遴W:題邈MacroAverage宏平均是指在計算均值時使每個類別具有相同的權(quán)重,最后結(jié)果是每個類別的指標(biāo)的算術(shù)平均值。MicroAverage微平均是指計算多分類指標(biāo)時賦予所有類別的每個樣本相同的權(quán)重,將所有樣本合在一起計算各個指標(biāo)。根據(jù)precision_score接口的解釋,我們可以知道,當(dāng)average參數(shù)為None時,得到的結(jié)果是每個類別的precision。上面的y_true有3個類別,分別為類0、類1、類2。我們將每個類別
9、的TP、FP、FN列在下表中。類別TPFPFN類1210類2022類3011那么每個類別的precision也就得到了,如下所示:從而MacroPrecision也就知道了,就是(P0+P1+P2)/3=2/90.222MicroPrecision的計算要從每個樣本考慮,所有樣本中預(yù)測正確的有兩個,那么TP就是2,剩下的4個預(yù)測結(jié)果都可以看做FP,那么MicroPrecision就是2/(2+4)=1/30.333最后還有一個average-weighted的情況,因為這里每個類別的數(shù)量都恰好占比1/3,所以結(jié)果是雖然,我們是主要講精確率的,但是宏平均和微平均的概念也很重要,這里順便對比一下。
10、如果每個類別的樣本數(shù)量差不多,那么宏平均和微平均沒有太大差異如果每個類別的樣本數(shù)量差異很大,那么注重樣本量多的類時使用微平均,注重樣本量少的類時使用宏平均如果微平均大大低于宏平均,那么檢查樣本量多的類來確定指標(biāo)表現(xiàn)差的原因如果宏平均大大低于微平均,那么檢查樣本量少的類來確定指標(biāo)表現(xiàn)差的原因查全率(召回率)召回率指實際為正的樣本中被預(yù)測為正的樣本所占實際為正的樣本的比例。sklearn中recall_score方法和precision_score方法的參數(shù)說明都是一樣的,所以這里不再重復(fù)sklearn.metrics.recall_score(y_true,y_pred,labels=None,
11、pos_label=1,average=binary;sample_weight=None)fromsklearn.metricsimportrecall_scorey_true=0,1,2,0,1,2y_pred=0,2,1,0,0,1recall_score(y_true,y_pred,average=macro)0.33.recall_score(y_true,y_pred,average=micro)0.33.recall_score(y_true,y_pred,average=weighted)0.33.recall_score(y_true,y_pred,average=None)
12、array(1.,0.,0.)Recall和Precision只有計算公式不同,它們average參數(shù)為macro,micro,weighted和None時的計算方式都是相同的,具體計算可以使用上節(jié)列出來的TP、FP、FN表,這里不再贅述。查準(zhǔn)率和查全率是一對矛盾的度量。一般來說,查準(zhǔn)率高時,查全率往往偏低;而查全率高時,查準(zhǔn)率往往偏低。通常只有在一些簡單任務(wù)中,才可能使二者都很高。F1scoreF1score是精確率和召回率的調(diào)和平均值,計算公式為:Precision體現(xiàn)了模型對負(fù)樣本的區(qū)分能力,Precision越高,模型對負(fù)樣本的區(qū)分能力越強(qiáng);Recall體現(xiàn)了模型對正樣本的識別能力,R
13、ecall越高,模型對正樣本的識別能力越強(qiáng)。F1score是兩者的綜合,F(xiàn)1score越高,說明模型越穩(wěn)健。sklearn中fl_score方法和precision_score方法、recall_score方法的參數(shù)說明都是一樣sklearn.metrics.f1_score(y_true,y_pred,labels=None,pos_label=1,average=binary,sample_weight=None)fromsklearn.metricsimportf1_scorey_true=0,1,2,0,1,2y_pred=0,2,1,0,0,1f1_score(y_true,y_pr
14、ed,average=macro)0.26f1_score(y_true,y_pred,average=micro)0.33f1_score(y_true,y_pred,average=weighted)0.26f1_score(y_true,y_pred,average=None)array(0.8,0.,0.)P-R曲線P-R曲線的P就是查準(zhǔn)率(Precision),R就是查全率(Recall)。以P作為橫坐標(biāo),R作為縱坐標(biāo),就可以畫出P-R曲線。對于同一個模型,通過調(diào)整分類閾值,可以得到不同的P-R值,從而可以得到一條曲線(縱坐標(biāo)為P,橫坐標(biāo)為R)。通常隨著分類閾值從大到小變化(大于閾值
15、認(rèn)為P),Precision減小Recall增加。比較兩個分類器好壞時,顯然是查得又準(zhǔn)又全的比較好,也就是的PR曲線越往坐標(biāo)(1,1)的位置靠近越好。若一個學(xué)習(xí)器的P-R曲線被另一個學(xué)習(xí)器完全”包住”,則后者的性能優(yōu)于前者。當(dāng)存在交叉時,可以計算曲線圍住面積,不太容易判斷,但是可以通過平衡點(diǎn)(查準(zhǔn)率=查全率,Break-EvenPoint,BEP)來判斷。下圖中,基于BEP的比較,可以認(rèn)為模型A優(yōu)于模型B。IH#ROC曲線和AUCAUC(AreaUndertheROCCurve)指標(biāo)是在二分類問題中,模型評估階段常被用作最重要的評估指標(biāo)來衡量模型的穩(wěn)定性。根據(jù)混淆矩陣,我們可以得到另外兩個指標(biāo)
16、:真正例率,TruePositiveRate:tpr=TP/(TP+FN)假正例率,F(xiàn)alsePostiveRate:FPR=FP/(TN+FP)另外,真正率是正確預(yù)測到的正例數(shù)與實際正例數(shù)的比值,所以又稱為靈敏度(敏感性sensitive);對應(yīng)于靈敏度有一個特異度(特效性specificity)是正確預(yù)測到的負(fù)例數(shù)與實際負(fù)例數(shù)的比值(NPV=TN/(TN+FN)。我們以真正例率(TPR)作為縱軸,以假正例率(FPR)作為橫軸作圖,便得到了ROC曲線,而AUC則是ROC曲線下的面積AUC的取值為0.5-1,0.5對應(yīng)于對角線的“隨機(jī)猜測模型”。10080.60.40.2“仍010.0.A1.
17、0AUC值是一個概率值,當(dāng)你隨機(jī)挑選一個正樣本以及負(fù)樣本,當(dāng)前的分類算法根據(jù)計算得到的Score值將這個正樣本排在負(fù)樣本前面的概率就是AUC值,AUC值越大,當(dāng)前分類算法越有可能將正樣本排在負(fù)樣本前面,從而能夠更好地分類。例如一個模型的AUC是0.7,其含義可以理解為:給定一個正樣本和一個負(fù)樣本,在70%的情況下,模型對正樣本的打分(概率)高于對負(fù)樣本的打分。那么為什么要用AUC作為二分類模型的評價指標(biāo)呢?為什么不直接通過計算準(zhǔn)確率來對模型進(jìn)行評價呢?因為機(jī)器學(xué)習(xí)中的很多模型對于分類問題的預(yù)測結(jié)果大多是概率,即屬于某個類別的概率,如果計算準(zhǔn)確率的話,就要把概率轉(zhuǎn)化為類別,這就需要設(shè)定一個閾值,
18、概率大于某個閾值的屬于一類,概率小于某個閾值的屬于另一類,而閾值的設(shè)定直接影響了準(zhǔn)確率的計算。也就是說AUC越高說明閾值分割所能達(dá)到的準(zhǔn)確率越高。PR曲線與ROC曲線對比與PR曲線相比,相對來講ROC曲線會更穩(wěn)定,在正負(fù)樣本量都足夠的情況下,ROC曲線足夠反映模型的判斷能力。而在正負(fù)樣本分布得極不均勻(highlyskeweddatasets)的情況下(正樣本極少),PRC比ROC能更有效地反映分類器對于整體分類情況的好壞??傊?,只畫一個曲線時,如果沒有dataimbalance,傾向于用ROC(更簡潔,更好理解)。如果數(shù)據(jù)樣本不均衡,分兩種情況:情況1:如正樣本遠(yuǎn)小于負(fù)樣本,PRC更敏感,因
19、為用到了precision=(TP/(TP+FP)。情況2:正樣本遠(yuǎn)大于負(fù)樣本,PRC和ROC差別不大,都不敏感。對于同一模型,PRC和ROC曲線都可以說明一定的問題,而且二者有一定的相關(guān)性,如果想評測模型效果,也可以把兩條曲線都畫出來綜合評價。均方誤差MSE(MeanSquareError)假設(shè):預(yù)測值:真實值:均方誤差(MeanSquareError)范圍0,+8),當(dāng)預(yù)測值與真實值完全吻合時等于0,即完美模型;誤差越大,該值越大。10.均方根誤差RMSE(RootMeanSquareError)均方根誤差(RootMeanSquareError),其實就是MSE加了個根號,這樣數(shù)量級上比
20、較直觀,比如RMSE=10,可以認(rèn)為值平均相差10。范圍0,+8),當(dāng)預(yù)測值與真實值完全吻合時等于0,即完美模型;誤差越大,該值越大。11.平均絕對誤差MAE(MeaiAbsoluteError)范圍0,+8),當(dāng)預(yù)測值與真實值完全吻合時等于0,即完美模型;誤差越大,該值越大。12.平均絕對百分比誤差MAPE(MeanAbsolutePercentageError)范圍0,+8),MAPE為0%表示完美模型,MAPE大于100%則表示劣質(zhì)模型??梢钥吹?,MAPE跟MAE很像,就是多了個分母。注意點(diǎn):當(dāng)真實值有數(shù)據(jù)等于0時,存在分母0除問題,該公式不可用!13.對稱平均絕對百分比誤差SMAPE(SymmetricMeanAbsolutePercentageError)注意點(diǎn):當(dāng)真實值有數(shù)據(jù)等于0,而預(yù)測值也
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度公司對公司知識產(chǎn)權(quán)質(zhì)押借款協(xié)議
- 2025年度公益基金會災(zāi)害預(yù)防合作框架
- 億渡數(shù)據(jù):中國康復(fù)行業(yè)短報告
- 2025年度影視作品演員出演合同樣本
- 2025年度區(qū)塊鏈技術(shù)應(yīng)用增資擴(kuò)股協(xié)議
- 2025年度快遞配送與快遞網(wǎng)點(diǎn)建設(shè)合同
- 2025年度房產(chǎn)過戶房地產(chǎn)經(jīng)紀(jì)人服務(wù)協(xié)議
- 2025年度農(nóng)村鄰居土地界限確權(quán)與使用協(xié)議書
- 二零二五年度礦山股份合作協(xié)議書:礦山生態(tài)環(huán)境保護(hù)與修復(fù)
- 2025年度賓館客房客房服務(wù)員培訓(xùn)與勞務(wù)服務(wù)合同
- 主動脈夾層的護(hù)理-ppt課件
- GB∕T 3836.31-2021 爆炸性環(huán)境 第31部分:由防粉塵點(diǎn)燃外殼“t”保護(hù)的設(shè)備
- 高新技術(shù)企業(yè)認(rèn)定申請書樣例與說明
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter6 Tree
- 高壓氧科工作總結(jié)高壓氧科個人年終總結(jié).doc
- 《政治學(xué)概論》教學(xué)大綱
- 橋梁缺陷與預(yù)防
- 食品生物化學(xué)習(xí)題謝達(dá)平(動態(tài))
- 保安員工入職登記表
- 睿達(dá)RDCAM激光雕刻切割軟件V5.0操作說明書
- 機(jī)械設(shè)計基礎(chǔ)平面連桿機(jī)構(gòu)課件
評論
0/150
提交評論