理解準(zhǔn)確率、精確率、召回率等評(píng)價(jià)指標(biāo)含義以及在SVM模型中的應(yīng)用_第1頁(yè)
理解準(zhǔn)確率、精確率、召回率等評(píng)價(jià)指標(biāo)含義以及在SVM模型中的應(yīng)用_第2頁(yè)
理解準(zhǔn)確率、精確率、召回率等評(píng)價(jià)指標(biāo)含義以及在SVM模型中的應(yīng)用_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、理解準(zhǔn)確率、精確率、召回率等評(píng)價(jià)指標(biāo)含義以及在模型中的應(yīng)用目錄一、混淆矩陣混淆矩陣(ConfusionMatrix)是評(píng)估模型結(jié)果的指標(biāo),屬于模型評(píng)估的一部分,如下圖所示。實(shí)際表現(xiàn)10預(yù)測(cè)1TPFP表現(xiàn)0FNTN如果用T(True)代表正確、F(False)代表錯(cuò)誤、P(Positive)代表1、N(Negative)代表0,則:TP:正確的匹配數(shù)目FP:誤報(bào),沒(méi)有的匹配不正確FN:漏報(bào),沒(méi)有找到正確匹配的數(shù)目TN:正確的非匹配數(shù)目二、實(shí)例分析下面,我們用R語(yǔ)言對(duì)練習(xí)數(shù)據(jù)進(jìn)行分析處理建立支持向量機(jī)模型,分別使用準(zhǔn)確率、精確率、召回率、F值、AUC這幾個(gè)評(píng)價(jià)其結(jié)果進(jìn)行評(píng)價(jià)。以練習(xí)實(shí)例來(lái)分別解釋各

2、評(píng)價(jià)指標(biāo)的具體含義。#讀入數(shù)據(jù)data=read.csv(D:/桌面/shujv/credit.csv,header=T)summary(data)#缺失值處理data=datacomplete.cases(data),#剔除重復(fù)項(xiàng)data=data!duplicated(data),#區(qū)分訓(xùn)練集測(cè)試集split=sample(nrow(data),nrow(data)*(7/10),replace=F)data_train=datasplit,#訓(xùn)練集data_test=data-split,#測(cè)試集str(data_train)#支持向量機(jī)library(e1071)data_train$

3、是否按期還款=as.factor(data_train$否按期還款)svm1=svm(是否按期還款.,data_train)#建立svm模型summary(svm1)pre_svm1=predict(svm1,data_test)#準(zhǔn)確率confusematrixs=table(data_test$是否按期還款,pre_svm1)confusematrixsp1=sum(diag(confusematrixs)/sum(confusematrixs)p1#計(jì)算精確率,召回率和F值library(ROSE)accuracy.meas(data_test$是否按期還款,pre_svm1)#計(jì)算AU

4、Croc.curve(data_test$否按期還款,pre_svm1,plotit=F)1、準(zhǔn)確率(Accuracy準(zhǔn)確率(Accuracy):是正確結(jié)果占總樣本的百分比。因此,準(zhǔn)確率(正確率)=所有預(yù)測(cè)正確的樣本/總的樣本理*準(zhǔn)確率ccnlase-izjitr1xse-tibl-1cUita匚是舌按躱1政umLJ上圖所示是利用R語(yǔ)言對(duì)SVM模型準(zhǔn)確率的計(jì)算結(jié)果,圖中混淆矩陣可計(jì)算出準(zhǔn)確率為:(29+184)/(19+78+9+184)=0.71雖然準(zhǔn)確率能夠判斷總的正確率,但當(dāng)正負(fù)樣本不均衡的情況下,并不能作為很好的指標(biāo)來(lái)衡量結(jié)果。如:樣本集中有90個(gè)正樣本,10個(gè)負(fù)樣本這種樣本嚴(yán)重不均衡

5、的情況下,得到的高準(zhǔn)確率沒(méi)有任何意義,此時(shí)準(zhǔn)確率就會(huì)失效。2精確率(recisio)精確率(Precision):又叫“查精率”,是針對(duì)預(yù)測(cè)結(jié)果而言的,指在所有被預(yù)測(cè)為正的樣本中,實(shí)際為正的樣本概率。換句是在預(yù)測(cè)為正的結(jié)果中,有多少把握能預(yù)測(cè)正確。因此,精確率=實(shí)際預(yù)測(cè)為正的樣本/所有被預(yù)測(cè)為正的樣本。精確率和準(zhǔn)確率看上去有些類似,但卻是兩個(gè)完全不同的概念。精確率代表對(duì)正樣本結(jié)果中的預(yù)測(cè)準(zhǔn)確程度,準(zhǔn)確率則代表整體的預(yù)測(cè)準(zhǔn)確程度,其中包括正樣本和負(fù)樣本。3召回率(Recal)召回率(Recall):又叫“查全率”,是針對(duì)原樣本而言的,指在實(shí)際為正的樣本中被預(yù)測(cè)為正的樣本概率。召回率=預(yù)測(cè)為正的樣

6、本/實(shí)際為正的樣本。比如對(duì)于地震的預(yù)測(cè),我們希望每次地震都能被預(yù)測(cè)出來(lái),這個(gè)時(shí)候可以犧牲precision。假如一共發(fā)生了10次地震,我們情愿發(fā)出1000次警報(bào),這樣能把這10次地震都涵蓋進(jìn)去(此時(shí)recall是100%,precision是1%),也不要發(fā)出100次警報(bào),其中有8次地震給預(yù)測(cè)到了,但漏了2次(此時(shí)recall是80%,precision是8%)。4、F值F值是權(quán)衡召回率與精確率的指標(biāo),為召回率和精確率的調(diào)和平均值。n科憎砂空、馬回車、GBJL1;肚Bpoax氏匕筈七_(dá)皿日窗理否袪期還載*pi:edlsz-ed-EuokfamvIimi.口X*0-勺卩才廳鼻盅中門乍n.d3recallil.OD上圖所示為本例中支持向量機(jī)模型的精確率、召回率與F值:當(dāng)設(shè)定閾值0.5時(shí),精確率等于0.643,說(shuō)明有部分被誤分為正類的樣本。召回率等于1意味著沒(méi)有被誤分為負(fù)類的樣本。0.391的F值說(shuō)明模型整體精度很低。5、AUCAUC用于判斷模型的優(yōu)劣,表示ROC中曲線下的面積AUC的值一般是介于0.5和1之間的,評(píng)判標(biāo)準(zhǔn)可參考如下0.5-0.7:效果較低。0.7-0.85:效果一般。0.85-0.95:效果很好。0.95-1:效果

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論