




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、信用評(píng)分模型在客戶挖掘中的應(yīng)用研究 摘要:文章基于國(guó)內(nèi)某家化妝品公司的客戶數(shù)據(jù)庫(kù)的數(shù)據(jù),采用不同的信用評(píng)分模型進(jìn)行建模,這些模型包括線性判別分析方法、Logistic回歸方法、k階近鄰分類方法(KNN)、Kernel估計(jì)法和支持向量機(jī)(SVMs)等,并對(duì)它們的應(yīng)用進(jìn)行了比較分析,挖掘影響客戶購(gòu)買行為的關(guān)鍵行為屬性,按照既定的評(píng)價(jià)標(biāo)準(zhǔn),對(duì)客戶給予量化評(píng)價(jià),發(fā)現(xiàn)購(gòu)買傾向高的新客戶群,以便進(jìn)行高針對(duì)性的市場(chǎng)營(yíng)銷和推廣。關(guān)鍵詞:信用評(píng)分 判別分析 Logistic回歸 k階近鄰分類 支持向量機(jī)信用評(píng)分的簡(jiǎn)要介紹 信用評(píng)分的目的在于盡量將能夠預(yù)測(cè)借款人未來(lái)行為的指標(biāo)加以整合,并統(tǒng)一成可以比較的單一指標(biāo),
2、以顯示借款人在未來(lái)一特定時(shí)間內(nèi)違約的可能性。所有的信用評(píng)分模型,無(wú)論采用什么理論或方法,其最終目的都是將貸款申請(qǐng)者的信用級(jí)別分類。為達(dá)到分類目的,依據(jù)某種理論,在歷史數(shù)據(jù)基礎(chǔ)上構(gòu)造信用評(píng)分系統(tǒng),然后輸入申請(qǐng)者的相關(guān)指標(biāo)數(shù)據(jù),其信用水平將被評(píng)分系統(tǒng)估算出來(lái)并歸屬為相應(yīng)的信用級(jí)別,為信貸決策提供依據(jù)。作者簡(jiǎn)介:楊梅 (1982),女,漢族,山東菏澤人,中國(guó)科學(xué)技術(shù)大學(xué)統(tǒng)計(jì)與金融系碩士研究生;張曙光,(195?),男,漢族,安徽淮北人,中國(guó)科學(xué)技術(shù)大學(xué)統(tǒng)計(jì)與金融系教授。信用評(píng)分實(shí)質(zhì)上是將一個(gè)總體按照不同的特征分成若干個(gè)不同組的一種方法。這種將總體劃分成不同的組的思想在統(tǒng)計(jì)學(xué)中最早是由Fisher(1
3、936)提出的。David Durand(1941)第一個(gè)意識(shí)到可以用同樣的方法區(qū)分“好”的客戶和“壞”的客戶,從而對(duì)貸款的信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。20世紀(jì)50年代初Bill Fair 和 Earl Isaac在舊金山成立對(duì)信用風(fēng)險(xiǎn)進(jìn)行評(píng)估咨詢機(jī)構(gòu),其客戶大多數(shù)是金融機(jī)構(gòu)及直銷公司。20世紀(jì)60年代后期,隨著信用卡的出現(xiàn)和發(fā)展,銀行及其他信用卡發(fā)卡機(jī)構(gòu)認(rèn)識(shí)到了信用評(píng)分的作用及重要性。當(dāng)這些金融機(jī)構(gòu)利用評(píng)分系統(tǒng)時(shí),他們還同時(shí)發(fā)現(xiàn)信用評(píng)分系統(tǒng)有著比人工主觀判斷更好的預(yù)測(cè)能力利用評(píng)分系統(tǒng)后貸款的違約率降低了50以上(Myers and Forgy,1963)。信用評(píng)分于1975年及1976年在美國(guó)得到了平
4、等機(jī)會(huì)法案的認(rèn)可。 20世紀(jì)80年代隨著信用評(píng)分方法在信用卡領(lǐng)域應(yīng)用的成功,銀行開(kāi)始將信用評(píng)分方法應(yīng)用到其他金融產(chǎn)品(如個(gè)人貸款等),近幾年信用評(píng)分已開(kāi)始在住房貸款及中小企業(yè)貸款中使用。同樣地,在20世紀(jì)90年代直銷市場(chǎng)的快速增長(zhǎng)也使得許多直銷公司利用評(píng)分方法改進(jìn)廣告銷售中的反應(yīng)率。實(shí)際上在商業(yè)領(lǐng)域,西爾斯公司在20世紀(jì)50年代就開(kāi)始用評(píng)分模型來(lái)決定將其商品目錄寄給哪些客戶從而提高回復(fù)率。二評(píng)分模型在商業(yè)領(lǐng)域的適用性隨著經(jīng)濟(jì)發(fā)展,直銷市場(chǎng)在20世紀(jì)90年代得到快速的增長(zhǎng),信用評(píng)分模型的應(yīng)用也擴(kuò)大到這個(gè)領(lǐng)域:主要是以電話或直接郵寄為手段的數(shù)據(jù)庫(kù)營(yíng)銷中的決策問(wèn)題。很多化妝品公司、汽車生產(chǎn)商等都開(kāi)始
5、通過(guò)電話、郵寄等方式直銷的方式來(lái)銷售,利用信用評(píng)分技術(shù)提高廣告的回復(fù)率。在眾多的目標(biāo)客戶群中,廠商或公司往往不會(huì)給所有的目標(biāo)客戶電話或寄信,因?yàn)橛械哪繕?biāo)客戶的消費(fèi)能力可能達(dá)不到要求的消費(fèi)標(biāo)準(zhǔn),有的客戶對(duì)該產(chǎn)品不感興趣或消費(fèi)此商品的概率過(guò)低而導(dǎo)致成本過(guò)高。在市場(chǎng)營(yíng)銷預(yù)算一定,資源有限的情況下,化妝品或汽車公司等必須有所側(cè)重,有所取舍。如果有一個(gè)響應(yīng)模型,能夠從電話或郵寄名單中去除不太可能響應(yīng)的人,從而降低成本,但不會(huì)降低郵寄的效率,事實(shí)上,這種做法帶來(lái)的是更高的響應(yīng)率。本文針對(duì)就如何利用信用評(píng)分技術(shù)改進(jìn)廣告的回復(fù)率作了實(shí)證研究,并由此得出哪種信用評(píng)分模型更適合選定的客戶數(shù)據(jù)。在許多決策環(huán)境下信貸
6、僅是其中一個(gè)例子大體上有兩種可能的選擇:或者提供產(chǎn)品服務(wù),或者不提供。當(dāng)然,在實(shí)際中,由于可以從一系列產(chǎn)品服務(wù)中進(jìn)行選擇,可能會(huì)存在更多的決策選項(xiàng),而評(píng)分可以幫助決定選擇。通過(guò)評(píng)分,可以預(yù)測(cè)誰(shuí)更可能做出答復(fù),而誰(shuí)不會(huì);評(píng)分還可以預(yù)測(cè)誰(shuí)更為忠誠(chéng),而誰(shuí)會(huì)在其他機(jī)構(gòu)出現(xiàn)更好的產(chǎn)品時(shí)立即改換門庭;評(píng)分還可以預(yù)測(cè)哪些顧客愿意轉(zhuǎn)而購(gòu)買更好的產(chǎn)品。顯然,對(duì)以上三種情況需要運(yùn)用不同的評(píng)分,即不同的模型。通過(guò)建立模型,用評(píng)分來(lái)預(yù)測(cè)使用哪種銷售渠道更好。例如,按照是否對(duì)顧客采用直接郵寄直銷,或者對(duì)現(xiàn)有顧客通過(guò)對(duì)賬單插頁(yè)、電話甚至電子郵件等方式進(jìn)行銷售,把目標(biāo)人群分成幾個(gè)子群(多項(xiàng)Logit模型是解決該問(wèn)題的一種有
7、效模型)。顯然,在制定大規(guī)模業(yè)務(wù)決策時(shí),評(píng)分模型的重要性就體現(xiàn)出來(lái)了,例如當(dāng)有幾十萬(wàn)位預(yù)期顧客時(shí),對(duì)他們寄信將會(huì)比打電話更加切實(shí)可行,尤其是考慮到需要對(duì)那些第一次沒(méi)聯(lián)系到的顧客進(jìn)行再次聯(lián)系時(shí)。如果顧客名單或郵寄名單或會(huì)員名單上的預(yù)期顧客進(jìn)行評(píng)分,那么將會(huì)受到一些明確的限制。例如,受限于所獲得的信息。這一點(diǎn)是顯而易見(jiàn)的。在真正接收到一份貸款申請(qǐng)之前,不可能把貸款目的或貸款期限作為評(píng)分的特征變量(盡管可能僅僅提供的是特定的產(chǎn)品,例如期限為15年的購(gòu)房貸款)。此外,對(duì)于信用參考信息中哪一部分是可以得到的以及如何讓使用都有嚴(yán)格的標(biāo)準(zhǔn)和準(zhǔn)則。如果所做的決定是:是否選中某些特定人并向他們提供產(chǎn)品服務(wù),那么
8、,那些沒(méi)被選中的人將不會(huì)意識(shí)到自己曾被考察過(guò)。事實(shí)上,當(dāng)試圖預(yù)測(cè)人們做某些事情的傾向時(shí),一般來(lái)說(shuō)都可以運(yùn)用模型和評(píng)分方法。例如,可能會(huì)向一些顧客提供參觀分時(shí)度假的機(jī)會(huì),并且希望在一系列可能用戶中,預(yù)測(cè)誰(shuí)最可能參觀并購(gòu)買。類似地,可能會(huì)對(duì)一些顧客提供試駕一款新車的機(jī)會(huì)。在這里,感興趣的是那些可能進(jìn)行購(gòu)買的顧客是否會(huì)利用這個(gè)機(jī)會(huì)。這里要強(qiáng)調(diào)的是,沒(méi)有理由懷疑評(píng)分方法的作用。不管是在信貸領(lǐng)域,還是在其他商品或服務(wù)的直銷中運(yùn)用評(píng)分方法,通常的目標(biāo)都是利潤(rùn)最大化。一般營(yíng)銷部門的目標(biāo)是提高顧客答復(fù)率或者降低答復(fù)成本。但是,從整體企業(yè)運(yùn)作的角度來(lái)看,利潤(rùn)才是最關(guān)鍵的衡量標(biāo)準(zhǔn)。本文的結(jié)構(gòu)如下:首先對(duì)使用的數(shù)據(jù)
9、進(jìn)行簡(jiǎn)單的說(shuō)明,然后就當(dāng)今信用評(píng)分領(lǐng)域最常用的費(fèi)希爾線性判別分析方法、Logistic回歸方法、k階近鄰分類方法和支持向量機(jī)利用某化妝品公司免費(fèi)寄出商品的試用裝及宣傳單的客戶歷史信息數(shù)據(jù)及其購(gòu)買情況分別建立評(píng)分模型,并對(duì)它們進(jìn)行比較分析,最后給出相關(guān)結(jié)論。三數(shù)據(jù)描述本文使用的數(shù)據(jù)是來(lái)自國(guó)內(nèi)一家化妝品公司的客戶數(shù)據(jù)庫(kù),選取2005年9月1號(hào)2007年5月索取產(chǎn)品試用裝的客戶資料,觀察他們?cè)谒魅‘a(chǎn)品后的交易行為,按照購(gòu)買產(chǎn)品與否把他們分為“好”的客戶和“壞”的客戶。這樣共得到“好”的客戶56309個(gè),“壞”的客戶861578個(gè)。按照通行的建立信用評(píng)分模型的方法,從“壞”的客戶中隨機(jī)的篩選出5630
10、9個(gè)樣本,于56309個(gè)“好”的客戶一起組成建模樣本。根據(jù)AIC準(zhǔn)則,篩選出6個(gè)特征變量,并將各特征變量根據(jù)其交易行為表現(xiàn)相似的原則進(jìn)行分組,并用虛擬變量來(lái)表示: 表格1:解釋變量列表性別SEX月收入INCOME1=INCOME2INCOME3=年齡AGE1=AGE2=AGE3=婚姻狀況MARITAL=使用化妝品情況LAMBLE1=LAMBLE2=教育程度GRADE1GRADE2這樣評(píng)分模型中就有12個(gè)虛擬變量作為解釋變量。另外,模型的因變量表示為:STATUS=。有很多方法驗(yàn)證統(tǒng)計(jì)模型(e.g.,見(jiàn)Dillon and Goldstein,1984,或Hair et al.,1992)這里選
11、擇經(jīng)常用的方法,即多次隨機(jī)的把數(shù)據(jù)分為訓(xùn)練樣本和檢驗(yàn)樣本。數(shù)據(jù)樣本被分為兩部分,的觀測(cè)值用來(lái)建模,的觀測(cè)值作為檢驗(yàn)樣本對(duì)模型的精度進(jìn)行檢驗(yàn)。觀測(cè)值被隨機(jī)的分配在訓(xùn)練樣本集或檢驗(yàn)樣本集,建造五對(duì)這樣的數(shù)據(jù)集。采用較常用的對(duì)樣本分層的方法以確?!昂谩钡目蛻艉汀皦摹钡目蛻舻谋壤谒械臄?shù)據(jù)集都是一樣的。四信用評(píng)分模型分析1.線性判別分析方法考慮兩個(gè)總體的情況G1和G2,且假定其服從正態(tài)分布,兩個(gè)協(xié)方差相同,它們的分布分別是和?,F(xiàn)在對(duì)于一個(gè)新的樣品,要判斷它來(lái)自哪個(gè)總體。最直觀的方法就是計(jì)算到兩個(gè)總體的距離和,并按下述規(guī)則判斷:如果,則;如果,則。這里選用統(tǒng)計(jì)分析中最著名的由馬哈拉諾比斯(Mahala
12、nbis)提出的,習(xí)慣上稱為馬氏距離。即到母體距離定義為 那么,若令, 上述判別規(guī)則可寫成當(dāng)時(shí),;當(dāng)時(shí),。若、和已知時(shí),則是的線性函數(shù),稱為線性判別函數(shù)。線性判別分析的優(yōu)點(diǎn)是:適用于二元性或多元性目標(biāo)變量,而邏輯回歸只能預(yù)測(cè)二元性的目標(biāo)變量。缺點(diǎn)是:假設(shè)特征變量的分布為正態(tài)分布,而實(shí)踐中的數(shù)據(jù)往往不是完全的正態(tài)分布;多維相關(guān)性可能導(dǎo)致模型的不穩(wěn)定性和不可靠性。利用SAS系統(tǒng)里的 PROC DISCRIM程序可以得到待估計(jì)的參數(shù)。2.Logistic回歸方法此方法適合用來(lái)預(yù)測(cè)一個(gè)二分的或次序變量的值。其統(tǒng)計(jì)理論基礎(chǔ)是Logistic回歸分析,這個(gè)分析所用的參數(shù)估計(jì)法是最大可能率法。二分的因變量不
13、論其定義如何,Logistic分析的目的都是為了找出這個(gè)因變量值與一組自變量之間的線性關(guān)系。這個(gè)線性關(guān)系的表示可用因變量的對(duì)數(shù)奇數(shù)比單位(Logit),常態(tài)數(shù)單位(Normit)或雙對(duì)數(shù)單位(Log-L og)等。其優(yōu)點(diǎn)是:預(yù)測(cè)結(jié)果是介于0和1之間的概率;可以適用于連續(xù)性或類別性特征變量;容易使用,容易解釋。缺點(diǎn)是:對(duì)模型中特征變量的多維相關(guān)性(multicollinearity)較為敏感,需要利用因子分析或變量聚類分析等手段來(lái)選擇代表性的特征變量,以減少候選變量之間的相關(guān)性。利用SAS系統(tǒng)里的PROC LOGISTIC程序,可以得到每個(gè)自變量的估計(jì)權(quán)重。3.非參數(shù)判別法K階近鄰分類K階近鄰技
14、術(shù)評(píng)估了投入形態(tài)x與來(lái)自觀測(cè)樣本的參照形態(tài)之間的相似性,把一種形態(tài)歸到觀測(cè)樣本中k階近鄰占大多數(shù)得一類中。這種分類基于達(dá)薩拉思Dasarathy(1991)提出的基本思想:“判斷一個(gè)人要依據(jù)他所在的公司?!迸袆e近鄰所選擇的距離對(duì)估計(jì)結(jié)果來(lái)說(shuō)十分重要。人們提出了一些可供選擇的方法,距離矩陣選擇是提高k階近鄰分類方法優(yōu)良特性的研究途徑之一。最為常用的是歐式(Euclidean)距離。K(近鄰的數(shù)量)的選擇也是至關(guān)重要的。這里經(jīng)過(guò)多次試驗(yàn),選定K101,選為奇數(shù)是防止形態(tài)x周圍的觀測(cè)形態(tài)好壞各半從而程序無(wú)法判斷的情況發(fā)生。其優(yōu)點(diǎn)是:容易更新訓(xùn)練樣本中的客戶數(shù)據(jù),對(duì)訓(xùn)練樣本進(jìn)行動(dòng)態(tài)更新。缺點(diǎn)是: 好的
15、度量距離不易得到;不能對(duì)申請(qǐng)人的特征變量給出一個(gè)分?jǐn)?shù),使得該方法的使用者不能真正了解評(píng)分系統(tǒng)是如何運(yùn)作的。此方法可以利用SAS系統(tǒng)里的PROC DISCRIM程序,選定方法(method)為非參(npar)就可實(shí)現(xiàn)。Kernel估計(jì)方法Kernel估計(jì)法:利用一個(gè)定值的半徑(r)以及選定的kernel函數(shù)來(lái)估計(jì)在觀察體x點(diǎn)上的概率密度。Kernel函數(shù)以及半徑r的選擇目前還沒(méi)有好的方法,只有進(jìn)行多次試驗(yàn),來(lái)選定較好的Kernel函數(shù)以及半徑r。4.支持向量機(jī)(Support Vector Machines,SVMs)Cortes和Vapnik(1995)引入了支持向量機(jī)。由于支持向量機(jī)的良好表
16、現(xiàn)和所估計(jì)的參數(shù)較少,它們引起了人們的廣泛興趣。支持向量機(jī)的主要思想是采用一個(gè)“最好”的超平面,將不同類別的數(shù)據(jù)分割。支持向量機(jī)的關(guān)鍵一點(diǎn)是:通過(guò)對(duì)原始預(yù)測(cè)變量進(jìn)行變換和合并到一個(gè)很高維的空間,在這個(gè)空間中支持向量機(jī)能找到一個(gè)最佳分割超平面來(lái)對(duì)這些變量進(jìn)行分類。支持向量機(jī)實(shí)現(xiàn)是通過(guò)某種事先選擇的非線性映射(核函數(shù))將輸入向量映射到一個(gè)高維特征空間,在這個(gè)空間中構(gòu)造最優(yōu)分類超平面。使用SVM進(jìn)行數(shù)據(jù)集分類工作的過(guò)程首先是通過(guò)預(yù)先選定的一些非線性映射將輸入空間映射到高維特征空間(如下圖)使得在高維屬性空間中有可能對(duì)訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)超平面的分割,避免了在原輸入空間中進(jìn)行非線性曲面分割計(jì)算。SVM數(shù)據(jù)集形
17、成的分類函數(shù)具有這樣的性質(zhì):它是一組以支持向量為參數(shù)的非線性函數(shù)的線性組合,因此分類函數(shù)的表達(dá)式僅和支持向量的數(shù)量有關(guān),而獨(dú)立于空間的維度。在處理高維輸入空間的分類時(shí),這種方法尤其有效。其工作原理如下圖鑒于支持向量機(jī)扎實(shí)的理論基礎(chǔ),并且和傳統(tǒng)的學(xué)習(xí)算法想比較(比如人工神經(jīng)網(wǎng)絡(luò)),SVM通過(guò)提高數(shù)據(jù)的維度把非線性分類問(wèn)題轉(zhuǎn)換成線性分類問(wèn)題,較好解決了傳統(tǒng)算法中訓(xùn)練集誤差最小而測(cè)試集誤差仍較大的問(wèn)題,算法的效率和精度都比較高。所以近年來(lái)該方法成為構(gòu)造數(shù)據(jù)挖掘分類器的一項(xiàng)新型技術(shù),在分類和回歸模型中得到了很好的應(yīng)用。五. 實(shí)證結(jié)果分析以上根據(jù)化妝品公司配發(fā)樣品的客戶資料及回復(fù)率建立了五種信用模型。下
18、面就這些模型的預(yù)測(cè)精度,預(yù)測(cè)能力的差異以及模型的穩(wěn)定性進(jìn)行比較分析。1.比較分析的方法對(duì)模型的誤判概率進(jìn)行比較,也就是在利用評(píng)分模型進(jìn)行分類時(shí),對(duì)模型的分類準(zhǔn)確性以及誤判概率的大小進(jìn)行比較。顯然,準(zhǔn)確性高,誤判概率小的模型是較好的模型。其實(shí),簡(jiǎn)單的把信用評(píng)分模型中的誤判率作為衡量模型好壞的標(biāo)準(zhǔn)并不是最合適的。如前所述,把“壞”的客戶誤判為“好”的客戶稱為第一類錯(cuò)誤,把“好”的客戶誤判為“壞”的客戶稱為第二類錯(cuò)誤,顯然,在信用評(píng)分的通常應(yīng)用中(如信貸業(yè)務(wù)),“犯第一類錯(cuò)誤”所帶來(lái)的損失遠(yuǎn)大于“犯第二類錯(cuò)誤”帶來(lái)的損失。而在我們的模型里,“犯第二類錯(cuò)誤”所帶來(lái)的損失要大于“犯第一類錯(cuò)誤”帶來(lái)的損失
19、,因?yàn)槲覀兊哪繕?biāo)是盡可能多的抓住潛在的客戶。實(shí)際上,當(dāng)這兩種誤判的損失已知時(shí),以總的損失最小為標(biāo)準(zhǔn)時(shí)衡量模型優(yōu)劣的最佳方法。然而在實(shí)際問(wèn)題中,這兩類錯(cuò)誤的損失往往時(shí)未知和難以精確估計(jì)的,所以對(duì)評(píng)分模型進(jìn)行評(píng)價(jià)時(shí),以誤判率(把兩類錯(cuò)誤的損失平等對(duì)待)作為評(píng)價(jià)準(zhǔn)則之一是一個(gè)標(biāo)準(zhǔn)的做法(Baesens et al,2003)。為了彌補(bǔ)以總的誤判率為唯一比較標(biāo)準(zhǔn)所帶來(lái)的缺陷,我們?cè)谶@部分還就個(gè)模型的第一類錯(cuò)誤和第二類錯(cuò)誤進(jìn)行比較。表格2 各種評(píng)分模型誤判概率的比較模型分類誤判概率訓(xùn)練樣本(train sample) 檢驗(yàn)樣本(test sample) 總的誤判率 第一類誤判率 第二類誤判率 總的誤判率
20、 第一類誤判率 第二類誤判率線性判別分析1 43.20 45.51 40.88 43.52 45.88 41.16 2 43.10 45.58 40.62 42.90 45.39 40.42 3 42.99 45.34 40.64 43.22 46.02 40.43 4 43.37 45.63 41.10 42.92 44.90 40.94 5 43.35 45.60 41.11 43.01 45.01 41.01平均值 43.20% 45.5340.87 43.11 45.44 40.79Logistic回歸方法 1 43.14 45.73 40.54 42.70 45.53 39.87 2
21、 42.84 45.17 40.51 43.21 45.54 40.89 3 43.24 46.12 40.36 42.86 46.06 39.66 4 43.11 45.54 40.67 43.25 45.98 40.52 5 43.08 45.52 40.65 42.93 45.64 40.21平均值43.0845.62 40.55 42.99 45.75 40.23K階近鄰分類法 1 43.80 47.00 40.59 44.64 48.28 41.01 2 43.29 46.53 40.05 44.98 48.07 41.89 3 43.34 46.50 40.18 44.93 48.
22、45 41.40 4 43.11 46.18 40.04 44.80 47.60 42.00 5 43.44 46.24 40.64 44.88 47.33 42.42平均值 43.40 46.49 40.30 44.85 47.95 41.74Kernel估計(jì) 1 42.86 48.62 37.09 43.26 49.17 37.36 2 43.11 48.39 37.83 42.79 48.12 37.45 3 42.85 47.16 38.55 43.31 47.41 39.21 4 42.86 48.04 37.69 43.11 48.32 37.89 5 42.73 47.90 37
23、.56 43.14 48.55 37.73平均值 43.02 48.02 37.74 43.12 48.31 37.93支持向量機(jī) 1 38.37 39.37 37.38 49.28 52.81 45.75 2 39.10 39.75 38.46 48.41 50.19 46.63 3 38.94 40.92 36.96 49.28 52.62 45.94 4 37.58 40.54 34.63 50.25 54.63 45.88 5 39.38 39.75 39.00 50.13 51.81 48.44平均值 38.67 40.07 37.29 49.47 52.41 46.53模型的穩(wěn)健性
24、是指模型對(duì)訓(xùn)練樣本以外的樣本的預(yù)測(cè)能力而言的。穩(wěn)健性較好的模型對(duì)訓(xùn)練樣本以外的樣本進(jìn)行預(yù)測(cè)時(shí),其預(yù)測(cè)精度不應(yīng)該有較明顯的下降。這里為了避免模型對(duì)樣本結(jié)構(gòu)的依賴,5次隨機(jī)對(duì)樣本進(jìn)行分層選取,觀察它們的穩(wěn)健性。2.模型誤判概率和穩(wěn)健性比較 表2列出了5種模型對(duì)訓(xùn)練樣本和檢驗(yàn)樣本的分類的總的誤判率,第一類誤判率,第二類誤判率。從表2中可以看到,就我們的建模數(shù)據(jù)而言:(1)五種方法的5次結(jié)果不論是對(duì)訓(xùn)練樣本還是對(duì)檢驗(yàn)樣本均是第二類錯(cuò)誤的比率小于第一類錯(cuò)誤的比率,符合數(shù)據(jù)建模的目標(biāo):盡可能少的流失可能性大的潛在客戶。對(duì)每個(gè)模型的5次結(jié)果觀察比較可以看出,這五種模型都有一定的穩(wěn)健性,結(jié)果沒(méi)有太大的差異。(
25、2)支持向量機(jī)方法盡管訓(xùn)練樣本的誤判率比其他四種方法都明顯低很多,但是五次檢驗(yàn)樣本的總的誤判率都高于訓(xùn)練樣本的總的誤判率,而其他四種方法的檢驗(yàn)樣本的總的誤判率也都有幾次高于訓(xùn)練樣本的總的誤判率。這說(shuō)明僅僅靠訓(xùn)練樣本計(jì)算出來(lái)的誤判率還不能真正反映模型的預(yù)測(cè)能力。特別是支持向量機(jī)方法: 五次的對(duì)保留樣本的誤判率大大高于對(duì)訓(xùn)練樣本的誤判率,K階近鄰分類法五次的對(duì)保留樣本的誤判率也高于對(duì)訓(xùn)練樣本的誤判率, Kernel估計(jì)也有4次。若僅用訓(xùn)練樣本的預(yù)測(cè)能力來(lái)評(píng)價(jià)模型的優(yōu)劣將會(huì)因?yàn)榻Y(jié)果的樂(lè)觀而產(chǎn)生誤導(dǎo),因此對(duì)檢驗(yàn)樣本的誤判率才是對(duì)模型預(yù)測(cè)能力的一個(gè)較合理的評(píng)估。(3)就對(duì)檢驗(yàn)樣本的總的誤判率而言,線性判別分析,Logistic回歸方法,K階近鄰分類法,Kernel估計(jì)的總的誤判率均在43左右,而支持向量機(jī)的總的誤判率更是低至39.50以下。這在一定程度上說(shuō)明,選擇用來(lái)比較的五種模型具有
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度直播平臺(tái)主播培訓(xùn)及管理合同
- 2025年度新能源汽車產(chǎn)業(yè)投資合作合同
- 二零二五年度商標(biāo)共營(yíng)協(xié)議及跨國(guó)品牌合作合同
- 二零二五年度超市商品陳列與文化氛圍營(yíng)造合同
- 2025年度民宿租賃合同終止及服務(wù)質(zhì)量協(xié)議
- 二零二五年度集體合同簽訂與新型學(xué)徒制實(shí)施
- 二零二五年度個(gè)人對(duì)個(gè)人科技成果轉(zhuǎn)化借款合同
- 2025年度機(jī)關(guān)炊事員食品安全培訓(xùn)聘用協(xié)議
- 日常行政管理事務(wù)處理指導(dǎo)書
- 日化用品行業(yè)供應(yīng)鏈優(yōu)化與市場(chǎng)拓展策略研究計(jì)劃
- 山東教育出版社(魯教版)八年級(jí)化學(xué)全一冊(cè)教學(xué)課件
- 《外貿(mào)風(fēng)險(xiǎn)管理》完整全套課件
- 公路水運(yùn)工程施工企業(yè)主要負(fù)責(zé)人和安全生產(chǎn)管理人員大綱和題庫(kù)
- 榜樣7航天追夢(mèng)人王亞平事跡介紹PPT英雄航天員王亞平事跡介紹PPT課件(帶內(nèi)容)
- 物理word版2023山東高考答題卡涂準(zhǔn)考證號(hào)和條形碼
- 人教版《道德與法治》三年級(jí)下冊(cè)全冊(cè)全套課件
- GB/T 32294-2015鍛制承插焊和螺紋活接頭
- 部編人教版三年級(jí)語(yǔ)文下冊(cè)《快樂(lè)讀書吧》精美課件
- 建筑力學(xué) 李前程 第一章 緒 論
- 2023年新教科版科學(xué)六年級(jí)下冊(cè)學(xué)生活動(dòng)手冊(cè)答案
- 體育測(cè)量與評(píng)價(jià)-第一章緒論課件
評(píng)論
0/150
提交評(píng)論