信用評(píng)分模型在(化妝品)客戶挖掘中的應(yīng)用研究

上傳人：d*** IP屬地：江西上傳時(shí)間：2022-08-02 格式：DOC 頁(yè)數(shù)：10 大小：230KB 積分：12 舉報(bào) 版權(quán)申訴

信用評(píng)分模型在(化妝品)客戶挖掘中的應(yīng)用研究_第2頁(yè)

信用評(píng)分模型在(化妝品)客戶挖掘中的應(yīng)用研究_第3頁(yè)

信用評(píng)分模型在(化妝品)客戶挖掘中的應(yīng)用研究_第4頁(yè)

信用評(píng)分模型在(化妝品)客戶挖掘中的應(yīng)用研究_第5頁(yè)

已閱讀5頁(yè)，還剩5頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信用評(píng)分模型在客戶挖掘中的應(yīng)用研究摘要：文章基于國(guó)內(nèi)某家化妝品公司的客戶數(shù)據(jù)庫(kù)的數(shù)據(jù)，采用不同的信用評(píng)分模型進(jìn)行建模，這些模型包括線性判別分析方法、Logistic回歸方法、k階近鄰分類方法（KNN）、Kernel估計(jì)法和支持向量機(jī)（SVMs）等，并對(duì)它們的應(yīng)用進(jìn)行了比較分析,挖掘影響客戶購(gòu)買行為的關(guān)鍵行為屬性，按照既定的評(píng)價(jià)標(biāo)準(zhǔn)，對(duì)客戶給予量化評(píng)價(jià)，發(fā)現(xiàn)購(gòu)買傾向高的新客戶群，以便進(jìn)行高針對(duì)性的市場(chǎng)營(yíng)銷和推廣。關(guān)鍵詞：信用評(píng)分判別分析 Logistic回歸 k階近鄰分類支持向量機(jī)信用評(píng)分的簡(jiǎn)要介紹信用評(píng)分的目的在于盡量將能夠預(yù)測(cè)借款人未來(lái)行為的指標(biāo)加以整合，并統(tǒng)一成可以比較的單一指標(biāo)，

2、以顯示借款人在未來(lái)一特定時(shí)間內(nèi)違約的可能性。所有的信用評(píng)分模型，無(wú)論采用什么理論或方法，其最終目的都是將貸款申請(qǐng)者的信用級(jí)別分類。為達(dá)到分類目的，依據(jù)某種理論，在歷史數(shù)據(jù)基礎(chǔ)上構(gòu)造信用評(píng)分系統(tǒng)，然后輸入申請(qǐng)者的相關(guān)指標(biāo)數(shù)據(jù)，其信用水平將被評(píng)分系統(tǒng)估算出來(lái)并歸屬為相應(yīng)的信用級(jí)別，為信貸決策提供依據(jù)。作者簡(jiǎn)介：楊梅（1982），女，漢族，山東菏澤人，中國(guó)科學(xué)技術(shù)大學(xué)統(tǒng)計(jì)與金融系碩士研究生；張曙光，（195?），男，漢族，安徽淮北人，中國(guó)科學(xué)技術(shù)大學(xué)統(tǒng)計(jì)與金融系教授。信用評(píng)分實(shí)質(zhì)上是將一個(gè)總體按照不同的特征分成若干個(gè)不同組的一種方法。這種將總體劃分成不同的組的思想在統(tǒng)計(jì)學(xué)中最早是由Fisher（1

3、936）提出的。David Durand(1941)第一個(gè)意識(shí)到可以用同樣的方法區(qū)分“好”的客戶和“壞”的客戶，從而對(duì)貸款的信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。20世紀(jì)50年代初Bill Fair 和 Earl Isaac在舊金山成立對(duì)信用風(fēng)險(xiǎn)進(jìn)行評(píng)估咨詢機(jī)構(gòu)，其客戶大多數(shù)是金融機(jī)構(gòu)及直銷公司。20世紀(jì)60年代后期，隨著信用卡的出現(xiàn)和發(fā)展，銀行及其他信用卡發(fā)卡機(jī)構(gòu)認(rèn)識(shí)到了信用評(píng)分的作用及重要性。當(dāng)這些金融機(jī)構(gòu)利用評(píng)分系統(tǒng)時(shí)，他們還同時(shí)發(fā)現(xiàn)信用評(píng)分系統(tǒng)有著比人工主觀判斷更好的預(yù)測(cè)能力利用評(píng)分系統(tǒng)后貸款的違約率降低了50以上（Myers and Forgy,1963）。信用評(píng)分于1975年及1976年在美國(guó)得到了平

4、等機(jī)會(huì)法案的認(rèn)可。 20世紀(jì)80年代隨著信用評(píng)分方法在信用卡領(lǐng)域應(yīng)用的成功，銀行開(kāi)始將信用評(píng)分方法應(yīng)用到其他金融產(chǎn)品（如個(gè)人貸款等），近幾年信用評(píng)分已開(kāi)始在住房貸款及中小企業(yè)貸款中使用。同樣地，在20世紀(jì)90年代直銷市場(chǎng)的快速增長(zhǎng)也使得許多直銷公司利用評(píng)分方法改進(jìn)廣告銷售中的反應(yīng)率。實(shí)際上在商業(yè)領(lǐng)域，西爾斯公司在20世紀(jì)50年代就開(kāi)始用評(píng)分模型來(lái)決定將其商品目錄寄給哪些客戶從而提高回復(fù)率。二評(píng)分模型在商業(yè)領(lǐng)域的適用性隨著經(jīng)濟(jì)發(fā)展，直銷市場(chǎng)在20世紀(jì)90年代得到快速的增長(zhǎng)，信用評(píng)分模型的應(yīng)用也擴(kuò)大到這個(gè)領(lǐng)域：主要是以電話或直接郵寄為手段的數(shù)據(jù)庫(kù)營(yíng)銷中的決策問(wèn)題。很多化妝品公司、汽車生產(chǎn)商等都開(kāi)始

5、通過(guò)電話、郵寄等方式直銷的方式來(lái)銷售，利用信用評(píng)分技術(shù)提高廣告的回復(fù)率。在眾多的目標(biāo)客戶群中，廠商或公司往往不會(huì)給所有的目標(biāo)客戶電話或寄信，因?yàn)橛械哪繕?biāo)客戶的消費(fèi)能力可能達(dá)不到要求的消費(fèi)標(biāo)準(zhǔn)，有的客戶對(duì)該產(chǎn)品不感興趣或消費(fèi)此商品的概率過(guò)低而導(dǎo)致成本過(guò)高。在市場(chǎng)營(yíng)銷預(yù)算一定，資源有限的情況下，化妝品或汽車公司等必須有所側(cè)重，有所取舍。如果有一個(gè)響應(yīng)模型，能夠從電話或郵寄名單中去除不太可能響應(yīng)的人，從而降低成本，但不會(huì)降低郵寄的效率，事實(shí)上，這種做法帶來(lái)的是更高的響應(yīng)率。本文針對(duì)就如何利用信用評(píng)分技術(shù)改進(jìn)廣告的回復(fù)率作了實(shí)證研究，并由此得出哪種信用評(píng)分模型更適合選定的客戶數(shù)據(jù)。在許多決策環(huán)境下信貸

6、僅是其中一個(gè)例子大體上有兩種可能的選擇：或者提供產(chǎn)品服務(wù)，或者不提供。當(dāng)然，在實(shí)際中，由于可以從一系列產(chǎn)品服務(wù)中進(jìn)行選擇，可能會(huì)存在更多的決策選項(xiàng)，而評(píng)分可以幫助決定選擇。通過(guò)評(píng)分，可以預(yù)測(cè)誰(shuí)更可能做出答復(fù)，而誰(shuí)不會(huì)；評(píng)分還可以預(yù)測(cè)誰(shuí)更為忠誠(chéng)，而誰(shuí)會(huì)在其他機(jī)構(gòu)出現(xiàn)更好的產(chǎn)品時(shí)立即改換門庭；評(píng)分還可以預(yù)測(cè)哪些顧客愿意轉(zhuǎn)而購(gòu)買更好的產(chǎn)品。顯然，對(duì)以上三種情況需要運(yùn)用不同的評(píng)分，即不同的模型。通過(guò)建立模型，用評(píng)分來(lái)預(yù)測(cè)使用哪種銷售渠道更好。例如，按照是否對(duì)顧客采用直接郵寄直銷，或者對(duì)現(xiàn)有顧客通過(guò)對(duì)賬單插頁(yè)、電話甚至電子郵件等方式進(jìn)行銷售，把目標(biāo)人群分成幾個(gè)子群（多項(xiàng)Logit模型是解決該問(wèn)題的一種有

7、效模型）。顯然，在制定大規(guī)模業(yè)務(wù)決策時(shí)，評(píng)分模型的重要性就體現(xiàn)出來(lái)了，例如當(dāng)有幾十萬(wàn)位預(yù)期顧客時(shí)，對(duì)他們寄信將會(huì)比打電話更加切實(shí)可行，尤其是考慮到需要對(duì)那些第一次沒(méi)聯(lián)系到的顧客進(jìn)行再次聯(lián)系時(shí)。如果顧客名單或郵寄名單或會(huì)員名單上的預(yù)期顧客進(jìn)行評(píng)分，那么將會(huì)受到一些明確的限制。例如，受限于所獲得的信息。這一點(diǎn)是顯而易見(jiàn)的。在真正接收到一份貸款申請(qǐng)之前，不可能把貸款目的或貸款期限作為評(píng)分的特征變量（盡管可能僅僅提供的是特定的產(chǎn)品，例如期限為15年的購(gòu)房貸款）。此外，對(duì)于信用參考信息中哪一部分是可以得到的以及如何讓使用都有嚴(yán)格的標(biāo)準(zhǔn)和準(zhǔn)則。如果所做的決定是：是否選中某些特定人并向他們提供產(chǎn)品服務(wù)，那么

8、，那些沒(méi)被選中的人將不會(huì)意識(shí)到自己曾被考察過(guò)。事實(shí)上，當(dāng)試圖預(yù)測(cè)人們做某些事情的傾向時(shí)，一般來(lái)說(shuō)都可以運(yùn)用模型和評(píng)分方法。例如，可能會(huì)向一些顧客提供參觀分時(shí)度假的機(jī)會(huì)，并且希望在一系列可能用戶中，預(yù)測(cè)誰(shuí)最可能參觀并購(gòu)買。類似地，可能會(huì)對(duì)一些顧客提供試駕一款新車的機(jī)會(huì)。在這里，感興趣的是那些可能進(jìn)行購(gòu)買的顧客是否會(huì)利用這個(gè)機(jī)會(huì)。這里要強(qiáng)調(diào)的是，沒(méi)有理由懷疑評(píng)分方法的作用。不管是在信貸領(lǐng)域，還是在其他商品或服務(wù)的直銷中運(yùn)用評(píng)分方法，通常的目標(biāo)都是利潤(rùn)最大化。一般營(yíng)銷部門的目標(biāo)是提高顧客答復(fù)率或者降低答復(fù)成本。但是，從整體企業(yè)運(yùn)作的角度來(lái)看，利潤(rùn)才是最關(guān)鍵的衡量標(biāo)準(zhǔn)。本文的結(jié)構(gòu)如下：首先對(duì)使用的數(shù)據(jù)

9、進(jìn)行簡(jiǎn)單的說(shuō)明，然后就當(dāng)今信用評(píng)分領(lǐng)域最常用的費(fèi)希爾線性判別分析方法、Logistic回歸方法、k階近鄰分類方法和支持向量機(jī)利用某化妝品公司免費(fèi)寄出商品的試用裝及宣傳單的客戶歷史信息數(shù)據(jù)及其購(gòu)買情況分別建立評(píng)分模型，并對(duì)它們進(jìn)行比較分析，最后給出相關(guān)結(jié)論。三數(shù)據(jù)描述本文使用的數(shù)據(jù)是來(lái)自國(guó)內(nèi)一家化妝品公司的客戶數(shù)據(jù)庫(kù)，選取2005年9月1號(hào)2007年5月索取產(chǎn)品試用裝的客戶資料，觀察他們?cè)谒魅‘a(chǎn)品后的交易行為，按照購(gòu)買產(chǎn)品與否把他們分為“好”的客戶和“壞”的客戶。這樣共得到“好”的客戶56309個(gè)，“壞”的客戶861578個(gè)。按照通行的建立信用評(píng)分模型的方法，從“壞”的客戶中隨機(jī)的篩選出5630

10、9個(gè)樣本，于56309個(gè)“好”的客戶一起組成建模樣本。根據(jù)AIC準(zhǔn)則，篩選出6個(gè)特征變量，并將各特征變量根據(jù)其交易行為表現(xiàn)相似的原則進(jìn)行分組，并用虛擬變量來(lái)表示：表格1：解釋變量列表性別SEX月收入INCOME1=INCOME2INCOME3=年齡AGE1=AGE2=AGE3=婚姻狀況MARITAL=使用化妝品情況LAMBLE1=LAMBLE2=教育程度GRADE1GRADE2這樣評(píng)分模型中就有12個(gè)虛擬變量作為解釋變量。另外，模型的因變量表示為：STATUS=。有很多方法驗(yàn)證統(tǒng)計(jì)模型（e.g.,見(jiàn)Dillon and Goldstein,1984,或Hair et al.,1992）這里選

11、擇經(jīng)常用的方法，即多次隨機(jī)的把數(shù)據(jù)分為訓(xùn)練樣本和檢驗(yàn)樣本。數(shù)據(jù)樣本被分為兩部分，的觀測(cè)值用來(lái)建模，的觀測(cè)值作為檢驗(yàn)樣本對(duì)模型的精度進(jìn)行檢驗(yàn)。觀測(cè)值被隨機(jī)的分配在訓(xùn)練樣本集或檢驗(yàn)樣本集，建造五對(duì)這樣的數(shù)據(jù)集。采用較常用的對(duì)樣本分層的方法以確?！昂谩钡目蛻艉汀皦摹钡目蛻舻谋壤谒械臄?shù)據(jù)集都是一樣的。四信用評(píng)分模型分析1.線性判別分析方法考慮兩個(gè)總體的情況G1和G2，且假定其服從正態(tài)分布，兩個(gè)協(xié)方差相同，它們的分布分別是和?，F(xiàn)在對(duì)于一個(gè)新的樣品，要判斷它來(lái)自哪個(gè)總體。最直觀的方法就是計(jì)算到兩個(gè)總體的距離和，并按下述規(guī)則判斷：如果，則；如果，則。這里選用統(tǒng)計(jì)分析中最著名的由馬哈拉諾比斯（Mahala

12、nbis）提出的，習(xí)慣上稱為馬氏距離。即到母體距離定義為那么，若令，上述判別規(guī)則可寫成當(dāng)時(shí)，；當(dāng)時(shí)，。若、和已知時(shí)，則是的線性函數(shù)，稱為線性判別函數(shù)。線性判別分析的優(yōu)點(diǎn)是：適用于二元性或多元性目標(biāo)變量，而邏輯回歸只能預(yù)測(cè)二元性的目標(biāo)變量。缺點(diǎn)是：假設(shè)特征變量的分布為正態(tài)分布，而實(shí)踐中的數(shù)據(jù)往往不是完全的正態(tài)分布；多維相關(guān)性可能導(dǎo)致模型的不穩(wěn)定性和不可靠性。利用SAS系統(tǒng)里的 PROC DISCRIM程序可以得到待估計(jì)的參數(shù)。2.Logistic回歸方法此方法適合用來(lái)預(yù)測(cè)一個(gè)二分的或次序變量的值。其統(tǒng)計(jì)理論基礎(chǔ)是Logistic回歸分析，這個(gè)分析所用的參數(shù)估計(jì)法是最大可能率法。二分的因變量不

13、論其定義如何，Logistic分析的目的都是為了找出這個(gè)因變量值與一組自變量之間的線性關(guān)系。這個(gè)線性關(guān)系的表示可用因變量的對(duì)數(shù)奇數(shù)比單位（Logit），常態(tài)數(shù)單位（Normit）或雙對(duì)數(shù)單位（Log-L og）等。其優(yōu)點(diǎn)是：預(yù)測(cè)結(jié)果是介于0和1之間的概率；可以適用于連續(xù)性或類別性特征變量；容易使用，容易解釋。缺點(diǎn)是：對(duì)模型中特征變量的多維相關(guān)性（multicollinearity）較為敏感,需要利用因子分析或變量聚類分析等手段來(lái)選擇代表性的特征變量，以減少候選變量之間的相關(guān)性。利用SAS系統(tǒng)里的PROC LOGISTIC程序，可以得到每個(gè)自變量的估計(jì)權(quán)重。3.非參數(shù)判別法K階近鄰分類K階近鄰技

14、術(shù)評(píng)估了投入形態(tài)x與來(lái)自觀測(cè)樣本的參照形態(tài)之間的相似性，把一種形態(tài)歸到觀測(cè)樣本中k階近鄰占大多數(shù)得一類中。這種分類基于達(dá)薩拉思Dasarathy(1991)提出的基本思想：“判斷一個(gè)人要依據(jù)他所在的公司?！迸袆e近鄰所選擇的距離對(duì)估計(jì)結(jié)果來(lái)說(shuō)十分重要。人們提出了一些可供選擇的方法，距離矩陣選擇是提高k階近鄰分類方法優(yōu)良特性的研究途徑之一。最為常用的是歐式（Euclidean）距離。K（近鄰的數(shù)量）的選擇也是至關(guān)重要的。這里經(jīng)過(guò)多次試驗(yàn)，選定K101，選為奇數(shù)是防止形態(tài)x周圍的觀測(cè)形態(tài)好壞各半從而程序無(wú)法判斷的情況發(fā)生。其優(yōu)點(diǎn)是：容易更新訓(xùn)練樣本中的客戶數(shù)據(jù)，對(duì)訓(xùn)練樣本進(jìn)行動(dòng)態(tài)更新。缺點(diǎn)是: 好的

15、度量距離不易得到；不能對(duì)申請(qǐng)人的特征變量給出一個(gè)分?jǐn)?shù)，使得該方法的使用者不能真正了解評(píng)分系統(tǒng)是如何運(yùn)作的。此方法可以利用SAS系統(tǒng)里的PROC DISCRIM程序，選定方法（method）為非參（npar）就可實(shí)現(xiàn)。Kernel估計(jì)方法Kernel估計(jì)法：利用一個(gè)定值的半徑（r）以及選定的kernel函數(shù)來(lái)估計(jì)在觀察體x點(diǎn)上的概率密度。Kernel函數(shù)以及半徑r的選擇目前還沒(méi)有好的方法，只有進(jìn)行多次試驗(yàn)，來(lái)選定較好的Kernel函數(shù)以及半徑r。4.支持向量機(jī)（Support Vector Machines,SVMs）Cortes和Vapnik(1995)引入了支持向量機(jī)。由于支持向量機(jī)的良好表

16、現(xiàn)和所估計(jì)的參數(shù)較少，它們引起了人們的廣泛興趣。支持向量機(jī)的主要思想是采用一個(gè)“最好”的超平面，將不同類別的數(shù)據(jù)分割。支持向量機(jī)的關(guān)鍵一點(diǎn)是：通過(guò)對(duì)原始預(yù)測(cè)變量進(jìn)行變換和合并到一個(gè)很高維的空間，在這個(gè)空間中支持向量機(jī)能找到一個(gè)最佳分割超平面來(lái)對(duì)這些變量進(jìn)行分類。支持向量機(jī)實(shí)現(xiàn)是通過(guò)某種事先選擇的非線性映射（核函數(shù)）將輸入向量映射到一個(gè)高維特征空間，在這個(gè)空間中構(gòu)造最優(yōu)分類超平面。使用SVM進(jìn)行數(shù)據(jù)集分類工作的過(guò)程首先是通過(guò)預(yù)先選定的一些非線性映射將輸入空間映射到高維特征空間（如下圖）使得在高維屬性空間中有可能對(duì)訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)超平面的分割，避免了在原輸入空間中進(jìn)行非線性曲面分割計(jì)算。SVM數(shù)據(jù)集形

17、成的分類函數(shù)具有這樣的性質(zhì)：它是一組以支持向量為參數(shù)的非線性函數(shù)的線性組合，因此分類函數(shù)的表達(dá)式僅和支持向量的數(shù)量有關(guān)，而獨(dú)立于空間的維度。在處理高維輸入空間的分類時(shí)，這種方法尤其有效。其工作原理如下圖鑒于支持向量機(jī)扎實(shí)的理論基礎(chǔ)，并且和傳統(tǒng)的學(xué)習(xí)算法想比較（比如人工神經(jīng)網(wǎng)絡(luò)），SVM通過(guò)提高數(shù)據(jù)的維度把非線性分類問(wèn)題轉(zhuǎn)換成線性分類問(wèn)題，較好解決了傳統(tǒng)算法中訓(xùn)練集誤差最小而測(cè)試集誤差仍較大的問(wèn)題，算法的效率和精度都比較高。所以近年來(lái)該方法成為構(gòu)造數(shù)據(jù)挖掘分類器的一項(xiàng)新型技術(shù)，在分類和回歸模型中得到了很好的應(yīng)用。五. 實(shí)證結(jié)果分析以上根據(jù)化妝品公司配發(fā)樣品的客戶資料及回復(fù)率建立了五種信用模型。下

18、面就這些模型的預(yù)測(cè)精度，預(yù)測(cè)能力的差異以及模型的穩(wěn)定性進(jìn)行比較分析。1.比較分析的方法對(duì)模型的誤判概率進(jìn)行比較，也就是在利用評(píng)分模型進(jìn)行分類時(shí)，對(duì)模型的分類準(zhǔn)確性以及誤判概率的大小進(jìn)行比較。顯然，準(zhǔn)確性高，誤判概率小的模型是較好的模型。其實(shí)，簡(jiǎn)單的把信用評(píng)分模型中的誤判率作為衡量模型好壞的標(biāo)準(zhǔn)并不是最合適的。如前所述，把“壞”的客戶誤判為“好”的客戶稱為第一類錯(cuò)誤，把“好”的客戶誤判為“壞”的客戶稱為第二類錯(cuò)誤，顯然，在信用評(píng)分的通常應(yīng)用中（如信貸業(yè)務(wù)），“犯第一類錯(cuò)誤”所帶來(lái)的損失遠(yuǎn)大于“犯第二類錯(cuò)誤”帶來(lái)的損失。而在我們的模型里，“犯第二類錯(cuò)誤”所帶來(lái)的損失要大于“犯第一類錯(cuò)誤”帶來(lái)的損失

19、，因?yàn)槲覀兊哪繕?biāo)是盡可能多的抓住潛在的客戶。實(shí)際上，當(dāng)這兩種誤判的損失已知時(shí)，以總的損失最小為標(biāo)準(zhǔn)時(shí)衡量模型優(yōu)劣的最佳方法。然而在實(shí)際問(wèn)題中，這兩類錯(cuò)誤的損失往往時(shí)未知和難以精確估計(jì)的，所以對(duì)評(píng)分模型進(jìn)行評(píng)價(jià)時(shí)，以誤判率（把兩類錯(cuò)誤的損失平等對(duì)待）作為評(píng)價(jià)準(zhǔn)則之一是一個(gè)標(biāo)準(zhǔn)的做法（Baesens et al,2003）。為了彌補(bǔ)以總的誤判率為唯一比較標(biāo)準(zhǔn)所帶來(lái)的缺陷，我們?cè)谶@部分還就個(gè)模型的第一類錯(cuò)誤和第二類錯(cuò)誤進(jìn)行比較。表格2 各種評(píng)分模型誤判概率的比較模型分類誤判概率訓(xùn)練樣本（train sample）檢驗(yàn)樣本(test sample) 總的誤判率第一類誤判率第二類誤判率總的誤判率

20、第一類誤判率第二類誤判率線性判別分析1 43.20 45.51 40.88 43.52 45.88 41.16 2 43.10 45.58 40.62 42.90 45.39 40.42 3 42.99 45.34 40.64 43.22 46.02 40.43 4 43.37 45.63 41.10 42.92 44.90 40.94 5 43.35 45.60 41.11 43.01 45.01 41.01平均值 43.20% 45.5340.87 43.11 45.44 40.79Logistic回歸方法 1 43.14 45.73 40.54 42.70 45.53 39.87 2

21、 42.84 45.17 40.51 43.21 45.54 40.89 3 43.24 46.12 40.36 42.86 46.06 39.66 4 43.11 45.54 40.67 43.25 45.98 40.52 5 43.08 45.52 40.65 42.93 45.64 40.21平均值43.0845.62 40.55 42.99 45.75 40.23K階近鄰分類法 1 43.80 47.00 40.59 44.64 48.28 41.01 2 43.29 46.53 40.05 44.98 48.07 41.89 3 43.34 46.50 40.18 44.93 48.

22、45 41.40 4 43.11 46.18 40.04 44.80 47.60 42.00 5 43.44 46.24 40.64 44.88 47.33 42.42平均值 43.40 46.49 40.30 44.85 47.95 41.74Kernel估計(jì) 1 42.86 48.62 37.09 43.26 49.17 37.36 2 43.11 48.39 37.83 42.79 48.12 37.45 3 42.85 47.16 38.55 43.31 47.41 39.21 4 42.86 48.04 37.69 43.11 48.32 37.89 5 42.73 47.90 37

23、.56 43.14 48.55 37.73平均值 43.02 48.02 37.74 43.12 48.31 37.93支持向量機(jī) 1 38.37 39.37 37.38 49.28 52.81 45.75 2 39.10 39.75 38.46 48.41 50.19 46.63 3 38.94 40.92 36.96 49.28 52.62 45.94 4 37.58 40.54 34.63 50.25 54.63 45.88 5 39.38 39.75 39.00 50.13 51.81 48.44平均值 38.67 40.07 37.29 49.47 52.41 46.53模型的穩(wěn)健性

24、是指模型對(duì)訓(xùn)練樣本以外的樣本的預(yù)測(cè)能力而言的。穩(wěn)健性較好的模型對(duì)訓(xùn)練樣本以外的樣本進(jìn)行預(yù)測(cè)時(shí)，其預(yù)測(cè)精度不應(yīng)該有較明顯的下降。這里為了避免模型對(duì)樣本結(jié)構(gòu)的依賴，5次隨機(jī)對(duì)樣本進(jìn)行分層選取，觀察它們的穩(wěn)健性。2.模型誤判概率和穩(wěn)健性比較表2列出了5種模型對(duì)訓(xùn)練樣本和檢驗(yàn)樣本的分類的總的誤判率，第一類誤判率，第二類誤判率。從表2中可以看到，就我們的建模數(shù)據(jù)而言：（1）五種方法的5次結(jié)果不論是對(duì)訓(xùn)練樣本還是對(duì)檢驗(yàn)樣本均是第二類錯(cuò)誤的比率小于第一類錯(cuò)誤的比率，符合數(shù)據(jù)建模的目標(biāo)：盡可能少的流失可能性大的潛在客戶。對(duì)每個(gè)模型的5次結(jié)果觀察比較可以看出，這五種模型都有一定的穩(wěn)健性，結(jié)果沒(méi)有太大的差異。（

25、2）支持向量機(jī)方法盡管訓(xùn)練樣本的誤判率比其他四種方法都明顯低很多，但是五次檢驗(yàn)樣本的總的誤判率都高于訓(xùn)練樣本的總的誤判率，而其他四種方法的檢驗(yàn)樣本的總的誤判率也都有幾次高于訓(xùn)練樣本的總的誤判率。這說(shuō)明僅僅靠訓(xùn)練樣本計(jì)算出來(lái)的誤判率還不能真正反映模型的預(yù)測(cè)能力。特別是支持向量機(jī)方法：五次的對(duì)保留樣本的誤判率大大高于對(duì)訓(xùn)練樣本的誤判率，K階近鄰分類法五次的對(duì)保留樣本的誤判率也高于對(duì)訓(xùn)練樣本的誤判率， Kernel估計(jì)也有4次。若僅用訓(xùn)練樣本的預(yù)測(cè)能力來(lái)評(píng)價(jià)模型的優(yōu)劣將會(huì)因?yàn)榻Y(jié)果的樂(lè)觀而產(chǎn)生誤導(dǎo)，因此對(duì)檢驗(yàn)樣本的誤判率才是對(duì)模型預(yù)測(cè)能力的一個(gè)較合理的評(píng)估。（3）就對(duì)檢驗(yàn)樣本的總的誤判率而言，線性判別分析，Logistic回歸方法，K階近鄰分類法，Kernel估計(jì)的總的誤判率均在43左右，而支持向量機(jī)的總的誤判率更是低至39.50以下。這在一定程度上說(shuō)明，選擇用來(lái)比較的五種模型具有

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

信用評(píng)分模型在(化妝品)客戶挖掘中的應(yīng)用研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

信用評(píng)分模型在(化妝品)客戶挖掘中的應(yīng)用研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔