數(shù)據(jù)挖掘模型中的IV和WOE詳解_第1頁
數(shù)據(jù)挖掘模型中的IV和WOE詳解_第2頁
數(shù)據(jù)挖掘模型中的IV和WOE詳解_第3頁
數(shù)據(jù)挖掘模型中的IV和WOE詳解_第4頁
數(shù)據(jù)挖掘模型中的IV和WOE詳解_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘模型中的IV和WOE詳解標簽:IVWOE信息價值證據(jù)權重數(shù)據(jù)挖掘模型2016-03-02 15:36 28747人閱讀 評論(8)收藏 舉報=分類:數(shù)據(jù)挖掘模型(7)f目錄()+|版權聲明:本文為博主原創(chuàng)文章,未經博主允許不得轉載。1.IV的用途IV的全稱是Informationvalue,中文意思是信息價值,或者信息量。我們在用邏輯回歸、決策樹等模型方法構建分類模型時,經常需要對自變量進行篩選。比如我們 有200個候選自變量,通常情況下,不會直接把200個變量直接放到模型中去進行擬合訓練, 而是會用一些方法,從這200個自變量中挑選一些出來,放進模型,形成入模變量列表。那么 我們怎么

2、去挑選入模變量呢?挑選入模變量過程是個比較復雜的過程,需要考慮的因素很多,比如:變量的預測能力,變量之 間的相關性,變量的簡單性(容易生成和使用),變量的強壯性(不容易被繞過),變量在業(yè)務 上的可解釋性(被挑戰(zhàn)時可以解釋的通)等等。但是,其中最主要和最直接的衡量標準是變量的 預測能力。變量的預測能力這個說法很籠統(tǒng),很主觀,非量化,在篩選變量的時候我們總不能說:我 覺得這個變量預測能力很強,所以他要進入模型吧?我們需要一些具體的量化指標來衡量每自 變量的預測能力,并根據(jù)這些量化指標的大小,來確定哪些變量進入模型。IV就是這樣一種指 標,他可以用來衡量自變量的預測能力。類似的指標還有信息增益、基尼

3、系數(shù)等等。2.對IV的直觀理解從直觀邏輯上大體可以這樣理解用IV去衡量變量預測能力這件事情:我們假設在一個分類 問題中,目標變量的類別有兩類:Y1,Y2。對于一個待預測的個體A,要判斷A屬于Y1還是 Y2,我們是需要一定的信息的,假設這個信息總量是【,而這些所需要的信息,就蘊含在所有的自變量C1 , C2 , C3 Cn中,那么,對于其中的一個變量Ci來說,其蘊含的信息越多,那么它對于判斷A屬于Y1還是Y2的貢獻就越大,Ci的信息價值就越大,Ci的IV就越大,它 就越應該進入到入模變量列表中。3.IV的計算前面我們從感性角度和邏輯層面對IV進行了解釋和描述,那么回到數(shù)學層面,對于一個待評估 變

4、量,他的IV值究竟如何計算呢?為了介紹IV的計算方法,我們首先需要認識和理解另一個概 念WOE,因為IV的計算是以WOE為基礎的。3.1WOEWOE的全稱是WeightofEvidence,即證據(jù)權重。WOE是對原始自變量的一種編碼形式。要對一個變量進行WOE編碼,需要首先把這個變量進行分組處理(也叫離散化、分箱等等,說 的都是一個意思)。分組后,對于第i組,WOE的計算公式如下:其中,pyi是這個組中響應客戶(風險模型中,對應的是違約客戶,總之,指的是模型中預測變 量取值為是或者說1的個體)占所有樣本中所有響應客戶的比例,pni是這個組中未響應客 戶占樣本中所有未響應客戶的比例,#yi是這個

5、組中響應客戶的數(shù)量,#ni是這個組中未響應客 戶的數(shù)量,#yT是樣本中所有響應客戶的數(shù)量,#nT是樣本中所有未響應客戶的數(shù)量。從這個公式中我們可以體會到,WOE表示的實際上是當前分組中響應客戶占所有響應客戶的 比例和當前分組中沒有響應的客戶占所有沒有響應的客戶的比例的差異。對這個公式做一個簡單變換,可以得到:變換以后我們可以看出,WOE也可以這么理解,他表示的是當前這個組中響應的客戶和未響應 客戶的比值,和所有樣本中這個比值的差異。這個差異是用這兩個比值的比值,再取對數(shù)來表示 的。WOE越大,這種差異越大,這個分組里的樣本響應的可能性就越大,WOE越小,差異越 小,這個分組里的樣本響應的可能性

6、就越小。關于WOE編碼所表示的意義,大家可以自己再好好體會一下。3.2 IV的計算公式算-有了前面的介紹,我們可以正式給出IV的計算公式。對于一個分組后的變量,第i組的WOE前面已經介紹過,是這樣計算的:同樣,對于分組i,也會有一個對應的IV值,計算公式如下:有了一個變量各分組的IV值,我們就可以計算整個變量的IV值,方法很簡單,就是把各分組的IV相加:其中,n為變量分組個數(shù)。算-3.3用實例介紹IV的計算和使用下面我們通過一個實例來講解一下IV的使用方式。3.3.1實例假設我們需要構建一個預測模型這個模型是為了預測公司的客戶集合中的每個客戶對于我們的 某項營銷活動是否能夠響應,或者說我們要預

7、測的是客戶對我們的這項營銷活動響應的可能性有 多大。假設我們已經從公司客戶列表中隨機抽取了 100000個客戶進行了營銷活動測試,收集了 這些客戶的響應結果,作為我們的建模數(shù)據(jù)集,其中響應的客戶有10000個。另外假設我們也 已經提取到了這些客戶的一些變量,作為我們模型的候選變量集,這些變量包括以下這些(實際 情況中,我們擁有的變量可能比這些多得多,這里列出的變量僅僅是為了說明我們的問題):最近一個月是否有購買;最近一次購買金額;最近一筆購買的商品類別;是否是公司VIP客戶;假設,我們已經對這些變量進行了離散化,統(tǒng)計的結果如下面幾張表所示。最近一個月是否有過購買:最近一次購買金額:最近一筆購買

8、的商品類別:是否是公司VIP客戶:3.3.2 計算 WOE 和 IV我們以其中的一個變量最近一次購買金額變量為例:我們把這個變量離散化為了 4個分段:100元,100,200),200,500), = 500元。首先, 根據(jù)WOE計算公式,這四個分段的WOE分別為:插播一段,從上面的計算結果中我們可以看一下WOE的基本特點:當前分組中,響應的比例越大,WOE值越大;當前分組WOE的正負,由當前分組響應和未響應的比例,與樣本整體響應和未響應 的比例的大小關系決定,當前分組的比例小于樣本整體比例時,WOE為負,當前分 組的比例大于整體比例時,WOE為正,當前分組的比例和整體比例相等時,WOE 為0

9、。 WOE的取值范圍是全體實數(shù)。我們進一步理解一下WOE,會發(fā)現(xiàn),WOE其實描述了變量當前這個分組,對判斷個體是否會 響應(或者說屬于哪個類)所起到影響方向和大小,當WOE為正時,變量當前取值對判斷個體 是否會響應起到的正向的影響,當WOE為負時,起到了負向影響。而WOE值的大小,則是這 個影響的大小的體現(xiàn)。好,回到正題,計算完WOE,我們分別計算四個分組的IV值:再插播一段,從上面IV的計算結果我們可以看出IV的以下特點:對于變量的一個分組,這個分組的響應和未響應的比例與樣本整體響應和未響應的比 例相差越大,IV值越大,否則,IV值越小;極端情況下,當前分組的響應和未響應的比例和樣本整體的響

10、應和未響應的比例相等 時,IV值為0; IV值的取值范圍是0,+8),且,當當前分組中只包含響應客戶或者未響應客戶時, IV=+8。OK,再次回到正題。最后,我們計算變量總IV值:3.3.3 IV的比較和變量預測能力的排序我們已經計算了四個變量中其中一個的WOE和IV值。另外三個的計算過程我們不再詳細的說 明,直接給出IV結果。這四個變量IV排序結果是這樣的:是否是公司VIP客戶最近一筆購買的商品類別最近一次購 買金額最近一個月是否有過購買。我們發(fā)現(xiàn)是否是公司VIP客戶是預測能力最高的變量,最近一個月是否有過購買”是預測能力最低的變量。如果我們需要在這四個變量中去挑選變量,就可以根據(jù)IV從高到

11、低去挑選了。4.關于IV和WOE的進一步思考4.1為什么用IV而不是直接用WOE從上面的內容來看,變量各分組的WOE和IV都隱含著這個分組對目標變量的預測能力這樣的 意義。那我們?yōu)槭裁床恢苯佑肳OE相加或者絕對值相加作為衡量一個變量整體預測能力的指標 呢?并且,從計算公式來看,對于變量的一個分組,IV是WOE乘以這個分組響應占比和未響應占 比的差。而一個變量的IV等于各分組IV的和。如果愿意,我們同樣也能用WOE構造出一個這 樣的一個和出來,我們只需要把變量各個分組的WOE和取絕對值再相加,即(取絕對值是因為 WOE可正可負,如果不取絕對值,則會把變量的區(qū)分度通過正負抵消的方式抵消掉):那么我

12、們?yōu)槭裁床恢苯佑眠@個WOE絕對值的加和來衡量一個變量整體預測能力的好壞,而是要 用WOE處理后的IV呢。 我們這里給出兩個原因。IV和WOE的差別在于IV在WOE基礎上乘以的那個Ul. - G提, 我們暫且用pyn來代表這個值。第一個原因,當我們衡量一個變量的預測能力時,我們所使用的指標值不應該是負數(shù),否則,說 一個變量的預測能力的指標是-2.3,聽起來很別扭。從這個角度講,乘以pyn這個系數(shù),保證 了變量每個分組的結果都是非負數(shù),你可以驗證一下,當一個分組的WOE是正數(shù)時,pyn也是 正數(shù),當一個分組的WOE是負數(shù)時,pyn也是負數(shù),而當一個分組的WOE=0時,pyn也是0。WOE = I

13、WOE11當然,上面的原因不是最主要的,因為其實我們上面提到的這個指標也可以完全避免負數(shù)的出現(xiàn)。更主要的原因,也就是第二個原因是,乘以pyn后,體現(xiàn)出了變量當前分組中個體的數(shù)量占整 體個體數(shù)量的比例,對變量預測能力的影響。怎么理解這句話呢?我們還是舉個例子。假設我們上面所說的營銷響應模型中,還有一個變量A,其取值只有兩個:0,1,數(shù)據(jù)如下:我們從上表可以看出,當變量A取值1時,其響應比例達到了 90%,非常的高,但是我們能否 說變量A的預測能力非常強呢?不能。為什么呢?原因就在于,A取1時,響應比例雖然很高, 但這個分組的客戶數(shù)太少了,占的比例太低了。雖然,如果一個客戶在A這個變量上取1,那他

14、 有90%的響應可能性,但是一個客戶變量A取1的可能性本身就非常的低。所以,對于樣本整 體來說,變量的預測能力并沒有那么強。我們分別看一下變量各分組和整體的WOE,IV。從這個表我們可以看到,變量取1時,響應比達到90%,對應的WOE很高,但對應的IV卻很 低,原因就在于IV在WOE的前面乘以了一個系數(shù)、二0 ,而這個系數(shù)很好的考慮了這 個分組中樣本占整體樣本的比例,比例越低,這個分組對變量整體預測能力的貢獻越低。相反, 如果直接用WOE的絕對值加和,會得到一個很高的指標,這是不合理的。4.2 的極端情況以及處理方式IV依賴WOE,并且IV是一個很好的衡量自變量對目標變量影響程度的指標。但是,

15、使用過程 中應該注意一個問題:變量的任何分組中,不應該出現(xiàn)響應數(shù)二0或非響應數(shù)二0的情況。原因很簡單,當變量一個分組中,響應數(shù)二0時,此時對應的IVi為+8。而當變量一個分組中,沒有響應的數(shù)量=0時,此時的IVi為+8。IVi無論等于負無窮還是正無窮,都是沒有意義的。由上述問題我們可以看到,使用IV其實有一個缺點,就是不能自動處理變量的分組中出現(xiàn)響應 比例為0或100%的情況。那么,遇到響應比例為0或者100%的情況,我們應該怎么做呢?建 議如下:(1 )如果可能,直接把這個分組做成一個規(guī)則,作為模型的前置條件或補充條件;(2 )重新對變量進行離散化或分組,使每個分組的響應比例都不為0且不為1

16、00%,尤其是當 一個分組個體數(shù)很小時(比如小于100個),強烈建議這樣做,因為本身把一個分組個體數(shù)弄 得很小就不是太合理。(3)如果上面兩種方法都無法使用,建議人工把該分組的響應數(shù)和非響應的數(shù)量進行一定的調 整。如果響應數(shù)原本為0,可以人工調整響應數(shù)為1 ,如果非響應數(shù)原本為0,可以人工調整非 響應數(shù)為1.評分卡模型剖析之一(woe、IV、ROC、信息熵)算法 python3m 12 個月前(09-26) 1287C信用評分卡模型在國外是一種成熟的預測方法尤其在信用風險評估以及金融風險控制領域更是 得到了比較廣泛的使用,其原理是將模型變量WOE編碼方式離散化之后運用logistic回歸模型

17、進行的一種二分類變量的廣義線性模型。本文重點介紹模型變量WOE以及IV原理,為表述方便,本文將模型目標標量為1記為違約用 戶,對于目標變量為0記為正常用戶;則WOE(weight of Evidence實就是自變量取某個值的時候對違約比例的一種影響,怎么理解這句話呢?我下面通過一個圖標來進行說明。Woe公式如下:Age#bad#goodWoe0-1050200=ln(50/100)/(200/1000)=ln(50/200)/(100/1000)10-1820200=ln(20/100)/(200/1000)=ln(20/200)/(100/1000)18-355200=ln(5/100)/(

18、200/1000)=ln(5/200)/(100/1000)35-5015200=ln(15/100)/(200/1000)=ln(15/200)/(100/1000)50以上10200=ln(10/100)/(200/1000)=ln(10/200)/(100/1000)匯總1001000表中以age年齡為某個自變量,由于年齡是連續(xù)型自變量,需要對其進行離散化處理,假設離 散化分為5組(至于如何分組,會在以后專題中解釋),#bad和#good表示在這五組中違約用戶 和正常用戶的數(shù)量分布,最后一列是woe值的計算,通過后面變化之后的公式可以看出,woe 反映的是在自變量每個分組下違約用戶對正常

19、用戶占比和總體中違約用戶對正常用戶占比之間 的差異;從而可以直觀的認為woe蘊含了自變量取值對于目標變量(違約概率)的影響。再加 上woe計算形式與logistic回歸中目標變量的logistic轉換(logist_p=ln(p/1-p)如此相似,因而可 以將自變量woe值替代原先的自變量值;講完WOE下面來說一下IV :IV公式如下:其實IV衡量的是某一個變量的信息量,從公式來看的話,相當于是自變量可。值的一個加權求 和,其值的大小決定了自變量對于目標變量的影響程度;從另一個角度來看的話,IV公式與信 息熵的公式極其相似。事實上,為了理解WOE的意義,需要考慮對評分模型效果的評價。因為我們在

20、建模時對模型自 變量的所有處理工作,本質上都是為了提升模型的效果。在之前的一些學習中,我也總結了這種 二分類模型效果的評價方法,尤其是其中的ROC曲線。為了描述WOE的意義,還真的需要從ROC說起。仍舊是先畫個表格。數(shù)據(jù)來自于著名的German credit dataset,取了其中一個自變量來說明問題。第一列是自變量的取值,N表示對應每個取值的樣本數(shù),n1和n0分別表示了違約樣本數(shù)與正常樣本數(shù),pl和 p0分別表示了違約樣本與正常樣本占各自總體的比例,cumpl和cump0分別表示了 pl和p0 的累計和,woe是對應自變量每個取值的WOE( ln(p1/p0), iv是woe*(p1-p0

21、)。對iv求和(可 以看成是對WOE的加權求和),就得到(information value信息值),是衡量自變量對目標變量 影響的指標之一(類似于gini,entropy那些),此處是0.666,貌似有點太大了,冏。上述過程研究了一個自變量對目標變量的影響,事實上也可以看成是單個自變量的評分模型,更 進一步地,可以直接將自變量的取值當做是某種信用評分的得分,此時需要假設自變量是某種有 序變量,也就是僅僅根據(jù)這個有序的自變量直接對目標變量進行預測。正是基于這種視角,我們可以將“模型效果的評價”與“自變量篩選及編碼”這兩個過程統(tǒng)一起來。 篩選合適的自變量,并進行適當?shù)木幋a,事實上就是挑選并構造出

22、對目標變量有較高預測力 (predictive power)的自變量,同時也可以認為,由這些自變量分別建立的單變量評分模型 其模 型效果也是比較好的。就以上面這個表格為例,其中的cump1和cump0,從某種角度看就是我們做ROC曲線時候的 TPR與FPR。例如,此時的評分排序為A12,A11,A14,A13,若以A14為cutoff,則此時的 TPR=cumsum(p1)3/(sum(p1),F(xiàn)PR=cumsum(p0)3/(sum(p0),就是 cump13和 cump03。 于是我們可以畫出相應的ROC曲線??梢钥吹贸鰜磉@個ROC不怎么好看。之前也學習過了,ROC曲線有可以量化的指標AU

23、C,指 的就是曲線下方的面積。這種面積其實衡量了 TPR與FPR之間的距離。根據(jù)上面的描述,從另 個角度看TPR與FPR,可以理解為這個自變量(也就是某種評分規(guī)則的得分)關于0/1目標 變量的條件分布,例如TPR,即cump1,也就是當目標變量取1時,自變量(評分得分)的一 個累積分布。當這兩個條件分布距離較遠時,說明這個自變量對目標變量有較好的辨識度。既然條件分布函數(shù)能夠描述這種辨識能力那么條件密度函數(shù)行不行呢?這就引出了 IV和WOE 的概念。事實上,我們同樣可以衡量兩個條件密度函數(shù)的距離,這就是IV。這從IV的計算公式里面可以看出來,IV=sum(p1-p0)*log(p1/p0),其中

24、的pl和p0就是相應的密度值。IV這個定 義是從相對熵演化過來的,里面仍然可以看到x*lnx的影子。至此應該已經可以總結到:評價評分模型的效果可以從“條件分布函數(shù)距離”與“條件密度函數(shù)距離” 這兩個角度出發(fā)進行考慮,從而分別得到AUC和IV這兩個指標。這兩個指標當然也可以用來作 為篩選自變量的指標,IV似乎更加常用一些。而WOE就是IV的一個主要成分。那么,到底為什么要用WOE來對自變量做編碼呢?主要的兩個考慮是:提升模型的預測效果, 提高模型的可理解性。首先,對已經存在的一個評分規(guī)則,例如上述的A12,A11,A14,A13,對其做各種函數(shù)變化,可 以得到不同的ROC結果。但是,如果這種函數(shù)

25、變化是單調的,那么ROC曲線事實上是不發(fā)生 變化的。因此,想要提高ROC,必須寄希望于對評分規(guī)則做非單調的變換。傳說中的NP引理 證明了,使得ROC達到最優(yōu)的變換就是計算現(xiàn)有評分的一個WOE,這似乎叫做“條件似然比” 變換。用上述例子,我們根據(jù)計算出的WOE值,對評分規(guī)則(也就是第一列的value)做排序,得到新的一個評分規(guī)則。tilPL加6uinjlcmtipO梆eIVAll 27413513?0.4SOOOOOO0.19B5711DH500000CK L98S71*t061609670056335391051640.3500000C0.23426570.600000ft0.4328571-40139130.046446753*0700000OHOS4&51&0睜皿S*J114394460.1S333333a,4971429i.ooocaoG1,0000000-1.1762 6320.404

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論