版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、分類與預(yù)測Vicky銀行個(gè)人住房貸款審批銀行個(gè)人住房貸款審批銀行個(gè)人客戶提出住房貸款申請,根據(jù)歷史銀行個(gè)人客戶提出住房貸款申請,根據(jù)歷史數(shù)據(jù)發(fā)現(xiàn):部分貸款客戶不能按時(shí)還款。為盡量數(shù)據(jù)發(fā)現(xiàn):部分貸款客戶不能按時(shí)還款。為盡量降低這種現(xiàn)象,需要發(fā)現(xiàn)不能按時(shí)還款客戶的特降低這種現(xiàn)象,需要發(fā)現(xiàn)不能按時(shí)還款客戶的特征,以便對以后住房貸款申請的審批提供依據(jù)。征,以便對以后住房貸款申請的審批提供依據(jù)。 2006年年底,由年年底,由SAS機(jī)構(gòu)與招商銀行啟動(dòng)了全機(jī)構(gòu)與招商銀行啟動(dòng)了全行個(gè)人住房貸款評分卡開發(fā)與推廣項(xiàng)目。行個(gè)人住房貸款評分卡開發(fā)與推廣項(xiàng)目。 該項(xiàng)目利用客戶的歷史數(shù)據(jù)構(gòu)建評分卡模型,該項(xiàng)目利用客戶的歷
2、史數(shù)據(jù)構(gòu)建評分卡模型,然后將該模型應(yīng)用到新客戶上,最后決定是否接然后將該模型應(yīng)用到新客戶上,最后決定是否接受新客戶的貸款申請。受新客戶的貸款申請。分析數(shù)據(jù)集應(yīng)該包括哪些客戶?分析數(shù)據(jù)集應(yīng)該包括哪些客戶?銀行貸款申請 IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentY
3、es10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分類與預(yù)測 分類:分類: 目標(biāo)變量為非數(shù)值型目標(biāo)變量為非數(shù)值型 預(yù)測:預(yù)測: 目標(biāo)變量目標(biāo)變量為為數(shù)值型數(shù)值型 根據(jù)歷史數(shù)據(jù)集(已知目標(biāo)變根據(jù)歷史數(shù)據(jù)集(已知目標(biāo)變量),構(gòu)建模型描述目標(biāo)變量量),構(gòu)建模型描述目標(biāo)變量與輸入變量之間的關(guān)系,并依與輸入變量之間的關(guān)系,并依據(jù)模型來分類或預(yù)測新數(shù)據(jù)(據(jù)模型來分類或預(yù)測新數(shù)據(jù)(目標(biāo)變量值未知目標(biāo)變量值未知)。 分類模
4、型也稱為分類器。分類模型也稱為分類器。模型應(yīng)用模型應(yīng)用建模建模規(guī)則規(guī)則1:If refund=no and marst=married then cheat=no模型評估模型評估分類的過程 數(shù)據(jù)集分區(qū)數(shù)據(jù)集分區(qū) 訓(xùn)練集訓(xùn)練集:建立模型:建立模型 驗(yàn)證集驗(yàn)證集:調(diào)整和選擇模型:調(diào)整和選擇模型 測試集測試集:評估模型的預(yù)測能力:評估模型的預(yù)測能力 建立模型建立模型 評估并選擇模型評估并選擇模型 運(yùn)用模型運(yùn)用模型 新新數(shù)據(jù)(打分集)數(shù)據(jù)(打分集)思考:分類模型在什么情況下不適合用于新數(shù)據(jù)?思考:分類模型在什么情況下不適合用于新數(shù)據(jù)?分類方法決策樹方法決策樹方法貝葉斯分類法貝葉斯分類法LOGISTIC
5、回歸回歸神經(jīng)網(wǎng)絡(luò)方法神經(jīng)網(wǎng)絡(luò)方法K近鄰分類法近鄰分類法SVM分類法分類法.RootLeafNode7決策樹(decision tree)規(guī)則規(guī)則1:If refund=no and (marst=single or marst=divorced) and taxincome80k then cheat=yes決策樹 是一棵二叉或多叉樹結(jié)構(gòu) 每個(gè)內(nèi)部節(jié)點(diǎn)代表一個(gè)屬性,該節(jié)點(diǎn)的分支表示根據(jù)該屬性的不同測試條件的輸出 葉子節(jié)點(diǎn)表示一個(gè)類標(biāo) 決策樹一般是自上而下生成的決策樹一般是自上而下生成的l決策樹基本思想決策樹基本思想l建立決策樹建立決策樹l將決策樹轉(zhuǎn)換為決策規(guī)則并應(yīng)用將決策樹轉(zhuǎn)換為決策規(guī)則并應(yīng)用
6、l相關(guān)問題討論相關(guān)問題討論內(nèi)容一、決策樹思想 將數(shù)據(jù)集根據(jù)將數(shù)據(jù)集根據(jù)某某種種測試測試條件分為條件分為2個(gè)或多個(gè)個(gè)或多個(gè)子集,使分裂后的子集子集,使分裂后的子集在目標(biāo)變量上在目標(biāo)變量上具有具有更純的分類更純的分類純度與混雜度純度與混雜度混雜度的常用測度指標(biāo)混雜度的常用測度指標(biāo) 信息熵信息熵 ( Entropy) 基尼指數(shù)(基尼指數(shù)( Gini Index) 分類誤差(分類誤差(classification error)Pj 是數(shù)據(jù)集合中類別是數(shù)據(jù)集合中類別j的相對比例的相對比例.entropy = iiipp2log12信息熵信息熵 ( Entropy) 什么情況下,熵最???什么情況下,熵最小
7、?什么情況下,熵最大?什么情況下,熵最大?lentropy = - 1 log21 - 0 log20 = 0目標(biāo)變量為二元變量:lentropy = -0.5 log20.5 0.5 log20.5 =1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10M
8、iddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo銀行貸款數(shù)據(jù)集銀行貸款案例數(shù)據(jù)集的熵:銀行貸款案例數(shù)據(jù)集的熵: Entropy(T)=6/15*log2(6/15) 9/15*log2(9/15)=0.971Gini 指數(shù)Pj 是數(shù)據(jù)集合中類別是數(shù)據(jù)集合中類別j的相對比例的相對比例.GINI最大最大=?GINI最小最小=?1-1/2 (目標(biāo)變量為二元變量)(目標(biāo)變量為二元變量) 0IDAgeHas_jobOwn_h
9、omeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo銀行貸款數(shù)
10、據(jù)集銀行貸款案例數(shù)據(jù)集銀行貸款案例數(shù)據(jù)集的基尼指數(shù):的基尼指數(shù):gini=1-(6/15)2-(9/15)2=0.48分類誤差(分類誤差(classification error)CE最大最大=?CE最小最小=?1-1/2 (目標(biāo)變量為二元變量)(目標(biāo)變量為二元變量) 0IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesG
11、oodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo銀行貸款數(shù)據(jù)集銀行貸款案例數(shù)據(jù)集銀行貸款案例數(shù)據(jù)集的分類誤差:的分類誤差:CE=1- 9/15=6/15=0.4二、建立二、建立決策樹決策樹常用常用算法算法 ID3-ID5,C4,C4.5,C5.0 CART(Classification and Regression Trees分分類與回歸樹類與回歸樹
12、) (C&RT) CHAID(chi-squared automatic interaction detection,卡方自動(dòng)交互檢測,卡方自動(dòng)交互檢測)二叉二叉 GINI 指數(shù)指數(shù)二叉或多叉二叉或多叉 信息熵信息熵二叉或多叉二叉或多叉建立建立決策樹決策樹 樹的生長樹的生長 分裂屬性及其條件的選擇分裂屬性及其條件的選擇 何時(shí)結(jié)束分裂何時(shí)結(jié)束分裂 樹的選擇樹的選擇1. 裂分目標(biāo)與屬性選擇 裂分裂分目標(biāo)目標(biāo) 使分裂后數(shù)據(jù)子集的使分裂后數(shù)據(jù)子集的純度純度比裂分前數(shù)據(jù)集的純度比裂分前數(shù)據(jù)集的純度最大限度的提高最大限度的提高;即不同類別的觀測盡量分散在不;即不同類別的觀測盡量分散在不同的子集中。
13、同的子集中。 指標(biāo)指標(biāo) 信息增益與信息增益率信息增益與信息增益率 GINI指數(shù)的下降指數(shù)的下降 二分指數(shù)二分指數(shù) 卡方檢驗(yàn)卡方檢驗(yàn) C-SEP、信息增益Information Gain = 裂分前數(shù)據(jù)集的熵裂分前數(shù)據(jù)集的熵 裂分后各子數(shù)據(jù)集的熵裂分后各子數(shù)據(jù)集的熵加權(quán)和加權(quán)和其中:其中:權(quán)重為每個(gè)子集中的觀測數(shù)在裂分前總權(quán)重為每個(gè)子集中的觀測數(shù)在裂分前總觀測數(shù)中所占的比例觀測數(shù)中所占的比例案例數(shù)據(jù)集基于own_home屬性劃分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4You
14、ngYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo案例數(shù)據(jù)集基于ownhome屬性劃分劃分后數(shù)據(jù)集的熵劃分后數(shù)據(jù)集的熵EntropyOwn_home(T)= 6/15* Entropy(T1)+
15、9/15* Entropy(T2)= 6/15*( 6/6*log2(6/6) 0/0*log2(0/6) )+ 9/15*( 3/9*log2(3/9) 6/9*log2(6/9) =0.551 信息增益信息增益Gain(ownhome)=0.971-0.551=0.42Own_homeYesNoYes:6No:0No:6Yes:3 裂分前數(shù)據(jù)集的熵:裂分前數(shù)據(jù)集的熵:Entropy(T0)=6/15*log2(6/15) 9/15*log2(9/15)=0.971案例數(shù)據(jù)集基于age屬性劃分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2Yo
16、ungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo案例數(shù)據(jù)集基于age屬性劃分裂分后數(shù)據(jù)集的熵裂分后數(shù)據(jù)集的熵EntropyA
17、ge(T)= 5/15* Entropy(T1)+ 5/15* Entropy(T2)+ 5/15* Entropy(T3)= 5/15*( 3/5*log2(3/5) 2/5*log2(2/5) )+ 5/15*( 3/5*log2(3/5) 2/5*log2(2/5) )+ 5/15*( 1/5*log2(1/5) 4/5*log2(4/5) )=0.888 信息增益信息增益Gain(age)=0.971-0.888=0.083AgeYoungMiddleOldYes:2No:3Yes:3No:2No:1Yes:4案例數(shù)據(jù)集基于其它屬性劃分根據(jù)根據(jù)hasjob 和和credit劃分后的熵分
18、別為劃分后的熵分別為EntropyHas_job(T)= 0.647 EntropyCredit(T)=0.608信息增益分別為:信息增益分別為:Gain(hasjob)=0.324 Gain(credit)=0.363Gain(ownhome)=0.42Gain(age)=0.971-0.888=0.083has_jobYesNoYes:5No:0No:6Yes:4creditfairgoodexcellentYes:1No:4Yes:4No:2No:0Yes:4Own_homeYesNoYes:6No:0No:6Yes:3IDAgeHas_jobOwn_homeCreditClass1Yo
19、ungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNoOwn_homeYesNoNo:6Yes:3Yes:6No:0has_jobYesNoYes:3No:0No:6Yes:0IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungY
20、esYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo信息增益方法偏向選擇具有大量取值的屬性信息增益方法偏向選擇具有大量取值的屬性信息增益率信息增益率 假設(shè)按照屬性假設(shè)按照屬性S來劃分來劃分T,設(shè),設(shè)S有有
21、m個(gè)值,根據(jù)該屬性的取值個(gè)值,根據(jù)該屬性的取值將數(shù)據(jù)集將數(shù)據(jù)集T劃分成劃分成m個(gè)子集個(gè)子集T1,T2,Tm,設(shè),設(shè)Tj的數(shù)據(jù)個(gè)數(shù)的數(shù)據(jù)個(gè)數(shù)是是tj。信息增益率可以通過如下公式計(jì)算得到:。信息增益率可以通過如下公式計(jì)算得到: 其中,其中, 如前面所定義,如前面所定義, 的定義為的定義為 )()()(TSplitISGainSGainRatioSmjjjSttttTSplitI12)(log)()(SGain)(TSplitIS信息增益率:案例數(shù)據(jù)集基于ownhome屬性劃分信息增益信息增益Gain(ownhome)=0.971-0.551=0.42SPLITI(ownhome)=-6/15*lo
22、g2(6/15) 9/15*log2(9/15) =0.971信息增益率信息增益率GR(ownhome)=0.42/0.971=0.433Own_homeYesNoYes:6No:0No:6Yes:3GINI指數(shù)的下降 GINI指數(shù)指數(shù)的下降的下降 = 裂裂分前數(shù)據(jù)集分前數(shù)據(jù)集的的GINI指數(shù)指數(shù) 裂分后各子裂分后各子數(shù)據(jù)集數(shù)據(jù)集的的GINI指數(shù)指數(shù)加權(quán)和加權(quán)和 其中其中:權(quán)重為每個(gè)子集中的觀測數(shù)在裂:權(quán)重為每個(gè)子集中的觀測數(shù)在裂分前總觀測數(shù)中所占的比例分前總觀測數(shù)中所占的比例二分指數(shù)劃分二分指數(shù)劃分 對于在屬性對于在屬性s的劃分的劃分t,二分指數(shù)的改進(jìn)量,二分指數(shù)的改進(jìn)量為:(為:(j表示目
23、標(biāo)變量的取值)表示目標(biāo)變量的取值) 產(chǎn)生兩個(gè)子節(jié)點(diǎn)間最大差異的屬性產(chǎn)生兩個(gè)子節(jié)點(diǎn)間最大差異的屬性s被選擇。被選擇??ǚ綑z驗(yàn)劃分 計(jì)算每個(gè)裂分的卡方值計(jì)算每個(gè)裂分的卡方值 選擇卡方檢驗(yàn)最顯著的變量及其裂分分支選擇卡方檢驗(yàn)最顯著的變量及其裂分分支選擇裂分屬性及其裂分條件選擇裂分屬性及其裂分條件 測試每個(gè)屬性及其可能的裂分條件,計(jì)算裂分測試每個(gè)屬性及其可能的裂分條件,計(jì)算裂分指標(biāo),選擇最佳者。指標(biāo),選擇最佳者。 注意:注意: 對取值范圍比較大的類別屬性,可考慮分組泛化對取值范圍比較大的類別屬性,可考慮分組泛化 對有序類別屬性,劃分不能改變其順序性對有序類別屬性,劃分不能改變其順序性 對數(shù)值型屬性,理
24、論上需要測試各種可能的劃分條件,對數(shù)值型屬性,理論上需要測試各種可能的劃分條件,實(shí)際上可以進(jìn)行實(shí)際上可以進(jìn)行優(yōu)化測試優(yōu)化測試。也可以進(jìn)行離散化處理。也可以進(jìn)行離散化處理。341.排序排序2.類標(biāo)號(hào)改變的臨界點(diǎn)中間值作為候選劃分閾值類標(biāo)號(hào)改變的臨界點(diǎn)中間值作為候選劃分閾值PersonHair LengthWeightAgeClass Homer0”25036MMarge10”15034FBart2”9010MLisa6”788FMaggie4”201FAbe1”17070MSelma8”16041FOtto10”18038MKrusty6”20045M35PersonHair LengthWei
25、ghtAgeClassMaggie4”201FLisa6”788FBart2”9010MMarge10”15034FSelma8”16041FAbe1”17070MOtto10”18038MKrusty6”20045M Homer0”25036MWeight = 165?yesno劃分前:劃分前:Entropy(4F,5M) = -(4/9)log2(4/9) - (5/9)log2(5/9) = 0.9911Entropy(4F,1M) = -(4/5)log2(4/5) - (1/5)log2(1/5) = 0.7219Entropy(0F,4M) = -(0/4)log2(0/4) -
26、(4/4)log2(4/4) = 0Gain(Weight = 165) = 0.9911 (5/9 * 0.7219 + 4/9 * 0 ) = 0.5900372. 裂分停止條件裂分停止條件每個(gè)葉子節(jié)點(diǎn)都屬于同一個(gè)類別;每個(gè)葉子節(jié)點(diǎn)都屬于同一個(gè)類別; 有可能得到一個(gè)非常大的樹,某些葉子節(jié)點(diǎn)只有可能得到一個(gè)非常大的樹,某些葉子節(jié)點(diǎn)只包含很少的觀測。包含很少的觀測。節(jié)點(diǎn)包含的觀測個(gè)數(shù)小于某個(gè)指定值;節(jié)點(diǎn)包含的觀測個(gè)數(shù)小于某個(gè)指定值;裂分的目標(biāo)指標(biāo)(例如:信息增益、信息增益率)裂分的目標(biāo)指標(biāo)(例如:信息增益、信息增益率)非常??;非常??;樹的深度達(dá)到了預(yù)先指定的最大值。樹的深度達(dá)到了預(yù)先指定的最大
27、值。預(yù)剪枝預(yù)剪枝383. 樹的選擇樹的選擇 分類模型的優(yōu)劣一般情況下可根據(jù)分類的準(zhǔn)分類模型的優(yōu)劣一般情況下可根據(jù)分類的準(zhǔn)確度(或分類誤差)來判斷。確度(或分類誤差)來判斷。訓(xùn)練誤差:在訓(xùn)練集上的誤差訓(xùn)練誤差:在訓(xùn)練集上的誤差 泛化誤差:在非訓(xùn)練集上的期望誤差泛化誤差:在非訓(xùn)練集上的期望誤差在驗(yàn)證數(shù)據(jù)集上的預(yù)測誤差是泛化誤差的無偏估計(jì)。在驗(yàn)證數(shù)據(jù)集上的預(yù)測誤差是泛化誤差的無偏估計(jì)。過擬合過擬合 好的分類模型:好的分類模型: 低訓(xùn)練誤差低訓(xùn)練誤差 低泛化誤差低泛化誤差 擬合不足:擬合不足: 較高訓(xùn)練誤差較高訓(xùn)練誤差 較高泛化誤差較高泛化誤差 過擬合:過擬合: 低訓(xùn)練誤差低訓(xùn)練誤差 較高泛化誤差較高
28、泛化誤差過擬合過擬合處理策略過擬合處理策略-剪枝剪枝 給樹剪枝就是剪掉給樹剪枝就是剪掉“弱枝弱枝”(指的是(指的是在驗(yàn)證數(shù)據(jù)上誤分類率高的樹枝)。在驗(yàn)證數(shù)據(jù)上誤分類率高的樹枝)。 為樹剪枝會(huì)增加訓(xùn)練數(shù)據(jù)上的錯(cuò)誤分為樹剪枝會(huì)增加訓(xùn)練數(shù)據(jù)上的錯(cuò)誤分類率,但精簡的樹會(huì)提高新數(shù)據(jù)上的預(yù)類率,但精簡的樹會(huì)提高新數(shù)據(jù)上的預(yù)測能力。測能力。 決策樹剪枝決策樹剪枝 預(yù)剪枝(提前終止裂分)預(yù)剪枝(提前終止裂分)在樹沒有完全擴(kuò)張之前就停止樹的生長,即不要求在樹沒有完全擴(kuò)張之前就停止樹的生長,即不要求每個(gè)葉子節(jié)點(diǎn)內(nèi)的每一個(gè)屬性值都相同,或者屬每個(gè)葉子節(jié)點(diǎn)內(nèi)的每一個(gè)屬性值都相同,或者屬于同一類別。于同一類別。 后剪枝
29、后剪枝 用新的葉子節(jié)點(diǎn)(類標(biāo)號(hào)為多數(shù)類)代替子樹;用新的葉子節(jié)點(diǎn)(類標(biāo)號(hào)為多數(shù)類)代替子樹; 用子樹中最常用的分枝代替子樹;用子樹中最常用的分枝代替子樹;后剪枝訓(xùn)練集:驗(yàn)證集:訓(xùn)練后得到的決策樹:colorcolorx2x2classclassredredsuccesssuccessbluebluefailurefailurebluebluefailurefailurecolorcolorx2x2classclassredredfailurefailureredredfailurefailureredredfailurefailurebluebluesuccesssuccessfailure驗(yàn)
30、證集誤差:驗(yàn)證集誤差:41最小誤差樹與最佳剪枝樹最小誤差樹與最佳剪枝樹三、產(chǎn)生分類規(guī)則并應(yīng)用三、產(chǎn)生分類規(guī)則并應(yīng)用 對從根到葉節(jié)點(diǎn)的每一條路徑創(chuàng)建一條規(guī)則:對從根到葉節(jié)點(diǎn)的每一條路徑創(chuàng)建一條規(guī)則: 沿著給定路徑上的每個(gè)劃分沿著給定路徑上的每個(gè)劃分 用邏輯用邏輯AND形成分類規(guī)則的形成分類規(guī)則的IF部分,對應(yīng)葉節(jié)點(diǎn)的類別形成部分,對應(yīng)葉節(jié)點(diǎn)的類別形成THEN部分。部分。例如:例如:R1:IF Own_home=yes THEN Class=yesR2:IF Own_home=No AND Has_job=Yes THEN Class=YesR3:IF Own_home=No AND Has_jo
31、b=No THEN Class=NoOwn_homeYesNoNo:6Yes:3Yes:6No:0has_jobYesNoYes:3No:0No:6Yes:0規(guī)則的覆蓋率規(guī)則的覆蓋率 準(zhǔn)確率準(zhǔn)確率四、問題討論四、問題討論 缺失值問題缺失值問題 決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義 決策樹方法的特點(diǎn)與改進(jìn)決策樹方法的特點(diǎn)與改進(jìn) 目標(biāo)變量在數(shù)據(jù)集樣本與總體的分布不一目標(biāo)變量在數(shù)據(jù)集樣本與總體的分布不一致時(shí)如何處理?致時(shí)如何處理?變量值缺失問題變量值缺失問題 訓(xùn)練集中的輸入變量值缺失訓(xùn)練集中的輸入變量值缺失 新新數(shù)據(jù)中裂分?jǐn)?shù)據(jù)中裂分變量變量值值缺失缺失使用代理劃分使用代理劃分 假定假定X
32、* 是節(jié)點(diǎn)是節(jié)點(diǎn)t的最佳劃分的最佳劃分s*的裂分的裂分變量變量,代,代理劃分理劃分s(劃分(劃分效果最接近效果最接近s*)使用另外一個(gè)輸)使用另外一個(gè)輸入變量入變量X。 如果要預(yù)測的新記錄在如果要預(yù)測的新記錄在X*上有缺失值而在上有缺失值而在X變變量上沒有缺失值量上沒有缺失值,則預(yù)測將使用代理劃分,則預(yù)測將使用代理劃分s。問題討論問題討論 缺失值問題缺失值問題 決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義 決策樹方法的特點(diǎn)與改進(jìn)決策樹方法的特點(diǎn)與改進(jìn) 目標(biāo)變量在數(shù)據(jù)集樣本與總體的分布不一目標(biāo)變量在數(shù)據(jù)集樣本與總體的分布不一致時(shí)如何處理?致時(shí)如何處理?決策樹葉子節(jié)點(diǎn)的準(zhǔn)確含義PersonHair LengthWeightAgeClass Homer0”25036MMarge10”15034FBart2”9010MLisa6”788FMaggie4”201FAbe1”17070MSelma8”16041FOtto10”18038MKrusty6”20045MP(class=M)=100%P(class=F)=80%Weight = 165?yesno問題討論問題討論 缺失值問題缺失
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度跨境電商倉儲(chǔ)租賃合同合法經(jīng)營拓展全球市場4篇
- 二零二五年度建筑工地鋼筋施工安全培訓(xùn)合同
- 二零二五版網(wǎng)絡(luò)短視頻剪輯師招聘合同范本3篇
- 二零二五年度建筑用沙子購銷及環(huán)保審計(jì)合同3篇
- 2025年皮包原材料進(jìn)口合同二零二五年度版4篇
- 二零二五年度拍賣會(huì)籌備及組織服務(wù)合同4篇
- 2025年度牛羊肉品牌保護(hù)及侵權(quán)糾紛處理合同
- 二零二五年度內(nèi)墻抹灰工程質(zhì)量監(jiān)督合同范例
- 二零二五版摩托車二手車交易評估與收購合同4篇
- 2025年建筑物清潔與智能安防系統(tǒng)維護(hù)合同3篇
- 2024-2025學(xué)年北京石景山區(qū)九年級初三(上)期末語文試卷(含答案)
- 第一章 整式的乘除 單元測試(含答案) 2024-2025學(xué)年北師大版數(shù)學(xué)七年級下冊
- 春節(jié)聯(lián)歡晚會(huì)節(jié)目單課件模板
- 中國高血壓防治指南(2024年修訂版)
- 糖尿病眼病患者血糖管理
- 抖音音樂推廣代運(yùn)營合同樣本
- 教育促進(jìn)會(huì)會(huì)長總結(jié)發(fā)言稿
- 北師大版(2024新版)七年級上冊數(shù)學(xué)第四章《基本平面圖形》測試卷(含答案解析)
- 心理調(diào)適教案調(diào)整心態(tài)積極應(yīng)對挑戰(zhàn)
- 小學(xué)數(shù)學(xué)6年級應(yīng)用題100道附答案(完整版)
- 噴漆外包服務(wù)合同范本
評論
0/150
提交評論