《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù):數(shù)據(jù)預(yù)測(cè)_第1頁(yè)
《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù):數(shù)據(jù)預(yù)測(cè)_第2頁(yè)
《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù):數(shù)據(jù)預(yù)測(cè)_第3頁(yè)
《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù):數(shù)據(jù)預(yù)測(cè)_第4頁(yè)
《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù):數(shù)據(jù)預(yù)測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章R的決策樹(shù):數(shù)據(jù)預(yù)測(cè)學(xué)習(xí)目標(biāo)理論方面,理解決策樹(shù)分類預(yù)測(cè)的基本原理,適用性和方法特點(diǎn)。了解組合預(yù)測(cè)的必要性、袋裝策略、推進(jìn)策略以及隨機(jī)森林的核心思想原理實(shí)踐方面,掌握R的決策樹(shù)、組合預(yù)測(cè)建模的函數(shù)和應(yīng)用以及結(jié)果解讀,能夠正確運(yùn)用決策樹(shù)和組合預(yù)測(cè)方法實(shí)現(xiàn)數(shù)據(jù)的分類預(yù)測(cè)決策樹(shù)算法概述決策樹(shù)是一種直觀有效展示規(guī)則集的圖形方式,也是實(shí)現(xiàn)分類預(yù)測(cè)的經(jīng)典數(shù)據(jù)挖掘算法決策樹(shù)較好地規(guī)避了傳統(tǒng)統(tǒng)計(jì)中利用一般線性模型、廣義線性模型、判別分析對(duì)數(shù)據(jù)分布的要求,能夠在無(wú)分布限制的“寬松環(huán)境下”,找出數(shù)據(jù)中輸入變量和輸出變量取值間的邏輯對(duì)應(yīng)關(guān)系或規(guī)則,并實(shí)現(xiàn)對(duì)新數(shù)據(jù)輸出變量的預(yù)測(cè)決策樹(shù)的目標(biāo)建立分類預(yù)測(cè)模型建立回歸預(yù)測(cè)模型什么是決策樹(shù)什么是決策樹(shù)根節(jié)點(diǎn)葉節(jié)點(diǎn)中間節(jié)點(diǎn)2叉樹(shù)和多叉樹(shù)決策樹(shù)的特點(diǎn)決策樹(shù)體現(xiàn)了對(duì)樣本數(shù)據(jù)的不斷分組過(guò)程決策樹(shù)體現(xiàn)了輸入變量和輸出變量取值的邏輯關(guān)系決策樹(shù)的幾何意義決策樹(shù)的幾何意義可將樣本集中的每一個(gè)觀測(cè)看成是n維(n個(gè)輸入變量)特征空間上的一個(gè)點(diǎn),輸出變量取不同類別的點(diǎn)以不同形狀表示(如圓圈或三角形)從幾何意義上理解,是決策樹(shù)的每個(gè)分枝在一定規(guī)則下完成對(duì)n維特征空間的區(qū)域劃分。決策樹(shù)建立好后,n維特征空間被劃分成若干個(gè)小的矩形區(qū)域。矩形區(qū)域的邊界平行或垂直于坐標(biāo)軸決策樹(shù)的核心問(wèn)題決策樹(shù)的核心問(wèn)題第一,決策樹(shù)的生長(zhǎng),即利用訓(xùn)練樣本集完成決策樹(shù)的建立過(guò)程第二,決策樹(shù)的剪枝,即利用測(cè)試樣本集對(duì)所形成的決策樹(shù)進(jìn)行精簡(jiǎn)分類回歸樹(shù)的生長(zhǎng)過(guò)程分類回歸樹(shù)的生長(zhǎng)過(guò)程本質(zhì)是對(duì)訓(xùn)練樣本集的反復(fù)分組,涉及兩個(gè)問(wèn)題:如何從眾多輸入變量中選擇當(dāng)前最佳分組變量如何從分組變量的眾多取值中找到一個(gè)最佳分割點(diǎn)最佳分組變量和最佳分割點(diǎn)應(yīng)是使輸出變量異質(zhì)性下降最快的變量和分割點(diǎn)信息熵:是信息量的數(shù)學(xué)期望。先驗(yàn)熵和后驗(yàn)熵信息增益:加權(quán)的信息增益測(cè)度異質(zhì)性下降的程度分類樹(shù)的生長(zhǎng)過(guò)程輸出變量異質(zhì)性及異質(zhì)性變化的測(cè)度Gini系數(shù):節(jié)點(diǎn)樣本的輸出變量均取同一類別值,輸出變量取值的差異性最小,Gini系數(shù)為0。各類別取值概率相等時(shí),輸出變量取值的差異性最大回歸樹(shù)的生長(zhǎng)過(guò)程輸出變量異質(zhì)性及異質(zhì)性變化的測(cè)度方差異質(zhì)性下降的測(cè)度指標(biāo)為方差的減少量分類回歸樹(shù)的剪枝分類回歸樹(shù)采用預(yù)修剪和后修剪相結(jié)合的方式剪枝預(yù)修剪目標(biāo)是控制決策樹(shù)充分生長(zhǎng),可以事先指定一些控制參數(shù),例如:決策樹(shù)最大深度樹(shù)中父節(jié)點(diǎn)和子節(jié)點(diǎn)所包含的最少樣本量或比例樹(shù)節(jié)點(diǎn)中輸出變量的最小異質(zhì)性減少量后修剪策略是在決策樹(shù)生長(zhǎng)到一定程度之后,根據(jù)一定規(guī)則,剪去決策樹(shù)中的那些不具有一般代表性的葉節(jié)點(diǎn)或子樹(shù),是一個(gè)邊修剪邊檢驗(yàn)的過(guò)程分類回歸樹(shù)采用的后修剪技術(shù)稱為最小代價(jià)復(fù)雜度剪枝法(MinimalCostComplexityPruning,MCCP)最小代價(jià)復(fù)雜度的測(cè)度出發(fā)點(diǎn):決策樹(shù)修剪中復(fù)雜度和精度(或誤差)之間的權(quán)衡是必要的,既要盡量使決策子樹(shù)沒(méi)有很高的復(fù)雜度,又要保證修剪后的決策子樹(shù),其預(yù)測(cè)誤差不明顯高于復(fù)雜的決策樹(shù)決策樹(shù)T的代價(jià)復(fù)雜度最小代價(jià)復(fù)雜度剪枝判斷能否剪掉一個(gè)中間節(jié)點(diǎn){t}下的子樹(shù)Tt時(shí),應(yīng)計(jì)算中間節(jié)點(diǎn){t}和其子樹(shù)Tt的代價(jià)復(fù)雜度最小代價(jià)復(fù)雜度剪枝分類回歸樹(shù)后剪枝過(guò)程,兩個(gè)階段:第一個(gè)階段:不斷調(diào)整CP參數(shù)并依據(jù)剪掉子樹(shù),得到k個(gè)備選子樹(shù)最終將得到若干個(gè)具有嵌套(包含)關(guān)系的子樹(shù)序列(依次增大,包含的葉節(jié)點(diǎn)數(shù)依次減少)第二個(gè)階段:在k個(gè)備選子樹(shù)中選出最優(yōu)子樹(shù)分類回歸樹(shù)的交叉驗(yàn)證剪枝小樣本集下因測(cè)試樣本集的樣本量小,且訓(xùn)練樣本集和測(cè)試樣本集的劃分具有隨機(jī)性,會(huì)導(dǎo)致CP參數(shù)值的設(shè)定不恰當(dāng)。為此,可采用N折交叉驗(yàn)證剪枝N折交叉驗(yàn)證首先,將數(shù)據(jù)集隨機(jī)近似等分為不相交的N組,稱為N折然后,令其中的N-1組為訓(xùn)練樣本集,用于建立模型。剩余的一組為測(cè)試樣本集,計(jì)算預(yù)測(cè)誤差N折交叉驗(yàn)證一般應(yīng)用第一,模型預(yù)測(cè)誤差的估計(jì),即模型評(píng)價(jià)第二,確定合理的模型,即模型選擇分類回歸樹(shù)的交叉驗(yàn)證剪枝CP參數(shù)值的典型代表值分類回歸樹(shù)的R函數(shù)和應(yīng)用分類回歸樹(shù)的R函數(shù)rpart(輸出變量~輸入變量,data=數(shù)據(jù)框名,method=方法名,parms=list(split=異質(zhì)性測(cè)度指標(biāo)),control=參數(shù)對(duì)象名)printcp(決策樹(shù)結(jié)果對(duì)象名)plotcp(決策樹(shù)結(jié)果對(duì)象名)分類回歸樹(shù)的應(yīng)用提煉不同消費(fèi)行為顧客的主要特征組合預(yù)測(cè):給出穩(wěn)健的預(yù)測(cè)組合預(yù)測(cè)模型是提高模型預(yù)測(cè)精度和穩(wěn)健性的有效途徑首先,基于樣本數(shù)據(jù)建立一組模型而非單一模型其次,預(yù)測(cè)時(shí)由這組模型同時(shí)提供各自的預(yù)測(cè)結(jié)果,通過(guò)類似“投票表決”的形式?jīng)Q定最終的預(yù)測(cè)結(jié)果組合預(yù)測(cè)中的單個(gè)模型稱為基礎(chǔ)學(xué)習(xí)器,它們通常有相同的模型形式。如何獲得多個(gè)樣本集合,如何將多個(gè)模型組合起來(lái)實(shí)現(xiàn)更合理的“投票表決”,是組合模型預(yù)測(cè)中的兩個(gè)重要方面。常見(jiàn)技術(shù):袋裝(Bagging)技術(shù)推進(jìn)(Boosting)技術(shù)袋裝技術(shù)袋裝技術(shù)的英文為Bagging,是BootstrapAggregating的縮寫。顧名思義,Bagging的核心是Bootstrap,也稱重抽樣自舉法對(duì)樣本量為n樣本集S,重抽樣自舉法(也稱0.632自舉法)的做法對(duì)S做k次有放回地重復(fù)抽樣,得到k個(gè)樣本容量仍為n的隨機(jī)樣本Si(i=1,2,…,k),稱自舉樣本袋裝技術(shù)基于k個(gè)自舉樣本建立組合預(yù)測(cè)模型第一,建模階段第二,預(yù)測(cè)階段第三,模型評(píng)估階段袋裝技術(shù)ipred包中的bagging函數(shù)bagging(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,nbagg=k,coob=TRUE,control=參數(shù)對(duì)象名)adabag包中的bagging函數(shù)bagging(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,mfinal=重復(fù)次數(shù),control=參數(shù)對(duì)象名)袋裝技術(shù)的應(yīng)用穩(wěn)健定位目標(biāo)客戶推進(jìn)技術(shù)袋裝技術(shù)中,自舉樣本的生成完全是隨機(jī)的。多個(gè)模型在預(yù)測(cè)投票中的地位也都相同,并未考慮不同模型預(yù)測(cè)精度的差異性。推進(jìn)技術(shù)在這兩方面進(jìn)行了調(diào)整,其中的AdaBoost(AdaptiveBoosting)策略已有較為廣泛的應(yīng)用。包括兩個(gè)階段:第一,建模階段第二,預(yù)測(cè)階段推進(jìn)技術(shù)的R函數(shù)boosting(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,mfinal=重復(fù)次數(shù),boos=TRUE,coeflearn=模型權(quán)重調(diào)整方法,control=參數(shù)對(duì)象名)隨機(jī)森林隨機(jī)森林是一種組合預(yù)測(cè)模型。用隨機(jī)方式建立一片森林,森林中包含眾多有較高預(yù)測(cè)精度且弱相關(guān)甚至不相關(guān)的決策樹(shù),并形成組合預(yù)測(cè)模型。后續(xù),眾多預(yù)測(cè)模型將共同參與對(duì)新觀測(cè)輸出變量取值的預(yù)測(cè)隨機(jī)森林的隨機(jī)性表現(xiàn)在兩個(gè)方面:第一,訓(xùn)練樣本是對(duì)原始樣本的重抽樣自舉,訓(xùn)練樣本具有隨機(jī)性第二,在每棵決策樹(shù)建立過(guò)程中,成為當(dāng)前最佳分組變量的輸入變量,是輸入變量全體的一個(gè)隨機(jī)候選變量子集中的“競(jìng)爭(zhēng)獲勝者”。分組變量具有隨機(jī)性。隨機(jī)森林構(gòu)建變量子集i的常見(jiàn)方式隨機(jī)選擇輸入變量:也稱Forest-RI(RandomInput)方式,即通過(guò)隨機(jī)方式選擇k個(gè)輸入變量進(jìn)入候選變量子集i

。依據(jù)變量子集i將建立一棵充分生長(zhǎng)的決策樹(shù),無(wú)需剪枝以減少預(yù)測(cè)偏差隨機(jī)組合輸入變量:也稱Forest-RC(RandomCombination)方式。通過(guò)隨機(jī)選擇L個(gè)輸入變量x并生成L個(gè)均服從均勻分布的隨機(jī)數(shù),做線性組合重復(fù)得到k個(gè)由新變量v組成的輸入變量子集i。依據(jù)變量子集i

建立一棵充分生長(zhǎng)的決策樹(shù),且無(wú)需剪枝隨機(jī)森林確定k的依據(jù)第一,決策樹(shù)對(duì)袋外觀測(cè)的預(yù)測(cè)精度,也稱決策樹(shù)的強(qiáng)度第二,各決策樹(shù)間的相互依賴程度,也稱決策樹(shù)的相關(guān)性k越大,每棵樹(shù)的預(yù)測(cè)偏差越小(也即強(qiáng)度越高),但因決策樹(shù)間的相關(guān)性較大導(dǎo)致預(yù)測(cè)方差越大。反之,k越小,每棵樹(shù)的預(yù)測(cè)偏差越大(也即強(qiáng)度越低),但因決策樹(shù)間的相關(guān)性較低導(dǎo)致預(yù)測(cè)方差較小。所以,在相關(guān)性與強(qiáng)度之比最小下的k是合理的隨機(jī)森林隨機(jī)森林的R函數(shù)randomForest(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,mtr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論