《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù)：數(shù)據(jù)預(yù)測(cè)

上傳人：獨(dú)*** IP屬地：江蘇上傳時(shí)間：2022-11-02 格式：PPT 頁(yè)數(shù)：24 大?。?39KB 積分：15 舉報(bào) 版權(quán)申訴

《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù)：數(shù)據(jù)預(yù)測(cè)_第2頁(yè)

《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù)：數(shù)據(jù)預(yù)測(cè)_第3頁(yè)

《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù)：數(shù)據(jù)預(yù)測(cè)_第4頁(yè)

《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù)：數(shù)據(jù)預(yù)測(cè)_第5頁(yè)

已閱讀5頁(yè)，還剩19頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章R的決策樹(shù)：數(shù)據(jù)預(yù)測(cè)學(xué)習(xí)目標(biāo)理論方面，理解決策樹(shù)分類預(yù)測(cè)的基本原理，適用性和方法特點(diǎn)。了解組合預(yù)測(cè)的必要性、袋裝策略、推進(jìn)策略以及隨機(jī)森林的核心思想原理實(shí)踐方面，掌握R的決策樹(shù)、組合預(yù)測(cè)建模的函數(shù)和應(yīng)用以及結(jié)果解讀，能夠正確運(yùn)用決策樹(shù)和組合預(yù)測(cè)方法實(shí)現(xiàn)數(shù)據(jù)的分類預(yù)測(cè)決策樹(shù)算法概述決策樹(shù)是一種直觀有效展示規(guī)則集的圖形方式，也是實(shí)現(xiàn)分類預(yù)測(cè)的經(jīng)典數(shù)據(jù)挖掘算法決策樹(shù)較好地規(guī)避了傳統(tǒng)統(tǒng)計(jì)中利用一般線性模型、廣義線性模型、判別分析對(duì)數(shù)據(jù)分布的要求，能夠在無(wú)分布限制的“寬松環(huán)境下”，找出數(shù)據(jù)中輸入變量和輸出變量取值間的邏輯對(duì)應(yīng)關(guān)系或規(guī)則，并實(shí)現(xiàn)對(duì)新數(shù)據(jù)輸出變量的預(yù)測(cè)決策樹(shù)的目標(biāo)建立分類預(yù)測(cè)模型建立回歸預(yù)測(cè)模型什么是決策樹(shù)什么是決策樹(shù)根節(jié)點(diǎn)葉節(jié)點(diǎn)中間節(jié)點(diǎn)2叉樹(shù)和多叉樹(shù)決策樹(shù)的特點(diǎn)決策樹(shù)體現(xiàn)了對(duì)樣本數(shù)據(jù)的不斷分組過(guò)程決策樹(shù)體現(xiàn)了輸入變量和輸出變量取值的邏輯關(guān)系決策樹(shù)的幾何意義決策樹(shù)的幾何意義可將樣本集中的每一個(gè)觀測(cè)看成是n維（n個(gè)輸入變量）特征空間上的一個(gè)點(diǎn)，輸出變量取不同類別的點(diǎn)以不同形狀表示（如圓圈或三角形）從幾何意義上理解，是決策樹(shù)的每個(gè)分枝在一定規(guī)則下完成對(duì)n維特征空間的區(qū)域劃分。決策樹(shù)建立好后，n維特征空間被劃分成若干個(gè)小的矩形區(qū)域。矩形區(qū)域的邊界平行或垂直于坐標(biāo)軸決策樹(shù)的核心問(wèn)題決策樹(shù)的核心問(wèn)題第一，決策樹(shù)的生長(zhǎng)，即利用訓(xùn)練樣本集完成決策樹(shù)的建立過(guò)程第二，決策樹(shù)的剪枝，即利用測(cè)試樣本集對(duì)所形成的決策樹(shù)進(jìn)行精簡(jiǎn)分類回歸樹(shù)的生長(zhǎng)過(guò)程分類回歸樹(shù)的生長(zhǎng)過(guò)程本質(zhì)是對(duì)訓(xùn)練樣本集的反復(fù)分組，涉及兩個(gè)問(wèn)題：如何從眾多輸入變量中選擇當(dāng)前最佳分組變量如何從分組變量的眾多取值中找到一個(gè)最佳分割點(diǎn)最佳分組變量和最佳分割點(diǎn)應(yīng)是使輸出變量異質(zhì)性下降最快的變量和分割點(diǎn)信息熵：是信息量的數(shù)學(xué)期望。先驗(yàn)熵和后驗(yàn)熵信息增益：加權(quán)的信息增益測(cè)度異質(zhì)性下降的程度分類樹(shù)的生長(zhǎng)過(guò)程輸出變量異質(zhì)性及異質(zhì)性變化的測(cè)度Gini系數(shù)：節(jié)點(diǎn)樣本的輸出變量均取同一類別值，輸出變量取值的差異性最小，Gini系數(shù)為0。各類別取值概率相等時(shí)，輸出變量取值的差異性最大回歸樹(shù)的生長(zhǎng)過(guò)程輸出變量異質(zhì)性及異質(zhì)性變化的測(cè)度方差異質(zhì)性下降的測(cè)度指標(biāo)為方差的減少量分類回歸樹(shù)的剪枝分類回歸樹(shù)采用預(yù)修剪和后修剪相結(jié)合的方式剪枝預(yù)修剪目標(biāo)是控制決策樹(shù)充分生長(zhǎng)，可以事先指定一些控制參數(shù)，例如：決策樹(shù)最大深度樹(shù)中父節(jié)點(diǎn)和子節(jié)點(diǎn)所包含的最少樣本量或比例樹(shù)節(jié)點(diǎn)中輸出變量的最小異質(zhì)性減少量后修剪策略是在決策樹(shù)生長(zhǎng)到一定程度之后，根據(jù)一定規(guī)則，剪去決策樹(shù)中的那些不具有一般代表性的葉節(jié)點(diǎn)或子樹(shù)，是一個(gè)邊修剪邊檢驗(yàn)的過(guò)程分類回歸樹(shù)采用的后修剪技術(shù)稱為最小代價(jià)復(fù)雜度剪枝法（MinimalCostComplexityPruning，MCCP）最小代價(jià)復(fù)雜度的測(cè)度出發(fā)點(diǎn)：決策樹(shù)修剪中復(fù)雜度和精度（或誤差）之間的權(quán)衡是必要的，既要盡量使決策子樹(shù)沒(méi)有很高的復(fù)雜度，又要保證修剪后的決策子樹(shù)，其預(yù)測(cè)誤差不明顯高于復(fù)雜的決策樹(shù)決策樹(shù)T的代價(jià)復(fù)雜度最小代價(jià)復(fù)雜度剪枝判斷能否剪掉一個(gè)中間節(jié)點(diǎn){t}下的子樹(shù)Tt時(shí)，應(yīng)計(jì)算中間節(jié)點(diǎn){t}和其子樹(shù)Tt的代價(jià)復(fù)雜度最小代價(jià)復(fù)雜度剪枝分類回歸樹(shù)后剪枝過(guò)程,兩個(gè)階段：第一個(gè)階段：不斷調(diào)整CP參數(shù)并依據(jù)剪掉子樹(shù)，得到k個(gè)備選子樹(shù)最終將得到若干個(gè)具有嵌套（包含）關(guān)系的子樹(shù)序列(依次增大，包含的葉節(jié)點(diǎn)數(shù)依次減少)第二個(gè)階段：在k個(gè)備選子樹(shù)中選出最優(yōu)子樹(shù)分類回歸樹(shù)的交叉驗(yàn)證剪枝小樣本集下因測(cè)試樣本集的樣本量小，且訓(xùn)練樣本集和測(cè)試樣本集的劃分具有隨機(jī)性，會(huì)導(dǎo)致CP參數(shù)值的設(shè)定不恰當(dāng)。為此，可采用N折交叉驗(yàn)證剪枝N折交叉驗(yàn)證首先，將數(shù)據(jù)集隨機(jī)近似等分為不相交的N組，稱為N折然后，令其中的N－1組為訓(xùn)練樣本集，用于建立模型。剩余的一組為測(cè)試樣本集，計(jì)算預(yù)測(cè)誤差N折交叉驗(yàn)證一般應(yīng)用第一，模型預(yù)測(cè)誤差的估計(jì)，即模型評(píng)價(jià)第二，確定合理的模型，即模型選擇分類回歸樹(shù)的交叉驗(yàn)證剪枝CP參數(shù)值的典型代表值分類回歸樹(shù)的R函數(shù)和應(yīng)用分類回歸樹(shù)的R函數(shù)rpart(輸出變量~輸入變量,data=數(shù)據(jù)框名,method=方法名,parms=list(split=異質(zhì)性測(cè)度指標(biāo)),control=參數(shù)對(duì)象名)printcp(決策樹(shù)結(jié)果對(duì)象名)plotcp(決策樹(shù)結(jié)果對(duì)象名)分類回歸樹(shù)的應(yīng)用提煉不同消費(fèi)行為顧客的主要特征組合預(yù)測(cè)：給出穩(wěn)健的預(yù)測(cè)組合預(yù)測(cè)模型是提高模型預(yù)測(cè)精度和穩(wěn)健性的有效途徑首先，基于樣本數(shù)據(jù)建立一組模型而非單一模型其次，預(yù)測(cè)時(shí)由這組模型同時(shí)提供各自的預(yù)測(cè)結(jié)果，通過(guò)類似“投票表決”的形式?jīng)Q定最終的預(yù)測(cè)結(jié)果組合預(yù)測(cè)中的單個(gè)模型稱為基礎(chǔ)學(xué)習(xí)器，它們通常有相同的模型形式。如何獲得多個(gè)樣本集合，如何將多個(gè)模型組合起來(lái)實(shí)現(xiàn)更合理的“投票表決”，是組合模型預(yù)測(cè)中的兩個(gè)重要方面。常見(jiàn)技術(shù)：袋裝（Bagging）技術(shù)推進(jìn)（Boosting）技術(shù)袋裝技術(shù)袋裝技術(shù)的英文為Bagging，是BootstrapAggregating的縮寫。顧名思義，Bagging的核心是Bootstrap，也稱重抽樣自舉法對(duì)樣本量為n樣本集S，重抽樣自舉法（也稱0.632自舉法）的做法對(duì)S做k次有放回地重復(fù)抽樣，得到k個(gè)樣本容量仍為n的隨機(jī)樣本Si(i=1,2,…,k)，稱自舉樣本袋裝技術(shù)基于k個(gè)自舉樣本建立組合預(yù)測(cè)模型第一，建模階段第二，預(yù)測(cè)階段第三，模型評(píng)估階段袋裝技術(shù)ipred包中的bagging函數(shù)bagging(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,nbagg=k,coob=TRUE,control=參數(shù)對(duì)象名)adabag包中的bagging函數(shù)bagging(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,mfinal=重復(fù)次數(shù),control=參數(shù)對(duì)象名)袋裝技術(shù)的應(yīng)用穩(wěn)健定位目標(biāo)客戶推進(jìn)技術(shù)袋裝技術(shù)中，自舉樣本的生成完全是隨機(jī)的。多個(gè)模型在預(yù)測(cè)投票中的地位也都相同，并未考慮不同模型預(yù)測(cè)精度的差異性。推進(jìn)技術(shù)在這兩方面進(jìn)行了調(diào)整，其中的AdaBoost(AdaptiveBoosting)策略已有較為廣泛的應(yīng)用。包括兩個(gè)階段：第一，建模階段第二，預(yù)測(cè)階段推進(jìn)技術(shù)的R函數(shù)boosting(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,mfinal=重復(fù)次數(shù),boos=TRUE,coeflearn=模型權(quán)重調(diào)整方法,control=參數(shù)對(duì)象名)隨機(jī)森林隨機(jī)森林是一種組合預(yù)測(cè)模型。用隨機(jī)方式建立一片森林，森林中包含眾多有較高預(yù)測(cè)精度且弱相關(guān)甚至不相關(guān)的決策樹(shù)，并形成組合預(yù)測(cè)模型。后續(xù)，眾多預(yù)測(cè)模型將共同參與對(duì)新觀測(cè)輸出變量取值的預(yù)測(cè)隨機(jī)森林的隨機(jī)性表現(xiàn)在兩個(gè)方面：第一，訓(xùn)練樣本是對(duì)原始樣本的重抽樣自舉，訓(xùn)練樣本具有隨機(jī)性第二，在每棵決策樹(shù)建立過(guò)程中，成為當(dāng)前最佳分組變量的輸入變量，是輸入變量全體的一個(gè)隨機(jī)候選變量子集中的“競(jìng)爭(zhēng)獲勝者”。分組變量具有隨機(jī)性。隨機(jī)森林構(gòu)建變量子集i的常見(jiàn)方式隨機(jī)選擇輸入變量：也稱Forest-RI（RandomInput）方式，即通過(guò)隨機(jī)方式選擇k個(gè)輸入變量進(jìn)入候選變量子集i

。依據(jù)變量子集i將建立一棵充分生長(zhǎng)的決策樹(shù)，無(wú)需剪枝以減少預(yù)測(cè)偏差隨機(jī)組合輸入變量：也稱Forest-RC（RandomCombination）方式。通過(guò)隨機(jī)選擇L個(gè)輸入變量x并生成L個(gè)均服從均勻分布的隨機(jī)數(shù)，做線性組合重復(fù)得到k個(gè)由新變量v組成的輸入變量子集i。依據(jù)變量子集i

建立一棵充分生長(zhǎng)的決策樹(shù)，且無(wú)需剪枝隨機(jī)森林確定k的依據(jù)第一，決策樹(shù)對(duì)袋外觀測(cè)的預(yù)測(cè)精度，也稱決策樹(shù)的強(qiáng)度第二，各決策樹(shù)間的相互依賴程度，也稱決策樹(shù)的相關(guān)性k越大，每棵樹(shù)的預(yù)測(cè)偏差越小（也即強(qiáng)度越高），但因決策樹(shù)間的相關(guān)性較大導(dǎo)致預(yù)測(cè)方差越大。反之，k越小，每棵樹(shù)的預(yù)測(cè)偏差越大（也即強(qiáng)度越低），但因決策樹(shù)間的相關(guān)性較低導(dǎo)致預(yù)測(cè)方差較小。所以，在相關(guān)性與強(qiáng)度之比最小下的k是合理的隨機(jī)森林隨機(jī)森林的R函數(shù)randomForest(輸出變量名~輸入變量名,data=數(shù)據(jù)框名,mtr

人人文庫(kù)> 全部分類> 教育資料 > 幼兒教育

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù)：數(shù)據(jù)預(yù)測(cè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《R語(yǔ)言數(shù)據(jù)挖掘》第五章 R的決策樹(shù)：數(shù)據(jù)預(yù)測(cè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔