![數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語言- 課件 第六章-隨機(jī)森林_第1頁](http://file4.renrendoc.com/view11/M01/13/39/wKhkGWX7xrqATLa6AALNdSHmH1s015.jpg)
![數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語言- 課件 第六章-隨機(jī)森林_第2頁](http://file4.renrendoc.com/view11/M01/13/39/wKhkGWX7xrqATLa6AALNdSHmH1s0152.jpg)
![數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語言- 課件 第六章-隨機(jī)森林_第3頁](http://file4.renrendoc.com/view11/M01/13/39/wKhkGWX7xrqATLa6AALNdSHmH1s0153.jpg)
![數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語言- 課件 第六章-隨機(jī)森林_第4頁](http://file4.renrendoc.com/view11/M01/13/39/wKhkGWX7xrqATLa6AALNdSHmH1s0154.jpg)
![數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語言- 課件 第六章-隨機(jī)森林_第5頁](http://file4.renrendoc.com/view11/M01/13/39/wKhkGWX7xrqATLa6AALNdSHmH1s0155.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
DataMiningandDataAnalysiswithR數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語言第六章隨機(jī)森林隨機(jī)森林方法原理01模型理解02R語言編程03章節(jié)內(nèi)容6.1隨機(jī)森林方法原理應(yīng)用背景介紹隨機(jī)森林作為一種經(jīng)典的集成學(xué)習(xí)方法,在許多任務(wù)上均有領(lǐng)先于一般單一模型的性能。所謂集成學(xué)習(xí)方法就是模擬人類的合作行為,通過多個(gè)模型對(duì)同一任務(wù)進(jìn)行具體的操作(比如分類或回歸)。隨機(jī)森林中的基礎(chǔ)模型是熟知的決策樹模型,通過各個(gè)決策樹對(duì)任務(wù)進(jìn)行綜合評(píng)估最終得出結(jié)果。bagging介紹由于隨機(jī)森林是基于bagging的一種集成學(xué)習(xí)方法,因此在對(duì)隨機(jī)森林方法介紹之前,首先探討集成學(xué)習(xí)的相關(guān)內(nèi)容。作為并行式集成學(xué)習(xí)方法的典型,bagging的特點(diǎn)便是采用隨機(jī)采樣的方法,讓各個(gè)“基學(xué)習(xí)器”隨機(jī)地學(xué)習(xí)整體樣本中采樣出來的一部分,進(jìn)而綜合給出最終的輸出。
bagging介紹隨機(jī)森林
6.2模型理解隨機(jī)森林作為一種用于分類和回歸的集成學(xué)習(xí)方法,其目標(biāo)是通過多個(gè)CART決策樹共同從數(shù)據(jù)特征推斷出簡單決策規(guī)則,從而達(dá)到預(yù)測目標(biāo)變量類別或值的目的。一般而言,隨機(jī)森林中的CART決策樹的深度越深,決策規(guī)則越復(fù)雜,模型適用的范圍越廣。隨機(jī)森林模型的優(yōu)點(diǎn)隨機(jī)森林的訓(xùn)練可以高度并行化,這對(duì)于大數(shù)據(jù)時(shí)代的大樣本訓(xùn)練具有很大的優(yōu)勢,可以大大提升訓(xùn)練速度。由于隨機(jī)森林可以隨機(jī)選擇決策樹節(jié)點(diǎn)劃分特征,這在樣本特征維度很高的時(shí)候,仍然能高效地訓(xùn)練模型。隨機(jī)森林在訓(xùn)練后,可以給出各個(gè)特征對(duì)于輸出的重要性,從而可以針對(duì)不同的問題確定出重要特征和非重要特征。由于隨機(jī)森林采用了隨機(jī)采樣,訓(xùn)練出的模型的方差較小,從而具有更強(qiáng)的泛化能力。隨機(jī)森林模型的優(yōu)缺點(diǎn)隨機(jī)森林原理簡單,容易實(shí)現(xiàn)且計(jì)算開銷小,這對(duì)于大數(shù)據(jù)集而言,具有十分明顯的優(yōu)勢。隨機(jī)森林模型對(duì)部分特征缺失不敏感,因此,允許原始數(shù)據(jù)集中存在一定的數(shù)據(jù)缺失,具有較強(qiáng)的魯棒性。隨機(jī)森林模型的缺點(diǎn)隨機(jī)森林模型在某些噪音比較大的數(shù)據(jù)集上,容易陷入過擬合,使得模型在新的數(shù)據(jù)集上的預(yù)測或分類性能表現(xiàn)差。隨機(jī)森林模型對(duì)于取值劃分比較多的特征對(duì)應(yīng)的數(shù)據(jù)集不易產(chǎn)生令人滿意的模型擬合效果。隨機(jī)森林模型的優(yōu)缺點(diǎn)
隨機(jī)森林模型應(yīng)用
隨機(jī)森林模型應(yīng)用6.3R語言編程本節(jié)利用R語言將隨機(jī)森林建模的整個(gè)過程進(jìn)行實(shí)踐。對(duì)于一個(gè)新的問題,隨機(jī)森林建模主要包括四個(gè)部分:數(shù)據(jù)導(dǎo)入、數(shù)據(jù)預(yù)處理、隨機(jī)森林模型訓(xùn)練、隨機(jī)森林模型驗(yàn)證。數(shù)據(jù)導(dǎo)入首先導(dǎo)入讀取數(shù)據(jù)的相關(guān)庫,并利用fread函數(shù)讀取原始數(shù)據(jù)集PurchasePredictionDataset.csv(下載鏈接:/Apress/machine-learning-using-r/blob/master/Dataset/Chapter%206.zip)。該數(shù)據(jù)集共包含12個(gè)屬性信息,具體的屬性信息可以通過str(Data_Purchase)進(jìn)行查看:#相關(guān)庫導(dǎo)入library(data.table)library(C50)library(splitstackshape)library(rattle)library(rpart.plot)library(data.table)library(knitr)#讀取數(shù)據(jù)集Data_Purchase<-fread("./PurchasePredictionDataset.csv",header=T,verbose=FALSE,showProgress=FALSE)str(Data_Purchase)#查看數(shù)據(jù)信息table(Data_Purchase$ProductChoice)數(shù)據(jù)預(yù)處理首先,選定了部分相關(guān)列作為用于隨機(jī)森林模型訓(xùn)練的屬性,包括用戶ID、用戶選擇的產(chǎn)品類型、用戶的會(huì)員積分、收入類別、顧客傾向性和產(chǎn)品最終購買時(shí)間。隨機(jī)森林對(duì)于缺失值是敏感的,因此對(duì)數(shù)據(jù)集中的缺失值實(shí)行了刪除操作。#獲取相關(guān)數(shù)據(jù)集的相關(guān)列Data_Purchase<-Data_Purchase[,.(CUSTOMER_ID,ProductChoice,MembershipPoints,IncomeClass,CustomerPropensity,LastPurchaseDuration)]#刪除缺失值Data_Purchase<-na.omit(Data_Purchase)Data_Purchase$CUSTOMER_ID<-as.character(Data_Purchase$CUSTOMER_ID)#分層抽樣Data_Purchase_Model<-stratified(Data_Purchase,group=c("ProductChoice"),size=10000,replace=FALSE)print("TheDistributionofequalclassesisasbelow")table(Data_Purchase_Model$ProductChoice)預(yù)處理結(jié)束后,還需要對(duì)該數(shù)據(jù)集進(jìn)行劃分,形成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集兩部分。其中訓(xùn)練數(shù)據(jù)集用于對(duì)隨機(jī)森林進(jìn)行訓(xùn)練,而測試數(shù)據(jù)集則用于評(píng)估隨機(jī)森林的泛化能力。Data_Purchase_Model$ProductChoice<-as.factor(Data_Purchase_Model$ProductChoice)Data_Purchase_Model$IncomeClass<-as.factor(Data_Purchase_Model$IncomeClass)Data_Purchase_Model$CustomerPropensity<-as.factor(Data_Purchase_Model$CustomerPropensity)#在訓(xùn)練數(shù)據(jù)(Set_1)上建立隨機(jī)森林,然后測試數(shù)據(jù)(Set_2)將被用于性能測試set.seed(917)train<-Data_Purchase_Model[sample(nrow(Data_Purchase_Model),size=nrow(Data_Purchase_Model)*(0.7),replace=FALSE,prob=NULL),]train<-as.data.frame(train)test<-Data_Purchase_Model[!(Data_Purchase_Model$CUSTOMER_ID%in%train$CUSTOMER_ID),]print(test)數(shù)據(jù)預(yù)處理隨機(jī)森林模型訓(xùn)練準(zhǔn)備好訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集后,接下來便利用隨機(jī)森林模型在訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練,學(xué)習(xí)數(shù)據(jù)中蘊(yùn)含的規(guī)則。模型訓(xùn)練代碼如下:#導(dǎo)入相關(guān)庫library(gmodels)library(ggplot2)library(lattice)library(caret)control<-trainControl(method="repeatedcv",number=5,repeats=2)#RandomForestset.seed(100)rfModel<-train(ProductChoice~CustomerPropensity+LastPurchaseDuration+MembershipPoints,data=train,method="rf",trControl=control)隨機(jī)森林模型驗(yàn)證為了評(píng)估隨機(jī)森林模型,需要對(duì)模型在訓(xùn)練數(shù)據(jù)集上的效果進(jìn)行驗(yàn)證。predict函數(shù)的輸入為原始的測試數(shù)據(jù)集特征,輸出為對(duì)應(yīng)的標(biāo)簽,即ProductChoice的預(yù)測值,接著利用CrossTable函數(shù)對(duì)ProductChoice的預(yù)測值和真實(shí)值進(jìn)行分析,便可以得到整個(gè)隨機(jī)森林模型的評(píng)估結(jié)果。具體結(jié)果如圖所示:purchase_pred_test<-predict(rfModel,test)CrossTable(test$ProductChoice,purchase_pred_test,prop.chisq=FALSE,prop.c=FALSE,prop
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025股份轉(zhuǎn)讓合同
- 2024-2025學(xué)年高中歷史 專題八 當(dāng)今世界經(jīng)濟(jì)的全球化趨勢 第三課 經(jīng)濟(jì)全球化的世界說課稿 人民版必修2
- 凈化設(shè)備合同范例
- 28 棗核 說課稿-2023-2024學(xué)年統(tǒng)編版語文三年級(jí)下冊
- Unit 3 Fit for life Welcome to the unit 說課稿-2024-2025學(xué)年高中英語譯林版(2020)選擇性必修第二冊
- 住建部測繪合同范例
- 以物擔(dān)保合同范例
- 個(gè)人自愿轉(zhuǎn)讓土地合同范例
- fidic合同與普通合同范例
- 《12 愛心在行動(dòng)》(說課稿)-2023-2024學(xué)年四年級(jí)下冊綜合實(shí)踐活動(dòng)長春版001
- 化工企業(yè)靜電安全檢查規(guī)程
- 線性系統(tǒng)理論鄭大鐘第二版
- 寧騷公共政策學(xué)完整版筆記
- 項(xiàng)目負(fù)責(zé)人考試題庫含答案
- GB/T 7251.5-2017低壓成套開關(guān)設(shè)備和控制設(shè)備第5部分:公用電網(wǎng)電力配電成套設(shè)備
- 2023年湖南高速鐵路職業(yè)技術(shù)學(xué)院高職單招(數(shù)學(xué))試題庫含答案解析
- 中考語文非連續(xù)性文本閱讀10篇專項(xiàng)練習(xí)及答案
- 勇者斗惡龍9(DQ9)全任務(wù)攻略
- 經(jīng)顱磁刺激的基礎(chǔ)知識(shí)及臨床應(yīng)用參考教學(xué)課件
- 小學(xué)語文人教四年級(jí)上冊第四單元群文閱讀“神話故事之人物形象”PPT
- ISO 31000-2018 風(fēng)險(xiǎn)管理標(biāo)準(zhǔn)-中文版
評(píng)論
0/150
提交評(píng)論