大數(shù)據(jù)技術(shù)與應(yīng)用項(xiàng)目R語(yǔ)言高級(jí)分類方法原理2_第1頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用項(xiàng)目R語(yǔ)言高級(jí)分類方法原理2_第2頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用項(xiàng)目R語(yǔ)言高級(jí)分類方法原理2_第3頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用項(xiàng)目R語(yǔ)言高級(jí)分類方法原理2_第4頁(yè)
大數(shù)據(jù)技術(shù)與應(yīng)用項(xiàng)目R語(yǔ)言高級(jí)分類方法原理2_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)與應(yīng)用項(xiàng)目——

R語(yǔ)言決策樹(shù)分類方法原理2

項(xiàng)目來(lái)自北京諾程佳華教育科技有限公司教學(xué)目標(biāo)?熟悉決策樹(shù)和隨機(jī)森林回歸和分類算法的基本概念;?熟悉在R語(yǔ)言中做決策樹(shù)和隨機(jī)森林回歸和分類預(yù)測(cè)。

R語(yǔ)言決策樹(shù)分類方法原理2.隨機(jī)森林算法首先引入概念重抽樣(bootstrap),即有放回的抽樣,一個(gè)樣本已經(jīng)被抽取后還可以再一次被抽取到集合中。

隨機(jī)森林算法的基本思想是,建立多棵決策樹(shù),最后的預(yù)測(cè)結(jié)果取決于所有決策樹(shù)的預(yù)測(cè)結(jié)果多數(shù)者為整個(gè)隨機(jī)森林的預(yù)測(cè)結(jié)果。而建立每棵決策樹(shù)時(shí),重抽樣一定數(shù)量的數(shù)據(jù)樣本為訓(xùn)練集,并且在分割時(shí)重抽樣字段。

R語(yǔ)言決策樹(shù)分類方法原理2.隨機(jī)森林算法其優(yōu)點(diǎn)是準(zhǔn)確度較高。

而其缺點(diǎn)是,速度較慢,可解釋性較差,且容易導(dǎo)致過(guò)擬合。下圖所示就是一個(gè)隨機(jī)森林。

R語(yǔ)言決策樹(shù)分類方法原理

R語(yǔ)言決策樹(shù)分類方法原理R語(yǔ)言中可調(diào)用程序包randomForest中的函數(shù)randomForest(y~.,data=train,ntree,mtry)建立隨機(jī)森林模型,返回一個(gè)類型為randomForest的對(duì)象,如果因變量y是因子類型則建立分類隨機(jī)森林,否則建立回歸隨機(jī)森林,參數(shù)ntree表示隨機(jī)森林中包含的樹(shù)的數(shù)量,參數(shù)mtry表示在每個(gè)分割節(jié)點(diǎn)隨機(jī)抽樣的預(yù)測(cè)變量范圍中包含的預(yù)測(cè)變量數(shù)量。

R語(yǔ)言決策樹(shù)分類方法原理可以調(diào)用程序包c(diǎn)aret中的函數(shù)rf<-train(outcome~.,data=train,method="rf",prox,ntree)建立隨機(jī)森林模型,其中參數(shù)prox表示樣本之間的接近程度是否需要計(jì)算,參數(shù)ntree表示隨機(jī)森林包含的樹(shù)的數(shù)量,返回一個(gè)類型為train的對(duì)象。

可以調(diào)用函數(shù)predict(rf,test)在新數(shù)據(jù)上做分類預(yù)測(cè)??梢哉{(diào)用函數(shù)getTree(rf$finalModel,k)返回隨機(jī)森林的某一棵樹(shù),其中參數(shù)k指定樹(shù)的序號(hào)。

R語(yǔ)言決策樹(shù)分類方法原理3.實(shí)驗(yàn)數(shù)據(jù)本實(shí)驗(yàn)所用數(shù)據(jù)為234種車(chē)輛油耗數(shù)據(jù),位于程序包ggplot2中名稱為mpg,包含了5個(gè)字段:制造商(manufacturer)、型號(hào)(model)、發(fā)動(dòng)機(jī)排量(dspl)、年份(year)、發(fā)動(dòng)機(jī)缸數(shù)(cyl)、變速箱類型(trans)、驅(qū)動(dòng)類型(drv)、每加侖燃油在城市行駛英里數(shù)(cty)、每加侖燃油在高速公路行駛英里數(shù)(hwy)、燃油類型(fl)和類型(class)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論