版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)技術(shù)與應(yīng)用項(xiàng)目——
R語(yǔ)言決策樹(shù)分類方法原理2
項(xiàng)目來(lái)自北京諾程佳華教育科技有限公司教學(xué)目標(biāo)?熟悉決策樹(shù)和隨機(jī)森林回歸和分類算法的基本概念;?熟悉在R語(yǔ)言中做決策樹(shù)和隨機(jī)森林回歸和分類預(yù)測(cè)。
R語(yǔ)言決策樹(shù)分類方法原理2.隨機(jī)森林算法首先引入概念重抽樣(bootstrap),即有放回的抽樣,一個(gè)樣本已經(jīng)被抽取后還可以再一次被抽取到集合中。
隨機(jī)森林算法的基本思想是,建立多棵決策樹(shù),最后的預(yù)測(cè)結(jié)果取決于所有決策樹(shù)的預(yù)測(cè)結(jié)果多數(shù)者為整個(gè)隨機(jī)森林的預(yù)測(cè)結(jié)果。而建立每棵決策樹(shù)時(shí),重抽樣一定數(shù)量的數(shù)據(jù)樣本為訓(xùn)練集,并且在分割時(shí)重抽樣字段。
R語(yǔ)言決策樹(shù)分類方法原理2.隨機(jī)森林算法其優(yōu)點(diǎn)是準(zhǔn)確度較高。
而其缺點(diǎn)是,速度較慢,可解釋性較差,且容易導(dǎo)致過(guò)擬合。下圖所示就是一個(gè)隨機(jī)森林。
R語(yǔ)言決策樹(shù)分類方法原理
R語(yǔ)言決策樹(shù)分類方法原理R語(yǔ)言中可調(diào)用程序包randomForest中的函數(shù)randomForest(y~.,data=train,ntree,mtry)建立隨機(jī)森林模型,返回一個(gè)類型為randomForest的對(duì)象,如果因變量y是因子類型則建立分類隨機(jī)森林,否則建立回歸隨機(jī)森林,參數(shù)ntree表示隨機(jī)森林中包含的樹(shù)的數(shù)量,參數(shù)mtry表示在每個(gè)分割節(jié)點(diǎn)隨機(jī)抽樣的預(yù)測(cè)變量范圍中包含的預(yù)測(cè)變量數(shù)量。
R語(yǔ)言決策樹(shù)分類方法原理可以調(diào)用程序包c(diǎn)aret中的函數(shù)rf<-train(outcome~.,data=train,method="rf",prox,ntree)建立隨機(jī)森林模型,其中參數(shù)prox表示樣本之間的接近程度是否需要計(jì)算,參數(shù)ntree表示隨機(jī)森林包含的樹(shù)的數(shù)量,返回一個(gè)類型為train的對(duì)象。
可以調(diào)用函數(shù)predict(rf,test)在新數(shù)據(jù)上做分類預(yù)測(cè)??梢哉{(diào)用函數(shù)getTree(rf$finalModel,k)返回隨機(jī)森林的某一棵樹(shù),其中參數(shù)k指定樹(shù)的序號(hào)。
R語(yǔ)言決策樹(shù)分類方法原理3.實(shí)驗(yàn)數(shù)據(jù)本實(shí)驗(yàn)所用數(shù)據(jù)為234種車(chē)輛油耗數(shù)據(jù),位于程序包ggplot2中名稱為mpg,包含了5個(gè)字段:制造商(manufacturer)、型號(hào)(model)、發(fā)動(dòng)機(jī)排量(dspl)、年份(year)、發(fā)動(dòng)機(jī)缸數(shù)(cyl)、變速箱類型(trans)、驅(qū)動(dòng)類型(drv)、每加侖燃油在城市行駛英里數(shù)(cty)、每加侖燃油在高速公路行駛英里數(shù)(hwy)、燃油類型(fl)和類型(class)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧鐵道職業(yè)技術(shù)學(xué)院《規(guī)則與裁判法》2023-2024學(xué)年第一學(xué)期期末試卷
- 蘭州城市學(xué)院《建筑設(shè)備施工安裝技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 江西電力職業(yè)技術(shù)學(xué)院《智慧工地》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南第一師范學(xué)院《篆刻3》2023-2024學(xué)年第一學(xué)期期末試卷
- 黑龍江生態(tài)工程職業(yè)學(xué)院《風(fēng)景建筑速寫(xiě)》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶護(hù)理職業(yè)學(xué)院《民事訴訟法學(xué)(含模擬法庭)》2023-2024學(xué)年第一學(xué)期期末試卷
- 中央財(cái)經(jīng)大學(xué)《人工智能專業(yè)前沿》2023-2024學(xué)年第一學(xué)期期末試卷
- 鄭州軟件職業(yè)技術(shù)學(xué)院《英語(yǔ)模擬課堂》2023-2024學(xué)年第一學(xué)期期末試卷
- 小學(xué)2024年體育發(fā)展年度報(bào)告
- 浙江電力職業(yè)技術(shù)學(xué)院《生物信息學(xué)前沿技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024家清產(chǎn)業(yè)帶趨勢(shì)洞察
- 人教版小學(xué)數(shù)學(xué)五年級(jí)上冊(cè)口算心算天天練 全冊(cè)
- 青島版(五年制)四年級(jí)下冊(cè)小學(xué)數(shù)學(xué)全冊(cè)導(dǎo)學(xué)案(學(xué)前預(yù)習(xí)單)
- 退學(xué)費(fèi)和解協(xié)議書(shū)模板
- 2024至2030年中國(guó)對(duì)氯甲苯行業(yè)市場(chǎng)全景調(diào)研及發(fā)展趨勢(shì)分析報(bào)告
- 智能教育輔助系統(tǒng)運(yùn)營(yíng)服務(wù)合同
- 心功能分級(jí)及護(hù)理
- DLT 572-2021 電力變壓器運(yùn)行規(guī)程
- 重慶育才中學(xué)2025屆化學(xué)九上期末教學(xué)質(zhì)量檢測(cè)試題含解析
- 成都市2022級(jí)(2025屆)高中畢業(yè)班摸底測(cè)試(零診)數(shù)學(xué)試卷(含答案)
- 【云南省中藥材出口現(xiàn)狀、問(wèn)題及對(duì)策11000字(論文)】
評(píng)論
0/150
提交評(píng)論