分類樹與隨機(jī)森林模型講座.分類樹與隨機(jī)森林模型講座_第1頁(yè)
分類樹與隨機(jī)森林模型講座.分類樹與隨機(jī)森林模型講座_第2頁(yè)
分類樹與隨機(jī)森林模型講座.分類樹與隨機(jī)森林模型講座_第3頁(yè)
分類樹與隨機(jī)森林模型講座.分類樹與隨機(jī)森林模型講座_第4頁(yè)
分類樹與隨機(jī)森林模型講座.分類樹與隨機(jī)森林模型講座_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)分類樹與隨機(jī)森林分類學(xué)習(xí)模型如今許多分類技術(shù)或分類模型已經(jīng)被開發(fā)出來用于預(yù)測(cè)定性變量,其有l(wèi)ogistic回歸、線性判別,以及決策樹、隨機(jī)森林、提升法以及支持向量機(jī)等。中級(jí)方法logistic回歸分析線性判別分析K-nearestneighbor高級(jí)方法分類樹提升算法與隨機(jī)森林支持向量機(jī)√機(jī)器學(xué)習(xí)之分類樹模型分類樹基本原理

基本原理:概念

決策樹(Decision)可以用于分類與回歸,分別稱為分類樹與回歸樹,由于回歸樹的效果一般不如線性回歸,所以本次講座主要講授分類樹的應(yīng)用。首先通過一個(gè)例子來說明決策樹的概念:ID年齡有工作有自己的房子信貸情況是否公務(wù)員類別(是否同意貸款)1青年否否一般否否2青年否否好否否3青年是否好是是4青年是是一般否是5青年否否一般否否6中年否否一般否否7中年否否好否否8中年是是好是是9中年否是非常好是是10中年否是非常好是是11老年否是非常好是是12老年否是一般否否13青年是否一般是否14老年是否非常好是是15老年否否一般否否通過學(xué)習(xí)表中的訓(xùn)練數(shù)據(jù),構(gòu)建一個(gè)貸款申請(qǐng)的決策樹,用于對(duì)將來貸款申請(qǐng)者進(jìn)行分類,即根據(jù)貸款申請(qǐng)人的特征,決定是否批準(zhǔn)貸款。

基本原理:

我們需要的是一個(gè)與訓(xùn)練數(shù)據(jù)不相矛盾(或矛盾較少),同時(shí)具有很好的泛化能力的決策樹,即對(duì)未知個(gè)例有很好的預(yù)測(cè)。比如下面的分類樹模型:本質(zhì)上決策樹是一組if-then規(guī)則的組合:(1)如果申請(qǐng)者有自己的房子,則同意貸款;(2)如果申請(qǐng)者沒有自己的房子,但有工作,則同意貸款;(3)如果申請(qǐng)者既沒有自己的房子,也沒有工作,則不同意貸款。基本原理:概念分類樹模型在處理高緯度數(shù)據(jù)時(shí)有先天優(yōu)勢(shì)。決策樹分類效果ID有自己的房子有工作年齡信貸情況是否公務(wù)員類別(是否同意貸款)結(jié)果4是是青年一般否是同意8是是中年好是是9是否中年非常好是是10是否中年非常好是是11是否青年非常好是是12是否老年一般否否3否是青年好是是同意13否是青年一般是否14否是青年非常好是是1否否青年一般否否不同意2否否青年好否否5否否青年一般否否6否否中年一般否否7否否中年好否否15否否老年一般否否基本原理:概念

決策樹(Decision)是一種分類與回歸方法。在分類問題中,決策樹模型基于特征變量對(duì)分析實(shí)例進(jìn)行分類,這些分類規(guī)則呈樹狀結(jié)構(gòu)。其主要的優(yōu)點(diǎn)是模型有較好的可讀性,分類速度快。決策樹有結(jié)點(diǎn)(node)和有向邊(directededge)組成。結(jié)點(diǎn)有兩種:內(nèi)部結(jié)點(diǎn)(internal)和葉結(jié)點(diǎn)(leafnode)。內(nèi)部結(jié)點(diǎn)表示特征或?qū)傩裕~結(jié)點(diǎn)表示分類。基本原理:運(yùn)算過程Step1.選擇“有自己的房子”變量對(duì)樣本進(jìn)行分割Leaf1:該子集分類效果很好!可以停止繼續(xù)分割。預(yù)測(cè)類別定為該子類最常見的類別。Step2:這一子集分類效果不好,需要繼續(xù)分割,比如選擇“有工作”變量繼續(xù)往下分割Leaf2&3:這兩個(gè)子集分類效果不錯(cuò)!可以停止分類,預(yù)測(cè)類別定為該子類最常見的類別。基本原理:運(yùn)算過程一個(gè)直觀的準(zhǔn)則是分類錯(cuò)誤率,分類錯(cuò)誤率的定義為子集中惡性樣本所占的比例。每個(gè)節(jié)點(diǎn)的分類效果怎么衡量?基本原理:運(yùn)算過程惡性樣本為子類中非眾數(shù)的類別決策樹分類效果ID有自己的房子有工作年齡信貸情況是否公務(wù)員類別(是否同意貸款)結(jié)果4是是青年一般否是同意8是是中年好是是9是否中年非常好是是10是否中年非常好是是11是否青年非常好是是12是否老年一般否否3否是青年好是是同意13否是青年一般是否14否是青年非常好是是1否否青年一般否否不同意2否否青年好否否5否否青年一般否否6否否中年一般否否7否否中年好否否15否否老年一般否否分類錯(cuò)誤率的定義為子集中惡性樣本所占的比例?;驹恚禾卣鬟x擇最佳特征選擇的規(guī)則:用該特征將該級(jí)樣本單元進(jìn)行分類,實(shí)現(xiàn)各類中的良性樣本比例盡可能多。每次用于分割的特征是如何選擇的?純度最大化:良性樣本比例盡可能多?;驹恚核惴ǖ谝徊竭x定一個(gè)最佳特征將當(dāng)前樣本單元進(jìn)行分類,實(shí)現(xiàn)各類中的純度最大化;第二步順著樹的枝條繼續(xù)執(zhí)行第一步;重復(fù)第一步、第二步,直到所有子集的不純度均下降到某個(gè)較小的值,或者子類別的樣本單元數(shù)。以每一個(gè)終端節(jié)點(diǎn)中的樣本單元的類別眾數(shù)來作為葉節(jié)點(diǎn)的預(yù)測(cè)值。分類樹SPSSmodeler操作參賽案例的數(shù)據(jù)說明SPSSMODELER:數(shù)據(jù)流SPSSMODELER:決策樹模型隨機(jī)森林原理介紹隨機(jī)森林原理介紹leaf1.具有不穩(wěn)定;2.模型會(huì)隨樣本的變化而劇烈變化。決策樹leafleaf組合預(yù)測(cè)模型:1.把一個(gè)總樣本變成N個(gè)隨機(jī)樣本;2.基于每一個(gè)隨機(jī)樣本,構(gòu)建決策樹,生成N棵決策樹;3.將N棵決策樹組合起來“投票表決”。樹1樹2樹3樹4……100棵>提升法(booting)>袋裝法(bagging)隨機(jī)森林原理介紹隨機(jī)森林.1.把一個(gè)總樣本變成N個(gè)隨機(jī)樣本;2.基于每一個(gè)隨機(jī)樣本,構(gòu)建決策樹,生成N棵決策樹;3.將N棵決策樹組合起來“投票表決”。樹1樹2樹3樹4……100棵怎么把一個(gè)總樣本變成N個(gè)隨機(jī)樣本?怎么將N棵決策樹組合起來“投票表決”?隨機(jī)森林原理介紹自助法抽樣:1.對(duì)樣本量為n的樣本集S進(jìn)行有放回的隨機(jī)重復(fù)抽樣,抽取樣本量為n;2.重復(fù)很多次1的做法,比如400次,從而產(chǎn)生400個(gè)樣本量為n的自助樣本。樹1樹2樹3樹4……100棵怎么把一個(gè)總樣本變成N個(gè)隨機(jī)樣本?隨機(jī)森林原理介紹“少數(shù)服從多數(shù)”預(yù)測(cè):1.將新樣本特征放進(jìn)400棵決策樹,得出400個(gè)預(yù)測(cè)值;2.選取400個(gè)預(yù)測(cè)值當(dāng)中的眾數(shù),作為最終的預(yù)測(cè)。樹1樹2樹3樹4……400棵怎么將N棵決策樹組合起來“投票表決”?隨機(jī)森林原理介紹決策樹的生成:1.把一個(gè)總樣本變成K個(gè)隨機(jī)樣本;2.基于每一個(gè)隨機(jī)樣本,構(gòu)建決策樹,生成N棵決策樹;(有點(diǎn)特別)3.將N棵決策樹組

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論