機(jī)器學(xué)習(xí)-決策樹-ppt_第1頁
機(jī)器學(xué)習(xí)-決策樹-ppt_第2頁
機(jī)器學(xué)習(xí)-決策樹-ppt_第3頁
機(jī)器學(xué)習(xí)-決策樹-ppt_第4頁
機(jī)器學(xué)習(xí)-決策樹-ppt_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、決.樹直誓主要內(nèi)彖決11樹基本機(jī)念基本流程劃分選擇剪枝處理決策樹基本概念決策樹是數(shù)據(jù)挖掘分類算法的一個重要方法。在齊種分類算法 中,決策樹是最直觀的一種。在機(jī)器學(xué)習(xí)中也是一種常用方法。我們希望從給定的訓(xùn)練集中學(xué)得一個模型用來對新示例進(jìn)行 分類, 這一分類過程稱為“決策”過程。決策樹是基于樹結(jié)構(gòu)進(jìn)行決策的。基本流output /Qy判定樹分類算法決策樹決策樹是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它從一組無次 序、無 規(guī)則的元組中推理出決策樹表示形式的分類規(guī)則;采用自頂向下 遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性 值的比較,并根據(jù)不 同的屬性值從該節(jié)點(diǎn)向下分支,而 葉節(jié)點(diǎn)是要學(xué)習(xí)劃分的類。 從根節(jié)點(diǎn)到葉節(jié)點(diǎn)

2、的一條路徑就對應(yīng)著一條合取規(guī)則,整個決 策樹就對應(yīng)著一組析取表達(dá)式規(guī)則。例如:我們要對這是好匾嗎這樣的問題進(jìn)行決策對,通常會進(jìn)行一系列的 列i例如:我們要對這是好匾嗎這樣的問題進(jìn)行決策對,通常會進(jìn)行一系列的 列i保我們先看“它是什么色,如系是“韋 嫌色”再肴“它的根蒂是什么 形態(tài),如系是“維編,我們在判i “它*1起來是什么“,最后,我們得出 最終的塊策:這是 個好辰,這個it程如下:訣H樹的基本粗成部分:決策結(jié)點(diǎn)、分支和葉子。決策樹算法目前已有多種決策樹算法:CLS、ID3、CHAID、C4. 5、CART、SLIQ、SPRINT 等。著名的 ID3 (Iterative Dichotomi

3、ser3)算法是J. R. Quinlan 在 1986年提出的,該算法引入了信息論中的理論,是基于信息蜩的決策 樹分類算法。決策樹ID3算法:ID3算法的核心是:在決策樹各級節(jié)點(diǎn)上選擇屬性時, 用信息增益作為屬性的選擇標(biāo)準(zhǔn),以使得在每一個非葉節(jié)點(diǎn) 進(jìn)行測試時能獲得關(guān)于被測試記錄最大的類別信息。:具體方法:檢測所有的屬性,選擇信息增益最大的屬性 產(chǎn)生決策樹結(jié)點(diǎn),由該屬性的不同取值建 立分枝,再對各分 支的子集遞歸調(diào)用該方法建立 決策樹結(jié)點(diǎn)的分枝,直到所有 子集僅包含同一類別的數(shù)據(jù)為止,最后得到一棵決策樹,它 可以用來對新的樣本進(jìn)行分類。m那;information entropy)是雌樣本集合

4、純度玻常部附種折機(jī)當(dāng) 前樣本集合D中第k類樣本所占眥例為Pk(k = 12皿則D修帚定 義為Knt(Z?) =pk Iog2 Pk -Ent (D)的值越小,則D的純度越高。假定屬性a有V個可能的取值aia,若使用a來對樣木 集D進(jìn)行劃分,則會產(chǎn)生Y個分支節(jié)點(diǎn),其中第V個分支節(jié)點(diǎn)包含了D中所有 在屬性a上取值為r的樣木,記為V。在考慮到不同的分支節(jié)點(diǎn)所包含 的樣木不同,給分支節(jié)點(diǎn)賦予權(quán)重DVD,即樣本數(shù)越多的分支節(jié)點(diǎn)的影 響越大,于是計算出屬性a對樣本D進(jìn)行劃分所獲得的“信息增 益” (infonuation gain) oGziin(Da) = Ent(D) - g -Ent( /).色得4

5、.1 巒 4 牧 M %1審州.H色得4.1 巒 4 牧 M ( 1 1MM.I 4 M (llh 4 X 0.7220.109類 fct 類 fct 的.flttU 可 itlTdt的佶總增繪:Galn(D fk,融總 0 O.(X6燮金少.W14 -tiH-的仃息境空/人于足它破選為劃分風(fēng)性陽4.3給出T*? -2理對根紹點(diǎn)進(jìn)行創(chuàng)分的食占果. 在分支結(jié)應(yīng)所含的tTW f住姑點(diǎn)中.I n. 2. 3. St 6. gJoTiyn7 嘰 I j. 口 .門訂:9 4.3島于-aw屬4*巧偃儺.煙*然后,決策樹學(xué)習(xí)算法將對每個分支節(jié)點(diǎn)作進(jìn)一步的劃 分。最終得到的決裹樹如下亦示:1紋理=?剪枝處理剪枝是決策樹學(xué)習(xí)算法對付“過 合”的主要手段,為了盡可能正確的分類訓(xùn)練樣 本,節(jié)點(diǎn)劃 分過程將不斷重復(fù),有時會造成決 策樹分支太多,這 時就可能因訓(xùn)練樣本學(xué)得“太 好” 了,以至于把訓(xùn)練 集自身的一些特點(diǎn)當(dāng)做所 有數(shù)據(jù)的特點(diǎn)而導(dǎo)致過擬 合。因此,可通過主 動去掉一些分支來降低過擬合的 風(fēng)險。剪枝分為“預(yù)剪枝”和“后剪枝”。預(yù)剪枝是在 決策樹主成過程中,對每個節(jié)點(diǎn)在劃分之前先 進(jìn)行估 計,若當(dāng)前節(jié)點(diǎn)的劃分不能帶來決策樹 的泛化性能的 提升,則停止劃分并將當(dāng)前節(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論