模式識(shí)別決策樹分類_第1頁
模式識(shí)別決策樹分類_第2頁
模式識(shí)別決策樹分類_第3頁
模式識(shí)別決策樹分類_第4頁
模式識(shí)別決策樹分類_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

模式識(shí)別決策樹分類2023/7/141第1頁,課件共12頁,創(chuàng)作于2023年2月數(shù)據(jù)實(shí)例PlayTennis數(shù)據(jù)庫片段:2023/7/142第2頁,課件共12頁,創(chuàng)作于2023年2月決策樹實(shí)例關(guān)于PlayTennis的決策樹:2023/7/143第3頁,課件共12頁,創(chuàng)作于2023年2月決策樹學(xué)習(xí)算法的代表早在1986年的時(shí)候,Quinlan就提出了著名的ID3算法。(PublishedonMLJ)用ID3算法長(zhǎng)樹的基本思想:分類能力最好的屬性被測(cè)試并創(chuàng)建樹的根結(jié)點(diǎn)測(cè)試屬性每個(gè)可能的值產(chǎn)生一個(gè)分支訓(xùn)練樣本劃分到適當(dāng)?shù)姆种纬蓛鹤咏Y(jié)點(diǎn)重復(fù)上面的過程,直到所有的結(jié)點(diǎn)都是葉子結(jié)點(diǎn)兩個(gè)問題:什么屬性最好?什么結(jié)點(diǎn)才是葉子結(jié)點(diǎn)?2023/7/144第4頁,課件共12頁,創(chuàng)作于2023年2月信息增益(InformationGain)屬性A劃分樣本集S的信息增益Gain(S,A)為:

Gain(S,A)=E(S)–E(S,A)

其中,E(S)為劃分樣本集S為c個(gè)類的熵;E(S,A)為屬性A劃分樣本集S導(dǎo)致的期望熵。2023/7/145第5頁,課件共12頁,創(chuàng)作于2023年2月熵(Entropy)劃分樣本集S為c個(gè)類的熵E(S)為:其中,pi=ni/n,為S中的樣本屬于第i類Ci的概率,n為S中樣本的個(gè)數(shù)。2023/7/146第6頁,課件共12頁,創(chuàng)作于2023年2月期望熵(ExpectedEntropy)屬性A劃分樣本集S導(dǎo)致的期望熵E(S,A)為:

其中,Values(A)為屬性A取值的集合;Sv為S中A取值為v的樣本子集,Sv={sSA(s)=v};E(Sv)為將Sv中的樣本劃分為c個(gè)類的信息熵。|Sv|/|S|為Sv和S中的樣本個(gè)數(shù)之比。2023/7/147第7頁,課件共12頁,創(chuàng)作于2023年2月回味ID3算法ID3算法每一步選擇具有最大信息增益的屬性作為測(cè)試屬性來長(zhǎng)樹。直到最大的信息增益為也零為止。(兩個(gè)問題的解決)熵(Entropy)刻畫了樣本集的純度,長(zhǎng)樹的過程是一個(gè)熵降低、信息增益、從混沌到有序的過程。(長(zhǎng)樹的物理意義)2023/7/148第8頁,課件共12頁,創(chuàng)作于2023年2月偽代碼算法Decision_Tree(samples,attribute_list)輸入由離散值屬性描述的訓(xùn)練樣本集samples;候選屬性集合atrribute_list。輸出一棵決策樹。方法

(1)創(chuàng)建節(jié)點(diǎn)N;(2)ifsamples

都在同一類C中then(3)返回N作為葉節(jié)點(diǎn),以類C標(biāo)記;(4)ifattribute_list為空then2023/7/149第9頁,課件共12頁,創(chuàng)作于2023年2月偽代碼(續(xù))(5)返回N作為葉節(jié)點(diǎn),以samples中最普遍的類標(biāo)記;//多數(shù)表決(6)選擇attribute_list中具有最高信息增益的屬性test_attribute;(7)以test_attribute標(biāo)記節(jié)點(diǎn)N;(8)foreachtest_attribute的已知值v//劃分samples

(9)由節(jié)點(diǎn)N分出一個(gè)對(duì)應(yīng)test_attribute=v的分支;(10)令Sv為samples中test_attribute=v的樣本集合;//一個(gè)劃分塊(11)ifSv為空then(12)加上一個(gè)葉節(jié)點(diǎn),以samples中最普遍的類標(biāo)記;(13)else加入一個(gè)由Decision_Tree(Sv,attribute_list–test_attribute)返回的節(jié)點(diǎn)。2023/7/1410第10頁,課件共12頁,創(chuàng)作于2023年2月ID3算法的不足及改進(jìn)ID3算法存在的主要不足:過度擬合問題(treeprunning)處理連續(xù)屬性值問題(discretization)處理缺少屬性值問題(replacement)屬性選擇的度量標(biāo)準(zhǔn)問題(heuristicmeasure)針對(duì)這些不足,Quinlan做了一系列的改進(jìn),并于1993年形成了C4.5算法。(C4.5:ProgramsforMachineLearning)2023/7/1411第11頁,課件共12頁,創(chuàng)作于2023年2月決策樹學(xué)習(xí)總結(jié)決策樹(DecisionTree)學(xué)習(xí)是以樣本為基礎(chǔ)的歸納學(xué)習(xí)方法,它采用自頂向下的遞歸方式來構(gòu)造決策樹。(貪心算法)決策樹的表現(xiàn)形式是類似于流程圖的樹結(jié)構(gòu),在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值測(cè)試,并根據(jù)屬性值判斷由該結(jié)點(diǎn)引出的分支,最后在決策樹的葉子結(jié)點(diǎn)分類。(學(xué)習(xí)階段、訓(xùn)練階段)由訓(xùn)練樣本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論