




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
模式識(shí)別決策樹分類2023/7/141第1頁,課件共12頁,創(chuàng)作于2023年2月數(shù)據(jù)實(shí)例PlayTennis數(shù)據(jù)庫片段:2023/7/142第2頁,課件共12頁,創(chuàng)作于2023年2月決策樹實(shí)例關(guān)于PlayTennis的決策樹:2023/7/143第3頁,課件共12頁,創(chuàng)作于2023年2月決策樹學(xué)習(xí)算法的代表早在1986年的時(shí)候,Quinlan就提出了著名的ID3算法。(PublishedonMLJ)用ID3算法長(zhǎng)樹的基本思想:分類能力最好的屬性被測(cè)試并創(chuàng)建樹的根結(jié)點(diǎn)測(cè)試屬性每個(gè)可能的值產(chǎn)生一個(gè)分支訓(xùn)練樣本劃分到適當(dāng)?shù)姆种纬蓛鹤咏Y(jié)點(diǎn)重復(fù)上面的過程,直到所有的結(jié)點(diǎn)都是葉子結(jié)點(diǎn)兩個(gè)問題:什么屬性最好?什么結(jié)點(diǎn)才是葉子結(jié)點(diǎn)?2023/7/144第4頁,課件共12頁,創(chuàng)作于2023年2月信息增益(InformationGain)屬性A劃分樣本集S的信息增益Gain(S,A)為:
Gain(S,A)=E(S)–E(S,A)
其中,E(S)為劃分樣本集S為c個(gè)類的熵;E(S,A)為屬性A劃分樣本集S導(dǎo)致的期望熵。2023/7/145第5頁,課件共12頁,創(chuàng)作于2023年2月熵(Entropy)劃分樣本集S為c個(gè)類的熵E(S)為:其中,pi=ni/n,為S中的樣本屬于第i類Ci的概率,n為S中樣本的個(gè)數(shù)。2023/7/146第6頁,課件共12頁,創(chuàng)作于2023年2月期望熵(ExpectedEntropy)屬性A劃分樣本集S導(dǎo)致的期望熵E(S,A)為:
其中,Values(A)為屬性A取值的集合;Sv為S中A取值為v的樣本子集,Sv={sSA(s)=v};E(Sv)為將Sv中的樣本劃分為c個(gè)類的信息熵。|Sv|/|S|為Sv和S中的樣本個(gè)數(shù)之比。2023/7/147第7頁,課件共12頁,創(chuàng)作于2023年2月回味ID3算法ID3算法每一步選擇具有最大信息增益的屬性作為測(cè)試屬性來長(zhǎng)樹。直到最大的信息增益為也零為止。(兩個(gè)問題的解決)熵(Entropy)刻畫了樣本集的純度,長(zhǎng)樹的過程是一個(gè)熵降低、信息增益、從混沌到有序的過程。(長(zhǎng)樹的物理意義)2023/7/148第8頁,課件共12頁,創(chuàng)作于2023年2月偽代碼算法Decision_Tree(samples,attribute_list)輸入由離散值屬性描述的訓(xùn)練樣本集samples;候選屬性集合atrribute_list。輸出一棵決策樹。方法
(1)創(chuàng)建節(jié)點(diǎn)N;(2)ifsamples
都在同一類C中then(3)返回N作為葉節(jié)點(diǎn),以類C標(biāo)記;(4)ifattribute_list為空then2023/7/149第9頁,課件共12頁,創(chuàng)作于2023年2月偽代碼(續(xù))(5)返回N作為葉節(jié)點(diǎn),以samples中最普遍的類標(biāo)記;//多數(shù)表決(6)選擇attribute_list中具有最高信息增益的屬性test_attribute;(7)以test_attribute標(biāo)記節(jié)點(diǎn)N;(8)foreachtest_attribute的已知值v//劃分samples
(9)由節(jié)點(diǎn)N分出一個(gè)對(duì)應(yīng)test_attribute=v的分支;(10)令Sv為samples中test_attribute=v的樣本集合;//一個(gè)劃分塊(11)ifSv為空then(12)加上一個(gè)葉節(jié)點(diǎn),以samples中最普遍的類標(biāo)記;(13)else加入一個(gè)由Decision_Tree(Sv,attribute_list–test_attribute)返回的節(jié)點(diǎn)。2023/7/1410第10頁,課件共12頁,創(chuàng)作于2023年2月ID3算法的不足及改進(jìn)ID3算法存在的主要不足:過度擬合問題(treeprunning)處理連續(xù)屬性值問題(discretization)處理缺少屬性值問題(replacement)屬性選擇的度量標(biāo)準(zhǔn)問題(heuristicmeasure)針對(duì)這些不足,Quinlan做了一系列的改進(jìn),并于1993年形成了C4.5算法。(C4.5:ProgramsforMachineLearning)2023/7/1411第11頁,課件共12頁,創(chuàng)作于2023年2月決策樹學(xué)習(xí)總結(jié)決策樹(DecisionTree)學(xué)習(xí)是以樣本為基礎(chǔ)的歸納學(xué)習(xí)方法,它采用自頂向下的遞歸方式來構(gòu)造決策樹。(貪心算法)決策樹的表現(xiàn)形式是類似于流程圖的樹結(jié)構(gòu),在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值測(cè)試,并根據(jù)屬性值判斷由該結(jié)點(diǎn)引出的分支,最后在決策樹的葉子結(jié)點(diǎn)分類。(學(xué)習(xí)階段、訓(xùn)練階段)由訓(xùn)練樣本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 東莞美容院加盟合同范本
- 個(gè)人房產(chǎn)與中介合同范本
- 先拿貨后付款合同范例
- 2024年吳忠市人民醫(yī)院自主招聘事業(yè)單位工作人員考試真題
- 加盟授權(quán)合同范例范例
- 農(nóng)村空地出售合同范本
- 2024年曲靖六十九醫(yī)院人才招聘考試真題
- 以資抵債合同范本
- 2024年廣州市天河區(qū)體育西路小學(xué)聘用制專任教師招聘考試真題
- 創(chuàng)意園廠房合同范例
- 2025年企業(yè)法務(wù)顧問聘用協(xié)議范本
- 無菌手術(shù)臺(tái)鋪置的細(xì)節(jié)管理
- 《康復(fù)評(píng)定技術(shù)》課件-第五章 運(yùn)動(dòng)控制
- 議論文8(試題+審題+范文+點(diǎn)評(píng)+素材)-2025年高考語文寫作復(fù)習(xí)
- 【理特咨詢】2024生成式人工智能GenAI在生物醫(yī)藥大健康行業(yè)應(yīng)用進(jìn)展報(bào)告
- 2025新人教版英語七年級(jí)下單詞默寫表(小學(xué)部分)
- 2025年春新外研版(三起)英語三年級(jí)下冊(cè)課件 Unit6第1課時(shí)Startup
- 2025江蘇蘇州高新區(qū)獅山商務(wù)創(chuàng)新區(qū)下屬國(guó)企業(yè)招聘9人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《蒙牛集團(tuán)實(shí)施財(cái)務(wù)共享過程中存在的問題及優(yōu)化建議探析》8800字(論文)
- 平拋運(yùn)動(dòng)的經(jīng)典例題
- 錄井作業(yè)現(xiàn)場(chǎng)風(fēng)險(xiǎn)評(píng)估及控制措施
評(píng)論
0/150
提交評(píng)論