版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二章決策樹(ID3分類算法)為解決上述問題必須進(jìn)行分類分類是數(shù)據(jù)挖掘中的一種主要分析手段分類的任務(wù)是對數(shù)據(jù)集進(jìn)行學(xué)習(xí)并構(gòu)造一個(gè)擁有預(yù)測功能的分類模型,用于預(yù)測未知樣本的類標(biāo)號,如:根據(jù)瓦斯?fàn)顟B(tài)、開采技術(shù)條件、煤層賦存狀況等對危險(xiǎn)進(jìn)行分類評估根據(jù)核磁共振的結(jié)果區(qū)分腫瘤是惡性還是良性的根據(jù)星系的形狀對它們進(jìn)行分類劃分出交易是合法或欺詐將新聞分類金融、天氣、娛樂體育等主要分類方法決策樹分類方法貝葉斯分類方法K-最近鄰分類方法神經(jīng)網(wǎng)絡(luò)分類方法支持向量機(jī)組合學(xué)習(xí)方法不平衡數(shù)據(jù)分類問題分類模型的評價(jià)回歸方法研究生學(xué)院舉例說明分類任務(wù)應(yīng)用模型l歸納推論
學(xué)習(xí)模型模型Tid
有房者
婚姻狀況
年收入
拖欠貸款
1
是
單身
125K
否
2
否
已婚
100K
否
3
否
單身
70K
否
4
是
已婚
120K
否
5
否
離異
95K
是
6
否
已婚
60K
否
7
是
離異
220K
否
8
否
單身
85K
是
9
否
已婚
75K
否
10
否
單身
90K
是
10
Tid
有房者
婚姻狀況2
年收入
拖欠貸款
11
否
單身l
55K
?
12
是
已婚
80K
?
13
是
離異
110K
?
14
否
單身
95K
?
15
否
已婚
67K
?
10
學(xué)習(xí)算法研究生學(xué)院有房婚姻狀況年收入是否否否是沒有已婚單身,離婚<80K>80K極快的屬性訓(xùn)練數(shù)據(jù)模型:決策樹Tid
有房者
婚姻狀況
年收入
拖欠貸款
1
是
單身
125K
否
2
否
已婚
100K
否
3
否
單身
70K
否
4
是
已婚
120K
否
5
否
離異
95K
是
6
否
已婚
60K
否
7
是
離異
220K
否
8
否
單身
85K
是
9
否
已婚
75K
否
10
否
單身
90K
是
10
研究生學(xué)院婚姻狀況有房年收入是否否否是沒有已婚單身,離異<80K>80KTid
有房者
婚姻狀況
年收入
拖欠貸款
1
是
單身
125K
否
2
否
已婚
100K
否
3
否
單身
70K
否
4
是
已婚
120K
否
5
否
離異
95K
是
6
否
已婚
60K
否
7
是
離異
220K
否
8
否
單身
85K
是
9
否
已婚
75K
否
10
否
單身
90K
是
10
測試數(shù)據(jù)申請模型到測試數(shù)據(jù)研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K開始從樹.的根測試數(shù)據(jù)研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根研究生學(xué)院應(yīng)用模型l歸納推論
學(xué)習(xí)模型模型Tid
有房者
婚姻狀況
年收入
拖欠貸款
1
是
單身
125K
否
2
否
已婚
100K
否
3
否
單身
70K
否
4
是
已婚
120K
否
5
否
離異
95K
是
6
否
已婚
60K
否
7
是
離異
220K
否
8
否
單身
85K
是
9
否
已婚
75K
否
10
否
單身
90K
是
10
Tid
有房者
婚姻狀況2
年收入
拖欠貸款
11
否
單身l
55K
?
12
是
已婚
80K
?
13
是
離異
110K
?
14
否
單身
95K
?
15
否
已婚
67K
?
10
學(xué)習(xí)算法研究生學(xué)院有房婚姻狀況年收入是否否否是沒有已婚單身,離婚<80K>80K極快的屬性訓(xùn)練數(shù)據(jù)模型:決策樹Tid
有房者
婚姻狀況
年收入
拖欠貸款
1
是
單身
125K
否
2
否
已婚
100K
否
3
否
單身
70K
否
4
是
已婚
120K
否
5
否
離異
95K
是
6
否
已婚
60K
否
7
是
離異
220K
否
8
否
單身
85K
是
9
否
已婚
75K
否
10
否
單身
90K
是
10
決策樹的例子研究生學(xué)院婚姻狀況有房年收入是否否否是沒有已婚單身,離異<80K>80KTid
有房者
婚姻狀況
年收入
拖欠貸款
1
是
單身
125K
否
2
否
已婚
100K
否
3
否
單身
70K
否
4
是
已婚
120K
否
5
否
離異
95K
是
6
否
已婚
60K
否
7
是
離異
220K
否
8
否
單身
85K
是
9
否
已婚
75K
否
10
否
單身
90K
是
10
決策樹的例子研究生學(xué)院應(yīng)用模型l歸納推論
學(xué)習(xí)模型模型Tid
有房者
婚姻狀況
年收入
拖欠貸款
1
是
單身
125K
否
2
否
已婚
100K
否
3
否
單身
70K
否
4
是
已婚
120K
否
5
否
離異
95K
是
6
否
已婚
60K
否
7
是
離異
220K
否
8
否
單身
85K
是
9
否
已婚
75K
否
10
否
單身
90K
是
10
Tid
有房者
婚姻狀況2
年收入
拖欠貸款
11
否
單身l
55K
?
12
是
已婚
80K
?
13
是
離異
110K
?
14
否
單身
95K
?
15
否
已婚
67K
?
10
學(xué)習(xí)算法研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根申請模型到測試數(shù)據(jù)研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根研究生學(xué)院有房婚姻年收入是否否否是否已婚單身、離婚<80K>80K測試數(shù)據(jù)開始從樹.的根舉例說明分類任務(wù)研究生學(xué)院應(yīng)用模型l歸納推論
學(xué)習(xí)模型模型Tid
有房者
婚姻狀況
年收入
拖欠貸款
1
是
單身
125K
否
2
否
已婚
100K
否
3
否
單身
70K
否
4
是
已婚
120K
否
5
否
離異
95K
是
6
否
已婚
60K
否
7
是
離異
220K
否
8
否
單身
85K
是
9
否
已婚
75K
否
10
否
單身
90K
是
10
Tid
有房者
婚姻狀況2
年收入
拖欠貸款
11
否
單身l
55K
?
12
是
已婚
80K
?
13
是
離異
110K
?
14
否
單身
95K
?
15
否
已婚
67K
?
10
學(xué)習(xí)算法決策樹在構(gòu)建過程中需重點(diǎn)解決2個(gè)問題:(1)如何選擇合適的屬性作為決策樹的節(jié)點(diǎn)去劃分訓(xùn)練樣本;(2)如何在適當(dāng)位置停止劃分過程,從而得到大小合適的決策樹。雖然可以采用任何一個(gè)屬性對數(shù)據(jù)集進(jìn)行劃分,但最后形成的決策樹會差異很大。需要尋找合適的屬性選擇方法。屬性選擇是決策樹算法中重要的步驟,常見的屬性選擇標(biāo)準(zhǔn)包括信息增益(informationgain)和Gini系數(shù)。信息增益是決策樹常用的分枝準(zhǔn)則,在樹的每個(gè)結(jié)點(diǎn)上選擇具有最高信息增益的屬性作為當(dāng)前結(jié)點(diǎn)的劃分屬性。Gini系數(shù)是一種不純度函數(shù),用來度量數(shù)據(jù)集的數(shù)據(jù)關(guān)于類的純度。二、DI3分類算法1.ID3分類算法提出:由Quinlan于1986年提出,它使用信息增益(informationgain)作為屬性的選擇標(biāo)準(zhǔn)。首先檢測所有的屬性,選擇信息增益最大的屬性產(chǎn)生決策樹結(jié)點(diǎn),由該屬性的不同取值建立分支,再對各分支的子集遞歸調(diào)用該方法建立決策樹結(jié)點(diǎn)的分支,直到所有子集僅包含同一個(gè)類別的數(shù)據(jù)為止。最后得到一棵決策樹,它可以用來對新的樣本進(jìn)行分類。2.ID3分類算法相關(guān)的基本概念:1)信息熵2)信息增益熵(entropy,也稱信息熵)用來度量一個(gè)屬性的信息量。假定S為訓(xùn)練集,S的目標(biāo)屬性C具有m個(gè)可能的類標(biāo)號值,C={C1,C2,…,Cm},假定訓(xùn)練集S中,Ci在所有樣本中出現(xiàn)的頻率為(i=1,2,3,…,m),則該訓(xùn)練集S所包含的信息熵定義為:熵越小表示樣本對目標(biāo)屬性的分布越純,反之熵越大表示樣本對目標(biāo)屬性分布越混亂。outlooktemperaturehumiditywindplayballsunnyhothighweaknosunnyhothighstrongnoovercasthothighweakyesrainmildhighweakyesraincoolnormalweakyesraincoolnormalstrongnoOvercast(陰天)coolnormalstrongyessunnymildhighweaknosunnycoolnormalweakyesrainmildnormalweakyessunnymildnormalstrongyesovercastmildhighstrongyesovercasthotnormalweakyesrainmildhighstrongno信息熵例題演示考慮數(shù)據(jù)集weather如下,求weather數(shù)據(jù)集關(guān)于目標(biāo)屬性playball的熵。目標(biāo)屬性解答:令weather數(shù)據(jù)集為S,其中有14個(gè)樣本,目標(biāo)屬性playball有2個(gè)值{C1=yes,C2=no}。14個(gè)樣本的分布為:9個(gè)樣本的類標(biāo)號取值為yes,5個(gè)樣本的類標(biāo)號取值為No。C1=yes在所有樣本S中出現(xiàn)的概率為9/14,C2=no在所有樣本S中出現(xiàn)的概率為5/14。因此數(shù)據(jù)集S的熵為:信息增益:是劃分前樣本數(shù)據(jù)集的不純程度(熵)和劃分后樣本數(shù)據(jù)集的不純程度(熵)的差值。假設(shè)劃分前樣本數(shù)據(jù)集為S,并用屬性A來劃分樣本集S,則按屬性A劃分S的信息增益Gain(S,A)為樣本集S的熵減去按屬性A劃分S后的樣本子集的熵:按屬性A劃分S后的樣本子集的熵定義如下:假定屬性A有k個(gè)不同的取值,從而將S劃分為k個(gè)樣本子集{S1,S2,…,Sk},則按屬性A劃分S后的樣本子集的信息熵為:其中|Si|(i,=1,2,…k)為樣本子集Si中包含的樣本數(shù),|S|為樣本集S中包含的樣本數(shù)。信息增益越大,說明使用屬性A劃分后的樣本子集越純,越有利于分類。以數(shù)據(jù)集weather為例,設(shè)該數(shù)據(jù)集為S,假定用屬性wind來劃分S,求S對屬性wind的信息增益。outlooktemperaturehumiditywindplayballsunnyhothighweaknosunnyhothighstrongnoovercasthothighweakyesrainmildhighweakyesraincoolnormalweakyesraincoolnormalstrongnoovercastcoolnormalstrongyessunnymildhighweaknosunnycoolnormalweakyesrainmildnormalweakyessunnymildnormalstrongyesovercastmildhighstrongyesovercasthotnormalweakyesrainmildhighstrongno解:(1)首先由前例計(jì)算得到數(shù)據(jù)集S的熵值為0.94;(2)屬性wind有2個(gè)可能的取值{weak,strong},它將S劃分為2個(gè)子集:{S1,S2},S1為wind屬性取值為weak的樣本子集,共有8個(gè)樣本;S2為wind屬性取值為strong的樣本子集,共有6個(gè)樣本;下面分別計(jì)算樣本子集S1和S2的熵。對樣本子集S1,playball=yes的有6個(gè)樣本,playball=no的有2個(gè)樣本,則:對樣本子集S2,playball=yes的有3個(gè)樣本,playball=no的有3個(gè)樣本,則:利用屬性wind劃分S后的熵為:按屬性wind劃分?jǐn)?shù)據(jù)集S所得的信息增益值為:函數(shù):DT(S,F)輸入:訓(xùn)練集數(shù)據(jù)S,訓(xùn)練集數(shù)據(jù)屬性集合F輸出:ID3決策樹(1)if
樣本S全部屬于同一個(gè)類別Cthen(2)創(chuàng)建一個(gè)葉結(jié)點(diǎn),并標(biāo)記類標(biāo)號為C;(3)return;(4)else(5)計(jì)算屬性集F中每一個(gè)屬性的信息增益,假定增益值最大的屬性為A;(6)創(chuàng)建結(jié)點(diǎn),取屬性A為該結(jié)點(diǎn)的決策屬性;(7)for結(jié)點(diǎn)屬性A的每個(gè)可能的取值Vdo(8)為該結(jié)點(diǎn)添加一個(gè)新的分支,假設(shè)SV為屬性A取值為V的樣本子集;(9)if
樣本SV全部屬于同一個(gè)類別Cthen(10)為該分支添加一個(gè)葉結(jié)點(diǎn),并標(biāo)記類標(biāo)號為C;(11)else(12)遞歸調(diào)用DT(SV,F-{A}),為該分支創(chuàng)建子樹;(13)endif(11)endfor(12)endif以weather數(shù)據(jù)集為例,講解ID3的建立過程。outlooktemperaturehumiditywindplayballsunnyhothighweaknosunnyhothighstrongnoovercasthothighweakyesrainmildhighweakyesraincoolnormalweakyesraincoolnormalstrongnoovercastcoolnormalstrongyessunnymildhighweaknosunnycoolnormalweakyesrainmildnormalweakyessunnymildnormalstrongyesovercastmildhighstrongyesovercasthotnormalweakyesrainmildhighstrongno數(shù)據(jù)集具有屬性:outlook,temperature,humidity,wind.outlook={sunny,overcast,rain}temperature={hot,mild,cool}humidity={high,normal}wind={weak,strong}首先計(jì)算總數(shù)據(jù)集S對所有屬性的信息增益,尋找根節(jié)點(diǎn)的最佳分裂屬性:Gain(S,outlook)=0.246Gain(S,temperature)=0.029Gain(S,humidity)=0.152Gain(S,wind)=0.049顯然,這里outlook屬性具有最高信息增益值,因此將它選為根結(jié)點(diǎn).以outlook做為根結(jié)點(diǎn),繼續(xù)往下:思想是,以outlook的可能取值建立分支,對每個(gè)分支遞歸建立子樹。因?yàn)閛utlook有3個(gè)可能值,因此對根結(jié)點(diǎn)建立3個(gè)分支{sunny,overcast,rain}.那么,哪個(gè)屬性用來最佳劃分根結(jié)點(diǎn)的Sunny分支?overcast分支?Rain分支?outlooksunnyovercastrain???首先對outlook的sunny分支建立子樹。找出數(shù)據(jù)集中outlook=sunny的樣本子集Soutlook=sunny,然后依次計(jì)算剩下三個(gè)屬性對該樣本子集Ssunny劃分后的信息增益:Gain(Ssunny,humidity)=0.971Gain(Ssunny,temperature)=0.571Gain(Ssunny,wind)=0.371顯然humidity具有最高信息增益值,因此它被選為outlook結(jié)點(diǎn)下sunny分支下的決策結(jié)點(diǎn)。outlooksunnyovercastrain?Humidity采用同樣的方法,依次對outlook的overcast分支、rain分支建立子樹,最后得到一棵可以預(yù)測類標(biāo)號未知的樣本的決策樹。ID3決策樹對未知樣本進(jìn)行預(yù)測下面利用決策樹對類標(biāo)號未知的樣本X進(jìn)行預(yù)測:X={rain,hot,normal,weak,?}ID3算法總結(jié)ID3算法是所有可能的決策樹空間中一種自頂向下、貪婪的搜索方法。ID3搜索的假設(shè)空間是可能的決策樹的集合,搜索目的是構(gòu)造與訓(xùn)練數(shù)據(jù)一致的一棵決策樹,搜索策略是爬山法,在構(gòu)造決策樹時(shí)從簡單到復(fù)雜,用信息熵作為爬山法的評價(jià)函數(shù)。ID3算法的核心是在決策樹各級結(jié)點(diǎn)上選擇屬性,用信息增益作為屬性選擇的標(biāo)準(zhǔn),使得在每個(gè)非葉節(jié)點(diǎn)進(jìn)行測試時(shí)能獲得關(guān)于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國際商務(wù)合同風(fēng)險(xiǎn)
- 茶葉儲存購銷合同
- 教育咨詢員合同范本解析
- 印刷業(yè)鋼結(jié)構(gòu)安裝施工合同
- 家裝施工合同:陽臺封閉與改造
- 二手辦公家具出售合同范例
- 家庭教育顧問托管合同
- 造價(jià)咨詢審計(jì)合同范例
- 電力行業(yè)律師代理合同范本
- 酒店水療中心管理合同
- 商務(wù)英語視聽說知到章節(jié)答案智慧樹2023年山東外國語職業(yè)技術(shù)大學(xué)
- 西安東原地產(chǎn)品牌年度推廣方案
- 走進(jìn)范仲淹課件
- C++程序設(shè)計(jì)智慧樹知到答案章節(jié)測試2023年咸陽師范學(xué)院
- 五年級上冊道德與法治課件-第8課第四課時(shí) 影響深遠(yuǎn)的漢字人教部編版
- 2023-2024學(xué)年江蘇省吳江市小學(xué)語文五年級上冊期末高分測試題
- GB/T 23604-2009鈦及鈦合金產(chǎn)品力學(xué)性能試驗(yàn)取樣方法
- GB/T 20641-2006低壓成套開關(guān)設(shè)備和控制設(shè)備空殼體的一般要求
- 第1章 大數(shù)據(jù)可視化概述
- 2023年湖南交通職業(yè)技術(shù)學(xué)院教師招聘考試筆試題庫及答案解析
- 主題班會 交通安全教育
評論
0/150
提交評論