




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第7章 決策樹1學習目標理解決策樹的基本原理及不同類別決策樹算法的區(qū)別掌握運用Scikit-learn庫實現(xiàn)決策樹算法的基本流程與方法122目錄頁37.1基本原理7.2應(yīng)用實例決策樹7.1基本原理決策樹可視為一顆用非葉節(jié)點表示特征的判別函數(shù),葉節(jié)點表示分類結(jié)果的倒置樹,其對新樣本的分類過程即是根據(jù)不同層級非葉節(jié)點對應(yīng)判別函數(shù)的輸出,不斷明確其所屬類別的過程。利用決策樹對新樣本進行分類的關(guān)鍵在于提前利用訓練樣本構(gòu)建決策樹,而決策樹構(gòu)建的關(guān)鍵在于最優(yōu)特征的選擇,即將每個特征安置在哪個非葉節(jié)點用于相關(guān)判別函數(shù)的定義最合適。事實上,決策樹的構(gòu)建過程就是利用定義于特征的判別函數(shù),將樣本集不斷分類為類別不確定性較小的樣本子集的過程。47.1基本原理對于狗兔分類問題,如果先利用“尾巴特征”對樣本進行分類,則兔類與狗類樣本的類別不確定性均較?。ㄍ梦舶捅裙肺舶投淌枪沧R的規(guī)律),而若先利用“皮毛顏色”對樣本進行分類卻不易獲得較好的效果(兔與狗均有白色皮毛的品種),此時需要再利用“耳朵特征”進一步對樣本進行分類。57.1基本原理如何從原特征集中確定最優(yōu)特征呢?在1975年,羅斯昆(J.RossQuinlan)提出了利用信息熵構(gòu)建決策樹的算法(即ID3),其中,利用信息熵對樣本分類結(jié)果的影響進行度量,取得較好的效果。在此基礎(chǔ)上,后續(xù)涌現(xiàn)出許多改進算法(如C4.5、C5.0與CART等)以進一步提高決策樹構(gòu)建的性能,相關(guān)特征選擇準則包括信息增益、信息增益率、基尼指數(shù)等幾種。67.1基本原理決策樹基本算法遵循的策略是簡單而直觀的“分而治之”,即將一個問題分解成兩個或多個相同或相關(guān)類型的子問題,直到這些問題變得能夠容易直接解決。在學習生活中亦是如此,我們在遇到困難時,不應(yīng)輕易退縮和放棄,而是根據(jù)現(xiàn)有的能力將問題不斷分解,從自己會做的開始,不斷優(yōu)化求解的方式實現(xiàn)問題求解,養(yǎng)成不言放棄、精益專注的優(yōu)秀品質(zhì)。7課程思政7.1.1ID3算法
87.1.1ID3算法
97.1.1ID3算法
107.1.1ID3算法
117.1.1ID3算法
127.1.1ID3算法
137.1.1ID3算法
147.1.1ID3算法
157.1.1ID3算法ID3算法的基本步驟可描述為:步驟1.將初始樣本集作為根節(jié)點的待分類樣本并從特征集中利用信息增益準則選擇最優(yōu)特征以對初始樣本集進行分類,進而生成多個樣本子集。步驟2.對于每個樣本子集,將其作為非葉節(jié)點的待分類樣本并利用信息增益準則從未選特征中選擇最優(yōu)特征以對其進行分類,進而生成更多樣本子集。步驟3.重復步驟2以對持續(xù)對不同層的樣本子集進行分類直至滿足指定終止條件(如決策樹深度)。16
7.1.2C4.5算法
17
7.1.3CART算法
18
7.1.3CART算法
19三個算法對比算法支持模型樹結(jié)構(gòu)特征選擇連續(xù)值處理缺失值處理剪枝ID3分類多叉樹信息增益不支持不支持不支持C4.5分類多叉樹信息增益比支持支持支持CART分類,回歸二叉樹基尼系數(shù)支持支持支持207.2應(yīng)用實例Scikit-learn庫包含DecisionTreeClassifier與DecisionTreeRegressor兩種分別用于分類與回歸的決策樹模型,其導入方法如下:fromsklearn.treeimportDecisionTreeClassifierfromsklearn.treeimportDecisionTreeRegressor217.2應(yīng)用實例函數(shù)原型如下:DecisionTreeClassifier(criterion='gini',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nodes=None,min_impurity_decrease=0.0,min_impurity_split=None,class_weight=None,presort=False)DecisionTreeRegressor(criterion='squared_error',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nodes=None,min_impurity_decrease=0.0,ccp_alpha=0.0)227.2.1紅酒分類Scikit-learn庫中的紅酒數(shù)據(jù)包含178個樣本、13個特征(即酒精、蘋果酸、類黃酮等)與3種類別,利用決策樹構(gòu)建紅酒分類模型以對紅酒進行分類。(1)問題描述紅酒的不同構(gòu)成元素對紅酒分類具有重要的影響,利用決策樹算法對紅酒數(shù)據(jù)進行分析:①對比不同深度時決策樹的精度變化。②分析決策樹構(gòu)建時各特征的重要性。③對決策樹結(jié)構(gòu)進行可視化展示。(2)編程實現(xiàn)見7.2.1紅酒分類.py23
7.2.1紅酒分類(3)結(jié)果分析數(shù)據(jù)基本信息:(178,13)特征名稱:['alcohol','malic_acid','ash','alcalinity_of_ash','magnesium','total_phenols','flavanoids','nonflavanoid_phenols','proanthocyanins','color_intensity','hue','od280/od315_of_diluted_wines','proline']247.2.1紅酒分類25(3)結(jié)果分析(a)精度對比
(b)特征重要性圖7-2不同深度的決策樹精度對比圖7-3決策樹可視化7.2.1紅酒分類(3)結(jié)果分析在此例中,訓練樣本集前4個樣本A類(圓形點)、后3個為B類(方形點);在利用K近鄰分類器對測試樣本(三角形點)進行分類后,測試樣本顯示為圓形點(A點)或方形點(B類)。從K近鄰分類器采用不同權(quán)重時的對應(yīng)結(jié)果可知,序號為4的測試樣本在采用“距離倒數(shù)”權(quán)重時被分至B類,而在采用“相同”權(quán)重時卻被錯分A類,因而,采用“距離倒數(shù)”權(quán)重時的精度相對更高。267.2.2薪水預測
對企業(yè)員工的薪水高低進行預測以及相關(guān)因素進行分析有利于提高求職人員的成功率及企業(yè)對人事管理的效率。一般情況下,如表7-5所示,企業(yè)員工的薪水(Y:Salary)通常與年齡(F1:Age)、性別(F2:Gender)、文化程度(F3:EducationLevel)、工作經(jīng)驗(F4:YearsofExperience)等因素相關(guān),因而,在已知輸入X(F_1,F_2,F_3,F_4)與輸出Y相關(guān)數(shù)據(jù)的基礎(chǔ)上,可利用決策樹以求解相應(yīng)的回歸問題以實現(xiàn)企業(yè)員工薪水的預測。(1)問題描述利用表7-5所示數(shù)據(jù)構(gòu)建決策樹回歸模型以實現(xiàn)企業(yè)員工的薪水預測,具體要求如下:①對不同特征之間的相關(guān)性進行可視化分析。②分析決策樹在不同最大深度時的擬合優(yōu)度以確定最優(yōu)最大深度。③對不同特征的重要性進行可視化。(2)編程實現(xiàn)見7.2.2薪水預測.py277.2.2薪水預測(3)結(jié)果分析從圖7-4(a)所示的結(jié)果可知,員工年齡與工作經(jīng)驗相關(guān)度較高,年齡越大,工作經(jīng)歷越長、經(jīng)驗越豐富;其他特征之間的相關(guān)性相對較弱。在構(gòu)建薪水預測模型時,如圖7-4(b)所示,擬合優(yōu)度在訓練樣本上先增長而后趨于穩(wěn)定,而在測試樣本上則先增長而后在最大深度值為3時開始降低,表明決策樹模型復雜度在最大深度設(shè)置為3時較優(yōu)。此外,對于特征重要性,如圖7-4(c)所示,工作經(jīng)驗對薪水預測精度的影響最大,而年齡也是影響薪水預測精度的重要因素。28(a)特征相關(guān)性
(b)擬合優(yōu)度變化
(c)特征重要性本章小結(jié)決策樹通過直觀的樹型結(jié)構(gòu)對樣本進行分類,既可用于離散型數(shù)據(jù)也可用于連續(xù)型數(shù)據(jù),而且數(shù)據(jù)基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 出兌攤位合同范本
- 別墅設(shè)計合同范例
- 個人門窗施工合同范本
- 鄉(xiāng)村空房轉(zhuǎn)讓合同范本
- 第7課《敬業(yè)與樂業(yè)》教學設(shè)計 2024-2025學年統(tǒng)編版語文九年級上冊
- 加盟金額寫入合同范例
- 保本合同范本
- 切割加工項目合同范本
- 企業(yè)贊助活動合同范本
- 交技術(shù)合同范本
- 初中英語 滬教牛津版 9A U7-1 Reading Tom Sawyer paints the fence 課件
- 騙提個人住房公積金檢討書
- 監(jiān)控系統(tǒng)維保方案計劃及報價
- 無線通信與網(wǎng)絡(luò)復習資料
- ABCD2評分量表(TIA早期卒中風險預測工具)
- E-learning平臺使用手冊(培訓管理員版)
- 自動化物料編碼規(guī)則
- 人教版小學數(shù)學五年級下冊教材分析
- 小學音樂教材分析
- 委托收款三方協(xié)議
- 黃岡市2021-2022高一上學期期末考試數(shù)學試題及答案
評論
0/150
提交評論