基本概念、決策樹與模型評(píng)價(jià)(ppt 92頁(yè)).ppt

上傳人：朱*** IP屬地：江西上傳時(shí)間：2020-03-14 格式：PPT 頁(yè)數(shù)：91 大小：2.53MB 積分：12 舉報(bào) 版權(quán)申訴

基本概念、決策樹與模型評(píng)價(jià)(ppt 92頁(yè)).ppt_第2頁(yè)

基本概念、決策樹與模型評(píng)價(jià)(ppt 92頁(yè)).ppt_第3頁(yè)

基本概念、決策樹與模型評(píng)價(jià)(ppt 92頁(yè)).ppt_第4頁(yè)

基本概念、決策樹與模型評(píng)價(jià)(ppt 92頁(yè)).ppt_第5頁(yè)

已閱讀5頁(yè)，還剩86頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘分類基本概念決策樹與模型評(píng)價(jià) 第4章分類基本概念決策樹與模型評(píng)價(jià) 分類的是利用一個(gè)分類函數(shù) 分類模型分類器該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)影射到給定類別中的一個(gè) 分類訓(xùn)練集數(shù)據(jù)庫(kù)中為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練集訓(xùn)練集中的單個(gè)元組稱為訓(xùn)練樣本每個(gè)訓(xùn)練樣本有一個(gè)類別標(biāo)記一個(gè)具體樣本的形式可為 v1 v2 vn c 其中vi表示屬性值 c表示類別測(cè)試集用于評(píng)估分類模型的準(zhǔn)確率數(shù)據(jù)分類一個(gè)兩步過(guò)程 1 第一步建立一個(gè)模型描述預(yù)定數(shù)據(jù)類集和概念集假定每個(gè)元組屬于一個(gè)預(yù)定義的類由一個(gè)類標(biāo)號(hào)屬性確定學(xué)習(xí)模型可以用分類規(guī)則決策樹或數(shù)學(xué)公式的形式提供數(shù)據(jù)分類一個(gè)兩步過(guò)程 2 第二步使用模型對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率對(duì)每個(gè)測(cè)試樣本將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比測(cè)試集要獨(dú)立于訓(xùn)練樣本集否則會(huì)出現(xiàn) 過(guò)分適應(yīng)數(shù)據(jù) 的情況如果準(zhǔn)確性能被接受則分類規(guī)則就可用來(lái)對(duì)新數(shù)據(jù)進(jìn)行分類有監(jiān)督的學(xué)習(xí)VS 無(wú)監(jiān)督的學(xué)習(xí) 有監(jiān)督的學(xué)習(xí) 用于分類模型的學(xué)習(xí)在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類的監(jiān)督下進(jìn)行新數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)集中得到的規(guī)則進(jìn)行分類無(wú)監(jiān)督的學(xué)習(xí) 用于聚類每個(gè)訓(xùn)練樣本的類編號(hào)是未知的要學(xué)習(xí)的類集合或數(shù)量也可能是事先未知的通過(guò)一系列的度量觀察來(lái)建立數(shù)據(jù)中的類編號(hào)或進(jìn)行聚類分類模型的構(gòu)造方法 1 機(jī)器學(xué)習(xí)方法決策樹法規(guī)則歸納2 統(tǒng)計(jì)方法知識(shí)表示是判別函數(shù)和原型事例貝葉斯法非參數(shù)法近鄰學(xué)習(xí)或基于事例的學(xué)習(xí) 3 神經(jīng)網(wǎng)絡(luò)方法 BP算法模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型4 粗糙集 roughset 知識(shí)表示是產(chǎn)生式規(guī)則一個(gè)決策樹的例子 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K SplittingAttributes 訓(xùn)練數(shù)據(jù) 模型決策樹決策樹的另一個(gè)例子 categorical categorical continuous class MarSt Refund TaxInc YES NO NO Yes No Married Single Divorced 80K 80K 用決策樹歸納分類什么是決策樹類似于流程圖的樹結(jié)構(gòu)每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試每個(gè)分枝代表一個(gè)測(cè)試輸出每個(gè)樹葉節(jié)點(diǎn)代表類或類分布決策樹的生成由兩個(gè)階段組成決策樹構(gòu)建開始時(shí) 所有的訓(xùn)練樣本都在根節(jié)點(diǎn)遞歸的通過(guò)選定的屬性來(lái)劃分樣本必須是離散值樹剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn) 樹剪枝試圖檢測(cè)和剪去這種分枝決策樹的使用對(duì)未知樣本進(jìn)行分類通過(guò)將樣本的屬性值與決策樹相比較為了對(duì)未知數(shù)據(jù)對(duì)象進(jìn)行分類識(shí)別可以根據(jù)決策樹的結(jié)構(gòu)對(duì)數(shù)據(jù)集中的屬性進(jìn)行測(cè)試從決策樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就形成了相應(yīng)對(duì)象的類別測(cè)試決策樹可以很容易轉(zhuǎn)換為分類規(guī)則決策樹分類任務(wù) DecisionTree 一個(gè)決策樹的例子 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K SplittingAttributes 訓(xùn)練數(shù)據(jù) 模型決策樹應(yīng)用決策樹進(jìn)行分類測(cè)試數(shù)據(jù) Startfromtherootoftree 應(yīng)用決策樹進(jìn)行分類測(cè)試數(shù)據(jù) 應(yīng)用決策樹進(jìn)行分類 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K 測(cè)試數(shù)據(jù) 應(yīng)用決策樹進(jìn)行分類 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K 測(cè)試數(shù)據(jù) 應(yīng)用決策樹進(jìn)行分類 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K 測(cè)試數(shù)據(jù) 應(yīng)用決策樹進(jìn)行分類 Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K 測(cè)試數(shù)據(jù) AssignCheatto No 決策樹分類 DecisionTree 決策樹有許多決策樹算法 Hunt算法信息增益 Informationgain ID3 增益比率 Gainration C4 5 基尼指數(shù) Giniindex SLIQ SPRINT Hunt算法設(shè)Dt是與結(jié)點(diǎn)t相關(guān)聯(lián)的訓(xùn)練記錄集算法步驟如果Dt中所有記錄都屬于同一個(gè)類yt 則t是葉結(jié)點(diǎn) 用yt標(biāo)記如果Dt中包含屬于多個(gè)類的記錄則選擇一個(gè)屬性測(cè)試條件將記錄劃分成較小的子集對(duì)于測(cè)試條件的每個(gè)輸出創(chuàng)建一個(gè)子結(jié)點(diǎn) 并根據(jù)測(cè)試結(jié)果將Dt中的記錄分布到子結(jié)點(diǎn)中然后對(duì)于每個(gè)子結(jié)點(diǎn) 遞歸地調(diào)用該算法 Dt Hunt算法 Don tCheat 決策樹 Hunt算法采用貪心策略構(gòu)建決策樹在選擇劃分?jǐn)?shù)據(jù)的屬性時(shí) 采取一系列局部最優(yōu)決策來(lái)構(gòu)造決策樹決策樹歸納的設(shè)計(jì)問(wèn)題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測(cè)試條件怎樣評(píng)估每種測(cè)試條件如何停止分裂過(guò)程決策樹 Hunt算法采用貪心策略構(gòu)建決策樹在選擇劃分?jǐn)?shù)據(jù)的屬性時(shí) 采取一系列局部最優(yōu)決策來(lái)構(gòu)造決策樹決策樹歸納的設(shè)計(jì)問(wèn)題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測(cè)試條件怎樣評(píng)估每種測(cè)試條件如何停止分裂過(guò)程怎樣為不同類型的屬性指定測(cè)試條件依賴于屬性的類型標(biāo)稱序數(shù)連續(xù)依賴于劃分的路數(shù)2路劃分多路劃分基于標(biāo)稱屬性的分裂多路劃分劃分?jǐn)?shù) 輸出數(shù) 取決于該屬性不同屬性值的個(gè)數(shù) 二元?jiǎng)澐?劃分?jǐn)?shù)為2 這種劃分要考慮創(chuàng)建k個(gè)屬性值的二元?jiǎng)澐值乃?k 1 1種方法 OR 多路劃分劃分?jǐn)?shù) 輸出數(shù) 取決于該屬性不同屬性值的個(gè)數(shù) 二元?jiǎng)澐?劃分?jǐn)?shù)為2 需要保持序數(shù)屬性值的有序性基于序數(shù)屬性的劃分 OR 基于連續(xù)屬性的劃分多路劃分 vi A vi 1 i 1 k 二元?jiǎng)澐?A v or A v 考慮所有的劃分點(diǎn) 選擇一個(gè)最佳劃分點(diǎn)v 基于連續(xù)屬性的劃分決策樹決策樹歸納的設(shè)計(jì)問(wèn)題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測(cè)試條件怎樣評(píng)估每種測(cè)試條件如何停止分裂過(guò)程怎樣選擇最佳劃分在劃分前 10個(gè)記錄class0 10個(gè)記錄class1 怎樣選擇最佳劃分選擇最佳劃分的度量通常是根據(jù)劃分后子結(jié)點(diǎn)不純性的程度不純性的程度越低類分布就越傾斜結(jié)點(diǎn)不純性的度量不純性大不純性小怎樣找到最佳劃分 B Yes No NodeN3 NodeN4 A Yes No NodeN1 NodeN2 劃分前 Gain M0 M12vsM0 M34 結(jié)點(diǎn)不純性的測(cè)量 GiniEntropyclassificationerror 不純性的測(cè)量 GINI 給定結(jié)點(diǎn)t的Gini值計(jì)算 p j t 是在結(jié)點(diǎn)t中類j發(fā)生的概率當(dāng)類分布均衡時(shí) Gini值達(dá)到最大值 1 1 nc 相反當(dāng)只有一個(gè)類時(shí) Gini值達(dá)到最小值0 計(jì)算GINI的例子 P C1 0 6 0P C2 6 6 1Gini 1 P C1 2 P C2 2 1 0 1 0 P C1 1 6P C2 5 6Gini 1 1 6 2 5 6 2 0 278 P C1 2 6P C2 4 6Gini 1 2 6 2 4 6 2 0 444 基于GINI的劃分當(dāng)一個(gè)結(jié)點(diǎn)p分割成k個(gè)部分孩子劃分的質(zhì)量可由下面公式計(jì)算ni 孩子結(jié)點(diǎn)i的記錄數(shù) n 父結(jié)點(diǎn)p的記錄數(shù) 二元屬性計(jì)算GINI 對(duì)于二元屬性結(jié)點(diǎn)被劃分成兩個(gè)部分得到的GINI值越小這種劃分越可行 B Yes No NodeN1 NodeN2 Gini N1 1 5 6 2 2 6 2 0 194Gini N2 1 1 6 2 4 6 2 0 528 Ginisplit 7 12 0 194 5 12 0 528 0 333 標(biāo)稱屬性計(jì)算Gini 多路劃分二元?jiǎng)澐忠话愣嗦穭澐值腉ini值比二元?jiǎng)澐中?這一結(jié)果并不奇怪因?yàn)槎獎(jiǎng)澐謱?shí)際上合并了多路劃分的某些輸出自然降低了子集的純度 Multi waysplit Two waysplit findbestpartitionofvalues 連續(xù)屬性計(jì)算Gini 使用二元?jiǎng)澐謩澐贮c(diǎn)v選擇N個(gè)記錄中所有屬性值作為劃分點(diǎn)對(duì)每個(gè)劃分進(jìn)行類計(jì)數(shù) A vandA v計(jì)算每個(gè)候選點(diǎn)v的Gini指標(biāo) 并從中選擇具有最小值的候選劃分點(diǎn)時(shí)間復(fù)雜度為 n2 連續(xù)屬性計(jì)算Gini 降低計(jì)算復(fù)雜性的方法將記錄進(jìn)行排序從兩個(gè)相鄰的排過(guò)序的屬性值之間選擇中間值作為劃分點(diǎn)計(jì)算每個(gè)候選點(diǎn)的Gini值時(shí)間復(fù)雜度為nlogn 定義給定一個(gè)概率空間事件的自信息定義為因自信息反映了事件發(fā)生所需要的信息量值越大說(shuō)明需要越多的信息才能確定事件的發(fā)生其隨機(jī)性也越大而當(dāng)發(fā)生時(shí)所攜帶的信息量也越大反過(guò)來(lái) 值越小需要較少信息量就能確定的發(fā)生即事件隨機(jī)性較小當(dāng)其發(fā)生時(shí)所攜信息量就少是對(duì)不確定性大小的一種刻畫熵定義熵定義 1 定義在概率空間上定義的隨機(jī)變量I X 的數(shù)學(xué)期望稱為隨機(jī)變量X的平均自信息又稱X的信息熵或熵記為H x 非負(fù)性 H大于等于0連續(xù)性 H對(duì)任意q連續(xù)極值性當(dāng)q都等于1 K時(shí)H達(dá)到最大值logK 熵定義基于InformationGain的劃分給定結(jié)點(diǎn)t的Entropy值計(jì)算 p j t 是在結(jié)點(diǎn)t中類j發(fā)生的概率當(dāng)類分布均衡時(shí) Entropy值達(dá)到最大值 lognc 相反當(dāng)只有一個(gè)類時(shí) Gini值達(dá)到最小值0Entropy與GINI相似計(jì)算Entropy的例子 P C1 0 6 0P C2 6 6 1Entropy 0log0 1log1 0 0 0 P C1 1 6P C2 5 6Entropy 1 6 log2 1 6 5 6 log2 1 6 0 65 P C1 2 6P C2 4 6Entropy 2 6 log2 2 6 4 6 log2 4 6 0 92 基于InformationGain的劃分 InformationGain ni 孩子結(jié)點(diǎn)i的記錄數(shù) n 結(jié)點(diǎn)p的記錄數(shù) 在ID3andC4 5中使用基于InformationGain的劃分增益率 GainRatio 熵和Gini指標(biāo)等不純性趨向于有利于具有大量不同值的屬性如利用雇員id產(chǎn)生更純的劃分但它卻毫無(wú)用處每個(gè)劃分相關(guān)聯(lián)的記錄數(shù)太少將不能做出可靠的預(yù)測(cè)解決該問(wèn)題的策略有兩種限制測(cè)試條件只能是二元?jiǎng)澐质褂迷鲆媛?K越大SplitInfo越大增益率越小基于ClassificationError的劃分給定結(jié)點(diǎn)t的ClassificationError值計(jì)算當(dāng)類分布均衡時(shí) error值達(dá)到最大值 1 1 nc 相反當(dāng)只有一個(gè)類時(shí) error值達(dá)到最小值0 例子 P C1 0 6 0P C2 6 6 1Error 1 max 0 1 1 1 0 P C1 1 6P C2 5 6Error 1 max 1 6 5 6 1 5 6 1 6 P C1 2 6P C2 4 6Error 1 max 2 6 4 6 1 4 6 1 3 不純性度量之間的比較二元分類問(wèn)題決策樹 Hunt算法采用貪心策略構(gòu)建決策樹在選擇劃分?jǐn)?shù)據(jù)的屬性時(shí) 采取一系列局部最優(yōu)決策來(lái)構(gòu)造決策樹決策樹歸納的設(shè)計(jì)問(wèn)題如何分裂訓(xùn)練記錄怎樣為不同類型的屬性指定測(cè)試條件怎樣評(píng)估每種測(cè)試條件如何停止分裂過(guò)程停止分裂過(guò)程當(dāng)所有的記錄屬于同一類時(shí) 停止分裂當(dāng)所有的記錄都有相同的屬性時(shí) 停止分裂提前終止樹的生長(zhǎng) 三種著名的決策樹 Cart 基本的決策樹算法Id3 利用增益比不純性樹采用二叉樹停止準(zhǔn)則為當(dāng)所有的記錄屬于同一類時(shí) 停止分裂或當(dāng)所有的記錄都有相同的屬性時(shí) 停止分裂C4 5 id3的改進(jìn)版本也是最流行的分類數(shù)算法采用多重分支和剪枝技術(shù) 決策樹特點(diǎn) 決策樹是一種構(gòu)建分類模型的非參數(shù)方法不需要昂貴的的計(jì)算代價(jià)決策樹相對(duì)容易解釋決策樹是學(xué)習(xí)離散值函數(shù)的典型代表決策數(shù)對(duì)于噪聲的干擾具有相當(dāng)好的魯棒性冗余屬性不會(huì)對(duì)決策樹的準(zhǔn)確率造成不利影響數(shù)據(jù)碎片問(wèn)題隨著數(shù)的生長(zhǎng) 可能導(dǎo)致葉結(jié)點(diǎn)記錄數(shù)太少對(duì)于葉結(jié)點(diǎn)代表的類不能做出具有統(tǒng)計(jì)意義的判決子樹可能在決策樹中重復(fù)多次使決策樹過(guò)于復(fù)雜子樹重復(fù)問(wèn)題 Samesubtreeappearsinmultiplebranches 決策邊界斜決策樹模型過(guò)分?jǐn)M合和擬合不足分類模型的誤差大致分為兩種訓(xùn)練誤差是在訓(xùn)練記錄上誤分類樣本比例泛化誤差是模型在未知記錄上的期望誤差一個(gè)好的分類模型不僅要能夠很好的擬合訓(xùn)練數(shù)據(jù) 而且對(duì)未知樣本也要能準(zhǔn)確分類換句話說(shuō) 一個(gè)好的分類模型必須具有低訓(xùn)練誤差和低泛化誤差當(dāng)訓(xùn)練數(shù)據(jù)擬合太好的模型其泛化誤差可能比具有較高訓(xùn)練誤差的模型高這種情況成為模型過(guò)分?jǐn)M合模型過(guò)分?jǐn)M合和擬合不足當(dāng)決策樹很小時(shí) 訓(xùn)練和檢驗(yàn)誤差都很大這種情況稱為模型擬合不足出現(xiàn)擬合不足的原因是模型尚未學(xué)習(xí)到數(shù)據(jù)的真實(shí)結(jié)構(gòu) 隨著決策樹中結(jié)點(diǎn)數(shù)的增加模型的訓(xùn)練誤差和檢驗(yàn)誤差都會(huì)隨之下降當(dāng)樹的規(guī)模變得太大時(shí) 即使訓(xùn)練誤差還在繼續(xù)降低但是檢驗(yàn)誤差開始增大導(dǎo)致模型過(guò)分?jǐn)M合模型模型過(guò)分?jǐn)M合和擬合不足過(guò)分?jǐn)M合導(dǎo)致過(guò)分?jǐn)M合的原因導(dǎo)致過(guò)分?jǐn)M合的原因噪聲導(dǎo)致的過(guò)分?jǐn)M合例子哺乳動(dòng)物的分類問(wèn)題十個(gè)訓(xùn)練記錄中有兩個(gè)被錯(cuò)誤標(biāo)記蝙蝠和鯨如果完全擬合訓(xùn)練數(shù)據(jù) 決策樹1的訓(xùn)練誤差為0 但它在檢驗(yàn)數(shù)據(jù)上的誤差達(dá)30 人和海豚針鼴誤分為非哺乳動(dòng)物相反一個(gè)更簡(jiǎn)單的決策樹2 具有較低的檢驗(yàn)誤差 10 盡管它的訓(xùn)練誤差較高為20 決策樹1過(guò)分?jǐn)M合了訓(xùn)練數(shù)據(jù) 因?yàn)閷傩詼y(cè)試條件4條腿具有欺騙性它擬合了誤標(biāo)記的訓(xùn)練紀(jì)錄導(dǎo)致了對(duì)檢驗(yàn)集中記錄的誤分類噪聲導(dǎo)致的過(guò)分?jǐn)M合例子噪聲導(dǎo)致決策邊界的改變缺乏代表性樣本導(dǎo)致的過(guò)分?jǐn)M合根據(jù)少量訓(xùn)練記錄做出分類決策的模型也容易受過(guò)分?jǐn)M合的影響由于訓(xùn)練數(shù)據(jù)缺乏具有代表性的樣本在沒(méi)有多少訓(xùn)練記錄的情況下學(xué)習(xí)算法仍然細(xì)化模型就會(huì)產(chǎn)生過(guò)分?jǐn)M合例子五個(gè)訓(xùn)練記錄所有的記錄都是正確標(biāo)記的對(duì)應(yīng)的決策樹盡管訓(xùn)練誤差為0 但檢驗(yàn)誤差高達(dá)30 人大象和海豚被誤分類因?yàn)闆Q策樹把恒溫但不冬眠的動(dòng)物分為非哺乳動(dòng)物決策樹做出這樣的分類決策是因?yàn)橹挥幸粋€(gè)訓(xùn)練記錄鷹具有這些特征這個(gè)例子清楚的表明當(dāng)決策樹的葉結(jié)點(diǎn)沒(méi)有足夠的代表性樣本時(shí) 很可能做出錯(cuò)誤的預(yù)測(cè) 過(guò)分?jǐn)M合與多重比較模型的過(guò)分?jǐn)M合可能出現(xiàn)在使用多重比較過(guò)程的算法中多重比較的例子考慮未來(lái)十個(gè)交易日股市是升還是降一個(gè)人十次猜測(cè)至少正確預(yù)測(cè)八次的概率是 0 0547假設(shè)從50個(gè)股票分析家中選擇一個(gè)投資顧問(wèn) 策略是選擇在未來(lái)的十個(gè)交易日做出最多正確預(yù)測(cè)的分析家該策略的缺點(diǎn)是即使所有的分析家都用隨機(jī)猜測(cè)做出預(yù)測(cè) 至少有一個(gè)分析家做出八次正確預(yù)測(cè)的概率是 1 1 0 0547 50 0 9399 這一結(jié)果相當(dāng)高多重比較過(guò)程與模型過(guò)分?jǐn)M合有什么關(guān)系在決策樹增長(zhǎng)過(guò)程中可以進(jìn)行多種測(cè)試以確定哪個(gè)屬性能夠最好的劃分訓(xùn)練數(shù)據(jù) 在這種情況下算法實(shí)際上是使用多重比較過(guò)程來(lái)決定是否需要擴(kuò)展決策樹當(dāng)候選屬性多訓(xùn)練記錄數(shù)少時(shí) 這種影響就變得更加明顯泛化誤差估計(jì) 過(guò)分?jǐn)M合的主要原因一直是個(gè)爭(zhēng)辯的話題但大家還是普遍同意模型的復(fù)雜度對(duì)模型的過(guò)分?jǐn)M合有影響如何確定正確的模型復(fù)雜度理想的復(fù)雜度是能產(chǎn)生最低泛化誤差的模型的復(fù)雜度估計(jì)泛化誤差的方法使用再代入估計(jì) 用訓(xùn)練誤差提供對(duì)泛化誤差的樂(lè)觀估計(jì)結(jié)合模型復(fù)雜度估計(jì)統(tǒng)計(jì)上界使用確定集結(jié)合模型復(fù)雜度奧卡姆剃刀 Occam sRazor 給定兩個(gè)具有相同泛化誤差的模型較簡(jiǎn)單的模型比復(fù)雜的模型更可取因?yàn)閺?fù)雜模型中的附加成分很大程度上是偶然的擬合因此分類模型評(píng)估應(yīng)把模型復(fù)雜度考慮進(jìn)去方法悲觀誤差估計(jì) 最小描述長(zhǎng)度原則 MDL 悲觀誤差評(píng)估悲觀誤差估計(jì)公式 Q ti 為每個(gè)結(jié)點(diǎn)ti的罰分 e T 為訓(xùn)練樣本集的錯(cuò)分樣本數(shù) Nt為訓(xùn)練樣本總數(shù) k為葉結(jié)點(diǎn)數(shù) 例子1 如果罰分等于0 5 訓(xùn)練樣本集中樣本數(shù)為24個(gè) 我們構(gòu)建了7個(gè)葉結(jié)點(diǎn)的決策樹訓(xùn)練樣本集的錯(cuò)分樣本數(shù)為4根據(jù)公式我們得e T 4 7 0 5 24 0 3125例子2 如果罰分等于0 5 訓(xùn)練樣本集中樣本數(shù)為24個(gè) 我們構(gòu)建了4個(gè)葉結(jié)點(diǎn)的決策樹訓(xùn)練樣本集的錯(cuò)分樣本數(shù)為6根據(jù)公式我們得e T 6 4 0 5 24 0 3333當(dāng)罰分等于1時(shí) 例1 2為0 458 0 4170 5的罰分項(xiàng)表示只要至少能夠改進(jìn)一個(gè)訓(xùn)練記錄的分類結(jié)點(diǎn)就應(yīng)當(dāng)擴(kuò)充因?yàn)閿U(kuò)展一個(gè)結(jié)點(diǎn)等價(jià)于總誤差增加0 5 代價(jià)比犯一個(gè)訓(xùn)練錯(cuò)誤小最小描述長(zhǎng)度 MDL Cost Model Data Cost Data Model Cost Model Cost是傳輸總代價(jià) 最小化cost值 Cost Data Model 是誤分類記錄編碼的開銷 Cost Model 是模型編碼的開銷使用確認(rèn)集該方法中不是用訓(xùn)練集估計(jì)泛化誤差而是把原始的訓(xùn)練數(shù)據(jù)集分為兩個(gè)較小的子集一個(gè)子集用于訓(xùn)練而另一個(gè)稱為確認(rèn)集用于估計(jì)泛化誤差該方法為評(píng)估模型在未知樣本上的性能提供了較好辦法處理決策樹中的過(guò)分?jǐn)M合先剪枝 EarlyStoppingRule 樹增長(zhǎng)算法在產(chǎn)生完全擬合整個(gè)訓(xùn)練數(shù)據(jù)集的之前就停止決策樹的生長(zhǎng)為了做到這一點(diǎn) 需要采用更具限制性的結(jié)束條件當(dāng)結(jié)點(diǎn)的記錄

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基本概念、決策樹與模型評(píng)價(jià)(ppt 92頁(yè)).ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基本概念、決策樹與模型評(píng)價(jià)(ppt 92頁(yè)).ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔