




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
決策樹及隨機(jī)效應(yīng)模型
張文超2014/05/07決策樹及隨機(jī)效應(yīng)模型1基本概念決策樹模型的建立決策樹與判別函數(shù)的比較計(jì)算方法決策樹及隨機(jī)效應(yīng)模型R軟件包應(yīng)用基本概念210.1決策樹是同時(shí)提供分類的預(yù)測的常用方法決策樹的數(shù)據(jù)分析是一種樹形結(jié)構(gòu)來表現(xiàn)數(shù)據(jù)各變量影響程度的預(yù)測模型,利用樹上各級節(jié)點(diǎn)分支自動(dòng)確認(rèn)和評估各個(gè)類別。決策樹能從一個(gè)或多個(gè)預(yù)測變量中,針對類別因變量的選項(xiàng),預(yù)測出個(gè)例的趨勢變化關(guān)系等,也可以由結(jié)果反推原因。10.1決策樹是同時(shí)提供分類的預(yù)測的常用方法3決策樹是同時(shí)提供分類與預(yù)測的常用方法。通過一系列的選擇將數(shù)據(jù)分類,可由落入相同結(jié)點(diǎn)的路徑上的規(guī)則集來推測相同的結(jié)果。決策樹的主要功能是由已知分類的個(gè)體來建立決策樹和相應(yīng)的決策規(guī)則。與神經(jīng)網(wǎng)絡(luò)不同,決策樹產(chǎn)生的決策規(guī)則可用文字或數(shù)字來表達(dá)?。決策樹是同時(shí)提供分類與預(yù)測的常用方法。通過一系列的選擇將數(shù)據(jù)4常用的決策樹方法有CHAID(chaid)以及CART(cart)CHAID(卡方自動(dòng)交互檢測法)決策樹只限于處理分類變量,如果是連續(xù)變量必須采用區(qū)段的方式,先轉(zhuǎn)換數(shù)據(jù)為類別變量,才可以使用。常用的決策樹方法有CHAID(chaid)以及CART(ca5CHAID決策樹的基本步驟如下:(1)對每個(gè)變量都計(jì)算其所有可能的分割點(diǎn),并找出一個(gè)最佳分割點(diǎn)。
(2)比較各預(yù)測變量在“最佳分割方式”下的組間方差,然后找出一個(gè)組間方差最大的變量,即為最佳預(yù)測變量。(3)用最佳預(yù)測變量的最佳分割方式把原始數(shù)據(jù)分成兩組(4)將分割后的每一組作為樣本,重復(fù)前述分割步驟(5)重復(fù)分割,直到所有變量都被用完為止。CHAID決策樹的基本步驟如下:(1)對每個(gè)變量都計(jì)算其所有610.2決策樹模型的建立針對分類預(yù)測變量,計(jì)算以單變量分裂為基礎(chǔ)的二元決策樹針對順序預(yù)測變量,計(jì)算以單變量分裂為基礎(chǔ)的二元決策樹(至少為順序尺度類型的變量)混合兩類方法的預(yù)測變量計(jì)算以單變量分裂為基礎(chǔ)的二元決策樹。10.2決策樹模型的建立針對分類預(yù)測變量,計(jì)算以單變量分裂為710.3決策樹與判別函數(shù)的比較決策樹與判別函數(shù)的比較如表10-1所示10.3決策樹與判別函數(shù)的比較決策樹與判別函數(shù)的比較如表10810.4計(jì)算方法—制定預(yù)測精確度的標(biāo)準(zhǔn)決策樹是要建立預(yù)測正確率最高的分類規(guī)則預(yù)測精度的定義,一般包含了成本的概念成本指的是個(gè)例被混合分類時(shí)的比例10.4計(jì)算方法—制定預(yù)測精確度的標(biāo)準(zhǔn)決策樹是要建立預(yù)測正確910.4計(jì)算方法-先驗(yàn)概率如果研究中,各分類包含的個(gè)例數(shù)的比例相等或相近,或各類中的個(gè)例數(shù)目相等或相近,就可以選擇“相同先驗(yàn)概率”。如果不同分類的比例相差較大,以至于影響到分類數(shù),那么,可依據(jù)樣本中的分類比例來估計(jì)先驗(yàn)概率。如果針對基本比例有著經(jīng)驗(yàn)判斷,便可以給予不同的基本比例,并可將其歸類為先驗(yàn)概率如果設(shè)置相同的錯(cuò)誤分類成本,并且不以分類的個(gè)體比例作為權(quán)數(shù),那么錯(cuò)誤分類率是相同的。10.4計(jì)算方法-先驗(yàn)概率如果研究中,各分類包含的個(gè)例數(shù)的1010.4計(jì)算方法-選擇分裂(分層)技術(shù)分層技術(shù)比較如表10-2所示10.4計(jì)算方法-選擇分裂(分層)技術(shù)分層技術(shù)比較如表10-1110.4計(jì)算方法-定義停止分層的時(shí)點(diǎn)在決策樹模塊中,提供兩個(gè)選項(xiàng)可以控制停止分裂(分層)的時(shí)間點(diǎn):(1)取小n(最終節(jié)點(diǎn)中所包含的個(gè)例數(shù))(2)設(shè)置對象的片段10.4計(jì)算方法-定義停止分層的時(shí)點(diǎn)在決策樹模塊中,提供兩1210.4計(jì)算方法-選擇適當(dāng)大小的決策樹在一般化的分割過程中,需要確定決策樹的適當(dāng)規(guī)模決策樹模塊可提供幾種不同的選取適當(dāng)大小的策略,可擇一或同時(shí)使用。如表10-3所示。10.4計(jì)算方法-選擇適當(dāng)大小的決策樹在一般化的分割過程13決策樹及隨機(jī)效應(yīng)模型14
1.1決策樹
決策樹(DecisionTree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測模型,他代表的是對象屬性與對象值之間的一種映射關(guān)系。Entropy=系統(tǒng)的凌亂程度,使用算法ID3,
C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。決策樹是數(shù)據(jù)挖掘分類算法的一個(gè)重要方法。在各種分類算法中,決策樹是最直觀的一種。
1.1決策樹
決策樹(DecisionTree)是在已15
1.2組成
□——決策點(diǎn),是對幾種可能方案的選擇,即最后選擇的最佳方案。如果決策屬于多級決策,則決策樹的中間可以有多個(gè)決策點(diǎn),以決策樹根部的決策點(diǎn)為最終決策方案?!稹獱顟B(tài)節(jié)點(diǎn),代表備選方案的經(jīng)濟(jì)效果(期望值),通過各狀態(tài)節(jié)點(diǎn)的經(jīng)濟(jì)效果的對比,按照一定的決策標(biāo)準(zhǔn)就可以選出最佳方案。由狀態(tài)節(jié)點(diǎn)引出的分支稱為概率枝,概率枝的數(shù)目表示可能出現(xiàn)的自然狀態(tài)數(shù)目每個(gè)分枝上要注明該狀態(tài)出現(xiàn)的概率?!鳌Y(jié)果節(jié)點(diǎn),將每個(gè)方案在各種自然狀態(tài)下取得的損益值標(biāo)注于結(jié)果節(jié)點(diǎn)的右端。
1.2組成
□——決策點(diǎn),是對幾種可能方案的選擇,即最后選16決策樹及隨機(jī)效應(yīng)模型171.3畫法
機(jī)器學(xué)習(xí),決策樹是一個(gè)預(yù)測模型;他代表的是對象屬性與對象值之間的一種映射關(guān)系。樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對象,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。1.3畫法
機(jī)器學(xué)習(xí),決策樹是一個(gè)預(yù)測模型181.3畫法從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)習(xí),通俗說就是決策樹。一個(gè)決策樹包含三種類型的節(jié)點(diǎn):決策節(jié)點(diǎn):通常用矩形框來表式機(jī)會(huì)節(jié)點(diǎn):通常用圓圈來表式終結(jié)點(diǎn):通常用三角形來表示1.3畫法從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)19決策樹學(xué)習(xí)也是資料探勘中一個(gè)普通的方法。在這里,每個(gè)決策樹都表述了一種樹型結(jié)構(gòu),它由它的分支來對該類型的對象依靠屬性進(jìn)行分類。每個(gè)決策樹可以依靠對源數(shù)據(jù)庫的分割進(jìn)行數(shù)據(jù)測試。這個(gè)過程可以遞歸式的對樹進(jìn)行修剪。當(dāng)不能再進(jìn)行分割或一個(gè)單獨(dú)的類可以被應(yīng)用于某一分支時(shí),遞歸過程就完成了。另外,隨機(jī)森林分類器將許多決策樹結(jié)合起來以提升分類的正確率。決策樹學(xué)習(xí)也是資料探勘中一個(gè)普通的方法。在這里,每個(gè)決策樹都20
決策樹同時(shí)也可以依靠計(jì)算條件概率來構(gòu)造。決策樹如果依靠數(shù)學(xué)的計(jì)算方法可以取得更加理想的效果。數(shù)據(jù)庫已如下所示:
(x,y)=(x1,x2,x3…,xk,y)相關(guān)的變量Y表示我們嘗試去理解,分類或者更一般化的結(jié)果。其他的變量x1,x2,x3等則是幫助我們達(dá)到目的的變量。
21
1.4決策樹的剪枝
剪枝是決策樹停止分支的方法之一,剪枝有分預(yù)先剪枝和后剪枝兩種。
預(yù)先剪枝是在樹的生長過程中設(shè)定一個(gè)指標(biāo),當(dāng)達(dá)到該指標(biāo)時(shí)就停止生長,這樣做容易產(chǎn)生“視界局限”,就是一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。不嚴(yán)格的說這些已停止的分支會(huì)誤導(dǎo)學(xué)習(xí)算法,導(dǎo)致產(chǎn)生的樹不純度降差最大的地方過分靠近根節(jié)點(diǎn)。
1.4決策樹的剪枝
剪枝是決策樹停止分支的22
1.4決策樹的剪枝
后剪枝中樹首先要充分生長,直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。然后對所有相鄰的成對葉節(jié)點(diǎn)考慮是否消去它們,如果消去能引起令人滿意的不純度增長,那么執(zhí)行消去,并令它們的公共父節(jié)點(diǎn)成為新的葉節(jié)點(diǎn)。這種“合并”葉節(jié)點(diǎn)的做法和節(jié)點(diǎn)分支的過程恰好相反,經(jīng)過剪枝后葉節(jié)點(diǎn)常常會(huì)分布在很寬的層次上,樹也變得非平衡。后剪枝技術(shù)的優(yōu)點(diǎn)是克服了“視界局限”效應(yīng),而且無需保留部分樣本用于交叉驗(yàn)證,所以可以充分利用全部訓(xùn)練集的信息。但后剪枝的計(jì)算量代價(jià)比預(yù)剪枝方法大得多,特別是在大樣本集中,不過對于小樣本的情況,后剪枝方法還是優(yōu)于預(yù)剪枝方法的。
1.4決策樹的剪枝
后剪枝中樹首先要充分生長,直到231.5實(shí)例為了適應(yīng)市場的需要,某地準(zhǔn)備擴(kuò)大電視機(jī)生產(chǎn)。市場預(yù)測表明:產(chǎn)品銷路好的概率為0.7;銷路差的概率為0.3。備選方案有三個(gè):第一個(gè)方案是建設(shè)大工廠,需要投資600萬元,可使用10年;如銷路好,每年可贏利200萬元;如銷路不好,每年會(huì)虧損40萬元。第二個(gè)方案是建設(shè)小工廠,需投資280萬元;如銷路好,每年可贏利80萬元;如銷路不好,每年也會(huì)贏利60萬元。第三個(gè)方案也是先建設(shè)小工廠,但是如銷路好,3年后擴(kuò)建,擴(kuò)建需投資400萬元,可使用7年,擴(kuò)建后每年會(huì)贏利190萬元。
1.5實(shí)例為了適應(yīng)市場的需要,某地準(zhǔn)備擴(kuò)大電視機(jī)生產(chǎn)。市場預(yù)241.5實(shí)例各點(diǎn)期望:點(diǎn)②:0.7×200×10+0.3×(-40)×10-600(投資)=680(萬元)決策樹分析點(diǎn)⑤:1.0×190×7-400=930(萬元)點(diǎn)⑥:1.0×80×7=560(萬元)比較決策點(diǎn)4的情況可以看到,由于點(diǎn)⑤(930萬元)與點(diǎn)⑥(560萬元)相比,點(diǎn)⑤的期望利潤值較大,因此應(yīng)采用擴(kuò)建的方案,而舍棄不擴(kuò)建的方案。把點(diǎn)⑤的930萬元移到點(diǎn)4來,可計(jì)算出點(diǎn)③的期望利潤值。點(diǎn)③:0.7×80×3+0.7×930+0.3×60×(3+7)-280=719(萬元)最后比較決策點(diǎn)1的情況。由于點(diǎn)③(719萬元)與點(diǎn)②(680萬元)相比,點(diǎn)③的期望利潤值較大,因此取點(diǎn)③而舍點(diǎn)②。這樣,相比之下,建設(shè)大工廠的方案不是最優(yōu)方案,合理的策略應(yīng)采用前3年建小工廠,如銷路好,后7年進(jìn)行擴(kuò)建的方案。1.5實(shí)例各點(diǎn)期望:25決策樹及隨機(jī)效應(yīng)模型26決策樹模型與回歸模型在天津市某區(qū)公務(wù)員
健康狀況分析中的應(yīng)用與比較應(yīng)用SAS8.2EnterpriseMiner模塊建立決策樹模型和回歸模型,對該區(qū)公務(wù)員人群的健康狀況影響因素進(jìn)行分析和預(yù)測。將logistic回歸模型與決策樹模型進(jìn)行預(yù)測性能的比較,ROC面積比較結(jié)果發(fā)現(xiàn),兩者差別無統(tǒng)計(jì)學(xué)意義。結(jié)論公務(wù)員人群健康狀況不容樂觀,各種慢性病患病率較高,是今后開展健康管理的重點(diǎn)群體&決策樹模型與回歸模型在天津市某區(qū)公務(wù)員
健康狀況分析中的應(yīng)用27logistic回歸是分類數(shù)據(jù)統(tǒng)計(jì)分析的一種重要方法,流行病學(xué)上常用于研究疾病與致病因子間的聯(lián)系,以疾病發(fā)生與否為應(yīng)變量,影響疾病發(fā)生的因子為自變量,估計(jì)各因子的相對危險(xiǎn)度或比數(shù)比。決策樹是一種非線性的判別分析的方法,是一種類似于流程圖的結(jié)構(gòu)圖,其中,每個(gè)內(nèi)部節(jié)點(diǎn)(非樹節(jié)點(diǎn))表示在一個(gè)屬性上的測試,每個(gè)分支代表一個(gè)測試輸出,而每個(gè)樹葉節(jié)點(diǎn)(或終結(jié)點(diǎn))存放一個(gè)類標(biāo)號。本研究應(yīng)用enterpriseminer建立logistic回歸模型和決策樹模型對公務(wù)員健康狀況的預(yù)測性能進(jìn)行比較分析&logistic回歸是分類數(shù)據(jù)統(tǒng)計(jì)分析的一種重要方法,流行28決策樹模型方法能產(chǎn)生一些可以理解的規(guī)則決策樹模型方法能產(chǎn)生一些可以理解的規(guī)則29決策樹及隨機(jī)效應(yīng)模型線性隨機(jī)效應(yīng)混合模型的一般公式固定效應(yīng)隨機(jī)效應(yīng)如果固定效應(yīng)不一定是線性的,而又無法寫出非線性關(guān)系的分析表達(dá)式,則可以用決策樹來取代那固定的線性部分。其公式為決策樹及隨機(jī)效應(yīng)模型線性隨機(jī)效應(yīng)混合模型的一般公式固定效應(yīng)隨30其中,yi為ni*r,xi為ni*p,Zi為ni*q,bi為q*r,為ni*r其中,yi為ni*r,xi為ni*p,Zi為ni*q,bi31“決策樹及隨機(jī)效應(yīng)模型”,使得建模的靈活性大大增加。所用程序包:REEMtreeP97頁w=read.csv("riesby.csv",na.strings="-9")w$week=fator(w$week);w=na.omit(w)library(REEMtree)a<-REEMtree(hamd~week,data=w,random=~week|id)print(a);plot(a)“決策樹及隨機(jī)效應(yīng)模型”,使得建模的靈活性大大增加。32程序運(yùn)行結(jié)果,將給出決策樹的細(xì)節(jié)及隨機(jī)部分的有關(guān)協(xié)方差和方差。程序運(yùn)行結(jié)果,將給出決策樹的細(xì)節(jié)33
謝謝!
34決策樹及隨機(jī)效應(yīng)模型
張文超2014/05/07決策樹及隨機(jī)效應(yīng)模型35基本概念決策樹模型的建立決策樹與判別函數(shù)的比較計(jì)算方法決策樹及隨機(jī)效應(yīng)模型R軟件包應(yīng)用基本概念3610.1決策樹是同時(shí)提供分類的預(yù)測的常用方法決策樹的數(shù)據(jù)分析是一種樹形結(jié)構(gòu)來表現(xiàn)數(shù)據(jù)各變量影響程度的預(yù)測模型,利用樹上各級節(jié)點(diǎn)分支自動(dòng)確認(rèn)和評估各個(gè)類別。決策樹能從一個(gè)或多個(gè)預(yù)測變量中,針對類別因變量的選項(xiàng),預(yù)測出個(gè)例的趨勢變化關(guān)系等,也可以由結(jié)果反推原因。10.1決策樹是同時(shí)提供分類的預(yù)測的常用方法37決策樹是同時(shí)提供分類與預(yù)測的常用方法。通過一系列的選擇將數(shù)據(jù)分類,可由落入相同結(jié)點(diǎn)的路徑上的規(guī)則集來推測相同的結(jié)果。決策樹的主要功能是由已知分類的個(gè)體來建立決策樹和相應(yīng)的決策規(guī)則。與神經(jīng)網(wǎng)絡(luò)不同,決策樹產(chǎn)生的決策規(guī)則可用文字或數(shù)字來表達(dá)?。決策樹是同時(shí)提供分類與預(yù)測的常用方法。通過一系列的選擇將數(shù)據(jù)38常用的決策樹方法有CHAID(chaid)以及CART(cart)CHAID(卡方自動(dòng)交互檢測法)決策樹只限于處理分類變量,如果是連續(xù)變量必須采用區(qū)段的方式,先轉(zhuǎn)換數(shù)據(jù)為類別變量,才可以使用。常用的決策樹方法有CHAID(chaid)以及CART(ca39CHAID決策樹的基本步驟如下:(1)對每個(gè)變量都計(jì)算其所有可能的分割點(diǎn),并找出一個(gè)最佳分割點(diǎn)。
(2)比較各預(yù)測變量在“最佳分割方式”下的組間方差,然后找出一個(gè)組間方差最大的變量,即為最佳預(yù)測變量。(3)用最佳預(yù)測變量的最佳分割方式把原始數(shù)據(jù)分成兩組(4)將分割后的每一組作為樣本,重復(fù)前述分割步驟(5)重復(fù)分割,直到所有變量都被用完為止。CHAID決策樹的基本步驟如下:(1)對每個(gè)變量都計(jì)算其所有4010.2決策樹模型的建立針對分類預(yù)測變量,計(jì)算以單變量分裂為基礎(chǔ)的二元決策樹針對順序預(yù)測變量,計(jì)算以單變量分裂為基礎(chǔ)的二元決策樹(至少為順序尺度類型的變量)混合兩類方法的預(yù)測變量計(jì)算以單變量分裂為基礎(chǔ)的二元決策樹。10.2決策樹模型的建立針對分類預(yù)測變量,計(jì)算以單變量分裂為4110.3決策樹與判別函數(shù)的比較決策樹與判別函數(shù)的比較如表10-1所示10.3決策樹與判別函數(shù)的比較決策樹與判別函數(shù)的比較如表104210.4計(jì)算方法—制定預(yù)測精確度的標(biāo)準(zhǔn)決策樹是要建立預(yù)測正確率最高的分類規(guī)則預(yù)測精度的定義,一般包含了成本的概念成本指的是個(gè)例被混合分類時(shí)的比例10.4計(jì)算方法—制定預(yù)測精確度的標(biāo)準(zhǔn)決策樹是要建立預(yù)測正確4310.4計(jì)算方法-先驗(yàn)概率如果研究中,各分類包含的個(gè)例數(shù)的比例相等或相近,或各類中的個(gè)例數(shù)目相等或相近,就可以選擇“相同先驗(yàn)概率”。如果不同分類的比例相差較大,以至于影響到分類數(shù),那么,可依據(jù)樣本中的分類比例來估計(jì)先驗(yàn)概率。如果針對基本比例有著經(jīng)驗(yàn)判斷,便可以給予不同的基本比例,并可將其歸類為先驗(yàn)概率如果設(shè)置相同的錯(cuò)誤分類成本,并且不以分類的個(gè)體比例作為權(quán)數(shù),那么錯(cuò)誤分類率是相同的。10.4計(jì)算方法-先驗(yàn)概率如果研究中,各分類包含的個(gè)例數(shù)的4410.4計(jì)算方法-選擇分裂(分層)技術(shù)分層技術(shù)比較如表10-2所示10.4計(jì)算方法-選擇分裂(分層)技術(shù)分層技術(shù)比較如表10-4510.4計(jì)算方法-定義停止分層的時(shí)點(diǎn)在決策樹模塊中,提供兩個(gè)選項(xiàng)可以控制停止分裂(分層)的時(shí)間點(diǎn):(1)取小n(最終節(jié)點(diǎn)中所包含的個(gè)例數(shù))(2)設(shè)置對象的片段10.4計(jì)算方法-定義停止分層的時(shí)點(diǎn)在決策樹模塊中,提供兩4610.4計(jì)算方法-選擇適當(dāng)大小的決策樹在一般化的分割過程中,需要確定決策樹的適當(dāng)規(guī)模決策樹模塊可提供幾種不同的選取適當(dāng)大小的策略,可擇一或同時(shí)使用。如表10-3所示。10.4計(jì)算方法-選擇適當(dāng)大小的決策樹在一般化的分割過程47決策樹及隨機(jī)效應(yīng)模型48
1.1決策樹
決策樹(DecisionTree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測模型,他代表的是對象屬性與對象值之間的一種映射關(guān)系。Entropy=系統(tǒng)的凌亂程度,使用算法ID3,
C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。決策樹是數(shù)據(jù)挖掘分類算法的一個(gè)重要方法。在各種分類算法中,決策樹是最直觀的一種。
1.1決策樹
決策樹(DecisionTree)是在已49
1.2組成
□——決策點(diǎn),是對幾種可能方案的選擇,即最后選擇的最佳方案。如果決策屬于多級決策,則決策樹的中間可以有多個(gè)決策點(diǎn),以決策樹根部的決策點(diǎn)為最終決策方案?!稹獱顟B(tài)節(jié)點(diǎn),代表備選方案的經(jīng)濟(jì)效果(期望值),通過各狀態(tài)節(jié)點(diǎn)的經(jīng)濟(jì)效果的對比,按照一定的決策標(biāo)準(zhǔn)就可以選出最佳方案。由狀態(tài)節(jié)點(diǎn)引出的分支稱為概率枝,概率枝的數(shù)目表示可能出現(xiàn)的自然狀態(tài)數(shù)目每個(gè)分枝上要注明該狀態(tài)出現(xiàn)的概率?!鳌Y(jié)果節(jié)點(diǎn),將每個(gè)方案在各種自然狀態(tài)下取得的損益值標(biāo)注于結(jié)果節(jié)點(diǎn)的右端。
1.2組成
□——決策點(diǎn),是對幾種可能方案的選擇,即最后選50決策樹及隨機(jī)效應(yīng)模型511.3畫法
機(jī)器學(xué)習(xí),決策樹是一個(gè)預(yù)測模型;他代表的是對象屬性與對象值之間的一種映射關(guān)系。樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對象,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。1.3畫法
機(jī)器學(xué)習(xí),決策樹是一個(gè)預(yù)測模型521.3畫法從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)習(xí),通俗說就是決策樹。一個(gè)決策樹包含三種類型的節(jié)點(diǎn):決策節(jié)點(diǎn):通常用矩形框來表式機(jī)會(huì)節(jié)點(diǎn):通常用圓圈來表式終結(jié)點(diǎn):通常用三角形來表示1.3畫法從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹學(xué)53決策樹學(xué)習(xí)也是資料探勘中一個(gè)普通的方法。在這里,每個(gè)決策樹都表述了一種樹型結(jié)構(gòu),它由它的分支來對該類型的對象依靠屬性進(jìn)行分類。每個(gè)決策樹可以依靠對源數(shù)據(jù)庫的分割進(jìn)行數(shù)據(jù)測試。這個(gè)過程可以遞歸式的對樹進(jìn)行修剪。當(dāng)不能再進(jìn)行分割或一個(gè)單獨(dú)的類可以被應(yīng)用于某一分支時(shí),遞歸過程就完成了。另外,隨機(jī)森林分類器將許多決策樹結(jié)合起來以提升分類的正確率。決策樹學(xué)習(xí)也是資料探勘中一個(gè)普通的方法。在這里,每個(gè)決策樹都54
決策樹同時(shí)也可以依靠計(jì)算條件概率來構(gòu)造。決策樹如果依靠數(shù)學(xué)的計(jì)算方法可以取得更加理想的效果。數(shù)據(jù)庫已如下所示:
(x,y)=(x1,x2,x3…,xk,y)相關(guān)的變量Y表示我們嘗試去理解,分類或者更一般化的結(jié)果。其他的變量x1,x2,x3等則是幫助我們達(dá)到目的的變量。
55
1.4決策樹的剪枝
剪枝是決策樹停止分支的方法之一,剪枝有分預(yù)先剪枝和后剪枝兩種。
預(yù)先剪枝是在樹的生長過程中設(shè)定一個(gè)指標(biāo),當(dāng)達(dá)到該指標(biāo)時(shí)就停止生長,這樣做容易產(chǎn)生“視界局限”,就是一旦停止分支,使得節(jié)點(diǎn)N成為葉節(jié)點(diǎn),就斷絕了其后繼節(jié)點(diǎn)進(jìn)行“好”的分支操作的任何可能性。不嚴(yán)格的說這些已停止的分支會(huì)誤導(dǎo)學(xué)習(xí)算法,導(dǎo)致產(chǎn)生的樹不純度降差最大的地方過分靠近根節(jié)點(diǎn)。
1.4決策樹的剪枝
剪枝是決策樹停止分支的56
1.4決策樹的剪枝
后剪枝中樹首先要充分生長,直到葉節(jié)點(diǎn)都有最小的不純度值為止,因而可以克服“視界局限”。然后對所有相鄰的成對葉節(jié)點(diǎn)考慮是否消去它們,如果消去能引起令人滿意的不純度增長,那么執(zhí)行消去,并令它們的公共父節(jié)點(diǎn)成為新的葉節(jié)點(diǎn)。這種“合并”葉節(jié)點(diǎn)的做法和節(jié)點(diǎn)分支的過程恰好相反,經(jīng)過剪枝后葉節(jié)點(diǎn)常常會(huì)分布在很寬的層次上,樹也變得非平衡。后剪枝技術(shù)的優(yōu)點(diǎn)是克服了“視界局限”效應(yīng),而且無需保留部分樣本用于交叉驗(yàn)證,所以可以充分利用全部訓(xùn)練集的信息。但后剪枝的計(jì)算量代價(jià)比預(yù)剪枝方法大得多,特別是在大樣本集中,不過對于小樣本的情況,后剪枝方法還是優(yōu)于預(yù)剪枝方法的。
1.4決策樹的剪枝
后剪枝中樹首先要充分生長,直到571.5實(shí)例為了適應(yīng)市場的需要,某地準(zhǔn)備擴(kuò)大電視機(jī)生產(chǎn)。市場預(yù)測表明:產(chǎn)品銷路好的概率為0.7;銷路差的概率為0.3。備選方案有三個(gè):第一個(gè)方案是建設(shè)大工廠,需要投資600萬元,可使用10年;如銷路好,每年可贏利200萬元;如銷路不好,每年會(huì)虧損40萬元。第二個(gè)方案是建設(shè)小工廠,需投資280萬元;如銷路好,每年可贏利80萬元;如銷路不好,每年也會(huì)贏利60萬元。第三個(gè)方案也是先建設(shè)小工廠,但是如銷路好,3年后擴(kuò)建,擴(kuò)建需投資400萬元,可使用7年,擴(kuò)建后每年會(huì)贏利190萬元。
1.5實(shí)例為了適應(yīng)市場的需要,某地準(zhǔn)備擴(kuò)大電視機(jī)生產(chǎn)。市場預(yù)581.5實(shí)例各點(diǎn)期望:點(diǎn)②:0.7×200×10+0.3×(-40)×10-600(投資)=680(萬元)決策樹分析點(diǎn)⑤:1.0×190×7-400=930(萬元)點(diǎn)⑥:1.0×80×7=560(萬元)比較決策點(diǎn)4的情況可以看到,由于點(diǎn)⑤(930萬元)與點(diǎn)⑥(560萬元)相比,點(diǎn)⑤的期望利潤值較大,因此應(yīng)采用擴(kuò)建的方案,而舍棄不擴(kuò)建的方案。把點(diǎn)⑤的930萬元移到點(diǎn)4來,可計(jì)算出點(diǎn)③的期望利潤值。點(diǎn)③:0.7×80×3+0.7×930+0.3×60×(3+7)-280=719(萬元)最后比較決策點(diǎn)1的情況。由于點(diǎn)③(719萬元)與點(diǎn)②(680萬元)相比,點(diǎn)③的期望利潤值較大,因此取點(diǎn)③而舍點(diǎn)②。這樣,相比之下,建設(shè)大工廠的方案不是最優(yōu)方案,合理的策略應(yīng)采用前3年建小工廠,如銷路好,后7年進(jìn)行擴(kuò)建的方案。1.5實(shí)例各點(diǎn)期望:59決策樹及隨機(jī)效應(yīng)模型60決策樹模型與回歸模型在天津市某區(qū)公務(wù)員
健康狀況分析中的應(yīng)用與比較應(yīng)用SAS8.2Enter
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)書丟了咋辦
- 英語教改課題申報(bào)書
- 國家課題項(xiàng)目申報(bào)書
- 新課標(biāo)相關(guān)課題申報(bào)書
- 合同范本號和合同編號
- 加工承攬合同范本格式
- 青年生育意愿課題申報(bào)書
- 員工店鋪勞務(wù)合同范本
- 化工用消泡劑采購合同范例
- 低價(jià)出售二手叉車合同范本
- 2025人教版一年級下冊數(shù)學(xué)教學(xué)進(jìn)度表
- DeepSeek教案寫作指令
- 2025年安徽省合肥熱電集團(tuán)招聘50人歷年高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 休學(xué)復(fù)學(xué)申請書
- 北京2025年02月北京市地質(zhì)礦產(chǎn)勘查院所屬事業(yè)單位公開招考工作人員筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- DeepSeek零基礎(chǔ)到精通手冊(保姆級教程)
- 煤礦監(jiān)測監(jiān)控培訓(xùn)
- 瓷磚鋪貼勞務(wù)承包協(xié)議書
- 2025年四川司法警官職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 新建污水處理廠工程EPC總承包投標(biāo)方案(技術(shù)標(biāo))
- 柔性電路板自動(dòng)化制造-深度研究
評論
0/150
提交評論