決策樹(shù)及SSS實(shí)現(xiàn)_第1頁(yè)
決策樹(shù)及SSS實(shí)現(xiàn)_第2頁(yè)
決策樹(shù)及SSS實(shí)現(xiàn)_第3頁(yè)
決策樹(shù)及SSS實(shí)現(xiàn)_第4頁(yè)
決策樹(shù)及SSS實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章決策樹(shù)分析DecisionTreeAnalysis1決策樹(shù)分析簡(jiǎn)介決策樹(shù)基本觀念三種研究方法其他決策樹(shù)的變化決策樹(shù)的優(yōu)、缺點(diǎn)2決策樹(shù)是功能強(qiáng)大且相當(dāng)受歡迎的分類(lèi)和預(yù)測(cè)工具。這項(xiàng)以樹(shù)狀圖為基礎(chǔ)的方法,其吸引人之處在於決策樹(shù)具有規(guī)則,和類(lèi)神經(jīng)網(wǎng)路不同。規(guī)則可以用文字來(lái)表達(dá),讓人類(lèi)了解,或是轉(zhuǎn)化為SQL之類(lèi)的資料庫(kù)語(yǔ)言,讓落在特定類(lèi)別的資料紀(jì)錄可以被搜尋。在本章中,我們先介紹決策樹(shù)運(yùn)作的方式及其如何應(yīng)用在分類(lèi)和預(yù)測(cè)問(wèn)題。隨後我們進(jìn)一步介紹如何以CART、C4.5和CHAID演算法建構(gòu)決策樹(shù)。

簡(jiǎn)介3決策樹(shù)如何運(yùn)作:『二十個(gè)問(wèn)題』(TwentyQuestions)這個(gè)遊戲,一定可以輕易了解決策樹(shù)將資料分類(lèi)的方式。在遊戲中,一個(gè)玩家先想好所有參加者都有知道的一個(gè)特定地點(diǎn),人物或事物,其他玩家藉著提出一堆『是或不是』的問(wèn)題,來(lái)找出答案。一個(gè)決策樹(shù)代表一系列這類(lèi)問(wèn)題。在遊戲中,第一個(gè)問(wèn)題的答案決定了下一個(gè)問(wèn)題。如果謹(jǐn)慎選擇問(wèn)題,只要短短幾次詢(xún)問(wèn)就可以將後來(lái)的資料正確分類(lèi)。決策樹(shù)基本觀念4以『二十個(gè)問(wèn)題』的方法顯示樂(lè)器的分類(lèi)。

決策樹(shù)基本觀念5一筆資料從根部的節(jié)點(diǎn)進(jìn)入決策樹(shù)。在根部,應(yīng)用一項(xiàng)測(cè)驗(yàn)來(lái)決定這筆資料該進(jìn)入下一層的哪一個(gè)子節(jié)點(diǎn)(childnode)。選擇一開(kāi)始的測(cè)驗(yàn)有不同的演算法,但目的都是一樣的:這個(gè)過(guò)程一再重複,直到資料到達(dá)葉部節(jié)點(diǎn)(leafnode)。從根部到每一個(gè)葉部都有一套獨(dú)特的路徑,這個(gè)路徑就是用來(lái)分類(lèi)資料規(guī)則的一種表達(dá)方式。決策樹(shù)基本觀念6決策樹(shù)的多種形式:

決策樹(shù)基本觀念7某些規(guī)則比其他規(guī)則好:我們將一個(gè)決策樹(shù)應(yīng)用在一個(gè)前所未有的資料集合上,並觀察其分類(lèi)正確的比率,來(lái)衡量這個(gè)決策樹(shù)的有效程度。

對(duì)決策樹(shù)的每一個(gè)節(jié)點(diǎn),我們可以如此衡量:●進(jìn)入這個(gè)節(jié)點(diǎn)的資料數(shù)目?!袢绻且粋€(gè)葉部節(jié)點(diǎn),可觀察資料分類(lèi)的方式?!襁@個(gè)節(jié)點(diǎn)將資料正確分類(lèi)的比率。決策樹(shù)基本觀念8

藉由將資料分到正確類(lèi)別的情況,我們可以驗(yàn)證出建構(gòu)決策樹(shù)的最佳演算法。第四章中的電影迷資料庫(kù)。受測(cè)者被要求回答他們的年齡,性別,最??吹碾娪埃约白罱催^(guò)的電影片名。然後我們使用決策樹(shù)程式來(lái)創(chuàng)造規(guī)則,以受測(cè)者在問(wèn)卷中其他問(wèn)題的答案來(lái)找出該名受測(cè)者的性別。

下表顯示這個(gè)節(jié)點(diǎn)共有11筆資料被歸類(lèi)其下,其中九個(gè)是正確的(女性),還有兩個(gè)男性被誤分到這裡。換言之,這項(xiàng)規(guī)則的錯(cuò)誤率為0.182決策樹(shù)基本觀念9決策樹(shù)基本觀觀念10決策樹(shù)基本觀觀念yearplacemovielastlikesexpred.594231FF432112FF432130FF4512563MF451252FF4512526FF461262FF45232111FF493163MF4512563FF4523217FF11決策樹(shù)基本觀觀念決策樹(shù)創(chuàng)造資資料箱:雖然樹(shù)狀圖和和『二十個(gè)問(wèn)問(wèn)題』類(lèi)推法法有助於呈現(xiàn)現(xiàn)決策樹(shù)方法法的某些特質(zhì)質(zhì),但作者發(fā)發(fā)現(xiàn),在某些些情況下,基基於不同表現(xiàn)現(xiàn)方式的箱形圖(boxdiagram)更加清楚明白白。一個(gè)決策樹(shù)創(chuàng)創(chuàng)造一系列盒盒子或箱子,,我們可以將將資料丟進(jìn)去去。任何樹(shù)狀狀圖的葉部節(jié)節(jié)點(diǎn)形成一個(gè)個(gè)一維式箱形形圖。和決策策樹(shù)根部節(jié)點(diǎn)點(diǎn)有關(guān)的測(cè)試試將下層分成成兩個(gè)或更多多部分。12決策樹(shù)基本觀觀念13決策樹(shù)基本觀觀念決策樹(shù)的根部部擴(kuò)大成資料料箱:●資料箱的寬寬度可以有變變化,以顯示示一筆資料落落在特定箱中的的相對(duì)可能性性?!襁@個(gè)圖形可可以換成一個(gè)個(gè)直條圖(histogram),每一個(gè)直條的的高度顯示落落在對(duì)應(yīng)箱中中的資料數(shù)目。這類(lèi)直條條圖可以使用用直條的頻色色或形狀來(lái)顯示對(duì)應(yīng)規(guī)則則的錯(cuò)誤率。。●單一資料可可以根據(jù)輸出出變數(shù)的數(shù)值值,用有色的的球形或點(diǎn)狀來(lái)來(lái)代表。這樣樣可以立即顯顯示這套分類(lèi)系統(tǒng)的表現(xiàn)現(xiàn)。14決策樹(shù)基本觀觀念15決策樹(shù)基本觀觀念表現(xiàn)多維度:當(dāng)我們將資料料丟進(jìn)格子中中,它們落到到特定的層內(nèi)內(nèi)並以此分類(lèi)類(lèi)。一個(gè)層形形圖讓我們一一目了然的見(jiàn)見(jiàn)到數(shù)層資料料的細(xì)節(jié)。在在下圖,我們們可以一眼看看出左下的格格子清一色都都是男性。仔仔細(xì)的看,我我們可以發(fā)現(xiàn)現(xiàn)某些層在分分類(lèi)上表現(xiàn)很很好,或是聚聚集了大量資資料。這和線線性,邏輯性性或二次差分分等傳統(tǒng)的統(tǒng)統(tǒng)計(jì)分類(lèi)方法法試圖在資料料空間中劃上上一條直線或或弧線將資料料分層的方式式大不相同。。16決策樹(shù)樹(shù)基本本觀念念17決策樹(shù)樹(shù)基本本觀念念這是一一種基基本上上的差差異::當(dāng)一一筆資資料有有多種種非常常不同同的方方法使使其成成為目目標(biāo)類(lèi)類(lèi)別的的一部部份時(shí)時(shí),使使用單單一線線條來(lái)來(lái)找出出類(lèi)別別間界界線的的統(tǒng)計(jì)計(jì)方法法效力力會(huì)很很弱。。例如如,在在信用用卡產(chǎn)產(chǎn)業(yè),,很多多種持持卡人人都讓讓發(fā)卡卡根行行有利利可圖圖。某某些持持卡人人每次次繳款款的金金額不不高,,但他他們欠欠繳金金額很很高時(shí)時(shí),卻卻又不不會(huì)超超過(guò)額額度;還有有一種種持卡卡人每每月都都繳清清帳款款,但但他們們交易易金額額很高高,因因此發(fā)發(fā)卡銀銀行還還是可可以賺賺到錢(qián)錢(qián)。這這兩種種非常常不同同的持持卡人人可能能為發(fā)發(fā)卡銀銀行帶帶來(lái)同同樣多多的收收益。。在下下圖中中,我我們將將顥示示在這這種分分類(lèi)問(wèn)問(wèn)題上上,決決策樹(shù)樹(shù)超越越純粹粹統(tǒng)計(jì)計(jì)方法法的優(yōu)優(yōu)點(diǎn)。。18決策樹(shù)樹(shù)基本本觀念念19分類(lèi)與與迴歸歸樹(shù)(CART)分類(lèi)與與迴歸歸樹(shù)(ClassificationAndRegressionTree,CART))CART演演算法法是建建構(gòu)決決策樹(shù)樹(shù)時(shí)最最常用用的演演算法法之一一。自自從119884年年布里里曼((L.Brieman)與與其同同僚發(fā)發(fā)表這這種方方法以以來(lái),,就一一直機(jī)機(jī)械學(xué)學(xué)習(xí)實(shí)實(shí)驗(yàn)的的要素素。20分類(lèi)與與迴歸歸樹(shù)(CART)21分類(lèi)與與迴歸歸樹(shù)(CART)numbers22分類(lèi)與與迴歸歸樹(shù)(CART)找出起起始的的分隔隔:在過(guò)程程中的的一開(kāi)開(kāi)始,,我們們有一一個(gè)預(yù)預(yù)先分分類(lèi)好好的訓(xùn)訓(xùn)練和和資料料。預(yù)預(yù)先分分類(lèi)意意味輸輸出變變數(shù),,或稱(chēng)稱(chēng)依變變數(shù),,具備備一個(gè)個(gè)己知知的類(lèi)類(lèi)別。。CART藉著著一個(gè)個(gè)單一一輸入入變數(shù)數(shù)函數(shù)數(shù),在在每一一個(gè)節(jié)節(jié)點(diǎn)分分隔資資料,,以建建構(gòu)一一個(gè)二二分式式?jīng)Q策策樹(shù)。。因此此,第第一的的任務(wù)務(wù)是決決定哪哪一個(gè)個(gè)自變變數(shù)可可以成成最好好的分分隔變變數(shù)。。最好好分隔隔的定定義是是能夠夠?qū)①Y資料最最完善善的分分配到到一個(gè)個(gè)單一一類(lèi)別別支配配的群群體。。23分類(lèi)與迴歸樹(shù)樹(shù)(CART))找出起始的分分隔:用來(lái)評(píng)估一個(gè)個(gè)分隔數(shù)的衡衡量標(biāo)準(zhǔn)是分分散度(diversity)。對(duì)對(duì)於一組資料料的『分散度度指標(biāo)』(indexofdiversity)有多多種計(jì)算方式式。不論哪一一種,分散度度指標(biāo)很高,,表示這個(gè)組組合中包含平平均分配到多多個(gè)類(lèi)別,而而分散度指標(biāo)標(biāo)很低則表示示一個(gè)單一類(lèi)類(lèi)別的成員居居優(yōu)勢(shì)。24分類(lèi)與迴歸樹(shù)樹(shù)(CART))找出起始的分分隔:最好的分隔變變數(shù)是能夠降降低一個(gè)資料料組的分散度度,而且降得得最多。換言言之,我們希希望以下這個(gè)個(gè)式子最大化化:分散度(分隔隔前)-﹝分分散度(分隔隔後左邊子集集合)+分散度度(分隔後右右邊子集合))﹞三分種分散度度衡量法:min{P(c1),P(c2)}2P(c1)P(c2)〔P(c1)logP(c1)〕〕+〔P(c2)logP(c2)〕25分類(lèi)與迴歸樹(shù)樹(shù)(CART))當(dāng)各類(lèi)別出現(xiàn)現(xiàn)的機(jī)率相等等時(shí),以上的的三個(gè)函數(shù)會(huì)會(huì)出現(xiàn)最大值值,當(dāng)資料組組中只包含單單一類(lèi)別時(shí),,函數(shù)值則為為零。在完全全分散和完全全聚集的兩個(gè)個(gè)極端之間,,這些函數(shù)有有些微不同的的型態(tài)。為了在一個(gè)節(jié)節(jié)點(diǎn)中選擇最最佳分隔變數(shù)數(shù),我們依次次考量每一個(gè)個(gè)自變數(shù)。假假設(shè)這個(gè)變數(shù)數(shù)遇上多個(gè)數(shù)數(shù)值,我們進(jìn)進(jìn)行二分式研研究,希望找找出降低分散散度最多的最最佳分隔法。。我們從每個(gè)個(gè)變數(shù)中找出出最能降低分分散度的最佳佳分隔變數(shù),,勝利者就被被選為根節(jié)點(diǎn)點(diǎn)的分隔變數(shù)數(shù)。26分類(lèi)與迴歸樹(shù)樹(shù)(CART))培養(yǎng)出整棵樹(shù)樹(shù):一開(kāi)始的分隔隔製造出兩個(gè)個(gè)節(jié)點(diǎn),現(xiàn)在在我們?cè)僖苑址指舾?jié)點(diǎn)的的方法將每個(gè)個(gè)節(jié)點(diǎn)予以分分隔。再一次次,我們檢視視所有輸入變變數(shù),找出雀雀屏中選的分分隔變數(shù)。如如果這個(gè)變數(shù)數(shù)只遇上一個(gè)個(gè)數(shù)值,我們們就將其排除除,因?yàn)樗鼰o(wú)無(wú)法被用來(lái)創(chuàng)創(chuàng)造一個(gè)分隔隔。一個(gè)類(lèi)別變數(shù)數(shù)若被用來(lái)作作為決策樹(shù)中中較高層的分分隔變數(shù)時(shí),,比較有可能能很快的變成成單一數(shù)值化化。對(duì)每一個(gè)個(gè)剩下的變數(shù)數(shù)最好的分隔隔就確定了。。當(dāng)我們無(wú)法法找到任何分分隔可以顯著著降低一個(gè)節(jié)節(jié)點(diǎn)的分散度度,我們就將將其標(biāo)示為葉葉部節(jié)點(diǎn)。到到了最後,存存在的只剩下下葉部節(jié)點(diǎn),,而我們也完完成決策樹(shù)。。27分類(lèi)與迴歸樹(shù)樹(shù)(CART))計(jì)算每個(gè)節(jié)點(diǎn)點(diǎn)的錯(cuò)誤率::每一個(gè)葉部如如今都分配到到一個(gè)類(lèi)別以以及一個(gè)錯(cuò)誤誤率。回顧前前圖,圖中選選取了從根部部到標(biāo)示為『『女性』的葉葉部路徑。該該節(jié)點(diǎn)是一個(gè)個(gè)葉部節(jié)點(diǎn),,表示找不到到任何分隔變變數(shù)可以顯著著的降低其分分散性。然而而,這並不表表示所有祗達(dá)達(dá)這個(gè)葉部的的資料都屬於於同一類(lèi)。使使用簡(jiǎn)單機(jī)率率的定義,我我們可以看到到11個(gè)葉部部中有9個(gè)是是正確分類(lèi)。。這告訴我們們,以這個(gè)訓(xùn)訓(xùn)練組而言,,抵達(dá)這個(gè)節(jié)節(jié)點(diǎn)的資料是是女性的機(jī)率率為0.818。相對(duì)的的,這個(gè)葉部部的錯(cuò)誤率1-0.818就是0.812。28分類(lèi)與迴歸樹(shù)樹(shù)(CART))計(jì)算整個(gè)決策策樹(shù)的錯(cuò)誤率率:整個(gè)決策樹(shù)的的錯(cuò)誤率是所所有葉部錯(cuò)誤誤率的加權(quán)總總數(shù)。每一個(gè)個(gè)葉部的錯(cuò)誤誤率乘上資料料抵達(dá)葉部的的機(jī)率(分配配到資料的比比例),加起起來(lái)的總數(shù)就就是整個(gè)決策策樹(shù)的錯(cuò)誤率率。29分類(lèi)與迴歸歸樹(shù)(CART)修剪決策樹(shù)樹(shù):只要能發(fā)現(xiàn)現(xiàn)新的分隔隔,改善決決策樹(shù)將訓(xùn)訓(xùn)練組資料料分類(lèi)的能能力,決策策樹(shù)就會(huì)繼繼續(xù)成長(zhǎng)。。如果我們?cè)囋噲D預(yù)測(cè)身身高,而我我們來(lái)到一一個(gè)節(jié)點(diǎn),,包含一個(gè)個(gè)名叫馬丁丁的高個(gè)子子,和幾個(gè)個(gè)比較矮的的人,我們們可以訂出出一個(gè)新規(guī)規(guī)則『名叫叫馬丁的人人是高個(gè)子子』,來(lái)降降低分散度度。這個(gè)規(guī)規(guī)則有助於於將訓(xùn)練資資料分類(lèi),,但如果在在更寬廣的的世界上,,馬丁是一一個(gè)很少見(jiàn)見(jiàn)的名,而而且這個(gè)名名字和身高高又沒(méi)有特特別的關(guān)連連,那麼這這個(gè)規(guī)則比比沒(méi)用還糟糟糕。30分類(lèi)與迴歸歸樹(shù)(CART)修剪決策樹(shù)樹(shù):下圖顯示出出會(huì)發(fā)的狀狀況。圖中中的箱子變變得很小,,而且每一一個(gè)都不大大,只容得得下訓(xùn)組資資料,不太太可能再容容納新資料料。很顯的的。我們需需要修剪這這個(gè)決策樹(shù)樹(shù)以便在一一般性的案案例中獲得得更正確的的預(yù)測(cè)。問(wèn)問(wèn)題是要決決定該倒推推回去修剪剪多少,以以及這些分分支的決策策樹(shù)中哪些些表現(xiàn)很好好。31分類(lèi)與迴歸歸樹(shù)(CART)32分類(lèi)與迴歸歸樹(shù)(CART)確認(rèn)入選的的分支決策策樹(shù):我們的目標(biāo)標(biāo)是首先將將提供最少少額外預(yù)測(cè)測(cè)能力的分分支先修剪剪掉。為了了確認(rèn)這些些最沒(méi)用的的分支,我我們引入一一個(gè)決策樹(shù)樹(shù)的『調(diào)節(jié)節(jié)錯(cuò)誤率』』(adjusterrorrate)的的觀念。這這是一種衡衡量方法,,逐一檢視視每一個(gè)葉葉部,確認(rèn)認(rèn)最弱勢(shì)的的分支(那那些無(wú)法有有效降低整整棵決策樹(shù)樹(shù)錯(cuò)誤率的的分支),,然後將它它們標(biāo)示出出來(lái)加以修修剪33分類(lèi)與迴歸歸樹(shù)(CART)34分類(lèi)與迴歸歸樹(shù)(CART)35分類(lèi)與迴歸歸樹(shù)(CART)評(píng)估分支樹(shù)樹(shù):最後工作是是從入選的的分支樹(shù)中中選出最能能分類(lèi)新資資料的決策策樹(shù)。為達(dá)達(dá)到此目的的,我們使使用第二個(gè)個(gè)預(yù)先分好好的資料組組,即『測(cè)測(cè)試組資料料』(testset)。。測(cè)試組和和訓(xùn)練組來(lái)來(lái)自同一群群母體,但但包含的資資料不同。。入選分支支樹(shù)中每一一個(gè)都被用用來(lái)分類(lèi)測(cè)測(cè)試組資,,得出最低低的整體錯(cuò)錯(cuò)誤率的就就是勝利者者。36分類(lèi)與迴歸歸樹(shù)(CART)評(píng)估最佳的的分支樹(shù)::最後工作是是從利用第第三組資料料,將測(cè)試試組和訓(xùn)練練組打散,,即『評(píng)估估組資料』』(evaluationset)。入選選分支樹(shù)應(yīng)應(yīng)用在評(píng)估估組所得出出的錯(cuò)誤率率,來(lái)預(yù)期期這個(gè)分支支樹(shù)在未經(jīng)經(jīng)分類(lèi)的資資料上使用用時(shí)的錯(cuò)誤誤率。37分類(lèi)與迴歸歸樹(shù)(CART)將代價(jià)列入入考量:我們討論至至此,只使使用錯(cuò)誤率率作為評(píng)估估一個(gè)分支支樹(shù)良莠的的依據(jù)。然然而,在許許多應(yīng)用上上,錯(cuò)誤分分類(lèi)的代價(jià)價(jià)依資料類(lèi)類(lèi)別不同而而有異。當(dāng)然在醫(yī)療療診斷上,,一個(gè)錯(cuò)誤誤的陰性診診斷(negative)也也許會(huì)比錯(cuò)錯(cuò)誤的陽(yáng)性性診斷(positive))傷害更大大。在進(jìn)行行癌癥抹片片檢查時(shí),,誤診為性性也許只會(huì)會(huì)帶來(lái)更多多的檢查,,但誤診為為陰性卻可可能讓病情情惡化。我我們可以把把問(wèn)題列入入考量,以以一個(gè)使用用加權(quán)方式式將錯(cuò)誤分分類(lèi)的機(jī)率率加倍的代代價(jià)函數(shù),,來(lái)取代錯(cuò)錯(cuò)誤率。38C4.5C4.5是是最新出現(xiàn)現(xiàn)的決策樹(shù)樹(shù)演算法的的速成法,,是澳州研研究者昆蘭蘭(J.RossQuinlan)多年努努力成果。。與CART差異:培養(yǎng)決策樹(shù)樹(shù):C4.5與與CART之間的第第一個(gè)差異異是CART在每一一個(gè)節(jié)點(diǎn)都都呈現(xiàn)二分分法,因此此產(chǎn)生二分分式?jīng)Q策樹(shù)樹(shù),而C4.5則在在每一個(gè)節(jié)節(jié)點(diǎn)產(chǎn)不同同數(shù)目的分分支。這是是因?yàn)镃4.5對(duì)持持續(xù)性變項(xiàng)項(xiàng)的處理方方式和CART相當(dāng)當(dāng)類(lèi)似,但但對(duì)類(lèi)別變變項(xiàng)的處理理就相當(dāng)不不同。39C4.5修剪決策樹(shù)樹(shù):CART使使用決策樹(shù)樹(shù)的分散度度為度量,,來(lái)標(biāo)記不不同的分支支樹(shù),然後後以沒(méi)有見(jiàn)見(jiàn)過(guò)的預(yù)先先分類(lèi)好的的資料(測(cè)測(cè)試組)來(lái)來(lái)測(cè)試這些些分支樹(shù)。。相反的,,C4.5並不參考考其他資料料,嘗試以以只用訓(xùn)練練資料的情情況下來(lái)修修剪決策樹(shù)樹(shù)。因此,,C4.5使用建構(gòu)構(gòu)決策樹(shù)的的相同資料料來(lái)決定該該如何加以以修剪。40C4.5從決策樹(shù)到到規(guī)則:我們可以在在不改變分分類(lèi)行為的的前提下藉藉著合併到到葉部的路路徑來(lái)向這這個(gè)目標(biāo)走走出第一步步。下圖的的決策樹(shù)部部分得出以以下的規(guī)則則:看球賽加上上地主隊(duì)獲獲勝加上跟跟朋友出門(mén)門(mén),就會(huì)得得出啤酒。看球賽加上上地主隊(duì)獲獲勝加上待待在家裡,,就會(huì)得出出健怡汽水。看球賽加上上地主隊(duì)輸輸球加上跟跟朋友出門(mén)門(mén),就會(huì)得得出啤酒??辞蛸惣由仙系刂麝?duì)輸輸球加上待待在家裡,,就會(huì)得出出牛奶。41C4.542CHAIDCHAID是是哈根(J.A.Hartigan)在1975年率先先提出的演算算法,這是本本章所討論的的最古老的演演算法。這也也是最受到廣廣泛使用的演演算法,因?yàn)闉樗S著SPSS和SAS等受歡迎迎的統(tǒng)計(jì)軟體體流通。CHAID是從從更早的一套套自動(dòng)互動(dòng)偵偵測(cè)系統(tǒng)AID衍生而來(lái)來(lái),後者是摩摩根(J.A.Morgan)與與桑奎斯特(J.N.Sonquist)在在1963年年提出。43CHAIDCHAID與與C4.5及及CART的的差異:CHAID和和C4.5及及CART兩兩種演算法的的最大差異在在於,後兩者者先過(guò)度套用用資料,再加加以修剪,而而CHAID嘗試在過(guò)度度套用的情況況發(fā)生之前就就讓決策樹(shù)停停止蔓生擴(kuò)大大。另一個(gè)差異是是CHAID只限於類(lèi)別別變數(shù)使用,,連續(xù)變數(shù)必必須被區(qū)隔成成幾個(gè)區(qū)段範(fàn)範(fàn)圍,或是以以高,中,低低等類(lèi)別來(lái)取取代。44CHAID培養(yǎng)決策樹(shù)::如同其他兩種種方法,CHAID演算算利用輸入變變數(shù)找出一個(gè)個(gè)方法,將訓(xùn)訓(xùn)練組資料分分隔成兩個(gè)或或兩個(gè)以上子子節(jié)點(diǎn)。這些些子節(jié)點(diǎn)被選選擇的方式是是輸出變數(shù)遇遇上某個(gè)特定定數(shù)值的機(jī)率率隨著節(jié)點(diǎn)不不同而有所差差異。45CHAID選擇分隔變數(shù)數(shù):經(jīng)過(guò)第一步驟驟之後,我們們得出以下的的表:46CHAID杏仁燒魚(yú),鮪鮪魚(yú)沙拉,生生魚(yú)片魚(yú)肉鵝肝醬,水牛牛城雞翅,碎碎雞肝禽肉牛腰肉,麥香香堡,罐頭牛牛肉,碎羊肉肉紅肉47CHAID重新分隔類(lèi)別別:第一步無(wú)法在在輸出數(shù)上產(chǎn)產(chǎn)生顯著統(tǒng)計(jì)計(jì)差異的所有有預(yù)測(cè)變都被被合併。第二二步,三個(gè)或或更多的預(yù)測(cè)測(cè)變數(shù)群組以以二分法被重重新分隔。如如果這些分隔隔之中任何一一個(gè)可以產(chǎn)生生統(tǒng)計(jì)上顯著著差異的結(jié)果果,就就被保保留??ǚ椒治?chi-squared)這是對(duì)對(duì)應(yīng)於CHAID的前兩兩個(gè)字母縮寫(xiě)寫(xiě)。48CHAID評(píng)鑑入選分隔隔變數(shù):一旦每一個(gè)分分隔變數(shù)都被被分類(lèi),在輸輸出變數(shù)上產(chǎn)產(chǎn)生最大的類(lèi)類(lèi)別差異,就就對(duì)這項(xiàng)結(jié)果果使用卡方分分析檢驗(yàn)。根根據(jù)檢驗(yàn),能能夠產(chǎn)生最大大差異分類(lèi)的的預(yù)測(cè)變數(shù),,就被選為當(dāng)當(dāng)前這個(gè)節(jié)點(diǎn)點(diǎn)的分隔變數(shù)數(shù)。49CHAID限制決策樹(shù)的的成長(zhǎng):在CHAID演算法中,,決策樹(shù)持續(xù)續(xù)成長(zhǎng),直到到再也沒(méi)有任任何區(qū)隔能在在分類(lèi)上達(dá)到到統(tǒng)計(jì)顯著性性差異為止。。50其他決策樹(shù)的的變化一次使用超過(guò)過(guò)一個(gè)變數(shù)::至今我們討論論的三個(gè)演算算法都是用在在測(cè)試單一變變項(xiàng)來(lái)形成每每一個(gè)分隔。。這個(gè)方法可可能會(huì)有一些些問(wèn)題。其中中之一會(huì)造成成決策樹(shù)擁有有超過(guò)我們所所需的節(jié)點(diǎn)。。額外的節(jié)點(diǎn)點(diǎn)會(huì)造成不便便,因?yàn)橹挥杏械竭_(dá)某一個(gè)個(gè)節(jié)點(diǎn)的訓(xùn)練練組資料有能能夠引發(fā)下一一層的分支樹(shù)樹(shù)。每一個(gè)節(jié)節(jié)點(diǎn)的案例越越少,得出的的分類(lèi)可靠性性就越低。為為了簡(jiǎn)化說(shuō)明明,我們假設(shè)設(shè)只有三個(gè)人人投票。51其他決策樹(shù)的的變化52其他決策樹(shù)的的變化我們將這個(gè)情情形當(dāng)成訓(xùn)練練資料,CART或其他他任何可以根根據(jù)單一屬性性的數(shù)值來(lái)分分隔建構(gòu)二分分法決策樹(shù)的的演算法,都都會(huì)建構(gòu)出下下圖的決策樹(shù)樹(shù)。這個(gè)決策策樹(shù)完美的將將訓(xùn)練組資料料分組,但需需要五個(gè)內(nèi)部部分隔節(jié)點(diǎn)。。若以邏輯和函函數(shù)來(lái)合併特特性形成結(jié)合合,我們就可可以獲得如下下圖那樣更簡(jiǎn)簡(jiǎn)化的決策樹(shù)樹(shù)。這個(gè)決策策樹(shù)顯示使用用變數(shù)結(jié)合能能獲得的另一一個(gè)潛在優(yōu)點(diǎn)點(diǎn)。這個(gè)決策策樹(shù)如今更能能夠表現(xiàn)分類(lèi)類(lèi)上顯示的無(wú)無(wú)異議的觀念念:『當(dāng)所有有投票人意見(jiàn)見(jiàn)一致,這項(xiàng)項(xiàng)決策就是無(wú)無(wú)異議。』53其他決策樹(shù)的的變化54其他決策樹(shù)的的變化55其他決策樹(shù)的的變化以機(jī)械學(xué)習(xí)研研究者的行話話來(lái)說(shuō),一個(gè)個(gè)看一眼就能能夠了解的決決策樹(shù),具有有方便理解的的性質(zhì)。機(jī)械械學(xué)習(xí)領(lǐng)域的的一些研究者者,非常強(qiáng)調(diào)調(diào)這個(gè)觀念,,但似乎只有有在這些學(xué)者者以一些小型型的,組織完完整的資料在在建構(gòu)他們的的研究時(shí),才才能獲得這樣樣完美的結(jié)果果。56讓超平面傾斜斜:傳統(tǒng)的決策樹(shù)樹(shù)檢驗(yàn)一個(gè)節(jié)節(jié)點(diǎn)的單一變變數(shù)值,只能能形成方形區(qū)區(qū)域。在一個(gè)個(gè)二維空間,,YN這種測(cè)試形形式,形成一一個(gè)由與Y軸軸垂直且與X軸平行的直直線所界定的的區(qū)域。藉由由選擇不同的的N值,我們們可以讓這條條直線上下移移動(dòng),但無(wú)法法改變其斜率率。同樣的,,在一個(gè)多維維的空

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論