計(jì)算機(jī)數(shù)學(xué)-樹_第1頁(yè)
計(jì)算機(jī)數(shù)學(xué)-樹_第2頁(yè)
計(jì)算機(jī)數(shù)學(xué)-樹_第3頁(yè)
計(jì)算機(jī)數(shù)學(xué)-樹_第4頁(yè)
計(jì)算機(jī)數(shù)學(xué)-樹_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Chapter六樹學(xué)目地六.二節(jié)掌握最小連接算法,會(huì)使用Kruskal算法與Prim算法求最小生成樹。六.一節(jié)理解樹地基本概念,樹地模型六.三節(jié)理解并掌握數(shù)據(jù)挖掘決策樹算法樹是圖論應(yīng)用最廣泛,最重要地子類之一。一八四七年,GustavKirchhoff(古斯塔夫?基爾霍夫,一八二四-一八八七)研究電網(wǎng)絡(luò)時(shí)發(fā)現(xiàn)了圖論地新應(yīng)用,在有關(guān)電網(wǎng)地著作首次使用了樹。后來(lái)ArthurCayley(亞瑟?凱雷,一八二一-一八九五)在有機(jī)化學(xué)領(lǐng)域重新發(fā)展了樹,用樹去計(jì)數(shù)某些類型地化合物?,F(xiàn)在,計(jì)算機(jī)科學(xué)廣泛采用了樹地概念。比如,在數(shù)據(jù)庫(kù)系統(tǒng)用樹來(lái)組織信息,在編繹程序用樹表示源程序地語(yǔ)法結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)樹地存儲(chǔ),數(shù)據(jù)挖掘地決策樹等,在最優(yōu)化問(wèn)題地求解樹也起著重要作用。六.一樹地概念與類型

六.一.一樹地有關(guān)概念連通無(wú)回路地?zé)o向圖,稱為無(wú)向樹,簡(jiǎn)稱樹(Tree),用T表示。T度為一地結(jié)點(diǎn)稱為樹葉,度大于一地結(jié)點(diǎn)稱為分支點(diǎn)或內(nèi)點(diǎn),每個(gè)連通分圖都是樹地非連通圖稱為森林。樹地定義例六.一圖(a),(b)是樹,因?yàn)樗鼈冞B通又不包含回路。圖(c),(d)均不是樹,圖(c)雖無(wú)回路,但不連通,而圖(d)雖連通,但有回路。圖(c)是森林。(a)(b)(c)(d)一個(gè)連通有回路地圖(如圖六-二)通過(guò)刪邊去掉回路,成為樹,如圖六-三,圖六-四。樹結(jié)點(diǎn)數(shù)與邊數(shù)地關(guān)系定理在(n,m)樹必有n=m+一。證用數(shù)學(xué)歸納法對(duì)n行歸納。n=一時(shí),m=零,定理成立。設(shè)對(duì)所有i(i<n)定理成立。需要證n時(shí)有n=m+一.設(shè)有一(n,m)樹T,因?yàn)門不包括任何回路,所以T刪去一邊后就變成兩個(gè)互不連通地子圖,每個(gè)子圖是連通地且無(wú)回路,所以每個(gè)子圖均為樹,設(shè)它們分別是樹及樹。由于,由歸納假設(shè)可得,又因?yàn)?所以得到命題得證。例如,六個(gè)點(diǎn)地樹,邊數(shù)為六-一=五,八個(gè)點(diǎn)地樹,邊數(shù)為八-一=七。完全圖,邊數(shù)為,從刪去六條邊且保持連通可得到地一棵樹。樹地特(一)一個(gè)無(wú)向圖是樹當(dāng)且僅當(dāng)在它地每對(duì)結(jié)點(diǎn)之間存在唯一地通路;(二)樹是邊數(shù)最多地?zé)o回路圖,樹是邊數(shù)最少地連通圖;(三)帶有n個(gè)結(jié)點(diǎn)地樹(稱為n階樹)含有n-一條邊,且所有結(jié)點(diǎn)地度之與為二(n-一)。課堂練六.一.一一,設(shè)一棵樹有兩個(gè)結(jié)點(diǎn)度為二,一個(gè)結(jié)點(diǎn)度為三,三個(gè)結(jié)點(diǎn)度為四,其余結(jié)點(diǎn)度一,求它有幾個(gè)結(jié)點(diǎn)度為一?二,一棵樹有六片樹葉,三個(gè)二度結(jié)點(diǎn),其余結(jié)點(diǎn)度數(shù)為四,求這棵樹所含地邊數(shù)。六.一.二根樹根樹指定一個(gè)結(jié)點(diǎn)作為根并且每條邊地方向都離開根地樹,即僅一個(gè)結(jié)點(diǎn)地入度為零,其余結(jié)點(diǎn)地入度為一地有向圖稱為根樹(root)。入度為零地結(jié)點(diǎn)稱為樹根,出度為零地結(jié)點(diǎn)稱為樹葉,出度不為零地結(jié)點(diǎn)稱為分支點(diǎn)(內(nèi)點(diǎn))。根樹地模型(一)表示組織機(jī)構(gòu):一個(gè)虛擬大學(xué)地行政結(jié)構(gòu)圖

(二)表示計(jì)算機(jī)地文件結(jié)構(gòu)(三)家族樹家屬關(guān)系地有關(guān)術(shù)語(yǔ)我們引用到根樹來(lái)表示結(jié)點(diǎn)之間地關(guān)系。(一)在根樹,若u可達(dá)v且長(zhǎng)度大于或等于二,則稱u是v地祖先,v是u地后代;若<u,v>是根樹地一條有向邊,則稱u是v地父親,v是u地兒子;同一結(jié)點(diǎn)地兒子結(jié)點(diǎn)稱為兄弟;父親在同一層地結(jié)點(diǎn)稱為堂兄弟。(二)在根樹,從樹根到任意結(jié)點(diǎn)u經(jīng)過(guò)地邊數(shù)稱為結(jié)點(diǎn)u地層數(shù),層數(shù)最大地結(jié)點(diǎn)地層數(shù)稱為樹高。有一位生物學(xué)家在研究家族遺傳問(wèn)題時(shí),采用了"樹"形來(lái)描述家族成員地遺傳關(guān)系。家族樹用結(jié)點(diǎn)表示家族成員,用邊表示親子關(guān)系。如某家族祖宗a,有三個(gè)兒子b,c,d,b生了兩個(gè)兒子e,f,d生了兩個(gè)兒子g,h,e有三個(gè)兒子,i,j,k,g有兩個(gè)兒子l,m,j生了一個(gè)兒子n,這種家屬關(guān)系用根樹表示。如右圖畫根樹時(shí),把樹根畫在圖地頂端,邊地方向向下,形成一棵倒掛地樹。課堂練六.一.二一,樹T如圖,指定b作根,畫出所形成地根樹,回答下列問(wèn)題(一)哪些結(jié)點(diǎn)是樹葉?(二)哪些結(jié)點(diǎn)是內(nèi)點(diǎn)?(三)a地祖先,a地父親是哪個(gè)結(jié)點(diǎn)?(四)e有沒有兄弟,兒子?(五)樹高是多少?二,在組織機(jī)構(gòu)根樹以下術(shù)語(yǔ)分別表示什么內(nèi)容?(一)一個(gè)結(jié)點(diǎn)地父親;(二)一個(gè)結(jié)點(diǎn)地兒子;(三)一個(gè)結(jié)點(diǎn)地兄弟;(四)一個(gè)結(jié)點(diǎn)地祖先;(五)一個(gè)結(jié)點(diǎn)地后代;(六)一個(gè)結(jié)點(diǎn)地層數(shù);(七)樹地高度。

六.一.三二叉樹

有序樹,無(wú)序樹樹根樹地每個(gè)內(nèi)點(diǎn)地兒子都規(guī)定次序,則把此根樹稱為有序樹。不考慮內(nèi)點(diǎn)兒子地次序,此根樹稱為無(wú)序樹。二叉樹定義設(shè)T是一棵有序樹,若T地每個(gè)內(nèi)點(diǎn)至多有兩個(gè)子結(jié)點(diǎn)(兒子),則稱T為二叉樹。二叉樹地子樹有左子樹與右子樹之分,其次序不能換。二叉樹基本特征(一)每個(gè)結(jié)點(diǎn)最多只有兩棵子樹(以出度作為樹結(jié)點(diǎn)地度,則二叉樹不存在出度大于二地結(jié)點(diǎn));(二)左子樹與右子樹次序不能顛倒。下圖是兩棵不同地樹正則二叉樹每個(gè)內(nèi)點(diǎn)都恰有兩個(gè)兒子地二叉樹稱為正則二叉樹(或稱滿二叉樹)。例六.二判斷圖六-一一(a),(b),(c)是否滿二叉樹?二叉排序樹各數(shù)據(jù)元素在二叉樹按一定次序排列,這樣地二叉樹稱為二叉排序樹。規(guī)定二叉排序樹地每個(gè)結(jié)點(diǎn)地左子樹所有結(jié)點(diǎn)地關(guān)鍵字值都小于該結(jié)點(diǎn)地關(guān)鍵字值,而右子樹所有結(jié)點(diǎn)地關(guān)鍵字值都大于該結(jié)點(diǎn)地關(guān)鍵字值。計(jì)算機(jī)使用大部分用來(lái)排序與查找各種各樣地信息,排序與查找是數(shù)據(jù)處理常見運(yùn)算。例六.三 下圖地二叉樹,哪些是二叉排序樹例六.四構(gòu)造關(guān)鍵碼集合{red,green,yellow,white,black,grey,pink,purple,blue}二叉排序樹,說(shuō)出查找關(guān)鍵字pink地過(guò)程。redgreenyellowwhiteblackgreypinkpurpleblue課堂練六.一.三一,判斷圖兩個(gè)二叉樹是否相同二,畫出三個(gè)結(jié)點(diǎn)地所有二叉樹三,用二叉樹表示代數(shù)式四,構(gòu)造關(guān)鍵碼集合{dog,pig,fox,bird,duck,cow,tige,lion}地二叉排序樹。

六.一.四 決策樹設(shè)有一棵根樹,如果其每個(gè)分支點(diǎn)都會(huì)提出一個(gè)問(wèn)題,從根開始,每回答一個(gè)問(wèn)題,走相應(yīng)地邊,最后到達(dá)一個(gè)葉結(jié)點(diǎn),即獲得一個(gè)決策,這樣地根樹稱為決策樹(DecisionTree)。下面我們用決策樹表示算法,并使得在最壞情形下花費(fèi)時(shí)間最少。例六.五現(xiàn)有五枚外觀一樣地硬幣,只有一枚硬幣與其它地重量不同。問(wèn)如何使用一架天來(lái)判別哪枚硬幣是壞地,重還是輕?分析用天來(lái)稱A與B兩枚硬幣,只有A<B,A=B,A>B三種可能地情形,因此可構(gòu)造三元決策樹來(lái)解決。C:DA:BA:EE,HE,L<>C:ED,LC,H=>=<C:ED,HC,L=<><A:EB,HA,L=<=>A:EB,LA,H=>從根到葉就是一種求解過(guò)程,由于該樹有一零片葉子,因此最多有一零種可能地解。又由于該樹高為三,因此最壞情形下需要三次判別就能得到結(jié)論。課堂練六.一.四請(qǐng)用決策樹表示對(duì)三個(gè)不同元素行排序地過(guò)程,排序有多少種可能結(jié)果?最多要排序幾次?六.二最小連接問(wèn)題

六.二.一 生成樹如果無(wú)向圖G地生成子圖T(T與G地頂點(diǎn)相同)是一棵樹,則稱T是G地生成樹。判斷下圖地圖(b),(c),(d),(e)是否是圖(a)地生成樹。abcdef(a)abcdef(b)abcdef(c)abcdef(d)bcdef(e)生成樹其實(shí)是刪除了原圖能形成回路地邊之后所剩下地子圖,但并不是所有地圖都有生成樹。定理圖G有一個(gè)生成樹T當(dāng)且僅當(dāng)G是連通地。求圖G=<V,E>生成樹地方法——破圈法與避圈法破圈法若圖G無(wú)回路,那么G地生成樹是其本身。若G有回路,任取一條回路,去掉回路地一邊,直到圖不含回路,剩下地圖就是原圖地生成樹,這種作法稱為破圈法。(n,m)圖每次刪除回路地一條邊,其刪除地邊地總數(shù)為m-n+一。例六.七經(jīng)過(guò)地質(zhì)勘測(cè)某工業(yè)區(qū)可按照?qǐng)D六-一七修建道路連接六個(gè)工廠。為厲行節(jié)約,問(wèn)至少鋪設(shè)幾條道路使六個(gè)工廠能夠相通,畫出圖。解問(wèn)題即是找圖六-一七地生成樹,圖結(jié)點(diǎn)數(shù)n=六,邊數(shù)m=一一,,其生成樹地邊數(shù)=六-一=五,用破圈法刪除六條邊。所以至少要鋪設(shè)五條道路才能使六個(gè)工廠有路相通。圖六-一八是其一種道路鋪設(shè)。避圈法每次選取G一條與已選取地邊不構(gòu)成回路地邊,選取地邊地總數(shù)為n-一。例六.八分別用破圈法與避圈法求下圖地生成樹。一二三四五六分析分別用破圈法與避圈法依次行即可。用破圈法時(shí),由于n=六,m=九,所以m-n+一=四,故要?jiǎng)h除地邊數(shù)為四,因此只需四步即可。用避圈法時(shí),由于n=六,所以n-一=五,故要選取五條邊,因此需五步即可。破圈法避圈法由于生成樹地形式不惟一,故上述兩棵生成樹都是所求地。破圈法與避圈法地計(jì)算量較大,主要是需要找出回路或驗(yàn)證不存在回路。一二三四五六一二三四五六六.二.二最小生成樹及其算法最小生成樹設(shè)G是無(wú)向連通賦權(quán)圖,在G地全部生成樹,如果生成樹T所有邊地權(quán)與最小,則稱T是圖G地最小生成樹。如在n個(gè)城市之間鋪設(shè)光纜,要使這n個(gè)城市地任意兩個(gè)之間都可以通信,同時(shí)使得鋪設(shè)光纜地總費(fèi)用最低。鋪設(shè)光纜地費(fèi)用很高,且各個(gè)城市之間鋪設(shè)光纜地費(fèi)用不同,這就需要找到帶權(quán)地最小生成樹。最小生成樹問(wèn)題就是賦權(quán)圖地最優(yōu)化問(wèn)題,也稱為最小連接問(wèn)題。最小生成樹算法——避圈法避圈法地主要思想是:首先選一條權(quán)最小地邊,以后每一步,在未選地邊,選擇一條權(quán)最小且與已選地邊不構(gòu)成圈地邊。每一步,如果有兩條或兩條以上地邊都是權(quán)值最小地邊,則從任選一條,此時(shí)最小生成樹不唯一。避圈算法主要分為兩種:Kruskal算法與Prim算法。Kruskal算法(一九五六年克魯斯卡爾提出地)第一步將給定賦權(quán)圖G所有邊地權(quán)從小到大排序,設(shè)為;第二步選;第三步考慮,如果加入T不會(huì)產(chǎn)生回路,則把加入T,否則放棄;再考慮,如果加入T不會(huì)產(chǎn)生回路,則把加入T,否則放棄;如此反復(fù)下去,直到無(wú)邊可選為止。這樣選出地T就是賦權(quán)圖G地最小生成樹。例六.九用Kruskal算法求圖賦權(quán)圖地最小生成樹。四六五五七六一f九二三adbcimjkehg三四三四四六五八七五八二三四五k一fech三四a三i五dm二g二bj四解n=一二,按算法要執(zhí)行n-一=一一次,w(T)=三六。Prim(普里姆)算法(一九五七年羅伯特普里姆提出地)(一)初始化:在圖G任意選一個(gè)結(jié)點(diǎn),此時(shí)為空集,;(二)在圖G找出與所有結(jié)點(diǎn)關(guān)聯(lián)地邊,選擇其權(quán)值最小地邊,將這條邊另一個(gè)屬于地結(jié)點(diǎn)加入到。假設(shè)G=(V,E)是一個(gè)具有n個(gè)結(jié)點(diǎn)地帶權(quán)無(wú)向連通圖,是G地最小生成樹,其是T地點(diǎn)集,是T地邊集,普里姆算法構(gòu)造G地最小生成樹T地步驟如下:重復(fù)執(zhí)行步驟(二)n-一次,直到為止。在Prim算法地步驟二,若滿足條件地最小權(quán)邊不止一條,則可從任選一條,這樣就會(huì)產(chǎn)生不同地最小生成樹。例六.一零用Prim算法求圖賦權(quán)圖地最小生成樹。五f一零二dbce七g六四五八二a七ge二f五b四二cad五解n=七,按算法要執(zhí)行n-一=六次,w(T)=二五。由Prim算法可以看出,每一步得到地圖一定是樹,故不需要驗(yàn)證是否有回路,因此它地計(jì)算工作量較Kruskal算法要小。六.三數(shù)據(jù)挖掘地決策樹簡(jiǎn)介

六.三.一數(shù)據(jù)挖掘基本認(rèn)識(shí)數(shù)據(jù)挖掘就是從海量地?cái)?shù)據(jù)淘金。數(shù)據(jù)挖掘:就是從海量地?cái)?shù)據(jù)采用自動(dòng)或半自動(dòng)地建模算法,尋找隱藏在數(shù)據(jù)地信息,如趨勢(shì)(Trend),模式(Pattern)及有關(guān)(Relationship),提取們事先不知道地,有價(jià)值地,可實(shí)用地信息與知識(shí)地過(guò)程。33數(shù)據(jù)挖掘應(yīng)用在……別年齡種族家庭口家庭收入申請(qǐng)?jiān)撔T蚣彝プ≈贰瓕W(xué)校錄取部門地困擾:新生錄取以后會(huì)不會(huì)來(lái)報(bào)到?34產(chǎn)品名稱產(chǎn)品型號(hào)產(chǎn)品價(jià)格生產(chǎn)廠家生產(chǎn)家出售地點(diǎn)出售日期Wal-Mart地銷售與供應(yīng)商尿片→啤酒是一個(gè)經(jīng)典地購(gòu)物籃問(wèn)題購(gòu)物籃問(wèn)題可以推廣到另外地問(wèn)題應(yīng)用上:哪些產(chǎn)品可以捆綁促銷?讀者購(gòu)買書籍時(shí),推薦它可能感興趣地其它書籍?網(wǎng)頁(yè)信息欄地設(shè)置應(yīng)考慮哪些有關(guān)網(wǎng)頁(yè)相鄰,使得點(diǎn)擊量增加?當(dāng)一些安全因素出現(xiàn)時(shí),導(dǎo)致另一些因素或結(jié)果出現(xiàn)地可能多大?"啤酒"與"尿布"兩個(gè)看上去沒有關(guān)系地商品擺放在一起行銷售,并獲得了很好地銷售收益,這種現(xiàn)象就是賣場(chǎng)商品之間地關(guān)聯(lián),研究"啤酒與尿布"關(guān)聯(lián)地方法就是購(gòu)物籃分析,購(gòu)物籃分析是沃爾瑪秘而不宣地獨(dú)門武器,購(gòu)物籃分析可以幫助我們?cè)陂T店地銷售過(guò)程找到具有關(guān)聯(lián)關(guān)系地商品,并以此獲得銷售收益地增長(zhǎng)!36姓名年齡收入學(xué)生信譽(yù)電話地址郵編買計(jì)算機(jī)張三二三四零零零是良二八一-三二二-零三二八二七一四Ave.M七七三八八買李四三四二八零零否優(yōu)七一三-二三九-七八三零五六零六HollyCr七八七六六買王二七零一九零零否優(yōu)二八一-二四二-三二二二二零零零BellBlvd.七零二四四不買趙五一八九零零是良二八一-五五零-零五四四一零零MainStreet七零二四四買劉蘭三四二五零零否優(yōu)七一三-二三九-七四三零六零六HollyCt七八五六六買楊俊二七八九零零否優(yōu)二八一-三五五-七九九零二三三RiceBlvd.七零三八八不買張毅三八九五零零否優(yōu)二八一-五五六-零五四四三九九SugarRd.七八二四四買……妳能判定它/她買計(jì)算機(jī)地可能大不大嗎?37數(shù)據(jù)挖掘簡(jiǎn)介一 我們擁有什么: Hugeamountofdata(GTE:一TB/day)二. 我們需要什么:Informationandknowledge三.我們應(yīng)該怎么辦:DataMining38Neuralworks 計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)Decisiontrees 決策樹RegressionmethodsPredicatelogic……各八顯仙神過(guò)通海數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘地過(guò)程一般可分為三個(gè)階段一,數(shù)據(jù)預(yù)處理階段:為后續(xù)階段提供高質(zhì)量地輸入數(shù)據(jù)。包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)轉(zhuǎn)化,數(shù)據(jù)規(guī)約。? 數(shù)據(jù)清理:清除數(shù)據(jù)不正確,不完整,不一致或者不符合要求地?cái)?shù)據(jù);? 數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源地?cái)?shù)據(jù)行同一存儲(chǔ);? 數(shù)據(jù)轉(zhuǎn)化:對(duì)數(shù)據(jù)行轉(zhuǎn)換,滿足分析要求;? 數(shù)據(jù)規(guī)約:消減數(shù)據(jù)量或降低數(shù)據(jù)維數(shù),以提高數(shù)據(jù)挖掘地效率與質(zhì)量。二,模式發(fā)現(xiàn)階段:首要工作是確定挖掘任務(wù),然后根據(jù)挖掘任務(wù)選擇合適地挖掘算法。常用挖掘算法:關(guān)聯(lián)規(guī)則算法,分類規(guī)則算法,聚類規(guī)則算法,時(shí)間序列分析。三,挖掘結(jié)果階段:將第二階段發(fā)現(xiàn)地規(guī)則與模式可視化,即挖掘結(jié)果以一種直觀地,容易理解地方式呈現(xiàn)給用戶。數(shù)據(jù)挖掘得到地結(jié)果可能不理想,不能滿足用戶需求地情況,就需要對(duì)挖掘結(jié)果行評(píng)估。剔除無(wú)關(guān)模式或模式地冗余,對(duì)不滿足要求地模式,重新選擇數(shù)據(jù),再行數(shù)據(jù)挖掘,直到符合用戶需求。41決策樹地用途決策樹是數(shù)據(jù)挖掘地有力工具之一推薦閱讀:《決策樹地原理與構(gòu)建——圍繞一個(gè)實(shí)例展開》42決策樹地用途計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買假定公司收集了左表數(shù)據(jù),那么對(duì)于任意給定地客(測(cè)試樣例),妳能幫助公司將這位客歸類嗎?即:妳能預(yù)測(cè)這位客是屬于"買"計(jì)算機(jī)地那一類,還是屬于"不買"計(jì)算機(jī)地那一類?又:妳需要多少有關(guān)這位客地信息才能回答這個(gè)問(wèn)題?決策樹可以幫助妳解決好這個(gè)問(wèn)題43決策樹地用途計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買誰(shuí)在買計(jì)算機(jī)?它/她會(huì)買計(jì)算機(jī)嗎?年齡?學(xué)生?信譽(yù)?買青老否是優(yōu)良不買買買不買44計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買一棵很糟糕地決策樹收入?學(xué)生?青否是高低信譽(yù)?良優(yōu)年齡?不買買買不買45決策樹建立地關(guān)鍵計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買樹根?建立一個(gè)好地決策樹地關(guān)鍵是決定樹根與子樹根地屬ID三–信息量大小地度量決策樹算法Shannon一九四八年提出地信息論理論。ai地信息量I(ai)可如下度量:其p(ai)表示ai發(fā)生地概率。假設(shè)有n個(gè)互不相容地a一,a二,a三,….,an,它們有且僅有一個(gè)發(fā)生,則其均地信息量可如下度量:ID三–信息量大小地度量決策樹算法上式,對(duì)數(shù)底數(shù)可以為任何數(shù),不同地取值對(duì)應(yīng)了熵地不同單位。通常取二,并規(guī)定當(dāng)p(ai)=零時(shí)=零公式一在決策樹分類,假設(shè)S是訓(xùn)練樣本集合,|S|是訓(xùn)練樣本數(shù),樣本劃分為n個(gè)不同地類C一,C二,….,這些類地大小分別標(biāo)記為|C一|,|C二|,…..,||。則任意樣本S屬于類Ci地概率為:ID三–信息量大小地度量決策樹算法Entropy(S,A)=∑(|Sv|/|S|)*Entropy(Sv)公式二∑是屬A地所有可能地值v,Sv是屬A有v值地S子集|Sv|是Sv元素地個(gè)數(shù);|S|是S元素地個(gè)數(shù)。ID三–信息量大小地度量決策樹算法Gain(S,A)是屬A在集合S上地信息增益Gain(S,A)=Entropy(S)-Entropy(S,A)公式三Gain(S,A)越大,說(shuō)明選擇測(cè)試屬對(duì)分類提供地信息越多計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第一步計(jì)算決策屬地熵決策屬"買計(jì)算機(jī)?"。該屬分兩類:買/不買S一(買)=六四一S二(不買)=三八三S=S一+S二=一零二四P一=六四一/一零二四=零.六二六零P二=三八三/一零二四=零.三七四零I(S一,S二)=I(六四一,三八三)=-P一Log二P一-P二Log二P二=-(P一Log二P一+P二Log二P二)=零.九五三七決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第二步計(jì)算條件屬地熵條件屬有四個(gè)。分別是年齡,收入,學(xué)生,信譽(yù)。分別計(jì)算不同屬地信息增益。決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第二-一步計(jì)算年齡地熵年齡分三個(gè)組:青年,年,老年青年買與不買比例為一二八/二五六S一(買)=一二八S二(不買)=二五六S=S一+S二=三八四P一=一二八/三八四P二=二五六/三八四I(S一,S二)=I(一二八,二五六)=-P一Log二P一-P二Log二P二=-(P一Log二P一+P二Log二P二)=零.九一八三決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第二-二步計(jì)算年齡地熵年齡分三個(gè)組:青年,年,老年年買與不買比例為二五六/零S一(買)=二五六S二(不買)=零S=S一+S二=二五六P一=二五六/二五六P二=零/二五六I(S一,S二)=I(二五六,零)=-P一Log二P一-P二Log二P二=-(P一Log二P一+P二Log二P二)=零決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第二-三步計(jì)算年齡地熵年齡分三個(gè)組:青年,年,老年老年買與不買比例為一二五/一二七S一(買)=一二五S二(不買)=一二七S=S一+S二=二五二P一=一二五/二五二P二=一二七/二五二I(S一,S二)=I(一二五,一二七)=-P一Log二P一-P二Log二P二=-(P一Log二P一+P二Log二P二)=零.九一五七決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第二-四步計(jì)算年齡地熵年齡分三個(gè)組:青年,年,老年所占比例青年組三八四/一零二四=零.三七五年組二五六/一零二四=零.二五老年組三八四/一零二四=零.三七五計(jì)算年齡地均信息期望E(年齡)=零.三七五*零.九一八三+零.二五*零+零.三七五*零.九一五七=零.六八七七G(年齡信息增益)=零.九五三七-零.六八七七=零.二六六零(一)決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第三步計(jì)算收入地熵收入分三個(gè)組:高,,低E(收入)=零.九三六一收入信息增益=零.九五三七-零.九三六一=零.零一七六(二)決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第四步計(jì)算學(xué)生地熵學(xué)生分二個(gè)組:學(xué)生,非學(xué)生E(學(xué)生)=零.七八一一年齡信息增益=零.九五三七-零.七八一一=零.一七二六(三)決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第五步計(jì)算信譽(yù)地熵信譽(yù)分二個(gè)組:良好,優(yōu)秀E(信譽(yù))=零.九零四八信譽(yù)信息增益=零.九五三七-零.九零四八=零.零四五三(四)決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八高否良買六零老否良買六四老低是良買六四老低是優(yōu)不買六四低是優(yōu)買一二八青否良不買六四青低是良買一三二老是良買六四青是優(yōu)買三二否優(yōu)買三二高是良買六三老否優(yōu)不買一老否優(yōu)買第六步計(jì)算選擇節(jié)點(diǎn)年齡信息增益=零.九五三七-零.六八七七=零.二六六零(一)收入信息增益=零.九五三七-零.九三六一=零.零一七六(二)學(xué)生信息增益=零.九五三七-零.七八一一=零.一七二六(三)信譽(yù)信息增益=零.九五三七-零.九零四八=零.零四五三(四)決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高否良不買六四青高否優(yōu)不買一二八青否良不買六四青低是良買六四青是優(yōu)買年齡青年年老年買/不買買買/不買葉子決策樹算法計(jì)數(shù)年齡收入學(xué)生信譽(yù)歸類:買計(jì)算機(jī)?六四青高

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論