版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第7章 信息論方法(一)7.1 信息論原理7.2 決策樹(shù)方法7.1 信息論原理 信息論是C.E.Shannon為解決信息傳遞(通信)過(guò)程問(wèn)題而建立的理論,也稱(chēng)為統(tǒng)計(jì)通信理論。1. 信道模型一個(gè)傳遞信息的系統(tǒng)是由發(fā)送端(信源)和接收端(信宿)以及連接兩者的通道(信道)三者組成。信道u1,u2.ur信源Uv1,v2.vrP(V|U)信宿V在進(jìn)行實(shí)際的通信之前,收信者(信宿)不可能確切了解信源究竟會(huì)發(fā)出什么樣的具體信息,不可能判斷信源會(huì)處于什么樣的狀態(tài)。這種情形就稱(chēng)為信宿對(duì)于信源狀態(tài)具有不確定性。而且這種不確定性是存在于通信之前的。因而又叫做先驗(yàn)不確定性,表示成 信息熵 H(U)在進(jìn)行了通信之后,信
2、宿收到了信源發(fā)來(lái)的信息,這種先驗(yàn)不確定性才會(huì)被消除或者被減少。如果干擾很小,不會(huì)對(duì)傳遞的信息產(chǎn)生任何可察覺(jué)的影響,信源發(fā)出的信息能夠被信宿全部收到,在這種情況下,信宿的先驗(yàn)不確定性就會(huì)被完全消除。在一般情況下,干擾總會(huì)對(duì)信源發(fā)出的信息造成某種破壞,使信宿收到的信息不完全。先驗(yàn)不確定性不能全部被消除,只能部分地消除。通信結(jié)束之后,信宿仍然具有一定程度的不確定性。這就是后驗(yàn)不確定性,用條件熵表示H(U/V)。后驗(yàn)不確定性總要小于先驗(yàn)不確定性:H(U/V)H(X) 故信源Y比信源X的平均不確定性要大。 信息熵H(U)是信源輸出前的平均不確定性,也稱(chēng)先驗(yàn)熵。 H(U)的性質(zhì): (1)H(U)=0時(shí),說(shuō)
3、明只存在著唯一的可能性,不存在不確定性。 (2)如果n種可能的發(fā)生都有相同的概率,即所有的Ui有P(Ui)=1/n,H(U)達(dá)到最大值log n,系統(tǒng)的不確定性最大。 P(Ui)互相接近,H(U)就大。P(Ui)相差大,則H(U)就小。 7互信息(1)后驗(yàn)熵和條件熵當(dāng)沒(méi)有接收到輸出符號(hào)V時(shí),已知輸入符號(hào)U的概率分布為P(U),而當(dāng)接收到輸出符號(hào)V=Vj 后,輸入符號(hào)的概率分布發(fā)生了變化,變成后驗(yàn)概率分布P(U|Vj)。其后驗(yàn)熵為:那么接收到輸出符號(hào)V=Vj后,關(guān)于U的平均不確定性為: 這是接收到輸出符號(hào)Vj后關(guān)于U的條件熵 這個(gè)條件熵稱(chēng)為信道疑義度。它表示在輸出端收到全部輸出符號(hào)V后,對(duì)于輸入
4、端的符號(hào)集U尚存在的不確定性(存在疑義)。 從上面分析可知:條件熵小于無(wú)條件熵,即H(U|V)H(U)。說(shuō)明接收到符號(hào)集V的所有符號(hào)后,關(guān)于輸入符號(hào)U的平均不確定性減少了。即總能消除一些關(guān)于輸入端X的不確定性,從而獲得了一些信息。(2)平均互信息定義: I(U,V) = H(U) H(U|V) (3.10) I(U,V)稱(chēng)為U和V之間的平均互信息.它代表接收到符號(hào)集V后獲得的關(guān)于U的信息量。 可見(jiàn),熵(H(U)、H(U|V)只是平均不確定性的描述。熵差(H(U) H(U|V)是不確定性的消除,即互信息才是接收端所獲得的信息量。 對(duì)輸入端U只有U1,U2兩類(lèi),互信息的計(jì)算公式為: 7.2 決策樹(shù)
5、方法7.2.1決策樹(shù)概念決策樹(shù)是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹(shù)結(jié)構(gòu)。 決策樹(shù)的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹(shù)的中間結(jié)點(diǎn)是該結(jié)點(diǎn)為根的子樹(shù)所包含的樣本子集中信息量最大的屬性。決策樹(shù)的葉結(jié)點(diǎn)是樣本的類(lèi)別值。決策樹(shù)是一種知識(shí)表示形式,它是對(duì)所有樣本數(shù)據(jù)的高度概括。決策樹(shù)能準(zhǔn)確地識(shí)別所有樣本的類(lèi)別,也能有效地識(shí)別新樣本的類(lèi)別。 7.2.2 ID3方法基本思想當(dāng)前國(guó)際上最有影響的示例學(xué)習(xí)方法首推J.R.Quinlan的ID3(Interative Dic熱miser versions3). 原理:首先找出最有判別力的特征,把數(shù)據(jù)分成多個(gè)子集,每個(gè)子集又選擇最有判別力的特征進(jìn)行劃分
6、,一直進(jìn)行到所有子集僅包含同一類(lèi)型的數(shù)據(jù)為止。最后得到一棵決策樹(shù)。J.R.Quinlan的工作主要是引進(jìn)了信息論中的互信息,他將其稱(chēng)為信息增益(information gain),作為特征判別能力的度量,并且將建樹(shù)的方法嵌在一個(gè)迭代的外殼之中。一、ID3基本思想 例如:關(guān)于氣候的類(lèi)型,特征為: 天氣 取值為: 晴,多云,雨 氣溫 取值為: 冷 ,適中,熱 濕度 取值為: 高 ,正常 風(fēng) 取值為: 有風(fēng), 無(wú)風(fēng) 每個(gè)實(shí)體在世界中屬于不同的類(lèi)別,為簡(jiǎn)單起見(jiàn),假定僅有兩個(gè)類(lèi)別,分別為P,N。在這種兩個(gè)類(lèi)別的歸納任務(wù)中,P類(lèi)和N類(lèi)的實(shí)體分別稱(chēng)為概念的正例和反例。將一些已知的正例和反例放在一起便得到訓(xùn)練
7、集。表3.1給出一個(gè)訓(xùn)練集。由ID3算法得出一棵正確分類(lèi)訓(xùn)練集中每個(gè)實(shí)體的決策樹(shù),見(jiàn)下圖。NO.屬性類(lèi)別天氣氣溫濕度風(fēng)1晴熱高無(wú)風(fēng)N2晴熱高有風(fēng)N3多云熱高無(wú)風(fēng)P4雨適中高無(wú)風(fēng)P5雨冷正常無(wú)風(fēng)P6雨冷正常有風(fēng)N7多云冷正常有風(fēng)P8晴適中高無(wú)風(fēng)N9晴冷正常無(wú)風(fēng)P10雨適中正常無(wú)風(fēng)P11晴適中正常有風(fēng)P12多云適中高有風(fēng)P13多云熱正常無(wú)風(fēng)P14雨適中高有風(fēng)N天 氣濕 度風(fēng)晴雨多云高正常有風(fēng)無(wú)風(fēng)PNNPPID3決策樹(shù)決策樹(shù)葉子為類(lèi)別名,即P 或者N。其它結(jié)點(diǎn)由實(shí)體的特征組成,每個(gè)特征的不同取值對(duì)應(yīng)一分枝。若要對(duì)一實(shí)體分類(lèi),從樹(shù)根開(kāi)始進(jìn)行測(cè)試,按特征的取值分枝向下進(jìn)入下層結(jié)點(diǎn),對(duì)該結(jié)點(diǎn)進(jìn)行測(cè)試,過(guò)程
8、一直進(jìn)行到葉結(jié)點(diǎn),實(shí)體被判為屬于該葉結(jié)點(diǎn)所標(biāo)記的類(lèi)別。現(xiàn)用圖來(lái)判一個(gè)具體例子, 某天早晨氣候描述為: 天氣:多云 氣溫:冷 濕度:正常 風(fēng): 無(wú)風(fēng) 它屬于哪類(lèi)氣候呢?從圖中可判別該實(shí)體的類(lèi)別為P類(lèi)。ID3就是要從表的訓(xùn)練集構(gòu)造圖這樣的決策樹(shù)。實(shí)際上,能正確分類(lèi)訓(xùn)練集的決策樹(shù)不止一棵。Quinlan的ID3算法能得出結(jié)點(diǎn)最少的決策樹(shù)。二、ID3算法(一)主算法 從訓(xùn)練集中隨機(jī)選擇一個(gè)既含正例又含反例的子集(稱(chēng)為窗口); 用“建樹(shù)算法”對(duì)當(dāng)前窗口形成一棵決策樹(shù); 對(duì)訓(xùn)練集(窗口除外)中例子用所得決策樹(shù)進(jìn)行類(lèi)別判定,找出錯(cuò)判的例子; 若存在錯(cuò)判的例子,把它們插入窗口,轉(zhuǎn)2,否則結(jié)束。主算法流程用下圖
9、表示。其中PE、NE分別表示正例集和反例集,它們共同組成訓(xùn)練集。PE,PE和NE,NE分別表示正例集和反例集的子集。主算法中每迭代循環(huán)一次,生成的決策樹(shù)將會(huì)不相同。訓(xùn)練集PE、NE取子集建窗口窗口PE、NE生成決策樹(shù)測(cè)試PE、NE擴(kuò)展窗口PE=PE+PENE=NE+NE此決策樹(shù)為最后結(jié)果存在錯(cuò)判的PE,NE嗎是否ID3主算法流程(二)建樹(shù)算法 對(duì)當(dāng)前例子集合,計(jì)算各特征的互信息; 選擇互信息最大的特征Ak; 把在Ak處取值相同的例子歸于同一子集,Ak取幾個(gè)值就得幾個(gè)子集; 對(duì)既含正例又含反例的子集,遞歸調(diào)用建樹(shù)算法; 若子集僅含正例或反例,對(duì)應(yīng)分枝標(biāo)上P或N,返回調(diào)用處。實(shí)例計(jì)算 對(duì)于氣候分類(lèi)
10、問(wèn)題進(jìn)行具體計(jì)算有: 信息熵的計(jì)算信息熵:類(lèi)別出現(xiàn)概率:|S|表示例子集S的總數(shù),|ui|表示類(lèi)別ui的例子數(shù)。 對(duì)9個(gè)正例和5個(gè)反例有:P(u1)=9/14 P(u2)=5/14H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit 條件熵計(jì)算條件熵:屬性A1取值vj時(shí),類(lèi)別ui的條件概率:A1=天氣 取值 v1=晴,v2=多云,v3=雨在A1處取值晴的例子5個(gè),取值多云的例子4 個(gè),取值雨的例子5 個(gè),故: P(v1)=5/14 P(v2)=4/14 P(v3)=5/14取值為晴的5 個(gè)例子中有2 個(gè)正例、3個(gè)反例,故: P(u1/v1)=2/5, P(u
11、2/v1)=3/5同理有:P(u1/v2)=4/4, P(u2/v2)=0 P(u1/v3)=2/5, P(u2/v3)=3/5H(U/V)=(5/14)(2/5)log(5/2)+(3/5)log(5/3)+(4/14)(4/4)log(4/4) +0)+(5/14)(2/5)log(5/2)+(3/5)log(5/3) = 0.694bit 互信息計(jì)算 對(duì) A1=天氣 處有: I(天氣)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit 類(lèi)似可得: I(氣溫)=0.029 bit I(濕度)=0.151 bit I(風(fēng))=0.048 bit 建決策樹(shù)的樹(shù)根和分枝
12、 ID3算法將選擇互信息最大的特征天氣作為樹(shù)根,在14個(gè)例子中對(duì)天氣的3個(gè)取值進(jìn)行分枝,3 個(gè)分枝對(duì)應(yīng)3 個(gè)子集,分別是: F1=1,2,8,9,11,F(xiàn)2=3,7,12,13,F(xiàn)3=4,5,6,10,14 其中F2中的例子全屬于P類(lèi),因此對(duì)應(yīng)分枝標(biāo)記為P,其余兩個(gè)子集既含有正例又含有反例,將遞歸調(diào)用建樹(shù)算法。 遞歸建樹(shù) 分別對(duì)F1和F3子集利用ID3算法,在每個(gè)子集中對(duì)各特征(仍為四個(gè)特征)求互信息. (1)F1中的天氣全取晴值,則H(U)=H(U|V),有I(U|V)=0,在余下三個(gè)特征中求出濕度互信息最大,以它為該分枝的根結(jié)點(diǎn),再向下分枝。濕度取高的例子全為N類(lèi),該分枝標(biāo)記N。取值正常的
13、例子全為P類(lèi),該分枝標(biāo)記P。 (2)在F3中,對(duì)四個(gè)特征求互信息,得到風(fēng)特征互信息最大,則以它為該分枝根結(jié)點(diǎn)。再向下分枝,風(fēng)取有風(fēng)時(shí)全為N類(lèi),該分枝標(biāo)記N。取無(wú)風(fēng)時(shí)全為P類(lèi),該分枝標(biāo)記P。 這樣就得到圖8.5的決策樹(shù) 對(duì)ID3的討論 優(yōu)點(diǎn) ID3在選擇重要特征時(shí)利用了互信息的概念,算法的基礎(chǔ)理論清晰,使得算法較簡(jiǎn)單,是一個(gè)很有實(shí)用價(jià)值的示例學(xué)習(xí)算法。 該算法的計(jì)算時(shí)間是例子個(gè)數(shù)、特征個(gè)數(shù)、結(jié)點(diǎn)個(gè)數(shù)之積的線(xiàn)性函數(shù)。我們?cè)?761個(gè)關(guān)于苯的質(zhì)譜例子作了試驗(yàn)。其中正例2361個(gè),反例2400個(gè),每個(gè)例子由500個(gè)特征描述,每個(gè)特征取值數(shù)目為6,得到一棵1514個(gè)結(jié)點(diǎn)的決策樹(shù)。對(duì)正、反例各100個(gè)測(cè)
14、試?yán)髁藴y(cè)試,正例判對(duì)82個(gè),反例判對(duì)80個(gè),總預(yù)測(cè)正確率81%,效果是令人滿(mǎn)意的。 缺點(diǎn) (1)互信息的計(jì)算依賴(lài)于特征取值的數(shù)目較多的特征,這樣不太合理。一種簡(jiǎn)單的辦法是對(duì)特征進(jìn)行分解,如上節(jié)例中,特征取值數(shù)目不一樣,可以把它們統(tǒng)統(tǒng)化為二值特征,如天氣取值晴,多云,雨,可以分解為三個(gè)特征;天氣晴,天氣多云,天氣雨。取值都為“是”或“否”,對(duì)氣溫也可做類(lèi)似的工作。這樣就不存在偏向問(wèn)題了。 (2)用互信息作為特征選擇量存在一個(gè)假設(shè),即訓(xùn)練例子集中的正,反例的比例應(yīng)與實(shí)際問(wèn)題領(lǐng)域里正、反例比例相同。一般情況不能保證相同,這樣計(jì)算訓(xùn)練集的互信息就有偏差。 (3)ID3在建樹(shù)時(shí),每個(gè)節(jié)點(diǎn)僅含一個(gè)特征,是一種單變?cè)乃惴ǎ卣鏖g的相關(guān)性強(qiáng)調(diào)不夠。雖然它將多個(gè)特征用一棵樹(shù)連在一起,但聯(lián)系還是松散的。 (4)ID3對(duì)噪聲較為敏感。關(guān)于什么是噪聲,Quin
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 濮陽(yáng)玻璃鱗片膠泥施工方案
- 電器專(zhuān)賣(mài)店設(shè)計(jì)施工方案
- 金華透水地坪彩色施工方案
- 重慶旋挖樁施工方案
- 運(yùn)維外包承接方案
- 路基豎向開(kāi)裂注漿施工方案
- 中周磁材行業(yè)深度研究報(bào)告
- 新能源鋰電池可行性研究報(bào)告
- 酒石酸哌腈米特行業(yè)深度研究報(bào)告
- 電子產(chǎn)品新品發(fā)布運(yùn)輸
- 高處作業(yè)安全培訓(xùn)課件-
- 職中英語(yǔ)期末考試質(zhì)量分析
- 中國(guó)的世界遺產(chǎn)智慧樹(shù)知到答案章節(jié)測(cè)試2023年遼寧科技大學(xué)
- 急性腹瀉與慢性腹瀉修改版
- 先天性肌性斜頸的康復(fù)
- 《國(guó)際市場(chǎng)營(yíng)銷(xiāo)》案例
- GB/T 37518-2019代理報(bào)關(guān)服務(wù)規(guī)范
- GB/T 156-2017標(biāo)準(zhǔn)電壓
- PPT溝通的藝術(shù)課件
- 內(nèi)科學(xué):巨幼細(xì)胞性貧血課件
- 暑假家校聯(lián)系情況記錄表
評(píng)論
0/150
提交評(píng)論