版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、文本分類的常見(jiàn)方法文本分類的過(guò)程:(1)選擇練習(xí)文本.好的練習(xí)文本對(duì)分類器的最終結(jié)果起到至關(guān)重要的作用.(2)選擇文本特征.對(duì)練習(xí)樣本和測(cè)試樣本進(jìn)行數(shù)據(jù)預(yù)處理,包括分詞、去停用詞、消除噪音等.目前的文本分類研究,主要選取一些具有代表性的詞、詞組、短語(yǔ)來(lái)表示文本.(3)建立文本表示模型.為了便于計(jì)算機(jī)理解和計(jì)算相關(guān)的文本屬性,需要對(duì)文本進(jìn)行表示,其中向量空間模型(VectorSpaceModelVSM雇用最為廣泛.(4)選擇分類方法.文本分類的核心局部,不同的分類方法原理不同需要處理的數(shù)據(jù)也不同.經(jīng)典分類算法有樸素貝葉斯(NaiveBayesNB)、K-近鄰(K-NearestNeighborK
2、NN)決策樹(shù)(DecisionTreeDTree)、算數(shù)平均質(zhì)心(ArithmeticalAverageCentroidAAC支持向量機(jī)(SupportVectorMachineSVM)(5)分類結(jié)果的評(píng)估.目前主流的評(píng)估標(biāo)準(zhǔn)準(zhǔn)確率、召回率和F1值選擇文本特征我們需要將文檔轉(zhuǎn)換為計(jì)算機(jī)可以衡量、運(yùn)算的形式.現(xiàn)在運(yùn)用最廣泛的形式: 將文檔映射入向量空間.具體流程如圖1.對(duì)中文文檔進(jìn)行分詞這樣就將一篇文章映射成了為了向量空間中的一個(gè)向量.在把文章都映射完成后,我們可以根據(jù)自己不同的需求,在向量空間中進(jìn)行運(yùn)算.比方計(jì)算兩篇文章的相似度: 我們把向量的起點(diǎn)都映射到原點(diǎn),那么我們可以比擬向量的長(zhǎng)度、向量
3、的夾角、向量?jī)蓚€(gè)終點(diǎn)的距離等等;我們還可以宏觀的觀察大量的向量在向量空間中的分布情況,對(duì)大量聚集在一起的向量抽取它們的共性:計(jì)算他們的中央、他們整體的方向等.其實(shí)數(shù)學(xué)模型很好,只不過(guò)限于計(jì)算機(jī)的存儲(chǔ)、運(yùn)算水平,向量空間的維度過(guò)高、文檔數(shù)量過(guò)大、計(jì)算復(fù)雜度過(guò)高會(huì)使得模型的計(jì)算機(jī)實(shí)現(xiàn)變得困難,我們不得不進(jìn)行簡(jiǎn)化: 向量空間維度降低、 較低復(fù)雜度的計(jì)算分析方法等等.而根據(jù)簡(jiǎn)化的合理程度,影響我們得到的結(jié)果質(zhì)量.向量空間的降維那么需要進(jìn)行特征項(xiàng)的篩選: 篩選方法有五種:文檔頻率、信息增益、期望交叉嫡、互信息、開(kāi)放檢驗(yàn).就好似在軟件開(kāi)發(fā)階段越早引入缺陷后期的Bug數(shù)量越多一樣,上游的污染源造成的危害要大
4、得多.如果我們要對(duì)數(shù)據(jù)源進(jìn)行篩選,那么篩選的規(guī)那么一定要是非常嚴(yán)謹(jǐn)合理的,正確的數(shù)據(jù)合理的算法才有可能得到好的結(jié)果.文檔頻率DocumentFrequence特征在特征集中出現(xiàn)的文檔數(shù)目過(guò)多,那么不能很好的區(qū)分不同的類別; 特征在特征集中出現(xiàn)的文檔數(shù)目過(guò)少,那么它不具備很好的代表性.我們統(tǒng)計(jì)單詞的出現(xiàn)頻率,將頻率過(guò)高和過(guò)低的詞語(yǔ)過(guò)濾掉.信息增益網(wǎng)7=-工尸化歷辭%力+汽/,化13罐產(chǎn),?+/?0/,|7|的乃,0川I其中c表示文檔類別t表示特征項(xiàng),描述的是在特征項(xiàng)t的前提下確定文檔屬于c的概率,表征的是該文檔使用特征項(xiàng)t來(lái)區(qū)分類別c的能力. 其實(shí)三項(xiàng)加和的首項(xiàng)不太明白什么意思,而且在特征項(xiàng)的篩
5、選階段,即尚未計(jì)算分類的情況下文檔類別c是怎么回事?這里首項(xiàng)表示整個(gè)事件的信息量,也可以認(rèn)為它表示整個(gè)事件的未知程度,或者叫做消除整個(gè)事件的位置性,需要的信息量,比方該事件有8種等可能的情況,那么我們要確定該事件具體出現(xiàn)哪種情況,那么需要3的信息量;而假設(shè)有兩種等可能的情況,那么要1的信息量.感性來(lái)講,2猜1,要比8猜1容易的多.具體到公式,后邊的對(duì)數(shù)局部表示信息的量化過(guò)程,說(shuō)的是比方我們要表示兩個(gè)數(shù),需要一位,而要表示八個(gè)數(shù),需要3位;由于對(duì)數(shù)函數(shù)在0正無(wú)窮是遞增函數(shù),但在01之間函數(shù)值為負(fù)數(shù),所以我們添加負(fù)號(hào)將值映射到0區(qū)間.這里互信息,表示知道某些條件之后,事情的不確定性降低的程度.衡量
6、的是情報(bào)的優(yōu)劣.舉個(gè)簡(jiǎn)單的例子,這就好似我們玩競(jìng)猜游戲,隨著主持人對(duì)某件事情描述信息的增多,我們漸漸可以準(zhǔn)確判斷某件事情,而主持人的描述信息中有些很關(guān)鍵,有些那么相對(duì)平淡,這里主持人的關(guān)鍵描述的互信息就比擬高:由于可以很大程度消除事物的不確定性.這里信息增益考慮的比擬全面,它考慮了條件t發(fā)生和沒(méi)有發(fā)生對(duì)整個(gè)事件的影響狀況,分為兩局部,第一局部為條件t發(fā)生時(shí),對(duì)整個(gè)事件的嫡的影響; 第二局部為確定條件t不發(fā)生時(shí),整個(gè)事件的嫡.首先是讓t發(fā)生之后,計(jì)算在t的條件下能夠推斷屬于類別ci的概率.這里具體到文本分類那么為,特征項(xiàng)t的出現(xiàn)與否,在t出現(xiàn)后確定這篇文章屬于類別c的概率是多少.就是看t的出現(xiàn)對(duì)
7、該文檔屬于哪一個(gè)類別的判定出現(xiàn)了哪些影響;并且信息增益不僅考慮可相關(guān)情況,也考慮了負(fù)相關(guān)的狀況,在t確定不出現(xiàn)時(shí),它對(duì)該文檔的類別判定又能起到什么效果.這樣綜合考量t的效果.不過(guò)這里也有個(gè)問(wèn)題就P表示特征項(xiàng)的出現(xiàn)與否可能并不適宜,這里我們可以設(shè)置閾值,具體計(jì)算出現(xiàn)某個(gè)次數(shù)我們認(rèn)為它表示出現(xiàn)至于特征項(xiàng)篩選中屢次提到的類別c我們認(rèn)為這是練習(xí)樣本的,即有監(jiān)督的分類,我們將事先分類好的樣本來(lái)練習(xí)分類器,期望能夠訓(xùn)練出好的分類器.期望交叉燧陽(yáng)分log置?表示文檔中出現(xiàn)了t特征,那么能確定該文檔為類別c的概率.我們能看到公式與t條件下為類別c的條件概率成正比,與無(wú)條件,文檔為類別c的概率成反比.簡(jiǎn)單來(lái)說(shuō)就
8、是,如果公式的計(jì)算值很大,那么特征t信息量很大,能夠幫助我們確定該文檔屬于類別c這種小概率事件. 產(chǎn)G很大、尸,很小,公式取到較大值互信息r=log為/f/CABCAB/la/J-類別c的文檔集合出現(xiàn)特征t的文檔集合類別C的文檔集合出現(xiàn)特征t的文檔集合兩個(gè)圓我們可以把它看作兩個(gè)集合,分別為類別c的文檔集合以及出現(xiàn)特征t的文檔集合,那么公式中的AB、C可以用兩圓相交形成的三局部表示.可見(jiàn)兩者相交局部越多A越大,公式的分子越大,分母越小,函數(shù)值越大.即文檔c和類別t的關(guān)聯(lián)程度高.開(kāi)放檢驗(yàn)AAD-ClfyAAD-Clfy0 x(4+J|x(C+DDCAB這里和期望交叉嫡是類似的,由三個(gè)圖形形成四個(gè)集
9、合,矩形表示整個(gè)文檔集合,兩個(gè)圓和上邊的含義相同,分成的四個(gè)集合分別為AB、C、Do強(qiáng)調(diào)的是特征的負(fù)相關(guān)特性,即表示出現(xiàn)特征t時(shí),不屬于類別c的概率較大.開(kāi)放檢驗(yàn)與信息增益相同,都是考慮了事物的兩個(gè)方面.這里我們舉例來(lái)闡述公式的由來(lái).DCAB這里我們假設(shè)考慮詞匯“籃球和體育類新聞的關(guān)系,其中:A表示體育類新聞中出現(xiàn)籃球的新聞集合;B表示體育類中沒(méi)有出現(xiàn)籃球的集合;C表示出現(xiàn)詞匯籃球但是非體育類的集合;D表示非體育類新聞未出現(xiàn)籃球的集合.A+B表示體育類總數(shù);C+A表示出現(xiàn)詞匯籃球的總數(shù).N=A+B+C+D這里進(jìn)行測(cè)試的類別和特征項(xiàng)將整個(gè)文檔集合劃分為四個(gè)局部:ABCD我們假設(shè)籃球特征項(xiàng)和體育類
10、別并不相關(guān),那么籃球應(yīng)該在體育類內(nèi)外都是均勻分布的(即樣本足夠大的情況下,概率接近頻率,籃球并不因體育類別的影響而出現(xiàn)更多或者更少)A-(A+C)/N*(A+B)那么表示假設(shè)籃球和體育無(wú)關(guān),籃球會(huì)出現(xiàn)在體育類的新聞數(shù)量的數(shù)學(xué)期望,實(shí)際為A所以我們可以用實(shí)際值和數(shù)學(xué)期望之間的方差來(lái)表示,籃球和體育之間的關(guān)系.方差越大,說(shuō)明籃球由于體育類而出現(xiàn)的次數(shù)更多,期望和實(shí)際值差距越大,相關(guān)程度越大.而開(kāi)放檢驗(yàn)不僅比擬正相關(guān)的情況還比擬負(fù)相關(guān)性,考慮的方面比擬多,精確度也很好.B-(A+B)/N*(B+D)表示體育類占整體的百分比,而(A+B)/N*(B+D)非籃球類(B+D)中體育類數(shù)目的數(shù)學(xué)期望(依然是
11、假設(shè)籃球和體育沒(méi)有相關(guān)性,我們認(rèn)為體育類文章在整體中是均勻出現(xiàn)的)C-(A+C)/N*(C+D)D-(B+D)/N*(C+D)這些算的都是標(biāo)準(zhǔn)差,平方之后求和得到最終的公式.分類方法:樸素貝葉斯理=argmaxargmax/V)/|c)樸素貝葉斯模型有兩個(gè)假設(shè): 所有變量對(duì)分類均是有用的,即輸出依賴于所有的屬性;這些變量是相互獨(dú)立的,即不相關(guān)的.之所以稱之為“樸素,由于這些假設(shè)從未被證實(shí)過(guò).論文中對(duì)分類方法都是一筆帶過(guò)的,對(duì)于方法的理解參考網(wǎng)上的帖子.天氣溫度濕度風(fēng)向打球晴朗執(zhí)八、高無(wú)不打晴朗執(zhí)八、高有不打陰天熱高無(wú)打卜雨 適中高無(wú)打卜雨 冷正常無(wú)打卜雨 冷正常有不打陰天正常有打晴朗適中高無(wú)不
12、打晴朗冷正常無(wú)打卜雨 適中正常無(wú)打晴朗適中正常有JTJ陰天適中高有打1陰天熱正常無(wú)打卜南 適中高有不打上邊為根據(jù)天氣狀況記錄的打球日志,現(xiàn)在已知“晴朗、氣溫冷、濕度高、有風(fēng),求打球和不打球的概率.我們將條件記為E,E1=晴朗,E2=冷,E3=高,E4=有下邊為條件概率的推倒過(guò)程:假設(shè)A、B相互獨(dú)立(樸素貝葉斯的第一個(gè)假設(shè)),那么有:P(AriB)=P(A)*PBA=P(B)*我們得到條件概率公式:P切二現(xiàn)在E求打球和不打球的概率,即可表示尸(臼駐臺(tái))尸丁匕或P(國(guó) no)P(rjo)P(司同等依賴(權(quán)值都為1)時(shí)(樸素貝葉斯的兩個(gè)假設(shè))P(Eye8)尸(El|$es)P(E2|yeE)P(3|
13、yE5)P(El|yes即E1E4依次發(fā)生,展開(kāi)為聯(lián)乘的形式.得到了樸素貝葉斯的公式.這里的計(jì)算需要在打球的情況下計(jì)算天氣為晴朗的條件概率等.這里我們將日志整理為便于閱讀的形式.天氣溫度濕度打球不打打球不打fl晴朗23高22高陰天40適中42中卜南32低31P(yes|E)*P(E)=2/9*3/9*3/9*3/9*9/14這就是樸素貝葉斯的根本內(nèi)容,當(dāng)然我們?cè)谶\(yùn)用它的時(shí)候,要牢記它的兩個(gè)假設(shè),就好似沒(méi)有絕對(duì)的自由一樣,樸P岡E)=P(no|E)=在指標(biāo)相互獨(dú)立的情況下,且結(jié)果對(duì)四個(gè)指標(biāo)素貝葉斯的應(yīng)用也基于一定的前提.而結(jié)果依賴所有的指標(biāo)在實(shí)際生活中極有可能不成立,比方我們選擇的某個(gè)指標(biāo)對(duì)結(jié)果
14、具有指導(dǎo)意義的,那么這便不再是等概率事件(結(jié)果平等的依賴各項(xiàng)指標(biāo)).比方我們計(jì)算“陰天時(shí)打球的概率我們發(fā)現(xiàn)為4/4概率為1陰天完全確定打球,與假設(shè)不相符.這是如果我們要運(yùn)用樸素貝葉斯方法,那么需要處理數(shù)據(jù)的鋸齒問(wèn)題.我們需要平滑數(shù)據(jù)(40的變換更加緩和,比方 變 成4.10.2). 拉 普 拉 斯 估 計(jì) 最 為 簡(jiǎn) 單 古 老 , 而Good-Turing那么平滑效果較好.再有就是圖中舉例的數(shù)據(jù)類型都是離散的,例如我們將溫度歸為“高中低三類,而更加實(shí)際的情況為溫度的取值是連續(xù)的變量.這是我們通常那么假設(shè)數(shù)值屬性的取值服從正態(tài)分布.樸素貝葉斯在文檔分類中應(yīng)用具體公式表示為:p(cy|d)ocp
15、(cj)JJp(wdikcj)k1即給定一篇文檔d,計(jì)算它是類別cj的概率等于類別cj在練習(xí)文檔中的概率與文檔d中特征k在類別cj中出現(xiàn)的概率之積.除了樸素貝葉斯的兩個(gè)假設(shè),這里依然平等的對(duì)待每個(gè)特征k每一項(xiàng)權(quán)重都為1.但是在實(shí)際的文檔當(dāng)中,不同的特征項(xiàng)出現(xiàn)的頻數(shù)不同,重要程度不同,再有k不應(yīng)該是簡(jiǎn)單的遍歷,舉個(gè)例子,比方說(shuō)某個(gè)特征項(xiàng)如果在文檔d中僅出現(xiàn)過(guò)一次,但是在類別cj中該特征項(xiàng)屢次出現(xiàn),那么計(jì)算時(shí)概率值偏大與實(shí)際值不符,出現(xiàn)了分類誤差.所以應(yīng)該是選取文檔中具有代表性的出現(xiàn)頻數(shù)高與某個(gè)閾值的特征項(xiàng)進(jìn)行計(jì)算;或者針對(duì)不同的特征項(xiàng)進(jìn)行權(quán)重的計(jì)算:特征k在文檔中出現(xiàn)的頻數(shù)/特征項(xiàng)在類別cj中在
16、每篇文章中平均出現(xiàn)的頻數(shù).感性的描述該分類方法的話:我認(rèn)為它使用一組指標(biāo)一組特征項(xiàng)及其出現(xiàn)的頻數(shù)來(lái)描述一個(gè)事物文檔類別.對(duì)于未知的事物測(cè)試文檔,我們知道它的描述信息,或者它相應(yīng)的指標(biāo)描述特征項(xiàng)及其出現(xiàn)的頻數(shù),通過(guò)指標(biāo)的相應(yīng)比照,我們判斷未知文檔和該類別的相似度,從而為判斷未知文檔的類別提供線索.分類方法:K-近鄰根本思路為將所有樣本映射到一個(gè)空間內(nèi),然后通過(guò)相似度的計(jì)算比擬與測(cè)試樣本最近似的K個(gè)樣本,選擇這K個(gè)樣本屬于類別最多的那個(gè)類別.針對(duì)不同的練習(xí)集合,選定映射空間與選擇適宜的特征和閾值K是很重要的工作.分類方法:支持向量機(jī)支持向量機(jī)方法建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小的理論根
17、底上,根據(jù)有限的樣本信息在模型的復(fù)雜性即對(duì)特定練習(xí)樣本的學(xué)習(xí)精度和學(xué)習(xí)水平即無(wú)錯(cuò)誤地識(shí)別任意樣VC維是對(duì)函數(shù)類型的一種度量,可以簡(jiǎn)單理解為問(wèn)題的復(fù)雜程度.VC維越高,一個(gè)問(wèn)題就越復(fù)雜.1風(fēng)險(xiǎn)機(jī)器學(xué)習(xí)本質(zhì)上就是一種對(duì)問(wèn)題真實(shí)模型的逼近 我們選擇一個(gè)我們認(rèn)為比擬好的近似模型,這個(gè)近似模型就叫本的水平之間尋求最正確折中,以期獲得最好的推廣水平泛化水平VC隹理論O模型的復(fù)雜性即卡對(duì)特定練習(xí)樣本的學(xué)習(xí)精度支持向量機(jī)獲得最好的泛化水平結(jié)構(gòu)風(fēng)險(xiǎn)最小理論學(xué)習(xí)水平無(wú)錯(cuò)誤地識(shí)別任意樣本的水平做一個(gè)假設(shè).由于真實(shí)模型不知道,所以我們不知道我們的假設(shè)與問(wèn)題真實(shí)解之間有多大差距.就好比問(wèn)題的真實(shí)模型是橢圓,我們可以用矩
18、形逼近它,或者我們用圓形去逼近它,這都是可行的近似模型.我們稱假設(shè)與問(wèn)題真實(shí)解之間的誤差叫做風(fēng)險(xiǎn).2經(jīng)驗(yàn)風(fēng)險(xiǎn)真實(shí)風(fēng)險(xiǎn)=經(jīng)驗(yàn)風(fēng)險(xiǎn)我們得到一個(gè)分類器之后,由于問(wèn)題的真實(shí)解我們不知道,所以真實(shí)誤差無(wú)從得知,但是我們可以使用信息來(lái)逼近它.我們使用分類器在樣本數(shù)據(jù)的分類結(jié)果和真實(shí)結(jié)果 樣本是分類明確的數(shù)據(jù) 之間的差值-經(jīng)驗(yàn)風(fēng)險(xiǎn)來(lái)近似衡量真實(shí)風(fēng)險(xiǎn).所以人們都致力于最小化經(jīng)驗(yàn)誤差,比如使用更復(fù)雜的分類函數(shù),對(duì)樣本進(jìn)行精確分類,但是這樣做的后果就是極有可能分錯(cuò)練習(xí)樣本之外的數(shù)據(jù).由于更加復(fù)雜的分類函數(shù)精確的描述刻畫(huà)練習(xí)樣本的特征,但是樣本的數(shù)量和樣本的分布使得結(jié)果卻像盲人摸象一樣,不能對(duì)事物的整體進(jìn)行很好的描
19、述,導(dǎo)致練習(xí)好的分類器泛化水平差.真實(shí)誤差!=經(jīng)驗(yàn)誤差3置信誤差我們使用經(jīng)驗(yàn)誤差來(lái)評(píng)估分類器在樣本上的表現(xiàn),使用置信誤差評(píng)估我們對(duì)分類器在未知文本上分類的結(jié)果信任程度.置信誤差與兩個(gè)量有關(guān):樣本數(shù)量+VC維.分類函數(shù)越復(fù)雜VC維越大,置信風(fēng)險(xiǎn)變大;而樣本數(shù)量越大、分布越廣,那么樣本代表真實(shí)問(wèn)題的水平越強(qiáng),置信風(fēng)險(xiǎn)越小.泛化誤差界:R(w)11fi1FAI卜一-x、鼻/q-qjlxjx1%其中自變量y是三維的,并且次數(shù)都為1,而因變量f(y)=是一維的,所以是四維空間的線性函數(shù).現(xiàn)在流程變成這樣,對(duì)于線性不可分?jǐn)?shù)據(jù)我們通過(guò)低維向高維映射的方式轉(zhuǎn)化為線性可分的,之后使用高維的函數(shù)求解樣本點(diǎn)到分類面
20、的距離.而這中間,核函數(shù)就是我們的捷徑,它接受低維的輸入,并產(chǎn)生映射后高維的向量的內(nèi)積.回想我們上節(jié)說(shuō)的求一個(gè)線性分類器,它的形式應(yīng)該是:f(X)=之4Nv葉產(chǎn)“現(xiàn)在這個(gè)就是高維空間里的線性函數(shù),函數(shù)的名稱和代表這是映射之后的線性函數(shù).我們就可以用一個(gè)低維空間里的核函數(shù)非線性函數(shù)來(lái)代替:g g力=%力+為/=1/=1松弛化這里主要將的是容錯(cuò)水平,比方上邊的分類器會(huì)由于極個(gè)別的樣本很有可能是噪聲到分類面的距離無(wú)法滿足大于1而無(wú)解有A類樣本點(diǎn)混在B類樣本中.這是其實(shí)并不是我們的分類器不夠好,而更有可能是出現(xiàn)了噪點(diǎn),而上述分類器屬于硬間隔分類器,受離散點(diǎn)、噪點(diǎn)的影響大.我們要做的就是針對(duì)某些點(diǎn)允許他
21、們到分類面的距離1.引入的松弛變量,實(shí)現(xiàn)對(duì)噪點(diǎn)的容忍,變成軟間隔分類.對(duì)與+叫之1-1-C是樣本數(shù)盤(pán)之0 0而我們可以根據(jù)樣本的分布情況,將松弛變量參加到風(fēng)險(xiǎn)評(píng)估中,表示你對(duì)離散點(diǎn)的重視程度.多類別分類就好似,我們知道兩個(gè)數(shù)比擬大小的方法后,相同類別的一群數(shù)字進(jìn)行排序也是相似的,我們根據(jù)規(guī)那么拆成兩兩比照的情況就可以實(shí)現(xiàn)排序,這中間根據(jù)規(guī)那么的不同就分為冒泡排序、選擇排序、快速排序、二路歸并等等.分類方法:決策樹(shù)機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型;樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)屬性,而每個(gè)分叉路徑代表某個(gè)可能的屬性值,而每個(gè)葉節(jié)點(diǎn)到根節(jié)點(diǎn)所經(jīng)歷的路徑表示對(duì)象的值.從數(shù)據(jù)產(chǎn)生決策樹(shù)的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹(shù)學(xué)
22、習(xí).決策樹(shù)就是一種依托于分類、練習(xí)上的預(yù)測(cè)樹(shù),根據(jù)預(yù)測(cè)未來(lái).其實(shí)決策樹(shù)直接用例子來(lái)描述更加直觀易懂.下邊給出一個(gè)根據(jù)天氣情況確定每天是否打球的日志.DayOutlookTemperatureHumidityWindPlayTennisd1SunnyHotHighWeakNod2SunnyHotHighStrongNod3OvercastHotHighWeakYesd4RainMildHighWeakYesd5RainCoolNormalWeakYesd6RainCoolNormalStrongNod7OvercastCoolNormalStrongYesd8SunnyMildHighWeakN
23、od9SunnyCoolNormalWeakYesd10RainMildNormalWeakYesd11SunnyMildNormalStrongYesd12OvercastMildHighStrongYesd13OvercastHotNormalWeakYesd14RainMildHighStrongNo每天的天色、氣溫、濕度、風(fēng)度與是否打球的outlooknormalstrongweakyesnoyes的日志.根據(jù)條件生成的決策樹(shù)如下:我們使用三個(gè)屬性:天色、氣溫、濕度、風(fēng)度四個(gè)屬性sunnyovercastrainhumiditywindyeshighno來(lái)描述是否打球這件事情,每個(gè)屬性
24、都有假設(shè)干個(gè)屬性值,而四個(gè)類別中不同的屬性值組合在一起就確定了打球或不打球這件事.非葉節(jié)點(diǎn)都是屬性,而屬性的不同屬性值對(duì)應(yīng)分岔路徑;葉節(jié)點(diǎn)為是否打球這個(gè)結(jié)果.而葉節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑那么可以對(duì)應(yīng)產(chǎn)生該事件的依據(jù).比方sunny+high路徑確定了今天不打球.這里本來(lái)有四個(gè)屬性,但是樣本值偏少以至于我們實(shí)際使用三個(gè)屬性就把事情的結(jié)果確定下來(lái)啦.(Outlook=SunnyAHumidity-Normal)v(Outlook-Overcast)v(Outlook-RainAWind-Weak)這就是我們的決策樹(shù)表達(dá)式.比方:今天下雨、氣溫偏低、風(fēng)力很強(qiáng),我們那么可以講條件帶入表達(dá)式,結(jié)果為0表示今天
25、不打球.決策樹(shù)的生成我們?cè)趯W(xué)數(shù)據(jù)結(jié)構(gòu)的時(shí)候?qū)W到,評(píng)價(jià)一棵樹(shù)的好壞指標(biāo)很多,比方它的深度、是否平衡等等.同樣,決策樹(shù)的深度和平衡與否也影響著決策樹(shù)的性能.所以我們需要慎重考慮,使用好的策略,生成一顆優(yōu)質(zhì)的決策樹(shù).我們?nèi)绾未_定屬性在決策樹(shù)中的分布?這里使用的指標(biāo)為信息增益.這里感性的聊一聊好了,我們判斷某個(gè)情報(bào)的重要程度:通常通過(guò)獲取該情報(bào)后,對(duì)某個(gè)未知事件的不確定性減小的程度.就好似電視節(jié)目中的根據(jù)描述猜某樣?xùn)|西一樣,隨著時(shí)間的推進(jìn)我們知道的信息越來(lái)越多,我們猜中的概率越來(lái)越大,未知事物的不確定性越來(lái)越小,這就得益于我們信息的增多.信息增益就是描述的這條情報(bào)的重要程度.C CEntropy(S)三工-訪log2如i=i我們以上邊的打球?yàn)槔?現(xiàn)在什么條件都不給,整個(gè)打球或不打球的集合為
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度星海征途項(xiàng)目桉樹(shù)種植與農(nóng)業(yè)科技創(chuàng)新合同3篇
- 二零二五賓館股權(quán)轉(zhuǎn)讓與安全風(fēng)險(xiǎn)評(píng)估合同3篇
- 二零二五版光伏發(fā)電工程承攬合同模板-施工與運(yùn)營(yíng)維護(hù)3篇
- 西交利物浦大學(xué)《材料表面處理實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 西安理工大學(xué)高科學(xué)院《遙感概論理論》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年高校畢業(yè)生就業(yè)服務(wù)區(qū)域合作與資源共享協(xié)議3篇
- 2024版軟件許可及服務(wù)合同
- 二零二五年度班組施工退場(chǎng)工程遺留問(wèn)題處理、移交及結(jié)算合同3篇
- 二零二五年度高端商業(yè)空間裝修材料供應(yīng)與施工安裝合同3篇
- 天津外國(guó)語(yǔ)大學(xué)《圖書(shū)情報(bào)學(xué)研究方法》2023-2024學(xué)年第一學(xué)期期末試卷
- 15.5-博物館管理法律制度(政策與法律法規(guī)-第五版)
- 水泥廠鋼結(jié)構(gòu)安裝工程施工方案
- 2023光明小升初(語(yǔ)文)試卷
- 三年級(jí)上冊(cè)科學(xué)說(shuō)課課件-1.5 水能溶解多少物質(zhì)|教科版
- GB/T 7588.2-2020電梯制造與安裝安全規(guī)范第2部分:電梯部件的設(shè)計(jì)原則、計(jì)算和檢驗(yàn)
- GB/T 14600-2009電子工業(yè)用氣體氧化亞氮
- 小學(xué)道德與法治學(xué)科高級(jí)(一級(jí))教師職稱考試試題(有答案)
- 河北省承德市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)
- 實(shí)用性閱讀與交流任務(wù)群設(shè)計(jì)思路與教學(xué)建議
- 應(yīng)急柜檢查表
- 通風(fēng)設(shè)施標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論