樸素貝葉斯文本分類器

上傳人：9*** IP屬地：湖北上傳時間：2023-02-06 格式：PPTX 頁數(shù)：23 大小：190.86KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩18頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于樸素貝葉斯分類器文本分類物電.12計研

基于樸素貝葉斯分類器文本分類

1.貝葉斯定理在分類中的應(yīng)用2.樸素貝葉斯分類器3.樸素貝葉斯文本分類算法3.1.多項(xiàng)式模型3.2伯努力模型1.貝葉斯定理在分類中的應(yīng)用

分類(classification):常常需要把一個事物分到某個類別。一個事物具有很多屬性，把它的眾多屬性看做一個向量，即X=(x1,x2,x3,…,xn)，用x這個向量來代表這個事物。類別也是有很多種，用集合Y={y1,y2,…ym}表示。如果x屬于y1類別，就可以給x打上y1標(biāo)簽，意思是說x屬于y1類別。這就是所謂的分類(Classification)。1.貝葉斯定理在分類中的應(yīng)用x的集合記為X，稱為屬性集。一般X和Y的關(guān)系是不確定的，你只能在某種程度上說x有多大可能性屬于類y1，比如說x有80%的可能性屬于類y1，這時可以把X和Y看做是隨機(jī)變量，P(Y|X)稱為Y的后驗(yàn)概率（posteriorprobability），與之相對的，P(Y)稱為Y的先驗(yàn)概率（priorprobability）。1.貝葉斯定理在分類中的應(yīng)用在訓(xùn)練階段，我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息，對X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(Y|X)。分類時，來了一個實(shí)例x，在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出所有的P(Y|x)，其中最大的那個y，即為x所屬分類。1.貝葉斯定理在分類中的應(yīng)用在訓(xùn)練階段，我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息，對X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(Y|X)。分類時，來了一個實(shí)例x，在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出所有的P(Y|X=x)，其中最大的那個y，即為x所屬分類。根據(jù)貝葉斯公式，后驗(yàn)概率為:實(shí)際中只考慮最值問題即可1.貝葉斯定理在分類中的應(yīng)用考慮一個醫(yī)療診斷問題，有兩種可能的假設(shè)：（1）病人有癌癥。（2）病人無癌癥。樣本數(shù)據(jù)來自某化驗(yàn)測試，它也有兩種可能的結(jié)果：陽性和陰性。假設(shè)我們已經(jīng)有先驗(yàn)知識：在所有人口中只有0.008的人患病。此外，化驗(yàn)測試對有病的患者有98%的可能返回陽性結(jié)果，對無病患者有97%的可能返回陰性結(jié)果。1.貝葉斯定理在分類中的應(yīng)用上面的數(shù)據(jù)可以用以下概率式子表示：P(cancer)=0.008,P(無cancer)=0.992P(陽性|cancer)=0.98,P(陰性|cancer)=0.02P(陽性|無cancer)=0.03，P(陰性|無cancer)=0.97假設(shè)現(xiàn)在有一個新病人，化驗(yàn)測試返回陽性，是否將病人斷定為有癌癥呢？在這里，Y={cancer，無cancer}，共兩個類別，這個新病人是一個樣本，他有一個屬性陽性，可以令x=(陽性)。1.貝葉斯定理在分類中的應(yīng)用我們可以來計算各個類別的后驗(yàn)概率：P(cancer|陽性)=P(陽性|cancer)p(cancer)=0.98*0.008=0.0078P(無cancer|陽性)=P(陽性|無cancer)*p(無cancer)=0.03*0.992=0.0298因此，應(yīng)該判斷為無癌癥。歸一處理：P(癌癥)=0.0078/（0.0078+0.0298）=0.207P（無癌癥）=0.7932.樸素貝葉斯分類器

條件獨(dú)立性：

樸素貝葉斯分類器基于一個簡單的假設(shè)：在給定目標(biāo)屬性之間是相互獨(dú)立的。舉例：｛Machine,learning}:最可能的目標(biāo)值2.樸素貝葉斯分類器

P(xi|Y=y)怎么計算呢？

它一般根據(jù)類別y下包含屬性xi的實(shí)例的比例來估計。以文本分類為例，xi表示一個單詞，P(xi|Y=y)=包含該類別下包含單詞的xi的文章總數(shù)/該類別下的文章總數(shù)。2.樸素貝葉斯分類器當(dāng)訓(xùn)練樣本不能覆蓋那么多的屬性值時，都會出現(xiàn)上述的窘境。簡單的使用樣本比例來估計類條件概率的方法太脆弱了，尤其是當(dāng)訓(xùn)練樣本少而屬性數(shù)目又很大時。解決方法是使用m估計(m-estimate)方法來估計條件概率：2.樸素貝葉斯分類器n是類yj中的樣本總數(shù)，nc是類yj中取值xi的樣本數(shù)，m是稱為等價樣本大小的參數(shù)，而p是用戶指定的參數(shù)。如果沒有訓(xùn)練集（即n=0），則P(xi|yj)=pm=|V|時，就是多項(xiàng)式模型m=2時，就是伯努利模型3.樸素貝葉斯文本分類算法文本分類問題

在文本分類中，假設(shè)我們有一個文檔d∈X，X是文檔向量空間(documentspace)，和一個固定的類集合C={c1,c2,…,cj}，類別又稱為標(biāo)簽。顯然，文檔向量空間是一個高維度空間。我們把一堆打了標(biāo)簽的文檔集合<d,c>作為訓(xùn)練樣本，<d,c>∈X×C。例如：<d,c>={BeijingjoinstheWorldTradeOrganization,China}對于這個只有一句話的文檔，我們把它歸類到China，即打上china標(biāo)簽。

我們期望用某種訓(xùn)練算法，訓(xùn)練出一個函數(shù)γ，能夠?qū)⑽臋n映射到某一個類別：γ:X→C

目的：3.樸素貝葉斯文本分類算法在多項(xiàng)式模型中，設(shè)某文檔d=(t1,t2,…,tk)，tk是該文檔中出現(xiàn)過的單詞，允許重復(fù)，則先驗(yàn)概率P(c)=類c下單詞總數(shù)/整個訓(xùn)練樣本的單詞總數(shù)類條件概率P(tk|c)=(類c下單詞tk在各個文檔中出現(xiàn)過的次數(shù)之和+1)/(類c下單詞總數(shù)+|V|)V是訓(xùn)練樣本的單詞表（即抽取單詞，單詞出現(xiàn)多次，只算一個），|V|則表示訓(xùn)練樣本包含多少種單詞。在這里，m=|V|,p=1/|V|。3.1多項(xiàng)式模型3.樸素貝葉斯文本分類算法doc

doc類別Inc=china1ChineseBeijingChineseyes2ChineseChineseShanghaiyes3ChineseMacaoyes4TokyoJapanChineseno3.1多項(xiàng)式模型例子：給定一個新樣本ChineseChineseChineseTokyoJapan，對其進(jìn)行分類。3.樸素貝葉斯文本分類算法該文本用屬性向量表示為d=(Chinese,Chinese,Chinese,Tokyo,Japan)，類別集合為Y={yes,no}。類yes下總共有8個單詞，類no下總共有3個單詞，訓(xùn)練樣本單詞總數(shù)為11，因此P(yes)=8/11,P(no)=3/11。類條件概率計算如下：P(Chinese|yes)=(5+1)/(8+6)=6/14=3/7P(Japan|yes)=P(Tokyo|yes)=(0+1)/(8+6)=1/14P(Chinese|no)=(1+1)/(3+6)=2/9P(Japan|no)=P(Tokyo|no)=(1+1)/(3+6)=2/93.1多項(xiàng)式模型分析：3.樸素貝葉斯文本分類算法有了以上類條件概率，開始計算后驗(yàn)概率，P(yes|d)=(3/7)3×1/14×1/14×8/11=108/184877≈0.00058417P(no|d)=(2/9)3×2/9×2/9×3/11=32/216513≈0.00014780因此，這個文檔屬于類別china。3.1多項(xiàng)式模型分析：3.樸素貝葉斯文本分類算法P(c)=類c下文件總數(shù)/整個訓(xùn)練樣本的文件總數(shù)P(tk|c)=(類c下包含單詞tk的文件數(shù)+1)/(類c下單詞總數(shù)+2)在這里，m=2,p=1/2。在這里，后驗(yàn)概率的求法也不同3.2伯努利模型3.樸素貝葉斯文本分類算法還是使用前面例子中的數(shù)據(jù)，不過模型換成了使用伯努利模型。類yes下總共有3個文件，類no下有1個文件，訓(xùn)練樣本文件總數(shù)為11，因此P(yes)=3/4,P(Chinese|yes)=(3+1)/(3+2)=4/5P(Japan|yes)=P(Tokyo|yes)=(0+1)/(3+2)=1/5P(Beijing|yes)=P(Macao|yes)=P(Shanghai|yes)=(1+1)/(3+2)=2/5P(Chinese|no)=(1+1)/(1+2)=2/3P(Japan|no)=P(Tokyo|no)=(1+1)/(1+2)=2/3P(Beijing|no)=P(Macao|no)=P(Shanghai|no)=(0+1)/(1+2)=1/33.2伯努利模型3.樸素貝葉斯文本分類算法分析：給定一個新樣本ChineseChineseChineseTokyoJapan，對其進(jìn)行分類。P(yes|d)=P(yes)×P(Chinese|yes)×P(Japan|yes)×P(Tokyo|yes)×(1-P(Beijing|yes))×(1-P(Shanghai|yes))×(1-P(Macao|yes))=3/4×4/5×1/5×1/5×(1-2/5)×(1-2/5)×(1-2/5)=81/15625≈0.005P(no|d)=1/4×2/3×2/3×2/3×(1-1/3)×(1-1/3)×(1-1/3)=16/729≈0.022因此，這個文檔不屬

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

樸素貝葉斯文本分類器

文檔簡介

溫馨提示

最新文檔

評論

樸素貝葉斯文本分類器

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔