樸素貝葉斯分類(lèi)器完整_第1頁(yè)
樸素貝葉斯分類(lèi)器完整_第2頁(yè)
樸素貝葉斯分類(lèi)器完整_第3頁(yè)
樸素貝葉斯分類(lèi)器完整_第4頁(yè)
樸素貝葉斯分類(lèi)器完整_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、分類(lèi)器分類(lèi)器陳世超1什么是分類(lèi)器?什么是分類(lèi)器?分類(lèi)是數(shù)據(jù)挖掘的一種非常重要的方法。分類(lèi)的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或構(gòu)造出一個(gè)分類(lèi)模型(即我們通常所說(shuō)的分類(lèi)器(Classifier))。該函數(shù)或模型能夠把數(shù)據(jù)庫(kù)中的數(shù)據(jù)紀(jì)錄映射到給定類(lèi)別中的某一個(gè),從而可以應(yīng)用于數(shù)據(jù)預(yù)測(cè)??傊诸?lèi)器是數(shù)據(jù)挖掘中對(duì)樣本進(jìn)行分類(lèi)的方法的統(tǒng)稱(chēng).2分類(lèi)器的構(gòu)造和實(shí)施分類(lèi)器的構(gòu)造和實(shí)施分類(lèi)器的構(gòu)造和實(shí)施大體會(huì)經(jīng)過(guò)以下幾個(gè)步驟:選定樣本(包含正樣本和負(fù)樣本),將所有樣本分成訓(xùn)練樣本和測(cè)試樣本兩部分。在訓(xùn)練樣本上執(zhí)行分類(lèi)器算法,生成分類(lèi)模型。在測(cè)試樣本上執(zhí)行分類(lèi)模型,生成預(yù)測(cè)結(jié)果。根據(jù)預(yù)測(cè)結(jié)果,計(jì)算必要的評(píng)

2、估指標(biāo),評(píng)估分類(lèi)模型的性能。3影響分類(lèi)器準(zhǔn)確度的因素影響分類(lèi)器準(zhǔn)確度的因素 (1)、訓(xùn)練集的記錄數(shù)量。生成器要利用訓(xùn)練集進(jìn)行學(xué)習(xí),因而訓(xùn)練集越大,分類(lèi)器也就越可靠。然而,訓(xùn)練集越大,生成器構(gòu)造分類(lèi)器的時(shí)間也就越長(zhǎng)。錯(cuò)誤率改善情況隨訓(xùn)練集規(guī)模的增大而降低。 (2)、屬性的數(shù)目。更多的屬性數(shù)目對(duì)于生成器而言意味著要計(jì)算更多的組合,使得生成器難度增大,需要的時(shí)間也更長(zhǎng)。有時(shí)隨機(jī)的關(guān)系會(huì)將生成器引入歧途,結(jié)果可能構(gòu)造出不夠準(zhǔn)確的分類(lèi)器(這在技術(shù)上被稱(chēng)為過(guò)分?jǐn)M合)。因此,如果我們通過(guò)常識(shí)可以確認(rèn)某個(gè)屬性與目標(biāo)無(wú)關(guān),則將它從訓(xùn)練集中移走。 (3)、屬性中的信息。有時(shí)生成器不能從屬性中獲取足夠的信息來(lái)正確、

3、低錯(cuò)誤率地預(yù)測(cè)標(biāo)簽(如試圖根據(jù)某人眼睛的顏色來(lái)決定他的收入)。加入其他的屬性(如職業(yè)、每周工作小時(shí)數(shù)和年齡),可以降低錯(cuò)誤率。 (4)、待預(yù)測(cè)記錄的分布。如果待預(yù)測(cè)記錄來(lái)自不同于訓(xùn)練集中記錄的分布,那么錯(cuò)誤率有可能很高。比如如果你從包含家用轎車(chē)數(shù)據(jù)的訓(xùn)練集中構(gòu)造出分類(lèi)器,那么試圖用它來(lái)對(duì)包含許多運(yùn)動(dòng)用車(chē)輛的記錄進(jìn)行分類(lèi)可能沒(méi)多大用途,因?yàn)閿?shù)據(jù)屬性值的分布可能是有很大差別的。4對(duì)分類(lèi)器的錯(cuò)誤率進(jìn)行評(píng)估的方法對(duì)分類(lèi)器的錯(cuò)誤率進(jìn)行評(píng)估的方法(1) 保留方法(Holdout):記錄集中的一部分(通常是2/3)作為訓(xùn)練集,保留剩余的部分用作測(cè)試集。生成器使用2/3 的數(shù)據(jù)來(lái)構(gòu)造分類(lèi)器,然后使用這個(gè)分類(lèi)器

4、來(lái)對(duì)測(cè)試集進(jìn)行分類(lèi),得出的錯(cuò)誤率就是評(píng)估錯(cuò)誤率。(2) 交叉糾錯(cuò)方法(Cross validation):數(shù)據(jù)集被分成k 個(gè)沒(méi)有交叉數(shù)據(jù)的子集,所有子集的大小大致相同。生成器訓(xùn)練和測(cè)試共k 次;每一次,生成器使用去除一個(gè)子集的剩余數(shù)據(jù)作為訓(xùn)練集,然后在被去除的子集上進(jìn)行測(cè)試。把所有得到的錯(cuò)誤率的平均值作為評(píng)估錯(cuò)誤率。交叉糾錯(cuò)法可以被重復(fù)多次(t),對(duì)于一個(gè)t 次k 分的交叉糾錯(cuò)法,k *t 個(gè)分類(lèi)器被構(gòu)造并被評(píng)估,這意味著交叉糾錯(cuò)法的時(shí)間是分類(lèi)器構(gòu)造時(shí)間的k *t 倍。增加重復(fù)的次數(shù)意味著運(yùn)行時(shí)間的增長(zhǎng)和錯(cuò)誤率評(píng)估的改善。我們可以對(duì)k 的值進(jìn)行調(diào)整,將它減少到3 或5,這樣可以縮短運(yùn)行時(shí)間。然

5、而,減小訓(xùn)練集有可能使評(píng)估產(chǎn)生更大的偏差。5貝葉斯分類(lèi)算法貝葉斯分類(lèi)算法定義:假設(shè)X是類(lèi)的標(biāo)號(hào)未知的數(shù)據(jù)樣本。設(shè)H為某種假定,如數(shù)據(jù)樣本X屬于某特定的類(lèi)C。對(duì)于分類(lèi)問(wèn)題,我們希望確定P(H|X),即給定觀測(cè)數(shù)據(jù)樣本X,假定H成立的概率。貝葉斯定理給出了如下的計(jì)算P(H|X)的簡(jiǎn)單有效的方法:P(H|X)=(P(X|H)*P(H))/P(X)P(H)是先驗(yàn)概率,P(X|H)代表假設(shè)H成立的情況下,觀察到X的概率。P(H|X)是后驗(yàn)概率。例如,假定數(shù)據(jù)樣本域由水果組成,用它們的顏色和形狀來(lái)描述。假定X表示紅色和圓的,H表示假定X是蘋(píng)果,則P(H|X)反應(yīng)當(dāng)我們看到X是紅色并是圓的的時(shí)候,我們對(duì)X是

6、蘋(píng)果的確信程度。貝葉斯分類(lèi)對(duì)兩種數(shù)據(jù)具有較好的分類(lèi)效果:一種是完全獨(dú)立的數(shù)據(jù),另一種是函數(shù)依賴(lài)的數(shù)據(jù)6簡(jiǎn)單的說(shuō),貝葉斯定理是基于假設(shè)的先驗(yàn)概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率,提供了一種計(jì)算后驗(yàn)概率的方法。在人工智能領(lǐng)域,貝葉斯方法是一種非常具有代表性的不確定性知識(shí)表示和推理方法。7樸素貝葉斯分類(lèi)算法樸素貝葉斯分類(lèi)算法樸素貝葉斯是貝葉斯證據(jù)獨(dú)立的表達(dá)形式,屬于一種特例。實(shí)際應(yīng)用過(guò)程中貝葉斯表達(dá)式非常復(fù)雜,但是我們希望把它拆分成多個(gè)樸素貝葉斯來(lái)表達(dá),這樣能夠快速獲得后驗(yàn)概率。8樸素貝葉斯的基本思想:對(duì)于給定的待分類(lèi)項(xiàng)xa1,a2.an,求解在此項(xiàng)中出現(xiàn)的條件下各類(lèi)別ci出現(xiàn)的概率。哪個(gè)P(ci|

7、x)最大,就把此待分類(lèi)項(xiàng)歸屬于哪個(gè)類(lèi)別。9樸素貝葉斯分類(lèi)算法過(guò)程樸素貝葉斯分類(lèi)算法過(guò)程1。每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量X=x1,x2,.xn表示,分別描述對(duì)n個(gè)屬性A1,A2,.,An樣本的n個(gè)度量。2。假定有m個(gè)類(lèi)C1,C2,.Cm,給定一個(gè)位置的數(shù)據(jù)樣本X,分類(lèi)器將預(yù)測(cè)X屬于具有最高后驗(yàn)概率的類(lèi)。也就是說(shuō),樸素貝葉斯分類(lèi)將未知的樣本分配給類(lèi)Ci(1=iP(Cj|X),對(duì)任意的j=1,2,。m,j不等于i。這樣,最大化P(Ci|X)。其P(Ci|X)最大的類(lèi)Ci稱(chēng)為最大后驗(yàn)假定。根據(jù)貝葉斯定理:103。由于P(X)對(duì)于所有類(lèi)為常數(shù),只需要P(X|Ci)*P(Ci)最大即可。如果Ci類(lèi)的先驗(yàn)

8、概率未知,則通常假定這些類(lèi)是等概率的,即P(C1)=P(C2)=P(C3)=.=P(Cm),因此就轉(zhuǎn)換為對(duì)P(X|Ci)的最大化(P(X|Ci)常被稱(chēng)為給定Ci時(shí)數(shù)據(jù)X的似然度,而使P(X|Ci)最大的假設(shè)Ci稱(chēng)為最大似然度)。否則,需要最大化P(X|Ci)*P(Ci)。 注意,類(lèi)的先驗(yàn)概率可以用P(Ci)=si/s計(jì)算,其中si是Ci中的訓(xùn)練樣本數(shù),s是訓(xùn)練樣本總數(shù)。114。給定具有許多屬性的數(shù)據(jù)集,計(jì)算P(X|Ci)的開(kāi)銷(xiāo)可能非常大。為降低P(X|Ci)的開(kāi)銷(xiāo),可以做類(lèi)條件獨(dú)立的樸素假定。給定樣本的類(lèi)標(biāo)號(hào),假定屬性值相互條件獨(dú)立,即在屬性間,不存在依賴(lài)關(guān)系。這樣只需考慮分子:其中概率P(x

9、1|Ci),P(x2|Ci),.P(xn|Ci)可以由訓(xùn)練樣本估值。如果Ak是離散屬性,則P(xk|Ci)=sik|si,其中sik是在屬性Ak上具有xk的類(lèi)Ci的訓(xùn)練樣本數(shù),而si是Ci中的訓(xùn)練樣本數(shù)。如果Ak是連續(xù)值屬性,則通常假定該屬性服從高斯分布。因而125。對(duì)未知樣本X分類(lèi),也就是對(duì)每個(gè)類(lèi)Ci,計(jì)算P(X|Ci)*P(Ci)。樣本X被指到類(lèi)Ci,當(dāng)且僅當(dāng)P(Ci|X)P(Cj|X),1=j=m,j不等于i,換言之,X被指派到其P(X|Ci)*P(Ci)最大的類(lèi)。1314貝葉斯算法的處理流程:貝葉斯算法的處理流程:第一階段:準(zhǔn)備階段該階段為樸素貝葉斯分類(lèi)做必要的準(zhǔn)備。主要是依據(jù)具體情況

10、確定特征屬性,并且對(duì)特征屬性進(jìn)行適當(dāng)劃分。然后就說(shuō)對(duì)一部分待分類(lèi)項(xiàng)進(jìn)行人人工劃分,以確定訓(xùn)練樣本。工劃分,以確定訓(xùn)練樣本。這一階段的輸入是所有待分類(lèi)項(xiàng),輸出是特征屬性和訓(xùn)練樣本。分類(lèi)器的質(zhì)量很大程度上依賴(lài)于特征屬性及其劃分以及訓(xùn)練樣本的質(zhì)量。15第二階段:分類(lèi)器訓(xùn)練階段主要工作是計(jì)算每個(gè)類(lèi)別在訓(xùn)練樣本中出現(xiàn)頻率頻率以及每個(gè)特征屬性劃分對(duì)每個(gè)類(lèi)別的條件概率估計(jì)概率估計(jì)。輸入是特征屬性和訓(xùn)練樣本,輸出是分類(lèi)器。16第三階段:應(yīng)用階段這個(gè)階段的任務(wù)就是使用分類(lèi)器對(duì)待分類(lèi)項(xiàng)進(jìn)行分類(lèi),其輸入是分類(lèi)器和待分類(lèi)項(xiàng),輸出是待分類(lèi)項(xiàng)與類(lèi)別的映射關(guān)系。17樸素貝葉斯分類(lèi)舉例樸素貝葉斯分類(lèi)舉例數(shù)據(jù)樣本用屬性age,

11、income,student和creditrating描述。類(lèi)標(biāo)號(hào)屬性buy_computer具有兩個(gè)不同值。設(shè)C1對(duì)應(yīng)于類(lèi)buy_computer=”yes”,而C2對(duì)應(yīng)類(lèi)buy_computer=”no”。設(shè)我們希望分類(lèi)的未知樣本為:X=(age=”=30”,income=”medium”,student=”yes”,credit_rating=”fair”)。18步驟步驟 1。我們需要最大化P(X|Ci)*P(Ci),i=1,2。每個(gè)類(lèi)的先驗(yàn)概率P(Ci)可以根據(jù)訓(xùn)練樣本計(jì)算:P(buy_computer=”yes”)=9/14=0.643,P(buy_computer=”no”)=5/

12、14=0.357。2。為計(jì)算P(X|Ci),i=1,2,我們計(jì)算下面的條件概率:P(age=30|buy_computer=”yes”)=2/9=0.222,P(age=30|buy_computer=”no”)=3/5=0.600,P(income=”medium”|buy_computer=”yes”)=4/9=0.444,P(income=”medium”|buy_computer=”no”)=2/5=0.400,P(student=”yes”|buy_computer=”yes”)=6/9=0.677,P(credit_rating=”fair”|buy_computer=”yes”)

13、=6/9=0.667P(student=”yes”|buy_computer=”no”)=1/5=0.200。P(credit_rating=”fair”|buy_computer=”no”)=2/5=0.400193。假設(shè)條件獨(dú)立性,使用以上概率,我們得到:P(X|buy_computer=”yes”)=0.222*0.444*0.667*0.667=0.044,P(X|buy_computer=”no”)=0.600*0.400*0.200*0.400=0.019P(X|buy_computer=”yes”)*P(buy_computer=”yes”)=0.044*0.643=0.028P

14、(X|buy_computer=”no”)*P(buy_computer=”no”)=0.019*0.357=0.007因此,對(duì)于樣本X,樸素貝葉斯分類(lèi)預(yù)測(cè)buy_computer=”yes”20樸素貝葉斯的特點(diǎn)樸素貝葉斯的特點(diǎn)樸素貝葉斯核心:假設(shè)所有特征都彼此獨(dú)立。雖然所有特征彼此獨(dú)立這個(gè)假設(shè),在現(xiàn)實(shí)中不太可能成立,但是它可以大大簡(jiǎn)化計(jì)算,而且有研究表明對(duì)分類(lèi)結(jié)果的準(zhǔn)確性影響不大。21樸素貝葉斯算法的優(yōu)點(diǎn):樸素貝葉斯算法的優(yōu)點(diǎn):1.算法邏輯簡(jiǎn)單,易于實(shí)現(xiàn)2.分類(lèi)過(guò)程中時(shí)空開(kāi)銷(xiāo)小3.算法穩(wěn)定,對(duì)于不同的數(shù)據(jù)特定其分類(lèi)性能差別不大,健壯性比較好。22一個(gè)問(wèn)題一個(gè)問(wèn)題如果特征屬性之間是有關(guān)聯(lián)的,而不是相互獨(dú)立的怎么辦?23樸素貝葉斯算法是在假定各個(gè)特征屬性相互獨(dú)立的情況下提出來(lái)的,這在現(xiàn)實(shí)生活中是很難實(shí)現(xiàn)的,所以針對(duì)這個(gè)問(wèn)題人們做了大量工作解決這個(gè)缺點(diǎn)。(1)如果特征屬性之間是有聯(lián)系的,并且是一個(gè)有向無(wú)環(huán)圖,可以

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論