下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、淺談機(jī)器學(xué)習(xí)中的貝葉斯分類器王賢舉摘 要:學(xué)習(xí)是人工智能研究中非?;钴S且范圍甚廣的一個(gè)領(lǐng)域。而機(jī)器學(xué)習(xí)所關(guān)注的是:計(jì)算機(jī)程序如何隨著經(jīng)驗(yàn)積累自動(dòng)提高性能,讓機(jī)器完成某些任務(wù),從而使其在某些方面為人類服務(wù)。貝葉斯分類器作為機(jī)器學(xué)習(xí)中的一種,在有些方面有著其優(yōu)越的一面,本文通過(guò)對(duì)機(jī)器學(xué)習(xí)中貝葉斯分類器的解析,指出了貝葉斯分類器在機(jī)器學(xué)習(xí)中的適用方面和不足之處。關(guān)鍵詞:機(jī)器學(xué)習(xí) 貝葉斯算法 適用1. 引言機(jī)器學(xué)習(xí)是計(jì)算機(jī)問(wèn)世以來(lái),興起的一門新興學(xué)科。所謂機(jī)器學(xué)習(xí)是指研究如何使用計(jì)算機(jī)來(lái)模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科,研究計(jì)算機(jī)獲得新知識(shí)和新技能,識(shí)別現(xiàn)有知識(shí),不斷改善性能,實(shí)現(xiàn)自我完善的方法,從而使計(jì)算
2、機(jī)能更大性能的為人類服務(wù)。機(jī)器學(xué)習(xí)所適用的范圍廣闊,在醫(yī)療、軍事、教育等各個(gè)領(lǐng)域都有著廣泛的應(yīng)用,并發(fā)揮了積極的作用。而分類是機(jī)器學(xué)習(xí)中的基本問(wèn)題之一,目前針對(duì)不同的分類技術(shù),分類方法有很多,如決策樹分類、支持向量機(jī)分類、神經(jīng)網(wǎng)絡(luò)分類等。貝葉斯分類器作為機(jī)器學(xué)習(xí)分類中的一種,近年來(lái)在許多領(lǐng)域也受到了很大的關(guān)注,本文對(duì)貝葉斯分類器進(jìn)行總結(jié)分析和比較,提出一些針對(duì)不同應(yīng)用對(duì)象挑選貝葉斯分類器的方法。2. 貝葉斯公式與貝葉斯分類器:2.1 貝葉斯公式:在概率論方面的貝葉斯公式是在乘法公式和全概率公式的基礎(chǔ)上推導(dǎo)出來(lái)的,它是指設(shè)是樣本空間的一個(gè)分割,即互不相容,且,如果,則 ,這就是貝葉斯公式,稱為后
3、驗(yàn)概率,為先驗(yàn)概率,一般是已知先驗(yàn)概率來(lái)求后驗(yàn)概率,貝葉斯定理提供了“預(yù)測(cè)”的實(shí)用模型,即已知某事實(shí),預(yù)測(cè)另一個(gè)事實(shí)發(fā)生的可能性大小。2.2 機(jī)器學(xué)習(xí)中的貝葉斯法則:在機(jī)器學(xué)習(xí)中,在給定訓(xùn)練數(shù)據(jù)D時(shí),確定假設(shè)空間H中的最佳假設(shè),我們用來(lái)代表在沒(méi)訓(xùn)練數(shù)據(jù)前假設(shè)擁有的初始概率。為的先驗(yàn)概率,用代表將要觀察訓(xùn)練數(shù)據(jù)的先驗(yàn)概率,以代表假設(shè)成立的情況下觀察到數(shù)據(jù)的概率,以為給定訓(xùn)練數(shù)據(jù)時(shí)成立的概率,稱為的后驗(yàn)概率,機(jī)器學(xué)習(xí)中的貝葉斯公式為:學(xué)習(xí)器考慮候選假設(shè)集合H并在其中尋找給定數(shù)據(jù)時(shí)可能性最大的假設(shè),稱為MAP假設(shè),記為,則 2.3 貝葉斯分類器 貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡(luò)。該網(wǎng)絡(luò)中應(yīng)包含類結(jié)
4、點(diǎn)C ,其中C的取值來(lái)自于類集合( c1, c2, cm) ,還包含一組結(jié)點(diǎn)X = ( X1, X2, Xn) ,表示用于分類的特征。對(duì)于貝葉斯網(wǎng)絡(luò)分類器,若某一待分類的樣本D ,其分類特征值為x = ( x1, x2, xn) ,則樣本D屬于類別ci的概率P ( C = ci|X1= x1, X2= x2, Xn= xn) , ( i = 1 , 2 , m )應(yīng)滿足下式:P ( C = ci|X = x ) = Max P ( C = c1|X = x ) , P ( C = c2|X = x ) , P ( C = cm|X = x ) 而由貝葉斯公式其中, P ( C = ci) 可由
5、經(jīng)驗(yàn)得到,而P ( X = x |C = ci) 和P ( X = x )的計(jì)算則較困難。應(yīng)用貝葉斯網(wǎng)絡(luò)分類器進(jìn)行分類主要分成兩階段:第一階段是貝葉斯網(wǎng)絡(luò)分類器的學(xué)習(xí),即從樣本數(shù)據(jù)中構(gòu)造分類器,包括結(jié)構(gòu)學(xué)習(xí)和CPT學(xué)習(xí);第二階段是貝葉斯網(wǎng)絡(luò)分類器的推理,即計(jì)算類結(jié)點(diǎn)的條件概率,對(duì)分類數(shù)據(jù)進(jìn)行分類。這兩個(gè)階段的時(shí)間復(fù)雜性均取決于特征值間的依賴程度,甚至可以是NP完全問(wèn)題,因而在實(shí)際應(yīng)用中,往往需要對(duì)貝葉斯網(wǎng)絡(luò)分類器進(jìn)行簡(jiǎn)化。3. 貝葉斯最優(yōu)分類器與樸素貝葉斯分類器3.1 貝葉斯最優(yōu)分類器 “給定訓(xùn)練數(shù)據(jù),對(duì)新實(shí)例的最可能分類是什么?”新實(shí)例的最可能分類可通過(guò)合并所有假設(shè)的預(yù)測(cè)得到,用后驗(yàn)概率來(lái)加
6、權(quán)。如果新樣例的可能分類可取某集合V中的任一值,那么概率表示新實(shí)例的正確分類為的概率,其值為: 新實(shí)例的最優(yōu)分類為使最大的值,則 按上式分類新實(shí)例的系統(tǒng)被稱為貝葉斯最優(yōu)分類器。使用相同的假設(shè)空間和相同的先驗(yàn)概率,使用貝葉斯最優(yōu)分類器是最好的,它能使新實(shí)例被正確分類的可能性達(dá)到最大。3.2 樸素貝葉斯分類器樸素貝葉斯分類器是貝葉斯學(xué)習(xí)方法中實(shí)用性很高的一種,樸素貝葉斯對(duì)于數(shù)據(jù)的分類過(guò)程如下:對(duì)每個(gè)實(shí)例可由屬性值的合取描述,而目標(biāo)函數(shù)從某有限集合V中取值。學(xué)習(xí)器被提供一系列關(guān)于目標(biāo)函數(shù)的訓(xùn)練樣例以及新實(shí)例,然后要求預(yù)測(cè)新實(shí)例的目標(biāo)值,得到最可能的目標(biāo)值使用貝葉斯公式,可將此表達(dá)式重寫為樸素貝葉斯分
7、類器基于一個(gè)簡(jiǎn)單的假定:在給定目標(biāo)值時(shí)屬性值之間相互條件獨(dú)立。因此聯(lián)合的的概率等于每個(gè)單獨(dú)屬性的概率的乘積 將其帶人上式得 其中表示樸素貝葉斯分類器輸出的目標(biāo)值。樸素貝葉斯分類器模型中:為給定一個(gè)實(shí)例,得到的最可能的目標(biāo)值。屬于集合V。a1.an 是這個(gè)實(shí)例里面的屬性.是后面計(jì)算得出的概率最大的一個(gè),所以用max來(lái)表示。4. 貝葉斯分類器的優(yōu)缺點(diǎn)分析與決策樹分類的比較在機(jī)器學(xué)習(xí)的分類模型中,應(yīng)用較為廣泛的為決策樹模型和貝葉斯模型,決策樹模型利用構(gòu)造樹來(lái)解決分類問(wèn)題。決策樹模型利用訓(xùn)練數(shù)據(jù)來(lái)構(gòu)造一棵決策樹,將樹建立起來(lái),就可以為未知樣本進(jìn)行一個(gè)分類,決策樹模型便于使用,且能高效解決問(wèn)題。決策樹的
8、另一優(yōu)點(diǎn)為可以對(duì)有許多屬性的數(shù)據(jù)集構(gòu)造決策樹,但決策樹也有其不完美的一面,對(duì)處理缺失數(shù)據(jù)時(shí)較困難,對(duì)擬合問(wèn)題中往往會(huì)忽略數(shù)據(jù)集中屬性之間的相關(guān)性。與決策樹相比,貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及較為穩(wěn)定的分類概率,同時(shí),樸素貝葉斯模型所需估計(jì)的參數(shù)不多,對(duì)缺失數(shù)據(jù)不太敏感,算法也較為簡(jiǎn)單,樸素貝葉斯模型與其他的分類方法相比具有最小的誤差率。但貝葉斯模型也有其缺失的一面,在應(yīng)用樸素貝葉斯分類器時(shí),其主要設(shè)計(jì)的兩個(gè)問(wèn)題是,首先要決定怎樣講任意文檔表示為屬性值的形式,其次是要決定如何估計(jì)樸素貝葉斯分類器所需的概率。對(duì)于樸素貝葉斯模型,由于假設(shè)屬性之間相互獨(dú)立,但這個(gè)假設(shè)在實(shí)際應(yīng)用
9、中往往是不成立的,這會(huì)給樸素貝葉斯模型的正確分類帶來(lái)一定的影響,在屬性個(gè)數(shù)比較多或?qū)傩灾g相關(guān)性較大時(shí),選擇樸素貝葉斯模型的分類效率是很低的。還有就是貝葉斯分類器是在假設(shè)知道先驗(yàn)概率的基礎(chǔ)上,預(yù)測(cè)出事件的后驗(yàn)概率,但在實(shí)際的應(yīng)用中,要知道事件是先驗(yàn)概率也是很困難的,對(duì)有許多的問(wèn)題其先驗(yàn)概率所采取的都是近似值,這在有些方面也給貝葉斯分類器計(jì)算出的后驗(yàn)概率帶來(lái)一定的影響。因此貝葉斯分類器也不是萬(wàn)能的,必須根據(jù)實(shí)際情況,看所選擇的問(wèn)題是否使用于貝葉斯分類器。對(duì)于一些規(guī)模性較小的數(shù)據(jù)集而言,采用貝葉斯分類器的分類效果較好,并且當(dāng)數(shù)據(jù)集之間的屬性關(guān)聯(lián)性較弱時(shí),貝葉斯分類器的分類效果優(yōu)于其他的分類器,采用
10、貝葉斯分類器是不二的選擇,對(duì)于規(guī)模較大、屬性間關(guān)聯(lián)性較強(qiáng)的數(shù)據(jù)集而言,則要根據(jù)情況而定。5. 小結(jié)機(jī)器學(xué)習(xí)的分類方法很多,本文著重結(jié)束了貝葉斯分類器在機(jī)器學(xué)習(xí)中的應(yīng)用。并對(duì)貝葉斯分類器的分類效果進(jìn)行了分析和比較,指出貝葉斯分類器的優(yōu)點(diǎn),同時(shí)也對(duì)貝葉斯分類器的不足之處進(jìn)行了分析。通過(guò)分析,指出了可以根據(jù)數(shù)據(jù)集之間的規(guī)模和屬性間的關(guān)聯(lián)性來(lái)選擇是否適合貝葉斯分類器。由于機(jī)器學(xué)習(xí)的領(lǐng)域?qū)拸V,所以對(duì)其選擇的分類方法也很多,對(duì)于不同的分類方法在某些方面都有其獨(dú)特的一面,貝葉斯分類器作為機(jī)器學(xué)習(xí)中的一種較為重要的分類,在許多的方面都可能應(yīng)用到,因此對(duì)于機(jī)器學(xué)習(xí)而言掌握貝葉斯分類器是很有必要的,當(dāng)然貝葉斯分類器不是萬(wàn)能的,在有些方面也不一定會(huì)適用。但到現(xiàn)在為止,還沒(méi)有那一種方法是萬(wàn)能的,一成不變的。所以對(duì)于不同的情況,必須具體問(wèn)題具體分析,根據(jù)不同的問(wèn)題選擇出最優(yōu)的分類方法,解決問(wèn)題才是最重要的。參考文獻(xiàn):1Tom M.Mitchell.機(jī)器學(xué)習(xí)M.機(jī)械工業(yè)出版社,20032方瑋瑋.機(jī)器學(xué)習(xí)方法淺析J3周顏軍,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湘教版福建省莆田市五校聯(lián)盟2023-2024學(xué)年高二上學(xué)期期中數(shù)學(xué)試題
- 2024年上海市中考語(yǔ)文真題卷及答案解析
- 華支睪吸蟲課件
- 幼兒園小班音樂(lè)《表情歌》課件
- 福建省尤溪一中 2024-2025學(xué)年高三上學(xué)年半期考地理試卷及答案
- 西京學(xué)院《大數(shù)據(jù)技術(shù)原理及應(yīng)用》2022-2023學(xué)年期末試卷
- 簡(jiǎn)愛課件 圖片
- 西華師范大學(xué)《外貿(mào)函電》2023-2024學(xué)年期末試卷
- 西華師范大學(xué)《數(shù)據(jù)庫(kù)原理及應(yīng)用》2022-2023學(xué)年期末試卷
- 職業(yè)技術(shù)學(xué)院移動(dòng)商務(wù)學(xué)情分析報(bào)告
- 銷售大戶監(jiān)管辦法
- 小型裝配式冷庫(kù)設(shè)計(jì)(全套圖紙)
- 西師版小學(xué)數(shù)學(xué)二年級(jí)上冊(cè)半期考試
- 八六版高中英語(yǔ)課文全集
- 審計(jì)工作手冊(cè)
- 胰腺癌一病一品知識(shí)分享
- 【原創(chuàng)】《基于地理實(shí)踐力培養(yǎng)的校本課程開發(fā)研究》中期報(bào)告
- 公司下屬?gòu)S部推行5S管理通知
- (最新)13《金稅三期工程運(yùn)維架構(gòu)設(shè)計(jì)方案》V10
- 青島版4年級(jí)上冊(cè)相遇問(wèn)題說(shuō)課
- 機(jī)械加工企業(yè)安全生產(chǎn)事故應(yīng)急預(yù)案(完整版)
評(píng)論
0/150
提交評(píng)論