




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第六章樸素貝葉斯算法樸素貝葉斯算法2目錄
CONTENT01引言02模型概述03實(shí)驗(yàn)數(shù)據(jù)04算法實(shí)戰(zhàn)05本章小結(jié)引言01引言在機(jī)器學(xué)習(xí)中,樸素貝葉斯分類是一種用于分類任務(wù)的簡單而強(qiáng)大的算法。樸素貝葉斯分類基于應(yīng)用貝葉斯定理,特征之間具有很強(qiáng)的獨(dú)立性假設(shè)。樸素貝葉斯模型也稱為簡單貝葉斯或獨(dú)立貝葉斯。所有這些名稱都是指貝葉斯定理在分類器決策規(guī)則中的應(yīng)用。這個(gè)分類器將貝葉斯定理的力量帶到了機(jī)器學(xué)習(xí)中。樸素貝葉斯分類器使用貝葉斯定理來預(yù)測每個(gè)類的成員概率,例如給定記錄或數(shù)據(jù)點(diǎn)屬于特定類的概率。概率最高的類被認(rèn)為是最可能的類。這也稱為最大后驗(yàn)概率(MAP)。樸素貝葉斯是任何人都可以使用的最流行和對初學(xué)者友好的算法之一。模型概述022模型概述6經(jīng)典的概率論對小樣本事件并不能進(jìn)行準(zhǔn)確的評估,若想得到相對準(zhǔn)確的結(jié)論往往需要大量的現(xiàn)場實(shí)驗(yàn);而貝葉斯理論能較好的解決這一問題,利用己有的先驗(yàn)信息,可以得到分析對象準(zhǔn)確的后驗(yàn)分布,貝葉斯模型是用參數(shù)來描述的,并且用概率分布描述這些參數(shù)的不確定性。貝葉斯分析的思路由證據(jù)的積累來推測一個(gè)事物發(fā)生的概率,它告訴我們當(dāng)我們要預(yù)測一個(gè)事物需要的是首先根據(jù)已有的經(jīng)驗(yàn)和知識推斷一個(gè)先驗(yàn)概率,然后在新證據(jù)不斷積累的情況下調(diào)整這個(gè)概率。整個(gè)通過積累證據(jù)來得到一個(gè)事件發(fā)生概率的過程我們稱為貝葉斯分析。樸素貝葉斯算法(NaiveBayesianalgorithm)是應(yīng)用最為廣泛的分類算法之一。?樸素貝葉斯方法是在貝葉斯算法的基礎(chǔ)上進(jìn)行了相應(yīng)的簡化,即假定給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。也就是說沒有哪個(gè)屬性變量對于決策結(jié)果來說占有著較大的比重,也沒有哪個(gè)屬性變量對于決策結(jié)果占有著較小的比重。雖然這個(gè)簡化方式在一定程度上降低了貝葉斯分類算法的分類效果,但是在實(shí)際的應(yīng)用場景中,極大地簡化了貝葉斯方法的復(fù)雜性。2模型概述7
在學(xué)習(xí)樸素貝葉斯之前先了解幾個(gè)基本內(nèi)容。2模型概述8樸素貝葉斯分類(NBC)是以貝葉斯定理為基礎(chǔ)并且假設(shè)特征條件之間相互獨(dú)立的方法,先通過已給定的訓(xùn)練集,以特征詞之間獨(dú)立作為前提假設(shè),學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,再基于學(xué)習(xí)到的模型,輸入X求出使得后驗(yàn)概率最大的輸出Y。以下給出簡單定義:92模型概述樸素貝葉斯基于各特征之間相互獨(dú)立,在給定類別為y$的情況下,上式可以進(jìn)一步表示為下式: 由以上兩式可以計(jì)算出后驗(yàn)概率為:2模型概述10
由于P(X)的大小是固定不變的,因此在比較后驗(yàn)概率時(shí),只比較上式的分子部分即可。因此可以得到一個(gè)樣本數(shù)據(jù)屬于類別y_i的樸素貝葉斯計(jì)算:
2模型概述11樸素貝葉斯算法有3種類型。下面列出這3種類型:高斯樸素貝葉斯如果x是連續(xù)變量,如何去估計(jì)似然度P(x|yi)呢?我們可以假設(shè)在yi的條件下,x服從高斯分布(正態(tài)分布)。根據(jù)正態(tài)分布的概率密度函數(shù)即可計(jì)算出P(x|yi),公式如下:2.伯努利樸素貝葉斯
在多元伯努利事件模型中,特征是描述輸入的獨(dú)立布爾變量(二元變量)。就像多項(xiàng)式模型一樣,該模型也適用于使用二進(jìn)制詞出現(xiàn)特征而不是詞頻的文檔分類任務(wù)。
2模型概述12
實(shí)驗(yàn)數(shù)據(jù)033實(shí)驗(yàn)數(shù)據(jù)14本實(shí)驗(yàn)數(shù)據(jù)集AdultDataSet為美國1994年人口普查數(shù)據(jù)庫中抽取而來,因此也稱作“人口普查收入”數(shù)據(jù)集,共包含48842條記錄,年收入大于50k的占比23.93%,年收入小于50k的占比76.07%,數(shù)據(jù)集已經(jīng)劃分為訓(xùn)練數(shù)據(jù)32561條和測試數(shù)據(jù)16281條。該數(shù)據(jù)集類變量為年收入是否超過50k,屬性變量包括年齡、工種、學(xué)歷、職業(yè)等14類重要信息,其中有8類屬于類別離散型變量,另外6類屬于數(shù)值連續(xù)型變量。該數(shù)據(jù)集是一個(gè)分類數(shù)據(jù)集,用來預(yù)測年收入是否超過50k。下圖給出數(shù)據(jù)集簡介:數(shù)據(jù)集下載鏈接為:/ml/datasets3實(shí)驗(yàn)數(shù)據(jù)15
為了更好的立即數(shù)據(jù)集數(shù)據(jù)意義,下圖給出了數(shù)據(jù)中變量字段:3實(shí)驗(yàn)數(shù)據(jù)數(shù)據(jù)處理:
1、將數(shù)據(jù)拆分為單獨(dú)的訓(xùn)練和測試集。3實(shí)驗(yàn)數(shù)據(jù)172、編碼分類變量:
即將非數(shù)值化數(shù)據(jù)數(shù)值化3實(shí)驗(yàn)數(shù)據(jù)183、特征縮放:當(dāng)數(shù)值過大時(shí),不利于計(jì)算機(jī)高效率的計(jì)算,因此可以將數(shù)值進(jìn)行縮放。算法實(shí)戰(zhàn)044算法實(shí)戰(zhàn)20模型構(gòu)建:根據(jù)已知公式構(gòu)建高斯樸素貝葉斯:
根據(jù)數(shù)據(jù)類型,這里給出離散、非離散高斯構(gòu)建過程4算法實(shí)戰(zhàn)www.islide.cc21對預(yù)測函數(shù)也分別建立離散數(shù)據(jù)、非離散數(shù)據(jù)的預(yù)測分別建立訓(xùn)練函數(shù)和預(yù)測函數(shù)后,基本模型就建立完成可以開始使用2結(jié)果分析22從實(shí)驗(yàn)輸出中可以看到測試數(shù)據(jù)使用了16281條,其中預(yù)測準(zhǔn)確率達(dá)到83.25%。因此,可以得出結(jié)論,高斯樸素貝葉斯分類模型在預(yù)測類標(biāo)簽方面做得非常好。本章小結(jié)05本章小結(jié)24樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。對大數(shù)量訓(xùn)練和查詢時(shí)具有較高的速度。即使使用超大規(guī)模的訓(xùn)練集,針對每個(gè)項(xiàng)目通常也只會(huì)有相對較少的特征數(shù),并且對項(xiàng)目的訓(xùn)練和分類也僅僅是特征概率的數(shù)學(xué)運(yùn)算而已;對小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能個(gè)處理多分類任務(wù),適合增量式訓(xùn)練(即可以實(shí)時(shí)的對新增的樣本進(jìn)行訓(xùn)練);對缺失數(shù)據(jù)不太敏感,算法也比較簡單,常用于文本分類;樸素貝葉斯對結(jié)果解釋容易理解。?本章詳細(xì)介紹了樸素貝葉斯相關(guān)數(shù)學(xué)理論,并在AdultDataSet使用樸素貝葉斯逐步實(shí)現(xiàn)了分類訓(xùn)練與預(yù)測。樸素貝葉斯分類器具有高度可擴(kuò)展性,在學(xué)習(xí)問題中需要多個(gè)變量(特征/預(yù)測器)數(shù)量的線性參數(shù)。但其也存在需要計(jì)算先驗(yàn)概率、分類決策存在錯(cuò)誤率、對輸入數(shù)據(jù)的表達(dá)形式很敏感、使用了樣本屬性獨(dú)立性的假設(shè),如果樣本屬性有關(guān)聯(lián)時(shí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- JB/T 20208-2024大蜜丸涼丸機(jī)
- 統(tǒng)編版二年級語文下冊期末達(dá)標(biāo)測試卷(模擬沖刺)(含答案)
- 湖南省岳陽市臨湘市2024-2025學(xué)年高三下學(xué)期入學(xué)考試物理試題(含答案)
- 2025年軍隊(duì)文職人員招聘之軍隊(duì)文職政治學(xué)能力提升試卷A卷附答案
- 2023年遼寧省中考地理試卷(含答案)
- 2021-2022學(xué)年廣東省廣州四中教育集團(tuán)七年級(下)期中數(shù)學(xué)試卷(含答案)
- 護(hù)師房顫考試題及答案
- 2025年法律知識競賽判斷題庫及答案
- 智能能源管理平臺(tái)開發(fā)合作協(xié)議
- 工業(yè)制造業(yè)技術(shù)創(chuàng)新成果展示表
- 血細(xì)胞分析報(bào)告規(guī)范化指南解讀
- 橋梁與地下工程上崗資格考試題庫(濃縮500題)
- 《大學(xué)物理學(xué)》精美課件(全)
- 政府投資項(xiàng)目立項(xiàng)申請表-正面
- me實(shí)驗(yàn)2 電位、電壓的測定及電路電位圖的繪制
- EGCs與腸道微環(huán)境相互作用的研究進(jìn)展
- 三年級下冊英語教材解讀-教材解讀|魯科版(五四學(xué)制)(三起)
- 道路施工導(dǎo)改及施工方案
- 《實(shí)數(shù)》單元作業(yè)設(shè)計(jì)
- (word完整版)教師個(gè)人簡歷模板
- 專題11 以小見大-【幫作文】初中語文之從課文中學(xué)習(xí)寫作 課件(共25張PPT)
評論
0/150
提交評論