機器學習課次22~24-樸素貝葉斯算法_第1頁
機器學習課次22~24-樸素貝葉斯算法_第2頁
機器學習課次22~24-樸素貝葉斯算法_第3頁
機器學習課次22~24-樸素貝葉斯算法_第4頁
機器學習課次22~24-樸素貝葉斯算法_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

彭輝94031097(QQ)機器學習MachineLearning樸素貝葉斯算法任務目標能力目標掌握利用貝葉斯定理求解分類問題的方法理解概率基礎知識使用樸素貝葉斯算法及其優(yōu)化方法解決解決分類問題任務目標素質目標團隊協(xié)作學會學習實踐創(chuàng)新貝葉斯算法背景已知:非洲人10個中有9個黑人,1個白人;

北美10個人中有3個黑人7個白人。問:你在街上遇到1個黑人,那么他是非洲人還是北美人?注:全球非洲12億人口,北美3.6億人口貝葉斯算法概率

假設一個箱子有3個黃球和4個黑球。

隨機從箱子里面取一次球,取得黃色球的概率為?取得藍色球的概率是?.3/74/7貝葉斯算法條件概率

將這些球分成2個箱子,左邊稱為X箱,右邊的箱子稱為Y箱。以球為研究對象,計算取黃球的概率:(1)兩個箱子同時取球,任意取一次球,取得黃色球和藍色球的概率仍然是3/7、4/7.(2)接下來,限定只從X箱任意取一次球,取得黃色球和藍色球的概率變成了1/2和1/2.(3)接下來,限定只從Y箱任意取一次球,取得黃色球和藍色球的概率變成了1/3和2/3.在限定條件下,取黃色球和藍色球的概率發(fā)生了變化。這就是條件概率的意義,這里的條件就是限定了箱子。X箱Y箱貝葉斯算法條件概率-2

根據(jù)圖片中球的分布,我們可以很快的計算條件概率,下面介紹另一種條件概率計算方法將以球為研究對象轉換成以箱子為研究對象:(1)球從X箱取出的概率為4/7,從Y箱取出的概率為3/7.——此時沒有區(qū)分黃色球和藍色球。(2)接下來,從黃球中取球,取一次,分別來自X箱和Y箱的概率分別是2/3和1/3.(3)如果從藍球中取球取一次,分別來自X箱和Y箱的概率分別是1/2和1/2.X箱Y箱貝葉斯算法條件概率-3事件取黃色球取藍色球無條件3/74/7在X箱中取1/21/2在Y箱中取1/32/3以取箱為前提事件X箱Y箱無條件4/73/7在黃色球中取2/31/3在藍色球中取1/21/2以取球為前提X箱Y箱貝葉斯聯(lián)合概率事件概率黃球且X箱2/7黃球且Y箱1/7藍球且X箱2/7藍球且Y箱2/7聯(lián)合概率

聯(lián)合概率是兩個事件共同發(fā)生的概率。

例:取的球是黃色,且是從X箱中取的概率為:X箱中黃色球的個數(shù)/總球數(shù)=2/7同理:其他幾種情況的聯(lián)合概率X箱Y箱貝葉斯算法貝葉斯定理

我們將目光聚焦到取黃色球和取Y箱上。

將取黃色球定義為事件A,取Y箱定義為事件B。那么可以得到如下幾個概念公式事件概率取得黃球P(A)=3/7在Y箱中取得黃球P(A|B)=1/3在Y箱中取得球P(B)=3/7在黃色球中取,在Y箱中取得球P(B|A)=1/3取的球是黃球且在Y箱中取得P(AB)=1/7取黃色球和Y箱的概率

X箱Y箱貝葉斯算法貝葉斯公式

當A與B獨立時:貝葉斯算法貝葉斯定理應用事件概率取得黃球P(A)=3/7在Y箱中取得黃球P(A|B)=1/3在Y箱中取得球P(B)=3/7在黃色球中取,在Y箱中取得球P(B|A)=1/3取的球是黃球且在Y箱中取得P(AB)=1/7它要解決的問題:已知P(A|B)如何求得P(B|A);或者已知P(B|A)如何求得P(A|B)例:已知在Y箱中取得黃球的概率是P(A|B)=1/3;

在Y箱中取得球的概率為P(B)=3/7;

取得黃球的概率是P(A)=3/7;那么已知在黃球中取,在Y箱中取得的概率是

樸素貝葉斯分類器樸素貝葉斯分類(NaiveBayesClassifier)是基于貝葉斯定理和特征條件獨立假設的分類算法樸素貝葉斯分類器源于古典數(shù)學理論,有著堅實的數(shù)學基礎,以及穩(wěn)定的分類效率。樸素貝葉斯模型的參數(shù)也不多,對缺失數(shù)據(jù)不太敏感,算法實現(xiàn)比較簡單。通俗地講,樸素貝葉斯分類器可以看作:對于給定的待分類項,求解在該分類項出現(xiàn)的條件下,各個類別出現(xiàn)的概率。根據(jù)各個類別出現(xiàn)的概率,哪個最大,就將其劃歸為那個類別。樸素貝葉斯樸素貝葉斯分類器(Na?veBayesClassifier)采用了“屬性條件獨立性假設”

:每個屬性獨立地對分類結果發(fā)生影響。樸素貝葉斯分類器估計后驗概率的主要困難:類條件概率是所有屬性上的聯(lián)合概率難以從有限的訓練樣本估計獲得。假設樣本屬性相互獨立,則:得到樸素貝葉斯表達式:樸素貝葉斯樸素貝葉斯分類器樸素貝葉斯分類器的訓練器的訓練過程就是基于訓練集D估計類先驗概率P(c)

,并為每個屬性估計條件概率拉普拉斯平滑樸素貝葉斯的優(yōu)化-拉普拉斯平滑缺陷:受樣本個數(shù)限制,若某個屬性值在訓練集中沒有與某個同類同時出現(xiàn)過,

如P清脆|是=P(敲聲=清脆|好瓜=是)=0/8=0,則連乘公式

h(好瓜=是)則必為零,其他屬性取任意值都不能改變這一結論。修正方法:拉普拉斯平滑處理表示訓練集樣本的類別數(shù),

表示訓練集樣本在第

i個屬性上的取值個數(shù)P清脆|是=P(敲聲=清脆|好瓜=是)=(0+1)/(8+3)P(好瓜=是)=

(8+1)/(17+2)P(好瓜=否)=(9+1)/(17+2)拉普拉斯平滑樸素貝葉斯算法流程原始的樸素貝葉斯只能處理離散數(shù)據(jù),當是連續(xù)變量時,我們可以使用高斯樸素貝葉斯(GaussianNaiveBayes)完成分類任務。當處理連續(xù)數(shù)據(jù)時,一種經(jīng)典的假設是:與每個類相關的連續(xù)變量的分布是基于高斯分布的,故高斯貝葉斯的公式如下:其中,表示表示全部屬于類的樣本中變量

的均值和方差樸素貝葉斯應用sklearn樸素貝葉斯算法實現(xiàn)高斯樸素貝葉斯樸素貝葉斯應用sklearn樸素貝葉斯算法實現(xiàn)高斯樸素貝葉斯構造方法:sklearn.naive_bayes.GaussianNBGaussianNB類構造方法無參數(shù),屬性值有:

class_prior_#每一個類的概率

theta_#每個類中各個特征的平均

sigma_#每個類中各個特征的方差樸素貝葉斯應用練習:利用高斯樸素貝葉斯對鳶尾花數(shù)據(jù)進行分類sklearn.naive_bayes.GaussianNB樸素貝葉斯應用sklearn樸素貝葉斯算法實現(xiàn)多項式樸素貝葉斯——用于文本分類sklearn.naive_bayes.MultinomialNB(alpha=1.0#平滑參數(shù)

,fit_prior=True#學習類的先驗概率,class_prior=None)#類的先驗概率樸素貝葉斯應用實戰(zhàn)練習:利用樸素貝葉斯對文本分類documents=[['菜品','很','一般','不','建議','在這','消費'],

['老板','很','鬧心','坑人','建議','去','別家'],

['讓人','驚艷','東西','口味','讓人','感覺','不錯'],

['環(huán)境','不錯','孜然牛柳','很','好吃'],

['味道','真的','一般','環(huán)境','也','比較','擁擠'],

['一家','性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論