




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
introduce貝葉斯網(wǎng)絡BN(BayesianNetworks)源于概率統(tǒng)計學,作為機器學習的重要方法倍受矚目,在數(shù)據(jù)挖掘中被廣泛研究應用。樸素貝葉斯NB(Na!veBayes)分類方法(p.s.其縮寫都是nb,可見此算法確實很牛逼)具有堅實的理論基礎,和其它分類方法相比,表現(xiàn)出了高速度和高效率,被廣泛地應用于模式識別、自然語言處理、機器人導航、規(guī)劃、機器學習以及利用貝葉斯網(wǎng)絡技術構(gòu)建和分析軟件系統(tǒng)。貝葉斯其人貝葉斯ThomasBayes,英國數(shù)學家.1702年出生于倫敦,做過神甫。1742年成為英國皇家學會會員。1763年4月7日逝世。貝葉斯在數(shù)學方面主要研究概率論。他首先將歸納推理法用于概率論基礎理論,并創(chuàng)立了貝葉斯統(tǒng)計理論,對于統(tǒng)計決策函數(shù)、統(tǒng)計推斷、統(tǒng)計的估算等做出了貢獻.1763年發(fā)表了這方面的論著,對于現(xiàn)代概率論和數(shù)理統(tǒng)計都有很重要的作用。貝葉斯的另一著作《機會的學說概論》發(fā)表于1758年。貝葉斯所采用的許多術語被沿用至今。貝葉斯的兩大貢獻概率論中的貝葉斯公式統(tǒng)計學中的貝葉斯決策理論貝葉斯公式又稱逆概公式。在全概公式后出現(xiàn),不是第一也是前三重要的概率公式。設D1,D2,……,Dn為樣本空間S的一個劃分,如果以P(Di)表示Di發(fā)生的概率,且P(Di)>0(i=1,2,…,n)。對于任一事件x,P(x)>0,則有:就形式上而言,該公式可寫作一簡單的形式,p(Di|x)=p(Di,x)/p(x)非常簡潔明了,但是十分犀利如何犀利,下一頁見分曉一個例子有一個經(jīng)典的概率問題,在三個箱子a,b,c里有一個里面有禮物,甲選擇了a箱子以后,工作人員從剩余的兩個中打開一個沒有禮物的箱子c,這時甲被要求再做一次選擇。他可以選擇:(1)改變以前的想法,選擇箱子b(2)堅持以前的想法,選擇第一次選擇的箱子a他到底應該做出怎樣的選擇呢?目標:比較p(a非空|選a,工作人員打開c)和p(b非空|選a,工作人員打開c)貝葉斯決策理論什么是統(tǒng)計決策?設x的分布函數(shù)是F(x,c),c是未知參數(shù),c∈C,C叫做參數(shù)空間。X=(x1,x2,…,xn)是X的樣本。又設A是某項實際工作中可能采取的各種行動所組成的非空集合,A叫做行動空間。L(c,a)是定義在C*A上的非負函數(shù),它表示參數(shù)是c時采取行動a(a∈A)引起的損失。稱樣本空間到行動空間A的映射g(x1,…xn)為決策函數(shù),簡稱決策。目的是找一個決策g,使得L的平均值最小。一個例子檢查某設備零件零件可能狀態(tài):c1(好),c2(壞)可能采取的行動:a1(保留),a2(更換),a3(修理).損失函數(shù)為樣本:X取值為0或1.在工作時用手摸零件,溫度正常時則記1,發(fā)燙則記0.X的概率函數(shù)為La1a2a3c10105c21216p01c10.30.7c20.60.4貝葉斯決策理論經(jīng)典方法中把參數(shù)c看做是客觀常數(shù),通過樣本的研究對c給出估計值或者判斷c屬于某個給定的范圍貝葉斯學派的基本觀點,認為在關于c的任何統(tǒng)計推斷問題中,除了使用樣本X提供的信息外,還必須對c提供一個先驗分布,它是進行推斷時不可缺少的要素。說得準確些,應該把c看做隨機變量,他服從某個概率分布(叫做先驗分布),總體X的分布實際上是c給定時x的分布。根據(jù)分布密度f和c的先驗分布,可以算出在樣本x下c的條件分布密度,p(c|x),因為這個分布是在抽樣后得到的,故成為后驗分布貝葉斯方法的關鍵在于得出后驗分布后,他所做的推斷就只基于后驗分布,而與樣本無關了,無論是做最大似然估計,還是最小二乘估計。樸素貝葉斯分類算法假設A1,A2,?,An是數(shù)據(jù)集的n個屬性,假定有m個類,C={C1,C2,?,Cm},給定一個具體的例子X,其屬性值為(x1,x2,?,xn),這里xi就是屬性Ai的取值,該例子屬于某一個類Ci的后驗概率是P(X|Ci),c(X)表示分類所得的類標簽。貝葉斯分類器進行如下工作:樸素貝葉斯分類假設類條件獨立,即屬性之間不存在依賴關系。這樣有:于是,樸素貝葉斯的分類算法公式為:其中P(Ci)被稱為先驗概率,有時認為P(C1)=P(C2)=?=P(Cn),也可以通過公式P(Ci)=si/s計算,其中si是類Ci中的訓練樣本數(shù),而s是訓練樣本總數(shù)。概率P(xk|Ci)可以由訓練樣本估值,即P(xk|Ci)=sik/si,其中sik是在屬性Ak中具有值xk的類Ci的訓練樣本數(shù),而si是Ci中的訓練樣本數(shù)。上周論文中的NBC算法貝葉斯過濾算法利用概率函數(shù)構(gòu)建哈希表,當其判定函數(shù)超過闕值時,判定為垃圾郵件。foxmail等都用此算法判定是否為垃圾郵件,當然是改進后的。一個例子:垃圾郵件例如:一封含有“法輪功”字樣的垃圾郵件A和一封含有“法律”字樣的非垃圾郵件B根據(jù)郵件A生成hashtable_bad,該哈希表中的記錄為法:1次輪:1次功:1次計算得在本表中:法出現(xiàn)的概率為0。3輪出現(xiàn)的概率為0。3功出現(xiàn)的概率為0。3根據(jù)郵件B生成hashtable_good,該哈希表中的記錄為:法:1
律:1
計算得在本表中:法出現(xiàn)的概率為0。5
律出現(xiàn)的概率為0。5綜合考慮兩個哈希表,共有四個TOKEN串:法輪功律當郵件中出現(xiàn)“法”時,該郵件為垃圾郵件的概率為:
P=0。3/(0。3+0。5)=0。375
出現(xiàn)“輪”時:
P=0。3/(0。3+0)=1
出現(xiàn)“功“時:
P=0。3/(0。3+0)=1
出現(xiàn)“律”時
P=0/(0+0。5)=0;由此可得第三個哈希表:hashtable_probability其數(shù)據(jù)為:法:0。375
輪:1
功:1
律:0當新到一封含有“功律”的郵件時,我們可得到兩個TOKEN串,功律查詢哈希表hashtable_probability可得
P(垃圾郵件|功)=1P(垃圾郵件|律)=0
此時該郵件為垃圾郵件的可能性為:
P=(0*1)/[0*1+(1-0)*(1-1)]=0
由此可推出該郵件為非垃圾郵件優(yōu)點與缺點優(yōu)點:高速度,高效率,占用內(nèi)存少缺點:基于獨立性假設,當假設成立時與其他分類算法相比,樸素貝葉斯分類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45242-2025保健食品中肌醇的測定
- GB/T 45211.2-2025小麥抗病蟲性評價技術規(guī)程第2部分:葉銹病
- 清潔服務外包協(xié)議
- 建筑行業(yè)臨時用工勞動合同
- 國際油氣貿(mào)易合同文檔
- 環(huán)保產(chǎn)業(yè)投資協(xié)議書
- 出借咨詢與服務協(xié)議
- 在線醫(yī)療咨詢平臺推廣合作協(xié)議
- 銷售承包的合同
- 太陽能光伏發(fā)電投資合同
- 2024-2025學年重慶市渝中區(qū)四年級(上)期末數(shù)學試卷
- 2025年人教版中考英語一輪復習:七年級下冊考點測試卷(含答案)
- 四川省成都市2025年中考數(shù)學模擬試卷五套附參考答案
- 國家安全網(wǎng)絡教育
- 垃圾發(fā)電廠汽輪機培訓
- 手術室突然停電應急演練
- 2024年心理咨詢師考試題庫
- DLT 593-2016 高壓開關設備和控制設備
- 班級管理的基本原理
- 管理統(tǒng)計學課件
- 2024裝配式混凝土建筑工人職業(yè)技能標準
評論
0/150
提交評論