版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第6章貝葉斯學習貝葉斯法則給定訓練數(shù)據(jù)集D,確定假設空間H中的最佳假設什么是最佳假設?在給定數(shù)據(jù)集D的基礎上,H中不同假設里發(fā)生概率最大(最可能發(fā)生)的一個貝葉斯法則可以通過直接計算找到這種最可能性貝葉斯公式P(h):h的先驗概率(priorprobability),反映了事先擁有的關于h的背景知識P(D):得到的訓練數(shù)據(jù)D的先驗概率P(D|h):若h成立,則觀察到D的概率P(h|D):給定訓練數(shù)據(jù)D時,h成立的概率公式分析P(h|D)稱為后驗概率,相對于先驗概率如果D獨立于h時被觀察到的可能性越大,那么D對h的支持度也越小如果h的先驗概率越大,則在數(shù)據(jù)D的條件下出現(xiàn)h的可能性也越大求每一假設h的P(h|D),取其中最大者,為MAP假設(maximumaposteriori)基本概率公式兩事件A和B交的概率:兩事件A和B并的概率:給定D時h的后驗概率:全概率法則: 若事件互斥且則6.1簡介貝葉斯學習提供了一種推理的概率手段:即待考查的量遵循某種概率分布且可根據(jù)這些概率及已觀察到的數(shù)據(jù)進行推理以作出最優(yōu)決策貝葉斯學習為直接操作概率的學習算法提供了基礎貝葉斯學習也為其他算法的分析提供了理論框架貝葉斯學習與機器學習的關系貝葉斯學習算法能夠顯式計算假設的概率樸素貝葉斯分類器利用樸素貝葉斯分類器分類進行文本文檔分類為理解許多算法提供了有效手段,這些算法不一定直接操縱概率數(shù)據(jù)在使用神經網(wǎng)絡訓練收斂判據(jù)時,可以選擇比誤差平方和最小原則更合適的交叉熵原則貝葉斯學習方法的特性觀察到的每個訓練樣例可以增量地降低或增高某假設的估計概率先驗知識可以與觀察數(shù)據(jù)一起決定假設的最終概率兩類先驗知識:候選假設的先驗概率;每個可能假設在可觀察數(shù)據(jù)中的概率分布允許假設做出不確定性的預測新實例可以由多個假設的概率加權和確定重要的算法評價理論依據(jù)舉例醫(yī)療診斷問題做決定:(1)得癌癥;(2)無癌癥診斷依據(jù):某化驗測試,測試結果為+或-先驗知識:所有人口中此癌癥的發(fā)生概率為0.008測試有病的準確率為0.98測試無病的準確率為0.97現(xiàn)在,某病人測試結果為+,問是否可以確診此病人有病?舉例假設在某種病癥的化學檢測中:對有病的病人,檢驗的陽性率為95%對沒病者,檢驗的陽性率為5%該病的發(fā)病率為0.5%現(xiàn)在隨便從街上拉一個人做檢測,結果陽性,問此人患此病的概率是多少?貝葉斯學習利用貝葉斯法則進行概念學習給定訓練數(shù)據(jù)下求后驗概率從先驗概率到后驗概率的概率改變體現(xiàn)學習效果BRUTE-FORCE貝葉斯概念學習對于H中每個假設h,計算后驗概率輸出有最高后驗概率的假設hMAP貝葉斯最優(yōu)分類器前面討論問題:給定訓練數(shù)據(jù),最可能的假設是什么需討論的問題:給定訓練數(shù)據(jù),對新的實例的最可能分類是什么可以直接利用MAP假設來分類新實例也有更好的算法6.7貝葉斯最優(yōu)分類器MAP假設分類的問題P125新實例的最可能分類應該通過合并所有假設的預測得到即用后驗概率來加權貝葉斯最優(yōu)分類器(BayesOptimalClassifier):分類結果可以對應于H中不存在的假設P1266.8GIBBS算法基于給定訓練數(shù)據(jù),貝葉斯最優(yōu)分類器可以給出最好性能但計算開銷很大GIBBS算法:按照H上的后驗概率分布,從H中隨機選取假設h使用h來處理待分類實例誤分類率:最多為貝葉斯最優(yōu)分類器的兩倍6.9樸素貝葉斯分類器實用性很高的算法學習任務:每個實例x由屬性的合取表示目標函數(shù)f(x)從有限集會V中取值學習器根據(jù)提供的一系列關于目標函數(shù)的訓練樣例以及新實例(屬性值的元組),給出新實例的分類6.9樸素貝葉斯分類器舉例:根據(jù)天氣情況判斷某人是否會打網(wǎng)球樸素貝葉斯分類器是否將要打網(wǎng)球?4個天氣屬性
OutlookTemperatureHumidityWind對新實例進行預測:yesorno舉例:學習分類文本樸素貝葉斯分類器問題框架目標:要求計算機學習從大量的在線文本文檔中自動過濾出最相關文檔給讀者目標值:like和dislike每個位置上的每個單詞定義為一個屬性值簡化:每個屬性的條件概率相互獨立特定單詞出現(xiàn)的概率獨立于單詞所在的位置6.11貝葉斯信念網(wǎng)最優(yōu)貝葉斯分類器要求考慮每個屬性與其他屬性的關系,太繁瑣,而且不現(xiàn)實樸素貝葉斯分類器要求每個屬性的條件概率相互獨立,限制太嚴格折中:貝葉斯信念網(wǎng)比樸素貝葉斯分類器限制少比最優(yōu)貝葉斯分類器切實可行EM算法用處:變量的值從來沒有直接觀察到的情況問題:估計k個高斯分布的均值EM算法的一般表述K均值算法的推導6.12.1估計k個高斯分布的均值得到一些數(shù)據(jù):來自于k個正態(tài)分布首先隨機選擇一個正態(tài)分布然后依概率取到隨機變量的值求正態(tài)分布的參數(shù)難點1:不知道正態(tài)分布是如何選取的難點2:通過不確定歸屬的數(shù)據(jù)來估計正態(tài)分布的參數(shù)6.12.1估計k個高斯分布的均值簡單情況:只有兩個正態(tài)分布各個正態(tài)分布基于均勻的概率進行選擇各個正態(tài)分布具有相同的方差σ2,且σ2已知已知:采樣得到的數(shù)據(jù)集{x1,x2,。。。}求正態(tài)分布的期望:μ1和μ26.12.1估計k個高斯分布的均值問題解決思路:假設h=<μ1…μk>
然后求能使檢測數(shù)據(jù)集D出現(xiàn)概率最大的假設h即為μ找到極大似然假設即找到使P(D|h)最大的假設h單個的概率分布時:P1376.12.1估計k個高斯分布的均值K個不同正態(tài)分布的混合每個實例完整描述為三元組<xi,zi1,zi2>
因為zi1和zi2未知,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論