第五章貝葉斯估計(jì)

上傳人：5*** IP屬地：湖北上傳時(shí)間：2022-01-23 格式：DOCX 頁數(shù)：10 大?。?48.45KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第五章貝葉斯統(tǒng)計(jì)5.1 簡介到目前為止，我們已經(jīng)知道了大量的不同的概率模型，并且我們前面已經(jīng)討論了如何用它們?nèi)M合數(shù)據(jù)等等。前面我們討論了如何利用各種先驗(yàn)知識，計(jì)算MAP參數(shù)來估計(jì)=argmax p(|D)。同樣的，對于某種特定的請況，我們討論了如何計(jì)算后驗(yàn)的全概率p(|D)和后驗(yàn)的預(yù)測概率密度p(x|D)。當(dāng)然在以后的章節(jié)我們會討論一般請況下的算法。5.2 總結(jié)后驗(yàn)分布后驗(yàn)分布總結(jié)關(guān)于未知變量的一切數(shù)值。在這一部分，我們討論簡單的數(shù)，這些數(shù)是可以通過一個(gè)概率分布得到的，比如通過一個(gè)后驗(yàn)概率分布得到的數(shù)。與全面聯(lián)接相比，這些統(tǒng)計(jì)匯總常常是比較容易理解和可視化。5.2.1最大后驗(yàn)估計(jì)通過計(jì)算后

2、驗(yàn)的均值、中值、或者模型可以輕松地得到未知參數(shù)的點(diǎn)估計(jì)。在5.7節(jié)，我們將討論如何利用決策理論從這些模型中做出選擇。典型的后驗(yàn)概率均值或者中值是估計(jì)真實(shí)值的恰當(dāng)選擇，并且后驗(yàn)邊緣分布向量最適合離散數(shù)值。然而，由于簡化了優(yōu)化問題，算法更加高效，后驗(yàn)概率模型，又名最大后驗(yàn)概率估計(jì)成為最受歡迎的模型。另外，通過對先驗(yàn)知識的取對數(shù)來正則化后，最大后驗(yàn)概率可能被非貝葉斯方法解釋（詳情參考6.5節(jié)）。最大后驗(yàn)概率估計(jì)模型在計(jì)算方面該方法雖然很誘人，但是他有很多缺點(diǎn)，下面簡答介紹一下。在這一章我們將更加全面的學(xué)習(xí)貝葉斯方法。圖5.1（a）由雙峰演示得到的非典型分布的雙峰分布，其中瘦高藍(lán)色豎線代表均值，因?yàn)樗?/p>

3、接近大概率，所以對分布有個(gè)比較好的概括。(b)由伽馬繪圖演示生成偏態(tài)分布，它與均值模型完全不同。5.2.1.1 無法衡量不確定性最大后驗(yàn)估計(jì)的最大的缺點(diǎn)是對后驗(yàn)分布的均值或者中值的任何點(diǎn)估計(jì)都不能夠提供一個(gè)不確定性的衡量方法。在許多應(yīng)用中，知道給定估計(jì)值的置信度非常重要。我們在5.22節(jié)將討論給出后驗(yàn)估計(jì)置信度的衡量方法。5.2.1.2 深耕最大后驗(yàn)估計(jì)可能產(chǎn)生過擬合在機(jī)器學(xué)習(xí)中，相比于解釋模型的參數(shù)，我們能夠得到精確預(yù)測結(jié)果。然而，如果我們不能衡量參數(shù)的不確定性，那么可能過分信任預(yù)測的分布。在第三章我們介紹了幾個(gè)例子，之后還有更多這樣的例子。預(yù)測中的過度自信對于我們的風(fēng)險(xiǎn)規(guī)避很成問題；在隨后

4、的5.7節(jié)我們將詳細(xì)介紹。5.2.1.3 模型是一個(gè)非典型的點(diǎn) 由于現(xiàn)實(shí)模型常常是一個(gè)區(qū)別于均值或者中值的非典型分布，所以選擇一個(gè)模型來概括后驗(yàn)分布的效果往往很差。對于一個(gè)一維連續(xù)空間圖5.1（a）中很好的說明了這一點(diǎn)。該模型的一個(gè)根本問題在于它是一個(gè)0-1的測量值，而中值和均值是在空間體積上的考慮。圖5.1（b）給出了另一個(gè)例子：圖中模型結(jié)果是0.但是均值非零。這樣的偏態(tài)分布經(jīng)常在推斷方差參數(shù)時(shí)出現(xiàn)，尤其是在分層模型中。在這樣的例子中，最大后驗(yàn)估計(jì)（最大似然估計(jì)例外）明顯的是一個(gè)非常不好的估計(jì)方法。假如模型不是一個(gè)很好的選擇項(xiàng)，那么我們應(yīng)該如何概括后驗(yàn)概率呢？在5.7節(jié)中討論的決策理論將會解

5、答這一疑問。其基本思想是指定一個(gè)損失函數(shù)，如果你對真實(shí)的的估計(jì)是那么損失函數(shù)為L(, ) 。如果我們使用0-1損失L(, ) = I( = )，那么最優(yōu)估計(jì)便是后驗(yàn)?zāi)Ｐ汀?-1損失意味著，如果沒有估計(jì)錯(cuò)誤那么就是正確的，否則就是錯(cuò)誤的。再這樣的損失函數(shù)下沒有所謂的“部分可信”！對于連續(xù)變量，我們偏好用誤差平方來表征損失函數(shù)即：L(, ) = ( )2。對應(yīng)的最優(yōu)估計(jì)是后驗(yàn)均值，詳細(xì)參見5.7節(jié)?；蛘?，我們可以使用一個(gè)更可靠地?fù)p失函數(shù)：L(, ) = | |，他考慮的是后驗(yàn)的中位數(shù)（中值）。5.2.1.4最大后驗(yàn)估計(jì)不是做改變的重新參數(shù)化最大后驗(yàn)估計(jì)的一個(gè)更加微妙的是其結(jié)果依賴于概率模型的參數(shù)。

6、從一個(gè)表達(dá)形式轉(zhuǎn)化為另一個(gè)等效的表達(dá)形式，例如測量單位的變化（長度的度量，我們可以用厘米也可以用英尺），其結(jié)果會變化，這是我們不希望看到的。為了更好地理解這一問題，假定我們要計(jì)算X的后驗(yàn)，如果我們定義y= f(x)，其中y的分布為公式（2.87），為方便描述抄寫如下公式5.1：|Dx/dy|項(xiàng)我們成為雅可比（Jacobian）,他通過f來衡量單位體積大小的變化。則X的最大后驗(yàn)估計(jì)為x = argmaxx px(x)。通常情況下，f(x)不是y=argmaxypy(y).舉個(gè)例子來說：xN(6,1),y=f(x),利用蒙特卡洛仿真能夠得到y(tǒng)的分布（見2.7.1節(jié)）。其結(jié)果如圖5.2.我們看到原始

7、的高斯分布已經(jīng)被非線性的S曲線乘方。特別的指出的是，我們看到轉(zhuǎn)化后的分布模型不完全等同于原始模型的形式。圖5.2 在非線性轉(zhuǎn)換下的密度轉(zhuǎn)化形式示例。注意轉(zhuǎn)化后的分布函數(shù)與原始分布的區(qū)別。以練習(xí)1.4為例（bishop 2006b）。圖形由方差的貝葉斯變化生成。為了了解最大后驗(yàn)估計(jì)中如何產(chǎn)生這一問題的，考慮如下例子。伯努利分布是典型的均值參數(shù)化模型,所以，p(y = 1|) = , 其中，y 0, 1。在每個(gè)單元間隔，假定我們有一個(gè)統(tǒng)一的先驗(yàn)：p() = 1 I(0 1)。如果這里沒有數(shù)據(jù)，那么最大后驗(yàn)估計(jì)僅僅是前驗(yàn)知識的模型，他們可以是在0 、1之間的任意值。現(xiàn)在，我們開始介紹參數(shù)化的不同能夠

8、在這一任意區(qū)間挑選出不同的點(diǎn)。首先，則新的先驗(yàn)為：因此，最大后驗(yàn)估計(jì)依賴于參數(shù)化。因?yàn)樗迫欢仁且粋€(gè)函數(shù)而不是概率密度，所以最大似然估計(jì)與參數(shù)無關(guān)。貝葉斯推斷也不受參數(shù)化的影響，因?yàn)樨惾~斯推斷在整合參數(shù)空間的時(shí)候已經(jīng)考慮了度量方面變化。解決上述問題的一個(gè)方法是最優(yōu)化下面的目標(biāo)函數(shù)：I（）是與P有關(guān)的費(fèi)舍爾信息矩陣（參見6.2.2節(jié)）。這個(gè)估計(jì)參數(shù)是獨(dú)立的，原因參見(Jermyn 2005；。不幸運(yùn)的是，優(yōu)化方程常常很復(fù)雜，這很大限度上降低了該方法的吸引力。5.2.2 置信區(qū)間除了點(diǎn)估計(jì)，我們經(jīng)常想得到可信度的度量。一個(gè)標(biāo)準(zhǔn)的可信度度量形式是數(shù)據(jù)theta的后驗(yàn)分布的寬度。我們可以利用置信區(qū)間10

9、0(1 )%度量，就是說，在C = (l, u)，區(qū)域中包括1 的后驗(yàn)概率的量。這里可能有許多這樣的區(qū)間，所以我們選擇區(qū)域是(1)/2，位于分布尾端的區(qū)間，并把他稱為置信區(qū)間。圖5.3（a）中心區(qū)域和（b）HPD區(qū)域的beta（3,9）檢驗(yàn)。置信區(qū)間是（0.06,0.52）和HPD是（0.04,0.48）。上圖是在圖3.6的基礎(chǔ)上，利用betaHPD生成的。如果后驗(yàn)是已知的函數(shù)形式，我們可以利用l= F1(/2) and u = F1(1/2),計(jì)算后驗(yàn)分布的中心區(qū)間,F為后驗(yàn)分布的累計(jì)密度曲線。例如，如果后驗(yàn)是高斯分布，5.2.2.1 后驗(yàn)密度最高的區(qū)域中心區(qū)間的存在的一個(gè)問題是很有可能這里

10、有一個(gè)點(diǎn)它的概率密度很高但是不在置信區(qū)間。圖5.3中處于左側(cè)置信區(qū)間外的點(diǎn)比剛剛好處于右側(cè)區(qū)間的點(diǎn)的概率密度高很多。這便促使了一個(gè)替代變量，稱之為最高的后驗(yàn)概率密度或者最高的后驗(yàn)概率密度區(qū)間。這被定義為（一組）最可能的點(diǎn)，這是總的概率的100（1-)%。更正式的，我們發(fā)現(xiàn)概率分布函數(shù)閾值P為：并且定義HPD區(qū)域?yàn)椋涸趌d，最大概率密度區(qū)間有時(shí)候被稱作最高密度區(qū)間或者HDI。例如，圖5.3（b）表明BETA的95%的HDI是（0.04,0.48）。我們看到這個(gè)區(qū)間比置信區(qū)間狹窄，但即使這樣，他依然包含了總量的95%；而且，區(qū)間內(nèi)的每一點(diǎn)都比區(qū)間外的概率密度高。對于單峰分布，最大密度區(qū)間將是包含總

11、量95%的最狹窄的區(qū)間。為了看到這個(gè)，想想“充水”的反過程，直到全部的95%顯示出來，只剩下5%被淹沒在水下。在Id情況下，方便計(jì)算使用簡單的算法：用最小的寬度簡單的搜索滿足包含總量的95%的區(qū)間。如果我們知道累計(jì)分布曲線的，這個(gè)可以通過數(shù)值最優(yōu)化來實(shí)現(xiàn)?；蛘呷绻覀冇写罅繕颖荆◤腷etaHPD圖形表示），通過搜索排序的數(shù)據(jù)點(diǎn)。如果后驗(yàn)是多峰的分布，最大概率密度區(qū)間可能不是一個(gè)連續(xù)的區(qū)域：例如見圖5.4（b）。然而，總結(jié)概括多峰后驗(yàn)經(jīng)常是很難的。5.2.3 不同比例的推斷有時(shí)候我們有多個(gè)參數(shù)，并且想利用這些參數(shù)計(jì)算出一些函數(shù)的后驗(yàn)概率分布。例如，假如你要從亞馬遜上買東西，并且有兩個(gè)售貨商提供相

12、同的價(jià)格。售貨商1有90的正面評論，10個(gè)反面評論。售貨商2有兩條正面評論0條負(fù)面評論。那你想要買誰的？表面上看，我們應(yīng)該選擇銷售商2，但是我們不能非常確信銷售商2一定比1好，因?yàn)樗脑u論太少了。在這一方面，我們構(gòu)筑貝葉斯方法來分析這個(gè)問題。相似的方法可以用來比較不同設(shè)置下的群體比例或比率。假定theta1和theta2是可靠度未知的兩個(gè)銷售商。因?yàn)槲覀儾涣私馑麄兏嗟男畔ⅲ覀冑x予他們統(tǒng)一的先驗(yàn)分布i Beta(1, 1). 后驗(yàn)概率是p(1|D1)= eta(91, 11) 和p(2|D2) = Beta(3, 1). 我們想要計(jì)算p(1 > 2|D). 為方便起見，定義 = 1 2

13、為比率方面的不同（另外，我們不妨想）利用數(shù)值積分，我們可以計(jì)算期望值：我們發(fā)現(xiàn)p( > 0|D) = 0.710，這表明你應(yīng)該從銷售商1哪里買。代碼參見amazonsellerDemo。一個(gè)簡單的解決方法是利用蒙特卡洛采樣得到近似的后驗(yàn)概率。這是容易的，因?yàn)閠heta1和theta2在后驗(yàn)概率分布中是相互獨(dú)立的，并且兩者都有beta分布，這樣就可以利用標(biāo)準(zhǔn)方法來采樣。p(i|Di)的分布如圖5.5（b）。通過計(jì)算theta1大于theta2的部分能夠得到一個(gè)p( > 0|D)的近似值；結(jié)果是0.718，非常接近真實(shí)值。圖5.5（a）確切的后驗(yàn)概率分布p(i|Di). （b）蒙特卡洛

14、近似p(|D). 我們運(yùn)用核密度估計(jì)得到一個(gè)平滑曲線。垂直線圍住的是中間95%的區(qū)間。5.3 貝葉斯模型選擇在圖1.18中，我們知道使用過高的多項(xiàng)式導(dǎo)致過擬合，使用過低的多項(xiàng)式又導(dǎo)致欠擬合的發(fā)生。相似的，在圖7.8（a）中，我們知道使用太小的正則化參數(shù)導(dǎo)致過擬合，使用太大的參數(shù)又導(dǎo)致欠擬合。通常情況，當(dāng)面對一系列不同復(fù)雜性的模型時(shí)（相似的參數(shù)化分布），怎樣才能選擇一個(gè)最好的呢？這樣一個(gè)難題稱為模型選擇問題。一個(gè)方法是利用交叉驗(yàn)證的方法去估計(jì)所有候選模型的泛化誤差，然后挑選一個(gè)看起來最好的。然而，這需要對每個(gè)模型擬合K次，其中，K是訓(xùn)練集交叉驗(yàn)證的次數(shù)。一個(gè)更加高效的方法是計(jì)算關(guān)于模型的后驗(yàn)概率

15、分布通過上式，我們可以容易的計(jì)算出最大后驗(yàn)估計(jì)模型，稱為貝葉斯模型選擇。如果我們在模型中使用了統(tǒng)一的先驗(yàn)，p(m) 1,這相當(dāng)于挑選模型中的最大值對于模型M，這個(gè)數(shù)被稱為邊際似然度，集成的似然度或者證據(jù)。在5.3.2中將要詳細(xì)的介紹如何操作這個(gè)積分。但是首先我們要給出這個(gè)值的直觀解釋。我們發(fā)現(xiàn)beginequationlabelp( > theta|D) = 0.710endequation這表明你應(yīng)該從銷售商1哪里買。代碼參見amazonsellerDemo。一個(gè)簡單的解決方法是利用蒙特卡洛采樣得到近似的后驗(yàn)概率。這是容易的，因?yàn)閠heta1和theta2在后驗(yàn)概率分布中是相互獨(dú)立的

16、，并且兩者都有beta分布，這樣就可以利用標(biāo)準(zhǔn)方法來采樣。p(thetai|Di)的分布如圖5.5（b）。通過計(jì)算theta1 大于theta2的部分能夠得到一個(gè)p(delta > theta|D)的近似值；結(jié)果是0.718，非常接近真實(shí)值。beginfigure centering % Requires usepackagegraphicx includegraphicswidth=0.8textwidthfig10 %captionlabelfig:1endfigure圖5.5（a）確切的后驗(yàn)概率分布p(i|Di). （b）蒙特卡洛近似p(|D). 我們運(yùn)用核密度估計(jì)得到一個(gè)平滑曲線

17、。垂直線圍住的是中間95%的區(qū)間。section*5.3 貝葉斯模型選擇paragraph 在圖1.18中，我們知道使用過高的多項(xiàng)式導(dǎo)致過擬合，使用過低的多項(xiàng)式又導(dǎo)致欠擬合的發(fā)生。相似的，在圖7.8（a）中，我們知道使用太小的正則化參數(shù)導(dǎo)致過擬合，使用太大的參數(shù)又導(dǎo)致欠擬合。通常情況，當(dāng)面對一系列不同復(fù)雜性的模型時(shí)（相似的參數(shù)化分布），怎樣才能選擇一個(gè)最好的呢？這樣一個(gè)難題稱為模型選擇問題。一個(gè)方法是利用交叉驗(yàn)證的方法去估計(jì)所有候選模型的泛化誤差，然后挑選一個(gè)看起來最好的。然而，這需要對每個(gè)模型擬合K次，其中，K是訓(xùn)練集交叉驗(yàn)證的次數(shù)。一個(gè)更加高效的方法是計(jì)算關(guān)于模型的后驗(yàn)概率分布。beginfigure centering % Requires usepackagegraphicx includegraphicswidth=0.8textwidthfig11 %captionlabelfig:1endfigure通過上式，我們可以容易的計(jì)算出最大后驗(yàn)估計(jì)模型beginequ

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第五章貝葉斯估計(jì)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔