




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第五章 貝葉斯統(tǒng)計(jì)5.1 簡介到目前為止,我們已經(jīng)知道了大量的不同的概率模型,并且我們前面已經(jīng)討論了如何用它們?nèi)M合數(shù)據(jù)等等。前面我們討論了如何利用各種先驗(yàn)知識,計(jì)算MAP參數(shù)來估計(jì)=argmax p(|D)。同樣的,對于某種特定的請況,我們討論了如何計(jì)算后驗(yàn)的全概率p(|D)和后驗(yàn)的預(yù)測概率密度p(x|D)。當(dāng)然在以后的章節(jié)我們會討論一般請況下的算法。5.2 總結(jié)后驗(yàn)分布后驗(yàn)分布總結(jié)關(guān)于未知變量的一切數(shù)值。在這一部分,我們討論簡單的數(shù),這些數(shù)是可以通過一個(gè)概率分布得到的,比如通過一個(gè)后驗(yàn)概率分布得到的數(shù)。與全面聯(lián)接相比,這些統(tǒng)計(jì)匯總常常是比較容易理解和可視化。5.2.1最大后驗(yàn)估計(jì)通過計(jì)算后
2、驗(yàn)的均值、中值、或者模型可以輕松地得到未知參數(shù)的點(diǎn)估計(jì)。在5.7節(jié),我們將討論如何利用決策理論從這些模型中做出選擇。典型的后驗(yàn)概率均值或者中值是估計(jì)真實(shí)值的恰當(dāng)選擇,并且后驗(yàn)邊緣分布向量最適合離散數(shù)值。然而,由于簡化了優(yōu)化問題,算法更加高效,后驗(yàn)概率模型,又名最大后驗(yàn)概率估計(jì)成為最受歡迎的模型。另外,通過對先驗(yàn)知識的取對數(shù)來正則化后,最大后驗(yàn)概率可能被非貝葉斯方法解釋(詳情參考6.5節(jié))。最大后驗(yàn)概率估計(jì)模型在計(jì)算方面該方法雖然很誘人,但是他有很多缺點(diǎn),下面簡答介紹一下。在這一章我們將更加全面的學(xué)習(xí)貝葉斯方法。圖5.1(a)由雙峰演示得到的非典型分布的雙峰分布,其中瘦高藍(lán)色豎線代表均值,因?yàn)樗?/p>
3、接近大概率,所以對分布有個(gè)比較好的概括。(b)由伽馬繪圖演示生成偏態(tài)分布,它與均值模型完全不同。5.2.1.1 無法衡量不確定性最大后驗(yàn)估計(jì)的最大的缺點(diǎn)是對后驗(yàn)分布的均值或者中值的任何點(diǎn)估計(jì)都不能夠提供一個(gè)不確定性的衡量方法。在許多應(yīng)用中,知道給定估計(jì)值的置信度非常重要。我們在5.22節(jié)將討論給出后驗(yàn)估計(jì)置信度的衡量方法。5.2.1.2 深耕最大后驗(yàn)估計(jì)可能產(chǎn)生過擬合在機(jī)器學(xué)習(xí)中,相比于解釋模型的參數(shù),我們能夠得到精確預(yù)測結(jié)果。然而,如果我們不能衡量參數(shù)的不確定性,那么可能過分信任預(yù)測的分布。在第三章我們介紹了幾個(gè)例子,之后還有更多這樣的例子。預(yù)測中的過度自信對于我們的風(fēng)險(xiǎn)規(guī)避很成問題;在隨后
4、的5.7節(jié)我們將詳細(xì)介紹。5.2.1.3 模型是一個(gè)非典型的點(diǎn) 由于現(xiàn)實(shí)模型常常是一個(gè)區(qū)別于均值或者中值的非典型分布,所以選擇一個(gè)模型來概括后驗(yàn)分布的效果往往很差。對于一個(gè)一維連續(xù)空間圖5.1(a)中很好的說明了這一點(diǎn)。該模型的一個(gè)根本問題在于它是一個(gè)0-1的測量值,而中值和均值是在空間體積上的考慮。圖5.1(b)給出了另一個(gè)例子:圖中模型結(jié)果是0.但是均值非零。這樣的偏態(tài)分布經(jīng)常在推斷方差參數(shù)時(shí)出現(xiàn),尤其是在分層模型中。在這樣的例子中,最大后驗(yàn)估計(jì)(最大似然估計(jì)例外)明顯的是一個(gè)非常不好的估計(jì)方法。假如模型不是一個(gè)很好的選擇項(xiàng),那么我們應(yīng)該如何概括后驗(yàn)概率呢?在5.7節(jié)中討論的決策理論將會解
5、答這一疑問。其基本思想是指定一個(gè)損失函數(shù),如果你對真實(shí)的的估計(jì)是那么損失函數(shù)為L(, ) 。如果我們使用0-1損失L(, ) = I( = ),那么最優(yōu)估計(jì)便是后驗(yàn)?zāi)P汀?-1損失意味著,如果沒有估計(jì)錯(cuò)誤那么就是正確的,否則就是錯(cuò)誤的。再這樣的損失函數(shù)下沒有所謂的“部分可信”!對于連續(xù)變量,我們偏好用誤差平方來表征損失函數(shù)即:L(, ) = ( )2。對應(yīng)的最優(yōu)估計(jì)是后驗(yàn)均值,詳細(xì)參見5.7節(jié)?;蛘?,我們可以使用一個(gè)更可靠地?fù)p失函數(shù):L(, ) = | |,他考慮的是后驗(yàn)的中位數(shù)(中值)。5.2.1.4最大后驗(yàn)估計(jì)不是做改變的重新參數(shù)化最大后驗(yàn)估計(jì)的一個(gè)更加微妙的是其結(jié)果依賴于概率模型的參數(shù)。
6、從一個(gè)表達(dá)形式轉(zhuǎn)化為另一個(gè)等效的表達(dá)形式,例如測量單位的變化(長度的度量,我們可以用厘米也可以用英尺),其結(jié)果會變化,這是我們不希望看到的。為了更好地理解這一問題,假定我們要計(jì)算X的后驗(yàn),如果我們定義y= f(x),其中y的分布為公式(2.87),為方便描述抄寫如下公式5.1:|Dx/dy|項(xiàng)我們成為雅可比(Jacobian),他通過f來衡量單位體積大小的變化。則X的最大后驗(yàn)估計(jì)為x = argmaxx px(x)。通常情況下,f(x)不是y=argmaxypy(y).舉個(gè)例子來說:xN(6,1),y=f(x),利用蒙特卡洛仿真能夠得到y(tǒng)的分布(見2.7.1節(jié))。其結(jié)果如圖5.2.我們看到原始
7、的高斯分布已經(jīng)被非線性的S曲線乘方。特別的指出的是,我們看到轉(zhuǎn)化后的分布模型不完全等同于原始模型的形式。圖5.2 在非線性轉(zhuǎn)換下的密度轉(zhuǎn)化形式示例。注意轉(zhuǎn)化后的分布函數(shù)與原始分布的區(qū)別。以練習(xí)1.4為例(bishop 2006b)。圖形由方差的貝葉斯變化生成。為了了解最大后驗(yàn)估計(jì)中如何產(chǎn)生這一問題的,考慮如下例子。伯努利分布是典型的均值參數(shù)化模型,所以,p(y = 1|) = , 其中,y 0, 1。在每個(gè)單元間隔,假定我們有一個(gè)統(tǒng)一的先驗(yàn):p() = 1 I(0 1)。如果這里沒有數(shù)據(jù),那么最大后驗(yàn)估計(jì)僅僅是前驗(yàn)知識的模型,他們可以是在0 、1之間的任意值。現(xiàn)在,我們開始介紹參數(shù)化的不同能夠
8、在這一任意區(qū)間挑選出不同的點(diǎn)。首先,則新的先驗(yàn)為:因此,最大后驗(yàn)估計(jì)依賴于參數(shù)化。因?yàn)樗迫欢仁且粋€(gè)函數(shù)而不是概率密度,所以最大似然估計(jì)與參數(shù)無關(guān)。貝葉斯推斷也不受參數(shù)化的影響,因?yàn)樨惾~斯推斷在整合參數(shù)空間的時(shí)候已經(jīng)考慮了度量方面變化。解決上述問題的一個(gè)方法是最優(yōu)化下面的目標(biāo)函數(shù):I()是與P有關(guān)的費(fèi)舍爾信息矩陣(參見6.2.2節(jié))。這個(gè)估計(jì)參數(shù)是獨(dú)立的,原因參見(Jermyn 2005;。不幸運(yùn)的是,優(yōu)化方程常常很復(fù)雜,這很大限度上降低了該方法的吸引力。5.2.2 置信區(qū)間除了點(diǎn)估計(jì),我們經(jīng)常想得到可信度的度量。一個(gè)標(biāo)準(zhǔn)的可信度度量形式是數(shù)據(jù)theta的后驗(yàn)分布的寬度。我們可以利用置信區(qū)間10
9、0(1 )%度量,就是說,在C = (l, u),區(qū)域中包括1 的后驗(yàn)概率的量。這里可能有許多這樣的區(qū)間,所以我們選擇區(qū)域是(1)/2,位于分布尾端的區(qū)間,并把他稱為置信區(qū)間。圖5.3(a)中心區(qū)域和(b)HPD區(qū)域的beta(3,9)檢驗(yàn)。置信區(qū)間是(0.06,0.52)和HPD是(0.04,0.48)。上圖是在圖3.6的基礎(chǔ)上,利用betaHPD生成的。如果后驗(yàn)是已知的函數(shù)形式,我們可以利用l= F1(/2) and u = F1(1/2),計(jì)算后驗(yàn)分布的中心區(qū)間,F為后驗(yàn)分布的累計(jì)密度曲線。例如,如果后驗(yàn)是高斯分布,5.2.2.1 后驗(yàn)密度最高的區(qū)域中心區(qū)間的存在的一個(gè)問題是很有可能這里
10、有一個(gè)點(diǎn)它的概率密度很高但是不在置信區(qū)間。圖5.3中處于左側(cè)置信區(qū)間外的點(diǎn)比剛剛好處于右側(cè)區(qū)間的點(diǎn)的概率密度高很多。這便促使了一個(gè)替代變量,稱之為最高的后驗(yàn)概率密度或者最高的后驗(yàn)概率密度區(qū)間。這被定義為(一組)最可能的點(diǎn),這是總的概率的100(1-)%。更正式的,我們發(fā)現(xiàn)概率分布函數(shù)閾值P為:并且定義HPD區(qū)域?yàn)椋涸趌d,最大概率密度區(qū)間有時(shí)候被稱作最高密度區(qū)間或者HDI。例如,圖5.3(b)表明BETA的95%的HDI是(0.04,0.48)。我們看到這個(gè)區(qū)間比置信區(qū)間狹窄,但即使這樣,他依然包含了總量的95%;而且,區(qū)間內(nèi)的每一點(diǎn)都比區(qū)間外的概率密度高。對于單峰分布,最大密度區(qū)間將是包含總
11、量95%的最狹窄的區(qū)間。為了看到這個(gè),想想“充水”的反過程,直到全部的95%顯示出來,只剩下5%被淹沒在水下。在Id情況下,方便計(jì)算使用簡單的算法:用最小的寬度簡單的搜索滿足包含總量的95%的區(qū)間。如果我們知道累計(jì)分布曲線的,這個(gè)可以通過數(shù)值最優(yōu)化來實(shí)現(xiàn)?;蛘呷绻覀冇写罅繕颖荆◤腷etaHPD圖形表示),通過搜索排序的數(shù)據(jù)點(diǎn)。如果后驗(yàn)是多峰的分布,最大概率密度區(qū)間可能不是一個(gè)連續(xù)的區(qū)域:例如見圖5.4(b)。然而,總結(jié)概括多峰后驗(yàn)經(jīng)常是很難的。5.2.3 不同比例的推斷有時(shí)候我們有多個(gè)參數(shù),并且想利用這些參數(shù)計(jì)算出一些函數(shù)的后驗(yàn)概率分布。例如,假如你要從亞馬遜上買東西,并且有兩個(gè)售貨商提供相
12、同的價(jià)格。售貨商1有90的正面評論,10個(gè)反面評論。售貨商2有兩條正面評論0條負(fù)面評論。那你想要買誰的?表面上看,我們應(yīng)該選擇銷售商2,但是我們不能非常確信銷售商2一定比1好,因?yàn)樗脑u論太少了。在這一方面,我們構(gòu)筑貝葉斯方法來分析這個(gè)問題。相似的方法可以用來比較不同設(shè)置下的群體比例或比率。假定theta1和theta2是可靠度未知的兩個(gè)銷售商。因?yàn)槲覀儾涣私馑麄兏嗟男畔ⅲ覀冑x予他們統(tǒng)一的先驗(yàn)分布i Beta(1, 1). 后驗(yàn)概率是p(1|D1)= eta(91, 11) 和p(2|D2) = Beta(3, 1). 我們想要計(jì)算p(1 > 2|D). 為方便起見,定義 = 1 2
13、為比率方面的不同(另外,我們不妨想)利用數(shù)值積分,我們可以計(jì)算期望值:我們發(fā)現(xiàn)p( > 0|D) = 0.710,這表明你應(yīng)該從銷售商1哪里買。代碼參見amazonsellerDemo。一個(gè)簡單的解決方法是利用蒙特卡洛采樣得到近似的后驗(yàn)概率。這是容易的,因?yàn)閠heta1和theta2在后驗(yàn)概率分布中是相互獨(dú)立的,并且兩者都有beta分布,這樣就可以利用標(biāo)準(zhǔn)方法來采樣。p(i|Di)的分布如圖5.5(b)。通過計(jì)算theta1大于theta2的部分能夠得到一個(gè)p( > 0|D)的近似值;結(jié)果是0.718,非常接近真實(shí)值。圖5.5(a)確切的后驗(yàn)概率分布p(i|Di). (b)蒙特卡洛
14、近似p(|D). 我們運(yùn)用核密度估計(jì)得到一個(gè)平滑曲線。垂直線圍住的是中間95%的區(qū)間。5.3 貝葉斯模型選擇在圖1.18中,我們知道使用過高的多項(xiàng)式導(dǎo)致過擬合,使用過低的多項(xiàng)式又導(dǎo)致欠擬合的發(fā)生。相似的,在圖7.8(a)中,我們知道使用太小的正則化參數(shù)導(dǎo)致過擬合,使用太大的參數(shù)又導(dǎo)致欠擬合。通常情況,當(dāng)面對一系列不同復(fù)雜性的模型時(shí)(相似的參數(shù)化分布),怎樣才能選擇一個(gè)最好的呢?這樣一個(gè)難題稱為模型選擇問題。一個(gè)方法是利用交叉驗(yàn)證的方法去估計(jì)所有候選模型的泛化誤差,然后挑選一個(gè)看起來最好的。然而,這需要對每個(gè)模型擬合K次,其中,K是訓(xùn)練集交叉驗(yàn)證的次數(shù)。一個(gè)更加高效的方法是計(jì)算關(guān)于模型的后驗(yàn)概率
15、分布通過上式,我們可以容易的計(jì)算出最大后驗(yàn)估計(jì)模型,稱為貝葉斯模型選擇。如果我們在模型中使用了統(tǒng)一的先驗(yàn),p(m) 1,這相當(dāng)于挑選模型中的最大值對于模型M,這個(gè)數(shù)被稱為邊際似然度,集成的似然度或者證據(jù)。在5.3.2中將要詳細(xì)的介紹如何操作這個(gè)積分。但是首先我們要給出這個(gè)值的直觀解釋。我們發(fā)現(xiàn)beginequationlabelp( > theta|D) = 0.710endequation這表明你應(yīng)該從銷售商1哪里買。代碼參見amazonsellerDemo。 一個(gè)簡單的解決方法是利用蒙特卡洛采樣得到近似的后驗(yàn)概率。這是容易的,因?yàn)閠heta1和theta2在后驗(yàn)概率分布中是相互獨(dú)立的
16、,并且兩者都有beta分布,這樣就可以利用標(biāo)準(zhǔn)方法來采樣。p(thetai|Di)的分布如圖5.5(b)。通過計(jì)算theta1 大于theta2的部分能夠得到一個(gè)p(delta > theta|D)的近似值;結(jié)果是0.718,非常接近真實(shí)值。beginfigure centering % Requires usepackagegraphicx includegraphicswidth=0.8textwidthfig10 %captionlabelfig:1endfigure圖5.5(a)確切的后驗(yàn)概率分布p(i|Di). (b)蒙特卡洛近似p(|D). 我們運(yùn)用核密度估計(jì)得到一個(gè)平滑曲線
17、。垂直線圍住的是中間95%的區(qū)間。section*5.3 貝葉斯模型選擇paragraph 在圖1.18中,我們知道使用過高的多項(xiàng)式導(dǎo)致過擬合,使用過低的多項(xiàng)式又導(dǎo)致欠擬合的發(fā)生。相似的,在圖7.8(a)中,我們知道使用太小的正則化參數(shù)導(dǎo)致過擬合,使用太大的參數(shù)又導(dǎo)致欠擬合。通常情況,當(dāng)面對一系列不同復(fù)雜性的模型時(shí)(相似的參數(shù)化分布),怎樣才能選擇一個(gè)最好的呢?這樣一個(gè)難題稱為模型選擇問題。一個(gè)方法是利用交叉驗(yàn)證的方法去估計(jì)所有候選模型的泛化誤差,然后挑選一個(gè)看起來最好的。然而,這需要對每個(gè)模型擬合K次,其中,K是訓(xùn)練集交叉驗(yàn)證的次數(shù)。一個(gè)更加高效的方法是計(jì)算關(guān)于模型的后驗(yàn)概率分布。beginfigure centering % Requires usepackagegraphicx includegraphicswidth=0.8textwidthfig11 %captionlabelfig:1endfigure通過上式,我們可以容易的計(jì)算出最大后驗(yàn)估計(jì)模型beginequ
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 度校企合作合同書(三):人才培養(yǎng)與交流
- 兒童健康食品供應(yīng)合同
- 醫(yī)療中心服務(wù)合同樣本
- 環(huán)保工程項(xiàng)目內(nèi)部承包合同范本
- 北京市全日制用工勞動合同模板
- 標(biāo)準(zhǔn)版租賃與購銷合同范本
- 雙方合作經(jīng)營合同示范文本
- 城市住宅房屋買賣合同范本
- 文化機(jī)械產(chǎn)品用戶體驗(yàn)評估方法考核試卷
- 工業(yè)機(jī)器人協(xié)作機(jī)器人技術(shù)考核試卷
- 2025年中國國投高新產(chǎn)業(yè)投資集團(tuán)招聘筆試參考題庫含答案解析
- 尿液結(jié)晶教學(xué)課件
- 繪本《你很特別》
- 茶葉揉捻機(jī)總體設(shè)計(jì)方案的擬定
- 律師事務(wù)所主任在司法行政工作會議上的發(fā)言稿
- 初中三角函數(shù)計(jì)算題100道
- 蘇州大學(xué)應(yīng)用技術(shù)學(xué)院財(cái)務(wù)管理
- 2022年新目標(biāo)英語七年級期末考試質(zhì)量分析
- 北師大版五年級數(shù)學(xué)下冊導(dǎo)學(xué)案全冊
- 臺球俱樂部助教制度及待遇
- 醫(yī)院護(hù)士勞動合同
評論
0/150
提交評論