先驗分布與后驗分布_第1頁
先驗分布與后驗分布_第2頁
先驗分布與后驗分布_第3頁
先驗分布與后驗分布_第4頁
先驗分布與后驗分布_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

目前一頁\總數(shù)五十五頁\編于二十二點1一、統(tǒng)計推斷中可用的三種信息二、貝葉斯公式三、共軛先驗分布四、超參數(shù)及其確定五、多參數(shù)模型六、充分統(tǒng)計量第一章先驗分布與后驗分布目前二頁\總數(shù)五十五頁\編于二十二點21.總體信息:總體分布或所屬分布族提供給我們的信息2.樣本信息:從總體抽取的樣本提供給我們的信息3.先驗信息:在抽樣之前有關(guān)統(tǒng)計推斷的一些信息。(兩個例子)§1.1統(tǒng)計推斷中可用的三種信息

目前三頁\總數(shù)五十五頁\編于二十二點3§1.2貝葉斯公式貝葉斯統(tǒng)計學的基礎(chǔ)是著名的貝葉斯公式,它是英國學者貝葉斯(T.R.Bayes1702~1761)在他死后二年發(fā)表的一篇論文《論有關(guān)機遇問題的求解》中提出的。經(jīng)過二百年的研究與應用,貝葉斯的統(tǒng)計思想得到很大的發(fā)展,目前已形成一個統(tǒng)計學派—貝葉斯學派。為了紀念他,英國歷史最悠久的統(tǒng)計雜志《Biometrika》在1958年又全文刊登貝葉斯的這篇論文。目前四頁\總數(shù)五十五頁\編于二十二點4一、貝葉斯公式的三種形式

初等概率論中的貝葉斯公式是用事件的概率形式給出的??稍谪惾~斯統(tǒng)計學中應用更多的是貝葉斯公式的密度函數(shù)形式。1.貝葉斯公式的事件形式:假定是互不相容的事件,它們之和包含事件B,即,則有:

目前五頁\總數(shù)五十五頁\編于二十二點5例1.5投資決策問題

為了提高某產(chǎn)品的質(zhì)量,公司經(jīng)理考慮增加投資來改進生產(chǎn)設(shè)備,預計需投資100萬元,但從投資效果看,下屬部門有兩種意見:

θ1

:改進生產(chǎn)設(shè)備后,高質(zhì)量產(chǎn)品可占90%

θ2:改進生產(chǎn)設(shè)備后,高質(zhì)量產(chǎn)品可占70%問:公司經(jīng)理怎樣決策?注:根據(jù)過去的經(jīng)驗知:θ1的可信度為40%,θ2的可信度為60%目前六頁\總數(shù)五十五頁\編于二十二點6假設(shè)Ⅰ隨機變量X有一個密度函數(shù)p(x;θ),其中θ是一個參數(shù),不同的θ對應不同的密度函數(shù),故從貝葉斯觀點看,p(x;θ)是在給定θ后的一個條件密度函數(shù),因此記為p(x│θ)更恰當一些。這個條件密度能提供我們的有關(guān)的θ信息就是總體信息。假設(shè)Ⅱ當給定θ后,從總體p(x│θ)中隨機抽取一個樣本X1,…,Xn,該樣本中含有θ的有關(guān)信息。這種信息就是樣本信息。

2.貝葉斯公式的密度函數(shù)形式:在給出貝葉斯公式的密度函數(shù)形式之前,先介紹以下貝葉斯學派的一些具體思想或者叫著基本假設(shè):目前七頁\總數(shù)五十五頁\編于二十二點7假設(shè)Ⅲ從貝葉斯觀點來看,未知參數(shù)θ是一個隨機變量。而描述這個隨機變量的分布可從先驗信息中歸納出來,這個分布稱為先驗分布,其密度函數(shù)用π(θ)表示。(1)先驗分布定義1將總體中的未知參數(shù)θ∈Θ看成一取值于Θ的隨機變量,它有一概率分布,記為π(θ),稱為參數(shù)θ的先驗分布。(2)后驗分布在貝葉斯統(tǒng)計學中,把以上的三種信息歸納起來的最好形式是在總體分布基礎(chǔ)上獲得的樣本X1,…,Xn,和參數(shù)的聯(lián)合密度函數(shù):目前八頁\總數(shù)五十五頁\編于二十二點8在這個聯(lián)合密度函數(shù)中。當樣本給定之后,未知的僅是參數(shù)θ了,我們關(guān)心的是樣本給定后,θ的條件密度函數(shù),依據(jù)密度的計算公式,容易獲得這個條件密度函數(shù):這就是貝葉斯公式的密度函數(shù)形式,其中稱為θ的后驗密度函數(shù),或后驗分布。而:是樣本的邊際分布,或稱樣本的無條件分布,它的積分區(qū)域就是參數(shù)θ的取值范圍,隨具體情況而定。目前九頁\總數(shù)五十五頁\編于二十二點93.貝葉斯公式的離散形式:

當是離散隨機變量時,先驗分布可用先驗分布列π(θi),這時后驗分布也是離散形式:假如總體X也是離散的,則只須將p(x|θ)換成P(X=x|θ)即可。

目前十頁\總數(shù)五十五頁\編于二十二點10

前面的分析總結(jié)如下:人們根據(jù)先驗信息對參數(shù)θ已有一個認識,這個認識就是先驗分布π(θ)。通過試驗,獲得樣本。從而對θ的先驗分布進行調(diào)整,調(diào)整的方法就是使用上面的貝葉斯公式,調(diào)整的結(jié)果就是后驗分布。后驗分布是三種信息的綜合。獲得后驗分布使人們對θ的認識又前進一步,可看出,獲得樣本的的效果是把我們對θ的認識由π(θ)調(diào)整到。所以對θ的統(tǒng)計推斷就應建立在后驗分布的基礎(chǔ)上。二、后驗分布是三種信息的綜合目前十一頁\總數(shù)五十五頁\編于二十二點11例1.4設(shè)事件A的概率為,即。為了估計而作n次獨立觀察,其中事件A出現(xiàn)次數(shù)為X,則有X服從二項分布即解題步驟:1.作貝葉斯假設(shè)。如果此時我們對事件A的發(fā)生沒有任何了解,對的大小也沒有任何信息。在這種情況下,貝葉斯建議用區(qū)間(0,1)上的均勻分布作為θ的先驗分布。因為它在(0,1)上每一點都是機會均等的。因此:2.計算樣本X與參數(shù)的聯(lián)合分布:此式在定義域上與二項分布有區(qū)別。如何求出后驗分布?目前十二頁\總數(shù)五十五頁\編于二十二點12即:5.具體算例。拉普拉斯計算過這個概率,研究男嬰的誕生比例是否大于0.5?如抽了251527個男嬰,女嬰241945個。他選用U(0,1)作為θ的先驗分布,于是可得θ的后驗分布Be(x+1,n-x+1),其中n=251527+241945=493472,x=251527。由此拉普拉斯計算了“θ≤0.5”的后驗概率:故他斷言男嬰誕生的概率大于0.5。4.利用貝葉斯公式可得的后驗分布:3.計算X的邊際密度為:目前十三頁\總數(shù)五十五頁\編于二十二點13注:1.伽瑪分布與貝塔分布簡介:定義:定義在[0,1]上,且用密度函數(shù):表示的概率分布稱為βⅠ型分布,記為βⅠ(p,q)或者βe(p,q)。

目前十四頁\總數(shù)五十五頁\編于二十二點142.特例:當p=q=1時,βⅠ(1,1)型分布即為區(qū)間[0,1]上的均勻分布;當p=q=1/2,βⅠ(1/2,1/2)型分布稱為反正弦分布,密度函數(shù)為:設(shè),則的密度函數(shù)為:即:3.數(shù)字特征:目前十五頁\總數(shù)五十五頁\編于二十二點153.為什么將貝塔分布作為θ的先驗分布族是恰當?shù)模?1)參數(shù)θ是廢品率,它僅在(0,1)上取值。因此,必需用區(qū)間(0,1)上的一個分布去擬合先驗信息。β分布正是這樣一個分布。(2)β分布含有兩個參數(shù)p與q,不同的p與q就對應不同的先驗分布,因此這種分布的適應面較大。(3)樣本X的分布為二項分布b(n,θ)時,假如θ的先驗分布為β分布,則用貝葉斯估計算得的后驗分布仍然是β分布,只是其中的參數(shù)不同。這樣的先驗分布(β分布)稱為參數(shù)θ的共軛先驗分布。選擇共軛先驗分布在處理數(shù)學問題上帶來不少方便。目前十六頁\總數(shù)五十五頁\編于二十二點16§1.3共軛先驗分布一、共軛先驗分布定義2

設(shè)是總體分布中的參數(shù)(或參數(shù)向量),π(θ)是的先驗密度函數(shù),假如由抽樣信息算得的后驗密度函數(shù)與π(θ)有相同的形式,則稱π(θ)是的(自然)共軛先驗分布。注意:共軛先驗分布是對某一分布中的參數(shù)而言的。如正態(tài)均值、正態(tài)方差、泊松均值等。離開指定參數(shù)及其所在的分布去談論共軛先驗分布是沒有意義的。

目前十七頁\總數(shù)五十五頁\編于二十二點17(2)確定先驗分布:例1.6證明:正態(tài)均值(方差已知)的共軛先驗分布是正態(tài)分布。證明思路:(1)寫出樣本的似然函數(shù):目前十八頁\總數(shù)五十五頁\編于二十二點18(3)計算后驗分布:目前十九頁\總數(shù)五十五頁\編于二十二點19目前二十頁\總數(shù)五十五頁\編于二十二點20補充例題:設(shè)X表示人的胸圍,根據(jù)經(jīng)驗,胸圍是近似服從正態(tài)分布的?,F(xiàn)測量了n=10000個人的胸圍,得樣本均值為39.8(cm),樣本方差為4,假設(shè)θ的先驗分布為N(38,9),求θ的后驗分布。(答案:N(39.8,1/2500))說明:樣本較大時,似然函數(shù)起決定作用,先驗信息幾乎不起做用。目前二十一頁\總數(shù)五十五頁\編于二十二點21二、怎樣簡化后驗分布的計算

——省略常數(shù)因子

在給定樣本分布p(x|θ)和先驗分布π(θ)后可用貝葉斯公式計算θ的后驗分布:π(θ)=p(x|θ)π(θ)/m(x),由于m(x)不依賴于θ,在計算θ的后驗分布中僅起到一個正則化因子的作用。假如把m(x)省略,把貝葉斯公式改寫成如下等價形式:其中符號“”表示兩邊僅差一個常數(shù)因子,一個不依賴于θ的常數(shù)因子。上式右端稱為后驗分布的核。目前二十二頁\總數(shù)五十五頁\編于二十二點22利用后驗分布的核重新證明例1.6目前二十三頁\總數(shù)五十五頁\編于二十二點23例1.7證明:二項分布的成功概率θ的共軛先驗分布是貝塔分布。目前二十四頁\總數(shù)五十五頁\編于二十二點24三、共軛先驗分布的優(yōu)缺點共軛先驗分布在很多場合被采用,因為它有兩個優(yōu)點:(1)計算方便。(2)后驗分布的一些參數(shù)可得到很好的解釋。不足:怎樣找到合適的先驗分布?目前二十五頁\總數(shù)五十五頁\編于二十二點25例1.8例1.6中后驗均值與后驗方差的合理解釋。由例1.6知

其中是用方差倒數(shù)組成的權(quán),于是后驗均值是樣本均值與先驗均值的加權(quán)平均。而可解釋為:后驗分布的精度是樣本均值分布的精度與先驗分布精度之和,增加樣本量n或減少先驗分布方差都有利于提高后驗分布的精度。目前二十六頁\總數(shù)五十五頁\編于二十二點26例1.9對例1.7中后驗分布的均值和方差的解釋。

分析:后驗分布Be(α+x,β+n-x)的均值和方差可寫為:目前二十七頁\總數(shù)五十五頁\編于二十二點27目前二十八頁\總數(shù)五十五頁\編于二十二點28目前二十九頁\總數(shù)五十五頁\編于二十二點29四、常用的一些共軛先驗分布共軛先驗分布選取的一般原則:是由似然函數(shù)L(θ)=p(x|θ)中所含的因式所決定的,即選與似然函數(shù)具有相同核的分布作為先驗分布。例1.10設(shè)是來自正態(tài)分布的一個樣本觀測值,其中θ已知,求方差的共軛先驗分布。目前三十頁\總數(shù)五十五頁\編于二十二點30解題的基本思路:寫出樣本的似然函數(shù):么分布具有這種形式的核呢?目前三十一頁\總數(shù)五十五頁\編于二十二點31目前三十二頁\總數(shù)五十五頁\編于二十二點32目前三十三頁\總數(shù)五十五頁\編于二十二點33常用的一些共軛先驗分布總體分布參數(shù)共軛先驗分布后驗分布的期望正態(tài)分布均值正態(tài)分布正態(tài)分布方差倒Γ分布IGa(a,b)二項分布

成功概率β分布Poisson分布

均值

Γ分布Ga(a,b)指數(shù)分布均值的倒數(shù)Γ分布Ga(a,b)目前三十四頁\總數(shù)五十五頁\編于二十二點34§1.4超參數(shù)及其確定一、超參數(shù)的定義:先驗分布中所含的未知參數(shù)稱為超參數(shù)二、估計方法:共軛先驗分布是一種有信息的先驗分布,故其中所含的超參數(shù)應充分利用各種先驗信息來確定它,下面用一個例子來介紹目前國內(nèi)外文獻中對超參數(shù)的估計方法:問題:二項分布中成功概率θ的共軛先驗分布是貝塔分布Be(α,β),怎樣確定兩個超參數(shù)α和β?目前三十五頁\總數(shù)五十五頁\編于二十二點351.利用先驗矩:目前三十六頁\總數(shù)五十五頁\編于二十二點362.利用先驗分位數(shù):假如根據(jù)先驗信息可以確定貝塔分布的二個分位數(shù),則可用這兩個分位數(shù)來確定α與β,譬如用兩個上、下四分位數(shù)θU與θL來確定α與β,θU與θL分別滿足如下二個方程:從這兩個方程解出α與β即可確定超參數(shù)。目前三十七頁\總數(shù)五十五頁\編于二十二點37求解方法:1利用貝塔分布和F分布間的關(guān)系,對不同的α與β多算一些值,使積分值逐漸逼近0.25.2對一些典型的α與β,尋求其上下四分位數(shù),這樣可獲得一張表,(見課本18頁)查表即可目前三十八頁\總數(shù)五十五頁\編于二十二點383.利用先驗矩和先驗分位數(shù)假如根據(jù)先驗信息可獲得先驗均值和p分位數(shù),則可列出下列方程:

由此可解出α與β的估計值。4.其它方法目前三十九頁\總數(shù)五十五頁\編于二十二點39§1.5多參數(shù)模型由以上幾節(jié)內(nèi)容可知,求某一個參數(shù)的后驗分布的基本思想可概括為:先根據(jù)先驗信息給出參數(shù)的先驗分布,然后按貝葉斯公式算得后驗分布,即:

但在很多實際問題中卻包含有多個未知參數(shù)的情形,如正態(tài)分布、多項分布以及多元正態(tài)分布等,此時可采用與單參數(shù)相似的方法來求參數(shù)的后驗分布,而把其它的參數(shù)看成是討厭參數(shù)。目前四十頁\總數(shù)五十五頁\編于二十二點40例1.12試求正態(tài)均值與正態(tài)方差的(聯(lián)合)

共軛先驗分布及后驗分布。(P24)1.取先驗分布為的情形2.關(guān)于指數(shù)分布族的若干結(jié)論3.取先驗分布為共軛先驗分布的情形目前四十一頁\總數(shù)五十五頁\編于二十二點411.取先驗分布為的情形目前四十二頁\總數(shù)五十五頁\編于二十二點42目前四十三頁\總數(shù)五十五頁\編于二十二點43back目前四十四頁\總數(shù)五十五頁\編于二十二點443.取先驗分布為共軛先驗分布的情形(1)求的共軛先驗密度(2)求的后驗邊際密度(3)求給定后的條件后驗密度函數(shù)例題目前四十五頁\總數(shù)五十五頁\編于二十二點45例有一實驗站關(guān)于生長小麥的經(jīng)驗為每塊樣地的均值和標準差分別為100及10的正態(tài)分布,現(xiàn)在他們研究施加激素的影響。在12塊地施加激素后所得產(chǎn)量如下(單位:千克):141,102,73,171,137,91,81,157,146,69,121,134關(guān)于方差的信息是均值、標準差分別約為300及160;關(guān)于均值的信息是均值約為110,約為15即相當于觀測了15個觀測值。求:(1)的共軛先驗;(2)的后驗密度函數(shù);(3)的邊際后驗;(4)對已知情況下的條件后驗密度函數(shù)。back目前四十六頁\總數(shù)五十五頁\編于二十二點46§1.6充分統(tǒng)計量一、經(jīng)典統(tǒng)計中充分統(tǒng)計量的回顧充分性是數(shù)理統(tǒng)計中最重要的概念之一,也是數(shù)理統(tǒng)計這一學科特有的基本概念之一。它是Fisher在1925年提出的。

充分性的直觀定義:不損失信息的統(tǒng)計量。

目前四十七頁\總數(shù)五十五頁\編于二十二點47定義:設(shè)是來自分布函數(shù)F(x|θ)的一個樣本,T=T(x)是統(tǒng)計量,假如在給定T(x)=t的條件下,x的條件分布與θ無關(guān)的話,則稱該統(tǒng)計量為θ的充分統(tǒng)計量。

目前四十八頁\總數(shù)五十五頁\編于二十二點48充分統(tǒng)計量的一個重要特性:當?shù)玫匠浞纸y(tǒng)計量T的某個取值t之后,而失去原樣本的觀察值也沒有關(guān)系。因為我們可以根據(jù)上述的條件分布來構(gòu)造某個隨機試驗,從中獲得來自總體的一個新樣本,這個新樣本雖不能完全恢復老樣本的原狀,但它與老樣本所含的有關(guān)參數(shù)θ的信息是一樣的。目前四十九頁\總數(shù)五十五頁\編于二十二點49

因子分解定理:一個統(tǒng)計量T(x)對參數(shù)θ是充分的充要條件是:存在一個t與θ的函數(shù)g(t,θ)和一個樣本x的函數(shù)h(x),使得對任一樣本x和任意θ,樣本的聯(lián)合密度p(x|θ)可表示為它們的乘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論