![第四講概率密度估計(jì)_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/c0fc839a-3515-470c-a019-c2cd80bc25f0/c0fc839a-3515-470c-a019-c2cd80bc25f01.gif)
![第四講概率密度估計(jì)_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/c0fc839a-3515-470c-a019-c2cd80bc25f0/c0fc839a-3515-470c-a019-c2cd80bc25f02.gif)
![第四講概率密度估計(jì)_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/c0fc839a-3515-470c-a019-c2cd80bc25f0/c0fc839a-3515-470c-a019-c2cd80bc25f03.gif)
![第四講概率密度估計(jì)_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/c0fc839a-3515-470c-a019-c2cd80bc25f0/c0fc839a-3515-470c-a019-c2cd80bc25f04.gif)
![第四講概率密度估計(jì)_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/c0fc839a-3515-470c-a019-c2cd80bc25f0/c0fc839a-3515-470c-a019-c2cd80bc25f05.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第四講:概率密度函數(shù)第四講:概率密度函數(shù)的估計(jì)(一)的估計(jì)(一)顧明亮2011年3月內(nèi)容提要內(nèi)容提要l引言l參數(shù)估計(jì)的方法l高斯分布參數(shù)估計(jì)l混合高斯分布參數(shù)估計(jì)一、引言一、引言 l問題形式的變化l本章學(xué)習(xí)的主要內(nèi)容l參數(shù)估計(jì)的基本方法問題一問題一已知: (1)樣本總的類別數(shù);(2)各樣本類別的先驗(yàn)概率;(3)測量值的類條件概率;(4)樣本特征矢量。求:給定樣本特征矢量所屬的類別1ii,2, ,cip|ip x12,tdxx xx求解方法(求解方法(1)1( |)|( )|,1,2,iijp xpxp xxpxi jciii()最小錯(cuò)誤率貝葉斯準(zhǔn)則 (i)計(jì)算后驗(yàn)概率: p (ii)根據(jù)后驗(yàn)概
2、率確定所屬的類別: 如果p, ,ji 則:x求解方法(求解方法(2) 1|,|, ,1,2,cijjjjxxpxxrxi jc ji iiii(2)最小風(fēng)險(xiǎn)貝葉斯準(zhǔn)則 (i)計(jì)算后驗(yàn)概率:p (ii)計(jì)算條件期望損失: r (iii)根據(jù)風(fēng)險(xiǎn)大小決定所屬的類別: 如果:r 則:x問題二問題二已知: (1)樣本總的類別數(shù);(2)各樣本類別的先驗(yàn)概率;(3)類條件概率的分布形式及參數(shù)值;(如:正態(tài)分布及均值和協(xié)方差)(4)樣本特征矢量。求:給定樣本特征矢量所屬的類別ip1ii,2, ,c12,tdxx xx求解方法求解方法1)2| )|3xxiii()計(jì)算條件概率:p(x|( )計(jì)算后驗(yàn)概率:p(
3、(或計(jì)算條件期望損失:r)( )根據(jù)最小錯(cuò)誤貝葉斯準(zhǔn)則決策或根據(jù)最小風(fēng)險(xiǎn)貝葉斯準(zhǔn)則決策問題三問題三本講擬解決的問題本講擬解決的問題已知:(1)樣本總的類別數(shù);(2)若干訓(xùn)練樣本特征矢量及其對應(yīng)的類別( )(3)樣本所服從的統(tǒng)計(jì)分布函數(shù)但參數(shù)未知(如:正態(tài)分布,但均值與協(xié)方差矩陣未知)(4)測試樣本特征矢量:求:給定樣本特征矢量所屬的類別12,tdxx xx1ii,2, ,c1x2n,x , ,x121nilllii, , ,l,2, ,c本章學(xué)習(xí)內(nèi)容本章學(xué)習(xí)內(nèi)容ipi(1)如何利用給定的樣本集估計(jì)參數(shù)(如:正態(tài)分布的均值和協(xié)方差)(2)利用估計(jì)的參數(shù)計(jì)算p x|和(3)討論估計(jì)量 的性質(zhì)(有偏
4、估計(jì)還是無偏估計(jì)、方差或均方誤差如何?)(4)利用樣本集直接估計(jì)錯(cuò)誤率的方法參數(shù)估計(jì)的分類參數(shù)估計(jì)的分類l監(jiān)督參數(shù)估計(jì)(已知樣本的特征矢量及類別,先估計(jì)分布參數(shù),再計(jì)算條件概率,然后計(jì)算后驗(yàn)概率,最后決策。)l非監(jiān)督參數(shù)估計(jì)(已知樣本的特征矢量沒有告訴樣本的類別,先估計(jì)分布參數(shù),再計(jì)算條件概率,然后計(jì)算后驗(yàn)概率,最后進(jìn)行決策。)l非參數(shù)估計(jì)(不去估計(jì)概率,直接根據(jù)已有訓(xùn)練樣本提供的類別信息進(jìn)行分類決策)二、未知概率密度函數(shù)估計(jì)二、未知概率密度函數(shù)估計(jì)l參數(shù)估計(jì)的概念l參數(shù)估計(jì)的方法l最大似然參數(shù)估計(jì) (maximum likelihood parameter estimation)l最大后驗(yàn)概
5、率估計(jì) (maximum a posteriori probability estimation)l貝葉斯推理 (bayesian inference)l最大熵估計(jì) (maximum entropy estimation)2.1 基本概念(基本概念(1)l統(tǒng)計(jì)量:樣本中包含著總體的信息,我們希望通過樣本集把有關(guān)信息抽取出來,即針對不同要求構(gòu)造出樣本的某種函數(shù),這種函數(shù)在統(tǒng)計(jì)學(xué)上叫做統(tǒng)計(jì)量。l參數(shù)空間:在參數(shù)估計(jì)中,總是假定總體概率密度函數(shù)的形式已知,但分布中的參數(shù)未知,這些未知參數(shù)全部可容許的取值集合叫做參數(shù)空間。2.1 基本概念(基本概念(2)l點(diǎn)估計(jì)、估計(jì)量和估計(jì)值:1nd xxxdi(i
6、)(i)1ni點(diǎn)估計(jì)問題就是要構(gòu)造一個(gè)統(tǒng)計(jì)量, ,作為參數(shù) 的估計(jì) ,在統(tǒng)計(jì)學(xué)中稱之為估計(jì)量。如果x ,是屬于類別的幾個(gè)樣本觀察值,代入統(tǒng)計(jì)量 就得到對于第 類的 的具體數(shù)值,這個(gè)數(shù)值在統(tǒng)計(jì)學(xué)中稱為 的估計(jì)值。2.1 基本概念(基本概念(3)l兩點(diǎn)假設(shè)1223,|jjjjjjjjnp xp xp x cjjjj(1)參數(shù) 是確定的(非隨機(jī)的)未知量;(2)按類別把樣本集分開,假定有c個(gè)類別,則可分成c個(gè)樣本集, ,其中 中的樣本都是從概率密度p x|的總體中獨(dú)立抽取出來的。()類條件概率密度p x|具有某種確定的函數(shù)形式。如正態(tài)分布、指數(shù)分布、 分布等,但其參數(shù)向量 未知。如一維正態(tài)分布未知的
7、參數(shù)為為表示同有關(guān),把記為,jj 。2.2 最大似然估計(jì)最大似然估計(jì)1|(1)|(2); )(| )iiiinkkxp xp xp x12n12n已知:x=x ,x , ,x求:p顯化:;假設(shè):x是從概率密度函數(shù)為p(x, )的分布函數(shù)中抽取得到的。p(x; )=p(x ,x , ,x 11111argmax(| )(| )0(4)ln(| )ln,10,nkknkknkknnkkkkkp xp xlp xlp xp xp xml(3)估計(jì):定義:似然函數(shù)( loglikelihood function)舉例:正態(tài)分布函數(shù)的參數(shù)估計(jì)舉例:正態(tài)分布函數(shù)的參數(shù)估計(jì) 1111221111111111
8、,exp2(2 )loglog( )1122log( )122ntniipinntiiiintiiil xxxxllxxlnxx 構(gòu)造統(tǒng)計(jì)量:求對 的微分得到:和結(jié)論結(jié)論111niintiiixxmxmn 令上面兩式等于零,可得到均值和協(xié)方差的最大似然估計(jì)為:1 =m=n討論討論lml估計(jì)是漸近無偏估計(jì)(asymptotically unbiased)lml估計(jì)也是漸近一致估計(jì)(asymptotically consistent)lml估計(jì)是漸近有效的。滿足cramer-rao準(zhǔn)則lml估計(jì)當(dāng)n趨近無窮大時(shí),接近gaussian 分布。0immlnle0lim1mlnprob2.3 最大后驗(yàn)概
9、率估計(jì)最大后驗(yàn)概率估計(jì) |:|0( ) (| )0mappp xpxp xmappxpp x估計(jì):或與與ml的區(qū)別的區(qū)別 ( )mapp涉及到的問題。如果假定 服從均勻分布,即: 是某個(gè)常數(shù),則ml與map得到的估計(jì)結(jié)果相同。但如果p不是均勻分布,則估計(jì)結(jié)果就不相同。舉例舉例 20/ 22111exp22ln|0llnkkpmapp xp假設(shè)特征矢量x服從正態(tài)分布,但參數(shù)和 未知,并且假定 也服從正態(tài)分布即:估計(jì)可通過求解下列方程得到:20221202122221110111nkknkkmapnmapmlkkixxnxn 對于當(dāng)時(shí),說明說明l方差很大,說明高斯分布很寬,在某個(gè)范圍內(nèi)可近似為水平
10、直線,即趨于均勻分布。所以map估計(jì)和ml估計(jì)兩者近似相等。2.4 貝葉斯推理貝葉斯推理l前提變化:原來假定估計(jì)量是確定的但未知?,F(xiàn)在假定估計(jì)量是隨機(jī)變量且未知。 1( |)( | )( |)( |)( | ) ( |)|(inkkp xp xp x xp x xp xpx dp xpp xppxp xp xpdp xp x其中此處用到樣本間統(tǒng)計(jì)獨(dú)立)討論討論 |pxp x xp xmappn 當(dāng)在 點(diǎn)附近可以用一個(gè)尖峰來近似時(shí),p|x,則即,貝葉斯推理退化為估計(jì)。當(dāng)在尖峰附近可近似為常數(shù)時(shí),貝葉斯估計(jì)進(jìn)一步退化為ml估計(jì)。由此可見,三種估計(jì)在一定條件下可以相同,理論上,當(dāng)n,三者估計(jì)方法相同
11、,但當(dāng) 為有限值時(shí),估計(jì)結(jié)果是不同的。三三 高斯分布參數(shù)估計(jì)的改進(jìn)高斯分布參數(shù)估計(jì)的改進(jìn)111( )loglog22( )3( )( )tiiiiiiixpxmxmxxxiiii將每個(gè)類的均值和協(xié)方差代入判別函數(shù)可得高斯分類器的決策規(guī)則:g(1)由各類別的訓(xùn)練樣本集計(jì)算各類的m 和(2)由上式計(jì)算不同類下的g值;( )比較各類的大小g(4)將x歸為g取最小值的那個(gè)類別。問題的提出問題的提出11( )iixi()如果計(jì)算得到的是奇異矩陣,不存在,則判別函數(shù)無法用,如何作決策?(2)若特征矢量維數(shù)高,而可用的訓(xùn)練樣本數(shù)少,則二次判別函數(shù)g將退化,即判別的正確率就下降,怎么克服上述問題?解決辦法(解
12、決辦法(1)2111231( )log2cttiiiwiwig xpm s mx s m ii1()將協(xié)方差矩陣對角化:即將的非對角元素置零。( )將特征矢量投影到非奇異空間,涉及到特征矢量的降維,然后再計(jì)算。(可用主成分分析方法。)( )假定各類的協(xié)方差矩陣相等:這時(shí)判別函數(shù)簡化為:解決辦法(解決辦法(2)l正則化判別分析 ,111/iiiiiwiiipiissnnnsnscipptrp ipi,其中01s,進(jìn)一步可以修正為:i 為的單位矩陣,c反映的平均特征值。fredman(1989)提出。改進(jìn)后的判別函數(shù)改進(jìn)后的判別函數(shù)1,( )( )11( )loglog22jitiiiiiixgx
13、xg xxmxmp i若對所有ji有g(shù)則將 歸于中。討論討論0101參數(shù) 和 的選擇:確定兩參數(shù)的變化范圍:,以 和 為矩形的兩邊,將在上述范圍內(nèi)作n等分,構(gòu)成一個(gè)柵格。計(jì)算各柵格點(diǎn)上的錯(cuò)誤率或損失函數(shù),選擇使之最小的 和 。方法簡評方法簡評l當(dāng)協(xié)方差矩陣不是近似相等或樣本規(guī)模太小,以至于二次判別函數(shù)不可行時(shí),正則化判別方法對改進(jìn)分類性能很有幫助。l另有學(xué)者對非正態(tài)類型的線性和二次判別規(guī)則魯棒性進(jìn)行了研究。四四 高斯混合模型高斯混合模型面臨的問題l前面我們只討論樣本特征矢量服從正態(tài)分布時(shí)我們?nèi)绾芜M(jìn)行判別決策。如果樣本特征矢量不服從正態(tài)分布,我們怎么處理呢?數(shù)學(xué)表示方式數(shù)學(xué)表示方式1( )( ,
14、)1( ,),1,) ( , )mjjjmjjjp xp xmp xjmnj=1j一個(gè)未知概率密度函數(shù)p(x)可以寫成概某些已知密函數(shù)的線性組合:是混合分量的個(gè)數(shù)是混合系數(shù),滿足為每個(gè)分量的概率密度函數(shù)。p(x,數(shù)學(xué)問題數(shù)學(xué)問題11,jjjjmjm利用訓(xùn)練樣本,估計(jì)模型的三個(gè)參數(shù):混合系數(shù):, ,均值:,j=1, ,m協(xié)方差:,解決方法解決方法1111,(|),( | )0nnmjijjimmxp xp x 1(1)對于訓(xùn)練樣本 x構(gòu)造似然函數(shù): l代表一組參數(shù),表示分量函數(shù)對其參數(shù)的依賴。一般來說,要精確求l解方程是困難的,通常采用迭代法。這里介紹期望最大值化的算法(稱em算法)(em:expectation-maximisation)em算法原理算法原理 101|, |1log|,log,|,niinmmiinimpxg x zdzemeegyxg x zpzxdzdz mm似然函數(shù):l方法從初始估計(jì)出發(fā),產(chǎn)生對的一系列估計(jì)其中包括兩步:() 步驟:q,估計(jì),即 q,該值是以觀測數(shù)據(jù) x 為條件的完全數(shù)據(jù)對數(shù)似然比的期望,為當(dāng)前參數(shù)值。em算法原理算法原理 1,mmmql m+1(2)m步驟找到使最大的在這一步,通常能得到封閉形式的解。因?yàn)樗迫缓瘮?shù)滿足下式:l因此,它是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球核電用鋼管行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國鋼制垂直推拉門行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025-2030全球微孔織物行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025-2030全球半導(dǎo)體電鍍前處理劑行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025-2030全球熱水箱行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國手機(jī)支付安全行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國超高壓HPP滅菌設(shè)備行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 液氨運(yùn)輸合同模板
- 2025員工入股合同(美容美發(fā))
- 外墻保溫勞務(wù)分包合同
- Unit6AtthesnackbarStorytimeDiningwithdragons(課件)譯林版英語四年級上冊
- 2023年四川省公務(wù)員錄用考試《行測》真題卷及答案解析
- 機(jī)電一體化系統(tǒng)設(shè)計(jì)-第5章-特性分析
- 2025年高考物理復(fù)習(xí)壓軸題:電磁感應(yīng)綜合問題(原卷版)
- 雨棚鋼結(jié)構(gòu)施工組織設(shè)計(jì)正式版
- 醫(yī)院重點(diǎn)監(jiān)控藥品管理制度
- 2024尼爾森IQ中國本土快消企業(yè)調(diào)研報(bào)告
- 2024年印度辣椒行業(yè)狀況及未來發(fā)展趨勢報(bào)告
- 骨科醫(yī)院感染控制操作流程
- 鑄鋁焊接工藝
- 《社區(qū)康復(fù)》課件-第六章 骨關(guān)節(jié)疾病、損傷患者的社區(qū)康復(fù)實(shí)踐
評論
0/150
提交評論