第3章概率密度函數(shù)的估計(jì)_第1頁
第3章概率密度函數(shù)的估計(jì)_第2頁
第3章概率密度函數(shù)的估計(jì)_第3頁
第3章概率密度函數(shù)的估計(jì)_第4頁
第3章概率密度函數(shù)的估計(jì)_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第3章 概率密度函數(shù)的估計(jì)n 參數(shù)估計(jì)的基本概念n 正態(tài)分布的監(jiān)督參數(shù)估計(jì)(最大似然估計(jì))n 總體分布的非參數(shù)估計(jì)(Parzen窗法,K近鄰法)n 分類器錯(cuò)誤率的估計(jì)3.1 引言n 未知, 需要利用樣本集來估計(jì)。 ()iP()( |)iiPp x和較好估計(jì),重點(diǎn)估計(jì)( |)ip xn 兩步法設(shè)計(jì)分類器(1)估計(jì)()( |)iiPp x和(2)利用第2章方法設(shè)計(jì)分類器n 本章研究問題(1)如何利用樣本估計(jì)(2)估計(jì)量的性質(zhì)(3)利用樣本集估計(jì)錯(cuò)誤率的方法( |)()iip xP和3.1 引言由樣本集估計(jì)n參數(shù)估計(jì) 監(jiān)督、非監(jiān)督(最大似然估計(jì)、貝葉斯估計(jì))n非參數(shù)估計(jì) Parzen窗法、K近鄰法(

2、 |)ip x3.2 參數(shù)估計(jì)基本概念n統(tǒng)計(jì)量 利用包含總體信息的樣本構(gòu)造的某種函數(shù)n參數(shù)空間 未知參數(shù) 的全體容許值構(gòu)成的集合稱為參數(shù)空間 。n點(diǎn)估計(jì)、估計(jì)量、估計(jì)值 點(diǎn)估計(jì)即利用統(tǒng)計(jì)量作為對(duì)參數(shù) 的估計(jì)量 ,利用樣本得到估計(jì)量的具體數(shù)值,稱為估計(jì)值。n區(qū)間估計(jì) 用區(qū)間 作為 取值的范圍的一種估計(jì),該區(qū)間稱為置信區(qū)間,這類估計(jì)稱為區(qū)間估計(jì)。1( ,)Nd xx12(,)d d3.2 參數(shù)估計(jì)估計(jì)量的評(píng)價(jià)n無偏性 如果參數(shù) 的估計(jì)量 的數(shù)學(xué)期望等于 ,則稱估計(jì)是無偏的。如果當(dāng)樣本趨于無窮時(shí)估計(jì)才具有無偏性,則稱為漸進(jìn)無偏。 12(,)Nx xxn有效性 如果一種估計(jì)的方差比另一種估計(jì)的方差小,

3、則稱方差小的估計(jì)更有效。 n一致性 如果對(duì)于任意給定的正數(shù) ,總有 ,則稱 是 的一致估計(jì)。 lim(|)0nnP簡(jiǎn)評(píng):無偏性與有效性針對(duì)多次估計(jì),不能保證一次估計(jì)性能;而在樣本無窮多時(shí),一致性可保證每一次的估計(jì)量在概率意義上接近真實(shí)值。3.2 參數(shù)估計(jì)最大似然估計(jì)(監(jiān)督)前提條件:(1) 是確定而未知的;(2)樣本所屬類別已知,且是從各類總體中獨(dú)立抽取的;(3) 形式已知(如正態(tài)),但參數(shù) 未知 (如 )(4)i類樣本不影響j類信息。 (類間獨(dú)立,可分別研究C類問題)( |)ip x2, 3.2 參數(shù)估計(jì)最大似然估計(jì)(監(jiān)督)基本思想:12121,(| )( ,| )(| )NNNkkHx x

4、xp Hp x xxp x獨(dú)立抽取似然函數(shù)思想:如果在一次觀察中一個(gè)事件出現(xiàn)了,那么可以認(rèn)為這個(gè)事件出現(xiàn)的可能性很大事件出現(xiàn)樣本集H出現(xiàn)可能性大 取極大值(極大似然估計(jì))(| )p H3.2 參數(shù)估計(jì)最大似然估計(jì)(監(jiān)督)計(jì)算過程:121211( )0( )ln ( )( )0( ) ,( )ln(| )ln(| )0TsTsNNkkkkdldHldHdHp xp x S個(gè)求偏導(dǎo)的方程構(gòu)成方程組,求解得參數(shù)!為似然函數(shù)( )l3.2 參數(shù)估計(jì)最大似然估計(jì)(監(jiān)督)注意問題:(1)有時(shí) 沒有唯一解。( )0H3.2 參數(shù)估計(jì)最大似然估計(jì)(監(jiān)督)(2)求極大值無解(例:均勻分布情況)122112121

5、1212211( | )01( )(| )()( )ln()( )000NkNkxp xlp xHNHHNHN 至少有一個(gè)為無窮大,無意義!12與此時(shí)可令樣本中最小與最大值為估計(jì)值。1min122max()xxx21/21212122212122122211( | )exp(2 )2( )ln (| )0,11ln (| )ln(2)()221()ln (| )()122Nkkkkkkkxp xHp xp xxxp xx 針對(duì)正態(tài)分布抽取出的某一樣本3.3 正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)一維情況3.3 正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)1111221122121112211()0ln(|

6、)0()110()22NNkkkkNkNNNkkkkkkxxNp xxxN針對(duì)所有樣本2121221,11()NkkNkkxNxN 樣本均值方差算術(shù)平均3.3 正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)多維推廣:kx1111()()NkkNTkkkxNxxN 為向量是無偏估計(jì), 不是無偏估計(jì),其無偏估計(jì)是11()()1NTkkkxxN 3.3 正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)算例:有10個(gè)學(xué)生,其中5個(gè)男生,5個(gè)女生。取身高體重兩個(gè)指標(biāo)作為特征,有數(shù)據(jù)表男生女生 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10X1身高(m)1.70 1.75 1.65 1.80 1.781.60 1.5

7、5 1.60 1.65 1.70X2體重(kg) 65 70 60 65 70 60 45 45 50 553.3 正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)男生女生3.3 正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)101(1)51(2)1062222122211(1.678,58.5)101(1.736,66.0)51(1.62,51.0)51(1.70 1.678)(1.75 1.678)(1.70 1.678) 0.0068410 11(1)(1.70 1.736)(1.75 1.736)(1.78 1.735 1TiiTiiTiiXXXXXXss2222216) 0.003731(2)(1.60 1.

8、62)(1.55 1.62)(1.70 1.62) 0.003255 1s10個(gè)樣本的均值:男生樣本的均值:女生樣本的均值:總體身高的方差:男生身高的方差:女生身高的方差:11122122ssSss3.3 正態(tài)分布參數(shù)的最大似然估計(jì)(監(jiān)督)1212121(1.70 1.678)(65 58.5) (1.75 1.678)(70 58.5)(1.70 1.678)(55 58.5)10 10.6361(1)(1.70 1.736)(65 66) (1.75 1.736)(70 66)(1.78 1.736)(55 66)5 10.181(2)(1.60 1.62)(65 51) (1.555 1

9、sss 1.62)(45 51)(1.70 1.62)(55 51)0.163 全體樣本協(xié)方差男生樣本協(xié)方差女生樣本協(xié)方差與最大似然估計(jì)的差別:(1)(2)最大似然估計(jì)中, 為確定而未知的參數(shù); 貝葉斯估計(jì)中, 為隨機(jī)變量。貝葉斯估計(jì)簡(jiǎn)介( )p(| ) ( )( |)(| ) ( )( |)( |)p HppHp HpdEHpH d非監(jiān)督參數(shù)估計(jì)簡(jiǎn)介n非監(jiān)督最大似然估計(jì) 需定義混合密度n正態(tài)分布下的非監(jiān)督參數(shù)估計(jì) 混合高斯分布,利用EM(期望最大化)算法求解各密度分量參數(shù)。1( | )( |,) ()cjjjjp xp xP 3.4總體分布的非參數(shù)估計(jì)n問題的提出 參數(shù)估計(jì):總體分布已知,參

10、數(shù)為未知(監(jiān)督、非監(jiān)督) 非參數(shù)估計(jì):總體分布未知,直接由樣本估計(jì)總體分布n技術(shù)分類(依據(jù)體積的不同選取方法)KParzen窗估計(jì)近鄰估計(jì)3.4總體分布的非參數(shù)估計(jì)基本方法:向量x落入R中的概率( )RPp x dx現(xiàn)若抽取N個(gè)樣本,k個(gè)落入R,則( )RkPNPp x dx設(shè)R小到令 無變化,則( )p x( )( )/( )RPp x dxp x Vk Np xV概率概率密度體積/,( )k NNp xV 3.4總體分布的非參數(shù)估計(jì)Parzen窗法假定R為以x為中心的d維超立方體,棱長(zhǎng)為h,則體積為dVh定義窗函數(shù),以找出落入V的樣本個(gè)數(shù)k11,1,2,( )20jujdu其它以原點(diǎn)為中心

11、的超立方體當(dāng)樣本 落入其中時(shí) ix111/11( )NiiiNiixxxxkhhxxk Np xVNVhParzen窗估計(jì)公式保證 為概率密度3.4總體分布的非參數(shù)估計(jì)Parzen窗法窗函數(shù)應(yīng)滿足的要求:111(1) ( )0(2)( )1( )11111( )11( )1()NNiiiiNiiuu dup x dxxxxxp x dxdxdxNVhNVhxxu duNuNNh證明保證 非負(fù)保證 積分為1( )p x( )p x( )p x窗函數(shù)的選擇:除方窗外,還可選擇正態(tài)窗、指數(shù)窗等3.4總體分布的非參數(shù)估計(jì)Parzen窗法表明距離越遠(yuǎn),貢獻(xiàn)越小3.4總體分布的非參數(shù)估計(jì)Parzen窗法圖

12、形解釋:某一點(diǎn)x的密度為其余各點(diǎn)的貢獻(xiàn)和每一樣本對(duì)該點(diǎn)所在位置貢獻(xiàn)最大3.4總體分布的非參數(shù)估計(jì)Parzen窗法應(yīng)用案例:對(duì)一維高斯分布和兩個(gè)均勻分布的估計(jì)3.4總體分布的非參數(shù)估計(jì)k近鄰法n問題的提出 Parzen窗法中窗寬(或體積)的選擇較為困難。 該式對(duì)初值 敏感,初值太小,大部分體積是空的,密度估計(jì)不穩(wěn)定,初值太大,估計(jì)的密度較平坦,無法反映真實(shí)分布,為解決此問題,產(chǎn)生了k近鄰法。1/NVVN1V3.4總體分布的非參數(shù)估計(jì)k近鄰法思想:x周圍設(shè)一空胞,擴(kuò)大至包含k個(gè)樣本空胞具有自適應(yīng)性,密度高則體積小,密度低則體積大/( )k Np xV概率概率密度體積3.4總體分布的非參數(shù)估計(jì)k近鄰

13、法k的選取11(1)kkNkN越大,效果越好。經(jīng)驗(yàn)數(shù)據(jù):一維時(shí),數(shù)百個(gè)樣本 二維時(shí),數(shù)千個(gè)3.4總體分布的非參數(shù)估計(jì)kN近鄰法應(yīng)用案例:對(duì)一維高斯分布和兩個(gè)均勻分布的估計(jì)3.4非參數(shù)估計(jì)舉例數(shù)字的Bayes分類數(shù)字特征的提取3.4非參數(shù)估計(jì)舉例數(shù)字的Bayes分類n計(jì)算先驗(yàn)概率n計(jì)算 ,再計(jì)算類條件概率密度()jiP(|)iPX()/,0,1,2,9iiPNN i0()(1)/(2),0,1,2,9,0,1,2,24iiNjikjikPxNijX1|)()0|)1()0,1,2,90,1,2,24jijijijiP xPP xPij XX(數(shù)字i的第j個(gè)分量為1的概率數(shù)字i的第j個(gè)分量為0的概

14、率3.4非參數(shù)估計(jì)舉例數(shù)字的Bayes分類n樣本X X的類條件概率n利用Bayes公式求后驗(yàn)概率0124240(|)(,)|(|)0,1,2,9,0,1iijijPPxxxXP xi XXX112299() (|)(|)() (|)() (|)() (|)0,1,2,9iiiPPPPPPPPPiXXXXX最大后驗(yàn)概率對(duì)應(yīng)的類別(0-9)即為得到的數(shù)字類別3.4非參數(shù)估計(jì)舉例數(shù)字的Bayes分類3.5分類器錯(cuò)誤率的估計(jì)論計(jì)計(jì)錯(cuò)誤實(shí)驗(yàn)計(jì)理公式算算率上界估類設(shè)計(jì)類設(shè)計(jì)分器已好分器未好()()iiPP未知已知3.5分類器錯(cuò)誤率的估計(jì)已設(shè)計(jì)好分類器(樣本均為考試樣本)1、 未知隨機(jī)抽樣 從總體隨機(jī)抽取N

15、個(gè)樣本檢驗(yàn)分類器,假定錯(cuò)分?jǐn)?shù)為 ,則錯(cuò)誤率估值為()iPN是否是最好的估計(jì)?3.5分類器錯(cuò)誤率的估計(jì)證明:每一樣本有正確分類、錯(cuò)誤分類兩種情況,屬于貝努利試驗(yàn),N個(gè)樣本為N重貝努利試驗(yàn)。設(shè)真實(shí)錯(cuò)分概率為 已給定,則 的分布服從二項(xiàng)分布。 ( | )(1)ln( | )01NNPCPNNN 為義計(jì)在最大似然意下的最佳估最大似然估計(jì)前 次錯(cuò)分,后 次正確的概率N3.5分類器錯(cuò)誤率的估計(jì)2、 已知選擇性抽取 ( )iP11122211111222221212121212()()()()()()()()NPNPNNPNNNPNPPPPNN 兩類個(gè)樣,錯(cuò)個(gè)樣,錯(cuò)證:取本分取本分根據(jù)1、中的明3.5分類器錯(cuò)誤率的估計(jì)未設(shè)計(jì)好分類器的情況(樣本即用于設(shè)計(jì)又用于檢驗(yàn))CU法法樣本劃分法留一法(再代入法)錯(cuò)誤率偏小,甚至小于貝葉斯錯(cuò)誤率U-法將樣本分為兩部分,一部分用于設(shè)計(jì)分類器,一部分用于檢驗(yàn)分類器,問題的關(guān)鍵在于如何劃分樣本?3.5分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論