模式識別教學課件總順序No5第二章非參數(shù)估計_第1頁
模式識別教學課件總順序No5第二章非參數(shù)估計_第2頁
模式識別教學課件總順序No5第二章非參數(shù)估計_第3頁
模式識別教學課件總順序No5第二章非參數(shù)估計_第4頁
模式識別教學課件總順序No5第二章非參數(shù)估計_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、5 總體分布的非參數(shù)估計方法 前述都設(shè)已知總體分布(即已知概密),但實際不然。因此如何用樣本來估計總體分布的問題,就是本節(jié)的目的即非參數(shù)估計。 含有p(x),p(x|wi),p(wi|x) 等的估計。 而p(wi|x)的估計的一種基本方法是繞過概率的估計而直接求決策函數(shù)的方法即近鄰法則。 (1) 基本方法 1) 本節(jié)所述估計的目的 從樣本集估計樣本空間任何一點X的概率密度 P(X);如果來自某一類別(如wi類),則估計結(jié)果為類條件概密P(X|wi);如果來自c個類別,但不具體涉及類別,則估計結(jié)果為混合密度P(X)。2) 非參數(shù)估計的基本思想 隨機向量X落入到區(qū)域R的概率P為: 這表示概率P是概

2、密函數(shù)P(X)的一種平均,對P作估計就是估計出P(X)的這個平均值。P(X)RX 設(shè)N個樣本x1,x2,xn是從概密為P(x)的總體中獨立抽取的,則N個樣本中有k個樣本落在區(qū)域R中的概率Pk自然服從二項分布,即 其中,P為樣本X落入R的概率,Pk為k個樣本落入R的概率。 使Pk取最大的k值稱為眾數(shù)(記為m), 即 (眾數(shù)的意義是:在抽出的N個樣本中有m個樣本落入?yún)^(qū)域R的概率最大。)對二項分布,眾數(shù)m為(N+1)P的整數(shù)部分,即這樣,在Pm處,就有m = k (N+1) P N P即P k / N式中P是P的估計,即P是總體密度P(x)在區(qū)域R上的一個估計。 設(shè)P(x)連續(xù),且區(qū)域R的體積V足夠

3、小,則 設(shè)P(x)是P(x)的估計,由上面二式得: 于是可得: 上式就是X點概率密度P(x)的估計值,它與k、N、V有關(guān)。說明: 從理論上講,要使P(x)趨于P(x),就須讓積分域R無限小 (即讓其V近于零),同時讓N、k無窮大,但實際估計時體積V不是任意的小,且樣本總數(shù)也是有限的,所以P(x) 總是存在誤差。 如果把體積V固定,樣本取得足夠多,則K/N將在概率上收斂,但這時得到的是一個R區(qū)域上P(x)的平均估計。 即 而要想得到P(x),而不是P(x)在R上的平均,則須讓V趨于零。 如果把樣本數(shù)目固定,而令V趨于零,由于樣本數(shù)目總是有限的,所以當V趨于零時,會使區(qū)域R不斷縮小以致于可能不包含

4、任何樣本,這就會得出P(x)=0(無價值的估計);如果恰巧有一個或幾個樣本同X(點)重合的出現(xiàn)在R中,則會使估計發(fā)散到無窮大(這也是無價值的估計)。 3) 理論上的解決方案 為了提高X處的概密P(x)的估計精度,據(jù)極限理論,采取如下步驟以盡量滿足理論要求。 構(gòu)造一包含樣本X的區(qū)域序列R1、R2 、RN 、各區(qū)域RN(N=1,2,)的體積VN滿足: 在RN域中取N個樣本進行估計實驗,并設(shè)有kN個樣本落入RN中,樣本數(shù)目應滿足: 應滿足: 則估計序列 (N=1,2,) 處處收斂于P(x)。說明: 在區(qū)域平滑地縮小,且P(x)在X點連續(xù)的情況下,則: 條件可使空間平均密度P / V收斂于真實的密度P

5、(x); 條件僅對P(x)0的點才有意義,即當P(x)0時,使 P(x)0,可使頻率在概率意義上收斂于概率; 條件是式 收斂的必要條件,它描述了N的增長速度要大于kN的增長速度,使kN/N為無窮小,而kN/N和VN為同階的無窮小,使 為非無窮大的有界數(shù),避免凡滿足上述三個條件的區(qū)域序列和樣本選取都可以。1) Parzen窗估計的概念 要估計d維空間中某點X的概率密度時,可以以X為中心,作一邊棱長為hN的d維超立方體VN,則其體積為: 此立方體被視為一個窗口?,F(xiàn)在的問題是要求出落入VN中的樣本數(shù)kN。(2) Parzen窗法 u = u1 , udT (u)是一個以原點為中心,邊棱長為1的d維超

6、立方體函數(shù),其函數(shù)值為1(可用于計樣本數(shù))。1/21/2-1/2-1/2U2U1 為能用函數(shù)描述區(qū)域RN和對落入RN的樣本計數(shù),定義窗函數(shù)的基本形式為: 由于通過坐標的平移和尺度的縮放可以改變超立方體的位置和大小。所以對于一個以X為中心,以hN為邊棱長的超立方體,用變量Xi(此Xi可作樣本)刻劃下的通用窗函數(shù)的形式如下: 1 當 0 其他窗口X1X2邊長為1-X1hN X1 1 hN 2 此函數(shù)被稱為Parzen窗函數(shù),其含義為如果一個樣本Xi落入窗口,則=1(即計數(shù)為1),否則=0(即計數(shù)為0)。 換句話說,就是檢查d維空間中的每一個樣本Xi,如果向量X-Xi中的每一分量都小于hN/2,則該

7、樣本必在VN以內(nèi)(且計數(shù)為1),否則就在VN以外(且不計數(shù))。 故落入VN內(nèi)的樣本數(shù)為: 這樣可得X點處概率估計為 這就是Parzen窗法估計的基本公式。討論: 上式實際上是一個迭加函數(shù),窗函數(shù)作迭加基函數(shù),每個樣本點處作為迭加節(jié)點,使用kN個以樣本Xi為中心的窗函數(shù)迭加對X處的密度進行估計; 自然,樣本較密集的區(qū)域上概密估計(迭加函數(shù))值較大; 上式說明每一樣本Xi對密度函數(shù)的貢獻只在一個窗口范圍內(nèi); 每一樣本Xi對估計PN(x)所起的作用依賴于它(即Xi)到X的距離; 窗函數(shù)不限于超立方體窗函數(shù),還可有其他形式。2) 估計量PN(x)為密度函數(shù)的條件 作為窗函數(shù)需要滿足以下兩個條件: 即窗

8、函數(shù)本身具有密度函數(shù)的形式,則PN(x) 一定為密度函數(shù)。 其中條件保證PN(x)非負; 條件保證在整個參數(shù)空間積分為1,即 下面對超立方體方窗函數(shù)(在一維下)進行證明: 對于條件,自然保證PN(x) 非負; 對于條件 所以超立方體函數(shù)可作為窗函數(shù),即能得到密度函數(shù)PN(x)。3) (一維下)窗函數(shù)常見的其它幾種形式 方窗函數(shù): 正態(tài)窗函數(shù): 1-UU 指數(shù)窗函數(shù): 三角窗函數(shù): U1-11總之,只要滿足前述兩個條件的函數(shù),都可作為窗函數(shù)使用。但最終估計效果的好壞則與樣本情況、窗函數(shù)及其參數(shù)的選擇有關(guān)。4) 寬度hN對估計量PN(x)的影響: 在樣本數(shù)N有限時,窗寬hN對PN(x)有很大影響。

9、 如果定義函數(shù)N(x)為: 則可將PN(x)看作N個樣本的平均值。 VN = hNd, hN既影響N的幅度,又影響它的寬度。若hN太大,則N的幅度就很小,而寬度將拓寬(因為窗口的面積一定)。同時只有當Xi離X較遠時,才能使N(x-xi) 與N(0)的函數(shù)值相差的多一些,此時PN(x)是N個低幅的、函數(shù)值變化緩慢的、寬垮的函數(shù)的疊加,這樣將使PN(x) 較平滑,但不能跟上P(x)的變化,分辨率較低。若hN太小,則N的幅度就很大,而寬度很窄,近似于以Xi為中心的函數(shù),且峰值出現(xiàn)在X=Xi附近,此時PN(x)是N個以Xi為中心的尖脈沖在X點處的疊加,使PN(x)波動太大,不穩(wěn)定,可能失去連續(xù)性。 h

10、N的選取對PN(x)影響很大,如何選擇hN需要一定的經(jīng)驗,一般要折中考慮。5) 估計量PN(x)的統(tǒng)計性質(zhì) 對于任一固定的X,PN(x)的值還與隨機樣本集x1,x2,xN有關(guān),采用不同的樣本集,就會有不同的PN(x)值,即PN(x)是一個隨機變量,且它依賴于隨機的訓練樣本,所以估計量PN(x)的性質(zhì)只能用統(tǒng)計性質(zhì)表示。 另外用PN(x)來估計一個未知密度函數(shù)時,只能用它的均值PN(x),同時為了知道估計的確定性程度,還必須知道它的方差2(x)。即如果存在: 則估計量PN(x)均方收斂于P(x)。lim 2(x) =0N 為了保證收斂性,必須對未知密度P(x)、窗函數(shù)(u)和窗寬hN設(shè)置一些條件

11、,在滿足下述這些條件后,PN(x)就是漸近無偏估計、均方逼近P(x),漸近正態(tài)分布。條件歸納如下: (1) 總體密度P(x)在X處連續(xù); (2) 窗函數(shù)應滿足的條件: 注:sup表示取最大的u.(3)窗寬限制: (4)對樣本的要求: 說明:上述(新)條件可解釋如下: 條件是為了保證PN(x)有密度函數(shù)的性質(zhì); 條件是要求(u)是有界的,不能為無窮大; 條件是要求(u)隨u的增長較快地趨于零,其目的是減少遠距X的樣本Xi對X的影響; 條件要求體積隨N的增大而趨于零,但縮減的速度又不要太快,其速率要低于1/N(即要求VN趨于零的速率低于N的增長速率)。(3) kN-近鄰估計 在Parzen窗估計中

12、存在的一個問題是體積序列的V1,V2,VN的選擇問題,而把體積VN作為樣本數(shù)N的函數(shù)將導致VN對估計結(jié)果影響很大。 例如: 時,對有限的N,其估計結(jié)果對初值V1的選擇很敏感。 若V1選得太小,則導致大部分體積是空的,從而使估計PN(x)不穩(wěn)定; 若V1選得太大,則PN(x)較平坦,反映不出真實總體分布的變化。kN-近鄰法的基本思想: 使體積VN為數(shù)據(jù)kN的函數(shù),而不是樣本數(shù)N的函數(shù)。即使含X點的序列體積V1,V2,VN受落入VN中樣本數(shù)kN的控制,而不是直接作為樣本N的函數(shù)。 可以預先確定kN是N的某個函數(shù),然后在X點附近選擇一個較小的區(qū)域作為體積VN,并讓它不斷增長直至捕獲kN個樣本為止,這些樣本即為X的kN個近鄰。即只讓VN含kN個近鄰樣本。這樣,如果X點附近的概密較大,則包含kN個樣本的體積自然就相對較小;如果X點附近的概密較小,則

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論