模式識別教學(xué)課件總順序No5第二章非參數(shù)估計

上傳人：v*** IP屬地：貴州上傳時間：2022-08-05 格式：PPT 頁數(shù)：30 大小：262.02KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩25頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、5 總體分布的非參數(shù)估計方法前述都設(shè)已知總體分布（即已知概密），但實際不然。因此如何用樣本來估計總體分布的問題，就是本節(jié)的目的即非參數(shù)估計。含有p(x)，p(x|wi)，p(wi|x) 等的估計。而p(wi|x)的估計的一種基本方法是繞過概率的估計而直接求決策函數(shù)的方法即近鄰法則。 (1) 基本方法 1) 本節(jié)所述估計的目的從樣本集估計樣本空間任何一點X的概率密度 P(X);如果來自某一類別（如wi類），則估計結(jié)果為類條件概密P(X|wi)；如果來自c個類別，但不具體涉及類別，則估計結(jié)果為混合密度P(X)。2) 非參數(shù)估計的基本思想隨機向量X落入到區(qū)域R的概率P為: 這表示概率P是概

2、密函數(shù)P(X)的一種平均,對P作估計就是估計出P(X)的這個平均值。P(X)RX 設(shè)N個樣本x1,x2,xn是從概密為P(x)的總體中獨立抽取的，則N個樣本中有k個樣本落在區(qū)域R中的概率Pk自然服從二項分布，即其中,P為樣本X落入R的概率,Pk為k個樣本落入R的概率。使Pk取最大的k值稱為眾數(shù)（記為m），即（眾數(shù)的意義是：在抽出的N個樣本中有m個樣本落入?yún)^(qū)域R的概率最大。）對二項分布，眾數(shù)m為(N+1)P的整數(shù)部分，即這樣，在Pm處，就有m = k (N+1) P N P即P k / N式中P是P的估計，即P是總體密度P(x)在區(qū)域R上的一個估計。設(shè)P(x)連續(xù)，且區(qū)域R的體積V足夠

3、小，則設(shè)P(x)是P(x)的估計，由上面二式得：于是可得：上式就是X點概率密度P(x)的估計值，它與k、N、V有關(guān)。說明：從理論上講，要使P(x)趨于P(x)，就須讓積分域R無限小（即讓其V近于零），同時讓N、k無窮大，但實際估計時體積V不是任意的小，且樣本總數(shù)也是有限的，所以P(x) 總是存在誤差。如果把體積V固定，樣本取得足夠多，則K/N將在概率上收斂，但這時得到的是一個R區(qū)域上P(x)的平均估計。即而要想得到P(x)，而不是P(x)在R上的平均，則須讓V趨于零。如果把樣本數(shù)目固定，而令V趨于零，由于樣本數(shù)目總是有限的，所以當(dāng)V趨于零時，會使區(qū)域R不斷縮小以致于可能不包含

4、任何樣本，這就會得出P(x)=0(無價值的估計）；如果恰巧有一個或幾個樣本同X（點）重合的出現(xiàn)在R中，則會使估計發(fā)散到無窮大（這也是無價值的估計）。 3) 理論上的解決方案為了提高X處的概密P(x)的估計精度，據(jù)極限理論，采取如下步驟以盡量滿足理論要求。構(gòu)造一包含樣本X的區(qū)域序列R1、R2 、RN 、各區(qū)域RN(N=1，2，)的體積VN滿足：在RN域中取N個樣本進行估計實驗，并設(shè)有kN個樣本落入RN中，樣本數(shù)目應(yīng)滿足：應(yīng)滿足：則估計序列（N=1，2，）處處收斂于P(x)。說明：在區(qū)域平滑地縮小，且P(x)在X點連續(xù)的情況下，則：條件可使空間平均密度P / V收斂于真實的密度P

5、(x)；條件僅對P(x)0的點才有意義，即當(dāng)P(x)0時，使 P(x)0，可使頻率在概率意義上收斂于概率；條件是式收斂的必要條件，它描述了N的增長速度要大于kN的增長速度，使kN/N為無窮小，而kN/N和VN為同階的無窮小，使為非無窮大的有界數(shù)，避免凡滿足上述三個條件的區(qū)域序列和樣本選取都可以。1) Parzen窗估計的概念要估計d維空間中某點X的概率密度時，可以以X為中心，作一邊棱長為hN的d維超立方體VN，則其體積為：此立方體被視為一個窗口。現(xiàn)在的問題是要求出落入VN中的樣本數(shù)kN。(2) Parzen窗法 u = u1 , udT (u)是一個以原點為中心，邊棱長為1的d維超

6、立方體函數(shù)，其函數(shù)值為1（可用于計樣本數(shù)）。1/21/2-1/2-1/2U2U1 為能用函數(shù)描述區(qū)域RN和對落入RN的樣本計數(shù)，定義窗函數(shù)的基本形式為：由于通過坐標(biāo)的平移和尺度的縮放可以改變超立方體的位置和大小。所以對于一個以X為中心，以hN為邊棱長的超立方體，用變量Xi（此Xi可作樣本）刻劃下的通用窗函數(shù)的形式如下： 1 當(dāng) 0 其他窗口X1X2邊長為1-X1hN X1 1 hN 2 此函數(shù)被稱為Parzen窗函數(shù)，其含義為如果一個樣本Xi落入窗口，則=1（即計數(shù)為1），否則=0（即計數(shù)為0）。換句話說，就是檢查d維空間中的每一個樣本Xi，如果向量X-Xi中的每一分量都小于hN/2，則該

7、樣本必在VN以內(nèi)（且計數(shù)為1），否則就在VN以外（且不計數(shù)）。故落入VN內(nèi)的樣本數(shù)為：這樣可得X點處概率估計為這就是Parzen窗法估計的基本公式。討論：上式實際上是一個迭加函數(shù)，窗函數(shù)作迭加基函數(shù)，每個樣本點處作為迭加節(jié)點，使用kN個以樣本Xi為中心的窗函數(shù)迭加對X處的密度進行估計；自然，樣本較密集的區(qū)域上概密估計（迭加函數(shù)）值較大；上式說明每一樣本Xi對密度函數(shù)的貢獻只在一個窗口范圍內(nèi)；每一樣本Xi對估計PN(x)所起的作用依賴于它（即Xi）到X的距離；窗函數(shù)不限于超立方體窗函數(shù)，還可有其他形式。2) 估計量PN(x)為密度函數(shù)的條件作為窗函數(shù)需要滿足以下兩個條件：即窗

8、函數(shù)本身具有密度函數(shù)的形式，則PN(x) 一定為密度函數(shù)。其中條件保證PN(x)非負；條件保證在整個參數(shù)空間積分為1，即下面對超立方體方窗函數(shù)（在一維下）進行證明：對于條件，自然保證PN(x) 非負；對于條件所以超立方體函數(shù)可作為窗函數(shù)，即能得到密度函數(shù)PN(x)。3) (一維下)窗函數(shù)常見的其它幾種形式方窗函數(shù)：正態(tài)窗函數(shù)： 1-UU 指數(shù)窗函數(shù)：三角窗函數(shù)： U1-11總之，只要滿足前述兩個條件的函數(shù)，都可作為窗函數(shù)使用。但最終估計效果的好壞則與樣本情況、窗函數(shù)及其參數(shù)的選擇有關(guān)。4) 寬度hN對估計量PN(x)的影響: 在樣本數(shù)N有限時，窗寬hN對PN(x)有很大影響。

9、如果定義函數(shù)N(x)為：則可將PN(x)看作N個樣本的平均值。 VN = hNd， hN既影響N的幅度，又影響它的寬度。若hN太大，則N的幅度就很小，而寬度將拓寬（因為窗口的面積一定）。同時只有當(dāng)Xi離X較遠時，才能使N(x-xi) 與N(0)的函數(shù)值相差的多一些，此時PN(x)是N個低幅的、函數(shù)值變化緩慢的、寬垮的函數(shù)的疊加，這樣將使PN(x) 較平滑，但不能跟上P(x)的變化，分辨率較低。若hN太小，則N的幅度就很大，而寬度很窄，近似于以Xi為中心的函數(shù)，且峰值出現(xiàn)在X=Xi附近，此時PN(x)是N個以Xi為中心的尖脈沖在X點處的疊加，使PN(x)波動太大，不穩(wěn)定，可能失去連續(xù)性。 h

10、N的選取對PN(x)影響很大，如何選擇hN需要一定的經(jīng)驗，一般要折中考慮。5) 估計量PN(x)的統(tǒng)計性質(zhì) 對于任一固定的X，PN(x)的值還與隨機樣本集x1,x2,xN有關(guān)，采用不同的樣本集，就會有不同的PN(x)值，即PN(x)是一個隨機變量，且它依賴于隨機的訓(xùn)練樣本，所以估計量PN(x)的性質(zhì)只能用統(tǒng)計性質(zhì)表示。另外用PN(x)來估計一個未知密度函數(shù)時，只能用它的均值PN(x)，同時為了知道估計的確定性程度，還必須知道它的方差2(x)。即如果存在：則估計量PN(x)均方收斂于P(x)。lim 2(x) =0N 為了保證收斂性，必須對未知密度P(x)、窗函數(shù)(u)和窗寬hN設(shè)置一些條件

11、，在滿足下述這些條件后，PN(x)就是漸近無偏估計、均方逼近P(x)，漸近正態(tài)分布。條件歸納如下： (1) 總體密度P(x)在X處連續(xù)； (2) 窗函數(shù)應(yīng)滿足的條件：注：sup表示取最大的u.(3)窗寬限制： (4)對樣本的要求：說明：上述(新)條件可解釋如下：條件是為了保證PN(x)有密度函數(shù)的性質(zhì)；條件是要求(u)是有界的，不能為無窮大；條件是要求(u)隨u的增長較快地趨于零，其目的是減少遠距X的樣本Xi對X的影響；條件要求體積隨N的增大而趨于零，但縮減的速度又不要太快，其速率要低于1/N（即要求VN趨于零的速率低于N的增長速率）。(3) kN-近鄰估計在Parzen窗估計中

12、存在的一個問題是體積序列的V1,V2,VN的選擇問題，而把體積VN作為樣本數(shù)N的函數(shù)將導(dǎo)致VN對估計結(jié)果影響很大。例如：時，對有限的N，其估計結(jié)果對初值V1的選擇很敏感。若V1選得太小，則導(dǎo)致大部分體積是空的，從而使估計PN(x)不穩(wěn)定；若V1選得太大，則PN(x)較平坦，反映不出真實總體分布的變化。kN-近鄰法的基本思想：使體積VN為數(shù)據(jù)kN的函數(shù)，而不是樣本數(shù)N的函數(shù)。即使含X點的序列體積V1,V2,VN受落入VN中樣本數(shù)kN的控制，而不是直接作為樣本N的函數(shù)。可以預(yù)先確定kN是N的某個函數(shù),然后在X點附近選擇一個較小的區(qū)域作為體積VN，并讓它不斷增長直至捕獲kN個樣本為止，這些樣本即為X的kN個近鄰。即只讓VN含kN個近鄰樣本。這樣，如果X點附近的概密較大，則包含kN個樣本的體積自然就相對較??；如果X點附近的概密較小，則

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

模式識別教學(xué)課件總順序No5第二章非參數(shù)估計

文檔簡介

溫馨提示

最新文檔

評論

模式識別教學(xué)課件總順序No5第二章非參數(shù)估計

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔