版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、模式識別73441(O),73442(H)E-mail:: 1第五章 統(tǒng)計決策中的訓練、學習 與錯誤率測試、估計 統(tǒng)計推斷概述 參數(shù)估計 概密的窗函數(shù)估計法 有限項正交函數(shù)級數(shù)逼近法251 統(tǒng)計推斷概述第五章 統(tǒng)計決策中的訓練、學習 與錯誤率測試、估計3本章目的:已知類別的樣本(訓練樣本) 學習或訓練獲得類概密在上一章的學習中,我們一直假設類的條件概率密度函數(shù)是已知的,然后去設計貝葉斯分類器。但在實際中,這些知識往往是不知道的,這就需要用已知的樣本進行學習或訓練。也就是說利用統(tǒng)計推斷理論中的估計方法,從樣本集數(shù)據(jù)中估計這些參數(shù)。5.1 統(tǒng)計推斷概述4如果已知iw類的概密)(ixpwr的函數(shù)類型
2、,即知道iw類的概型,但不知道其中的參數(shù)或參數(shù)集,可采用參數(shù)估計的方法,當解得這些參數(shù)后)(ixpwr也就確定了。),(21qqq=qD qmiLr確定未知參數(shù)參數(shù)估計參數(shù)估計有兩類方法:將參數(shù)作為非隨機量處理,如矩法估計、最大似然估計;將參數(shù)作為隨機變量,貝葉斯估計就屬此類。5.1 統(tǒng)計推斷概述5非參數(shù)估計5.1 統(tǒng)計推斷概述當不知道類的概型時,就要采用非參數(shù)估計的方法,這種方法也稱為總體推斷,這類方法有:1. p-窗法2. 有限項正交函數(shù)級數(shù)逼近法3. 隨機逼近法6基本概念母體(總體):一個模式類稱為一個總體或母體5.1 統(tǒng)計推斷概述母體的子樣:一個模式類中某些模式(即母體中的 一些元素)
3、的集合稱為這個母體的子樣。母體的子樣含有母體的某些信息,可以通過構造樣本的函數(shù)來獲得。統(tǒng)計量:一般來說,每一個樣本都包含著母體的某些信息,為了估計未知參數(shù)就要把有用的信息從樣本中抽取出來。為此,要構造訓練樣本的某種函數(shù),這種函數(shù)在統(tǒng)計學中稱為統(tǒng)計量。7基本概念經(jīng)驗分布:由樣本推斷的分布稱為經(jīng)驗分布。5.1 統(tǒng)計推斷概述數(shù)學期望、方差等理論量(或理論分布):參數(shù)空間:在統(tǒng)計學中,把未知參數(shù)q的可能值的集合稱為參數(shù)空間,記為Q。點估計、估計量:針對某未知參數(shù)q構造一個統(tǒng)計量作為q的估計 ,這種估計稱為點估計。 稱為q的估計量。8基本概念5.1 統(tǒng)計推斷概述 為了準確地對某一類的分布進行參數(shù)估計或總
4、體推斷,應只使用該類的樣本。就是說在進行參數(shù)估計時,應對各類進行獨立的參數(shù)估計或總體推斷。因此在以后的論述中,如無必要,不特別言明類別。 區(qū)間估計:在一定置信度條件下估計某一未知參數(shù)q的取值范圍,稱之為置信區(qū)間,這類估計成為區(qū)間估計。910基本概念5.1 統(tǒng)計推斷概述漸近無偏估計:即 。當不能對所有 的都有 時,希望估計量 是漸近無偏估計。 11基本概念5.1 統(tǒng)計推斷概述均方收斂:均方逼近:均方收斂:又稱相合估計一致估計: 當樣本無限增多時,估計量 依概率收斂于 ,12 52 參數(shù)估計第五章 統(tǒng)計決策中的訓練、學習 與錯誤率測試、估計135.2 參數(shù)估計5.2.1 均值矢量和協(xié)方差陣的矩法估
5、計5.2.2 最大似然估計(MLE)5.2.3 貝葉斯估計(BE)145.2 參數(shù)估計均值矢量和協(xié)方差陣的矩法估計矩法估計是用樣本(的統(tǒng)計)矩作為總體(理論)矩的估值。若類的概型為正態(tài)分布,我們用矩法估計出類的均值矢量和協(xié)方差陣后,類的概密也就完全確定了。均值矢量: 均值無偏估計: 155.2 參數(shù)估計均值矢量和協(xié)方差陣的矩法估計協(xié)方差陣 :165.2 參數(shù)估計均值矢量和協(xié)方差陣的矩法估計協(xié)方差陣 :協(xié)方差陣無偏估計 :或175.2 參數(shù)估計設和是由個樣本算得的均矢和協(xié)方差陣,則可采用遞推公式進行估算若再加入一個新的樣本初始值:)(11)(1NmxNNmNrrr-+=+均值矢量和協(xié)方差陣的矩法
6、估計185.2 參數(shù)估計協(xié)方差矩陣的遞推估計式: 均值矢量和協(xié)方差陣的矩法估計+=+-=11)1()1(11NjjjNmNmNNxxNrrrr11)(12)()(111111+=+-+-=NNNjNjjxxNxNmNNmNmNNxxNrrrrrrrr)()(11)(111NmxNmxNNCNNNNrrrr-+-=+F=-=-=)1()1()1(111111xxxxmmxxCrrrrrrrr初始值:195.2 參數(shù)估計均值矢量和協(xié)方差陣的矩法估計205.2 參數(shù)估計最大似然估計(MLE)(Maximum Likelihood Estimate) 如同矩法估計一樣,最大似然估計要求已知總體的概型,
7、即概密的具體函數(shù)形式,它也將被估計量作為確定性的變量對待。但最大似然估計適用范圍比矩法估計更寬一些,可以用于不是正態(tài)分布的情況。最大似然估計是參數(shù)估計中最重要的方法。215.2 參數(shù)估計最大似然估計(MLE)(Maximum Likelihood Estimate) 似然函數(shù):當個隨機樣本取定值時,稱為相對于的的似然函數(shù)。 聯(lián)合概密 設一個總體的概密為,其中是一個未知參數(shù)集,225.2 參數(shù)估計最大似然估計(MLE)(Maximum Likelihood Estimate) 由于是概密的一個確定性的參數(shù)集, 因此實際上就是條件概密 上式中不同的 ,將不同。 如果各個是獨立抽取的,則進一步有:2
8、35.2 參數(shù)估計最大似然估計(MLE)(Maximum Likelihood Estimate) 最大似然估計:245.2 參數(shù)估計最大似然估計(MLE)(Maximum Likelihood Estimate) 在實際中多是獨立取樣和經(jīng)常處理正態(tài)變量,而且對數(shù)函數(shù)是單值單調(diào)函數(shù),對數(shù)似然函數(shù)與似然函數(shù)在相同的 處取得最大值。255.2 參數(shù)估計最大似然估計(MLE)(Maximum Likelihood Estimate) 在似然函數(shù)可微的條件下,求下面微分方程組的解:或等價地求作為極值的必要條件。 對數(shù)似然方程組 265.2 參數(shù)估計最大似然估計(MLE)(Maximum Likelih
9、ood Estimate) 需要指出的是:對于具體問題,有時用上述方法不一定可行,原因之一是似然函數(shù)在最大值點處沒有零斜率。 求出上面方程組中的一切解及邊界值,計算使最大的作為的最大似然估計。 因此,最大似然的關鍵是必須知道概型。275.2 參數(shù)估計最大似然估計(MLE)(Maximum Likelihood Estimate) 下面我們以多維正態(tài)分布為例進行說明。(1)假設是已知的,未知的只是均值,則:285.2 參數(shù)估計最大似然估計(MLE)(Maximum Likelihood Estimate) 這說明,樣本總體的未知均值的最大似然估計就是訓練樣本的平均值。它的幾何解釋就是:若把N個樣
10、本看成是一群質(zhì)點,則樣本均值便是它們的質(zhì)心。2930可見,正態(tài)分布中的協(xié)方差陣的最大似然估計量等于N個矩陣的算術平均值。31(3)對于一般的多維正態(tài)密度的情況,計算方法完全是類似的。最后的結果是:可以證明上式的均值是無偏估計,但協(xié)方差陣并不是無偏估計,無偏估計是:325.2 參數(shù)估計貝葉斯估計(BE)考慮到的各種取值,我們應求在空間中的期望,即平均損失: 335.2 參數(shù)估計貝葉斯估計(BE)345.2 參數(shù)估計貝葉斯估計(BE) 不同的具體定義,可得到不同的最佳貝葉斯估計。比如,可以用平方誤差作為代價,此時:上式中,對于于是: 355.2 參數(shù)估計貝葉斯估計(BE)由于是非負的,只出現(xiàn)在內(nèi)層
11、積分中,關于使最小等價于:為求極小,令365.2 參數(shù)估計貝葉斯估計(BE)從而可得:375.2 參數(shù)估計貝葉斯估計(BE)下面介紹估計 所涉及的其它公式或近似算式:由于各樣本是獨立抽取的,故它們條件獨立,即有由貝葉斯定理知:385.2 參數(shù)估計貝葉斯估計(BE)395.2 參數(shù)估計貝葉斯估計(BE)40作業(yè):P170 5.1, 5.2, 5.34154 概密的窗函數(shù)估計法 第五章 統(tǒng)計決策中的訓練、學習 與錯誤率測試、估計42設 個樣本 是從上述概密為 的總體中獨立抽取的, 個樣本中有 個樣本落入?yún)^(qū)域 中的概率 服從離散隨機變量的二項分布43令 為眾數(shù),如果 不是整數(shù),則: 即 等于 的整數(shù)
12、部分;如果 是整數(shù),則: 和44由于:所以:這里 是 的估計,當 較大 較小時上式的近似程度是足夠的。 455.4 概密的窗函數(shù)估計法概率密度的基本估計式 當固定 時,對 的最大似然估計 ,由概率論知, 的數(shù)學期望 。465.4 概密的窗函數(shù)估計法概率密度的基本估計式設區(qū)域R的體積為V,我們?nèi)足夠小,使=RVxpxdxpP)()(rrr設)(xpr是)(xpr的估計,由上面二式有VxpxdxpPNkR)()(rrr=于是可得475.4 概密的窗函數(shù)估計法概率密度的基本估計式顯然是的基本估計式,它與有關,顯然和有一定的誤差。 理論上,要使 R0 V0,同時k,N。 而實際估計時體積不是任意的小
13、,且樣本總數(shù)總是存在誤差。 也是有限的,所以485.4 概密的窗函數(shù)估計法概率密度的基本估計式為了提高處的概密)(xpr的估計精度,我們根據(jù)理論,可以采用如下步驟以盡量滿足理論要求:極限構造一包含的區(qū)域序列各區(qū)域的體積滿足相對區(qū)域作估計實驗,對取N個樣本進行估計,設有個樣本落入樣本數(shù)目應滿足中,495051525.4 概密的窗函數(shù)估計法Parzen窗法為能用函數(shù)描述區(qū)域NR和對落入NR的樣本計數(shù),定義窗函數(shù)),(21=nuuuuLr=j其它當,0,2,1,21,1)(niuuiLr這樣,)(urj以函數(shù)值1界定了一個以原點為中心、棱長為1的n維超立方體。535.4 概密的窗函數(shù)估計法Parze
14、n窗法如果一個樣本jxr落入以xr為中心以Nh為棱長的超立方體NR內(nèi)時則計數(shù)為1,否則計數(shù)為0,我們可以利用窗函數(shù))(xrj實現(xiàn)這個約定,即落入該立方體NR的樣本數(shù)54555.4 概密的窗函數(shù)估計法Parzen窗法上面所講的是從構造上導出了估計式,所取的窗函數(shù)即迭加基函數(shù)為 維方窗(柱)函數(shù)。事實上只要窗函數(shù)滿足下面的兩個條件:由式 構造的估計式就是概密函數(shù)。 565.4 概密的窗函數(shù)估計法Parzen窗法 按照上面的條件,除了選擇方窗外,還可以選擇其它的滿足上述兩個條件的函數(shù)作窗函數(shù)。下面列出幾個一維窗函數(shù)的例子,n維的窗函數(shù)可用乘積的方法由一維函數(shù)構造。指數(shù)窗函數(shù)uu-=jexp)(方窗函
15、數(shù)=j其它,021,1)(uu正態(tài)窗函數(shù)-p=j221exp21)(uu三角窗函數(shù)-=j1,01,1)(uuuu57下面進一步討論窗寬 對估計的影響:5.4 概密的窗函數(shù)估計法Parzen窗法定義:于是估計式表示成:影響的幅度和寬度。注意到: 可看出 585.4 概密的窗函數(shù)估計法Parzen窗法若Nh較大,則)(jNxxrr-d幅度將較小,而寬度增大)(xpNr是N個低幅緩變寬的函數(shù)迭加,)(xpNr較平滑,不能跟上 的變化,分辨率較低。)(xpr59605.4 概密的窗函數(shù)估計法Parzen窗法估計量 是一隨機變量,它依賴于隨機的訓練樣本,所以估計量的性能只能用統(tǒng)計性質(zhì)表示。在滿足下列條件
16、下 是漸近無偏估計、均方收斂、均方逼近 、且是漸近正態(tài)分布。 概密)(xpr在xr處連續(xù)窗函數(shù)滿足下列條件0)(jur=j1)(udurrj)(supuurr0)(lim1=j=niiuuurr615.4 概密的窗函數(shù)估計法Parzen窗法估計量 是一隨機變量,它依賴于隨機的訓練樣本,所以估計量的性能只能用統(tǒng)計性質(zhì)表示。在滿足下列條件下 是漸近無偏估計、均方收斂、均方逼近 、且是漸近正態(tài)分布。 窗寬限制對樣本的要求62(1) 是 的漸近無偏估計證明:6364P窗法的特點 適用范圍廣,無論概密是規(guī)則的或不規(guī)則的、單峰的或多峰的。但它要求樣本分布較好且數(shù)量要大,顯然這也是一個良好估計所必須的,但它
17、的取樣過程的操作增加了取樣工作的復雜性。窗函數(shù)選取得當有利于提高估計的精度和減少樣本的數(shù)量。65(a)圖中,p(x)是均值為零、方差為1的一維正態(tài)分布,窗函數(shù)選擇為正態(tài)窗函數(shù):h1為可調(diào)節(jié)參量。于是:66(a)由結果曲線可以看出,樣本量越大,估計越精確;同時,也可以看出窗口選擇是否適當對估計結果有一定影響。 67和同上由圖中曲線可以看出,當N 較小時,窗函數(shù)對估計結果影響較大,其估計結果與真實分布相差較遠;當N 增大時,估計結果與真實分布較為接近。685.4 概密的窗函數(shù)估計法kN-近鄰估計法在P窗法中,把體積作為的函數(shù)導致對估計結果影響很大。例如當選得太小將導致大部分區(qū)域是空的,會使不穩(wěn)定;
18、選得太大,則較平坦,將丟失的一些重要空間變化。當近鄰元估計法是克服這個問題的一個可能的方法。695.4 概密的窗函數(shù)估計法kN-近鄰估計法基本思想:把含點的序列區(qū)域的體積作為落入中樣本數(shù)的函數(shù),而不是直接作為的函數(shù)。我們可以預先確定是的某個函數(shù),然后在點附近選擇一“緊湊”區(qū)域,個鄰近樣本。實驗樣本數(shù)讓它只含點附近概密較大,則包含個樣本的區(qū)域如果體積自然就相對的??;點附近概密較小,則區(qū)域體積就較大。個鄰近樣本而擴展到高密度如果顯然,當區(qū)域為含有區(qū)時,擴展過程必然會停止。705.4 概密的窗函數(shù)估計法kN-近鄰估計法如果滿足條件 715.4 概密的窗函數(shù)估計法kN-近鄰估計法725.4 概密的窗函
19、數(shù)估計法kN-近鄰估計法-2 0 210.01.00.10.010.001N=1, KN=1-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001-2 0 210.01.00.10.010.001N=16, KN=4N=256, KN=16N=, KN=73作業(yè)P170 5.7 5.8747555 有限項正交函數(shù)級數(shù)逼近法第五章 統(tǒng)計決策中的訓練、學習 與錯誤率測試、估計7655 有限項正交函數(shù)級數(shù)逼近法設有個抽自同一母體的樣本用于估計總體概密,我們將概密的估計表示成有限項正交級數(shù)式中,是某一正交函數(shù)集的基函數(shù),為待定系數(shù)。應根據(jù) 的特點適當選擇 以期在固定的項數(shù)下減小誤差,項數(shù)R取得越大近似得就越好。最小積分平方逼近方法7755 有限項正交函數(shù)級數(shù)逼近法估計與真值之間的誤差可用下式測度式中,是特征空間,是權函數(shù),顯然越小,我們得到的估計從總體上講就越精確。將 的具體表示代入上式得: 最小積分平方逼近方法78上式的是的二次函數(shù),因此使達到最小值的必要且只要滿足:由此可得:從而有:79令是帶權函數(shù)的正交函數(shù)集,即
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版建筑工程質(zhì)量驗收質(zhì)檢員聘用協(xié)議3篇
- 2025年度路演場地租賃及活動場地租賃期限管理協(xié)議4篇
- 2025版事故車事故現(xiàn)場勘查與報告編制合同3篇
- 2025年度個人二手車置換合同范本4篇
- 2025年度餐廳總經(jīng)理年度綜合服務合同3篇
- 基于云計算2025年度智能辦公系統(tǒng)設計與實施合同3篇
- 2025年度特色小吃車轉讓合同范本二零二五年度3篇
- 2025年度個人借款第三方擔保協(xié)議書(互聯(lián)網(wǎng)金融版)3篇
- 2025版環(huán)保產(chǎn)業(yè)項目投資合作協(xié)議范本4篇
- 2025年醫(yī)院與保險公司醫(yī)療責任險合作協(xié)議4篇
- 農(nóng)民工工資表格
- 【寒假預習】專題04 閱讀理解 20篇 集訓-2025年人教版(PEP)六年級英語下冊寒假提前學(含答案)
- 2024年智能監(jiān)獄安防監(jiān)控工程合同3篇
- 幼兒園籃球課培訓
- 統(tǒng)編版(2024新版)七年級《道德與法治》上冊第一單元《少年有夢》單元測試卷(含答案)
- 100道20以內(nèi)的口算題共20份
- 高三完形填空專項訓練單選(部分答案)
- 護理查房高鉀血癥
- 項目監(jiān)理策劃方案匯報
- 《職業(yè)培訓師的培訓》課件
- 建筑企業(yè)新年開工儀式方案
評論
0/150
提交評論