模式識別第七章特征提取與選擇

上傳人：卓*** IP屬地：廣東上傳時間：2023-06-01 格式：PPT 頁數(shù)：49 大?。?.40MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩44頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

模式識別第七章特征提取與選擇1第一頁，共四十九頁，編輯于2023年，星期六第七章特征提取與選擇

7.1概述2第二頁，共四十九頁，編輯于2023年，星期六

模式識別的三大核心問題:

第七章特征提取與選擇7.1概述特征數(shù)據(jù)采集分類識別特征提取與選擇

分類識別的正確率取決于對象的表示、訓(xùn)練學(xué)習(xí)和分類識別算法，我們在前面各章的介紹中詳細討論了后兩方面的內(nèi)容。本章介紹的特征提取與選擇問題則是對象表示的一個關(guān)鍵問題。3第三頁，共四十九頁，編輯于2023年，星期六

通常在得到實際對象的若干具體特征之后，再由這些原始特征產(chǎn)生出對分類識別最有效、數(shù)目最少的特征，這就是特征提取與選擇的任務(wù)。從本質(zhì)上講，我們的目的是使在最小維數(shù)特征空間中異類模式點相距較遠（類間距離較大），而同類模式點相距較近（類內(nèi)距離較?。?。第七章特征提取與選擇7.1概述4第四頁，共四十九頁，編輯于2023年，星期六7.1概述特征提取與選擇的兩個基本途徑主要方法有：分支定界法、用回歸建模技術(shù)確定相關(guān)特征等方法。（1）直接選擇法：當(dāng)實際用于分類識別的特征數(shù)目d確定后，直接從已獲得的n個原始特征中選出d個特征，使可分性判據(jù)J

的值滿足下式：式中是n個原始特征中的任意d個特征，上式表示直接尋找n

維特征空間中的d維子空間。5第五頁，共四十九頁，編輯于2023年，星期六（2）變換法，在使判據(jù)J取最大的目標下，對n

個原始特征進行變換降維，即對原n維特征空間進行坐標變換，然后再取子空間。7.1概述特征提取與選擇的兩個基本途徑主要方法有：基于可分性判據(jù)的特征選擇、基于誤判概率的特征選擇、離散K-L變換法(DKLT)、基于決策界的特征選擇等方法。6第六頁，共四十九頁，編輯于2023年，星期六7.2類別可分性判據(jù)第七章特征提取與選擇7第七頁，共四十九頁，編輯于2023年，星期六7.2類別可分性判據(jù)為確立特征提取和選擇的準則：引入類別可分性判據(jù)，來刻劃特征對分類的貢獻。為此希望所構(gòu)造的可分性判據(jù)滿足下列要求：構(gòu)造可分性判據(jù)(1)與誤判概率(或誤分概率的上界、下界)有單調(diào)關(guān)系。(2)當(dāng)特征相互獨立時，判據(jù)有可加性，即：式中，是對不同種類特征的測量值，表示使用括號中特征時第i類與第j類可分性判據(jù)函數(shù)。8第八頁，共四十九頁，編輯于2023年，星期六7.2類別可分性判據(jù)構(gòu)造可分性判據(jù)(3)判據(jù)具有“距離”的某些特性，即：，當(dāng)時；，當(dāng)時；(4)對特征數(shù)目是單調(diào)不減，即加入新的特征后，判據(jù)值不減。9第九頁，共四十九頁，編輯于2023年，星期六7.2類別可分性判據(jù)構(gòu)造可分性判據(jù)值得注意的是：上述的構(gòu)造可分性判據(jù)的要求，即“單調(diào)性”、“疊加性”、“距離性”、“單調(diào)不減性”。在實際應(yīng)用并不一定能同時具備，但并不影響它在實際使用中的價值。10第十頁，共四十九頁，編輯于2023年，星期六7.2類別可分性判據(jù)7.2.1基于幾何距離的可分性判據(jù)一般來講，不同類的模式可以被區(qū)分是由于它們所屬類別在特征空間中的類域是不同的區(qū)域。顯然，區(qū)域重疊的部分越小或完全沒有重疊，類別的可分性就越好。因此可以用距離或離差測度（散度）來構(gòu)造類別的可分性判據(jù)。11第十一頁，共四十九頁，編輯于2023年，星期六(一)點與點的距離(二)點到點集的距離用均方歐氏距離表示7.2.1基于幾何距離的可分性判據(jù)12第十二頁，共四十九頁，編輯于2023年，星期六(三)類內(nèi)及總體的均值矢量各類模式的總體均值矢量類的均值矢量：為相應(yīng)類的先驗概率，當(dāng)用統(tǒng)計量代替先驗概率時，總體均值矢量可表示為：7.2.1基于幾何距離的可分性判據(jù)13第十三頁，共四十九頁，編輯于2023年，星期六(四)類內(nèi)距離類內(nèi)均方歐氏距離類內(nèi)均方距離也可定義為：7.2.1基于幾何距離的可分性判據(jù)14第十四頁，共四十九頁，編輯于2023年，星期六(五)類內(nèi)離差矩陣顯然(六)兩類之間的距離7.2.1基于幾何距離的可分性判據(jù)15第十五頁，共四十九頁，編輯于2023年，星期六(七)各類模式之間的總的均方距離當(dāng)取歐氏距離時，總的均方距離為7.2.1基于幾何距離的可分性判據(jù)16第十六頁，共四十九頁，編輯于2023年，星期六(八)多類情況下總的類內(nèi)、類間及總體離差矩陣類內(nèi)離差類間離差總體離差易導(dǎo)出7.2.1基于幾何距離的可分性判據(jù)17第十七頁，共四十九頁，編輯于2023年，星期六7.2.1基于幾何距離的可分性判據(jù)18第十八頁，共四十九頁，編輯于2023年，星期六7.2.1基于幾何距離的可分性判據(jù)在特征空間中，當(dāng)類內(nèi)模式較密聚，而不同類的模式相距較遠時，從直覺上我們知道分類就較容易，由各判據(jù)的構(gòu)造可知，這種情況下所算得的判據(jù)值也較大。由判據(jù)的構(gòu)造我們還可以初步了解運用這類判據(jù)的原則和方法。19第十九頁，共四十九頁，編輯于2023年，星期六7.2類別可分性判據(jù)7.2.2基于類的概率密度函數(shù)的可分性判據(jù)考慮兩類問題。上圖是一維的兩類概率分布密度。(a)表示兩類是完全可分的。(b)是完全不可分的。20第二十頁，共四十九頁，編輯于2023年，星期六可用兩類概密函數(shù)的重疊程度來度量可分性，構(gòu)造基于類概密的可分性判據(jù)。此處的所謂重疊程度是指兩個概密函數(shù)相似的程度。7.2.2基于類的概率密度函數(shù)的可分性判據(jù)21第二十一頁，共四十九頁，編輯于2023年，星期六7.2.2基于類的概率密度函數(shù)的可分性判據(jù)(一)

Bhattacharyya判據(jù)(JB)受相關(guān)概念與應(yīng)用的啟發(fā)，我們可以構(gòu)造B-判據(jù)，它的計算式為[]òW-=xdxpxpJBrrr2121)()(lnww式中W表示特征空間。在最小誤判概率準則下，誤判概率有

[][]BJPPeP-￡exp)()()(21210ww22第二十二頁，共四十九頁，編輯于2023年，星期六7.2.2基于類的概率密度函數(shù)的可分性判據(jù)（二）Chernoff判據(jù)(JC)23第二十三頁，共四十九頁，編輯于2023年，星期六(三)散度JD(Divergence)i類對j類的平均可分性信息為：7.2.2基于類的概率密度函數(shù)的可分性判據(jù)j對i類的平均可分性信息為：24第二十四頁，共四十九頁，編輯于2023年，星期六7.2.2基于類的概率密度函數(shù)的可分性判據(jù)對于i和j兩類總的平均可分性信息稱為散度，其定義為兩類平均可分性信息之和，即(三)散度JD(Divergence)25第二十五頁，共四十九頁，編輯于2023年，星期六大蓋小問題

在特征空間中，若有某兩類間的JB、JC或JD很大，可使平均判據(jù)變大，這樣就掩蓋了某些類對的判據(jù)值較小的情況存在，從而可能降低總的分類正確率，即所謂的大蓋小問題。為改善這種情況，可對每個類對的判據(jù)采用變換的方法，使對小的判據(jù)較敏感。例如，對JD

，可采用變換26第二十六頁，共四十九頁，編輯于2023年，星期六這樣，當(dāng)i和j兩類模式相距很遠時，JD(i,j)變得很大，但也只能接近于1。但對于散度JD(i,j)小的情況，又變得較敏感。于是，總的平均(變換)判據(jù)為7.2.2基于類的概率密度函數(shù)的可分性判據(jù)27第二十七頁，共四十九頁，編輯于2023年，星期六同樣對于JB，單類與平均判據(jù)分別為：單類：平均判據(jù)：7.2.2基于類的概率密度函數(shù)的可分性判據(jù)28第二十八頁，共四十九頁，編輯于2023年，星期六7.2.3基于后驗概率的可分性判據(jù)在信息論中，熵(Entropy)表示不確定性，熵越大不確定性越大?？梢越栌渺氐母拍顏砻枋龈黝惖目煞中?。對于c類問題，給定各類的后驗概率可以寫成如下形式：熵的定義：由洛必達法則知：當(dāng)時29第二十九頁，共四十九頁，編輯于2023年，星期六7.2.3基于后驗概率的可分性判據(jù)例如：

顯然這時能實現(xiàn)完全正確的分類識別30第三十頁，共四十九頁，編輯于2023年，星期六7.2.3基于后驗概率的可分性判據(jù)31第三十一頁，共四十九頁，編輯于2023年，星期六7.2.3基于后驗概率的可分性判據(jù)熵的主要性質(zhì)：(4)其中說明當(dāng)類別較少時，分類識別的不確定性變小。從特征選擇角度看，我們應(yīng)選擇使熵最小的那些特征用于分類即選用具有最小不確定性的特征進行分類是有益的。32第三十二頁，共四十九頁，編輯于2023年，星期六使熵最小的特征利于分類，取熵的期望：廣義熵（具有熵的性質(zhì)，利于計算）定義為:式中>0，1。不同的值可得不同的可分性度量。當(dāng)1時，由洛必達法則可得Shannon熵當(dāng)=2時，可得平方熵第三十三頁，共四十九頁，編輯于2023年，星期六使用判據(jù)進行特征提取與選擇時，我們的目標是使。同理，我們亦可用點熵在整個特征空間的概率平均作為可分性判據(jù)。7.2.3基于后驗概率的可分性判據(jù)34第三十四頁，共四十九頁，編輯于2023年，星期六第七章特征提取與選擇7.5離散K-L變換及其在特征提取與選擇中的應(yīng)用35第三十五頁，共四十九頁，編輯于2023年，星期六7.5.1離散K-L變換（DKLT）

DKLT的性質(zhì)：使變換后產(chǎn)生的新的分量正交或不相關(guān);

以部分新分量表示原矢量均方誤差最小;

使變換矢量更趨確定、能量更趨集中。有限離散K-L變換（DKLT）,又稱霍特林(Hotelling)變換或主分量分解,它是一種基于目標統(tǒng)計特性的最佳正交變換。36第三十六頁，共四十九頁，編輯于2023年，星期六7.5.1離散K-L變換（DKLT）

設(shè)n維隨機矢量rLxxxxn=(,,,)12T，其均值矢量[]rrxEx=，相關(guān)陣[]RExxxrrr=T，協(xié)方差陣[]CExxxxxrrrrr=--()()T，rx經(jīng)正交變換后產(chǎn)生矢量rLyyyyn=(,,,)12T，37第三十七頁，共四十九頁，編輯于2023年，星期六設(shè)有標準正交變換矩陣T，（即T'T=I）取前m項為的估計值（稱為的K-L展開式）其均方誤差為38第三十八頁，共四十九頁，編輯于2023年，星期六xtyiirr'=在T‘T=I的約束條件下,要使均方誤差為此作準則函數(shù)由可得即39第三十九頁，共四十九頁，編輯于2023年，星期六i是的特征值，而是相應(yīng)的特征矢量。由表明:利用上式有:7.5.1離散K-L變換（DKLT）在上述的估計式中，如果不是簡單地舍棄后(n-m)項，而是用預(yù)選的常數(shù)bi代替yi,i=m+1,…,n，此時的估計式為:40第四十頁，共四十九頁，編輯于2023年，星期六7.5.1離散K-L變換（DKLT）的均方誤差為:（1）最佳的bi可通過求得

41第四十一頁，共四十九頁，編輯于2023年，星期六7.5.1離散K-L變換（DKLT）42第四十二頁，共四十九頁，編輯于2023年，星期六7.5.1離散K-L變換（DKLT）

因為為非負定陣，故有上述的討論可歸納為:

當(dāng)我們用簡單的“截斷”方式產(chǎn)生估計式時,使均方誤差最小的正交變換矩陣是隨機矢量x的相關(guān)陣Rx的特征矢量矩陣;

當(dāng)估計式除了選用m個分量yi(i=1,2,…,m)之外,還用余下的各yi的均值bi代替相應(yīng)的分量時,使均方誤差最小的正交變換矩陣是x的協(xié)方差陣。這表明對于相同的m，第一種估計式比第二種估計式的均方差大。43第四十三頁，共四十九頁，編輯于2023年，星期六DKLT的性質(zhì)(1)變換后各特征分量正交或不相關(guān)

的自相關(guān)陣和協(xié)方差陣為①變換后的矢量的各分量是正交的,或不相關(guān)的(因為

C=R-E(x)E(x’)，當(dāng)E(x)=0時，不相關(guān)即是正交)；②i=E

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

模式識別第七章特征提取與選擇

文檔簡介

溫馨提示

最新文檔

評論

模式識別第七章特征提取與選擇

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔