模式識別特征選擇和提取_第1頁
模式識別特征選擇和提取_第2頁
模式識別特征選擇和提取_第3頁
模式識別特征選擇和提取_第4頁
模式識別特征選擇和提取_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、模式識別特征選擇和提取第1頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四 特征選擇和提取特征選擇和提取是模式識別中的一個關(guān)鍵問題前面討論分類器設(shè)計(jì)的時候,一直假定已給出了特征向量維數(shù)確定的樣本集,其中各樣本的每一維都是該樣本的一個特征;這些特征的選擇是很重要的,它強(qiáng)烈地影響到分類器的設(shè)計(jì)及其性能;假若對不同的類別,這些特征的差別很大,則比較容易設(shè)計(jì)出具有較好性能的分類器。第2頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四 特征選擇和提取特征選擇和提取是構(gòu)造模式識別系統(tǒng)時的一個重要課題在很多實(shí)際問題中,往往不容易找到那些最重要的特征,或受客觀條件的限制,不能對它們進(jìn)行有效

2、的測量;因此在測量時,由于人們心理上的作用,只要條件許可總希望把特征取得多一些;另外,由于客觀上的需要,為了突出某些有用信息,抑制無用信息,有意加上一些比值、指數(shù)或?qū)?shù)等組合計(jì)算特征;如果將數(shù)目很多的測量值不做分析,全部直接用作分類特征,不但耗時,而且會影響到分類的效果,產(chǎn)生“特征維數(shù)災(zāi)難”問題。第3頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四 特征選擇和提取為了設(shè)計(jì)出效果好的分類器,通常需要對原始的測量值集合進(jìn)行分析,經(jīng)過選擇或變換處理,組成有效的識別特征;在保證一定分類精度的前提下,減少特征維數(shù),即進(jìn)行“降維”處理,使分類器實(shí)現(xiàn)快速、準(zhǔn)確和高效的分類。為達(dá)到上述目的,關(guān)鍵是所

3、提供的識別特征應(yīng)具有很好的可分性,使分類器容易判別。為此,需對特征進(jìn)行選擇。應(yīng)去掉模棱兩可、不易判別的特征;所提供的特征不要重復(fù),即去掉那些相關(guān)性強(qiáng)且沒有增加更多分類信息的特征。第4頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四 特征選擇和提取說明實(shí)際上,特征選擇和提取這一任務(wù)應(yīng)在設(shè)計(jì)分類器之前進(jìn)行;從通常的模式識別教學(xué)經(jīng)驗(yàn)看,在討論分類器設(shè)計(jì)之后講述特征選擇和提取,更有利于加深對該問題的理解。第5頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四 特征選擇和提取所謂特征選擇,就是從n個度量值集合x1, x2, xn中,按某一準(zhǔn)則選取出供分類用的子集,作為降維(m維,mn)

4、的分類特征;所謂特征提取,就是使(x1, x2, xn)通過某種變換,產(chǎn)生m個特征(y1, y2, ym) (m2,故最優(yōu)2x1特征提取器此時的K-L變換式為:特征提取第39頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四7.3 離散K-L變換5.3.1 離散的有限K-L展開展開式的形式如果對c種模式類別ii=1,c做離散正交展開,則對每一模式可分別寫成:xi= ai,其中矩陣 取決于所選用的正交函數(shù)。對各個模式類別,正交函數(shù)都是相同的,但其展開系數(shù)向量ai則因類別的不同模式分布而異。K-L展開式的性質(zhì)K-L展開式的根本性質(zhì)是將隨機(jī)向量x展開為另一組正交向量j的線性和,且其展開式系數(shù)

5、aj(即系數(shù)向量a的各個分量)具有不同的性質(zhì)。在此條件下,正交向量集j的確定K-L展開式系數(shù)的計(jì)算步驟第40頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四7.3 離散K-L變換5.3.2 按K-L展開式選擇特征K-L展開式用于特征選擇相當(dāng)于一種線性變換。若從K個特征向量中取出m個組成變換矩陣,即 = (1 2 m),mK此時,是一個n*m維矩陣,x是n維向量,經(jīng)過Tx變換,即得到降維為m的新向量。選取變換矩陣,使得降維后的新向量在最小均方差條件下接近原來的向量x第41頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四7.3 離散K-L變換5.3.2 按K-L展開式選擇特征結(jié)

6、論從K-L展開式的性質(zhì)和按最小均方差的準(zhǔn)則來選擇特征,應(yīng)使Eaj=0。由于Ea=ETx= TEx,故應(yīng)使Ex=0。基于這一條件,在將整體模式進(jìn)行K-L變換之前,應(yīng)先將其均值作為新坐標(biāo)軸的原點(diǎn),采用協(xié)方差矩陣C或自相關(guān)矩陣R來計(jì)算特征值。如果Ex0,則只能得到“次最佳”的結(jié)果。第42頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四7.3 離散K-L變換5.3.2 按K-L展開式選擇特征結(jié)論將K-L展開式系數(shù)aj(亦即變換后的特征)用yj表示,寫成向量形式:y= Tx。此時變換矩陣用m個特征向量組成。為使誤差最小,不采用的特征向量,其對應(yīng)的特征值應(yīng)盡可能小。因此,將特征值按大小次序標(biāo)號,

7、即1 2 m n=0若首先采用前面的m個特征向量,便可使變換誤差最小。此時的變換矩陣為第43頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四7.3 離散K-L變換5.3.2 按K-L展開式選擇特征結(jié)論K-L變換是在均方誤差最小的意義下獲得數(shù)據(jù)壓縮的最佳變換,且不受模式分布的限制。對于一種類別的模式特征提取,它不存在特征分類問題,只是實(shí)現(xiàn)用低維的m個特征來表示原來高維的n個特征,使其誤差最小,亦即使其整個模式分布結(jié)構(gòu)盡可能保持不變。第44頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四7.3 離散K-L變換5.3.2 按K-L展開式選擇特征結(jié)論通過K-L變換能獲得互不相關(guān)的新特征。若采用較大特征值對應(yīng)的特征向量組成變換矩陣,則能對應(yīng)地保留原模式中方差最大的特征成分,所以K-L變換起到了減小相關(guān)性、突出差異性的效果。在此情況下, K-L變換也稱為主成分變換。第45頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四7.3 離散K-L變換5.3.2 按K-L展開式選擇特征K-L變換實(shí)例原始模式分布特征提取第46頁,共47頁,2022年,5月20日,23點(diǎn)33分,星期四作業(yè)設(shè)有如下兩類樣本集,其出現(xiàn)的概率相等:1:(0 0 0)T, (1 0 0) T, (1 0 1) T ,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論