![第八章特征選擇與特征提取[2014]_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/21/7ee770fe-6614-4b14-a9a2-5badf32f4762/7ee770fe-6614-4b14-a9a2-5badf32f47621.gif)
![第八章特征選擇與特征提取[2014]_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/21/7ee770fe-6614-4b14-a9a2-5badf32f4762/7ee770fe-6614-4b14-a9a2-5badf32f47622.gif)
![第八章特征選擇與特征提取[2014]_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/21/7ee770fe-6614-4b14-a9a2-5badf32f4762/7ee770fe-6614-4b14-a9a2-5badf32f47623.gif)
![第八章特征選擇與特征提取[2014]_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/21/7ee770fe-6614-4b14-a9a2-5badf32f4762/7ee770fe-6614-4b14-a9a2-5badf32f47624.gif)
![第八章特征選擇與特征提取[2014]_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/21/7ee770fe-6614-4b14-a9a2-5badf32f4762/7ee770fe-6614-4b14-a9a2-5badf32f47625.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、模模式識別式識別Pattern Classification第八章第八章:特征選擇與特征提取特征選擇與特征提取模式識別,第八章3引言引言特征是決定樣本之間的相似性和分類器設計的關鍵如何找到合適的特征是模式識別的核心問題在實際問題中, 常常不容易找到那些最重要的特征 或者受條件限制不能對它們進行測量, 這使得特征選擇和提取的任務復雜化 特征選擇成為構造模式識別系統(tǒng)、提高決策精度的最困難的任務之一模式識別,第八章4引言引言模式三大基本特征:物理、結構和數字特征物理和結構特征:易于為人的直覺感知,但有時難于定量描述,因而不易用于機器判別數字特征:易于用機器定量描述和判別,如基于統(tǒng)計的特征模式識別,第
2、八章5引言引言一般情況下普遍認為,增加特征向量的維數(增加特征數)將有助于提高分類器的質量但實際應用中特征維數卻收到多方面因素的約束和限制用較多的特征進行分類器設計,無論從計算的復雜程度還是就分類器性能來看都是不適宜的 模式識別,第八章6特征的形成特征形成特征形成 (acquisition):信號采集信號采集原始測量原始測量原始特征原始特征實例實例數字圖像中的各像素灰度值數字圖像中的各像素灰度值人體的各種生理指標人體的各種生理指標語音的音調周期、共振峰、聲道參數、頻譜語音的音調周期、共振峰、聲道參數、頻譜模式識別,第八章7特征的形成高維原始特征不利于分類器設計高維原始特征不利于分類器設計計算量
3、大計算量大信息冗余信息冗余模式識別,第八章8特征選擇與提取分析原始特征的有效性,選出最有代表性的特征是模式識別的關鍵一步降低特征維數在很多情況下是有效設計分類器的重要課題模式識別,第八章9特征選擇與提取兩類獲取有效特征信息、壓縮特征空間的方法:特征提取和特征選擇基本任務是如何從原始特征中獲取最有效的信息模式識別,第八章10特征選擇與提取特征選擇(selection) 從原始特征中挑選出一些最有代表性,分類性能最好的特征特征提取(extraction)通過映射或變換的方法把高維的原始特征變換為低維的新特征,新的特征包含了原有特征的有用信息模式識別,第八章11特征選擇與提取目前,還沒有特征選擇和提
4、取的一般方法,這是由于特征選擇一般是面向問題的,很難對這些方法去作評價和比較 特征選擇與提取是模式識別中重要而困難的一個環(huán)節(jié)模式識別,第八章12特征選擇與提取細胞自動識別原始測量 正?;虍惓<毎臄底謭D像原始特征 找到一組代表細胞性質的特征:細胞面積,胞核面積,形狀系數,光密度,核內紋理,和漿比 原始特征的維數仍很高,需壓縮以便于分類!模式識別,第八章13特征選擇與提取細胞自動識別特征選擇 挑選最有分類信息的特征特征提取 數學變換:傅立葉變換或小波變換、特征壓縮模式識別,第八章14特征選擇特征選擇特征選擇的任務是從一組數量為D的特征中選擇出數量為d(D d)的一組最優(yōu)特征各個特征之間存在復雜的
5、相互關系 如果僅對每個單獨的特征按照一定的統(tǒng)計進行排隊, 取排在前面的d個特征 所得結果在大多數情況下不是最優(yōu)特征組模式識別,第八章15特征選擇特征選擇從D個特征中選擇出d個最優(yōu)的特征, 在這兩個參數都已知的狀況下, 所有可能的組合數為如果D=100, d=10, 則的Q數量級是1013模式識別,第八章16特征選擇特征選擇在實際問題的研究過程當中,D的維數往往遠遠高于100例如, 在利用生物芯片來進行藥物設計和癌癥診斷時, 其產生的有效特征維數往往在10000左右實際需要選取的優(yōu)化特征組的特征數量是未知的尋找可行的特征選擇算法已逐漸成為國際上研究的熱點模式識別,第八章17特征選擇特征選擇一般來
6、看,特征選擇(確定優(yōu)化的特征子集)需要兩個主要步驟確定評價準則來評價所選擇的特征子集的性能確定進行特征搜索所需要的策略模式識別,第八章18特征選擇特征選擇按搜索策略劃分的特征選擇算法全局最優(yōu)搜索策略 “分支定界” 算法:該方法能保證在事先確定優(yōu)化特征子集中特征數目的情況下, 找到相對于所設計的可分性判據而言的最優(yōu)特征子集。 如何事先確定優(yōu)化特征子集當中特征的數目? 當處理高維度多類問題時,算法運算效率低下模式識別,第八章19特征選擇特征選擇按搜索策略劃分的特征選擇算法隨機搜索策略 將特征選擇視為組合優(yōu)化問題,采用非全局最優(yōu)搜索方法 把特征選擇問題和模擬退火算法、禁忌搜索算法、遺傳算法、或隨機重
7、采樣過程結合, 以概率推理和采樣過程作為算法基礎 遺傳算法在這一領域的應用最為廣泛模式識別,第八章20特征選擇特征選擇按搜索策略劃分的特征選擇算法啟發(fā)式搜索策略 單獨最優(yōu)特征組合算法 序列前向選擇算法 序列后向選擇算法 浮動搜索算法模式識別,第八章21特征選擇特征選擇特征選擇的原則選擇反映模式本質特性的參數作為特征使樣本類間距離較大、類內距離較小與類別信息不相關的變換(平移、旋轉、尺度變換)具有不變性盡量選擇相關性小的特征盡可能不受噪聲的干擾模式識別,第八章22基于主成份的特征提?。篕-L變換K-L變換(Karhunen-Loeve Transform,卡洛南-洛伊變換)是將高維特征向量映射為
8、低維特征向量的有效方法目的: 提取出空間原始數據的主要特征(主元或主成份),減少數據冗余,使得數據在一個低維的特征空間被處理,同時保持原始數據的絕大部份有用信息,從而解決數據維度過高的瓶頸問題。方法:將 維特征向量 ,通過特征變換得到另一 維特征向量特征向量 ,使得 與原向量 的均方誤差最小 模式識別,第八章23nXm)(nmYYX模式識別,第八章24K-L變換設 為 維特征向量,即: 現在 維特征空間中選取一組新的正交基底向量 即: XnTnxxxX, 21nn,21 ji 0ji 1jTi模式識別,第八章25K-L變換將 在該基底向量上進行投影得到新向量 ,即 則向量 可表示為:XYXyy
9、yyYTiiTn: ,21其中niiiYyX1 X1模式識別,第八章26K-L變換X原空間原空間Y新空間新空間y1y2x1x2TyyY21,TxxX21,2211yyX2模式識別,第八章27K-L變換可見不同的基底向量 ,將 投影后可產生不同的向量現要尋求一組有效的基底向量,實現特征壓縮的目的 Yn,21X模式識別,第八章28K-L變換考慮: TnmmTnyyyyyyyyY, ,12121模式識別,第八章29K-L變換 將 中 以后各項用常數 代替得:Y)(mnibTnmmbbyyyY,121模式識別,第八章30K-L變換 定義誤差向量nmiiimiiibyX11nmiiiibyXXX1)(模
10、式識別,第八章31K-L變換X原空間原空間y新空間新空間yX模式識別,第八章32K-L變換則平方誤差為nmjjjjnmiTiiiTbybyXXX112)()(模式識別,第八章33K-L變換由于則有 ji 0ji 1jTinmiiibyX122)(模式識別,第八章34K-L變換若現有一批樣本,則均方誤差為: 可見,均方誤差與基底向量 和 有關 211222)()(inmiTinmiiibXEbyEXE iib模式識別,第八章35K-L變換如何選擇 和 ,使得均方誤差 最?。繛槭裁匆@樣做? iib2模式識別,第八章36K-L變換首先考慮若 確定,如何選擇 ? 令 即 iib0)(212inmiT
11、iiibXEbbnmiiTibXE102模式識別,第八章37K-L變換則有 XEbbXETiiiTi 0模式識別,第八章38K-L變換再考慮當 用最佳值 代替后, 如何確定? XETiib i模式識別,第八章39K-L變換 確定后,均方誤差 nmiTiTiXEXE12)(ibnmiiTibXE122)(模式識別,第八章40K-L變換即:nmiiTi12 nmiiTTiXEXXEXE12 )(協(xié)方差矩陣協(xié)方差矩陣經典數學問題經典數學問題模式識別,第八章41K-L變換結論:使均方誤差 最小的基底向量 ,即是協(xié)方差矩陣 的本征向量 如何求本征向量?2 i模式識別,第八章42K-L變換本征值協(xié)方差矩陣
12、 的本征值,即滿足 的 值共有i 個本征值0I單位矩陣單位矩陣n,321模式識別,第八章43K-L變換本征向量滿足方程 的向量共有i 個本征向量iiiin,321模式識別,第八章44K-L變換當 為協(xié)方差矩陣 的本征向量時,均方誤差可見應保留本征值較大的本征向量為基底向量!為什么?nmii12i模式識別,第八章45K-L變換總結:將 壓縮到 將產生誤差 壓縮維數越多 將越大,即丟失的信息越多。 TnyyyY,21TmyyyY,21nmii122模式識別,第八章46K-L變換為了有效減少 ,應在壓縮時,保留本征較大的本征向量為基底向量,即排序而選擇本征值較大的m個本征向量為基底向量壓縮后的特征向
13、量為 2n321TmyyyY,21模式識別,第八章47K-L變換而稱為X的m個主成份XyTii模式識別,第八章48K-L變換K-L變換進行特征維數壓縮的過程:獲取一批學習樣本 計算其均值 計算其協(xié)方差矩陣計算協(xié)方差矩陣的n個本征值 XE TXEXXEXE)(i模式識別,第八章49K-L變換將 由大到小排序值為 計算本征值對應的本征向量 ,即 根據具體要求將特征向量降為m維向量 in321iiiini, 2 , 1TmyyyY,21XyTii模式識別,第八章50K-L變換例:設已知樣本的特征向量為:試用K-L變換將X壓縮為一維的4個樣本,并求出均方誤差 22,11,22,114321XXXX2模式識別,第八章51K-L變換X2X3X4X1模式識別,第八章52K-L變換解: 求出樣本均值 (期望值) 04141iiXXE模式識別,第八章53K-L變換求協(xié)方差矩陣 TXEXXEXE)(4141iTiiXX2.5 2.52.5 2.5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農民家庭農場創(chuàng)建合同
- 電子商務合作協(xié)議簽署流程及要點
- 國際進出口貿易代理協(xié)議
- 工程管理中的溝通藝術試題及答案
- 行政管理公文寫作模擬考試及試題及答案
- 行政管理的關鍵績效指標探索與試題及答案
- 2025:加工承攬合同與買賣合同的辨別及應用
- 2025前期咨詢服務合同協(xié)議書模板
- 確立企業(yè)核心競爭力的途徑試題及答案
- 2025電梯維護保養(yǎng)合同范本
- 第三單元《增強法治意識》測試卷-高二思想政治課《職業(yè)道德與法治》附答案
- 教育革新:2024版《認識交通標志》課件
- (高清版)DB4202∕T 39-2024 城市橋梁與隧道運行監(jiān)測技術規(guī)范
- 2024年社區(qū)警務工作規(guī)范考試題庫
- 2020-2024年各地中考語文試卷【標點符號使用題】匯集練附答案解析
- 數據分析師歷年考試真題試題庫(含答案)
- 住宅小區(qū)園林景觀綠化工程施工組織設計方案
- 物質的量說課
- 人教版八年級下冊歷史教案全冊
- 企業(yè)網絡設備資產清查合同
- 2024年北京普通高中學業(yè)水平等級性考試化學試題及答案
評論
0/150
提交評論