特征選擇與稀疏學(xué)習(xí)ppt課件_第1頁
特征選擇與稀疏學(xué)習(xí)ppt課件_第2頁
特征選擇與稀疏學(xué)習(xí)ppt課件_第3頁
特征選擇與稀疏學(xué)習(xí)ppt課件_第4頁
特征選擇與稀疏學(xué)習(xí)ppt課件_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、徐淼,第十一章:特征選擇與稀疏學(xué)習(xí),特征,特征 描述物體的屬性 特征的分類 相關(guān)特征: 對當(dāng)前學(xué)習(xí)任務(wù)有用的屬性 無關(guān)特征: 與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)的屬性,西瓜的特征,顏色 紋理 觸感 根蒂 聲音,相關(guān)特征,無關(guān)特征,好瓜,壞瓜,當(dāng)前任務(wù):西瓜是否是好瓜,特征選擇,特征選擇 從給定的特征集合中選出任務(wù)相關(guān)特征子集 必須確保不丟失重要特征 原因 減輕維度災(zāi)難:在少量屬性上構(gòu)建模型 降低學(xué)習(xí)難度:留下關(guān)鍵信息,特征選擇的一般方法,遍歷所有可能的子集 計算上遭遇組合爆炸,不可行 可行方法,兩個關(guān)鍵環(huán)節(jié):子集搜索和子集評價,子集搜索,前向搜索:最優(yōu)子集初始為空集,逐漸增加相關(guān)特征 后向搜索:從完整的特征集

2、合開始,逐漸減少特征 雙向搜索:每一輪逐漸增加相關(guān)特征,同時減少無關(guān)特征,用貪心策略選擇包含重要信息的特征子集,子集評價,特征子集A 確定了對數(shù)據(jù)集D的一個劃分 每個劃分區(qū)域?qū)?yīng)著特征子集A的某種取值 樣本標(biāo)記Y對應(yīng)著對數(shù)據(jù)集的真實(shí)劃分 通過估算這兩個劃分的差異,就能對特征子集進(jìn)行評價;與樣本標(biāo)記對應(yīng)的劃分的差異越小,則說明當(dāng)前特征子集越好 信息熵是判斷這種差異的一種方式,常見的特征選擇方法,常見的特征選擇方法大致分為如下三類: 過濾式 包裹式 嵌入式,將特征子集搜索機(jī)制與子集評價機(jī)制相結(jié)合,即可得到特征選擇方法,常見的特征選擇方法,常見的特征選擇方法大致分為如下三類: 過濾式 先對數(shù)據(jù)集進(jìn)行

3、特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān)。 先用特征選擇過程過濾原始數(shù)據(jù),再用過濾后的特征來訓(xùn)練模型。 包裹式 嵌入式,將特征子集搜索機(jī)制與子集評價機(jī)制相結(jié)合,即可得到特征選擇方法,過濾式選擇- Relief算法,Relief (Relevant Features) 方法是一種著名的過濾式特征選擇方法。 Relief算法最早由Kira提出,最初局限于兩類數(shù)據(jù)的分類問題。 Relief算法是一種特征權(quán)重算法(Featureweightingalgorithms),根據(jù)各個特征和類別的相關(guān)性賦予特征不同的權(quán)重(相關(guān)統(tǒng)計量),權(quán)重小于某個閾值的特征將被移除。 Relief算法中特征和

4、類別的相關(guān)性是基于特征對近距離樣本的區(qū)分能力。 Relief的關(guān)鍵是如何確定權(quán)重(相關(guān)統(tǒng)計量),過濾式選擇- Relief算法,過濾式選擇- Relief算法的多類拓展,過濾式選擇- 醫(yī)學(xué)數(shù)據(jù)分析實(shí)例,選用的數(shù)據(jù):威斯康星州乳腺癌數(shù)據(jù)集,數(shù)據(jù)來源美國威斯康星大學(xué)醫(yī)院的臨床病例報告,每條數(shù)據(jù)具有9個屬性。 數(shù)據(jù)處理思路:先采用ReliefF特征提取算法計算各個屬性的權(quán)重,剔除相關(guān)性最小的屬性,然后采用K-means聚類算法對剩下的屬性進(jìn)行聚類分析,過濾式選擇- 醫(yī)學(xué)數(shù)據(jù)分析實(shí)例,乳腺癌數(shù)據(jù)集特征提取 采用ReliefF算法來計算各個特征的權(quán)重,權(quán)重小于某個閾值的特征將被移除,針對乳腺癌的實(shí)際情況

5、,將對權(quán)重最小的2-3種剔除。 將ReliefF算法運(yùn)行20次,得到了各個特征屬性的權(quán)重趨勢圖 按照從小到大順序排列,可知,各個屬性的權(quán)重關(guān)系如下: 屬性9屬性5屬性7屬性4屬性2屬性3屬性8屬性1屬性6 我們選定權(quán)重閥值為0.02,則屬性9、屬性4和屬性5剔除,過濾式選擇- 醫(yī)學(xué)數(shù)據(jù)分析實(shí)例,乳腺癌數(shù)據(jù)特征分析 從上面的特征權(quán)重可以看出,屬性6裸核大小是最主要的影響因素,說明乳腺癌患者的癥狀最先表現(xiàn)了裸核大小上,將直接導(dǎo)致裸核大小的變化,其次是屬性1和屬性8等,后幾個屬性權(quán)重大小接近。 幾個重要的屬性進(jìn)行分析: 塊厚度屬性的特征權(quán)重在0.19-25左右變動,也是權(quán)重極高的一個,說明該特征屬性

6、在乳腺癌患者檢測指標(biāo)中是相當(dāng)重要的一個判斷依據(jù)。進(jìn)一步分析顯示,在單獨(dú)對屬性6,和屬性1進(jìn)行聚類分析,其成功率就可以達(dá)到91.8,包裹式選擇,常見的特征選擇方法大致分為如下三類: 過濾式 包裹式 直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評價準(zhǔn)則 嵌入式,將特征子集搜索機(jī)制與子集評價機(jī)制相結(jié)合,即可得到特征選擇方法,包裹式選擇,包裹式特征選擇的目的就是為給定學(xué)習(xí)器選擇最有利于其性能、“量身定做”的特征子集 包裹式選擇方法直接針對給定學(xué)習(xí)器進(jìn)行優(yōu)化,因此從最終學(xué)習(xí)器性能來看,包裹式特征選擇比過濾式特征選擇更好 包裹式特征選擇過程中需多次訓(xùn)練學(xué)習(xí)器,計算開銷通常比過濾式特征選擇大得多 LVW(

7、Las Vegas Wrapper)是一個典型的包裹式特征選擇方法, LVW在拉斯維加斯方法框架下使用隨機(jī)策略來進(jìn)行子集搜索,并以最終分類器的誤差作為特征子集評價準(zhǔn)則,包裹式選擇- LVW,LVW基本步驟 在循環(huán)的每一輪隨機(jī)產(chǎn)生一個特征子集 在隨機(jī)產(chǎn)生的特征子集上通過交叉驗證推斷當(dāng)前特征子集的誤差 進(jìn)行多次循環(huán),在多個隨機(jī)產(chǎn)生的特征子集中選擇誤差最小的特征子集作為最終解 采用隨機(jī)策略搜索特征子集,而每次特征子集的評價都需要訓(xùn)練學(xué)習(xí)器,開銷很大,嵌入式選擇,常見的特征選擇方法大致分為如下三類: 過濾式 特征選擇過程與學(xué)習(xí)器訓(xùn)練過程有明顯的分別 包裹式 嵌入式 將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一

8、體,兩者在同一個優(yōu)化過程中完成,在學(xué)習(xí)器訓(xùn)練過程中自動地進(jìn)行特征選擇,將特征子集搜索機(jī)制與子集評價機(jī)制相結(jié)合,即可得到特征選擇方法,嵌入式選擇,嶺回歸 (ridge regression) Tikhonov and Arsenin, 1977,稀疏表示,將數(shù)據(jù)集D考慮成一個矩陣,每行對應(yīng)一個樣本,每列對應(yīng)一個特征。 特征選擇說考慮的問題是特征具有稀疏性,即矩陣中的許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān),通過特征選擇去除這些列,則學(xué)習(xí)器訓(xùn)練過程僅需在較小的矩陣上進(jìn)行,學(xué)習(xí)任務(wù)的難度可能有所降低,設(shè)計的計算和存儲開銷會減少,學(xué)得模型的可解釋性也會提高。 矩陣中有很多零元素,且非整行整列出現(xiàn)。 稀疏表達(dá)的優(yōu)勢:

9、數(shù)據(jù)具有稀疏性,使得大多數(shù)問題變得線性可分 稀疏矩陣已有很多高效的存儲方法,字典學(xué)習(xí),在一般的學(xué)習(xí)任務(wù)中,數(shù)據(jù)集(如圖像)往往是非稀疏的,能否將稠密表示的數(shù)據(jù)集轉(zhuǎn)化為“稀疏表示”,使其享受稀疏表達(dá)的優(yōu)勢? 為普通稠密表達(dá)的樣本找到 合適的字典,字典學(xué)習(xí),字典學(xué)習(xí)的解法,壓縮感知,壓縮感知是由美國學(xué)者E. Candes和T. Tao于2004年首先提出的?!皦嚎s感知”顧名思義是直接感知壓縮后的信息,其目的是從盡量少的數(shù)據(jù)中提取盡量多的信息。CS 理論證明了如果信號在正交空間具有稀疏性(即可壓縮性),就能以遠(yuǎn)低于Nyquist采樣頻率的速率采樣該信號,最后通過優(yōu)化算法高概率重建出原信號。其基本思想

10、是一種基于稀疏表示的信號壓縮和重構(gòu)技術(shù),也可以稱為壓縮采樣或稀疏采樣,壓縮感知,壓縮感知是由美國學(xué)者E. Candes和T. Tao于2004年首先提出的?!皦嚎s感知”顧名思義是直接感知壓縮后的信息,其目的是從盡量少的數(shù)據(jù)中提取盡量多的信息。CS 理論證明了如果信號在正交空間具有稀疏性(即可壓縮性),就能以遠(yuǎn)低于Nyquist采樣頻率的速率采樣該信號,最后通過優(yōu)化算法高概率重建出原信號。其基本思想是一種基于稀疏表示的信號壓縮和重構(gòu)技術(shù),也可以稱為壓縮采樣或稀疏采樣。 壓縮感知引起了信號采樣及相應(yīng)重構(gòu)方式的本質(zhì)性變化,即:數(shù)據(jù)的采樣和壓縮是以低速率同步進(jìn)行的,這對于降低信息獲取系統(tǒng)的采樣成本和資源都具有重要意義。 由于壓縮感知技術(shù)突破了傳統(tǒng)香農(nóng)采樣定理的限制,其

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論