




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、機器學習與數(shù)據(jù)挖掘特征選擇與特征降維維數(shù)災難nCurse of Dimensionality隨著維數(shù)的增加,特征空間的體積指數(shù)增加,從而導致各方面的成本指數(shù)增加n樣本數(shù)量n存儲空間n計算量nn圖靈可計算問題:多項式復雜度涉及高維空間的算法是不可計算的???維數(shù)災難n維數(shù)災難的幾個表現(xiàn)空間采樣011維:42維:4*4=1610維:410=1048576Monte Carlo: 4016010M維數(shù)災難n維數(shù)災難的幾個表現(xiàn)索引困難0111立方體體積球體積1比例100%/478.5%11055 . 0! 50.25%維數(shù)災難n維數(shù)災難的幾個表現(xiàn)樣本稀疏n總樣本:1000n每維劃分:41維:1000/4
2、 = 250 樣本/區(qū)間2維:1000/(4*4)= 62.5 樣本/區(qū)間10維:1000/(410)= 0.001 樣本/區(qū)間維數(shù)災難n維數(shù)災難的幾個表現(xiàn)噪聲影響n特征空間:101維n正負樣本在第一維的距離:1n樣本在其余維的噪聲:10%n“噪聲距離”:n即使噪聲只有10%,高維空間的“噪聲距離”足以掩蓋正負樣本的本質(zhì)區(qū)別11 . 01002維數(shù)災難n高維空間的奇異特性克萊因瓶Klein bottle莫比烏斯帶Mbius stripN維單位超球的表面積(http:/ Yang and Jan Pedersen“A comparative study on feature selection
3、in text categorization”.維數(shù)災難n特征降維的途徑去除無用特征n特征的必要性:不必要的特征對訓練無用n特征選擇去除相關(guān)分量n特征的相關(guān)性:相關(guān)的多個特征可以變換成較少的不相關(guān)分量n特征變換/特征降維特征選擇n從整個特征集中選擇最有效的子集如何評價特征“有效性”?n互信息量, 測試,如何決定閾值?n指定維數(shù)n指定“有效性”指標n指定性能n增量式、減量式性能評價2x特征選擇n特征有效性評價從概率論的角度n協(xié)方差兩個隨機變量不相關(guān):協(xié)方差為0隨機變量相關(guān)度與協(xié)方差正相關(guān)問題:協(xié)方差是兩個變量的總方差n如果某變量方差大,則協(xié)方差也大 YEYXEXEYXiii,cov特征目標函數(shù)特
4、征選擇n特征有效性評價從概率論的角度n相關(guān)系數(shù)(歸一化協(xié)方差)值域范圍:-1, +1絕對值越大,相關(guān)性越大n一般使用其平方作為特征選擇指標 YXYXiii,cov標準差特征選擇n特征有效性評價從數(shù)理統(tǒng)計的角度(假設檢驗)n 測試nT測試n自己翻課本查公式n與相關(guān)系數(shù)在理論上非常接近,但更偏重于有限樣本下的估計2x特征選擇n特征有效性評價從信息論角度n把機器學習過程看做通信特征是編碼目標函數(shù)是信息特征包含的有關(guān)目標函數(shù)的信息越多,則從特征解出的信息就越多完全編碼目標函數(shù)需要的額外特征就越少各種信息量/熵衡量指標特征選擇n特征有效性評價從信息論角度n條件熵與“相關(guān)性”負相關(guān)n信息增益n相對信息增益
5、n/tutorials/infogain.htmliXYH| iiXYHYHXYIG| YHXYHYHXYRIGii/|特征選擇n特征有效性評價從信息論角度n互信息量(Mutual Information)KL-距離 YPXPYXPKLdYdXYPXPYXPYXPiMIiiiiii|,log,特征選擇n特征有效性評價IR領(lǐng)域的度量n(逆)文檔詞頻(inverse document frequency)ttDDidflog總文檔數(shù)總文檔數(shù)包含詞包含詞(特征特征)t的文檔數(shù)的文檔數(shù)所有文檔都出現(xiàn)的詞(如“的”):D=Dt idft = log(1) =
6、0在1%文檔中出現(xiàn)的詞:D/Dt = 100 idft = log(100) 0特征選擇n特征有效性評價IR領(lǐng)域的度量n詞強度(term strength)已知一個詞(特征)在某文檔(實例)中出現(xiàn),該詞在同類(目標函數(shù)值相同)文檔中出現(xiàn)的概率為詞強度 jyYiyYdtdtPts|特征選擇n特征有效性評價學習相關(guān)的度量n分類準確率用單一維特征進行分類訓練,某種分類準確率指標作為特征的有效性度量復雜度較大不一定有合適的準確率指標特征選擇n選擇方法獨立選擇n指定維數(shù)如何確定?n指定閾值如何確定?n特征的組合可能比單個的特征有效聯(lián)合選擇Guyon-Elisseeff, JMLR 2004; Sprin
7、ger 2006特征選擇n聯(lián)合選擇減量法nF =全體特征n計算在F上的分類性能nF = F -ff可以用評價準則選擇,也可以遍歷所有特征n計算在F 上的分類性能n如果分類性能不降低: F=F ,循環(huán)否則結(jié)束特征選擇n聯(lián)合選擇增量法nF =f1n計算在F上的分類性能nF = F +f 2f1、 f2可以用評價準則選擇,也可以遍歷所有特征n計算在F 上的分類性能n如果分類性能增加: F=F ,循環(huán)否則結(jié)束特征選擇n聯(lián)合選擇增/減量法優(yōu)缺點n復雜度關(guān)于維數(shù)為 或選單個特征采用評價準則排序的方式為一次選單個特征采用測試全部特征的方式為二次n本質(zhì)上是貪心算法某些組合無法遍歷可能陷入局部極值 NO2NO特
8、征選擇n聯(lián)合選擇全組合遍歷nNP難NO 2Kohavi-John, 1997特征選擇n聯(lián)合選擇模擬退火/遺傳算法(通用的優(yōu)化算法)n隨機生成一批解可以用梯度下降法迭代到局部極值n用現(xiàn)有解通過操作合成新的解不要求合成操作具有任何理論依據(jù)好的合成操作將極大提高解題效率n對新生成的解進行生存選擇同上,并可用梯度下降法迭代到局部極值n迭代直到收斂或已支付預期的計算量特征選擇n模擬退火/遺傳算法理論依據(jù)n梯度下降法(爬山法)往往陷入局部極值n非梯度下降手段使解“跳”到爬山法可求解范圍不同的非梯度下降手段產(chǎn)生不同的算法梯度下降法可求解的范圍局部極值特征選擇n模擬退火/遺傳算法應用實例nN皇后問題求解n旅行
9、商(TSP)問題求解n很多類似NP完全和NP難問題n適合于解可能有大量解,但解的比例很小,而整個解空間巨大的問題特征選擇n特征的相關(guān)性問題例:直方圖通過特征選擇算法不可能消除相關(guān)特征的相關(guān)性Guyon-Elisseeff, JMLR 2004; Springer 2006iiH1niHHHH,.,.,1niinHH11Hn可以由前n-1維完全預測出Hn不能告訴我們?nèi)魏晤~外信息可預測則不攜帶信息特征選擇n相關(guān)特征的選擇把所有特征的各種可能變換、組合加入特征矢量在這個巨大的特征矢量上進行特征選擇n比NP難還難的問題特征的函數(shù)組合是無限的核函數(shù)(kernel functions)類似于利用原有特征構(gòu)
10、造各種新特征n僅哲學上類似,并無數(shù)學依據(jù)變換降維特征降維n主分量分析(PCA: Principle Component Analysis)在特征空間,如果特征維之間有相關(guān)性,則樣本將分布在較低維的(高維)(曲)面上特征降維n主分量分析線性變換iiiTHaHaz111niHHHH,.,.,1原始特征矢量:主分量:11111,.,.,niaaaa “軸”: 11varmaxarg1zaa111aaTHazTkk kakzakvarmaxargak垂直于所有前面的“軸”特征降維n主分量分析 11,11,11,11,1121211varSaaSaaHHHHaaHHaaHHaazzzTjiijjijij
11、ijijijijijijijiji協(xié)方差矩陣如何求極值: 111varSaazT111aaT約束條件:特征降維n主分量分析Lagrange乘數(shù)法11111aaSaaTT目標函數(shù)約束條件求導,導數(shù)為0處為極值011 aSa01aISa1是S的最大特征值對應的特征矢量特征降維n主分量分析同理可證:所有主分量對應的“軸”都是S的特征矢量,相應的特征值為其方差HAzT正交陣A可通過KL變換從協(xié)方差矩陣S求特征降維n主分量分析如果H是線性相關(guān)的:S是降秩的n特征矢量個數(shù)小于維數(shù)降維無信息損失如果H各維相關(guān)性大,但沒有達到完全相關(guān)n有很小的特征值對應的特征矢量可以去除n降維,有信息損失n相關(guān)但非線性相關(guān)?目前還沒有好的方法特征降維n多模特征的降維同質(zhì)特征可以方便地使用PCAn同質(zhì)特征內(nèi)部是已經(jīng)歸一化的n例:直方圖,像素值,等等異質(zhì)特征不能簡單地進行PCAn不同的歸一化導致不同的主分量n異質(zhì)特征之間沒有歸一化例:顏色直方圖和“粗糙度”如何歸一化?特征降維n多模特征的降維分組降維,組
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 供熱設備改建工程項目可行性研究報告(參考模板)
- 游泳救生員職業(yè)發(fā)展規(guī)劃試題及答案
- 城區(qū)中水回用工程項目可行性研究報告(參考)
- 2024年裁判員素質(zhì)培養(yǎng)題及答案
- 2024年種子繁育員考試的精彩回顧與啟示試題及答案
- 體育經(jīng)紀人考試知識點試題及答案
- (三診)成都市2022級高中高三畢業(yè)班第三次診斷性檢物理試卷(含答案)
- 2024年農(nóng)業(yè)植保員考試的教學思路試題與答案
- 扎實基礎(chǔ)的體育經(jīng)紀人試題及答案
- 關(guān)注技術(shù) 2024足球裁判員的試題與答案
- 工程款結(jié)算合同書
- 中央空調(diào)系統(tǒng)維保服務報價清單
- 急性左心衰搶救應急預案
- 孕產(chǎn)婦高危五色管理(醫(yī)學講座培訓課件)
- 8.3 法治社會 課件高中政治統(tǒng)編版必修三政治與法治
- 豆腐制品購銷協(xié)議
- 智鼎在線測評28題答案
- 青少年無人機課程:第一課-馬上起飛
- 公路養(yǎng)護施工組織設計 公路設施、交安設施、公路綠化日常維護管理施工方案
- 2024年國家義務教育質(zhì)量監(jiān)測-八年級心理健康考核試題
- 3班主任基本功競賽:主題班會《我本是高山》教學課件
評論
0/150
提交評論