降維算法(二)非線性降

上傳人：2*** IP屬地：湖北上傳時間：2022-06-02 格式：PPT 頁數(shù)：18 大小：709.51KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩13頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、1降維算法（二）非線性降維一、核技巧（Kernel method）二、等距映射(Isomap)2核函數(shù)發(fā)展歷史早在1964年Aizermann等在勢函數(shù)方法的研究中就將該技術(shù)引入到機器學(xué)習(xí)領(lǐng)域，但是直到1992年Vapnik等利用該技術(shù)成功地將線性SVMs推廣到非線性SVMs時其潛力才得以充分挖掘。而核函數(shù)的理論則更為古老，Mercer定理可以追溯到1909年，再生核希爾伯特空間(ReproducingKernel Hilbert Space, RKHS)研究是在20世紀(jì)40年代開始的。 3n核方法的思想核方法核方法核方法的主要思想是基于這樣一個假設(shè)：“在低維空間中不能線性分割的點集，通

2、過轉(zhuǎn)化為高維空間中的點集時，很有可能變?yōu)榫€性可分的” ，例如下圖左圖的兩類數(shù)據(jù)要想在一維空間上線性分開是不可能的，然而通過F(x)=(x-a)(x-b)把一維空間上的點轉(zhuǎn)化為右圖上的二維空間上，就是可以線性分割的了 4 如果直接把低維度的數(shù)據(jù)轉(zhuǎn)化到高維度的空間中，然后再去尋找線性分割平面，會遇到兩個大問題。n一是由于是在高維度空間中計算，導(dǎo)致curse of dimension問題；n二是非常的麻煩，每一個點都必須先轉(zhuǎn)換到高維度空間，然后求取分割平面的參數(shù)等等；怎么解決這些問題？答案是通過核方法（kernel method） 5 定義一個核函數(shù)K(x1,x2)= 其中x1和x2是低維度空間

3、中點（在這里可以是標(biāo)量，也可以是向量），(xi)是低維度空間的點xi轉(zhuǎn)化為高維度空間中的點的表示，表示向量的內(nèi)積。 )(),(21xx注意：這里核函數(shù)K(x1,x2)的表達方式一般都不會顯式地寫為內(nèi)積的形式，即我們不關(guān)心高維度空間的形式。核函數(shù)巧妙地解決了上述的問題，在高維度中向量的內(nèi)積通過低維度的點的核函數(shù)就可以計算了。核方法的原理6這里還有一個問題：“為什么我們要關(guān)心向量的內(nèi)積？”，一般地，我們可以把分類的問題分為兩類：參數(shù)學(xué)習(xí)的形式和基于實例的學(xué)習(xí)形式。參數(shù)學(xué)習(xí)的形式參數(shù)學(xué)習(xí)的形式就是通過一堆訓(xùn)練數(shù)據(jù)，把相應(yīng)模型的參數(shù)給學(xué)習(xí)出來，然后訓(xùn)練數(shù)據(jù)就沒有用了，對于新的數(shù)據(jù)，用學(xué)習(xí)出來的

4、參數(shù)即可以得到相應(yīng)的結(jié)論；基于實例的學(xué)習(xí)基于實例的學(xué)習(xí)（又叫基于內(nèi)積的學(xué)習(xí)）則是在預(yù)測的時候也會使用訓(xùn)練數(shù)據(jù)，如KNN算法。而基于實例的學(xué)習(xí)一般就需要判定兩個點之間的相似程度，一般就通過向量的內(nèi)積來表達。從這里可以看出，核方法不是萬能的，它一般只針對基于實例的學(xué)習(xí)。 7n核函數(shù)的存在性判斷和如何構(gòu)造核函數(shù)的存在性判斷和如何構(gòu)造？既然我們不關(guān)心高維度空間的表達形式，那么怎么才能判斷一個函數(shù)是否是核函數(shù)呢？nMercer 定理定理：任何半正定的函數(shù)都可以作為核函數(shù)。所謂半正定的函數(shù)f(xi,xj)，是指擁有訓(xùn)練數(shù)據(jù)集合（x1,x2,.xn)，我們定義一個矩陣的元素aij = f(xi,xj)，

5、這個矩陣式n*n的，如果這個矩陣是半正定的，那么f(xi,xj)就稱為半正定的函數(shù)。這個mercer定理不是核函數(shù)必要條件，只是一個充分條件，即還有不滿足mercer定理的函數(shù)也可以是核函數(shù)。 8n常見的核函數(shù)有高斯核，多項式核等等，在這些常見核的基礎(chǔ)上，通過核函數(shù)的性質(zhì)（如對稱性等）可以進一步構(gòu)造出新的核函數(shù)。9核函數(shù)設(shè)計和算法設(shè)計1）收集和整理樣本,并進行標(biāo)準(zhǔn)化；2）選擇或構(gòu)造核函數(shù)；3）用核函數(shù)將樣本變換成為核函數(shù)矩陣, 這一步相當(dāng)于將輸入數(shù)據(jù)通過非線性函數(shù)映射到高維特征空間；4）在特征空間對核函數(shù)矩陣實施各種線性算法；5）得到輸入空間中的非線性模型。10等距映射（Isomap）n流

6、形學(xué)習(xí)算法流形學(xué)習(xí)方法(Manifold Learning)，簡稱流形學(xué)習(xí)，自2000年在著名的科學(xué)雜志Science被首次提出以來，已成為信息科學(xué)領(lǐng)域的研究熱點。在理論和應(yīng)用上，流形學(xué)習(xí)方法都具有重要的研究意義麻省理工學(xué)院計算機科學(xué)與人工智能實驗室的JoshTenenbaum教授 11n而非線性方法則是對線性方法的線性擴展，如主成分分析（Principal component analysis，PCA），多維尺度變換（Multidimensional scaling，MDS）等。 121314nIsomap的主要目標(biāo)是對于給定的高維流形，欲找到其對應(yīng)的低維嵌入，使得高維流形上數(shù)據(jù)點間的近鄰結(jié)構(gòu)在低維嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)為計算工具，創(chuàng)新之處在于計算高維流形上數(shù)據(jù)點間距離時，不是用傳統(tǒng)的歐式距離，而是采用微分幾何中的測地線距離（或稱為曲線距離），并且找到了一種用實際輸入數(shù)據(jù)估計其測地線距離的算法（即圖論中的最小路徑逼近測地線距離)。 15流形學(xué)習(xí)的幾何圖示1617算法描述18Isomap的

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

降維算法(二)非線性降

文檔簡介

溫馨提示

最新文檔

評論

降維算法(二)非線性降

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔