機器學習中的降維方法綜述_第1頁
機器學習中的降維方法綜述_第2頁
機器學習中的降維方法綜述_第3頁
機器學習中的降維方法綜述_第4頁
機器學習中的降維方法綜述_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

本文格式為Word版,下載可任意編輯——機器學習中的降維方法綜述上海大學2023~2023學年春季學期研究生課程考試

文獻閱讀報告

課程名稱:模式識別與機器學習課程編號:07SBE9004

論文題目:機器學習中的數據降維方法

研究生姓名:廖宇學號:14723542

評語:

成績:任課教師:

評閱日期:

機器學習中的數據降維方法

1.引言

隨著科技的進步,特別是數據采集和存儲技術的飛速發(fā)展,不同行業(yè)和領域的數據如航天遙感數據,生物數據,網絡數據以及金融市場交易數據等大量涌現,意味著大數據時代的來臨。如何從繁雜多樣,變化迅速的大數據中有效地挖掘和提煉人類感興趣的信息,對數據進行分析和建立模型,成為了一個熱門話題。

機器學習是近20多年興起的一種從數據中自動分析獲得規(guī)律,并利用規(guī)律對未知數據進行預計的算法,其大量的應用都與大數據高度耦合,是一種十分適用于大數據環(huán)境下的算法。從實踐的意義上來說,機器學習是一種通過利用數據,訓練出模型,然后使用模型預計的一種方法。

在機器學習算法中,降維算法是重要的一部分。由于機器學習算法在處理數據或特征時,過高的維數空間會包含有冗余信息以及噪音信息,在實際應用例如圖像識別中造成了誤差,降低了確鑿率,因此需要通過降維算法來減少冗余信息所造成的誤差,提高識別的精度。另外,通過降維算法還可以尋覓數據內部的本質結構特征,以及加速后續(xù)計算的速度,解決數據的稀疏問題等。

2.數據降維方法

2.1主成分分析(PCA)主成分分析(PCA)是最常用的線性降維方法,它的目標是通過某種線性投影,將高維的數據映射到低維的空間中表示,并期望在所投影的維度上數據的方差最大,以此使用較少的數據維度,同時保存住較多的原數據點的特性。通俗的理解,假使把所有的點都映射到一起,那么幾乎所有的信息,如點和點之間的距離關系會丟失掉,而假使映射后方差盡可能的大,那么數據點則會分散開來,以此來保存更多的信息??梢宰C明,PCA是丟失原始數據信息最少的一種線性降維方式。設n維向量w為目標子空間的一個坐標軸方向(稱為映射向量),最大化數據映射后的方差,有:

其中m是數據實例的個數,Xi是數據實例i的向量表達,X是所有數據實例的平均向量。定義W為包含所有映射向量為列向量的矩陣,經過線性代數變換,可以得到如下優(yōu)化目標函數:

1mT2max(W(X?X))?i(1)wm?1i?1mintr(WTAW),

Ws.t.WTW?I(2)

其中tr表示矩陣的跡,1mTA?(X?X)(X?X)?ii(3)m?1i?1A是數據協(xié)方差矩陣。簡單得到最優(yōu)的W是由數據協(xié)方差矩陣前k個最大的特征值對應的特征向量作為列向量構成的。這些特征向量形成一組正交基并且最好地保存了數據中的信息。PCA的輸出就是Y=W’X,由X的原始維度降低到了k維。PCA追求的是在降維之后能夠最大化保持數據的內在信息,并通過衡量在投影方向上的數據方差的大小來衡量該方向的重要性。但是這樣投影以后對數據的區(qū)分作用并不大,反而可能使得數據點揉雜在一起無法區(qū)分。這也是PCA存在的最大一個問題,這導致其在某些狀況下的分類效果并不好。

2.2線性判別分析(LDA)

線性判別分析(LDA)是R.Fisher于1936年提出來的,也叫做Fisher’sLinear

Discriminant[1]。LDA是一種有監(jiān)視的線性降維算法。與PCA類似,LDA也要尋覓一組投影向量,并將高維數據投影到低維空間以實現數據的降維。與PCA不同的是,LDA要使得原始數據投影到該低維空間后,不同類的數據盡可能地分開,同類的數據盡可能地緊湊,也就是在最小均方議一下選擇能夠最好分開各類數據的低維特征。由于數據降維的過程含有數據的判別信息,LDA所得到的低維特征更有利于分類。因此,LDA是目前在機器學習領域經典的一個方法。將LDA與PCA相比較的話,兩者的動機不同,因此對于一致的數據所尋覓的投影向量也不盡一致,PCA在投影方向可以最大程度地保存原始數據信息,而LDA的投影方向更有利于區(qū)分兩類數據,

(參與LDA的計算過程)

3.總結與展望

1901年K.Pearson首次提出了主成分分析這個概念[i],1933年H.Hotelling完善了其數學基礎,所以PCA又稱為Hotelling變換。PCA的目的是將原始變量轉換為一小部分反映事物主要性質的變量,也就是主成分。從而將數據從高維空間投影到低維空間,并且保證投影后的低維數據能夠在最小平方意義下最優(yōu)地描述原有高維數據。PCA的各個主成分可通過求解基于數據協(xié)方差矩陣的特征向量得到。PCA的這些特點使得它成為分析多元數據的重要工具之一,并且在模式識別中得到廣泛應用。例如,基于PCA的特征臉方法(Eigenfaces)方法已被證明在人臉識別中是相當成功的。眾多研究者在此基礎上進一步提出了大量擴展和變化方法,其中有代表性的有與和方法相結合得到的核主成分分析(KernelPrincipalComponentAnalysis,KPCA)、結合稀疏學習的稀疏主成分分析(SparsePrincipalComponentAnalysis,SPCA)、概率主成分分析(ProbabilisticPrincipalComponentAnalysis,PPCA)、可有效處理二維圖像的二維主成分分析(2-DimensionalPrincipalComponentAnalysis,2DPCA)、局部主成分分析(LocalPrincipalComponentAnalysis,LPCA)等。[]

TurkM,PentlandA.Eigenfacesforrecognition[J].Journalofcognitiveneuroscience,1991,3(1):71-86.[]

Sch?lkopfB,SmolaA,MüllerKR.Nonlinearcomponentanalysisasakerneleigenvalueproblem[J].Neuralcomputation,1998,10(5):1299-1319.[]

ZouH,HastieT,TibshiraniR.Sparseprincipalcomponentanalysis[J].Journalofcomputationalandgraphicalstatistics,2023,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論