線性判別分析LDA與主成分分析PCA

上傳人：阿*** IP屬地：江蘇上傳時(shí)間：2023-09-15 格式：PPT 頁(yè)數(shù)：31 大?。?.21MB 積分：38 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩26頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

線性判別分析（LDA）

與

主成分分析（PCA）重慶大學(xué)

余俊良

第一部分

線性判別分析（LDA）

介紹線性判別分析(Linear

Discriminant

Analysis,

LDA)，也叫做Fisher線性判別(Fisher

Linear

Discriminant

,FLD)，是模式識(shí)別的經(jīng)典算法，1936年由RonaldFisher首次提出，并在1996年由Belhumeur引入模式識(shí)別和人工智能領(lǐng)域。例子舉一個(gè)例子，假設(shè)我們對(duì)一張100*100像素的圖片做人臉識(shí)別，每個(gè)像素是一個(gè)特征，那么會(huì)有10000個(gè)特征，而對(duì)應(yīng)的類別標(biāo)簽y僅僅是0，1值，1代表是人臉。這么多特征不僅訓(xùn)練復(fù)雜，而且不必要特征對(duì)結(jié)果會(huì)帶來(lái)不可預(yù)知的影響，但我們想得到降維后的一些最佳特征（與y關(guān)系最密切的），怎么辦呢？基本思想線性判別分析的基本思想是將高維的模式樣本投影到最佳鑒別矢量空間，以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果。投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離，即模式在該空間中有最佳的可分離性。因此，它是一種有效的特征抽取方法。使用這種方法能夠使投影后模式樣本的類間散布矩陣最大，并且同時(shí)類內(nèi)散布矩陣最小。下面給出一個(gè)例子，說(shuō)明LDA的目標(biāo)：可以看到兩個(gè)類別，一個(gè)綠色類別，一個(gè)紅色類別。左圖是兩個(gè)類別的原始數(shù)據(jù)，現(xiàn)在要求將數(shù)據(jù)從二維降維到一維。直接投影到x1軸或者x2軸，不同類別之間會(huì)有重復(fù)，導(dǎo)致分類效果下降。右圖映射到的直線就是用LDA方法計(jì)算得到的，可以看到，紅色類別和綠色類別在映射之后之間的距離是最大的，而且每個(gè)類別內(nèi)部點(diǎn)的離散程度是最小的（或者說(shuō)聚集程度是最大的）。LDA要說(shuō)明白LDA，首先得弄明白線性分類器(LinearClassifier)：因?yàn)長(zhǎng)DA是一種線性分類器。對(duì)于K-分類的一個(gè)分類問(wèn)題，會(huì)有K個(gè)線性函數(shù)：當(dāng)滿足條件：對(duì)于所有的j，都有Yk>Yj,的時(shí)候，我們就說(shuō)x屬于類別k。對(duì)于每一個(gè)分類，都有一個(gè)公式去算一個(gè)分值，在所有的公式得到的分值中，找一個(gè)最大的，就是所屬的分類。權(quán)向量（weightvector）法向量（normalvector）閾值（threshold）偏置（bias）LDA上式實(shí)際上就是一種投影，是將一個(gè)高維的點(diǎn)投影到一條高維的直線上，LDA的目標(biāo)是，給出一個(gè)標(biāo)注了類別的數(shù)據(jù)集，投影到了一條直線之后，能夠使得點(diǎn)盡量的按類別區(qū)分開(kāi)，當(dāng)k=2即二分類問(wèn)題的時(shí)候，如下圖所示：紅色的方形的點(diǎn)為0類的原始點(diǎn)、藍(lán)色的方形點(diǎn)為1類的原始點(diǎn)，經(jīng)過(guò)原點(diǎn)的那條線就是投影的直線，從圖上可以清楚的看到，紅色的點(diǎn)和藍(lán)色的點(diǎn)被原點(diǎn)明顯的分開(kāi)了。下面我來(lái)推導(dǎo)一下二分類LDA問(wèn)題的公式：LDA假設(shè)用來(lái)區(qū)分二分類的直線（投影函數(shù))為：LDA分類的一個(gè)目標(biāo)是使得不同類別之間的距離越遠(yuǎn)越好，同一類別之中的距離越近越好，所以我們需要定義幾個(gè)關(guān)鍵的值:類別i的原始中心點(diǎn)(均值)為：（Di表示屬于類別i的點(diǎn)):類別i投影后的中心點(diǎn)為：衡量類別i投影后，類別點(diǎn)之間的分散程度（方差）為：最終我們可以得到一個(gè)下面的公式，表示LDA投影到w后的目標(biāo)優(yōu)化函數(shù)：LDA我們分類的目標(biāo)是，使得類別內(nèi)的點(diǎn)距離越近越好（集中），類別間的點(diǎn)越遠(yuǎn)越好。分母表示每一個(gè)類別內(nèi)的方差之和，方差越大表示一個(gè)類別內(nèi)的點(diǎn)越分散，分子為兩個(gè)類別各自的中心點(diǎn)的距離的平方，我們最大化J(w)就可以求出最優(yōu)的wLDA我們定義一個(gè)投影前的各類別分散程度的矩陣，其意思是，如果某一個(gè)分類的輸入點(diǎn)集Di里面的點(diǎn)距離這個(gè)分類的中心點(diǎn)mi越近，則Si里面元素的值就越小，如果分類的點(diǎn)都緊緊地圍繞著mi，則Si里面的元素值越更接近0.帶入Si，將J(w)分母化為：LDA同樣的將J(w)分子化為：這樣目標(biāo)優(yōu)化函數(shù)可以化成下面的形式：LDA

LDA

LDA至此，我們只需要求出原始樣本的均值和方差就可以求出最佳的方向w，這就是Fisher于1936年提出的線性判別分析。

看上面二維樣本的投影結(jié)果圖：LDA對(duì)于N(N>2)分類的問(wèn)題，就可以直接寫出以下的結(jié)論：這同樣是一個(gè)求廣義特征值的問(wèn)題，求出的第i大的特征向量，即為對(duì)應(yīng)的Wi。（此處推導(dǎo)過(guò)程見(jiàn)附錄PDF）

第二部分

主成分分析（PCA）

介紹在實(shí)際問(wèn)題中，我們經(jīng)常會(huì)遇到研究多個(gè)變量的問(wèn)題，而且在多數(shù)情況下，多個(gè)變量之間常常存在一定的相關(guān)性。由于變量個(gè)數(shù)較多再加上變量之間的相關(guān)性，勢(shì)必增加了分析問(wèn)題的復(fù)雜性。如何從多個(gè)變量中綜合為少數(shù)幾個(gè)代表性變量，既能夠代表原始變量的絕大多數(shù)信息，又互不相關(guān)，并且在新的綜合變量基礎(chǔ)上，可以進(jìn)一步的統(tǒng)計(jì)分析，這時(shí)就需要進(jìn)行主成分分析。基本思想主成分分析所要做的就是設(shè)法將原來(lái)眾多具有一定相關(guān)性的變量，重新組合為一組新的相互無(wú)關(guān)的綜合變量來(lái)代替原來(lái)變量。通常，數(shù)學(xué)上的處理方法就是將原來(lái)的變量做線性組合，作為新的綜合變量，但是這種組合如果不加以限制，則可以有很多，應(yīng)該如何選擇呢？基本思想如果將選取的第一個(gè)線性組合即第一個(gè)綜合變量記為F1

，自然希望它盡可能多地反映原來(lái)變量的信息，這里“信息”用方差來(lái)測(cè)量，即希望Var(F1)越大，表示F1包含的信息越多。因此在所有的線性組合中所選取的F1應(yīng)該是方差最大的，故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)p個(gè)變量的信息

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 醫(yī)學(xué)資料

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

線性判別分析LDA與主成分分析PCA

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

線性判別分析LDA與主成分分析PCA

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔