主成分(PCA)分析原理

上傳人：鼠*** IP屬地：上海上傳時(shí)間：2022-02-21 格式：DOCX 頁數(shù)：23 大?。?05.91KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩18頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、主成分分析（primary component analysis）問題：假設(shè)在IR中我們建立的文檔-詞項(xiàng)矩陣中，有兩個(gè)詞項(xiàng)為“l(fā)earn”和“study”，在傳統(tǒng)的向量空間模型中，認(rèn)為兩者獨(dú)立。然而從語義的角度來講，兩者是相似的，而且兩者出現(xiàn)頻率也類似，是不是可以合成為一個(gè)特征呢？模型選擇和規(guī)則化談到的特征選擇的問題，就是要剔除的特征主要是和類標(biāo)簽無關(guān)的特征。比如“學(xué)生的名字”就和他的“成績”無關(guān)，使用的是互信息的方法。而這里的特征很多是

2、和類標(biāo)簽有關(guān)的，但里面存在噪聲或者冗余。在這種情況下，需要一種特征降維的方法來減少特征數(shù)，減少噪音和冗余，減少過度擬合的可能性。 PCA的思想是將n維特征映射到k維上（k<n），這k維是全新的正交特征。這k維特征稱為主元，是重新構(gòu)造出來的k維特征，而不是簡單地從n維特征中去除其余n-k維特征。計(jì)算過程：假設(shè)我們得到的2維數(shù)據(jù)如下：

3、0; 行代表了樣例，列代表特征，這里有10個(gè)樣例，每個(gè)樣例兩個(gè)特征。可以這樣認(rèn)為，有10篇文檔，x是10篇文檔中“l(fā)earn”出現(xiàn)的TF-IDF，y是10篇文檔中“study”出現(xiàn)的TF-IDF。第一步分別求x和y的平均值，然后對(duì)于所有的樣例，都減去對(duì)應(yīng)的均值。這里x的均值是1.81，y的均值是1.91，那么一個(gè)樣例減去均值后即為（0.69,0.49），得到第二步，求特征協(xié)方差矩陣，如果數(shù)據(jù)是3維，那么協(xié)方差矩陣是 &

4、#160; 這里只有x和y，求解得對(duì)角線上分別是x和y的方差，非對(duì)角線上是協(xié)方差。協(xié)方差是衡量兩個(gè)變量同時(shí)變化的變化程度。協(xié)方差大于0表示x和y若一個(gè)增，另一個(gè)也增；小于0表示一個(gè)增，一個(gè)減。如果和是統(tǒng)計(jì)獨(dú)立的，那么二者之間的協(xié)方差就是；但是協(xié)方差是，并不能說明和是獨(dú)立的。協(xié)方差絕對(duì)值越大，兩者對(duì)彼此的影響越大，反之越小。協(xié)方差是沒有單位的量，因此，如果同樣的兩個(gè)變量所采用的量綱發(fā)生變化，它們的協(xié)方差也會(huì)產(chǎn)生樹枝上的變化。 &#

5、160; 第三步，求協(xié)方差的特征值和特征向量，得到上面是兩個(gè)特征值，下面是對(duì)應(yīng)的特征向量，特征值0.0490833989對(duì)應(yīng)特征向量為，這里的特征向量都?xì)w一化為單位向量。第四步，將特征值按照從大到小的順序排序，選擇其中最大的k個(gè)，然后將其對(duì)應(yīng)的k個(gè)特征向量分別作為列向量組成特征向量矩陣。這里特征值只有兩個(gè)，我們選擇其中最大的那個(gè)，這里是1.28402771，對(duì)應(yīng)的特征向量是。&#

6、160; 第五步，將樣本點(diǎn)投影到選取的特征向量上。假設(shè)樣例數(shù)為m，特征數(shù)為n，減去均值后的樣本矩陣為DataAdjust(m*n)，協(xié)方差矩陣是n*n，選取的k個(gè)特征向量組成的矩陣為EigenVectors(n*k)。那么投影后的數(shù)據(jù)FinalData為這里是 FinalData(10*1) = DataAdjust(10*2矩陣)×特征向量

7、60; 得到結(jié)果是這樣，就將原始樣例的n維特征變成了k維，這k維就是原始特征在k維上的投影。上面的數(shù)據(jù)可以認(rèn)為是learn和study特征融合為一個(gè)新的特征叫做LS特征，該特征基本上代表了這兩個(gè)特征。上述過程有個(gè)圖描述：正號(hào)表示預(yù)處理后的樣本點(diǎn)，斜著的兩條線就分別是正交的特征向量（由于協(xié)方差矩陣是對(duì)稱的，因此其特征

8、向量正交），最后一步的矩陣乘法就是將原始樣本點(diǎn)分別往特征向量對(duì)應(yīng)的軸上做投影。如果取的k=2，那么結(jié)果是這就是經(jīng)過PCA處理后的樣本數(shù)據(jù)，水平軸（上面舉例為LS特征）基本上可以代表全部樣本點(diǎn)。整個(gè)過程看起來就像將坐標(biāo)系做了旋轉(zhuǎn)，當(dāng)然二維可以圖形化表示，高維就不行了。上面的如果k=1，那么只會(huì)留下這里的水平軸，軸上是所有點(diǎn)在該軸的投影。這樣PCA的過程基本結(jié)束。在第一步減均值之后，其實(shí)應(yīng)該

9、還有一步對(duì)特征做方差歸一化。比如一個(gè)特征是汽車速度（0到100），一個(gè)是汽車的座位數(shù)（2到6），顯然第二個(gè)的方差比第一個(gè)小。因此，如果樣本特征中存在這種情況，那么在第一步之后，求每個(gè)特征的標(biāo)準(zhǔn)差，然后對(duì)每個(gè)樣例在該特征下的數(shù)據(jù)除以。歸納一下，使用我們之前熟悉的表示方法，在求協(xié)方差之前的步驟是：其中是樣例，共m個(gè)，每個(gè)樣例n個(gè)特征，也就是說是n維向量。是第i個(gè)樣例的第j個(gè)特征。是樣例均值。是第j個(gè)特征的標(biāo)準(zhǔn)差。 &#

10、160; 整個(gè)PCA過程貌似及其簡單，就是求協(xié)方差的特征值和特征向量，然后做數(shù)據(jù)轉(zhuǎn)換。但是有沒有覺得很神奇，為什么求協(xié)方差的特征向量就是最理想的k維向量？其背后隱藏的意義是什么？整個(gè)PCA的意義是什么？ PCA理論基礎(chǔ) 要解釋為什么協(xié)方差矩陣的特征向量就是k維理想特征，我看到的有三個(gè)理論：分別是最大方差理論、最小錯(cuò)誤理論和坐標(biāo)軸相關(guān)度理論。這里簡單探討前兩種，最后一種在討論P(yáng)CA意義時(shí)簡單概述。最大方差理論在信號(hào)處理中認(rèn)為信號(hào)具有較大的方差，噪聲有較小的方差，信噪

11、比就是信號(hào)與噪聲的方差比，越大越好。如前面的圖，樣本在橫軸上的投影方差較大，在縱軸上的投影方差較小，那么認(rèn)為縱軸上的投影是由噪聲引起的。因此我們認(rèn)為，最好的k維特征是將n維樣本點(diǎn)轉(zhuǎn)換為k維后，每一維上的樣本方差都很大。比如下圖有5個(gè)樣本點(diǎn)：（已經(jīng)做過預(yù)處理，均值為0，特征方差歸一）下面將樣本投影到某一維上，這里用一條過原點(diǎn)的直線表示（前處理的過程實(shí)質(zhì)是將原點(diǎn)移到樣本點(diǎn)的中心點(diǎn)）。

12、假設(shè)我們選擇兩條不同的直線做投影，那么左右兩條中哪個(gè)好呢？根據(jù)我們之前的方差最大化理論，左邊的好，因?yàn)橥队昂蟮臉颖军c(diǎn)之間方差最大。這里先解釋一下投影的概念：紅色點(diǎn)表示樣例，藍(lán)色點(diǎn)表示在u上的投影，u是直線的斜率也是直線的方向向量，而且是單位向量。藍(lán)色點(diǎn)是在u上的投影點(diǎn)，離原點(diǎn)的距離是（即或者）由于這些樣本點(diǎn)（樣例）的每一維特征均值都為0，因此投影到u上的樣本點(diǎn)（只有一個(gè)到原點(diǎn)的距離值）的均值仍然是0。

13、; 回到上面左右圖中的左圖，我們要求的是最佳的u，使得投影后的樣本點(diǎn)方差最大。由于投影后均值為0，因此方差為：中間那部分很熟悉啊，不就是樣本特征的協(xié)方差矩陣么（的均值為0，一般協(xié)方差矩陣都除以m-1，這里用m）。用來表示，表示，那么上式寫作由于u是單位向量

14、，即，上式兩邊都左乘u得，即 We got it！就是的特征值，u是特征向量。最佳的投影直線是特征值最大時(shí)對(duì)應(yīng)的特征向量，其次是第二大對(duì)應(yīng)的特征向量，依次類推。因此，我們只需要對(duì)協(xié)方差矩陣進(jìn)行特征值分解，得到的前k大特征值對(duì)應(yīng)的特征向量就是最佳的k維新特征，而且這k維新特征是正交的。得到前k個(gè)u以后，樣例通過以下變換可以得到新的樣本。其中的

15、第j維就是在上的投影。通過選取最大的k個(gè)u，使得方差較小的特征（如噪聲）被丟棄。最小平方誤差理論：假設(shè)有這樣的二維樣本點(diǎn)（紅色點(diǎn)），回顧我們前面探討的是求一條直線，使得樣本點(diǎn)投影到直線上的點(diǎn)的方差最大。本質(zhì)是求直線，那么度量直線求的好不好，不僅僅只有方差最大化的方法。再回想我們最開始學(xué)習(xí)的線性回歸等，目的也是求一個(gè)線性函數(shù)使得直線能夠最佳擬合樣本點(diǎn)，那么我們能不能認(rèn)為最佳的直線就是回歸后的直線呢？回歸時(shí)我們的最小二乘法度量的是樣本點(diǎn)到直線的坐標(biāo)軸距離。比如這個(gè)問題中，特征是x，類標(biāo)簽是y。回歸時(shí)

16、最小二乘法度量的是距離d。如果使用回歸方法來度量最佳直線，那么就是直接在原始樣本上做回歸了，跟特征選擇就沒什么關(guān)系了。因此，我們打算選用另外一種評(píng)價(jià)直線好壞的方法，使用點(diǎn)到直線的距離d來度量。現(xiàn)在有n個(gè)樣本點(diǎn)，每個(gè)樣本點(diǎn)為m維（這節(jié)內(nèi)容中使用的符號(hào)與上面的不太一致，需要重新理解符號(hào)的意義）。將樣本點(diǎn)在直線上的投影記為，那么我們就是要最小化這個(gè)公式稱作最小平方誤差（Least Square

17、d Error）。而確定一條直線，一般只需要確定一個(gè)點(diǎn)，并且確定方向即可。第一步確定點(diǎn)：假設(shè)要在空間中找一點(diǎn)來代表這n個(gè)樣本點(diǎn)，“代表”這個(gè)詞不是量化的，因此要量化的話，我們就是要找一個(gè)m維的點(diǎn)，使得最小。其中是平方錯(cuò)誤評(píng)價(jià)函數(shù)（squared-error criterion function），假設(shè)m為n個(gè)樣本點(diǎn)的均值：

18、60; 那么平方錯(cuò)誤可以寫作：后項(xiàng)與無關(guān)，看做常量，而，因此最小化時(shí)，是樣本點(diǎn)均值。第二步確定方向：我們從拉出要求的直線（這條直線要過點(diǎn)m），假設(shè)直線的

19、方向是單位向量e。那么直線上任意一點(diǎn)，比如就可以用點(diǎn)m和e來表示其中是到點(diǎn)m的距離。我們重新定義最小平方誤差：這里的k只是相當(dāng)于i。就是最小平方誤差函數(shù)，其中的未知參數(shù)是和e。實(shí)際上是求的最小值。首先將上式展開：

20、0; 我們首先固定e，將其看做是常量，然后對(duì)進(jìn)行求導(dǎo)，得這個(gè)結(jié)果意思是說，如果知道了e，那么將與e做內(nèi)積，就可以知道了在e上的投影離m的長度距離，不過這個(gè)結(jié)果不用求都知道。然后是固定，對(duì)e求偏導(dǎo)數(shù)，我們先將公式（8）代入，得其中與協(xié)方差矩陣類似，只是缺少個(gè)分

21、母n-1，我們稱之為散列矩陣（scatter matrix）。然后可以對(duì)e求偏導(dǎo)數(shù)，但是e需要首先滿足，引入拉格朗日乘子，來使最大（最?。?，令求偏導(dǎo) 這里存在對(duì)向量求導(dǎo)數(shù)的技巧，方法這里不多做介紹?？梢匀タ匆恍╆P(guān)于矩陣微積分的資料，這里求導(dǎo)時(shí)可以將看作是，將看做是。導(dǎo)數(shù)等于0時(shí)，得

22、兩邊除以n-1就變成了，對(duì)協(xié)方差矩陣求特征值向量了。從不同的思路出發(fā)，最后得到同一個(gè)結(jié)果，對(duì)協(xié)方差矩陣求特征向量，求得后特征向量上就成為了新的坐標(biāo)，如下圖：這時(shí)候點(diǎn)都聚集在新的坐標(biāo)軸周圍，因?yàn)槲覀兪褂玫淖钚∑椒秸`差的意義就在此。PCA理論意義： PCA將n個(gè)特征降維到k個(gè)，可以用來進(jìn)行數(shù)據(jù)壓縮，如果100

23、維的向量最后可以用10維來表示，那么壓縮率為90%。同樣圖像處理領(lǐng)域的KL變換使用PCA做圖像壓縮。但PCA要保證降維后，還要保證數(shù)據(jù)的特性損失最小。再看回顧一下PCA的效果。經(jīng)過PCA處理后，二維數(shù)據(jù)投影到一維上可以有以下幾種情況：我們認(rèn)為左圖好，一方面是投影后方差最大，一方面是點(diǎn)到直線的距離平方和最小，而且直線過樣本點(diǎn)的中心點(diǎn)。為什么右邊的投影效果比較差？直覺是因?yàn)樽鴺?biāo)軸之間相關(guān)，以至于去掉一個(gè)坐標(biāo)軸，就會(huì)使得坐標(biāo)點(diǎn)無法被單獨(dú)一個(gè)坐標(biāo)軸確定。 &#

24、160; PCA得到的k個(gè)坐標(biāo)軸實(shí)際上是k個(gè)特征向量，由于協(xié)方差矩陣對(duì)稱，因此k個(gè)特征向量正交?？聪旅娴挠?jì)算過程。假設(shè)我們還是用來表示樣例，m個(gè)樣例，n個(gè)特征。特征向量為e，表示第i個(gè)特征向量的第1維。那么原始樣本特征方程可以用下面式子來表示：前面兩個(gè)矩陣乘積就是協(xié)方差矩陣（除以m后），原始的樣本矩陣A是第二個(gè)矩陣m*n。上式可以簡寫為我

25、們最后得到的投影結(jié)果是，E是k個(gè)特征向量組成的矩陣，展開如下：得到的新的樣例矩陣就是m個(gè)樣例到k個(gè)特征向量的投影，也是這k個(gè)特征向量的線性組合。e之間是正交的。從矩陣乘法中可以看出，PCA所做的變換是將原始樣本點(diǎn)（n維），投影到k個(gè)正交的坐標(biāo)系中去，丟棄其他維度的信息。舉個(gè)例子，假設(shè)宇宙是n維的（霍金說是11維的），我們得到銀河系中每個(gè)星星的坐標(biāo)（相對(duì)于銀河系中心的n維向量），然而我們想用二維坐標(biāo)去逼近這些樣本點(diǎn)，假設(shè)算出來的協(xié)方差矩陣的特征向量分別是圖中的水平和豎直方向，那么我們建議

26、以銀河系中心為原點(diǎn)的x和y坐標(biāo)軸，所有的星星都投影到x和y上，得到下面的圖片。然而我們丟棄了每個(gè)星星離我們的遠(yuǎn)近距離等信息。總結(jié)與討論：PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序，根據(jù)需要取前面最重要的部分，將后面的維數(shù)省去，可以達(dá)到降維從而簡化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。 PCA技術(shù)的一個(gè)很大的優(yōu)點(diǎn)是，它是完全無參數(shù)限制的。在PCA的計(jì)算過程中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)Ｐ蛯?duì)計(jì)算進(jìn)行干預(yù)，最后的結(jié)果只與數(shù)據(jù)相關(guān)，與用戶是獨(dú)立的。但是，這一點(diǎn)同時(shí)也可以看作是缺點(diǎn)。如果用戶

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

主成分(PCA)分析原理

文檔簡介

溫馨提示

最新文檔

評(píng)論

主成分(PCA)分析原理

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔