




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、主成分分析(primary component analysis)問題:假設(shè)在IR中我們建立的文檔-詞項(xiàng)矩陣中,有兩個(gè)詞項(xiàng)為“l(fā)earn”和“study”,在傳統(tǒng)的向量空間模型中,認(rèn)為兩者獨(dú)立。然而從語義的角度來講,兩者是相似的,而且兩者出現(xiàn)頻率也類似,是不是可以合成為一個(gè)特征呢? 模型選擇和規(guī)則化談到的特征選擇的問題,就是要剔除的特征主要是和類標(biāo)簽無關(guān)的特征。比如“學(xué)生的名字”就和他的“成績”無關(guān),使用的是互信息的方法。 而這里的特征很多是
2、和類標(biāo)簽有關(guān)的,但里面存在噪聲或者冗余。在這種情況下,需要一種特征降維的方法來減少特征數(shù),減少噪音和冗余,減少過度擬合的可能性。 PCA的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。這k維特征稱為主元,是重新構(gòu)造出來的k維特征,而不是簡單地從n維特征中去除其余n-k維特征。 計(jì)算過程: 假設(shè)我們得到的2維數(shù)據(jù)如下:
3、0; 行代表了樣例,列代表特征,這里有10個(gè)樣例,每個(gè)樣例兩個(gè)特征。可以這樣認(rèn)為,有10篇文檔,x是10篇文檔中“l(fā)earn”出現(xiàn)的TF-IDF,y是10篇文檔中“study”出現(xiàn)的TF-IDF。第一步分別求x和y的平均值,然后對(duì)于所有的樣例,都減去對(duì)應(yīng)的均值。這里x的均值是1.81,y的均值是1.91,那么一個(gè)樣例減去均值后即為(0.69,0.49),得到 第二步,求特征協(xié)方差矩陣,如果數(shù)據(jù)是3維,那么協(xié)方差矩陣是 &
4、#160; 這里只有x和y,求解得 對(duì)角線上分別是x和y的方差,非對(duì)角線上是協(xié)方差。協(xié)方差是衡量兩個(gè)變量同時(shí)變化的變化程度。協(xié)方差大于0表示x和y若一個(gè)增,另一個(gè)也增;小于0表示一個(gè)增,一個(gè)減。如果和是統(tǒng)計(jì)獨(dú)立的,那么二者之間的協(xié)方差就是;但是協(xié)方差是,并不能說明和是獨(dú)立的。協(xié)方差絕對(duì)值越大,兩者對(duì)彼此的影響越大,反之越小。協(xié)方差是沒有單位的量,因此,如果同樣的兩個(gè)變量所采用的量綱發(fā)生變化,它們的協(xié)方差也會(huì)產(chǎn)生樹枝上的變化。
5、160; 第三步,求協(xié)方差的特征值和特征向量,得到 上面是兩個(gè)特征值,下面是對(duì)應(yīng)的特征向量,特征值0.0490833989對(duì)應(yīng)特征向量為,這里的特征向量都?xì)w一化為單位向量。 第四步,將特征值按照從大到小的順序排序,選擇其中最大的k個(gè),然后將其對(duì)應(yīng)的k個(gè)特征向量分別作為列向量組成特征向量矩陣。 這里特征值只有兩個(gè),我們選擇其中最大的那個(gè),這里是1.28402771,對(duì)應(yīng)的特征向量是。
6、160; 第五步,將樣本點(diǎn)投影到選取的特征向量上。假設(shè)樣例數(shù)為m,特征數(shù)為n,減去均值后的樣本矩陣為DataAdjust(m*n),協(xié)方差矩陣是n*n,選取的k個(gè)特征向量組成的矩陣為EigenVectors(n*k)。那么投影后的數(shù)據(jù)FinalData為 這里是 FinalData(10*1) = DataAdjust(10*2矩陣)×特征向量
7、60; 得到結(jié)果是 這樣,就將原始樣例的n維特征變成了k維,這k維就是原始特征在k維上的投影。 上面的數(shù)據(jù)可以認(rèn)為是learn和study特征融合為一個(gè)新的特征叫做LS特征,該特征基本上代表了這兩個(gè)特征。 上述過程有個(gè)圖描述: 正號(hào)表示預(yù)處理后的樣本點(diǎn),斜著的兩條線就分別是正交的特征向量(由于協(xié)方差矩陣是對(duì)稱的,因此其特征
8、向量正交),最后一步的矩陣乘法就是將原始樣本點(diǎn)分別往特征向量對(duì)應(yīng)的軸上做投影。 如果取的k=2,那么結(jié)果是 這就是經(jīng)過PCA處理后的樣本數(shù)據(jù),水平軸(上面舉例為LS特征)基本上可以代表全部樣本點(diǎn)。整個(gè)過程看起來就像將坐標(biāo)系做了旋轉(zhuǎn),當(dāng)然二維可以圖形化表示,高維就不行了。上面的如果k=1,那么只會(huì)留下這里的水平軸,軸上是所有點(diǎn)在該軸的投影。 這樣PCA的過程基本結(jié)束。在第一步減均值之后,其實(shí)應(yīng)該
9、還有一步對(duì)特征做方差歸一化。比如一個(gè)特征是汽車速度(0到100),一個(gè)是汽車的座位數(shù)(2到6),顯然第二個(gè)的方差比第一個(gè)小。因此,如果樣本特征中存在這種情況,那么在第一步之后,求每個(gè)特征的標(biāo)準(zhǔn)差,然后對(duì)每個(gè)樣例在該特征下的數(shù)據(jù)除以。 歸納一下,使用我們之前熟悉的表示方法,在求協(xié)方差之前的步驟是: 其中是樣例,共m個(gè),每個(gè)樣例n個(gè)特征,也就是說是n維向量。是第i個(gè)樣例的第j個(gè)特征。是樣例均值。是第j個(gè)特征的標(biāo)準(zhǔn)差。
10、160; 整個(gè)PCA過程貌似及其簡單,就是求協(xié)方差的特征值和特征向量,然后做數(shù)據(jù)轉(zhuǎn)換。但是有沒有覺得很神奇,為什么求協(xié)方差的特征向量就是最理想的k維向量?其背后隱藏的意義是什么?整個(gè)PCA的意義是什么? PCA理論基礎(chǔ) 要解釋為什么協(xié)方差矩陣的特征向量就是k維理想特征,我看到的有三個(gè)理論:分別是最大方差理論、最小錯(cuò)誤理論和坐標(biāo)軸相關(guān)度理論。這里簡單探討前兩種,最后一種在討論P(yáng)CA意義時(shí)簡單概述。 最大方差理論 在信號(hào)處理中認(rèn)為信號(hào)具有較大的方差,噪聲有較小的方差,信噪
11、比就是信號(hào)與噪聲的方差比,越大越好。如前面的圖,樣本在橫軸上的投影方差較大,在縱軸上的投影方差較小,那么認(rèn)為縱軸上的投影是由噪聲引起的。因此我們認(rèn)為,最好的k維特征是將n維樣本點(diǎn)轉(zhuǎn)換為k維后,每一維上的樣本方差都很大。比如下圖有5個(gè)樣本點(diǎn):(已經(jīng)做過預(yù)處理,均值為0,特征方差歸一) 下面將樣本投影到某一維上,這里用一條過原點(diǎn)的直線表示(前處理的過程實(shí)質(zhì)是將原點(diǎn)移到樣本點(diǎn)的中心點(diǎn))。
12、 假設(shè)我們選擇兩條不同的直線做投影,那么左右兩條中哪個(gè)好呢?根據(jù)我們之前的方差最大化理論,左邊的好,因?yàn)橥队昂蟮臉颖军c(diǎn)之間方差最大。 這里先解釋一下投影的概念: 紅色點(diǎn)表示樣例,藍(lán)色點(diǎn)表示在u上的投影,u是直線的斜率也是直線的方向向量,而且是單位向量。藍(lán)色點(diǎn)是在u上的投影點(diǎn),離原點(diǎn)的距離是(即或者)由于這些樣本點(diǎn)(樣例)的每一維特征均值都為0,因此投影到u上的樣本點(diǎn)(只有一個(gè)到原點(diǎn)的距離值)的均值仍然是0。
13、; 回到上面左右圖中的左圖,我們要求的是最佳的u,使得投影后的樣本點(diǎn)方差最大。 由于投影后均值為0,因此方差為: 中間那部分很熟悉啊,不就是樣本特征的協(xié)方差矩陣么(的均值為0,一般協(xié)方差矩陣都除以m-1,這里用m)。 用來表示,表示,那么上式寫作 由于u是單位向量
14、,即,上式兩邊都左乘u得, 即 We got it!就是的特征值,u是特征向量。最佳的投影直線是特征值最大時(shí)對(duì)應(yīng)的特征向量,其次是第二大對(duì)應(yīng)的特征向量,依次類推。 因此,我們只需要對(duì)協(xié)方差矩陣進(jìn)行特征值分解,得到的前k大特征值對(duì)應(yīng)的特征向量就是最佳的k維新特征,而且這k維新特征是正交的。得到前k個(gè)u以后,樣例通過以下變換可以得到新的樣本。 其中的
15、第j維就是在上的投影。 通過選取最大的k個(gè)u,使得方差較小的特征(如噪聲)被丟棄。最小平方誤差理論: 假設(shè)有這樣的二維樣本點(diǎn)(紅色點(diǎn)),回顧我們前面探討的是求一條直線,使得樣本點(diǎn)投影到直線上的點(diǎn)的方差最大。本質(zhì)是求直線,那么度量直線求的好不好,不僅僅只有方差最大化的方法。再回想我們最開始學(xué)習(xí)的線性回歸等,目的也是求一個(gè)線性函數(shù)使得直線能夠最佳擬合樣本點(diǎn),那么我們能不能認(rèn)為最佳的直線就是回歸后的直線呢?回歸時(shí)我們的最小二乘法度量的是樣本點(diǎn)到直線的坐標(biāo)軸距離。比如這個(gè)問題中,特征是x,類標(biāo)簽是y。回歸時(shí)
16、最小二乘法度量的是距離d。如果使用回歸方法來度量最佳直線,那么就是直接在原始樣本上做回歸了,跟特征選擇就沒什么關(guān)系了。 因此,我們打算選用另外一種評(píng)價(jià)直線好壞的方法,使用點(diǎn)到直線的距離d來度量。 現(xiàn)在有n個(gè)樣本點(diǎn),每個(gè)樣本點(diǎn)為m維(這節(jié)內(nèi)容中使用的符號(hào)與上面的不太一致,需要重新理解符號(hào)的意義)。將樣本點(diǎn)在直線上的投影記為,那么我們就是要最小化 這個(gè)公式稱作最小平方誤差(Least Square
17、d Error)。 而確定一條直線,一般只需要確定一個(gè)點(diǎn),并且確定方向即可。 第一步確定點(diǎn): 假設(shè)要在空間中找一點(diǎn)來代表這n個(gè)樣本點(diǎn),“代表”這個(gè)詞不是量化的,因此要量化的話,我們就是要找一個(gè)m維的點(diǎn),使得 最小。其中是平方錯(cuò)誤評(píng)價(jià)函數(shù)(squared-error criterion function),假設(shè)m為n個(gè)樣本點(diǎn)的均值:
18、60; 那么平方錯(cuò)誤可以寫作: 后項(xiàng)與無關(guān),看做常量,而,因此最小化時(shí), 是樣本點(diǎn)均值。 第二步確定方向: 我們從拉出要求的直線(這條直線要過點(diǎn)m),假設(shè)直線的
19、方向是單位向量e。那么直線上任意一點(diǎn),比如就可以用點(diǎn)m和e來表示 其中是到點(diǎn)m的距離。 我們重新定義最小平方誤差: 這里的k只是相當(dāng)于i。就是最小平方誤差函數(shù),其中的未知參數(shù)是和e。 實(shí)際上是求的最小值。首先將上式展開:
20、0; 我們首先固定e,將其看做是常量,然后對(duì)進(jìn)行求導(dǎo),得 這個(gè)結(jié)果意思是說,如果知道了e,那么將與e做內(nèi)積,就可以知道了在e上的投影離m的長度距離,不過這個(gè)結(jié)果不用求都知道。 然后是固定,對(duì)e求偏導(dǎo)數(shù),我們先將公式(8)代入,得 其中 與協(xié)方差矩陣類似,只是缺少個(gè)分
21、母n-1,我們稱之為散列矩陣(scatter matrix)。 然后可以對(duì)e求偏導(dǎo)數(shù),但是e需要首先滿足,引入拉格朗日乘子,來使最大(最?。?,令 求偏導(dǎo) 這里存在對(duì)向量求導(dǎo)數(shù)的技巧,方法這里不多做介紹??梢匀タ匆恍╆P(guān)于矩陣微積分的資料,這里求導(dǎo)時(shí)可以將看作是,將看做是。 導(dǎo)數(shù)等于0時(shí),得
22、 兩邊除以n-1就變成了,對(duì)協(xié)方差矩陣求特征值向量了。 從不同的思路出發(fā),最后得到同一個(gè)結(jié)果,對(duì)協(xié)方差矩陣求特征向量,求得后特征向量上就成為了新的坐標(biāo),如下圖: 這時(shí)候點(diǎn)都聚集在新的坐標(biāo)軸周圍,因?yàn)槲覀兪褂玫淖钚∑椒秸`差的意義就在此。PCA理論意義: PCA將n個(gè)特征降維到k個(gè),可以用來進(jìn)行數(shù)據(jù)壓縮,如果100
23、維的向量最后可以用10維來表示,那么壓縮率為90%。同樣圖像處理領(lǐng)域的KL變換使用PCA做圖像壓縮。但PCA要保證降維后,還要保證數(shù)據(jù)的特性損失最小。再看回顧一下PCA的效果。經(jīng)過PCA處理后,二維數(shù)據(jù)投影到一維上可以有以下幾種情況: 我們認(rèn)為左圖好,一方面是投影后方差最大,一方面是點(diǎn)到直線的距離平方和最小,而且直線過樣本點(diǎn)的中心點(diǎn)。為什么右邊的投影效果比較差?直覺是因?yàn)樽鴺?biāo)軸之間相關(guān),以至于去掉一個(gè)坐標(biāo)軸,就會(huì)使得坐標(biāo)點(diǎn)無法被單獨(dú)一個(gè)坐標(biāo)軸確定。
24、160; PCA得到的k個(gè)坐標(biāo)軸實(shí)際上是k個(gè)特征向量,由于協(xié)方差矩陣對(duì)稱,因此k個(gè)特征向量正交??聪旅娴挠?jì)算過程。 假設(shè)我們還是用來表示樣例,m個(gè)樣例,n個(gè)特征。特征向量為e,表示第i個(gè)特征向量的第1維。那么原始樣本特征方程可以用下面式子來表示: 前面兩個(gè)矩陣乘積就是協(xié)方差矩陣(除以m后),原始的樣本矩陣A是第二個(gè)矩陣m*n。 上式可以簡寫為 我
25、們最后得到的投影結(jié)果是,E是k個(gè)特征向量組成的矩陣,展開如下: 得到的新的樣例矩陣就是m個(gè)樣例到k個(gè)特征向量的投影,也是這k個(gè)特征向量的線性組合。e之間是正交的。從矩陣乘法中可以看出,PCA所做的變換是將原始樣本點(diǎn)(n維),投影到k個(gè)正交的坐標(biāo)系中去,丟棄其他維度的信息。舉個(gè)例子,假設(shè)宇宙是n維的(霍金說是11維的),我們得到銀河系中每個(gè)星星的坐標(biāo)(相對(duì)于銀河系中心的n維向量),然而我們想用二維坐標(biāo)去逼近這些樣本點(diǎn),假設(shè)算出來的協(xié)方差矩陣的特征向量分別是圖中的水平和豎直方向,那么我們建議
26、以銀河系中心為原點(diǎn)的x和y坐標(biāo)軸,所有的星星都投影到x和y上,得到下面的圖片。然而我們丟棄了每個(gè)星星離我們的遠(yuǎn)近距離等信息。 總結(jié)與討論:PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,可以達(dá)到降維從而簡化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。 PCA技術(shù)的一個(gè)很大的優(yōu)點(diǎn)是,它是完全無參數(shù)限制的。在PCA的計(jì)算過程中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)P蛯?duì)計(jì)算進(jìn)行干預(yù),最后的結(jié)果只與數(shù)據(jù)相關(guān),與用戶是獨(dú)立的。 但是,這一點(diǎn)同時(shí)也可以看作是缺點(diǎn)。如果用戶
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年河南推拿職業(yè)學(xué)院單招職業(yè)適應(yīng)性測(cè)試題庫附答案
- 2025年度新型法院執(zhí)行和解協(xié)議書編制指南
- 2025年度農(nóng)村房屋拆遷與鄉(xiāng)村振興項(xiàng)目合作協(xié)議
- 2025年度養(yǎng)老服務(wù)機(jī)構(gòu)單位解除勞動(dòng)合同及養(yǎng)老服務(wù)協(xié)議
- 2025年度合資企業(yè)股權(quán)分配與合作協(xié)議
- 2025年度工地施工期間施工進(jìn)度與費(fèi)用控制協(xié)議
- 液態(tài)粘合劑槽罐車運(yùn)輸范本
- 智能家居別墅設(shè)計(jì)合同樣本
- 2025年度人工智能智能家居產(chǎn)品合作合同解除協(xié)議書
- 2025年度個(gè)人消費(fèi)債權(quán)轉(zhuǎn)讓及分期還款協(xié)議
- 餐券模板完整
- 英語48個(gè)國際音標(biāo)課件(單詞帶聲、附有聲國際音標(biāo)圖)
- 門機(jī)司機(jī)室更換施工方案
- 預(yù)制裝配式鋼筋混凝土排水檢查井標(biāo)準(zhǔn)圖集
- 評(píng)估胎兒健康的技術(shù)
- 全自動(dòng)甘蔗剝?nèi)~裝置的設(shè)計(jì)
- 梁湘潤.命學(xué)精華
- T-CSAE 11.3-2021 商用車潤滑導(dǎo)則 第3部分:潤滑脂的選用
- 工業(yè)級(jí)七水硫酸亞鐵
- 內(nèi)科休克急救
- 變電站的電氣主接線課件
評(píng)論
0/150
提交評(píng)論