什么是主成分分析_第1頁
什么是主成分分析_第2頁
什么是主成分分析_第3頁
什么是主成分分析_第4頁
什么是主成分分析_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

主成分分析(principalcomponentanalysis,PCA)如果一組數(shù)據(jù)含有N個觀測樣品樣本,每個樣品樣本需要檢測的變量指標(biāo)有K個,如何綜合比較各個觀測樣品樣本的性質(zhì)優(yōu)劣或特點?這種情況下,任何選擇其中單個變量指標(biāo)對樣品本進(jìn)行分析的方法都會失之偏頗,無法反映樣品樣本綜合特征和特點。這就需要多變量數(shù)據(jù)統(tǒng)計分析。多變量數(shù)據(jù)統(tǒng)計分析中一個重要方法是主成份分析。主成分分析就是將上述含有N個觀測樣品樣本、K個變量指標(biāo)的數(shù)據(jù)矩陣轉(zhuǎn)看成一個含有K維空間的數(shù)學(xué)模型,N個觀測樣品樣本分布在這個模型中。從數(shù)據(jù)分析的本質(zhì)目的看,數(shù)據(jù)分析目標(biāo)總是了解樣品樣本之間的差異性或者相似性,為最終的決策提供參考。因此,對一個矩陣數(shù)據(jù)來說,在K維空間中,總存在某一個維度的方向,能夠最好、最大程度地描述樣品的差異性或相似性(圖1)?;谄钚《朔ㄔ?,可以計算得到這個軸線。在此基礎(chǔ)上,可以在垂直于第一條軸線的位置找出第二個最重要的軸線方向,獨立描述樣品第二顯著的差異性或相似性;依此類推到n個軸線。如果有三條軸線,就是三維立體坐標(biāo)軸。形象地說,上述每個軸線方向代表的數(shù)據(jù)含義,就是一個主成份。X、Y、Z軸就是第1、2、3主成份。由于人類很難想像超過三維的空間,因此,為了便于直觀觀測,通常取2個或者3個主成份對應(yīng)圖進(jìn)行觀察。圖(1)PCA得到的是一個在最小二乘意義上擬合數(shù)據(jù)集的數(shù)學(xué)模型。即,主成分上所有觀測值的坐標(biāo)投影方差最大。從理論上看,主成分分析是一種通過正交變換,將一組包含可能互相相關(guān)變量的觀測值組成的數(shù)據(jù),轉(zhuǎn)換為一組數(shù)值上線性不相關(guān)變量的數(shù)據(jù)處理過程。這些轉(zhuǎn)換后的變量,稱為主成分(principalcomponent,PC)。主成分的數(shù)目因此低于或等于原有數(shù)據(jù)集中觀測值的變量數(shù)目。PCA最早的發(fā)明人為KarlPearson,他于1901年發(fā)表的論文中以主軸定理(principalaxistheorem)衍生結(jié)論的形式提出了PCA的雛形,但其獨立發(fā)展與命名是由HaroldHotelling于1930年前后左右完成。PCA可通過對數(shù)據(jù)的協(xié)方差/相關(guān)系數(shù)矩陣的特征分解,或?qū)?shù)據(jù)矩陣進(jìn)行奇異值分解完成。設(shè)一個由N個觀測值(行),K個變量(列)的數(shù)據(jù)矩陣X,如圖(2)。觀測值可以是分析樣品,化合物或不同反應(yīng)條件,持續(xù)流程的時間點,批量工程的批次,生物個體等等,而變量則是表征觀測值屬性的數(shù)值,可以是光譜(NIR,NMR等),色譜(HPLC,GC等)乃至以及其他傳感器的測量值。圖(2)PCA數(shù)據(jù)集示意圖主成分分析的數(shù)學(xué)模型如下:上述N×K維矩陣寫作向量集為因此對N個觀測值求平均向量,為觀測值向量集的協(xié)方差矩陣為:求出協(xié)方差矩陣的特征向量ui和對應(yīng)的特征值λi,并有:選擇大于λd的λi對應(yīng)特征向量構(gòu)成主成分,主成分構(gòu)成的變換矩陣為:PCA分析的幾何解釋如圖(?)。N個觀測值(黃點)分布在K個變量方向構(gòu)成的K維空間中。利用最小二乘法原理找到一條直線使所有樣品距離該直線的總殘差最小,而投影在此數(shù)軸方向的方差最大,那么該直線方向也就體現(xiàn)了樣品間最大差異,為一個主成分;沿著與前一個直線垂直方向,找到第二個主成分,以此類推。PCA的最重要作用是建立低維平面或空間(通常2-5維),以此概覽整個數(shù)據(jù)集,并從中揭示出數(shù)據(jù)集中觀測值的分組、趨勢以及離群值。這一概覽同時可以發(fā)現(xiàn)觀測值與變量,以及變量間的關(guān)系。統(tǒng)計上,PCA的過程是在K維的空間中,尋找在最小二乘意義上可以整體估計整個數(shù)據(jù)集的線、平面或超平面。這樣的線、平面或超平面是對整個數(shù)據(jù)集的最小二乘近似,在這樣的線或平面上,變量(即觀測值的坐標(biāo))達(dá)到可能的最大總方差。PCA是試探性數(shù)據(jù)分析(exploratorydataanalysis,EDA)的有力工具,也可以用于預(yù)測模型;作為基于特征向量進(jìn)行的最簡單的多變量分析方法,可用于揭示數(shù)據(jù)的內(nèi)在結(jié)構(gòu),最大程度好地解釋數(shù)據(jù)的差異。對于一個原本只能用高維坐標(biāo)系描述的數(shù)據(jù)集(每個變量對應(yīng)1個維度),PCA可用一個低維度的坐標(biāo)系進(jìn)行描述(每個主成分對應(yīng)1個維度),并且通過降維的轉(zhuǎn)換令數(shù)據(jù)本征性的變化凸顯出來。參考文獻(xiàn)Pearson,K.(1901)."OnLinesandPlanesofClosestFittoSystemsofPointsinSpace"(PDF).PhilosophicalMagazine.2(11):559–572.Hotelling,H.(1933).Analysisofacomplexofstatisticalvariablesintoprincipalcomponents.JournalofEducationalPsychology,24,417–441,and498–520.Hotelling,H.(1936).Relationsbetweentwosetsofvariates.Biometrika,28,321–77

多變量分析(Multi-VariateAnalysis,MVA)在管理科學(xué)、社會科學(xué)與自然科學(xué)的許多領(lǐng)域中,往往需要對許多事物、許多系統(tǒng)參數(shù)及流程屬性中的各種變量進(jìn)行計量和分析研究。在這些過程中收集到的數(shù)據(jù),往往同時存在復(fù)數(shù)的變量,并來源于復(fù)數(shù)的樣本或時間點,可稱之為多元變量(Multi-Variate)。通過多變量數(shù)據(jù),對研究對象的本質(zhì)的深入洞悉與解讀,除了需要所研究系統(tǒng)涉及的科學(xué)技術(shù)背景知識,也需要相應(yīng)的分析手段。針對同時存在復(fù)數(shù)變量的多變量數(shù)據(jù)的這些分析方法統(tǒng)稱為多變量分析。明智地選擇觀測值(Observations)以及變量(Variables),并準(zhǔn)確計量而得到的多變量數(shù)據(jù),比單變量(Univariate)數(shù)據(jù)包含更多的信息。一般認(rèn)為,多變量分析起源于醫(yī)學(xué)和心理學(xué),Anderson于1958年的著作AnIntroductiontoMultivariateAnalysis是這一理論于現(xiàn)代建立并完善的起點。限于當(dāng)時的計算技術(shù),多變量分析的應(yīng)用和發(fā)展均受到限制。近年隨著計算機(jī)技術(shù)的發(fā)展,多變量分析發(fā)展速度趨快。目前,多變量分析技術(shù)包括但不限于以下類型:1回歸分析(multiplelinearregression,MLR)2判別分析(lineardiscriminationanalysis,LDA)3典型相關(guān)分析(canonicalcorrelation,CC)4因子分析(factoranalysis,FA)5主成分分析(principalcomponentanalysis,PCA)參考文獻(xiàn)1ErikssonL,ByrneT,JohanssonE,etal.Multi-andmegavariatedataanalysisbasicprinciplesandapplications[M].UmetricsAcademy,2013.2T.W.Anderson,AnIntroductiontoMultivariateStatisticalAnalysis,Wiley,NewYork,1958.

主成分得分與得分圖(PrincipleComponentScoreandScorePlot)主成分得分(PrincipalComponentScore)是PCA分析結(jié)果中的一個重要參數(shù),簡稱得分(Score),是PCA分析中觀測值的重要表征。如圖(編號將根據(jù)最后圖片數(shù)量和位置確定),以黃點表示的N個觀測值分布在以紅點為原點的K維空間中。X1-X3為K個變量中前三個變量的方向,PC1和PC2為兩個主成分方向。對N個觀測值中的第i個,做其垂直于第j主成分方向的投影,即以該主成分方向為坐標(biāo)方向,得到觀測值i在主成分j上的坐標(biāo)值,稱為i在第j主成分上的得分。每個觀測值在每個主成分上都可能有不同的得分。以得分值作圖即為得分圖。如圖()所示,為各觀測值在主成分PC1和PC2的得分圖。觀測值i在主成分j的得分反映了其在該主成分上的變異程度,如i和i’在主成分j上擁有相近得分值,證明觀測值i,i’在主成分j的特征上較為相近。這樣的關(guān)系通過得分圖上觀測值的分布較容易得出。圖()觀測值在PC1和PC2上的投影即為得分圖()PCA得分圖一例參考文獻(xiàn)阿基業(yè).代謝組學(xué)數(shù)據(jù)處理方法——主成分分析[J].中國臨床藥理學(xué)與治療學(xué),2010,15(5):481-489.

主成分載荷與載荷圖(PrincipleComponentLoadingandLoadingPlot)幾何學(xué)上,主成分載荷用于表征主成分模型(線、平面或超平面)在K位變量空間的方向。如圖(),以黃點表示的N個觀測值分布在以紅點為原點的K維空間中。X1-X3為K個變量中前三個變量的方向,PC1和PC2為兩個主成分方向。對PC1,其方向與原始變量X1-X3方向的關(guān)系,可以用PC1分別與變量X1-X3的夾角α1-α3余弦值來表征。這些數(shù)值體現(xiàn)了變量X1-X3對PC1的貢獻(xiàn),稱為載荷。圖()主成分方向與變量方向夾角的余弦稱為載荷每個變量對每個主成分都有各自的載荷。通過所有的載荷唯一確定模型在K維變量空間的方向與位置。以各主成分上各變量的載荷作圖即為載荷圖。如圖()例,為某主成分分析中PC1和PC2所有變量的載荷圖。結(jié)合載荷圖和得分圖,可以分析觀測值分布與變量的關(guān)系,各個變量對觀測值的影響程度,以及變量之間的相關(guān)性。在位于同一象限且距離更近的變量,在各觀測值間有相對一致的變化趨勢,存在正相關(guān);而原點對稱的兩個變量趨于負(fù)相關(guān)。在載荷圖上距離原點距離近的變量對模型貢獻(xiàn)較小,也意味著其對觀測值的變化貢獻(xiàn)較小,反之亦然。圖()主成分載荷圖一例

變量的縮放與平均值中心化(ScalingandMean-centering)主成分分析是一種尋求最大總方差投影的方法,因此,有較大方差的變量在主成分分析模型中的表達(dá)比方差較小的變量更顯著。在實際分析中,觀測值的各變量常常具有不同的數(shù)量級。數(shù)量級大的變量相比之下方差數(shù)量級也較大。在這種情況下,數(shù)量級小的變量其變化不能在模型里充分表達(dá)。解決上述問題的方法,是對各變量進(jìn)行標(biāo)準(zhǔn)化,使各變量的數(shù)值范圍按一定標(biāo)準(zhǔn)規(guī)整一致。這種對變量規(guī)整化的處理稱為縮放(Scaling)。圖()為縮放的幾何解釋。N個包含K個變量的觀測值,以分布在K維空間的點表示。而縮放的目的,則是按照一定標(biāo)準(zhǔn),將各觀測值在各坐標(biāo)軸上的范圍進(jìn)行規(guī)整。常用的一個縮放標(biāo)準(zhǔn)是令各變量等方差,這樣的縮放方式稱為等方差縮放(UnitVarianceScaling,UV-Scaling)。等方差縮放的代數(shù)方法是計算每一個檢測變量的標(biāo)準(zhǔn)偏差(standarddeviation,Sk),然后對此變量乘以1/Sk進(jìn)行縮放。經(jīng)過如此縮放后,每個變量均具有相同的方差。圖()變量縮放的幾何解釋計算每個變量的平均值,用變量中的數(shù)據(jù)減去該平均值使數(shù)據(jù)均勻分布在0點附近,這個過程稱作平均值中心化(mean-centering)。這一過程可提高主成分分析模型的解釋能力。

基于偏最小二乘法的內(nèi)在結(jié)構(gòu)投影分析(PartialLeastSquareProjectionstoLatentStructures,PLS)偏最小二乘法是一種將觀測值的兩個數(shù)據(jù)矩陣,如X和Y,通過線性多變量模型關(guān)聯(lián)的方法。它尤其在X和Y中存在大量噪音、多重共線性甚至缺失變量時十分有效。PLS分析中,觀測值可以是化合物、分析樣品、連續(xù)流程的時間點、生物個體等等。X變量矩陣又稱為因子(factors)或預(yù)測因素(predictors),可以是色譜、質(zhì)譜或其他傳感器的讀數(shù)。Y變量矩陣稱為響應(yīng)(responses),反映觀測值的性質(zhì),如收率、純度、質(zhì)量等。在偏最小二乘法分析中,X和Y都被投影到新的空間中,并以X空間的多維方向來解釋Y空間方差最大的多維方向,是在這兩個空間對協(xié)方差結(jié)構(gòu)建模的隱變量方法。圖()PLS的基本思想偏最小二乘的簡化數(shù)學(xué)模型如下:X=TPT+EY=UQT+E其中X是N×K的預(yù)測因子矩陣,Y是N×M的響應(yīng)矩陣;T和U是N×L的矩陣,分別為X的投影和Y的投影矩陣;P和Q分別是M×L和P×L的正交載荷矩陣;矩陣E和F是殘差,假設(shè)是獨立同分布的隨機(jī)正態(tài)變量。對X和Y分解來最大化T和U之間的協(xié)方差。對PLS的幾何解釋見圖()。N個觀測值的K個預(yù)測變量(即X矩陣)和M個響應(yīng)變量(即Y矩陣)分別表示為K維空間和M維空間中的點。通過偏最小二乘法分析,目的是最大程度解釋觀測值,并判斷進(jìn)而描述觀測值集合的預(yù)測變量與響應(yīng)變量的聯(lián)系。第一個PLS成分,是X空間和Y空間各一條直線,X,Y在這條直線上的投影為向量T,U。兩條直線需滿足:1最大解釋觀測值,包括X,Y;2T和U能達(dá)到最大的關(guān)聯(lián)程度,如圖()所示。在垂直于第一個PLS的條件下,以此類推求第二個PLS成分,如圖()所示。圖()PLS的幾何解釋圖()以U與T的關(guān)聯(lián)解釋Y與X的關(guān)聯(lián)1975年,瑞典統(tǒng)計學(xué)家HermanWold在對復(fù)雜鏈矩陣建模,即路徑模型的研究中,發(fā)明了簡單高效地對上述模型中一些參數(shù)進(jìn)行估算的算法——非線性迭代偏最小二乘法(NonlinearIterativePartialLeastSquares,NIPALS)。1980年左右,其子SvanteWold與HaraldMartens完善了這一算法,使它可以應(yīng)用于通?;貧w較難進(jìn)行的復(fù)雜數(shù)據(jù)集之間。SvanteWold等人認(rèn)為偏最小二乘法應(yīng)該命名為內(nèi)在結(jié)構(gòu)投影(ProjectionstoLatentStuctures),但這一命名至今未被大多數(shù)領(lǐng)域接受。偏最小二乘法最早用于社會科學(xué)領(lǐng)域,經(jīng)過多年發(fā)展,現(xiàn)已為計量化學(xué)、生物信息學(xué)、神經(jīng)科學(xué)等領(lǐng)域接受并廣泛應(yīng)用。加參考文獻(xiàn)

正交內(nèi)在結(jié)構(gòu)投影分析(orthogonalprojectionstolatentstructures,OPLS)2002年,JohanTrygg和SvanteWold在偏最小二乘法的算法基礎(chǔ)上,建立了一種新的多變量分析方法,稱為正交內(nèi)在結(jié)構(gòu)投影。與偏最小二乘法的區(qū)別是,預(yù)測矩陣X中,與響應(yīng)矩陣Y無關(guān)聯(lián)的變化會被除去。從數(shù)學(xué)角度,即除去X中正交于Y的系統(tǒng)變異。PLS算法的目的是最大解釋觀測值并最大關(guān)聯(lián)預(yù)測變量與相應(yīng)變量,其目標(biāo)函數(shù)是最大化X與Y的協(xié)方差。通俗的說,PLS算法將觀測值中預(yù)測變量X的變異——以方差的平方和表示——分成了可解釋的系統(tǒng)變化R2X和殘差E。對X/Y關(guān)聯(lián)的解釋乃至可視化是PLS算法的一大優(yōu)點。但當(dāng)模型復(fù)雜性上升的時候,通過模型參數(shù)對X/Y關(guān)聯(lián)的解釋難度將會上升。OPLS算法相比PLS算法,除殘差部分E之外,進(jìn)一步地將觀測值中的預(yù)測變量X的系統(tǒng)變異分解為兩個部分,與Y變異相關(guān)的,可預(yù)測Y變異的部分R2Xpred;與Y變異不相關(guān),即與Y變異正交的部分R2Xorth。在與PLS有相同的模型擬合和預(yù)測能力的基礎(chǔ)上,OPLS通過預(yù)測成分(predictiveOPLScomponent)和正交成分(orthogonalOPLScomponent)的區(qū)分,使模型有了更好的可解釋性。圖OPLS的簡化數(shù)學(xué)模型如下:X=TpPpT+ToPoT+EY=TpQpT+F其中X是N×K的預(yù)測因子矩陣,Y是N×M的響應(yīng)矩陣;Tp和T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論