主成分分析法的原理應用及計算步驟_第1頁
主成分分析法的原理應用及計算步驟_第2頁
主成分分析法的原理應用及計算步驟_第3頁
主成分分析法的原理應用及計算步驟_第4頁
主成分分析法的原理應用及計算步驟_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

-.z.一、概述在處理信息時,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊,例如,高??蒲袪顩r評價中的立項課題數(shù)與項目經(jīng)費、經(jīng)費支出等之間會存在較高的相關性;學生綜合評價研究中的專業(yè)基礎課成績與專業(yè)課成績、獲獎學金次數(shù)等之間也會存在較高的相關性。而變量之間信息的高度重疊和高度相關會給統(tǒng)計方法的應用帶來許多障礙。為了解決這些問題,最簡單和最直接的解決方案是削減變量的個數(shù),但這必然又會導致信息丟失和信息不完整等問題的產(chǎn)生。為此,人們希望探索一種更為有效的解決方法,它既能大大減少參與數(shù)據(jù)建模的變量個數(shù),同時也不會造成信息的大量丟失。主成分分析正式這樣一種能夠有效降低變量維數(shù),并已得到廣泛應用的分析方法。主成分分析以最少的信息丟失為前提,將眾多的原有變量綜合成較少幾個綜合指標,通常綜合指標(主成分)有以下幾個特點:主成分個數(shù)遠遠少于原有變量的個數(shù)原有變量綜合成少數(shù)幾個因子之后,因子將可以替代原有變量參與數(shù)據(jù)建模,這將大大減少分析過程中的計算工作量。主成分能夠反映原有變量的絕大部分信息因子并不是原有變量的簡單取舍,而是原有變量重組后的結果,因此不會造成原有變量信息的大量丟失,并能夠代表原有變量的絕大部分信息。主成分之間應該互不相關通過主成分分析得出的新的綜合指標(主成分)之間互不相關,因子參與數(shù)據(jù)建模能夠有效地解決變量信息重疊、多重共線性等給分析應用帶來的諸多問題。主成分具有命名解釋性總之,主成分分析法是研究如何以最少的信息丟失將眾多原有變量濃縮成少數(shù)幾個因子,如何使因子具有一定的命名解釋性的多元統(tǒng)計分析方法。二、基本原理主成分分析是數(shù)學上對數(shù)據(jù)降維的一種方法。其基本思想是設法將原來眾多的具有一定相關性的指標*1,*2,…,*P(比如p個指標),重新組合成一組較少個數(shù)的互不相關的綜合指標Fm來代替原來指標。則綜合指標應該如何去提取,使其既能最大程度的反映原變量*p所代表的信息,又能保證新指標之間保持相互無關(信息不重疊)。設F1表示原變量的第一個線性組合所形成的主成分指標,即,由數(shù)學知識可知,每一個主成分所提取的信息量可用其方差來度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的線性組合中選取的F1應該是*1,*2,…,*P的所有線性組合中方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個指標的信息,再考慮選取第二個主成分指標F2,為有效地反映原信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,即F2與F1要保持獨立、不相關,用數(shù)學語言表達就是其協(xié)方差Cov(F1,F2)=0,所以F2是與F1不相關的*1,*2,…,*P的所有線性組合中方差最大的,故稱F2為第二主成分,依此類推構造出的F1、F2、……、Fm為原變量指標*1、*2……*P第一、第二、……、第m個主成分。根據(jù)以上分析得知:(1)Fi與Fj互不相關,即Cov(Fi,F(xiàn)j)=0,并有Var(Fi)=ai’Σai,其中Σ為*的協(xié)方差陣(2)F1是*1,*2,…,*p的一切線性組合(系數(shù)滿足上述要求)中方差最大的,……,即Fm是與F1,F(xiàn)2,……,F(xiàn)m-1都不相關的*1,*2,…,*P的所有線性組合中方差最大者。F1,F(xiàn)2,…,F(xiàn)m(m≤p)為構造的新變量指標,即原變量指標的第一、第二、……、第m個主成分。由以上分析可見,主成分分析法的主要任務有兩點:(1)確定各主成分Fi(i=1,2,…,m)關于原變量*j(j=1,2,…,p)的表達式,即系數(shù)(i=1,2,…,m;j=1,2,…,p)。從數(shù)學上可以證明,原變量協(xié)方差矩陣的特征根是主成分的方差,所以前m個較大特征根就代表前m個較大的主成分方差值;原變量協(xié)方差矩陣前m個較大的特征值(這樣選取才能保證主成分的方差依次最大)所對應的特征向量就是相應主成分Fi表達式的系數(shù),為了加以限制,系數(shù)啟用的是對應的單位化的特征向量,即有=1。(2)計算主成分載荷,主成分載荷是反映主成分Fi與原變量*j之間的相互關聯(lián)程度:三、主成分分析法的計算步驟主成分分析的具體步驟如下:(1)計算協(xié)方差矩陣計算樣品數(shù)據(jù)的協(xié)方差矩陣:Σ=(sij)pp,其中i,j=1,2,…,p(2)求出Σ的特征值及相應的正交化單位特征向量Σ的前m個較大的特征值12…m>0,就是前m個主成分對應的方差,對應的單位特征向量就是主成分Fi的關于原變量的系數(shù),則原變量的第i個主成分Fi為:Fi=*主成分的方差(信息)貢獻率用來反映信息量的大小,為:(3)選擇主成分最終要選擇幾個主成分,即F1,F2,……,Fm中m的確定是通過方差(信息)累計貢獻率G(m)來確定當累積貢獻率大于85%時,就認為能足夠反映原來變量的信息了,對應的m就是抽取的前m個主成分。(4)計算主成分載荷主成分載荷是反映主成分Fi與原變量*j之間的相互關聯(lián)程度,原來變量*j(j=1,2,…,p)在諸主成分Fi(i=1,2,…,m)上的荷載lij(i=1,2,…,m;j=1,2,…,p)。:在SPSS軟件中主成分分析后的分析結果中,"成分矩陣”反應的就是主成分載荷矩陣。(5)計算主成分得分計算樣品在m個主成分上的得分:i=1,2,…,m實際應用時,指標的量綱往往不同,所以在主成分計算之前應先消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標準化,即做如下數(shù)據(jù)變換:其中:,根據(jù)數(shù)學公式知道,①任何隨機變量對其作標準化變換后,其協(xié)方差與其相關系數(shù)是一回事,即標準化后的變量協(xié)方差矩陣就是其相關系數(shù)矩陣。②另一方面,根據(jù)協(xié)方差的公式可以推得標準化后的協(xié)方差就是原變量的相關系數(shù),亦即,標準化后的變量的協(xié)方差矩陣就是原變量的相關系數(shù)矩陣。也就是說,在標準化前后變量的相關系數(shù)矩陣不變化。根據(jù)以上論述,為消除量綱的影響,將變量標準化后再計算其協(xié)方差矩陣,就是直接計算原變量的相關系數(shù)矩陣,所以主成分分析的實際常用計算步驟是:☆計算相關系數(shù)矩陣☆求出相關系數(shù)矩陣的特征值及相應的正交化單位特征向量☆選擇主成分☆計算主成分得分總結:原指標相關系數(shù)矩陣相應的特征值i為主成分方差的貢獻,方差的貢獻率為,越大,說明相應的主成分反映綜合信息的能力越強,可根據(jù)i的大小來提取主成分。每一個主成分的組合系數(shù)(原變量在該主成分上的載荷)就是相應特征值i所對應的單位特征向量。主成分分析法的計算步驟1、原始指標數(shù)據(jù)的標準化采集p維隨機向量*=(*1,*2,...,*p)T)n個樣品*i=(*i1,*i2,...,*ip)T,i=1,2,…,n,n>p,構造樣本陣,對樣本陣元進行如下標準化變換:其中,得標準化陣Z。2、對標準化陣Z求相關系數(shù)矩陣其中,。3、解樣本相關矩陣R的特征方程得p個特征根,確定主成分按確定m值,使信息的利用率達85%以上,對每個λj,j=1,2,...,m,解方程組Rb=λ得單位特征向量。4、將標準化后的指標變量轉換為主成分U1稱為第一主成分,U2稱為第二主成分,…,Up稱為第p主成分。5、對m個主成分進行綜合評價對m個主成分進行加權求和,即得最終評價值,權數(shù)為每個主成分的方差貢獻率。一、主成分分析基本原理概念:主成分分析是把原來多個變量劃為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法。從數(shù)學角度來看,這是一種降維處理技術。思路:一個研究對象,往往是多要素的復雜系統(tǒng)。變量太多無疑會增加分析問題的難度和復雜性,利用原變量之間的相關關系,用較少的新變量代替原來較多的變量,并使這些少數(shù)變量盡可能多的保留原來較多的變量所反應的信息,這樣問題就簡單化了。原理:假定有n個樣本,每個樣本共有p個變量,構成一個n×p階的數(shù)據(jù)矩陣,記原變量指標為*1,*2,…,*p,設它們降維處理后的綜合指標,即新變量為z1,z2,z3,…,zm(m≤p),則系數(shù)lij的確定原則:①zi與zj(i≠j;i,j=1,2,…,m)相互無關;②z1是*1,*2,…,*P的一切線性組合中方差最大者,z2是與z1不相關的*1,*2,…,*P的所有線性組合中方差最大者;zm是與z1,z2,……,zm-1都不相關的*1,*2,…*P,的所有線性組合中方差最大者。新變量指標z1,z2,…,zm分別稱為原變量指標*1,*2,…,*P的第1,第2,…,第m主成分。從以上的分析可以看出,主成分分析的實質就是確定原來變量*j(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的荷載lij(i=1,2,…,m;j=1,2,…,p)。從數(shù)學上可以證明,它們分別是相關矩陣m個較大的特征值所對應的特征向量。二、主成分分析的計算步驟1、計算相關系數(shù)矩陣rij(i,j=1,2,…,p)為原變量*i與*j的相關系數(shù),rij=rji,其計算公式為2、計算特征值與特征向量解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小順序排列;分別求出對應于特征值的特征向量,要求=1,即其中表示向量的第j個分量。3、計算主成分貢獻率及累計貢獻率貢獻率:累計貢獻率:一般取累計貢獻率達85%-95%的特征值,所對應的第1、第2、…、第m(m≤p)個主成分。4、計算主成分載荷5、各主成分得分三、主成分分析法在SPSS中的操作1、指標數(shù)據(jù)選取、收集與錄入(表1)2、Analyze→DataReduction→FactorAnalysis,彈出FactorAnalysis對話框:3、把指標數(shù)據(jù)選入Variables框,Descriptives:CorrelationMatri*框組中選中Coefficients,然后點擊Continue,返回FactorAnalysis對話框,單擊OK。注意:SPSS在調用FactorAnalyze過程進行分析時,SPSS會自動對原始數(shù)據(jù)進行標準化處理,所以在得到計算結果后的變量都是指經(jīng)過標準化處理后的變量,但SPSS并不直接給出標準化后的數(shù)據(jù),如需要得到標準化數(shù)據(jù),則需調用Descriptives過程進行計算。從表3可知GDP與工業(yè)增加值,第三產(chǎn)業(yè)增加值、固定資產(chǎn)投資、基本建設投資、社會消費品零售總額、地方財政收入這幾個指標存在著極其顯著的關系,與海關出口總額存在著顯著關系??梢娫S多變量之間直接的相關性比較強,證明他們存在信息上的重疊。主成分個數(shù)提取原則為主成分對應的特征值大于1的前m個主成分。特征值在*種程度上可以被看成是表示主成分影響力度大小的指標,如果特征值小于1,說明該主成分的解釋力度還不如直接引入一個原變量的平均解釋力度大,因此一般可以用特征值大于1作為納入標準。通過表4(方差分解主成分提取分析)可知,提取2個主成分,即m=2,從表5(初始因子載荷矩陣)可知GDP、工業(yè)增加值、第三產(chǎn)業(yè)增加值、固定資產(chǎn)投資、基本建設投資、社會消費品零售總額、海關出口總額、地方財政收入在第一主成分上有較高載荷,說明第一主成分基本反映了這些指標的信息;人均GDP和農業(yè)增加值指標在第二主成分上有較高載荷,說明第二主成分基本反映了人均GDP和農業(yè)增加值兩個指標的信息。所以提取兩個主成分是可以基本反映全部指標的信息,所以決定用兩個新變量來代替原來的十個變量。但這兩個新變量的表達還不能從輸出窗口中直接得到,因為"ponentMatri*”是指初始因子載荷矩陣,每一個載荷量表示主成分與對應變量的相關系數(shù)。用表5(主成分載荷矩陣)中的數(shù)據(jù)除以主成分相對應的特征值開平方根便得到兩個主成分中每個指標所對應的系數(shù)。將初始因子載荷矩陣中的兩列數(shù)據(jù)輸入(可用復制粘貼的方法)到數(shù)據(jù)編輯窗口(為變量B1、B2),然后利用"Transform→puteVariable”,在puteVariable對話框中輸入"A1=B1/SQR(7.22)”[注:第二主成分SQR后的括號中填1.235,即可得到特征向量A1(見表6)。同理,可得到特征向量A2。將得到的特征向量與標準化后的數(shù)據(jù)相乘,然后就可以得出主成分表達式[注:因本例只是為了說明如何在SPSS進行主成分分析,故在此不對提取的主成分進行命名,有興趣的讀者可自行命名。標準化:通過Analyze→DescriptiveStatistics→Descriptives對話框來實現(xiàn):彈出Descriptives對話框后,把*1~*10選入Variables框,在Savestandardizedvaluesasvariables前的方框打上鉤,點擊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論