《應(yīng)用統(tǒng)計(jì)分析》課件-第11章 主成分分析_第1頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第11章 主成分分析_第2頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第11章 主成分分析_第3頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第11章 主成分分析_第4頁
《應(yīng)用統(tǒng)計(jì)分析》課件-第11章 主成分分析_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第11章主成分分析11.1概述11.2主成分分析模型11.3主成分分析的一般步驟11.4主成分分析的應(yīng)用11.5SPSS操作實(shí)例12引入案例——男子十項(xiàng)全能男子十項(xiàng)全能在1912年第5屆瑞典斯德哥爾摩奧運(yùn)會(huì)被列為正式比賽項(xiàng)目,是田徑運(yùn)動(dòng)中全能運(yùn)動(dòng)項(xiàng)目的一種。男子十項(xiàng)全能比賽是由100米跑、跳遠(yuǎn)、鉛球、跳高、400米跑、110米跨欄、鐵餅、撐竿跳高、標(biāo)槍、1500米跑10個(gè)項(xiàng)目組成的綜合性男子比賽項(xiàng)目。十項(xiàng)全能選手的得分基于他們?cè)诿恳豁?xiàng)比賽中的表現(xiàn),最后總成績(jī)最高的人獲勝。因此運(yùn)動(dòng)員只有每項(xiàng)比賽都有上佳表現(xiàn)而不是偏重一項(xiàng)才能最終獲得冠軍。為了分析十項(xiàng)全能主要考察哪些方面的能力,以便有針對(duì)性地進(jìn)行訓(xùn)練,研究者收集了134個(gè)頂級(jí)運(yùn)動(dòng)員的十項(xiàng)全能成績(jī)單,部分?jǐn)?shù)據(jù)見圖11-1。3引入案例——男子十項(xiàng)全能4引入案例——男子十項(xiàng)全能在此過程中,研究者利用數(shù)個(gè)指標(biāo)便代替了十余個(gè)指標(biāo),極大簡(jiǎn)化了問題,而代價(jià)僅為丟失了小部分可接受的準(zhǔn)確度,這就是本章將要介紹的主成分分析方法,即在保證數(shù)據(jù)丟失最少的情況下將互相關(guān)聯(lián)的多變量的數(shù)據(jù)進(jìn)行綜合簡(jiǎn)化處理,也可以理解為對(duì)高維空間進(jìn)行了降維處理。進(jìn)一步介紹及討論對(duì)基于相關(guān)系數(shù)矩陣或協(xié)方差矩陣做主成分分析、保留主成分的個(gè)數(shù)是多少以及主成分中蘊(yùn)含的經(jīng)濟(jì)學(xué)意義等問題。本例的問題將在11.5節(jié)SPSS操作實(shí)例中得到解決。第1節(jié)概述11.1.1基本思想11.1.2數(shù)據(jù)適用范圍56本案例中要對(duì)此復(fù)雜的問題進(jìn)行分析需要研究的要素多達(dá)十余個(gè),分析起來十分困難。但通過觀察可以發(fā)現(xiàn)這些要素之間有相互關(guān)聯(lián)的成分,比如,對(duì)于100米跑與400米跑應(yīng)該保持正相關(guān)關(guān)系,而鐵餅和鉛球成績(jī)也具有密切關(guān)系。那么,考慮實(shí)際問題時(shí)是否可以像引入案例一樣,在盡可能保全原信息的基礎(chǔ)上分析其中某幾個(gè)具有代表性的要素代替分析所有要素呢?此時(shí)需要使用主成分分析的方法。定義11.1主成分分析(principalcomponentsanalysis):是通過線性組合把各變量之間相互關(guān)聯(lián)的復(fù)雜關(guān)系簡(jiǎn)化為少數(shù)幾個(gè)主成分的一種方法,也稱為主軸分析、主變量分析。11.1.1基本思想7主成分分析是一種古老的多元統(tǒng)計(jì)方法,它的起源最早可以追溯到1846年布雷卡斯提出的旋轉(zhuǎn)多元正態(tài)橢圓球到“坐標(biāo)軸”上而使得新變量之間可以相互獨(dú)立。1901年皮爾遜利用高維數(shù)學(xué)的矩陣工具發(fā)明了主成分分析方法,用于分析數(shù)據(jù)及建立數(shù)理模型。到1933年,霍特林對(duì)主成分分析方法進(jìn)行演進(jìn)并命名,他所推導(dǎo)出的數(shù)學(xué)模型標(biāo)志著主成分分析方法的成熟。主成分分析方法發(fā)展至今已經(jīng)被廣泛應(yīng)用于對(duì)經(jīng)濟(jì)學(xué)、科學(xué)、醫(yī)學(xué)、生物學(xué)進(jìn)行分析以及圖像處理、模式識(shí)別等多方面。11.1.1基本思想8主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡(jiǎn)化分析的方法。在社會(huì)經(jīng)濟(jì)的研究中,為了全面系統(tǒng)地分析和研究問題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對(duì)象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。在用統(tǒng)計(jì)方法研究多變量問題時(shí),變量太多會(huì)增加計(jì)算量和增加分析問題的復(fù)雜性。人們希望在進(jìn)行定量分析的過程中涉及的變量較少、得到的信息量較多。主成分分析正是適應(yīng)這一要求產(chǎn)生的解決這類問題的理想工具。11.1.1基本思想9主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化,也就是說,對(duì)高維變量空間進(jìn)行降維處理。很顯然,辨識(shí)系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。在力求數(shù)據(jù)信息丟失最少的原則下,對(duì)高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。11.1.1基本思想10因此,主成分分析所要討論的問題是:①基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析;②選擇幾個(gè)主成分;③如何解釋主成分所包含的經(jīng)濟(jì)意義。當(dāng)主成分分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大時(shí),應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析?;谙嚓P(guān)系數(shù)矩陣和基于協(xié)方差矩陣的主成分分析的具體步驟見11.2.3節(jié)。主成分分析的目的是簡(jiǎn)化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。主成分的經(jīng)濟(jì)意義由各線性組合中權(quán)重較大的幾個(gè)指標(biāo)來確定。11.1.2數(shù)據(jù)適用范圍11主成分分析更多的是一種達(dá)到目的的方法,而非目的本身。這是因?yàn)橹鞒煞址治鲱l繁地用作許多大型調(diào)研的中間步驟,也是第12章因子分析模型中協(xié)方差矩陣的其中一個(gè)“分解因子”方法。主成分分析方法是利用線性組合提取多變量信息的方式解決變量復(fù)雜、變量間相互影響的問題,研究定量數(shù)據(jù)型的自變量對(duì)定量數(shù)據(jù)型的因變量的影響。主成分分析主要通過尋找數(shù)據(jù)矩陣的特征值和特征向量,然后通過坐標(biāo)旋轉(zhuǎn)得到主成分。如果輸入數(shù)據(jù)不滿足正態(tài)分布,特征值和特征向量就不能代表數(shù)據(jù)的特征,這樣主成分分析也就失去了它的意義。因此,主成分分析適用的數(shù)據(jù)分布類型應(yīng)大致符合正態(tài)分布。第2節(jié)主成分分析模型11.2.1基本模型11.2.2幾何特點(diǎn)11.2.3線性代數(shù)基礎(chǔ)11.2.4主成分分析的要素推導(dǎo)11.2.5主成分的性質(zhì)1211.2.1基本模型13首先建立主成分分析的數(shù)學(xué)模型:如果我們分析的實(shí)際問題中含有p

個(gè)指標(biāo),可將其看作p個(gè)隨機(jī)變量,記作X1,X2,…,Xp,主成分分析就是要將這p個(gè)指標(biāo)的相關(guān)問題轉(zhuǎn)化為對(duì)p個(gè)指標(biāo)線性組合來表示整體,也就是降維形成新的指標(biāo),它要盡可能多地反映原來指標(biāo)的問題,而且新指標(biāo)間要相互獨(dú)立。即根據(jù)上述內(nèi)容,要使參數(shù)滿足以下條件:每個(gè)主成分的系數(shù)平方和為1,即11.2.1基本模型14主成分間互相獨(dú)立,即

互相獨(dú)立即表明主成分之間無重疊的信息,避免重復(fù)分析。主成分的方差依次遞減,即主成分方差即代表它對(duì)問題影響的重要程度,依次遞減可以讓我們首先抓住主要矛盾,分析影響最大的問題。11.2.2幾何特點(diǎn)15下面再從幾何層面討論主成分分析的意義。為便于描述,在二維空間中對(duì)問題進(jìn)行討論。若有

n

個(gè)樣品,每個(gè)樣品下有p

個(gè)觀測(cè)變量,此處p=2,則由變量X1和X2所確定的二維空間中,n個(gè)樣本的散點(diǎn)分布圖大致呈一個(gè)橢圓形,如圖11-1所示。11.2.2幾何特點(diǎn)16由圖11-1可以看出,樣本點(diǎn)無論沿X1軸還是X2軸,都表現(xiàn)出較大的離散性,而我們可以用方差來量化離散的程度。如果只分析X1軸或只分析X2軸都會(huì)丟失較多的原始信息,但如果二者在此坐標(biāo)軸下同時(shí)分析又比較復(fù)雜,所以此處我們選擇旋轉(zhuǎn)坐標(biāo)軸如圖11-1所示,即對(duì)坐標(biāo)軸逆時(shí)針旋轉(zhuǎn)得到由F1軸與F2軸構(gòu)成的坐標(biāo)系。此時(shí)坐標(biāo)軸關(guān)系如下:11.2.2幾何特點(diǎn)17旋轉(zhuǎn)坐標(biāo)軸相當(dāng)于使兩變量之間互相獨(dú)立?,F(xiàn)在繼續(xù)觀察圖形,可以看出沿F1軸散點(diǎn)波動(dòng)較大而沿F2軸波動(dòng)較小,由上述分析可知,波動(dòng)程度代表其對(duì)結(jié)果的影響程度,F(xiàn)2的波動(dòng)程度小于F1,所以F1對(duì)結(jié)果影響更重要。而如果如圖11-2所示,橢圓幾乎呈扁平狀,就可以只考慮F1軸上的波動(dòng)而忽略F2軸上的影響,如圖11-3所示,這樣就實(shí)現(xiàn)了降維。11.2.3線性代數(shù)基礎(chǔ)18主成分分析通常涉及多個(gè)變量,而對(duì)多個(gè)變量進(jìn)行分析運(yùn)算的一大有力工具就是線性代數(shù),利用線性代數(shù)可以更容易地推導(dǎo)主成分及分析相關(guān)問題。實(shí)對(duì)稱矩陣的對(duì)角化。若A是一個(gè)p階實(shí)對(duì)稱矩陣,則一定存在一正交矩陣U,使得

,將其展開即如下形式:式中,λi(i=l,2,…,p)是矩陣A的特征根。11.2.3線性代數(shù)基礎(chǔ)19實(shí)對(duì)稱矩陣A屬于不同特征值的特征向量必正交。若上述矩陣A的特征根所對(duì)應(yīng)的單位特征向量為U1,U2,…,Up,矩陣形式表示為:則有U’U=UU’=I,即實(shí)對(duì)稱矩陣A屬于不同特征值的特征向量必然正交。矩陣的跡。一個(gè)n×n的矩陣A的主對(duì)角線上各個(gè)元素的總和被稱為矩陣A的跡,N階實(shí)對(duì)稱矩陣A的跡就等于特征值的總和。11.2.4主成分分析的要素推導(dǎo)20主成分分析時(shí)首先需要進(jìn)行坐標(biāo)軸的旋轉(zhuǎn),即從X=(X1,X2,…,Xp)變化到F=(F1,F2,…,Fp)。其中各主成分的含有信息雖依次遞減,表現(xiàn)為:首先提取第一主成分F1,若F1含有的信息量太少則繼續(xù)提取第二主成分F2,此時(shí)的信息量就包括F1與F2兩個(gè)維度的信息量,若還認(rèn)為信息量丟棄過多則繼續(xù)提取主成分F3……以此類推,直到能接受提取信息量,得到

。下面通過嚴(yán)格的數(shù)學(xué)推導(dǎo)證明來解釋各主成分的提取是如何實(shí)現(xiàn)的。11.2.4主成分分析的要素推導(dǎo)21我們把問題中需要分析的p個(gè)指標(biāo)寫為p維隨機(jī)向量X=(X1,X2,…,Xp)’,均值和協(xié)方差矩陣分別為u=E(X),∑=D(X),再進(jìn)行如下線性變化:式中,如果我們能求出各個(gè)Ui的值使得F1,F2,…,Fp不相關(guān),且方差

,就得到新的組合結(jié)果(F1,F2,…,Fp),也就是得到各個(gè)主成分。11.2.4主成分分析的要素推導(dǎo)22主成分的方差與協(xié)方差可由如下的公式表示。(1)方差計(jì)算:(2)協(xié)方差計(jì)算:因此第一主成分是使達(dá)到最大的

。為解決問題我們構(gòu)造目標(biāo)函數(shù):11.2.4主成分分析的要素推導(dǎo)23其中,λ是引入輔助計(jì)算的參數(shù)。接下來求解目標(biāo)函數(shù)導(dǎo)函數(shù)零點(diǎn):化解得等式兩邊左乘

后得由11.2.3小節(jié)的線性代數(shù)知識(shí)可知,

λ

就是∑的特征根,而U1是特征根λ對(duì)應(yīng)的特征向量。又由于需要滿足D(F1)最大,此處λ

應(yīng)取∑最大的特征根??梢姡ㄟ^F1=u11X1+u21X2+…+up1Xp的線性變化,便得到第一主成分F1,其中U1是∑最大的特征根對(duì)應(yīng)的特征向量。11.2.4主成分分析的要素推導(dǎo)24第二主成分是求取在F1、F2互不相關(guān)即cov(F1,F2)=0條件下使得

達(dá)到最大的

。仍然通過構(gòu)造輔助函數(shù):求偏導(dǎo)并令其為0,則有等式兩邊左乘后得根據(jù)條件F1、F2互不相關(guān)即cov(F1,F2)=0可得如下推導(dǎo):11.2.4主成分分析的要素推導(dǎo)25又因?yàn)棣瞬粸?,所以

。將代入上式可得ρ=0,因此上式變化為:等式兩邊左乘后得到此我們就得到了與第一主成分類似的結(jié)論:通過

的線性變化得到第二主成分F2,其中U2是∑第二大的特征根對(duì)應(yīng)的特征向量。不難想到,推導(dǎo)第k主成分Fk就是在滿足Fk、Fi(i=1,2,…,k-1)互不相關(guān)即cov(Fk,Fi)=0的條件下使得達(dá)到最大的

。11.2.4主成分分析的要素推導(dǎo)26在此不加證明地給出結(jié)論:第k主成分其中Uk是∑第k大的特征根對(duì)應(yīng)的特征向量。綜上,我們對(duì)第一、第二主成分的推導(dǎo)給出了嚴(yán)格的證明,也將其推廣至第k主成分。對(duì)于協(xié)方差矩陣為∑=D(X)的隨機(jī)向量X=(X1,X2,…,Xp)’利用線性變化:可得到各主成分

,其中是∑各特征根對(duì)應(yīng)的特征向量。11.2.5主成分的性質(zhì)2711.2.5.1均值主成分的均值可以由簡(jiǎn)單的推導(dǎo)得到:11.2.5.2特征根之和成分的特征根之和是它的方差。我們通過上一部分對(duì)于主成分的推導(dǎo),得到每一級(jí)主成分的最大方差值為其對(duì)應(yīng)的特征根,即所以特征根之和就是各主成分方差之和。從中也可以看出,主成分分析其實(shí)也就是把n個(gè)隨機(jī)向量的總方差分解成為p個(gè)互不相干的隨機(jī)變量的方差之和,同時(shí)也蘊(yùn)含了主成分分析對(duì)原有信息進(jìn)行保留的機(jī)理。11.2.5主成分的性質(zhì)28此外,特征根之和還遵循總方差不變?cè)恚簩?duì)P維變量進(jìn)行主成分分析,得到P維主成分,則總方差保持不變,即11.2.5.3載荷矩陣與因子載荷量在主成分分析中進(jìn)行了線性變化將原始變量X

變化為主成分F,即F

=U’X,展開形式如下:11.2.5主成分的性質(zhì)29根據(jù)正交矩陣的性質(zhì)UU’=I可得X=UU’X=UF,由此可得原始變量的表達(dá)式為X=UF,其矩陣形式表示為:其中的U被稱作載荷矩陣,它反映了原始變量與主成分之間的變換關(guān)系。

主成分Fj與原始變量Xi之間的相關(guān)系數(shù)我們把它稱為因子載荷量或因子負(fù)荷量。其公式推導(dǎo)過程如下:11.2.5主成分的性質(zhì)30由而又有X=UF,矩陣形式故從公式中也可以看出,相關(guān)系數(shù)大小ρ(Xi,Fj)即主成分Fj與原始變量Xi間的密切程度,它取決于對(duì)應(yīng)線性組合系數(shù)的大小。11.2.5主成分的性質(zhì)3111.2.5.4精度分析與主成分個(gè)數(shù)提取主成分分析的目的是在最大限度地保留原信息的條件下進(jìn)行降維(減少變量),所以對(duì)于對(duì)結(jié)果影響很小的變量,如果忽略它們,最終對(duì)結(jié)果的影響也不會(huì)特別大。又因?yàn)檫@種影響程度的大小是由方差衡量的,所以此處引入貢獻(xiàn)率。定義11.2貢獻(xiàn)率:第i個(gè)主成分的方差在全部方差總和中所占的比重稱為貢獻(xiàn)率,其公式表示為:例如引例中,若第二個(gè)主成分的方差是1.776,又因?yàn)榭偡讲钍?0,所以第二主成分的貢獻(xiàn)率為17.76%。11.2.5主成分的性質(zhì)32只分析一個(gè)主成分的貢獻(xiàn)率在實(shí)際中應(yīng)用十分狹隘,所以引入累計(jì)貢獻(xiàn)率。定義11.3累計(jì)貢獻(xiàn)率:前k個(gè)主成分的方差之和在全部方差中所占的比重稱為累計(jì)貢獻(xiàn)率,其公式表示為累計(jì)貢獻(xiàn)率也表示了前k個(gè)主成分對(duì)原始變量X的綜合能力大小。11.2.5主成分的性質(zhì)33進(jìn)行主成分分析的目的是盡可能地進(jìn)行簡(jiǎn)化,因此提取的主成分個(gè)數(shù)一般小于原始變量個(gè)數(shù),但究竟保留多少個(gè)主成分或者累計(jì)貢獻(xiàn)率達(dá)到多少時(shí)才能保留大部分的原有信息呢?其實(shí)在實(shí)際問題中當(dāng)累計(jì)貢獻(xiàn)率≥85%即提取了原有信息的85%以上時(shí),就足夠?qū)υ行畔⑦M(jìn)行很好的反映了。又由于約定條件中各主成分方差是依次遞減的,即貢獻(xiàn)率是依次遞減的,大部分的信息其實(shí)是集中在前幾個(gè)主成分中。有的問題中還存在特例:如果提取出i個(gè)主成分已經(jīng)滿足累計(jì)貢獻(xiàn)率大于等于85%,但其中存在Xi未被提取過信息,那么應(yīng)該繼續(xù)提取主成分。11.2.5主成分的性質(zhì)34【例11.1】X1、X2、X3的協(xié)方差矩陣為,求其主成分。解:由協(xié)方差矩陣解得特征根式盡管第一個(gè)主成分的貢獻(xiàn)率為,已經(jīng)提取了原始變量的大部分信息,可能有人認(rèn)為已經(jīng)足夠而只提取第一主成分。但是,在這個(gè)題目中第一主成分并不包含第三個(gè)原始變量X3的信息,所以應(yīng)該提取兩個(gè)主成分。通過相關(guān)系數(shù)的計(jì)算能理解得更加清晰。11.2.5主成分的性質(zhì)35可以看岀,ρ13為0表示提取出的U1第一主成分是與第三個(gè)原始變量X3不相關(guān)的,因此提取第一主成分是不夠的,最終提取兩個(gè)主成分,累計(jì)貢獻(xiàn)率為:即提取了原始變量的98.36%的信息。例11.1再次印證了在實(shí)際問題中我們不能只根據(jù)貢獻(xiàn)率來判斷提取主成分個(gè)數(shù),還應(yīng)該關(guān)注主成分對(duì)每一個(gè)原始變量的提取率。11.2.5主成分的性質(zhì)3611.2.5.5提取率主成分的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率表示了主成分對(duì)原始變量提取的信息的多少。而每一個(gè)原始變量Xi,分別被F1,F2,…,Fp提取了多少信息呢?或者說,F(xiàn)1,F2,…,Fp分別占有原始變量X,多少比重的信息呢?下面引入提取率的概念來描述此問題:根據(jù)經(jīng)驗(yàn)我們還是可以利用方差來表示主成分對(duì)原始信息的影響程度,即信息的多少。

由,可以得到:其中每一個(gè)是Fm(m≤p)在Xi的總方差中所能說明的部分,所以就可以表示第m個(gè)主成分提取出Xi原始信息的比重。11.2.5主成分的性質(zhì)37對(duì)這個(gè)比重開方就是主成分與原始變量的相關(guān)系數(shù)。若共提取出m個(gè)主成分,則第i個(gè)原始變量的提取率為:實(shí)際應(yīng)用中主成分Fm提取的原始信息可能來自幾個(gè)原始變量而不是全部,也有可能全部來自某一原始變量。定義11.4特殊成分:如果一個(gè)主成分僅僅對(duì)某一原始變量有作用,則稱它為特殊成分。定義11.5公共成分:如果一個(gè)主成分對(duì)所有原始變量都起作用,則稱它為公共成分。第3節(jié)

主成分分析的一般步驟3811.3.1協(xié)方差矩陣與相關(guān)系數(shù)矩陣11.3.2主成分分析的一般步驟11.3.1協(xié)方差矩陣與相關(guān)系數(shù)矩陣39由原始變量的協(xié)方差矩陣計(jì)算得到的主成分稱為基于協(xié)方差矩陣的主成分,而由標(biāo)準(zhǔn)化后的變量對(duì)應(yīng)的協(xié)方差矩陣計(jì)算得到的主成分稱為基于相關(guān)系數(shù)矩陣的主成分。以下對(duì)這兩種情況加以區(qū)分。利用協(xié)方差矩陣計(jì)算主成分時(shí),需要先計(jì)算原變量X的協(xié)方差矩陣,對(duì)于樣本,其協(xié)方差矩陣可由如下公式得出:11.3.1協(xié)方差矩陣與相關(guān)系數(shù)矩陣40上述利用協(xié)方差矩陣進(jìn)行主成分分析時(shí),若只有單個(gè)指標(biāo)對(duì)結(jié)果起影響作用,則協(xié)方差矩陣能很好地表示結(jié)果。但若涉及多個(gè)指標(biāo),且指標(biāo)間數(shù)據(jù)量級(jí)差異很大,指標(biāo)的方差將不具備可比性。例如,在引例中研究男子十項(xiàng)全能比賽的各項(xiàng)數(shù)據(jù)時(shí),如果在分析標(biāo)槍和跳遠(yuǎn)兩項(xiàng)數(shù)據(jù)時(shí),因?yàn)闃?biāo)槍成績(jī)的數(shù)據(jù)比跳遠(yuǎn)成績(jī)的數(shù)據(jù)大很多,所以主要方差差異集中于標(biāo)槍數(shù)據(jù),即使跳遠(yuǎn)數(shù)據(jù)因素影響可能很大,但因?yàn)槠浞讲钐?huì)影響主成分提取,最終可能忽略該因素的影響,從而得出不準(zhǔn)確的分析結(jié)果。這時(shí)我們就需要對(duì)原始變量進(jìn)行標(biāo)準(zhǔn)化處理。11.3.1協(xié)方差矩陣與相關(guān)系數(shù)矩陣41對(duì)標(biāo)準(zhǔn)化后的原始變量進(jìn)行協(xié)方差計(jì)算,進(jìn)而可進(jìn)行主成分的計(jì)算。實(shí)際上,標(biāo)準(zhǔn)化后的對(duì)應(yīng)的協(xié)方差矩陣就是原變量X的相關(guān)系數(shù)矩陣,因此,在這種情況下,我們稱計(jì)算得到的主成分為基于相關(guān)系數(shù)矩陣的主成分。在實(shí)際問題中,利用協(xié)方差矩陣與利用相關(guān)系數(shù)矩陣求得的主成分一般是不一樣的,甚至有很大差異。當(dāng)僅有單個(gè)變量對(duì)結(jié)果起影響作用時(shí),協(xié)方差矩陣能很好地表示結(jié)果,適宜通過協(xié)方差矩陣計(jì)算主成分;當(dāng)存在多個(gè)變量且變量間的數(shù)量級(jí)相差很大,特別是變量用不同量綱表示時(shí),應(yīng)基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析以得出更加準(zhǔn)確的結(jié)果。11.3.2主成分分析的一般步驟42第一步:求特征根。根據(jù)X的協(xié)方差矩陣或相關(guān)系數(shù)矩陣,可以求出其特征根,即通過解方程

解出特征根,并使其滿足約定。第二步:求出對(duì)應(yīng)的特征向量。分別求出對(duì)應(yīng)的特征向量U1,U2,…,Up,形式為。第三步:計(jì)算累計(jì)貢獻(xiàn)率。由公式計(jì)算主成分的累計(jì)貢獻(xiàn)率,從而確定適合的主成分個(gè)數(shù)。11.3.2主成分分析的一般步驟43第四步:計(jì)算選出的k個(gè)主成分的得分。解決實(shí)際問題的最終結(jié)果需要得到得分?jǐn)?shù)據(jù),如引例中,如果要研究男子十項(xiàng)全能比賽的主要衡量能力后得出第i主成分為奔跑能力,就需要將男子的奔跑能力用數(shù)據(jù)量化,即算出第i主成分得分,具體結(jié)果可見11.5.1小節(jié)。簡(jiǎn)單地,可以把數(shù)據(jù)直接帶入第i主成分的表達(dá)式,但這樣不適用于主成分得分滿足均值為0的條件,計(jì)算復(fù)雜也容易導(dǎo)致溢出,所以引入主成分得分的概念。11.3.2主成分分析的一般步驟44定義11.6主成分得分(scoreofprincipalcomponent):多元樣本觀測(cè)值對(duì)均值離差的主成分稱為主成分得分。我們可以將定義轉(zhuǎn)化為相關(guān)公式進(jìn)行計(jì)算。先將原始數(shù)據(jù)中心化,利用樣本數(shù)據(jù)減去樣本均值:

,再將中心化后的數(shù)據(jù)代入主成分中運(yùn)算即可得到主成分得分。在分別代入計(jì)算選出的k個(gè)主成分得分后,按得分值大小順序依次排列。下面通過一個(gè)例子來介紹兩種矩陣下的主成分分析。11.3.2主成分分析的一般步驟45【例11.2】設(shè)存在一任意變量X=(X1,X2)’,且其協(xié)方差矩陣為嘗試分別利用協(xié)方差矩陣與相關(guān)系數(shù)矩陣對(duì)其進(jìn)行主成分分析,并對(duì)兩種方法下的計(jì)算結(jié)果進(jìn)行對(duì)比分析。解:(1)利用協(xié)方差矩陣由X的協(xié)方差矩陣可以求得其特征值和特征向量是;

。因此由協(xié)方差矩陣所決定的第一主成分是,第二主成分是。容易發(fā)現(xiàn),主成分F1幾乎全部由X1表示,而主成分F2又幾乎全部由X2表示,數(shù)據(jù)中的量級(jí)差異可能對(duì)主成分造成不良影響。11.3.2主成分分析的一般步驟46(2)利用相關(guān)系數(shù)矩陣首先對(duì)原始變量進(jìn)行標(biāo)準(zhǔn)化:,其中μ1、μ2分別是X1,X2的均值。故可求得X的相關(guān)系數(shù)矩陣為。其特征值和特征向量分別是因此得到的主成分是由該結(jié)果容易看出由相關(guān)系數(shù)矩陣求出的主成分消除了原始變量量級(jí)對(duì)結(jié)果的影響。因此,在不同情況下選用合適的矩陣顯得十分必要,合適的主成分分析將會(huì)使計(jì)算過程更簡(jiǎn)便,結(jié)果更加準(zhǔn)確。第4節(jié)

主成分分析的應(yīng)用11.4.1主成分回歸分析11.4.2主成分分析在經(jīng)濟(jì)指標(biāo)評(píng)價(jià)方面的應(yīng)用11.4.3主成分分析的其他應(yīng)用47主成分分析的應(yīng)用48主成分分析主要功能在于兩方面:一方面是以較少的信息丟失為代價(jià),換取變量個(gè)數(shù)的減少,據(jù)此能解決許多實(shí)際中的問題,在數(shù)學(xué)模型建立、經(jīng)濟(jì)指標(biāo)評(píng)價(jià)、人口統(tǒng)計(jì)學(xué)、數(shù)量地理學(xué)等領(lǐng)域都有廣泛的應(yīng)用。另一方面是消除原始變量之間的相關(guān)關(guān)系,但不降維。11.4.1主成分回歸分析49第8章介紹了回歸分析,主要是用它實(shí)現(xiàn)具有相關(guān)關(guān)系的變量中一部分變量預(yù)報(bào)另一些變量,以及對(duì)預(yù)報(bào)誤差、合理性的分析。但在某些情況下,因?yàn)閿?shù)據(jù)的一些原因?qū)е缕胀ɑ貧w分析并不能準(zhǔn)確地分析問題。例如,實(shí)際問題中自變量之間往往存在多重共線性,此時(shí)若對(duì)數(shù)據(jù)不加處理地進(jìn)行回歸分析,就會(huì)產(chǎn)生如前面介紹的許多問題:多個(gè)自變量之間若存在顯著的線性相關(guān)性,將使回歸結(jié)果混亂或是樣本回歸系數(shù)遠(yuǎn)離實(shí)際的總體參數(shù),導(dǎo)致違背常理的結(jié)果產(chǎn)生,此時(shí)普通回歸分析就失去原有的作用,就需要用主成分回歸分析來進(jìn)行優(yōu)化。11.4.1主成分回歸分析50對(duì)于回歸分析中的自變量多重共線性問題,主成分分析往往能較好地予以解決。主成分分析實(shí)現(xiàn)了變量之間的互相正交,各主成分間互相沒有關(guān)系,從而消除了變量間的多重共線性。此時(shí)如果將預(yù)報(bào)因子由變量改為變量的主成分,就能很好地解決多重共線性問題。因此,將主成分分析應(yīng)用到回歸分析之中,便構(gòu)成了主成分回歸分析。同時(shí),主成分回歸還具備其他的一些優(yōu)勢(shì):在逐步回歸的過程中,會(huì)略去一部分自變量,導(dǎo)致部分原始信息丟失,而進(jìn)行主成分分析時(shí)對(duì)所有變量都進(jìn)行了計(jì)算,避免了此問題。11.4.1主成分回歸分析51主成分回歸具體步驟如下:先對(duì)原始變量進(jìn)行主成分分析,并選取適當(dāng)個(gè)數(shù)的主成分,一般不降維,選擇全部主成分。計(jì)算主成分得分。將主成分得分作為新變量與因變量進(jìn)行線性回歸分析。利用線性變換將回歸方程中的自變量變?yōu)樵甲宰兞?。?duì)于第8章定量回歸分析中的例8.7,可以利用多重共線性判別條件分析得出它具有多重共線性,但僅依靠第8章的知識(shí)無法解決這樣的多重共線性問題。現(xiàn)在繼續(xù)對(duì)該例進(jìn)行分析,以演示主成分回歸分析的具體步驟。11.4.1主成分回歸分析52【例11.3】中國作為一個(gè)貿(mào)易出口大國,它生產(chǎn)的商品早已擺放在世界各地的貨架上售賣,同時(shí)它作為人口數(shù)量世界第一的大國,消費(fèi)需求穩(wěn)居世界前列,它也需要大量進(jìn)口別國生產(chǎn)的物品。國家之間互相貿(mào)易使每個(gè)國家都生產(chǎn)自己最擅長(zhǎng)的東西,并換取自己缺失的物品,實(shí)現(xiàn)雙贏。在我國一直秉持“互利共贏”的理念下,我國的進(jìn)出口貿(mào)易額近些年來大幅上升。改革開放幾十年來,在英明的指導(dǎo)方針下我國大踏步追趕世界經(jīng)濟(jì)發(fā)展速度,經(jīng)濟(jì)飛速發(fā)展,從過去的貧窮落后一躍發(fā)展為如今的世界第二大經(jīng)濟(jì)體,而經(jīng)濟(jì)增速更達(dá)到了令人羨慕的地步。不僅經(jīng)濟(jì)增速快,更難能可貴的是能保持常年增速處于較高水平,由此人民生活水平日益提高,國內(nèi)生產(chǎn)總值GDP不斷上漲。11.4.1主成分回歸分析53經(jīng)濟(jì)變量之間的關(guān)系往往高度密切,更大的進(jìn)出口帶來更快的經(jīng)濟(jì)流動(dòng),國內(nèi)生產(chǎn)總值的上升也吸引著更多的國家與我國開展貿(mào)易合作。我們猜想國內(nèi)生產(chǎn)總值與進(jìn)出口總額必然存在某種聯(lián)系。更進(jìn)一步地,關(guān)稅總額、對(duì)外合作完成合同總額等條件似乎也與GDP有著千絲萬縷的聯(lián)系,表11-2所示為2013-2019年我國國內(nèi)生產(chǎn)總值、進(jìn)出口總額、關(guān)稅總額以及對(duì)外承包工程完成營(yíng)業(yè)額等幾個(gè)指標(biāo)的相關(guān)數(shù)據(jù),試對(duì)其進(jìn)行回歸分析。11.4.1主成分回歸分析54解:由于自變量之間存在多重共線性,因此先進(jìn)行主成分分析。利用軟件輸出結(jié)果如表11-3、表11-4所示。由輸出結(jié)果可知:特征值分別為,分別的累計(jì)貢獻(xiàn)率為69.216%、89.135%與100%,也表示三個(gè)主成分中第一主成分提取了原始變量的69.216%的信息,第一與第二主成分共提取了89.135%的原始信息,三個(gè)主成分提取了全部的信息。11.4.1主成分回歸分析55而本次主成分分析共提取了一個(gè)主成分,將主成分得分系數(shù)矩陣乘以相應(yīng)的方差即可得岀主成分表達(dá)式,根據(jù)計(jì)算后得出若想提取更多主成分可通過條件設(shè)置來進(jìn)行改變。對(duì)提取出一個(gè)主成分繼續(xù)對(duì)其進(jìn)行回歸分析即可得出我們想要的答案。11.4.2主成分分析在經(jīng)濟(jì)指標(biāo)評(píng)價(jià)方面的應(yīng)用56主成分分析在經(jīng)濟(jì)學(xué)評(píng)價(jià)方面的應(yīng)用是十分廣泛的,首先,在衡量經(jīng)濟(jì)效益時(shí)所涉及的評(píng)價(jià)指標(biāo)眾多,例如,衡量一個(gè)公司運(yùn)營(yíng)狀況好壞,就有現(xiàn)金比率、流動(dòng)比率、速動(dòng)比率、資產(chǎn)負(fù)債率、所有者權(quán)益保障率等一系列指標(biāo),需要利用主成分分析來實(shí)現(xiàn)降維。之后,需要對(duì)得出的每一級(jí)主成分進(jìn)行量化,所以需要進(jìn)行主成分得分計(jì)算,但每一個(gè)主成分得分對(duì)最終經(jīng)濟(jì)效益的影響程度又是不完全相同的,不能“一概而論”,所以還需要進(jìn)行各級(jí)主成分得分的權(quán)數(shù)計(jì)算。在11.2.5小節(jié)主成分性質(zhì)中的方差貢獻(xiàn)率就可以很好地衡量權(quán)數(shù),所以可以將方差貢獻(xiàn)率作為權(quán)數(shù)??梢?,對(duì)各級(jí)主成分得分進(jìn)行加權(quán)求和后就可以得到一個(gè)新的指標(biāo)來衡量經(jīng)濟(jì)效益。11.4.2主成分分析在經(jīng)濟(jì)指標(biāo)評(píng)價(jià)方面的應(yīng)用57利用主成分分析實(shí)現(xiàn)經(jīng)濟(jì)指標(biāo)的綜合評(píng)價(jià)的具體過程為:首先,進(jìn)行主成分分析后得出p個(gè)主成分,并依次算出它們的主成分和方差貢獻(xiàn)率,將方差貢獻(xiàn)率作為權(quán)數(shù),就可以構(gòu)造出綜合評(píng)價(jià)函數(shù):,代入

p個(gè)主成分得分?jǐn)?shù)據(jù)后就可以得到綜合評(píng)價(jià)函數(shù)得分,根據(jù)得分?jǐn)?shù)據(jù)的大小依次排名即可排列出經(jīng)濟(jì)效益的名次。11.4.2主成分分析在經(jīng)濟(jì)指標(biāo)評(píng)價(jià)方面的應(yīng)用58利用主成分分析評(píng)價(jià)綜合經(jīng)濟(jì)效益具有以下優(yōu)點(diǎn):(1)具有可比性和可加性。由于是利用主成分得分構(gòu)造的綜合評(píng)價(jià)函數(shù),即對(duì)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,消除了數(shù)據(jù)量級(jí)上的影響,可以將不同度量的指標(biāo)變成相同度量的指標(biāo),使指標(biāo)間的比較、相加變得有意義。(2)具有全面性。主成分分析后各指標(biāo)間不具有相關(guān)性,克服了變量間的影響,因此更具有全面性。(3)具有合理性。在綜合評(píng)價(jià)函數(shù)中,權(quán)數(shù)是利用方差貢獻(xiàn)度算出的,不具有人為因素干擾,具有較高可信度,而方差貢獻(xiàn)率也能較好地反映指標(biāo)對(duì)結(jié)果的影響度,所以此評(píng)價(jià)方法具有合理性。下面以一個(gè)例子來展示主成分分析的具體步驟以及它在經(jīng)濟(jì)效益評(píng)價(jià)方面應(yīng)用的實(shí)現(xiàn)過程。11.4.2主成分分析在經(jīng)濟(jì)指標(biāo)評(píng)價(jià)方面的應(yīng)用59【例11.4】如今人們理財(cái)意識(shí)逐漸增強(qiáng),不少人已經(jīng)意識(shí)到,為了實(shí)現(xiàn)財(cái)務(wù)自由,自己不僅需要努力工作賺錢,還得學(xué)會(huì)“以錢生錢”,因此紛紛學(xué)習(xí)起理財(cái)投資的知識(shí)。同時(shí),企業(yè)為了擴(kuò)大利潤(rùn),在做好主營(yíng)業(yè)務(wù)的同時(shí)也會(huì)拿出部分資產(chǎn)投資其他公司。投資漸漸進(jìn)入大眾的視野中,而投資一家公司不能盲目憑自己的感覺,還需要仔細(xì)分析公司財(cái)務(wù)報(bào)表,確定公司能為自己帶來利潤(rùn)后才能安心投資。每家公司為了展示自己的業(yè)績(jī)、吸引投資者,都會(huì)定期發(fā)布公司的財(cái)務(wù)報(bào)表,財(cái)務(wù)報(bào)表中有眾多指標(biāo),如衡量短期產(chǎn)債能力的現(xiàn)金比率、速動(dòng)比率,衡量企業(yè)盈利能力的資產(chǎn)凈利率和銷售凈利率,衡量長(zhǎng)期償債能力的資產(chǎn)負(fù)債率,以及衡量公司發(fā)展能力的營(yíng)業(yè)利潤(rùn)增長(zhǎng)率,等等。主成分分析方法恰能解決普通分析方法無法解決的分析多指標(biāo)的問題。11.4.2主成分分析在經(jīng)濟(jì)指標(biāo)評(píng)價(jià)方面的應(yīng)用60在此,我們收集了公司A在2015-2019年5年的財(cái)務(wù)報(bào)表數(shù)據(jù),其中的幾個(gè)重要指標(biāo)如表11-5所示,試用主成分分析來判斷該公司是否值得投資。該例通過手動(dòng)計(jì)算比較繁瑣,我們可以使用軟件SPSS計(jì)算,具體操作步驟見11.5小節(jié)。11.4.3主成分分析的其他應(yīng)用61主成分分析有著廣泛的應(yīng)用,除了上述的應(yīng)用場(chǎng)景外,還可應(yīng)用在如下幾個(gè)方面。實(shí)現(xiàn)k

維的F空間來代替p

維的X空間(k

≤p)

主成分分析最重要的特點(diǎn)就是其降維特性,利用降維就可以實(shí)現(xiàn)以k

維的F空間來代替p

維的X空間(k

≤p),且丟失的原始數(shù)據(jù)信息量很少。尋求自變量X

間的關(guān)系因子負(fù)荷Uij是X

到F

做線性變化的橋梁,觀察因子負(fù)荷Uij

的結(jié)構(gòu),有時(shí)會(huì)得到自變量X

之間的一些特殊關(guān)系,有助于我們解決實(shí)際問題。11.4.3主成分分析的其他應(yīng)用62幾何學(xué)上的應(yīng)用平面作圖只能繪制3維及以下的圖形,當(dāng)維度大于3時(shí)就無法完成,而實(shí)際問題中,影響結(jié)果的變量往往又不止3個(gè),所以無法利用圖形直觀地表現(xiàn)自變量與因變量的關(guān)系。如果利用主成分分析,如選取前兩個(gè)主成分,計(jì)算主成分得分后就可以在二維空間中畫出多個(gè)樣品在二維空間上的分布情況,從而可利用圖形直觀地表示結(jié)果。多指標(biāo)下的綜合評(píng)價(jià)實(shí)際問題中多指標(biāo)是時(shí)常存在的,根據(jù)方法特點(diǎn),主成分分析也可以用于多指標(biāo)下的綜合評(píng)價(jià)。第5節(jié)SPSS操作實(shí)例11.5.1引入案例SPSS操作實(shí)例11.5.2【例11.4】SPSS操作實(shí)例6311.5.1引入案例SPSS操作實(shí)例64下面使用SPSS對(duì)引入案例進(jìn)行分析。第一步在SPSS操作界面選擇:【分析】→【降維】→【因子】,如圖11-4所示。11.5.1引入案例SPSS操作實(shí)例65第二步將十項(xiàng)成績(jī)選入【變量】框中,如圖11-5所示。第三步點(diǎn)擊【描述】對(duì)話框,選中【系數(shù)】和【KMO和巴特利特球形度檢驗(yàn)】,如圖11-6所示。其中,“系數(shù)”表示變量之間的相關(guān)系數(shù)陣列,可以直觀地分析相關(guān)性;“KMO和巴特利特球形度檢驗(yàn)”用于定量地檢驗(yàn)變量之間是否具有相關(guān)性。11.5.1引入案例SPSS操作實(shí)例66第四步點(diǎn)擊【繼續(xù)】,回到主界面,點(diǎn)擊【提取】,打開對(duì)話框后,【方法】選擇【主成分】,【顯示】勾選【未旋轉(zhuǎn)的因子解】和【碎石圖】,其余選擇默認(rèn),如圖11-7所示。其中,【顯示】的“未旋轉(zhuǎn)的因子解”即為主成分分析結(jié)果。碎石圖有助于我們判斷因子的重要性(詳見后文)。【提取】為提取主成分(因子)的方法,一般是基于特征值大于1,默認(rèn)設(shè)置即可。11.5.1引入案例SPSS操作實(shí)例67第五步點(diǎn)擊【繼續(xù)】,回到主界面,點(diǎn)擊【得分】,勾選【保存為變量】,方法采用默認(rèn)的“回歸”方法,同時(shí)選中【顯示因子得分系數(shù)矩陣】,如圖11-8所示。第六步點(diǎn)擊【繼續(xù)】,回到主界面,點(diǎn)擊【確定】,進(jìn)入分析。11.5.1引入案例SPSS操作實(shí)例68輸出的表格主要如下:相關(guān)性檢驗(yàn)因子分析要求變量之間有相關(guān)性,所以首先要進(jìn)行相關(guān)性檢驗(yàn)。首先輸出的是變量之間的相關(guān)系數(shù)矩陣,如表11-6所示。11.5.1引入案例SPSS操作實(shí)例69通過表11-6可以直觀地看到變量之間是存在一定的相關(guān)性的,比如100米跑成績(jī)與400米跑成績(jī)大致呈現(xiàn)正相關(guān)而標(biāo)槍成績(jī)與1500米跑成績(jī)相關(guān)性較小,這與我們的認(rèn)知也是一致的。但是,是否能進(jìn)行主成分分析還需要進(jìn)行相關(guān)性檢驗(yàn),因此接著輸出的是相關(guān)性檢驗(yàn),如表11-7所示。一種檢驗(yàn)變量間相關(guān)性的方法就是KMO和巴特利特檢驗(yàn),KMO統(tǒng)計(jì)量越接近于1,變量間的相關(guān)性越強(qiáng),偏相關(guān)性越弱,分析的效果越好,因?yàn)楸敬畏治鲋蠯MO值0.581大于0.5,所以本例適合進(jìn)行主成分分析。11.5.1引入案例SPSS操作實(shí)例70提取主成分和公因子接下來輸岀主成分結(jié)果,如表11-8所示。這就是主成分分析的結(jié)果,表中第一列為10個(gè)成分;第二列總計(jì)項(xiàng)為對(duì)應(yīng)的特征值,表示所解釋的方差的大?。坏谌袨閷?duì)應(yīng)的成分所包含的方差占總方差的百分比;第四列為累計(jì)的百分比。一般來說,選擇特征值大于1的成分作為主成分,這也是SPSS默認(rèn)的選擇。11.5.1引入案例SPSS操作實(shí)例71在本例中,成分1、2、3的特征值大于1,它們合計(jì)能解釋60.931%的方差,所以可以提取成分1、2、3作為主成分,抓住主要矛盾;因其余成分包含的信息較少,故棄去。輸出碎石圖,如圖11-9所示。碎石圖來源于地質(zhì)學(xué)的概念。在巖層斜坡下方往往有很多小的碎石,其地質(zhì)學(xué)意義不大。碎石圖以特征值為縱軸,成分為橫軸。前面陡峭的部分特征值大,包含的信息多;后面平坦的部分特征值小,包含的信息也少。由圖可直觀地看出,成分1、2、3包含了大部分信息,從4開始就進(jìn)入平臺(tái)了。11.5.1引入案例SPSS操作實(shí)例72接下來,輸出提取的成分矩陣,如表11-9所示。表中的數(shù)值為公因子與原始變量之間的相關(guān)系數(shù),絕對(duì)值越大,說明關(guān)系越密切。比如,第一主成分與400米跑成績(jī)的相關(guān)系數(shù)為0.755,兩者關(guān)系密切;而第一主成分與跳高成績(jī)相關(guān)系數(shù)為0.208,兩者密切程度較低。11.5.1引入案例SPSS操作實(shí)例73計(jì)算主成分得分SPSS會(huì)自動(dòng)生成3個(gè)新變量,分別為公因子的取值,放在數(shù)據(jù)的最后。同時(shí)會(huì)輸出一個(gè)因子系數(shù)表格,如表11-10所示。11.5.1引入案例SPSS操作實(shí)例74由表11-10可以寫出公因子的表達(dá)式(用F1、F2、F3代表三個(gè)公因子,Z1~Z10分別代表原始變量):F2、F3同理,這里略去。但此處我們求出的是公因子的得分而非主成分得分,還需要再將因子得分乘以相應(yīng)的方差才可得到主成分得分。計(jì)算結(jié)果如表11-11所示。11.5.1引入案例SPSS操作實(shí)例75因此我們可以寫出第一主成分得分Y1的表達(dá)式:11.5.2【例11.4】SPSS操作實(shí)例76下面通過例11.4的SPSS操作步驟展示主成分分析在具體應(yīng)用中的操作步驟。對(duì)于11.4,首先我們需要通過主成分分析將變量簡(jiǎn)化,再計(jì)算出各年份主成分得分,從主成分得分中分析公司的經(jīng)濟(jì)發(fā)展?fàn)顩r,從而作出能否投資該公司的決策。所以本題SPSS操作步驟將分為:先計(jì)算主成分表達(dá)式與相應(yīng)參數(shù)(如特征根、方差貢獻(xiàn)率等),之后計(jì)算主成分得分,作出決策。先計(jì)算主成分表達(dá)式與對(duì)應(yīng)參數(shù)。11.5.2【例11.4】SPSS操作實(shí)例77第一步導(dǎo)入相關(guān)數(shù)據(jù),如圖11-10所示。11.5.2【例11.4】SPSS操作實(shí)例78第二步將需要進(jìn)行主成分分析的變量選中,依次點(diǎn)擊【分析】→【降維】→【因子分析】,進(jìn)入“因子分析”對(duì)話框,如圖11-11所示,并將變量【X1,X2,X3,X4,X5,X6】放置于【變量對(duì)話框】。11.5.2【例11.4】SPSS操作實(shí)例79第三步選擇輸出的選項(xiàng),點(diǎn)擊【描述】,勾選【初始解】、【系數(shù)】及【KMO及巴特利特球形檢驗(yàn)】選項(xiàng),如圖11-12所示,點(diǎn)擊【繼續(xù)】。第四步選擇分析的矩陣類型、顯示項(xiàng)目、提取主成分的方式,點(diǎn)擊【提取】,選擇【相關(guān)性矩陣】,勾選【未旋轉(zhuǎn)因子解】,選擇【因子的固定數(shù)目】并指定提取2個(gè)因子,如圖11-13所示,點(diǎn)擊【繼續(xù)】,點(diǎn)擊【確定】即可生成相關(guān)結(jié)果。11.5.2【例11.4】SPSS操作實(shí)例80例11.4的相應(yīng)輸出如表11-12所示,為輸出的6個(gè)變量間的相關(guān)性矩陣。11.5.2【例11.4】SPSS操作實(shí)例81表11-13所示為KMO和巴特利特檢驗(yàn)結(jié)果,與引入案例分析一致。因?yàn)镵MO值0.561大于0.5,較為接近1,所以本例適合進(jìn)行主成分分析。但是,若顯示“此矩陣表示正定矩陣”則不能進(jìn)行KMO和巴特利特球形度檢驗(yàn),可能原因是樣本數(shù)量太少或樣本間相關(guān)性太高導(dǎo)致,但軟件仍然會(huì)進(jìn)行分析,對(duì)于最終主成分分析結(jié)果也無太大影響。如果讀者在其他問題進(jìn)行分析時(shí)想輸出“KMO和巴特利特球形度檢驗(yàn)”結(jié)果,可以增加樣本量或除去相關(guān)性過強(qiáng)的樣本數(shù)據(jù)。11.5.2【例11.4】SPSS操作實(shí)例82表11-14所示為公因子方差數(shù)據(jù),從表中最后一列可以看出所有原始變量均被提取了大部分信息。11.5.2【例11.4】SPSS操作實(shí)例83表11-15所示為特征值與方差貢獻(xiàn)率,可以看岀本次主成分分析保留了兩個(gè)主成分,并且方差累計(jì)貢獻(xiàn)達(dá)到率為95.759%,即說明提取的主成分保留了95.759%

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論