第五章主成分分析_第1頁(yè)
第五章主成分分析_第2頁(yè)
第五章主成分分析_第3頁(yè)
第五章主成分分析_第4頁(yè)
第五章主成分分析_第5頁(yè)
已閱讀5頁(yè),還剩99頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023/2/21第五章主成分分析

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.1主成分分析的基本思想與理論§5.2總體主成分及其性質(zhì)§5.3樣本主成分的導(dǎo)出§5.4有關(guān)問(wèn)題的討論§5.5主成分分析步驟及框圖§5.6主成分分析的上機(jī)實(shí)現(xiàn)2023/2/22

目錄上頁(yè)下頁(yè)返回結(jié)束

主成分分析(PrincipalComponentsAnalysis)也稱主分量分析,是由霍特林(Hotelling)于1933年首先提出的。主成分分析是利用降維的思想,在損失很少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo)的多元統(tǒng)計(jì)方法。通常把轉(zhuǎn)化生成的綜合指標(biāo)稱之為主成分,其中每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分之間互不相關(guān)。這樣在研究復(fù)雜問(wèn)題時(shí)就可以只考慮少數(shù)幾個(gè)主成分而不至于損失太多信息,從而更容易抓住主要矛盾,,同時(shí)使問(wèn)題得到簡(jiǎn)化,提高分析效率。2023/2/23

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.1主成分分析的基本思想與理論§5.1.1主成分分析的基本思想§5.1.2主成分分析的基本理論2023/2/24

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.1.1

主成分分析的基本思想考慮多個(gè)指標(biāo)對(duì)某一問(wèn)題進(jìn)行分析的時(shí)候會(huì)產(chǎn)生如下問(wèn)題:為了避免遺漏重要的信息而考慮盡可能多的指標(biāo);增多增加了問(wèn)題的復(fù)雜性,同時(shí)由于各指標(biāo)均是對(duì)同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時(shí)甚至?xí)⑹挛锏恼嬲卣髋c內(nèi)在規(guī)律。基于上述問(wèn)題,人們就希望在定量研究中涉及的變量較少,而得到的信息量又較多。主成分分析正是研究如何通過(guò)原來(lái)變量的少數(shù)幾個(gè)線性組合來(lái)解釋原來(lái)變量絕大多數(shù)信息的一種多元統(tǒng)計(jì)方法。2023/2/25

目錄上頁(yè)下頁(yè)返回結(jié)束

既然研究某一問(wèn)題涉及的眾多變量之間有一定的相關(guān)性,就必然存在著起支配作用的共同因素,根據(jù)這一點(diǎn),通過(guò)對(duì)原始變量相關(guān)矩陣或協(xié)方差矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,利用原始變量的線性組合形成幾個(gè)綜合指標(biāo)(主成分),在保留原始變量主要信息的前提下起到降維與簡(jiǎn)化問(wèn)題的作用,使得在研究復(fù)雜問(wèn)題時(shí)更容易抓住主要矛盾。2023/2/26

目錄上頁(yè)下頁(yè)返回結(jié)束

3.主成分保留了原始變量絕大多數(shù)信息4.各主成分之間互不相關(guān)1.每一個(gè)主成分都是各原始變量的線性組合2.主成分的數(shù)目大大少于原始變量的數(shù)目利用主成分分析得到的主成分與原始變量之間有如下基本關(guān)系:2023/2/27

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.1.2

主成分分析的基本理論設(shè)對(duì)某一事物的研究涉及個(gè)指標(biāo),分別用表示,這個(gè)指標(biāo)構(gòu)成的維隨機(jī)向量為。設(shè)隨機(jī)向量的均值為,協(xié)方差矩陣為。對(duì)進(jìn)行線性變換,可以形成新的綜合變量,用表示,也就是說(shuō),新的綜合變量可以由原來(lái)的變量線性表示,即滿足下式:(5.1)2023/2/28

目錄上頁(yè)下頁(yè)返回結(jié)束

由于可以任意地對(duì)原始變量進(jìn)行上述線性變換,由不同的線性變換得到的綜合變量的統(tǒng)計(jì)特性也不盡相同。因此為了取得較好的效果,我們總是希望的方差盡可能大且各之間互相獨(dú)立,由于

=而對(duì)任給的常數(shù),有2023/2/29

目錄上頁(yè)下頁(yè)返回結(jié)束

因此對(duì)不加限制時(shí),可使任意增大,問(wèn)題將變得沒(méi)有意義。我們將線性變換約束在下面的原則之下:1.,即:

2.

3.是的一切滿足原則1的線性組合中方差最大者;是與不相關(guān)的所有線性組合中方差最大者;…,是與都不相關(guān)的的所有線性組合中方差最大者。2023/2/210

目錄上頁(yè)下頁(yè)返回結(jié)束

基于以上三條原則決定的綜合變量分別稱為原始變量的第一、第二、…、第個(gè)主成分。其中,各綜合變量在總方差中占的比重依次遞減,在實(shí)際研究工作中,通常只挑選前幾個(gè)方差最大的主成分,從而達(dá)到簡(jiǎn)化系統(tǒng)結(jié)構(gòu),抓住問(wèn)題實(shí)質(zhì)的目的。2023/2/211

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.1.3

主成分分析的幾何意義

由第一節(jié)的介紹我們知道,在處理涉及多個(gè)指標(biāo)問(wèn)題的時(shí)候,為了提高分析的效率,可以不直接對(duì)個(gè)指標(biāo)構(gòu)成的維隨機(jī)向量進(jìn)行分析,而是先對(duì)向量進(jìn)行線性變換,形成少數(shù)幾個(gè)新的綜合變量,使得各綜合變量之間相互獨(dú)立且能解釋原始變量盡可能多的信息,這樣,在以損失很少部分信息為代價(jià)的前提下,達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu),提高分析效率的目的。這一節(jié),我們著重討論主成分分析的幾何意義,為了方便,我們僅在二維空間中討論主成分的幾何意義,所得結(jié)論可以很容易地?cái)U(kuò)展到多維的情況。2023/2/212

目錄上頁(yè)下頁(yè)返回結(jié)束

設(shè)有個(gè)樣品,每個(gè)樣品有兩個(gè)觀測(cè)變量,這樣,在由變量組成的坐標(biāo)空間中,個(gè)樣品點(diǎn)散布的情況如帶狀,見(jiàn)圖5-1。圖5-12023/2/213

目錄上頁(yè)下頁(yè)返回結(jié)束

由圖可以看出這個(gè)樣品無(wú)論沿軸方向還是沿軸方向均有較大的離散性,其離散程度可以分別用觀測(cè)變量的方差和的方差定量地表示,顯然,若只考慮和中的任何一個(gè),原始數(shù)據(jù)中的信息均會(huì)有較大的損失。我們的目的是考慮和的線性組合,使得原始樣品數(shù)據(jù)可以由新的變量和來(lái)刻畫。在幾何上表示就是將坐標(biāo)軸按逆時(shí)針?lè)较蛐D(zhuǎn)角度,得到新坐標(biāo)軸和,坐標(biāo)旋轉(zhuǎn)公式如下:2023/2/214

目錄上頁(yè)下頁(yè)返回結(jié)束

其矩陣形式為:其中,為旋轉(zhuǎn)變換矩陣,由上式可知它是正交陣,即滿足

2023/2/215

目錄上頁(yè)下頁(yè)返回結(jié)束

經(jīng)過(guò)這樣的旋轉(zhuǎn)之后,個(gè)樣品點(diǎn)在軸上的離散程度最大,變量代表了原始數(shù)據(jù)絕大部分信息,這樣,有時(shí)在研究實(shí)際問(wèn)題時(shí),即使不考慮變量也無(wú)損大局。因此,經(jīng)過(guò)上述旋轉(zhuǎn)變換就可以把原始數(shù)據(jù)的信息集中到軸上,對(duì)數(shù)據(jù)中包含的信息起到了濃縮的作用。進(jìn)行主成分分析的目的就是找出轉(zhuǎn)換矩陣,而進(jìn)行主成分分析的作用與幾何意義也就很明了了。下面我們用遵從正態(tài)分布的變量進(jìn)行分析,以使主成分分析的幾何意義更為明顯。為方便,我們以二元正態(tài)分布為例。對(duì)于多元正態(tài)總體的情況,有類似的結(jié)論。2023/2/216

目錄上頁(yè)下頁(yè)返回結(jié)束

設(shè)變量遵從二元正態(tài)分布,分布密度為:令為變量的協(xié)方差矩陣,其形式如下:令則上述二元正態(tài)分布的密度函數(shù)有如下矩陣形式:2023/2/217

目錄上頁(yè)下頁(yè)返回結(jié)束

考慮(為常數(shù)),為方便,不妨設(shè)又令為的特征值,為相應(yīng)的標(biāo)準(zhǔn)正交特征向量.則為正交陣,有:2023/2/218

目錄上頁(yè)下頁(yè)返回結(jié)束

因此有:

橢圓方程,主軸方向確定了主成分的坐標(biāo)方向主成分分析的幾何意義:主成分分析的過(guò)程無(wú)非就是坐標(biāo)系旋轉(zhuǎn)的過(guò)程,各主成分表達(dá)式就是新坐標(biāo)系與原坐標(biāo)系的轉(zhuǎn)換關(guān)系,在新坐標(biāo)系中,各坐標(biāo)軸的方向就是原始數(shù)據(jù)變差最大的方向。2023/2/219

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.2總體主成分及其性質(zhì)由上面的討論可知,求解主成分的過(guò)程就是求滿足三條原則的原始變量的線性組合的過(guò)程。本節(jié)先從總體出發(fā),介紹求解主成分的一般方法及主成分的性質(zhì),然后介紹樣本主成分的導(dǎo)出。2023/2/220

目錄上頁(yè)下頁(yè)返回結(jié)束

主成分分析的基本思想就是在保留原始變量盡可能多的信息的前提下達(dá)到降維的目的,從而簡(jiǎn)化問(wèn)題的復(fù)雜性并抓住問(wèn)題的主要矛盾。而這里對(duì)于隨機(jī)變量而言,其協(xié)方差矩陣或相關(guān)矩陣正是對(duì)各變量離散程度與變量之間的相關(guān)程度的信息的反應(yīng),而相關(guān)矩陣不過(guò)是將原始變量標(biāo)準(zhǔn)化后的協(xié)方差矩陣。

我們所說(shuō)的保留原始變量盡可能多的信息,也就是指的生成的較少的綜合變量(主成分)的方差和盡可能接近原始變量方差的總和。在實(shí)際求解主成分的時(shí)候,總是從原始變量的協(xié)方差矩陣或相關(guān)矩陣的結(jié)構(gòu)分析入手。一般地說(shuō),從原始變量的協(xié)方差矩陣出發(fā)求得的主成分與從原始變量的相關(guān)矩陣出發(fā)求得的主成分是不同的。。2023/2/221

目錄上頁(yè)下頁(yè)返回結(jié)束

證明:由引論知,對(duì)于任意常向量,有:又為標(biāo)準(zhǔn)正交特征向量,于是:證明:由引論知,對(duì)于任意常向量,有:又為標(biāo)準(zhǔn)正交特征向量,于是:

此時(shí):

(5.3)結(jié)論:設(shè)隨機(jī)向量的協(xié)方差矩陣為,為的特征值,為矩陣各特征值對(duì)應(yīng)的標(biāo)準(zhǔn)正交特征向量,則第i個(gè)主成分為:

結(jié)論:設(shè)隨機(jī)向量的協(xié)方差矩陣為,為的特征值,為矩陣各特征值對(duì)應(yīng)的標(biāo)準(zhǔn)正交特征向量,則第i個(gè)主成分為:

§5.2.1總體主成分(一)從協(xié)方差矩陣出發(fā)求解主成分2023/2/222

目錄上頁(yè)下頁(yè)返回結(jié)束

由以上結(jié)論,我們把的協(xié)方差矩陣的非零特征值對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量分別作為系數(shù)向量,分別稱為隨機(jī)向量的第一主成分、第二主成分、…、第主成分。的分量依次是的第一主成分、第二主成分、…、第主成分的充分必要條件是:(1),即為階正交陣;(2)的分量之間互不相關(guān);(3)的個(gè)分量是按方差由大到小排列。2023/2/223

目錄上頁(yè)下頁(yè)返回結(jié)束

于是隨機(jī)向量與隨機(jī)向量之間存在下面的關(guān)系式:(5.4)

注:無(wú)論的各特征根是否存在相等的情況,對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量總是存在的,我們總可以找到對(duì)應(yīng)各特征根的彼此正交的特征向量。這樣,求主成分的問(wèn)題就變成了求特征根與特征向量的問(wèn)題。2023/2/224

目錄上頁(yè)下頁(yè)返回結(jié)束

5.2.2主成分的性質(zhì)

性質(zhì)1

的協(xié)方差陣為對(duì)角陣。性質(zhì)2

記,有證明:記則有于是2023/2/225

目錄上頁(yè)下頁(yè)返回結(jié)束

定義5.1

稱為第個(gè)主成分的方差貢獻(xiàn)率,稱為主成分的累積貢獻(xiàn)率。

由此進(jìn)一步可知,主成分分析是把個(gè)隨機(jī)變量的總方差分解為個(gè)不相關(guān)的隨機(jī)變量的方差之和,使第一主成分的方差達(dá)到最大,第一主成分是以變化最大的方向向量各分量為系數(shù)的原始變量的線性函數(shù),最大方差為。表明了的方差在全部方差中的比值,稱為第一主成分的貢獻(xiàn)率。這個(gè)值越大,表明這個(gè)新變量綜合信息的能力越強(qiáng),也即由的差異來(lái)解釋隨機(jī)向量的差異的能力越強(qiáng)。2023/2/226

目錄上頁(yè)下頁(yè)返回結(jié)束

正因如此,才把稱為的主成分。進(jìn)而我們就更清楚為什么主成分的名次是按特征根取值的大小排序的。

進(jìn)行主成分分析的目的之一是為了減少變量的個(gè)數(shù),所以一般不會(huì)取個(gè)主成分,而是取個(gè)主成分,取多少比較合適,這是一個(gè)很實(shí)際的問(wèn)題,通常以所取使得累積貢獻(xiàn)率達(dá)到85%以上為宜,即(5.5)這樣,既能使損失信息不太多,又達(dá)到減少變量,簡(jiǎn)化問(wèn)題的目的。另外,選取主成分還可根據(jù)特征值的變化來(lái)確定。圖5-2為SPSS統(tǒng)計(jì)軟件生成的碎石圖。

2023/2/227

目錄上頁(yè)下頁(yè)返回結(jié)束

圖5-2由圖5-2可知,第二個(gè)及第三個(gè)特征值變化的趨勢(shì)已經(jīng)開(kāi)始趨于平穩(wěn),所以,取前兩個(gè)或是前三個(gè)主成分是比較合適的。這種方法確定的主成分個(gè)數(shù)與按累積貢獻(xiàn)率確定的主成分個(gè)數(shù)往往是一致的。在實(shí)際應(yīng)用中有些研究工作者習(xí)慣于保留特征值大于1的那些主成分,但這種方法缺乏完善的理論支持。在大多數(shù)情況下,當(dāng)m=3時(shí)即可使所選主成分保持信息總量的比重達(dá)到85%以上。2023/2/228

目錄上頁(yè)下頁(yè)返回結(jié)束

定義5.2

第個(gè)主成分與原始變量的相關(guān)系數(shù)稱做因子負(fù)荷量。因子負(fù)荷量是主成分解釋中非常重要的解釋依據(jù),因子負(fù)荷量的絕對(duì)值大小刻畫了該主成分的主要意義及其成因。在下一章因子分析中還將要對(duì)因子負(fù)荷量的統(tǒng)計(jì)意義給出更詳細(xì)的解釋。由下面的性質(zhì)我們可以看到因子負(fù)荷量與系數(shù)向量成正比。

性質(zhì)3(5.6)

由性質(zhì)3知因子負(fù)荷量與向量系數(shù)成正比,與的標(biāo)準(zhǔn)差成反比關(guān)系,因此,絕不能將因子負(fù)荷量與向量系數(shù)混為一談。在解釋主成分的成因或是第個(gè)變量對(duì)第個(gè)主成分的重要性時(shí),應(yīng)當(dāng)根據(jù)因子負(fù)荷量而不能僅僅根據(jù)與的變換系數(shù)。2023/2/229

目錄上頁(yè)下頁(yè)返回結(jié)束

性質(zhì)4(5.7)證明:由性質(zhì)3有(5.8)性質(zhì)5證明:因?yàn)橄蛄渴请S機(jī)向量的線性組合,因此也可以精確表示成的線性組合。由回歸分析知識(shí)知,與的全相關(guān)系數(shù)的平方和等于1,而因?yàn)橹g互不相關(guān),所以與的全相關(guān)系數(shù)的平方和也就是,因此,性質(zhì)5成立。2023/2/230

目錄上頁(yè)下頁(yè)返回結(jié)束

定義5.3

與前個(gè)主成分的全相關(guān)系數(shù)平方和稱為對(duì)原始變量的方差貢獻(xiàn)率,即

(5.9)這一定義說(shuō)明了前個(gè)主成分提取了原始變量中的信息,由此我們可以判斷我們提取的主成分說(shuō)明原始的能力。2023/2/231

目錄上頁(yè)下頁(yè)返回結(jié)束

5.2.3從相關(guān)陣出發(fā)求解主成分

考慮如下的數(shù)學(xué)變換:令:其中,與分別表示變量的期望與方差。于是有令:于是,對(duì)原始變量進(jìn)行標(biāo)準(zhǔn)化:2023/2/232

目錄上頁(yè)下頁(yè)返回結(jié)束

經(jīng)過(guò)上述標(biāo)準(zhǔn)化后,顯然有

由于上面的變換過(guò)程,原始變量的相關(guān)陣實(shí)際上就是對(duì)原始變量標(biāo)準(zhǔn)化后的協(xié)方差矩陣,因此,由相關(guān)矩陣求主成分的過(guò)程與主成分個(gè)數(shù)的確定準(zhǔn)則實(shí)際上是與由協(xié)方差矩陣出發(fā)求主成分的過(guò)程與主成分個(gè)數(shù)的確定準(zhǔn)則是相一致的,在此不再贅述。仍用分別表示相關(guān)陣的特征值與對(duì)應(yīng)的標(biāo)準(zhǔn)正交特征向量,此時(shí),求得的主成分與原始變量的關(guān)系式為:(5.10)2023/2/233

目錄上頁(yè)下頁(yè)返回結(jié)束

5.2.4由相關(guān)陣求主成分時(shí)主成分性質(zhì)的簡(jiǎn)單形式由相關(guān)陣出發(fā)所求得主成分依然具有上面所述的各種性質(zhì),不同的是在形式上要簡(jiǎn)單,這是由相關(guān)陣的特性決定的。我們將由相關(guān)陣得到的主成分的性質(zhì)總結(jié)如下:1.的協(xié)方差矩陣為對(duì)角陣;3.第個(gè)主成分的方差占總方差的比例,即第個(gè)主成分的方差貢獻(xiàn)率為,前個(gè)主成分的累積方差貢獻(xiàn)率為;2023/2/234

目錄上頁(yè)下頁(yè)返回結(jié)束

注意到,且,結(jié)合前面從協(xié)方差矩陣出發(fā)求主成分部分對(duì)主成分性質(zhì)的說(shuō)明,可以很容易的得出上述性質(zhì)。雖然主成分的性質(zhì)在這里有更簡(jiǎn)單的形式,但應(yīng)注意其實(shí)質(zhì)與前面的結(jié)論并沒(méi)有區(qū)別;需要注意的一點(diǎn)是判斷主成分的成因或是原始變量(這里原始變量指的是標(biāo)準(zhǔn)化以后的隨機(jī)向量)對(duì)主成分的重要性有更簡(jiǎn)單的方法,因?yàn)橛缮厦娴?條知這里因子負(fù)荷量?jī)H依賴于由到的轉(zhuǎn)換向量系數(shù)(因?yàn)閷?duì)不同的,因子負(fù)荷量表達(dá)式的后半部分是固定的)。2023/2/235

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.3樣本主成分的導(dǎo)出記

在實(shí)際研究工作中,總體協(xié)方差陣與相關(guān)陣通常是未知的,于是需要通過(guò)樣本數(shù)據(jù)來(lái)估計(jì)。設(shè)有個(gè)樣品,每個(gè)樣品有個(gè)指標(biāo),這樣共得到個(gè)數(shù)據(jù),原始資料矩陣如下:

2023/2/236

目錄上頁(yè)下頁(yè)返回結(jié)束

為樣本協(xié)方差矩陣,作為總體協(xié)方差陣的無(wú)偏估計(jì),是樣本相關(guān)矩陣,為總體相關(guān)矩陣的估計(jì)。由前面的討論知,若原始資料陣是經(jīng)過(guò)標(biāo)準(zhǔn)化處理的,則由矩陣求得的協(xié)方差陣就是相關(guān)矩陣,即與完全相同。因?yàn)橛蓞f(xié)方差矩陣求解主成分的過(guò)程與同相關(guān)矩陣出發(fā)求解主成分的過(guò)程是一致的,下面我們僅介紹由相關(guān)陣出發(fā)求解主成分。因?yàn)闉檎ň仃?,所以其特征根都是非?fù)實(shí)數(shù),將它們依大小順序排列,其相應(yīng)的特征向量記為,則相對(duì)于的方差為:同理有即對(duì)于有最大方差,有次大方差,……,并且,協(xié)方差為:2023/2/237

目錄上頁(yè)下頁(yè)返回結(jié)束

2023/2/238

目錄上頁(yè)下頁(yè)返回結(jié)束

由此可知新的綜合變量(主成分)彼此不相關(guān),并且的方差為,則分別稱為第一、第二、……、第個(gè)主成分。由上述求主成分的過(guò)程可知,主成分在幾何圖形中的方向?qū)嶋H上就是的特征向量的方向,關(guān)于主成分分析的幾何意義我們還要在下一節(jié)詳細(xì)討論;主成分的方差貢獻(xiàn)就等于的相應(yīng)特征值。這樣,我們?cè)诶脴颖緮?shù)據(jù)求解主成分的過(guò)程實(shí)際上就轉(zhuǎn)化為求相關(guān)陣或協(xié)方差陣的特征值和特征向量的過(guò)程。

2023/2/239

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.4有關(guān)問(wèn)題的討論§5.4.1關(guān)于由協(xié)方差矩陣或相關(guān)矩陣出發(fā)求解主成分§5.4.2主成分分析不要求數(shù)據(jù)來(lái)自于正態(tài)總體§5.4.3主成分分析與重疊信息2023/2/240

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.4.1關(guān)于由協(xié)方差矩陣或相關(guān)矩陣出發(fā)求解主成分由前面的討論可知求解主成分的過(guò)程實(shí)際就是對(duì)矩陣結(jié)構(gòu)進(jìn)行分析的過(guò)程,也就是求解特征值的過(guò)程。在實(shí)際分析過(guò)程中,我們可以從原始數(shù)據(jù)的協(xié)方差矩陣出發(fā),也可以從原始數(shù)據(jù)的相關(guān)矩陣出發(fā),其求主成分的過(guò)程是一致的。但是,從協(xié)方差陣出發(fā)和從相關(guān)陣出發(fā)所求得的主成分一般來(lái)說(shuō)是有差別的,而且這種差別有時(shí)候還很大。下面我們舉例說(shuō)明這個(gè)問(wèn)題,為了敘述方便,我們以二維數(shù)據(jù)為例。2023/2/241

目錄上頁(yè)下頁(yè)返回結(jié)束

可以得到,原始變量的協(xié)方差陣與相關(guān)陣分別為:

由協(xié)方差陣出發(fā)求解主成分,得到結(jié)果見(jiàn)表5-1:【例5.1】

假定我們研究某一經(jīng)濟(jì)問(wèn)題共涉及兩個(gè)指標(biāo):產(chǎn)值和利稅。其中產(chǎn)值以百萬(wàn)元計(jì),利稅以萬(wàn)元計(jì),得原始資料矩陣如下:2023/2/242

目錄上頁(yè)下頁(yè)返回結(jié)束

表5-1對(duì)應(yīng)兩特征值的標(biāo)準(zhǔn)正交特征向量為:表5-22023/2/243

目錄上頁(yè)下頁(yè)返回結(jié)束

因此,所得的主成分的表達(dá)式為:其中,第一主成分保留了原始變量99.50%的信息,我們?cè)诜治鲋芯涂梢园训诙鞒煞稚岬簦@樣達(dá)到簡(jiǎn)化問(wèn)題的目的。第一主成分與原始變量的因子負(fù)荷量分別為:由此可知,第一主成分反應(yīng)了利稅指標(biāo)0.9871的信息,方差較大的利稅指標(biāo)對(duì)第一主成分起了主要作用。2023/2/244

目錄上頁(yè)下頁(yè)返回結(jié)束

由相關(guān)矩陣求解主成分的結(jié)果見(jiàn)表5-3:表5-3對(duì)應(yīng)兩特征值的標(biāo)準(zhǔn)正交特征向量為:表5-42023/2/245

目錄上頁(yè)下頁(yè)返回結(jié)束

此時(shí),所得主成分的表達(dá)式為:由從相關(guān)矩陣出發(fā)求解主成分的結(jié)果可知,第一主成分保留了原始變量66.29%的信息,且產(chǎn)值指標(biāo)與利稅指標(biāo)對(duì)第一主成分的貢獻(xiàn)是相同的。第一主成分分別集中了產(chǎn)值和利稅(因子負(fù)荷)的信息。2023/2/246

目錄上頁(yè)下頁(yè)返回結(jié)束

由此可以看出,由協(xié)方差陣出發(fā)求解主成分所得的結(jié)果及由相關(guān)陣出發(fā)求解主成分所得的結(jié)果有很大不同,所得主成分解釋原始變量方差比例與主成分表達(dá)式均有顯著差別,且兩者之間不存在簡(jiǎn)單的線性關(guān)系。正因有此差別,所以在處理實(shí)際問(wèn)題時(shí)就面臨著選取由協(xié)方差矩陣出發(fā)求解主成分還是由相關(guān)陣出發(fā)求解主成分的問(wèn)題,為了更好的理解這種差別,我們對(duì)原始變量轉(zhuǎn)換成同一度量單位再求主成分。對(duì)產(chǎn)值與利稅均以萬(wàn)元計(jì),原始數(shù)據(jù)資料陣變?yōu)橐韵滦问剑合嚓P(guān)矩陣沒(méi)有變化,協(xié)方差矩陣變?yōu)椋?023/2/247

目錄上頁(yè)下頁(yè)返回結(jié)束

由此協(xié)方差矩陣出發(fā)重新求主成分,結(jié)果見(jiàn)表5-5:表5-5對(duì)應(yīng)兩特征值的標(biāo)準(zhǔn)正交特征向量見(jiàn)表5-6

:表5-62023/2/248

目錄上頁(yè)下頁(yè)返回結(jié)束

此時(shí)所得主成分的表達(dá)式為:其中,第一主成分保留了原始變量98.44%的信息,第一主成分與原始變量的因子負(fù)荷量分別為:由此可知,第一主成分保留原始變量的信息與主成分與原始變量的關(guān)系式均與上兩種情況有很大差別,那么,究竟哪種方法得到的結(jié)果更為可信呢,在實(shí)際研究中我們應(yīng)該作何選擇呢?2023/2/249

目錄上頁(yè)下頁(yè)返回結(jié)束

一般而言,對(duì)于度量單位不同的指標(biāo)或是取值范圍彼此差異非常大的指標(biāo),我們不直接由其協(xié)方差矩陣出發(fā)進(jìn)行主成分分析,而應(yīng)該考慮將數(shù)據(jù)標(biāo)準(zhǔn)化。比如,在對(duì)上市公司的財(cái)務(wù)狀況進(jìn)行分析時(shí),常常會(huì)涉及到利潤(rùn)總額、市盈率、每股凈利率等指標(biāo),其中利潤(rùn)總額取值常常從幾十萬(wàn)到上百萬(wàn),市盈率取值一般從五到六、七十之間,而每股凈利率在1以下,不同指標(biāo)取值范圍相差很大,這時(shí)若是直接從協(xié)方差矩陣入手進(jìn)行主成分分析,明顯利潤(rùn)總額的作用將起到重要支配作用,而其它兩個(gè)指標(biāo)的作用很難在主成分中體現(xiàn)出來(lái),此時(shí)應(yīng)該考慮對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。2023/2/250

目錄上頁(yè)下頁(yè)返回結(jié)束

但是,對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后傾向于各個(gè)指標(biāo)的作用在主成分的構(gòu)成中相等。對(duì)于取值范圍相差不大或是度量相同的指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理后,其主成分分析的結(jié)果仍與由協(xié)方差陣出發(fā)求得的結(jié)果有較大區(qū)別。其原因是由于對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的過(guò)程實(shí)際上也就是抹殺原始變量離散程度差異的過(guò)程,標(biāo)準(zhǔn)化后的各變量方差相等均為1,而實(shí)際上方差也是對(duì)數(shù)據(jù)信息的重要概括形式,也就是說(shuō),對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后抹殺了一部分重要信息,因此才使得標(biāo)準(zhǔn)化后各變量在對(duì)主成分構(gòu)成中的作用趨于相等。由此看來(lái),對(duì)同度量或是取值范圍在同量級(jí)的數(shù)據(jù),還是直接從協(xié)方差矩陣求解主成分為宜。2023/2/251

目錄上頁(yè)下頁(yè)返回結(jié)束

對(duì)于從什么出發(fā)求解主成分,現(xiàn)在還沒(méi)有一個(gè)定論,但是我們應(yīng)該看到,不考慮實(shí)際情況就對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理或者直接從原始變量的相關(guān)矩陣出發(fā)求解主成分是有其不足之處的,這一點(diǎn)一定要引起注意。建議在實(shí)際工作中分別從不同角度出發(fā)求解主成分并研究其結(jié)果的差別,看看是否發(fā)生明顯差異且這種差異產(chǎn)生的原因在何處,以確定用哪種結(jié)果更為可信。2023/2/252

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.4.2主成分分析不要求數(shù)據(jù)來(lái)自于正態(tài)總體由上面的討論可知,無(wú)論是從原始變量協(xié)方差矩陣出發(fā)求解主成分,還是從相關(guān)矩陣出發(fā)求解主成分,均沒(méi)有涉及到總體分布的問(wèn)題。也就是說(shuō),與很多多元統(tǒng)計(jì)方法不同,主成分分析不要求數(shù)據(jù)來(lái)自于正態(tài)總體。實(shí)際上,主成分分析就是對(duì)矩陣結(jié)構(gòu)的分析,其中主要用到的技術(shù)是矩陣運(yùn)算的技術(shù)及矩陣對(duì)角化和矩陣的譜分解技術(shù)。我們知道,對(duì)多元隨機(jī)變量而言,其協(xié)方差矩陣或是其相關(guān)矩陣均是非負(fù)定的,這樣,我們就可以按照求解主成分的步驟求出其特征值、標(biāo)準(zhǔn)正交特征向量,進(jìn)而求出主成分,達(dá)到縮減數(shù)據(jù)維數(shù)的目的。同時(shí),由主成分分析的幾何意義可以看到,對(duì)來(lái)自多元正態(tài)總體的數(shù)據(jù),我們得到了合理的幾何解釋,即主成分就是按數(shù)據(jù)離散程度最大的方向進(jìn)行坐標(biāo)軸旋轉(zhuǎn)。主成分分析的這一特性大大擴(kuò)展了其應(yīng)用范圍,對(duì)多維數(shù)據(jù),只要是涉及降維的處理,我們都可以嘗試用主成分分析,而不用花太多精力考慮其分布情況。2023/2/253

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.4.3主成分分析與重疊信息首先應(yīng)當(dāng)認(rèn)識(shí)到主成分分析方法適用于變量之間存在較強(qiáng)相關(guān)性的數(shù)據(jù),如果原始數(shù)據(jù)相關(guān)性較弱,運(yùn)用主成分分析后不能起到很好的降維作用,即所得的各個(gè)主成分濃縮原始變量信息的能力差別不大。一般認(rèn)為當(dāng)原始數(shù)據(jù)大部分變量的相關(guān)系數(shù)都小于0.3時(shí),運(yùn)用主成分分析不會(huì)取得很好的效果。很多研究工作者在運(yùn)用主成分分析方法時(shí),都或多或少存在著對(duì)主成分分析去除原始變量重疊信息的期望,這樣,在實(shí)際工作中初始就可以把與某一研究問(wèn)題相關(guān)而可能得到的變量(指標(biāo))都納入分析過(guò)程,再用少數(shù)幾個(gè)主成分濃縮這些有用信息(假定已剔除了重疊信息),然后對(duì)主成分進(jìn)行深入分析。在對(duì)待重疊信息方面,生成的新的綜合變量(主成分)是有效剔除了原始變量中的重疊信息,還是僅僅按原來(lái)的模式將原始信息中的絕大部分用幾個(gè)不相關(guān)的新變量表示出來(lái),這一點(diǎn)還值得討論。2023/2/254

目錄上頁(yè)下頁(yè)返回結(jié)束

為說(shuō)明這個(gè)問(wèn)題,我們有必要再回顧一下主成分的求解過(guò)程,我們僅就從協(xié)方差矩陣出發(fā)求主成分的過(guò)程予以說(shuō)明,對(duì)相關(guān)陣有類似的情況。對(duì)于維指標(biāo)的情況,我們得到其協(xié)方差矩陣如下:現(xiàn)在考慮一種極端情況,即有兩個(gè)指標(biāo)完全相關(guān),不妨設(shè)第一個(gè)指標(biāo)在進(jìn)行主成分分析時(shí)考慮了兩次。則協(xié)方差矩陣變?yōu)椋?023/2/255

目錄上頁(yè)下頁(yè)返回結(jié)束

此時(shí)進(jìn)行主成分分析的時(shí)候?qū)嶋H上是由維矩陣進(jìn)行。的行列式的值為零但仍滿足非負(fù)定,只不過(guò)其最小的特征值為0,由出發(fā)求解主成分,其方差總和不再是而是變?yōu)?,也就是說(shuō),第一個(gè)指標(biāo)在分析過(guò)程中起到了加倍的作用,其重疊信息完全象其他指標(biāo)提供的信息一樣在起作用。2023/2/256

目錄上頁(yè)下頁(yè)返回結(jié)束

這樣求得的主成分已經(jīng)與沒(méi)有第一個(gè)指標(biāo)重疊信息時(shí)不一樣了,因?yàn)橹鞒煞址讲畹目偤鸵呀?jīng)變?yōu)槎皇?,每個(gè)主成分解釋方差的比例也相應(yīng)發(fā)生變化,而整個(gè)分析過(guò)程沒(méi)有對(duì)重疊信息作任何特殊處理。也就是說(shuō),由于對(duì)第一個(gè)指標(biāo)羅列了兩次,其在生成的主成分構(gòu)成中也起到了加倍的作用。這一點(diǎn)是尤其應(yīng)該引起注意的,這意味著主成分分析對(duì)重疊信息的剔除是無(wú)能為力的,同時(shí)主成分分析還損失了一部分信息。對(duì)此文獻(xiàn)[4]舉例進(jìn)行了說(shuō)明。因此,在實(shí)際工作中,在選取初始變量進(jìn)入分析時(shí)應(yīng)該小心,對(duì)原始變量存在多重共線性的問(wèn)題,在應(yīng)用主成分分析方法時(shí)一定要慎重。應(yīng)該考慮所選取的初始變量是否合適,是否真實(shí)地反映了事物的本來(lái)面目,如果是出于避免遺漏某些信息而特意選取了過(guò)多的存在重疊信息的變量時(shí),就要特別注意應(yīng)用主成分分析所得到的結(jié)果。2023/2/257

目錄上頁(yè)下頁(yè)返回結(jié)束

如果所得到的樣本協(xié)方差矩陣(或是相關(guān)陣)最小的特征值接近于0,那么就有(5.11)進(jìn)而推出(5.12)這就意味著,中心化以后的原始變量之間存在著多重共線性,即原始變量存在著不可忽視的重疊信息。因此,在進(jìn)行主成分分析得出協(xié)方差陣或是相關(guān)陣發(fā)現(xiàn)最小特征根接近于零時(shí),應(yīng)該注意對(duì)主成分的解釋,或者考慮對(duì)最初納入分析的指標(biāo)進(jìn)行篩選,由此可以看出,雖然主成分分析不能有效地剔除重疊信息,但它至少可以發(fā)現(xiàn)原始變量是否存在著重疊信息,這對(duì)我們減少分析中的失誤是有幫助的。2023/2/258

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.5主成分分析步驟及框圖§5.5.1主成分分析步驟§5.5.2主成分分析的邏輯框圖2023/2/259

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.5.1主成分分析步驟由上面討論大體上已經(jīng)可以明了進(jìn)行主成分分析的步驟,對(duì)此進(jìn)行歸納如下:1.根據(jù)研究問(wèn)題選取初始分析變量;2.根據(jù)初始變量特性判斷由協(xié)方差陣求主成分還是由相關(guān)陣求主成分;3.求協(xié)差陣或相關(guān)陣的特征根與相應(yīng)標(biāo)準(zhǔn)特征向量;4.判斷是否存在明顯的多重共線性,若存在,則回到第一步;5.得到主成分的表達(dá)式并確定主成分個(gè)數(shù),選取主成分;6.結(jié)合主成分對(duì)研究問(wèn)題進(jìn)行分析并深入研究。2023/2/260

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.5.2主成分分析的邏輯框圖特征值標(biāo)準(zhǔn)正交特征向量是否有接近0的情況是其他處理否主成分對(duì)主成分進(jìn)行分析深入分析選擇初始變量度量或取值范圍相同?是否(否)對(duì)比分析相關(guān)陣分析協(xié)方差陣主成分分析的邏輯框圖見(jiàn)圖5-3:【例5.2】

數(shù)據(jù)集Employeedata為Midwestern銀行在1969-1971年之間雇員情況的數(shù)據(jù),共包括474條觀測(cè)及如下10個(gè)變量:Id(觀測(cè)號(hào))、Gender(性別)、Bdate(出生日期)、Educ(受教育程度(年數(shù)))、Jobcat(工作種類)、Salary(目前年薪)、Salbegin(開(kāi)始受聘時(shí)的年薪)、Jobtime(受雇時(shí)間(月))、Prevexp(受雇以前的工作時(shí)間(月))、Minority(是否少數(shù)民族)。下面我們用主成分分析方法處理該數(shù)據(jù),以期用少數(shù)變量來(lái)描述該地區(qū)居民的雇傭情況。2023/2/261

目錄上頁(yè)下頁(yè)返回結(jié)束

§5.6主成分分析的上機(jī)實(shí)現(xiàn)SPSS軟件FACTOR模塊提供了主成分分析的功能。下面先以SPSS軟件包自帶的數(shù)據(jù)Employeedata.sav為例介紹主成分分析的上機(jī)實(shí)現(xiàn)方法,在SPSS軟件的安裝目錄下可以找到該數(shù)據(jù)集;然后,我們舉一個(gè)實(shí)際的例子介紹主成分分析的具體應(yīng)用。2023/2/262

目錄上頁(yè)下頁(yè)返回結(jié)束

進(jìn)入SPSS軟件,打開(kāi)數(shù)據(jù)集Employeedata.sav。依次點(diǎn)選Analyze→DataReduction→Factor….進(jìn)入FactorAnalysis(因子分析)對(duì)話框。(在SPSS軟件中,主成分分析與因子分析均在FactorAnalysis模塊中完成。此時(shí),數(shù)據(jù)集Employeedata.sav中的變量名均已顯示在左邊的窗口中,依次選中變量educ、salary、salbegin、jobtime、prevexp并點(diǎn)向右的箭頭按鈕,這五個(gè)變量便進(jìn)入variables窗口(此時(shí)若選中variables窗口中的變量,則窗口左側(cè)的箭頭按鈕即轉(zhuǎn)向左側(cè),點(diǎn)此按鈕即可剔除所選中變量)。點(diǎn)擊右側(cè)的OK按鈕,即可得到如下輸出結(jié)果5-1。2023/2/263

目錄上頁(yè)下頁(yè)返回結(jié)束

輸出結(jié)果5-1(2)輸出結(jié)果5-1(1)2023/2/264

目錄上頁(yè)下頁(yè)返回結(jié)束

輸出結(jié)果5-1(3)2023/2/265

目錄上頁(yè)下頁(yè)返回結(jié)束

其中Communalities給出了該次分析從每個(gè)原始變量中提取的信息,表格下面的注示表明,該次分析是用Factoranalysis模塊默認(rèn)的信息提取方法即主成分分析完成的??梢钥吹匠芙逃潭刃畔p失較大外,主成分幾乎包含了各個(gè)原始變量至少90%的信息。TotalVarianceExplained表則顯示了各主成分解釋原始變量總方差的情況,SPSS默認(rèn)保留特征根大于1的主成分,在本例中看到當(dāng)保留3個(gè)主成分為宜,這3個(gè)主成分集中了原始5個(gè)變量信息的90.66%,可見(jiàn)效果是比較好的。實(shí)際上,主成分解釋總方差的百分比也可以由Communalities表中計(jì)算得出,即(0.896+0.916+0.999+0.968+0.754)/5=90.66%。ComponentMatrix表中給出了標(biāo)準(zhǔn)化原始變量用求得的主成分線性表示的近似表達(dá)式,我們以表中CurrentSalary一行為例,不妨用來(lái)表示各個(gè)主成分,則由ComponentMatrix表可以得到:標(biāo)準(zhǔn)化的salary2023/2/266

目錄上頁(yè)下頁(yè)返回結(jié)束

在上面的主成分分析中,SPSS默認(rèn)是從相關(guān)陣出發(fā)求解主成分,且默認(rèn)保留特征根大于1的主成分,實(shí)際上,對(duì)主成分的個(gè)數(shù)我們可以自己確定,方法為:進(jìn)入FactorAnalysis對(duì)話框并選擇好變量之后,點(diǎn)擊Extraction選項(xiàng),在彈出的對(duì)話框中有一個(gè)Extract選擇框,默認(rèn)是選擇Eigenvaluesover1也就是保留特征根大于1的主成分,我們可以輸入別的數(shù)值來(lái)改變SPSS軟件保留特征根的大?。涣硗猓€可以選擇NumberofFactors選項(xiàng)直接確定主成分的個(gè)數(shù)。在實(shí)際進(jìn)行主成分分析時(shí)可以先按照默認(rèn)設(shè)置做一次主成分,然后根據(jù)輸出結(jié)果確定應(yīng)保留主成分的個(gè)數(shù),用該方法進(jìn)行設(shè)定后重新分析。因?yàn)槲覀兩厦娴慕Y(jié)果是默認(rèn)從相關(guān)陣出發(fā)得到的,而由相關(guān)陣出發(fā)求得的主成分其性質(zhì)有簡(jiǎn)單的表達(dá)形式,我們可以方便地加以驗(yàn)證。2023/2/267

目錄上頁(yè)下頁(yè)返回結(jié)束

由ComponentMatrix中的結(jié)果可以得到:=第一主成分的方差,這就驗(yàn)證了性質(zhì)4。又有:這恰好與Communalities表中三個(gè)主成分提取salary變量的信息相等。我們重做一遍主成分分析,此次將5個(gè)主成分全部保留,得到ComponentMatrix表如輸出結(jié)果5-2:2023/2/268

目錄上頁(yè)下頁(yè)返回結(jié)束

輸出結(jié)果5-2可以看到前三個(gè)主成分的相應(yīng)結(jié)果與輸出結(jié)果5-1中的對(duì)應(yīng)部分結(jié)果是一致的。對(duì)上表中結(jié)果有如下關(guān)系式:2023/2/269

目錄上頁(yè)下頁(yè)返回結(jié)束

這就驗(yàn)證了性質(zhì)5。由此表還可以得到標(biāo)準(zhǔn)化原始變量用各主成分線性表示的精確的表達(dá)式,以仍以CurrentSalary為例,有:標(biāo)準(zhǔn)化的salary

由SPSS軟件默認(rèn)選項(xiàng)輸出的結(jié)果,我們還不能得到用原始變量表示出主成分的表達(dá)式,要得到這個(gè)結(jié)果及其他一些有用的結(jié)果,就需要對(duì)FactorAnalysis模塊中的設(shè)置做一些調(diào)整,方法如下:進(jìn)入FactorAnalysis對(duì)話框并選擇好變量之后,點(diǎn)擊對(duì)話框下部的Scores按鈕進(jìn)入FactorScores對(duì)話框,選擇Displayfactorscorecoefficientmatrix選項(xiàng)并按Continue繼續(xù),該選項(xiàng)是讓系統(tǒng)輸出主成分得分系數(shù)矩陣。點(diǎn)擊OK按鈕運(yùn)行,則除了默認(rèn)結(jié)果,還輸出如下輸出結(jié)果5-3:2023/2/270

目錄上頁(yè)下頁(yè)返回結(jié)束

輸出結(jié)果5-3上表中給出了用原始變量表示主成分的系數(shù)信息。因?yàn)橄到y(tǒng)默認(rèn)是從相關(guān)矩陣出發(fā)進(jìn)行分析,所以,上面表格中的系數(shù)是將原始變量標(biāo)準(zhǔn)化后表示主成分的系數(shù)。也就是說(shuō),有下式成立:

2023/2/271

目錄上頁(yè)下頁(yè)返回結(jié)束

應(yīng)當(dāng)注意的是,此處SPSS給出的用原始變量表示主成分的表達(dá)式得到的是標(biāo)準(zhǔn)化后的主成分,也就是說(shuō),這樣求得的主成分的方差是1,而不是原始變量相關(guān)矩陣的各個(gè)特征根了。如上式中,第一主成分的方差為2.477,而用上式求得的主成分方差為1,要得出未標(biāo)準(zhǔn)化的主成分與原始變量的表達(dá)式,只需將SPSS軟件給出的系數(shù)前面乘以主成分方差的平方根即可,未標(biāo)準(zhǔn)化第一主成分與原始變量的關(guān)系式如下:類似可以寫出第二、第三個(gè)主成分用標(biāo)準(zhǔn)化后的原始變量表示的表達(dá)式。2023/2/272

目錄上頁(yè)下頁(yè)返回結(jié)束

【例5.3】在企業(yè)經(jīng)濟(jì)效益的評(píng)價(jià)中,設(shè)計(jì)的指標(biāo)往往很多。為了簡(jiǎn)化系統(tǒng)結(jié)構(gòu),抓住經(jīng)濟(jì)效益評(píng)價(jià)中的主要問(wèn)題,我們可由原始數(shù)據(jù)矩陣出發(fā)求主成分。在對(duì)我國(guó)部分省、市、自治區(qū)獨(dú)立核算的工業(yè)企業(yè)的經(jīng)濟(jì)效益評(píng)價(jià)中,涉及到9項(xiàng)指標(biāo),原始數(shù)據(jù)見(jiàn)表5-7,即樣品數(shù)n=28,變量數(shù)p=9。2023/2/273

目錄上頁(yè)下頁(yè)返回結(jié)束

100固定資產(chǎn)原值實(shí)現(xiàn)值(%)100元固定資產(chǎn)原值實(shí)現(xiàn)利稅(%)100元資金實(shí)現(xiàn)利稅(%)100元工業(yè)總產(chǎn)值實(shí)現(xiàn)利稅(%)100元銷售收入實(shí)現(xiàn)利稅(%)每噸標(biāo)準(zhǔn)煤實(shí)現(xiàn)工業(yè)產(chǎn)值(元)每千瓦時(shí)電力實(shí)現(xiàn)工業(yè)產(chǎn)值(元)全員勞動(dòng)生產(chǎn)率(元/人.年)100元流動(dòng)資金實(shí)現(xiàn)產(chǎn)值(元)北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)65.811.0811.0612.1516.848.821.6510166284.7內(nèi)蒙(5)54.799.249.5416.866.278941.87564225.4遼寧(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龍江(8)75.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江蘇(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表5-72023/2/274

目錄上頁(yè)下頁(yè)返回結(jié)束

江西(14)94.9414.714.1815.496.6916692.2410463274.4山東(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309廣東(19)136.4423.6420.8317.337.8529593.7116259334廣西(20)100.7222.0420.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5貴州(22)59.0514.4814.3524.538.0910681.329710206.7云南(23)73.7221.9122.729.729.3814471.9412517295.8陜西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肅(25)59.6214.0716.2423.5911.349261.1313084246.8青海(26)51.668.328.2616.117.0510551.319246176.49寧夏(27)52.958.258.8215.576.588341.1210406245.4新疆(28)60.2911.2613.1418.688.3910412.910983266續(xù)表5-72023/2/275

目錄上頁(yè)下頁(yè)返回結(jié)束

0.4235231.3384051.5902821.6875562.2396340.4819710.9547461.2603710.0488050.9951991.4096491.6314530.6672281.0658731.1887581.8553941.1338441.200166-0.14352-0.271-0.10906-0.29487-0.00854-0.57821-0.45763-0.152790.49097-0.81499-0.98577-1.08721-1.811432.740046-1.79273-0.84655-0.56349-0.15927-1.06992-1.20067-1.303-0.61894-1.14919-0.86449-0.69303-1.00129-1.18752-0.150240.1868270.5837370.7710330.694243-0.3171-0.11989-2.27170.308902-0.47486-0.71949-0.7039-0.68477-0.82907-0.43245-0.4167-0.69238-0.34307-0.58206-0.43218-0.290780.393790.359408-0.47334-0.22224-0.62003-0.466192.0095833.0809562.9886561.3001862.0961332.7554331.6711712.9832842.1625242.4302940.9494850.548246-1.48989-0.582541.5557832.264781.6592991.9648512.4650251.5813351.002539-0.85187-0.041662.1944081.7530481.43671.5885780.2264810.1377740.199007-0.15562-1.02776-0.26257-0.25294-0.157670.8186910.5038680.3503370.172033-0.24423-0.383850.5050410.156444-0.227320.126834-0.14028-0.56298-0.64428-0.9658-0.99465-0.05179-0.24271-0.51352-0.337870.3839290.2814290.308322-0.16574-0.107890.1065570.3304330.725830.645294表5-82023/2/276

目錄上頁(yè)下頁(yè)返回結(jié)束

-0.34774-0.25932-0.218380.206435-0.63406-0.43245-0.60092-0.38161-0.301460.068569-0.00238-0.03382-0.13536-0.085810.1159940.279260.375190.2603510.070190.2277050.3636890.335558-0.24771-0.4681-0.50881-0.059580.2620850.8206170.4811450.299804-0.49995-0.567831.3009631.2617850.4616730.695579-0.006450.2942770.3097410.6520370.1018430.014276-0.35529-0.180720.043603-0.37669-0.60386-0.6457-0.60122-0.52735-0.42825-0.14036-0.30489-0.89101-0.97128-0.58868-0.620141.322972-0.47952-0.68202-1.18429-0.64022-1.51177-0.631610.2790930.5652822.636993-0.00486-0.28459-0.54975-0.167930.033199-0.53205-0.74635-0.87284-0.62654-0.074770.013227-0.40646-0.36109-1.27595-0.95809-0.63656-0.351821.084980.71632-0.83093-1.37875-0.07253-0.81645-1.14239-1.30812-1.48472-0.80883-0.86219-0.69566-1.19453-0.71829-2.03561-1.11252-1.3163-1.40522-0.94555-1.03512-0.92741-1.38899-0.52311-0.84073-0.94257-0.96475-0.79192-0.15815-0.36913-0.710340.432779-0.42603-0.48353續(xù)表5-82023/2/277

目錄上頁(yè)下頁(yè)返回結(jié)束

將表5-8數(shù)據(jù)導(dǎo)入spss軟件,依次點(diǎn)選Analyze-DataReduction-Factor進(jìn)入FactorAnalysis對(duì)話框。(在spss中,主成分分析與因子分析均在FactorAnalysis模塊中完成。)如圖5-4所示:圖5-42023/2/278

目錄上頁(yè)下頁(yè)返回結(jié)束

此時(shí),數(shù)據(jù)集5-5.sav中的變量名均顯示在對(duì)話框左邊的窗口中,選擇變量x1,x2,x3,x4,x5,x6,x7,x8,x9進(jìn)入variables窗口中,操作如圖5-5所示:圖5-52023/2/279

目錄上頁(yè)下頁(yè)返回結(jié)束

圖5-5點(diǎn)擊descriptives按鈕,在彈出的對(duì)話框中,在correlationmatrix中選擇coefficients。回到原對(duì)話框點(diǎn)擊右側(cè)的Ok,即可得到輸出結(jié)果5-4

和輸出結(jié)果5-5。2023/2/280

目錄上頁(yè)下頁(yè)返回結(jié)束

輸出結(jié)果5-42023/2/281

目錄上頁(yè)下頁(yè)返回結(jié)束

輸出結(jié)果5-5由輸出結(jié)果5-4看到,前面2個(gè)主成分、的方差和占全部方差的比例為84.7%。我們就選取為第一主成分,為第二主成分,且這兩個(gè)主成分之方差和占全部方差的91.6%,即基本上保留了原來(lái)指標(biāo)的信息,這樣由原來(lái)的9個(gè)指標(biāo)轉(zhuǎn)化為2個(gè)新指標(biāo),起到了降維的作用。2023/2/282

目錄上頁(yè)下頁(yè)返回結(jié)束

SPSS軟件得到主成分系數(shù)矩陣如下:得分系數(shù)矩陣2023/2/284

目錄上頁(yè)下頁(yè)返回結(jié)束

由上表得到前2個(gè)主成分,,的線性組合為:(5.13)

對(duì)所選主成分作經(jīng)濟(jì)解釋。主成分分析的關(guān)鍵在于能否給主成分賦予新的意義,給出合理的解釋,這個(gè)解釋應(yīng)根據(jù)主成分的計(jì)算結(jié)果結(jié)合定性分析來(lái)進(jìn)行。主成分是原來(lái)變量的線性組合,在這個(gè)線性組合中,各變量的系數(shù)有大有小,有正有負(fù),有的大小相當(dāng),因而不能簡(jiǎn)單地認(rèn)為這個(gè)主成分是某個(gè)原變量的屬性的作用。線性組合中個(gè)變量的系數(shù)的絕對(duì)值大者表明該主成分主要綜合了絕對(duì)值大的變量,有幾個(gè)變量系數(shù)大小相當(dāng)時(shí),應(yīng)認(rèn)為這一主成分是這幾個(gè)變量的總和,這幾個(gè)變量綜合在一起應(yīng)賦予怎樣的經(jīng)濟(jì)意義,要結(jié)合經(jīng)濟(jì)專業(yè)知識(shí),給出恰如其分的解釋,才能達(dá)到深刻分析經(jīng)濟(jì)成因的目的。2023/2/285

目錄上頁(yè)下頁(yè)返回結(jié)束

我們所取的例子中有9個(gè)指標(biāo),這9個(gè)指標(biāo)有很強(qiáng)的依賴性,通過(guò)主成分計(jì)算后,我們選擇了2個(gè)主成分,這兩個(gè)主成分有著明顯的經(jīng)濟(jì)意義。第一主成分的線性組合中除了100元工業(yè)總產(chǎn)值實(shí)現(xiàn)利稅和100元銷售收入實(shí)現(xiàn)利稅外,其余變量的系數(shù)相當(dāng),所以第一主成分可看成是的綜合變量。可以解釋為第一主成分反映了工業(yè)生產(chǎn)中投入的資金、勞動(dòng)力所產(chǎn)生的效果,它是“投入”與“產(chǎn)出”之比。第一主成分所占信息總量為68.3%,在我國(guó)目前的工業(yè)企業(yè)中,經(jīng)濟(jì)效益首先反映在投入與產(chǎn)出之比上,其中固定資產(chǎn)的有效所產(chǎn)生的經(jīng)濟(jì)效益更大一些。第二主成分是把工業(yè)生產(chǎn)中所得總量(即工業(yè)總產(chǎn)值和銷售收入)與局部量(即利稅)進(jìn)行比較,反映了“產(chǎn)出”對(duì)國(guó)家所作的貢獻(xiàn)。這樣,在抓企業(yè)經(jīng)濟(jì)效益活動(dòng)中,就應(yīng)注重投入與產(chǎn)出之比和產(chǎn)出對(duì)國(guó)家所作的貢獻(xiàn),抓住了這2個(gè)方面,經(jīng)濟(jì)效益就一定會(huì)提高。2023/2/286

目錄上頁(yè)下頁(yè)返回結(jié)束

通常為了分析各樣品在主成分所反映的經(jīng)濟(jì)意義方面的情況,還將標(biāo)準(zhǔn)化后的原始數(shù)據(jù)帶入主成分表達(dá)式計(jì)算出各樣品的主成分得分,由各樣品的主成分得分(當(dāng)主成分個(gè)數(shù)為2時(shí))就可在二維空間中描出各樣品的分布情況。將表5-8數(shù)據(jù)代入式(5.13)式,得到28個(gè)省、市、自治區(qū)的主成分得分,見(jiàn)表5-9。將這28各樣品在平面直角坐標(biāo)系上描出來(lái),進(jìn)而可進(jìn)行樣品分類。主成分得分圖見(jiàn)圖5-6。2023/2/287

目錄上頁(yè)下頁(yè)返回結(jié)束

主成分得分操作:在FactorAnalysis主對(duì)話框,點(diǎn)擊下方的Scores按鈕,進(jìn)入FactorScores對(duì)話框,選中saveasvariables復(fù)選框,點(diǎn)擊continue。系統(tǒng)默認(rèn)用回歸方法求得因子得分。見(jiàn)圖5-7。圖5-72023/2/288

目錄上頁(yè)下頁(yè)返回結(jié)束

樣品號(hào)第一主成分得分第二主成分得分11.135631.9987521.506450.442053-0.19631-0.080544-0.815360.316885-1.20017-0.603566-0.168561.044517-0.65065-0.667128-0.419990.5704192.837911.13592101.5905-2.31268111.76154-1.50077120.02914-0.493130.20663-0.4310314-0.4798-1.03236150.39695-0.2989316-0.414350.08055170.14309-0.2474118-0.017560.31942190.73347-1.08331200.055450.5923621-0.56854-0.5028522-0.904951.0864123-0.008531.9777124-0.65494-0.3346325-0.663361.4408126-1.37435-0.4882327-1.2372-0.6938928-0.62211-0.23546表5-9續(xù)表5-92023/2/289

目錄上頁(yè)下頁(yè)返回結(jié)束

圖5-6由圖5-6可看出,分布在第一象限的是上海、北京、天津、廣西這4個(gè)省,這四個(gè)省、市、自治區(qū)的經(jīng)濟(jì)效益在全國(guó)來(lái)說(shuō)屬于比較好的,其中上海的經(jīng)濟(jì)效益最好。分布在第四象限的江蘇、浙江、安徽、福建、山東、湖北、廣東七個(gè)省、市、自治區(qū)。因?yàn)榈谒南笙薜闹饕卣魇堑谝恢鞒煞郑谝恢鞒煞终夹畔⒖偭康谋戎刈畲?,所以這七個(gè)省的經(jīng)濟(jì)效益也算比較好。分布在第二象限和第三象限的地區(qū)可屬同一類,經(jīng)濟(jì)效益較差。2023/2/290

目錄上頁(yè)下頁(yè)返回結(jié)束

廠家編號(hào)及指標(biāo)固定資產(chǎn)利稅率資金利稅率銷售收入利稅率資金利潤(rùn)率固定資產(chǎn)產(chǎn)值率流動(dòng)資金周轉(zhuǎn)天數(shù)萬(wàn)元產(chǎn)值能耗全員勞動(dòng)生產(chǎn)率1琉璃河16.6826.7531.8418.453.255528.831.752邯鄲19.727.5632.9419.259.825532.922.873大同15.223.432.9816.2446.786541.691.534哈爾濱7.298.9721.34.7634.396239.281.635華新29.4556.4940.7443.6875.326926.682.146湘鄉(xiāng)32.9342.7847.9833.8766.465032.872.67柳州25.3937.8236.7627.5668.186335.792.438峨嵋15.0519.4927.2114.216.137635.761.759耀縣19.8228.7833.4120.1759.257139.131.8310永登21.1335.239.1626.5252.476235.081.7311工源16.7528.7229.6219.2355.765830.081.5212撫順15.8328.0326.417.4361.196132.751.613大連16.5329.7332.4920.6350.416937.571.3114江南22.2454.5931.053767.956332.331.5715江油12.9220.8225.1212.5451.076639.181.83表5-10【例5.4】

全國(guó)重點(diǎn)水泥企業(yè)經(jīng)濟(jì)效益綜合評(píng)價(jià)例。利用主成分綜合評(píng)價(jià)全國(guó)重點(diǎn)水泥企業(yè)的經(jīng)濟(jì)效益。原始數(shù)據(jù)(數(shù)據(jù)來(lái)自1984年中國(guó)統(tǒng)計(jì)年鑒)見(jiàn)表5-10。2023/2/291

目錄上頁(yè)下頁(yè)返回結(jié)束

經(jīng)標(biāo)準(zhǔn)化后的數(shù)據(jù)取名為“重點(diǎn)水泥廠”見(jiàn)表5-11。x1x2x3x4x5x6x7x8-0.14367-0.35795-0.11356-0.36669-0.038791.1933471.426821-0.277120.246189-0.293880.050803-0.287320.3561571.1933470.2890352.253119-0.33473-0.622920.056779-0.581-0.42773-0.37328-1.3981-0.77413-1.35585-1.76431-1.68844-1.71997-1.172550.043644-1.00954-0.548221.5048441.9944361.2162772.1414281.287927-0.872792.164810.6039441.9540870.9099992.2980751.1681420.7553152.2116560.3012351.643150.9807270.5176720.6215860.5421040.858711-0.09974-0.35411.259096-0.35409-0.9322-0.80537-0.7824-2.87137-1.6204-0.34791-0.27712表5-112023/2/292

目錄上頁(yè)下頁(yè)返回結(jié)束

續(xù)表5-110.26168-0.197380.12103-0.191090.321892-1.10143-0.98378-0.096390.4307920.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.13464-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.2534-0.2567-0.9264-0.4

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論