主成分分析(數(shù)學(xué)建模)_-_副本_第1頁(yè)
主成分分析(數(shù)學(xué)建模)_-_副本_第2頁(yè)
主成分分析(數(shù)學(xué)建模)_-_副本_第3頁(yè)
主成分分析(數(shù)學(xué)建模)_-_副本_第4頁(yè)
主成分分析(數(shù)學(xué)建模)_-_副本_第5頁(yè)
已閱讀5頁(yè),還剩91頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、主成分分析要求:主成分分析要求:1 1、主成分假定條件?、主成分假定條件?2 2、主成分的方差與原始變量方差有何關(guān)系?、主成分的方差與原始變量方差有何關(guān)系?3 3、主成分如何求解?主成分分析的結(jié)構(gòu),即、主成分如何求解?主成分分析的結(jié)構(gòu),即線性組合的系數(shù)和方差的數(shù)學(xué)上的含義?線性組合的系數(shù)和方差的數(shù)學(xué)上的含義?4 4、主成分分析如何評(píng)價(jià)?、主成分分析如何評(píng)價(jià)?5 5、主成分分析的應(yīng)用。、主成分分析的應(yīng)用。 一項(xiàng)十分著名的工作是美國(guó)的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國(guó)民經(jīng)濟(jì)的研究。他曾利用美國(guó)1929一1938年各年的數(shù)據(jù),得到了17個(gè)反映國(guó)民收入與支出的變量要素,例如雇主補(bǔ)貼、消費(fèi)資料

2、和生產(chǎn)資料、純公共支出、凈增庫(kù)存、股息、利息外貿(mào)平衡等等。1 引言引言 一、一個(gè)例子一、一個(gè)例子 在進(jìn)行主成分分析后,斯通竟以97.4的精度,用三新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢(shì)F3。更有意思的是,這三個(gè)變量其實(shí)都是可以直接測(cè)量的。斯通將他得到的主成分與實(shí)際測(cè)量的總收入I、總收入變化率I以及時(shí)間t因素做相關(guān)分析,得到下表: F1F1F2F2F3F3i ii it tF1F11 1 F2F20 01 1 F3F30 00 01 1 i i0.9950.995-0.041-0.0410.0570.057l l

3、 i i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l l t t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1 主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡(jiǎn)化的分析方法。 在社會(huì)經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問(wèn)題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對(duì)象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。 二、主成分分析的意義 主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化,也就是說(shuō),對(duì)

4、高維變量空間進(jìn)行降維處理。 很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。 在力求數(shù)據(jù)信息丟失最少的原則下,研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來(lái)指標(biāo)變異方面的信息,這種分析叫主成分分析,這些綜合指標(biāo)就稱為主成分,主成分相互獨(dú)立。1 1、主成分假定條件?、主成分假定條件?2 2、主成分的方差與原始變量方差有何關(guān)系?、主成分的方差與原始變量方差有何關(guān)系?3 3、主成分如何求解?主成分分析的結(jié)構(gòu),即、主成分如何求解?主成分分析的結(jié)構(gòu),即系數(shù)和方差的數(shù)學(xué)上的含義?系數(shù)和方差的數(shù)學(xué)上的含義?4 4、主成分分析如何評(píng)價(jià)?、主成分分析如何評(píng)價(jià)?5

5、 5、主成分分析的應(yīng)用。、主成分分析的應(yīng)用。要討論的問(wèn)題是:要討論的問(wèn)題是: (1) 基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。 (2) 選擇幾個(gè)主成分。主成分分析的目的是簡(jiǎn)化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。 (3)如何解釋主成分所包含的經(jīng)濟(jì)意義。主成分分析中要思考的問(wèn)題2 數(shù)學(xué)形狀與幾何解釋數(shù)學(xué)形狀與幾何解釋 假設(shè)我們所討論的實(shí)際問(wèn)題中,有假設(shè)我們所討論的實(shí)際問(wèn)題中,有p p個(gè)指標(biāo),個(gè)指標(biāo),我們把這我們把這p p個(gè)指標(biāo)看

6、作個(gè)指標(biāo)看作p p個(gè)變量,記為個(gè)變量,記為X X1 1,X X2 2,X Xp p,主成分分析就是要把這,主成分分析就是要把這p p個(gè)指標(biāo)的問(wèn)題,轉(zhuǎn)變個(gè)指標(biāo)的問(wèn)題,轉(zhuǎn)變?yōu)橛懻摓橛懻損 p個(gè)指標(biāo)的線性組合的問(wèn)題,而這些新的指?jìng)€(gè)指標(biāo)的線性組合的問(wèn)題,而這些新的指標(biāo)標(biāo)F F1 1,F(xiàn) F2 2,F(xiàn) Fk k(kp(kp),按照保留主要信息量),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111滿足如下的條件:222121iipiuuu012ijCo

7、v FFijijp( , ), ,12()()pVar FVar FVar F( )主成分之間相互獨(dú)立,即無(wú)重疊的信息。即主成分之間相互獨(dú)立,即無(wú)重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即主成分的方差依次遞減,重要性依次遞減,即每個(gè)主成分的系數(shù)平方和為每個(gè)主成分的系數(shù)平方和為1。即。即 為了方便,我們?cè)诙S空間中討論主成分的幾何意義。 設(shè)有n個(gè)樣品,每個(gè)樣品有兩個(gè)觀測(cè)變量xl和x2,在由變量xl和x2 所確定的二維平面中,n個(gè)樣本點(diǎn)所散布的情況如橢圓狀。由圖可以看出這n個(gè)樣本點(diǎn)無(wú)論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測(cè)變量xl 的方差和x2 的

8、方差定量地表示。顯然,如果只考慮xl和x2 中的任何一個(gè),那么包含在原始數(shù)據(jù)中的經(jīng)濟(jì)信息將會(huì)有較大的損失。 2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F 主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸 上面的四張圖中,哪一種有更高的上面的四張圖中,哪一種有更高的精度?原始變量的信息損失最少?精度?原始變量的信息損失最少? 旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣品點(diǎn)在Fl軸方向上的離 散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大 部分信息,在研究某經(jīng)濟(jì)問(wèn)題時(shí),即使不考慮變量

9、F2也無(wú)損大局。經(jīng)過(guò)上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對(duì)數(shù)據(jù)中包含的信息起到了濃縮作用。 Fl,F(xiàn)2除了可以對(duì)包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問(wèn)題時(shí)避免了信息重疊所帶來(lái)的虛假性。二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡(jiǎn)化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。 一、線性代數(shù)的結(jié)論一、線性代數(shù)的結(jié)論 若A是p階實(shí)對(duì)稱陣,其中i(i=1,2,p)是A的特征根。即有ui ,使iiiAuuUi是正交的特征向量是正交的特征向量。iiiiiiu Auuu.12p12puuuA u

10、uu12000000pP PU AU則一定可以找到正交陣U,使上述矩陣的特征根所對(duì)應(yīng)的單位特征向量為 ppppppuuuuuuuuu212222111211),(p1uuU 實(shí)對(duì)稱陣A A屬于不同特征根所對(duì)應(yīng)的特征向量是正交的,即有p1uu,則U U為IUUUU(一)(一) 第一主成分第一主成分設(shè)X的協(xié)方差陣為2212222111221pppppx二、主成分的推導(dǎo) 由于x x為非負(fù)定的對(duì)稱陣,則有利用線性代數(shù)的知識(shí)可得,必存在正交陣U,使得p001UUX 其中1, 2, p為x的特征根,不妨假設(shè)1 2 p 。而U恰好是由特征根相對(duì)應(yīng)的特征(列)向量所組成的正交陣。 ppppppuuuuuuuu

11、u212222111211),(p1uuUpiiiuuu,21iUPi, 2 , 1 下面我們來(lái)看,是否由下面我們來(lái)看,是否由U U的第一列元素所構(gòu)成為原始的第一列元素所構(gòu)成為原始變量的線性組合是否有最大的方差。變量的線性組合是否有最大的方差。設(shè)有P維正交向量11111ppFa Xa X a X1211111)(aUUaaapFV121111,paaaa12p 12112p1puuau ,u ,uaupii121)( ua piii11auuaaUUa1aa1 1 1piiiia u u a21()piiia u 當(dāng)且僅當(dāng)a1 =u1時(shí),即 時(shí),有最大的方差1。因?yàn)?ppXuXuF11111第

12、一主成分的信息不夠,則需要尋找第二主成分。1()()Var FVar1u x( )Var11ux u11u u1111u u(二)(二) 第二主成分第二主成分 在約束條件 和 下,尋找第二主成分。 0),cov(21FF21212ppFa XaX因?yàn)?22112 2 1cov(,)cov()0F Fu12u x,a xaua 則,對(duì)p維向量 ,有222()V Faa2a212a a221piii2a u u a222a UU a222a a2 ppXuXuXuF22221122 所以如果取線性變換, 則 的方差次大。2F221piiiia u u a222212()()ppiiiii2a ua

13、 u(三)(三) 第三主成分第三主成分在約束條件13cov(,)0F F31313ppFu XuX因?yàn)?),cov(),cov(121122121uuuuxuxuFF 則,對(duì)p維向量 ,有2u23cov(,)0F F313a a尋找第三主成分 3331piiiu u u u333u UU u333u u331312323ppFu Xu XuX 所以如果取線性變換, 則 的方差次大。3F333()V Fuu331piiiiu u u u2232313()()ppiiiiiu uu u 思考題:第k(kp)個(gè)特征根約為0,說(shuō)明什么? 類推 ppppppppppXuXuXuFXuXuXuFXuXuX

14、uF22112222112212211111 說(shuō)明第k到第p個(gè)特征根所對(duì)應(yīng)的特征向量構(gòu)成的線性組合等于常數(shù),因?yàn)槠浞讲顬榱?。寫為矩陣形式:XUFppppppuuuuuuuuu212222111211),(p1uuU),(21pXXXX4 4 主成分的性質(zhì)主成分的性質(zhì)一、均值一、均值UU )(xE二、方差為所有特征根之和二、方差為所有特征根之和piiFVar1)(2222121pp 說(shuō)明主成分分析把P個(gè)隨機(jī)變量的總方差分解成為P個(gè)不相關(guān)的隨機(jī)變量的方差之和。 根據(jù):協(xié)方差矩陣的對(duì)角線上的元素之和等于特征根之和。 三、精度分析三、精度分析 1)貢獻(xiàn)率:第i個(gè)主成分的方差在全部方差中所占比重 ,稱為

15、貢獻(xiàn)率 ,反映了原來(lái)P個(gè)指標(biāo)多大的信息,有多大的綜合能力 。piii1 2)累積貢獻(xiàn)率:前k個(gè)主成分共有多大的綜合能力,用這k個(gè)主成分的方差和在全部方差中所占比重來(lái)描述,稱為累積貢獻(xiàn)率。piikii11 1)貢獻(xiàn)率:第i個(gè)主成分的方差在全部方差中所占比重 ,稱為貢獻(xiàn)率 ,反映了原來(lái)P個(gè)指標(biāo)多大的信息,有多大的綜合能力 。 我們進(jìn)行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,F(xiàn)k(kp)代替原來(lái)的P個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分,在實(shí)際工作中,主成分個(gè)數(shù)的多少取決于能夠反映原來(lái)變量80%以上的信息量為依據(jù),即當(dāng)累積貢獻(xiàn)率累積貢獻(xiàn)率80%80%時(shí)的主成分的個(gè)數(shù)就足夠了。最常見(jiàn)的情況是

16、主成分為最常見(jiàn)的情況是主成分為2 2到到3 3個(gè)個(gè)。1,2, ,jk kp1111211221222212ppppppppxuuuFxuuuFxuuuFXUFUFXppjjjjxuxuxuF22111122( ,)(,)ijiiippjijjCov x FCov u Fu Fu F FuijijjijijjiuuFx),( 可見(jiàn), 和 的相關(guān)的密切程度取決于對(duì)應(yīng)線性組合系數(shù)的大小。ixjF 請(qǐng)問(wèn)請(qǐng)問(wèn):在什么場(chǎng)合下,在什么場(chǎng)合下,xi和和Fj相關(guān)系數(shù)相關(guān)系數(shù)為零?為零? 例例 設(shè) 的協(xié)方差矩陣為 321,xxx200052021 解得特征根為 , ,83. 51 00. 22 17. 03 ,0

17、00. 0924. 0383. 01U1002U000. 0383. 0924. 03U 第一個(gè)主成分的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個(gè)主成分的貢獻(xiàn)率并不小,但在本題中第一主成分不含第三個(gè)原始變量的信息,所以應(yīng)該取兩個(gè)主成分。Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方x10.9250.85500 x2-0.9980.99600 x3001111),(iiFx 21 i 22i 22),(iiFx925. 01383. 0*83. 52111111 u22112125.83*( 0.924)50.998u 310F1F2Fpx1x2xp1112

18、1u21221u121ppu12122u22222u222ppu112ppu222ppu2ppppu 前面我們討論了主成分的貢獻(xiàn)率和累計(jì)貢前面我們討論了主成分的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,它獻(xiàn)率,它度量了度量了F F1 1,F(xiàn) F2 2,F(xiàn) Fm m分別從原始變分別從原始變量組(量組(X X1 1,X X2 2,XXP P)中提取了多少信息。)中提取了多少信息。 那么那么X X1 1,X X2 2,XXP P各有多少信息分別各有多少信息分別主成分組(主成分組(F F1 1,F(xiàn) F2 2,F(xiàn) Fm m)被提取了。)被提取了。應(yīng)該用什么指標(biāo)來(lái)度量?我們考慮到當(dāng)討應(yīng)該用什么指標(biāo)來(lái)度量?我們考慮到當(dāng)討論論F

19、F1 1分別與分別與X X1 1,X X2 2,XXP P的關(guān)系時(shí),可以的關(guān)系時(shí),可以討論討論F F1 1分別與分別與X X1 1,X X2 2,XXP P的相關(guān)系數(shù),的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正有負(fù),所以只有考但是由于相關(guān)系數(shù)有正有負(fù),所以只有考慮相關(guān)系數(shù)的平方。慮相關(guān)系數(shù)的平方。1122( )()iiiippVar xVar u Fu Fu F222221 122iiimmippiuuuu則jiju 2是Fj 能說(shuō)明的第i 原始變量的方差211max()jj p 21min()jpj p 原始變量的方差最大大不過(guò)1原始變量的方差最小小不過(guò)p22/ijiju 是Fj 提取的第i 原始變量

20、信息的比重,也是二者的相關(guān)系數(shù)的平方。22221 12222221ippiiimmiiiiuuuu 結(jié)論:xi與所有的主成分Fj(j1,2,m)的相關(guān)系數(shù)的平方和為1,即 xi與Fj(j1,2,m)的復(fù)相關(guān)系數(shù)為1。 如果我們僅僅提出了m個(gè)主成分,則第i 原始變量信息的被提取率為:mjijmjiijjiu12122/ 例例 設(shè) 的協(xié)方差矩陣為 321,xxx200052021 解得特征根為 , ,83. 51 00. 22 17. 03 ,000. 0924. 0383. 01U1002U000. 0383. 0924. 03U 第一個(gè)主成分的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)

21、=72.875%,盡管第一個(gè)主成分的貢獻(xiàn)率并不小,但在本題中第一主成分不含第三個(gè)原始變量的信息,所以應(yīng)該取兩個(gè)主成分。Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方信息提取率x10.9250.855000.855x2-0.9980.996000.996x30011111),(iiFx 21 i 22i 22),(iiFxi 925. 01383. 0*83. 52111111 u22112125.83*( 0.924)50.998u 310 定義:如果一個(gè)主成分僅僅對(duì)某一個(gè)原始變量有作用,則稱為特殊成分。如果一個(gè)主成分所有的原始變量都起作用稱為公共成分。(該題無(wú)公共因子) 111212122

22、212mmpppmuuuuuuuuu5 5 主成分分析的步驟主成分分析的步驟在 實(shí)際問(wèn)題中,X的協(xié)方差通常是未知的,樣品有 12(12)iiipxxxinlX, , , ,x 第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。021p 一、基于協(xié)方差矩陣0I 第二步:求出分別所對(duì)應(yīng)的特征向量U1,U2,Up, 12jjjpjuuuU, ,第三步:計(jì)算累積貢獻(xiàn)率,給出恰當(dāng)?shù)闹鞒煞謧€(gè)數(shù)。12()jjFk kpU X,j, , ,第四步:計(jì)算所選出的k個(gè)主成分的得分。將原始數(shù)據(jù)的中心化值: 代入前k個(gè)主成分的表達(dá)式,分別計(jì)算出各單位k個(gè)主成分的得分,并按得分值的大小排隊(duì)。*1122i

23、iippxxxxxxiiXXX, , 二、基于相關(guān)系數(shù)矩陣 如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進(jìn)行主成分分析。不同的是計(jì)算得分時(shí)應(yīng)采用標(biāo)準(zhǔn)化后的數(shù)據(jù)。 例一例一 應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及其它原因,應(yīng)向購(gòu)貨單位或接受勞務(wù)的單位收取的款項(xiàng),包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴(kuò)大銷售的競(jìng)爭(zhēng)需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時(shí)間差,于是產(chǎn)生了應(yīng)收款項(xiàng)。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評(píng)價(jià)顧客的信用等級(jí),了解顧客的綜合信用程度,做到“知己知彼,百戰(zhàn)不殆”,對(duì)加強(qiáng)企業(yè)的應(yīng)收賬款管理大有

24、幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評(píng)估常用的5C方法,5C的目的是說(shuō)明顧客違約的可能性。 1、品格(用X1表示),指顧客的信譽(yù),履行償還義務(wù)的可能性。企業(yè)可以通過(guò)過(guò)去的付款記錄得到此項(xiàng)。 2、能力(用X2表示),指顧客的償還能力。即其流動(dòng)資產(chǎn)的數(shù)量和質(zhì)量以及流動(dòng)負(fù)載的比率。顧客的流動(dòng)資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項(xiàng)的能力越強(qiáng)。同時(shí),還應(yīng)注意顧客流動(dòng)資產(chǎn)的質(zhì)量,看其是否會(huì)出現(xiàn)存貨過(guò)多過(guò)時(shí)質(zhì)量下降,影響其變現(xiàn)能力和支付能力。 3、資本(用X3表示),指顧客的財(cái)務(wù)勢(shì)力和財(cái)務(wù)狀況,表明顧客可能償還債務(wù)的背景。 4、附帶的擔(dān)保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。 5、環(huán)境

25、條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。 首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請(qǐng)8位專家分別給10個(gè)企業(yè)的5個(gè)指標(biāo)打分,然后分別計(jì)算企業(yè)5個(gè)指標(biāo)的平均值,如表。 76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9; Total Variance =

26、 485.31477778 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.805 . 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 P

27、RIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.122930 0.878054 -.084286 0.313677 第一主成份的貢獻(xiàn)率為84.6%,第一主成份 Z1=0.469X1+0.485X2+0.

28、473X3+0.462X4+0.329X5 的各項(xiàng)系數(shù)大致相等,且均為正數(shù),說(shuō)明第一主成份對(duì)所有的信用評(píng)價(jià)指標(biāo)都有近似的載荷,是對(duì)所有指標(biāo)的一個(gè)綜合測(cè)度,可以作為綜合的信用等級(jí)指標(biāo)??梢杂脕?lái)排序。將原始數(shù)據(jù)的值中心化后,代入第一主成份Z1的表示式,計(jì)算各企業(yè)的得分,并按分值大小排序: 在正確評(píng)估了顧客的信用等級(jí)后,就能正確制定出對(duì)其的信用期、收帳政策等,這對(duì)于加強(qiáng)應(yīng)收帳款的管理大有幫助。序號(hào)序號(hào)1 12 23 34 45 56 67 78 89 91010得分得分3.163.1613.613.6- -9.019.0135.935.925.125.1-10.3-10.3- -4.364.36-3

29、3.8-33.8- -6.416.41-13.8-13.8排序排序4 43 37 71 12 28 85 510106 69 9例二例二 基于相關(guān)系數(shù)矩陣的主成分分析。對(duì)美國(guó)紐約上市的有關(guān)化學(xué)產(chǎn)業(yè)的三個(gè)證券和石油產(chǎn)業(yè)的2個(gè)證券做了100周的收益率調(diào)查。下表是其相關(guān)系數(shù)矩陣。 1)利用相關(guān)系數(shù)矩陣做主成分分析。 2)決定要保留的主成分個(gè)數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231 Eigenvalues of th

30、e Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 . 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1

31、0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470176 -.260448 0.335056 -.662445 -.400007 X4 0.421459 0.525665 0.540763 0.472006 -.175599 X5 0.421224 0.581970 -.435176 -.382439 0.385024 根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應(yīng)用。概括起來(lái)說(shuō),主成分分析主要有以下幾方面的應(yīng)用。 1主成分分

32、析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個(gè)主成分Yl(即 m1)時(shí),這個(gè)Yl仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Yl的均值也得使用全部x的均值。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話,就可以把這個(gè)Xi刪除,這也是一種刪除多余變量的方法。6 主成分分析主要有以下幾方面的應(yīng)用 2有時(shí)可通過(guò)因子負(fù)荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。 3. 多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫出幾何圖形,多元統(tǒng)計(jì)研究的問(wèn)題大都多于3個(gè)變量。要把研究的問(wèn)題用圖形表示出

33、來(lái)是不可能的。然而,經(jīng)過(guò)主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫出n個(gè)樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。 4由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來(lái)自變量x做回歸分析。 5用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來(lái)選擇量,獲得選擇最佳變量子集合的效果。 國(guó)際旅游外匯收入是國(guó)民收入是國(guó)民經(jīng)濟(jì)國(guó)際旅游外匯收入是國(guó)民收入是國(guó)民經(jīng)濟(jì)發(fā)展的重要組成部分,影

34、響一個(gè)國(guó)家或地區(qū)旅發(fā)展的重要組成部分,影響一個(gè)國(guó)家或地區(qū)旅游收入的因素包括自然、文化、社會(huì)、經(jīng)濟(jì)、游收入的因素包括自然、文化、社會(huì)、經(jīng)濟(jì)、交通等多方面的因素。交通等多方面的因素。中國(guó)統(tǒng)計(jì)年鑒中國(guó)統(tǒng)計(jì)年鑒把第把第三次產(chǎn)業(yè)劃分為三次產(chǎn)業(yè)劃分為12個(gè)組成部分,分別為:個(gè)組成部分,分別為: 一、提出問(wèn)題一、提出問(wèn)題x1:農(nóng)林牧漁服務(wù)業(yè):農(nóng)林牧漁服務(wù)業(yè) x2:地質(zhì)勘查水利管理業(yè):地質(zhì)勘查水利管理業(yè)x3:交通運(yùn)輸倉(cāng)儲(chǔ)和郵電通訊業(yè):交通運(yùn)輸倉(cāng)儲(chǔ)和郵電通訊業(yè) x4:批發(fā)零售貿(mào)易和餐食業(yè):批發(fā)零售貿(mào)易和餐食業(yè)x5:金融保險(xiǎn)業(yè):金融保險(xiǎn)業(yè) x6:房地產(chǎn)業(yè):房地產(chǎn)業(yè) x7:社會(huì)服務(wù)業(yè):社會(huì)服務(wù)業(yè) x8:衛(wèi)生體育和社

35、會(huì)福利業(yè):衛(wèi)生體育和社會(huì)福利業(yè) x9:教育文藝和廣播:教育文藝和廣播 x10:科學(xué)研究和綜合藝術(shù):科學(xué)研究和綜合藝術(shù)x11:黨政機(jī)關(guān):黨政機(jī)關(guān) x12:其他行業(yè):其他行業(yè) 選自選自1998年我國(guó)年我國(guó)31個(gè)省、市、自治區(qū)的數(shù)據(jù)。以旅游外匯收入(百萬(wàn)個(gè)省、市、自治區(qū)的數(shù)據(jù)。以旅游外匯收入(百萬(wàn)美圓)為因變量。自變量的單位為億元人民幣。數(shù)據(jù)略。美圓)為因變量。自變量的單位為億元人民幣。數(shù)據(jù)略。 InterceptCoefficients -205.236116.8459-1.75646 0.096008 標(biāo)準(zhǔn)誤差t StatP-valueX Variable 1-1.4004522.8676-0.

36、061240.951842X Variable 22.67500118.575080.144010.887092X Variable 33.3008772.4645561.3393390.197128X Variable 4-0.944021.296117-0.728340.475774X Variable 5-5.50164.508593-1.220250.238117X Variable 64.0544343.9537451.0254670.318728X Variable 74.1425.0699840.816965 0.42463X Variable 8-15.364910.82589

37、-1.419270.172905X Variable 917.367668.353372.0791210.052178X Variable 109.07888310.147280.894711 0.38275X Variable 11-10.585.610696-1.885690.075582X Variable 121.3507095.0015040.270060.790186 這個(gè)模型是不理想的,一個(gè)最嚴(yán)重的問(wèn)題是多重共線性的問(wèn)題。線性回歸模型的方差分析表方差來(lái)源自由度離差平方和方差F統(tǒng)計(jì)量顯著性水平回歸分析1211690140 974178.3 10.51335 8.15025E-06

38、殘差181667899 92661.04 總計(jì)3113358039 利用主成分的互不相關(guān)性來(lái)建立應(yīng)變量與主成分的回歸,在理論上可以達(dá)到消除多重共線性。 二、主成分回歸方法二、主成分回歸方法*11112121*21212222*1122ppppppppppFu Xu Xu XFu Xu XuXFu XuXu X*1112121immiYFFF主成分回歸:2*11221minniiimimiYFFFppppppuuuuuuuuu212222111211),(p1uuU*11121*21222*0*12ppnnnpxxxxxxxxxX原始數(shù)據(jù)觀測(cè)矩陣主成分系數(shù)矩陣npnnppFFFFFFFFF212

39、222111211F*0FX U主成分得分矩陣 根據(jù)最小二乘估計(jì),則1(F F) F YYFF)F(10 100(U X X U) U X YYXUU)XX(U1000U*U*同理*1*(F F ) F Y基于協(xié)方差矩陣的主成分回歸基于相關(guān)系數(shù)矩陣的主成分回歸主成分回歸系數(shù)的協(xié)方差矩陣 ( )VarVarU( )Var UU1000()VarUX XX Y U1000()VarUX XX Y U 11000000()()VarVarUX XXYX XXU211000000()()UX XXX XXU*2*1 ()()VarF F同理2100()U X XU2100() U X X U21()F

40、Fppn) 1(21FFpnnnVar) 1() 1() 1()(22212*2*1*) 1(ppnFF*2*22*12*) 1() 1() 1()(pnnnVar 1、經(jīng)濟(jì)分析數(shù)據(jù)Y:進(jìn)口總額 X1:GDP X2:積累總額 X3:消費(fèi)總額 求進(jìn)口總額與GDP、積累總額和消費(fèi)總額之間的回歸方程。 三、主成分回歸的實(shí)例data a;input x1-x3 y;cards;149.3 4.2 108.1 15.9161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8190.7 2.2 137.

41、7 20.4202.1 2.1 146.0 22.7212.4 5.6 154.1 26.5226.1 5.0 162.3 28.1231.9 5.1 164.3 27.6239.0 0.7 167.6 26.3;proc reg outest=b;model y=x1-x3/pcomit=1,2 outvif;proc print data=b;proc standard data=a out=c mean=0 std=1;var x1-x3 y;proc princomp data=c out=d prefix=z;var x1-x3;proc reg data=d;model y=z1

42、z2/noint;run;Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 204.77614 68.25871 285.61 |t| Intercept 1 -10.12799 1.21216 -8.36 F Model 2 9.88278 4.94139 379.38 |t| F1 1 0.68998 0.02552 27.03 10時(shí),多重共線性是嚴(yán)重的。 2、朗萊用美國(guó)聯(lián)邦政府雇員人數(shù)Y和國(guó)民總產(chǎn)出隱含平減指數(shù)X1,國(guó)民總產(chǎn)出X2,失業(yè)人數(shù)X3,武裝力量人數(shù)X4,14歲及以上非慈

43、善機(jī)構(gòu)人口數(shù)X5,時(shí)間變量X6。朗萊所用數(shù)據(jù)是美國(guó)4762年數(shù)據(jù),該例是主成分回歸用得較早的例子。yx1x2x3x4x5x6189283234289235615901076081947186388.5259426232514561086321948190888.2258054368216161097731949182889.5284599335116501109291950230296.2328975209930991120751951242098.1346999193235941132701952230599365385187035471150941953218810036311235783

44、35011621919542187101.23974692904304811738819552209104.64191802822285711873419562217108.44427692936279812044519572191110.84445464681263712195019582233112.64827043813255212336619502270114.25026013931251412536816602279115.75181754806257212785219612340116.9554894400728271300811962 Eigenvalues of the Cor

45、relation Matrix(相關(guān)系數(shù)矩陣的特征根) Eigenvalue Difference Proportion Cumulative (特征根) ( 差值) (貢獻(xiàn)率) (累計(jì)貢獻(xiàn)率) 1 4.60337745 3.42803711 0.7672 0.7672 2 1.17534035 0.97191518 0.1959 0.9631 3 0.20342517 0.18849689 0.0339 0.9970 4 0.01492828 0.01237624 0.0025 0.9995 5 0.00255204 0.00217533 0.0004 0.9999 6 0.00037671

46、 0.0001 1.0000 Eigenvectors(特征向量)(特征向量) Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 x1 0.461835 0.057843 -.149120 -.792874 0.337934 -.135193 x2 0.461504 0.053211 -.277681 0.121625 -.149550 0.818485 x3 0.321317 -.595513 0.728306 -.007645 0.009235 0.107451 x4 0.201510 0.798193 0.561607 0.077255 0.024253 0.017

47、970 x5 0.462279 -.045544 -.195985 0.589743 0.548569 -.311589 x6 0.464940 0.000619 -.128116 0.052285 -.749556 -.450388*6*5*4*3*2*11464940. 0462279. 020151. 0321317. 0461504. 0461835. 0 xxxxxxF*6*5*4*3*2*12000619. 0045544. 0798193. 0595513. 0053211. 0057843. 0 xxxxxxF Prin1 Prin2 Prin3 Prin4 Prin5 Pri

48、n6 Prin1 Prin2 Prin3 Prin4 Prin5 Prin63.47885 -0.75147 -0.30795 0.16424 0.008797 -0.0025793.47885 -0.75147 -0.30795 0.16424 0.008797 -0.0025793.01051 -0.84904 -0.64223 -0.12592 0.061546 -0.0119803.01051 -0.84904 -0.64223 -0.12592 0.061546 -0.0119802.34330 -1.54000 0.49343 0.00882 0.005746 -0.0050622

49、.34330 -1.54000 0.49343 0.00882 0.005746 -0.0050622.09390 -1.27632 0.11129 0.06126 -0.061845 0.0136772.09390 -1.27632 0.11129 0.06126 -0.061845 0.0136771.43824 1.23579 0.02909 -0.09746 0.052257 0.0426821.43824 1.23579 0.02909 -0.09746 0.052257 0.0426820.09951 0.69349 0.09757 0.10111 -0.098808 0.0189260.09951 0.69349 0.09757 0.10111 -0.098808 0.0189260.44943 0.54784 -0.29

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論