主成分分析完整版課件_第1頁(yè)
主成分分析完整版課件_第2頁(yè)
主成分分析完整版課件_第3頁(yè)
主成分分析完整版課件_第4頁(yè)
主成分分析完整版課件_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、現(xiàn)在學(xué)習(xí)的是第1頁(yè),共28頁(yè)主成分分析的基本思想主成分分析的基本思想主成分的計(jì)算主成分的計(jì)算主成分分析的應(yīng)用主成分分析的應(yīng)用現(xiàn)在學(xué)習(xí)的是第2頁(yè),共28頁(yè)主成分分析的基本思想主成分分析的基本思想 主成分分析就是把原有的多個(gè)指標(biāo)轉(zhuǎn)化成少數(shù)幾個(gè)代表性較主成分分析就是把原有的多個(gè)指標(biāo)轉(zhuǎn)化成少數(shù)幾個(gè)代表性較好的綜合指標(biāo),這少數(shù)幾個(gè)指標(biāo)能夠反映原來(lái)指標(biāo)好的綜合指標(biāo),這少數(shù)幾個(gè)指標(biāo)能夠反映原來(lái)指標(biāo)大部分大部分的信息的信息(85%以上以上),并且各個(gè)指標(biāo)之間保持獨(dú)立,避免出現(xiàn)重疊信息),并且各個(gè)指標(biāo)之間保持獨(dú)立,避免出現(xiàn)重疊信息。主成分分析主要起著。主成分分析主要起著降維降維和和簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的作用

2、。的作用。1 1 基本思想基本思想現(xiàn)在學(xué)習(xí)的是第3頁(yè),共28頁(yè) 主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡(jiǎn)化分析的方主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡(jiǎn)化分析的方法。法。 在社會(huì)經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問(wèn)題,必須考慮許多經(jīng)在社會(huì)經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問(wèn)題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對(duì)象的特征,但在某種濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對(duì)象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。程度上存在信息的重疊,具有一定的相關(guān)性。 主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)這種多變主成分分析試

3、圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化,也就是說(shuō),量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化,也就是說(shuō),對(duì)高維變量空間進(jìn)對(duì)高維變量空間進(jìn)行降維處理。行降維處理。 很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。多?,F(xiàn)在學(xué)習(xí)的是第4頁(yè),共28頁(yè)基于相關(guān)系數(shù)矩陣基于相關(guān)系數(shù)矩陣/協(xié)方差矩陣做主成分分析?協(xié)方差矩陣做主成分分析?選擇幾個(gè)主成分?選擇幾個(gè)主成分?如何解釋主成分所包含的實(shí)際意義?如何解釋主成分所包含的實(shí)際意義? 在力求數(shù)據(jù)信息丟失最少的原則下,對(duì)高維的變量空間降維,即研究在力求數(shù)據(jù)信息丟失最少的原則下

4、,對(duì)高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來(lái)指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成將盡可能多地保留原來(lái)指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。分。要討論的問(wèn)題是:要討論的問(wèn)題是:現(xiàn)在學(xué)習(xí)的是第5頁(yè),共28頁(yè)2 2 數(shù)學(xué)模型與幾何解釋數(shù)學(xué)模型與幾何解釋 假設(shè)我們所討論的實(shí)際問(wèn)題中,有假設(shè)我們所討論的實(shí)際問(wèn)題中,有p個(gè)指標(biāo),我們把這個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看個(gè)指標(biāo)看作作p個(gè)隨機(jī)變量,記為個(gè)隨機(jī)變量,記為X1,X2,Xp,主成分分析就是要把這,主成分分析就是要把

5、這p個(gè)指?jìng)€(gè)指標(biāo)的問(wèn)題,轉(zhuǎn)變?yōu)橛懻摌?biāo)的問(wèn)題,轉(zhuǎn)變?yōu)橛懻?m 個(gè)新的指標(biāo)個(gè)新的指標(biāo)F1,F(xiàn)2,F(xiàn)m(mp),按照),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。 npnnppXXXXXXXXXX212222111211 pXXX21 niiiiXXXX21其中其中現(xiàn)在學(xué)習(xí)的是第6頁(yè),共28頁(yè)ppppppppppXaXaXaFXaXaXaFXaXaXaF 22112222112212211111 這種由討論這種由討論多個(gè)指標(biāo)多個(gè)指標(biāo)降為降為少數(shù)幾個(gè)少數(shù)幾個(gè)綜合指標(biāo)的過(guò)程在數(shù)學(xué)上就叫做綜合指標(biāo)的過(guò)程在數(shù)學(xué)上就叫做降維降維。主。主成

6、分分析通常的做法是,成分分析通常的做法是,尋求原指標(biāo)的線性組合尋求原指標(biāo)的線性組合Fi。滿足如下的條件:滿足如下的條件:122221 piiiaaapjijiFFCovji,),(210 )()(21pFVarFVarFVar )(主成分之間相互獨(dú)立,即無(wú)重疊的信息。即主成分之間相互獨(dú)立,即無(wú)重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即主成分的方差依次遞減,重要性依次遞減,即每個(gè)主成分的系數(shù)平方和為每個(gè)主成分的系數(shù)平方和為1。即。即現(xiàn)在學(xué)習(xí)的是第7頁(yè),共28頁(yè)2x2x1F2F主成分分析的幾何解釋主成分分析的幾何解釋旋轉(zhuǎn)坐標(biāo)軸旋轉(zhuǎn)坐標(biāo)軸 2121212211cossinsincosco

7、ssinsincosxxFFxxFxxF 旋轉(zhuǎn)變換的目的是為了使得旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣本點(diǎn)個(gè)樣本點(diǎn)在在F1軸方向上的離散程度最大,即軸方向上的離散程度最大,即F1的方的方差最大,變量差最大,變量F1代表了原始數(shù)據(jù)的絕大代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟(jì)問(wèn)題時(shí),即部分信息,在研究某經(jīng)濟(jì)問(wèn)題時(shí),即使不考慮變量使不考慮變量F2也損失不多的信息。也損失不多的信息。F1與與F2除起了濃縮作用外,還具有不相除起了濃縮作用外,還具有不相關(guān)性。關(guān)性。F1稱為第一主成分,稱為第一主成分,F(xiàn)2稱為第二主成分稱為第二主成分。現(xiàn)在學(xué)習(xí)的是第8頁(yè),共28頁(yè)先討論二維情形先討論二維情形212122211

8、211XXXXXXXXXnn求第一主成分求第一主成分F1和和F2。21,xx 我們已經(jīng)把主成分我們已經(jīng)把主成分F1和和F2 的坐標(biāo)原點(diǎn)放在的坐標(biāo)原點(diǎn)放在平均值平均值 所在處,從而使得所在處,從而使得F1和和F2 成為中心成為中心化的變量,即化的變量,即F1和和F2 的樣本均值都為零。的樣本均值都為零?,F(xiàn)在學(xué)習(xí)的是第9頁(yè),共28頁(yè)因此F1可以表示為)()(222111111xxaxxaF),(2111aa關(guān)鍵是,尋找合適的單位向量 ,使F1的方差最大。1問(wèn)題的答案是:X的協(xié)方差矩陣S 的最大特征根 所對(duì)應(yīng)的單位特征向量即為 。并且 就是F1的方差。2111,aa1現(xiàn)在學(xué)習(xí)的是第10頁(yè),共28頁(yè)同

9、樣,同樣,F(xiàn)2可以表示為可以表示為)()(222211122xxaxxaF),(2212aa尋找合適的單位向量尋找合適的單位向量 ,使,使F2與與F1獨(dú)立,且獨(dú)立,且使使F2的方差(除的方差(除F1之外)最大。之外)最大。2問(wèn)題的答案問(wèn)題的答案是:是:X的協(xié)方差矩陣的協(xié)方差矩陣S 的第二大特征根的第二大特征根 所對(duì)應(yīng)的單位特征向量即為所對(duì)應(yīng)的單位特征向量即為 。并且。并且 就是就是F2的方差。的方差。2212,aa2現(xiàn)在學(xué)習(xí)的是第11頁(yè),共28頁(yè))()(222111111xxaxxaF)()(222211122xxaxxaF其中,其中,aij稱為因子載荷量稱為因子載荷量因子載荷量:主成分與變量

10、間的相關(guān)系數(shù),因子載荷量:主成分與變量間的相關(guān)系數(shù),即:因子載荷量的大小和它前面的正負(fù)號(hào)直接反映了即:因子載荷量的大小和它前面的正負(fù)號(hào)直接反映了主成分與相應(yīng)變量之間關(guān)系的密切程度和方向。從而可以說(shuō)明各主成主成分與相應(yīng)變量之間關(guān)系的密切程度和方向。從而可以說(shuō)明各主成分的意義分的意義現(xiàn)在學(xué)習(xí)的是第12頁(yè),共28頁(yè)求解主成分的步驟:求解主成分的步驟:1. 求樣本均值求樣本均值 和樣本協(xié)方差矩陣和樣本協(xié)方差矩陣S;),(21xxX 2. 求求S的特征根的特征根求解特征方程求解特征方程 ,其中,其中I是單位矩陣,解是單位矩陣,解得得2個(gè)特征根個(gè)特征根 0 IS2121,3. 求特征根所對(duì)應(yīng)的單位特征向量

11、求特征根所對(duì)應(yīng)的單位特征向量4. 寫(xiě)出主成分的表達(dá)式寫(xiě)出主成分的表達(dá)式)()(222111111xxaxxaF)()(222211122xxaxxaF現(xiàn)在學(xué)習(xí)的是第13頁(yè),共28頁(yè)身高身高x1(cm)胸圍胸圍x2(cm)體重體重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例例1 下表是下表是10位學(xué)生的身高位學(xué)生的身高1x、胸圍、胸圍2x、體重、體重3x的數(shù)據(jù)。的數(shù)據(jù)。

12、對(duì)此進(jìn)行主成分分析。對(duì)此進(jìn)行主成分分析。 現(xiàn)在學(xué)習(xí)的是第14頁(yè),共28頁(yè)1. 求樣本均值和樣本協(xié)方差矩陣求樣本均值和樣本協(xié)方差矩陣 2 .513 .772 .161321xxx53.5558.3200.3011.2112.1767.46S 2. 求解協(xié)方差矩陣的特征方程求解協(xié)方差矩陣的特征方程 0 IS 053.5558.3200.3058.3211.2112.1700.3012.1767.463.解得三個(gè)特征值解得三個(gè)特征值 15.98160.23256. 13)71. 0 ,42. 0 ,56. 0(),(312111aaa)48. 0,33. 0,81. 0(),(322212aaa)5

13、3. 0,85. 0 ,03. 0(),(332313aaa和對(duì)應(yīng)的單位特征向量:和對(duì)應(yīng)的單位特征向量:現(xiàn)在學(xué)習(xí)的是第15頁(yè),共28頁(yè)4. 由此我們可以寫(xiě)出三個(gè)主成分的表達(dá)式: )2 .51(71. 0) 3 .77(42. 0)2 .161(56. 03211xxxF)2 .51(48. 0) 3 .77(33. 0)2 .161(81. 03212xxxF)2 .51(53. 0)3 .77(85. 0)2 .161(03. 03213xxxF5. 主成分的含義F1表示學(xué)生身材大小。 F2反映學(xué)生的體形特征 現(xiàn)在學(xué)習(xí)的是第16頁(yè),共28頁(yè)三個(gè)主成分的方差貢獻(xiàn)率分別為:%6 .7931.12

14、315.9856. 160.2315.9815.98311ii%1 .1931.12360.23312ii%3 . 131.12356. 1313ii前兩個(gè)主成分的累積方差貢獻(xiàn)率為: %7 .9831.12375.1213121ii現(xiàn)在學(xué)習(xí)的是第17頁(yè),共28頁(yè)在一般情況下,設(shè)有n個(gè)樣品,每個(gè)樣品觀測(cè)p個(gè)指 標(biāo),將原始數(shù)據(jù)排成如下矩陣: npnnppxxxxxxxxx.212222111211多指標(biāo)多指標(biāo) 求解主成分的步驟:求解主成分的步驟:現(xiàn)在學(xué)習(xí)的是第18頁(yè),共28頁(yè)),.,(21pxxxX求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程IS=0, 其中I是單位矩陣,解得p個(gè)特征根p,.,2

15、1).(21p3. 求k所對(duì)應(yīng)的單位特征向量k),.,2 , 1(pk 解得 ),.,(21pkkkkaaa4. 寫(xiě)出主成分的表達(dá)式 )(.)()(222111pppkkkkxxaxxaxxaF ppkkkkxaxaxaF .2211或或現(xiàn)在學(xué)習(xí)的是第19頁(yè),共28頁(yè)根據(jù)累積貢獻(xiàn)率的大小取前面m 個(gè)(mp)主成分選取原則: 且%8580111piimii%85801piiimii主成分個(gè)數(shù)的選取原則現(xiàn)在學(xué)習(xí)的是第20頁(yè),共28頁(yè) 例例 設(shè)設(shè) 的協(xié)方差矩陣為的協(xié)方差矩陣為作主成分分析。作主成分分析。12(,)TXX X144 100 解:解: 如果從如果從 出發(fā)作主成分分析,易求得其特征值和出發(fā)

16、作主成分分析,易求得其特征值和相應(yīng)的正交單位化特征向量為相應(yīng)的正交單位化特征向量為 的兩個(gè)主成分分別為的兩個(gè)主成分分別為 第一主成分的貢獻(xiàn)率為第一主成分的貢獻(xiàn)率為1122100.16,(0.040, 0.999) ,0.84,(0.999, 0.040) .TTeeX1122120.0400.999,0.9990.040.YXXYXX112100.1699.2%101現(xiàn)在學(xué)習(xí)的是第21頁(yè),共28頁(yè)為消除為消除量綱量綱影響,在計(jì)算之前先將原始數(shù)據(jù)影響,在計(jì)算之前先將原始數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化變量的。標(biāo)準(zhǔn)化變量的 S=R,所以用,所以用標(biāo)準(zhǔn)化變量標(biāo)準(zhǔn)化變量進(jìn)行主成分分析相當(dāng)于從原變量的進(jìn)行主成分

17、分析相當(dāng)于從原變量的相關(guān)矩陣相關(guān)矩陣 R 出發(fā)進(jìn)行主成分分析。統(tǒng)計(jì)學(xué)上稱這種分析法為出發(fā)進(jìn)行主成分分析。統(tǒng)計(jì)學(xué)上稱這種分析法為R R型分析型分析,由協(xié),由協(xié)方差矩陣出發(fā)的主成分分析為方差矩陣出發(fā)的主成分分析為S S型分析型分析。 S型分析和型分析和R型分析的結(jié)果是不同的。在一般情況下,若各型分析的結(jié)果是不同的。在一般情況下,若各變量的量綱不同,通常采用變量的量綱不同,通常采用R R型分析型分析。R型分析的概念型分析的概念現(xiàn)在學(xué)習(xí)的是第22頁(yè),共28頁(yè)這里我們需要進(jìn)一步強(qiáng)調(diào)的是,從相關(guān)陣求得的主成分與協(xié)這里我們需要進(jìn)一步強(qiáng)調(diào)的是,從相關(guān)陣求得的主成分與協(xié)差陣求得的主成分一般情況是不相同的。實(shí)際表

18、明,這種差異差陣求得的主成分一般情況是不相同的。實(shí)際表明,這種差異有時(shí)很大。有時(shí)很大。我們認(rèn)為,如果各指標(biāo)之間的數(shù)量級(jí)相差懸殊,特別我們認(rèn)為,如果各指標(biāo)之間的數(shù)量級(jí)相差懸殊,特別是各指標(biāo)有不同的物理量綱的話,較為合理的做法是是各指標(biāo)有不同的物理量綱的話,較為合理的做法是使用使用R代替代替。對(duì)于研究經(jīng)濟(jì)問(wèn)題所涉及的變量單位大都不統(tǒng)一,采用對(duì)于研究經(jīng)濟(jì)問(wèn)題所涉及的變量單位大都不統(tǒng)一,采用R代替代替后,可以看作是用標(biāo)準(zhǔn)化的數(shù)據(jù)做分析,這樣使得主后,可以看作是用標(biāo)準(zhǔn)化的數(shù)據(jù)做分析,這樣使得主成分有現(xiàn)實(shí)經(jīng)濟(jì)意義,不僅便于剖析實(shí)際問(wèn)題,又可以避免突成分有現(xiàn)實(shí)經(jīng)濟(jì)意義,不僅便于剖析實(shí)際問(wèn)題,又可以避免突出數(shù)

19、值大的變量。出數(shù)值大的變量。現(xiàn)在學(xué)習(xí)的是第23頁(yè),共28頁(yè) 1.1.將原始數(shù)據(jù)標(biāo)準(zhǔn)化;將原始數(shù)據(jù)標(biāo)準(zhǔn)化; 2.2.根據(jù)標(biāo)準(zhǔn)化變量求出協(xié)方差矩陣(標(biāo)準(zhǔn)化后協(xié)方差矩陣與相關(guān)矩根據(jù)標(biāo)準(zhǔn)化變量求出協(xié)方差矩陣(標(biāo)準(zhǔn)化后協(xié)方差矩陣與相關(guān)矩陣完全一樣);陣完全一樣);3.3.求出相關(guān)矩陣的特征值,計(jì)算累計(jì)貢獻(xiàn)率,及其對(duì)應(yīng)的特征向量求出相關(guān)矩陣的特征值,計(jì)算累計(jì)貢獻(xiàn)率,及其對(duì)應(yīng)的特征向量; 4.4.確定主成分,進(jìn)一步分析。確定主成分,進(jìn)一步分析。對(duì)于對(duì)于X=(X1,X2, Xp),設(shè)設(shè)E(),Var()kkkkkXX則標(biāo)準(zhǔn)化變量為則標(biāo)準(zhǔn)化變量為*,1kkkkkXXkp現(xiàn)在學(xué)習(xí)的是第24頁(yè),共28頁(yè)企業(yè)的經(jīng)濟(jì)效

20、益分析企業(yè)的經(jīng)濟(jì)效益分析某市對(duì)下屬某市對(duì)下屬1010個(gè)企業(yè)作經(jīng)濟(jì)效益分析,根據(jù)經(jīng)濟(jì)統(tǒng)計(jì)原理,用取得個(gè)企業(yè)作經(jīng)濟(jì)效益分析,根據(jù)經(jīng)濟(jì)統(tǒng)計(jì)原理,用取得的生產(chǎn)成果與各項(xiàng)成本的消耗作對(duì)比,來(lái)衡量每個(gè)企業(yè)的經(jīng)濟(jì)效益的生產(chǎn)成果與各項(xiàng)成本的消耗作對(duì)比,來(lái)衡量每個(gè)企業(yè)的經(jīng)濟(jì)效益,也就是用下述五個(gè)指標(biāo)來(lái)對(duì)每個(gè)企業(yè)進(jìn)行分析。,也就是用下述五個(gè)指標(biāo)來(lái)對(duì)每個(gè)企業(yè)進(jìn)行分析。 Z1:固定資產(chǎn)的產(chǎn)值率:固定資產(chǎn)的產(chǎn)值率 Z2:凈產(chǎn)值勞動(dòng)生產(chǎn)率:凈產(chǎn)值勞動(dòng)生產(chǎn)率 Z3:萬(wàn)元產(chǎn)值的流動(dòng)資金占用率:萬(wàn)元產(chǎn)值的流動(dòng)資金占用率 Z4:萬(wàn)元產(chǎn)值利潤(rùn)率:萬(wàn)元產(chǎn)值利潤(rùn)率 Z5:萬(wàn)元資金的利潤(rùn)率:萬(wàn)元資金的利潤(rùn)率 現(xiàn)在學(xué)習(xí)的是第25頁(yè),共28頁(yè)1、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)標(biāo)準(zhǔn)化2、 求相關(guān)矩陣求相關(guān)矩陣R3、 計(jì)算計(jì)算R的特征值及累積貢獻(xiàn)率,并計(jì)算相應(yīng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論