




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 主成分分析的基本思想主成分分析的基本思想 主成分的計(jì)算主成分的計(jì)算 主成分的性質(zhì)主成分的性質(zhì) 主成分分析的應(yīng)用主成分分析的應(yīng)用 主成分回歸主成分回歸 一項(xiàng)十分著名的工作是美國(guó)的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國(guó)民經(jīng)濟(jì)的研究。他曾利用美國(guó)1929一1938年各年的數(shù)據(jù),得到了17個(gè)反映國(guó)民收入與支出的變量要素,例如雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫(kù)存、股息、利息外貿(mào)平衡等等。1 基本思想 在進(jìn)行主成分分析后,竟以97.4的精度,用三新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新變量分別命名為總收入總收入F1、總收入總收入變化率變化率F2和經(jīng)濟(jì)發(fā)展趨勢(shì)經(jīng)濟(jì)發(fā)展
2、趨勢(shì)F3。更有意思的是,這三個(gè)變量其實(shí)都是可以直接測(cè)量的。斯通將他得到的主成分與實(shí)際測(cè)量的總收入I、總收入變化率I以及時(shí)間t因素做相關(guān)分析,得到下表:F1F1F2F2F3F3i ii it tF1F11 1F2F20 01 1F3F30 00 01 1i i0.9950.995-0.041-0.0410.0570.057l li i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l lt t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1主成分分析的基本思想 主成分分析就是
3、把原有的多個(gè)指標(biāo)轉(zhuǎn)化成少數(shù)幾個(gè)代表性較好的綜合指標(biāo),這少數(shù)幾個(gè)指標(biāo)能夠反映原來(lái)指標(biāo)大部分的信息(85%以上),并且各個(gè)指標(biāo)之間保持獨(dú)立,避免出現(xiàn)重疊信息。主成分分析主要起著降維和簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的作用。 主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡(jiǎn)化分析的方法。 在社會(huì)經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問(wèn)題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對(duì)象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。 主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化,也就是說(shuō),對(duì)高維變量空間進(jìn)行降維處理。 很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在
4、一個(gè)高維空間容易得多。2 數(shù)學(xué)模型與幾何解釋 假設(shè)我們所討論的實(shí)際問(wèn)題中,有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X1,X2,Xp,主成分分析就是要把這p個(gè)指標(biāo)的問(wèn)題,轉(zhuǎn)變?yōu)橛懻?m 個(gè)新的指標(biāo)F1,F(xiàn)2,F(xiàn)m(mp),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。npnnppXXXXXXXXXX212222111211niiiiXXXX21其中pXXX21XXaXaXaFXXaXaXaFXXaXaXaFppppppppppp2211222221122112211111 這種由討論多個(gè)指標(biāo)降為少數(shù)幾個(gè)綜合指標(biāo)的過(guò)程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標(biāo)的
5、線性組合Fi。)()(121XVarkXkVar所以如果不對(duì) 加以限制,問(wèn)題就變得無(wú)意義。1最大最大因此限制 為單位向量。1)()(1piiiXaVarXVarijjpjijiipiiiisaasa1,122piijjpjisaa11)(XVar滿足如下的條件:122221piiiaaapjijiFFCovji,),(210)()(21pFVarFVarFVar)(主成分之間相互獨(dú)立,即無(wú)重疊的信息。即主成分之間相互獨(dú)立,即無(wú)重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即主成分的方差依次遞減,重要性依次遞減,即每個(gè)主成分的系數(shù)平方和為每個(gè)主成分的系數(shù)平方和為1。即。即2x1x1F2F主
6、成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F 主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸 旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣品點(diǎn)在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大 部分信息,在研究某經(jīng)濟(jì)問(wèn)題時(shí),即使不考慮變量F2也無(wú)損大局。經(jīng)過(guò)上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對(duì)數(shù)據(jù)中包含的信息起到了濃縮作用。 Fl,F(xiàn)2除了可以對(duì)包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問(wèn)題時(shí)避免了信息重疊所帶來(lái)的虛假性。二維平面上的n個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在Fl軸上,而F2軸上的
7、方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡(jiǎn)化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。 2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸先討論二維情形212122211211XXXXXXXXXnn求主成分F1和F2。21,xx觀察圖,我們已經(jīng)把主成分F1和F2 的坐標(biāo)原點(diǎn)放在平均值 所在處,從而使得F1和F2 成為中心化的變量,即F1和F2 的樣本均值都為零。因此F1可以表示為)()(222111111xxaxxaF),(2111aa關(guān)鍵關(guān)鍵是,尋找合適的單位向量 ,使F1的方差最大。122111222211121112)(saasasaFVar2111222112112111)(aas
8、sssaa最大最大1問(wèn)題的答案問(wèn)題的答案是:X的協(xié)方差矩陣S 的最大特征根 所對(duì)應(yīng)的單位特征向量即為 。并且 就是F1的方差。2111,aa1推導(dǎo)同樣,F(xiàn)2可以表示為)()(222211122xxaxxaF),(2212aa尋找合適的單位向量 ,使F2與F1獨(dú)立,且使F2的方差(除F1之外)最大。2問(wèn)題的答案問(wèn)題的答案是:X的協(xié)方差矩陣S 的第二大特征根 所對(duì)應(yīng)的單位特征向量即為 。并且 就是F2的方差。2212,aa2推導(dǎo)求解主成分的步驟:求解主成分的步驟:1. 求樣本均值 和樣本協(xié)方差矩陣S;),(21xxX 2. 求S的特征根求解特征方程 ,其中I是單位矩陣,解得2個(gè)特征根 0 IS21
9、21,3. 求特征根所對(duì)應(yīng)的單位特征向量4. 寫(xiě)出主成分的表達(dá)式例1 下面是8 個(gè)學(xué)生兩門(mén)課程的成績(jī)表 6585709065455565數(shù)學(xué)10090707085555545語(yǔ)文1x2x對(duì)此進(jìn)行主成分分析。1. 求樣本均值和樣本協(xié)方差矩陣求樣本均值和樣本協(xié)方差矩陣5 .6725.7121xxX5 .1871 .1034 .323SIS2. 求解特征方程 0 05 .1871 .1031 .1034 .32301 .103)5 .187)(4 .323(2 化簡(jiǎn)得:09 .500079 .5102 解得:132, 9 .37821 5 .1871 .1034 .323S3.求特征值所對(duì)應(yīng)的單位特
10、征向量 1所對(duì)應(yīng)的單位特征向量 , 0)(11S 其中21111aa0)9 .3785 .187(1 .10301 .103)9 .3784 .323(21112111aaaa1221211aa解得 (2111,aa)=)47. 0 ,88. 0( 2所對(duì)應(yīng)的單位特征向量 0)(22S ,其中221220)1325 .187(1 .10301 .103)1324 .323(22122212aaaa1222212aa解得: )88. 0 ,47. 0(),(2212aa5 .1871 .1034 .323S4. 得到主成分的表達(dá)式 )5 .67(47. 0)25.71(88. 0211xxF第二
11、主成分:)5 .67(88. 0)25.71(47. 0212xxF第一主成分:5.主成分的含義通過(guò)分析主成分的表達(dá)式中原變量前的系數(shù)來(lái)解釋各主成分的含義。 第一主成分F1是 和 的加權(quán)和,表示該生成績(jī)的好壞。 1x2x第二主成分F2表示學(xué)生兩科成績(jī)的均衡性 6. 比較主成分重要性比較主成分重要性 第一主成分F1的方差為9 .3781第二主成分F2的方差為1322方差貢獻(xiàn)率 )()()(211211FVarFVarFVar%16.741329 .3789 .378%84.251329 .378132212方差貢獻(xiàn)率為 主成分F1和F2的方差總和為219 .5101329 .378原變量和1x2
12、x的方差總和為9 .5105 .1874 .3232211 ss總方差保持不變總方差保持不變身高x1(cm)胸圍x2(cm)體重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例2 下表是10位學(xué)生的身高1x、胸圍2x、體重3x的數(shù)據(jù)。對(duì)此進(jìn)行主成分分析。 1. 求樣本均值和樣本協(xié)方差矩陣 2 .513 .772 .161321xxx53.5558.3200.3011.21
13、12.1767.46S 2. 求解協(xié)方差矩陣的特征方程 0 IS 053.5558.3200.3058.3211.2112.1700.3012.1767.463.解得三個(gè)特征值 15.98160.23256. 13)71. 0 ,42. 0 ,56. 0(),(312111aaa)48. 0,33. 0,81. 0(),(322212aaa)53. 0,85. 0 ,03. 0(),(332313aaa和對(duì)應(yīng)的單位特征向量:4. 由此我們可以寫(xiě)出三個(gè)主成分的表達(dá)式: )2 .51(71. 0)3 .77(42. 0)2 .161(56. 03211xxxF)2 .51(48. 0) 3 .77
14、(33. 0)2 .161(81. 03212xxxF)2 .51(53. 0)3 .77(85. 0)2 .161(03. 03213xxxF5. 主成分的含義F1表示學(xué)生身材大小。 F2反映學(xué)生的體形特征 三個(gè)主成分的方差貢獻(xiàn)率分別為:%6 .7931.12315.9856. 160.2315.9815.98311ii%1 .1931.12360.23312ii%3 . 131.12356. 1313ii前兩個(gè)主成分的累積方差貢獻(xiàn)率為: %7 .9831.12375.1213121ii5 . 155. 030. 008. 021. 075. 0543212xxxxxF8 .1960. 06
15、0. 015. 042. 030. 0543213xxxxxF1 .1118. 052. 000. 078. 030. 0543214xxxxxF9 .1315. 029. 092. 019. 008. 0543215xxxxxF例3 對(duì)88個(gè)學(xué)生5 門(mén)不同課程的考試成績(jī)進(jìn)行分析,要求用合適的方法對(duì)這5 門(mén)課程成績(jī)進(jìn)行平均,以對(duì)88個(gè)學(xué)生的成績(jī)進(jìn)行評(píng)比。這5門(mén)課程是:Mechanics Vectors (閉),Algebra Analysis Statistics (開(kāi))。1x2x4x3x5x經(jīng)計(jì)算,得到5個(gè)主成分的表達(dá)式如下: 這5個(gè)主成分的方差分別為679.2,199.8,102.6, 8
16、3.7和31.8。前兩個(gè)主成分各自的貢獻(xiàn)率和累積貢獻(xiàn)率為%91.611 .10972 .679511ii%21.181 .10978 .199512ii%12.80%21.18%91.615121ii在一般情況下,設(shè)有n個(gè)樣品,每個(gè)樣品觀測(cè)p個(gè)指 標(biāo),將原始數(shù)據(jù)排成如下矩陣: npnnppxxxxxxxxx.212222111211),.,(21pxxxX求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程IS=0, 其中I是單位矩陣0.212222111211ppppppsssssssss,解得p個(gè)特征根p,.,21).(21p3. 求k所對(duì)應(yīng)的單位特征向量k),.,2 , 1(pk 即需求解方程
17、組0)(kkIS其中),.,(21pkkkkaaa 0.21212222111211pkkkkpppppkpkaaasssssssss 再加上單位向量的條件 1.22221pkkkaaa解得 ),.,(21pkkkkaaa4. 寫(xiě)出主成分的表達(dá)式 )(.)()(222111pppkkkkxxaxxaxxaF根據(jù)累積貢獻(xiàn)率的大小取前面m 個(gè)(m|t|Interceptx1X2x31111-10.12799-0.051400.586950.286851.212160.070280.094620.10221-8.36-0.736.202.810.00010.48830.00040.0263Param
18、eterEstimatesDependentMean21.89091R-Square0.9919RootMSE0.48887AdjR-Sq0.9884SummaryofFitF1F2F3x1X2x30.70630.04350.7065-0.03570.9990-0.02580.70700.0070-0.7072EigenvectorsEigenvalueDifferenceProportionCumulativePCR1PCR2PCR31.99920.99820.00261.00100.99550.66640.33270.00090.66640.99911.0000Eigenvaluesoft
19、heCorrelationMatrixF1=0.7063x1+0.0435x2+0.7065x3F2=-0.0357x1+0.9990 x2-0.0258x3 SourceDFSumofSquaresMeanSquareF值值ProbFModelErrorTotal28109.88280.117210.00004.94140.0147337.23020.0001AnalysisofVarianceVariableDFEstimateStandardErrort值值Prob|t|F1F2110.69000.19130.02710.038325.48594.99300.00010.0011Para
20、meterEstimates2119130. 068998. 0FFy*3*2*14825. 02211. 04804. 0 xxxy3211062. 06091. 00727. 0130. 9xxxy標(biāo)準(zhǔn)化后的變量63.2073.1394826. 065. 13 . 322. 03059.1944805. 05437. 489.21321xxxy把標(biāo)準(zhǔn)化變量還原,代入得:影響人們外出旅游的因素有居民收入、交通、閑影響人們外出旅游的因素有居民收入、交通、閑暇時(shí)間、旅游目的地治安狀況、旅游目的地的環(huán)暇時(shí)間、旅游目的地治安狀況、旅游目的地的環(huán)境衛(wèi)生以及接待能力等等。境衛(wèi)生以及接待能力等等。 由于資
21、料的可得性和代表性,選擇以下變量由于資料的可得性和代表性,選擇以下變量。 國(guó)內(nèi)旅游人數(shù)(百萬(wàn)人)y農(nóng)村居民人均純收入(元)1x城鎮(zhèn)居民人均可支配收入(元)2x公路線路里程(萬(wàn)公里) 3x數(shù)據(jù)見(jiàn)sasuser.tourmx例例2 國(guó)內(nèi)旅游人數(shù)模型國(guó)內(nèi)旅游人數(shù)模型VariableDFEstimateStandardErrort值值Prob|t|InterceptIncomeonIncomeocHighway1111417.8201-0.13810.1737-3.000974.02300.06990.03020.81925.6445-1.97595.7589-3.66330.00050.08360.
22、00040.0064ParameterEstimatesDependentMean558.1017R-Square0.9920RootMSE19.2003AdjR-Sq0.9890SummaryofFitF1F2F3x1X2x30.58100.59180.5588-0.5167-0.26230.81500.6289-0.76220.1533EigenvectorsEigenvalueDifferenceProportionCumulativePCR1PCR2PCR32.80880.18500.00622.62380.17880.93630.06170.00210.93630.99791.000
23、0EigenvaluesoftheCorrelationMatrixF1=0.5810 x1+0.5918x2+0.5588x3F2=-0.5167x1-0.2623x2+0.8150 x3 SourceDFSumofSquaresMeanSquareF值值ProbFModelErrorTotal291110.71130.288711.00005.35560.0321166.93280.0001AnalysisofVarianceVariableDFEstimateStandardErrort值值Prob|t|F1F2110.5767-0.46200.03220.125617.8977-3.6
24、7940.00010.0051ParameterEstimates214620. 05767. 0FFy*3*2*11741. 03231. 03213. 0 xxxy標(biāo)準(zhǔn)化后的變量36.1990.1211741. 084.186566.41673231. 026.67063.15753213. 091.18210.558321xxxy把標(biāo)準(zhǔn)化變量還原,代入得:3216448. 103167. 008768. 08482.286xxxy 地區(qū)經(jīng)濟(jì)發(fā)展現(xiàn)狀及潛力分析 長(zhǎng)江三角洲經(jīng)濟(jì)發(fā)展?fàn)顩r分析 長(zhǎng)江三角洲產(chǎn)業(yè)發(fā)展?fàn)顩r分析 城市競(jìng)爭(zhēng)力評(píng)價(jià)指標(biāo)體系 區(qū)域智力資本的測(cè)度 區(qū)域創(chuàng)新能力對(duì)經(jīng)濟(jì)增長(zhǎng)的影響分析 區(qū)域智力資本對(duì)經(jīng)濟(jì)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村水井維修合同范例
- 農(nóng)用地抵押合同范例
- 個(gè)人 銷售 合同范例
- 出國(guó)旅游體檢合同范例
- 主債合同和擔(dān)保合同范例
- 企業(yè)人事招聘合同范本
- 中鐵十四局施工合同范本
- 云南臨聘教師合同范例
- 農(nóng)藥經(jīng)銷合同范例
- 制式合同范例封面
- 2024年09月寧夏寧夏黃河農(nóng)村商業(yè)銀行系統(tǒng)社會(huì)招考筆試歷年參考題庫(kù)附帶答案詳解
- 團(tuán)隊(duì)賦能培訓(xùn)
- 2025年廣東廣州市黃埔區(qū)第二次招聘社區(qū)專職工作人員高頻重點(diǎn)提升(共500題)附帶答案詳解
- 第一單元第2課《人工智能應(yīng)用》說(shuō)課稿 2023-2024學(xué)年浙教版(2023)初中信息技術(shù)八年級(jí)下冊(cè)
- 2025年寫(xiě)人要抓住特點(diǎn)
- 數(shù)字化轉(zhuǎn)型賦能制造業(yè)企業(yè)高質(zhì)量發(fā)展
- 深筋膜徒手松解療法
- 皮膚病學(xué)測(cè)試題含參考答案
- 《社會(huì)支持理論》課件
- 人工智能教育應(yīng)用的倫理風(fēng)險(xiǎn)及其應(yīng)對(duì)方案
- 幼兒園大班健康活動(dòng)《愛(ài)護(hù)眼睛保護(hù)視力》課件
評(píng)論
0/150
提交評(píng)論