主成分分析法精華講義及實(shí)例_第1頁(yè)
主成分分析法精華講義及實(shí)例_第2頁(yè)
主成分分析法精華講義及實(shí)例_第3頁(yè)
主成分分析法精華講義及實(shí)例_第4頁(yè)
主成分分析法精華講義及實(shí)例_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2)2)主成分分析類型:一種處理高維數(shù)據(jù)的方法。降維思想:在實(shí)際問(wèn)題的研究中,往往會(huì)涉及眾多有關(guān)的變量。但是,變量太多不但會(huì)增加計(jì)算的復(fù)雜性,而且也會(huì)給合理地分析問(wèn)題和解釋問(wèn)題帶來(lái)困難。一般說(shuō)來(lái),雖然每個(gè)變量都提供了一定的信息,但其重要性有所不同,而在很多情況下,變量間有一定的相關(guān)性,從而使得這些變量所提供的信息在一定程度上有所重疊。因而人們希望對(duì)這些變量加以“改造”用為數(shù)極少的互補(bǔ)相關(guān)的新變量來(lái)反映原變量所提供的絕大部分信息,通過(guò)對(duì)新變量的分析達(dá)到解決問(wèn)題的目的。一、總體主成分1.1定義設(shè)X1,X2,,X為某實(shí)際問(wèn)題所涉及的p個(gè)隨機(jī)變量。記12pX=(X1,X2,,Xp)T,其協(xié)方差矩陣為1

2、2,=()=E(XE(X)(XE(X)T,jpxp它是一個(gè)p階非負(fù)定矩陣。設(shè)+1X1pp+1X2pp1)=ItX=lX+1X+TOC o 1-5 h z11111122=ItX=lX+1X+22211222Y=ItX=lX+1X+1XPPP11P22.則有Var(Y)=Var(ItX)=It,l,i=1,2,p,iiiiCov(Y,Y)=Cov(ItX,ItX)=It,l,j=1,2,p.ijijij第i個(gè)主成分:般地,在約束條件ItI=1ii5)Cov(Y,Y)ItEl0,k1,2,i1.ikik下,求1.使Var(Y)達(dá)到最大,由此1所確定的iiiYlTXii稱為XX,X的第i個(gè)主成分。1

3、2p總體主成分的計(jì)算設(shè)E是X(X,X,X)t的協(xié)方差矩陣,E的特征值及相應(yīng)的正交單位化特12p征向量分別為九九X012p及e,e,e,12p則X的第.個(gè)主成分為T(mén)OC o 1-5 h zYeTXeX+eX+eX,i=1,2,p,(3)iii11i22ipp此時(shí)Var(Y)eTEe=Xi=,2,J?,p,/iiiiCov(Y,Y)eTEe0,i豐kikik總體主成分的性質(zhì)1.3.1主成分的協(xié)方差矩陣及總方差記Y(Y,Y,Y)t為主成分向量,則Y=PtX,其中p(e,e,e),且12p12pCov(Y)Cov(PtX)PtEP=九*12九*0為p的特征值,p九*的正交單位特征向量。ie*,(e*,

4、e*ii1i2,e*)t為相應(yīng)于特征值ip九*;tp前m個(gè)主成分的累計(jì)貢獻(xiàn)率:藝九*i;pY*與X*的相關(guān)系數(shù)為iipY*,X*iji-1*ij二、樣本主成分前面討論的是總體主成分,但在實(shí)際問(wèn)題中,一般(或p)是未知的,需要通過(guò)樣本來(lái)估計(jì)。設(shè)x,(x,x,.,x)T,i,1,2,.,n.ii1i2ip為取自的一個(gè)容量為n的簡(jiǎn)單隨機(jī)樣本,則樣本協(xié)方差矩陣及樣本相關(guān)矩陣分別S=(s)=(x一x)(x一x)t,9)jpxpn1kkk=1R=(r)=1jI,5x2爲(wèi)丿其中ni,1x,(x,X,,x)t,x,x,j,1,2,.,p,12pjnijs1(xx)(xx),i,j=1,2,.,p.ijn1ki

5、ikjjk,1分別以S和R作為和p的估計(jì),然后按總體主成分分析的方法作樣本主成分分析。三、例題某市為了全面分析機(jī)械類個(gè)企業(yè)的經(jīng)濟(jì)效益,選擇了8個(gè)不同的利潤(rùn)指標(biāo),14企業(yè)關(guān)于這8個(gè)指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)如下表所示,試進(jìn)行主成分分析表114家企業(yè)的利潤(rùn)指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)變量企業(yè)序號(hào)凈產(chǎn)值利潤(rùn)率()叫1固定資產(chǎn)利潤(rùn)率(%)x總產(chǎn)值利潤(rùn)率()x銷售收入利潤(rùn)率(%)叫3產(chǎn)品成本利潤(rùn)率()物耗利潤(rùn)率(%)%人均利潤(rùn)率叫7(千元/人)流動(dòng)資金利潤(rùn)率()%140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50

6、.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.4

7、8.39.813.32.12617.11438.59.111.39.512.216.41.32711.6解:樣本均值向量為:元(27.979109509.100854311.06414.6141.55214.686)t,樣本協(xié)方差矩陣為:168.33360.35745.75741.21557.90671.6728.602101.62037.20716.82515.50523.53529.0294.78544.02324.84324.33536.47849.2783.62939.41024.42336.28349.1463.67538.71856.04675.4045.00259.723103.

8、0186.82174.5231.1376.722102.707168.3360.35745.75841.21657.90671.6728.602101.6260.35737.20716.82515.50523.53529.0294.784644.02345.75816.82524.84324.33536.47849.2783.62939.4141.21615.50524.33524.42336.28349.1463.674738.718S57.90623.535364783628356.046754045.00225972371.67229.02949.27849.14675.40410302

9、6.821574.5238.6024.78463.6293.67475.00226.82151.1376.7217101.6244.02339.4138.71859.72374.5236.7217102.71由于S中主對(duì)角線元素差異較大,因此我們樣本相關(guān)矩陣R出發(fā)進(jìn)行主成分分析。樣本相關(guān)矩陣R為:R0.762660.707580.642810.596170.544260.621780.7728510.553410.514340.515380.468880.735620.7121410.987930.97760.974090.682820.7801910.980710.97980.697350.

10、7730610.992350.626630.7871810.63030.72449110.622021矩陣R的特征值及相應(yīng)的特征向量分別為:特征值特征向量6.13660.321130.295160.389120.384720.379550.370870.319960.355461.0421-0.4151-0.597660.229740.278690.316320.37151-0.27814-0.156840.43595-0.451230.10303-0.0398950.053874-0.0372920.0751860.77059-0.424780.22037-0.668170.36336-0.

11、22596-0.110810.148740.069353-0.134950.559490.15191-0.0382170.624350.12273-0.0369090.159280.21062-0.43006-0.581050.0088274-0.101670.13584-0.158110.86226-0.25204-0.34506-0.13934-0.0265570.00296240.1596-0.061134-0.539660.0466060.7609-0.278090.06203-0.131260.00122380.19295-0.031987-0.641760.11002-0.2539

12、70.68791-0.006045-0.0054031R的特征值及貢獻(xiàn)率見(jiàn)下表特征值貢獻(xiàn)率()累計(jì)貢獻(xiàn)率()6.13660.767080.767081.04210.130270.897340.435950.0544940.951840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971前3個(gè)標(biāo)準(zhǔn)化樣本主成分類及貢獻(xiàn)率已達(dá)到95.184%,故只需取前三個(gè)主成分即可。前3個(gè)標(biāo)準(zhǔn)化樣本主成分中各標(biāo)準(zhǔn)化變量x*=i(i=1,2,8

13、)前的系數(shù)即為對(duì)應(yīng)特征向量,由此得到3個(gè)標(biāo)準(zhǔn)化樣本主成分為,j=0.32113x*+029516x*+0.38912x*+0.38472x*+0.37955x*+0.37087x*+0.31996x*+0.35546x*12345678j=-0.4151x*-0.59766x*+0.22974x*+0.27869x*+0.31632x*+0.37151x*-0.27814x*-0.15684x*12345678j=-0.45123x*+0.10303x*-0.039895x*+0.053874x*-0.037292x*+0.075186x*+0.77059x*-0.42478x*12345678注意到,yi近似是8個(gè)標(biāo)準(zhǔn)化變量x*=x(i=1,2,.q的等權(quán)重之和,是反映各企業(yè)總效應(yīng)大小的綜合指標(biāo),丫的值越大,則企業(yè)的效益越好。由于y】的貢獻(xiàn)率高達(dá)76.708%,故若用y】的得分值對(duì)各企業(yè)進(jìn)行排序,能從整體上反映企業(yè)之間的效應(yīng)差別。將S中sii的值及x中各x的值以及各i企業(yè)關(guān)于X的觀測(cè)值代入兀的表達(dá)式中,可求得各企業(yè)人的得分及其按其i11得分由大到小的排序結(jié)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論