主成分分析在STATA中的實(shí)現(xiàn)以及理論介紹_第1頁
主成分分析在STATA中的實(shí)現(xiàn)以及理論介紹_第2頁
主成分分析在STATA中的實(shí)現(xiàn)以及理論介紹_第3頁
主成分分析在STATA中的實(shí)現(xiàn)以及理論介紹_第4頁
主成分分析在STATA中的實(shí)現(xiàn)以及理論介紹_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十二章主成分分析主成分分分析也稱作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降維的思想,在損失較少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為較少的綜合指標(biāo)。轉(zhuǎn)化生成的綜合指標(biāo)即稱為主成分,其中每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分互不相關(guān)。Stata對主成分分析的主要內(nèi)容包括:主成分估計(jì)、主成分分析的恰當(dāng)性(包括負(fù)偏協(xié)方差矩陣和負(fù)偏相關(guān)系數(shù)矩陣、KMO(Kaiser-Meyer-Olkin)抽樣充分性、復(fù)相關(guān)系數(shù)、共同度等指標(biāo)測度)、主成分的旋轉(zhuǎn)、預(yù)測、各種檢驗(yàn)、碎石圖、得分圖、載荷圖等。y=a'b+e,i=1,2,...,nj=1,2,...,pijijij主成分的模型表達(dá)式為:其中,a稱為得分,b稱為載荷。主成分分析主要的分析方法是對相關(guān)系數(shù)矩陣(或協(xié)方差矩陣)進(jìn)行特征值分析。Stata中可以通過負(fù)偏相關(guān)系數(shù)矩陣、負(fù)相關(guān)系數(shù)平方和KMO值對主成分分析的恰當(dāng)性進(jìn)行分析。負(fù)偏相關(guān)系數(shù)矩陣即變量之間兩兩偏相關(guān)系數(shù)的負(fù)數(shù)。非對角線元素則為負(fù)的偏相關(guān)系數(shù)。如果變量之間存在較強(qiáng)的共性,則偏相關(guān)系數(shù)比較低。因此,如果矩陣中偏相關(guān)系數(shù)較高的個(gè)數(shù)比較多,說明某一些變量與另外一些變量的相關(guān)性比較低,主成分模型可能不適用。這時(shí),主成分分析不能得到很好的數(shù)據(jù)約化效果。Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。如果偏相關(guān)系數(shù)相對于相關(guān)系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),一般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)oSMC即一個(gè)變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。成分載荷、KMO、SMC等指標(biāo)都可以通過extat命令進(jìn)行分析。多元方差分析是方差分析在多元中的擴(kuò)展,即模型含有多個(gè)響應(yīng)變量。本章介紹多元(協(xié))方差分析以及霍特林Hotelling)均值向量T檢驗(yàn)。12.1主成分估計(jì)Stata可以通過變量進(jìn)行主成分分析,也可以直接通過相關(guān)系數(shù)矩陣或協(xié)方差矩陣進(jìn)行。sysuseauto,clearpcatrunkweightlengthheadroompcatrunkweightlengthheadroom,comp(2)covariancewebusebg2,clearpcabg2cost*,vce(normal)12.2Estatestat給出了幾個(gè)非常有用的工具,包括KMO、SMC等指標(biāo)。webusebg2,clearpcabg2cost*,vce(normal)estatantiestatkmoestatloadingsestatresidualsestatsmcestatsummarize12.3預(yù)測Stata可以通過predict預(yù)測變量得分、擬合值和殘差等。webusebg2,clearpcabg2cost*,vce(normal)predictscorefitresidualq(備注:q代表殘差的平方和)12.4碎石圖碎石圖是判斷保留多少個(gè)主成分的重要方法。命令為screeplotowebusebg2,clearpcabg2cost*,vce(normal)screeplot12.5得分圖、載荷圖得分圖即不同主成分得分的散點(diǎn)圖。命令為scoreplot。webusebg2,clearpcabg2cost*,vce(normal)scoreplot載荷圖即不同主成分載荷的散點(diǎn)圖。命令為loadingplot。webusebg2,clearpcabg2cost*,vce(normal)loadingplot12.6旋轉(zhuǎn)對載荷進(jìn)行旋轉(zhuǎn)的命令格式為rotate。webusebg2,clearpcabg2cost*,vce(normal)rotate例:對中國30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)主成分分析,原始數(shù)據(jù)如下表:居民商品固定貨物消費(fèi)零售工業(yè)居民職工資產(chǎn)周轉(zhuǎn)價(jià)格價(jià)格總產(chǎn)GDP消費(fèi)平均省份投資量指數(shù)指數(shù)值(億元)水平工資(億(億噸(上(上(億(元)(元)元)公里)年年元)100)100)

areax1x2x3x4x5x6x7x8北10488.20343814.105.104.56328758.910413京036714天6354.314003389.2703.105.105.4174812503津808441河16188.8866.5925.106.106.65702475623031北616527山6938.73531.2562.107.107.61872582810024西32222內(nèi)蒙5475.3658.105.104.8740.7761.8810826114古47772遼13461.100197033.104.105.96252772924769寧57.1963吉6424.05038.1157.105.106.8406.759123486林698129黑龍1690.105.105.7624.83107039365623046江9685上13698.27344823.16029105.105.5656525121海1531.883江30312.1101153004300.105.104.3166767799蘇613.6949浙21486.13899323341464974.105106.40832

江92393安8874.15843.106.106.637767472636311162徽7223福10823.10365207.2396.104.105.2570215213建1117267江6480.34745.2285.106.8499.575321000106西34516山31072.1543510107105.104.95732640462959東06.9.839河18407.104905165.107.58772481610726028南78.615湖11330.2526.106.106.740656472273913455北38433湖11156.2349.105.714555342487010611553南6486廣35696.1439108684428.105.3311010665425東460.746廣7171.53756.107.107.61032566020796072西8486海1459.2106.106.1103.6550705.421864597.7南3971重5096.698353979.269851490.105.1055755.

慶66369四12506.7127.1578.105.105.60722503814762川258713貴1864.107.107.3111.3333.4442624602805.3州5621云3435.105.106.5144.5700.1455324030821.3南9716西105.103.395.913504309.94728035.548.19藏79陜6851.34614.106.106.7480.6290259422027西24498甘3176.11712.1594.108.107.3667.486924017肅189295青110.110.1103.961.535830583.230983335.7海161寧1098.5108.108.1366.7193828.930719703.6夏1555新4203.4108.108.4276.55422260246871273疆1151數(shù)據(jù):來源于2009年《中國統(tǒng)計(jì)年鑒》程序:clear*定義變量的標(biāo)簽labelvararea省份labelvarx1"GDP(億元)〃labelvarx2〃居民消費(fèi)水平(元)〃labelvarx3〃固定資產(chǎn)投資(億元)〃labelvarx4〃職工平均工資(元)〃labelvarx5〃貨物周轉(zhuǎn)量(億噸公里)〃labelvarx6〃居民消費(fèi)價(jià)格指數(shù)(上年100)""labelvarx7〃商品零售價(jià)格指數(shù)(上年100)""labelvarx8〃工業(yè)總產(chǎn)值(億元)〃describepcax1-x8/*主成分估計(jì)*/estatkmo/*KMO檢驗(yàn),越高越好*/estatsmc/*SMC檢驗(yàn),值越高越好*/screeplot/*碎石圖(特征值等于1處的水平線標(biāo)示保留主成分的分界點(diǎn))*/predictscorefitresidualq/*預(yù)測變量得分、擬合值和殘差以及殘差的平方和*/predictf1f2f3predictq1q2q3scoreplot,mlabel(area)yline(0)xline(0)/*得分圖1*/scoreplot,xtitle(""經(jīng)濟(jì)社會(huì)總量〃)ytitle(""人民生活水平〃)///mlabel(area)yline(0)xline(0)/*得分圖*/scatterf2f3,xtitle(〃人民生活水平〃)ytitle("物價(jià)水平〃)///mlabel(area)yline(0)xline(0)/*得分圖*/scoreplot,factors(3)mlabel(area)/*得分圖*/scoreplot,combinedfactors(3)mlabel(area)yline(0)xline(0)/*得分圖*/loadingplot,yline(0)xline(0)/*載荷圖*/loadingplot,combinedfactors(3)yline(0)xline(0)/*載荷圖*/rotate/*旋轉(zhuǎn)*/分析:先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,接著進(jìn)行主成分分析,可以得到:表:R的特征值和特征向量主成分特征值方差貢獻(xiàn)率累計(jì)貢獻(xiàn)率14.254882.502580.531921.75229.5375380.750931.21475.7609160.90274.453839.2607010.95955.193137.1241410.98366.0689962.02734640.99227.0416498.02119450.99748.0204553.1.0000

從表中看到,前3個(gè)特征值累計(jì)貢獻(xiàn)率已達(dá)90.27%,說明前3個(gè)主成分基本包含了全部指標(biāo)具有的信息,我們?nèi)∏?個(gè)特征值。通過對載荷矩陣進(jìn)行旋轉(zhuǎn),可得到,相應(yīng)的特征向量,見下表:第一、第二、第三特征值向量第一特征向量第二特征向量第三特征向量x1_s0.42490.30640.1079x2_s0.3217-0.44670.3101x3_s0.40570.3855-0.0181x4_s0.1856-0.61000.2536x5_s0.3520-0.05100.3714x6_s-0.34440.14270.5784x7_s-0.31180.27670.5769x8_s0.42090.29380.1495因而前三個(gè)主成分為:第一主成分:F=10.4249x1+0.3217x2_s+0.4057x3_s+0.1856x4_s+0.3520x5_s-0.3444x6_s-0.3118x7_s+0.4209x8_s第二主成分:F=20.3064x1-0.4467x2_s+0.3855x3_s-0.6100x4_s-0.0510x5s+0.1427x6s+0.2767x7s+0.2938x8_s第三主成分:F=30.1079x1+0.3101x2_s-0.0181x3_s+0.2536x4_s+0.3714x5_s-0.5784x6_s+0.5769x7_s+0.1495x8_s在第一主成分的表達(dá)式中第一、第三、第八項(xiàng)指標(biāo)的系數(shù)較大,這三項(xiàng)指標(biāo)起主要作用,我們可以把第一主成分看成是由國內(nèi)生產(chǎn)總值、固定資產(chǎn)投資、工業(yè)總產(chǎn)值所刻劃的反映經(jīng)濟(jì)社會(huì)總量的綜合指標(biāo);在第二主成分中,第二、第三、第四項(xiàng)指標(biāo)的影響大,且第二、第四項(xiàng)的影響較大,因此可以把第二主成分看成是由居民消費(fèi)水平、職工平均工資表示的反映人民生活水平的綜合指標(biāo);在第三主成分中,第六、第七項(xiàng)指標(biāo)大于其余的指標(biāo),可看成是受居民消費(fèi)價(jià)格指數(shù)、商品零售價(jià)格指數(shù)的影響,反映物價(jià)水平的綜合指標(biāo)。在這次的主成分分析里面,我們可以進(jìn)行些檢驗(yàn)以驗(yàn)證我們分析的效果,通過KMO檢驗(yàn)和SMC檢驗(yàn),得到了下面的檢驗(yàn)值:變量的KMO、SMC值表變量KMO值SMC值x1_s0.74230.9656x2_s0.53610.8366x3_s0.77060.9276x4_s0.47370.7647x5_s0.67940.6515x6_s0.54670.8837x7_s0.54820.8627x8_s0.76920.9591合計(jì)0.6447—Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。如果偏相關(guān)系數(shù)相對于相關(guān)系數(shù)比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論