版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
實(shí)用標(biāo)準(zhǔn)第十二章 主成分分析主成分分分析也稱作主分量分析,是霍特林 (Hotelling) 在1933年首先提出。主成分分析是利用降維的思想, 在損失較少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為較少的綜合指標(biāo)。 轉(zhuǎn)化生成的綜合指標(biāo)即稱為主成分,其中每個(gè)主成分都是原始變量的線性組合, 且各個(gè)主成分互不相關(guān)。Stata對主成分分析的主要內(nèi)容包括:主成分估計(jì)、主成分分析的恰當(dāng)性(包括負(fù)偏協(xié)方差矩陣和負(fù)偏相關(guān)系數(shù)矩陣、KMO(Kaiser-Meyer-Olkin) 抽樣充分性、復(fù)相關(guān)系數(shù)、共同度等指標(biāo)測度)、主成分的旋轉(zhuǎn)、預(yù)測、各種檢驗(yàn)、碎石圖、得分圖、載荷圖等。yij ai'bj ij,i 1,2, ,n j 1,2, ,p主成分的模型表達(dá)式為:CVpiviviVi1vivj0diag(1,2,,p),12p其中,a稱為得分,b稱為載荷。主成分分析主要的分析方法是對相關(guān)系數(shù)矩陣(或協(xié)方差矩陣)進(jìn)行特征值分析。Stata中可以通過負(fù)偏相關(guān)系數(shù)矩陣、負(fù)相關(guān)系數(shù)平方和 KMO值對主成分分析的恰當(dāng)性進(jìn)行分析。負(fù)偏相關(guān)系數(shù)矩陣即變量之間兩兩偏相關(guān)系數(shù)的負(fù)數(shù)。非對角線元素則為負(fù)的偏相關(guān)系數(shù)。 如果變量之間存在較強(qiáng)的共性,則偏相關(guān)系數(shù)比較低。因此,如果矩陣中偏相關(guān)系數(shù)較高的個(gè)數(shù)比較多,說明某一些變量與另外一些變量的相關(guān)性比較低,主成分模型可能不適用。這時(shí),主成分分析不能得到很好的數(shù)文案大全實(shí)用標(biāo)準(zhǔn)據(jù)約化效果。Kaiser-Meyer-Olkin 抽樣充分性測度也是用于測量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。如果偏相關(guān)系數(shù)相對于相關(guān)系數(shù)比較高, 則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),一般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一個(gè)變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。成分載荷、KMO、SMC等指標(biāo)都可以通過 extat 命令進(jìn)行分析。多元方差分析是方差分析在多元中的擴(kuò)展, 即模型含有多個(gè)響應(yīng)變量。本章介紹多元(協(xié))方差分析以及霍特林( Hotelling) 均值向量T檢驗(yàn)。12.1 主成分估計(jì)Stata可以通過變量進(jìn)行主成分分析,也可以直接通過相關(guān)系數(shù)矩陣或協(xié)方差矩陣進(jìn)行。1)sysuseauto,clearpcatrunkweightlengthheadroom文案大全實(shí)用標(biāo)準(zhǔn)pcatrunkweightlengthheadroom,comp(2)covariance2)webusebg2,clearpcabg2cost*,vce(normal)12.2Estatestat 給出了幾個(gè)非常有用的工具,包括 KMO、SMC等指標(biāo)。webusebg2,clearpcabg2cost*,vce(normal)estatantiestatkmoestatloadingsestatresidualsestatsmcestatsummarize12.3 預(yù)測Stata可以通過predict 預(yù)測變量得分、擬合值和殘差等。webusebg2,clearpcabg2cost*,vce(normal)predictscorefitresidualq (備注:q代表殘差的平方和)12.4 碎石圖碎石圖是判斷保留多少個(gè)主成分的重要方法。 命令為screeplot。文案大全seulavnegiE
實(shí)用標(biāo)準(zhǔn)webusebg2,clearpcabg2cost*,vce(normal)screeplotScreeplotofeigenvaluesafterpca25.115.1 2 3 4 5 6Number12.5 得分圖、載荷圖得分圖即不同主成分得分的散點(diǎn)圖。命令為 scoreplot。webusebg2,clearpcabg2cost*,vce(normal)scoreplot文案大全2tnenopmocrofserocS
實(shí)用標(biāo)準(zhǔn)Scorevariables(pca)4202-4--6-4-2024Scoresforcomponent1載荷圖即不同主成分載荷的散點(diǎn)圖。命令為 loadingplot 。webusebg2,clearpcabg2cost*,vce(normal)loadingplotComponentloadings6.bg2cost152.bg2cost3tnenbg2cost2opm4oC.bg2cost53bg2cost6.bg2cost4-.4-.20.2.4.6Component1文案大全實(shí)用標(biāo)準(zhǔn)12.6 旋轉(zhuǎn)對載荷進(jìn)行旋轉(zhuǎn)的命令格式為 rotate。webusebg2,clearpcabg2cost*,vce(normal)rotate例:對中國30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)主成分分析,原始數(shù)據(jù)如下表:居民商品居民固定職工貨物消費(fèi)零售工業(yè)GDP資產(chǎn)周轉(zhuǎn)價(jià)格價(jià)格總產(chǎn)省份消費(fèi)投資平均量指數(shù)指數(shù)值(億元)水平(億工資(億噸(上(上(億(元)元)(元)公里)年年元)100)100)areax1x2x3x4x5x6x7x8北10488.20343814.56328758.9105.104.10413京036714文案大全實(shí)用標(biāo)準(zhǔn)天6354.314003389.417482703.105.105.12503津808441河16188.65708866.247565925.106.106.23031616527北山6938.761873531.258282562.107.107.10024西32222內(nèi)蒙7761.881085475.261143658.105.104.8740.古47772遼13461.962510019277297033.104.105.2476957.1963寧吉6424.075915038.234861157.105.106.8406.林698129黑龍831070393656230461690.105.105.7624.9685江上13698.27344823.5656516029105.105.25121海1531.883江30312.110115300316674300.105.104.67799蘇613.6949浙21486.13899323341464974.105106.4083292393江安8874.163776747263635843.106.106.11162徽7223文案大全實(shí)用標(biāo)準(zhǔn)福10823.10365207.257022396.104.105.15213建1117267江6480.357534745.210002285.106106.8499.34516西山31072.9573154352640410107105.104.62959東06.9.839河18407.587710490248165165.107107.26028南78.615湖11330.74065647227392526.106.106.1345538433北湖11156.71455534248702349.106105.11553南6486廣35696.143910868331104428.105.10665425460.746東廣7171.561033756.256602079107.107.6072西8486海1459.26550705.421864597.7106.106.1103.南3971重5096.698353979.269851490.105.1055755.66369慶四12506.60727127.250381578.105.105.14762川258713文案大全實(shí)用標(biāo)準(zhǔn)貴3333.444261864.24602805.3107.107.3111.州5621云5700.145533435.24030821.3105.106.5144.9716南西395.913504309.94728035.5105.103.48.19藏79陜6851.362904614.259422027106.106.7480.西24498甘3176.148691712.240171594.108.107.3667.189295肅青961.535830583.230983335.7110.110.1103.海161寧1098.57193828.930719703.6108.108.1366.1555夏新4203.455422260246871273108.108.4276.疆1151數(shù)據(jù):來源于2009年《中國統(tǒng)計(jì)年鑒》程序:clear定義變量的標(biāo)簽文案大全實(shí)用標(biāo)準(zhǔn)labelvararea 省份labelvarx1"GDP ( 億元)"labelvarx2" 居民消費(fèi)水平(元)"labelvarx3" 固定資產(chǎn)投資(億元)"labelvarx4" 職工平均工資(元)"labelvarx5" 貨物周轉(zhuǎn)量(億噸公里)"labelvarx6" 居民消費(fèi)價(jià)格指數(shù) (上年100)"labelvarx7" 商品零售價(jià)格指數(shù) (上年100)"labelvarx8" 工業(yè)總產(chǎn)值 ( 億元)"describepcax1-x8/* 主成分估計(jì)*/estatkmo/*KMO檢驗(yàn),越高越好*/estatsmc/*SMC檢驗(yàn),值越高越好*/screeplot/* 碎石圖(特征值等于1處的水平線標(biāo)示保留主成分的分界點(diǎn))*/文案大全實(shí)用標(biāo)準(zhǔn)predictscorefitresidualq /*預(yù)測變量得分、擬合值和殘差以及殘差的平方和*/predictf1f2f3predictq1q2q3scoreplot,mlabel(area)yline(0)xline(0)/* 得分圖1*/scoreplot,xtitle(" 經(jīng)濟(jì)社會(huì)總量")ytitle(" 人民生活水平")///mlabel(area)yline(0)xline(0)/* 得分圖*/scatterf2f3,xtitle(" 人民生活水平")ytitle(" 物價(jià)水平")///mlabel(area)yline(0)xline(0)/* 得分圖*/scoreplot,factors(3)mlabel(area)/* 得分圖*/scoreplot,combinedfactors(3)mlabel(area)yline(0)xline(0)/*得分圖*/loadingplot,yline(0)xline(0)/* 載荷圖*/loadingplot,combinedfactors(3)yline(0)xline(0)/* 載荷圖*/rotate/* 旋轉(zhuǎn)*/分析:文案大全實(shí)用標(biāo)準(zhǔn)先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,接著進(jìn)行主成分分析,可以得到:表:R的特征值和特征向量主成分特征值方差貢獻(xiàn)率累計(jì)貢獻(xiàn)率14.254882.502580.531921.75229.5375380.750931.21475.7609160.90274.453839.2607010.95955.193137.1241410.98366.0689962.02734640.99227.0416498.02119450.99748.0204553.1.0000從表中看到,前 3個(gè)特征值累計(jì)貢獻(xiàn)率已達(dá) 90.27%,說明前3個(gè)主成分基本包含了全部指標(biāo)具有的信息, 我們?nèi)∏?個(gè)特征值。通過對載荷矩陣進(jìn)行旋轉(zhuǎn),可得到,相應(yīng)的特征向量,見下表:第一、第二、第三特征值向量第一特征向第二特征向第三特征向量量量x1_s0.42490.30640.1079x2_s0.3217-0.44670.3101x3_s0.40570.3855-0.0181x4_s0.1856-0.61000.2536文案大全實(shí)用標(biāo)準(zhǔn)x5_s0.3520-0.05100.3714x6_s-0.34440.14270.5784x7_s-0.31180.27670.5769x8_s0.42090.29380.1495因而前三個(gè)主成分為:第一主成分: F 1=0.4249x1+0.3217x2_s+0.4057x3_s+0.1856x4_s+0.3520x5_s-0.3444x6_s-0.3118x7_s+0.4209x8_s第二主成分: F 2=0.3064x1-0.4467x2_s+0.3855x3_s-0.6100x4_s-0.0510x5_s+0.1427x6_s+0.2767x7_s+0.2938x8_s第三主成分: F 3=0.1079x1+0.3101x2_s-0.0181x3_s+0.2536x4_s+0.3714x5_s-0.5784x6_s+0.5769x7_s+0.1495x8_s在第一主成分的表達(dá)式中第一、第三、第八項(xiàng)指標(biāo)的系數(shù)較大,這三項(xiàng)指標(biāo)起主要作用,我們可以把第一主成分看成是由國內(nèi)生產(chǎn)總值、固定資產(chǎn)投資、工業(yè)總產(chǎn)值所刻劃的反映 經(jīng)濟(jì)社會(huì)總量的綜合指標(biāo);在第二主成分中,第二、第三、第四項(xiàng)指標(biāo)的影響大,且第二、文案大全實(shí)用標(biāo)準(zhǔn)第四項(xiàng)的影響較大,因此可以把第二主成分看成是由居民消費(fèi)水平、職工平均工資表示的反映人民生活水平的綜合指標(biāo);在第三主成分中,第六、第七項(xiàng)指標(biāo)大于其余的指標(biāo),可看成是受居民消費(fèi)價(jià)格指數(shù)、商品零售價(jià)格指數(shù)的影響,反映物價(jià)水平的綜合指標(biāo)。在這次的主成分分析里面,我們可以進(jìn)行些檢驗(yàn)以驗(yàn)證我們分析的效果,通過KMO檢驗(yàn)和SMC檢驗(yàn),得到了下面的檢驗(yàn)值:變量的KMO、SMC值表變量KMO值SMC值x1_s0.74230.9656x2_s0.53610.8366x3_s0.77060.9276x4_s0.47370.7647x5_s0.67940.6515x6_s0.54670.8837x7_s0.54820.8627x8_s0.76920.9591合計(jì)0.6447---Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過比較兩個(gè)變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強(qiáng)。文案大全實(shí)用標(biāo)準(zhǔn)如果偏相關(guān)系數(shù)相對于相關(guān)系數(shù)比較高, 則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),一般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一個(gè)變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。根據(jù)KMO越高,表明變量的共性越強(qiáng)和SMC比較高表明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越合適。從上表可以看出,在該例中,各變量基本符合要求。通過碎石圖,我們可以很直觀的看出各個(gè)特征值的大小。在該圖中,特征值等于1處的水平線標(biāo)示了保留主成分分析的分界點(diǎn),同時(shí)再次強(qiáng)調(diào)了本例中的成分4到8并不重要。碎石圖文案大全實(shí)用標(biāo)準(zhǔn)Screeplotofeigenvaluesafterpca43seulavn 2egiE1002468Number通過predict 我們可以得出各個(gè)觀察變量的所對應(yīng)的各個(gè)主成分的線性組合(即得分)。在得分圖里,我們可以看到不同地區(qū)在第一、 第二主成分里各自的得分情況。得分圖文案大全實(shí)用標(biāo)準(zhǔn)Scorevariables(pca)2河南山東江蘇河北廣東2新疆湖北t青海廣西四川甘肅江西安n貴州山西徽遼寧陜西湖南浙江e0云南吉林n寧夏海南o福建p內(nèi)蒙古m重慶ocrofse2天津ro-西藏cS4北京上海--4-2024Scoresforcomponent1文案大全實(shí)用標(biāo)準(zhǔn)Scorevariables(pca)23河南山東3青海上海t江蘇n河北廣東
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版舊機(jī)動(dòng)車在線評估及購買合同范本3篇
- 金融科技招投標(biāo)承諾函樣本
- 水利水電沖擊鉆作業(yè)合同
- 基層醫(yī)療衛(wèi)生機(jī)構(gòu)村醫(yī)生聘用
- 精英社區(qū)房產(chǎn)打印社交圈層
- 學(xué)?;顒?dòng)學(xué)生接送客車租賃合同
- 農(nóng)業(yè)機(jī)械焊接施工合同
- 2025版車抵押財(cái)產(chǎn)保全執(zhí)行合同范本3篇
- 農(nóng)業(yè)項(xiàng)目電子招投標(biāo)實(shí)施辦法
- 工業(yè)廠房電梯施工合同
- 錨桿密實(shí)度檢測
- 跳繩興趣小組活動(dòng)總結(jié)
- 文物保護(hù)項(xiàng)目加固工程監(jiān)理細(xì)則
- 肋骨骨折查房演示
- 五年級語文備課組工作總結(jié)三篇
- 浙江農(nóng)林大學(xué)土壤肥料學(xué)
- “戲”說故宮智慧樹知到答案章節(jié)測試2023年中央戲劇學(xué)院
- 四大名著《西游記》語文課件PPT
- 三年級道德與法治下冊第一單元我和我的同伴教材解讀新人教版
- 紅星照耀中國思維導(dǎo)圖
- YY/T 0506.8-2019病人、醫(yī)護(hù)人員和器械用手術(shù)單、手術(shù)衣和潔凈服第8部分:產(chǎn)品專用要求
評論
0/150
提交評論