R軟件應(yīng)用多元分析II演示文稿_第1頁(yè)
R軟件應(yīng)用多元分析II演示文稿_第2頁(yè)
R軟件應(yīng)用多元分析II演示文稿_第3頁(yè)
R軟件應(yīng)用多元分析II演示文稿_第4頁(yè)
R軟件應(yīng)用多元分析II演示文稿_第5頁(yè)
已閱讀5頁(yè),還剩69頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

R軟件應(yīng)用多元分析II演示文稿當(dāng)前1頁(yè),總共74頁(yè)。R軟件應(yīng)用多元分析II當(dāng)前2頁(yè),總共74頁(yè)。9.1主成分分析9.1.1總體主成分主成分的定義與導(dǎo)出假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動(dòng)資金、每一筆借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原料消耗、產(chǎn)值、利潤(rùn)、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動(dòng)地?cái)[出去嗎?當(dāng)然不能。你必須要把各個(gè)方面作出高度概括,用一兩個(gè)指標(biāo)簡(jiǎn)單明了地把情況說(shuō)清楚。本章介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實(shí)際上主成分分析可以說(shuō)是因子分析的一個(gè)特例。當(dāng)前3頁(yè),總共74頁(yè)。例子:成績(jī)數(shù)據(jù)100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?。目前的?wèn)題是,能不能把這個(gè)數(shù)據(jù)的6個(gè)變量用一兩個(gè)綜合變量來(lái)表示呢?當(dāng)前4頁(yè),總共74頁(yè)。主成分分析例中的的數(shù)據(jù)點(diǎn)是六維的;也就是說(shuō),每個(gè)觀測(cè)值是6維空間中的一個(gè)點(diǎn)。我們希望把6維空間用低維空間表示。以二維為例,如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(比如二維正態(tài)分布)在短軸Z2方向上,數(shù)據(jù)變化很少(方差小);進(jìn)一步,短軸如果退化成一點(diǎn),則長(zhǎng)軸Z1即可解釋這些點(diǎn)的變化;這樣,由二維到一維的降維就自然完成了.這相當(dāng)于在平面上做一個(gè)坐標(biāo)變換.Z1,Z2是X1,X2的特殊線性組合.X1X2Z1Z2當(dāng)前5頁(yè),總共74頁(yè)。推廣到p維情況:對(duì)于多維變量的情況和二維類似,也有高維的橢球,只不過(guò)無(wú)法直觀地看見(jiàn)罷了。首先把高維橢球的主軸找出來(lái),再用代表大多數(shù)數(shù)據(jù)信息的最長(zhǎng)(方差大)的幾個(gè)軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣,有幾個(gè)變量,就有幾個(gè)主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長(zhǎng)度之和占了主軸長(zhǎng)度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長(zhǎng)度占所有主軸長(zhǎng)度之和的大約85%即可,其實(shí),這只是一個(gè)大體的說(shuō)法;具體選幾個(gè),要看實(shí)際情況而定。當(dāng)前6頁(yè),總共74頁(yè)。定義:設(shè)X是p維隨機(jī)變量,μ=E(X),Σ=var(X)考慮線性變換(p維坐標(biāo)主軸→p維橢球主軸):我們希望Z1的方差達(dá)到最大(Z1是橢球主軸中最長(zhǎng)的一個(gè)主軸),則a1滿足:max=λmax,a1是Σ最大特征值(λ1)的特征向量.Z1=a1TX稱為第一主成分.當(dāng)前7頁(yè),總共74頁(yè)。特征方程,λ是Σ的特征值a是對(duì)應(yīng)的特征向量當(dāng)前8頁(yè),總共74頁(yè)。類似地,希望Z2的方差達(dá)到最大,為保證橢球的主軸也是互相垂直的,a2與a1正交,即:cov(Z1,Z2)=a1T

Σa2=0,類似地,a2是Σ的第二大特征值(設(shè)為λ2),Z2=a2TX稱為第二主成分.一般地,即為所求線性變換矩陣A.Zi=aiTX即為第i個(gè)主成分.,Q是正交陣.當(dāng)前9頁(yè),總共74頁(yè)。2.主成分的性質(zhì)主成分的均值和協(xié)方差陣.主成分的總方差.主成分分析是把p個(gè)原始變量X1,X2,…,Xp的總方差分解成p個(gè)不相關(guān)變量(cov(Z1,Z2)=0,)Z1,Z2,…,Zp的方差之和.總方差中第i主成分Zi的比例稱為主成分Zi的貢獻(xiàn)率.總方差中前m個(gè)主成分Zi的貢獻(xiàn)率之和稱Z1,Z2,…,

Zm的累積貢獻(xiàn)率.Xj與Zi之間的相關(guān)系數(shù).當(dāng)前10頁(yè),總共74頁(yè)。2.主成分的性質(zhì)m個(gè)主成分對(duì)原始變量的貢獻(xiàn)率.總方差中前m個(gè)主成分Zi的貢獻(xiàn)率之和稱Z1,Z2,…,

Zm對(duì)X1,X2,…,Xp的累積貢獻(xiàn)率.Z1,Z2,…,

Zm對(duì)Xj的累積貢獻(xiàn)率:原始變量對(duì)主成分的影響.qji稱為第i個(gè)主成分在第j個(gè)原始變量Xj上的載荷,它度量了Xj對(duì)Zi的重要程度.當(dāng)前11頁(yè),總共74頁(yè)。3.從相關(guān)矩陣出發(fā)求主成分的方差矩陣是X的相關(guān)矩陣R.p個(gè)主成分為:相關(guān)矩陣R的主成分性質(zhì):E(Z*)=0;var(Z*)=Λ*,其中Λ*=diag(λ1*,λ2*,…,λp*).變量Xj*與主成分Zi*之間的相關(guān)系數(shù)為:主成分Z1*,Z2*,…,Zm*對(duì)Xj*的貢獻(xiàn)率為:.設(shè)是相關(guān)矩陣R的p個(gè)特征值,是相應(yīng)的單位特征向量。當(dāng)前12頁(yè),總共74頁(yè)。9.1.2樣本主成分總體的參數(shù)在實(shí)際問(wèn)題中,通常是未知的,則通過(guò)樣本來(lái)估計(jì)。樣本變量樣本方差矩陣:樣本相關(guān)矩陣R:相關(guān)記號(hào):當(dāng)前13頁(yè),總共74頁(yè)。1.從S出發(fā)求主成分S的特征值:λ1≧λ2≧…≧λp對(duì)應(yīng)的特征向量(標(biāo)準(zhǔn)化):a1,a2,…,ap,ai稱為主軸向量(簡(jiǎn)稱主軸);則第i個(gè)主成分zi=aiTX=aiT(x1,x2,…,xp)T令:z=(z1,z2,…,zp)T=(a1,a2,…,ap)Tx=QTx則樣本主成分:z(k)=QTX(k)每一個(gè)樣本的主成分樣本投影到新坐標(biāo)系下的坐標(biāo)X的第2個(gè)主成分實(shí)際問(wèn)題中,經(jīng)常將樣本進(jìn)行中心化.協(xié)方差矩陣不變當(dāng)前14頁(yè),總共74頁(yè)。樣本主成分性質(zhì):樣本主成分的總方差等于原變量樣本的總方差Xj與Zi的樣本相關(guān)系數(shù).當(dāng)前15頁(yè),總共74頁(yè)。2.從R出發(fā)求主成分樣本相關(guān)矩陣R的特征值:λ1*≧λ2*≧…≧λp*對(duì)應(yīng)的特征向量(標(biāo)準(zhǔn)化):a1*,a2*,…,ap*,z(k)*=QTX(k)*性質(zhì):略當(dāng)前16頁(yè),總共74頁(yè)。9.1.3相關(guān)R函數(shù)以及實(shí)例princomp{stats}Description:princompperformsaprincipalcomponentsanalysisonthegivennumericdatamatrixandreturnstheresultsasanobjectofclassprincomp.Usageprincomp(x,...)##S3methodforclass'formula':princomp(formula,data=NULL,subset,na.action,...)Formula:aformulawithnoresponsevariable,referringonlytonumericvariables.##DefaultS3method:princomp(x,cor=FALSE,scores=TRUE,covmat=NULL,subset=rep(TRUE,nrow(as.matrix(x))),...)X:anumericmatrixordataframewhichprovidesthedatafortheprincipalcomponentsanalysis.Cor:alogicalvalueindicatingwhetherthecalculationshouldusethecorrelationmatrixorthecovariancematrix.(Thecorrelationmatrixcanonlybeusediftherearenoconstantvariables.)當(dāng)前17頁(yè),總共74頁(yè)。3-63.Loadings():Extractorprintloadingsinfactoranalysis(orprincipalcomponentsanalysis).Usage:loadings(x)x:anobjectofclass"factanal"or"princomp"ortheloadingscomponentofsuchanobject.predict():predictisagenericfunctionforpredictionsfromtheresultsofvariousmodelfittingfunctions.Thefunctioninvokesparticularmethodswhichdependontheclassofthefirstargument.Usage:predict(object,...)screeplot():screeplot.defaultplotsthevariancesagainstthenumberoftheprincipalcomponent.Thisisalsotheplotmethodforclasses"princomp"and"prcomp".Usage:screeplot(x,npcs=min(10,length(x$sdev)),type=c("barplot","lines"),main=deparse(substitute(x)),...)npcs:thenumberofcomponentstobeplotted.biplot():畫出數(shù)據(jù)關(guān)于主成分的散點(diǎn)圖和原坐標(biāo)在主成分下的方向.Biplot(x,choices=1:2,scale=1,pc.biplot=FALSE,…)Choices:是選擇的主成分,默認(rèn)是第1,2主成分.當(dāng)前18頁(yè),總共74頁(yè)。7.實(shí)例序號(hào)X1X2X3X4114841727821393471763160497786414936677951594580866142316676715343768381504377799151427780101393168741114029647412161477884131584978831414033677715137316673161523573791714947827918145357077191604774872015644788521151427382221473873782315739688024147306575251574880882615136748027144366876281413067762913932687330148387078當(dāng)前19頁(yè),總共74頁(yè)。R實(shí)現(xiàn):student=read.table('dataexample901.txt')student.pr=princomp(student,cor=TRUE)summary(student.pr,loadings=TRUE)Importanceofcomponents:Comp.1Comp.2Comp.3Comp.4Standarddeviation1.88178050.559806360.281795940.25711844ProportionofVariance0.88527450.078345790.019852240.01652747CumulativeProportion0.88527450.963620290.983472531.00000000Loadings:Comp.1Comp.2Comp.3Comp.4x1-0.4970.543-0.4500.506x2-0.515-0.210-0.462-0.691x3-0.481-0.7250.1750.461x4-0.5070.3680.744-0.232#采用從R出發(fā)求主成分主成分貢獻(xiàn)率:Q由于前2個(gè)主軸的貢獻(xiàn)率達(dá)到96.4%,這個(gè)例子的主成分可以認(rèn)為是comp.1(Z1*),Comp.2(Z2*)當(dāng)前20頁(yè),總共74頁(yè)。預(yù)測(cè):求Z*predict(student.pr)

Comp.1Comp.2Comp.3Comp.410.06990950-0.23813701-0.35509248-0.26612013921.59526340-0.718473990.32813232-0.1180566463-2.847931510.38956679-0.09731731-0.27948248740.759969880.80604335-0.04945722-0.1629492985-2.739667770.017180870.360126150.35865304462.105831680.322843930.18600422-0.0364560847-1.42105591-0.060531650.21093321-0.0442230928-0.82583977-0.78102576-0.275577980.0572885729-0.93464402-0.58469242-0.088141360.181037746102.36463820-0.365321990.088404760.045520127112.837419160.348758410.03310423-0.03114693012-2.608512240.21278728-0.333980370.21015757413-2.44253342-0.16769496-0.46918095-0.162987830141.866306690.050213840.37720280-0.358821916152.81347421-0.31790107-0.03291329-0.222035112160.063929830.207184480.043343400.70353362417-1.55561022-1.70439674-0.331264060.007551879181.07392251-0.067634180.022836480.04860668019-2.521742120.972743010.12164633-0.39066799120-2.140723770.022178810.374109720.12954896021-0.796244220.163078870.12781270-0.294140762220.28708321-0.35744666-0.039621160.08099198923-0.251510751.25555188-0.556173250.109068939242.057060320.78894494-0.265521090.38808864325-3.08596855-0.057753180.62110421-0.21893961226-0.163675550.043179320.244818500.560248997271.372650530.02220972-0.23378320-0.257399715282.160977780.137332330.355897390.093123683292.40434827-0.48613137-0.16154441-0.007914021300.502874680.14734317-0.20590831-0.122078819Comp1(Z1*)對(duì)應(yīng)的系數(shù)符號(hào)都是負(fù)號(hào),反映了學(xué)生身材的魁梧程度,身材高大的學(xué)生,他的4個(gè)部分值都比較大,則comp1的值就比較小,反之,身材’矮小的學(xué)生comp1的值比較大;Comp2(Z2*)是X1,X4與X2,X3的差,即:縱向高度與橫向圍度的差,所以,”細(xì)高”的同學(xué)comp2值越大,反之,該值越小說(shuō)明樣本越”矮胖”.藍(lán)色樣本身材魁梧;粉色樣本身材瘦小;紅色樣本身材細(xì)高;綠色樣本身材矮胖;當(dāng)前21頁(yè),總共74頁(yè)。結(jié)果圖示化:screeplot(student.pr,type='lines')碎石圖:縱坐標(biāo):(1.88178050.559806360.281795940.25711844)2通過(guò)碎石圖可以直觀的觀察出樣本在變換主軸方向的波動(dòng)程度biplot(student.pr,choice=1:2)橫坐標(biāo)是Comp1縱坐標(biāo)是comp2矮胖細(xì)長(zhǎng)魁梧瘦小當(dāng)前22頁(yè),總共74頁(yè)。9.1.4主成分分析的應(yīng)用1.主成分分類X1X2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X11X20.791X30.360.311X40.960.740.381X50.890.580.310.91X60.790.580.30.780.791X70.760.550.350.750.740.731X80.260.190.580.250.250.180.241X90.210.070.280.20.180.180.29-0.041X100.260.160.330.220.230.230.250.49-0.341X110.070.210.380.08-0.0200.10.44-0.160.231X120.520.410.350.530.480.380.440.3-0.050.50.241X130.770.470.410.790.790.690.670.320.230.310.10.621X140.250.170.640.270.270.140.160.510.210.150.310.170.261X150.510.350.580.570.510.260.380.510.150.290.280.410.50.631X160.210.160.510.260.2300.120.380.180.140.310.180.240.50.651當(dāng)前23頁(yè),總共74頁(yè)。R實(shí)現(xiàn):x=scan('dataexample902.txt')names=c('x1','x2','x3','x4','x5','x6','x7','x8','x9','x10','x11','x12','x13','x14','x15','x16')r=matrix(0,nrow=16,ncol=16,dimnames=list(names,names))for(iin1:16){for(jin1:i){r[i,j]=x[(i-1)*i/2+j]r[j,i]=r[i,j]}}pr=princomp(covmat=r)load=loadings(pr)plot(load[,1:2])text(load[,1],load[,2],adj=c(-0.4,0.3))#rij=x[1+2+…+(i-1)+j]長(zhǎng)類圍類體型指標(biāo)>summary(pr)Importanceofcomponents:Comp.1Comp.2Comp.3Standarddeviation2.6521.61679711.2775386ProportionofVariance0.43977980.16337700.1020066CumulativeProportion0.43977980.60315690.7051634前7個(gè)主成分占貢獻(xiàn)率87%當(dāng)前24頁(yè),總共74頁(yè)。主成分聚類:Comp.1Comp.2x1-0.341770990.20040027x2-0.264991630.14320222x3-0.23415224-0.32862480x4-0.344232670.18112449x5-0.326117710.19965028x6-0.285913570.26980664x7-0.295261390.19214958x8-0.18927312-0.37026699x9-0.084792910.06747164x10-0.15429508-0.17424610x11-0.09835526-0.34784952x12-0.24254582-0.01766472x13-0.317158240.11191444x14-0.18011330-0.37135294x15-0.26635929-0.27122509x16-0.15833266-0.3628239316個(gè)樣本,每個(gè)樣本是2維向量;可以用樣本的距離對(duì)其實(shí)施聚類;write(load[,1:2],'dataexample902load12.txt')x=scan('dataexample902load12.txt')x=as.matrix(x);dim(x)=c(16,2)d=dist(scale(x));hc=hclust(d)plot(hc,hang=-1);re3=rect.hclust(hc,k=3)當(dāng)前25頁(yè),總共74頁(yè)。用相關(guān)矩陣直接聚類d=as.dist(1-r);hc=hclust(d)plot(hc,hang=-1);re3=rect.hclust(hc,k=3)長(zhǎng)類圍類體型指標(biāo)長(zhǎng)類主成分聚類圖當(dāng)前26頁(yè),總共74頁(yè)。2.主成分回歸例9.3考慮進(jìn)口總額Y與3個(gè)自變量:國(guó)內(nèi)總產(chǎn)值X1,存儲(chǔ)量X2和總消費(fèi)量X3(單位為10億法郎)之間的關(guān)系.現(xiàn)收集了1949-1959年共11年數(shù)據(jù),如表,試對(duì)此數(shù)據(jù)做經(jīng)典回歸分析和主成分回歸分析.序號(hào)X1X2X3Y1149.34.2108.115.92161.24.1114.816.43171.53.1123.2194175.53.1126.919.15180.81.1132.118.86190.72.2137.720.47202.12.114622.78212.45.6154.126.59226.15162.328.110231.95.1164.327.6112390.7167.626.3當(dāng)前27頁(yè),總共74頁(yè)。R實(shí)現(xiàn):conomy=read.table('dataexample903.txt')lm.sol=lm(Y~X1+X2+X3,data=conomy)#普通線性回歸summary(lm.sol)Coefficients:EstimatePr(>|t|)(Intercept)-10.127996.9e-05***X1-0.051400.488344X20.586950.000444***X30.286850.026277*Residualstandarderror:0.4889MultipleR-squared:0.9919AdjustedR-squared:0.9884F-statistic:285.6p-value:1.112e-07Y=-10.12799-0.0514X1+0.58695X2+0.28685X3lm.sol=lm(Y~X1+X2,data=conomy)Coefficients:EstimatePr(>|t|)(Intercept)-8.440140.000370***X10.145313.14e-08***X20.622480.001243**Residualstandarderror:0.6667MultipleR-squared:0.9828,AdjustedR-squared:0.9785F-statistic:228.3p-value:8.796e-08Y=-8.44014+0.14531X1+0.62248X2當(dāng)前28頁(yè),總共74頁(yè)。殘差圖:Y=-8.44014+0.14531X1+0.62248X2H0:同方差,不是小概率事件接受HO:同方差;異方差檢驗(yàn):H0:殘差不相關(guān),不是小概率事件接受HO:殘差不相關(guān);不相關(guān)檢驗(yàn):當(dāng)前29頁(yè),總共74頁(yè)。分析:λ3≈0X1,X2共線性Y=-8.44014+0.14531X1+0.62248X2后果很嚴(yán)重:回歸系數(shù)不穩(wěn)定總之:回歸結(jié)果仍不可信(多重共線性)Y=-10.12799-0.0514X1+0.58695X2+0.28685X3回歸系數(shù)不能通過(guò)顯著性t檢驗(yàn),所以該回歸結(jié)果不可信.Y=-8.44014+0.14531X1+0.62248X2回歸診斷:誤差項(xiàng)是否滿足獨(dú)立性、等方差性、正態(tài)性;選擇線性模型是否合適;是否存在異常樣本;回歸分析的結(jié)果是否對(duì)某些樣本的依賴過(guò)重,即回歸模型是否具備穩(wěn)定性;變量之間是否存在高度相關(guān),即是否有多重共線性問(wèn)題存在;(不通過(guò))回歸殘差通過(guò)白噪聲檢驗(yàn)怎么辦?當(dāng)前30頁(yè),總共74頁(yè)。多重共線性的處理方法:刪去模型中次要的或可替代的解釋變量Y~x2不能通過(guò)系數(shù)顯著性t檢驗(yàn);Y~x1:y=-6.558101+0.146199X1,

R-squared 0.931761模型的檢驗(yàn)都能通過(guò).是一個(gè)”能用的”模型.實(shí)際上,一個(gè)更好的模型是y~x2+x3:y=-9.74+0.596X1+0.212X3R-squared 0.991277R2比y~x1的要高一些.是一個(gè)”比較好的”模型.當(dāng)前31頁(yè),總共74頁(yè)。主成分法:conomy.pr=princomp(~X1+X2+X3,data=conomy,cor=T)summary(conomy.pr,loadings=TRUE)Importanceofcomponents:Comp.1Comp.2Comp.3Standarddeviation1.4139150.99907670.0518737839ProportionofVariance0.6663850.33271810.0008969632CumulativeProportion0.6663850.99910301.0000000000Loadings:Comp.1Comp.2Comp.3X10.7060.707X2-0.999

X30.707-0.707λ3=0.05187378392≈0X1,X2共線性#Z1,Z2的貢獻(xiàn)率已達(dá)99.9%小于0.05的數(shù)沒(méi)有顯示出來(lái)可以通過(guò)conomy.pr$loadings[][[2]]等查看0.706330.0356890.7069820.043501-0.999030.0069710.7065440.02583-0.7072當(dāng)前32頁(yè),總共74頁(yè)。X1starx2starx3starZ1star-1.509720.545705-1.53319-2.12589-1.113050.485071-1.20848-1.61893-0.76971-0.12127-0.8014-1.11517-0.63637-0.12127-0.62209-0.8943-0.4597-1.33395-0.37008-0.64421-0.1297-0.66697-0.09869-0.190350.250307-0.727610.3035530.3596220.5936461.394580.6961010.9718021.050321.0307761.0934961.5593161.2436571.091411.1904221.7669951.480327-1.576481.3503491.931103pre=predict(conomy.pr)conomy$Z1=pre[,1]conomy$Z2=pre[,2]X*=-0.70720.025830.7065440.006971-0.999030.0435010.7069820.0356890.70633Q=(q1,q2,q3)=-2.2296493-1.6979452-1.1695976-0.9379462-0.6756511-0.19964230.37717461.01923441.63542431.85324012.0253583Z1*=X*q1lm.sol=lm(Y~Z1+Z2,data=conomy)summary(lm.sol)Coefficients:EstimatePr(>|t|)(Intercept)21.89091.21e-14***Z12.98926.02e-09***Z2-0.82880.00106**

Residualstandarderror:0.55MultipleR-squared:0.9883AdjustedR-squared:0.9853F-statistic:337.2p-value:

1.888e-08

#回歸結(jié)果比較理想.Y=21.89+2.99Z1*-0.83Z2*當(dāng)前33頁(yè),總共74頁(yè)。將Z*表達(dá)成X:beta=coef(lm.sol)a=loadings(conomy.pr)x.bar=conomy.pr$centerx.sd=conomy.pr$scalecoef=(beta[2]*a[,1]+beta[3]*a[,2])/x.sdbeta0=beta[1]-sum(x.bar*coef)c(beta0,coef)(Intercept)Z1Z221.89090912.9891518-0.8287678

(Intercept)X1X2X3-9.130107820.072779810.609220120.10625939主成分法回歸方程為:Y=-9.13010782+0.07277981X1+0.60922012X2+0.10625939X3當(dāng)前34頁(yè),總共74頁(yè)。9.2.2因子分析模型一般地,設(shè)X=(x1,x2,…,xp)T為可觀測(cè)的隨機(jī)變量,且有f=(f1,f2,…,fm)’為公共(共性)因子(commonfactor),簡(jiǎn)稱因子(factor);e=(e1,e2,…,ep)’為特殊因子(specificfactor)f和e均為不可直接觀測(cè)的隨機(jī)變量;μ=(μ1,μ2,…,μp)’為隨機(jī)變量x的總體均值;A=(aij)p*m為因子負(fù)荷(載荷)(factorloading)矩陣因子分析的模型為:假設(shè)通常先對(duì)x作標(biāo)準(zhǔn)化處理,使標(biāo)準(zhǔn)化得到的新變量均值為零,方差為1.當(dāng)前35頁(yè),總共74頁(yè)。如果再滿足(4)fi與fj相互獨(dú)立(i≠j),則稱該因子模型為正交因子模型。正交因子模型具有如下特性:x的方差可表示為設(shè)(1)hi2是m個(gè)公共因子對(duì)第i個(gè)變量的貢獻(xiàn),稱為第i個(gè)共同度(communality)或共性方差,公因子方差(commonvariance)(2)δi稱為特殊方差(specificvariance),是不能由公共因子解釋的部分(3)因子載荷(負(fù)荷)aij是隨機(jī)變量xi與公共因子fj的相關(guān)系數(shù),系數(shù)aij是用來(lái)度量Xi可由f1,f2,…,fm線性組合表示的程度。當(dāng)前36頁(yè),總共74頁(yè)。設(shè)稱gj2為公共因子fj對(duì)x的“貢獻(xiàn)”,是衡量公共因子fj重要性的一個(gè)指標(biāo)。當(dāng)前37頁(yè),總共74頁(yè)。三、因子分析的步驟輸入原始數(shù)據(jù)xn*p,計(jì)算樣本均值和方差,進(jìn)行標(biāo)準(zhǔn)化計(jì)算(處理);求樣本相關(guān)系數(shù)矩陣R=(rij)p*p;求相關(guān)系數(shù)矩陣的特征根λi

(λ1,λ2,…,λp>0)和相應(yīng)的標(biāo)準(zhǔn)正交的特征向量li;確定公共因子數(shù);計(jì)算公共因子的共性方差hi2;對(duì)載荷矩陣進(jìn)行旋轉(zhuǎn),以求能更好地解釋公共因子;對(duì)公共因子作出專業(yè)性的解釋。當(dāng)前38頁(yè),總共74頁(yè)。9.2.3參數(shù)估計(jì)(提取因子的方法)1.主成分法(principalcomponentfactor)

每一個(gè)公共因子的載荷系數(shù)之平方和等于對(duì)應(yīng)的特征根,即該公共因子的方差。估計(jì)因子荷載矩陣A=(aij)p*n和特殊方差矩陣D特殊方差矩陣D:當(dāng)總體的方差矩陣未知時(shí),用樣本協(xié)方差矩陣S代替,sii是S對(duì)角線上元當(dāng)前39頁(yè),總共74頁(yè)。factor.analy1factor.analy1<-function(S,m){

p<-nrow(S);diag_S<-diag(S);sum_rank<-sum(diag_S)

rowname<-paste("X",1:p,sep="")colname<-paste("Factor",1:m,sep="")A<-matrix(0,nrow=p,ncol=m,dimnames=list(rowname,colname))eig<-eigen(S)for(iin1:m)A[,i]<-sqrt(eig$values[i])*eig$vectors[,i]h<-diag(A%*%t(A))rowname<-c("SSloadings","ProportionVar","CumulativeVar")B<-matrix(0,nrow=3,ncol=m,dimnames=list(rowname,colname))for(iin1:m){B[1,i]<-sum(A[,i]^2)B[2,i]<-B[1,i]/sum_rankB[3,i]<-sum(B[1,1:i])/sum_rank}method<-c("PrincipalComponentMethod")list(method=method,loadings=A,var=cbind(common=h,spcific=diag_S-h),B=B)}為方便,設(shè)定中間變量A=(Factor1,…,FactormX1………0………

………0………Xp)p*m當(dāng)前40頁(yè),總共74頁(yè)。R實(shí)例:例9.7對(duì)55個(gè)國(guó)家和地區(qū)的男子徑賽記錄作統(tǒng)計(jì),每位運(yùn)動(dòng)員記錄8項(xiàng)指標(biāo):100m跑(X1)、200m跑(X2)、400m跑(X3)、800m跑(X4)、1500m跑(X5)、5000m跑(X6)、10000m跑(X7)、馬拉松(X8)。8項(xiàng)指標(biāo)的相關(guān)矩陣R如表9.4所示。取m=2,用主成分法估計(jì)因子載荷和共性方差等指標(biāo)。當(dāng)前41頁(yè),總共74頁(yè)。R實(shí)現(xiàn):x=scan('dataexample907.txt')names=c('x1','x2','x3','x4','x5','x6','x7','x8')r=matrix(0,nrow=8,ncol=8,dimnames=list(names,names))for(iin1:8){for(jin1:i){r[i,j]=x[(i-1)*i/2+j]r[j,i]=r[i,j]}}source('factor.analy1.r')fa=factor.analy1(r,m=2)Fa$method[1]"PrincipalComponentMethod"$loadingsFactor1Factor2X1-0.8171562-0.53123478X2-0.8674064-0.43231147X3-0.9151503-0.23258703X4-0.9487239-0.01184340X5-0.95935870.13153096X6-0.93764640.29276177X7-0.94395700.28715151X8-0.87992530.41074922$varcommonspcificX10.94995460.05004538X20.93928700.06071301X30.89159680.10840319X40.90021730.09978270X50.93766960.06233044X60.96489030.03510972X70.97351080.02648920X80.94298340.05701655$BFactor1Factor2SSloadings6.62258840.8775213ProportionVar0.82782360.1096902CumulativeVar0.82782360.9375137公共因子fj對(duì)X1,…,Xp的總方差貢獻(xiàn)當(dāng)前42頁(yè),總共74頁(yè)。9.2.4因子旋轉(zhuǎn)目的:使因子負(fù)荷兩極分化,要么接近于0,要么接近于1。常用的旋轉(zhuǎn)方法:(1)方差最大正交旋轉(zhuǎn)(varimaxorthogonalrotation)基本思想:使公共因子的相對(duì)負(fù)荷(lij/hi2)的方差之和最大,且保持原公共因子的正交性和公共方差總和不變??墒姑總€(gè)因子上的具有最大載荷的變量數(shù)最小,因此可以簡(jiǎn)化對(duì)因子的解釋。(2)斜交旋轉(zhuǎn)(obliquerotation)因子斜交旋轉(zhuǎn)后,各因子負(fù)荷發(fā)生了較大變化,出現(xiàn)了兩極分化。各因子間不再相互獨(dú)立,而彼此相關(guān)。各因子對(duì)各變量的貢獻(xiàn)的總和也發(fā)生了改變。適用于大數(shù)據(jù)集的因子分析。當(dāng)前43頁(yè),總共74頁(yè)。1.理論依據(jù)設(shè)因子模型:令:(是任意m階正交矩陣).即:對(duì)任一正交矩陣Γ,Z=ΓTF也是公因子向量。相應(yīng)的AΓ是公因子Z的因子載荷矩陣。為此,在因子分析的實(shí)際計(jì)算中,當(dāng)求得初始因子載荷矩陣A后,反復(fù)右乘正交矩陣Γ,使得AΓ具有更明顯的意義,這種變換載荷矩陣的方法,稱為因子軸的正交旋轉(zhuǎn)。當(dāng)前44頁(yè),總共74頁(yè)。2.因子載荷方差設(shè)因子模型A=(aij)p*m為因子載荷矩陣,為變量Xi的共同度。A的每一列(因子載荷向量)數(shù)值越分散,相應(yīng)的因子載荷向量的方差越大。令:第j列p個(gè)數(shù)據(jù)的方差因子載荷矩陣A的方差為:Vj越大,A的第j列值越分散,Vj趨于1或0,稱公因子Fj具有簡(jiǎn)單化結(jié)構(gòu)。V越大越好。當(dāng)前45頁(yè),總共74頁(yè)。3.方差最大的正交旋轉(zhuǎn)所謂最大方差旋轉(zhuǎn)法就是選擇正交矩陣,使得矩陣所有個(gè)列元素平方的相對(duì)方差之和達(dá)到最大。當(dāng)m=2時(shí),設(shè)已求出的因子載荷矩陣為

現(xiàn)選取正交變換矩陣Γ進(jìn)行因子旋轉(zhuǎn),??梢员硎緸?這里θ是坐標(biāo)平面上因子軸按順時(shí)針?lè)较蛐D(zhuǎn)的角度,只要求出θ,也就求出了Γ.當(dāng)前46頁(yè),總共74頁(yè)。當(dāng)前47頁(yè),總共74頁(yè)。m>2:當(dāng)m>2時(shí),我們可以逐次對(duì)每?jī)蓚€(gè)公共因子和進(jìn)行上述旋轉(zhuǎn)。對(duì)公因子Fl和Fk進(jìn)行旋轉(zhuǎn),就是對(duì)A的第l和k兩列進(jìn)行正交變換,使這兩列元素平方的相對(duì)方差之和達(dá)到最大,而其余各列不變,其正交變換矩陣為當(dāng)前48頁(yè),總共74頁(yè)。其中θ是因子軸Fi和Fj的旋轉(zhuǎn)角度,矩陣中其余位置上的元素全為0。m個(gè)公共因子兩兩配對(duì)旋轉(zhuǎn)共需要進(jìn)行m(m-1)/2次,稱其為完成了第一次旋轉(zhuǎn),并記第一輪旋轉(zhuǎn)后的因子載荷矩陣為A(1)。然后再重新開始,進(jìn)行第二輪的Cm2次配對(duì)旋轉(zhuǎn),新的因子載荷矩陣記為A(2)。這樣可以得到一系列的因子載荷矩陣為當(dāng)前49頁(yè),總共74頁(yè)。9.2.5因子分析的計(jì)算函數(shù)Factanal:factanal(x,factors,data=NULL,covmat=NULL,n.obs=NA,subset,na.action,start=NULL,scores=c("none","regression","Bartlett"),rotation="varimax",control=NULL,...)ArgumentsX:Aformulaoranumericmatrixoranobjectthatcanbecoercedtoanumericmatrix.Factors:Thenumberoffactorstobefitted.Data:Anoptionaldataframe(orsimilar:seemodel.frame),usedonlyifxisaformula.Bydefaultthevariablesaretakenfromenvironment(formula).Covmat:Acovariancematrix,oracovariancelistasreturnedbycov.wt.Ofcourse,correlationmatricesarecovariancematrices.Scores:Typeofscorestoproduce,ifany.Thedefaultisnone,“regression”givesThompson‘sscores,“Bartlett”givenBartlett’sweightedleast-squaresscores.Partialmatchingallowsthesenamestobeabbreviated.Rotation:character."none"orthenameofafunctiontobeusedtorotatethefactors:itwillbecalledwithfirstargumenttheloadingsmatrix,andshouldreturnalistwithcomponentloadingsgivingtherotatedloadings,orjusttherotatedloadings.當(dāng)前50頁(yè),總共74頁(yè)。例9.11取m=2,用factanal()函數(shù)估計(jì)例9.7因子載荷和共性方差等指標(biāo),參數(shù)選擇方差最大。x=scan('dataexample907.txt')names=c('x1','x2','x3','x4','x5','x6','x7','x8')r=matrix(0,nrow=8,ncol=8,dimnames=list(names,names))for(iin1:8){for(jin1:i){r[i,j]=x[(i-1)*i/2+j]r[j,i]=r[i,j]}}fa=factanal(factors=2,covmat=r);faUniquenesses:

x1x2x3x4x5x6x7x8

0.0810.0750.1520.1350.0820.0330.0180.087當(dāng)前51頁(yè),總共74頁(yè)。Loadings:

Factor1Factor2x10.2910.914

x20.3820.882

x30.5430.744

x40.6910.622

x50.7990.529

x60.9010.393

x70.9070.399

x80.9140.278

$loadingsFactor1Factor2X1-0.8171562-0.53123478X2-0.8674064-0.43231147X3-0.9151503-0.23258703X4-0.9487239-0.01184340X5-0.95935870.13153096X6-0.93764640.29276177X7-0.94395700.28715151X8-0.87992530.41074922Factor1Factor2SSloadings4.1133.224ProportionVar0.5140.403CumulativeVar0.5140.917Thedegreesoffreedomforthemodelis13andthefitwas0.3329當(dāng)前52頁(yè),總共74頁(yè)。例9.12現(xiàn)有48名應(yīng)聘者應(yīng)聘某公司的某職位,公司為這些應(yīng)聘者的15項(xiàng)指標(biāo)打分,某指標(biāo)與得分情況見(jiàn)例3.17,試用因子分析的方法對(duì)15項(xiàng)指標(biāo)作因子分析,在因子分析中選取5個(gè)因子。rt=read.table("applicant.txt")factanal(~.,factors=5,data=rt)Loadings:

Factor1Factor2Factor3Factor4Factor5FL0.1270.7220.102-0.117APP0.4510.1340.2700.2060.258

AA0.1290.686

LA0.2220.2460.827

SC0.9170.167LC0.8510.1250.279-0.420

HON0.228-0.2200.777

SMS0.8800.2660.111EXP0.7730.171DRV0.7540.3930.1990.114AMB0.9090.1870.1120.165GSP0.7830.2950.3540.148-0.181POT0.7170.3620.4460.267KJ0.4180.3990.563-0.585

SUIT0.3510.7640.148f1:外露能力f2:經(jīng)驗(yàn)f3:討人喜歡f4,f5:專業(yè)能力、外貌當(dāng)前53頁(yè),總共74頁(yè)。實(shí)例:表7.5是研究消費(fèi)者對(duì)購(gòu)買牙膏偏好的調(diào)查數(shù)據(jù)。通過(guò)市場(chǎng)的攔截訪問(wèn),用7級(jí)量表詢問(wèn)受訪者對(duì)以下陳述的認(rèn)同程度(1表示非常不同意,7表示非常同意)。

V1:購(gòu)買預(yù)防蛀牙的牙膏是重要的;

V2:我喜歡使牙齒亮澤的牙膏;

V3:牙膏應(yīng)當(dāng)保護(hù)牙齦;

V4:我喜歡使口氣清新的牙膏;

V5:預(yù)防壞牙不是牙膏提供的一項(xiàng)重要利益;

V6:購(gòu)買牙膏時(shí)最重要的考慮是富有魅力的牙齒。當(dāng)前54頁(yè),總共74頁(yè)。表7.5牙膏屬性評(píng)分得分表當(dāng)前55頁(yè),總共74頁(yè)。將表7.5中的數(shù)據(jù)通過(guò)SPSS進(jìn)行因子分析1.特征根和累計(jì)貢獻(xiàn)率提取兩個(gè)因子累計(jì)方差貢獻(xiàn)率就達(dá)到82%,第三個(gè)特征根相比下降較快,因此我們選取兩個(gè)公共因子。當(dāng)前56頁(yè),總共74頁(yè)。2.因子的含義從因子載荷陣可以看出:因子1與V1(預(yù)防蛀牙),V3(保護(hù)牙齦),V5(預(yù)防壞牙)相關(guān)性強(qiáng),其中V5的載荷是負(fù)數(shù),是由于這個(gè)陳述是反向詢問(wèn)的;因子2與V2(牙齒亮澤),V4(口氣清新),V6(富有魅力)的相關(guān)系數(shù)相對(duì)較高。因此,我們命名因子1為“護(hù)牙因子”,是人們對(duì)牙齒的保健態(tài)度;因子2是“美牙因子”,說(shuō)明人們“‘通過(guò)牙膏美化牙齒’影響社交活動(dòng)”的重視。從這兩方面分析,對(duì)牙膏生產(chǎn)企業(yè)開發(fā)新產(chǎn)品都富有啟發(fā)意義。旋轉(zhuǎn)后因子載荷矩陣當(dāng)前57頁(yè),總共74頁(yè)。R實(shí)現(xiàn):rt=read.table("dataexample916.txt")factanal(rt,factors=2)Loadings:Factor1Factor2v10.968v20.749v30.898-0.140v40.784v5-0.887v60.830Factor1Factor2SSloadings2.5421.892ProportionVar0.4240.315CumulativeVar0.4240.739當(dāng)前58頁(yè),總共74頁(yè)。典型相關(guān)性分析典型相關(guān)分析(canonicalcorrelationanalysis)是研究?jī)山M變量之間相關(guān)關(guān)系的一種統(tǒng)計(jì)分析方法,它能夠有效地揭示兩組變量之間的相互線性依賴關(guān)系。我們知道,在一元統(tǒng)計(jì)分析中,用相關(guān)系數(shù)來(lái)衡量?jī)蓚€(gè)隨機(jī)變量之間的線性相關(guān)關(guān)系;用復(fù)相關(guān)系數(shù)研究一個(gè)隨機(jī)變量和多個(gè)隨機(jī)變量的線性相關(guān)關(guān)系。然而,這些統(tǒng)計(jì)方法在研究?jī)山M變量之間的相關(guān)關(guān)系時(shí)卻無(wú)能為力。比如要研究生理指標(biāo)與訓(xùn)練指標(biāo)的關(guān)系,居民生活環(huán)境與健康狀況的關(guān)系,人口統(tǒng)計(jì)變量(戶主年齡、家庭年收入、戶主受教育程度)與消費(fèi)變量(每年去餐館就餐的頻率、每年出外看電影的頻率)之間是否具有相關(guān)關(guān)系?閱讀能力變量(閱讀速度、閱讀才能)與數(shù)學(xué)運(yùn)算能力變量(數(shù)學(xué)運(yùn)算速度、數(shù)學(xué)運(yùn)算才能)是否相關(guān)?這些多變量間的相關(guān)性如何分析?當(dāng)前59頁(yè),總共74頁(yè)。9.3.1總體典型相關(guān)1936年霍特林(Hotelling)最早就“大學(xué)表現(xiàn)”和“入學(xué)前成績(jī)”的關(guān)系、政府政策變量與經(jīng)濟(jì)目標(biāo)變量的關(guān)系等問(wèn)題進(jìn)行了研究,提出了典型相關(guān)分析技術(shù)。之后,Cooley和Hohnes(1971),Tatsuoka(1971)及Mardia,Kent和Bibby(1979)等人對(duì)典型相關(guān)分析的應(yīng)用進(jìn)行了討論,Kshirsagar(1972)則從理論上給出了最好的分析。典型相關(guān)分析的目的是識(shí)別并量化兩組變量之間的聯(lián)系,將兩組變量相關(guān)關(guān)系的分析,轉(zhuǎn)化為一組變量的線性組合與另一組變量線性組合之間的相關(guān)關(guān)系分析。其基本思想和主成分分析非常相似。首先在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關(guān)系數(shù)。然后選取和最初挑選的這對(duì)線性組合不相關(guān)的線性組合,使其配對(duì),并選取相關(guān)系數(shù)最大的一對(duì),如此繼續(xù)下去,直到兩組變量之間的相關(guān)性被提取完畢為此。被選出的線性組合配對(duì)稱為典型變量,它們的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。典型相關(guān)系數(shù)度量了這兩組變量之間聯(lián)系的強(qiáng)度。當(dāng)前60頁(yè),總共74頁(yè)。引入:一般情況,設(shè)是兩個(gè)相互關(guān)聯(lián)的隨機(jī)向量,分別在兩組變量中選取有代表性的綜合變量U、V,使得每一個(gè)綜合變量是原變量的線性組合,即典型變量

我們希望尋找使相關(guān)系數(shù)達(dá)到最大的向量a與b,由于隨機(jī)向量乘以常數(shù)時(shí)并不改變它們的相關(guān)系數(shù),所以,為防止結(jié)果的重復(fù)出現(xiàn),令

當(dāng)前61頁(yè),總共74頁(yè)。根據(jù)條件極值的求法引入Lagrange乘數(shù),將問(wèn)題轉(zhuǎn)化為求的極大值,其中λ,ν是Lagrange乘數(shù)。根據(jù)求極值的必要條件得

A和B具有相同的特征根,a,b則是其相應(yīng)的特征向量.,最大特征根λ2對(duì)應(yīng)的特征向量就是所求的典型變量的系數(shù)向量.

2.典型變量和典型相關(guān)系數(shù)的計(jì)算當(dāng)前62頁(yè),總共74頁(yè)。計(jì)算過(guò)程:求A的最大特征值和相應(yīng)的特征向量,令:為第1對(duì)典型相關(guān)系數(shù),為第1對(duì)典型變量。求A的第k個(gè)最大特征值和相應(yīng)的特征向量,令:為第1對(duì)典型相關(guān)系數(shù),為第k對(duì)典型變量。當(dāng)前63頁(yè),總共74頁(yè)。樣本典型相關(guān)在實(shí)際分析應(yīng)用中,總體的協(xié)差陣通常是未知的,往往需要從研究的總體中隨機(jī)抽取一個(gè)樣本,根據(jù)樣本估計(jì)出總體的協(xié)差陣,并在此基礎(chǔ)上進(jìn)行典型相關(guān)分析。設(shè)服從正態(tài)分布從該總體中抽取樣本容量為n的樣本,得到下列數(shù)據(jù)矩陣:樣本均值向量,其中,樣本協(xié)差陣當(dāng)前64頁(yè),總共74頁(yè)。

計(jì)算過(guò)程:求A的第k個(gè)最大特征值和相應(yīng)的特征向量,令:為第1對(duì)典型相關(guān)系數(shù),為第k對(duì)典型變量。當(dāng)前65頁(yè),總共74頁(yè)。9.3.3典型相關(guān)分析的計(jì)算R軟件函數(shù):cancorcancor(x,y,xcenter=TRUE,ycenter=TRUE)Arguments

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論