第十一講因子分析_第1頁
第十一講因子分析_第2頁
第十一講因子分析_第3頁
第十一講因子分析_第4頁
第十一講因子分析_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第八章因子分析

FactorAnalysis1內(nèi)容梗概:8.1概述因子分析8.2因子分析的概念與步驟8.3使用FACTOR過程進行因子分析28.1概述因子分析一、因子分析基本思想

從分析多個可觀測的原始指標的相關關系入手,找到支配這種相關關系的有限個不可觀測的潛在變量,是多元分析中處理降維的一種統(tǒng)計方法.如:考察人體的五項生理指標:收縮壓、舒張壓、心跳間隔、呼吸間隔和舌下溫度.從生理學知識,這五項指標是受植物神經(jīng)支配的,植物神經(jīng)又分為交感神經(jīng)和副交感神經(jīng),因此這五項指標也可以用因子分析模型去處理.3二、因子分析數(shù)學模型

X1:收縮壓X2:舒張壓X3:心跳間隔X4:呼吸間隔X5:舌下溫度F1:交感神經(jīng)F2:副交感神經(jīng)

commonfactor4

specificfactor

commonfactor5Xi:觀測指標(標準化數(shù)據(jù))

Fi:公因子ei:特殊因子aij:因子載荷(計算關鍵項)6X=AF+e7三、因子分析的主要應用

(1).尋求基本結構,簡化觀測系統(tǒng),將具有錯綜復雜關系的對象(變量或樣本)綜合為少數(shù)幾個因子(不可觀測的隨機變量),并再現(xiàn)因子與原始變量之間的內(nèi)在聯(lián)系;(2).用于分類,對變量或樣本進行分類.8四、因子分析與主成分分析的區(qū)別(1).主成分分析不能作為一個模型,只是變量變換,而因子分析需要構造模型;(2).主成分的個數(shù)和變量的個數(shù)相同,它是將一組具有相關的關系的變量變換為一組互不相關的變量,而因子分析是要用盡可能少的的公因子,以便構造一個簡單的因子模型;(3).主成分表示為原始變量的線性組合,而因子分析是將原始變量表示為公因子和特殊因子的線性組合.98.2

因子分析的概念與計算步驟

1.因子分析模型

設p維可觀測的隨機向量X=(X1,...,Xp)'(假定Xi為標準化變量,即E(Xi)=0,Var(Xi)=1,i=1,2,…,p)表示為10

X=AF+ε

上式稱為因子模型,其中F1、F2、…、Fm稱為公因子,簡稱因子,是不可觀測的變量;待估的系數(shù)陣A稱為因子載荷陣,aij(i=1,2,…,p;j=1,2,…,m)稱為第i個變量在第j個因子上的載荷(簡稱為因子載荷);

ε稱為特殊因子,是不能被前m個公共因子包含的部分.并且滿足:cov(F,ε)=0,即F,ε不相關;

D(F)=Im,即F1、F2、…、Fm互不相關,方差均為1;D(ε)=diag(12,22,…,p2),即ε1、ε2、…、εp互不相關,方差不一定相等,εi~N(0,i2).

因子分析的目的就是通過模型X=AF+ε以F代替X,由于m<p,從而達到降維的目的.112.因子分析模型中的幾個統(tǒng)計特征(1)因子載荷aij的統(tǒng)計意義

由Xi=ai1F1+…+aimFm+εi,兩邊同乘以Fj,再求數(shù)學期望:

E(XiFj)=ai1E(F1Fj)+…+aijE(FjFj)+…+aimE(FmFj)+E(εiFj)從而有rij=E(XiFj)=aij即載荷矩陣中第i行,第j列的元素aij是第i個變量與第j個公因子的相關系數(shù),反映了第i個變量與第j個公因子的相關程度.|aij|1,絕對值越大,相關程度越高.在這種意義上公因子解釋了觀測變量間的相關性.12(2)

.變量共同度的統(tǒng)計意義

因子載荷矩陣第i行的元素平方和:

稱為變量Xi的共同度(i=1,2,…,p).

對Xi=ai1F1+…+aimFm+εi兩邊求方差:

顯然,若因子方差hi2大,剩余方差i2必小.而hi2大就表明Xi對公因子的共同依賴程度大.設Var(Xi)=1,即所有的公共因子和特殊因子對變量Xi的貢獻為1.如果hi2非常靠近1,則i2非常小,此時因子分析的效果好,從原變量空間到公共因子空間的轉化性質(zhì)好.可見hi2反映了變量Xi對公共因子F的依賴程度,故稱hi2為變量Xi的共同度.13(3)公共因子Fj方差貢獻的統(tǒng)計意義

因子載荷矩陣A中各列元素的平方和:

稱為公共因子Fj對X的貢獻,是衡量Fj相對重要性的

指標,qj2越大表明Fj對X的貢獻越大.143.因子載荷矩陣的估計方法

給定p個相關變量X1,...,Xp的觀測數(shù)據(jù)陣X,由X=AF+ε易推出

∑=AA'+D其中∑=D(X)為X的協(xié)方差陣,A=(aij)為p

m的因子載荷陣,D=diag(12,22,…,p2)為p階對角陣.

由p個相關變量的觀測數(shù)據(jù)可得到協(xié)差陣的估計,記為S.為了建立因子模型,首先要估計因子載荷aij和特殊方差i2.常用的參數(shù)估計方法有以下三種:主成分法,主因子法和極大似然法.15(1)主成分法

設樣品協(xié)方差陣S的特征值為λ1≥λ2≥…≥λp≥0,u1,u2,…,up為對應的標準化特征向量,當最后p–m個特征值較小時,S可近似地分解為:其中,

為pm陣,

,即得因子模型的一個解.載荷陣A中的第j列和X的第j個主成分的系數(shù)相差一個倍數(shù)(j=1,…,m),故這個解稱為主成分解.16(2)主因子法

主因子方法是對主成分方法的修正,設R=AA'+D,則R*=R–D=AA'稱為約相關矩陣,若已知特殊因子方差的初始估計,也就是已知變量共同度的估計:則R*對角線上的元素是

,而不是1.即:17計算R*的特征值和特征向量,取前m個正特征值λ1*≥λ2*≥…≥λm*>0,相應的特征向量為u1*,u2*,…,um*,則有近似分解式:

R*

=AA'其中

,令

(i=1,…,p)則A和D為因子模型的一個解,這個解稱為主因子解.18(3)極大似然法

假定公因子F和特殊因子ε服從正態(tài)分布,那么可得到因子載荷陣和特殊因子方差的極大似然估計,設p維觀測向量X(1),...,X(n)為來自正態(tài)總體Np(μ,∑)的隨機樣品,則樣品似然函數(shù)為μ,∑的函數(shù)L(μ,∑).

設∑=AA'+D,取μ=,則似然函數(shù)為A,D的函數(shù):(A,D),求A,D使達最大.為保證得到唯一解,可附加計算上方便的唯一性條件:A'D-1A=對角陣,用迭代方法可求得極大似然估計A和D.19

在實際中特殊因子方差(或變量共同度)是未知的.以上得到的解是近似解.為了得到近似程度更好的解,常常采用迭代主因子法.即利用上面得到的D*=diag(

)作為特殊因子方差的初始估計,重復上述步驟,直到解穩(wěn)定為止.變量共同度hi2常用的初始估計有以下幾種方法:取第i個變量與其他所有變量的多重相關系數(shù)的平方;取第i個變量與其他變量相關系數(shù)絕對值的最大值;取1,它等價于主成分解.204.因子旋轉(正交變換)

所謂因子旋轉就是將因子載荷矩陣A右乘一個正交矩陣T后得到一個新的矩陣A*.它并不影響變量Xi的共同度hi2,卻會改變因子的方差貢獻qj2.因子旋轉通過改變坐標軸,能夠重新分配各個因子解釋原始變量方差的比例,使因子更易于理解.21設p維可觀測向量X滿足因子模型:X=AF+ε.T為正交陣,則因子模型可寫為X=ATT'F+ε=A*F*+ε其中A*=AT,F(xiàn)*=T'F.易知,∑

=AA'+D=A*A*'+D(其中A*=AT).這說明,若A,D是一個因子解,任給正交陣T,A*=AT,D也是因子解.在這個意義下,因子解是不惟一的.

由于因子載荷陣是不惟一的,所以可對因子載荷陣進行旋轉.目的是使因子載荷陣的結構簡化,使載荷矩陣每列或行的元素平方值向0和1兩極分化,這樣的因子便于解釋和命名.22

有三種主要的正交旋轉法:四次方最大法、方差最大法和等量最大法.這些旋轉方法的目標是一致的,只是策略不同.

如果兩種旋轉模型導出不同的解釋,這兩種解釋不能認為是矛盾的.倒不如說是看待相同事物的兩種不同方法,是在公因子空間中的兩個不同點.只取決于惟一的一種你認為是正確旋轉的任何結論都是不成立的.

在統(tǒng)計意義上所有旋轉都是一樣的,即不能說一些旋轉比另一些旋轉好.因此,在不同的旋轉方法之間進行的選擇必須根據(jù)非統(tǒng)計觀點,通常選擇最容易解釋的旋轉模型.238.3

使用FACTOR過程進行因子分析

FACTOR過程輸入格式

PROCFACTORDATA=<數(shù)據(jù)集><選項>;

VAR<原始變量>;

RUN;24(1)PROC

FACTOR語句

PROC

FACTOR語句標志FACTOR過程的開始,同時還可通過設置其他語句定義數(shù)據(jù)集、指定具體分析方法和過程等.通常只需要VAR語句作為PROCFACTOR語句的附加選項.(2)VAR語句

VAR語句用來指定需要分析的數(shù)值變量.如果該句省略,那么在其他語句中未做特殊規(guī)定的所有數(shù)值變量都將被分析.2526

實例分析

【例1】2004年31個省市自治區(qū)經(jīng)濟發(fā)展基本情況的八項指

標,原始數(shù)據(jù)如表1所示.

表1

31個省市自治區(qū)經(jīng)濟發(fā)展基本情況假定上述數(shù)據(jù)存放在數(shù)據(jù)集s1中,試對經(jīng)濟發(fā)展基本情況的八項指標作因子分析.27(1)主成分解PROCFACTORDATA=s1;

Varx1–x8;

TITLE'8個經(jīng)濟指標的分析';

TITLE2'主成分解';

RUN;

結果給出8個變量的簡單統(tǒng)計量,相關陣(略),相關陣的特征值、累計貢獻(如圖所示).28

前兩個主成分解釋了84.60%的方差,按照缺省的選擇因子個數(shù)的準則,取大于1的特征值,所以取兩個因子.

它們是用公因子表示原始變量的回歸系數(shù).第一公因子在所有8個變量上都有正的載荷,可見這個因子反應了經(jīng)濟發(fā)展規(guī)模的影響,但載荷有大有小.第二公因子在居民消費價格指數(shù)和零售商品價格指數(shù)上有大的正載荷,反映了價格指標的影響.

因子模型(factorpattern,或稱因子載荷陣)為最重要的結果之一,如圖所示.29結果還給出了公因子解釋能力的估計(圖1):

圖1各變量的共同度

VarianceExplainedbyEachFacor給出了公因子對原始變量的解釋能力(方差貢獻)的量度,F(xiàn)inalCommunalityEstimates:Total是兩個公因子對原始變量的解釋能力的總和.

最后一行給出每個原始變量的共同度,由于變量x5被兩個因子解釋的信息不夠多,于是考慮選取3個公因子.30(2)選擇公因子在FACTOR語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論