




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第十四講第十四講 因子分析因子分析n第一部分第一部分 主成分分析主成分分析n第二部分第二部分 因子分析因子分析主成分分析的基本原理主成分分析的基本原理 主成分的概念由主成分的概念由karl pearson在在1901年提出的。年提出的。他是考察多個變量間相關(guān)性一種多元統(tǒng)計方法他是考察多個變量間相關(guān)性一種多元統(tǒng)計方法 研究如何通過少數(shù)幾個主成分研究如何通過少數(shù)幾個主成分(principal component)來解釋多個變量間的內(nèi)部結(jié)構(gòu)。即從原來解釋多個變量間的內(nèi)部結(jié)構(gòu)。即從原始變量中導(dǎo)出少數(shù)幾個主分量,使它們盡可能多地始變量中導(dǎo)出少數(shù)幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不
2、相關(guān)。保留原始變量的信息,且彼此間互不相關(guān)。 主成分分析的目的:數(shù)據(jù)的壓縮;數(shù)據(jù)的解釋主成分分析的目的:數(shù)據(jù)的壓縮;數(shù)據(jù)的解釋l常被用來尋找判斷事物或現(xiàn)象的綜合指標,并對綜合指常被用來尋找判斷事物或現(xiàn)象的綜合指標,并對綜合指標所包含的信息進行適當?shù)慕忉寴怂男畔⑦M行適當?shù)慕忉屖裁词侵鞒煞址治??什么是主成分分析?principal component analysis)n對這兩個相關(guān)變量所攜帶的信息對這兩個相關(guān)變量所攜帶的信息(在統(tǒng)計上信息往往是在統(tǒng)計上信息往往是指數(shù)據(jù)的變異指數(shù)據(jù)的變異)進行濃縮處理進行濃縮處理n假定只有兩個變量假定只有兩個變量x1和和x2,從散點圖可見兩個變量存,從散點
3、圖可見兩個變量存在相關(guān)關(guān)系,這意味著兩個變量提供的信息有重疊在相關(guān)關(guān)系,這意味著兩個變量提供的信息有重疊主成分分析的基本思想主成分分析的基本思想 ( (以兩個變量為例以兩個變量為例) )n如果把兩個變量用如果把兩個變量用一個變量來表示,一個變量來表示,同時這一個新的變同時這一個新的變量又盡可能包含原量又盡可能包含原來的兩個變量的信來的兩個變量的信息,這就是降維的息,這就是降維的過程過程主成分分析的數(shù)學(xué)模型主成分分析的數(shù)學(xué)模型n數(shù)學(xué)上的處理是將原始的數(shù)學(xué)上的處理是將原始的p個變量作線性組合,作為新的個變量作線性組合,作為新的變量變量n設(shè)設(shè)p個原始變量為個原始變量為 ,新的變量,新的變量(即主成分
4、即主成分)為為 ,主成分和原始變量之間的關(guān)系表示為,主成分和原始變量之間的關(guān)系表示為主成分分析的數(shù)學(xué)模型主成分分析的數(shù)學(xué)模型ppppppppppxaxaxayxaxaxayxaxaxay22112222121212121111主成分分析的數(shù)學(xué)模型aij為第為第i個主成分個主成分yi和原和原來的第來的第j個變量個變量xj之間的之間的線性相關(guān)系數(shù),稱為載線性相關(guān)系數(shù),稱為載荷荷(loading)。比如,。比如,a11表示第表示第1主成分和原主成分和原來的第來的第1個變量之間的個變量之間的相關(guān)系數(shù),相關(guān)系數(shù),a21表示第表示第2主成分和原來的第主成分和原來的第1個個變量之間的相關(guān)系數(shù)變量之間的相關(guān)系
5、數(shù)pxxx,21pyyy,.21n選擇幾個主成分?選擇幾個主成分?選擇標準是什么?選擇標準是什么?n被選的主成分所代表的主軸的長度之和占了主軸被選的主成分所代表的主軸的長度之和占了主軸總程度之和的大部分總程度之和的大部分n在統(tǒng)計上,主成分所代表的原始變量的信息用其在統(tǒng)計上,主成分所代表的原始變量的信息用其方差來表示。因此,所選擇的第一個主成分是所方差來表示。因此,所選擇的第一個主成分是所有主成分中的方差最大者,即有主成分中的方差最大者,即var(yi)最大最大n如果第一個主成分不足以代表原來的個變量,在如果第一個主成分不足以代表原來的個變量,在考慮選擇第二個主成分,依次類推考慮選擇第二個主成分
6、,依次類推n這些主成分互不相關(guān),且方差遞減這些主成分互不相關(guān),且方差遞減主成分的選擇主成分的選擇n究竟選擇幾個主成分才合適呢?究竟選擇幾個主成分才合適呢?n一般要求所選主成分的方差總和占全部方差的一般要求所選主成分的方差總和占全部方差的80%以上就可以了。當然,這只是一個大體標準以上就可以了。當然,這只是一個大體標準,具體選擇幾個要看實際情況,具體選擇幾個要看實際情況n如果原來的變量之間的相關(guān)程度高,降維的效果如果原來的變量之間的相關(guān)程度高,降維的效果就會好一些,所選的主成分就會少一些,如果原就會好一些,所選的主成分就會少一些,如果原來的變量之間本身就不怎么相關(guān),降維的效果自來的變量之間本身就
7、不怎么相關(guān),降維的效果自然就不好然就不好n不相關(guān)的變量就只能自己代表自己了不相關(guān)的變量就只能自己代表自己了主成分的選擇主成分的選擇主成分分析的步驟主成分分析的步驟n 對原來的對原來的p個指標進行標準化,以消除變量個指標進行標準化,以消除變量在水平和量綱上的影響在水平和量綱上的影響n 根據(jù)標準化后的數(shù)據(jù)矩陣求出相關(guān)系數(shù)矩根據(jù)標準化后的數(shù)據(jù)矩陣求出相關(guān)系數(shù)矩陣陣n 求出協(xié)方差矩陣的特征根和特征向量求出協(xié)方差矩陣的特征根和特征向量n 確定主成分,并對各主成分所包含的信息確定主成分,并對各主成分所包含的信息給予適當?shù)慕忉尳o予適當?shù)慕忉屩鞒煞址治龅牟襟E主成分分析的步驟根據(jù)我國根據(jù)我國31個省市自治區(qū)個省
8、市自治區(qū)2006年的年的6項主要項主要經(jīng)濟指標數(shù)據(jù),進行主成分分析,找出主成經(jīng)濟指標數(shù)據(jù),進行主成分分析,找出主成分并進行適當?shù)慕忉尫植⑦M行適當?shù)慕忉屩鞒煞址治鲋鞒煞址治?( (實例分析實例分析) )用用spssspss進行主成分分析進行主成分分析第第1步步 選擇【選擇【analyze】下拉菜單,并選擇【】下拉菜單,并選擇【data reduction-factor】,進入主對話框】,進入主對話框第第2步步 在主對話框中將所有原始變量選入【在主對話框中將所有原始變量選入【variables】第第3步步 點擊【點擊【descriptives】,在【】,在【correlation matrix】下
9、選擇【】下選擇【coefficirnts】,點擊【】,點擊【continue】回到主對話框回到主對話框第第4步步 點擊【點擊【extraction】,在【】,在【display】下選擇】下選擇【scree plot】,點擊【】,點擊【continue】回到主對話框】回到主對話框第第5步步 點擊【點擊【rotation】,在【】,在【display】下選擇】下選擇【loading plot】,點擊【】,點擊【continue】回到主對話框】回到主對話框 點擊【點擊【ok】單變量描述統(tǒng)計分析。單變量描述統(tǒng)計分析。輸出單變量的基本統(tǒng)輸出單變量的基本統(tǒng)計量,包括每個變量計量,包括每個變量的均值、標準差
10、及其的均值、標準差及其有效例數(shù)有效例數(shù)初始解。默認選項。初始解。默認選項。輸出因子分析的初始輸出因子分析的初始解,顯示初始公共因解,顯示初始公共因子方差、特征值及其子方差、特征值及其解釋變量的百分比。解釋變量的百分比。1、相關(guān)系數(shù)矩陣;、相關(guān)系數(shù)矩陣;2、顯著性水平;、顯著性水平;3、相關(guān)系數(shù)矩陣的行、相關(guān)系數(shù)矩陣的行列值;列值;4、相關(guān)系數(shù)矩陣的逆、相關(guān)系數(shù)矩陣的逆矩陣;矩陣;5、再生相關(guān)系數(shù)矩陣。、再生相關(guān)系數(shù)矩陣。輸出因子分析的估計量輸出因子分析的估計量相關(guān)系數(shù)矩陣,并顯示相關(guān)系數(shù)矩陣,并顯示參差值,即原始相關(guān)系參差值,即原始相關(guān)系數(shù)矩陣與再生相關(guān)系數(shù)數(shù)矩陣與再生相關(guān)系數(shù)矩陣之間的差值;
11、矩陣之間的差值;6、反映射相關(guān)系數(shù)矩、反映射相關(guān)系數(shù)矩陣。包括負片相關(guān)系數(shù)陣。包括負片相關(guān)系數(shù)矩陣。反映射相關(guān)系數(shù)矩陣。反映射相關(guān)系數(shù)矩陣的對角線可以顯示矩陣的對角線可以顯示變量的抽樣適度測試值變量的抽樣適度測試值kmo和球形和球形bartlett檢驗。檢驗。分析矩陣選項:分析矩陣選項:1、相關(guān)系數(shù)、相關(guān)系數(shù)矩陣。用于指矩陣。用于指定利用分析變定利用分析變量相關(guān)矩陣為量相關(guān)矩陣為提取因子的依提取因子的依據(jù),當參與分據(jù),當參與分析的變量測度析的變量測度單位不同時,單位不同時,選擇該選項選擇該選項分析矩陣選項:分析矩陣選項:2、協(xié)方差矩、協(xié)方差矩陣。指定利用陣。指定利用分析變量的協(xié)分析變量的協(xié)方差
12、矩陣為提方差矩陣為提取因子的依據(jù)。取因子的依據(jù)。選擇和因子提選擇和因子提取方法有關(guān)的取方法有關(guān)的輸出選項:輸出選項:1、非旋轉(zhuǎn)因、非旋轉(zhuǎn)因子解。要求顯子解。要求顯示未經(jīng)旋轉(zhuǎn)的示未經(jīng)旋轉(zhuǎn)的因子載荷、公因子載荷、公共因子方差和共因子方差和特征值;特征值;選擇和因子提選擇和因子提取方法有關(guān)的取方法有關(guān)的輸出選項:輸出選項:2、碎石圖。每、碎石圖。每個因子的方差個因子的方差圖,該圖利用圖,該圖利用特征值為兩個特征值為兩個坐標軸。碎石坐標軸。碎石圖可以決定保圖可以決定保留因子的數(shù)量留因子的數(shù)量提取因子的準提取因子的準則:則:1、特征值:該、特征值:該選項指定因子選項指定因子的特征值;的特征值;2、指定提
13、取公、指定提取公因子的數(shù)目。因子的數(shù)目。收斂的最大迭代次數(shù)收斂的最大迭代次數(shù)因子旋轉(zhuǎn)方式:因子旋轉(zhuǎn)方式:1、不進行旋轉(zhuǎn);、不進行旋轉(zhuǎn);2、方差最大正交旋轉(zhuǎn)、方差最大正交旋轉(zhuǎn)法;法;3、直接斜交旋轉(zhuǎn)方法;、直接斜交旋轉(zhuǎn)方法;4、四分位最大正交旋、四分位最大正交旋轉(zhuǎn)法;轉(zhuǎn)法;5、等量正交旋轉(zhuǎn)法;、等量正交旋轉(zhuǎn)法;6、斜交旋轉(zhuǎn)法、斜交旋轉(zhuǎn)法輸出與因子旋轉(zhuǎn)相關(guān)輸出與因子旋轉(zhuǎn)相關(guān)的信息:的信息:1、旋轉(zhuǎn)解;、旋轉(zhuǎn)解;2、因子載荷散點圖。、因子載荷散點圖。spssspss的輸出結(jié)果的輸出結(jié)果各變量之間的相關(guān)系數(shù)矩陣各變量之間的相關(guān)系數(shù)矩陣變量之間的存在較強的相關(guān)關(guān)系,適合作主成分分析變量之間的存在較強的相
14、關(guān)關(guān)系,適合作主成分分析 spssspss的輸出結(jié)果的輸出結(jié)果( (選擇主成分選擇主成分) )表表3 各主成分所解釋的原始變量的方差各主成分所解釋的原始變量的方差該表是選則主成分的主要依據(jù)該表是選則主成分的主要依據(jù)n“initial eigenvalues”(初始特征根初始特征根) l實際上就是本例中的實際上就是本例中的6個主軸的長度個主軸的長度l特征根反映了主成分對原始變量的影響程度,表示引入特征根反映了主成分對原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息該主成分后可以解釋原始變量的信息l特征根又叫特征根又叫方差方差,某個特征根占總特征根的比例稱,某個特征根占總特征根的比例稱
15、為主為主成分方差貢獻率成分方差貢獻率l設(shè)特征根為設(shè)特征根為 ,則第,則第i個主成分的方差貢獻率為個主成分的方差貢獻率為l比如,第一個主成分的特征根為比如,第一個主成分的特征根為3.963,占總特征根的的,占總特征根的的比例比例(方差貢獻率方差貢獻率)為為66.052%,這表示第一個主成分解釋,這表示第一個主成分解釋了原始了原始6個變量個變量66.052%的信息,可見第一個主成分對原的信息,可見第一個主成分對原來的來的6個變量解釋的已經(jīng)很充分了個變量解釋的已經(jīng)很充分了根據(jù)什么選擇主成分?根據(jù)什么選擇主成分?piii1n根據(jù)主成分貢獻率根據(jù)主成分貢獻率l一般來說,主成分的累計方差貢獻率達到一般來說
16、,主成分的累計方差貢獻率達到80%以上的前以上的前幾個主成分,都可以選作最后的主成分幾個主成分,都可以選作最后的主成分l比如表比如表3中前兩個主成分的累計方差貢獻率為中前兩個主成分的累計方差貢獻率為95.57%n根據(jù)特特征根的大小根據(jù)特特征根的大小l一般情況下,當特征根小于一般情況下,當特征根小于1時,就不再選作主成分了,時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量解的釋因為該主成分的解釋力度還不如直接用原始變量解的釋力度大力度大l比如表比如表3中除前兩個外,其他主成分的特征根都小于中除前兩個外,其他主成分的特征根都小于1。所以所以spss只選擇了兩個主成分只選擇了兩個主
17、成分l就本例而言,兩個主成分就足以說明各地區(qū)的經(jīng)濟發(fā)展就本例而言,兩個主成分就足以說明各地區(qū)的經(jīng)濟發(fā)展狀況了狀況了根據(jù)什么選擇主成分?根據(jù)什么選擇主成分?nspss還提供了一個更還提供了一個更為直觀的圖形工具來幫為直觀的圖形工具來幫助選擇主成分,即碎石助選擇主成分,即碎石圖圖(scree plot)n從碎石圖可以看到從碎石圖可以看到6個個主軸長度變化的趨勢主軸長度變化的趨勢n實踐中,通常結(jié)合具體實踐中,通常結(jié)合具體情況,選擇碎石圖中變情況,選擇碎石圖中變化趨勢出現(xiàn)拐點的前幾化趨勢出現(xiàn)拐點的前幾個主成分作為原先變量個主成分作為原先變量的代表,該例中選擇前的代表,該例中選擇前兩個主成分即可兩個主成
18、分即可根據(jù)什么選擇主成分?根據(jù)什么選擇主成分? ( (scree plotscree plot) )拐點怎樣解釋主成分?怎樣解釋主成分?主成分的因子載荷矩陣主成分的因子載荷矩陣 l表表1中的每一列表示一個主成分作為原來變量線性組合的系數(shù),也就是中的每一列表示一個主成分作為原來變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)主成分分析模型中的系數(shù)aijl比如,第一主成分所在列的系數(shù)比如,第一主成分所在列的系數(shù)0.670表示第表示第1個主成分和原來的第一個個主成分和原來的第一個變量變量(人均人均gdp)之間的線性相關(guān)系數(shù)。這個系數(shù)越大,說明主成分對該之間的線性相關(guān)系數(shù)。這個系數(shù)越大,說明主成分對該
19、變量的代表性就越大變量的代表性就越大n根據(jù)主成分分析模型和因子載荷,可以得到根據(jù)主成分分析模型和因子載荷,可以得到兩個主成分與原來兩個主成分與原來6個變量之間的線性組合個變量之間的線性組合表達式如下表達式如下 怎樣解釋主成分?怎樣解釋主成分?( (主成分與原始變量的關(guān)系主成分與原始變量的關(guān)系) )65432126543211263. 0721. 0728. 0351. 0055. 0725. 0950. 0674. 0633. 0896. 0976. 0670. 0 xxxxxxyxxxxxxy注意:表達式中的不是原始變量,而是標準化變量n 載荷圖載荷圖(loading plot)直觀顯示直觀
20、顯示主成分對原始主成分對原始6變量的解釋情況變量的解釋情況n 圖中橫軸表示第一個主成分與原圖中橫軸表示第一個主成分與原始變量間的相關(guān)系數(shù);縱軸表示始變量間的相關(guān)系數(shù);縱軸表示第二個主成分與原始變量之間的第二個主成分與原始變量之間的相關(guān)系數(shù)相關(guān)系數(shù)n 每一個變量對應(yīng)的主成分載荷就每一個變量對應(yīng)的主成分載荷就對應(yīng)坐標系中的一個點,比如,對應(yīng)坐標系中的一個點,比如,人均人均gdp變量對應(yīng)的點是變量對應(yīng)的點是(0.670,0.725)n 第一個主成分很充分地解釋了原第一個主成分很充分地解釋了原始的始的6個變量個變量(與每個原始變量都與每個原始變量都有較強的正相關(guān)關(guān)系有較強的正相關(guān)關(guān)系),第二個,第二個
21、主成分則較好地解釋了居民消費主成分則較好地解釋了居民消費水平、人均水平、人均gdp和年末總?cè)丝诤湍昴┛側(cè)丝谶@這3個變量個變量(與它們的相關(guān)關(guān)系較與它們的相關(guān)關(guān)系較高高),而與其他變量的關(guān)系則較,而與其他變量的關(guān)系則較弱弱(相關(guān)系數(shù)的點靠近坐標軸相關(guān)系數(shù)的點靠近坐標軸)怎樣解釋主成分?怎樣解釋主成分? (loading plot)(loading plot)相關(guān)系數(shù)的點越遠離坐標軸,主成分對原始變量的代表性就越大。這3個點遠離主成分2的坐標第二部分第二部分 因子分析因子分析因子分析的意義和數(shù)學(xué)模型因子分析的意義和數(shù)學(xué)模型因子分析的步驟因子分析的步驟因子分析的應(yīng)用因子分析的應(yīng)用因子分析的意義和數(shù)學(xué)
22、模型因子分析的意義和數(shù)學(xué)模型n由由charles spearman于于1904年首次提出的年首次提出的n與主成分分析類似,它們都是要找出少數(shù)幾個新的與主成分分析類似,它們都是要找出少數(shù)幾個新的變量來代替原始變量變量來代替原始變量n不同之處:主成分分析中的主成分個數(shù)與原始變量不同之處:主成分分析中的主成分個數(shù)與原始變量個數(shù)是一樣的,即有幾個變量就有幾個主成分,只個數(shù)是一樣的,即有幾個變量就有幾個主成分,只不過最后我們確定了少數(shù)幾個主成分而已。而因子不過最后我們確定了少數(shù)幾個主成分而已。而因子分析則需要事先確定要找?guī)讉€成分,也稱為因子分析則需要事先確定要找?guī)讉€成分,也稱為因子(factor),然后
23、將原始變量綜合為少數(shù)的幾個因子,然后將原始變量綜合為少數(shù)的幾個因子,以再現(xiàn)原始變量與因子之間的關(guān)系,一般來說,因以再現(xiàn)原始變量與因子之間的關(guān)系,一般來說,因子的個數(shù)會遠遠少于原始變量的個數(shù)子的個數(shù)會遠遠少于原始變量的個數(shù)什么是因子分析?什么是因子分析? (factor analysis)(factor analysis)n因子分析可以看作是主成分分析的推廣和擴展,但因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更深入、更細致一些。實際上,主它對問題的研究更深入、更細致一些。實際上,主成分分析可以看作是因子分析的一個特例成分分析可以看作是因子分析的一個特例n簡言之,因子分析是通過對變
24、量之間關(guān)系的研究,簡言之,因子分析是通過對變量之間關(guān)系的研究,找出能綜合原始變量的少數(shù)幾個因子,使得少數(shù)因找出能綜合原始變量的少數(shù)幾個因子,使得少數(shù)因子能夠反映原始變量的絕大部分信息,然后根據(jù)相子能夠反映原始變量的絕大部分信息,然后根據(jù)相關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間相關(guān)性較高,而不同組的變量之間相關(guān)性較低。因相關(guān)性較高,而不同組的變量之間相關(guān)性較低。因此,因子分析屬于多元統(tǒng)計中處理降維的一種統(tǒng)計此,因子分析屬于多元統(tǒng)計中處理降維的一種統(tǒng)計方法,其目的就是要減少變量的個數(shù),用少數(shù)因子方法,其目的就是要減少變量的個數(shù),用少數(shù)因子代表多個原
25、始變量代表多個原始變量什么是因子分析?什么是因子分析? (factor analysis)(factor analysis)n因變量和因子個數(shù)的不一致,使得不僅在數(shù)學(xué)因變量和因子個數(shù)的不一致,使得不僅在數(shù)學(xué)模型上,而且在實際求解過程中,因子分析和模型上,而且在實際求解過程中,因子分析和主成分分析都有著一定的區(qū)別,計算上因子分主成分分析都有著一定的區(qū)別,計算上因子分析更為復(fù)雜析更為復(fù)雜n因子分析可能存在的一個優(yōu)點是:在對主成分因子分析可能存在的一個優(yōu)點是:在對主成分和原始變量之間的關(guān)系進行描述時,如果主成和原始變量之間的關(guān)系進行描述時,如果主成分的直觀意義比較模糊不易解釋,主成分分析分的直觀意義
26、比較模糊不易解釋,主成分分析沒有更好的改進方法;因子分析則額外提供了沒有更好的改進方法;因子分析則額外提供了“因子旋轉(zhuǎn)因子旋轉(zhuǎn)(factor rotation)”這樣一個步驟,可這樣一個步驟,可以使分析結(jié)果盡可能達到易于解釋且更為合理以使分析結(jié)果盡可能達到易于解釋且更為合理的目的的目的因子分析的數(shù)學(xué)模型因子分析的數(shù)學(xué)模型n原始的原始的p個變量表達為個變量表達為k個因子的線性組合變量個因子的線性組合變量n設(shè)設(shè)p個原始變量為個原始變量為 ,要尋找的,要尋找的k個因子個因子(kp)為為 ,主成分和原始變量之間的關(guān)系表示為,主成分和原始變量之間的關(guān)系表示為因子分析的數(shù)學(xué)模型因子分析的數(shù)學(xué)模型因子分析的
27、數(shù)學(xué)模型系數(shù)aij為第個i變量與第k個因子之間的線性相關(guān)系數(shù),反映變量與因子之間的相關(guān) 程 度 , 也 稱 為 載 荷(loading)。由于因子出現(xiàn)在每個原始變量與因子的線性組合中,因此也稱為公因子。為特殊因子,代表公因子以外的因素影響pkpkpppkkkkfafafaxfafafaxfafafax2211222221212112121111kfff,21pxxx,21n共同度量共同度量(communality)n因子的方差貢獻率因子的方差貢獻率 因子分析的數(shù)學(xué)模型因子分析的數(shù)學(xué)模型( (共同度量共同度量communalitycommunality和公因子的方差貢獻率和公因子的方差貢獻率 )
28、 )221(1 2)piijjhaik,221(1 2)kjijigajp,變量xi的信息能夠被k個公因子解釋的程度,用 k個公因子對第i個變量xi的方差貢獻率表示第j個公因子對變量xi的提供的方差總和,反映第j個公因子的相對重要程度因子分析的步驟因子分析的步驟n因子分析要求樣本的個數(shù)要足夠多因子分析要求樣本的個數(shù)要足夠多l(xiāng)一般要求樣本的個數(shù)至少是變量的一般要求樣本的個數(shù)至少是變量的5倍以上。同時,樣本倍以上。同時,樣本總數(shù)據(jù)量理論要求應(yīng)該在總數(shù)據(jù)量理論要求應(yīng)該在100以上以上n用于因子分析的變量必須是相關(guān)的用于因子分析的變量必須是相關(guān)的l如果原始變量都是獨立的,意味著每個變量的作用都是不如果
29、原始變量都是獨立的,意味著每個變量的作用都是不可替代的,則無法降維可替代的,則無法降維n檢驗方法檢驗方法l計算各變量之間的相關(guān)矩陣,觀察各相關(guān)系數(shù)。若相關(guān)矩計算各變量之間的相關(guān)矩陣,觀察各相關(guān)系數(shù)。若相關(guān)矩陣中的大部分相關(guān)系數(shù)小于陣中的大部分相關(guān)系數(shù)小于0.3,則不適合作因子分析,則不適合作因子分析l使用使用kaiser-meyer-olkin檢驗檢驗(簡稱簡稱kmo檢驗檢驗)和和 bartlett球度檢驗球度檢驗(bartletts test of sphericity)來判斷來判斷(spss將兩種將兩種檢驗統(tǒng)稱為檢驗統(tǒng)稱為“kmo and bartletts test of spheric
30、ity”)因子分析的步驟因子分析的步驟( (數(shù)據(jù)檢驗數(shù)據(jù)檢驗) )nbartlett球度檢驗球度檢驗l以變量的相關(guān)系數(shù)矩陣為基礎(chǔ),假設(shè)相關(guān)系數(shù)矩陣是單位以變量的相關(guān)系數(shù)矩陣為基礎(chǔ),假設(shè)相關(guān)系數(shù)矩陣是單位陣陣(對角線元素不為對角線元素不為0,非對角線元素均為,非對角線元素均為0)。如果相關(guān)矩。如果相關(guān)矩陣是單位陣,則各變量是獨立的,無法進行因子分析陣是單位陣,則各變量是獨立的,無法進行因子分析nkmo檢驗檢驗l用于檢驗變量間的偏相關(guān)性,用于檢驗變量間的偏相關(guān)性,kmo統(tǒng)計量的取值在統(tǒng)計量的取值在01之間之間l如果統(tǒng)計量取值越接近如果統(tǒng)計量取值越接近1,變量間的偏相關(guān)性越強,因子,變量間的偏相關(guān)性
31、越強,因子分析的效果就越好分析的效果就越好lkmo統(tǒng)計量在統(tǒng)計量在0.7以上時,因子分析效果較好;以上時,因子分析效果較好;kmo統(tǒng)統(tǒng)計量在計量在0.5以下時,因子分析效果很差以下時,因子分析效果很差因子分析的步驟因子分析的步驟( (數(shù)據(jù)檢驗數(shù)據(jù)檢驗) )因子分析的步驟因子分析的步驟( (因子提取因子提取) )n因子數(shù)量的確定因子數(shù)量的確定l用公因子方差貢獻率提?。号c主成分分析類似,用公因子方差貢獻率提?。号c主成分分析類似,一般累計方差貢獻率達到一般累計方差貢獻率達到80%以上的前幾個因子以上的前幾個因子可以作為最后的公因子可以作為最后的公因子l用特征根提?。阂话阋笠蜃訉?yīng)的特征根要大用特征
32、根提?。阂话阋笠蜃訉?yīng)的特征根要大于于1,因為特征根小于,因為特征根小于1說明該共因子的解釋力度說明該共因子的解釋力度太弱,還不如使用原始變量的解釋力度大太弱,還不如使用原始變量的解釋力度大n實際應(yīng)用中,因子的提取要結(jié)合具體問題而實際應(yīng)用中,因子的提取要結(jié)合具體問題而定,在某種程度上,取決于研究者自身的知定,在某種程度上,取決于研究者自身的知識和經(jīng)驗識和經(jīng)驗 因子分析的步驟因子分析的步驟( (因子提取因子提取) )n 因子命名是因子分析重要一步因子命名是因子分析重要一步l一個因子包含了多個原始變量的信息,它究一個因子包含了多個原始變量的信息,它究竟反映了原始變量的哪些共同信息?竟反映了原始變
33、量的哪些共同信息?l因子分析得到的因子的含義是模糊的,需要因子分析得到的因子的含義是模糊的,需要重新命名,以便對研究的問題作出合理解釋重新命名,以便對研究的問題作出合理解釋l可通過考察觀察因子載荷矩陣并結(jié)合實際問可通過考察觀察因子載荷矩陣并結(jié)合實際問題完成題完成l命名已經(jīng)不是統(tǒng)計問題。它需要研究者自身命名已經(jīng)不是統(tǒng)計問題。它需要研究者自身的專業(yè)素質(zhì)和對實際問題背景的了解程度,的專業(yè)素質(zhì)和對實際問題背景的了解程度,這需要更多的實踐經(jīng)驗這需要更多的實踐經(jīng)驗因子分析的步驟因子分析的步驟( (因子命名因子命名) )n觀察因子載荷矩陣觀察因子載荷矩陣l如果因子載荷如果因子載荷aij的絕對值在第的絕對值在
34、第i行的多個列上都有較行的多個列上都有較大的取值大的取值(通常大于通常大于0.5),表明原始變量與多個因子,表明原始變量與多個因子都有較大的相關(guān)關(guān)系,意味著原始變量都有較大的相關(guān)關(guān)系,意味著原始變量xi需要由多個需要由多個因子來共同解釋因子來共同解釋l如果因子載荷如果因子載荷aij的絕對值在第的絕對值在第j列的多個行上都有較列的多個行上都有較大的取值,則表因子大的取值,則表因子fi能共同解釋許多變量的信息,能共同解釋許多變量的信息,而對每個原始變量只能解釋其中的少部分信息,表而對每個原始變量只能解釋其中的少部分信息,表明因子不能有效代表任何一個原始變量,因子的含明因子不能有效代表任何一個原始變
35、量,因子的含義模糊不清,難以對因子給出一個合理的解釋義模糊不清,難以對因子給出一個合理的解釋l需要進行因子旋轉(zhuǎn),以便得到更加合理的解釋需要進行因子旋轉(zhuǎn),以便得到更加合理的解釋因子分析的步驟因子分析的步驟( (因子命名因子命名) )n因子旋轉(zhuǎn)因子旋轉(zhuǎn)(factor rotation)的目的是使因子的含的目的是使因子的含義更加清楚,以便于對因子的命名和解釋義更加清楚,以便于對因子的命名和解釋n旋轉(zhuǎn)的方法有正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)兩種旋轉(zhuǎn)的方法有正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)兩種l正交旋轉(zhuǎn)是指坐標軸始終保持垂直正交旋轉(zhuǎn)是指坐標軸始終保持垂直90度旋轉(zhuǎn),這樣度旋轉(zhuǎn),這樣新生成的因子仍可保持不相關(guān)新生成的因子仍可保持不相
36、關(guān)l斜交旋轉(zhuǎn)坐標軸的夾角可以是任意的,因此新生成斜交旋轉(zhuǎn)坐標軸的夾角可以是任意的,因此新生成的因子不能保證不相關(guān)。因此實際應(yīng)用中更多地使的因子不能保證不相關(guān)。因此實際應(yīng)用中更多地使用正交旋轉(zhuǎn)用正交旋轉(zhuǎn)lspss提供提供5種旋轉(zhuǎn)方法,其中最常用的是種旋轉(zhuǎn)方法,其中最常用的是varimax(方差最大正交旋轉(zhuǎn)方差最大正交旋轉(zhuǎn))法法因子分析的步驟(因子命名旋轉(zhuǎn))nvarimax(方差最大正交旋轉(zhuǎn)方差最大正交旋轉(zhuǎn)):最常用的旋轉(zhuǎn)方法。:最常用的旋轉(zhuǎn)方法。使各使各因子保持正交狀態(tài),但盡量使各因子的方差達到最大,因子保持正交狀態(tài),但盡量使各因子的方差達到最大,即相對的載荷平方和達到最大,從而方便對因子的解釋
37、即相對的載荷平方和達到最大,從而方便對因子的解釋nquartimax(四次方最大正交旋轉(zhuǎn)四次方最大正交旋轉(zhuǎn)):該方法傾向于減少和:該方法傾向于減少和每個變量有關(guān)的因子數(shù),從而簡化對原變量的解釋每個變量有關(guān)的因子數(shù),從而簡化對原變量的解釋nequamax(平方最大正交旋轉(zhuǎn)平方最大正交旋轉(zhuǎn)):該方法介于方差最大正:該方法介于方差最大正交旋轉(zhuǎn)和四次方最大正交旋轉(zhuǎn)之間交旋轉(zhuǎn)和四次方最大正交旋轉(zhuǎn)之間ndirect oblimin(斜交旋轉(zhuǎn)斜交旋轉(zhuǎn)):該方法需要事先指定一個因:該方法需要事先指定一個因子映像的自相關(guān)范圍子映像的自相關(guān)范圍npromax:該方法在方差最大正交旋轉(zhuǎn)的基礎(chǔ)上進行斜交:該方法在方差
38、最大正交旋轉(zhuǎn)的基礎(chǔ)上進行斜交旋轉(zhuǎn)旋轉(zhuǎn)因子分析的步驟因子分析的步驟( (因子命名因子命名旋轉(zhuǎn)旋轉(zhuǎn)) )n因子得分因子得分(factor score)是每個因子在每個樣本是每個因子在每個樣本上的具體取值,它由下列因子得分函數(shù)給出上的具體取值,它由下列因子得分函數(shù)給出因子分析的步驟因子分析的步驟( (計算因子得分計算因子得分) )因子得分函數(shù)因子得分是各變量的線性組合 pkpkkkppppxbxbxbfxbxbxbfxbxbxbf22112222121212121111因子分析的應(yīng)用根據(jù)我國31個省市自治區(qū)2006年的6項主要經(jīng)濟指標數(shù)據(jù),進行因子分析,對因子進行命名和解釋,并計算因子得分和排序因子
39、分析因子分析 ( (實例分析實例分析) )用用spss進行因子分析進行因子分析第第1步步 選擇【選擇【analyze】【data reduction-factor】主對話框。將所主對話框。將所 有原始變量選入【有原始變量選入【variables】第第2步步 點擊【點擊【descriptives】【correlation matrix】【kmo and bartletts test of sphericity】(其他選項根據(jù)需要其他選項根據(jù)需要) 【continue】 第第3步步 點擊【點擊【extraction】,在【】,在【method】框中選擇因子的提取方法】框中選擇因子的提取方法(本例本
40、例 使用隱含的使用隱含的principal components);在【;在【extract】中輸入選擇因子】中輸入選擇因子 的最小特征根的最小特征根(隱含的是特征根大于隱含的是特征根大于1);在【;在【display】下選擇】下選擇 【scree plot】 【continue】第第4步步 點擊【點擊【rotation】,在【】,在【method】框中選擇因子旋轉(zhuǎn)方法】框中選擇因子旋轉(zhuǎn)方法(隱含的不隱含的不 旋轉(zhuǎn),本例選擇【旋轉(zhuǎn),本例選擇【varimax】);在【;在【display】下選擇【】下選擇【loading plot】 【continue】 第第5步步 點擊【點擊【scores】,
41、并選中【】,并選中【display factor score coefficient matrix】(spss隱含的估計因子得分系數(shù)的方法是隱含的估計因子得分系數(shù)的方法是regression) 【continue】 【ok】 數(shù)據(jù)的相關(guān)性檢驗數(shù)據(jù)的相關(guān)性檢驗因子分析因子分析 ( (實例分析實例分析) )kmo檢驗和檢驗和bartlett球度檢驗球度檢驗 bartlett球度檢驗統(tǒng)計量為球度檢驗統(tǒng)計量為277.025。檢驗的。檢驗的p值接近值接近0。表明表明6個變量之間有較強的相關(guān)關(guān)系。而個變量之間有較強的相關(guān)關(guān)系。而kmo統(tǒng)計量為統(tǒng)計量為0.695,接近,接近0.7。適合作因子分析。適合作因子
42、分析 共同度量共同度量 因子分析因子分析 ( (實例分析實例分析) )變量共同度量變量共同度量所有變量的共同度量都在所有變量的共同度量都在80%以上,因此,提取出以上,因此,提取出的公因子對原始變量的解釋能力應(yīng)該是很強的的公因子對原始變量的解釋能力應(yīng)該是很強的 因子方差貢獻率因子方差貢獻率因子分析因子分析 ( (實例分析實例分析) )各因子所解釋的原始變量的方差各因子所解釋的原始變量的方差 除最后除最后3列外,其余部分與主成分分析中的表相同。列外,其余部分與主成分分析中的表相同。 “rotation sums of squared loadings”部分是因子旋轉(zhuǎn)后對原始變量方差的解釋情況。旋
43、轉(zhuǎn)部分是因子旋轉(zhuǎn)后對原始變量方差的解釋情況。旋轉(zhuǎn)后的累計方差沒有改變,只是兩個因子所解釋的原始變量的方差發(fā)生了后的累計方差沒有改變,只是兩個因子所解釋的原始變量的方差發(fā)生了一些變化。一些變化。 因子分析因子分析 ( (實例分析實例分析) )旋轉(zhuǎn)后的因子載荷矩陣旋轉(zhuǎn)后的因子載荷矩陣 第一個因子與年末總?cè)丝?、固定資產(chǎn)投資、社會消費品零售總額、財政收入這第一個因子與年末總?cè)丝凇⒐潭ㄙY產(chǎn)投資、社會消費品零售總額、財政收入這幾個載荷系數(shù)較大,主要解釋了這幾個變量。從實際意義上看,可以把因子幾個載荷系數(shù)較大,主要解釋了這幾個變量。從實際意義上看,可以把因子1姑且命名為姑且命名為“經(jīng)濟水平經(jīng)濟水平”因子。而
44、第二個因子與人均因子。而第二個因子與人均gdp、居民消水平這兩、居民消水平這兩個變量的載荷系數(shù)較大,主要解釋了這兩個變量,從實際意義看,可以將因子個變量的載荷系數(shù)較大,主要解釋了這兩個變量,從實際意義看,可以將因子2姑且命名為姑且命名為“消費水平消費水平”因子因子 (是否合理讀者自己評判是否合理讀者自己評判)因子分析因子分析( (實例分析實例分析) )因子分析的數(shù)學(xué)模型表達式中的xi已經(jīng)不是原始變量,而是標準化變量 216215214213212211349.0922.0980.0117.0213.0941.0247.0931.0622.0755.0981.0112.0ffxffxffxffx
45、ffxffx因子分析因子分析 ( (實例分析實例分析) )旋 轉(zhuǎn) 后 的 因旋 轉(zhuǎn) 后 的 因子 載 荷 系 數(shù)子 載 荷 系 數(shù)更 加 接 近 于更 加 接 近 于1(如果旋轉(zhuǎn)如果旋轉(zhuǎn)后 的 因 子 載后 的 因 子 載荷系數(shù)向荷系數(shù)向01分化越明顯,分化越明顯,說 明 旋 轉(zhuǎn) 的說 明 旋 轉(zhuǎn) 的效果越好效果越好),從 而 使 因 子從 而 使 因 子的 意 義 更 加的 意 義 更 加清楚了清楚了 因子分析因子分析 ( (實例分析實例分析) )因子得分系數(shù)矩陣因子得分系數(shù)矩陣根據(jù)因子得分系數(shù)矩陣可將因子表示為變量的線性組合 n由因子得分系數(shù)矩陣,可以將公因子表示為各變量由因子得分系數(shù)矩陣
46、,可以將公因子表示為各變量的線性組合。得到的因子得分函數(shù)為的線性組合。得到的因子得分函數(shù)為因子分析因子分析 ( (實例分析實例分析) )上面表達式中的上面表達式中的xi標準化變量。根據(jù)這一表達式便可以計算每個標準化變量。根據(jù)這一表達式便可以計算每個地區(qū)對應(yīng)的第一個因子和第二個因子的取值,也稱為因子得分地區(qū)對應(yīng)的第一個因子和第二個因子的取值,也稱為因子得分(factor score)。有了因子得分,就可以對每個地區(qū)分別按照前面。有了因子得分,就可以對每個地區(qū)分別按照前面命名的命名的“經(jīng)濟水平經(jīng)濟水平”因子和因子和“消費水平消費水平”因子進行評價和排序因子進行評價和排序 65432126543211022. 0429. 0237. 0026. 0171. 0430. 0281. 0104. 0372. 0300. 0180. 0105. 0 xxxxxxfxxxxxx
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 曲類中藥飲片批發(fā)企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 模塊化客廳套裝企業(yè)制定與實施新質(zhì)生產(chǎn)力戰(zhàn)略研究報告
- 證券市場管理服務(wù)企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 竹淘米、洗菜籮筐企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 2025年碾磨谷物及谷物加工品項目發(fā)展計劃
- 二零二五年度鄉(xiāng)村旅游土地租賃及收益分成合同
- 2025年度車輛租賃行業(yè)政策研究與合作合同
- 二零二五年度房產(chǎn)過戶稅費結(jié)算及協(xié)助協(xié)議
- 二零二五年度新材料研發(fā)與產(chǎn)業(yè)化基地租賃服務(wù)協(xié)議
- 二零二五年度新型環(huán)保涂料購貨與應(yīng)用推廣合同
- 2024至2030年中國石油瀝青市場前景及投資機會研究報告
- 武漢大學(xué)張俊:2024生成式人工智能大模型及其電力系統(tǒng)數(shù)智化應(yīng)用前沿報告
- (高清版)AQ 1056-2008 煤礦通風能力核定標準
- 《內(nèi)陸干旱區(qū)季節(jié)性河流生態(tài)流量(水量)確定技術(shù)導(dǎo)則》
- 壓力性損傷全程鏈式管理
- IATF16949-2016標準和內(nèi)審員培訓(xùn)
- 2024秋季山西交控集團所屬路橋集團校園招聘270人公開引進高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 2024年常州機電職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫及答案解析
- 2024年人教版小學(xué)語文六年級下冊第二單元測試卷(含答案解析)【可編輯打印】
- 統(tǒng)編版八年級語文下冊 24 唐詩三首練習(xí)題 (含答案)
- 混凝土抗壓強度統(tǒng)計評定表(自動計算-數(shù)理-非數(shù)理)
評論
0/150
提交評論