【精】主成分分析與因子分析詳細的異同和SPSS操作.doc_第1頁
【精】主成分分析與因子分析詳細的異同和SPSS操作.doc_第2頁
【精】主成分分析與因子分析詳細的異同和SPSS操作.doc_第3頁
【精】主成分分析與因子分析詳細的異同和SPSS操作.doc_第4頁
【精】主成分分析與因子分析詳細的異同和SPSS操作.doc_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主成分分析與因子分析詳細的異同和SPSS軟件摘要:主成分分析與因子分析(R-型)應用十分廣泛,但一些論文和一些SPSS軟件教科書(見附文)出錯。本文指出了這些錯誤及其成因,指出了出錯造成的危害,從原理上給出了主成分分析與R-型因子分析數(shù)學模型詳細的異同,給出了避免出錯的方法, 并對SPSS軟件及有關(guān)教科書提出了一些建議。關(guān)鍵詞:主成分分析;因子分析;SPSS軟件;出錯;避免設(shè)=(X1 ,XP為標準化隨機向量(p2),R為相關(guān)系數(shù)矩陣, =(F1 ,Fm 為主成分向量,=(Z1 ,Zm 為因子向量,mp,為方便,因子、因子估計、因子得分用同一記號。一、問題的提出與結(jié)論主成分分析與R-型因子分析是多元統(tǒng)計分析中的兩個重要方法,同是降維技術(shù),應用范圍十分廣泛,但通過流行甚廣的SPSS軟件調(diào)用這兩種方法的過程命令,使用者容易出錯,是什么原因造成這些錯誤呢?主成分分析與R-型因子分析到底有何異同呢?出錯會造成什么危害呢?由于SPSS軟件在經(jīng)濟、醫(yī)學、管理等領(lǐng)域中的廣泛流行使用,解決這些問題尤其必要。經(jīng)過對一些論文和一些SPSS軟件教科書(見附文)仔細查證分析、比較、研究得出:出錯原因:有些使用者和書作者對主成分分析與R-型因子分析的原理、異同與解題步驟掌握不透,現(xiàn)行SPSS軟件及其書中沒有完善這兩種方法的研究(對高校師生出錯影響很大)。結(jié)論:主成分分析與R-型因子分析有10處主要的不同,致使主成分分析與因子分析的定量綜合評價體系不同,混淆在一起是不同定量值交替錯誤,綜合評價必須分開進行。出錯帶來的危害:企業(yè)經(jīng)濟效益、競爭力等的綜合評價會帶來誤評,醫(yī)學診斷會帶來誤診,決策會帶來誤斷等。二、一些使用者出現(xiàn)的錯誤及其成因分析經(jīng)過仔細查證分析,有下列錯誤:使用主成分分析時對主成分分析的原理沒有掌握, 如敘述主成分分析概念出錯。主成分F求解出錯,如=中(為單位矩陣,的意義見表1)。不知主成分F的命名依據(jù),對主成分F命名出錯。解釋變量某Xk 被丟失。對錯誤地進行旋轉(zhuǎn)。錯誤地進行回歸求F。把因子分析法(含沒有旋轉(zhuǎn)過程的)錯誤地當作主成分分析法。使用因子分析時對因子分析的原理沒有掌握, 如將因子分析的思想敘述為主成分分析的思想。不知因子Zi的命名依據(jù),對因子Zi 的命名出錯,如用因子得分函數(shù)對因子Zi進行命名。解釋變量某Xk 被丟失。將主成分或因子錯誤地表示為(的意義見表1)。不知相關(guān)系數(shù)矩陣特征值與因子貢獻vi的區(qū)別,如綜合因子得分函數(shù)Z綜 =Zi中的vi錯誤地取為特征值。使用SPSS軟件時由于SPSS軟件本身無主成分分析模塊,有些使用者就用因子分析中一些模塊來制造主成分的結(jié)果,出現(xiàn)了混亂的定量過程。由于SPSS軟件教科書中因子分析內(nèi)容處混淆主成分分析與因子分析,致使有些使用者也混淆這兩種方法出錯。從以上可看出出錯的原因是:有些使用者對主成分分析與R-型因子分析的原理(原理可見4)、異同與解題步驟掌握不透,現(xiàn)行SPSS軟件及其書中沒有完善這兩種方法的研究。三、主成分分析與R-型因子分析數(shù)學模型的異同比較這里給出的主成分分析與R-型因子分析的異同,與現(xiàn)行觀點相比,是內(nèi)容與過程上的比較,更透徹、更準確,是認識的深入。相同之處:主成分分析與R-型因子分析都是對協(xié)差陣的逼近,都是打算降維解釋數(shù)據(jù)集。具體為指標的正向化3, 指標的標準化(SPSS軟件自動執(zhí)行),通過相關(guān)系數(shù)矩陣判斷變量間的相關(guān)性,求相關(guān)系數(shù)矩陣的特征值和特征向量, 主成分間、因子間線性無關(guān),用累計貢獻率(%)、變量不出現(xiàn)丟失確定主成分、因子個數(shù)m, 前m個主成分與前m個因子對X的綜合貢獻相同、是最大化的,命名依據(jù)都是主成分、因子與變量的相關(guān)系數(shù)。不同之處:方差, 最大化方向, 所處的坐標系(標準正交性), 應用上側(cè)重等見表1。表1 主成分分析與R-型因子分析的不同區(qū)別項目主成分分析數(shù)學模型:R-型因子分析數(shù)學模型:表達式與系數(shù)矩陣=()=(,),是相應的特征值和單位特征向量, 0。 +(為特殊因子),因子載荷矩陣m = ()=,=( ,)為初等因子載荷矩陣*(同左)。 因變量方差最大化 Fi依次達到信息貢獻最大化,Var Fi=。 Zi沒有達到最大化,Var Zi=1。 矩陣方差最大化旋轉(zhuǎn)無, 旋轉(zhuǎn)后就不是主成分了,因為Var Fi i 。 有,為方差最大正交旋轉(zhuǎn)矩陣,m達到方差最大化。標準正交性是,即(判據(jù)之一)。非,因為。因變量對X的貢獻特征值。vi=,vi,通常 v1 。相關(guān)系數(shù)=。=。命名依據(jù)用(,)式中系數(shù)絕對值大的對應變量對Fj命名,有時命名清晰性低。將的第j列絕對值大的對應變量歸為Zj一類并由此對Zj命名,命名清晰性高(精細)。回歸過程無。有,因子得分函數(shù)綜合評價函數(shù)及方差F綜 = Fi ,Var F綜 = (,或+, 通常VarF綜 VarZ綜,即F綜 的取值范圍通常比Z綜 大。Z綜 =Zi, vi(判據(jù)之一) Var Z綜 = ((旋轉(zhuǎn)后因子貢獻從變?yōu)関i,因此權(quán)數(shù)應取為vi/),或v1 + v2 +vm 。應用上側(cè)重信息貢獻影響力綜合評價。成因清晰性的綜合評價。注意:主成分分析有時命名清晰, 此時既能達到信息貢獻影響力綜合評價效果, 又能達到成因清晰性的綜合評價效果,此時主成分分析的結(jié)果多數(shù)優(yōu)于因子分析的結(jié)果。以上說明:主成分分析與因子分析定量上不同的顯著性標志是方差。事實上,VarFi ( VarZ綜 ,即F綜 的取值范圍比Z綜 的取值范圍大(見表5、8),這些都肯定了主成分分析與因子分析的定量值評價體系不同。結(jié)論:主成分分析與因子分析兩種方法方差、最大化方向不同,直接導致主成分值、因子得分值、綜合評價值和應用側(cè)重上不同,綜合評價應該分開進行, 混淆在一起是不同定量值交替錯誤。出錯帶來的危害:如在企業(yè)的綜合評價中,某行業(yè)通過樣本搜集,可確定出主成分分析、因子分析各自優(yōu)、良、中、一般的定量值范圍,兩種方法確定的定量值范圍肯定不同,如果混用二種方法,那么就會帶來二種方法定量值的誤用, 甚至誤評,使企業(yè)失去公平競爭機會。在醫(yī)學診斷、經(jīng)濟競爭力等綜合評價問題中也是如此。檢驗: 用實際結(jié)果、經(jīng)驗和原始數(shù)據(jù)做聚類分析對綜合評價值進行檢驗。爭議解決:用原始數(shù)據(jù)做判別分析解決綜合評價中的爭議。四、避免出錯的方法步驟1.主成分分析法和SPSS軟件應用時一對一的正確步驟:指標的正向化2。 指標數(shù)據(jù)標準化(SPSS軟件自動執(zhí)行)。 指標之間的相關(guān)性判定: 用SPSS軟件中表“Correlation Matrix(相關(guān)系數(shù)矩陣)”判定。確定主成分個數(shù)m:用SPSS軟件中表“Total Variance Explained(總方差解釋)” 的主成分方差累計貢獻率%、結(jié)合表“Component Matrix(初始因子載荷陣)”中變量不出現(xiàn)丟失確定主成分個數(shù)m。 主成分Fi表達式(這是SPSS軟件及其教科書中沒完善的地方):將SPSS軟件中表“Component Matrix”中的第i列向量除以第i個特征根的開根后就得到第i個主成分函數(shù)Fi的系數(shù)(在“transform -compute”中進行計算),由此寫出主成分Fi表達式。用的=檢驗之。主成分Fi命名:用SPSS軟件中表“Component Matrix”中的第i列中系數(shù)絕對值大的對應變量對Fi命名(有時命名清晰性低)。主成分與綜合主成分(評價)值(這是SPSS軟件及其教科書中沒完善的地方):綜合主成分(評價)公式 F綜 = Fi (在“transform -compute”中進行計算3), 在SPSS軟件中表“Total Variance Explained”下“Initial Eigrnvalues(主成分方差)”欄的“% of Variance(方差率)”中。Var F綜 = =(。檢驗:綜合主成分(評價)值用實際結(jié)果、經(jīng)驗與原始數(shù)據(jù)做聚類分析進行檢驗(對有爭議的結(jié)果,可用原始數(shù)據(jù)做判別分析解決爭議)。綜合實證分析。2. 因子分析法和SPSS軟件應用時一對一的正確步驟:步驟同主成分分析步驟。確定因子個數(shù)m:用SPSS軟件中表“Total Variance Explained”特征值累計貢獻率%、結(jié)合表“Rotated Component Matrix(旋轉(zhuǎn)后因子載荷陣)”中變量不出現(xiàn)丟失確定因子個數(shù)m。求因子載荷矩陣: SPSS軟件中表“Rotated Component Matrix”。因子Zi的命名:將SPSS軟件中表“Rotated Component Matrix”因子載荷矩陣的第i列絕對值大的對應變量歸為Zi一類, 并由此對Zi命名(命名清晰性高)。 回歸求因子得分函數(shù)Zi表達式:SPSS軟件中表“Component Score Coefficient Matrix(因子得分系數(shù)矩陣)”的第i列向量為第i個因子得分函數(shù)Zi的系數(shù),由此寫出因子得分函數(shù)Zi表達式。求因子得分值與綜合因子得分(評價)值:綜合因子得分(評價)公式Z綜=Zi (在“transform -compute”中進行計算),在SPSS軟件中表“Total Variance Explained”下“Rotation Sums of Squared Loadings(旋轉(zhuǎn)后因子對X的方差)”欄的“% of Variance”中。用vi=檢驗, 通常 v1 ,Var Z綜 = (。檢驗:綜合評價值用實際結(jié)果、經(jīng)驗與原始數(shù)據(jù)做聚類分析進行檢驗(對有爭議的結(jié)果,可用原始數(shù)據(jù)做判別分析解決爭議)。綜合實證分析。五、對SPSS軟件及其書中的建議應單列主成分分析這一重要內(nèi)容。通過兩種方法與軟件相應結(jié)果一對一的步驟化, 完善軟件研究和教科書的正確編寫。因子分析中Component(成分)應寫為factor(因子)。因子分析中將不應有“主成分分析”“主成分”的用詞和內(nèi)容刪除。由于因子分析中旋轉(zhuǎn)后的因子貢獻與相關(guān)系數(shù)矩陣的特征值不等,應將兩者區(qū)分使用。筆者對SPSS軟件的教科書有一分詳細的更正資料,需要者可來涵。六、應用例子。2002年16家上市公司4項指標的數(shù)據(jù)5見表2,定量綜合贏利能力分析如下: 表2 公司銷售凈利率(X1)資產(chǎn)凈利率(X2)凈資產(chǎn)收益率(X3)銷售毛利率(X4)歌華有線五糧液 用友軟件太太藥業(yè)浙江陽光煙臺萬華方正科技紅河光明貴州茅臺中鐵二局紅星發(fā)展伊利股份青島海爾湖北宜化雅戈爾 福建南紙43.3117.1121.1129.5511.0017.632.7329.1120.293.9922.654.435.407.0619.827.267.3912.136.038.628.4113.864.225.449.484.6411.137.308.902.7910.532.998.7317.297.0010.1311.8315.4117.166.0912.979.3514.314.3612.535.2418.556.9954.8944.2589.377325.2236.449.9656.2682.2313.0450.5129.0465.519.7942.0422.721. 主成分分析的做法用SPSS軟件輸入數(shù)據(jù),先對四個指標進行標準化處理,并把標準化后的數(shù)據(jù)保存在數(shù)據(jù)編輯窗口中然后利用SPSS的factor過程對數(shù)據(jù)進行主成分分析(指標之間的相關(guān)性判定略)。得出的相關(guān)系數(shù)矩陣的特征根及方差貢獻率見表3,由于前2個主成分貢獻率85%、結(jié)合表4中變量不出現(xiàn)丟失,所以提取的主成分個數(shù)m=2。表3主成分方差 表4初始因子載荷陣 初始因子載荷陣見表4,表4還不能得出主成分的表達式,還需要把表4中的每列的系數(shù)除以其相應的特征根的開根后才能得到主成分系數(shù)向量,于是主成分函數(shù)的表達式為: F1= 0.531zx1+0.594zx2+0.261zx3+0.546zx4 F2= -0.412zx1+0.404zx2+0.720zx3-0.383zx4 (其中,zxi為標準化后的數(shù)據(jù))表4中每列表示相應主成分與對應變量的相關(guān)系數(shù)4,第一主成分F1反映的是銷售凈利率、資產(chǎn)凈利率、銷售毛利率的信息,而第二主成分F2則反映的是凈資產(chǎn)收益率的信息。最后利用主成分函數(shù)、綜合主成分公式:F=0.47429F1+0.3874F2求出16家上市公司的主成分值、綜合主成分(贏利能力)值見表5。表5. 主成分、綜合主成分(贏利能力)值 公司F1F2F煙臺萬華五糧液雅戈爾紅星發(fā)展貴州茅臺青島海爾太太藥業(yè)伊利股份浙江陽光歌華有線方正科技用友軟件紅河光明中鐵二局福建南紙湖北宜化1.211.161.031.201.410.211.31-0.83-0.561.23-1.720.620.09-2.00-2.07-2.291.461.461.410.53-0.310.35-1.081.060.60-1.691.52-1.89-1.880.15-0.72-0.991.141.121.030.770.550.240.200.02-0.03-0.07-0.23-0.44-0.69-0.89-1.26-1.47 2. 因子分析法的做法表8. 因子得分、綜合因子得分(贏利能力)值 公司Z1Z2Z煙臺萬華五糧液貴州茅臺紅星發(fā)展雅戈爾太太藥業(yè)歌華有線用友軟件青島海爾紅河光明浙江陽光伊利股份方正科技中鐵二局福建南紙湖北宜化0.030.000.980.46-0.061.281.521.25-0.040.93-0.61-0.95-1.73-1.25-0.89-0.891.471.450.40.851.36-0.16-0.58-0.970.32-1.190.150.350.26-0.74-1.35-1.610.6260.6050.6010.5590.5410.5040.4320.1500.116-0.084-0.207-0.294-0.658-0.866-0.956-1.069用SPSS軟件輸入數(shù)據(jù),先對四個指標進行標準化處理,并把標準化后的數(shù)據(jù)保存在數(shù)據(jù)編輯窗口中然后利用SPSS的factor過程對數(shù)據(jù)進行因子分析(指標之間的相關(guān)性判定略)。得出的相關(guān)系數(shù)矩陣的特征根及方差貢獻率見表3,由于前2個因子貢獻率85%、結(jié)合表7中變量不 表6旋轉(zhuǎn)后因子對X的方差 表7 旋轉(zhuǎn)后的因子載荷陣 出現(xiàn)丟失,所以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論