主成份分析和因子分析(Clementine)_第1頁
主成份分析和因子分析(Clementine)_第2頁
主成份分析和因子分析(Clementine)_第3頁
主成份分析和因子分析(Clementine)_第4頁
主成份分析和因子分析(Clementine)_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第10章

主成分分析與因子分析主成分分析因子分析中央財經大學統(tǒng)計學院學習目標1.主成分分析的基本思想2.主成分分析的軟件實現(xiàn)和結果分析3.因子分析的基本思想4.因子分析的軟件實現(xiàn)和結果分析2中央財經大學統(tǒng)計學院2主成分分析中央財經大學統(tǒng)計學院主成分分析的原理多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多,增加了分析問題的復雜性。但在實際問題中,變量之間可能存在一定的相關性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想?!爸鞒煞址治觥?、“因子分析”

都可以用來對數(shù)據(jù)進行降維。4中央財經大學統(tǒng)計學院4主成分分析的基本思想主成分分析(Principalcomponentsanalysis)是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關性。人們自然希望通過線性組合的方式,從這些指標中盡可能快地提取信息。當這些變量的第一個線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個提取的過程,……,直到提取足夠多的信息為止。這就是主成分分析的思想。5中央財經大學統(tǒng)計學院5主成分分析的基本思想主成分分析適用于原有變量之間存在較高程度相關的情況。在主成分分析適用的場合,一般可以用較少的主成分得到較多的信息量,從而得到一個更低維的向量。通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。6中央財經大學統(tǒng)計學院6例:斯通關于國民經濟的研究一項十分著名的工作是美國的統(tǒng)計學家斯通(Stone)在1947年關于國民經濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產資料、純公共支出、凈增庫存、股息、利息外貿平衡等等。在進行主成分分析后,竟以97.4%的精度,用三個新變量就取代了原17個變量。7中央財經大學統(tǒng)計學院7主成分分析的幾何意義?????????????????????????????????????如果僅考慮X1或X2中的任何一個分量,那么包含在另一分量中的信息將會損失,因此,直接舍棄x1或x2分量不是“降維”的有效辦法。8中央財經大學統(tǒng)計學院8主成分分析的幾何意義平移、旋轉坐標軸?????????????????????????????????????對坐標軸進行旋轉,n個點在F1軸上的方差達到最大,即在此方向上包含了有關n個樣品的最大量信息。因此,欲將二維空間的點投影到某個一維方向上,則選擇F1軸方向能使信息的損失最小。9中央財經大學統(tǒng)計學院9主成分分析的幾何意義第一主成分的效果與橢圓的形狀有關。橢圓越扁平,n個點在F1軸上的方差就相對越大,在F2軸上的方差就相對越小,用第一主成分代替所有樣品造成的信息損失就越小。10中央財經大學統(tǒng)計學院10????????????????????????????????????????????????????????????????????????????????????????????????????主成分分析的幾何意義原始變量不相關時,主成分分析沒有效果。11中央財經大學統(tǒng)計學院11?????????????????????????????????????主成分分析的幾何意義原始變量相關程度越高,主成分分析效果越好。12中央財經大學統(tǒng)計學院12主成分分析的數(shù)學模型方程滿足下列條件:(1)(2)Fi與Fj不相關。(3)F1與Fp到方差依次遞減。13中央財經大學統(tǒng)計學院13主成分分析的數(shù)學模型有p個x,相應可以計算出p個主成分。但一般只使用少數(shù)幾個主成分就可以提取大部分信息。主成分分析的基本任務是計算系數(shù)矩陣a11……app。14中央財經大學統(tǒng)計學院14主成分求解的步驟主成分可以按以下步驟計算得出:計算原始變量的相關系數(shù)矩陣R。計算相關系數(shù)矩陣R的特征值,并按從大到小的順序排列,記為計算特征值對應的特征向量,即為主成分F1……Fp相應的系數(shù)。15中央財經大學統(tǒng)計學院15主成分得分把原始變量的值代入主成分表達式中,可以計算出主成分得分。注意在計算主成分得分時需要先對原始變量進行標準化。得到的主成分得分后,可以把各個主成分看作新的變量代替原始變量,從而達到降維的目的。16中央財經大學統(tǒng)計學院16主成分的貢獻率對于第k個主成分,其對方差的貢獻率為前k個主成分貢獻率的累計值稱為累計貢獻率。17中央財經大學統(tǒng)計學院17主成分個數(shù)的確定通常有兩種方式:1、根據(jù)大于1的特征值的個數(shù)確定主成分的個數(shù);2、根據(jù)主成分的累計貢獻率確定主成分的個數(shù),使累計貢獻率>85%或者其他值。最常見的情況是主成分的個數(shù)為2-3個。18中央財經大學統(tǒng)計學院18主成分分析的應用主成分回歸。即把各主成分作為新自變量代替原來自變量x做回歸分析。還可以進一步還原得到Y與x的回歸方程(可以避免多重共線性的問題)。用于綜合評價。按照單個的主成分(例如第一主成分)可以對個體進行排序。按照幾個主成分得分的加權平均值對個體進行排序也是一種評價方法。一般用各個主成分的方差貢獻率加權。由于加權得分缺少實際意義,這種方法理論上有爭議。19中央財經大學統(tǒng)計學院19主成分分析在SPSS中的實現(xiàn)SPSS沒有直接提供主成分分析的功能,需要借助于“因子分析”的模塊實現(xiàn)。用SPSS進行主成分分析有幾個操作環(huán)節(jié)需要特別注意。下面我們以講義中應聘的例子加以說明。20中央財經大學統(tǒng)計學院20主成分分析在SPSS中的實現(xiàn)1、在SPSS中打開數(shù)據(jù)文件(或者錄入數(shù)據(jù))。21中央財經大學統(tǒng)計學院21主成分分析在SPSS中的實現(xiàn)2、選擇“分析”“降維”“因子分析”。3、把除了“編號”以外的變量選入“變量”框;4、單擊“描述”按鈕,在彈出的對話框中選中“系數(shù)”,以輸出相關系數(shù)。其余選項使用默認值。單擊“確定”。22中央財經大學統(tǒng)計學院22SPSS結果分析:相關系數(shù)表相關系數(shù)表中有較大的相關系數(shù),主成分分析可能有效。

自信心洞察力誠信度推銷能力工作經驗簡歷格式.092.228-.107.271.548外貌.431.371.354.490.141研究能力.001.077-.030.055.266興趣愛好.302.483.645.362.141自信心1.000.808.410.800.015洞察力.8081.000.356.818.147誠信度.410.3561.000.240-.156推銷能力.800.818.2401.000.255工作經驗.015.147-.156.2551.000工作魄力.704.698.280.815.337志向抱負.842.758.215.860.195理解能力.721.883.386.782.299潛能.672.777.416.754.348求職渴望度.482.527.448.563.215適應力.250.416.003.558.69323中央財經大學統(tǒng)計學院23特征值和貢獻率前4個特征值為7.51,2.05,1.46,1.20。默認提取4個主成分,累計貢獻率為81.49%。24中央財經大學統(tǒng)計學院24因子載荷矩陣這個表是因子分析的因子載荷矩陣,不是特征向量矩陣。要得到特征向量,需要將各列除以對應特征值的平方根。第1列除以根號7.5,第二列除以根號2.05,等等。25中央財經大學統(tǒng)計學院25特征向量這是根據(jù)SPSS的結果在Excel計算出的特征向量。根據(jù)這個表可以寫出4個主成分的表達式。

成份

1234簡歷格式0.1620.4290.315-0.094外貌0.213-0.035-0.0230.262研究能力0.0400.237-0.4300.636興趣愛好0.225-0.1300.4660.345自信心0.290-0.249-0.241-0.173洞察力0.315-0.131-0.150-0.071誠信度0.158-0.4050.2840.416推銷能力0.324-0.029-0.186-0.198工作經驗0.1340.5530.0830.068工作魄力0.3150.046-0.080-0.156志向抱負0.318-0.068-0.209-0.199理解能力0.331-0.023-0.1170.075潛能0.3330.022-0.0730.188求職渴望度0.259-0.0820.467-0.201適應力0.2360.4210.089-0.02026中央財經大學統(tǒng)計學院26主成分表達式F1=0.162簡歷格式*+0.213外貌*+0.040學習能力*+……+0.236適應力*。式中帶星號的變量表示標準化后的變量其余主成分的表達式依此類推。把標準化后的各個變量帶入方程可以計算出主成分得分。27中央財經大學統(tǒng)計學院27用SPSS計算的主成分得分1、把原始變量標準化;按照主成分的計算公式可以計算出主成分得分。注:SAS、S-plus、R等軟件可以直接給出主成分的系數(shù)表和主成分得分。28中央財經大學統(tǒng)計學院28主成分分析案例2100個學生的六門成績(數(shù)學、物理、化學、語文、歷史、英語)見STUDENT.SAV。根據(jù)數(shù)據(jù)進行主成分分析。29中央財經大學統(tǒng)計學院29SPSS結果分析有比較高的相關系數(shù),可以使用主成分分析方法。30中央財經大學統(tǒng)計學院30特征值和貢獻率前2個主成分的貢獻率為81.42%。31中央財經大學統(tǒng)計學院31成分矩陣和特征向量成分矩陣各列除以相應的特征值可以得出特征向量。第1主成分第2主成分數(shù)學-0.41700.3313物理-0.34880.4986化學-0.34910.4818語文0.46190.2877歷史0.42690.4090英語0.43250.3996特征向量除以根號3.735除以根號1.13332中央財經大學統(tǒng)計學院32主成分得分com1,com2為用公式計算出的主成分得分。33中央財經大學統(tǒng)計學院33因子分析中央財經大學統(tǒng)計學院因子分析因子分析(factoranalysis)是一種數(shù)據(jù)簡化的技術。它通過研究眾多變量之間的內部依賴關系,探求觀測數(shù)據(jù)中的基本結構,并用少數(shù)幾個假想變量來表示其基本的數(shù)據(jù)結構。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。35中央財經大學統(tǒng)計學院35一個例子例如,在企業(yè)形象或品牌形象的研究中,消費者可以通過一個有24個指標構成的評價體系,評價百貨商場的24個方面的優(yōu)劣。但消費者主要關心的是三個方面,即商店的環(huán)境、商店的服務和商品的價格。因子分析方法可以通過24個變量,找出反映商店環(huán)境、商店服務水平和商品價格的三個潛在的因子,對商店進行綜合評價。36中央財經大學統(tǒng)計學院36因子分析的例子這三個公共因子可以表示為:稱是不可觀測的潛在因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分,稱為特殊因子。37中央財經大學統(tǒng)計學院37因子分析與主成分分析的區(qū)別主成分分析分析與因子分析不同,主成分分析僅僅是變量變換,而因子分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論