第13章主成分分析和因子分析PPT課件_第1頁
第13章主成分分析和因子分析PPT課件_第2頁
第13章主成分分析和因子分析PPT課件_第3頁
第13章主成分分析和因子分析PPT課件_第4頁
第13章主成分分析和因子分析PPT課件_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、n主成分的概念由Karl Pearson在1901年提出n考察多個變量間相關(guān)性一種多元統(tǒng)計方法n研究如何通過少數(shù)幾個主成分(principal component)來解釋多個變量間的內(nèi)部結(jié)構(gòu)。即從原始變量中導(dǎo)出少數(shù)幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān)n主成分分析的目的:數(shù)據(jù)的壓縮;數(shù)據(jù)的解釋l常被用來尋找判斷事物或現(xiàn)象的綜合指標(biāo),并對綜合指標(biāo)所包含的信息進(jìn)行適當(dāng)?shù)慕忉屖裁词侵鞒煞址治觯?principal component analysis)第1頁/共20頁n對這兩個相關(guān)變量所攜帶的信息(在統(tǒng)計上信息往往是指數(shù)據(jù)的變異)進(jìn)行濃縮處理n假定只有兩個變量x1和x2,從

2、散點(diǎn)圖可見兩個變量存在相關(guān)關(guān)系,這意味著兩個變量提供的信息有重疊主成分分析的基本思想 (以兩個變量為例)n如果把兩個變量用一個變量來表示,同時這一個新的變量又盡可能包含原來的兩個變量的信息,這就是降維的過程第2頁/共20頁n數(shù)學(xué)上的處理是將原始的p個變量作線性組合,作為新的變量n設(shè)p個原始變量為 ,新的變量(即主成分)為 ,主成分和原始變量之間的關(guān)系表示為主成分分析的數(shù)學(xué)模型ppppppppppxaxaxayxaxaxayxaxaxay22112222121212121111主成分分析的數(shù)學(xué)模型aij為第i個主成分yi和原來的第j個變量xj之間的線性相關(guān)系數(shù),稱為載荷(loading)。比如,

3、a11表示第1主成分和原來的第1個變量之間的相關(guān)系數(shù),a21表示第2主成分和原來的第1個變量之間的相關(guān)系數(shù)第3頁/共20頁n對原來的p個指標(biāo)進(jìn)行標(biāo)準(zhǔn)化,以消除變量在水平和量綱上的影響n根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣求出相關(guān)系數(shù)矩陣n求出協(xié)方差矩陣的特征根和特征向量n確定主成分,并對各主成分所包含的信息給予適當(dāng)?shù)慕忉屩鞒煞址治龅牟襟E第4頁/共20頁Stata命令 pca、pcamat estat screeplot scoreplot、loadingplot rotate predict第5頁/共20頁【例】根據(jù)2008年一季度滬深兩市農(nóng)業(yè)板上市公司的9項(xiàng)主要指標(biāo)數(shù)據(jù),進(jìn)行主成分分析,找出主成分并進(jìn)行適

4、當(dāng)?shù)慕忉屩鞒煞址治?(實(shí)例分析)基本情況基本情況公司成長性指標(biāo)公司成長性指標(biāo)公司盈利能力性指標(biāo)公司盈利能力性指標(biāo)公司股本擴(kuò)張能力指標(biāo)公司股本擴(kuò)張能力指標(biāo)公司名稱ROA主營收入增長率凈利潤增長率主營業(yè)務(wù)利潤率ROEEPS每股凈資產(chǎn)每股公積金總資產(chǎn)增長率禾嘉股份0.0630.2320.8220.2580.0090.011.110.050亞盛集團(tuán)-0.0080.1610.7090.1430.0060.0061.1440.0060.047冠農(nóng)股份0.4380.7550.2840.1070.0030.0041.6210.4210.096St中農(nóng)-0.02-0.4210.9830.209001.5650.

5、757-0.206敦煌種業(yè)0.112-0.1587.1440.3670.0250.0773.0961.988-0.057新農(nóng)開發(fā)0.2770.041-2.3760.251-0.005-0.0163.461.860.392香梨股份0.107-0.0542.101-0.1480.0120.032.511.516-0.234新賽股份0.820.1940.0580.1130.020.1013.832.2850.392第6頁/共20頁Stata的輸出結(jié)果estat smc 變量之間的存在較強(qiáng)的相關(guān)關(guān)系,適合作主成分分析 第7頁/共20頁Stata的輸出結(jié)果(選擇主成分)該表是選則主成分的主要依據(jù)第8頁/

6、共20頁n“Initial Eigenvalues”(初始特征根) l實(shí)際上就是本例中的9個主軸的長度l特征根反映了主成分對原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息l特征根又叫方差,某個特征根占總特征根的比例稱為主成分方差貢獻(xiàn)率l設(shè)特征根為,則第i個主成分的方差貢獻(xiàn)率為l比如,第一個主成分的特征根為3.54354,占總特征根的的比例(方差貢獻(xiàn)率)為39.37%,這表示第一個主成分解釋了原始9個變量39.37%的信息,可見第一個主成分對原來的9個變量解釋的還不是很充分根據(jù)什么選擇主成分?第9頁/共20頁n根據(jù)主成分貢獻(xiàn)率l一般來說,主成分的累計方差貢獻(xiàn)率達(dá)到80%以上的前幾個

7、主成分,都可以選作最后的主成分l比如表中前3個主成分的累計方差貢獻(xiàn)率為78.13%n根據(jù)特特征根的大小l一般情況下,當(dāng)特征根小于1時,就不再選作主成分了,因?yàn)樵撝鞒煞值慕忉屃Χ冗€不如直接用原始變量解的釋力度大l比如表中除前3個外,其他主成分的特征根都小于1。所以只選擇了3個主成分根據(jù)什么選擇主成分?第10頁/共20頁nStata還提供了一個更為直觀的圖形工具來幫助選擇 主 成 分 , 即 碎 石 圖(Scree Plot)n從碎石圖可以看到9個主軸長度變化的趨勢n實(shí)踐中,通常結(jié)合具體情況,選擇碎石圖中變化趨勢出現(xiàn)拐點(diǎn)的前幾個主成分作為原先變量的代表,該例中選擇前3個主成分即可根據(jù)什么選擇主成分

8、? (Scree Plot)第11頁/共20頁怎樣解釋主成分?主成分的因子載荷矩陣 l表1中的每一列表示一個主成分作為原來變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)aijl比如,第一主成分所在列的系數(shù)-0.0364表示第1個主成分和原來的第一個變量(ROA)之間的線性相關(guān)系數(shù)。這個系數(shù)越大,說明主成分對該變量的代表性就越大第12頁/共20頁n 載荷圖(Loading Plot)直觀顯示主成分對原始9變量的解釋情況n 圖中橫軸表示第一個主成分與原始變量間的相關(guān)系數(shù);縱軸表示第二個主成分與原始變量之間的相關(guān)系數(shù)n 每一個變量對應(yīng)的主成分載荷就對應(yīng)坐標(biāo)系中的一個點(diǎn)n 第一個主成分很充分地解釋了

9、原始的后4個變量(與每個原始變量都有較強(qiáng)的正相關(guān)關(guān)系),第二個主成分則較好地var2,var3,var5,var6這2個變量(與它們的相關(guān)關(guān)系較高),而與其他變量的關(guān)系則較弱(相關(guān)系數(shù)的點(diǎn)靠近坐標(biāo)軸)怎樣解釋主成分? (Loading Plot)第13頁/共20頁13.2 因子分析13.2.1 因子分析的基本原理13.2.2 因子分析的數(shù)學(xué)模型13.2.3 因子分析的步驟13.2.4 因子分析的Stata命令第14頁/共20頁n因子分析可以看作是主成分分析的推廣和擴(kuò)展,但它對問題的研究更深入、更細(xì)致一些。實(shí)際上,主成分分析可以看作是因子分析的一個特例n簡言之,因子分析是通過對變量之間關(guān)系的研究

10、,找出能綜合原始變量的少數(shù)幾個因子,使得少數(shù)因子能夠反映原始變量的絕大部分信息,然后根據(jù)相關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間相關(guān)性較高,而不同組的變量之間相關(guān)性較低。因此,因子分析屬于多元統(tǒng)計中處理降維的一種統(tǒng)計方法,其目的就是要減少變量的個數(shù),用少數(shù)因子代表多個原始變量什么是因子分析? (factor analysis)第15頁/共20頁n原始的p個變量表達(dá)為k個因子的線性組合變量n設(shè)p個原始變量為 ,要尋找的k個因子(kp)為 ,主成分和原始變量之間的關(guān)系表示為因子分析的數(shù)學(xué)模型因子分析的數(shù)學(xué)模型系數(shù)aij為第個i變量與第k個因子之間的線性相關(guān)系數(shù),反映變量與因子之間的相關(guān) 程 度 , 也 稱 為 載 荷(loading)。由于因子出現(xiàn)在每個原始變量與因子的線性組合中,因此也稱為公因子。為特殊因子,代表公因子以外的因素影響pkpkpppkkkkfafafaxfafafaxfafafax2211222221212112121111第16頁/共20頁n共同度量(Communality)n因子的方差貢獻(xiàn)率 因子分析的數(shù)學(xué)模型(共同度量Communality和公因子的方差貢獻(xiàn)率 )21(122kjahpiiji, )21(122piagkjijj, 變量xi的信息能夠被k個公因子解釋的程度,用 k個公因子對第i個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論