主成分分析與因子分析法_第1頁
主成分分析與因子分析法_第2頁
主成分分析與因子分析法_第3頁
主成分分析與因子分析法_第4頁
主成分分析與因子分析法_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

關(guān)于主成分分析與因子分析法第一頁,共三十七頁,2022年,8月28日主要內(nèi)容主成分分析法因子分析法附:主成分分析法與因子分析法的區(qū)別第二頁,共三十七頁,2022年,8月28日主成分分析法

(PrincipalComponentsAnalysis,PCA)

主成分分析法概述主成分分析的基本原理主成分分析的計算步驟

第三頁,共三十七頁,2022年,8月28日一、主成分分析概述第四頁,共三十七頁,2022年,8月28日假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),這包括眾多的變量,比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上級或有關(guān)方面介紹公司狀況,你能夠把這些指標和數(shù)字都原封不動地擺出去嗎?

引子第五頁,共三十七頁,2022年,8月28日當然不能。匯報什么?發(fā)現(xiàn)在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。需要把這種有很多變量的數(shù)據(jù)進行高度概括,用少數(shù)幾個指標簡單明了地把情況說清楚。第六頁,共三十七頁,2022年,8月28日主成分分析法(PrincipalComponentsAnalysis)和因子分析法(FactorAnalysis)就是把變量維數(shù)降低以便于描述、理解和分析的方法。主成分分析也稱為主分量分析,是一種通過降維來簡化數(shù)據(jù)結(jié)構(gòu)的方法:如何把多個變量化為少數(shù)幾個綜合變量(綜合指標),而這幾個綜合變量可以反映原來多個變量的大部分信息,所含的信息又互不重疊,即它們之間要相互獨立,互不相關(guān)。這些綜合變量就叫因子或主成分,它是不可觀測的,即它不是具體的變量,只是幾個指標的綜合。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?第七頁,共三十七頁,2022年,8月28日成績數(shù)據(jù)53個學生的數(shù)學、物理、化學、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑5诎隧?,共三十七頁?022年,8月28日從本例可能提出的問題能不能把這個數(shù)據(jù)表中的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?第九頁,共三十七頁,2022年,8月28日事實上,以上問題在平時的研究中,也會經(jīng)常遇到。它所涉及的問題可以推廣到對企業(yè)、對學校、對區(qū)域進行分析、評價、排序和分類等。比如對n個樣本進行綜合評價,可選的描述樣本特征的指標很多,而這些指標往往存在一定的相關(guān)性(既不完全獨立,又不完全相關(guān)),這就給研究帶來很大不便。若選指標太多,會增加分析問題的難度與復(fù)雜性,選指標太少,有可能會漏掉對樣本影響較大的指標,影響結(jié)果的可靠性。第十頁,共三十七頁,2022年,8月28日這就需要我們在相關(guān)分析的基礎(chǔ)上,采用主成分分析法找到幾個新的相互獨立的綜合指標,達到既減少指標數(shù)量、又能區(qū)分樣本間差異的目的。第十一頁,共三十七頁,2022年,8月28日

二、主成分分析的基本原理第十二頁,共三十七頁,2022年,8月28日(一)主成分分析的幾何解釋(二)主成分分析的基本思想第十三頁,共三十七頁,2022年,8月28日(一)主成分分析的幾何解釋

例中數(shù)據(jù)點是六維的;即每個觀測值是6維空間中的一個點。希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,語文成績(x1)和數(shù)學成績(x2),分別由橫坐標和縱坐標所代表;每個學生都是二維坐標系中的一個點。第十四頁,共三十七頁,2022年,8月28日因為在實際應(yīng)用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數(shù)據(jù)標準化。為了實現(xiàn)樣本數(shù)據(jù)的標準化,應(yīng)求樣本數(shù)據(jù)的平均和方差。對數(shù)據(jù)矩陣Y作標準化處理,即對每一個指標分量作標準化變換,變換公式為:第十五頁,共三十七頁,2022年,8月28日其中,

樣本均值:

樣本標準差:

第十六頁,共三十七頁,2022年,8月28日原始變量經(jīng)規(guī)格化后變?yōu)樾伦兞?,其均值為零,方差?。對二維空間來講n個標準化后的樣本在二維空間的分布大體為一橢圓形,該橢圓有一個長軸和一個短軸。在短軸方向上數(shù)據(jù)變化很少,極端的情況下,短軸如退化成一點,長軸的方向可以完全解釋這些點的變化,由二維到一維的降維就自然完成了。第十七頁,共三十七頁,2022年,8月28日?????????????????????????????????????假定語文成績(X1)和數(shù)學成績(X2)分別為標準化后的分數(shù),右圖為其散點圖,橢圓傾斜為45度。第十八頁,共三十七頁,2022年,8月28日如果將坐標軸X1

和X2

旋轉(zhuǎn)45o,那么點在新坐標系中的坐標(Y1,Y2)與原坐標(X1,X2)有如下的關(guān)系:Y1和Y2均是X1

和X2的線性組合第十九頁,共三十七頁,2022年,8月28日?????????????????????????????????????在新坐標系中,可以發(fā)現(xiàn):雖然散點圖的形狀沒有改變,但新的隨機變量Y1

和Y2

已經(jīng)不再相關(guān)。而且大部分點沿Y1

軸散開,在Y1軸方向的變異較大(即Y1的方差較大),相對來說,在Y2軸方向的變異較?。碮2

的方差較小)。第二十頁,共三十七頁,2022年,8月28日在上面的例子中Y1

和Y2

就是原變量X1和X2的第一主成分和第二主成分。實際上第一主成分Y1就基本上反映了X1

和X2

的主要信息,因為圖中的各點在新坐標系中的Y1

坐標基本上就代表了這些點的分布情況,因此可以選Y1

為一個新的綜合變量。當然如果再選Y2也作為綜合變量,那么Y1

和Y2

則反映了X1

和X2的全部信息。第二十一頁,共三十七頁,2022年,8月28日22(二)主成分分析的基本思想

假如對某一問題的研究涉及p個指標,記為X1,X2,…,Xp,由這p個隨機變量構(gòu)成的隨機向量為X=(X1,X2,…,Xp),設(shè)X的均值向量為,協(xié)方差矩陣為。設(shè)Y=(Y1,Y2,…,Yp)為對X進行線性變換得到的合成隨機向量,即

(1)設(shè)i=(i1,i2,…,ip),

A=(1,

2,…,p),則有

(2)第二十二頁,共三十七頁,2022年,8月28日23且

(3)

由是式(1)(2)能夠看出,可以對原始變量進行任意的線性變換,不同線性變換得到的合成變量Y的統(tǒng)計特征顯然是不一樣的。每個Yi應(yīng)盡可能多地反映p個原始變量的信息,通常用方差來度量“信息”,Yi的方差越大表示它所包含的信息越多。由式(3)可以看出將系數(shù)向量i擴大任意倍數(shù)會使Yi的方差無限增大,為了消除這種不確定性,增加約束條件:第二十三頁,共三十七頁,2022年,8月28日24

為了有效地反映原始變量的信息,Y的不同分量包含的信息不應(yīng)重疊。綜上所述,式(1)的線性變換需要滿足下面的約束:(1)即,i=1,2,…,p。(2)Y1在滿足約束(1)即的情況下,方差最大;Y2是在滿足約束(1),且與Y1不相關(guān)的條件下,其方差達到大;……;Yp是在滿足約束(1),且與Y1,Y2,…,Yp-1不相關(guān)的條件下,在各種線性組合中方差達到最大者。滿足上述約束得到的合成變量Y1,Y2,…,Yp分別稱為原始變量的第一主成分、第二主成分、…、第p主成分,而且各成分方差在總方差中占的比重依次遞減。在實際研究工作中,僅挑選前幾個方差較大的主成分,以達到簡化系統(tǒng)結(jié)構(gòu)的目的。第二十四頁,共三十七頁,2022年,8月28日三、主成分分析的計算步驟第二十五頁,共三十七頁,2022年,8月28日(一)計算相關(guān)系數(shù)矩陣(二)計算特征值與特征向量(三)計算主成分貢獻率及累計貢獻率(四)計算主成分載荷第二十六頁,共三十七頁,2022年,8月28日(一)計算相關(guān)系數(shù)矩陣

rij(i,j=1,2,…,p)為原變量xi與xj標準化后的相關(guān)系數(shù),rij=rji,其計算公式為(3.5.3)

(3.5.4)

第二十七頁,共三十七頁,2022年,8月28日(二)計算特征值與特征向量1、解特征方程,求出特征值,并使其按大小順序排列

2、分別求出對應(yīng)于特征值的特征向量,要求=1,即,其中表示向量的第j個分量,也就是說為單位向量。第二十八頁,共三十七頁,2022年,8月28日29(三)計算主成分貢獻率及累計貢獻率主成分分析是把p個隨機變量的總方差分解為p個不相關(guān)隨機變量的方差之和1

+2

+…+P,則總方差中屬于第i個主成分(被第i個主成分所解釋)的比例為

稱為第i個主成分的貢獻率。定義

稱為前m個主成分的累積貢獻率,衡量了前m個主成份對原始變量的解釋程度。第二十九頁,共三十七頁,2022年,8月28日

(四)計算主成分載荷

在主成分之間不相關(guān)時,主成分載荷就是主成

分zi與變量xj之間的相關(guān)系數(shù)第三十頁,共三十七頁,2022年,8月28日因子分析法

(FactorAnalysis,F(xiàn)A)因子分析法概述因子分析法的模型附:主成分分析與因子分析的區(qū)別第三十一頁,共三十七頁,2022年,8月28日(一)因子分析法概述因子分析法與主成分分析法都基于統(tǒng)計分析法,但兩者有較大的區(qū)別。主成分分析是通過坐標變換提取主成分,也就是將一組具有相關(guān)性的變量變換為一組獨立的變量,將主成分表示為原始觀察變量的線性組合。而因子分析法是要構(gòu)造因子模型,將原始觀察變量分解為因子的線性組合。因此因子分析法是主成分分析法的發(fā)展。第三十二頁,共三十七頁,2022年,8月28日(二)因子分析法的模型狹義的因子分析法常與主成分分析法在處理方法上有相類似之處,都要對變量規(guī)格化,并找出原始變量規(guī)格化后的相關(guān)矩陣。其主要不同點在于建立線性方程組時所考慮的方法,因子分析是以回歸方程的形式將變量表示成因子的線性組合,而且要使因子數(shù)m小于原始變量維數(shù)p,從而簡化了模型結(jié)構(gòu)。其步驟為:將原始數(shù)據(jù)標準化→求標準化數(shù)據(jù)的相關(guān)矩陣→求相關(guān)矩陣的特征值和特征向量→計算方差貢獻率與累計方差貢獻率→確定因子→因子旋轉(zhuǎn)→用原始的線性組合求各因子得分→求綜合得分→得分排序第三十三頁,共三十七頁,2022年,8月28日因子模型的表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論