




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、,第三章 主成份分析及因子分析 principal component analysis,7.1 引言,主成分分析(或稱主分量分析,principal component analysis)由皮爾遜(Pearson,1901)首先引入,后來(lái)被霍特林(Hotelling,1933)發(fā)展了。 主成分分析是通過(guò)降維技術(shù)把多個(gè)變量化為少數(shù)幾個(gè)主成分(即綜合變量)的統(tǒng)計(jì)分析方法。主成分能夠反映原始變量的絕大部分信息,通常表示為原始變量的某種線性組合。 主成分分析的一般目的是:變量的降維;主成分的解釋。,能否在相關(guān)分析的基礎(chǔ)上,用較少的新特征代替原來(lái)較多的舊特征,而且使這些較少的新變量盡可能多地保留原來(lái)變
2、量所反映的信息?,一、主成分分析的基本原理,假定有樣本,每個(gè)樣本共有p個(gè)特征,構(gòu)成一個(gè)np階的數(shù)據(jù)矩陣,(3.5.1),當(dāng)p較大時(shí),在p維空間中研究問(wèn)題比較繁瑣。 解決辦法:進(jìn)行降維處理,即用較少的幾個(gè)綜合指標(biāo)代替原來(lái)較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多地反映原來(lái)較多變量指標(biāo)所反映的信息,同時(shí)它們之間又是彼此獨(dú)立的。,定義:記x1,x2,xP為原變量指標(biāo),z1,z2,zm(mp)為新變量指標(biāo),(3.5.2),系數(shù)lij的確定原則: zi與zj(ij;i,j=1,2,m)不相關(guān);, z1是x1,x2,xP的一切線性組合中方差最大者,z2是與z1不相關(guān)的x1,x2,xP的所有線性組合
3、中方差最大者; zm是與z1,z2,zm1都不相關(guān)的x1,x2,xP, 的所有線性組合中方差最大者。 則新變量指標(biāo)z1,z2,zm分別稱為原變量指標(biāo)x1,x2,xP的第1,第2,第m主成分。,主成分分析的實(shí)質(zhì)就是確定原來(lái)變量xj(j=1,2 , p)在諸主成分zi(i=1,2,m)上的荷載 lij( i=1,2,m; j=1,2 ,p)。 從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣m個(gè)較大的特征值所對(duì)應(yīng)的特征向量。,二、主成分分析的計(jì)算步驟,(一)計(jì)算相關(guān)系數(shù)矩陣 rij(i,j=1,2,p)為原變量xi與xj的相關(guān)系數(shù), rij=rji,其計(jì)算公式為,(3.5.3),(3.5.4),(二)計(jì)算特征
4、值與特征向量 解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小順序排列 ;, 分別求出對(duì)應(yīng)于特征值的特征向量 ,要求 =1,即,其中表示向量 的第j個(gè)分量。, 計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率 貢獻(xiàn)率,累計(jì)貢獻(xiàn)率,一般取累計(jì)貢獻(xiàn)率達(dá)85%95%的特征值 所對(duì)應(yīng)的第1、第2、第m(mp)個(gè)主成分。, 計(jì)算主成分載荷,(3.5.5),(3.5.6),三、 應(yīng)用實(shí)例,下面,我們根據(jù)表3.5.1給出的數(shù)據(jù),對(duì)某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)做主成分分析。,表 某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)各區(qū)域單元的有關(guān)數(shù)據(jù),100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?問(wèn)題,能不能把這個(gè)數(shù)據(jù)的6個(gè)變量用
5、一兩個(gè)綜合變量來(lái)表示呢? 這一兩個(gè)綜合變量包含有多少原來(lái)的信息呢? 能不能利用找到的綜合變量來(lái)對(duì)學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問(wèn)題可以推廣到對(duì)企業(yè),對(duì)學(xué)校進(jìn)行分析、排序、判別和分類等問(wèn)題。,例中的的數(shù)據(jù)點(diǎn)是六維的,每個(gè)觀測(cè)值是6維空間中的一個(gè)點(diǎn)。我們希望把6維空間用低維空間表示。 先假定只有二維,即只有兩個(gè)變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個(gè)觀測(cè)值都有相應(yīng)于這兩個(gè)坐標(biāo)軸的兩個(gè)坐標(biāo)值;如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(這在變量的二維正態(tài)的假定下是可能的) 那么這個(gè)橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點(diǎn),那只有在長(zhǎng)軸的方向才能夠解釋這些點(diǎn)的變
6、化了;這樣,由二維到一維的降維就自然完成了。,當(dāng)坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代表長(zhǎng)軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。 但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行。因此,需要尋找橢圓的長(zhǎng)短軸,并進(jìn)行變換,使得新變量和橢圓的長(zhǎng)短軸平行。 如果長(zhǎng)軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個(gè)變量(舍去次要的一維),降維就完成了。 橢圓(球)的長(zhǎng)短軸相差得越大,降維也越有道理。,對(duì)于多維變量的情況和二維類似,也有高維的橢球,只不過(guò)無(wú)法直觀地看見(jiàn)罷了。 首先把高維橢球的主軸找出來(lái),再用代表大多數(shù)數(shù)據(jù)信息的最長(zhǎng)的幾個(gè)軸作為新變量;這樣,主成分分析就基本完成了
7、。 注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principal component)。,二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣,有幾個(gè)變量,就有幾個(gè)主成分。 選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?這些被選的主成分所代表的主軸的長(zhǎng)度之和占了主軸長(zhǎng)度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長(zhǎng)度占所有主軸長(zhǎng)度之和的大約85%即可,這只是一個(gè)大體的說(shuō)法,要看實(shí)際情況而定。,SPSS輸出,這里的Initial Eigenvalues就是這里的六個(gè)主軸長(zhǎng)度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個(gè)成分特征值累積占了總方差的81.1
8、42%。后面的特征值的貢獻(xiàn)越來(lái)越少。,特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出,主成分是原始六個(gè)變量的線性組合,這里每一列代表一個(gè)主成分作為原來(lái)變量線性組合的系數(shù)(比例)。比如第一主成分作為數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)這六個(gè)原先變量的線性組合,系數(shù)(比例)為-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。,如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六個(gè)變量x1,x2,x3,x4,x5,x6與第一和第二主成分y1,y2的關(guān)系為: X1=-0.806y1 + 0.3
9、53y2 X2=-0.674y1 + 0.531y2 X3=-0.675y1 + 0.513y2 X4= 0.893y1 + 0.306y2 這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。 比如x1表示式中y1的系數(shù)為-0.806,這就是說(shuō)第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。 相關(guān)系數(shù)(絕對(duì)值)越大,主成分對(duì)該變量的代表性也越大??梢钥吹贸?,第一主成分對(duì)各個(gè)變量解釋得都很充分。而最后的幾個(gè)主成分和原先的變量就不那么相關(guān)了。,可以把第一和第二主成分的載荷點(diǎn)出一個(gè)二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉?lái)的變量的。這個(gè)圖叫做載荷圖。,左面三個(gè)點(diǎn)是數(shù)學(xué)、物理、化
10、學(xué)三科,右邊三個(gè)點(diǎn)是語(yǔ)文、歷史、外語(yǔ)三科。圖中的六個(gè)點(diǎn)由于比較擠,不易分清,但只要認(rèn)識(shí)到這些點(diǎn)的坐標(biāo)是前面的第一二主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)目,還是可以識(shí)別的。,因子分析,主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個(gè)變量,就有幾個(gè)主成分。 而因子分析是事先確定要找?guī)讉€(gè)成分,這里叫因子(factor)(比如兩個(gè)),那就找兩個(gè)。 這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計(jì)算也復(fù)雜得多。根據(jù)因子分析模型的特點(diǎn),它還多一道工序:因子旋轉(zhuǎn)(factor rotation);這個(gè)步驟可以使結(jié)果更好。 當(dāng)然,對(duì)于計(jì)算機(jī)來(lái)說(shuō),因子分析并不比主成分分析多費(fèi)多少
11、時(shí)間。 從輸出的結(jié)果來(lái)看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在輸出中的因子和原來(lái)變量相關(guān)系數(shù)的公式中的系數(shù)不是因子載荷,也給出了二維圖;該圖雖然不是載荷圖,但解釋和主成分分析的載荷圖類似。,主成分分析與因子分析的公式上的區(qū)別,主成分分析 P312,因子分析(mp) P314,因子得分 P315,對(duì)于我們的數(shù)據(jù),SPSS因子分析輸出為,這里,第一個(gè)因子主要和語(yǔ)文、歷史、英語(yǔ)三科有很強(qiáng)的正相關(guān);而第二個(gè)因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強(qiáng)的正相關(guān)。因此可以給第一個(gè)因子起名為“文科因子”,而給第二個(gè)因子起名為“理科因子”。從這個(gè)例子可以看
12、出,因子分析的結(jié)果比主成分分析解釋性更強(qiáng)。,這兩個(gè)因子的系數(shù)所形成的散點(diǎn)圖(雖然不是載荷,在SPSS中也稱載荷圖,,可以直觀看出每個(gè)因子代表了一類學(xué)科,計(jì)算因子得分,可以根據(jù)前面的因子得分公式(因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值的乘積之和),算出每個(gè)學(xué)生的第一個(gè)因子和第二個(gè)因子的大小,即算出每個(gè)學(xué)生的因子得分f1和f2。 人們可以根據(jù)這兩套因子得分對(duì)學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個(gè)選項(xiàng)(可將因子得分存為新變量、顯示因子得分系數(shù)矩陣),因子分析和主成分分析的一些注意事項(xiàng),可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很
13、重要。 另外,如果原始變量都本質(zhì)上獨(dú)立,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。 在得到分析的結(jié)果時(shí),并不一定會(huì)都得到如我們例子那樣清楚的結(jié)果。這與問(wèn)題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系 在用因子得分進(jìn)行排序時(shí)要特別小心,特別是對(duì)于敏感問(wèn)題。由于原始變量不同,因子的選取不同,排序可以很不一樣。,SPSS實(shí)現(xiàn)(因子分析與主成分分析),拿student.sav為例,選AnalyzeData ReductionFactor進(jìn)入主對(duì)話框; 把math、phys、chem、literat、history、english選入Variabl
14、es,然后點(diǎn)擊Extraction, 在Method選擇一個(gè)方法(如果是主成分分析,則選Principal Components), 下面的選項(xiàng)可以隨意,比如要畫(huà)碎石圖就選Scree plot,另外在Extract選項(xiàng)可以按照特征值的大小選主成分(或因子),也可以選定因子的數(shù)目; 之后回到主對(duì)話框(用Continue)。然后點(diǎn)擊Rotation,再在該對(duì)話框中的Method選擇一個(gè)旋轉(zhuǎn)方法(如果是主成分分析就選None), 在Display選Rotated solution(以輸出和旋轉(zhuǎn)有關(guān)的結(jié)果)和Loading plot(以輸出載荷圖);之后回到主對(duì)話框(用Continue)。 如果要計(jì)算
15、因子得分就要點(diǎn)擊Scores,再選擇Save as variables(因子得分就會(huì)作為變量存在數(shù)據(jù)中的附加列上)和計(jì)算因子得分的方法(比如Regression);之后回到主對(duì)話框(用Continue)。這時(shí)點(diǎn)OK即可。,步驟如下: (1)將表3.5.1中的數(shù)據(jù)作標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,然后將它們代入公式(3.5.4)計(jì)算相關(guān)系數(shù)矩陣(表3.5.2)。,表3.5.2相關(guān)系數(shù)矩陣,(2)由相關(guān)系數(shù)矩陣計(jì)算特征值,以及各個(gè)主成分的貢獻(xiàn)率與累計(jì)貢獻(xiàn)率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累計(jì)貢獻(xiàn)率已高達(dá)86.596%(大于85%),故只需要求出第1、第2、第3主成分z1,z2,z3
16、即可。,表3.5.3特征值及主成分貢獻(xiàn)率,(3)對(duì)于特征值=4.661 0,=2.089 0,=1.0430分別求出其特征向量e1,e2,e3,再用公式(3.5.5)計(jì)算各變量x1,x2,x9在主成分z1,z2,z3上的載荷(表3.5.4)。,表3.5.4 主成分載荷,上述計(jì)算過(guò)程,可以借助于SPSS或Matlab軟件系統(tǒng)實(shí)現(xiàn)。,(1)第1主成分z1與x1,x5,x6,x7,x9呈現(xiàn)出較強(qiáng)的正相關(guān),與x3呈現(xiàn)出較強(qiáng)的負(fù)相關(guān),而這幾個(gè)變量則綜合反映了生態(tài)經(jīng)濟(jì)結(jié)構(gòu)狀況,因此可以認(rèn)為第1主成分z1是生態(tài)經(jīng)濟(jì)結(jié)構(gòu)的代表。 (2)第2主成分z2與x2,x4,x5呈現(xiàn)出較強(qiáng)的正相關(guān),與x1呈現(xiàn)出較強(qiáng)的負(fù)相關(guān),其中,除了x1為人口總數(shù)外
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞務(wù)派工合同范本
- 個(gè)人課題申報(bào)書(shū)怎么
- 咨詢中介服務(wù)合同范本
- 醫(yī)院大型設(shè)備合同范本
- 五金鉆頭采購(gòu)合同范本
- 農(nóng)村買地蓋房合同范本
- 刷單協(xié)議合同范本
- 賣房有效合同范本
- 合肥房屋拆除合同范本
- 周圍房子出租合同范例
- 邊城讀書(shū)分享課件
- 地高辛藥品課件
- 2025年春人教版九年級(jí)英語(yǔ)下冊(cè) 2025年中考模擬測(cè)試卷
- DB4117T 245.1-2019 主要林業(yè)有害生物調(diào)查與防控技術(shù)規(guī)范 第1部分 總則
- 加油站事故隱患排查清單(主要負(fù)責(zé)人級(jí))
- 《醫(yī)療事故處理?xiàng)l例》解讀
- 四年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)課件- 用身體說(shuō)話|長(zhǎng)春版
- DB11-T 1894-2021 10kV及以下配電網(wǎng)設(shè)施配置技術(shù)規(guī)范
- 廣西版五年級(jí)下冊(cè)美術(shù)全冊(cè)教案【完整版】
- 《三國(guó)演義》題庫(kù)單選題100道及答案解析
- 農(nóng)村勞動(dòng)力資源調(diào)查工作方案
評(píng)論
0/150
提交評(píng)論