版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、主成分分析法的原理應(yīng)用及計(jì) 算步驟、概述在處理信息時(shí),當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變 量反映此課題的信息有一定的重疊,例如,高??蒲袪顩r評(píng)價(jià)中的立項(xiàng)課題數(shù) 與項(xiàng)目經(jīng)費(fèi)、經(jīng)費(fèi)支出等之間會(huì)存在較高的相關(guān)性;學(xué)生綜合評(píng)價(jià)研究中的專 業(yè)基礎(chǔ)課成績(jī)與專業(yè)課成績(jī)、獲獎(jiǎng)學(xué)金次數(shù)等之間也會(huì)存在較高的相關(guān)性。而 變量之間信息的高度重疊和高度相關(guān)會(huì)給統(tǒng)計(jì)方法的應(yīng)用帶來許多障礙。為了解決這些問題,最簡(jiǎn)單和最直接的解決方案是削減變量的個(gè)數(shù),但這 必然又會(huì)導(dǎo)致信息丟失和信息不完整等問題的產(chǎn)生。為此,人們希望探索一種 更為有效的解決方法,它既能大大減少參與數(shù)據(jù)建模的變量個(gè)數(shù),同時(shí)也不會(huì) 造成信息的大量
2、丟失。主成分分析正式這樣一種能夠有效降低變量維數(shù),并已 得到廣泛應(yīng)用的分析方法。主成分分析以最少的信息丟失為前提,將眾多的原有變量綜合成較少幾個(gè) 綜合指標(biāo),通常綜合指標(biāo)(主成分)有以下幾個(gè)特點(diǎn):2主成分個(gè)數(shù)遠(yuǎn)遠(yuǎn)少于原有變量的個(gè)數(shù)原有變量綜合成少數(shù)幾個(gè)因子之后,因子將可以替代原有變量參與數(shù)據(jù)建 模,這將大大減少分析過程中的計(jì)算工作量。*主成分能夠反映原有變量的絕大部分信息因子并不是原有變量的簡(jiǎn)單取舍,而是原有變量重組后的結(jié)果,因此不會(huì) 造成原有變量信息的大量丟失,并能夠代表原有變量的絕大部分信息?!爸鞒煞种g應(yīng)該互不相關(guān)通過主成分分析得出的新的綜合指標(biāo)(主成分)之間互不相關(guān),因子參與 數(shù)據(jù)建模能
3、夠有效地解決變量信息重疊、多重共線性等給分析應(yīng)用帶來的諸多 問題。W主成分具有命名解釋性總之,主成分分析法是研究如何以最少的信息丟失將眾多原有變量濃縮成 少數(shù)幾個(gè)因子,如何使因子具有一定的命名解釋性的多元統(tǒng)計(jì)分析方法。二、基本原理主成分分析是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來眾 多的具有一定相關(guān)性的指標(biāo)XI, X2,,XP (比如P個(gè)指標(biāo)),重新組合成一組 較少個(gè)數(shù)的互不相關(guān)的綜合指標(biāo)皿來代替原來指標(biāo)。那么綜合指標(biāo)應(yīng)該如何去 提取,使其既能最大程度的反映原變量血所代表的信息,又能保證新指標(biāo)之間 保持相互無關(guān)(信息不重疊)。設(shè)F1表示原變量的第一個(gè)線性組合所形成的主成分指標(biāo),即
4、人之曲+冋血+心,由數(shù)學(xué)知識(shí)可知,每一個(gè)主成分所提取的信息量可 用其方差來度量,其方差Var(Fl)越大,表示F1包含的信息越多。常常希望第 一主成分F1所含的信息量最大,因此在所有的線性組合中選取的F1應(yīng)該是XI, X2,,XP的所有線性組合中方差最大的,故稱F1為第一主成分。如果第一主 成分不足以代表原來P個(gè)指標(biāo)的信息,再考慮選取第二個(gè)主成分指標(biāo)F2,為有 效地反映原信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,即F2與F1要保持獨(dú) 立、不相關(guān),用數(shù)學(xué)語言表達(dá)就是其協(xié)方差Cov(Fl, F2)=0,所以F2是與Fl不相關(guān)的XI, X2,XP的所有線性組合中方差最大的,故稱F2為第二主成分,依
5、此類推構(gòu)造出的F1、F2、Fm為原變量指標(biāo)XKX2XP第一、第二、 第m個(gè)主成分。片=a +。12*2 + + /卩2 = a2 +a222 + +勺/“FfUX、+am2X2 + .+ampXp根據(jù)以上分析得知:(1) Fi 與 Fj 互不相關(guān),即 Cov(Fi, Fj) =0,并有 Var(Fi)=ai, Sai,其 中為X的協(xié)方差陣(2) F1是XI, X2, Xp的一切線性組合(系數(shù)滿足上述要求)中方差最 大的,即Fm是與Fl, F2,,F(xiàn)m-1都不相關(guān)的XI, X2,,XP的所 有線性組合中方差最大者。Fl, F2,,F(xiàn)m (mWp)為構(gòu)造的新變量指標(biāo),即原變量指標(biāo)的第一、第二、第m
6、個(gè)主成分。由以上分析可見,主成分分析法的主要任務(wù)有兩點(diǎn):(1) 確定各主成分Fi (i=l, 2,,m)關(guān)于原變量Xj (j=l, 2,p) 的表達(dá)式,即系數(shù)知(i=l, 2,,m; j=l, 2,p)o從數(shù)學(xué)上可以證 明,原變量協(xié)方差矩陣的特征根是主成分的方差,所以前m個(gè)較大特征根就代 表前皿個(gè)較大的主成分方差值;原變量協(xié)方差矩陣前m個(gè)較大的特征值人(這 樣選取才能保證主成分的方差依次最大)所對(duì)應(yīng)的特征向量就是相應(yīng)主成分Fi 表達(dá)式的系數(shù)q,為了加以限制,系數(shù)匕啟用的是人對(duì)應(yīng)的單位化的特征向量, 即有 aiai- 1。(2) 計(jì)算主成分載荷,主成分載荷是反映主成分Fi與原變量Xj之間的相互關(guān)
7、聯(lián)程度:P(Z/) =込仏匕=,2,p;k =1,2,,加)三、主成分分析法的計(jì)算步驟主成分分析的具體步驟如下:(1)計(jì)算協(xié)方差矩陣計(jì)算樣品數(shù)據(jù)的協(xié)方差矩陣:S = (Sij)pxp,其中Sii =工(幾一兀)為一兀) i, j=l 2,,Pn T 1(2)求出工的特征值人及相應(yīng)的正交化單位特征向量y的前 m個(gè)較大的特征值 1 2 m0,就是前 m個(gè)主成分對(duì)應(yīng)的方差, i對(duì)應(yīng)的單位特征向量 主成分 Fi 為:ai 就是主成分 Fi 的關(guān)于原變量的系數(shù),則原變量的第 i 個(gè)Fi = ai X主成分的方差(信息)貢獻(xiàn)率用來反映信息量的大小,i 為:mi i / ii1( 3)選擇主成分最終要選擇幾
8、個(gè)主成分,即 F1,F2, ,Fm 中 m的確定是通過方差(信息) 累計(jì)貢獻(xiàn)率 G(m)來確定mpG(m) i / ki 1 k1當(dāng)累積貢獻(xiàn)率大于 85%時(shí),就認(rèn)為能足夠反映原來變量的信息了,對(duì)應(yīng)的 m 就是抽取的前 m個(gè)主成分。(4)計(jì)算主成分載荷主成分載荷是反映主成分 Fi 與原變量 Xj 之間的相互關(guān)聯(lián)程度, 原來變量 Xj (j=1 ,2 , p )在諸主成分 Fi (i=1 ,2, m)上的荷載 lij ( i=1 , 2, m; j=1 ,2 , p)。:l(Zi,Xj)iaij(i 1,2, ,m; j 1,2, ,p)在 SPSS 軟件中主成分分析后的分析結(jié)果中, “成分矩陣
9、”反應(yīng)的就是主成分 載荷矩陣。5)計(jì)算主成分得分計(jì)算樣品在 m個(gè)主成分上的得分:Fi a1iX1 a2iX2 . apiXp i = 1,2, m實(shí)際應(yīng)用時(shí),指標(biāo)的量綱往往不同,所以在主成分計(jì)算之前應(yīng)先消除量綱 的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如 下數(shù)據(jù)變換:*xijxjxijsji 1,2,.,n; j 1,2,., p1n其中: xj 1 xni11n, 2 1xj)2ij , sj(xijn 1i 1根據(jù)數(shù)學(xué)公式知道,任何隨機(jī)變量對(duì)其作標(biāo)準(zhǔn)化變換后,其協(xié)方差與其相關(guān)系數(shù)是一回事, 即標(biāo)準(zhǔn)化后的變量協(xié)方差矩陣就是其相關(guān)系數(shù)矩陣。 另一方面,根據(jù)協(xié)方差的公式
10、可以推得標(biāo)準(zhǔn)化后的協(xié)方差就是原變量的相關(guān)系數(shù), 亦即, 標(biāo)準(zhǔn)化后的變量的協(xié)方差矩陣就是原變量的相關(guān)系數(shù)矩陣。也就是說,在標(biāo)準(zhǔn)化前后變量的相關(guān)系數(shù)矩陣不變化。根據(jù)以上論述,為消除量綱的影響,將變量標(biāo)準(zhǔn)化后再計(jì)算其協(xié)方差矩陣, 就是直接計(jì)算原變量的相關(guān)系數(shù)矩陣,所以主成分分析的實(shí)際常用計(jì)算步驟是: 計(jì)算相關(guān)系數(shù)矩陣求出相關(guān)系數(shù)矩陣的特征值 i 及相應(yīng)的正交化單位特征向量 ai選擇主成分計(jì)算主成分得分總結(jié):原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值 i 為主成分方差的貢獻(xiàn),方差的 p貢獻(xiàn)率為 i i / i , i 越大,說明相應(yīng)的主成分反映綜合信息的能力越強(qiáng), i1可根據(jù) i 的大小來提取主成分。每一個(gè)主成分
11、的組合系數(shù)(原變量在該主成分 上的載荷) ai 就是相應(yīng)特征值 i 所對(duì)應(yīng)的單位特征向量。主成分分析法的計(jì)算步驟1、原始指標(biāo)數(shù)據(jù)的 標(biāo)準(zhǔn)化 采集 p 維隨機(jī)向量 x = (x1,X2,.,Xp)T)n 個(gè)樣品 xi = (xi1,xi2,.,xip)T ,i=1,2, ,n,其中np,構(gòu)造樣本陣,對(duì)樣本陣元進(jìn)行如下標(biāo)準(zhǔn)化變換:,得標(biāo)準(zhǔn)化陣 Z。2、對(duì)標(biāo)準(zhǔn)化陣 Z 求相關(guān)系數(shù) 矩陣3、解樣本相關(guān)矩陣 R 的特征方程 得 p 個(gè)特征根 ,確定主成分確定 m 值,使信息的利用率達(dá) 85%以上,對(duì)每個(gè) j, j=1,2,.,m, 解方程 組 Rb= jb 得單位特征向量4、將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主
12、成分U 1稱為第一主成分 ,U2 稱為第二主成分 , ,Up 稱為第 p 主成分。5 、對(duì) m 個(gè)主成分進(jìn)行綜合評(píng)價(jià)對(duì) m 個(gè)主成分進(jìn)行加權(quán)求和,即得最終評(píng)價(jià)值,權(quán)數(shù)為每個(gè)主成分的方差貢獻(xiàn)率。一、主成分分析基本原理概念:主成分分析是把原來多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分 析方法。從數(shù)學(xué)角度來看,這是一種降維處理技術(shù)。思路:一個(gè)研究對(duì)象,往往是多要素的復(fù)雜系統(tǒng)。變量太多無疑會(huì)增加分 析問題的難度和復(fù)雜性,利用原變量之間的相關(guān)關(guān)系,用較少的新變量代替原 來較多的變量,并使這些少數(shù)變量盡可能多的保留原來較多的變量所反應(yīng)的信 息,這樣問題就簡(jiǎn)單化了。原理:假定有 n 個(gè)樣本,每個(gè)樣本共有 p
13、個(gè)變量,構(gòu)成一個(gè) np 階的數(shù)據(jù) 矩陣,x11x12x21x22xn1xn2x1px2pxnp記原變量指標(biāo)為 x1, x2, xp,設(shè)它們降維處理后的綜合指標(biāo),即新變量為 z 1,z2,z3, , zm(m p) ,則z1 l11x1 l12 x2l1p xpz2 l21x1 l22x2l2pxpzmlm1x1 lm2x2lmpxp系數(shù) l ij 的確定原則:zi 與 zj(i j ;i ,j=1 ,2, m)相互無關(guān); z1是x1,x2,xP的一切線性組合中方差最大者, z2是與 z1不相關(guān)的 x1,x2, xP的所有線性組合中方差最大者;z m是與 z1,z2, zm1 都不相關(guān)的 x1,
14、x2, xP , 的所有線性組合中方差最大者。新變量指標(biāo) z1,z2,zm分別稱為原變量指標(biāo) x1,x2,xP的第 1,第 2, 第 m 主成分。從以上的分析可以看出,主成分分析的實(shí)質(zhì)就是確定原來變量xj(j=1 ,2 , p )在諸主成分 zi(i=1,2,m)上的荷載 l ij( i=1 ,2, m; j=1 ,2 , p)。從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣 m 個(gè)較大的特征值所對(duì)應(yīng)的特征 向量。二、主成分分析的計(jì)算步驟1、計(jì)算相關(guān)系數(shù)矩陣r11r12r1pr21r22r2pR21222prp1 rp2rppr ij (i ,j =1,2, p)為原變量 xi與 xj的相關(guān)系數(shù), r
15、ij =r ji ,其計(jì)算公 式為n( xki xi )( xkj xj ) k1nn22( xki xi)(xkj x j)k 1 k12、計(jì)算特征值與特征向量解特征方程 I R 0 ,常用雅可比法( Jacobi )求出特征值,并使其按大 小順序排列 1 2 p 0 ;p分別求出對(duì)應(yīng)于特征值 i 的特征向量 ei(i 1,2,L, p),要求 e i =1 ,即 ei2j 1 j1 其中 eij 表示向量 ei 的第 j 個(gè)分量。3、計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率貢獻(xiàn)率:ipkk1(i 1,2,L, p)累計(jì)貢獻(xiàn)率:kk1p( i 1,2,L, p)k1般取累計(jì)貢獻(xiàn)率達(dá) 85%-95%的特征
16、值,1, 2,L , m 所對(duì)應(yīng)的第 1、第2、第 m( m p)個(gè)主成分 4、計(jì)算主成分載荷lij p(zi,xj)ieij(i, j 1,2,L , p)5、各主成分得分z11z12z1mz21z22z2mzn1zn2znm、主成分分析法在SPSS中的操作1、指標(biāo)數(shù)據(jù)選取、收集與錄入(表 1)2、Analyze Data Reduction Factor Analysis ,彈出 Factor Analysis 對(duì) 話框:3、把指標(biāo)數(shù)據(jù)選入 Variables 框, Descriptives: Correlation Matrix框組中選中 Coefficients, 然后點(diǎn)擊 Conti
17、nue, 返回 Factor Analysis 對(duì)話框,單 擊 OK。注意:SPSS 在調(diào)用 Factor Analyze 過程進(jìn) 行分析時(shí) , SPSS 會(huì)自動(dòng)對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化 處理 , 所以在得到計(jì)算結(jié)果后的變量都是指經(jīng) 過標(biāo)準(zhǔn)化處理后的變量 , 但 SPSS 并不直接給出 標(biāo)準(zhǔn)化后的數(shù)據(jù) , 如需要得到標(biāo)準(zhǔn)化數(shù)據(jù) , 則需調(diào)用 Descriptives 過程進(jìn)行計(jì)算從表3 可知 GDP與 工業(yè)增加值 , 第三產(chǎn)業(yè)增加值、固定資產(chǎn)投資、基本建 設(shè)投資、社會(huì)消費(fèi)品零售總額、地方財(cái)政收入這幾個(gè)指標(biāo)存在著極其顯著的關(guān) 系 , 與海關(guān)出口總額存在著顯著關(guān)系。可見許多變量之間直接的相關(guān)性比較強(qiáng)
18、證明他們存在信息上的重疊。主成分個(gè)數(shù)提取原則為主成分對(duì)應(yīng)的特征值大于 1的前 m個(gè)主成分。特征值 在某種程度上可以被看成是表示主成分影響力度大小的指標(biāo) , 如果特征值小于 1, 說明該主成分的解釋力度還不如直接引入一個(gè)原變量的平均解釋力度大 , 因此一般可以用特征值大于 1作為納入標(biāo)準(zhǔn)。通過表 4( 方差分解主成分提取分 析) 可知, 提取2個(gè)主成分, 即m=2, 從表5( 初始因子載荷矩陣 ) 可知GDP、工 業(yè)增加值、第三產(chǎn)業(yè)增加值、固定資產(chǎn)投資、基本建設(shè)投資、社會(huì)消費(fèi)品零售 總額、海關(guān)出口總額、地方財(cái)政收入在第一主成分上有較高載荷 , 說明第一主 成分基本反映了這些指標(biāo)的信息 ; 人均
19、GDP和 農(nóng)業(yè)增加值指標(biāo)在第二主成分上 有較高載荷 , 說明第二主成分基本反映了人均 GDP和 農(nóng)業(yè)增加值兩個(gè)指標(biāo)的信 息。所以提取兩個(gè)主成分是可以基本反映全部指標(biāo)的信息 , 所以決定用兩個(gè)新 變量來代替原來的十個(gè)變量。但這兩個(gè)新變量的表達(dá)還不能從輸出窗口中直接 得到, 因?yàn)椤?Component Matrix ”是指初始因子載荷矩陣 , 每一個(gè)載荷量表示 主成分與對(duì)應(yīng)變量的相關(guān)系數(shù)。用表 5( 主成分載荷矩陣 ) 中的數(shù)據(jù)除以主成分相對(duì)應(yīng)的特征值開平方根 便得到兩個(gè)主成分中每個(gè)指標(biāo)所對(duì)應(yīng)的系數(shù)。將初始因子載荷矩陣中的兩列數(shù) 據(jù)輸入( 可用復(fù)制粘貼的方法 ) 到數(shù)據(jù)編輯窗口 ( 為變量 B1、B2) , 然后利用 “ Transform Compute Variable ” , 在Compute Variab
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子承包合同范本
- 風(fēng)濕病的藥物治療如何正確的使用藥物
- 農(nóng)戶借款合同范本
- 承包合同生效日期
- 問領(lǐng)導(dǎo)合同最簡(jiǎn)單三個(gè)步驟
- 養(yǎng)老機(jī)構(gòu)安全保障義務(wù)的泛化及重塑
- 2025年瀘州道路運(yùn)輸從業(yè)資格考試下載
- 財(cái)務(wù)顧問協(xié)議三篇
- 數(shù)據(jù)中心冷卻通道導(dǎo)流裝置特性的模擬研究
- 2025年粵教版選修一歷史下冊(cè)階段測(cè)試試卷
- 高中語文:選擇性必修中冊(cè)第三單元拓展閱讀
- 耳穴壓豆課件
- 2023年江蘇省南京市中考化學(xué)真題(原卷版)
- 2023年湖北省襄陽(yáng)市中考數(shù)學(xué)真題(原卷版)
- 變電站現(xiàn)場(chǎng)運(yùn)行通用規(guī)程考試試題及答案
- 湖南高速鐵路職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試參考試題庫(kù)(含答案)
- 中醫(yī)護(hù)理查房制度
- 母嬰護(hù)理員題庫(kù)
- 老年人預(yù)防及控制養(yǎng)老機(jī)構(gòu)院內(nèi)感染院內(nèi)感染基本知識(shí)
- SWITCH暗黑破壞神3超級(jí)金手指修改 版本號(hào):2.7.6.90885
- 2023高考語文全國(guó)甲卷詩(shī)歌閱讀題晁補(bǔ)之《臨江仙 身外閑愁空滿眼》講評(píng)課件
評(píng)論
0/150
提交評(píng)論