版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一、概述在處理信息時(shí), 當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊,例如,高??蒲袪顩r評(píng)價(jià)中的立項(xiàng)課題數(shù)與項(xiàng)目經(jīng)費(fèi)、經(jīng)費(fèi)支出等之間會(huì)存在較高的相關(guān)性;學(xué)生綜合評(píng)價(jià)研究中的專業(yè)基礎(chǔ)課成績(jī)與專業(yè)課成績(jī)、獲獎(jiǎng)學(xué)金次數(shù)等之間也會(huì)存在較高的相關(guān)性。而變量之間信息的高度重疊和高度相關(guān)會(huì)給統(tǒng)計(jì)方法的應(yīng)用帶來(lái)許多障礙。為了解決這些問(wèn)題,最簡(jiǎn)單和最直接的解決方案是削減變量的個(gè)數(shù),但這必然又會(huì)導(dǎo)致信息丟失和信息不完整等問(wèn)題的產(chǎn)生。為此,人們希望探索一種更為有效的解決方法,它既能大大減少參與數(shù)據(jù)建模的變量個(gè)數(shù),同時(shí)也不會(huì)造成信息的大量丟失。主成分分析正式這樣一種能夠有效降低變量
2、維數(shù),并已得到廣泛應(yīng)用的分析方法。主成分分析以最少的信息丟失為前提,將眾多的原有變量綜合成較少幾個(gè)綜合指標(biāo),通常綜合指標(biāo)(主成分)有以下幾個(gè)特點(diǎn):主成分個(gè)數(shù)遠(yuǎn)遠(yuǎn)少于原有變量的個(gè)數(shù)原有變量綜合成少數(shù)幾個(gè)因子之后, 因子將可以替代原有變量參與數(shù)據(jù)建模, 這將大大減少分析過(guò)程中的計(jì)算工作量。主成分能夠反映原有變量的絕大部分信息因子并不是原有變量的簡(jiǎn)單取舍, 而是原有變量重組后的結(jié)果, 因此不會(huì)造成原有變量信息的大量丟失,并能夠代表原有變量的絕大部分信息。主成分之間應(yīng)該互不相關(guān)通過(guò)主成分分析得出的新的綜合指標(biāo)(主成分) 之間互不相關(guān), 因子參與數(shù)據(jù)建模能夠有效地解決變量信息重疊、多重共線性等給分析應(yīng)用
3、帶來(lái)的諸多問(wèn)題。主成分具有命名解釋性總之,主成分分析法是研究如何以最少的信息丟失將眾多原有變量濃縮成少數(shù)幾個(gè)因子,如何使因子具有一定的命名解釋性的多元統(tǒng)計(jì)分析方法。二、基本原理主成分分析是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來(lái)眾多的具有一定相關(guān)性的指標(biāo)X1 , X2 , , XP (比如 p 個(gè)指標(biāo)),重新組合成一組較少個(gè)數(shù)的互不相關(guān)的綜合指標(biāo)Fm 來(lái)代替原來(lái)指標(biāo)。那么綜合指標(biāo)應(yīng)該如何去提取,使其既能最大程度的反映原變量 Xp 所代表的信息,又能保證新指標(biāo)之間保持相互無(wú)關(guān)(信息不重疊)。設(shè) F1 表示原變量的第一個(gè)線性組合所形成的主成分指標(biāo),即,由數(shù)學(xué)知識(shí)可知,每一個(gè)主成分所提取的
4、信息量可用其方差來(lái)度量,其方差 Var(F1) 越大,表示 F1 包含的信息越多。常常希望第一主成分F1 所含的信息量最大, 因此在所有的線性組合中選取的F1 應(yīng)該是 X1 ,X2 , , XP 的所有線性組合中方差最大的,故稱F1 為第一主成分。如果第一主成分不足以代表原來(lái)p 個(gè)指標(biāo)的信息,再考慮選取第二個(gè)主成分指標(biāo)F2,為有效地反映原信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2 中,即 F2 與 F1 要保持獨(dú)立、不相關(guān),用數(shù)學(xué)語(yǔ)言表達(dá)就是其協(xié)方差Cov(F1, F2)=0 ,所以 F2 是與 F1 不相關(guān)的X1 ,X2 , ,XP 的所有線性組合中方差最大的,故稱F2 為第二主成分,依此類推
5、構(gòu)造出的F1、 F2、 、 Fm 為原變量指標(biāo)X1 、 X2XP第一、第二、 、第m 個(gè)主成分。根據(jù)以上分析得知:(1) Fi與Fj互不相關(guān),即Cov(Fi , Fj) = 0, 并有 Var(Fi)=ai,其ai中 為 X 的協(xié)方差陣(2)F1 是 X1 , X2 , , Xp 的一切線性組合(系數(shù)滿足上述要求)中方差最大的 , , 即 Fm 是與 F1, F2, , Fm 1 都不相關(guān)的 X1 , X2 , , XP 的所有線性組合中方差最大者。F1, F2, , Fm( mp)為構(gòu)造的新變量指標(biāo),即原變量指標(biāo)的第一、第二、 、第 m 個(gè)主成分。由以上分析可見,主成分分析法的主要任務(wù)有兩點(diǎn)
6、:1)確定各主成分 Fi( i=1 ,2, ,m)關(guān)于原變量 Xj ( j=1 ,2 , , p)的表達(dá)式,即系數(shù)( i=1 ,2, ,m; j=1 , 2 , ,p)。從數(shù)學(xué)上可以證明,原變量協(xié)方差矩陣的特征根是主成分的方差,所以前 m 個(gè)較大特征根就代表前 m 個(gè)較大的主成分方差值;原變量協(xié)方差矩陣前 m 個(gè)較大的特征值(這樣選取才能保證主成分的方差依次最大)所對(duì)應(yīng)的特征向量就是相應(yīng)主成分 Fi 表達(dá)式的系數(shù),為了加以限制,系數(shù)啟用的是對(duì)應(yīng)的單位化的特征向量,即有 = 1 。( 2)計(jì)算主成分載荷,主成分載荷是反映主成分Fi 與原變量Xj 之間的相互關(guān)聯(lián)程度:三、主成分分析法的計(jì)算步驟主成
7、分分析的具體步驟如下:(1)計(jì)算協(xié)方差矩陣計(jì)算樣品數(shù)據(jù)的協(xié)方差矩陣:=(sij)pp,其中i , j=1 , 2, , p(2)求出 的特征值及相應(yīng)的正交化單位特征向量的前 m 個(gè)較大的特征值12 m0,就是前 m 個(gè)主成分對(duì)應(yīng)的方差,對(duì)應(yīng)的單位特征向量就是主成分Fi 的關(guān)于原變量的系數(shù),則原變量的第i 個(gè)主成分Fi 為:Fi =X主成分的方差(信息)貢獻(xiàn)率用來(lái)反映信息量的大小,為:(3)選擇主成分最終要選擇幾個(gè)主成分,即 F1,F2, ,Fm中 m 的確定是通過(guò)方差(信息) 累計(jì)貢獻(xiàn)率G(m) 來(lái)確定當(dāng)累積貢獻(xiàn)率大于85% 時(shí),就認(rèn)為能足夠反映原來(lái)變量的信息了,對(duì)應(yīng)的m 就是抽取的前 m 個(gè)
8、主成分。(4)計(jì)算主成分載荷主成分載荷是反映主成分Fi 與原變量 Xj 之間的相互關(guān)聯(lián)程度, 原來(lái)變量 Xj(j=1 ,2 , ,p)在諸主成分Fi( i=1 , 2, , m)上的荷載lij ( i=1 , 2, , m; j=1 ,2 , ,p)。:在 SPSS 軟件中主成分分析后的分析結(jié)果中,“成分矩陣 ”反應(yīng)的就是主成分載荷矩陣。5)計(jì)算主成分得分計(jì)算樣品在m 個(gè)主成分上的得分:i = 1 ,2, , m實(shí)際應(yīng)用時(shí),指標(biāo)的量綱往往不同,所以在主成分計(jì)算之前應(yīng)先消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如下數(shù)據(jù)變換:其中:,根據(jù)數(shù)學(xué)公式知道,任何隨機(jī)變量對(duì)
9、其作標(biāo)準(zhǔn)化變換后,其協(xié)方差與其相關(guān)系數(shù)是一回事, 即標(biāo)準(zhǔn)化后的變量協(xié)方差矩陣就是其相關(guān)系數(shù)矩陣。另一方面, 根據(jù)協(xié)方差的公式可以推得標(biāo)準(zhǔn)化后的協(xié)方差就是原變量的相關(guān)系數(shù), 亦即,標(biāo)準(zhǔn)化后的變量的協(xié)方差矩陣就是原變量的相關(guān)系數(shù)矩陣。也就是說(shuō),在標(biāo)準(zhǔn)化前后變量的相關(guān)系數(shù)矩陣不變化。根據(jù)以上論述,為消除量綱的影響,將變量標(biāo)準(zhǔn)化后再計(jì)算其協(xié)方差矩陣,就是直接計(jì)算原變量的相關(guān)系數(shù)矩陣,所以主成分分析的實(shí)際常用計(jì)算步驟是:計(jì)算相關(guān)系數(shù)矩陣求出相關(guān)系數(shù)矩陣的特征值及相應(yīng)的正交化單位特征向量選擇主成分計(jì)算主成分得分總結(jié):原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值i 為主成分方差的貢獻(xiàn),方差的貢獻(xiàn)率為,越大,說(shuō)明相應(yīng)的主成
10、分反映綜合信息的能力越強(qiáng),可根據(jù)i 的大小來(lái)提取主成分。每一個(gè)主成分的組合系數(shù) (原變量在該主成分上的載荷)就是相應(yīng)特征值i 所對(duì)應(yīng)的單位特征向量。主成分分析法的計(jì)算步驟1、原始指標(biāo)數(shù)據(jù)的采集p 維隨機(jī)向量 x= (x1,X2,.,Xp)T)n個(gè)樣品xi= (xi1,xi2,.,xip)T,i=1,2, ,n ,np,構(gòu)造樣本陣,對(duì)樣本陣元進(jìn)行如下標(biāo)準(zhǔn)化變換:其中,得標(biāo)準(zhǔn)化陣Z。2、對(duì)標(biāo)準(zhǔn)化陣 Z 求矩陣其中,。3、解樣本相關(guān)矩陣R 的特征方程得 p 個(gè)特征根 , 確定主成分按確定 m 值,使信息的利用率達(dá)85%以上,對(duì)每個(gè) j,j=1,2,.,m,解方程組 Rb= jb 得單位特征向量。4、
11、將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分U1稱為第一主成分 ,U2稱為第二主成分 , ,Up稱為第 p 主成分。、對(duì) m 個(gè)主成分進(jìn)行綜合評(píng)價(jià)對(duì) m 個(gè)主成分進(jìn)行加權(quán)求和,即得最終評(píng)價(jià)值,權(quán)數(shù)為每個(gè)主成分的方差貢獻(xiàn)率。一、主成分分析基本原理概念:主成分分析是把原來(lái)多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。從數(shù)學(xué)角度來(lái)看,這是一種降維處理技術(shù)。思路:一個(gè)研究對(duì)象, 往往是多要素的復(fù)雜系統(tǒng)。變量太多無(wú)疑會(huì)增加分析問(wèn)題的難度和復(fù)雜性, 利用原變量之間的相關(guān)關(guān)系,用較少的新變量代替原來(lái)較多的變量,并使這些少數(shù)變量盡可能多的保留原來(lái)較多的變量所反應(yīng)的信息,這樣問(wèn)題就簡(jiǎn)單化了。原理:假定有n 個(gè)樣本,每個(gè)樣
12、本共有p 個(gè)變量,構(gòu)成一個(gè)np 階的數(shù)據(jù)矩陣,記原變量指標(biāo)為x1, x2, , xp,設(shè)它們降維處理后的綜合指標(biāo),即新變量為z1,z2, z3, , zm(m p),則系數(shù)lij 的確定原則:zi與 zj ( i j;i , j=1 , 2, , m)相互無(wú)關(guān);z1是 x1, x2, ,xP 的一切線性組合中方差最大者,z2 是與z1 不相關(guān)的x1, x2, ,xP 的所有線性組合中方差最大者;zm 是與z1,z2, ,zm 1 都不相關(guān)的x1,x2, xP,的所有線性組合中方差最大者。新變量指標(biāo)z1,z2, , zm 分別稱為原變量指標(biāo)x1, x2, , xP 的第1,第2, ,第 m 主成
13、分。從以上的分析可以看出,主成分分析的實(shí)質(zhì)就是確定原來(lái)變量xj ( j=1 ,2 , , p)在諸主成分zi ( i=1 ,2, , m)上的荷載lij ( i=1 , 2, , m; j=1 , 2 , , p)。從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣m 個(gè)較大的特征值所對(duì)應(yīng)的特征向量。二、主成分分析的計(jì)算步驟1、計(jì)算相關(guān)系數(shù)矩陣rij ( i, j=1 , 2, , p)為原變量xi 與 xj 的相關(guān)系數(shù),rij=rji ,其計(jì)算公式為2、計(jì)算特征值與特征向量解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小順序排列;分別求出對(duì)應(yīng)于特征值的特征向量,要求=1,即其中表示向量的第
14、 j 個(gè)分量。3、計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率貢獻(xiàn)率:累計(jì)貢獻(xiàn)率:一般取累計(jì)貢獻(xiàn)率達(dá)85%-95% 的特征值,所對(duì)應(yīng)的第1、第 2、 、第 m(mp)個(gè)主成分。4、計(jì)算主成分載荷5、各主成分得分三、主成分分析法在SPSS 中的操作1、指標(biāo)數(shù)據(jù)選取、收集與錄入(表1)2、 Analyze Data Reduction Factor Analysis,彈出 Factor Analysis 對(duì)話框:3、把指標(biāo)數(shù)據(jù)選入Variables 框, Descriptives: CorrelationMatrix框組中選中Coefficients,然后點(diǎn)擊 Continue, 返回 Factor Analys
15、is對(duì)話框,單擊OK 。注意: SPSS 在調(diào)用 Factor Analyze 過(guò)程進(jìn)行分析時(shí), SPSS 會(huì)自動(dòng)對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理 , 所以在得到計(jì)算結(jié)果后的變量都是指經(jīng)過(guò)標(biāo)準(zhǔn)化處理后的變量, 但 SPSS 并不直接給出標(biāo)準(zhǔn)化后的數(shù)據(jù), 如需要得到標(biāo)準(zhǔn)化數(shù)據(jù), 則需調(diào)用 Descriptives 過(guò)程進(jìn)行計(jì)算。從表 3 可知 GDP 與工業(yè)增加值 , 第三產(chǎn)業(yè)增加值、固定資產(chǎn)投資、基本建設(shè)投資、社會(huì)消費(fèi)品零售總額、 地方財(cái)政收入這幾個(gè)指標(biāo)存在著極其顯著的關(guān)系, 與海關(guān)出口總額存在著顯著關(guān)系??梢娫S多變量之間直接的相關(guān)性比較強(qiáng), 證明他們存在信息上的重疊。主成分個(gè)數(shù)提取原則為主成分對(duì)應(yīng)的
16、特征值大于1的前 m個(gè)主成分。特征值在某種程度上可以被看成是表示主成分影響力度大小的指標(biāo), 如果特征值小于 1,說(shuō)明該主成分的解釋力度還不如直接引入一個(gè)原變量的平均解釋力度大, 因此一般可以用特征值大于1作為納入標(biāo)準(zhǔn)。通過(guò)表 4( 方差分解主成分提取分析 )可知 , 提取 2個(gè)主成分 , 即 m=2, 從表 5( 初始因子載荷矩陣 ) 可知 GDP 、工業(yè)增加值、第三產(chǎn)業(yè)增加值、固定資產(chǎn)投資、基本建設(shè)投資、社會(huì)消費(fèi)品零售總額、海關(guān)出口總額、地方財(cái)政收入在第一主成分上有較高載荷, 說(shuō)明第一主成分基本反映了這些指標(biāo)的信息; 人均 GDP 和農(nóng)業(yè)增加值指標(biāo)在第二主成分上有較高載荷,說(shuō)明第二主成分基本
17、反映了人均GDP 和農(nóng)業(yè)增加值兩個(gè)指標(biāo)的信息。所以提取兩個(gè)主成分是可以基本反映全部指標(biāo)的信息, 所以決定用兩個(gè)新變量來(lái)代替原來(lái)的十個(gè)變量。但這兩個(gè)新變量的表達(dá)還不能從輸出窗口中直接得到, 因?yàn)?“Component Matrix ”指初始因子載荷矩是陣, 每一個(gè)載荷量表示主成分與對(duì)應(yīng)變量的相關(guān)系數(shù)。用表 5( 主成分載荷矩陣) 中的數(shù)據(jù)除以主成分相對(duì)應(yīng)的特征值開平方根便得到兩個(gè)主成分中每個(gè)指標(biāo)所對(duì)應(yīng)的系數(shù)。將初始因子載荷矩陣中的兩列數(shù)據(jù)輸入( 可用復(fù)制粘貼的方法) 到數(shù)據(jù)編輯窗口 ( 為變量 B1 、B2) , 然后利用 “Transform Compute Variable ”在,Compu
18、te Variable 對(duì)話框中輸入 “ A1=B1/SQR(7.22) 注”:第二主成分 SQR后的括號(hào)中填 1.235, 即可得到特征向量 A1( 見表 6)。同理 , 可得到特征向量 A2 。將得到的特征向量與標(biāo)準(zhǔn)化后的數(shù)據(jù)相乘 , 然后就可以得出主成分表達(dá)式 注: 因本例只是為了說(shuō)明如何在 SPSS 進(jìn)行主成分分析 , 故在此不對(duì)提取的主成分進(jìn)行命名 , 有興趣的讀者可自行命名。標(biāo)準(zhǔn)化:通過(guò)Analyze Descriptive StatisticsDescriptives 對(duì)話框后 , 把 X1 X10 選入 VariablesDescriptives對(duì)話框來(lái)實(shí)現(xiàn) : 彈出框 , 在 Save standardized values asvariables前的方框打上鉤, 點(diǎn)擊 “
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)倫理與道德-第1篇-洞察分析
- 虛擬現(xiàn)實(shí)訓(xùn)練成本效益分析-洞察分析
- 無(wú)人零售技術(shù)發(fā)展研究-洞察分析
- 線纜絕緣老化檢測(cè)方法-洞察分析
- 虛假新聞識(shí)別與治理-洞察分析
- 《大數(shù)據(jù)存儲(chǔ)技術(shù)與應(yīng)用》 課件 項(xiàng)目一-任務(wù)二 走進(jìn)大數(shù)據(jù)存儲(chǔ)技術(shù)
- 文化產(chǎn)品自動(dòng)化生產(chǎn)線構(gòu)建-洞察分析
- 醫(yī)療器械合作的意向書(5篇)
- 《建筑節(jié)能的措施》課件
- 創(chuàng)意美術(shù)教育課程設(shè)計(jì)的多維探索
- 2012NCCN指南更新解讀結(jié)直腸癌
- 第三講_陰離子型黏土插層復(fù)合材料
- 國(guó)家開放大學(xué)《商務(wù)英語(yǔ)4》形考任務(wù)1-8參考答案
- 供銷合作社知識(shí)答題最新
- 細(xì)菌耐藥表型的檢測(cè)方法
- 呼吸內(nèi)科國(guó)家臨床重點(diǎn)??平ㄔO(shè)項(xiàng)目評(píng)分標(biāo)準(zhǔn)試行
- MATLAB多旅行商問(wèn)題源代碼
- 6000噸年氧化羰化制碳酸二甲酯合成工藝設(shè)計(jì)說(shuō)明書
- ASME壓力容器工藝評(píng)定試板取樣尺寸
- 節(jié)假日機(jī)房安全巡檢記錄表
- 治理超限超載從業(yè)人員學(xué)習(xí)培訓(xùn)資料
評(píng)論
0/150
提交評(píng)論