![淺談主成分分析與因子分析基本思想主要性質(zhì)應(yīng)用舉例計算步驟主要區(qū)別_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/20/2141cd6d-1c45-4d73-810f-ec7ce223e617/2141cd6d-1c45-4d73-810f-ec7ce223e6171.gif)
![淺談主成分分析與因子分析基本思想主要性質(zhì)應(yīng)用舉例計算步驟主要區(qū)別_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/20/2141cd6d-1c45-4d73-810f-ec7ce223e617/2141cd6d-1c45-4d73-810f-ec7ce223e6172.gif)
![淺談主成分分析與因子分析基本思想主要性質(zhì)應(yīng)用舉例計算步驟主要區(qū)別_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/20/2141cd6d-1c45-4d73-810f-ec7ce223e617/2141cd6d-1c45-4d73-810f-ec7ce223e6173.gif)
![淺談主成分分析與因子分析基本思想主要性質(zhì)應(yīng)用舉例計算步驟主要區(qū)別_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/20/2141cd6d-1c45-4d73-810f-ec7ce223e617/2141cd6d-1c45-4d73-810f-ec7ce223e6174.gif)
![淺談主成分分析與因子分析基本思想主要性質(zhì)應(yīng)用舉例計算步驟主要區(qū)別_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/20/2141cd6d-1c45-4d73-810f-ec7ce223e617/2141cd6d-1c45-4d73-810f-ec7ce223e6175.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、淺談主成分分析與因子分析1、主成分分析主成分分析就是設(shè)法將原來指標重新組合成一組新的互相無關(guān)的幾個綜合指標來代替原來指標,同時根據(jù)實際需要從中可取幾個較少的綜合指標盡可能多地反映原來指標的信息。這種將多個指標化為少數(shù)互相無關(guān)的綜合指標的統(tǒng)計方法叫做主成分分析,也是數(shù)學上處理降維的一種方法。主成分分析的一般目的是:(1)變量的降維;(2)主成分的解釋。 1.1基本思想主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如P個指標),重新組合成一組新的互相無關(guān)的綜合指標來代替原來的指標。通常數(shù)學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經(jīng)典的做法就是用F1(選取的第一個線性組合,即第一個綜
2、合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,第P個主成分。這些主成分不僅不相關(guān),而且他們的方差依次遞減。1.2計算步驟設(shè)有n個樣品,每個樣品觀測P個指標,將原始數(shù)據(jù)寫成矩陣。(1)將原始數(shù)據(jù)標準化,即將每個指標的原始數(shù)據(jù)減去這個指標的均值后,再除以這個指標的標準差
3、。(2)建立變量的相關(guān)系數(shù)陣:。(3)求R的特征根及相應(yīng)的單位特征向量。在解決實際問題時,一般不是取p個主成分,而是根據(jù)累計貢獻率的大小取前k個,稱第一主成分的貢獻率為,這個值越大,表明第一主成分綜合信息的能力越強。前k個主成分的累計貢獻率達到85%,表明取前k個主成分基本包含了全部測量指標所具有的信息。1.3算法原理(1)對資料陣標準化,得其中 i=1,2n, j=1,2,P。(2)求出相關(guān)矩陣式中i為標本編號,j,k=1,2,P。其中,。此相關(guān)矩陣為一對稱矩陣,所以在下面的計算中取上三角陣R上=(3)求出R上的特征及特征向量。求R上矩陣的特征值及特征向量有許多方法,特征方程法、迭代法等(4
4、)求出主成分。將求出的特征值按大小依次排列,使得,根據(jù)原則確定m,并依次排列特征向量就可得出我們所需的主成分。14主要性質(zhì)主成分性質(zhì)主要包括以下幾點:(1)設(shè)個維隨機向量X1,X2.Xp協(xié)方差矩陣為,的特征值為12p,相應(yīng)的單位特征向量為:則的主成分可表示為:Fi=iX=i1X1+i2X2+ipXp, i=1,2,p記i=(i1,i2,ip)T(2)個主成分均值為,且個主成分不相關(guān)。(3)主成分的方差之和與原始變量的方差之和相等,也就是說,經(jīng)過變化后,變量間的變異性沒有改變,信息沒有損失。(4) 稱為第個主成分的方差貢獻率,稱為前個主成分的累積方差貢獻率。在解決實際問題時,一般不是取個主成分,
5、而是根據(jù)累計貢獻率的大小取前個。如果前個主成分的累積貢獻率達到85,明取前個主成分基本包含了全部測量指標所具有的信息,這樣即減少了變量的個數(shù)有利于對實際問題的分析和研究。(5) 若Fi=iX是數(shù)據(jù)矩陣的主成分則(i=,) 是i與k的相關(guān)系數(shù)。1.5主成分分析方法應(yīng)用實例實例:對流域系統(tǒng)的主成分分析下表給出了某流域系統(tǒng)57個流域盆地的9項變量指標。其中,x1代表流域盆地總高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周長(m),x4代表河道總長度(m),x5代表河道總數(shù),x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源數(shù),x9代表流域盆地面積(km2)。分析過程:
6、 將表中的原始數(shù)據(jù)作標準化處理,然后將它們代入相關(guān)系數(shù)公式計算,得到相關(guān)系數(shù)矩陣(表3.5.2)。 由相關(guān)系數(shù)矩陣計算特征值,以及各個主成分的貢獻率與累計貢獻率(見表)。由表3.5.3可知,第一,第二,第三主成分的累計貢獻率已高達86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。z3上的載荷。2、因子分析因子分析法是從研究變量內(nèi)部相關(guān)的依賴關(guān)系出發(fā),把一些具有錯綜復雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分析方法。它的基本思想是將觀測變量進行分類,將相關(guān)性較高,即聯(lián)系比較緊密的分在同一類中,而不同類變量之間的相關(guān)性則較低,那么每一類變量實際上就代表了一個基本結(jié)構(gòu),即公
7、共因子。對于所研究的問題就是試圖用最少個數(shù)的不可測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。2.1基本思想因子分析的基本思想是通過變量(或樣品)的相關(guān)系數(shù)矩陣(對樣品是相似系數(shù)矩陣)內(nèi)部結(jié)構(gòu)的研究,找出能控制所有變量(或樣品)的少數(shù)幾個隨機變量去描述多個變量(或樣品)之間的相關(guān)(相似)關(guān)系,但在這里,這少數(shù)幾個隨機變量是不可觀測的,通常稱為因子。然后根據(jù)相關(guān)性(或相似性)的大小把變量(或樣品)分組,使得同組內(nèi)的變量(或樣品)之間相關(guān)性(或相似性)較高,但不同組的變量相關(guān)性(或相似性)較低。2.2計算步驟(1)將原始數(shù)據(jù)標準化,以消除變量間在數(shù)量級和量綱上的不同;(2)求標
8、準化數(shù)據(jù)的相關(guān)矩陣;(3)求相關(guān)矩陣的特征值和特征向量;(4)計算方差貢獻率與累積方差貢獻率;(5)確定因子:設(shè)F1,F(xiàn)2,F(xiàn)p為p個因子,其中前m個因子包含的數(shù)據(jù)信息總量(即其累積貢獻率)不低于80%時,可取前m個因子來反映原指標。2.3算法原理因子分析法是從研究變量內(nèi)部相關(guān)的依賴關(guān)系出發(fā),把一些具有錯綜復雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分析方法。它的基本思想是將觀測變量進行分類,將相關(guān)性較高,即聯(lián)系比較緊密的分在同一類中,而不同類變量之間的相關(guān)性則較低,那么每一類變量實際上就代表了一個基本結(jié)構(gòu),即公共因子。對于所研究的問題就是試圖用最少個數(shù)的不可測的所謂公共因子的線性函數(shù)
9、與特殊因子之和來描述原來觀測的每一分量。因子分析的數(shù)學模型如下:(1)符號與假定設(shè)有n個樣本,每個樣本觀測p個變量,記:原始變量矩陣為X: , 公共因子變量矩陣為F: , 特殊因子矩陣為E:假定因子模型具有以下性質(zhì):1. E(x)=0,cov(x)=2. E(F)=0,cov(F)=I3. E(E)=0,cov(e)=diag(12,22,p2)4. Cov(F,E)=0若用矩陣形式表示,則為:X=AF+E式中的A,稱為因子載荷矩陣,并且稱為第i個變量在第j個公共因子上的載荷,反映了第i個變量在第j個公共因子上的相對重要性??梢宰C明因子載荷為第i個變量與第j個公共因子的相關(guān)系數(shù),即反映了變量與
10、公共因子的關(guān)系密切程度,越大,表明公共因子與變量的線性關(guān)系越密切。模型中F1,F(xiàn)2,F(xiàn)m叫做主因子或公共因子,它們是在各個原觀測變量的表達式中都共同出現(xiàn)的因子,是相互獨立的不可觀測的理論變量。公共因子的含義,必須結(jié)合具體問題的實際意義而定。,叫做特殊因子,是向量x的分量(i=1,2,p)所特有的因子,各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨立的。模型中載荷矩陣A中的元素()是為因子載荷。因子載荷是與的協(xié)方差,也是與的相關(guān)系數(shù),它表示依賴的程度??蓪⒖醋鞯趇個變量在第j公共因子上的權(quán),的絕對值越大(|1),表明與的相依程度越大,或稱公共因子對于的載荷量越大。為了得到因子分析結(jié)果的經(jīng)
11、濟解釋,因子載荷矩陣A中有兩個統(tǒng)計量十分重要,即變量共同度和公共因子的方差貢獻。因子載荷矩陣A中第i行元素之平方和記為,稱為變量的共同度。它是全部公共因子對的方差所做出的貢獻,反映了全部公共因子對變量的影響。大表明x的第i個分量對于F的每一分量F1,F(xiàn)2,F(xiàn)m的共同依賴程度大。將因子載荷矩陣A的第j列(j=1,2,m)的各元素的平方和記為,稱為公共因子對x的方差貢獻。就表示第j個公共因子對于x的每一分量(i=1,2,p)所提供方差的總和,它是衡量公共因子相對重要性的指標。越大,表明公共因子對x的貢獻越大,或者說對x的影響和作用就越大。如果將因子載荷矩陣A的所有(j=1,2,m)都計算出來,使其
12、按照大小排序,就可以依此提煉出最有影響力的公共因子。2.4主要性質(zhì)因子分析是主成分分析的推廣,也是一種把多個變量化為少數(shù)幾個綜合變量的多變量分析方法,其目的是用有限個不可觀測的隱變量解釋原始變量之間的相關(guān)關(guān)系。因子性質(zhì)主要表現(xiàn)變量之間關(guān)聯(lián)度上,根據(jù)關(guān)聯(lián)度可以劃分為特殊因子和公共因子,利用因子分析,減少分析變量個數(shù),通過對變量的相關(guān)關(guān)系探測,將原始變量進行分類。其中共同度表明x的第i個分量對于F的每一分量F1,F(xiàn)2,F(xiàn)m的共同依賴程度。如果它的值越大,依賴程度就越大.方差貢獻是衡量公共因子相對重要性的指標。越大,表明公共因子對x的貢獻越大,或者說對x的影響和作用就越大。2.5因子分析方法的應(yīng)用舉
13、例實例:因子分析在教師教學效果評價中的應(yīng)用本文選用某校網(wǎng)上評教數(shù)據(jù),選取的課程均為必修課程(沒有考慮選修課和實驗課等),且為了排除課程性質(zhì)和班級容量對教師排名的影響,本文選取了教授相似課程,所教班級容量相近的10名教師,通過統(tǒng)計軟件SAS 9.0對其進行因子分析,發(fā)現(xiàn)每位教師究竟在教學環(huán)節(jié)的哪個方面存在著不足。2.5.1因子分析過程第一步:數(shù)據(jù)標準化與數(shù)據(jù)相關(guān)性檢驗.檢驗結(jié)果如下,KMO值很大,Bart lett球體檢驗值很小,說明數(shù)據(jù)適合做因子分析。.第二步:提取因子.用SAS統(tǒng)計軟件進行分析,并計算出特征值的貢獻率及累計貢獻率.前5個因子,反映了原指標17%的信息量,可以對所分析問題作出較
14、好的解釋,故選取了5個公因子。第三步:因子解釋.采用最大方差旋轉(zhuǎn)法得出旋轉(zhuǎn)后因子載荷矩陣。.從上面的因子載荷矩陣中可以看出因子F1主要支配:u10(教師能把本課程在學生知識結(jié)構(gòu)中的地位、目的講授給學生),u11(教師能為人師表,從嚴執(zhí)教,能把傳授知識與塑造人的全面素質(zhì)結(jié)合起來),u12(通過教師的講授,學生基本掌握本課程的內(nèi)容),可解釋為教師傳授知識的能力;因子F2主要支配u7(教師授課內(nèi)容充實、信息量大)、u8(教師使用教學輔助手段),u9(教師授課能理論聯(lián)系實際),可解釋為教學手段;因子F3主要支配u3(教師能啟發(fā)學生的思路,激發(fā)學生的學習興趣)、u4(教師教給學生掌握知識、方法,鼓勵學生
15、獨立思考),可解釋為教師引導學生和發(fā)掘?qū)W生潛力的能力;因子F4主要支配u5(教師能培養(yǎng)學生分析問題和解決問題的能力)、u6(教師重視與學生交流,達到師生互動的效果),教師調(diào)動學生聽課的能力.因子F5主要支配u1(教師對教學工作很有熱情,講課認真、投入)、u2(教師講課思路清晰,表達清楚,重點難點、突出),可解釋為教師講課能力;第四步:因子得分.將所有同學的十二個指標評分數(shù)值經(jīng)標準化后與因子得分矩陣相乘可得每位同學對每位教師的五個因子得分數(shù)值,十位教師的按5個因子得分見表3,十位教師按5分因子的排名情況如圖1所示.通過因子分析得出的因子得分(表3)及其排名情況(圖2),可以一目了然的看出教師方面
16、的教學效果和某位教師在教學中的哪個方面存在不足,比如教高級語言程序設(shè)計這位教師在因子2教學手段方面和因子3引導學生和發(fā)掘?qū)W生潛力的能力方面相比其他教師要落后一些,教路基工程的這位教師在因子4教師調(diào)動學生聽課能力方面存在明顯不足,教授機械設(shè)計基礎(chǔ)的教師在因子1教師傳授知識能力方面相比其他教師要落后,而各個教師在因子5教師講課能力方面差距不大.另外,通過因子分析也可以給出每位教師的總得分,按總得分的排名情況如表4,可以看出它和目前普遍采用的直接平均法排名是大體一致的,但是由于因子分析在降維的過程中舍棄了一小部分信息,所以按總得分的排名只具有一定的參考價值. 2.5.2 結(jié)論目前教師教學效果的評價,
17、大都通過計算網(wǎng)上評價數(shù)據(jù)的平均值,然后按其排名來進行考核教師教學效果.但是這種傳統(tǒng)取平均值的方法受到課程性質(zhì),班級人數(shù)多少等因素的影響,光靠名次來決定教師的水平高低,具有一定的片面性。 于是,本文將統(tǒng)計中因子分析模型引入教師教學效果評價中,在給出教師排名的同時,還能分析出教師在教學的具體哪個環(huán)節(jié)存在不足,從而清醒找到自己排名落后的原因,這樣可以達到以評促教.但是,因子分析在降維過程中會損失一小部分信息,所以按因子總得分得到的排名只具有參考價值.總之,在教師評價過程中,排名不是關(guān)鍵,通過因子分析找到不足之處并得以改進才是真正目的。. 3、兩者的主要區(qū)別3.1主要聯(lián)系兩種方法的出發(fā)點都是變量的相關(guān)
18、系數(shù)矩陣(或相似系數(shù)矩陣),在損失較少信息的前提下,把多個變量(這些變量之間要求存在較強的相關(guān)性,以保證能從原始變量中提取主成分)綜合成少數(shù)幾個綜合變量來研究總體各方面信息的多元統(tǒng)計方法,且這少數(shù)幾個綜合變量所代表的信息不能重疊,即變量間不相關(guān)。它們都屬于多元分析中處理降維的統(tǒng)計方法。3.2主要區(qū)別(1)從概念上看主成分分析是將多個指標化為少數(shù)互相無關(guān)的綜合指標的統(tǒng)計方法。因子分析是主成分分析的推廣和發(fā)展,它也是將具有錯綜復雜關(guān)系的變量(或樣品)綜合數(shù)量較少的幾個因子,再現(xiàn)原始變量與因子之間的相互關(guān)系同時根據(jù)不同因子還可以對變量進行分類。(2)從基本思想上看主成分分析是設(shè)法將原來眾多具有一定相
19、關(guān)性的指標重新組合成一組新的相互無關(guān)的綜合指標來代替原來指標。因子分析通過變量(或樣品)的相關(guān)系數(shù)矩陣(對樣品是相似系數(shù)矩陣)內(nèi)部結(jié)構(gòu)的研究,找出能控制所有變量(或樣品)的少數(shù)幾個隨機變量去描述多個變量(或樣品)之間的相關(guān)(相似)關(guān)系,這少數(shù)幾個隨機變量是不可觀測的,通常稱為因子。然后根據(jù)相關(guān)性(或相似性)大小將變量分組,使得同組內(nèi)的變量(或樣品)之間相關(guān)性(或相似性)較高但不同組內(nèi)相關(guān)性(或相似性)較低。(3)從數(shù)學模型上看1)主成分分析的數(shù)學模型實質(zhì)上是一種變換,通過變量變換把注意力集中在具有較大變差的那些主成分上,而舍棄那些變差小的主成分;因子分析是把注意力集中在少數(shù)不可觀測的潛在變量(即公共因子)上,而舍棄特殊因子。2 )主成分分析是將主成分表示為原觀測變量的線性組合。其實質(zhì)是p維空間的坐標變換,不改變原始數(shù)據(jù)的結(jié)構(gòu)。因子分析則是描述原指標X協(xié)方差陣結(jié)構(gòu)的一種模型。對原觀測變量分解成公共因子和特殊因子兩部分。當公共因子的個數(shù)m=原變量的個數(shù)p時就不能考慮,此時因子分析也對應(yīng)于一種變量變換。但在實際應(yīng)用中m都小于p,且為經(jīng)濟起見總是越小越好。3) 主成分的各系數(shù)aij是唯一確定的、正交的。不可以對系數(shù)矩陣進行任何的旋轉(zhuǎn),且系數(shù)大小并不代表原變量與主成分的相關(guān)程度;而因子模型的系數(shù)矩陣是不唯一的,且該矩陣表明了原
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度環(huán)保產(chǎn)業(yè)園區(qū)規(guī)劃設(shè)計咨詢合同
- 貴州2024年貴州省重點產(chǎn)業(yè)人才蓄水池崗位專項簡化程序招聘17人筆試歷年參考題庫附帶答案詳解
- 衡陽2025年湖南衡陽市市直衛(wèi)健系統(tǒng)人才引進177人筆試歷年參考題庫附帶答案詳解
- 鹽城江蘇鹽城市教育局招錄政府購買服務(wù)用工人員筆試歷年參考題庫附帶答案詳解
- 梧州2025年廣西梧州市公安局招聘輔警274人筆試歷年參考題庫附帶答案詳解
- 2025年中國天然生漆市場調(diào)查研究報告
- 2025年中國內(nèi)飾件市場調(diào)查研究報告
- 2025至2031年中國高光澤丙烯酸外墻涂料行業(yè)投資前景及策略咨詢研究報告
- 2025年舞廳效果燈項目可行性研究報告
- 2025至2031年中國羽絨衫行業(yè)投資前景及策略咨詢研究報告
- 2024年廣西區(qū)公務(wù)員錄用考試《行測》真題及答案解析
- DB12-T 3034-2023 建筑消防設(shè)施檢測服務(wù)規(guī)范
- 銷售人員崗位職責培訓
- 助理醫(yī)師醫(yī)院協(xié)議書(2篇)
- 短暫性腦缺血發(fā)作
- 父親歸來那一天(2022年四川廣元中考語文試卷記敘文閱讀題及答案)
- 小學數(shù)學五年級上冊奧數(shù)應(yīng)用題100道(含答案)
- 工業(yè)機器人編程語言:Epson RC+ 基本指令集教程
- 2024年同等學力申碩統(tǒng)考英語卷
- 2023.05.06-廣東省建筑施工安全生產(chǎn)隱患識別圖集(高處作業(yè)吊籃工程部分)
- 2024年上海高考數(shù)學真題試題(原卷版+含解析)
評論
0/150
提交評論