版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第6講多元分析華中農(nóng)業(yè)大學(xué)6.1聚類(lèi)分析6.2判別分析6.3逐步判別分析6.4主成分分析6.5因子分析6.6典型相關(guān)分析
聚類(lèi)分析又稱(chēng)群分析,它是研究分類(lèi)問(wèn)題的一種多元統(tǒng)計(jì)方法。所謂類(lèi),通俗地說(shuō),就是指相似元素的集合。那么要將相似元素聚為一類(lèi),通常選取元素的許多共同指標(biāo),然后通過(guò)分析元素的指標(biāo)值來(lái)分辨元素間的差距,從而達(dá)到分類(lèi)的目的。
聚類(lèi)分析可以分為:Q型(樣品分類(lèi))分類(lèi)、R型(指標(biāo)分類(lèi))分類(lèi)。這里介紹的是Q型(樣品分類(lèi))分類(lèi)。6.1聚類(lèi)分析聚類(lèi)分析前的預(yù)處理步驟:1)確定聚類(lèi)類(lèi)型:對(duì)樣品聚類(lèi)稱(chēng)Q型聚類(lèi);對(duì)變量聚類(lèi)稱(chēng)R型聚類(lèi)。2)數(shù)據(jù)預(yù)處理原因:實(shí)際應(yīng)用所使用的樣本資料中,由于不同的變量具有不同的計(jì)量單位(或量綱),并且具有不同的數(shù)量級(jí),為了使具有不同計(jì)量單位和數(shù)量級(jí)的數(shù)據(jù)能夠放在一起進(jìn)行比較分析,通常都要對(duì)數(shù)據(jù)進(jìn)行變換處理。常用方法有:中心化變換;規(guī)格化變換(極差正規(guī)化);標(biāo)準(zhǔn)化變換;對(duì)數(shù)變換等6.1聚類(lèi)分析3)研究樣品之間的關(guān)系。通常有兩種方法:相似系數(shù)。性質(zhì)相近的相似系數(shù)的絕對(duì)值越接近于1,彼此不相關(guān)的相似系數(shù)的絕對(duì)值越接近于0。常用相似系數(shù)有:夾角余弦;相關(guān)系數(shù);指數(shù)相似系數(shù);非參數(shù)方法燈計(jì)算距離。將樣品看作P維空間的一點(diǎn),通過(guò)計(jì)算不同樣品的距離,距離越接近的點(diǎn)歸為一類(lèi),距離遠(yuǎn)的點(diǎn)歸為不同類(lèi)。常用距離有:明科夫斯基距離;歐氏距離;絕對(duì)值距離;切比雪夫距離;蘭氏距離;馬氏距離。4)計(jì)算距離矩陣或相似性系數(shù)矩陣D。6.1聚類(lèi)分析聚類(lèi)分析的一般步驟(Q-型分類(lèi))2)由距離矩陣或相似性系數(shù)矩陣D,找到當(dāng)前最小的Dij,并將類(lèi)Gi、Gj合為一類(lèi)得到一個(gè)新類(lèi)Gr={Gi、Gj}3)從新計(jì)算類(lèi)間的距離,得到新的矩陣D。4)重復(fù)第2步直到全部合為一類(lèi)。1)每個(gè)樣本獨(dú)自成類(lèi),6.1聚類(lèi)分析
進(jìn)行聚類(lèi)分析時(shí),由于對(duì)類(lèi)與類(lèi)之間的距離的定義和理解不同,并類(lèi)的過(guò)程中又會(huì)產(chǎn)生不同的聚類(lèi)方法。常用的系統(tǒng)聚類(lèi)方法有8種:最短距離法;最長(zhǎng)距離法;中間距離法;重心法;類(lèi)平均法;可變類(lèi)平均法;可變法;離差平方和法。6.1聚類(lèi)分析例:從21個(gè)工廠(chǎng)中抽出同類(lèi)產(chǎn)品,每個(gè)產(chǎn)品測(cè)兩個(gè)指標(biāo),欲將各廠(chǎng)的質(zhì)量情況進(jìn)行分類(lèi)。工廠(chǎng)指標(biāo)觀測(cè)值工廠(chǎng)1234567891011指標(biāo)10022445667-4指標(biāo)265534312103工廠(chǎng)12131415161718192021指標(biāo)1-2-3-3-5100-1-1-3指標(biāo)222021-1-2-1-3-56.1聚類(lèi)分析dataex;inputx1x2factory$@@;cards;/*數(shù)據(jù)省略*/;proccluster
data=exmethod=wardcccpseudoouttree=tree;idfactory;run;proctreedata=treehorizontal;
idfactory;
run;6.1聚類(lèi)分析ccc表示要計(jì)算半偏R2,R2和ccc立方聚類(lèi)標(biāo)準(zhǔn)統(tǒng)計(jì)量,這三個(gè)統(tǒng)計(jì)量和下面的偽F和偽t2統(tǒng)計(jì)量,主要用于檢驗(yàn)聚類(lèi)的效果。當(dāng)把數(shù)據(jù)從G+1類(lèi)合并為G類(lèi)時(shí),半偏R2統(tǒng)計(jì)量說(shuō)明了本次合并信息的損失程度,統(tǒng)計(jì)量大表明損失程度大。R2統(tǒng)計(jì)量反映類(lèi)內(nèi)離差平方和的大小,統(tǒng)計(jì)量大表明類(lèi)內(nèi)離差平方和小。ccc統(tǒng)計(jì)量的值大說(shuō)明聚類(lèi)的效果好。Pseudo說(shuō)明要計(jì)算偽F和偽t2統(tǒng)計(jì)量。一般認(rèn)為,偽F統(tǒng)計(jì)量出現(xiàn)峰值時(shí)的所對(duì)應(yīng)的分類(lèi)是較佳的分類(lèi)選擇。當(dāng)把數(shù)據(jù)從G+1類(lèi)合并為G類(lèi)時(shí),偽t2統(tǒng)計(jì)量的值大,說(shuō)明不應(yīng)該合并這兩類(lèi)。6.1聚類(lèi)分析6.1聚類(lèi)分析ClusterHistory表示聚類(lèi)的具體過(guò)程,NCL表示當(dāng)前系統(tǒng)存在類(lèi)的總個(gè)數(shù),ClustersJoined表示當(dāng)前加入的編號(hào),例如NCL等于20時(shí),是類(lèi)1,2聚為一類(lèi),F(xiàn)REQ表示新類(lèi)的元素個(gè)數(shù)。SPRSQ表示類(lèi)與類(lèi)間規(guī)格化最短距離,RSQ表示R2統(tǒng)計(jì)量,ERSQ表示半偏R2統(tǒng)計(jì)量,CCC統(tǒng)計(jì)量值。PSF為偽F統(tǒng)計(jì)量,PST2為偽t2統(tǒng)計(jì)量。Tie表示“節(jié)”,是指當(dāng)前類(lèi)間最小距離不止一個(gè)的時(shí)候,此時(shí)可以任意選擇一對(duì)最短距離進(jìn)行聚類(lèi),在計(jì)算其他類(lèi)與新類(lèi)的距離。從CCC統(tǒng)計(jì)量的結(jié)果可以看出,最大值對(duì)應(yīng)的類(lèi)數(shù)為4。從四類(lèi)合并為三類(lèi)時(shí),偽t2統(tǒng)計(jì)量顯著的增加,偽F統(tǒng)計(jì)量下降顯著,綜合各方面的結(jié)果,因此分4類(lèi)最為合適。6.1聚類(lèi)分析動(dòng)態(tài)聚類(lèi)圖6.1聚類(lèi)分析
綜合以上分析,可以得到結(jié)果,將工廠(chǎng)分為4類(lèi),分別為第1類(lèi):f1,f2,f3,f4,f5,f6;第2類(lèi):f7,f8,f9,f10第3類(lèi):f11,f12,f13,f14,f15;第4類(lèi):f16,f17,f18,f19,f20,f21。6.1聚類(lèi)分析肝病的判別地震的判別
判別分析方法最初應(yīng)用于考古學(xué),例如要根據(jù)挖掘出來(lái)的人頭蓋骨的各種指標(biāo)來(lái)判別其性別年齡等.近年來(lái),在生物學(xué)分類(lèi),醫(yī)療診斷,地質(zhì)找礦,石油鉆探,天氣預(yù)報(bào)等許多領(lǐng)域,判別分析方法已經(jīng)成為一種有效的統(tǒng)計(jì)推斷方法。判別分析是一種在一些已知研究對(duì)象用某種方法已經(jīng)分成若干類(lèi)的情況下,確定新的樣品的觀測(cè)數(shù)據(jù)屬于哪一類(lèi)的統(tǒng)計(jì)分析方法。6.2判別分析
常用的方法有:距離判別法、Fisher判別法、貝葉斯判別法、逐步判別法。這里僅介紹后兩種。
為了能識(shí)別待判斷的對(duì)象x=(x1,x2,…,xm)T是屬于已知類(lèi)A1,A2,…,Ar中的哪一類(lèi)?
事先必須要有一個(gè)一般規(guī)則,一旦知道了x的值,便能根據(jù)這個(gè)規(guī)則立即作出判斷,稱(chēng)這樣的一個(gè)規(guī)則為判別規(guī)則(用于衡量待判對(duì)象與各已知類(lèi)別接近程度的方法準(zhǔn)則)。
判別規(guī)則往往通過(guò)的某個(gè)函數(shù)來(lái)表達(dá),我們把它稱(chēng)為判別函數(shù),記作W(i;x).
6.2判別分析Bayes判別法的基本思想:總是假設(shè)對(duì)所研究的對(duì)象已有一定的認(rèn)識(shí),計(jì)算新給樣品屬于各總體的條件概率比較這個(gè)概率的大小,然后將新樣品判歸為來(lái)自概率最大的總體。Bayes判別法6.2判別分析
設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計(jì)分析,知道出現(xiàn)的概率為。即當(dāng)樣本發(fā)生時(shí),求他屬于某類(lèi)的概率。由貝葉斯公式計(jì)算后驗(yàn)概率,有:判別規(guī)則則判給。6.2判別分析Bayes判別法的一般步驟:及均值向量,各變量的總均值及均值向量;1.計(jì)算各類(lèi)中變量的均值2.計(jì)算類(lèi)內(nèi)協(xié)方差矩陣S及其逆矩陣S-1
;3.計(jì)算Bayes判別函數(shù)中,各個(gè)變量的系數(shù)及常數(shù)項(xiàng)并寫(xiě)出判別函數(shù);4.計(jì)算類(lèi)內(nèi)協(xié)方差矩陣W及總各協(xié)方差矩陣T作多個(gè)變量的全體判別效果的檢驗(yàn);5.各個(gè)變量的判別能力的檢驗(yàn);6.判別新樣本應(yīng)屬于的類(lèi)別。6.2判別分析
例題:人文發(fā)展指數(shù)是聯(lián)合國(guó)開(kāi)發(fā)計(jì)劃署于1990年5月發(fā)表的一份<<人類(lèi)發(fā)展報(bào)告>>中公布的數(shù)據(jù)如下,試通過(guò)已知的樣品建立判別函數(shù),誤判率是多少?并判斷待判的歸類(lèi).6.2判別分析類(lèi)別國(guó)家壽命(X1)成人識(shí)字率%(X2)調(diào)整后GDP(X3)1美國(guó)76
99
5374
1日本79.5
99
53591瑞士78
99
53721阿根廷76.1
95.9
52421阿聯(lián)酋73.8
77.7
5370
保加利亞71.2
93
42502古巴75.3
94.9
34122巴拉圭70
91.2
33902格魯吉亞72.8
99
2300
南非62.9
80.6
3799待判樣品:中國(guó)68.5
79.3
1950
羅馬尼亞69.9
96.9
2840
希臘77.6
93.8
5233
哥倫比亞69.3
90.3
51596.2判別分析dataex;inputgx1-x3@@;cards;176995374179.5995359178995372176.195.95242173.877.75370271.2934250275.394.9341227091.23390272.8992300262.980.63799;dataex1;inputx1-x3@@;cards;68.579.3195069.996.9284077.693.8523369.390.35159;procdiscrimdata=extestdata=ex1anovamanovasimplelisttestout=ex2;classg;procprintdata=ex2;run;6.2判別分析
ProcDiscrim后的常用選擇項(xiàng)有:(1)Data=數(shù)據(jù)集名,指定輸入數(shù)據(jù)集名,若缺省則指定最新建立的數(shù)據(jù)集。(2)Testdata=數(shù)據(jù)集名,指定待作出判別的數(shù)據(jù)集名,其中的變量名須上Data數(shù)據(jù)集中的變量名一致。(3)Testout=數(shù)據(jù)集名,指定輸出數(shù)據(jù)集,輸出Testdata數(shù)據(jù)集中所有觀測(cè)值以及每個(gè)觀測(cè)值的后驗(yàn)概率和判別后的類(lèi)別。(4)List,指定打印每個(gè)觀測(cè)值的回代結(jié)果。(5)Anova,指定輸出各類(lèi)均值檢驗(yàn)的一元統(tǒng)計(jì)量。(6)Manova,指定輸出各類(lèi)均值檢驗(yàn)的多元統(tǒng)計(jì)量。(7)Simple,指定打印總體和組內(nèi)的簡(jiǎn)單統(tǒng)計(jì)量。6.2判別分析因此Bayes判別函數(shù)為y1=-323.21568+5.79107x1+0.26498x2+0.03407x3y2=-236.03823+5.14034x1+0.25167x2+0.02533x36.2判別分析從上面運(yùn)行結(jié)果得知,兩類(lèi)的誤判率均為0
因而得知中國(guó)與羅馬尼亞歸入第二類(lèi),希臘與哥倫比亞歸入第一類(lèi)。6.2判別分析
在判別問(wèn)題中,當(dāng)判別變量個(gè)數(shù)較多時(shí),如果不加選擇地一概采用來(lái)建立判別函數(shù),不僅計(jì)算量大,還由于變量之間的相關(guān)性,可能使求解逆矩陣的計(jì)算精度下降,建立的判別函數(shù)不穩(wěn)定。因此適當(dāng)?shù)睾Y選變量的問(wèn)題就成為一個(gè)很重要的事情。凡具有篩選變量能力的判別分析方法就統(tǒng)稱(chēng)為逐步判別法。逐步判別法6.3逐步判別分析
逐步判別法其基本思路類(lèi)似于逐步回歸分析,按照變量是否重要逐步引入變量,每引入一個(gè)“最重要”的變量進(jìn)入判別式,同時(shí)要考慮較早引入的變量是否由于其后的新變量的引入使之喪失了重要性變得不再顯著了(例如其作用被后引入地某幾個(gè)變量的組合所代替),應(yīng)及時(shí)從判別式中把它剔除,直到判別式中沒(méi)有不重要的變量需要剔除,剩下來(lái)的變量也沒(méi)有重要的變量可引入判別式時(shí),逐步篩選結(jié)束。也就是說(shuō)每步引入或剔除變量,都作相應(yīng)的統(tǒng)計(jì)檢驗(yàn),使最后的判別函數(shù)僅保留“重要”的變量。6.3逐步判別分析1.計(jì)算各總體中各變量的均值和總均值以及似然統(tǒng)計(jì)量,規(guī)定引入變量和剔除變量的臨界值F進(jìn)、F出。2.逐步計(jì)算,計(jì)算全部變量的判別能力,在已入選變量中考慮剔除可能存在的最不顯著變量。在未選入變量中選出最大判別能力的變量,對(duì)變量作F檢驗(yàn)通過(guò)檢驗(yàn)則接受,否則剔除變量。直到能剔除又不能增加新變量,逐步計(jì)算結(jié)束。3.建立判別式,使用第2步中選入的變量,用Bayes判別法建立判別式。4.對(duì)待判樣本進(jìn)行判別分類(lèi)。逐步判別法的步驟:6.3逐步判別分析dataex;inputgx1-x3@@;cards;/*數(shù)據(jù)省略*/;dataex1;inputx1-x3@@;cards;/*數(shù)據(jù)省略*/;6.3逐步判別分析procstepdiscdata=exmethod=stepwisesle=0.3sls=0.3;/*選擇用逐步判別法,選擇后驗(yàn)概率大于0.3,不注明時(shí)系統(tǒng)默認(rèn)為0.15*/classg;varx1-x3;run;procdiscrimdata=extestdata=ex1/*待判別集合*/anovamanovasimplelisttestout=ex2;classg;varx1x3;/*選用x1和x3作為判別指標(biāo)*/procprintdata=ex2;run;6.3逐步判別分析結(jié)果顯示:通過(guò)逐步判別分析選入兩個(gè)變量X1、X3作為判別分析的指標(biāo),接下來(lái)再以變量X1,X3為參考變量作Bayes判別。1.逐步回歸選取變量:6.3逐步判別分析2.
得到判別函數(shù):6.3逐步判別分析3.誤判概率:兩類(lèi)的誤判率均為0,說(shuō)明判別能力很強(qiáng),于是可以利用已經(jīng)得到的判別函數(shù)去判別新樣本。
6.3逐步判別分析4.待判樣本分類(lèi)結(jié)果:
結(jié)果表明,中國(guó)與羅馬尼亞歸入第二類(lèi),希臘與哥倫比亞歸入第一類(lèi)。6.3逐步判別分析
由以上兩個(gè)例子可知,逐步判別法所得到的結(jié)果可看出來(lái),盡管這里沒(méi)有利用變量X2(成人識(shí)字率),但是最終的判別結(jié)果與利用全部變量所得得判別結(jié)果完全一致,這說(shuō)明了三個(gè)變量在判別式中所起到的作用不同。由此可見(jiàn),在解決現(xiàn)實(shí)問(wèn)題中應(yīng)結(jié)合兩種方法使得更加科學(xué)的使用已知數(shù)據(jù)得到更加合理的結(jié)論。6.3逐步判別分析
假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動(dòng)資金、每一筆借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原料消耗、產(chǎn)值、利潤(rùn)、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動(dòng)地?cái)[出去嗎?當(dāng)然不能。你必須要把各個(gè)方面作出高度概括,用一兩個(gè)指標(biāo)簡(jiǎn)單明了地把情況說(shuō)清楚。6.4主成分分析
每個(gè)人都會(huì)遇到有很多變量的數(shù)據(jù)。比如全國(guó)或各個(gè)地區(qū)的帶有許多經(jīng)濟(jì)和社會(huì)變量的數(shù)據(jù);各個(gè)學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點(diǎn)是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來(lái)對(duì)它們進(jìn)行描述。在引進(jìn)主成分分析之前,先看下面的例子。6.4主成分分析100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?/p>
6.4主成分分析
目前的問(wèn)題是,能不能把這個(gè)數(shù)據(jù)的6個(gè)變量用一兩個(gè)綜合變量來(lái)表示呢?這一兩個(gè)綜合變量包含有多少原來(lái)的信息呢?能不能利用找到的綜合變量來(lái)對(duì)學(xué)生排序呢?這一類(lèi)數(shù)據(jù)所涉及的問(wèn)題可以推廣到對(duì)企業(yè),對(duì)學(xué)校進(jìn)行分析、排序、判別和分類(lèi)等問(wèn)題。6.4主成分分析
選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長(zhǎng)度之和占了主軸長(zhǎng)度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長(zhǎng)度占所有主軸長(zhǎng)度之和的大約80%即可,其實(shí),這只是一個(gè)大體的說(shuō)法;具體選幾個(gè),要看實(shí)際情況而定。6.4主成分分析
主成分分析是一種通過(guò)降維技術(shù)把多個(gè)變量化為少數(shù)幾個(gè)主成分(即綜合變量)的統(tǒng)計(jì)分析方法。
一般來(lái)說(shuō),我們希望這些主成分能夠反映原始變量的絕大部分信息(它們通常表示為原始變量的某種線(xiàn)性組合),并具有最大的方差。6.4主成分分析1.對(duì)原始數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化處理(相當(dāng)于對(duì)原始變量進(jìn)行坐標(biāo)平移與尺度伸縮)主成分的求解步驟:
假設(shè)對(duì)p個(gè)變量進(jìn)行n次觀測(cè)得到的觀測(cè)數(shù)據(jù)可用下面的矩陣表示將其進(jìn)行標(biāo)準(zhǔn)化處理6.4主成分分析iii)特征分解得(相當(dāng)于將原來(lái)的坐標(biāo)軸進(jìn)行旋轉(zhuǎn)得到新的坐標(biāo)軸U)ii)求協(xié)方差矩陣Z——Z的特征值組成的對(duì)角陣U——Z的特征向量按列組成的正交陣,它構(gòu)成了新的矢量空間,作為新變量(主成分)的坐標(biāo)軸,又稱(chēng)為載荷軸。
得Z的p個(gè)非負(fù)特征值,這p個(gè)特征值就是主成分的方差。6.4主成分分析iv)確定主成分個(gè)數(shù)(根據(jù)累積貢獻(xiàn)率)當(dāng)大于某個(gè)閾值時(shí),可認(rèn)為主成分?jǐn)?shù)目為m。
Z陣的每一行相當(dāng)于原數(shù)據(jù)矩陣的所有行(即原始變量構(gòu)成的向量)在主成分坐標(biāo)軸(載荷軸)上的投影,這些新的投影構(gòu)成的向量就是主成分得分向量。v)寫(xiě)出主成分表達(dá)式6.4主成分分析Vi)構(gòu)造評(píng)價(jià)函數(shù)將每個(gè)樣本的主成分帶入評(píng)價(jià)函數(shù),得到每個(gè)樣本的綜合得分,依據(jù)一定的準(zhǔn)則可對(duì)樣本進(jìn)行排序。6.4主成分分析例以下是收集整理了的1990-2002年13年間影響中國(guó)蔬菜產(chǎn)量的若干因素?cái)?shù)據(jù),請(qǐng)你對(duì)這些影響因素作主成分分析,并分析結(jié)果。11.517.676.4主成分分析dataex;inputx1-x13;cards;/*數(shù)據(jù)省略*/;procprincompout=prin;
varx1-x13;run;procprintdata=prin;varprin1-prin13;run;6.4主成分分析程序中對(duì)應(yīng)運(yùn)行結(jié)果為:
從程序結(jié)果可以看出,第一、第二、第三主成分累計(jì)解釋方差的比率已經(jīng)超過(guò)了94%,所以只需要求λ1、λ2、λ2所對(duì)應(yīng)的正交化特征向量αi(i=1,2,3)6.4主成分分析6.4主成分分析α1=(0.31,0.29,-0.22,0.30,-0.09,0.31,0.30,0.30,0.30,0.31,0.31,0.31,0.13),α2=(-0.03,0.23,0.51,0.11,0.77,0.01,-0.09,0.13,0.19,0.07,0.04,-0.03,-0.09),α3=(0.03,-0.03,0.24,-0.08,0.01,-0.03,0.02,-0.06,-0.04,-0.03,-0.08,0.05,0.96)可知其中6.4主成分分析
第一主成分與蔬菜種植面積、每公頃物質(zhì)費(fèi)用、蔬菜零售物價(jià)指數(shù)、市場(chǎng)化程度、城市化水平1、城市化水平2、交通、城鎮(zhèn)居民可支配收入、農(nóng)村居民純收入、農(nóng)民文化素質(zhì)等密切相關(guān),表示的是市場(chǎng)經(jīng)濟(jì)綜合因素,著重反映的是市場(chǎng)經(jīng)濟(jì)的成熟程度與國(guó)家現(xiàn)代化水平;第二主成分與每公頃勞動(dòng)投入、成本純收益率等密切相關(guān),表示的是勞動(dòng)者動(dòng)力因素;第三主成分與氣候條件密切相關(guān),顯然表示的是氣候因素。6.4主成分分析主成分得分6.4主成分分析
因子分析模型是主成分分析的推廣。它也是利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴(lài)關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。因子分析的思想始于1904年CharlesSpearman對(duì)學(xué)生考試成績(jī)的研究。近年來(lái),隨著電子計(jì)算機(jī)的高速發(fā)展,人們將因子分析的理論成功地應(yīng)用于心理學(xué)、醫(yī)學(xué)、氣象、地質(zhì)、經(jīng)濟(jì)學(xué)等各個(gè)領(lǐng)域,也使得因子分析的理論和方法更加豐富。6.5因子分析
因子分析的基本思想是根據(jù)相關(guān)性大小把原始變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,而不同組的變量間的相關(guān)性則較低。每組變量代表一個(gè)基本結(jié)構(gòu),并用一個(gè)不可觀測(cè)的綜合變量表示,這個(gè)基本結(jié)構(gòu)就稱(chēng)為公共因子。對(duì)于所研究的某一具體問(wèn)題,原始變量就可以分解成兩部分之和的形式,一部分是少數(shù)幾個(gè)不可測(cè)的所謂公共因子的線(xiàn)性函數(shù),另一部分是與公共因子無(wú)關(guān)的特殊因子。6.5因子分析設(shè)p個(gè)變量,如果表示為:即6.5因子分析稱(chēng)為公共因子,是不可觀測(cè)的變量,稱(chēng)為因子載荷陣,表示第i個(gè)變量是特殊因子,不相關(guān)。
在第j個(gè)因子上的載荷(loading).是不能被前m個(gè)公共因子包含的部分。并且滿(mǎn)足6.5因子分析因子分析的解決的三個(gè)基本問(wèn)題:1.因子載荷陣A的估計(jì);2.當(dāng)因子難以得到合理的解釋時(shí),對(duì)因子載荷陣作正交變換,即因子旋轉(zhuǎn)。目的:對(duì)因子的實(shí)際意義做出合理的解釋?zhuān)?.給出每個(gè)變量(或樣品)關(guān)于m個(gè)公共因子的得分,通常表示為原始變量的線(xiàn)性組合,即因子得分函數(shù)。目的:對(duì)公共因子作出估計(jì)。6.5因子分析因子分析一般步驟:及1)類(lèi)似主成分分析,計(jì)算,k,j=1,2,..m,建立基本方程組;2)用主成分分析法確定因子載荷陣A;3)方差極大正交旋轉(zhuǎn),對(duì)變量系數(shù)極值化(盡量趨于0或1);4)得到因子得分函數(shù),計(jì)算樣本因子得分。6.5因子分析
例:已知12個(gè)地區(qū)的5個(gè)經(jīng)濟(jì)指標(biāo):人口總數(shù)、學(xué)??倲?shù)、就業(yè)人口、服務(wù)業(yè)總數(shù)、房子個(gè)數(shù)。依據(jù)已知的5個(gè)經(jīng)濟(jì)指標(biāo),對(duì)12個(gè)地區(qū)的綜合經(jīng)濟(jì)實(shí)力進(jìn)行分析。
分析:由于指標(biāo)個(gè)數(shù)較多,不便于分析排序。因此,考慮先做因子分析找出指標(biāo)的共同因子,再計(jì)算因子得分,通過(guò)分析因子得分來(lái)評(píng)價(jià)該地區(qū)的經(jīng)濟(jì)指標(biāo)。6.5因子分析dataex;inputpopschoolemployserviceshouse@@;cards;/*數(shù)據(jù)省略*/;procfactordata=exmethod=principalrotate=varimaxpercent=0.8scoreoutstat=ex1;
varpopschoolemployserviceshouse;procscoredata=exscore=ex1out=ex2;varpopschoolemployserviceshouse;procprintdata=ex1;procprintdata=ex2;run;
6.5因子分析結(jié)果表明,5個(gè)因子對(duì)應(yīng)的特征值,特征值表示因子貢獻(xiàn)率。通常確定因子個(gè)數(shù)時(shí),要求因子累計(jì)貢獻(xiàn)率大于80%。結(jié)果表明應(yīng)選取2個(gè)因子,記為F1,F2貢獻(xiàn)率分別為57.47%、35.93%。6.5因子分析確定因子載荷陣系數(shù),得到初始的特征向量:
由于對(duì)應(yīng)實(shí)際問(wèn)題,公共因子的實(shí)際意義不好解釋。因此考慮將指標(biāo)的系數(shù)極值化,即讓系數(shù)趨于1或0,趨于1說(shuō)明公共因子與該指標(biāo)密切相關(guān),否則趨于0時(shí)說(shuō)明相關(guān)程度很低。由此,要做因子旋轉(zhuǎn)實(shí)現(xiàn)系數(shù)的極值化。6.5因子分析因子旋轉(zhuǎn)程序運(yùn)行結(jié)果:
OrthogonalTransformationMatrix表示因子旋轉(zhuǎn)陣,RotatedFactorPattern為旋轉(zhuǎn)后得到的因子載荷。StandardizedScoringCoefficients為因子得分系數(shù)結(jié)果。
6.5因子分析6.5因子分析根據(jù)得到的因子得分函數(shù)計(jì)算各個(gè)樣本的因子得分3.因子得分:
以上為12個(gè)樣本的5個(gè)指標(biāo)值,以及2個(gè)公共指標(biāo)的得分,因子F1中J地區(qū)的得分最高,說(shuō)明該地區(qū)的服務(wù)教育服務(wù)設(shè)施較好。因子F2中L地區(qū)的得分最高,說(shuō)明該地區(qū)的就業(yè)情況較好。6.5因子分析因子分析與主成分分析的區(qū)別與聯(lián)系
因子分析、主成分分析都是重要的降維方法(數(shù)據(jù)簡(jiǎn)化技術(shù)),因子分析可以看作是主成分分析的推廣和發(fā)展。主成分分析不能作為一個(gè)模型來(lái)描述,它只能作為一般的變量變換,主成分是可觀測(cè)的原始變量的線(xiàn)性組合;因子分析需要構(gòu)造因子模型,公共因子是潛在的不可觀測(cè)的變量,一般不能表示為原始變量的線(xiàn)性組合。因子分析是用潛在的不可觀測(cè)的變量和隨機(jī)影響變量的線(xiàn)性組合來(lái)表示原始變量,即通過(guò)這樣的分解來(lái)分析原始變量的協(xié)方差結(jié)構(gòu)(相依關(guān)系)。6.5因子分析
現(xiàn)實(shí)生活中兩組變量間的相關(guān)關(guān)系的問(wèn)題很多,例如家庭的特征(如戶(hù)主的年齡、家庭的年收入、戶(hù)主的受教育程度等)與消費(fèi)模式(如每年去餐館就餐的頻率、每年外出看電影的頻率等)等等。為此,1936年由Hulling提出了典型相關(guān)分析,揭示了兩組多元隨機(jī)變量之間的關(guān)系。6.6典型相關(guān)分析典型相關(guān)分析基本思想
通常情況下,為了研究?jī)山M變量的相關(guān)關(guān)系,可以用最原始的方法,分別計(jì)算兩組變量之間的全部相關(guān)系數(shù),一共有pq個(gè)簡(jiǎn)單相關(guān)系數(shù),這樣又煩瑣又不能抓住問(wèn)題的本質(zhì)。如果分別找出兩組變量的各自的某個(gè)線(xiàn)性組合,討論線(xiàn)性組合之間的相關(guān)關(guān)系,則更簡(jiǎn)捷。6.6典型相關(guān)分析
首先分別在每組變量中找出第一對(duì)線(xiàn)性組合,使其具有最大相關(guān)性,然后再在每組變量中再找出第二對(duì)線(xiàn)性組合,使其分別與本組內(nèi)的第一線(xiàn)性組合不相關(guān),第二對(duì)本身具有次大的相關(guān)性,即u2和v2與u1和v1相互獨(dú)立,但u2和v2相關(guān),如此下去,直至兩組變量的相關(guān)性被提取完為止。
6.6典型相關(guān)分析例蔬菜產(chǎn)出水平主要體現(xiàn)在蔬菜總產(chǎn)量(Y1)、人均蔬菜占有量(Y2)、蔬菜總產(chǎn)增長(zhǎng)速度(Y3)三個(gè)方面,并稱(chēng)作因變量組(簡(jiǎn)稱(chēng)“產(chǎn)出組”)。問(wèn)題:因變量組與自變量X1(市場(chǎng)經(jīng)濟(jì)綜合因素)、X2(勞動(dòng)力動(dòng)力因素)、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 今冬明春安全生產(chǎn)
- 醫(yī)療器械公司屋頂搭建施工合同
- 礦泉水廠(chǎng)施工合同文本
- 電商客服人員聘用合同書(shū)
- 物流行業(yè)稅務(wù)籌劃
- 健身教練操作工招聘協(xié)議
- 橋梁擴(kuò)建電纜頂管施工合同
- 學(xué)校體育館鋼結(jié)構(gòu)樓梯施工合同
- 保齡球器材租賃合同模板
- 水上婚禮婚禮樂(lè)隊(duì)游艇租賃合同
- 統(tǒng)編版(2024)七年級(jí)上冊(cè)語(yǔ)文:第四單元 閱讀綜合實(shí)踐 課件
- GB/T 43988-2024滑板課程學(xué)生運(yùn)動(dòng)能力測(cè)評(píng)規(guī)范
- 智能云服務(wù)交付工程師認(rèn)證考試題庫(kù)(網(wǎng)大版)(濃縮500題)
- 四種形態(tài)課件
- DL-T5054-2016火力發(fā)電廠(chǎng)汽水管道設(shè)計(jì)規(guī)范
- 交響音樂(lè)賞析智慧樹(shù)知到期末考試答案章節(jié)答案2024年西安交通大學(xué)
- 國(guó)有企業(yè)學(xué)習(xí)解讀2024年新《公司法》課件
- 中國(guó)戲曲劇種鑒賞 知到智慧樹(shù)網(wǎng)課答案
- 寵物器械使用制度
- JTG-D82-2009公路交通標(biāo)志和標(biāo)線(xiàn)設(shè)置規(guī)范
- 獸醫(yī)產(chǎn)科學(xué) 知到智慧樹(shù)網(wǎng)課答案
評(píng)論
0/150
提交評(píng)論