版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
統(tǒng)計(jì)建模─多元分析主成分分析和因子分析
成績(jī)數(shù)據(jù)(student.sav)100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?。SPSS數(shù)據(jù)形式從本例可能提出的問題目前的問題是,能否把這個(gè)數(shù)據(jù)的6個(gè)變量用一兩個(gè)綜合變量來表示呢?這一兩個(gè)綜合變量包含有多少原來的信息呢?能否利用找到的綜合變量來對(duì)學(xué)生排序或據(jù)此進(jìn)行其他分析呢?需要高度概括在多變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對(duì)它們進(jìn)行描述。需要把這種有很多變量的數(shù)據(jù)進(jìn)行高度概括。兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實(shí)際上主成分分析可以說是因子分析的一個(gè)特例。下面利用主成分分析成績(jī)數(shù)據(jù)。降維問題例中數(shù)據(jù)點(diǎn)是六維的;即每個(gè)觀測(cè)值是6維空間中的一個(gè)點(diǎn)。希望把6維空間用低維空間表示。降維問題先假定只有二維,即只有兩個(gè)變量,由橫坐標(biāo)和縱坐標(biāo)所代表;如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣,該橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向上數(shù)據(jù)變化很少;在極端的情況,短軸如退化成一點(diǎn),長(zhǎng)軸的方向可以完全解釋這些點(diǎn)的變化,由二維到一維的降維就自然完成了。橢圓的長(zhǎng)短軸當(dāng)坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代表長(zhǎng)軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行。因此,需要尋找橢圓的長(zhǎng)短軸,并進(jìn)行變換,使得新變量和橢圓的長(zhǎng)短軸平行。橢圓的長(zhǎng)短軸如果長(zhǎng)軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個(gè)變量(舍去次要的一維),降維就完成了。橢圓的長(zhǎng)短軸相差得越大,降維也越有道理。主軸和主成分多維變量的情況和二維類似,也有高維的橢球,只不過不那么直觀罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長(zhǎng)的幾個(gè)軸作為新變量;這樣,主成分分析就基本完成了。主軸和主成分和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。
主成分之選取選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長(zhǎng)度之和占了主軸長(zhǎng)度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長(zhǎng)度占所有主軸長(zhǎng)度之和的大約85%即可,其實(shí),這只是一個(gè)大體的說法;具體選幾個(gè),要看實(shí)際情況而定。主成分分析的數(shù)學(xué)要尋找方差最大的方向。即,使向量X的線性組合a’X的方差最大的方向a.而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的樣本相關(guān)陣R來近似.要尋找向量a使得a’Ra最大這涉及相關(guān)陣和特征值?;仡櫼幌掳?選擇幾個(gè)主成分呢?要看“貢獻(xiàn)率.”對(duì)于我們的數(shù)據(jù),SPSS輸出為這里的InitialEigenvalues就是這里的六個(gè)主軸長(zhǎng)度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個(gè)成分特征值累積占了總方差的81.142%。后面的特征值的貢獻(xiàn)越來越少。特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出怎么解釋這兩個(gè)主成分。主成分是原始六個(gè)變量的線性組合。這由下表給出。
這里每一列代表一個(gè)主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)這六個(gè)變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。比如y1表示式中x1的系數(shù)為-0.806,這就是說第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。相關(guān)系數(shù)(絕對(duì)值)越大,主成分對(duì)該變量的代表性也越大??梢钥吹贸?,第一主成分對(duì)各個(gè)變量解釋得都很充分。而最后的幾個(gè)主成分和原先的變量就不那么相關(guān)了。可以把第一和第二主成分的載荷點(diǎn)出一個(gè)二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個(gè)圖叫做載荷圖。因子分析主成分分析從原理上是尋找橢球的所有主軸。原先有幾個(gè)變量,就有幾個(gè)主成分。因子分析是事先確定要找?guī)讉€(gè)成分,這里叫因子(factor)。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計(jì)算也復(fù)雜得多。根據(jù)因子分析模型的特點(diǎn),它還多一道工序:因子旋轉(zhuǎn)(factorrotation);這個(gè)步驟可以使結(jié)果更好。對(duì)于計(jì)算機(jī),因子分析并不費(fèi)事。從輸出的結(jié)果來看,因子分析也有因子載荷(factorloading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m<p)因子得分對(duì)于我們的數(shù)據(jù),SPSS因子分析輸出為這個(gè)表說明六個(gè)變量和因子的關(guān)系。為簡(jiǎn)單記,我們用x1,x2,x3,x4,x5,x6來表示math(數(shù)學(xué)),phys(物理),chem(化學(xué)),literat(語(yǔ)文),history(歷史),english(英語(yǔ))等變量。這樣因子f1和f2與這些原變量之間的關(guān)系是(注意,和主成分分析不同,這里把成分(因子)寫在方程的右邊,把原變量寫在左邊;但相應(yīng)的系數(shù)還是主成分和各個(gè)變量的線性相關(guān)系數(shù),也稱為因子載荷):這里,第一個(gè)因子主要和語(yǔ)文、歷史、英語(yǔ)三科有很強(qiáng)的正相關(guān);而第二個(gè)因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強(qiáng)的正相關(guān)。因此可以給第一個(gè)因子起名為“文科因子”,而給第二個(gè)因子起名為“理科因子”。從這個(gè)例子可以看出,因子分析的結(jié)果比主成分分析解釋性更強(qiáng)。這些系數(shù)所形成的散點(diǎn)圖(在SPSS中也稱載荷圖)為可以直觀看出每個(gè)因子代表了一類學(xué)科計(jì)算因子得分可以根據(jù)輸出算出每個(gè)學(xué)生的第一個(gè)因子和第二個(gè)因子的大小,即算出每個(gè)學(xué)生的因子得分f1和f2。該輸出說明第一和第二主因子為(習(xí)慣上用字母f來表示因子)可以按照如下公式計(jì)算,該函數(shù)稱為因子得分(factorscore)。人們可以根據(jù)這兩套因子得分對(duì)學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個(gè)選項(xiàng)。注意事項(xiàng)
因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。如果原始變量都本質(zhì)上獨(dú)立,那么降維就可能失敗。數(shù)據(jù)越相關(guān),降維效果就越好。分析結(jié)果時(shí)與問題的性質(zhì)、選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系。在用因子得分進(jìn)行排序時(shí)要特別小心,特別是對(duì)于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。SPSS實(shí)現(xiàn)(因子分析與主成分分析)選Analyze-DataReduction-Factor進(jìn)入主對(duì)話框;把math、phys、chem、literat、history、english選入Variables,然后點(diǎn)擊Extraction,在Method選擇一個(gè)方法(如果是主成分分析,則選PrincipalComponents),其余選項(xiàng)可以隨意,比如畫碎石圖選Screeplot,另外在Extract選項(xiàng)可以按照特征值的大小選主成分(或因子),也可以選定因子的數(shù)目;之后回到主對(duì)話框(用Continue)。然后點(diǎn)擊Rotation,在該對(duì)話框中的Method選擇旋轉(zhuǎn)方法(如是主成分分析就選None).在Display選Rotatedsolution和Loadingplot(以輸出載荷圖);之后回到主對(duì)話框(用Continue)。若計(jì)算因子得分點(diǎn)擊Scores,選擇Saveasvariables和計(jì)算因子得分的方法;要想輸出ComponentScoreCoefficientMatrix表,就要選擇Displayfactorscorecoefficientmatrix;之后回到主對(duì)話框(用Continue)。這時(shí)點(diǎn)OK即可。聚類分析
分類物以類聚、人以群分;但根據(jù)什么分類呢?如要想把中國(guó)的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來分類。飲料數(shù)據(jù)(drink.sav)16種飲料如何分類?根據(jù)事物本身的特性研究個(gè)體分類的方法,原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大。不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。按照遠(yuǎn)近程度來聚類需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類和類之間的距離。
k-均值聚類k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類。假定你說分3類,這個(gè)方法還進(jìn)一步要求你事先確定3個(gè)點(diǎn)為“聚類種子”(SPSS軟件自動(dòng)為你選種子);也就是說,把這3個(gè)點(diǎn)作為三類中每一類的基石。然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。下面用飲料例的數(shù)據(jù)來做k-均值聚類。假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達(dá)到目標(biāo)了(計(jì)算機(jī)選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點(diǎn)
根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。SPSS實(shí)現(xiàn)(聚類分析)K-均值聚類以數(shù)據(jù)drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables,在NumberofClusters處選擇3(想要分的類數(shù)),如果想要知道哪種飲料分到哪類,則選Save,再選ClusterMembership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置。分層聚類分層聚類或系統(tǒng)聚類(hierarchicalcluster)。開始時(shí),有多少點(diǎn)就是多少類。它第一步先把最近的兩類(點(diǎn))合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠(yuǎn)。對(duì)于飲料聚類。SPSS輸出為“冰柱圖”(icicle)聚類要注意的問題聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標(biāo)明確。
聚類要注意的問題另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類之間的距離盡可能地遠(yuǎn),而類中點(diǎn)的距離盡可能的近,并且分類結(jié)果還
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《心律失常講課》課件
- 《熱力學(xué)復(fù)習(xí)秋》課件
- 語(yǔ)文:高考每日快餐(46套)
- 距離產(chǎn)生美高考語(yǔ)文閱讀理解
- 服裝行業(yè)安全生產(chǎn)審核
- 《實(shí)驗(yàn)系統(tǒng)簡(jiǎn)介》課件
- 電器銷售工作總結(jié)
- 安全防護(hù)行業(yè)技術(shù)工作總結(jié)
- 重慶市合川區(qū)2022-2023學(xué)年九年級(jí)上學(xué)期期末化學(xué)試題
- 手機(jī)銷售員工作總結(jié)
- 2024年上海市初三語(yǔ)文二模試題匯編之記敘文閱讀
- 2024年度上海市嘉定區(qū)工業(yè)廠房買賣合同2篇
- 2023-2024學(xué)年廣東省廣州市海珠區(qū)九年級(jí)(上)期末化學(xué)試卷(含答案)
- 音樂老師年度總結(jié)5篇
- 學(xué)生學(xué)情分析報(bào)告范文
- 自動(dòng)控制理論(哈爾濱工程大學(xué))知到智慧樹章節(jié)測(cè)試課后答案2024年秋哈爾濱工程大學(xué)
- 探索2024:財(cái)務(wù)報(bào)表分析專業(yè)培訓(xùn)資料
- 雙減背景下基于核心素養(yǎng)小學(xué)語(yǔ)文閱讀提升實(shí)踐研究結(jié)題報(bào)告
- 心電圖使用 課件
- 建筑起重機(jī)械安裝拆卸工程的專項(xiàng)施工方案
- 機(jī)關(guān)培訓(xùn)課件教學(xué)課件
評(píng)論
0/150
提交評(píng)論