第6講多元分析

上傳人：0*** IP屬地：湖北上傳時間：2023-02-03 格式：PPT 頁數(shù)：76 大小：905KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩71頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第6講多元分析華中農(nóng)業(yè)大學6.1聚類分析6.2判別分析6.3逐步判別分析6.4主成分分析6.5因子分析6.6典型相關(guān)分析

聚類分析又稱群分析，它是研究分類問題的一種多元統(tǒng)計方法。所謂類，通俗地說，就是指相似元素的集合。那么要將相似元素聚為一類，通常選取元素的許多共同指標，然后通過分析元素的指標值來分辨元素間的差距，從而達到分類的目的。

聚類分析可以分為：Q型（樣品分類）分類、R型（指標分類）分類。這里介紹的是Q型（樣品分類）分類。6.1聚類分析聚類分析前的預處理步驟：1)確定聚類類型：對樣品聚類稱Q型聚類；對變量聚類稱R型聚類。2)數(shù)據(jù)預處理原因：實際應用所使用的樣本資料中，由于不同的變量具有不同的計量單位（或量綱），并且具有不同的數(shù)量級，為了使具有不同計量單位和數(shù)量級的數(shù)據(jù)能夠放在一起進行比較分析，通常都要對數(shù)據(jù)進行變換處理。常用方法有：中心化變換；規(guī)格化變換（極差正規(guī)化）；標準化變換；對數(shù)變換等6.1聚類分析3)研究樣品之間的關(guān)系。通常有兩種方法：相似系數(shù)。性質(zhì)相近的相似系數(shù)的絕對值越接近于1，彼此不相關(guān)的相似系數(shù)的絕對值越接近于0。常用相似系數(shù)有：夾角余弦；相關(guān)系數(shù)；指數(shù)相似系數(shù)；非參數(shù)方法燈計算距離。將樣品看作P維空間的一點，通過計算不同樣品的距離，距離越接近的點歸為一類，距離遠的點歸為不同類。常用距離有：明科夫斯基距離；歐氏距離；絕對值距離；切比雪夫距離；蘭氏距離；馬氏距離。4)計算距離矩陣或相似性系數(shù)矩陣D。6.1聚類分析聚類分析的一般步驟(Q-型分類)2)由距離矩陣或相似性系數(shù)矩陣D，找到當前最小的Dij,并將類Gi、Gj合為一類得到一個新類Gr={Gi、Gj}3)從新計算類間的距離，得到新的矩陣D。4)重復第2步直到全部合為一類。1)每個樣本獨自成類，6.1聚類分析

進行聚類分析時，由于對類與類之間的距離的定義和理解不同，并類的過程中又會產(chǎn)生不同的聚類方法。常用的系統(tǒng)聚類方法有8種：最短距離法；最長距離法；中間距離法；重心法；類平均法；可變類平均法；可變法；離差平方和法。6.1聚類分析例：從21個工廠中抽出同類產(chǎn)品，每個產(chǎn)品測兩個指標，欲將各廠的質(zhì)量情況進行分類。工廠指標觀測值工廠1234567891011指標10022445667-4指標265534312103工廠12131415161718192021指標1-2-3-3-5100-1-1-3指標222021-1-2-1-3-56.1聚類分析dataex;inputx1x2factory$@@;cards;/*數(shù)據(jù)省略*/;proccluster

data=exmethod=wardcccpseudoouttree=tree;idfactory;run;proctreedata=treehorizontal;

idfactory;

run;6.1聚類分析ccc表示要計算半偏R2，R2和ccc立方聚類標準統(tǒng)計量，這三個統(tǒng)計量和下面的偽F和偽t2統(tǒng)計量，主要用于檢驗聚類的效果。當把數(shù)據(jù)從G+1類合并為G類時，半偏R2統(tǒng)計量說明了本次合并信息的損失程度，統(tǒng)計量大表明損失程度大。R2統(tǒng)計量反映類內(nèi)離差平方和的大小，統(tǒng)計量大表明類內(nèi)離差平方和小。ccc統(tǒng)計量的值大說明聚類的效果好。Pseudo說明要計算偽F和偽t2統(tǒng)計量。一般認為，偽F統(tǒng)計量出現(xiàn)峰值時的所對應的分類是較佳的分類選擇。當把數(shù)據(jù)從G+1類合并為G類時，偽t2統(tǒng)計量的值大，說明不應該合并這兩類。6.1聚類分析6.1聚類分析ClusterHistory表示聚類的具體過程，NCL表示當前系統(tǒng)存在類的總個數(shù)，ClustersJoined表示當前加入的編號，例如NCL等于20時，是類1，2聚為一類，F(xiàn)REQ表示新類的元素個數(shù)。SPRSQ表示類與類間規(guī)格化最短距離，RSQ表示R2統(tǒng)計量，ERSQ表示半偏R2統(tǒng)計量，CCC統(tǒng)計量值。PSF為偽F統(tǒng)計量，PST2為偽t2統(tǒng)計量。Tie表示“節(jié)”，是指當前類間最小距離不止一個的時候，此時可以任意選擇一對最短距離進行聚類，在計算其他類與新類的距離。從CCC統(tǒng)計量的結(jié)果可以看出，最大值對應的類數(shù)為4。從四類合并為三類時，偽t2統(tǒng)計量顯著的增加，偽F統(tǒng)計量下降顯著，綜合各方面的結(jié)果，因此分4類最為合適。6.1聚類分析動態(tài)聚類圖6.1聚類分析

綜合以上分析，可以得到結(jié)果，將工廠分為4類，分別為第1類：f1,f2,f3,f4,f5,f6；第2類：f7,f8,f9,f10第3類：f11,f12,f13,f14,f15；第4類：f16,f17,f18,f19,f20,f21。6.1聚類分析肝病的判別地震的判別

判別分析方法最初應用于考古學,例如要根據(jù)挖掘出來的人頭蓋骨的各種指標來判別其性別年齡等.近年來,在生物學分類,醫(yī)療診斷,地質(zhì)找礦,石油鉆探,天氣預報等許多領(lǐng)域,判別分析方法已經(jīng)成為一種有效的統(tǒng)計推斷方法。判別分析是一種在一些已知研究對象用某種方法已經(jīng)分成若干類的情況下，確定新的樣品的觀測數(shù)據(jù)屬于哪一類的統(tǒng)計分析方法。6.2判別分析

常用的方法有：距離判別法、Fisher判別法、貝葉斯判別法、逐步判別法。這里僅介紹后兩種。

為了能識別待判斷的對象x=(x1,x2,…,xm)T是屬于已知類A1,A2,…,Ar中的哪一類？

事先必須要有一個一般規(guī)則,一旦知道了x的值,便能根據(jù)這個規(guī)則立即作出判斷,稱這樣的一個規(guī)則為判別規(guī)則(用于衡量待判對象與各已知類別接近程度的方法準則)。

判別規(guī)則往往通過的某個函數(shù)來表達,我們把它稱為判別函數(shù),記作W(i;x).

6.2判別分析Bayes判別法的基本思想：總是假設對所研究的對象已有一定的認識，計算新給樣品屬于各總體的條件概率比較這個概率的大小，然后將新樣品判歸為來自概率最大的總體。Bayes判別法6.2判別分析

設有總體，具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析，知道出現(xiàn)的概率為。即當樣本發(fā)生時，求他屬于某類的概率。由貝葉斯公式計算后驗概率，有：判別規(guī)則則判給。6.2判別分析Bayes判別法的一般步驟：及均值向量,各變量的總均值及均值向量；1.計算各類中變量的均值2.計算類內(nèi)協(xié)方差矩陣S及其逆矩陣S-1

；3.計算Bayes判別函數(shù)中，各個變量的系數(shù)及常數(shù)項并寫出判別函數(shù)；4.計算類內(nèi)協(xié)方差矩陣W及總各協(xié)方差矩陣T作多個變量的全體判別效果的檢驗；5.各個變量的判別能力的檢驗；6.判別新樣本應屬于的類別。6.2判別分析

例題：人文發(fā)展指數(shù)是聯(lián)合國開發(fā)計劃署于1990年5月發(fā)表的一份<<人類發(fā)展報告>>中公布的數(shù)據(jù)如下，試通過已知的樣品建立判別函數(shù),誤判率是多少?并判斷待判的歸類.6.2判別分析類別國家壽命(X1)成人識字率%(X2)調(diào)整后GDP(X3)1美國76

5374

1日本79.5

53591瑞士78

53721阿根廷76.1

95.9

52421阿聯(lián)酋73.8

77.7

5370

保加利亞71.2

42502古巴75.3

94.9

34122巴拉圭70

91.2

33902格魯吉亞72.8

2300

南非62.9

80.6

3799待判樣品：中國68.5

79.3

1950

羅馬尼亞69.9

96.9

2840

希臘77.6

93.8

5233

哥倫比亞69.3

90.3

51596.2判別分析dataex;inputgx1-x3@@;cards;176995374179.5995359178995372176.195.95242173.877.75370271.2934250275.394.9341227091.23390272.8992300262.980.63799;dataex1;inputx1-x3@@;cards;68.579.3195069.996.9284077.693.8523369.390.35159;procdiscrimdata=extestdata=ex1anovamanovasimplelisttestout=ex2;classg;procprintdata=ex2;run;6.2判別分析

ProcDiscrim后的常用選擇項有：（1）Data=數(shù)據(jù)集名，指定輸入數(shù)據(jù)集名，若缺省則指定最新建立的數(shù)據(jù)集。（2）Testdata=數(shù)據(jù)集名，指定待作出判別的數(shù)據(jù)集名，其中的變量名須上Data數(shù)據(jù)集中的變量名一致。（3）Testout=數(shù)據(jù)集名，指定輸出數(shù)據(jù)集，輸出Testdata數(shù)據(jù)集中所有觀測值以及每個觀測值的后驗概率和判別后的類別。（4）List，指定打印每個觀測值的回代結(jié)果。（5）Anova，指定輸出各類均值檢驗的一元統(tǒng)計量。（6）Manova，指定輸出各類均值檢驗的多元統(tǒng)計量。（7）Simple，指定打印總體和組內(nèi)的簡單統(tǒng)計量。6.2判別分析因此Bayes判別函數(shù)為y1=-323.21568+5.79107x1+0.26498x2+0.03407x3y2=-236.03823+5.14034x1+0.25167x2+0.02533x36.2判別分析從上面運行結(jié)果得知，兩類的誤判率均為0

因而得知中國與羅馬尼亞歸入第二類，希臘與哥倫比亞歸入第一類。6.2判別分析

在判別問題中，當判別變量個數(shù)較多時，如果不加選擇地一概采用來建立判別函數(shù)，不僅計算量大，還由于變量之間的相關(guān)性，可能使求解逆矩陣的計算精度下降，建立的判別函數(shù)不穩(wěn)定。因此適當?shù)睾Y選變量的問題就成為一個很重要的事情。凡具有篩選變量能力的判別分析方法就統(tǒng)稱為逐步判別法。逐步判別法6.3逐步判別分析

逐步判別法其基本思路類似于逐步回歸分析，按照變量是否重要逐步引入變量，每引入一個“最重要”的變量進入判別式，同時要考慮較早引入的變量是否由于其后的新變量的引入使之喪失了重要性變得不再顯著了（例如其作用被后引入地某幾個變量的組合所代替），應及時從判別式中把它剔除，直到判別式中沒有不重要的變量需要剔除，剩下來的變量也沒有重要的變量可引入判別式時，逐步篩選結(jié)束。也就是說每步引入或剔除變量，都作相應的統(tǒng)計檢驗，使最后的判別函數(shù)僅保留“重要”的變量。6.3逐步判別分析1.計算各總體中各變量的均值和總均值以及似然統(tǒng)計量，規(guī)定引入變量和剔除變量的臨界值F進、F出。2.逐步計算，計算全部變量的判別能力，在已入選變量中考慮剔除可能存在的最不顯著變量。在未選入變量中選出最大判別能力的變量，對變量作F檢驗通過檢驗則接受，否則剔除變量。直到能剔除又不能增加新變量，逐步計算結(jié)束。3.建立判別式，使用第2步中選入的變量，用Bayes判別法建立判別式。4.對待判樣本進行判別分類。逐步判別法的步驟：6.3逐步判別分析dataex；inputgx1-x3@@;cards;/*數(shù)據(jù)省略*/;dataex1;inputx1-x3@@;cards;/*數(shù)據(jù)省略*/;6.3逐步判別分析procstepdiscdata=exmethod=stepwisesle=0.3sls=0.3;/*選擇用逐步判別法，選擇后驗概率大于0.3，不注明時系統(tǒng)默認為0.15*/classg;varx1-x3;run;procdiscrimdata=extestdata=ex1/*待判別集合*/anovamanovasimplelisttestout=ex2;classg;varx1x3;/*選用x1和x3作為判別指標*/procprintdata=ex2;run;6.3逐步判別分析結(jié)果顯示：通過逐步判別分析選入兩個變量X1、X3作為判別分析的指標，接下來再以變量X1,X3為參考變量作Bayes判別。1.逐步回歸選取變量：6.3逐步判別分析2.

得到判別函數(shù)：6.3逐步判別分析3.誤判概率：兩類的誤判率均為0，說明判別能力很強，于是可以利用已經(jīng)得到的判別函數(shù)去判別新樣本。

6.3逐步判別分析4.待判樣本分類結(jié)果：

結(jié)果表明，中國與羅馬尼亞歸入第二類，希臘與哥倫比亞歸入第一類。6.3逐步判別分析

由以上兩個例子可知，逐步判別法所得到的結(jié)果可看出來，盡管這里沒有利用變量X2(成人識字率)，但是最終的判別結(jié)果與利用全部變量所得得判別結(jié)果完全一致，這說明了三個變量在判別式中所起到的作用不同。由此可見，在解決現(xiàn)實問題中應結(jié)合兩種方法使得更加科學的使用已知數(shù)據(jù)得到更加合理的結(jié)論。6.3逐步判別分析

假定你是一個公司的財務經(jīng)理，掌握了公司的所有數(shù)據(jù)，比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況，你能夠把這些指標和數(shù)字都原封不動地擺出去嗎？當然不能。你必須要把各個方面作出高度概括，用一兩個指標簡單明了地把情況說清楚。6.4主成分分析

每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟和社會變量的數(shù)據(jù)；各個學校的研究、教學等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點是變量很多，在如此多的變量之中，有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。在引進主成分分析之前，先看下面的例子。6.4主成分分析100個學生的數(shù)學、物理、化學、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?/p>

6.4主成分分析

目前的問題是，能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢？這一兩個綜合變量包含有多少原來的信息呢？能不能利用找到的綜合變量來對學生排序呢？這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè)，對學校進行分析、排序、判別和分類等問題。6.4主成分分析

選擇越少的主成分，降維就越好。什么是標準呢？那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議，所選的主軸總長度占所有主軸長度之和的大約80%即可，其實，這只是一個大體的說法；具體選幾個，要看實際情況而定。6.4主成分分析

主成分分析是一種通過降維技術(shù)把多個變量化為少數(shù)幾個主成分(即綜合變量)的統(tǒng)計分析方法。

一般來說，我們希望這些主成分能夠反映原始變量的絕大部分信息(它們通常表示為原始變量的某種線性組合)，并具有最大的方差。6.4主成分分析1.對原始數(shù)據(jù)矩陣進行標準化處理(相當于對原始變量進行坐標平移與尺度伸縮)主成分的求解步驟:

假設對p個變量進行n次觀測得到的觀測數(shù)據(jù)可用下面的矩陣表示將其進行標準化處理6.4主成分分析iii）特征分解得(相當于將原來的坐標軸進行旋轉(zhuǎn)得到新的坐標軸U)ii）求協(xié)方差矩陣Z——Z的特征值組成的對角陣U——Z的特征向量按列組成的正交陣，它構(gòu)成了新的矢量空間，作為新變量(主成分)的坐標軸，又稱為載荷軸。

得Z的p個非負特征值，這p個特征值就是主成分的方差。6.4主成分分析iv)確定主成分個數(shù)(根據(jù)累積貢獻率)當大于某個閾值時，可認為主成分數(shù)目為m。

Z陣的每一行相當于原數(shù)據(jù)矩陣的所有行(即原始變量構(gòu)成的向量)在主成分坐標軸(載荷軸)上的投影，這些新的投影構(gòu)成的向量就是主成分得分向量。v)寫出主成分表達式6.4主成分分析Vi)構(gòu)造評價函數(shù)將每個樣本的主成分帶入評價函數(shù)，得到每個樣本的綜合得分，依據(jù)一定的準則可對樣本進行排序。6.4主成分分析例以下是收集整理了的1990-2002年13年間影響中國蔬菜產(chǎn)量的若干因素數(shù)據(jù)，請你對這些影響因素作主成分分析，并分析結(jié)果。11.517.676.4主成分分析dataex;inputx1-x13;cards;/*數(shù)據(jù)省略*/;procprincompout=prin;

varx1-x13;run;procprintdata=prin;varprin1-prin13;run;6.4主成分分析程序中對應運行結(jié)果為：

從程序結(jié)果可以看出，第一、第二、第三主成分累計解釋方差的比率已經(jīng)超過了94%，所以只需要求λ1、λ2、λ2所對應的正交化特征向量αi(i=1，2，3)6.4主成分分析6.4主成分分析α1=(0.31，0.29，－0.22，0.30，－0.09，0.31，0.30，0.30，0.30，0.31，0.31，0.31，0.13)，α2=（－0.03，0.23，0.51，0.11，0.77，0.01，－0.09，0.13，0.19，0.07，0.04，－0.03，－0.09），α3=（0.03，－0.03，0.24，－0.08，0.01，－0.03，0.02，－0.06，－0.04，－0.03，－0.08，0.05，0.96）可知其中6.4主成分分析

第一主成分與蔬菜種植面積、每公頃物質(zhì)費用、蔬菜零售物價指數(shù)、市場化程度、城市化水平1、城市化水平2、交通、城鎮(zhèn)居民可支配收入、農(nóng)村居民純收入、農(nóng)民文化素質(zhì)等密切相關(guān)，表示的是市場經(jīng)濟綜合因素，著重反映的是市場經(jīng)濟的成熟程度與國家現(xiàn)代化水平；第二主成分與每公頃勞動投入、成本純收益率等密切相關(guān)，表示的是勞動者動力因素；第三主成分與氣候條件密切相關(guān)，顯然表示的是氣候因素。6.4主成分分析主成分得分6.4主成分分析

因子分析模型是主成分分析的推廣。它也是利用降維的思想，由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā)，把一些具有錯綜復雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分析方法。因子分析的思想始于1904年CharlesSpearman對學生考試成績的研究。近年來，隨著電子計算機的高速發(fā)展，人們將因子分析的理論成功地應用于心理學、醫(yī)學、氣象、地質(zhì)、經(jīng)濟學等各個領(lǐng)域，也使得因子分析的理論和方法更加豐富。6.5因子分析

因子分析的基本思想是根據(jù)相關(guān)性大小把原始變量分組，使得同組內(nèi)的變量之間相關(guān)性較高，而不同組的變量間的相關(guān)性則較低。每組變量代表一個基本結(jié)構(gòu)，并用一個不可觀測的綜合變量表示，這個基本結(jié)構(gòu)就稱為公共因子。對于所研究的某一具體問題，原始變量就可以分解成兩部分之和的形式，一部分是少數(shù)幾個不可測的所謂公共因子的線性函數(shù)，另一部分是與公共因子無關(guān)的特殊因子。6.5因子分析設p個變量，如果表示為：即6.5因子分析稱為公共因子，是不可觀測的變量，稱為因子載荷陣，表示第i個變量是特殊因子，不相關(guān)。

在第j個因子上的載荷(loading).是不能被前m個公共因子包含的部分。并且滿足6.5因子分析因子分析的解決的三個基本問題：1.因子載荷陣A的估計；2.當因子難以得到合理的解釋時，對因子載荷陣作正交變換,即因子旋轉(zhuǎn)。目的：對因子的實際意義做出合理的解釋；3.給出每個變量（或樣品）關(guān)于m個公共因子的得分，通常表示為原始變量的線性組合，即因子得分函數(shù)。目的：對公共因子作出估計。6.5因子分析因子分析一般步驟：及1)類似主成分分析，計算,k,j=1,2,..m,建立基本方程組;2)用主成分分析法確定因子載荷陣A;3)方差極大正交旋轉(zhuǎn)，對變量系數(shù)極值化(盡量趨于0或1);4)得到因子得分函數(shù)，計算樣本因子得分。6.5因子分析

例：已知12個地區(qū)的5個經(jīng)濟指標：人口總數(shù)、學?？倲?shù)、就業(yè)人口、服務業(yè)總數(shù)、房子個數(shù)。依據(jù)已知的5個經(jīng)濟指標，對12個地區(qū)的綜合經(jīng)濟實力進行分析。

分析：由于指標個數(shù)較多，不便于分析排序。因此，考慮先做因子分析找出指標的共同因子，再計算因子得分，通過分析因子得分來評價該地區(qū)的經(jīng)濟指標。6.5因子分析dataex;inputpopschoolemployserviceshouse@@;cards;/*數(shù)據(jù)省略*/;procfactordata=exmethod=principalrotate=varimaxpercent=0.8scoreoutstat=ex1;

varpopschoolemployserviceshouse;procscoredata=exscore=ex1out=ex2;varpopschoolemployserviceshouse;procprintdata=ex1;procprintdata=ex2;run;

6.5因子分析結(jié)果表明，5個因子對應的特征值，特征值表示因子貢獻率。通常確定因子個數(shù)時，要求因子累計貢獻率大于80%。結(jié)果表明應選取2個因子，記為F1,F2貢獻率分別為57.47%、35.93%。6.5因子分析確定因子載荷陣系數(shù)，得到初始的特征向量：

由于對應實際問題，公共因子的實際意義不好解釋。因此考慮將指標的系數(shù)極值化，即讓系數(shù)趨于1或0，趨于1說明公共因子與該指標密切相關(guān)，否則趨于0時說明相關(guān)程度很低。由此，要做因子旋轉(zhuǎn)實現(xiàn)系數(shù)的極值化。6.5因子分析因子旋轉(zhuǎn)程序運行結(jié)果：

OrthogonalTransformationMatrix表示因子旋轉(zhuǎn)陣，RotatedFactorPattern為旋轉(zhuǎn)后得到的因子載荷。StandardizedScoringCoefficients為因子得分系數(shù)結(jié)果。

6.5因子分析6.5因子分析根據(jù)得到的因子得分函數(shù)計算各個樣本的因子得分3.因子得分：

以上為12個樣本的5個指標值，以及2個公共指標的得分，因子F1中J地區(qū)的得分最高，說明該地區(qū)的服務教育服務設施較好。因子F2中L地區(qū)的得分最高，說明該地區(qū)的就業(yè)情況較好。6.5因子分析因子分析與主成分分析的區(qū)別與聯(lián)系

因子分析、主成分分析都是重要的降維方法（數(shù)據(jù)簡化技術(shù)），因子分析可以看作是主成分分析的推廣和發(fā)展。主成分分析不能作為一個模型來描述，它只能作為一般的變量變換，主成分是可觀測的原始變量的線性組合；因子分析需要構(gòu)造因子模型，公共因子是潛在的不可觀測的變量，一般不能表示為原始變量的線性組合。因子分析是用潛在的不可觀測的變量和隨機影響變量的線性組合來表示原始變量，即通過這樣的分解來分析原始變量的協(xié)方差結(jié)構(gòu)（相依關(guān)系）。6.5因子分析

現(xiàn)實生活中兩組變量間的相關(guān)關(guān)系的問題很多，例如家庭的特征（如戶主的年齡、家庭的年收入、戶主的受教育程度等）與消費模式（如每年去餐館就餐的頻率、每年外出看電影的頻率等）等等。為此，1936年由Hulling提出了典型相關(guān)分析，揭示了兩組多元隨機變量之間的關(guān)系。6.6典型相關(guān)分析典型相關(guān)分析基本思想

通常情況下，為了研究兩組變量的相關(guān)關(guān)系，可以用最原始的方法，分別計算兩組變量之間的全部相關(guān)系數(shù)，一共有pq個簡單相關(guān)系數(shù)，這樣又煩瑣又不能抓住問題的本質(zhì)。如果分別找出兩組變量的各自的某個線性組合，討論線性組合之間的相關(guān)關(guān)系，則更簡捷。6.6典型相關(guān)分析

首先分別在每組變量中找出第一對線性組合，使其具有最大相關(guān)性，然后再在每組變量中再找出第二對線性組合，使其分別與本組內(nèi)的第一線性組合不相關(guān)，第二對本身具有次大的相關(guān)性，即u2和v2與u1和v1相互獨立，但u2和v2相關(guān)，如此下去，直至兩組變量的相關(guān)性被提取完為止。

6.6典型相關(guān)分析例蔬菜產(chǎn)出水平主要體現(xiàn)在蔬菜總產(chǎn)量(Y1)、人均蔬菜占有量(Y2)、蔬菜總產(chǎn)增長速度(Y3)三個方面，并稱作因變量組（簡稱“產(chǎn)出組”）。問題：因變量組與自變量X1(市場經(jīng)濟綜合因素)、X2(勞動力動力因素)、

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第6講多元分析

文檔簡介

溫馨提示

最新文檔

評論

第6講 多元分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

第6講多元分析