(四川大學(xué))研究生的博弈論課程:第八章典型相關(guān)分析_第1頁(yè)
(四川大學(xué))研究生的博弈論課程:第八章典型相關(guān)分析_第2頁(yè)
(四川大學(xué))研究生的博弈論課程:第八章典型相關(guān)分析_第3頁(yè)
(四川大學(xué))研究生的博弈論課程:第八章典型相關(guān)分析_第4頁(yè)
(四川大學(xué))研究生的博弈論課程:第八章典型相關(guān)分析_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第八章 典型相關(guān)分析8.1 典型相關(guān)分析及基本思想一、定義在一元統(tǒng)計(jì)分析中,研究?jī)蓚€(gè)隨機(jī)變量之間的線性相關(guān)關(guān)系,可用相關(guān)系數(shù)(稱為簡(jiǎn)單相關(guān)系數(shù));研究一個(gè)隨機(jī)變量與多個(gè)隨機(jī)變量之間的線性相關(guān)關(guān)系,可用復(fù)相關(guān)系數(shù)(稱為全相關(guān)系數(shù))。1936年荷泰林(Hotelling)在生物統(tǒng)計(jì)發(fā)表一篇論文兩組變式之間的關(guān)系首先將它推廣到研究多個(gè)隨機(jī)變量與多個(gè)隨機(jī)變量之間的相關(guān)關(guān)系的討論中,提出了典型相關(guān)分析。二、應(yīng)用實(shí)際問(wèn)題中,兩組變量之間具有相關(guān)關(guān)系的問(wèn)題很多,例如:幾種主要產(chǎn)品如豬肉、牛肉、雞蛋的價(jià)格(作為第一組變量)和相應(yīng)這些產(chǎn)品的銷售量(作為第二組變量)有相關(guān)關(guān)系;投資性變量(如勞動(dòng)者人數(shù)、貨物周轉(zhuǎn)量

2、、生產(chǎn)建設(shè)投資等)與國(guó)民收入變量(如工農(nóng)業(yè)國(guó)民收入、運(yùn)輸業(yè)國(guó)民收入、建筑業(yè)國(guó)民收入等)具有相關(guān)關(guān)系;患某種疾病的病人的各種癥狀程度(第一組變量)和用物理化學(xué)方法檢驗(yàn)的結(jié)果(第二組變量)具有相關(guān)關(guān)系;運(yùn)動(dòng)員體力測(cè)試指標(biāo)(如反復(fù)橫向跳、縱跳、背力、握力等)與運(yùn)動(dòng)能力測(cè)試指標(biāo)(如耐力跑、跳遠(yuǎn)、投球等)之間具有相關(guān)關(guān)系等。個(gè)人表現(xiàn)與家庭的社會(huì)經(jīng)濟(jì)狀況的關(guān)系;典型相關(guān)分析還可以應(yīng)用于對(duì)應(yīng)關(guān)系的研究,如夫妻之間、代際之間、干群之間、供求之間所存在的兩組多變量之間關(guān)系的研究。三、基本思想 首先在每組變量中找出變量的線性組合,使其具有最大相關(guān)性,然后再在每組變量中找出第二對(duì)線性組合,使其分別與第一對(duì)線性組合不

3、相關(guān),而第二對(duì)本身具有最大的相關(guān)性,如此繼續(xù)下去,直到兩組變量之間的相關(guān)性被提取完畢為止。有了這樣線性組合的最大相關(guān),則討論兩組變量之間的相關(guān),就轉(zhuǎn)化為只研究這些線性組合的最大相關(guān),從而減少研究變量的個(gè)數(shù)。典型相關(guān)分析就是研究?jī)山M變量之間相關(guān)關(guān)系的一種多元統(tǒng)計(jì)方法,設(shè)兩組變量用,及,表示。要研究?jī)山M變量的相關(guān)關(guān)系,一種方法是分別研究與(;)之間的相關(guān)關(guān)系,然后列出相關(guān)系數(shù)表進(jìn)行分析,當(dāng)兩組變量較多時(shí),這樣做法不僅煩瑣,也不易抓住問(wèn)題的實(shí)際;另一種方法采用類似主成分分析的做法,在每一組變量中都選擇若干個(gè)有代表性的綜合指標(biāo)(變量的線性組合),通過(guò)研究?jī)山M的綜合指標(biāo)之間的關(guān)系來(lái)反映兩組變量之間的相關(guān)

4、關(guān)系。例如,表示一組變量;,表示另一組變量。研究它們之間的相關(guān)關(guān)系,就是希望構(gòu)造一個(gè),的線性函數(shù)及,的線性函數(shù):。該式稱為典型變式,aij稱為典型系數(shù)。要求它們之間具有最大相關(guān)性。如圖81所示。YCv1-1Cv1-2Cv1-3X1X2X3X4XCv2-1Cv2-1Cv2-3。Y1Y1Y1Cr1Cr2Cr3圖81 典型相關(guān)分析示意圖稱自變量X為預(yù)測(cè)變量(predictor variables)。稱因變量Y為標(biāo)準(zhǔn)變量(criterion variable)。在有隱含的或明確的因果聯(lián)系假設(shè)時(shí),主要研究一個(gè)方向的作用。在完全沒(méi)有內(nèi)在的因果關(guān)系時(shí),就需要進(jìn)行雙向的分析。當(dāng)然,只要組內(nèi)變量不變,結(jié)果是一樣

5、的。8.2 典型相關(guān)分析的數(shù)學(xué)描述設(shè)有兩組隨機(jī)變量,記,不妨設(shè),假定的協(xié)方差陣 ,均值向量(否則只要以代替即可),相應(yīng)的將剖分為其中,是第一組變量的協(xié)方差陣,是第一組與第二組變量的協(xié)方差陣,是第二組變量的協(xié)方差陣。要研究?jī)山M變量之間的相關(guān)關(guān)系,前面已介紹兩組變量的線性組合,即其中:,為任意非零常數(shù)向量,易見(jiàn): 我們希望尋求和使達(dá)到最大,但由于隨機(jī)變量乘以常數(shù)時(shí)不改變它們的相關(guān)系數(shù),為防止不必要的結(jié)果重復(fù)出現(xiàn),最好的限制是令Var,Var。于是我們的問(wèn)題就成為在約束條件:Var,Var,尋求和使 達(dá)到最大。8.3 總體的典型相關(guān)系數(shù)和典型變量一、總體的典型相關(guān)系數(shù)和典型變量的求法在約束條件: 時(shí)

6、尋求和使達(dá)到最大值,根據(jù)數(shù)學(xué)分析中條件極值的求法引入Lagrange乘數(shù),可將問(wèn)題轉(zhuǎn)化為求 的極大值,其中,是Lagrange乘數(shù)。 由極值的必要條件為 將上二式分別左乘與,則得而=,所以,這就是說(shuō)恰好是線性組合和之間的相關(guān)系數(shù)。于是解方程組歸結(jié)為解方程組: 為了具體求解,以左乘中第二式并將第一式代入得 用左乘式第一式并將第二式代入得 用左乘式得 用左乘式得 記則得說(shuō)明既是又是的特征根,、就是其相應(yīng)于和的特征向量。和的特征根有如下性質(zhì):(1)和有相同的非零特征根,且相等的非零特征根數(shù)目就等于。 (2)和的特征根非負(fù)。 (3)和的全部特征根均在0和1之間。我們用通常符號(hào)表示(其余個(gè)特征根為0),

7、并稱為典型相關(guān)系數(shù),相應(yīng)的單位特征向量為和,從而可得對(duì)線性組合:;,;。稱每一對(duì)變量為典型變量,由此可見(jiàn),求典型相關(guān)系數(shù)和典型變量歸結(jié)為求A、B的特征根和特征向量?,F(xiàn)在分別在兩組變量與中,作線性組合:,尋找、在滿足約束,條件下使達(dá)到最大。若極大值在,達(dá)到,我們稱,為第一對(duì)典型變量,其極大值稱為第一典型相關(guān)系數(shù)。如果第一對(duì)典型變量不足以代表原來(lái)兩組變量的信息,需要第二對(duì)典型變量:,自然要求、滿足條件:,且使達(dá)到最大。但僅僅這個(gè)要求還不夠,為了有效地反映兩組變量的相關(guān)信息,那么第一對(duì)典型變量已提取的信息,就不需要在第二對(duì)典型變量再出現(xiàn),也就是說(shuō)第二對(duì)典型相關(guān)變量不應(yīng)包括第一對(duì)典型變量的相關(guān)信息,用

8、數(shù)字語(yǔ)言表達(dá)即:Cov=CovCovCov第二對(duì)典型變量的最大值即第二對(duì)典型變量的相關(guān)系數(shù)為,依此類推,一般第對(duì)典型變量:,滿足如下約束條件:,其中、,、為前對(duì)典型變量的系數(shù),第對(duì)典型變量的最大值即對(duì)典型變量的相關(guān)系數(shù),它是(或)的第個(gè)特征根的正平方根。由上述分析不難看出,相關(guān)系數(shù)越大,說(shuō)明相應(yīng)的典型變量之間的關(guān)系越密切。因此一般在實(shí)用中忽略典型相關(guān)系數(shù)很小的那些典型變量,按的大小只取前個(gè)典型變量及典型相關(guān)系數(shù)進(jìn)行分析。二、典型變量的性質(zhì)1由中出現(xiàn)的一切典型變量都是不相關(guān)的,并且其方差為1,對(duì)于中出現(xiàn)的一切典型變量也是如此,即CovCov其中2與的同一對(duì)典型變量和之間的相關(guān)系數(shù)為,不同對(duì)的典型

9、變量和()之間不相關(guān),也就是說(shuō)協(xié)方差為0,即8.4 樣本的典型相關(guān)系數(shù)和典型變量當(dāng)總體的均值向量和協(xié)差陣未知時(shí),無(wú)法求總體的典型相關(guān)系數(shù)和典型變量,因而需要給出樣本的典型相關(guān)系數(shù)和典型變量。設(shè)為來(lái)自總體容量為的樣本,這時(shí)的最大似然估計(jì)是其中,用代替并求出和,稱為樣本典型相關(guān)系數(shù),稱為樣本的典型變量。可以證明,分別為總體典型相關(guān)系數(shù)和典型相關(guān)系數(shù)向量,的極大似然估計(jì)量。計(jì)算時(shí)也可從樣本的相關(guān)矩陣出發(fā)求樣本的典型相關(guān)系數(shù)和典型變量,將相關(guān)矩陣剖分為=其中 令則有將,代入上節(jié)(7)、(8)式可得:則分別為矩陣的相應(yīng)于特征根的特征向量。從而可得到第對(duì)樣本的典型變量:,及典型相關(guān)系數(shù)。8.5 典型相關(guān)系

10、數(shù)的顯著性檢驗(yàn)一、典型相關(guān)模型的基本假設(shè)和數(shù)據(jù)要求 兩組變量之間為線性關(guān)系,即每對(duì)典型變量之間為線性關(guān)系。(通過(guò)審閱簡(jiǎn)單相關(guān)矩陣觀察?;蛘邫z驗(yàn)所有觀測(cè)變量的分布是否偏態(tài))所有觀測(cè)變量為間距測(cè)度等級(jí),同時(shí)實(shí)際取值的數(shù)據(jù)范圍較寬。各組內(nèi)的觀測(cè)變量之間不能有高度的多重共線性。必須對(duì)得到的典型相關(guān)關(guān)系進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)。二、典型相關(guān)分析的統(tǒng)計(jì)指標(biāo)1典型相關(guān)系數(shù)(canonical correlation)如果第一個(gè)變量組含p1個(gè)變量,第二個(gè)變量組含p2個(gè)變量,那么,通過(guò)兩個(gè)組內(nèi)相關(guān)矩陣和一個(gè)組間相關(guān)矩陣可以計(jì)算出min(p1,p2)個(gè)典型相關(guān)系數(shù)。Canonical Correlations1 .78

11、92 .054*2典型相關(guān)系數(shù)的平方 與簡(jiǎn)單相關(guān)系數(shù)一樣,典型相關(guān)系數(shù)的意義并不十分明確。可以對(duì)其平方進(jìn)行說(shuō)明。則典型相關(guān)系數(shù)的平方的實(shí)際意義是一對(duì)典型變量之間的共享方差(shared variance)在兩個(gè)典型變量各自方差中的比例。例如,0.78920.622,即只占共享方差的62.2%。而0.05420.0029,即只占共享方差的0.29%。*3特征值其中,代表特征值,cv代表典型相關(guān)系數(shù),i代表維度序號(hào)。特征值可以理解為等價(jià)于各維度對(duì)觀測(cè)變量總方差代表作用的指標(biāo),的值越大說(shuō)明代表作用越大。4檢驗(yàn)典型相關(guān)系數(shù)*整體檢驗(yàn)(overall test)同時(shí)檢驗(yàn)所有的典型相關(guān)系數(shù),看是否有一個(gè)是

12、顯著的。維度遞減檢驗(yàn)(dimension reduction test)Test that remaining correlations are zero: Wilks Chi-SQ DF Sig.1 .377 20.964 4.000 .0002 .997 .062 1.000 .8035典型系數(shù)(canonical coefficient) 粗典型系數(shù) Raw Canonical Coefficients for Set-1 1 2LONG1 -.057 -.140WIDTH1 -.071 .187 Raw Canonical Coefficients for Set-2 1 2LONG2

13、 -.050 -.176WIDTH2 -.080 .262標(biāo)準(zhǔn)化的典型系數(shù)Standardized Canonical Coefficients for Set-1 1 2 LONG1 -.552 -1.366WIDTH1 -.522 1.378U1=-0.552LONG1 - 0.522WIDTH1 U2=-1.366LONG1 + 1.378WIDTH1Standardized Canonical Coefficients for Set-2 1 2 LONG2 -.504 -1.769WIDTH2 -.538 1.759V1=-0.504LONG2 0.538WIDTH2 V2=-1.7

14、69LONG2 + 1.759WIDTH26.典型負(fù)載系數(shù)(canonical loading)也被稱為結(jié)構(gòu)相關(guān)系數(shù)。是典型變量與本組的觀測(cè)變量之間的兩兩簡(jiǎn)單相關(guān)系數(shù)。說(shuō)明典型變量與本組的觀測(cè)變量之間回歸時(shí)測(cè)量的散點(diǎn)與回歸線之間的擬合程度。Canonical Loadings for Set-1 1 2 LONG1 -.935 -.354WIDTH1 -.927 .375Canonical Loadings for Set-2 1 2 LONG2 -.956 -.293WIDTH2 -.962 .2747.交叉負(fù)載系數(shù)(Cross Loadings)即一組中的典型變量與另外一組中的觀測(cè)變量(式

15、)之間的兩兩簡(jiǎn)單相關(guān)。Cross Loadings for Set-1 1 2 LONG1 -.737 -.019WIDTH1 -.731 .020Cross Loadings for Set-2 1 2 LONG2 -.754 -.016WIDTH2 -.758 .015例如,-0.758就是第二組的變量WIDTH2與第一組的典型變量(式)之間的簡(jiǎn)單相關(guān)系數(shù)。但是,一般人們都使用它們的平方形式。8變式對(duì)本組觀察變量總方差的代表比例Redundancy Analysis:Proportion of Variance of Set-1 Explained by Its Own Can. Var.

16、 Prop VarCV1-1 .867CV1-2 .133Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop VarCV2-1 .920CV2-2 .0809冗余指數(shù)是一組當(dāng)中形成的典型變式對(duì)另一組觀測(cè)變量總方差的解釋比例。以一種組間交叉共享比例。這一比例在研究有因果關(guān)系的假設(shè)時(shí)非常重要。Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop VarCV2-1 .539CV2-2 .0000539(-0.737)2(-0.731)2

17、2Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop VarCV1-1 .572CV1-2 .000在作兩組變量的典型相關(guān)分析之前,首先應(yīng)檢驗(yàn)兩組變量是否相關(guān),如果不相關(guān),即Cov()=0,則討論兩組變量的典型相關(guān)就毫無(wú)意義。設(shè)總體的兩組變量,且。:Cov()=0檢驗(yàn)統(tǒng)計(jì)量為:其中是的特征根,按大小次序排列為,當(dāng)時(shí),在成立下近似服從分布,這里,因此在給定檢驗(yàn)水平之下,若由樣本算出臨界值,則否定,也就是說(shuō)第一對(duì)典型變量具有相關(guān)性,其相關(guān)系數(shù)為,即至少可以認(rèn)為第一個(gè)典型相關(guān)系數(shù)為顯著的。將它除去之后,再檢驗(yàn)其余個(gè)

18、典型相關(guān)系數(shù)的顯著性,這時(shí)計(jì)算則統(tǒng)計(jì)量近似地服從個(gè)自由度分布,如果,則認(rèn)為顯著,即第二對(duì)典型變量相關(guān),以下逐個(gè)進(jìn)行檢驗(yàn),直到某一個(gè)相關(guān)系數(shù)檢驗(yàn)為不顯著時(shí)截止。這時(shí)我們就找出反映兩組變量相互關(guān)系的對(duì)典型變量。一般,檢驗(yàn)第個(gè)典型相關(guān)系數(shù)的顯著性時(shí),作統(tǒng)計(jì)量:它近似服從個(gè)自由度的分布。其中注:上述檢驗(yàn)的統(tǒng)計(jì)量是用似然比方法在和成立下導(dǎo)出的統(tǒng)計(jì)量為,其中樣本離差陣 ,由于 ,所以 該統(tǒng)計(jì)量1936年Hotelling,1939年Girshik和1958年Anderson都給出過(guò)精確分布,但形式很復(fù)雜,又不易找到該分布的臨界值表,所以通常采用由Bartlett給出的在成立及大樣本情況下,它近似服從分布。

19、8.6 計(jì)算步驟及實(shí)例設(shè)取自態(tài)總體的樣本,每個(gè)樣品測(cè)量?jī)山M指標(biāo),分別記為,原始資料矩陣為記,不妨設(shè)。第一步 計(jì)算相關(guān)系數(shù)陣將剖分為其中分別為第一組變量和第二組變量的相關(guān)系數(shù)陣,為第一組與第二組變量的相關(guān)系數(shù)。第二步 求典型相關(guān)系數(shù)及典型變量首先求的特征根,特征向量;的特征根,特征向量。寫(xiě)出樣本的典型變量為 第三步 典型相關(guān)系數(shù)的顯著性檢驗(yàn)例8-1 對(duì)某高中一年級(jí)男生38人進(jìn)行體力測(cè)試(共有七項(xiàng)指標(biāo))及運(yùn)動(dòng)能力測(cè)試(共有五項(xiàng)指標(biāo)),試對(duì)兩組指標(biāo)作典型相關(guān)分析。體力測(cè)試指標(biāo):反復(fù)橫向跳(次),縱跳(cm),背力(kg),握力(kg),臺(tái)階試驗(yàn)(指數(shù)),立定體前屈(cm),俯臥上體后仰(cm)。運(yùn)動(dòng)

20、能力測(cè)試的指標(biāo)為:50米跑(秒),跳遠(yuǎn)(cm),投球(m),引體向上(次),耐力跑(秒)。第一步 計(jì)算相關(guān)系數(shù)陣。第二步 求的特征值及相應(yīng)的特征向量(因?yàn)楸鹊碾A數(shù)低),從而得出典型相關(guān)系數(shù)和典型變量。第三步 典型相關(guān)系數(shù)的顯著性檢驗(yàn)。檢驗(yàn):為此計(jì)算查個(gè)自由度的分布表得:顯然,故第一個(gè)典型相關(guān)系數(shù)為高度顯著,第一對(duì)典型變量是有價(jià)值的。檢驗(yàn):為此計(jì)算查個(gè)自由度的分布表得:因,故為顯著的典型相關(guān)系數(shù),第二對(duì)典型變量是有價(jià)值的。檢驗(yàn):為此計(jì)算查個(gè)自由度的分布表得:因,故為不顯著的典型相關(guān)系數(shù),第三對(duì)典型變量?jī)r(jià)值不大。因此,就不用檢驗(yàn)了,顯然是不顯著的,因而第四對(duì)和第五對(duì)典型變量?jī)r(jià)值也不大。第四步 結(jié)果

21、分析根據(jù)上步的結(jié)果可知對(duì)原始兩組變量的研究可轉(zhuǎn)化為第一對(duì)及第二對(duì)典型變量的研究,通過(guò)它們之間相關(guān)性的研究來(lái)反映原始兩組變量之間的相關(guān)關(guān)系。注意到第二個(gè)變量組(即運(yùn)動(dòng)能力測(cè)試組)中的第一個(gè)變量與第五個(gè)變量和其它變量有差異,它們的值越小,說(shuō)明運(yùn)動(dòng)能力越強(qiáng),也就是說(shuō),跑的時(shí)間越少,運(yùn)動(dòng)能力越好。注意此點(diǎn),可將第一、二典型變量加以解釋如下:第一對(duì)典型變量中,無(wú)論是第一組變量還是第二組變量,其測(cè)試結(jié)果越好的話,的數(shù)值也越大,所以可以解釋為它是表示全面能力程度,我們看到這兩組系數(shù)中只有及系數(shù)為負(fù),而恰好這兩個(gè)變量取值意義和其它變量取值意義相反。第二對(duì)典型變量中,第一組變量?jī)?nèi)與的系數(shù)較大,第二組變量?jī)?nèi)的系數(shù)

22、較大,所以第二對(duì)典型變量可以解釋為局部能力(即下半身腿的能力)的程度,它顯示出跳的能力強(qiáng)或跑的能力強(qiáng)。INCLUDED應(yīng)用程序spssCANONICAL CORRELATION.SPS.CANCORR SET1=long1 width1 /SET2=long2 width2.Run MATRIX procedure:Correlations for Set-1 LONG1 WIDTH1 LONG1 1.0000 .7346WIDTH1 .7346 1.0000Correlations for Set-2 LONG2 WIDTH2 LONG2 1.0000 .8393WIDTH2 .8393 1

23、.0000Correlations Between Set-1 and Set-2 LONG2 WIDTH2 LONG1 .7108 .7040WIDTH1 .6932 .7086Canonical Correlations1 .7892 .054Test that remaining correlations are zero: Wilks Chi-SQ DF Sig.1 .377 20.964 4.000 .0002 .997 .062 1.000 .803Standardized Canonical Coefficients for Set-1 1 2 LONG1 -.552 -1.366WIDTH1 -.522 1.378Raw Canonical Coefficients for Set-1 1 2 LONG1 -.057 -.140WIDTH1 -.071 .187_Standardized Canonical Coefficients for S

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論