(四川大學)研究生的博弈論課程:第八章典型相關分析_第1頁
(四川大學)研究生的博弈論課程:第八章典型相關分析_第2頁
(四川大學)研究生的博弈論課程:第八章典型相關分析_第3頁
(四川大學)研究生的博弈論課程:第八章典型相關分析_第4頁
(四川大學)研究生的博弈論課程:第八章典型相關分析_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第八章 典型相關分析8.1 典型相關分析及基本思想一、定義在一元統(tǒng)計分析中,研究兩個隨機變量之間的線性相關關系,可用相關系數(shù)(稱為簡單相關系數(shù));研究一個隨機變量與多個隨機變量之間的線性相關關系,可用復相關系數(shù)(稱為全相關系數(shù))。1936年荷泰林(Hotelling)在生物統(tǒng)計發(fā)表一篇論文兩組變式之間的關系首先將它推廣到研究多個隨機變量與多個隨機變量之間的相關關系的討論中,提出了典型相關分析。二、應用實際問題中,兩組變量之間具有相關關系的問題很多,例如:幾種主要產品如豬肉、牛肉、雞蛋的價格(作為第一組變量)和相應這些產品的銷售量(作為第二組變量)有相關關系;投資性變量(如勞動者人數(shù)、貨物周轉量

2、、生產建設投資等)與國民收入變量(如工農業(yè)國民收入、運輸業(yè)國民收入、建筑業(yè)國民收入等)具有相關關系;患某種疾病的病人的各種癥狀程度(第一組變量)和用物理化學方法檢驗的結果(第二組變量)具有相關關系;運動員體力測試指標(如反復橫向跳、縱跳、背力、握力等)與運動能力測試指標(如耐力跑、跳遠、投球等)之間具有相關關系等。個人表現(xiàn)與家庭的社會經濟狀況的關系;典型相關分析還可以應用于對應關系的研究,如夫妻之間、代際之間、干群之間、供求之間所存在的兩組多變量之間關系的研究。三、基本思想 首先在每組變量中找出變量的線性組合,使其具有最大相關性,然后再在每組變量中找出第二對線性組合,使其分別與第一對線性組合不

3、相關,而第二對本身具有最大的相關性,如此繼續(xù)下去,直到兩組變量之間的相關性被提取完畢為止。有了這樣線性組合的最大相關,則討論兩組變量之間的相關,就轉化為只研究這些線性組合的最大相關,從而減少研究變量的個數(shù)。典型相關分析就是研究兩組變量之間相關關系的一種多元統(tǒng)計方法,設兩組變量用,及,表示。要研究兩組變量的相關關系,一種方法是分別研究與(;)之間的相關關系,然后列出相關系數(shù)表進行分析,當兩組變量較多時,這樣做法不僅煩瑣,也不易抓住問題的實際;另一種方法采用類似主成分分析的做法,在每一組變量中都選擇若干個有代表性的綜合指標(變量的線性組合),通過研究兩組的綜合指標之間的關系來反映兩組變量之間的相關

4、關系。例如,表示一組變量;,表示另一組變量。研究它們之間的相關關系,就是希望構造一個,的線性函數(shù)及,的線性函數(shù):。該式稱為典型變式,aij稱為典型系數(shù)。要求它們之間具有最大相關性。如圖81所示。YCv1-1Cv1-2Cv1-3X1X2X3X4XCv2-1Cv2-1Cv2-3。Y1Y1Y1Cr1Cr2Cr3圖81 典型相關分析示意圖稱自變量X為預測變量(predictor variables)。稱因變量Y為標準變量(criterion variable)。在有隱含的或明確的因果聯(lián)系假設時,主要研究一個方向的作用。在完全沒有內在的因果關系時,就需要進行雙向的分析。當然,只要組內變量不變,結果是一樣

5、的。8.2 典型相關分析的數(shù)學描述設有兩組隨機變量,記,不妨設,假定的協(xié)方差陣 ,均值向量(否則只要以代替即可),相應的將剖分為其中,是第一組變量的協(xié)方差陣,是第一組與第二組變量的協(xié)方差陣,是第二組變量的協(xié)方差陣。要研究兩組變量之間的相關關系,前面已介紹兩組變量的線性組合,即其中:,為任意非零常數(shù)向量,易見: 我們希望尋求和使達到最大,但由于隨機變量乘以常數(shù)時不改變它們的相關系數(shù),為防止不必要的結果重復出現(xiàn),最好的限制是令Var,Var。于是我們的問題就成為在約束條件:Var,Var,尋求和使 達到最大。8.3 總體的典型相關系數(shù)和典型變量一、總體的典型相關系數(shù)和典型變量的求法在約束條件: 時

6、尋求和使達到最大值,根據(jù)數(shù)學分析中條件極值的求法引入Lagrange乘數(shù),可將問題轉化為求 的極大值,其中,是Lagrange乘數(shù)。 由極值的必要條件為 將上二式分別左乘與,則得而=,所以,這就是說恰好是線性組合和之間的相關系數(shù)。于是解方程組歸結為解方程組: 為了具體求解,以左乘中第二式并將第一式代入得 用左乘式第一式并將第二式代入得 用左乘式得 用左乘式得 記則得說明既是又是的特征根,、就是其相應于和的特征向量。和的特征根有如下性質:(1)和有相同的非零特征根,且相等的非零特征根數(shù)目就等于。 (2)和的特征根非負。 (3)和的全部特征根均在0和1之間。我們用通常符號表示(其余個特征根為0),

7、并稱為典型相關系數(shù),相應的單位特征向量為和,從而可得對線性組合:;,;。稱每一對變量為典型變量,由此可見,求典型相關系數(shù)和典型變量歸結為求A、B的特征根和特征向量?,F(xiàn)在分別在兩組變量與中,作線性組合:,尋找、在滿足約束,條件下使達到最大。若極大值在,達到,我們稱,為第一對典型變量,其極大值稱為第一典型相關系數(shù)。如果第一對典型變量不足以代表原來兩組變量的信息,需要第二對典型變量:,自然要求、滿足條件:,且使達到最大。但僅僅這個要求還不夠,為了有效地反映兩組變量的相關信息,那么第一對典型變量已提取的信息,就不需要在第二對典型變量再出現(xiàn),也就是說第二對典型相關變量不應包括第一對典型變量的相關信息,用

8、數(shù)字語言表達即:Cov=CovCovCov第二對典型變量的最大值即第二對典型變量的相關系數(shù)為,依此類推,一般第對典型變量:,滿足如下約束條件:,其中、,、為前對典型變量的系數(shù),第對典型變量的最大值即對典型變量的相關系數(shù),它是(或)的第個特征根的正平方根。由上述分析不難看出,相關系數(shù)越大,說明相應的典型變量之間的關系越密切。因此一般在實用中忽略典型相關系數(shù)很小的那些典型變量,按的大小只取前個典型變量及典型相關系數(shù)進行分析。二、典型變量的性質1由中出現(xiàn)的一切典型變量都是不相關的,并且其方差為1,對于中出現(xiàn)的一切典型變量也是如此,即CovCov其中2與的同一對典型變量和之間的相關系數(shù)為,不同對的典型

9、變量和()之間不相關,也就是說協(xié)方差為0,即8.4 樣本的典型相關系數(shù)和典型變量當總體的均值向量和協(xié)差陣未知時,無法求總體的典型相關系數(shù)和典型變量,因而需要給出樣本的典型相關系數(shù)和典型變量。設為來自總體容量為的樣本,這時的最大似然估計是其中,用代替并求出和,稱為樣本典型相關系數(shù),稱為樣本的典型變量??梢宰C明,分別為總體典型相關系數(shù)和典型相關系數(shù)向量,的極大似然估計量。計算時也可從樣本的相關矩陣出發(fā)求樣本的典型相關系數(shù)和典型變量,將相關矩陣剖分為=其中 令則有將,代入上節(jié)(7)、(8)式可得:則分別為矩陣的相應于特征根的特征向量。從而可得到第對樣本的典型變量:,及典型相關系數(shù)。8.5 典型相關系

10、數(shù)的顯著性檢驗一、典型相關模型的基本假設和數(shù)據(jù)要求 兩組變量之間為線性關系,即每對典型變量之間為線性關系。(通過審閱簡單相關矩陣觀察?;蛘邫z驗所有觀測變量的分布是否偏態(tài))所有觀測變量為間距測度等級,同時實際取值的數(shù)據(jù)范圍較寬。各組內的觀測變量之間不能有高度的多重共線性。必須對得到的典型相關關系進行統(tǒng)計顯著性檢驗。二、典型相關分析的統(tǒng)計指標1典型相關系數(shù)(canonical correlation)如果第一個變量組含p1個變量,第二個變量組含p2個變量,那么,通過兩個組內相關矩陣和一個組間相關矩陣可以計算出min(p1,p2)個典型相關系數(shù)。Canonical Correlations1 .78

11、92 .054*2典型相關系數(shù)的平方 與簡單相關系數(shù)一樣,典型相關系數(shù)的意義并不十分明確。可以對其平方進行說明。則典型相關系數(shù)的平方的實際意義是一對典型變量之間的共享方差(shared variance)在兩個典型變量各自方差中的比例。例如,0.78920.622,即只占共享方差的62.2%。而0.05420.0029,即只占共享方差的0.29%。*3特征值其中,代表特征值,cv代表典型相關系數(shù),i代表維度序號。特征值可以理解為等價于各維度對觀測變量總方差代表作用的指標,的值越大說明代表作用越大。4檢驗典型相關系數(shù)*整體檢驗(overall test)同時檢驗所有的典型相關系數(shù),看是否有一個是

12、顯著的。維度遞減檢驗(dimension reduction test)Test that remaining correlations are zero: Wilks Chi-SQ DF Sig.1 .377 20.964 4.000 .0002 .997 .062 1.000 .8035典型系數(shù)(canonical coefficient) 粗典型系數(shù) Raw Canonical Coefficients for Set-1 1 2LONG1 -.057 -.140WIDTH1 -.071 .187 Raw Canonical Coefficients for Set-2 1 2LONG2

13、 -.050 -.176WIDTH2 -.080 .262標準化的典型系數(shù)Standardized Canonical Coefficients for Set-1 1 2 LONG1 -.552 -1.366WIDTH1 -.522 1.378U1=-0.552LONG1 - 0.522WIDTH1 U2=-1.366LONG1 + 1.378WIDTH1Standardized Canonical Coefficients for Set-2 1 2 LONG2 -.504 -1.769WIDTH2 -.538 1.759V1=-0.504LONG2 0.538WIDTH2 V2=-1.7

14、69LONG2 + 1.759WIDTH26.典型負載系數(shù)(canonical loading)也被稱為結構相關系數(shù)。是典型變量與本組的觀測變量之間的兩兩簡單相關系數(shù)。說明典型變量與本組的觀測變量之間回歸時測量的散點與回歸線之間的擬合程度。Canonical Loadings for Set-1 1 2 LONG1 -.935 -.354WIDTH1 -.927 .375Canonical Loadings for Set-2 1 2 LONG2 -.956 -.293WIDTH2 -.962 .2747.交叉負載系數(shù)(Cross Loadings)即一組中的典型變量與另外一組中的觀測變量(式

15、)之間的兩兩簡單相關。Cross Loadings for Set-1 1 2 LONG1 -.737 -.019WIDTH1 -.731 .020Cross Loadings for Set-2 1 2 LONG2 -.754 -.016WIDTH2 -.758 .015例如,-0.758就是第二組的變量WIDTH2與第一組的典型變量(式)之間的簡單相關系數(shù)。但是,一般人們都使用它們的平方形式。8變式對本組觀察變量總方差的代表比例Redundancy Analysis:Proportion of Variance of Set-1 Explained by Its Own Can. Var.

16、 Prop VarCV1-1 .867CV1-2 .133Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop VarCV2-1 .920CV2-2 .0809冗余指數(shù)是一組當中形成的典型變式對另一組觀測變量總方差的解釋比例。以一種組間交叉共享比例。這一比例在研究有因果關系的假設時非常重要。Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop VarCV2-1 .539CV2-2 .0000539(-0.737)2(-0.731)2

17、2Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop VarCV1-1 .572CV1-2 .000在作兩組變量的典型相關分析之前,首先應檢驗兩組變量是否相關,如果不相關,即Cov()=0,則討論兩組變量的典型相關就毫無意義。設總體的兩組變量,且。:Cov()=0檢驗統(tǒng)計量為:其中是的特征根,按大小次序排列為,當時,在成立下近似服從分布,這里,因此在給定檢驗水平之下,若由樣本算出臨界值,則否定,也就是說第一對典型變量具有相關性,其相關系數(shù)為,即至少可以認為第一個典型相關系數(shù)為顯著的。將它除去之后,再檢驗其余個

18、典型相關系數(shù)的顯著性,這時計算則統(tǒng)計量近似地服從個自由度分布,如果,則認為顯著,即第二對典型變量相關,以下逐個進行檢驗,直到某一個相關系數(shù)檢驗為不顯著時截止。這時我們就找出反映兩組變量相互關系的對典型變量。一般,檢驗第個典型相關系數(shù)的顯著性時,作統(tǒng)計量:它近似服從個自由度的分布。其中注:上述檢驗的統(tǒng)計量是用似然比方法在和成立下導出的統(tǒng)計量為,其中樣本離差陣 ,由于 ,所以 該統(tǒng)計量1936年Hotelling,1939年Girshik和1958年Anderson都給出過精確分布,但形式很復雜,又不易找到該分布的臨界值表,所以通常采用由Bartlett給出的在成立及大樣本情況下,它近似服從分布。

19、8.6 計算步驟及實例設取自態(tài)總體的樣本,每個樣品測量兩組指標,分別記為,原始資料矩陣為記,不妨設。第一步 計算相關系數(shù)陣將剖分為其中分別為第一組變量和第二組變量的相關系數(shù)陣,為第一組與第二組變量的相關系數(shù)。第二步 求典型相關系數(shù)及典型變量首先求的特征根,特征向量;的特征根,特征向量。寫出樣本的典型變量為 第三步 典型相關系數(shù)的顯著性檢驗例8-1 對某高中一年級男生38人進行體力測試(共有七項指標)及運動能力測試(共有五項指標),試對兩組指標作典型相關分析。體力測試指標:反復橫向跳(次),縱跳(cm),背力(kg),握力(kg),臺階試驗(指數(shù)),立定體前屈(cm),俯臥上體后仰(cm)。運動

20、能力測試的指標為:50米跑(秒),跳遠(cm),投球(m),引體向上(次),耐力跑(秒)。第一步 計算相關系數(shù)陣。第二步 求的特征值及相應的特征向量(因為比的階數(shù)低),從而得出典型相關系數(shù)和典型變量。第三步 典型相關系數(shù)的顯著性檢驗。檢驗:為此計算查個自由度的分布表得:顯然,故第一個典型相關系數(shù)為高度顯著,第一對典型變量是有價值的。檢驗:為此計算查個自由度的分布表得:因,故為顯著的典型相關系數(shù),第二對典型變量是有價值的。檢驗:為此計算查個自由度的分布表得:因,故為不顯著的典型相關系數(shù),第三對典型變量價值不大。因此,就不用檢驗了,顯然是不顯著的,因而第四對和第五對典型變量價值也不大。第四步 結果

21、分析根據(jù)上步的結果可知對原始兩組變量的研究可轉化為第一對及第二對典型變量的研究,通過它們之間相關性的研究來反映原始兩組變量之間的相關關系。注意到第二個變量組(即運動能力測試組)中的第一個變量與第五個變量和其它變量有差異,它們的值越小,說明運動能力越強,也就是說,跑的時間越少,運動能力越好。注意此點,可將第一、二典型變量加以解釋如下:第一對典型變量中,無論是第一組變量還是第二組變量,其測試結果越好的話,的數(shù)值也越大,所以可以解釋為它是表示全面能力程度,我們看到這兩組系數(shù)中只有及系數(shù)為負,而恰好這兩個變量取值意義和其它變量取值意義相反。第二對典型變量中,第一組變量內與的系數(shù)較大,第二組變量內的系數(shù)

22、較大,所以第二對典型變量可以解釋為局部能力(即下半身腿的能力)的程度,它顯示出跳的能力強或跑的能力強。INCLUDED應用程序spssCANONICAL CORRELATION.SPS.CANCORR SET1=long1 width1 /SET2=long2 width2.Run MATRIX procedure:Correlations for Set-1 LONG1 WIDTH1 LONG1 1.0000 .7346WIDTH1 .7346 1.0000Correlations for Set-2 LONG2 WIDTH2 LONG2 1.0000 .8393WIDTH2 .8393 1

23、.0000Correlations Between Set-1 and Set-2 LONG2 WIDTH2 LONG1 .7108 .7040WIDTH1 .6932 .7086Canonical Correlations1 .7892 .054Test that remaining correlations are zero: Wilks Chi-SQ DF Sig.1 .377 20.964 4.000 .0002 .997 .062 1.000 .803Standardized Canonical Coefficients for Set-1 1 2 LONG1 -.552 -1.366WIDTH1 -.522 1.378Raw Canonical Coefficients for Set-1 1 2 LONG1 -.057 -.140WIDTH1 -.071 .187_Standardized Canonical Coefficients for S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論