MBA統(tǒng)計學(xué)--典型相關(guān)分析課件_第1頁
MBA統(tǒng)計學(xué)--典型相關(guān)分析課件_第2頁
MBA統(tǒng)計學(xué)--典型相關(guān)分析課件_第3頁
MBA統(tǒng)計學(xué)--典型相關(guān)分析課件_第4頁
MBA統(tǒng)計學(xué)--典型相關(guān)分析課件_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、統(tǒng)計學(xué)從數(shù)據(jù)到結(jié)論第十三章 典型相關(guān)分析13.1兩組變量的相關(guān)問題兩組變量的相關(guān)問題 l我們知道如何衡量兩個變量之間是我們知道如何衡量兩個變量之間是否相關(guān)的問題;這是一個簡單的公否相關(guān)的問題;這是一個簡單的公式就可以解決的問題式就可以解決的問題(Pearson相關(guān)相關(guān)系數(shù)、系數(shù)、 Kendalls t t、 Spearman 秩相關(guān)系數(shù)秩相關(guān)系數(shù))。公式公式l如果我們有兩組變量,如何能夠表如果我們有兩組變量,如何能夠表明它們之間的關(guān)系呢?明它們之間的關(guān)系呢? 例子(數(shù)據(jù)例子(數(shù)據(jù)tv.txt) l業(yè)內(nèi)人士和觀眾對于一些電視節(jié)目的觀點業(yè)內(nèi)人士和觀眾對于一些電視節(jié)目的觀點有什么樣的關(guān)系呢?有什么樣

2、的關(guān)系呢?該數(shù)據(jù)該數(shù)據(jù)是不同的人群是不同的人群對對30個電視節(jié)目所作的平均評分。個電視節(jié)目所作的平均評分。l觀眾評分來自低學(xué)歷觀眾評分來自低學(xué)歷(led)、高學(xué)歷高學(xué)歷(hed)和和網(wǎng)絡(luò)網(wǎng)絡(luò)(net)調(diào)查三種調(diào)查三種,它們形成它們形成第一組變量第一組變量;l而業(yè)內(nèi)人士分評分來自包括演員和導(dǎo)演在而業(yè)內(nèi)人士分評分來自包括演員和導(dǎo)演在內(nèi)的藝術(shù)家內(nèi)的藝術(shù)家(arti)、發(fā)行發(fā)行(com)與業(yè)內(nèi)各部與業(yè)內(nèi)各部門主管門主管(man)三種,形成三種,形成第二組變量第二組變量。人們。人們對這樣兩組變量之間的關(guān)系感到興趣。對這樣兩組變量之間的關(guān)系感到興趣。 尋找代表尋找代表 l如直接對這六個變量的相關(guān)進行兩兩如

3、直接對這六個變量的相關(guān)進行兩兩分析,很難得到關(guān)于這兩組變量之間分析,很難得到關(guān)于這兩組變量之間關(guān)系的一個清楚的印象。關(guān)系的一個清楚的印象。l希望能夠把多個變量與多個變量之間希望能夠把多個變量與多個變量之間的相關(guān)化為的相關(guān)化為兩個兩個變量之間的相關(guān)。變量之間的相關(guān)。l現(xiàn)在的問題是為每一組變量現(xiàn)在的問題是為每一組變量選取一個選取一個綜合變量作為代表綜合變量作為代表;l而一組變量最簡單的綜合形式就是該而一組變量最簡單的綜合形式就是該組變量的組變量的線性組合線性組合。13.2 典型相關(guān)分析典型相關(guān)分析l由于一組變量可以有無數(shù)種線性組合由于一組變量可以有無數(shù)種線性組合(線性組合由相應(yīng)的系數(shù)確定),因(線

4、性組合由相應(yīng)的系數(shù)確定),因此必須找到此必須找到既有意義又可以確定的線既有意義又可以確定的線性組合。性組合。l典型相關(guān)分析典型相關(guān)分析(canonical correlation analysis)就是要找到這兩組變量線性就是要找到這兩組變量線性組合的系數(shù)使得這兩個由線性組合生組合的系數(shù)使得這兩個由線性組合生成的變量(和其他線性組合相比)之成的變量(和其他線性組合相比)之間的間的相關(guān)系數(shù)最大。相關(guān)系數(shù)最大。 典型變量典型變量l假定兩組變量為假定兩組變量為X1,X2,Xp和和Y1,Y2,Yq,那那么,問題就在于要尋找系數(shù)么,問題就在于要尋找系數(shù)a1,a2,ap和和b1,b2,bq,和使得新的綜合

5、變量(亦稱為典和使得新的綜合變量(亦稱為典型變量型變量(canonical variable))11221 122ppqqVa Xa Xa XWbYb Yb Y 之間的相關(guān)關(guān)系最大。這種相關(guān)關(guān)系是用典之間的相關(guān)關(guān)系最大。這種相關(guān)關(guān)系是用典型相關(guān)系數(shù)(型相關(guān)系數(shù)(canonical correlation coefficient)來衡量的。來衡量的。 典型相關(guān)系數(shù)典型相關(guān)系數(shù) l這里所涉及的主要的數(shù)學(xué)工具還是這里所涉及的主要的數(shù)學(xué)工具還是矩陣的特征值和特征向量問題。而矩陣的特征值和特征向量問題。而所得的特征值與所得的特征值與V和和W的典型相關(guān)的典型相關(guān)系數(shù)有直接聯(lián)系。系數(shù)有直接聯(lián)系。l由于特征值

6、問題的特點,實際上找由于特征值問題的特點,實際上找到的是多組典型變量到的是多組典型變量(V1, W1), (V2, W2),,其中其中V1和和W1最相關(guān),而最相關(guān),而V2和和W2次之等等,次之等等,典型相關(guān)系數(shù)典型相關(guān)系數(shù) l而且而且V1, V2, V3,之間及而且之間及而且W1, W2, W3,之間互不相關(guān)。這樣又出現(xiàn)了選之間互不相關(guān)。這樣又出現(xiàn)了選擇多少組典型變量擇多少組典型變量(V, W)的問題了。實的問題了。實際上,只要選擇特征值累積總貢獻占際上,只要選擇特征值累積總貢獻占主要部分的那些即可。主要部分的那些即可。l軟件還會輸出一些檢驗結(jié)果;于是只軟件還會輸出一些檢驗結(jié)果;于是只要選擇顯

7、著的那些要選擇顯著的那些(V, W)。l對實際問題,還要看選取的對實際問題,還要看選取的(V, W)是否是否有意義,是否能夠說明問題才行。至有意義,是否能夠說明問題才行。至于得到于得到(V, W)的計算,則很簡單,下面的計算,則很簡單,下面就就tv.txt數(shù)據(jù)進行分析。數(shù)據(jù)進行分析。數(shù)學(xué)原理?數(shù)學(xué)原理?計算結(jié)果計算結(jié)果 l第一個表為判斷這兩組變量相關(guān)性的若干檢第一個表為判斷這兩組變量相關(guān)性的若干檢驗,包括驗,包括Pillai跡檢驗,跡檢驗,Hotelling-Lawley跡跡檢驗,檢驗,Wilks l l檢驗和檢驗和Roy的最大根檢驗;它的最大根檢驗;它們都是有兩個自由度的們都是有兩個自由度的

8、F檢驗。該表給出了每檢驗。該表給出了每個檢驗的個檢驗的F值,兩個自由度和值,兩個自由度和p值(均為值(均為0.000)。)。計算結(jié)果計算結(jié)果 l下面一個表給出了特征根下面一個表給出了特征根(Eigenvalue),特征根所特征根所占的百分比占的百分比(Pct)和累積百分比和累積百分比(Cum. Pct)和典型相和典型相關(guān)系數(shù)關(guān)系數(shù)(Canon Cor)及其平方及其平方(Sq. Cor)。看來,頭看來,頭兩對典型變量兩對典型變量(V, W)的累積特征根已經(jīng)占了總量的的累積特征根已經(jīng)占了總量的99.427%。它們的典型相關(guān)系數(shù)也都在。它們的典型相關(guān)系數(shù)也都在0.95之上。之上。 計算結(jié)果計算結(jié)果

9、l對于眾多的計算機輸出挑出一些來介紹。下面表對于眾多的計算機輸出挑出一些來介紹。下面表格給出的是第一組變量相應(yīng)于上面三個特征根的格給出的是第一組變量相應(yīng)于上面三個特征根的三個典型變量三個典型變量V1、V2和和V3的系數(shù),即典型系數(shù)的系數(shù),即典型系數(shù)(canonical coefficient)。注意,注意,SPSS把第一把第一組變量稱為因變量組變量稱為因變量(dependent variables),而而把第二組稱為協(xié)變量把第二組稱為協(xié)變量(covariates);顯然,這兩顯然,這兩組變量是完全對稱的。這種命名僅僅是為了敘述組變量是完全對稱的。這種命名僅僅是為了敘述方便。方便。l這些系數(shù)以兩

10、種方式給出;一種是沒有標準化的這些系數(shù)以兩種方式給出;一種是沒有標準化的原始變量的線性組合的典型系數(shù)原始變量的線性組合的典型系數(shù)(raw canonical coefficient),一種是一種是標準化標準化之后的典型系數(shù)之后的典型系數(shù)(standardized canonical coefficient)。標準化標準化的典型系數(shù)直觀上對典型變量的構(gòu)成給人以更加的典型系數(shù)直觀上對典型變量的構(gòu)成給人以更加清楚的印象。清楚的印象。可以看出,頭一個典型變量可以看出,頭一個典型變量V1相應(yīng)于前相應(yīng)于前面第一個(也是最重要的)特征值,主面第一個(也是最重要的)特征值,主要代表高學(xué)歷變量要代表高學(xué)歷變量h

11、ed;而相應(yīng)于前面而相應(yīng)于前面第二個(次要的)特征值的第二個典型第二個(次要的)特征值的第二個典型變量變量V2主要代表低學(xué)歷變量主要代表低學(xué)歷變量led和部分的和部分的網(wǎng)民變量網(wǎng)民變量net,但高學(xué)歷變量在這里起負但高學(xué)歷變量在這里起負面作用。面作用。 計算結(jié)果計算結(jié)果 l類似地,也可以得到被稱為協(xié)變量類似地,也可以得到被稱為協(xié)變量(covariate)的標準化的第二組變量的相應(yīng)于頭三個特征的標準化的第二組變量的相應(yīng)于頭三個特征值得三個典型變量值得三個典型變量W1、W2和和W2的系數(shù):的系數(shù): 。例子結(jié)論例子結(jié)論 l從這兩個表中可以看出,從這兩個表中可以看出,V1主要和變量主要和變量hed相相

12、關(guān),關(guān),而而V2主要和主要和led及及net相關(guān);相關(guān);W1主要和變主要和變量量arti及及man相關(guān),相關(guān),而而W2主要和主要和com相關(guān);相關(guān);這和它們的典型系數(shù)是一致的。這和它們的典型系數(shù)是一致的。l由于由于V1和和W1最相關(guān),這說明最相關(guān),這說明V1所代表的高學(xué)所代表的高學(xué)歷觀眾和歷觀眾和W1所主要代表的藝術(shù)家所主要代表的藝術(shù)家(arti)及各部及各部門經(jīng)理門經(jīng)理(man)觀點相關(guān);而由于觀點相關(guān);而由于V2和和W2也相也相關(guān),這說明關(guān),這說明V2所代表的低學(xué)歷所代表的低學(xué)歷(led)及以年輕及以年輕人為主的網(wǎng)民人為主的網(wǎng)民(net)觀眾和觀眾和W2所主要代表的看所主要代表的看重經(jīng)濟效

13、益的發(fā)行人重經(jīng)濟效益的發(fā)行人(com)觀點相關(guān),但遠遠觀點相關(guān),但遠遠不如不如V1和和W1的相關(guān)那么顯著(根據(jù)特征值的的相關(guān)那么顯著(根據(jù)特征值的貢獻率)。貢獻率)。 SPSS的的實現(xiàn)實現(xiàn)l對例對例tv.sav,首先打開例首先打開例14.1的的SPSS數(shù)據(jù)數(shù)據(jù)tv.sav,l通過通過FileNewSyntax打開一個空白文件(默打開一個空白文件(默認文件名為認文件名為Syntax1.sps),),再在其中鍵入下面再在其中鍵入下面命令行:命令行:lMANOVA led hed net WITH arti com manl/DISCRIM ALL ALPHA(1) l/PRINT=SIG(EIGE

14、N DIM).l再點擊一個向右的三角形圖標再點擊一個向右的三角形圖標(運行目前程序,運行目前程序,Run current),就可以得到所需結(jié)果了。就可以得到所需結(jié)果了。l還可以把還可以把Syntax1.sps另以其他名字(比如另以其他名字(比如tv.sps)存入一個文件夾。下次使用時就可以通存入一個文件夾。下次使用時就可以通過過FileOpenSyntax來打開這個文件了。來打開這個文件了。SPSS的的實現(xiàn)實現(xiàn)l注意注意1:典型相關(guān)分析是本書內(nèi)容中唯:典型相關(guān)分析是本書內(nèi)容中唯一不能用一不能用SPSS的點擊鼠標的的點擊鼠標的“傻瓜傻瓜”方式,而必須用寫入程序行來運行的方式,而必須用寫入程序行來

15、運行的模型。讀者不必要再去研究語法的細模型。讀者不必要再去研究語法的細節(jié),只要能夠舉一反三,套用這個例節(jié),只要能夠舉一反三,套用這個例子的程序即可。子的程序即可。l當然,如果讀者愿意學(xué)習(xí)當然,如果讀者愿意學(xué)習(xí)SPSS的語法,的語法,則在處理數(shù)據(jù)時,肯定會更方便。則在處理數(shù)據(jù)時,肯定會更方便。SPSS的的實現(xiàn)實現(xiàn)l注意注意2:一些:一些SPSS的輸出很長,這時輸出的輸出很長,這時輸出窗口截去了一些內(nèi)容沒有顯示(這有些隨窗口截去了一些內(nèi)容沒有顯示(這有些隨意性)。這時輸出窗口意性)。這時輸出窗口(SPSS Viewer)中中結(jié)果的左下角有一個紅色的三角型。結(jié)果的左下角有一個紅色的三角型。l如果想要

16、看全部內(nèi)容,可以先點擊鼠標左如果想要看全部內(nèi)容,可以先點擊鼠標左鍵,選中輸出結(jié)果,然后從點右鍵得到的鍵,選中輸出結(jié)果,然后從點右鍵得到的菜單中選擇菜單中選擇Export,就可以把全部結(jié)果就可以把全部結(jié)果(包括截去的部分)存入一個(包括截去的部分)存入一個htm形式的形式的文件了供研究和打印之用。文件了供研究和打印之用。附錄附錄 兩個變量時兩個變量時,用線性相關(guān)系數(shù)用線性相關(guān)系數(shù)研究兩研究兩個變量之間的線性相關(guān)性個變量之間的線性相關(guān)性:22(, )(, )()( )()()()()iiixyiiiiCov X YCorr X YVar X Var Yxxyyrxxyy返回返回典型相關(guān)分析典型相關(guān)

17、分析l目的目的:研究多個變量之間的相關(guān)性研究多個變量之間的相關(guān)性l方法方法:利用主成分思想利用主成分思想,可以把多個可以把多個變量與多個變量之間的相關(guān)化為兩變量與多個變量之間的相關(guān)化為兩個變量之間的相關(guān)個變量之間的相關(guān). 即找一組系數(shù)即找一組系數(shù)(向量向量)l和和m, 使新變量使新變量U=lX(1)和和V=mX(2)有最大可能的相關(guān)關(guān)系有最大可能的相關(guān)關(guān)系.數(shù)學(xué)數(shù)學(xué): 設(shè)兩組隨機變量設(shè)兩組隨機變量而而(1)(2)XXX1112(1)(2)111212(,.,),(,.,),ppppXXXXXXppp pp的協(xié)方差陣的協(xié)方差陣S S0,均值向量均值向量m m=0, S S的剖分為的剖分為:111

18、22122SSS SS對于前面的新變量對于前面的新變量U=lX(1)和和V=mX(2)Var(U)=Var(lX(1) )=lS S11lVar(V)=Var(mX(2) )=mS S22mCov(U,V)=lS S12m, r rUV=lS S12m/(lS S11l)(mS S22m) 我們試圖在約束條件我們試圖在約束條件Var(U)=1, Var(V)=1下下尋求尋求l和和m使使r rUV= Cov(U,V)=lS S12m達到最大達到最大.這是這是Lagrange乘數(shù)法求下面乘數(shù)法求下面f f的極大值的極大值經(jīng)過求偏導(dǎo)數(shù)和解方程經(jīng)過求偏導(dǎo)數(shù)和解方程, , 得到得到lnln=lS S12

19、m=Cov(U,V), 及及2211111112222122211112,(,)All BmmABll S S S S S S S S121122( 1)(1)22lmllmmlnfSSS因此因此l l2 2既是既是A又是又是B的特征值的特征值, 而相應(yīng)的特征而相應(yīng)的特征向量為向量為l,m可可得到得到p1對線性組合對線性組合Ui=l(i)X(1), Vi=m(i)X(2),稱每一對變量為稱每一對變量為典型變量典型變量. 其極大值其極大值稱為稱為第一典型相關(guān)系數(shù)第一典型相關(guān)系數(shù). 一般只取前幾個影響一般只取前幾個影響大的典型變量和典型相關(guān)系數(shù)來分析大的典型變量和典型相關(guān)系數(shù)來分析.111()()

20、222(1)(1)120;,;,pppllmmlllA和和B的特征根有如下性質(zhì)的特征根有如下性質(zhì): (1)A和和B有相同有相同的非零特征根的非零特征根, (2)其數(shù)目為其數(shù)目為p1. A和和B的特征的特征根非負根非負. (3) A和和B的特征根均在的特征根均在0和和1之間之間. 我們表示這些稱為我們表示這些稱為典型相關(guān)系數(shù)典型相關(guān)系數(shù)的非零特的非零特征值和相應(yīng)的特征向量為征值和相應(yīng)的特征向量為1 11U Vrl典型變量的性質(zhì)典型變量的性質(zhì): (1)X(1)和和X(2)中的一切典型變量都不相關(guān)中的一切典型變量都不相關(guān). (2) X(1)和和X(2)的同一對典型變量的同一對典型變量Ui和和Vi之間的之間的相關(guān)系數(shù)為相關(guān)系數(shù)為l li, 不同對的不同對的Ui和和Vj(ij)之間不之間不相關(guān)相關(guān). 樣本情況樣本情況, 只要把只要把S S用樣本協(xié)差陣或樣本相關(guān)陣用樣本協(xié)差陣或樣本相關(guān)陣R代替代替.下面回到我們的例子。下面回到我們的例子。典型相關(guān)系數(shù)的顯著性檢驗典型相關(guān)系數(shù)的顯著性檢驗: 首先看首先看X(1)和和X(2)是否相關(guān)是否相關(guān),如不相關(guān)如不相關(guān), 就不必討論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論