多元課件第九章_第1頁
多元課件第九章_第2頁
多元課件第九章_第3頁
多元課件第九章_第4頁
多元課件第九章_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

多元課件第九章第一頁,共三十四頁,2022年,8月28日1第九章對應(yīng)分析

對應(yīng)分析又稱相應(yīng)分析,于1970年由法國統(tǒng)計學(xué)家提出的.它是在R型和Q型因子分析基礎(chǔ)上發(fā)展起來的多元統(tǒng)計分析方法,故也稱為R-Q型因子分析.

因子分析方法是用少數(shù)幾個公共因子去提取研究對象的絕大部分信息,既減少了因子的數(shù)目,又把握住了研究對象的相互關(guān)系.在因子分析中根據(jù)研究對象的不同,分為R型和Q型,如果研究變量間的相互關(guān)系時采用R型因子分析;如果研究樣品間相互關(guān)系時采用Q型因子分析.第二頁,共三十四頁,2022年,8月28日2第九章對應(yīng)分析

無論是R型或Q型都未能很好地揭示變量和樣品間的雙重關(guān)系.

另方面在處理實際問題中,樣本的大小經(jīng)常是比變量個數(shù)多得多.當(dāng)樣品個數(shù)n很大(如n>100),進行Q型因子分析時,計算n階方陣的特征值和特征向量對于微型計算機的容量和速度都是難以勝任的.

還有進行數(shù)據(jù)處理時,為了將數(shù)量級相差很大的變量進行比較,常常先對變量作標(biāo)準(zhǔn)化處理,然而這種標(biāo)準(zhǔn)化處理對于變量和樣品是非對等的,這給尋找R型和Q型之間的聯(lián)系帶來一定的困難.第三頁,共三十四頁,2022年,8月28日3第九章什么是對應(yīng)分析

對應(yīng)分析方法是在因子分析的基礎(chǔ)上發(fā)展起來的,它對原始數(shù)據(jù)采用適當(dāng)?shù)臉?biāo)度方法.把R型和Q型分析結(jié)合起來,同時得到兩方面的結(jié)果---在同一因子平面上對變量和樣品一塊進行分類,從而揭示所研究的樣品和變量間的內(nèi)在聯(lián)系.

對應(yīng)分析由R型因子分析的結(jié)果,可以很容易地得到Q型因子分析的結(jié)果,這不僅克服樣品量大時作Q型因子分析所帶來計算上的困難,且把R型和Q型因子分析統(tǒng)一起來,把樣品點和變量點同時反映到相同的因子軸上,這就便于我們對研究的對象進行解釋和推斷.第四頁,共三十四頁,2022年,8月28日4第九章對應(yīng)分析的基本思想

由于R型因子分析和Q型分析都是反映一個整體的不同側(cè)面,因而它們之間一定存在內(nèi)在的聯(lián)系.對應(yīng)分析就是通過一個變換后的過渡矩陣Z將二者有機地結(jié)合起來.

具體地說,首先給出變量間的協(xié)差陣SR=Z'Z和樣品間的協(xié)差陣SQ=ZZ',由于Z'Z和ZZ'有相同的非零特征根,記為λ1≥λ2≥…≥λm,如果SR的特征根λi對應(yīng)的特征向量為vi,則SQ的特征根λi對應(yīng)的特征向量ui=Zvi/.由此可以很方便地由R型因子分析而得到Q型因子分析的結(jié)果.第五頁,共三十四頁,2022年,8月28日5第九章對應(yīng)分析的基本思想

由A的特征根和特征向量即可寫出R型因子分析的因子載荷陣(記為AR)和Q型因子分析的因子載荷陣(記為AQ).vp1ARvp2vpm第六頁,共三十四頁,2022年,8月28日6第九章§9.1什么是對應(yīng)分析

基本思想

由于A和B具有相同的非零特征根,而這些特征根又正是各個公共因子的方差,因此可以用相同的因子軸同時表示變量點和樣品點,即把變量點和樣品點同時反映在具有相同坐標(biāo)軸的因子平面上,以便對變量點和樣品點一起考慮進行分類.AQun1un2unm第七頁,共三十四頁,2022年,8月28日7第十章典型相關(guān)分析

相關(guān)分析是研究多個變量與多個變量之間的相關(guān)關(guān)系.如研究兩個隨機變量之間的相關(guān)關(guān)系可用簡單相關(guān)系數(shù)表示;研究一個隨機變量與多個隨機變量之間的相關(guān)關(guān)系可用全相關(guān)系數(shù)表示.1936年Hotelling首先將相關(guān)分析推廣到研究多個隨機變量與多個隨機變量之間的相關(guān)關(guān)系,故而產(chǎn)生了典型相關(guān)分析,廣義相關(guān)系數(shù)等一些有用的方法.第八頁,共三十四頁,2022年,8月28日8第十章

什么是典型相關(guān)分析

在實際問題中,經(jīng)常遇到要研究一部分變量和另一部分變量之間的相關(guān)關(guān)系,例如:

在工業(yè)中,考察原料的主要質(zhì)量指標(biāo)(X1,...,Xp)與產(chǎn)品的主要質(zhì)量指標(biāo)(Y1,...,Yq)間的相關(guān)性;

在經(jīng)濟學(xué)中,研究主要肉類的價格與銷售量之間的相關(guān)性;

在地質(zhì)學(xué)中,為研究巖石形成的成因關(guān)系,考察巖石的化學(xué)成份與其周圍圍巖化學(xué)成份的相關(guān)性;

在氣象學(xué)中為分析預(yù)報24小時后天氣的可靠程度,研究當(dāng)天和前一天氣象因子間的相關(guān)關(guān)系;第九頁,共三十四頁,2022年,8月28日9第十章什么是典型相關(guān)分析在教育學(xué)中,研究學(xué)生在高考的各科成績與高二年級各主科成績間的相關(guān)關(guān)系;

在婚姻的研究中,考察小伙子對追求姑娘的主要指標(biāo)與姑娘想往的小伙子的主要尺度之間的相關(guān)關(guān)系;

在醫(yī)學(xué)中,研究患某種疾病病人的各種癥狀程度與用科學(xué)方法檢查的一些結(jié)果之間的相關(guān)關(guān)系;

在體育學(xué)中,研究運動員的體力測試指標(biāo)與運動能力指標(biāo)之間的相關(guān)關(guān)系等.第十頁,共三十四頁,2022年,8月28日10第十章什么是典型相關(guān)分析一般地,假設(shè)有一組變量X1,...,Xp與另一組變量Y1,...,Yq(也可以記為Xp+1,...,Xp+q),我們要研究這兩組變量的相關(guān)關(guān)系,如何給兩組變量之間的相關(guān)性以數(shù)量的描述,這就是本章研究的典型相關(guān)分析.

當(dāng)p=q=1時,就是研究兩個變量X與Y之間的相關(guān)關(guān)系.簡單相關(guān)系數(shù)是最常見的度量.其定義為第十一頁,共三十四頁,2022年,8月28日11第十章什么是典型相關(guān)分析當(dāng)p≥1,q=1時(或q

≥1,p=1)設(shè)則稱為Y與(X1,…,Xp)的全相關(guān)系數(shù).其實Y對X的回歸為且,并稱R為全相關(guān)系數(shù).def

=第十二頁,共三十四頁,2022年,8月28日12第十章什么是典型相關(guān)分析當(dāng)p,q>1時,利用主成分分析的思想,可以把多個變量與多個變量之間的相關(guān)化為兩個新變量之間的相關(guān).

也就是求=(1,…,p)和

=(1,…,q),使得新變量:V=1X1+…+pXp=X

W=1Y1+…+qYq=Y之間有最大可能的相關(guān),基于這個思想就產(chǎn)生了典型相關(guān)分析(Canonicalcorrelatinalanalysis).第十三頁,共三十四頁,2022年,8月28日13第十章總體典型相關(guān)設(shè)X=(X1,...,Xp)及Y=(Y1,...,Yq)為隨機向量(不妨設(shè)p≤q),記隨機向量Z=XYZ的協(xié)差陣為其中Σ11是X的協(xié)差陣,Σ22是Y的協(xié)差陣,Σ12=Σ’21是X,Y的協(xié)差陣.第十四頁,共三十四頁,2022年,8月28日14第十章總體典型相關(guān)我們用X和Y的線性組合V=aX和W=bY之間的相關(guān)來研究X和Y之間的相關(guān).我們希望找到a和b,使ρ(V,W)最大.由相關(guān)系數(shù)的定義:又已知第十五頁,共三十四頁,2022年,8月28日15第十章總體典型相關(guān)故有對任給常數(shù)c1,c2,d1,d2,顯然有

ρ(c1V+d1,c2W+d2)=ρ(V,W)即使得相關(guān)系數(shù)最大的V=aX和W=bX并不唯一.故加附加約束條件Var(V)=aΣ11

a=1,Var(W)=bΣ22

b=1.問題化為在約束條件Var(V)=1,Var(W)=1下,求a和b,使得ρ(V,W)=aΣ12

b達最大

.第十六頁,共三十四頁,2022年,8月28日16第十章樣本典型相關(guān)

設(shè)總體Z=(X1,...,Xp,Y1,…,Yq)’.在實際問題中,總體的均值E(Z)=和協(xié)差陣D(Z)=

通常是未知的,因而無法求得總體的典型相關(guān)變量和典型相關(guān)系數(shù).

首先需要根據(jù)觀測到的樣本資料陣對其進行估計.

已知總體Z的n個樣品:第十七頁,共三十四頁,2022年,8月28日17第十章樣本典型相關(guān)

樣本資料陣為x11x12…

x1p

y11y12…y1qx21x22…

x2p

y21y22…y2q……..xn1xn2…

xnp

yn1yn2…ynq若假定Z~N(,),則協(xié)差陣的最大似然估計為

Z’(1)

Z’(2)=...

Z’(n)def

=*第十八頁,共三十四頁,2022年,8月28日18第十章樣本典型相關(guān)

我們從協(xié)差陣的最大似然估計S*(或樣本協(xié)差陣S)出發(fā),按上節(jié)的方法可以導(dǎo)出樣本典型相關(guān)變量和樣本典型相關(guān)系數(shù).還可以證明樣本典型相關(guān)變量和樣本典型相關(guān)系數(shù)是總體典型相關(guān)變量和樣本典型相關(guān)系數(shù)的極大似然估計.

也可以從樣本相關(guān)陣R出發(fā)來導(dǎo)出樣本典型相關(guān)變量和樣本典型相關(guān)系數(shù).第十九頁,共三十四頁,2022年,8月28日19第十章

樣本典型相關(guān)

典型相關(guān)系數(shù)的顯著性檢驗

總體Z的兩組變量X=(X1,...,Xp)’和Y=(Y1,…,Yq)’如果不相關(guān),即COV(X,Y)=12=0,以上有關(guān)兩組變量典型相關(guān)的討論就毫無意義.故在討論兩組變量間相關(guān)關(guān)系之前,應(yīng)首先對以下假設(shè)H0作統(tǒng)計檢驗.(1)檢驗H0:12=0(即1=0)設(shè)總體Z~Np+q(,).用似然比方法可導(dǎo)出檢驗H0的似然比統(tǒng)計量為(A,A11,A22為離差陣)第二十頁,共三十四頁,2022年,8月28日20第十章

樣本典型相關(guān)

典型相關(guān)系數(shù)的顯著性檢驗

(2)檢驗H0(i):

i=0

(i=2,...,p)

當(dāng)否定H0時,表明X,Y相關(guān),進而可得出至少第一個典型相關(guān)系數(shù)1≠0.相應(yīng)的第一對典型相關(guān)變量V1,W1可能已經(jīng)提取了兩組變量相關(guān)關(guān)系的絕大部分信息.第二十一頁,共三十四頁,2022年,8月28日21

在實際問題中,經(jīng)常迂到需要研究兩組多重相關(guān)變量間的相互依賴關(guān)系,并研究用一組變量(常稱為自變量或預(yù)測變量)去預(yù)測另一組變量(常稱為因變量或響應(yīng)變量),除了最小二乘準(zhǔn)則下的經(jīng)典多元線性回歸分析(MLR),提取自變量組主成分的主成分回歸分析(PCR)等方法外,還有近年發(fā)展起來的偏最小二乘(PLS)回歸方法.第十一章什么是偏最小二乘回歸第二十二頁,共三十四頁,2022年,8月28日22偏最小二乘回歸提供一種多對多線性回歸建模的方法,特別當(dāng)兩組變量的個數(shù)很多,且都存在多重相關(guān)性,而觀測數(shù)據(jù)的數(shù)量(樣本量)又較少時,用偏最小二乘回歸建立的模型具有傳統(tǒng)的經(jīng)典回歸分析等方法所沒有的優(yōu)點。

偏最小二乘回歸分析在建模過程中集中了主成分分析,典型相關(guān)分析和線性回歸分析方法的特點,因此在分析結(jié)果中,除了可以提供一個更為合理的回歸模型外,還可以同時完成一些類似于主成分分析和典型相關(guān)分析的研究內(nèi)容,提供更豐富、深入的一些信息。第十一章什么是偏最小二乘回歸第二十三頁,共三十四頁,2022年,8月28日23

本章結(jié)合SAS/STAT軟件中用于完成偏最小二乘回歸的PLS過程,介紹偏最小二乘回歸分析的建模方法;并通過例子從預(yù)測角度對所建立的回歸模型進行比較。第十一章什么是偏最小二乘回歸第二十四頁,共三十四頁,2022年,8月28日24

考慮p個因變量Y1,…,Yp與m個自變量X1,…,Xm的建模問題。

偏最小二乘回歸的基本作法是首先在自變量集中提取第一成分T1(T1是X1,…,Xm的線性組合,且盡可能多地提取原自變量集中的變異信息);

同時在因變量集中也提取第一成分U1,并要求T1與U1相關(guān)程度達最大。然后建立因變量Y1,…,Yp與T1的回歸,如果回歸方程已達到滿意的精度,則算法終止。第十一章

偏最小二乘回歸分析第二十五頁,共三十四頁,2022年,8月28日25第十一章什么是偏最小二乘回歸

否則繼續(xù)第二對成分的提取,直到能達到滿意的精度為止。

若最終對自變量集提取r個成分T1,T2,…,Tr,偏最小二乘回歸將通過建立Y1,…,Yp與T1,T2,…,Tr的回歸式,然后再表示為Y1,…,Yp與原自變量的回歸方程式,即偏最小二乘回歸方程式.第二十六頁,共三十四頁,2022年,8月28日26

假定p個因變量Y1,…,Yp與m個自變量X1,…,Xm

均為標(biāo)準(zhǔn)化變量。因變量組和自變量組的n次標(biāo)準(zhǔn)化觀測數(shù)據(jù)陣分別記為:第十一章偏最小二乘回歸分析Y0=y11…y1p………yn1…

ynpX0=x11…x1m………xn1…

xnmnpnm第二十七頁,共三十四頁,2022年,8月28日27偏最小二乘回歸分析建模的具體步驟如下:(1)分別提取兩變量組的第一對成分T1和U1,并使之相關(guān)性達最大。為了回歸分析的需要,要求:①T1和U1各自盡可能多地提取所在變量組的變異信息;②T1和U1的相關(guān)程度達到最大。

(2)建立Y1,…,Yp對T1的回歸及X1,…,Xm

對T1的回歸,得:

第十一章偏最小二乘回歸分析第二十八頁,共三十四頁,2022年,8月28日28第十一章偏最小二乘回歸分析

(3)用殘差陣E1和F1代替X0和Y0重復(fù)以上步驟.

如果殘差陣F1中元素的絕對值近似為0,則認(rèn)為用第一個成分建立的回歸式精度已滿足需要了,可以停止抽取成分.否則用殘差陣E1和F1代替X0和Y0重復(fù)以上步驟.第二十九頁,共三十四頁,2022年,8月28日29

第十一章偏最小二乘回歸分析即得p個標(biāo)準(zhǔn)化因變量的偏最小二乘回歸方程然后再還原為原始變量的偏最小二乘回歸方程:

(4)設(shè)n×m數(shù)據(jù)陣X0的秩為r≤min(n-1,m),則存在r個成分t1,t2,…,tr,并建立Yj*與t1,t2,…,tr的回歸式:第三十頁,共三十四頁,2022年,8月28日30

第十一章偏最小二乘回歸分析

(5)確定抽取成分的個數(shù)l.

一般情況下,偏最小二乘回歸并不需要選用存在的所有r個成分t1,t2,…,tr來建立回歸式,而像主成分分析一樣,只選用前k個成分(k≤r

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論