偏最小二乘回歸分析_第1頁(yè)
偏最小二乘回歸分析_第2頁(yè)
偏最小二乘回歸分析_第3頁(yè)
偏最小二乘回歸分析_第4頁(yè)
偏最小二乘回歸分析_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

偏最小二乘回歸分析偏最小二乘回歸法是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,它主要研究的是多因變量對(duì)多自變量的回歸建模,特別當(dāng)各變量?jī)?nèi)部高度線性相關(guān)時(shí),用偏最小二乘回歸法更有效。另外,偏最小二乘回歸較好地解決了樣本個(gè)數(shù)少于變量個(gè)數(shù)等問(wèn)題。考慮p個(gè)因變量Y,Y,…,Y與m個(gè)自變量x,x,…,x的建模問(wèn)題。偏最小二1 2p 1 2m乘回歸的基本作法是首先在自變量集中提出第一成分u(u是x,x,…,x的線性1 1 1 2m組合,且盡可能多地提取原自變量集中的變異信息);同時(shí)在因變量集中也提取第一成分v,并要求u與v相關(guān)程度達(dá)到大。然后建立因變量Y,Y,…,Y與U的1 1 1 1 2 p1回歸,如果回歸方程已達(dá)到滿意的精度,則算法中止。否則繼續(xù)第二對(duì)成分的提取,直到能達(dá)到滿意的精度為止。若終對(duì)自變量集提取r個(gè)成分u,u,…,u,偏12r小二乘回歸將通過(guò)建立y,Y,…,Y與u,u,…,u的回歸式,然后再表示為1 2 p 1 2 rY,Y,…,Y與原自變量的回歸方程式,即偏小二乘回歸方程式。1 2 p為了方便起見(jiàn),不妨假設(shè)p個(gè)因變量Y,Y,…,Y與m個(gè)自變量x,x,…,x均1 2p 1 2m為標(biāo)準(zhǔn)化變量。自變量組和因變量組的n次標(biāo)準(zhǔn)化觀測(cè)數(shù)據(jù)矩陣分別記為A=A11??????1m? ?? ?? ?,B=_b11???...b. 1 p? ?? ?A…Ab…bn1nm一n1np」步驟:(1)分別提取兩變量組的第一對(duì)成分,假設(shè)從兩組變量分別提出第一對(duì)成分為U并使之相關(guān)性達(dá)到最大。和V,u是自變量集X=[x,x,…,x]T1 1 1 1 2nT的線性v,u11的線性組合u=ax+…+ax=p(1)tX,v是因變量集Y=1 111 1mm 1組合v=Py+…+卩y=y(1)tY。為了回歸分析的需要,要求:1 111 1ppu和v各自盡可能多的提取所在變量組的變異信息;11U和V的相關(guān)程度達(dá)到最大。11由兩組變量集的標(biāo)準(zhǔn)化觀測(cè)數(shù)據(jù)矩陣A和B,可以計(jì)算第一對(duì)成分的得分向量,記為U和V111mma11A1ma11u=Ap(1)=1v=Av=Ay(1)=1An1b11Anmb1pa1m卩]11bn1第一對(duì)成分u和v的協(xié)方差Cov(u,v)可用第一對(duì)成分的得分向量U和V的內(nèi)積111111來(lái)計(jì)算。故而以上兩個(gè)要求可化為數(shù)學(xué)上的極值條件問(wèn)題p⑴-B⑴丿=P⑴p⑴-B⑴丿=P⑴TAtB(I)11

P(1)Tp(1)=P(1)Tp(1)=y(1)Ty(1)=||y(1)『=1利用Larange數(shù)乘法,問(wèn)題化為求單位向量p⑴和y⑴,使6=p(1)tAtBy(1)達(dá)到最1大。問(wèn)題的求解只需通過(guò)計(jì)算mxm矩陣M=AtBBtA的特征值和特征向量,且M的最大特征值為62,相應(yīng)的單位特征向量就是所求的解p(1),而y⑴可有p(1)1計(jì)算得到,即(2)建立(2)建立y,y,??12假定回歸模型為y⑴=孑BtAp(i).1x,x,???,x對(duì)u的回歸。其中:c⑴=[c,其中:c⑴=[c,c,???Q1112JA=uc(1)T+A,B=ut(i)t+B.11T,t ,???,t11121pT,分別是多對(duì)一的回歸模型中的參數(shù)向量;A和B是殘差陣?;貧w系數(shù)向量c(1),T(1)的最小二乘估計(jì)為111matuc⑴二-B吃T⑴= 1.ujl2稱c(1),T(1)為模型效應(yīng)負(fù)荷量。用殘差陣A和B代替A和B,重復(fù)以上步驟。11記A=uc(1)t,B=uT(1)t,則殘差陣A=A-A,B=B-B。如果殘差陣B中元素的11111絕對(duì)值近似為0,則認(rèn)為用第一個(gè)成分建立的回歸式精度已滿足需求了,可以停止抽取成分。否則用殘差陣A和B代替A和B重復(fù)以上步驟,即得11T,,P⑵,???,aJr,y⑵二「B,…,PT,,21 2m 21 2p而u=Ap(2),v=By⑵為第二對(duì)成分的得分向量,且2121Atu Btuc⑵=1_,T⑵=1_2Kii2 XII2分別為X,Y的第二對(duì)成分的負(fù)荷量。這時(shí)有IA=uc(1)T+uc(2)T+A,J122IB=uT(1)T+uT⑵T+B.122設(shè)nxm數(shù)據(jù)陣A的秩為r<min(n-1,m),則存在r個(gè)成分u,u,???,u,使TOC\o"1-5"\h\z1 2r得J 1 r rB=uT(1)TH——HuT(r)T+B.1 r r把u=ax+???+ax,k=1,2,???,r,代入Y=ut⑴+???+ut(門,即得p個(gè)因變量kk11 kmm 1的最小二乘回歸方程式為

y=cx+???+cx,j=1,2,…,p.j j11 jmm(5)交叉有效性性檢驗(yàn)每次舍去第i個(gè)觀測(cè)數(shù)據(jù)(i二1,2,…,n),對(duì)余下的n-1個(gè)觀測(cè)數(shù)據(jù)用偏最小二乘回歸方法進(jìn)行建模,并考慮抽取h(h<r)個(gè)成分后擬合的回歸式,然后把舍去的自變量組第i個(gè)觀測(cè)數(shù)據(jù)代入所擬合的回歸方程式,得到y(tǒng)(j二1,2,???,p)在第

i個(gè)觀測(cè)點(diǎn)上的預(yù)測(cè)值b(h)。對(duì)i二1,2,…,n重復(fù)以上的驗(yàn)證,即得抽取h個(gè)成分(i)j時(shí)第j個(gè)因變量y(j二1,2,???,p)的預(yù)測(cè)誤差平方和為PRESSj-PRESSj-i)j(h)]2,(j二…,〃)Y=「y,y,???,y]T的預(yù)測(cè)誤差平方和為1 2 pPRESS(h)上PRESS")i=1另外,再采用所有的樣本點(diǎn),擬合含h個(gè)成分的回歸方程。這時(shí),記第i個(gè)樣本點(diǎn)的預(yù)測(cè)值為晌),則可定義y;的誤差平方和為SS(h)=工\bj 「可定義Y的誤差平方和為i定義Y的誤差平方和為SS(h)=£SS(h)則當(dāng)PRES(h)>0.952.SS(h—1)時(shí),就認(rèn)為增加新的成分uz,對(duì)減少方程的預(yù)測(cè)誤差無(wú)明顯的改善作用。h與傳統(tǒng)多元線性回歸模型相比,偏最小二乘回歸的特點(diǎn)是:能夠

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論