![偏最小二乘回歸方法及其應(yīng)用_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/13/c700a98c-677c-44ed-8b3c-18153ce5cec1/c700a98c-677c-44ed-8b3c-18153ce5cec11.gif)
![偏最小二乘回歸方法及其應(yīng)用_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/13/c700a98c-677c-44ed-8b3c-18153ce5cec1/c700a98c-677c-44ed-8b3c-18153ce5cec12.gif)
![偏最小二乘回歸方法及其應(yīng)用_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/13/c700a98c-677c-44ed-8b3c-18153ce5cec1/c700a98c-677c-44ed-8b3c-18153ce5cec13.gif)
![偏最小二乘回歸方法及其應(yīng)用_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/13/c700a98c-677c-44ed-8b3c-18153ce5cec1/c700a98c-677c-44ed-8b3c-18153ce5cec14.gif)
![偏最小二乘回歸方法及其應(yīng)用_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-4/13/c700a98c-677c-44ed-8b3c-18153ce5cec1/c700a98c-677c-44ed-8b3c-18153ce5cec15.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、偏最小二乘回歸方法及其應(yīng)用王惠文著國(guó)防工業(yè)出版社1999年版偏最小二乘回歸多元線性回歸分析典型相關(guān)分析主成分分析與傳統(tǒng)多元線性回歸模型相比,偏最小二乘回歸的特點(diǎn)是:(1)能夠在自變量存在嚴(yán)重多重相關(guān)性的條件下進(jìn)行回歸建模;(2)允許在樣本點(diǎn)個(gè)數(shù)少于變量個(gè)數(shù)的條件下進(jìn)行回歸建模;(3)偏最小二乘回歸在最終模型中將包含原有的所有自變量;(4)偏最小二乘回歸模型更易于辨識(shí)系統(tǒng)信息與噪聲(甚至一些非隨機(jī)性的噪聲);(5)在偏最小二乘回歸模型中,每一個(gè)自變量的回歸系數(shù)將更容易解釋。在計(jì)算方差和協(xié)方差時(shí),求和號(hào)前面的系數(shù)有兩種取法:當(dāng)樣本點(diǎn)集合是隨機(jī)抽取得到時(shí),應(yīng)該取1/(n-1);如果不是隨機(jī)抽取的,這
2、個(gè)系數(shù)可取1/n。多重相關(guān)性的診斷1 經(jīng)驗(yàn)式診斷方法1、在自變量的簡(jiǎn)單相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系數(shù)值較大。2、回歸系數(shù)的代數(shù)符號(hào)與專(zhuān)業(yè)知識(shí)或一般經(jīng)驗(yàn)相反;或者,它同該自變量與y的簡(jiǎn)單相關(guān)系數(shù)符號(hào)相反。3、對(duì)重要自變量的回歸系數(shù)進(jìn)行t檢驗(yàn),其結(jié)果不顯著。特別典型的是,當(dāng)F檢驗(yàn)?zāi)茉诟呔认峦ㄟ^(guò),測(cè)定系數(shù)R2的值亦很大,但自變量的t檢驗(yàn)卻全都不顯著,這時(shí),多重相關(guān)性的可能性將很大。4、如果增加(或刪除)一個(gè)變量,或者增加(或刪除)一個(gè)觀測(cè)值,回歸系數(shù)的估計(jì)值發(fā)生了很大的變化。5、重要自變量的回歸系數(shù)置信區(qū)間明顯過(guò)大。6、在自變量中,某一個(gè)自變量是另一部分自變量的完全或近似完全的線性組合。7
3、、對(duì)于一般的觀測(cè)數(shù)據(jù),如果樣本點(diǎn)的個(gè)數(shù)過(guò)少,樣本數(shù)據(jù)中的多重相關(guān)性是經(jīng)常存在的。但是,采用經(jīng)驗(yàn)式方法診斷自變量系統(tǒng)中是否確實(shí)存在多重相關(guān)性,并不十分可靠,另一種較正規(guī)的方法是利用統(tǒng)計(jì)檢驗(yàn)(回歸分析),檢查每一個(gè)自變量相對(duì)其它自變量是否存在線性關(guān)系。2 方差膨脹因子最常用的多重相關(guān)性的正規(guī)診斷方法是使用方差膨脹因子。自變量xj的方差膨脹因子記為(VIF)j,它的計(jì)算方法為(4-5) (VIF)j =(1-R j2)-1式中,R j2是以xj為因變量時(shí)對(duì)其它自變量回歸的復(fù)測(cè)定系數(shù)。所有xj變量中最大的(VIF)j通常被用來(lái)作為測(cè)量多重相關(guān)性的指標(biāo)。一般認(rèn)為,如果最大的(VIF)j超過(guò)10,常常表示
4、多重相關(guān)性將嚴(yán)重影響最小二乘的估計(jì)值。(VIF)j被稱(chēng)為方差膨脹因子的原因,是由于它還可以度量回歸系數(shù)的估計(jì)方差與自變量線性無(wú)關(guān)時(shí)相比,增加了多少。不妨假設(shè)x1,x2,xp均是標(biāo)準(zhǔn)化變量。采用最小二乘法得到回歸系數(shù)向量B,它的精度是用它的方差來(lái)測(cè)量的。B的協(xié)方差矩陣為Cov(B)= 2 (X'X)-1式中,2是誤差項(xiàng)方差。所以,對(duì)于回歸系數(shù)b j,有Var(b j)= 2cjjcjj是(X'X)-1矩陣中第j個(gè)對(duì)角元素??梢宰C明,cjj =(VIF)j嶺回歸分析1 嶺回歸估計(jì)量嶺回歸分析是一種修正的最小二乘估計(jì)法,當(dāng)自變量系統(tǒng)中存在多重相關(guān)性時(shí),它可以提供一個(gè)比最小二乘法更為穩(wěn)
5、定的估計(jì),并且回歸系數(shù)的標(biāo)準(zhǔn)差也比最小二乘估計(jì)的要小。根據(jù)高斯馬爾科夫定理,多重相關(guān)性并不影響最小二乘估計(jì)量的無(wú)偏性和最小方差性。但是,雖然最小二乘估計(jì)量在所有線性無(wú)偏估計(jì)量中是方差最小的,但是這個(gè)方差卻不一定小。于是可以找一個(gè)有偏估計(jì)量,這個(gè)估計(jì)量雖然有微小的偏差,但它的精度卻能夠大大高于無(wú)偏的估計(jì)量。在應(yīng)用嶺回歸分析時(shí),它的計(jì)算大多從標(biāo)準(zhǔn)化數(shù)據(jù)出發(fā)。對(duì)于標(biāo)準(zhǔn)化變量,最小二乘的正規(guī)方程為rXXb=ryX式中,rXX是X的相關(guān)系數(shù)矩陣,ryX是y與所有自變量的相關(guān)系數(shù)向量。嶺回歸估計(jì)量是通過(guò)在正規(guī)方程中引入有偏常數(shù)c(c0)而求得的。它的正規(guī)方程為+(4-8) (rXX+ cI) bR=ryX
6、所以,在嶺回歸分析中,標(biāo)準(zhǔn)化回歸系數(shù)為(4-9) bR =(rXX+ cI)-1 ryX2 嶺回歸估計(jì)量的性質(zhì)(1)嶺回歸系數(shù)是一般最小二乘準(zhǔn)則下回歸系數(shù)的線性組合,即(4-10) bR =(I+ crXX-1)-1b(2)記是總體參數(shù)的理論值。當(dāng)0時(shí),可以證明一定存在一個(gè)正數(shù)c0,使得當(dāng)0< c< c0時(shí),一致地有(4-11) E| bR -|2 E| b -|2(3)嶺回歸估計(jì)量的絕對(duì)值常比普通最小二乘估計(jì)量的絕對(duì)值小,即(4-12) | bR |<| b |嶺回歸估計(jì)量的質(zhì)量取決于偏倚系數(shù)c的選取。c的選取不宜過(guò)大,因?yàn)镋(bR)=(I+ crXX-1)-1 E (b)
7、=(I+ crXX-1)-1關(guān)于偏倚系數(shù)c的選取尚沒(méi)有正規(guī)的決策準(zhǔn)則,目前主要以嶺跡和方差膨脹因子為依據(jù)。嶺跡是指p-1個(gè)嶺回歸系數(shù)估計(jì)量對(duì)不同的c值所描繪的曲線(c值一般在01之間)。在通過(guò)檢查嶺跡和方差膨脹因子來(lái)選擇c值時(shí),其判斷方法是選擇一個(gè)盡可能小的c值,在這個(gè)較小的c值上,嶺跡中的回歸系數(shù)已變得比較穩(wěn)定,并且方差膨脹因子也變得足夠小。從理論上,最佳的c值是存在的,它可以使估計(jì)量的偏差和方差的組合效應(yīng)達(dá)到一個(gè)最佳水準(zhǔn)。然而,困難卻在于c的最優(yōu)值對(duì)不同的應(yīng)用而有所不同,對(duì)其選擇還只能憑經(jīng)驗(yàn)判斷。其他補(bǔ)救方法簡(jiǎn)介最常見(jiàn)的一種思路是設(shè)法去掉不太重要的相關(guān)性變量。由于變量間多重相關(guān)性的形式十分
8、復(fù)雜,而且還缺乏十分可靠的檢驗(yàn)方法,刪除部分多重相關(guān)變量的做法常導(dǎo)致增大模型的解釋誤差,將本應(yīng)保留的系統(tǒng)信息舍棄,使得接受一個(gè)錯(cuò)誤結(jié)論的可能和做出錯(cuò)誤決策的風(fēng)險(xiǎn)都不斷增長(zhǎng)。另一方面,在一些經(jīng)濟(jì)模型中,從經(jīng)濟(jì)理論上要求一些重要的解釋變量必須被包括在模型中,而這些變量又存在多重相關(guān)性。這時(shí)采用剔除部分相關(guān)變量的做法就不符合實(shí)際工作的要求。另一種補(bǔ)救的辦法是增加樣本容量。然而,在實(shí)際工作中,由于時(shí)間、經(jīng)費(fèi)以及客觀條件的限制,增大樣本容量的方法常常是不可行的。此外,還可以采用變量轉(zhuǎn)換的方式,來(lái)削弱多重相關(guān)性的嚴(yán)重性。一階差分回歸模型有可能減少多重相關(guān)性的嚴(yán)重性。然而,一階差分變換又帶來(lái)了一些其它問(wèn)題。
9、差分后的誤差項(xiàng)可能不滿(mǎn)足總體模型中關(guān)于誤差項(xiàng)不是序列相關(guān)的假定。事實(shí)上,在大部分情形下,在原來(lái)的誤差項(xiàng)是不自相關(guān)的條件下,一階差分所得到的誤差項(xiàng)將會(huì)是序列相關(guān)的。而且,由于差分方法損失了一個(gè)觀察值,這在小樣本的情況下是極不可取的。另外,一階差分方法在截面樣本中是不宜利用的。1 主成分分析主成分分析的計(jì)算結(jié)果必然受到重疊信息的影響。因此,當(dāng)人為地采用一些無(wú)益的相關(guān)變量時(shí),無(wú)論從方向上還是從數(shù)量上,都會(huì)扭曲客觀結(jié)論。在主成分分析之前,對(duì)變量系統(tǒng)的確定必須是慎之又慎的。2 特異點(diǎn)的發(fā)現(xiàn)第i個(gè)樣本點(diǎn)(樣本量為n)對(duì)第h主成分的貢獻(xiàn)率是(5-32) CTR(i)=Fh2(i)/(nh) (若遠(yuǎn)超過(guò)1/n
10、,為特異點(diǎn))3 典型相關(guān)分析從某種意義上說(shuō),多元回歸分析、判別分析或?qū)?yīng)分析等許多重要的數(shù)據(jù)分析方法,都可以歸結(jié)為典型相關(guān)分析的一種特例,同時(shí)它還是偏最小二乘回歸分析的理論基石。典型相關(guān)分析,是從變量組X中提取一個(gè)典型成分F=Xa,再?gòu)淖兞拷MY中提取一個(gè)成分G=Yb,在提取過(guò)程中,要求F與G的相關(guān)程度達(dá)到最大。在典型相關(guān)分析中,采用下述原則尋優(yōu),即max<F,G>=aX'Yb a'X'Xa=1, b'Y'Yb=1其結(jié)果為,a是對(duì)應(yīng)于矩陣V11-1 V12 V22-1 V21最大特征值的特征向量,而b是對(duì)應(yīng)于矩陣V22-1 V21V11-1 V
11、12最大特征值的特征向量,這兩個(gè)最大特征值相同。其中,V11=X'X,V12=X'Y,V22=Y'Y。F與G之間存在著明顯的換算關(guān)系。有時(shí)只有一個(gè)典型成分還不夠,還可以考慮第二個(gè)典型成分。多因變量的偏最小二乘回歸模型1 工作目標(biāo)偏最小二乘回歸分析的建模方法設(shè)有q個(gè)因變量和p個(gè)自變量。為了研究因變量與自變量的統(tǒng)計(jì)關(guān)系,觀測(cè)了n個(gè)樣本點(diǎn),由此構(gòu)成了自變量與因變量的數(shù)據(jù)表X和Y。偏最小二乘回歸分別在X與Y中提取出t和u,要求:(1)t和u應(yīng)盡可能大地?cái)y帶它們各自數(shù)據(jù)表中的變異信息;(2)t和u的相關(guān)程度能夠達(dá)到最大。在第一個(gè)成分被提取后,偏最小二乘回歸分別實(shí)施X對(duì)t的回歸以及
12、Y對(duì)t的回歸。如果回歸方程已經(jīng)達(dá)到滿(mǎn)意的精度,則算法終止;否則,將利用X被t解釋后的殘余信息以及Y被t解釋后的殘余信息進(jìn)行第二輪的成分提取。如此往復(fù),直到能達(dá)到一個(gè)較滿(mǎn)意的精度為止。若最終對(duì)X共提取了多個(gè)成分,偏最小二乘回歸將通過(guò)施行yk對(duì)X的這些成分的回歸,然后再表達(dá)成yk關(guān)于原自變量的回歸方程。2 計(jì)算方法首先將數(shù)據(jù)做標(biāo)準(zhǔn)化處理。X經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)矩陣記為E0=( E01,E0p)n×p,Y的相應(yīng)矩陣記為F0=( F01,F0q)n×q。第一步 記t 1是E0的第一個(gè)成分,t 1= E0w1,w1是E0的第一個(gè)軸,它是一個(gè)單位向量,即| w1|=1。記u 1是F0的
13、第一個(gè)成分,u 1= F0c1,c1是F0的第一個(gè)軸,并且| c1|=1。于是,要求解下列優(yōu)化問(wèn)題,即(7-1)記1= w1'E0'F0c1,即正是優(yōu)化問(wèn)題的目標(biāo)函數(shù)值。采用拉格朗日算法,可得(7-8) E0'F0F0'E0w1=12 w1(7-9) F0'E0E0'F0c1=12 c1所以,w1是對(duì)應(yīng)于E0'F0F0'E0矩陣最大特征值的單位特征向量,而c1是對(duì)應(yīng)于F0'E0E0'F0矩陣最大特征值12的單位特征向量。求得軸w1和c1后,即可得到成分t 1= E0w1u 1= F0c1然后,分別求E0和F0對(duì)t
14、1的回歸方程(7-10) E0= t 1 p1'+ E1(7-12) F0= t 1r1'+ F1式中,回歸系數(shù)向量是(7-13) p1= E0' t 1/| t 1|2(7-15) r1= F0' t 1/| t 1|2而E1和F1分別是兩個(gè)方程的殘差矩陣。第二步 用殘差矩陣E1和F1取代E0和F0,然后,求第二個(gè)軸w2和c2以及第二個(gè)成分t2,u2,有t 2= E1w2u 2= F1c22=< t2, u2>= w2'E1'F1c2w2是對(duì)應(yīng)于E1'F1F1'E1矩陣最大特征值的單位特征向量,而c2是對(duì)應(yīng)于F1
15、39;E1E1'F1矩陣最大特征值22的單位特征向量。計(jì)算回歸系數(shù)p2= E1' t 2/| t 2|2r2= F1' t 2/| t2|2因此,有回歸方程E1= t 2 p2'+ E2F1= t 2r2'+ F2如此計(jì)算下去,如果X的秩是A,則會(huì)有(7-16) E0= t 1 p1'+t A pA'(7-17) F0= t 1r1'+ +t A rA'+ FA由于t1,t A均可以表示成E01,E0p的線性組合,因此,式(7-17)還可以還原成yk*= F0k關(guān)于xj*= E0j的回歸方程形式,即yk*=k1 x1*+k
16、p xp*+ FAk, k=1,2,qFAk是殘差矩陣FA的第k列。3 交叉有效性如果多一個(gè)成分而少一個(gè)樣本的預(yù)測(cè)誤差平方和(所有因變量和預(yù)測(cè)樣本相加)除以少一個(gè)成分的誤差平方和(所有的因變量和樣本相加)小于0.952,則多一個(gè)成分是值得的。4 一種更簡(jiǎn)潔的計(jì)算方法用下述原則提取自變量中的成分t 1,是與原則式(7-1)的結(jié)果完全等價(jià)的,即(7-24)(1)求矩陣E0'F0F0'E0最大特征值所對(duì)應(yīng)的單位特征向量w1,求成分t 1,得t 1= E0w1E1= E0-t 1 p1'式中, p1= E0' t 1/| t 1|2(2)求矩陣E1'F0F0
17、39;E1最大特征值所對(duì)應(yīng)的單位特征向量w2,求成分t2,得t 2= E1w2E2= E1-t 2 p2'式中, p2= E1' t 2/| t2|2(m)至第m步,求成分tm= Em-1wm,wm是矩陣Em-1'F0F0'Em-1最大特征值所對(duì)應(yīng)的單位特征向量.如果根據(jù)交叉有效性,確定共抽取m個(gè)成分t1,tm可以得到一個(gè)滿(mǎn)意的觀測(cè)模型,則求F0在t1,tm上的普通最小二乘回歸方程為F0= t 1r1'+ +t mrm'+ Fm偏最小二乘回歸的輔助分析技術(shù)1 精度分析定義自變量成分th的各種解釋能力如下(1)th對(duì)某自變量xj的解釋能力(8-1)
18、 Rd(xj; th)=r2(xj, th)(2)th對(duì)X的解釋能力(8-2) Rd(X; th)=r2(x1, th) + + r2(xp, th)/p(3)t1,tm對(duì)X的累計(jì)解釋能力(8-3) Rd(X; t1,tm)= Rd(X; t1) + + Rd(X; tm)(4)t1,tm對(duì)某自變量xj的累計(jì)解釋能力(8-4) Rd(xj; t1,tm)= Rd(xj; t1) + + Rd(xj; tm)(5)th對(duì)某因變量yk的解釋能力(8-5) Rd(yk; th)=r2(yk, th)(6)th對(duì)Y的解釋能力(8-6) Rd(Y; th)=r2(y1, th) + + r2(yq, t
19、h)/q(7)t1,tm對(duì)Y的累計(jì)解釋能力(8-7) Rd(Y; t1,tm)= Rd(Y; t1) + + Rd(Y; tm)(8)t1,tm對(duì)某因變量yk的累計(jì)解釋能力(8-8) Rd(yk; t1,tm)= Rd(yk; t1) + + Rd(yk; tm)2 自變量x j在解釋因變量集合Y的作用x j在解釋Y時(shí)作用的重要性,可以用變量投影重要性指標(biāo)VIP j來(lái)測(cè)度VIP j 2=pRd(Y; t1) w1j2+ + Rd(Y; tm) wmj2/Rd(Y; t1) + + Rd(Y; tm)式中,whj是軸wh的第j個(gè)分量。注意 VIP1 2+ + VIP p2=p3 特異點(diǎn)的發(fā)現(xiàn)定義第i個(gè)樣本點(diǎn)對(duì)第h成分th的貢獻(xiàn)率Thi2,用它來(lái)發(fā)現(xiàn)樣本點(diǎn)集合中的特異點(diǎn),即(8-
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度公共衛(wèi)生項(xiàng)目資金管理及審計(jì)合同
- 2025年度廣告牌智能監(jiān)控系統(tǒng)安裝合同
- 2025年度建筑垃圾處理與質(zhì)量監(jiān)管合同
- 2025年度綠色建筑材料采購(gòu)與應(yīng)用合同
- 2025年度基礎(chǔ)設(shè)施建設(shè)項(xiàng)目貸款合同附件正本
- 2025年度健身場(chǎng)地租賃合同范本(含健身俱樂(lè)部管理)
- 2025年度人工智能技術(shù)研發(fā)合同補(bǔ)簽補(bǔ)充協(xié)議
- 2025年度房地產(chǎn)項(xiàng)目監(jiān)理合同補(bǔ)充協(xié)議
- 2025年度環(huán)保管家合同:企業(yè)環(huán)保管家全面合作協(xié)議
- 2025年度借款期限與抵押期限協(xié)調(diào)統(tǒng)一合同
- 瀝青拌合設(shè)備結(jié)構(gòu)認(rèn)知
- GB/T 13234-2018用能單位節(jié)能量計(jì)算方法
- (課件)肝性腦病
- 北師大版五年級(jí)上冊(cè)數(shù)學(xué)教學(xué)課件第5課時(shí) 人民幣兌換
- 工程回訪記錄單
- 住房公積金投訴申請(qǐng)書(shū)
- 高考物理二輪專(zhuān)題課件:“配速法”解決擺線問(wèn)題
- 檢驗(yàn)科生物安全風(fēng)險(xiǎn)評(píng)估報(bào)告
- 京頤得移動(dòng)門(mén)診產(chǎn)品輸液
- 如何做一名合格的帶教老師PPT精選文檔
- ISO9001-14001-2015內(nèi)部審核檢查表
評(píng)論
0/150
提交評(píng)論