第二章 多元回歸分析_第1頁(yè)
第二章 多元回歸分析_第2頁(yè)
第二章 多元回歸分析_第3頁(yè)
第二章 多元回歸分析_第4頁(yè)
第二章 多元回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章多元回歸分析

本章重點(diǎn)討論:

1.多元線(xiàn)性回歸模型

2.逐步回歸

3.通徑分析§2.1

多元線(xiàn)性回歸一、多元線(xiàn)性回歸模型設(shè)因變量y與自變量x1,x2,…,xp的內(nèi)在聯(lián)系是線(xiàn)性的,當(dāng)做了n次試驗(yàn)后,得n組數(shù)據(jù)(yi,xi1,xi2,…,xip),i=1,2,…,n滿(mǎn)足yi=0+1xi1,+2xi2+…+pxip+ei,i=1,2,…,n其中0,1

,…,p

是p+1個(gè)未知參數(shù),稱(chēng)為回歸系數(shù);x1,x2,…,xp是p個(gè)一般變量;e1,

e2,…,

en是n個(gè)互不相關(guān)的隨機(jī)誤差,且均值為0,方差為2,這就是多元線(xiàn)性回歸模型。引進(jìn)矩陣記號(hào):其中Y為隨機(jī)觀(guān)測(cè)向量;為回歸系數(shù)向量;e為隨機(jī)誤差向量;X稱(chēng)為結(jié)構(gòu)矩陣或設(shè)計(jì)矩陣,且rank(X)=p+1,則多元線(xiàn)性回歸模型的矩陣形式為

Y=X+e,E(e)=0,COV(e)=2E若進(jìn)一步設(shè)ei~N(0,2),則

Y=X+e,e~Nn(0,2E)二、參數(shù)的最小二乘估計(jì)其中設(shè)為的估計(jì),則回歸方程為b0,b1

,…,bp

應(yīng)使記則其中記則由多元函數(shù)極值原理和矩陣微商知,b應(yīng)使下列方程的解即XTXb=XTY,因rank(X)=p+1,所以的LS估計(jì)為b=(XTX)-1XTY

的LS估計(jì)的性質(zhì):(1)E(b)=;(2)COV(b)=2(XX)-1

若記則b=CBbi與bj之間的協(xié)方差COV(bi,bj)=2cij,當(dāng)i=j時(shí),即為bj的方差Var(bj)=2cjj。三、回歸方程的檢驗(yàn)檢驗(yàn)x1,x2,…,xp與y是否存在線(xiàn)性關(guān)系,即檢驗(yàn)用方差分析方法檢驗(yàn),總平方和:H0:1=2=…=p=0,Ha:至少有一個(gè)j0=Q+u其中分別稱(chēng)為剩余平方和與回歸平方和。自由度

fT=n-1,fu=p,fQ=n-p-1.均方:在H0成立的條件下

當(dāng)F≥F(p,n-p-1)時(shí),否定H0,即x1,x2,…,xp與y存在顯著的線(xiàn)性關(guān)系;

當(dāng)F<F(p,n-p-1)時(shí),接受H0,即x1,x2,…,xp與y線(xiàn)性關(guān)系不顯著,其原因:x1,x2,…,xp與y無(wú)關(guān)系或存在非線(xiàn)性關(guān)系。平方和的計(jì)算公式分別為u=lyy-Q方差分析表來(lái)源自由度平方和均方F值F臨界值回歸剩余pn-p-1uQSu2SQ2Su2/SQ2F(p,n-p-1)總和n-1lyy四、回歸系數(shù)的檢驗(yàn)當(dāng)回歸方程顯著時(shí),對(duì)回歸系數(shù)進(jìn)行檢驗(yàn)。H0:j=0,Ha:j0從而因?yàn)镋(bj)=j,Var(bj)=2cjj,所以bj~N(j,2cjj)當(dāng)2未知,用其無(wú)偏估計(jì)Q/(n-p-1)代替時(shí)在H0:成立的條件下當(dāng)2未知,用其無(wú)偏估計(jì)Q/(n-p-1)代替時(shí)當(dāng)|tj|≥

t/2(n-p-1)或FjF(1,n-p-1)時(shí),拒絕H0,即xj與y存在顯著線(xiàn)性關(guān)系;否則線(xiàn)性關(guān)系不顯著,可以將bjxj項(xiàng)從方程中剔除,重新建立回歸方程。顯著時(shí),對(duì)x1,x2,…,xp給定的一組數(shù)據(jù)(x01,x02,…,x0p),對(duì)y進(jìn)行預(yù)測(cè),其1-α置信區(qū)間為五、利用回歸方程進(jìn)行預(yù)測(cè)其中當(dāng)我們建立的回歸方程

例2.1

研究同一地區(qū)土壤內(nèi)所含植物可給態(tài)磷的情況,得18組數(shù)據(jù),x1—無(wú)機(jī)磷濃度;x2—容于K2CO2溶液并受溴化物水解的有機(jī)磷;x3—不容于溴化物的有機(jī)磷;y—栽培在20oC土壤內(nèi)玉米中的可給態(tài)磷(百萬(wàn)分之一)。假設(shè)y與x1,x2,x3存在線(xiàn)性關(guān)系,求其回歸方程,并對(duì)回歸方程進(jìn)行檢驗(yàn)。土壤樣本x1x2x3y1234567891011121314151617180.40.43.10.64.71.79.410.111.612.610.923.123.121.623.11.926.829.9532319342465443129583746504456365851158163371575912346117173112111114134731681432021246460716154778193935176967793955416899解:n=18,p=3結(jié)構(gòu)矩陣X和觀(guān)測(cè)向量分別為:解:n=18,p=3,結(jié)構(gòu)矩陣X和觀(guān)測(cè)向量分別為:計(jì)算得計(jì)算得u=lyy-Q=6794u=lyy-Q=6794

fT=n-1=18-1=17,fu=p=3,fQ=n-p-1=14.回歸系數(shù)檢驗(yàn)F0.25(1,14)=1.44,F(xiàn)0.05(1,14)=4.60,F(xiàn)0.01(1,14)=8.86例2.1的SAS程序?yàn)椋篸ataex2_1;inputx1x2x3y@@;cards;0.453158640.423163603.11937710.634157614.72459541.765123779.444468110.1311179311.6291739312.6581125110.9371117623.1461149623.1501347721.644739323.156168951.9361435426.85820216829.95112499;procreg;Modely=x1x2x3;run;輸出結(jié)果:稱(chēng)為中心化形式。六、多元線(xiàn)性回歸模型的其它形式其中1.中心化形式若記則稱(chēng)為中心標(biāo)準(zhǔn)化形式。其中2.中心標(biāo)準(zhǔn)化形式(典則形式)若記則其中3.廣義多元線(xiàn)性模型若記則廣義線(xiàn)性模型的矩陣形式為Y=A+e是已知的S元函數(shù),不含任何未知參數(shù)。其中則的LS估計(jì)為

例2.4

對(duì)例1.4用多項(xiàng)式y(tǒng)=a+bx2+cx3+dx4

逼近。利用SAS過(guò)程GLM求解,其SAS程序如下:dataex2_4;inputxy@@;cards;05.7543.71076.715102.320183.425225.130281.635362.8403914542950448.155452.360453.26545470454.3;procglm;modely=x*xx*x*xx*x*x*x;run;

輸出部分結(jié)果:多項(xiàng)式模型為:

y=15.844383+0.621706x2-0.012470x3+0.000069x4也可采用增加新變量的方式,用REG過(guò)程求解。§2.2

逐步回歸(stepwiseregression)一、基本思想按照變量x1,x2,…,xp的重要程度,逐個(gè)將變量引入回歸方程,對(duì)已引入方程的變量,在新變量引入后有可能變成不重要的變量,隨時(shí)從方程中剔除,已剔除的變量在引入后又變的重要時(shí),可將它重新選入回歸方程,這樣一種變量可進(jìn)可出的回歸方法稱(chēng)為逐步回歸法。衡量變量重要程度的指標(biāo)是“偏回歸平方和”。若記Q(1,2,…,k)表示方程中有變量x1,x2

,…,xk

的剩余平方和,則第i個(gè)變量xi的偏回歸平方和為

gi=Q(1,…,i-1,i+1,…,k)-Q(1,2,…,k)

gi越大量,變量xi越重要。衡量變量重要程度的指標(biāo)是“偏回歸平方和”。若記Q(1,2,…,k)表示方程中有變量x1,x2

,…,xk

的剩余平方和,則第i個(gè)變量xi的偏回歸平方和為

gi=Q(1,…,i-1,i+1,…,k)-Q(1,2,…,k)

gi的大小與當(dāng)時(shí)方程中包含的其它變量有關(guān)。如

Q(1)-Q(1,i),Q(2)-Q(2,i),…,Q(p)-Q(p,i)一般不相等。這說(shuō)明衡量變量重要性的標(biāo)準(zhǔn)是一個(gè)相對(duì)標(biāo)準(zhǔn),理解了這一點(diǎn),就不難理解此時(shí)重要的變量,彼時(shí)又不重要被剔除這樣一個(gè)似乎矛盾的現(xiàn)象。注:引入和剔除變量,需要確定顯著性水平和。二、實(shí)施步驟首先對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換(中心標(biāo)準(zhǔn)化形式):其中若記則為相關(guān)矩陣。其中rij=rji,rii=1;rj0為xj與y的相關(guān)系數(shù)。正規(guī)方程為其中bj*(j=1,2,…,p)稱(chēng)為標(biāo)準(zhǔn)回歸系數(shù)。bj與bj*的關(guān)系:用相關(guān)矩陣進(jìn)行一系列的消去變換和檢驗(yàn),最后得“最佳”回歸方程。具體過(guò)程從略,僅討論用SAS計(jì)算。例2.5

某物質(zhì)在凝固時(shí)放出的熱量y(卡/克)與此物質(zhì)中4種化學(xué)成分(%)x1,x2,x3,x4有關(guān),求(1)這5個(gè)變量間的相關(guān)系數(shù);(2)y與x1,x2,x3,x4線(xiàn)性回歸方程;(3)y與x1,x2,x3,x4的“最佳”線(xiàn)性回歸方程

。數(shù)據(jù)與程序如下:DATAhald;INPUTx1x2x3x4y@@;CARDS;726660

78.5129

15

5274.31156820

104.3113184787.6752

6

33

95.911

55922

109.2371

176102.7131

22

4472.5254

182293.121

47

4

26

115.91402334

83.811

66912

113.31068812

109.4;數(shù)據(jù)步:PROC

CORRDATA=hald;/*(1)*/VARx1-x4y;RUN;PROCREGDATA=hald;/*(2)*/MODELy=x1-x4;RUN;PROCREGDATA=hald;/*(3)*/MODELy=x1-x4/SELECTION=STEPWISESLE=0.1SLS=0.1;RUN;過(guò)程步:1引入變量顯著性水平

SLE=水平值,缺省值為0.15.2剔除變量顯著性水平

SLS=水平值,缺省值為0.15.部分輸出結(jié)果:(1)相關(guān)矩陣及其檢驗(yàn)看出有什么問(wèn)題嗎?!(2)多元線(xiàn)性回歸(3)逐步回歸過(guò)程及結(jié)果回歸方程:y=52.57735+1.46831x1+0.66225x2§2.3

通徑分析(pathanalysis)一、通徑系數(shù)的定義設(shè)因變量y受到兩個(gè)變量x1,x2的影響,則其關(guān)系可圖解為如下:自變量與因變量間的箭頭連線(xiàn)叫做通徑(path)。如x1→y,

x2→y為直接通徑;

x1→x2→y和x2→x1→y為間接通徑。表示各條通徑對(duì)于改變y反應(yīng)量的相對(duì)重要性的統(tǒng)計(jì)數(shù)稱(chēng)為通徑系數(shù)(pathcoefficient),記i→y或i→j→y.yx1x2yx1x2r12x1與x2不相關(guān)x1與x2相關(guān)直接通徑系數(shù)定義為標(biāo)準(zhǔn)回歸系數(shù),即其意義:在i→y(即xi→y)的通徑上,若

xi增加一個(gè)標(biāo)準(zhǔn)單位,則y將增加(i>0)或減少(i<0)i個(gè)標(biāo)準(zhǔn)單位。間接通徑系數(shù)定義為:注:(1)y

與xi皆具線(xiàn)性關(guān)系;

(2)通徑系數(shù)是有向量;

(3)通徑系數(shù)是無(wú)量綱的量,取值是實(shí)數(shù)。二、通徑系數(shù)的計(jì)算因?yàn)閕是標(biāo)準(zhǔn)回歸系數(shù)bi*,從而得直接通經(jīng)系數(shù)i的正規(guī)方程組由此看出:通徑系數(shù)是

xi與y的相關(guān)系數(shù)ri0的線(xiàn)性分解。例如:測(cè)定244個(gè)“揚(yáng)糯5號(hào)”稻穗的一次枝梗數(shù)(x1),二次枝梗數(shù)(x2)和每穗總粒數(shù)(y),通過(guò)計(jì)算得相關(guān)系數(shù)

r12=0.771114,r10=0.856034,r20=0.938732正規(guī)方程組例如:測(cè)定244個(gè)“揚(yáng)糯5號(hào)”稻穗的一次枝梗數(shù)(x1),二次枝梗數(shù)(x2)和每穗總粒數(shù)(y),通過(guò)計(jì)算得相關(guān)系數(shù)

r12=0.771114,r10=0.856034,r20=0.938732解得直接通徑系數(shù):

1=1→y=0.3260,

2=2→y=0.6873;間接通徑系數(shù):

1→2→y=r12

2→y=0.7711140.6873=0.53002→1→y=r12

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論