多元回歸與相關(guān)課件_第1頁
多元回歸與相關(guān)課件_第2頁
多元回歸與相關(guān)課件_第3頁
多元回歸與相關(guān)課件_第4頁
多元回歸與相關(guān)課件_第5頁
已閱讀5頁,還剩78頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十一章 多元回歸與相關(guān)多元線性回歸多元相關(guān)與偏相關(guān) 一元回歸是依變量y在一個自變量x上的回歸,它僅僅涉及到兩個變量的關(guān)系問題。但在許多實際問題中,影響依變量的因素常常不止一個。因此,為了研究依變量y與多個自變量x之間的關(guān)系,必須在一元回歸的基礎(chǔ)上做相應(yīng)的補充,進(jìn)一步研究多元回歸的問題。多元回歸與相關(guān)分析主要解決的問題:1、建立由多個自變量描述和預(yù)測依變量的 多元回 歸方程。2、在多個自變量中,選擇對依變量有顯著 效應(yīng)的自變量,剔除不顯著的自變量, 建立最優(yōu)回歸方程。3、計算某個自變量在其它自變量固定不變 時對依變量的效應(yīng),這個效應(yīng)稱為偏回 歸系數(shù)。5、計算各個自變量的標(biāo)準(zhǔn)偏回歸系數(shù)(通徑 系

2、數(shù)),評定各自變量對依變量影響的相 對重要程度。4、計算多個自變量綜合起來對依變量的多元 相關(guān)系數(shù),也可計算兩變量間在其它變量 保持不變時的偏相關(guān)系數(shù)。11 .1 多元回歸方程 多元回歸是研究一個依變量在兩個或兩個以上自變量上的回歸,也稱為復(fù)回歸。 在多元線性回歸分析中,當(dāng)其他自變量都保持一定數(shù)量水平時,各自變量對依變量的效應(yīng)(影響),稱為偏回歸系數(shù)。 一、多元線性回歸方程 假定在M個隨機變數(shù)中,有一個為依變數(shù)Y,另外m個(m=M-1)為自變數(shù)x1, x2, , xm, 且m個自變數(shù)皆與依變數(shù)成線性關(guān)系,則其回歸方程可表示為:因此,y對x1 , x2 , , xm 的多元回歸方程可簡寫為:二、

3、正規(guī)方程組的解及其實例 要使多元回歸方程能夠最好地代表y與x1、x2、xm 在數(shù)量上的互變關(guān)系,根據(jù)最小平方法原理,應(yīng)使 根據(jù)求極值的原理,分別對b1,b2,bm求偏導(dǎo),并令之為0,即可整理得m元線性回歸方程的正規(guī)方程組:這個正規(guī)方程組可用矩陣(matrix)表示為 A b K Ab=K b=A-1K若要求解b,則需先求出系數(shù)矩陣A的逆矩陣A-1 , AA-1=I【例11.1】測得小麥每株穗數(shù)(x1)、每穗粒數(shù)(x2)、千粒重(x3,)和單株產(chǎn)量(y,克)如下表,試建立其多元回歸方程。樣 本 x1 x2 x3 y 1 10.5 33.2 36.3 14.7 2 9.2 30.1 36.2 13

4、.5 3 10.7 32.6 37.7 16.5 4 13.9 31.8 37.2 21.5 5 10.2 32.4 36.4 14.5 6 10.8 33.1 35.0 15.9 7 8.1 33.5 33.4 7.6 8 10.6 34.6 34.5 16.0 9 10.1 30.7 34.1 12.7 10 10.4 31.6 34.9 12.4 11 10.7 33.8 39.2 19.3 12 8.4 31.4 35.1 9.2 13 6.3 33.5 32.0 6.4 14 8.2 31.9 37.2 10.6 15 9.8 32.4 36.5 11.3 解:根據(jù)表中的資料算得14

5、個一級數(shù)據(jù):由一級數(shù)據(jù)算得14個二級數(shù)據(jù):于是得正規(guī)方程組上述方程組的系數(shù)矩陣A、常數(shù)項矩陣K、未知數(shù)矩陣b分別為: 此方程的意義為: 當(dāng)穗粒數(shù)x2和千粒重x3保持不變時,每株穗數(shù)x1每增加1個,則單株產(chǎn)量增加1.8485g; 當(dāng)每株穗數(shù)x1和千粒重x3保持不變時,穗粒數(shù)x2每增加1粒,單株產(chǎn)量增加0.4678g; 當(dāng)每株穗數(shù)x1和穗粒數(shù)x2保持不變時,千粒重x3每增加1g,單株產(chǎn)量增加0.6421g。 根據(jù)以上回歸方程,就可以估計 的值。 如當(dāng)?shù)谝粋€樣本的觀測值x1=10.5 , x2=33.2, x3=36.3時, y的估計值為: 而y的實際觀察值為14.7克,二者的差值即為離回歸部分。

6、離回歸的存在,有以下可能原因:1、除x1、x2、x3三個變量外,還有其它變量 對y 產(chǎn) 生作用;2、有隨機誤差的影響; 注意:在利用回歸方程進(jìn)行預(yù)測時,應(yīng)限定自變量的范圍:x1的區(qū)間6.3,13.9,x2的區(qū)間30.1,34.6,x3的區(qū)間32.0,39.0,不可隨意外延。如果擴展預(yù)測范圍,需補充觀測資料,重新建立回歸方程。 既然應(yīng)用多元回歸方程進(jìn)行回歸估計時,實際值與估計值有偏差,因此,當(dāng)建立起一個多元線性回歸方程之后,應(yīng)了解它的的估計標(biāo)準(zhǔn)誤。三、多元線性回歸方程的估計標(biāo)準(zhǔn)誤 多元線性回歸方程的建立只是保證了離回歸平方和最小,但在給定的x1、x2、xm下,多元回歸方程的點估計值和實測值仍然是

7、有差異的。度量這種差異大小的統(tǒng)計量就是回歸方程的估計標(biāo)準(zhǔn)誤。其計算公式如下:【例11.2】試計算表11.1資料三元線性回歸方程 =-42.8610+1.8485x1+0.4678x2+0.6421x3的估計標(biāo)準(zhǔn)誤。在例11.1中已算出SSy=239.89, SP1y=91.02, SP2y=5.77, SP3y=73.52由式(11.10)得 Uy123=b1SP1y+b2SP2y+bmSPmy =1.848591.02+0.46785.77+0.642173.52=218.16由式(11.9)得:Qy.123=SSy-Uy.12m =239.89-218.16=21.73 這個1.4055g

8、就是由表11.1所建立的三元回歸方程的估計標(biāo)準(zhǔn)誤。再由式(11.8)得:四、多元線性回歸的假設(shè)測驗(一)多元回歸關(guān)系的假設(shè)測驗 在多元回歸分析中,可將依變量的總變異分解為多元回歸和離回歸兩個部分,各項變異來源的平方和、自由度見下表。 多元線性回歸的方差分析表變異原因DFSSMSF多元回歸mUy/12mMS回MS回/ MS離離回歸n-m-1Qy/12mMS離總和n-1SSy令b1, b2, , bm所代表的總體回歸系數(shù)為 1、 2、 m,則有H0: 1 = 2 = = m = 0HA: 1、 2、 m不全等于零。如果F F0.05,(m,n-m-1),稱該回歸在0.05 水平上顯著;如果F F0

9、.01,(m,n-m-1),則稱該回歸在0.01水平上顯著;如果F F0.05,(m,n-m-1), 稱該回歸不顯著。 【例11.3】試對例11.1資料做多元回歸關(guān)系的假設(shè)測驗。解:由例11.1已算得Uy/123=218.16, Qy/123=21.73, SSy=239.89 和 n=15。變異原因 DF SS MS F F0.01三元回歸 3 218.16 72.72 36.72 6.22離回歸 11 21.73 1.98 總和 14 239.89 表11.3 表11.1資料三元回歸的假設(shè)測驗F=36.72F0.01=6.22,為極顯著,故否定H0:1=2=3=0, 推斷小麥單株產(chǎn)量依每株

10、穗數(shù)、穗粒數(shù)和千粒重的三元線性回歸為極顯著。 注意: 1、多元線性回歸顯著并不排除有多元非線性回歸關(guān)系的存在; 2、多元線性回歸顯著,并不排除其中存在著與y無線性回歸關(guān)系的自變量的可能性。 正如方差分析中F測驗顯著,并不代表所有處理平均數(shù)的差異都顯著。 多元線性回歸關(guān)系的假設(shè)測驗實質(zhì)上是測定各個自變量對y的綜合作用是否有真實的回歸關(guān)系。 如果某些自變量和y有極顯著的回歸關(guān)系,而另一些自變量和 y沒有回歸關(guān)系,在測驗綜合作用時往往不能予以區(qū)分。 因此,要評定各個自變量對y是否有真實的回歸關(guān)系必須對各個偏回歸系數(shù)做假設(shè)測驗。(二)偏回歸系數(shù)的假設(shè)測驗 偏回歸系數(shù)假設(shè)測驗就是測驗各個偏回歸系數(shù)bi是

11、否來自i=0的總體。 H0: i=0 ; HA: i0。 可用t測驗或F測驗進(jìn)行。1、 t測驗 偏回歸系數(shù)bi的標(biāo)準(zhǔn)誤為 由于 服從df=n-m-1的t分布,故在H0: i=0 的假設(shè)下,可由 測定bi是否抽自i=0 的總體。 【例11.4】試對例11.1資料的b1=1.8485, b2=0.4678, b3=0.6421做t測驗。 在例11.2已算得 sy/123=1.4055, c11=0.034847, c22=0.048472, c33=0.0307266查附表3,得t0.05,11=2.201, t0.01,11=3.106, b1的t=7.04t0.01,11為極顯著;b2的t=1

12、.51t0.05,11為顯著。 即每株穗數(shù)(x1)和千粒重(x3)對產(chǎn)量皆有顯著的回歸關(guān)系。 對于b2應(yīng)接受H0,否定HA,即每穗粒數(shù)對產(chǎn)量沒有真實的回歸關(guān)系。2、F測驗 在 多元回歸中,Uy12m總是隨著m的增多而增大,如果取消一個自變量xi,則Uy12m-1要比Uy12m減少Upi. Upi就是y在xi上的偏回歸平方和,也就是由xi的變異所產(chǎn)生的回歸部分平方和,具有1個自由度。因此,由可測定bi是否來自i=0的總體?!纠?1.5】試對例11.1資料的b1=1.8485, b2=0.4678, b3=0.6421做F測驗。由以上計算結(jié)果可算得 y對x1的偏回歸平方和為 Up1=b12/c11

13、=1.84852/0.034847=98.06 y對x2的偏回歸平方和為 Up2=b22/c22=0.46782/0.048472=4.51 y對x3的偏回歸方和為 Up3=b32/c33=0.64212/0.0307266=13.42 表11.4 例11.1資料偏回歸系數(shù)的假設(shè)測驗 變異來源DFSSMSFF0.05F0.01因x1的偏回歸198.0698.0649.53*4.849.65因x2的偏回歸14.514.512.28因x3的偏回歸113.4213.426.78*離 回 歸1121.731.98這里有一個問題值得引起注意: 表11.3中y因x1、x2、x3的三元回歸平方和 Uy/12

14、3=218.16 而表11.4中y因x1、x2、x3的偏回歸平方和分別為Up1=98.06, Up2=4.51, Up3=13.42, 則Up1+Up2+Up3=115.99 Upi (rij0) Uy/12m Upi (rij0)(三)自變數(shù)的重要性和取舍 在多元回歸中,各個自變量對于y的影響是不同的。凡是偏回歸平方和最小的必然是在這些因素中對y作用最小的一個。通常經(jīng)過偏回歸系數(shù)的假設(shè)測驗后,對于那些不顯著的自變量可以舍去 。1. 由于自變量間可能存在著相關(guān),不能一次將所有不顯著的自變量全部舍去。2. 通常先棄去那個Upi最小而又不顯著的自變量,然后再作分析。 4. 如此重復(fù)進(jìn)行,直至回歸方

15、程中所包含 的自變量都達(dá)顯著時為止。這時的多元 回歸方程稱為最優(yōu)多元回歸方程。3. 這時,各自變量對y的偏回歸平方和 都 將有所改變,應(yīng)對它們重新測驗,再棄 去那個Upi最小而又不顯著的自變量。 【例11.6】試對表11.1資料的自變量進(jìn)行取舍,建立最優(yōu)多元線性回歸方程。 由例11.4偏回歸系數(shù)的假設(shè)測驗知,x2的偏回歸系數(shù)b2不顯著,將其從多元回歸方程中剔除,作二元回歸分析,計算如下:b*1=1.8485-(-0.0004579/0.048472)0.4678 =1.8529c*11=0.034847-(-0.0004579)2/0.048472 =0.034843b*3=0.6421-(0

16、.0031258/0.048472)0.4678 =0.6119c*33=0.0307266-(0.0031258)2/0.048472 =0.030525將b*1,b*3代入式(11.3)得 a=13.47-1.85299.86-0.611935.71=-26.65二元回歸方程為 =-26.65+1.8529x1+0.6119x3 對b*1,b*3進(jìn)行顯著性檢驗: Uy/13=b*1X1Y+b*3X3Y =1.852991.02+0.611973.52 =213.64 Qy/13=239.89-213.64=26.25這時因已剔除了一個自變量,故離回歸平方和的自由度為n-(m-1)-1=n-

17、m。因此所建立的二元回歸方程 = - 26.65+1.8529x1+0.6119x3為最優(yōu)回歸方程。 11.2 多元相關(guān)和偏相關(guān) 在M=m+1個變量中,m個變量的綜合與1個變量的相關(guān),叫做多元相關(guān)或復(fù)相關(guān)。而在其余M-2個變量都固定時 ,指定的兩個變量間的相關(guān),叫做偏相關(guān)或凈相關(guān)。1、多元相關(guān)系數(shù) y依x1,x2,xm的多元決定系數(shù)或復(fù)決定系數(shù)R2y12m定義為:R2y/12m=Uy/12m/SSy 而多元相關(guān)系數(shù)或復(fù)相關(guān)系數(shù)Ry12m則定義為 即多元相關(guān)系數(shù)為多元回歸平方和與總變異平方和之比的平方根。 由于0Uy.12m SSy,故Ry/12m的取值區(qū)間為0,1。在自由度一定時,Ry/12m

18、愈近于1,復(fù)相關(guān)愈密切; Ry/12m愈近于0,愈不密切。Uy/12m一般總是隨m的增多而加大。因為多元回歸平方和一定大于任一個自變量對y的回歸平方和,故多元相關(guān)系數(shù)一定要比任一xi和y的簡單相關(guān)系數(shù)的絕對值大。2、偏相關(guān)系數(shù) 在M個變量中固定M-2個變量,余下的兩個變量的線性相關(guān)系數(shù)叫做偏相關(guān)系數(shù)或凈相關(guān)系數(shù)。 它表示在其他各個變量都保持一定時,指定的兩個變量間相關(guān)的密切程度。 變量在實際上都是不固定的,所謂固定是指應(yīng)用統(tǒng)計方法,消去不固定的影響。因此偏相關(guān)系數(shù)rij.就是變量xi和xj,當(dāng)它們和其他變量的相關(guān)都消去后的線性相關(guān)系數(shù)。 兩個變量間的簡單相關(guān)系數(shù)不能正確說明這兩個變量間的真正關(guān)系。在多個變量錯綜復(fù)雜的關(guān)系中,偏相關(guān)系數(shù)可幫助排除假像相關(guān),找到真實關(guān)系最為密切的變量。 表示x3,x4,xm變量都固定時,x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論