多元線性回歸與最小二乘估計(jì)

上傳人：y*** IP屬地：天津上傳時(shí)間：2021-05-25 格式：DOCX 頁數(shù)：30 大?。?51.91KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩25頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多元線性回歸與最小二乘估計(jì)1 假定條件、最小二乘估計(jì)量和高斯馬爾可夫定理多元線性回歸模型：yt = 0 +1xt1 +2xt2 +k- 1xt k -1 + ut（1.1）其中 yt是被解釋變量（因變量），xt j是解釋變量（自變量），ut是隨機(jī)誤差項(xiàng)， i, i = 0, 1, k - 1 是回歸參數(shù)（通常未知）。對(duì)經(jīng)濟(jì)問題的實(shí)際意義： yt與 xt j存在線性關(guān)系， xt j, j = 0, 1, , k - 1, 是 yt的重要解釋變量。 ut 代表眾多影響 yt 變化的微小因素。使 yt 的變化偏離了 E（ yt） =多元線性回歸與最小二乘估計(jì)1 假定條件、最小二乘估計(jì)量和高斯

2、馬爾可夫定理多元線性回歸模型：yt= 0 +1xt1 +2xt2 +k- 1xt k -1 + ut（1.1）其中 yt是被解釋變量（因變量），xt j是解釋變量（自變量），ut是隨機(jī)誤差項(xiàng)， i, i = 0, 1, k - 1 是回歸參數(shù)（通常未知）。對(duì)經(jīng)濟(jì)問題的實(shí)際意義： yt與 xt j存在線性關(guān)系， xt j, j = 0, 1,k - , 1, 是 yt的重要解釋變量。ut代表眾多影響 yt變化的微小因素。使 yt的變化偏離了 E（ yt） =0 + 1xt1 +2xt2 + k- 1xt k -1 決定的 k 維空間平面。當(dāng)給定一個(gè)樣本（ yt, xt1, xt2 , xt

3、 k -1）, t = 1, 2,T時(shí), , 上述模型表示為y1 =0 +1x11 +2x12 + k- 1x1 k -1 + u1, 經(jīng)濟(jì)意義： xt j 是 yt的重要解釋變量。 y2 =0 +1x21 +2x22 + k- 1x2 k -1 + u2, 代數(shù)意義： yt與 xt j 存在線性關(guān)系。 .幾何意義： yt 表示一個(gè)多維平面。yT =0 +1x T 1 +2x T 2 +k- 1x T k -1 + uT,（1.2）此時(shí) yt與x t i已知， j與 ut未知。x1jx1k-x2jx2k-xTjxTk-1?T?( 驏uu ?u桫+)1k(10 1 -驏bb b桫k)k(T(1.

4、3)(1.4)Y= X+ u ,為保證得到最優(yōu)估計(jì)量，回歸模型（ 1.4）應(yīng)滿足如下假定條件。假定隨機(jī)誤差項(xiàng) ut 是非自相關(guān)的，每一誤差項(xiàng)都滿足均值為零，方差2相同且為有限值，即E(u) = 0 =0驏 0?,2Var (u) = E( u?u? ) = I =.0001驏 0?2假定解釋變量與誤差項(xiàng)相互獨(dú)立，即E(X u) = 0.假定解釋變量之間線性無關(guān)。rk(X X) = rk(X) = k . 其中 rk( ) 表示矩陣的秩。假定解釋變量是非隨機(jī)的，且當(dāng) T 時(shí)T 1X X Q . 其中 Q 是一個(gè)有限值的非退化矩陣。最小二乘 (OLS) 法的原理是求殘差(誤差項(xiàng)的估計(jì)值)平

5、方和最小。代數(shù)上是求極值問題。minS = (Y - X ?) (Y- X ?) = YY- ?XY - Y X ? + ?X X ?= Y Y - 2 ?X Y + ?X X ?.(1.5)因?yàn)?Y X ? 是一個(gè)標(biāo)量，所以有 Y X ? =?X Y。(1.5) 的一階條件為：化簡(jiǎn)得?S= - 2XY + 2X X ?= 0?b?(1.6)X Y = X X ?因?yàn)?(X X) 是一個(gè)非退化矩陣(見假定)，所以有?= (X X)-1 X Y因?yàn)? 1.5)的二階條件X1.7)(1.8) 得到滿足，所以 (1.7) 是 (1.5)因?yàn)?X 的元素是非隨機(jī)的，估計(jì)量。的解。-1 (X X)

6、 -1X是個(gè)常數(shù)矩陣，則 ?是 Y 的線性組合，為線性?2S抖b? b?求出 ? ，估計(jì)的回歸模型寫為(1.9)Y = X ?+ u?(1.10)其中 ?= ( ?0 ?1 b?k- 1 ) 是的估計(jì)值列向量， u?= (Y - X ?) 稱為殘差列向量。因?yàn)?u? = Y - X ?= Y - X (X X)-1X Y = I - X (X X)-1 X Y所以 u?也是 Y 的線性組合。 ? 的期望和方差是E( ?) = E(X X)-1 X Y = E(X X)-1X (X+ u)-1=+ (X X)-1X E(u) =(1.11)Var( ?) = E( ?) ( ?)= E(X X)

7、-1X uu X (X X)-1-12 -1 2 -1= E(X X)-1X 2I X (X X)-1 = 2(X X)-1 .(1.12)高斯馬爾可夫定理：若前述假定條件成立， OLS 估計(jì)量是最佳線性無偏估計(jì)量。 ? 具有無偏性。 ?具有最小方差特性。 ? 具有一致性，漸近無偏性和漸近有效性。2. 殘差的方差2s2 = u? u?/ (T - k)(1.13)s 2是2 的無偏估計(jì)量， E(s 2 ) =2。 ?的估計(jì)的方差協(xié)方差矩陣是Var ( ?) = s (X X)-1(1.14)3. 多重確定系數(shù)(多重可決系數(shù))Y = X ?+ u?=Y? + u?(1.15)總平方和T

8、2 2SST = ? t=1(yt- y) = Y Y - Ty2,(1.16)其中 y是 yt 的樣本平均數(shù)，定義為 y= (? tT= 1 yt ) / T ?；貧w平方和為(1.17)(1.18)(1.19)(1.20)SSR = ? t=1(y?t- y)2 = Y?Y?- T y2 其中 y 的定義同上。殘差平方和為T 2 T 2SSE = ? t=1(yt - y?t)2 = ? t=1u?t2 = u?u? 則有如下關(guān)系存在，SST = SSR + SSE2 SSR Y?Y? - Ty2R2 =R = SST Y Y -Ty2顯然有 0 R 2 1。R 2 1，擬合優(yōu)度越好。4.

9、調(diào)整的多重確定系數(shù)當(dāng)解釋變量的個(gè)數(shù)增加時(shí)，通常 R2 不下降，而是上升。為調(diào)整因自由度減小帶來的損失，又定義調(diào)整的多重確定系數(shù) R 2如下：TT- 1k(1- R2 )T- k(1.21)SSE/(T- k)= 1- (T- 1 )(SST- SSR) = 1 -SST /(T - 1)T- k SST5. OLS 估計(jì)量的分布2若 u N (0, 2I ) ，則每個(gè) ut 都服從正態(tài)分布。于是有2Y N (X , 2I )(1.22)因 ?也是 u的線性組合(見公式 1.7)，依據(jù)( 1.11)和( 1.12)有(1.23)(1.24)?N (, 2 (X X)-1 )6. 方差分析與 F

10、檢驗(yàn)與 SST 相對(duì)應(yīng)，自由度 T-1 也被分解為兩部分，T-1)= (k -1) + (T- k)SSRSSE回歸均方定義為 MSR = SSR ，誤差均方定義為 MSE = SSEk- 1T- k表 1.1 方差分析表方差來源平方和自由度均方回歸SSR =Y?Y?-Ty 2k-1MSR = SSR / (k-1)誤差SSE = u?u?T-kMSE = SSE / (T-k)總和2SST= Y Y - T y2T-1H0: 1=2= =k-1 = 0; H1: j不全為零MSRMSESSR /(k - 1) F (k-1,T-k)SSE/(T - k)(1.25)設(shè)檢驗(yàn)水平為，則檢驗(yàn)規(guī)

11、則是，若 F F (k-1,T-k) , 拒絕 H0。t 檢驗(yàn)示意圖7 t 檢驗(yàn)H0：j = 0, (j = 1, 2,k-1,) , H1： j0t=s(b?j )= b?jVar(b?)j+1 =b?j s2(XX )- 1j+1(1.26)判別規(guī)則：若 tt k 接受 H 0 ；若 t t k 拒絕 H 0 。8i 的置信區(qū)間t(T-k)(1)全部 i 的聯(lián)合置信區(qū)間接受F = 1 ( - ? ) (X X) ( - ? ) / s2 k(1.27)(- ?) (X X ) (- ?) SST。為維持 SSE+SSR=SST，迫使 SSR t ) = , P( t F (k-1,T-k)

12、 , 拒絕t 檢驗(yàn)示意圖?js( ?j )?jVar( ?)j 1 ?js2(XX) j 1 t(T-k)(1.26)(1.25)設(shè)檢驗(yàn)水平為，則檢驗(yàn)規(guī)則是，若 H0。7 t 檢驗(yàn)H0： j = 0, (j = 1, 2,k-1,) , H1： j 0判別規(guī)則：若 t t k 接受 H 0；若 t t k 拒絕 H 0。8 i 的置信區(qū)間(1) 全部 i 的聯(lián)合置信區(qū)間接受F =1k (- ? ) (X X) (- ? ) / s2(1.27)( - ? ) (X X ) ( - ? )F (k, T-k)s k F (k, T-k)，它是一個(gè) k 維橢球。(1.28)2) 單個(gè) i 的

13、置信區(qū)間(1.29)i = ?i v j 1 s t k .9預(yù)測(cè)1)點(diǎn)預(yù)測(cè)C = (1 xT+1 1 xT+1 2 xT+1 k-1 )(1.30)則 T + 1 期被解釋變量 yT+1 的點(diǎn)預(yù)測(cè)式是，y?T 1= C ?= ?0 + ?1 xT+1 1 + + ? k-1 xT+1 k-1(1.31)2)E(yT+1) 的置信區(qū)間預(yù)測(cè)首先求點(diǎn)預(yù)測(cè)式 C ?的抽樣分布E( y?T 1) = E(C ?) = CVar( y?T 1) = Var(C ?) = E(C ?- C ) (C ?- C ) (1.32)= EC ( ?- ) C ( ?- ) = C E( ?- ) ( ?- )

14、C 2 -1 2 -1= CVar( ?)C = C (X X ) C = C (X X ) C ,(1.33)因?yàn)??服從多元正態(tài)分布，所以 C ?也是一個(gè)多元正態(tài)分布變量，即y?T 1C?(C ,2C(XX)-1C)(1.34)構(gòu)成 t 分布統(tǒng)計(jì)量如下置信(1.36)y?T 1 E(y?T 1)s C(X X ) 1C區(qū)間C ? C s C(X X) 1CC?單個(gè) yT+1 的置信區(qū)間預(yù)測(cè)yT+1 值與點(diǎn)預(yù)測(cè)值 y?T 1有以下關(guān)系(3)yT+1 = y?T 1+ uT+1其中 uT+1 是隨機(jī)誤差項(xiàng)。因?yàn)镋( yT+1) = E( y?T 1+ uT+1) = Ct(T-k)/2(1,T

15、-k)(1.35)C(X X ) 1C(1.37)(1.38)2 -1Var( yT+1) = Var( y?T 1) + Var(uT+1) = 2 C (X X)-1C +2 -1= 2 (C (X X)-1C + 1)因?yàn)??服從多元正態(tài)分布，所以 yT+1 也是一個(gè)多元正態(tài)分布變量，即 yT+1 N (C , 2C (X X ) -1C+ 1)(1.39)與上相仿，單個(gè)yT+1的置信區(qū)間是/2 (T-k)C(XX) 1C 1(1.40) 計(jì)算舉例：見計(jì)量經(jīng)濟(jì)分析第 19-27 頁，熟悉矩陣運(yùn)算)10. 預(yù)測(cè)的評(píng)價(jià)指標(biāo)注意，以下 6 個(gè)公式中的 et 表示的是預(yù)測(cè)誤差，不是殘差。可以在樣

16、本內(nèi)、外預(yù)測(cè)。(3) 預(yù)測(cè)誤差。預(yù)測(cè)誤差定義為et = y?t - yt, t = T+1, T+2, (4) 相對(duì)誤差 PE (Percentage Error) 。PE = y?t yt , t = T+1, T+2, yt(3) 誤差均方根 rms error (Root Mean Squared Error)rms error =T1(y?t yt)Tt1(4) 絕對(duì)誤差平均 MAE (Mean Absolute Error)1TMAE1y?t ytTt1(5) 相對(duì)誤差絕對(duì)值平均 MAPE (Mean Absolute Percentage Error)MAPE =(6) Theil

17、系數(shù) (Theil Coefficent)T t 1 (y?t yt) 2T ,Theil = 1 T t 1 1 T , t= 1, 2, T1 t 1(y?t)2T1 t 1(yt)2以上 6 個(gè)式子中， y?t表示預(yù)測(cè)值， yt表示實(shí)際值。 Theil 的取值范圍是 0,1 。顯然在預(yù) 測(cè)區(qū)間內(nèi)，當(dāng) y?t與 yt完全相等時(shí)， Theil = 0 ；當(dāng)預(yù)測(cè)結(jié)果最差時(shí)， Theil = 1。公式中的累加范圍是用 1至 T表示的，當(dāng)然也可以用于樣本外預(yù)測(cè)評(píng)價(jià)。11建模過程中應(yīng)注意的問題( 1)研究經(jīng)濟(jì)變量之間的關(guān)系要剔除物價(jià)變動(dòng)因素。以上圖為例，按當(dāng)年價(jià)格計(jì)算，我國 1992 年的 GD

18、P 是 1980 年的 5.9 倍，而按固定價(jià)格計(jì)算，我國 1992 年的 GDP 是 1980 年的 2.8 倍。另外從圖中還可看出， 1980-1992 期間按名義價(jià)格計(jì)算的 GDP 曲線一直是上升的，而按不變價(jià)格( 1980 年價(jià)格)計(jì)算的 GDP 曲線在 1989 年出現(xiàn)一次下降。可見研究經(jīng)濟(jì)變量應(yīng)該剔除物價(jià)變動(dòng)因素。(2) 依照經(jīng)濟(jì)理論以及對(duì)具體經(jīng)濟(jì)問題的深入分析初步確定解釋變量。例：我國糧食產(chǎn)量 = f(耕地面積、農(nóng)機(jī)總動(dòng)力、施用化肥量、農(nóng)業(yè)人口等)。但根據(jù)我國目前情況， “耕地面積”不是“糧食產(chǎn)量”的重要解釋變量。糧食產(chǎn)量的提高主要來自科技含量的提高。例：關(guān)于某市的食

19、用油消費(fèi)量，文革前常駐人口肯定是重要解釋變量。現(xiàn)在則不同，消費(fèi)水平是重要解釋變量，因?yàn)槭秤糜凸?yīng)方式已改變。(3) 當(dāng)引用現(xiàn)成數(shù)據(jù)時(shí)，要注意數(shù)據(jù)的定義是否與所選定的變量定義相符。例：“農(nóng)業(yè)人口” 要區(qū)別是 “從事農(nóng)業(yè)勞動(dòng)的人口” 還是相對(duì)于城市人口的 “農(nóng)業(yè)人口” 。例： 2002 年起我國將執(zhí)行新的規(guī)定劃分三次產(chǎn)業(yè)。即將農(nóng)、林、牧、副、漁服務(wù)業(yè)從原第三產(chǎn)業(yè)劃歸第一產(chǎn)業(yè)。(4) 通過散點(diǎn)圖，相關(guān)系數(shù)，確定解釋變量與被解釋變量的具體函數(shù)關(guān)系。 (線性、非線性、無關(guān)系)5)謹(jǐn)慎對(duì)待異常值。不能把建立模型簡(jiǎn)單化為一個(gè)純數(shù)學(xué)過程，目的是尋找經(jīng)濟(jì)規(guī)律。年INV (投資)IMPOR

20、T (進(jìn)口)19912.56200023.4700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.2000(6) 過原點(diǎn)回歸模型與非過原點(diǎn)回歸模型相比有如下不同點(diǎn)。以一元線性過原點(diǎn)模型， yt =1 xt + ut ，為例，u?t = 0不一定成立。原因是正規(guī)方程只有一個(gè)(不是兩個(gè))，( u?t 2)? = 2(yt - ?1xt) (- xt) = 0，即u?t xt

21、= 0，而沒有u?t = 0。所以殘差和等于零不一定成立?？蓻Q系數(shù)R 2 有時(shí)會(huì)得負(fù)值！原因是有時(shí)會(huì)有 SSESST。為維持 SSE+SSR=SST，迫使 SSR t ) = , P( t t ) =(10) 對(duì)于多元回歸模型，當(dāng)解釋變量的量綱不相同時(shí)，不能在估計(jì)的回歸系數(shù)之間比較大小。若要在多元回歸模型中比較解釋變量的相對(duì)重要性，應(yīng)該對(duì)回歸系數(shù)作如下變換?j * = ?js(xtj ) s(yt)j = 1, 2,k-1(1.41)1* xt1 x1 +s(xt1)2* xt2 x2 + + ut* s(xt2)其中 s(xt) 和 s(yt) 分別表示 xt 和 yt的樣本標(biāo)準(zhǔn)差。 ?j

22、*可用來直接比較大小。以二元模型為例，標(biāo)準(zhǔn)化的回歸模型表示如下(標(biāo)準(zhǔn)化后不存在截距項(xiàng)) yt y = s(yt ) = 兩側(cè)同乘 s(yt)，得(yt-y) =1* s(yt )s(xt1)(xt1 - x1) +2* s(yt )(xt2 -x2) + + ut* s(yt) s(xt2)所以有j* s(yt )s(xtj )j, 即 j* = j s(xtj)s(yt)= 1, 2,k-1既是 (1.41) 式。(11) 利用回歸模型預(yù)測(cè)時(shí)，解釋變量的值最好不要離開樣本范圍太遠(yuǎn) 。原因是根據(jù) 預(yù)測(cè)公式離樣本平均值越遠(yuǎn)，預(yù)測(cè)誤差越大；有時(shí)，樣本以外變量的關(guān)系不清楚。當(dāng)樣本外變量的關(guān)系

23、與樣本內(nèi)變量的關(guān)系完全不同時(shí)，在樣本外預(yù)測(cè)就會(huì)發(fā)生錯(cuò)誤。圖 3.10 給出青銅硬度與錫含量的關(guān)系曲線。若以錫含量為 0-16%為樣本，求得的關(guān)系近似是線性的。當(dāng) 把預(yù)測(cè)點(diǎn)選在錫含量為 16%之外時(shí)，顯然這種預(yù)測(cè)會(huì)發(fā)生嚴(yán)重錯(cuò)誤。因?yàn)殄a含量超過16%之后，青銅的硬度急劇下降，不再遵從錫含量為0-16%時(shí)的關(guān)系。青銅硬度16%錫含量( %)圖 3.9 yt 的區(qū)間預(yù)測(cè)的變化圖 3.10 青銅硬度與錫含量的關(guān)系(12) 回歸模型的估計(jì)結(jié)果應(yīng)與經(jīng)濟(jì)理論或常識(shí)相一致。如邊際消費(fèi)傾向估計(jì)結(jié)果為 1.5，則模型很難被接受。(13) 殘差項(xiàng)應(yīng)非自相關(guān)(用 DW 檢驗(yàn)，亦可判斷虛假回歸) 。否則說明仍有重要解釋變量被遺漏在

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

多元線性回歸與最小二乘估計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

多元線性回歸與最小二乘估計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔