Chapter1_線性回歸模型的OLS估計(jì)_第1頁
Chapter1_線性回歸模型的OLS估計(jì)_第2頁
Chapter1_線性回歸模型的OLS估計(jì)_第3頁
Chapter1_線性回歸模型的OLS估計(jì)_第4頁
Chapter1_線性回歸模型的OLS估計(jì)_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第1章 線性回歸模型線性回歸模型用于考察多個(gè)自變量對(duì)一個(gè)因變量的影響。例如施肥量、土質(zhì)與作物產(chǎn)量的關(guān)系;受教育年數(shù)、工齡、性別對(duì)收入的影響,警察數(shù)量、下崗職工對(duì)城市犯罪率的影響等。以雙變量為例。x1、x2對(duì)y存在影響,同時(shí)x1和x2之間也存在相關(guān)關(guān)系。如圖所示。X1X2y1.1 模型設(shè)定假定變量yt與k個(gè)變量xt j, j = 1, , k,存在線性關(guān)系。多元線性回歸模型表示為, 1.1其中yt是被解釋變量(因變量),xj t是解釋變量(自變量),ut是隨機(jī)誤差項(xiàng),bi, i = 0, 1, , k是回歸參數(shù)(通常未知)。這說明xj t, j = 1, , k, 是yt的重要解釋變量。ut代表

2、其他影響yt變化的隨機(jī)因素。 給定一個(gè)樣本(yt , xt1, xt2 , xt k),t = 1, 2, , T,上述模型表示為, 1.2令 , , 則(3.3) 式可以寫為, y = Xb + u 1.31.2 參數(shù)估計(jì)1.2.1 參數(shù)的點(diǎn)估計(jì)1 最小二乘法(OLS)設(shè)殘差平方和用Q表示, 1.4上式中,因?yàn)楹褪且粋€(gè)標(biāo)量()的結(jié)果是一個(gè)數(shù)值標(biāo)量,而不是向量,同理也是標(biāo)量;向量是既有大小又有方向的量),所以有。求Q對(duì)的一階偏導(dǎo)數(shù),并令其為零, 1.5化簡(jiǎn)得, 假定1 解釋變量之間線性無關(guān)。Rank(X'X) = Rank(X) = K1 1.6其中Rank(×)表示矩陣的秩

3、,矩陣的秩等于它所含的線性無關(guān)的列向量的最大數(shù)目,有:秩(A)= 秩(A)min(行數(shù),列數(shù)),。即解釋變量之間彼此線性無關(guān)。如果假定1成立,可以直接得到的最小二乘估計(jì)量, 1.7Stata程序?qū)崿F(xiàn)的例子:*begin1/*下面是最簡(jiǎn)單的一元回歸,操作一下看結(jié)果*/use consume, clear /使用consume.dta數(shù)據(jù)文件regress consume income /*用reg命令回歸,常數(shù)項(xiàng)是stata自動(dòng)加入的*/reg consume income if income>300 /對(duì)收入(income)大于300的樣本進(jìn)行回歸reg consume income i

4、n 5/11 /對(duì)第5至11個(gè)樣本進(jìn)行回歸regress consume income /再對(duì)全部回歸樣本回歸一次,因?yàn)橄旅嬉玫交貧w的預(yù)測(cè)值predict y, xb /根據(jù)X預(yù)測(cè)y的擬合值predict e, residual /預(yù)測(cè)回歸殘差值list /列出所有變量/*根據(jù)公式估計(jì)*/local N = _N /取得樣本個(gè)數(shù),_N是系統(tǒng)變量,其值等于樣本數(shù)量gen cons = 1 /生成一列值全為1的向量,對(duì)應(yīng)于式1.1中的常數(shù)項(xiàng)0mkmat consume, mat(y) /將數(shù)據(jù)庫中的consume列定義為矩陣y(此時(shí)y是向量)mkmat income cons, mat(X) /

5、將數(shù)據(jù)庫中的imcome列和新生成的定義為矩陣Xmat b = inv(X'*X)*X'*y / 式的stata實(shí)現(xiàn)mat list b /列出向量值,和reg結(jié)果比較看是否一樣mat list y /列出y的觀測(cè)值,和前面是一樣的mat list X /列出X矩陣的值,注意到它有一列是1,即常數(shù)項(xiàng)取值為1(對(duì)應(yīng)0)*over1表示y的擬合值,表示殘差項(xiàng)。擬合值和殘差項(xiàng)經(jīng)常表示為另外一種形式: 1.8 1.9其中,稱為映射矩陣。Py表示y對(duì)X回歸的擬合值。,稱為零化子矩陣。My表示y對(duì)X的殘差項(xiàng)。因此,y總是可以表示為y=Py+My??梢宰C明,P和M都是對(duì)稱冪等矩陣,即 M =

6、 M ',P = P ' M2 = M ' M = M ',P 2 = P ' P = P ' 1.10且有 PX=X, MX=0 1.11M+P=I,PM=0 由正規(guī)方程組可得,即。進(jìn)而可得。即1.2.2 FML定理接下來我們介紹OLS估計(jì)量的一個(gè)重要性質(zhì),即FML定理(Frisch and Waugh(1933)、Lovell (1963))。這一定理體現(xiàn)了線性回歸模型參數(shù)的經(jīng)濟(jì)含義。在虛擬變量等問題的處理中重要的應(yīng)用。將所有的解釋變量拆分為兩部分。模型表述為: 1.12殘差平方和為: 1.13其中和為標(biāo)量(可以看到,所有的矩陣表達(dá)式結(jié)果均為

7、標(biāo)量,但值不一樣,只能把和這二個(gè)標(biāo)量值相同的項(xiàng)合并),同樣,對(duì)應(yīng)的正規(guī)方程組為: 1.14由(1)式可得: 1.15由此可以看出,如果,則。即當(dāng)X2與X1正交時(shí),模型與的參數(shù)估計(jì)量是完全相同的。將(1.15)式帶入正規(guī)方程(2)可得到解: 1.16其中,M1表示X1的零化矩陣,根據(jù)零化矩陣的性質(zhì), 1.17其中,表示X2對(duì)X1回歸的殘差項(xiàng),表示y對(duì)X1回歸的殘差項(xiàng)。由此得到如下定理。Frisch-Waugh定理:與得到相同的估計(jì)量和殘差。(式1.12兩邊左乘MX1,然后再回到式1.17,估計(jì)過程可參考http:/personal.rhul.ac.uk/uhte/006/ec5040/Frisc

8、hWaugh.pdf)即,y對(duì)X1、X2的回歸方程中,X2的參數(shù)估計(jì)量等價(jià)于y對(duì)X1回歸的殘差項(xiàng)對(duì)X2對(duì)X1回歸的殘差項(xiàng)進(jìn)行回歸得到的參數(shù)估計(jì)量,二者的殘差也是相同的。這一定理表明,多元回歸模型中,回歸參數(shù)2體現(xiàn)了“排除”(partial out)X1影響后的“凈”影響。因此,2也稱作“偏回歸系數(shù)”,體現(xiàn)了X2對(duì)y的凈影響,稱之為“偏影響”(partial effect)。也正是由于回歸參數(shù)2體現(xiàn)了排除X1影響后的“凈”影響,因此把X1稱作“控制變量”。也就是說,雖然實(shí)際經(jīng)濟(jì)環(huán)境中,我們幾乎不能控制X1的變化。但在多元回歸模型中,2已經(jīng)把X1的影響排除掉了,因此2理解為“當(dāng)其他條件不變的情況下

9、”,X2對(duì)y的邊際影響。對(duì)于如下結(jié)構(gòu)關(guān)系:X1X2y如果回歸模型,參數(shù)b1的估計(jì)量不會(huì)顯著,因?yàn)閷2的影響排除后,x1對(duì)y不存在任何影響。例:*begin2/Consider an OLS regression of wage on education and ageuse "womenwk.dta", clear /使用womenwk.dta數(shù)據(jù)文件keep if work=1 /保留已工作婦女的樣本數(shù)據(jù)(即刪除未工作婦女樣本)reg wage education age / 估計(jì)多元回歸方程reg wage education /首先求出教育年限、年齡的對(duì)工資的影響系

10、數(shù)reg wage education /求education對(duì)wage的偏影響predict yhat2 if e(sample), resid /得出上面ols回歸的殘差并保存為變量yhat2reg age education /求education對(duì)age的偏影響predict xhat2 if e(sample), resid /得出上面ols回歸的殘差并保存為變量xhat2;if e(sample)指Obtain predictions for just the sample on which we fit the modelreg yhat2 xhat2 /用xhat2對(duì)yhat2

11、回歸,此時(shí)注意xhat2的系數(shù)與多元回歸方程中education的系數(shù)是一致的predict ahat if e(sample) sort xhat2two (scatter yhat2 xhat2) (line ahat xhat2) /Graphing this relationship*over21.2.3 參數(shù)估計(jì)量的分布特征設(shè)真實(shí)的DGP為y = Xb0 + u其中,b0為真實(shí)的參數(shù)。如果模型設(shè)定準(zhǔn)確的話,即y = Xb + u我們來看參數(shù)估計(jì)量的統(tǒng)計(jì)特征。對(duì)于模型錯(cuò)誤設(shè)定的情況,請(qǐng)參見本章“模型的設(shè)定分析”部分。1 一致性設(shè)模型的參數(shù)為,估計(jì)量為。如果,則稱具有一致性。一致性意味著

12、隨著樣本量的增加,參數(shù)估計(jì)量可以無限接近真實(shí)參數(shù),即估計(jì)量的分布為真實(shí)參數(shù)那一點(diǎn)。也就是說,隨著樣本量的增加,我們可以對(duì)真實(shí)參數(shù)作出越來越精確的推斷。一致性是對(duì)參數(shù)估計(jì)量的最低要求。如果估計(jì)誤差與樣本量沒有關(guān)系,那么很難建立真實(shí)參數(shù)與參數(shù)估計(jì)量之間的關(guān)系。 1.18由假定Rank(X)=K和大數(shù)定律,樣本均值的概率極限等于總體均值,可得: 1.19又由Slustky定理,。由此可得 1.202 的無偏性的隨機(jī)性來源于u的隨機(jī)性,因此,將寫為關(guān)于u的表達(dá)式。 1.21即是隨機(jī)向量u的線性組合。如果X為確定性變量,則的期望為: 1.22因此,是b的線性無偏估計(jì)量。但將X做為確定性變量過于簡(jiǎn)單。大多

13、數(shù)情況下,X與y一樣,具有明顯的隨機(jī)特征。假定2 u關(guān)于X的條件期望為0。Eu|X=0。假定2也稱作X具有嚴(yán)格外生性。具有兩個(gè)基本含義。第一個(gè)含義是,u的無條件均值也為0。這一特征可以通過迭代期望公式直接導(dǎo)出。E(u|X) = 0 E(u) = EE(u| X) = 0 1.23第二個(gè)含義是,u與X以及X的任何函數(shù)正交,不相關(guān)。 1.24Cov(g(X), u) = Eg(X)-E(g(X)u- E(u)= E(X-E(X)u=E g(X)-E(g(X)u = E g(X)u Eg(X)u = Eg(X)u- Eg(X)E(u) = 0當(dāng)g(X)= X時(shí),u與X正交,u與X不相關(guān)。E(Xu|

14、X)= XE(u| X) = 0, E(Xu) = EE(Xu|X) = E(X) E(u| X) = 0Cov(X, u) = E(X-E(X)(u- E(u)= E(X-E(X)u= EXu- E(X)E(u) = 0的條件期望為: 1.25當(dāng)然,的無條件期望為: 1.26因此,是b0的線性無偏估計(jì)量,具有無偏性。與之相關(guān)的另外一個(gè)較弱的假定是,ut關(guān)于Xt的條件期望為0。Eut|Xt=0。3 的有效性假定3 隨機(jī)誤差項(xiàng)向量u是同方差、無序列相關(guān)的。即協(xié)方差矩陣為:Var (u|X) = s 2I = s 2 1.27OLS估計(jì)量的方差矩陣為: 1.28其中,s 2 (X 'X)-

15、1第i行第j列的元素表示第i個(gè)參數(shù)估計(jì)量和和第j個(gè)參數(shù)估計(jì)量的協(xié)方差。當(dāng)i=j時(shí)(即對(duì)角線上的元素),表示第i個(gè)(包括常數(shù)項(xiàng))參數(shù)估計(jì)量的標(biāo)準(zhǔn)差。高斯馬爾科夫定理:在假定13成立的條件下,OLS估計(jì)量是最有效的線性無偏估計(jì)量。即:設(shè)是OLS估計(jì)量,為其他無偏估計(jì)量,那么。根據(jù)迭代期望公式,可以得到。將線性回歸模型中OLS估計(jì)量稱之為最佳線性無偏估計(jì)量(BLUE)。4 方差來源的方差對(duì)于統(tǒng)計(jì)推斷以及經(jīng)濟(jì)解釋都是至關(guān)重要的。方差越大,說明估計(jì)量越不精確,因此參數(shù)的置信區(qū)間就越大,假設(shè)檢驗(yàn)也就越不準(zhǔn)確。假設(shè)關(guān)注變量x2,設(shè)DGP為,模型設(shè)定為。根據(jù)FML定理, 其方差為:其中,表示x2對(duì)X1回歸的殘

16、差平方和。因此,方差也可以表述為: 1.29其中,SSE2、R22表示x2對(duì)X1回歸的殘差平方和與可決系數(shù),表示x2的離差平方和。因此,的方差來源于三部份:回歸標(biāo)準(zhǔn)差02、解釋變量之間的相關(guān)性、x2的波動(dòng)。回歸標(biāo)準(zhǔn)差02體現(xiàn)了模型中噪音的成分,噪音越多(02越大),那么解釋變量的影響就越難以判斷,估計(jì)量的就越不準(zhǔn)確。02是一個(gè)總體概念,與樣本無關(guān)。但它是未知的,在后面的章節(jié)推導(dǎo)出其無偏估計(jì)量。給定被解釋變量y,要想降低2,那就需要將更多的成分從隨機(jī)擾動(dòng)項(xiàng)中提取出來,方法只有一個(gè):加入新的解釋變量。但加入新的變量并不總是有效的,后面的章節(jié)還會(huì)詳細(xì)地加以解釋。Ri2體現(xiàn)了xi與其他解釋變量的線性相

17、關(guān)程度。相關(guān)程度越高,Ri2就越高,就越大。當(dāng)Ri21時(shí),。這時(shí),我們稱之為多重共線性(multicollinearity)。當(dāng)然,如果部分解釋變量之間存在多重共線性,不會(huì)影響其他的參數(shù)估計(jì)。比如,在下面的模型中:yt = b0 + b1 x1t + b2 x2t+ b3 x3t + ut如果x2t與x3t高度相關(guān),那么和會(huì)比較大。但x2t與x3t的相關(guān)性對(duì)沒有影響。事實(shí)上,如果x1t、x2t都與x3t不相關(guān),即R120,那么2/SST1,與x2t、x3t之間的相關(guān)性沒有任何關(guān)系。因此,如果模型關(guān)注的是x1t,那么就沒有必要在乎x2t、x3t之間的多重共線性問題。給定其他條件不變的情況下,xi

18、的離差平方和越大,的方差越小。提高xi的離差平方和的方法是增加樣本容量。當(dāng)樣本容量不斷增加時(shí),離差平方和可以無限大,可以有力地降低的方差。Arthur Goldberger針對(duì)人們面臨多重共線性問題的困擾提出了小樣本問題(micronumerosity),參見Goldberger(1991)。1.2.4 區(qū)間估計(jì)我們已經(jīng)知道了的分布形式,如果進(jìn)行區(qū)間估計(jì)的話,還需要估計(jì)s 2。根據(jù)前文所述,= Mu。殘差平方和為 1.30則殘差的方差估計(jì)量 1.31因s2是一個(gè)標(biāo)量,所以有 1.32其中tr(×) 表示矩陣的跡。tr(I ) = T,tr(X ( X ' X)-1 X 

19、9;) = k+1。因?yàn)閷?duì)于矩陣A B C有tr(ABC) = tr(BCA)= tr(CAB),所以tr(X (X 'X )-1 X ' ) = tr( (X 'X)-1 X 'X ) = tr(I ) = k+1。由此可見s 2是s 2的無偏估計(jì)量。/*估計(jì)s 2的Stata程序*/ *begin3/接bigin1local K = colsof(X) / colsof(X)函數(shù)取得矩陣X的列數(shù)(注意,不是行,行數(shù)即樣本數(shù))mat e = y - X*b /*殘差*/ mat s2 = (1/(N'-K')*(e'*e) /*即式1.

20、32的Stata表達(dá)*/mat list s2*over3得到了的方差估計(jì)量,就可以構(gòu)建區(qū)間估計(jì)了。/*回歸系數(shù)的標(biāo)準(zhǔn)誤差s.e.(bj)*/ *begin4/接bigin3mat Var_b = s2*inv(X'*X) /求出系數(shù)的協(xié)方差矩陣Var(b)mat list Var_b /列出協(xié)方差矩陣dis sqrt(0. 00099544) /結(jié)果和reg結(jié)果中變量income的系數(shù)S.E值一樣dis sqrt(90800.216) /結(jié)果和reg結(jié)果中常數(shù)項(xiàng)的S.E值一樣/*矩陣解析*/mat se_b = cholesky(diag(vecdiag(Var_b) / 這條命令將

21、回歸系數(shù)協(xié)方差矩陣中的對(duì)角元素開平方,結(jié)果和上面兩個(gè)開平方結(jié)果相等,只是以矩陣形式表達(dá)。其中,函數(shù)diag(v):將列向量轉(zhuǎn)化成對(duì)角方陣,對(duì)角線元素為列向量各元素;vecdiag(v):與diag(v)正好相反,將矩陣中的對(duì)角元素提出生成列向量;cholesky(v)為矩陣開平方;mat list se_b /列出回歸系數(shù)標(biāo)準(zhǔn)差向量reg consume income /reg命令是上面所有分析過程的集成*over4回歸系數(shù)t值的計(jì)算。公式:t = 系數(shù)/標(biāo)準(zhǔn)誤*begin5use consume, clearregress consume incomedis %4.2f 0.74711 /0

22、.0315506 /*income 的 t 值*/dis %4.2f 201.3083 / 301.3307 /*常數(shù)項(xiàng) 的 t 值*/*下面這條命令非常重要,以后都要涉及到*/eret list /列出reg命令估計(jì)后的內(nèi)存里的所有變量* 矩陣解析mat b0 = diag(b) /將系數(shù)向量轉(zhuǎn)化為對(duì)角陣mat list b0 /列出上面的矩陣mat inv_se_b = inv(se_b) /將回歸系數(shù)標(biāo)準(zhǔn)差矩陣求逆(數(shù)值變成分母)mat list inv_se_b /列出系數(shù)標(biāo)準(zhǔn)差逆矩陣mat t= hadamard(b0, inv_se_b) /將系數(shù)對(duì)角陣與標(biāo)準(zhǔn)差逆矩陣相乘(事實(shí)上相

23、當(dāng)于前者除以系數(shù)標(biāo)準(zhǔn)差矩陣),生成t值矩陣mat list t mat t = vecdiag(t) /將t值矩陣對(duì)角線元素提出reg consume income /上面的結(jié)果等同于reg命令結(jié)出的結(jié)果。*over51.2.5 殘差的分布接下來我們進(jìn)一步考察殘差的特征。上面我們利用殘差估計(jì)隨機(jī)誤差項(xiàng)的方差,后面很多統(tǒng)計(jì)檢驗(yàn)都要利用殘差。由, 可以得到幾個(gè)基本結(jié)論。(1)每個(gè)殘差都是所有誤差項(xiàng)的線性組合。因此,雖然u同方差、無序列相關(guān),但是異方差、存在序列相關(guān)的。(2)。因此,殘差的方差小于隨機(jī)誤差項(xiàng)的方差。杠桿越高的觀測(cè)值,殘差的方差越小。與之相關(guān)聯(lián)的另外兩種殘差為標(biāo)準(zhǔn)化殘差與學(xué)生化殘差。標(biāo)

24、準(zhǔn)化殘差為,學(xué)生化殘差為。其中,表示刪除第i個(gè)觀測(cè)值后誤差項(xiàng)的標(biāo)準(zhǔn)差。1.2.6 標(biāo)準(zhǔn)化的回歸系數(shù)參數(shù)估計(jì)量是有量綱的,因此不能直接比較不同解釋變量的相對(duì)重要性。如果要比較不同變量的相對(duì)重要性,可以首先將所有的解釋變量進(jìn)行標(biāo)準(zhǔn)化,這樣便將其轉(zhuǎn)換為沒有量綱的概念了。, , 然后利用標(biāo)準(zhǔn)化后的解釋變量進(jìn)行回歸, 標(biāo)準(zhǔn)化的回歸系數(shù)消除了量綱,可以直接用于比較不同變量重要性。思考題:標(biāo)準(zhǔn)化的回歸系數(shù)與最初模型的回歸系數(shù)(b0,b0, , bk) 存在什么關(guān)系?例 1.1 考察CEO年薪方程Salary=b0+b1roe+b2sale+b3ros+u 其中,salary表示CEO年薪(千美元),roe為

25、前三年的平均資產(chǎn)收益率(%),sale表示公司銷售額(百萬美元),ros表示股票收益率(%)。(數(shù)據(jù)文件:ceosal1,http:/gul.gu.se/public/courseId/56281/coursePath/39029/56278/ecp/lang-en/publicPage.do?item=22024223)(1)計(jì)算OLS估計(jì)量、95%的置信區(qū)間。. regress salary roe sale ros, level(95) noheader(2)計(jì)算殘差、標(biāo)準(zhǔn)化殘差、學(xué)生化殘差;觀察每個(gè)指標(biāo)的描述指標(biāo). predict res, residual. predict res_

26、std, rstandard. predict res_stu, rstudent. summ res res_*例 1.2 估計(jì)工資收入方程,wage=b0+b1educ+b2exper+b3tenure+u 其中,wage表示工資(千美元),educ表示接受教育的程度(年),exper表示工齡(年),tenure表示在現(xiàn)有崗位的任職時(shí)間(年)。(數(shù)據(jù)文件:wage1)(1)計(jì)算OLS估計(jì)量、99%的置信區(qū)間。. regress wage educ exper expersq age, level(99) noheader(2)計(jì)算標(biāo)準(zhǔn)化的回歸系數(shù). regress wage educ ex

27、per expersq age, beta level(95) noheader1.3 模型檢驗(yàn)1.3.1 擬合優(yōu)度y的變化由兩部分引起,一是解釋變量X=(x1, x2 , x k)(注意,X不包括常數(shù)項(xiàng)),二是隨機(jī)誤差項(xiàng)。那么解釋變量與誤差項(xiàng)對(duì)y的變化所作的貢獻(xiàn)如何衡量呢?擬合優(yōu)度即回歸線對(duì)散點(diǎn)的擬合程度。回歸線擬合散點(diǎn)的程度越好,則表明解釋變量對(duì)y的解釋能力就越強(qiáng)。1 可決系數(shù)考慮如下兩個(gè)模型:模型中不包括X只有常數(shù)項(xiàng)時(shí),的OLS估計(jì)量為,殘差為。將X納入模型之后,得到的殘差項(xiàng)為。由于X的加入,使得模型的誤差項(xiàng)縮小了。這即是被X所解釋的部分。因此,可以通過被X所解釋的部分在y的離差中所占比

28、例來衡量X對(duì)y 的解釋能力??傠x差平方和, 1.33回歸平方和為 由回歸直線的性質(zhì):y與的均值相同,可得,因此回歸平方和又可以寫為: 1.34殘差平方和為 1.35則有如下關(guān)系存在, SST = SSR + SSE 1.36證明: 由于,因此 1.37平方和除以它相應(yīng)的自由度稱為均方?;貧w均方定義為MSR = SSR / k,誤差均方定義為MSE = SSE / (T - k - 1)(即隨機(jī)誤差項(xiàng)的方差估計(jì)量),誤差均方平方 (RMSE,Root Mean Squared Error, RMSE),RMSE越小越好。Stata求SST、SSR、SSE、RMSE的程序如下:*begin6*方差

29、分析* Total sum of square = Model sum of square + Residual sum of square* y 的總波動(dòng) = 模型能夠解釋的波動(dòng) + 殘差的波動(dòng)sysuse auto, clear /使用系統(tǒng)自帶的auto.dta數(shù)據(jù)文件reg price weight lengthpredict yhat /*price的擬合值*/predict e, res /*殘差*/foreach v of varlist price weight length /注意到這個(gè)循環(huán)語句用法,v可自定義egen avg_v' = mean(v') /va

30、rlist指后面指定的所有變量gen dif_v' = v' - avg_v' /egen和gen為生成新變量 /最終生成各個(gè)變量值與其均值之差的新列變量qui reg dif_price dif_wei dif_len, nocons /對(duì)新生成的變量進(jìn)行回歸,其中qui(quietly)放在回歸命令reg前表示不顯示回歸結(jié)果predict yhatd /*dif_price的擬合值*/* 公式TSS = MSS + RSS* 根據(jù)式1.33:TSS = sum of yd2 yd = y - mean(y)gen dprice2 = dif_price2 /生成新變

31、量dprice2,為上面剛生成變量dif_price的平方qui sum dprice2 /命令sum統(tǒng)計(jì)單變量匯總數(shù)據(jù),運(yùn)行后運(yùn)行return list,看內(nèi)存統(tǒng)計(jì)摘要dis "SST = " %12.0f r(sum) /r(sum)就是引用sum命令后生成的r(sum)結(jié)果。許多命令執(zhí)行后都會(huì)有一批結(jié)果放在內(nèi)存里,需要時(shí)可隨時(shí)調(diào)出來scalar SST = r(sum) /將r(sum)賦值給變量TSS,這里不用命令gen* 根據(jù)式1.34:SSR = sum of yhatd2,即(y-y)2, yhatd = Xd'bgen yhatd2 = yhatd2

32、 qui sum yhatd2dis "SSR = " %12.0f r(sum)scalar SSR = r(sum)* SSE = sum of e2 e = y-yhat = y-X'b = yd - Xd'b gen e2 = e2qui sum e2dis "SSE = " %12.0f r(sum)scalar SSE = r(sum)reg price weight length* MSR = SSR / (k-1) MSR: mean of SSR square回歸均方 dis "MSR = " %12

33、.0f SSR/2* MSE = SSE / (N-k) MSE:誤差均方dis "MSE =" SSE/71* MST = SST / (N-1)dis "MST =" SST/73 reg price weight length * Root MSE(mean square error): sqrt(s2)qui sum e2scalar Root_MSE = sqrt(r(sum)/(74-3) dis "Root MSE = " Root_MSE*over62 擬合優(yōu)度R2計(jì)算的變差占y的變差的比值是評(píng)價(jià)一個(gè)估計(jì)模型優(yōu)劣的方法

34、之一。多重可決系數(shù)定義如下: 1.38顯然有0 £ R 2 £ 1。R 2越接近1,估計(jì)的回歸函數(shù)對(duì)樣本點(diǎn)的擬合優(yōu)度越好,即解釋變量對(duì)被解釋變量的解釋作用越強(qiáng)。3 調(diào)整的擬合優(yōu)度對(duì)于給定的樣本值yt,總離差平方和是固定不變的。但隨著模型中解釋變量個(gè)數(shù)的增加,殘差平方和逐漸減小,因此可決系數(shù)R 2逐漸增加。結(jié)論1:增加解釋變量時(shí),殘差平方和的變化。在模型中加入新的解釋變量z時(shí),的殘差平方和為: 1.39其中,表示的殘差平方和,表示的殘差平方和,表示z對(duì)X回歸的殘差平方和。證明:設(shè)的回歸結(jié)果為。根據(jù)分塊矩陣的估計(jì)公式, ,可得: 1.40因此, 1.41新模型的殘差平方和為:

35、1.42根據(jù)Frisch-Waugh定理, 1.43即。因此, 1.44結(jié)論2:增加解釋變量時(shí),可決系數(shù)的變化由上述結(jié)論, 1.45其中,表示控制變量X時(shí)y與z的偏相關(guān)系數(shù)。上式兩邊同時(shí)除以總離差平方和,可得 1.46因此,當(dāng)模型中加入新的解釋變量的時(shí)候,模型的殘差平方和總是遞減的,可決系數(shù)總是遞增的。為考慮模型中解釋變量個(gè)數(shù)的變化對(duì)R 2的影響,定義調(diào)整的多重可決系數(shù)如下, 1.47當(dāng)在模型中增加解釋變量時(shí),SSE將減小,同時(shí) T- k - 1也減小。從而使SSE的減小量得到一定補(bǔ)償。通常的值比R 2小。有時(shí)還會(huì)出現(xiàn)取負(fù)值的情況。增加新的解釋變量時(shí),可能會(huì)增加,也可能會(huì)降低。這取決于新的解釋

36、變量對(duì)y的解釋能力。結(jié)論3:增加解釋變量時(shí),調(diào)整的可決系數(shù)的變化。如果新增加的變量的t統(tǒng)計(jì)量大于(小于)1,則模型的調(diào)整的可決系數(shù)會(huì)增加(下降)。Stata求R 2和的程序如下:*begin7* R2 與 adj-R2* R2 的基本定義scalar R2a = SSE / SST /*模型能夠解釋的波動(dòng)占總波動(dòng)的比例*/dis R2ascalar R2b = 1 - SSE/SSTdis R2b* 對(duì) R2 的第二種理解reg price weight length predict price_hatcorr price price_hatlocal R2 = r(rho)2dis &quo

37、t;R2 = ' R2'* 調(diào)整后的 R2local adj_R2 = R2' - (3-1)/(74-3)*(1-R2') dis "adj-R2 = " adj_R2'*over74 非中心化的R2當(dāng)模型中沒有常數(shù)項(xiàng)時(shí),的均值不一定為0,y與的均值也不一定相同。因此,等式SST = SSR + SSE不一定成立,即總離差平方和(SST)不能分解為回歸平方和(SSR)與殘差平方和(SSE)兩部分。這時(shí)R2可能會(huì)出現(xiàn)負(fù)值或者大于1的情況。這時(shí)可采用非中心化的擬合優(yōu)度。我們知道,(2.44)式總是成立的,即y的平方和恰好分解為擬合值的平

38、方和與殘差平方和。定義非中心化的可決系數(shù)為: 1.48對(duì)比可決系數(shù)與非中心化的可決系數(shù)可以看出,如果模型中存在常數(shù)項(xiàng),當(dāng)y的均值為0時(shí),二者是完全相同的。對(duì)y進(jìn)行線性變換y*=by,則Ru2不變。即,y由以米為單位變?yōu)橐岳迕诪閱挝唬蛘咭怨餅閱挝蛔優(yōu)橐越餅閱挝徊粫?huì)改變Ru2。如果對(duì)y進(jìn)行線性變換y*=al+y,則Ru2會(huì)發(fā)生相應(yīng)的變化。X中不包括常數(shù)項(xiàng)。當(dāng)a增加時(shí),Ru2也隨之增加。因此,當(dāng)模型中包含常數(shù)項(xiàng)時(shí),如果常數(shù)項(xiàng)比較大,則Ru2會(huì)比較高。但Ru2更多地是由常數(shù)項(xiàng)帶來的,并沒有直觀的經(jīng)濟(jì)意義。因此,在解釋模型的可決系數(shù)或非中心化的可決系數(shù)時(shí),首先要明確Ru2的計(jì)算方法及其可能存在的問題

39、,避免對(duì)模型的錯(cuò)誤解讀。例 1.3計(jì)算例1.1的方差分析表及R2等指標(biāo)。. regress ceosal ret 例 1.4計(jì)算例1.2的方差分析表及R2等指標(biāo)。. regress wage educ exper expersq age1.3.2 整個(gè)方程的顯著性檢驗(yàn)假定4:隨機(jī)誤差項(xiàng)服從正態(tài)分布。當(dāng)檢驗(yàn)被解釋變量yt與一組解釋變量x1, x2 , . , xk是否存在回歸關(guān)系時(shí),給出的零假設(shè)與備擇假設(shè)分別是H0:b1 = b2 = . = bk = 0 ;H1:bi, i = 1, ., k不全為零。檢驗(yàn)思路:無約束模型為:yt = b0 +b1x1t + b2x2t + bkx k t +

40、 ut , (a)受約束模型: yt = b0 + vt (b)如果原假設(shè)成立,那么模型(a)中的參數(shù)b1, , bk均不顯著,模型(a)與模型(b)的殘差平方和近似相等。如果備擇假設(shè)成立,那么模型(a)中至少有一個(gè)變量是顯著的,而模型(b)中的隨機(jī)擾動(dòng)項(xiàng)ut包含了這些顯著性的變量,因此模型(b)的殘差平方和會(huì)明顯高于模型(a)的殘差平方和。模型(a)的殘差平方和表示為SSEU(其中U表示沒有約束(Unrestricted) 模型(b)的殘差平方和表示為SSER(其中R表示帶有約束(Restricted) 因此,可以根據(jù)殘差項(xiàng)方差的變化來檢驗(yàn)假設(shè)是否是正確的。如果(SSER - SSEU)比較

41、大(?。瑒t傾向于拒絕(接受)原假設(shè)。正式的統(tǒng)計(jì)檢驗(yàn)是通過構(gòu)建如下F統(tǒng)計(jì)量來完成的。 1.49在H0成立條件下,有F F(k, T k 1)由檢驗(yàn)思路可以看出,F(xiàn)統(tǒng)計(jì)量越大(?。覀?cè)絻A向于拒絕(接受)原假設(shè)。因此,這是右單端檢驗(yàn)。檢驗(yàn)可以臨界值方法和構(gòu)建p值的方法來完成。設(shè)檢驗(yàn)水平為a ,檢驗(yàn)規(guī)則如下。1 臨界值法:若F £ Fa (k, T k 1),則接受H0;若F > Fa (k, T k 1),則拒絕H0。2 P值法:若P(x > F ) > ,接受H0;若P(x > F ) < ,拒絕H0。拒絕H0意味著肯定有解釋變量與yt存在回歸關(guān)系。若

42、F檢驗(yàn)的結(jié)論是接受H0,則說明k個(gè)解釋變量都不與yt存在回歸關(guān)系。此時(shí),假設(shè)檢驗(yàn)應(yīng)該到此為止。當(dāng)F檢驗(yàn)的結(jié)論是拒絕H0時(shí),應(yīng)該進(jìn)一步做t檢驗(yàn),從而確定模型中哪些是重要解釋變量,哪些是非重要解釋變量。檢驗(yàn)統(tǒng)計(jì)量還可以寫為另外一種形式。約束模型(b)中的b0估計(jì)量為,因此,其殘差平方和又等于離差平方和SST。因此,F(xiàn)統(tǒng)計(jì)量又可以寫為: 1.50其中,SSRU表示無約束模型的回歸平方和。注:當(dāng)模型中沒有常數(shù)項(xiàng)時(shí),Stata輸出的R2為非中心化R2;而F統(tǒng)計(jì)量也是基于非中心化的F統(tǒng)計(jì)量,即(SSR/k)/SSE/(n-k)。思考題:證明,在一元回歸模型中,F(xiàn)統(tǒng)計(jì)量與t統(tǒng)計(jì)量存在關(guān)系:F=t2?Stat

43、a做F檢驗(yàn)的程序如下:*begin8* F 檢驗(yàn):檢驗(yàn)除常數(shù)項(xiàng)外其他所有解釋變量的聯(lián)合解釋能力是否顯著* X= X1 X2 X1=常數(shù) | X2=lnL lnKreg price weight length if foreign=1test _bweight=_blength=0 /注意到F值等于上面回歸結(jié)果中的F值*over81.3.3 單個(gè)回歸參數(shù)的約束檢驗(yàn)當(dāng)F檢驗(yàn)拒絕H0時(shí),并不見得每個(gè)解釋變量都對(duì)yt有顯著的解釋作用(即不見得每一個(gè)都是重要解釋變量),所以還應(yīng)對(duì)每個(gè)解釋變量的系數(shù)進(jìn)行顯著性檢驗(yàn)。檢驗(yàn)統(tǒng)計(jì)量為: 1.51結(jié)論:在基本假定14的條件下,上式中的t統(tǒng)計(jì)量服從(N-K-1)個(gè)自

44、由度的t分布。證明: 令,由可知,。 1.52如果,并且與zj獨(dú)立的話,就可以證明上述結(jié)論。 1.53根據(jù)概率統(tǒng)計(jì)中的兩個(gè)基本結(jié)論:(1)如果向量,A為冪等矩陣,則,即自由度為矩陣A的秩;(2)如果A為冪等矩陣,則Rank(A)=Trace(A)以及基本假定,可得:由可得Trace(M)=N-K-1。因此,的自由度為N-K-1。由及,可得, 1.54綜上所述,可得到結(jié)論:檢驗(yàn)的判別方法與簡(jiǎn)單線性模型的完全相同,此處不予贅述。Stata做t檢驗(yàn)的程序如下:*begin9* 單變量t檢驗(yàn)webuse production.dta,cleargen lnY=lnoutputgen lnL=ln(la

45、bor)gen lnK=ln(capital)reg lnY lnL lnKtest lnL = 0test lnL = 0.7*over91.3.4 線性約束檢驗(yàn)與整個(gè)方程的顯著性相類似,如果僅對(duì)其中部分變量的聯(lián)合顯著性進(jìn)行檢驗(yàn),也可以按照相同的思路利用F檢驗(yàn)來進(jìn)行。將所有的解釋變量分解為兩部分,X1=(1, x1, x2, , xJ)和X2 = (xJ+1, , xK)。模型重新表述為:y = X11 + X22 + u 1.55其中,共有K個(gè)變量,其中X1含有K1個(gè)變量,X2含有K2個(gè)變量,K= K1+ K2。原假設(shè)與備擇假設(shè)分別是H0:2 =0;H1:2 0。無約束模型為:y = X11 + X22 + u 1.56受約束模型為:y = X11 + u 1.57如果原假設(shè)成立,則無約束模型的殘差平方不能明顯地提高模型的解釋能力;如果備擇假設(shè)成立,能無約束模型應(yīng)明顯地降低受約束模型的殘差平方和。F統(tǒng)計(jì)量為: 1.58在H0成立條件下,有F F(K2, T K 1) 判斷規(guī)則與整個(gè)方程的判斷規(guī)則完全相同。例 1.5 在例1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論