stata中級計量經(jīng)濟學(xué)課件多元線性模型:設(shè)定和估計_第1頁
stata中級計量經(jīng)濟學(xué)課件多元線性模型:設(shè)定和估計_第2頁
stata中級計量經(jīng)濟學(xué)課件多元線性模型:設(shè)定和估計_第3頁
stata中級計量經(jīng)濟學(xué)課件多元線性模型:設(shè)定和估計_第4頁
stata中級計量經(jīng)濟學(xué)課件多元線性模型:設(shè)定和估計_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

經(jīng)典線性模型:設(shè)定和估計2023/2/61主要內(nèi)容經(jīng)典線性回歸模型假設(shè)設(shè)定估計數(shù)據(jù)問題:多重共線性、缺失、異常值線性估計的軟件操作主要基于鮑姆第四章內(nèi)容和Greene第2,3,4章的部分內(nèi)容。2023/2/621.1經(jīng)典線性回歸模型多元線性回歸可以表示“其他條件不變時,自變量對因變量的偏效應(yīng)”,通用形式為:例如:對某商品的需求和收入、價格有關(guān);工資方程里年齡和教育效應(yīng)影響經(jīng)濟增長的因素:資本、勞動力、人力資本、區(qū)位因素、基礎(chǔ)設(shè)施等我們假設(shè)樣本中每一個觀測值都是由如下過程生成的:擾動項(誤差項)ε隨機擾動項因“擾動”了原本穩(wěn)定的關(guān)系而得名:無法包含所有可能產(chǎn)生影響的因素,被忽略的以誤差項表示;測量誤差,如資本存量、受教育程度;經(jīng)濟理論有定義,現(xiàn)實無可觀測的對應(yīng),如永久收入?!?023/2/64例:工資與受教育程度2023/2/65矩陣標(biāo)注*經(jīng)典線性模型的假定(CLM)線性:

y=Xβ+

ε,或?qū)δ硢蝹€觀測滿秩(可識別):不存在任何自變量之間的完全線性關(guān)系,否則參數(shù)是不可識別的。零條件期望(嚴(yán)格外生性):E[εi|X]=0。樣本中第i次觀測到的干擾的期望值,不是任何一次觀測到的自變量的函數(shù)。也就是說自變量不能為預(yù)測干擾項提供信息。并且E[εi]=EX[E[εi|X]]=0.球形干擾:同方差和無自相關(guān)正態(tài)性:干擾項服從均值為0和方差為常數(shù)的正態(tài)分布,2023/2/67注:除非特殊情況確定不含截距,否則X的第一列都是1.回歸模型的線性形式注意,線性是指參數(shù)和干擾項進入方程的形式,而不是指變量之間的關(guān)系。E[y|x]=1f1(…)+2f2(…)+…+KfK(…).fk()可以是數(shù)據(jù)的任何函數(shù).例如:*例:超越對數(shù)模型2023/2/69線性回歸模型可以解釋為對某種未知函數(shù)關(guān)系的一種近似。例:工資方程其中,WAGE=工資率;S=接受教育年限,TENURE=當(dāng)前工作崗位的持續(xù)年限,EXPER=勞動經(jīng)驗(即當(dāng)前與以往的工作總年限)。該方程滿足線性形式,y=log(WAGE)。因變量取對數(shù)形式,稱為“半對數(shù)形式”,該方程是通過下述的工資率水平與自變量的非線性關(guān)系得到的:半對數(shù)形式的回歸系數(shù)解釋成百分比的變化而非水平變化,如b1

=0.05表示增加1年的教育大約能提高5%的工資水平。對數(shù)形式的變換相當(dāng)于數(shù)量的百分比變化2023/2/610滿秩矩陣X列滿秩,即X的列線性獨立,并且最少有K個觀測值。下面的模型中存在一種精確的線性關(guān)系,違背了該假設(shè),參數(shù)無法估計。2023/2/611

例:完全共線性:AnUnidentified(ButValid)

TheoryofArtAppreciationEnhancedMonetAreaEffectModel:HeightandWidthEffectsLog(Price)=α+β1logArea+

β2logAspectRatio+

β3logHeight+

β4Signature+

ε(AspectRatio=Height/Width).Thisisaperfectlyrespectabletheoryofartprices.However,itisnotpossibletolearnabouttheparametersfromdataonprices,areas,aspectratios,heightsandsignatures.logHeight=1/2*(logArea+logAspectRatio)零條件均值:嚴(yán)格外生性2023/2/613干擾項是從某個總體中完全隨機的抽取的,回歸函數(shù)所涉及的不可觀測因素都和可觀測因素系統(tǒng)的不相關(guān)。經(jīng)典回歸模型的圖示2023/2/6141.2模型的估計:最小二乘法線性模型的未知參數(shù)是我們要估計的對象。注意總體參數(shù)(β、ε)和樣本估計值(b、e)的區(qū)別。2023/2/615誤差項殘差項總體回歸樣本回歸*OLS估計量的正規(guī)方程最小二乘估計量最小化殘差平方和

2023/2/616如果解釋變量只包含一個常數(shù)項呢?*矩方法估計量矩法估計量是由矩條件定義的,矩條件被假定對總體矩是成立的,當(dāng)用不可觀測總體矩的樣本對應(yīng)形式代替總體矩時,就能得到參數(shù)的可行估計量。零條件均值意味著:每個解釋變量和誤差項都不相關(guān)。見鮑姆P65.2023/2/617交叉矩陣*2023/2/618例子:工資方程的估計2023/2/619數(shù)據(jù)來自Wooldridge,wage1b1b2b3b0=1.3OLS估計的代數(shù)特征1.殘差和等于0。2.每個自變量和殘差之間的樣本協(xié)方差為0.3.總是經(jīng)過均值點。4.回歸擬合值的均值等于實際數(shù)據(jù)的均值。這一結(jié)論來自第一條。2023/2/6202023/2/6211.4*分塊回歸2023/2/622回歸模型:

y=X11+X22+

(總體)

=X1b1+X2b2+e(樣本)這個過程被稱為剔除(partialingout)或凈化(nettingout)X1

的影響,因此多元回歸中的系數(shù)通常又稱為偏回歸系數(shù)(partialregressioncoefficients)。應(yīng)用:時間序列數(shù)據(jù)的“detrending”汽油消費數(shù)據(jù)

X

=[1,year,PG,Y],y=G

.

完整回歸系數(shù):

去趨勢后回歸系數(shù):2023/2/623“Detrendthedata”meanscomputetheresidualsfromtheregressionsofthevariablesonaconstantandatimetrend.1.5擬合優(yōu)度:中心化的R22023/2/624度量y的變異中能由x的變異加以解釋的比例,介于0~1之間。*非中心化的R2當(dāng)自變量中不包含常數(shù)時,R2

可能為負值,相關(guān)的另一概念為非中心化的R2。2023/2/625調(diào)整R方

2023/2/626

例:R方和調(diào)整R方2023/2/627方差分析表SS:平方和ResidualSS:殘差平方和,n-K個自由度,K包含常數(shù)項TotalSS:總平方和,n-1個自由度ModelSS:回歸平方和,K-1個自由度df:自由度MS:均方。等于平方和除以自由度2023/2/628R方和模型比較R2

是對y和x線性關(guān)系的一種度量,難以擬合非線性的關(guān)系;R2=0.99就好嗎?非穩(wěn)定時間序列往往存在“偽回歸”不同模型比較的因變量要統(tǒng)一。如對數(shù)-水平值的選擇。Y的變異和lnY的變異不是一碼事。只有在一個包含常數(shù)項的線性方程中使用最小二乘法,R2

才能理解為x的變異解釋了多少y的變異。2023/2/629系數(shù)估計值與β系數(shù)有時候也線性回歸也以β系數(shù)進行報告,表示當(dāng)自變量變化一個標(biāo)準(zhǔn)差時因變量變動多少個標(biāo)準(zhǔn)差。β系數(shù)絕對值的大小可以表示變量的影響力。2023/2/6301.6OLS估計量的有限樣本特征估計值和估計量的區(qū)別估計量的特征–抽樣分布“有限樣本特征”是與“漸進”或“大樣本”特征對應(yīng)的。有限樣本性質(zhì)是指對于任意給定樣本容量n都成立的估計量分布特征OLS估計量的有限樣本特征(a)無偏性。E(b|X)=β,OLS估計量是一個線性無偏估計量(b)方差的表達式:?(Gauss-Markov定理)OLS估計量是有效的線性無偏估計量(BLUE),換言之,對于任意的y的線性函數(shù)構(gòu)成的無偏估計量c,都存在矩陣形式的關(guān)系式:var(c|X)≥var(b|X)2023/2/632證明:無偏性*2023/2/633對這個結(jié)論的解釋是,對任意觀測集X,最小二乘估計量的期望值都是β,因此當(dāng)我們將其在X的所有可能值上進行平均時,它的無條件均值仍是β。最小二乘估計的抽樣分布:OLS估計量的無偏性2023/2/634N=100,b=0.5我們從一個標(biāo)準(zhǔn)正態(tài)分布抽取兩個樣本,分別包含了對wi

和xi

的10000個隨機抽樣。然后生成一組εi=0.5wi,和yi=0.5+0.5xi+εi,并把它作為總體。我們從這個總體中抽取500個各包含100個觀測值的隨機樣本,并對每個樣本計算最小二乘斜率系數(shù)。1.6.1遺漏變量問題模型誤設(shè)主要包括遺漏變量或冗余變量。假設(shè)一個正確的模型為:y=X11+X22+如果我們錯誤的只是

y

X1

進行了回歸

b1=(X1X1)-1X1y

=(X1X1)-1X1(X11+X22+)

=1+(X1X1)-1X1X22+(X1X1)-1X1

E[b1]=1+(X1X1)-1X1X22除非X1X2=0或2=0,否則b1就有偏誤。

正交回歸:如果多遠回歸中的變量不相關(guān)(即正交),那么多元回歸系數(shù)與逐個進行簡單回歸的系數(shù)相同。2023/2/635注意:偏誤的方向,取決于2和X2的每一列對X1回歸所得系數(shù).這個偏誤不會隨著抽樣增加或樣本容量變大而消失。應(yīng)用:遺漏變量問題2023/2/636根據(jù)微觀經(jīng)濟知識,需求函數(shù)可以表示為:log(Quantity)=0+1log(Price)+2Iog(Income)+如果Quantity只對Price回歸,忘記了Income變量.結(jié)果會怎樣?TheU.S.GasolineMarket,52YearlyObservations,1953-2004遺漏變量

在時間序列里,1<0,2>0Cov[Price,Income]>0intimeseriesdata.因此,短回歸會高估價格系數(shù),甚至超過了0改變了符號。1.6.2冗余變量正確的模型是y=X11

+而錯誤的估計了

y=X11+X22+首先,包含冗余變量不會引起偏差。因為如果

2=0,那么

E[b1.2]=1.其次,可以證明,包含冗余變量將提高估計的方差,也就是說估計將更加不準(zhǔn)確,尤其是冗余變量與解釋變量相關(guān)性較強時。2023/2/638OLS估計量的方差*2023/2/639擾動項的假設(shè):i

零均值并且與其他任何j都不相關(guān);Var[i|X]=2.i

的方差不依賴于樣本中的任何數(shù)據(jù).注意:x的變異越大方差越小。高斯-馬爾可夫定理**2023/2/640高斯-馬爾可夫定理:在回歸元矩陣為X的經(jīng)典線性回歸中,OLS估計量b是β的最小方差線性無偏估計量。對任意一個常數(shù)向量w,經(jīng)典回歸模型中w’β的最小方差線性無偏估計也都是w’b.方差最小,我們稱b是有效估計。1.6.3最小二乘估計方差

2023/2/641附:s2

無偏性的證明*Hayashi(2000),P.21Greene,ed6,PP51,4.62023/2/642例:

Mroz已婚婦女工資方程2023/2/643協(xié)方差矩陣*方差估計:bootstrap法方法: 1.使用整個樣本估計:-->b 2.重復(fù)R次:

從樣本容量為n的樣本中有放回抽取n次,得到一個新樣本,估計

得到

b(r). 3.估計系數(shù)方差V=(1/R)r[b(r)-b][b(r)-b]’2023/2/644應(yīng)用:工資方程2023/2/6451.7OLS估計量的大樣本特征*1.一致性。b是經(jīng)典回歸模型中的一致估計量(consistentestimator)。證明見Greene,P65-66.2.漸進正態(tài)分布2023/2/6461.8區(qū)間估計

2023/2/6471.9 多重共線性問題高斯馬爾科夫定理指出,在所有線性無偏估計量中,最小二乘估計量具有最小的方差。但并不保證其在任何絕對意義上都有較小方差。系數(shù)bk的方差可以表示為(Greene,P59):其他條件不變,xk與其他變量相關(guān)程度越高(R2),其系數(shù)方差越大;其他條件不變,xk的變動程度越大,方差越??;其他條件不變,總體回歸擬合的越好(σ2越?。?,估計方差越小。2023/2/648如果有一個自變量可以表示為其他自變量的線性組合,則存在完全共線性.Stata可以自動識別完全共線性,主要問題來自近似共線性。高度相關(guān)產(chǎn)生的問題

數(shù)據(jù)的微小變化導(dǎo)致參數(shù)估計值的大幅波動盡管系數(shù)具有聯(lián)合顯著性且回歸的R2

值較高,但系數(shù)標(biāo)準(zhǔn)差較大,顯著性水平較低系數(shù)可能具有“錯誤的”符號或不合理的大小。2023/2/649多重共線性的判斷1.簡單相關(guān)系數(shù):0.8以上就有一些問題了;2.回歸的F值大但系數(shù)t值都不顯著。3.方差膨脹因子:一般認(rèn)為超過5就存在一定問題。4.X’X的條件數(shù):矩陣最大特征根和最小特征根之比的平方根。大大條件數(shù)意味著小的X的變化能引起估計系數(shù)大大變動。超過20一般就有問題了。2023/2/650例(E.4.6):朗利數(shù)據(jù)2023/2/651例:朗利數(shù)據(jù)2023/2/652僅僅是否包含最后一個年度觀測值,估計結(jié)果差異巨大!方差膨脹因子對多重共線性的處理1.增加樣本信息;2.刪除變量(潛在遺漏偏物);3.包含所有變量回歸,疑問變量是否顯著,如顯著保留,如不顯著,丟棄;4.主成分,對系數(shù)經(jīng)濟含義2023/2/653應(yīng)用:電影票房2023/2/6542023/2/6551.10異常值*在樣本較小的情況下,異常值會對估計系數(shù)產(chǎn)生較大影響。異常值的識別:標(biāo)準(zhǔn)化殘差和學(xué)生化殘差2023/2/656應(yīng)用:莫奈名畫的拍賣價格2023/2/657估計命令返回的數(shù)值2023/2/658usewage1.dta,clearregresslwageeducexpertenureereturnlist*注意e(sample),當(dāng)觀測值包含在估計樣本中時,e(sample)函數(shù)為1,否則為0.如果有缺省值,樣本統(tǒng)計(如均值)可能與估計樣本不同。Summarizexife(sample)1.11報告回歸結(jié)果學(xué)術(shù)論文有一定的規(guī)范,尤其是多個回歸結(jié)果,表格的安排。estimatestableestout命令2023/2/659例子:波士頓房價模型2023/2/660VariableModel1Model2Model3Model4rooms0.369-0.8210.2550.02010.1830.0185rooms20.08890.014ldist0.237-0.157-0.1340.02550.05050.0431stratio-0.0775-0.05250.00660.0059lnox-1.22-0.9540.1350.117_cons7.6211.313.611.10.1270.5840.3040.318r2_a0.3990.50.4240.581rmse0.3170.2890.3110.265N5065065065062023/2/661附錄:OLS推導(dǎo)2023/2/662附錄:高斯-馬爾可夫定理的證明2023/2/663附錄:LS的方差(1.7多重共線性)文獻選讀N.GregoryMankiw;DavidRomer;DavidN.Weil,1992,AContributiontotheEmpiricsofEconomicGrowth,TheQuarterlyJournalofEconomics,Vol.107,No.2.(May,1992),pp.407-437.2023/2/665附錄:不同數(shù)據(jù)類型的Stata估計命令數(shù)據(jù)類型估計命令Linearregress,cnreg,areg,treatreg,ivregress,qreg,boxcox,frontier,mvreg,sureg,reg3,xtreg,xtgls,xtrc,xtpcse,xtregar,xtmixed,xtivreg,xthtaylor,xtabond,xtfrontier…NonlinearLSnlBinarylogit,logistic,probit,cloglog,glogit,slogit,hetprob,scobit,ivprobit,heckprob,xtlogit,xtprobit,xtcloglogMultinomialmlogit,clogit,asclogit,nlogit,ologit,rologit,asroprobit,mprobit,asmprobit,oprobit,biprobitCensorednormaltobit,intreg,cnsreg,truncreg,ivtobit,xttobit,xttintregSelectionnormaltreatregheckmanDurationsstcox,stregCountspoisson,nbreg,gnbreg,zip,zinb,ztp,ztnb,xtpoisson,xtnbreg2023/2/6662023/2/667

HealthCarePanelDataGermanHealthCareUsageData,7,293Individuals,VaryingNumbersofPeriods

DatadownloadedfromJournalofAppliedEconometricsArchive.

Therearealtogether27,326observations.

Thenumberofobservationsrangesfrom1to7.

(Frequenciesare:1=1525,2=2158,3=825,4=926,5=1051,6=1000,7=987).

Variable

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論