![一講線性回歸擴展篇_第1頁](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc107.jpg)
![一講線性回歸擴展篇_第2頁](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc1072.jpg)
![一講線性回歸擴展篇_第3頁](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc1073.jpg)
![一講線性回歸擴展篇_第4頁](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc1074.jpg)
![一講線性回歸擴展篇_第5頁](http://file4.renrendoc.com/view10/M01/29/0A/wKhkGWWvr0uAZmFMAAH5H3Snvmc1075.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第一線性回歸擴展第一節(jié)引進虛擬變量的一、什么是虛擬變第一線性回歸擴展第一節(jié)引進虛擬變量的一、什么是虛擬變1-1話語種類WhetherspeakorLanguagespeakat 111000SpeakEnglishSpeakMandarin(國語Speaknoneofthe(k-1)個虛擬變量,(k-1)個虛擬變量二、為什么要在回歸分析中引入虛14)4)于男性;或女性收入低于男性是因為她們更傾向集中于低回報的工作中segregation)2LoggedLogged三、案例分1:性別、教育與收入(Gender,Education,and數(shù)據(jù)\chip2005.dta",Stata操作\第一.tabsexof||+||+Total三、案例分1:性別、教育與收入(Gender,Education,and數(shù)據(jù)\chip2005.dta",Stata操作\第一.tabsexof||+||+Total.tabsex,sexof||+01+Total.recodesex(1=0(0=1"male"),gen(newsex)sexand(20421.tabRECODEofsex(sex||member)+01+3|.tabRECODEsex(sexof)|||||+||+|.regeducSource+NumberofobsF(2,Prob>FRootMSE======Model|.tabRECODEsex(sexof)|||||+||+|.regeducSource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totallogearn+t[95%educ|newsex_consloggedearn上的平均數(shù)的差。由于女性編碼lninc=7.322+0.032educlninc=7.153+0.032educ故在同樣的教育程度下,男性總是要比女性的收入(logged)0.1697.322-7.153)..predictyhat1ifpredictyhat2if.graphyhat1yhat2educ,c(ll)s(iO)4FittedFitted4四、交互作不含交互項的模型我們稱作加疊模型(additivemodelsassuminggroupdifferenceinmeanofthedependentvariable(intercept))X2是虛擬變量。若以圖形來看,則組與組的差距可以用兩根平行線來表示(斜率一樣,差FittedFitted4四、交互作不含交互項的模型我們稱作加疊模型(additivemodelsassuminggroupdifferenceinmeanofthedependentvariable(intercept))X2是虛擬變量。若以圖形來看,則組與組的差距可以用兩根平行線來表示(斜率一樣,差的影響上(equationsfordistinctgroupsdiffernotonlyinintercepts,butinslopesaswell)Y=α+β1X1+β2X2+5Fitted第二節(jié)、因變量與自變量間違背基本假第二節(jié)、因變量與自變量間違背基本假設條件一、違背線性假(一)變量轉變量分布型態(tài)為斜分布(skewed),通過變量轉換可使其趨于正態(tài)分年美國GSSS1-220-64歲成2003年收入2004年年齡之間的關系6(1)經濟學家主張生產力隨年齡增長到某一點到下降;社會學家有時也持類似的觀點(1)經濟學家主張生產力隨年齡增長到某一點到下降;社會學家有時也持類似的觀點,X→X’兩種常見的變量轉化方式對數(shù)轉換:Y’=log(Y),因而線性回歸方程變?yōu)閊log(Y)=增加平方項:如人力資本模型。^XY=α+βX+1 2(1)我們要研究不同國家GDPpercapita(PcGDP95)InfantMortalityRate(IMR)的關系。.scatterIMRPcGDP95,XX2可能存在高bb變成X)X與X)2222②7.genindependentvariable.gen.scatterlIMRlPcGDP95,8.genindependentvariable.gen.scatterlIMRlPcGDP95,8123450 可見,盡管IMR與PcGDP95(a).regIMRSource+F(ProbofF======Model|Residual+1可見,盡管IMR與PcGDP95(a).regIMRSource+F(ProbofF======Model|Residual+1RootMSETotalIMR+Std.t[95%PcGDP95_cons回歸系數(shù)告訴我們每一個單位人均GDP的增加,將會使嬰兒死亡率下降2為0.265,是指人均GDP這個變量解釋了嬰兒死亡率總變異中的26.5%(b)912345 .reglIMRSource+NumberofobsF( Prob>FRootMSE======Model1Residual+TotallIMRStd..reglIMRSource+NumberofobsF( Prob>FRootMSE======Model1Residual+TotallIMRStd.t[95%+lPcGDP95_conslIMR'=7.089-loggedPcGDP的增加,loggedIMR0.498個單位(Hence,oneunitincreaseinlPcGDP95(loggedGDP)willbringadecreaseinlIMR(loggedIMR)by0.498.),R2=0.678,比原來大的多。.predict(optionxbassumed;fittedvalues)(19missingvaluesgenerated).graphfitIMRlIMRlPcGDP95,c(l) .genfit2IMR=exp(fitIMR)(*convertthe(19missing.sortfit2IMRf.genfit2IMR=exp(fitIMR)(*convertthe(19missing.sortfit2IMRf4UnitedNationspercapita(2)增加平方^Y=α+β1X1+X2----xx----xxmayberelocatedtopositionwithlessresponsibility,thusearnless)在經濟學的人力資本模型中,通常會加入一個平方項來描述這種關系^log(INCOME)=α+β1EXP+β2EXP2+ββ1>0,β2<0(seetherightplot案例:工作經驗和收入、工資的關系(中國城*建立一個新的變量:工作經驗(年數(shù)),可用年齡減去18歲(假設18歲開始工作).genexp=age-*建立一個工作經驗的平方項,試圖想觀察與收入之間的曲線關yz..gengraphearn,0yearly*此時,我們開..gengraphearn,0yearly*此時,我們開始對其進log變換(logtransformation).gen*再來觀察log轉換過的變量分布.graphlnearn,bin(50)0現(xiàn)在我們對工作經驗的平方項進行回首先假設在logearn與工作經驗之間存在線性關系.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== 0現(xiàn)在我們對工作經驗的平方項進行回首先假設在logearn與工作經驗之間存在線性關系.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== Model|Residual+1Totallnearn+t[95%exp_cons*工作效應變量是顯著的?,F(xiàn)在我們加入其平方項進行回.reglnearnSource+F(Probof======Model|Residual+2RootMSETotallnearn+Std.t[95%Conf._cons 我們也可以考察工作經驗及其平方項的聯(lián)合效應effect)有無顯著統(tǒng)計學意義.(lnearn+Std.t[95%Conf._cons 我們也可以考察工作經驗及其平方項的聯(lián)合效應effect)有無顯著統(tǒng)計學意義.((expexp2,accumexp=0exp2=F(2,20418)=Prob>F*因P005,兩者的聯(lián)合效應存在顯著統(tǒng)計學差異。我們可以得出結論,工作經驗與收入(od)之間存在曲線關系(rlirreaiosp):剛開始,效應伴隨工作經驗的增長而遞增,在到達22年左右后開始下50。*在回歸后,我們可以用圖形來觀察這種曲線關系*y...predictexp,c(s)exp,c(s)s(.)xlabel4,8,10,22,26,42, 048Fittedexp2|- exp (二)非線性關系的解決方XYg(Y)=f(β,X,(二)非線性關系的解決方XYg(Y)=f(β,X,:XY的關系就被稱為―可轉化的線性關系(transformablylina),性(intrinsicallylinear)‖或―實質的線性(essentiallyg(Y)=α+f(β,X,transformablylinar,―intrinsclynonlinear‖或―lynon-(1)1:Y可以寫XX平方的函數(shù)(多項式函數(shù)x例2:近似指數(shù)函數(shù)Y=e(α+βX)?log(Y)=Y取對數(shù)化為線性x例2:近似指數(shù)函數(shù)Y=e(α+βX)?log(Y)=Y取對數(shù)化為線性方程-x例3:乘數(shù)關系(MultiplicativeRelationship)(人口流動的重力模型PPijDlog(Yij)=log(α)+βlog(Pi)+γlog(Pj)-Yij*=α*βPi*+γPj*-例4:羅吉斯蒂回歸(LogisticXe(XiP(Yi1|X)1e(Xi-x例5:多因多果模型(MultipleIndicatorMultipleCauseModel,MIMICp則這一模型可以寫成如下的―因子模型Model)‖的模式ζFYX的情況。那么上述Y1i=λ1γ1X1i+λ1γ2X2i+λ1δiY3i=λ3γ1X1i+λ3γ2X2i+λ3δi們只做X對于Y的回歸分析,則其結果中的參數(shù)估計要受到非線性約束的影響。對于非線性模型,通常使用最大似然估計法(MLE)而非最小二乘法進行參數(shù)分析軟件。目前,SPSS、STATA、SAS、(2)分析軟件。目前,SPSS、STATA、SAS、(2)可用F檢驗來判斷相對于模型(1)來說,模型(2)的擬合能力是否有顯著的增強;也非線性的全局檢驗(Globald1….案例:使用F檢驗判斷模型擬合能力的提升是否顯著。.setmemCurrentmemory①memoryusage(1M=setmaxvarsetmemorymax.variablesallowedmax.dataspacemax.RHSvarsin..lnwage=ln(income)*dependentmissingvalues.keepif*restrictanalysis(3386observations*Regular.regmemoryusage(1M=setmaxvarsetmemorymax.variablesallowedmax.dataspacemax.RHSvarsin..lnwage=ln(income)*dependentmissingvalues.keepif*restrictanalysis(3386observations*Regular.reglnwageSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallnwage+t[95%educ_hiy_cons*Nowwewanttestwhetherthelinearspecificationis*.copythegen*.recodethenewvariableinto4recodeeduc0/6=17/9=210/12=3(educ:3079changes*convertthe4-categoryvariableinto4dummyvariables(inregression,we*3.of...*tocheckifanything.tab1ed1-ed1+01+Totaled2+01+Totaled3+01+Total|+01||+*tocheckifanything.tab1ed1-ed1+01+Totaled2+01+Totaled3+01+Total|+01||+|.tab|+1234||||+|looks*Dummyvariable(Model.xi:reglnwagecoded;_Ieduc_1Source+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totallnwaget[95%+_Ieduc_2_Ieduc_3_Ieduc_4_cons***Nowweliketotheeffectsforcoded;_Ieduc_1Source+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totallnwaget[95%+_Ieduc_2_Ieduc_3_Ieduc_4_cons***Nowweliketotheeffectsforeacheducationalonwagelinear.Theeasiestwaytojusttreatacontinuousvariablevaluesrangingfrom14.xi:regSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallnwage+t[95%educ_cons*TheaboveistotheequationofModel**WecanconductanFtesttoseeincrementtoR2F2,2012=.genx=[(0.0695-0.064)/2]/[(1-.x.*Sincefprob(2,2014,isfarlessthan.05,werejectthenullhypothesisandacceptalternative:addinglinearconstraintsignificantlydecreasesthemodel’sgoodness-fit.Wecanalsorecodeeducintoacontinuousassignmentassignedtoeachcategory..genvariablewith.xi:regNumberofobsF(1,Prob>FRootMSE======Source+Model|Residual+1Totallnwage+t[95%educ2_cons*Again,fit.Wecanalsorecodeeducintoacontinuousassignmentassignedtoeachcategory..genvariablewith.xi:regNumberofobsF(1,Prob>FRootMSE======Source+Model|Residual+1Totallnwage+t[95%educ2_cons*Again,thisalsobedonein“recode”.gen.recodeeduc_hiy31=32=73=114=15(educ_hiy3:3083changesmade).xi:regSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallnwage+t[95%educ_hiy3_consNote,nothehowyouthevariable,theR2,residualsumsquare(namely,althoughwillupwiththesameFvaluewiththesamedegreecoefficientswillbeAnextremeversiondummiesforeachatestfornon-linearitymightbeanapproachtoofeducation(15categoriesthus14dummiesareAsimplerwayistocategorizeeducationintoseverallevels-theconventionalprimaryschoolorless;juniorhighschool;seniorhighschool;andcollegeorWhentherelationshipbetweenadependentandacontinuousindependentvariablenon-linearinsuchafashionthattransformationcannotlinearizeit,thenitmaybeappropriatetocategorizetheindependentvariable.InanissueofWhentherelationshipbetweenadependentandacontinuousindependentvariablenon-linearinsuchafashionthattransformationcannotlinearizeit,thenitmaybeappropriatetocategorizetheindependentvariable.InanissueofdummycaseitisturnedForexample,wecanusethegeneratecommandtocreateeducationallevel.Thecutoffpointsdependonhowquicklydummyvariablesthinkthevariableischangingasafunctionoftheindependentvariable.Ifyouthink,educationcouldhaveamuchgreaterimpactonoccupationalstatus,thencodecollegelevelseparately..gen.recodeeduc0/6=17/10=211/12=3(educ:6080changesmade)13/18=4.xi:regcoded;_Ieduc_1Source+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totalrisei_c+t[95%_Ieduc_2_Ieduc_3_Ieduc_4_consThereferencecategoryprimaryschooleducationbelow.Inmodel,wethatpeoplewithjuniorhighschooleducationenjoy10.5pointshigherinoccupationalstatusthandopeoplewithprimaryschooleducation;Peoplewithseniorhighschooleducationenjoy19.9pointshigherinoccupationalstatusthandopeoplewithschooleducation.Fororaboveeducation,theadvantageisevenmoreComparedwiththeadditionvariablemethodforaquadraticterm,therearetwoadvantagestothenon-linearityinaregressiona)Themethoddoesnotindependentanyparticularpatternontherelationshipb)ThenumericalcanbesomewhatsimplertoThedisadvantage:thedivisionofThedisadvantage:thedivisionofintervalissomewhatarbitrary;theprecisionestimateis二、其它經常遇(一)異方差性/方差不齊1、什么是異方差性的方差在x的不同取值時會有所不同,則被稱為存在―異方差性(heteroskedasticity)‖2、為什么要關心異方差性問xix若一估計量? 2xx 22Var(?)ii,1SSTxSSTx2、為什么要關心異方差性問xix若一估計量? 2xx 22Var(?)ii,1SSTxSSTxxix22x2 ,iii1xu?iOLSBLUEij2?,jji 是以X為因變量對所有其它自變量做回歸時得到的第i個殘差,而SSE則是jj案例.reglnearnSource+Numberofobs= F(1,20419)=Prob>F==Model|1Residual +RootMSE==Total11863.859320420lnearn+Std.t[95%educ_cons ..predictmu,*generateerror.egen*createaconstantmean+RootMSE==Total11863.859320420lnearn+Std.t[95%educ_cons ..predictmu,*generateerror.egen*createaconstantmeanofeduc_hiy,call.gen*renameeduc_hiyas...genb=(x-xbar)^2egen*sumuptogetthe.*..gendisplay.reglnearnLinearF(ProbofobsF=====Rootlnearn+Std.t[95%educ _cons.rreglnearnRobustNumberofF(1,===FProblnearn+Std.t[95%educ _cons.rreglnearnRobustNumberofF(1,===FProblnearn+Std.t[95%educ _consregression)是統(tǒng)計學穩(wěn)健估計中的一種方法。其主要思3、如何識別異方差 2)H:Var(u|x,x,...,x)或H: E 2220 0 若假定u2xju2x...xvH:0 1k k這樣,我們就可以利用s.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== Model|Residual+1Totallnearn+s.reglnearnSource+NumberofobsF(1,Prob>FRootMSE ==== Model|Residual+1Totallnearn+t[95%exp_cons./Cook-WeisbergforHo:ConstantVariables:fittedvaluesof=Prob>chi2此處,P>0.05,意味著我們沒有能拒H0,因此認為該殘差不存在異方差也可對各自變量進行異方差性檢驗,命令如.estathettestp值小于0.05,則說明異方差性存4、解決異方差性常用方(1)AVar(bk (S1SS1SE* nn.regyx1x2…..,.rregyx1(2)加權最小二乘法(WeightedLeast以運用加權最小二乘法(WLS),以得到比普通OLS假設異方差的形式可以寫為Var(.regyx1x2…..,.rregyx1(2)加權最小二乘法(WeightedLeast以運用加權最小二乘法(WLS),以得到比普通OLS假設異方差的形式可以寫為Var(u|x)2h(x,那么需要知道的是如何建構h(x)hi實上,若對整個等式兩側同時除以hiSTATAWLS.reglogearnSource+NumberofobsF(1,Prob>FRootMSE======Model|Residual+1Totallogearn+t[95%educ_cons.vwlslogearnNumberofobsModel ==Prob>chi2 ==>logearn+Std.zNumberofobsModel ==Prob>chi2 ==>logearn+Std.z[95%educ_cons 若我們事先知道Var(uj|xj)的形式,WLS是一個不錯的方法。但更一般的情況是,我們并不能事先知道異方差性的形式。這時,我們就需要去經驗地估計h(xi)或采用Huber-內相關(intra-classcorrelation)、因變量的相關性問題等。它原采用Akaike’sinformationcriterion(AIC)的模型選擇準則,目前采用準似然獨立準則(quasi-likelihoodundertheindependencemodelcriterionQIC)選擇GEE分析中的最佳結構和最佳模型。該模型理解略難,故講解時只略提及并錄其面板數(shù)據(jù)中的Stata命令如下:.xtgeedepvarvarlist,family(family)link(link)corr(corr)i(idvar)t(timevar)**Family:binomial,gaussian,gamma,igaussian,nbinomial,**Link:identity,cloglog,log,logit,nbinomial,opwer,power,probit,**Correlation:independent,exchangeable,ar#,stationary#,nonstationary#,unstructured,fixed**Alsooptionstochangethescaleparameter,useweightedequations,.webuseunion,.idFita.unionagegradenot_smsasouth,family(binomial)FitaprobitmodelwithAR(1).xtgeeunionagegradenot_smsasouth,family(binomial).xtsetpanelvariable:id.setmatsizeCurrentmemorymemoryusage(1M=setmaxvarsetmemorymax.variables.xtgeeunionagegradenot_smsasouth,family(binomial).xtsetpanelvariable:id.setmatsizeCurrentmemorymemoryusage(1M=setmaxvarsetmemorymax.variablesallowedmax.dataspacemax.RHSvarsinedu,family(gaussian).xtgeeIteration1:tolerance=Iteration2:tolerance=.00002507Iteration3:tolerance=2.251e-Groupvariable:NumberofobsNumberofgroups=======ObsperWaldScaleProblogearnStd.z+edu|- _cons Generalizedestimatingequations:anannotatedbibliography(Ziegler,KastnerandBlettner,BiometricalJournal,1998).ReviewofsoftwaretofitGeneralizedEstimatingEquationregressionmodels(HortonLipsitz,TheAmericanStatistician,1999,articleonlineat(二)模型的不當設定:忽略變量偏倚(OmittedVariable(1)(2)(二)模型的不當設定:忽略變量偏倚(OmittedVariable(1)(2)先選擇易于解釋的模型。例如,x對y的百分比變化的效應是不是比對yxx2xx 1可以用F-test等統(tǒng)計檢驗聯(lián)合排他約束(jointexclusionrestrictions)的方法來判斷高階加入不相關自變量。在多元回歸方程中加入了不相關自變量會有什么影響?換句話②違背奧卡姆剃刀定律(Ockham’srazor),即簡約原則(LawofParsimony)F忽略了關鍵的自變量。假設真F忽略了關鍵的自變量。假設真實的回歸模型為yi01xi12xi23xi3重要的影響因素。這種因缺失重要變量所引起的偏倚,稱為忽略變量偏倚(omittedbias)。政府的統(tǒng)計數(shù)據(jù)就象比基尼,暴露出的那部分固然重要,但沒暴露出的那部ybias)。政府的統(tǒng)計數(shù)據(jù)就象比基尼,暴露出的那部分固然重要,但沒暴露出的那部y0y???x? 1 2??。 0(x部分的效果),xx22 請大家思考:若我們把本不該屬于這個模型中的變量納入進來會怎么樣回答:最小二乘估計通常有偏,即出現(xiàn)忽略變量偏倚(omittedvariablesbias)忽略變量偏倚的模型驗證y01x1? ? ∑yi01xi12xi2(xx)(xxu)x)(xx)x(xx(xx)(xxu)x)(xx)x(xx2 1 2i 1(xi1x1)xi2(xi1x1((xx)2 ((xx)2 (xi1x1)xiE()2((xx)2 1x20(xi1x1((xx)21 所以E(111)2=0x22)x2和x1如何檢查忽略變量的存在前處理協(xié)變量(pre-treatmentcovariate如何檢查忽略變量的存在前處理協(xié)變量(pre-treatmentcovariate)和后處理協(xié)變量(post-treatmentcovariate)。協(xié)變量的自變量。例如在研究X對Y的影響時,自變量M對Y也存在影響,則稱自變量M為協(xié)變量。此時要注意辨別在社會現(xiàn)象產生的實際過程中協(xié)變量M是為前處理協(xié)變量還是后處理協(xié)變量,即M是在自變量X(treatment)之前出現(xiàn)還是在X之后出現(xiàn)。如果協(xié)變量M是前處理變量,則它可以作為X和Y的一個共同解釋原因或一個調節(jié)變量(moderator如性別、收入水平等。如果是后處理變量,則M就可以作為介入變量(interveningxip2)xip1)01xi1…(p2)xi(p2)(p1)xi(p1)假如在我們的研究中,我們的關注的是k(k(1,...p2)),Xk自變量對因變量Y01xi1…(p2)xi(p2)此時,我們可以通過k和k是否相等來看忽略的變量是否產生偏差。如果k和k不相等則產生忽略變量偏差;如果k和k相等則不產生忽略變量偏差,此時模型中加入變量xp1對回歸系數(shù)k此時,我們可以通過k和k是否相等來看忽略的變量是否產生偏差。如果k和k不相等則產生忽略變量偏差;如果k和k相等則不產生忽略變量偏差,此時模型中加入變量xp1對回歸系數(shù)kxip1)xi(p2)01xi1(p2)xi(xi(01xi1…(p2)xi(p2)(p1)(01xi1…(p2)xi(p2)i)0(p1)0(1(p1)1)xi1…((p2)(p1)(p2))xi(p2)(p1)kkp其中p1件(如圖1)①有關條件(RelevanceCondition):忽略變量影響因變量,即0②相關條件(CorrelationCondition):忽略變量與關鍵自變量相關,即0p1)、k中只要有一個為零則不當條件①或②有一個不成立時,忽略變量X2不會影響自變量X1對因變量Y的效應,即不1來判斷忽略變量偏差的方向。如果忽略變量對因變量Y的效應(1來判斷忽略變量偏差的方向。如果忽略變量對因變量Y的效應(p1)Xk對忽略自變量的效應(k)作用方向相同,即p1、k同時為正或同時為負,那么實際得到的方程的系數(shù)(k)將被高估,即k大于真實值k;如果作用方向相反,則k檢查忽略變量方法之二:Link檢驗或Ramsey判別忽略變量是否存在,其一是Link檢驗,二是Ramsey檢驗。Ramsey檢驗的基本思想:若模型設定無誤,則擬合值與自變量的高階項都不應再有解(1)Link.usec:\data\wage1.dta,.regyx1x2x3use"D:\教學篇\中財教學\人大備課\課件\練習數(shù)據(jù)\chip1988.dta.regeduexpSource+NumberofobsF(4,===||+4Prob>|Root=|+t[95%|||||use"D:\教學篇\中財教學\人大備課\課件\練習數(shù)據(jù)\chip1988.dta.regeduexpSource+NumberofobsF(4,===||+4Prob>|Root=|+t[95%|||||.|+NumberofobsF(2,Prob>FRootMSE======Model|Residual2+Totallogearn+t[95%_hat_hatsq|- _cons|- 22.96%,不算高,可能是因為忽略了某些重要的自變量所導.gen =AdjR-squared=.gen.regyx1x2x3x4x12若回歸結果中,擬合優(yōu)度有了顯著提高,且Linktesthatsqp值大于0.05,則說明無(2)使用Ramsey.gen.regyx1x2x3x4x12若回歸結果中,擬合優(yōu)度有了顯著提高,且Linktesthatsqp值大于0.05,則說明無(2)使用Ramsey.estatovtest[,.usec:\data\wage1.dta,.regyx1x2x3.estatRamsey檢驗的原假設是模型不存在忽略變量,但檢驗的p值若小于0.05,則為拒絕RamseyLinkyx1x2x3x4x12.estat.regeduexpSource+NumberofobsF(4,Prob>FRootMSE======Model|Residual+4Totallogearn+t[95%eduexp cpc sex|-_cons exp cpc sex|-_cons .estatRamseyRESETtestusingpowersoffittedvaluesHo:modelhasnoomittedF(3,15854)Prob>F(1)工具變量(IV)或代理xxv,(其中標*的變量是我們沒有測量到的變量,稱之為潛變量)* 3 3y0301x12x233x3u3v3ux1,x2x*v3x1,x2ux1,x2x*v3x1,x2和x3x1和x23xxxxv* 1 2 y030131x1232x233x3u3v3,(2)用這個方法(比如說y是股票的價格或是一個城市中犯罪率等等)。(3)實驗法利用實驗設計讓條件②中k0(4應用舉Xie&Hannum(1996)在―中國改革時期收入不平等的地區(qū)差異‖(CHIP數(shù)據(jù))2030歲之間的年輕人的教的工作經歷的算法推算出年齡變量①應用舉Xie&Hannum(1996)在―中國改革時期收入不平等的地區(qū)差異‖(CHIP數(shù)據(jù))2030歲之間的年輕人的教的工作經歷的算法推算出年齡變量①。因為我們只研究20-30y=收入x1=教育程度x3=年齡輔助回歸和一步回歸的四個模型,模型一是用收入對教育程度、黨員身份回歸的模型(第二步),模型三是用模型一的殘差對模型二的殘差回歸的模型(三步計算法的第三步模型四是收入對于教育程度、黨員身份和年齡回歸的模型(一步計算法)yi01xi12xi2xi301xi12xi2①②yx**③i yi01xi12xi23xi3從STATA的分析結果(模型二和模型三)④①當教育程度為小學及以下時,age=exp+14;當初中時,age=exp+16;當高中時,age=exp+19;中專從0可以看出,年齡對收入有影響,即年齡較大的人收入較高從0可以看出,年齡對收入有影響,即年齡較大的人收入較高,滿足―有關條件‖10,20的人更可能受過更多的教育,黨員年齡很可能比非黨員年齡要大,滿足相關條件F(SSE1SSE3)/(df1df3)(827.413756.150)/12yx31x1x2①1x1x2回歸,取得②3③④y*x*3DF3=DF4=4061,而不是STATA分析結果中顯示的MSE3=SSE3/DF3,不是STATA分析結果中顯示的0.1861根據(jù)式(6)和10,20,30(4),我們可以得出p1k0(k1,2)式kkkkp024.26361,10.0819097,206.926389,10.0183922,205.897779,10.0149198,20.0974903,31310.01491980.04239310.08190970.01839221,即kk3k(k0,1,圖 年齡對收入、教育程度和黨員身份模型的影型中加入年齡變量將進一步減少離差平方和SSE。這與前面的結論一致,即不能忽略年5中通過原點的回歸直線的斜率是b3(3的估計值),即年齡的偏回歸系數(shù),0.0423931(模型三)5年齡的偏回歸附錄(例題中使用的命令和分析結果.use"E:\chip1988.dta",.gen.replaceif.replaceif.replaceif.replaceif.replaceif.replaceif5年齡的偏回歸附錄(例題中使用的命令和分析結果.use"E:\chip1988.dta",.gen.replaceif.replaceif.replaceif.replaceif.replaceif.replaceif.dropif.reglogearncpc(模型一SourceNumberofobsF(2,Prob>FAdjR-Root======+Model|Residual2+TotallogearnStd.t[95%Conf.--024- - +edu|cpc_cons.predict.regageedu(模型二|+||+|======NumberofobsF(2,Prob>FRootMSE2|+|||Std.t[95%.predictx3resid,.regx3resid(模型三|+||+|======+edu|cpc_cons.predict.regageedu(模型二|+||+|======NumberofobsF(2,Prob>FRootMSE2|+|||Std.t[95%.predictx3resid,.regx3resid(模型三|+||+|======NumberofobsF(1,Prob>FRootMSE1|+||Std.t[95%-2.99e---.reglogearncpc(模型四|+||+|NumberofobsF(3,Prob>FRootMSE======3|t[95%+edu|cpc|age_cons+edu|cpc|age_cons.yresidx3resid)(三 內生性問題與工具變量1、內生變(三 內生性問題與工具變量1、內生變量與對聯(lián)立方程組模型(SimultaneousModel)而言,如凱恩斯模型(KeynesianctYtiYtctYtt的收入t為隨機誤差,其均值為0與況。在這里,我們的目標是估計與,并對這些參數(shù)進行統(tǒng)計分析。該模型包括兩個變量,即ct與Yt。它們相互依賴:消費影響收入,同時收入影響消費內生變量(endogenousvariables)和外生變量(exogenousvariables)因素影響的變量被稱為內生變量,即ct與Yt被稱為內生變所謂內生變量是具有某種概率分布的隨機變量,它的參數(shù)是聯(lián)立方程系統(tǒng)估計的元素(()性問題(endogeneity)OLS例:P=a+bQ,表示價格與數(shù)量的關系。在此式中,a、b是總體參數(shù),可算作外生變量;除此之外,譬如相關商品的價格、人們的收入等其他于模型有關的變量,也算作外生變量。而P、Q是模型要決定的變量,所以稱為內生變量。先利用Hausman檢驗(HausmanSpecificationtest)尋求工具變量(InstrumentalVariables)或傾向值分析(PropensityScoreAnalysis等方法來2、內生性問題的檢判斷方法二:Hausman直接比較普通最小二乘估計和兩步最小二乘估計(2SLS,ivreg),即使用STATA提供若位于方程式右邊的變量是外生的,則通過比較,兩種估計方法(OLS回歸與兩步最小二乘估計2SLS)所得的估計應該都是一致的。即原假設為:2SLS回歸所提供的估計值與OLS提供的估計值是相同的。若位于方程右邊的變量是內生的,則兩種估計方法中只有以證明內生性是個嚴重問題(canaskthedifferencebetweenthetwoestimatorsislargeenoughtosuggestthatendogeneityisasevereproblem)。 2SLS(或稱為加入輔助變量的回歸方法)的估計值相同。若被懷疑的方程式右邊①SeetoHausman,J.A.(1978).Specificationtestsineconometrics,Econometrics,46(6):1251-位于方程式右邊的變量是估計內外假設,即為了運用Hausman檢驗,我們可以對一個多元回歸模型進行回歸:該模型的自變量是內.ivregrisei_csex(educ_hiy=meduc_y)(outputomitted).hausman,***hausmanisaspecificationtest(storing假設,即為了運用Hausman檢驗,我們可以對一個多元回歸模型進行回歸:該模型的自變量是內.ivregrisei_csex(educ_hiy=meduc_y)(outputomitted).hausman,***hausmanisaspecificationtest(storingestimationresultsas_HAUSMAN).regressrisei_ceduc_hiysex(outputomitted).hausman,constant----Coefficients---||+|||b=underandHa;fromB=inconsistentunderHa,efficientunderHo;fromTest:Ho:differenceincoefficientsnot=Prob>chi2 .hausmanname-consistent[name-efficient]hausman語句表示豪斯曼檢驗,其中語句中name-consistent是指一致估計量變量名計量的估計在下面中會詳細介紹。options內容如下表所示:.regyx1.estimatesstore.ivregress.regyx1.estimatesstore.ivregress2slsyx1(x2=z1 .estimatesstore此命令存儲2SLS.hausmaniv.regrisei_ceduc_hiy.estimatesstore.ivregressrisei_csex.estimatesstore.hausmanivols,constantp=0educ3、工具變量Variables)是不一致的。為了改進估計量特性,因而采用工具變量Zt。Xt高度相關又與ut不相關,才可用Zt在估計模型參數(shù)時,稱Z是不一致的。為了改進估計量特性,因而采用工具變量Zt。Xt高度相關又與ut不相關,才可用Zt在估計模型參數(shù)時,稱Zt為工具變量,稱此種估計方法為工具變量法(IV法)忽略變量引起的偏倚問題,此外,IV還可以用來估計聯(lián)立方程模型(simultaneousequationmodels)。若想用變量z作為自變量xIV,z需要同時滿足如下要求:我們需要根據(jù)常識或是理論來判斷假定Cov(z,u)=0xπ0+π1zv中的原假設H0π10歸方程稱為第一步回歸(first-stageregression)對于一個簡單的例子:yβ0β1xuzIVCov(z,y)=β1Cov(zx)Cov(z,zizyiyzzxx1iiE(μ2|z)=ζ2=Var(μ)Varn12xx,1E(μ2|z)=ζ2=Var(μ)Varn12xx,1xx,OLS的結果IV估計與普通最小二乘估計的區(qū)別僅僅在于上式中包含有拿x對z做回歸時計算出的 由于R2<1,IV估計中的標準誤總是要比普通最小二乘估計中的標準誤要大。x和z之間的相關越強,IV估計的標準誤就越小。然而,在Cov(x,u)≠0成立的前提下,IV估計是一Corrzu)/Corr(z,x)<Corr(x,u,我們仍然希望使IVCorr(z,u)IV:plim?Corr(z, xOLS:plim~Corr(x,u) 同時,IV方法與思想也可以推廣到多元回歸及將來要學x,如果―對未來的期望‖(ambition)以及其工具變量都不存在,則ambition和教育程度(educ)是相關的,β1IQ和母親的教育水平,有著相關關系。然后進行如下的兩步最小IQ和母親的教育水平,有著相關關系。然后進行如下的兩步最小二乘(2StageSquare,2SLS)回歸1步x對z^x01z^y01xu現(xiàn)以―中國城市生命史調查,1996(UrbanChina’sLifeHistorySurvey1996)‖數(shù)據(jù)能與對未來的期望相關,不過,我們對于對未來的期望.use.keepif(3386observations.recoderisei_c-4/0=.(risei_c:959changesmade).recodeeduc_hiy-4/-1=.(educ_hiy:4changesmade).recodesex1=12=0(sex:1552changes.recodemeduc_y-4/-(meduc_y:19changes.keepifrisei_c!=.&educ_hiy~=.&(967observationsdeleted).sumrisei_ceduc_hiymeduc_yVariable+Std.risei_c①educ_hiy|meduc_ysex 0001 risei_c=β0+β1educ_hiy+β2male+.regrisei_ceduc_hiySource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+educ_hiy|meduc_ysex 0001 risei_c=β0+β1educ_hiy+β2male+.regrisei_ceduc_hiySource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+t[95%educ_hiysex_cons差項無關的工具變量。那么,母親的教育水平能否成為較好的IV呢?直觀上說,我們需要對個人的教育程度這一變量進行純化.ivregrisei_csexInstrumentalvariables(2SLS)Source+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+t[95%educ_hiysex_consInstrumented:educ_hiy .regsexSource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totaleduc_hiyt[95%+sex|meduc_y_cons.predict(optionxbassumed;.regrisei_cp1Source+NumberofobsF(2,Prob>FSource+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totaleduc_hiyt[95%+sex|meduc_y_cons.predict(optionxbassumed;.regrisei_cp1Source+NumberofobsF(2,Prob>FRootMSE======Model|Residual+2Totalrisei_c+t[95%p1sex_cons^y01根據(jù)我們的模型設定,正確的誤差應當是u,但二步回歸法的誤差項卻多了1v^u^1n1nu(y2^w(y2u當然,上值手工計算可得,但STATA中的ivreg.regrisei_ceduc_hiySource+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totalrisei_c當然,上值手工計算可得,但STATA中的ivreg.regrisei_ceduc_hiySource+NumberofobsF(3,Prob>FRootMSE======Model|Residual+3Totalrisei_c+t[95%educ_hiysexmeduc_y_cons另一工具變量法案例:數(shù)據(jù)為“grilic.dta”(見課程操作數(shù)據(jù).use"D:\教學篇\中財教學\人大備課\回歸分析在社會科學中的應用\課件\第一講endogenousproblem\grilic.dta",clear教育年限),kww(在“knowledgeoftheworldofwork”測試中的成績),.reglw80Source+Numberofobs=F( 754)Prob>=Model3Residual+RootMSE===Totallw80+t[95%s80||_cons.estimatesstore.ivregress2slstenure80iq=medkwwmrt***此處,三個工具變量(medkwwInstrumentalvariables(2SLS)age)對兩個變量(s80iq)NumberofobsWaldchi2(4)Prob>chi2RootMSEResidual+RootMSE===Totallw80+t[95%s80||_cons.estimatesstore.ivregress2slstenure80iq=medkwwmrt***此處,三個工具變量(medkwwInstrumentalvariables(2SLS)age)對兩個變量(s80iq)NumberofobsWaldchi2(4)Prob>chi2RootMSE=====lw80+Std. [95%| iqexpr80|tenure80|s80expr80tenure80medmrtstore.hausmanivols,constantNote:therankofthedifferencedvariancematrixdoesnotthecoefficientsbeingtested(4);besurethisiswhatexpect,ortheremaybeproblemscomputingthetest.Examinetheoutputyourestimatorsforanythingandconsiderscalingyourthatthecoefficientsareona----Coefficients---||+|||_consB=consistentHoandHa;obtainedfromunderHa,efficientunderHo;obtainedfromTest:Ho:incoefficientsnot=(V_b-V_Bnotpositive***解決內生性問題lw801s802expr803tenure80=(V_b-V_Bnotpositive***解決內生性問題lw801s802expr803tenure80.use"D:\教學篇\中財教學\人大備課\回歸分析在社會科學中的應用\課件\第一講endogenous線性回歸擴展篇.reglw80s80Source+NumberofobsF( Prob>FRootMSE======Model3Residual+Totallw80+Std.t[95%s80|expr80|tenure80_cons內生性處理方法中2SLS,GMM和迭代GMM方法,在Stata.ivregressestimatory[varlist1](varlist2=varlist_iv)[if][in][weight][,ivregress表示對模型進行內生性處理語句,其中estimator代指2sls或者gmm兩種方法,varlist1表示模型不存在內生性的解釋變量,varlist2=varlist_iv表示模型中存在內生性的變量和解釋其的工具變量,if表示回歸的條件,in表示回歸的范圍,weight表示回歸中入放入權重,options的內容如下表所示(1)2SLS.ivregress2slsy[varlist1](varlist2=instlist)[if][in][weight][,2sls2sls方法,(1)2SLS.ivregress2slsy[varlist1](varlist2=instlist)[if][in][weight][,2sls2sls方法,varlist1仍然表示不存在內生性的回歸的條件,in表示回歸的范圍,weight表示回歸中加入放入權重,options內容與前表中的選項是一致的(除了GMM項)。具體來說最常用的兩個2SLS.ivregress2slsyx1(x2=z1.ivregress2slsyx1(x2=z1z2),r對模型進行估計時在Stata命令窗口中輸入如下命令可以得到估計結果:.ivregress2slslw80expr80tenure80(iqs80=medkwwmrtrFirst-stageNumberofobs 751)Prob>FAdjR-squaredRootMSE====|iqt[95%+expr80|tenure80medkwwmrtage_consof 751)Prob>F== =|s80+t[95%|||||||kwwmrtage_consof 751)Prob>F== =|s80+t[95%|||||||variables(2SLS)NumberofobsWaldchi2(4)Prob>chi2RootMSE=====||+z[95%iqs80|expr80|tenure80_consiqexpr80tenure80medmrt.ivregress2slslw80expr80tenure80(iqs80=此命令表示使用2SLS法對模型進行估計,使用kwwmrtiqs80的工具變量Instrumentalvariables(2SLS)NumberofobsWaldchi2(4)Prob>chi2RootMSE====lw80+Std.z[95%iq|s80expr80|tenure80_consInstrumented:iq expr80tenure80medmrtexpr80|tenure80_consInstrumented:iq expr80tenure80medmrt在第二節(jié)段的結果中列示了instrumented(被使用工具變量解釋的原解釋變量)和tenure10%的置信度下未(2)GMM.ivregressgmmy[varlist1](varlist2=instlist)[if][in][weight][,gmmgmm方法,varlist1仍然表示不存在內生表示回歸的條件,in表示回歸的范圍,weight表示回歸中加入的權重,options內容與前mrt.ivregressgmmlw80expr80tenure80(iqs80=medFirst-stageNumberofobs 751)Prob>F== Root=|iqt[95%+|||||||of 751)Prob>F== =||++|||||||of 751)Prob>F== =||+t[95%|||||||variables(2SLS)NumberofobsWaldchi2(4)Prob>chi2RootMSE=====||+z[95%|||||iqexpr80tenure80medmrt.endofdo-do"C:\Users\臥薪嘗膽.ivregressgmmlw80expr80tenure80(iqs80=medkwwmrt此命令表示使用GMM法對模型進行估計,使用med,kww,mrt,ageiqs80的工具變量Instrumentalvariables(GMM)NumberofobsWaldchi2(4)=Prob> =RootMSE=.GMMweight=lw80+z[95%iqRootMSE=.GMMweight=lw80+z[95%iq|expr80|tenure80|iqexpr80tenure80medmrtt檢驗,lw80=3.998+0.0186iq+0.0411s80+0.0269expr80+0.0045tenure80(3)GMMGMMStata.ivregressgmmy[varlist1](varlist2=instlist)[if][in]GMMoptionsigmm具體化出來,所以此命令的解釋仍然是:varlist1仍然表示不存在內生性的解釋變量,varlist2varlist_iv表示模型中存在內生性的變量和解釋其的工具變量,if表示回歸的條件,in表示模型回歸的范圍,weight表示回歸中加入的權重,igmm表示迭代gmm估計法.ivregressgmmlw80expr80tenure80(iqs80=medkwwmrt***此命令表示使用迭GMM法對模型進行估計,使用med,kww,mrt,age作為iq和s80的工具變Iteration1:Iteration2:Iteration3:Iteration4:Iteration5:inbeta=5.821e-04inbeta=2.003e-05inbeta=7.138e-07inbeta=2.567e-08inbeta=9.315e-changeinWchangeinWchangeinWchangeinWchangein=3.471e-=1.282e-=4.592e-=1.655e-=5.973e-Instrumentalvariables(GMM)Numberofobs=Waldchi2(4).Prob>chi2RootMSE===GMMweightmatrix:|lw80+Std. [95%iqs80|expr80|tenure80_conslw80+Std. [95%iqs80|expr80|tenure80_cons iqexpr80tenure80medmrt估計結果圖顯示迭代GMM2SLSlw80=3.995+0.0186iq+0.041s80+0.0269expr80+0.00446tenure80(s80與tenure80(4)傾向值分析法(PropensityScore(2011).PropensityScoreAnalysis:StatisticalMethodsandApplications.Sage第三奇異值或重要影響第三奇異值或重要影響1GDP散點從散點圖上來看,右上方的阿富汗(Afghanistan)、伊拉克(Iraq)、加蓬(Gabon)利比里亞(ibeia)和波斯尼亞(osnia)是很明顯的奇異值;而左下方的蘇丹(Sudn)和圣多美(SoTome可能是重要影響點。X值的條件下,y取值中與眾不同的特殊觀察值?;蛘哒f,是一個殘差非常大的觀察值(xX值的條件下,y取值中與眾不同的特殊觀察值?;蛘哒f,是一個殘差非常大的觀察值(xy圖2均值附近的奇異值對回歸線的雖然這一點的殘差或差異很大,但它的杠桿作用(leverageeffect)x分布的中間,斜率只受到很小的影響。因此,盡管這是一個奇異值,但影響很小,可以a)看殘差。通常情況下是可以的,但有時會造成誤導,因為部分觀察值會將回b)看標準化殘差。標準化殘差是以原來的殘差除以標準差所得,用a)看殘差。通常情況下是可以的,但有時會造成誤導,因為部分觀察值會將回b)看標準化殘差。標準化殘差是以原來的殘差除以標準差所得,用以表明有多殘差的變化可以歸于通常的抽樣變異性(ordinarysamplingvariability)3在前面的GDP.reglIMR|+||+|Numberof======F(>1AdjR-squaredRootMSE|+|Std.t[95%----①小貼士:威廉?戈塞(WilliamSealyGosset,1876.6.13-1937.10.16),小樣本理論“StudentTK.皮爾遜生物統(tǒng)計學驗室從事研致該統(tǒng)計被稱為“學生的T檢驗”。1907-1937年間,戈塞發(fā)表了22篇統(tǒng)計學論文,這些論文于1942年以《“學生”論文集》為書名重新發(fā)行。_cons .predictyresid,(22missingvalues.predictyrstud,(22missingvalues.||||
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年B116型一氧化碳中溫變換催化劑合作協(xié)議書
- 2025年大功率電源及系統(tǒng)合作協(xié)議書
- 2025年微電子組件合作協(xié)議書
- 北京和協(xié)航電科技有限公司的射頻研發(fā)筆試題
- 2025年中班幼兒園教師年度個人工作總結(四篇)
- 2025年節(jié)能高效果汁濃縮設備合作協(xié)議書
- 2025年鄉(xiāng)村企業(yè)職工勞動合同(五篇)
- 2025年產品租賃協(xié)議樣本(2篇)
- 2025年九年級上冊數(shù)學教學工作總結模版(三篇)
- 2025年二人合伙開店協(xié)議標準版本(三篇)
- 《水電站繼電保護》課件
- 沈陽市第一屆“舒心傳技 莘紳向陽”職業(yè)技能大賽技術工作文件-27-全媒體運營師
- 2025年多彩貴州航空有限公司招聘筆試參考題庫含答案解析
- 安全生產網格員培訓
- 深圳建筑工程公司財務管理制度
- 統(tǒng)編版語文三年級下冊第三單元綜合性學習中華傳統(tǒng)節(jié)日 活動設計
- 降低順產產婦產后2小時失血率PDCA成果匯報書
- 小學數(shù)學分數(shù)四則混合運算300題帶答案
- 2024年考研(英語一)真題及參考答案
- 林下野雞養(yǎng)殖建設項目可行性研究報告
- 心肺復蘇術課件2024新版
評論
0/150
提交評論