版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第七章Stata與模型的設(shè)定第七章Stata與模型的設(shè)定1主要內(nèi)容:1、遺漏變量的檢驗2、解釋變量個數(shù)的選擇3、多重共線性與逐步回歸法4、極端數(shù)據(jù)的診斷與處理5、虛擬變量的處理6、經(jīng)濟結(jié)構(gòu)變動的Chow檢驗主要內(nèi)容:1、遺漏變量的檢驗2實驗7-1遺漏變量的檢驗一、實驗基本原理實驗7-1遺漏變量的檢驗一、實驗基本原理3二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了美國工資的橫截面數(shù)據(jù),變量主要包括:wage=工資,educ=受教育年限,exper=工作經(jīng)驗?zāi)晗?,tenure=任職年限,lwage=工資的對數(shù)值。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“wage1.dta”工作文件中。利用wage1的數(shù)據(jù),分別利用Link方法和Ramsey方法檢驗?zāi)P褪欠襁z漏了重要的解釋變量。二、實驗數(shù)據(jù)和實驗內(nèi)容4三、實驗操作指導(dǎo)1.使用Link方法檢驗遺漏變量Link方法進行檢驗的基本命令語句為:linktest[if][in][,cmd_options]在這個命令語句中,linktest是進行Link檢驗的基本命令,if是表示條件的命令語句,in是范圍語句,cmd_options表示Link檢驗的選項應(yīng)該與所使用的估計方法的選項一致,例如檢驗之前使用的回歸regress命令,則此處的選項應(yīng)與regress的選項一致。三、實驗操作指導(dǎo)5例如,利用wage1的數(shù)據(jù),檢驗?zāi)P褪欠襁z漏了重要的解釋變量,應(yīng)該輸入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenurelinktest第一個命令表示打開數(shù)據(jù)文件wage1,第二個命令語句是對模型進行回歸估計,第三個命令就是進行遺漏變量的Link檢驗,檢驗結(jié)果如圖7.1所示。從第二個表格中,可以看到hatsq項的p值為0.018,拒絕了hatsq系數(shù)為零的假設(shè),即說明被解釋變量lwage的擬合值的平方項具有解釋能力,所以可以得出結(jié)論原模型可能遺漏了重要的解釋變量。例如,利用wage1的數(shù)據(jù),檢驗?zāi)P?為了進一步驗證添加重要變量是否會改變Link檢驗的結(jié)果,我們生成受教育年限educ和工作經(jīng)驗?zāi)晗辝xper的平方項,重新進行回歸并進行檢驗,這時輸入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2linktest第一個命令語句的作用是生成變量educ2,使其值為變量educ的平方;第二個命令語句的作用是生成變量exper2,使其值為變量exper的平方;第三個命令語句的作用是對進行回歸估計;第四個命令就是進行遺漏變量的Link檢驗,檢驗結(jié)果如圖7.2所示。為了進一步驗證添加重要變量是否會改變Link檢驗的結(jié)果,我們72.使用Ramsey方法檢驗遺漏變量Ramsey方法進行檢驗的基本命令語句為:estatovtest[,rhs]在這個命令語句中,estatovtest是進行Ramsey檢驗的命令語句,如果設(shè)定rhs,則在檢驗過程中使用解釋變量,如果不設(shè)定rhs,則在檢驗中使用被解釋變量的擬合值。例如,利用wage1的數(shù)據(jù),使用Ramsey方法檢驗?zāi)P褪欠襁z漏了重要的解釋變量,應(yīng)該輸入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatovtest2.使用Ramsey方法檢驗遺漏變量8在這組命令語句中,第一個命令的功能是打開數(shù)據(jù)文件,第二個命令是對模型進行回歸估計,第三個命令就是進行遺漏變量的Ramsey檢驗,檢驗結(jié)果如圖7.3所示。在圖7.3中,第一個圖表仍然是回歸結(jié)果,第二部分則是Ramsey檢驗的結(jié)果,不難發(fā)現(xiàn)Ramsey檢驗的原假設(shè)是模型不存在遺漏變量,檢驗的p值為0.0048,拒絕原假設(shè),即認為原模型存在遺漏變量。在這組命令語句中,第一個命令的功能是打開數(shù)據(jù)文件,第二個命令9為了進一步驗證添加重要變量是否會改變Ramsey檢驗的結(jié)果,我們采取Link檢驗中的方法,生成受教育年限educ和工作經(jīng)驗?zāi)晗辝xper的平方項,重新進行回歸并進行檢驗,這時輸入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatovtest這里不再贅述這些命令語句的含義,調(diào)整之后的檢驗結(jié)果如圖7.4所示,可以發(fā)現(xiàn)此時檢驗的p值為0.5404,無法拒絕原假設(shè),即認為模型不再存在遺漏變量。為了進一步驗證添加重要變量是否會改變Ramsey檢驗的結(jié)果,10實驗7-2解釋變量個數(shù)的選擇一、實驗基本原理好的經(jīng)濟理論的標(biāo)準(zhǔn)通常是希望通過更為簡潔的模型來更加精確地描述復(fù)雜的經(jīng)濟現(xiàn)象,但是這兩個目標(biāo)通常是矛盾的,因為通過增加解釋變量的個數(shù)可以提高模型的精確程度,但是同時也犧牲了模型的簡潔性。因此,在現(xiàn)實的經(jīng)濟研究過程中,通常使用信息準(zhǔn)則來確定解釋變量的個數(shù),較為常用的信息準(zhǔn)則有兩個:(1)赤池信息準(zhǔn)則,又稱為AIC準(zhǔn)則,其基本思想是通過選擇解釋變量的個數(shù),使得如下目標(biāo)函數(shù)最小。實驗7-2解釋變量個數(shù)的選擇一、實驗基本原理11
在這個公式中,e代表殘差序列,n代表樣本數(shù)量,K代表解釋變量的個數(shù)。通過這個目標(biāo)函數(shù)可以看出,第一項是對擬合優(yōu)度的獎勵,即盡可能地使殘差平方和變小,第二項是對解釋變量個數(shù)增多的懲罰,因為目標(biāo)函數(shù)是解釋變量個數(shù)的增函數(shù)。(2)貝葉斯信息準(zhǔn)則,又稱為BIC準(zhǔn)則,其基本思想是通過選擇解釋變量的個數(shù),使得如下目標(biāo)函數(shù)最小。在這個公式中,e代表殘差序列,n代表樣本數(shù)量,K代表解釋變量的個數(shù)。通過這個目標(biāo)函數(shù)可以看出,BIC準(zhǔn)則與AIC準(zhǔn)則的唯一區(qū)別就是K的權(quán)重不同,一般來說ln(n)>2,所以BIC更加注重模型的簡潔性。在這個公式中,e代表殘差序列,n代表樣本數(shù)量12二、實驗數(shù)據(jù)和實驗內(nèi)容:根據(jù)統(tǒng)計資料得到了美國工資的橫截面數(shù)據(jù),變量主要包括:wage=工資,educ=受教育年限,exper=工作經(jīng)驗?zāi)晗?,tenure=任職年限,lwage=工資的對數(shù)值。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“wage1.dta”工作文件中。利用wage1的數(shù)據(jù),來確定以下兩個模型:模型和模型哪個更為合理(其中educ2和exper2分別為educ和exper的平方項)。二、實驗數(shù)據(jù)和實驗內(nèi)容:13三、實驗操作指導(dǎo)使用信息準(zhǔn)則,對模型進行檢驗的命令如下:estatic[,n(#)]在這個命令語句中,estatic是進行檢驗的命令語句,選項n(#)的功能是指定BIC準(zhǔn)則中的n值,一般使用默認值。例如,利用wage1的數(shù)據(jù),獲得模型的AIC和BIC值,應(yīng)該輸入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatic第一個命令表示打開數(shù)據(jù)文件wage1,第二個命令語句是對模型進行回歸估計,第三個命令就是進行信息準(zhǔn)則值的計算,計算結(jié)果如圖7.5所示,AIC值為635.10,BIC值為652.16。三、實驗操作指導(dǎo)14為了對比分析,我們?nèi)匀徊扇ink檢驗中的方法,生成受教育年限educ和工作經(jīng)驗?zāi)晗辝xper的平方項,建立新的模型重新對其進行回歸并計算,這時輸入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatic這里不再贅述這些命令語句的含義,調(diào)整之后的計算結(jié)果如圖7.6所示,可以發(fā)現(xiàn)此時計算的AIC值為583.66,BIC值為609.25。通過這兩個模型信息準(zhǔn)則值的對比分析,可以得出結(jié)論,第二個模型的信息準(zhǔn)則值更小,所以此模型優(yōu)于第一個模型。為了對比分析,我們?nèi)匀徊扇ink檢驗中的方法,生成受教育年15實驗7-3多重共線性與逐步回歸法一、實驗基本原理多重共線性問題在多元線性回歸分析中是很常見的,其導(dǎo)致的直接后果是方程回歸系數(shù)估計的標(biāo)準(zhǔn)誤差變大,系數(shù)估計值的精度降低等。多重共線性的問題對于Stata軟件來說并不顯著,因為Stata會自動剔除完全的多重共線性,但是出于知識的完整性,這里還是介紹一下Stata對于多重共線性的識別和處理方法。多重共線性的診斷方法主要有:(1)直觀上說:當(dāng)模型的擬合優(yōu)度非常高且通過F檢驗,但多數(shù)解釋變量都不顯著,甚至解釋變量系數(shù)符號相反時,可能存在多重共線性。(2)對由解釋變量所組成的序列組進行相關(guān)分析時,如果有些變量之間的相關(guān)系數(shù)很高,則也反映出可能存在多重共線性。(3)使用命令estatvif,對膨脹因子進行計算,經(jīng)驗上當(dāng)VIF的均值>=2且VIF的最大值接近或者超過10時,通常認為有較為嚴重的多重共線性。實驗7-3多重共線性與逐步回歸法一、實驗基本原理16當(dāng)確認模型存在多重共線性時,通常有兩種解決方法消除其影響:一種是收集更多的數(shù)據(jù),增大樣本容量;另一種是通過逐步回歸,改進模型的形式。在現(xiàn)實研究過程中,增大樣本容量的操作不易執(zhí)行,所以逐步回歸法應(yīng)用更為廣泛。逐步回歸法的基本原理是:先分別擬合被解釋變量對于每一個解釋變量的一元回歸,并將各回歸方程的擬合優(yōu)度按照大小順序排列,然后將擬合優(yōu)度最大的解釋變量作為基礎(chǔ)變量,然后逐漸將其他解釋變量加入模型中并同時觀測t檢驗值的變化,如果t檢驗顯著則保留該變量,否則去除,不斷重復(fù)此過程直到加入所有顯著的解釋變量。當(dāng)確認模型存在多重共線性時,通常有兩種解決方法消除其影響:一17二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了某市旅游業(yè)的相關(guān)數(shù)據(jù),變量主要包括:Y=旅游收入(單位:萬元),X1=某市旅游人數(shù)(單位:人),X2=城鎮(zhèn)居民人均旅游支出(單位:元),X3=農(nóng)村居民人均旅游支出(單位:元),X4=公路里程(單位:公里),X5=鐵路里程(單位:公里)。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“l(fā)vyou.dta”工作文件中。利用lvyou數(shù)據(jù)估計方程,判斷是否存在多重共線性,若存在,采用逐步回歸法消除多重共線性。二、實驗數(shù)據(jù)和實驗內(nèi)容18三、實驗操作指導(dǎo)1.估計方程若要進行多重共線性的檢驗與修正,首先要建立基本的回歸模型。按照第六章所講述內(nèi)容,建立回歸模型的命令如下:usec:\data\lvyou.dta,clearregressYX1X2X3X4X5執(zhí)行建立回歸的命令,可以得到如圖7.7所示的回歸結(jié)果,通過判斷發(fā)現(xiàn):整個模型的擬合優(yōu)度較高,但是變量X1和X5未通過t檢驗,且X5的系數(shù)為負,與常理違背,因為在通常情況下,隨著鐵路里程的增加,交通更加方便,所以旅游收入應(yīng)該增加。綜上所述,可以初步認為該模型存在多重共線性。三、實驗操作指導(dǎo)192.多重共線性檢驗多重共線性的檢驗通常采取兩種方法,一種是計算膨脹因子,一種是計算變量之間的相關(guān)系數(shù),下面將會詳細介紹。(1)計算膨脹因子的命令為:estatvif[,uncentered]在這個命令語句中,estatvif是計算膨脹因子的命令語句,uncentered選項通常使用在沒有常數(shù)項的模型中。在本實驗中,在回歸之后輸入此命令,就可得到如圖7.8所示的膨脹因子數(shù)值。結(jié)果顯示該模型的膨脹因子的平均值為14.50,遠遠大于經(jīng)驗值2,膨脹因子最大值為20.06,遠遠大于經(jīng)驗值10,所以可以認為該模型存在嚴重的多重共線性。2.多重共線性檢驗20(2)計算相關(guān)系數(shù)的命令語句為:pwcorr[varlist][if][in][weight][,pwcorr_options]在這個命令語句中,pwcorr是計算相關(guān)系數(shù)的命令,varlist為將要計算相關(guān)系數(shù)的變量,if為條件語句,in為范圍語句,weight為權(quán)重語句,options選項如表7.1所示。(2)計算相關(guān)系數(shù)的命令語句為:21在本實驗中,可以通過計算變量X1、X2、X3、X4和X5之間的相關(guān)系數(shù)來判斷模型是否存在多重共線性,所使用的命令為:pwcorrX1X2X3X4X5這個命令語句顯示的相關(guān)系數(shù)矩陣如圖7.9所示,通過觀察可以得到解釋變量X1與X2、X4、X5之間,X2與X3、X4、X5之間,以及X4與X5之間的相關(guān)系數(shù)非常高,因此可以認為解釋變量之間存在較為嚴重的多重共線性。在本實驗中,可以通過計算變量X1、X2、X3、X4和X5之間223.逐步回歸法(1)手動逐步回歸法逐步回顧法的第一步是要分別擬合Y對每一個變量的回歸方程,從中選出擬合優(yōu)度最高的方程作為基礎(chǔ)方程。這個操作所使用到的命令為:regressYX1regressYX2regressYX3regressYX4regressYX5經(jīng)過這步操作,可以得到如表7.2所示的回歸結(jié)果,為了便于觀察,表7.2是根據(jù)Stata輸出結(jié)果整理而成的。表7.2內(nèi)容顯示,擬合優(yōu)度的大小排列順序為X2>X5>X1>X4>X3,所以這時應(yīng)將X2作為基礎(chǔ)解釋變量,然后將X5、X1、X4、X3分別加入回歸方程,進行逐步回歸。3.逐步回歸法23首先,將X5加入方程進行回歸,這時輸入的命令為:regressYX2X5結(jié)果如圖7.10所示,通過觀察發(fā)現(xiàn),X5的系數(shù)的p值為0.658,沒有通過檢驗,所以刪除解釋變量X5。接下來,將X1加入基本方程進行回歸,得到如圖7.11所示的回歸結(jié)果,結(jié)果顯示X1系數(shù)的p值為0.068,沒有通過檢驗,所以刪除。下面,將X4加入基本方程進行回歸,圖7.12顯示所有系數(shù)都通過了檢驗,所以基本方程得以擴展為X2和X4兩個解釋變量。最后,將解釋變量X3加入,以X2、X4、X3作為解釋變量進行回歸,這時得到最終結(jié)果如圖7.13所示,所有變量都通過了檢驗。首先,將X5加入方程進行回歸,這時輸入的命令為:24(2)自動逐步回歸法上述方法對于解釋變量較多的計量模型并不適用,所以Stata提供了直接進行分步回歸的命令,命令格式為:stepwise[,options]:command在這個命令語句中,stepwise是進行逐步回歸的命令,command為進行回歸分析或建立其他模型的命令,options選項顯示在表7.3中。(2)自動逐步回歸法25在運用stepwise命令時,需要特別注意的是搜尋的方法和順序,具體內(nèi)容如表7.4所示。表7.4較為詳細地敘述了每種方法的內(nèi)在含義和實際操作方法,所以用戶使用該命令時應(yīng)根據(jù)研究需要進行選擇,或者通過幾種方法結(jié)果的對比確定最終的模型。在運用stepwise命令時,需要特別注意的是搜尋的方法和順26Stata與模型的設(shè)定課件27例如,利用這種逐步回歸的方法重復(fù)旅游業(yè)分析的建模過程中,如果采用前向搜尋法,需要輸入如下命令:stepwise,pe(0.05):regressYX1X2X3X4X5在這個命令語句中,stepwise是進行逐步回歸的命令語句,pe(0.05)是運用顯著性水平為5%的前向搜尋法,regressYX1X2X3X4X5則是指明要建立回歸模型。由于前向搜尋法和手動逐步回歸的計算方法一致,所以得到如圖7.14所示的結(jié)果與圖7.13所示的結(jié)果基本一致。但是如果使用其他方法則會得出不同的結(jié)果,所以用戶應(yīng)當(dāng)根據(jù)自身研究的需要進行慎重的選擇。例如,利用這種逐步回歸的方法重復(fù)旅游業(yè)分析的建模過程中,如果28實驗7-4極端數(shù)據(jù)的診斷與處理一、實驗基本原理實驗7-4極端數(shù)據(jù)的診斷與處理一、實驗基本原理29二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了美國汽車產(chǎn)業(yè)的橫截面數(shù)據(jù)(1978年),變量主要包括:price=汽車的價格,mpg=每加侖油所行駛的英里數(shù),weight=汽車的重量,foreign表示是否是進口車,如果foreign=0代表是國產(chǎn)車,如果foreign=1代表是進口車。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“usaauto.dta”工作文件中。利用usaauto數(shù)據(jù),以price為因變量,mpg、weight和foreign為自變量建立回歸模型,找出樣本數(shù)據(jù)中存在的極端數(shù)據(jù)。二、實驗數(shù)據(jù)和實驗內(nèi)容30三、實驗操作指導(dǎo)進行極端數(shù)據(jù)的檢驗通常用到的是一組命令,這組命令顯示如下:regressyx1x2
……predictlev,leveragegsort–levsumlevlistin1/i在這組命令語句中,第一個命令語句的作用是以y為因變量,x1、x2
……為自變量建立回歸分析;第二個命令語句的作用是計算出所有觀測數(shù)據(jù)的lev值;第三個命令語句的作用是將lev值降序排列;第四個命令語句的作用是計算出lev值的極值與平均值,從而便于比較;第五個命令語句的作用是從大到小列出lev值第1到第i個觀測值,以便處理。三、實驗操作指導(dǎo)31例如,在美國汽車數(shù)據(jù)分析中,建立如下回歸模型之后,分析一下是否存在極端值所使用到的命令為:regresspricempgweightforeignpredictlev,leveragegsort–levsumlevlistin1/3這組命令的詳細含義已做介紹,這里不再贅述,其功能簡言之就是建立回歸模型之后,計算lev值,并將由大到小前3位的數(shù)據(jù)顯示出來,執(zhí)行結(jié)果如圖7.15所示。在結(jié)果中可以看到lev值的均值為0.0541,而最大的lev值為0.3001,所以該觀測值有可能為極端數(shù)據(jù),可以采取進一步方法進行處理,從而保證模型的精確性。處理的方法一般有兩種,一種方法為直接去掉極端值,另一種方法為選擇其他更為適合恰當(dāng)?shù)哪P瓦M行回歸分析。例如,在美國汽車數(shù)據(jù)分析中,建立如下回歸模型之后,32實驗7-5虛擬變量的處理一、實驗基本原理對于定性數(shù)據(jù)或分類數(shù)據(jù)而言,通常并不能將其直接納入模型中進行回歸分析,因為這樣的分析并不符合經(jīng)濟學(xué)理論,所以這時需要引入虛擬變量進行處理。一般情況下,如果分類變量總共有M類,為了避免多重共線性的出現(xiàn),通常只引入M-1個虛擬變量。下面將會通過一個簡單的例子,來介紹一下引入虛擬變量后,模型的實際變化。實驗7-5虛擬變量的處理一、實驗基本原理33Stata與模型的設(shè)定課件34二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了中國1978—2006年的消費數(shù)據(jù),變量主要包括:year=年份,c=人均消費(單位:元),y=人均國民收入(單位:元),c_ratio=消費收入比。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“consumption_china.dta”工作文件中。利用此數(shù)據(jù),估計中國的消費函數(shù),并引入虛擬變量,使得在1992年前后的模型截距和斜率都不相同。二、實驗數(shù)據(jù)和實驗內(nèi)容35三、實驗操作指導(dǎo)為了便于比較,首先生成整個時期中不含虛擬變量的消費函數(shù)方程,所使用到的命令為:regresscy得到如圖7.16所示的回歸結(jié)果,這個回歸所形成的模型為c=188.588+0.3977y如果認為在1992年,南巡講話導(dǎo)致了經(jīng)濟結(jié)構(gòu)的變動,這時需要引入虛擬變量將模型分成兩段進行回歸,步驟如下:第一步,生成虛擬變量,所使用的命令為:generatedummy=0replacedummy=1ifyear>=1992在這組命令中,第一個命令的作用是生成虛擬變量dummy,使其值全部為0;第二個的命令的作用就是將1992年以后的dummy值替換為1,這時就完成了虛擬變量的設(shè)置。三、實驗操作指導(dǎo)36第二步,生成虛擬變量dummy和解釋變量y的互動項,所使用的命令為:generatedummy_y=dummy*y這個命令的作用就是生成互動項dummy_y,使其值為變量dummy和變量y的乘積。第三步,將虛擬變量納入回歸方程進行估計,所使用的命令為:regresscydummydummy_y執(zhí)行結(jié)果如圖7.17所示,這時得到的模型為:這個模型是為了講解虛擬變量的實際使用方法,暫不考慮某些系數(shù)不能通過檢驗的情況。通過引入虛擬變量發(fā)現(xiàn),模型的截距和斜率都發(fā)生了變化。在用戶實際研究過程中,可以根據(jù)需要引入虛擬變量,進行變斜率、變截距以及二者相結(jié)合的模型變化。第二步,生成虛擬變量dummy和解釋變量y的互動項,所使用的37實驗7-6經(jīng)濟結(jié)構(gòu)變動的Chow檢驗一、實驗基本原理在時間序列模型之中,需要十分注重模型系數(shù)的穩(wěn)定性,如果沒有考慮到結(jié)構(gòu)變動,將會造成較為嚴重的模型設(shè)定誤差。Chow檢驗提供了一個較為嚴謹?shù)臋z驗經(jīng)濟結(jié)構(gòu)變動的方法。例如,在時期t1和t2中,認為存在t3時刻為一個經(jīng)濟結(jié)構(gòu)變動點,這時可以通過三個回歸來確定該點是否是結(jié)構(gòu)變動點。實驗7-6經(jīng)濟結(jié)構(gòu)變動的Chow檢驗一、實驗基本原理38Stata與模型的設(shè)定課件39二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了中國1978—2006年的消費數(shù)據(jù),變量主要包括:year=年份,c=人均消費(單位:元),y=人均國民收入(單位:元),c_ratio=消費收入比。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“consumption_china.dta”工作文件中。利用此數(shù)據(jù),估計中國的消費函數(shù),并檢驗中國的消費函數(shù)是否在1992年鄧小平“南巡”以后(含1992年)發(fā)生了結(jié)構(gòu)變化。二、實驗數(shù)據(jù)和實驗內(nèi)容40三、實驗操作指導(dǎo)1.手動法進行Chow檢驗了解了Chow檢驗的基本原理之后,就可以進行檢驗了,檢驗的方法就是分別進行三次回歸,下面將會以中國消費函數(shù)為例詳細介紹整個操作過程,檢驗中國的消費函數(shù)是否在1992年以后發(fā)生了結(jié)構(gòu)變化:(1)首先生成整個時期的回歸方程,然后計算出這時的殘差平方和,這時需要輸入的命令為:regresscypredicte,residualgena=e^2egenb=sum(a)第一個命令的作用是生成消費函數(shù)第二個命令的作用是生成殘差序列;第三個命令的作用是生成序列a,使其值為殘差平方;第四個命令的作用是生成變量b,使其值為序列a的和,即殘差平方和,也就是實驗原理中所指的三、實驗操作指導(dǎo)41(2)其次生成1992年以前序列的回歸方程,然后計算出這前半段時期的殘差平方和,這時需要輸入的命令為:regresscyifyear<1992predicte1ifyear<1992,residualgena1=e1^2egenb1=sum(a1)第一個命令的作用是生成1992年之前的消費函數(shù)第二個命令的作用是生成殘差序列e1;第三個命令的作用是生成序列a1,使其值為殘差平方;第四個命令的作用是生成變量b1,使其值為序列a1的和,即殘差平方和,也就是實驗原理中所指的(2)其次生成1992年以前序列的回歸方程,然后計算出這前半42(3)生成1992年以后序列的回歸方程,然后計算出這后半段時期的殘差平方和,這時需要輸入的命令為:regresscyifyear>=1992predicte2ifyear>=1992,residualgena2=e2^2egenb2=sum(a2)第一個命令的作用是生成1992年之后的消費函數(shù)第二個命令的作用是生成殘差序列e2;第三個命令的作用是生成序列a2,使其值為殘差平方;第四個命令的作用是生成變量b2,使其值為序列a2的和,即殘差平方和,也就是實驗原理中所指的(3)生成1992年以后序列的回歸方程,然后計算出這后半段時43(4)最后計算F統(tǒng)計量的值,并與臨界值作比較,這時需要輸入的命令為:genf=((b-b1-b2)/(2))/((b1+b2)/(29-2*2))sumf第一個命令的作用就是將所有計算的數(shù)值帶入公式計算出F統(tǒng)計量的值,第二個命令的作用就是列出F的值,命令執(zhí)行的結(jié)果如圖7.18所示。我們知道在95%的置信水平下,自由度為2和25的F值為3.39,所以檢驗值大于臨界值,拒絕原假設(shè),應(yīng)當(dāng)認為存在結(jié)構(gòu)變化。(4)最后計算F統(tǒng)計量的值,并與臨界值作比較,這時需要輸入的44(2)自動進行Chow檢驗在一般的Stata默認安裝程序中并不存在Chow檢驗的命令程序,但是有些用戶編制了Chow檢驗的程序,需要用戶自行下載安裝,這時需要在命令窗口中輸入如下命令:finditchow這時,將會顯示許多下載該命令的地址,一般點擊第一個就可以安裝完成了。Chow檢驗的命令語句為:chowvarlist[weight][ifexp][inrange][,chow(sample-list)]在這個命令語句中,chow是進行檢驗的命令,varlist是指將要進行Chow檢驗的變量名稱,weight是權(quán)重語句,ifexp是條件語句,inrange是范圍語句,chow(sample-list)需要指明檢驗的區(qū)間,也就是結(jié)構(gòu)變動點所在的位置。例如,利用consumption_china數(shù)據(jù),檢驗1992年是否為結(jié)構(gòu)變化點的命令為:chowcy,chow(year>1991)在這個命令語句中,chowcy說明要對變量c和y進行檢驗,chow(year>1991)說明結(jié)構(gòu)變動可能出現(xiàn)在1992年,命令執(zhí)行的結(jié)果同手動法一致。(2)自動進行Chow檢驗45習(xí)題1.利用wage2.dta的數(shù)據(jù),分別運用Link方法和Ramsey方法,檢驗回歸模型是否遺漏了重要的解釋變量。2.利用wage2.dta的數(shù)據(jù),運用信息準(zhǔn)則的方法判斷模型和模型哪一個更為合適,數(shù)據(jù)同第1題。3.利用usaauto.dta的數(shù)據(jù),判斷回歸模型是否具有多重共線性,如果存在,請運用逐步回歸法進行修正。習(xí)題1.利用wage2.dta的數(shù)據(jù),分別運用Link方法和464.利用wage2.dta的數(shù)據(jù),建立回歸模型并檢驗是否存在極端數(shù)據(jù),數(shù)據(jù)同第1題。5.利用wage2.dta的數(shù)據(jù),以模型為基礎(chǔ),按照性別建立虛擬變量,并將該變量及其與其他變量的交互項加入回歸模型中重新進行估計,數(shù)據(jù)同第1題。6.利用water.dta的數(shù)據(jù),建立模型并利用Chow檢驗驗證在2000年自來水市場化改革后,自來水產(chǎn)業(yè)結(jié)構(gòu)是否發(fā)生了變化,4.利用wage2.dta的數(shù)據(jù),建立回歸模型47演講完畢,謝謝觀看!演講完畢,謝謝觀看!48第七章Stata與模型的設(shè)定第七章Stata與模型的設(shè)定49主要內(nèi)容:1、遺漏變量的檢驗2、解釋變量個數(shù)的選擇3、多重共線性與逐步回歸法4、極端數(shù)據(jù)的診斷與處理5、虛擬變量的處理6、經(jīng)濟結(jié)構(gòu)變動的Chow檢驗主要內(nèi)容:1、遺漏變量的檢驗50實驗7-1遺漏變量的檢驗一、實驗基本原理實驗7-1遺漏變量的檢驗一、實驗基本原理51二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了美國工資的橫截面數(shù)據(jù),變量主要包括:wage=工資,educ=受教育年限,exper=工作經(jīng)驗?zāi)晗?,tenure=任職年限,lwage=工資的對數(shù)值。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“wage1.dta”工作文件中。利用wage1的數(shù)據(jù),分別利用Link方法和Ramsey方法檢驗?zāi)P褪欠襁z漏了重要的解釋變量。二、實驗數(shù)據(jù)和實驗內(nèi)容52三、實驗操作指導(dǎo)1.使用Link方法檢驗遺漏變量Link方法進行檢驗的基本命令語句為:linktest[if][in][,cmd_options]在這個命令語句中,linktest是進行Link檢驗的基本命令,if是表示條件的命令語句,in是范圍語句,cmd_options表示Link檢驗的選項應(yīng)該與所使用的估計方法的選項一致,例如檢驗之前使用的回歸regress命令,則此處的選項應(yīng)與regress的選項一致。三、實驗操作指導(dǎo)53例如,利用wage1的數(shù)據(jù),檢驗?zāi)P褪欠襁z漏了重要的解釋變量,應(yīng)該輸入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenurelinktest第一個命令表示打開數(shù)據(jù)文件wage1,第二個命令語句是對模型進行回歸估計,第三個命令就是進行遺漏變量的Link檢驗,檢驗結(jié)果如圖7.1所示。從第二個表格中,可以看到hatsq項的p值為0.018,拒絕了hatsq系數(shù)為零的假設(shè),即說明被解釋變量lwage的擬合值的平方項具有解釋能力,所以可以得出結(jié)論原模型可能遺漏了重要的解釋變量。例如,利用wage1的數(shù)據(jù),檢驗?zāi)P?4為了進一步驗證添加重要變量是否會改變Link檢驗的結(jié)果,我們生成受教育年限educ和工作經(jīng)驗?zāi)晗辝xper的平方項,重新進行回歸并進行檢驗,這時輸入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2linktest第一個命令語句的作用是生成變量educ2,使其值為變量educ的平方;第二個命令語句的作用是生成變量exper2,使其值為變量exper的平方;第三個命令語句的作用是對進行回歸估計;第四個命令就是進行遺漏變量的Link檢驗,檢驗結(jié)果如圖7.2所示。為了進一步驗證添加重要變量是否會改變Link檢驗的結(jié)果,我們552.使用Ramsey方法檢驗遺漏變量Ramsey方法進行檢驗的基本命令語句為:estatovtest[,rhs]在這個命令語句中,estatovtest是進行Ramsey檢驗的命令語句,如果設(shè)定rhs,則在檢驗過程中使用解釋變量,如果不設(shè)定rhs,則在檢驗中使用被解釋變量的擬合值。例如,利用wage1的數(shù)據(jù),使用Ramsey方法檢驗?zāi)P褪欠襁z漏了重要的解釋變量,應(yīng)該輸入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatovtest2.使用Ramsey方法檢驗遺漏變量56在這組命令語句中,第一個命令的功能是打開數(shù)據(jù)文件,第二個命令是對模型進行回歸估計,第三個命令就是進行遺漏變量的Ramsey檢驗,檢驗結(jié)果如圖7.3所示。在圖7.3中,第一個圖表仍然是回歸結(jié)果,第二部分則是Ramsey檢驗的結(jié)果,不難發(fā)現(xiàn)Ramsey檢驗的原假設(shè)是模型不存在遺漏變量,檢驗的p值為0.0048,拒絕原假設(shè),即認為原模型存在遺漏變量。在這組命令語句中,第一個命令的功能是打開數(shù)據(jù)文件,第二個命令57為了進一步驗證添加重要變量是否會改變Ramsey檢驗的結(jié)果,我們采取Link檢驗中的方法,生成受教育年限educ和工作經(jīng)驗?zāi)晗辝xper的平方項,重新進行回歸并進行檢驗,這時輸入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatovtest這里不再贅述這些命令語句的含義,調(diào)整之后的檢驗結(jié)果如圖7.4所示,可以發(fā)現(xiàn)此時檢驗的p值為0.5404,無法拒絕原假設(shè),即認為模型不再存在遺漏變量。為了進一步驗證添加重要變量是否會改變Ramsey檢驗的結(jié)果,58實驗7-2解釋變量個數(shù)的選擇一、實驗基本原理好的經(jīng)濟理論的標(biāo)準(zhǔn)通常是希望通過更為簡潔的模型來更加精確地描述復(fù)雜的經(jīng)濟現(xiàn)象,但是這兩個目標(biāo)通常是矛盾的,因為通過增加解釋變量的個數(shù)可以提高模型的精確程度,但是同時也犧牲了模型的簡潔性。因此,在現(xiàn)實的經(jīng)濟研究過程中,通常使用信息準(zhǔn)則來確定解釋變量的個數(shù),較為常用的信息準(zhǔn)則有兩個:(1)赤池信息準(zhǔn)則,又稱為AIC準(zhǔn)則,其基本思想是通過選擇解釋變量的個數(shù),使得如下目標(biāo)函數(shù)最小。實驗7-2解釋變量個數(shù)的選擇一、實驗基本原理59
在這個公式中,e代表殘差序列,n代表樣本數(shù)量,K代表解釋變量的個數(shù)。通過這個目標(biāo)函數(shù)可以看出,第一項是對擬合優(yōu)度的獎勵,即盡可能地使殘差平方和變小,第二項是對解釋變量個數(shù)增多的懲罰,因為目標(biāo)函數(shù)是解釋變量個數(shù)的增函數(shù)。(2)貝葉斯信息準(zhǔn)則,又稱為BIC準(zhǔn)則,其基本思想是通過選擇解釋變量的個數(shù),使得如下目標(biāo)函數(shù)最小。在這個公式中,e代表殘差序列,n代表樣本數(shù)量,K代表解釋變量的個數(shù)。通過這個目標(biāo)函數(shù)可以看出,BIC準(zhǔn)則與AIC準(zhǔn)則的唯一區(qū)別就是K的權(quán)重不同,一般來說ln(n)>2,所以BIC更加注重模型的簡潔性。在這個公式中,e代表殘差序列,n代表樣本數(shù)量60二、實驗數(shù)據(jù)和實驗內(nèi)容:根據(jù)統(tǒng)計資料得到了美國工資的橫截面數(shù)據(jù),變量主要包括:wage=工資,educ=受教育年限,exper=工作經(jīng)驗?zāi)晗蓿瑃enure=任職年限,lwage=工資的對數(shù)值。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“wage1.dta”工作文件中。利用wage1的數(shù)據(jù),來確定以下兩個模型:模型和模型哪個更為合理(其中educ2和exper2分別為educ和exper的平方項)。二、實驗數(shù)據(jù)和實驗內(nèi)容:61三、實驗操作指導(dǎo)使用信息準(zhǔn)則,對模型進行檢驗的命令如下:estatic[,n(#)]在這個命令語句中,estatic是進行檢驗的命令語句,選項n(#)的功能是指定BIC準(zhǔn)則中的n值,一般使用默認值。例如,利用wage1的數(shù)據(jù),獲得模型的AIC和BIC值,應(yīng)該輸入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatic第一個命令表示打開數(shù)據(jù)文件wage1,第二個命令語句是對模型進行回歸估計,第三個命令就是進行信息準(zhǔn)則值的計算,計算結(jié)果如圖7.5所示,AIC值為635.10,BIC值為652.16。三、實驗操作指導(dǎo)62為了對比分析,我們?nèi)匀徊扇ink檢驗中的方法,生成受教育年限educ和工作經(jīng)驗?zāi)晗辝xper的平方項,建立新的模型重新對其進行回歸并計算,這時輸入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatic這里不再贅述這些命令語句的含義,調(diào)整之后的計算結(jié)果如圖7.6所示,可以發(fā)現(xiàn)此時計算的AIC值為583.66,BIC值為609.25。通過這兩個模型信息準(zhǔn)則值的對比分析,可以得出結(jié)論,第二個模型的信息準(zhǔn)則值更小,所以此模型優(yōu)于第一個模型。為了對比分析,我們?nèi)匀徊扇ink檢驗中的方法,生成受教育年63實驗7-3多重共線性與逐步回歸法一、實驗基本原理多重共線性問題在多元線性回歸分析中是很常見的,其導(dǎo)致的直接后果是方程回歸系數(shù)估計的標(biāo)準(zhǔn)誤差變大,系數(shù)估計值的精度降低等。多重共線性的問題對于Stata軟件來說并不顯著,因為Stata會自動剔除完全的多重共線性,但是出于知識的完整性,這里還是介紹一下Stata對于多重共線性的識別和處理方法。多重共線性的診斷方法主要有:(1)直觀上說:當(dāng)模型的擬合優(yōu)度非常高且通過F檢驗,但多數(shù)解釋變量都不顯著,甚至解釋變量系數(shù)符號相反時,可能存在多重共線性。(2)對由解釋變量所組成的序列組進行相關(guān)分析時,如果有些變量之間的相關(guān)系數(shù)很高,則也反映出可能存在多重共線性。(3)使用命令estatvif,對膨脹因子進行計算,經(jīng)驗上當(dāng)VIF的均值>=2且VIF的最大值接近或者超過10時,通常認為有較為嚴重的多重共線性。實驗7-3多重共線性與逐步回歸法一、實驗基本原理64當(dāng)確認模型存在多重共線性時,通常有兩種解決方法消除其影響:一種是收集更多的數(shù)據(jù),增大樣本容量;另一種是通過逐步回歸,改進模型的形式。在現(xiàn)實研究過程中,增大樣本容量的操作不易執(zhí)行,所以逐步回歸法應(yīng)用更為廣泛。逐步回歸法的基本原理是:先分別擬合被解釋變量對于每一個解釋變量的一元回歸,并將各回歸方程的擬合優(yōu)度按照大小順序排列,然后將擬合優(yōu)度最大的解釋變量作為基礎(chǔ)變量,然后逐漸將其他解釋變量加入模型中并同時觀測t檢驗值的變化,如果t檢驗顯著則保留該變量,否則去除,不斷重復(fù)此過程直到加入所有顯著的解釋變量。當(dāng)確認模型存在多重共線性時,通常有兩種解決方法消除其影響:一65二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了某市旅游業(yè)的相關(guān)數(shù)據(jù),變量主要包括:Y=旅游收入(單位:萬元),X1=某市旅游人數(shù)(單位:人),X2=城鎮(zhèn)居民人均旅游支出(單位:元),X3=農(nóng)村居民人均旅游支出(單位:元),X4=公路里程(單位:公里),X5=鐵路里程(單位:公里)。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“l(fā)vyou.dta”工作文件中。利用lvyou數(shù)據(jù)估計方程,判斷是否存在多重共線性,若存在,采用逐步回歸法消除多重共線性。二、實驗數(shù)據(jù)和實驗內(nèi)容66三、實驗操作指導(dǎo)1.估計方程若要進行多重共線性的檢驗與修正,首先要建立基本的回歸模型。按照第六章所講述內(nèi)容,建立回歸模型的命令如下:usec:\data\lvyou.dta,clearregressYX1X2X3X4X5執(zhí)行建立回歸的命令,可以得到如圖7.7所示的回歸結(jié)果,通過判斷發(fā)現(xiàn):整個模型的擬合優(yōu)度較高,但是變量X1和X5未通過t檢驗,且X5的系數(shù)為負,與常理違背,因為在通常情況下,隨著鐵路里程的增加,交通更加方便,所以旅游收入應(yīng)該增加。綜上所述,可以初步認為該模型存在多重共線性。三、實驗操作指導(dǎo)672.多重共線性檢驗多重共線性的檢驗通常采取兩種方法,一種是計算膨脹因子,一種是計算變量之間的相關(guān)系數(shù),下面將會詳細介紹。(1)計算膨脹因子的命令為:estatvif[,uncentered]在這個命令語句中,estatvif是計算膨脹因子的命令語句,uncentered選項通常使用在沒有常數(shù)項的模型中。在本實驗中,在回歸之后輸入此命令,就可得到如圖7.8所示的膨脹因子數(shù)值。結(jié)果顯示該模型的膨脹因子的平均值為14.50,遠遠大于經(jīng)驗值2,膨脹因子最大值為20.06,遠遠大于經(jīng)驗值10,所以可以認為該模型存在嚴重的多重共線性。2.多重共線性檢驗68(2)計算相關(guān)系數(shù)的命令語句為:pwcorr[varlist][if][in][weight][,pwcorr_options]在這個命令語句中,pwcorr是計算相關(guān)系數(shù)的命令,varlist為將要計算相關(guān)系數(shù)的變量,if為條件語句,in為范圍語句,weight為權(quán)重語句,options選項如表7.1所示。(2)計算相關(guān)系數(shù)的命令語句為:69在本實驗中,可以通過計算變量X1、X2、X3、X4和X5之間的相關(guān)系數(shù)來判斷模型是否存在多重共線性,所使用的命令為:pwcorrX1X2X3X4X5這個命令語句顯示的相關(guān)系數(shù)矩陣如圖7.9所示,通過觀察可以得到解釋變量X1與X2、X4、X5之間,X2與X3、X4、X5之間,以及X4與X5之間的相關(guān)系數(shù)非常高,因此可以認為解釋變量之間存在較為嚴重的多重共線性。在本實驗中,可以通過計算變量X1、X2、X3、X4和X5之間703.逐步回歸法(1)手動逐步回歸法逐步回顧法的第一步是要分別擬合Y對每一個變量的回歸方程,從中選出擬合優(yōu)度最高的方程作為基礎(chǔ)方程。這個操作所使用到的命令為:regressYX1regressYX2regressYX3regressYX4regressYX5經(jīng)過這步操作,可以得到如表7.2所示的回歸結(jié)果,為了便于觀察,表7.2是根據(jù)Stata輸出結(jié)果整理而成的。表7.2內(nèi)容顯示,擬合優(yōu)度的大小排列順序為X2>X5>X1>X4>X3,所以這時應(yīng)將X2作為基礎(chǔ)解釋變量,然后將X5、X1、X4、X3分別加入回歸方程,進行逐步回歸。3.逐步回歸法71首先,將X5加入方程進行回歸,這時輸入的命令為:regressYX2X5結(jié)果如圖7.10所示,通過觀察發(fā)現(xiàn),X5的系數(shù)的p值為0.658,沒有通過檢驗,所以刪除解釋變量X5。接下來,將X1加入基本方程進行回歸,得到如圖7.11所示的回歸結(jié)果,結(jié)果顯示X1系數(shù)的p值為0.068,沒有通過檢驗,所以刪除。下面,將X4加入基本方程進行回歸,圖7.12顯示所有系數(shù)都通過了檢驗,所以基本方程得以擴展為X2和X4兩個解釋變量。最后,將解釋變量X3加入,以X2、X4、X3作為解釋變量進行回歸,這時得到最終結(jié)果如圖7.13所示,所有變量都通過了檢驗。首先,將X5加入方程進行回歸,這時輸入的命令為:72(2)自動逐步回歸法上述方法對于解釋變量較多的計量模型并不適用,所以Stata提供了直接進行分步回歸的命令,命令格式為:stepwise[,options]:command在這個命令語句中,stepwise是進行逐步回歸的命令,command為進行回歸分析或建立其他模型的命令,options選項顯示在表7.3中。(2)自動逐步回歸法73在運用stepwise命令時,需要特別注意的是搜尋的方法和順序,具體內(nèi)容如表7.4所示。表7.4較為詳細地敘述了每種方法的內(nèi)在含義和實際操作方法,所以用戶使用該命令時應(yīng)根據(jù)研究需要進行選擇,或者通過幾種方法結(jié)果的對比確定最終的模型。在運用stepwise命令時,需要特別注意的是搜尋的方法和順74Stata與模型的設(shè)定課件75例如,利用這種逐步回歸的方法重復(fù)旅游業(yè)分析的建模過程中,如果采用前向搜尋法,需要輸入如下命令:stepwise,pe(0.05):regressYX1X2X3X4X5在這個命令語句中,stepwise是進行逐步回歸的命令語句,pe(0.05)是運用顯著性水平為5%的前向搜尋法,regressYX1X2X3X4X5則是指明要建立回歸模型。由于前向搜尋法和手動逐步回歸的計算方法一致,所以得到如圖7.14所示的結(jié)果與圖7.13所示的結(jié)果基本一致。但是如果使用其他方法則會得出不同的結(jié)果,所以用戶應(yīng)當(dāng)根據(jù)自身研究的需要進行慎重的選擇。例如,利用這種逐步回歸的方法重復(fù)旅游業(yè)分析的建模過程中,如果76實驗7-4極端數(shù)據(jù)的診斷與處理一、實驗基本原理實驗7-4極端數(shù)據(jù)的診斷與處理一、實驗基本原理77二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了美國汽車產(chǎn)業(yè)的橫截面數(shù)據(jù)(1978年),變量主要包括:price=汽車的價格,mpg=每加侖油所行駛的英里數(shù),weight=汽車的重量,foreign表示是否是進口車,如果foreign=0代表是國產(chǎn)車,如果foreign=1代表是進口車。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“usaauto.dta”工作文件中。利用usaauto數(shù)據(jù),以price為因變量,mpg、weight和foreign為自變量建立回歸模型,找出樣本數(shù)據(jù)中存在的極端數(shù)據(jù)。二、實驗數(shù)據(jù)和實驗內(nèi)容78三、實驗操作指導(dǎo)進行極端數(shù)據(jù)的檢驗通常用到的是一組命令,這組命令顯示如下:regressyx1x2
……predictlev,leveragegsort–levsumlevlistin1/i在這組命令語句中,第一個命令語句的作用是以y為因變量,x1、x2
……為自變量建立回歸分析;第二個命令語句的作用是計算出所有觀測數(shù)據(jù)的lev值;第三個命令語句的作用是將lev值降序排列;第四個命令語句的作用是計算出lev值的極值與平均值,從而便于比較;第五個命令語句的作用是從大到小列出lev值第1到第i個觀測值,以便處理。三、實驗操作指導(dǎo)79例如,在美國汽車數(shù)據(jù)分析中,建立如下回歸模型之后,分析一下是否存在極端值所使用到的命令為:regresspricempgweightforeignpredictlev,leveragegsort–levsumlevlistin1/3這組命令的詳細含義已做介紹,這里不再贅述,其功能簡言之就是建立回歸模型之后,計算lev值,并將由大到小前3位的數(shù)據(jù)顯示出來,執(zhí)行結(jié)果如圖7.15所示。在結(jié)果中可以看到lev值的均值為0.0541,而最大的lev值為0.3001,所以該觀測值有可能為極端數(shù)據(jù),可以采取進一步方法進行處理,從而保證模型的精確性。處理的方法一般有兩種,一種方法為直接去掉極端值,另一種方法為選擇其他更為適合恰當(dāng)?shù)哪P瓦M行回歸分析。例如,在美國汽車數(shù)據(jù)分析中,建立如下回歸模型之后,80實驗7-5虛擬變量的處理一、實驗基本原理對于定性數(shù)據(jù)或分類數(shù)據(jù)而言,通常并不能將其直接納入模型中進行回歸分析,因為這樣的分析并不符合經(jīng)濟學(xué)理論,所以這時需要引入虛擬變量進行處理。一般情況下,如果分類變量總共有M類,為了避免多重共線性的出現(xiàn),通常只引入M-1個虛擬變量。下面將會通過一個簡單的例子,來介紹一下引入虛擬變量后,模型的實際變化。實驗7-5虛擬變量的處理一、實驗基本原理81Stata與模型的設(shè)定課件82二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了中國1978—2006年的消費數(shù)據(jù),變量主要包括:year=年份,c=人均消費(單位:元),y=人均國民收入(單位:元),c_ratio=消費收入比。完整的數(shù)據(jù)在本書附帶光盤的data文件夾的“consumption_china.dta”工作文件中。利用此數(shù)據(jù),估計中國的消費函數(shù),并引入虛擬變量,使得在1992年前后的模型截距和斜率都不相同。二、實驗數(shù)據(jù)和實驗內(nèi)容83三、實驗操作指導(dǎo)為了便于比較,首先生成整個時期中不含虛擬變量的消費函數(shù)方程,所使用到的命令為:regresscy得到如圖7.16所示的回歸結(jié)果,這個回歸所形成的模型為c=188.588+0.3977y如果認為在1992年,南巡講話導(dǎo)致了經(jīng)濟結(jié)構(gòu)的變動,這時需要引入虛擬變量將模型分成兩段進行回歸,步驟如下:第一步,生成虛擬變量,所使用的命令為:generatedummy=0replacedummy=1ifyear>=1992在這組命令中,第一個命令的作用是生成虛擬變量dummy,使其值全部為0;第二個的命令的作用就是將1992年以后的dummy值替換為1,這時就完成了虛擬變量的設(shè)置。三、實驗操作指導(dǎo)84第二步,生成虛擬變量dummy和解釋變量y的互動項,所使用的命令為:generatedummy_y=dummy*y這個命令的作用就是生成互動項dummy_y,使其值為變量dummy和變量y的乘積。第三步,將虛擬變量納入回歸方程進行估計,所使用的命令為:regresscydummydummy_y執(zhí)行結(jié)果如圖7.17所示,這時得到的模型為:這個模型是為了講解虛擬變量的實際使用方法,暫不考慮某些系數(shù)不能通過檢驗的情況。通過引入虛擬變量發(fā)現(xiàn),模型的截距和斜率都發(fā)生了變化。在用戶實際研究過程中,可以根據(jù)需要引入虛擬變量,進行變斜率、變截距以及二者相結(jié)合的模型變化。第二步,生成虛擬變量dummy和解釋變量y的互動項,所使用的85實驗7-6經(jīng)濟結(jié)構(gòu)變動的Chow檢驗一、實驗基本原理在時間序列模型之中,需要十分注重模型系數(shù)的穩(wěn)定性,如果沒有考慮到結(jié)構(gòu)變動,將會造成較為嚴重的模型設(shè)定誤差。Chow檢驗提供了一個較為嚴謹?shù)臋z驗經(jīng)濟結(jié)構(gòu)變動的方法。例如,在時期t1和t2中,認為存在t3時刻為一個經(jīng)濟結(jié)構(gòu)變動點,這時可以通過三個回歸來確定該點是否是結(jié)構(gòu)變動點。實驗7-6經(jīng)濟結(jié)構(gòu)變動的Chow檢驗一、實驗基本原理86Stata與模型的設(shè)定課件87二、實驗數(shù)據(jù)和實驗內(nèi)容根據(jù)統(tǒng)計資料得到了中國1978—2006年的消費數(shù)據(jù),變量主要包括:year=年份,c=人均消費(單位:元),y=人均國民收入(單位:元
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專職司機2024勞動協(xié)議模板版
- 2025年廠區(qū)物業(yè)服務(wù)與設(shè)施更新改造合同4篇
- 2025年茶葉原料供應(yīng)長期合作協(xié)議4篇
- 專業(yè)2024年注塑車間承包合同2篇
- 2025年度智能交通信號控制系統(tǒng)合同4篇
- 二零二五年度廠房租賃及環(huán)保設(shè)施升級合同3篇
- 2024鐵路危險品運輸協(xié)議模板版
- 專項采購附加合同(2024修訂版)版B版
- 二零二四塔吊操作人員勞務(wù)承包高空作業(yè)服務(wù)協(xié)議3篇
- 二零二五年度新型環(huán)保材料研發(fā)與市場拓展合同3篇
- 工程項目采購與供應(yīng)鏈管理研究
- 2024年吉林高考語文試題及答案 (2) - 副本
- 拆除電纜線施工方案
- 搭竹架合同范本
- Neo4j介紹及實現(xiàn)原理
- 焊接材料-DIN-8555-標(biāo)準(zhǔn)
- 工程索賠真實案例范本
- 重癥醫(yī)學(xué)科運用PDCA循環(huán)降低ICU失禁性皮炎發(fā)生率品管圈QCC持續(xù)質(zhì)量改進成果匯報
- 個人股權(quán)證明書
- 醫(yī)院運送工作介紹
- 重癥患者的容量管理
評論
0/150
提交評論