




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第五章第五章 線性回歸的定式偏差線性回歸的定式偏差 5.1變量關(guān)系非線性變量關(guān)系非線性 5.2異常值、規(guī)律性擾動、參數(shù)變化和異常值、規(guī)律性擾動、參數(shù)變化和虛擬變量回歸虛擬變量回歸 5.3解釋變量遺漏和包含無關(guān)解釋變量解釋變量遺漏和包含無關(guān)解釋變量5.1變量關(guān)系非線性變量關(guān)系非線性一、問題一、問題線性回歸模型都假設(shè)變量關(guān)系是線性回歸模型都假設(shè)變量關(guān)系是線性隨機函數(shù)關(guān)系線性隨機函數(shù)關(guān)系,或者經(jīng)過或者經(jīng)過特定數(shù)學(xué)變換特定數(shù)學(xué)變換以后是線性隨機函數(shù)關(guān)系。以后是線性隨機函數(shù)關(guān)系。但實際變量關(guān)系可能會存在偏差,存在用線性模型分但實際變量關(guān)系可能會存在偏差,存在用線性模型分析非線性關(guān)系的可能性。析非線性關(guān)系
2、的可能性。把非線性變量關(guān)系當(dāng)作線性關(guān)系處理,把非線性變量關(guān)系當(dāng)作線性關(guān)系處理,違反誤差項均違反誤差項均值為值為0的假設(shè)的假設(shè),對線性回歸分析的有效性有根本性的破,對線性回歸分析的有效性有根本性的破壞作用壞作用。 201X假設(shè)兩個變量之間的為 Y=其中, 滿足和線性回歸模真實關(guān)系型的其他假設(shè)。E 0 012001120011XXXXX但如果我們直接用 Y=進(jìn)行回歸分析, E E顯然不可能始終為0。把非線性關(guān)系作為線性關(guān)系進(jìn)行分析是變量關(guān)系的誤識別。不僅會使得回歸分析的擬合程度降低,還會對經(jīng)濟規(guī)律做出錯誤判斷,以及導(dǎo)致較大的預(yù)測偏差,屬于計量經(jīng)濟分析比較嚴(yán)重的問題。二、發(fā)現(xiàn)與判斷二、發(fā)現(xiàn)與判斷首先
3、首先是用是用數(shù)理經(jīng)濟分析數(shù)理經(jīng)濟分析的方法,對模型的函數(shù)關(guān)系進(jìn)行更的方法,對模型的函數(shù)關(guān)系進(jìn)行更深入的分析。深入的分析。其次其次是根據(jù)數(shù)據(jù)及其是根據(jù)數(shù)據(jù)及其分布圖形、散點圖分布圖形、散點圖進(jìn)行直接判斷。進(jìn)行直接判斷。更重要的方法更重要的方法是根據(jù)是根據(jù)回歸殘差序列回歸殘差序列,從技術(shù)角度發(fā)現(xiàn)和判斷,從技術(shù)角度發(fā)現(xiàn)和判斷異常值問題。異常值問題。(1)回歸殘差序列根據(jù)被解釋變量的實際值和回歸理論)回歸殘差序列根據(jù)被解釋變量的實際值和回歸理論值之差計算。值之差計算。(2 2)在)在EVIEWSEVIEWS軟件進(jìn)行回歸分析時,可以在得到回歸結(jié)軟件進(jìn)行回歸分析時,可以在得到回歸結(jié)果后在回歸結(jié)果窗口點擊果
4、后在回歸結(jié)果窗口點擊View/Actual, Fitted, View/Actual, Fitted, Residual/ View/Actual, Fitted, Residual tableResidual/ View/Actual, Fitted, Residual table,直直接得到回歸殘差序列和殘差序列圖。接得到回歸殘差序列和殘差序列圖。(3)如果模型存在變量關(guān)系非線性問題,回歸殘差序列)如果模型存在變量關(guān)系非線性問題,回歸殘差序列會變現(xiàn)出會變現(xiàn)出有規(guī)律的變化有規(guī)律的變化。ei當(dāng)發(fā)現(xiàn)模型的回歸殘差序列有下圖所示的規(guī)律性變化,就應(yīng)該考慮存在把非線性關(guān)系(二次函數(shù)等)當(dāng)作線性關(guān)系進(jìn)行
5、回歸的問題。 非線性變量關(guān)系的殘差序列三、問題的處理和非線性回歸 第一步第一步是恢復(fù)變量之間的真實函數(shù)關(guān)系;是恢復(fù)變量之間的真實函數(shù)關(guān)系; 第二步第二步是設(shè)法通過冪函數(shù)、對數(shù)化等數(shù)學(xué)變換等,把是設(shè)法通過冪函數(shù)、對數(shù)化等數(shù)學(xué)變換等,把非線性關(guān)系轉(zhuǎn)化為正確的線性回歸模型。非線性關(guān)系轉(zhuǎn)化為正確的線性回歸模型。 當(dāng)函數(shù)無法通過初等數(shù)學(xué)變換轉(zhuǎn)化為線性模型時,需當(dāng)函數(shù)無法通過初等數(shù)學(xué)變換轉(zhuǎn)化為線性模型時,需要要直接處理直接處理非線性回歸模型。非線性回歸模型。Xe :Y= +,其中 、 、 是未如知參數(shù)。假設(shè)不能通過初等數(shù)學(xué)變換轉(zhuǎn)化為線性關(guān)系的假設(shè)不能通過初等數(shù)學(xué)變換轉(zhuǎn)化為線性關(guān)系的非線非線性函數(shù)關(guān)系為性函
6、數(shù)關(guān)系為:1212,;,KPYfXXX 其中,其中,X1,X2, XK是是K個解釋變量個解釋變量,1,2 , P是是P個個參數(shù),參數(shù),f為為多元非線性函數(shù),且對多元非線性函數(shù),且對1,2 , P是連續(xù)可是連續(xù)可微的。微的。對于這種非線性回歸模型,解決的方法之一是利用對于這種非線性回歸模型,解決的方法之一是利用級數(shù)級數(shù)展開展開方法做非線性函數(shù)的方法做非線性函數(shù)的近似線性函數(shù)近似線性函數(shù),把模型強制性,把模型強制性轉(zhuǎn)化為線性模型。轉(zhuǎn)化為線性模型。泰勒級數(shù)展開10200,Pbbb泰勒級數(shù)展開先要取一組泰勒級數(shù)展開先要取一組參數(shù)的初始值參數(shù)的初始值:將上述非線性函數(shù)在將上述非線性函數(shù)在10200,Pb
7、bb處對處對12P, , ,做泰勒級數(shù)展開,并只取其中的線性項而忽略所有的高次做泰勒級數(shù)展開,并只取其中的線性項而忽略所有的高次項,得到項,得到102001020012102001101,0,;,PPKPbbbPPPbbbfYfXXXbbbbfb1020010200121020001,1,;,PPPKPiiibbbPiiibbbfYfXXXbbbbf整理上述展開式,移項合并可化為:整理上述展開式,移項合并可化為:其中,其中,為原變量關(guān)系中誤差項為原變量關(guān)系中誤差項與泰勒級數(shù)展開的高階項之和。與泰勒級數(shù)展開的高階項之和。1020010200121020001,1,;,PPPKPiiibbbPii
8、ibbbfMYfXXXbbbbfZ1122PPMZZZ若令:若令:我們得到:我們得到:1212,11211PPP 是一, , , 的性回模型,可以用最小二乘法估其中, 的估值,我, b , , b 。這個M對Z ZZ線歸計參數(shù)計們記為b經(jīng)過泰勒級數(shù)展開得到的線性模型只是原變量關(guān)系的經(jīng)過泰勒級數(shù)展開得到的線性模型只是原變量關(guān)系的近似近似,雖然可以把,雖然可以把11211,Pbbb作為原模型參數(shù)的估計,作為原模型參數(shù)的估計,但效果可能沒有保證。但效果可能沒有保證。由于由于10200,Pbbb和參數(shù)真實值的近似程度越高,級數(shù)展和參數(shù)真實值的近似程度越高,級數(shù)展 開忽略的高階項越不重要,因此提高級數(shù)展
9、開初始值與開忽略的高階項越不重要,因此提高級數(shù)展開初始值與參數(shù)真實值的近似程度有利于提高上述間接估計的精度參數(shù)真實值的近似程度有利于提高上述間接估計的精度。 提高近似程度的方法是,把前一次回歸得到的估計值提高近似程度的方法是,把前一次回歸得到的估計值作作為新的級數(shù)展開初始值,再進(jìn)行新的級數(shù)展開。然后再為新的級數(shù)展開初始值,再進(jìn)行新的級數(shù)展開。然后再作變換和線性回歸,得到另一組參數(shù)估計值作變換和線性回歸,得到另一組參數(shù)估計值。 這個程序可以這個程序可以反復(fù)反復(fù)進(jìn)行,直到參數(shù)估計值進(jìn)行,直到參數(shù)估計值收斂收斂或不再有或不再有大的變化。大的變化。除了泰勒級數(shù)展開線性化近似的迭代方法以外,還可以除了泰
10、勒級數(shù)展開線性化近似的迭代方法以外,還可以直接進(jìn)行非線性回歸分析直接進(jìn)行非線性回歸分析。非線性回歸分析的原理與線性回歸分析是相似的,只非線性回歸分析的原理與線性回歸分析是相似的,只是非線性回歸參數(shù)估計涉及的非線性優(yōu)化分析要復(fù)雜是非線性回歸參數(shù)估計涉及的非線性優(yōu)化分析要復(fù)雜一些。一些。由計量軟件進(jìn)行非線性回歸的迭代優(yōu)化分析只要由計量軟件進(jìn)行非線性回歸的迭代優(yōu)化分析只要直接直接輸入相關(guān)命令輸入相關(guān)命令即可。即可。例51某地消費函數(shù) 表表5.1 某地消費函數(shù)相關(guān)數(shù)據(jù)某地消費函數(shù)相關(guān)數(shù)據(jù)年度 Y C 年度 Y C 年度 Y C1950 791.8 733.2 1962 1170.2 1069.0 19
11、74 1896.6 1674.01951 819.0 748.7 1963 1207.3 1108.4 1975 1931.7 1711.91952 844.3 771.4 1964 1291.0 1170.6 1976 2001.0 1803.91953 880.0 802.5 1965 1365.7 1236.4 1977 2066.6 1883.81954 894.0 822.7 1966 1431.3 1298.9 1978 2167.4 1961.01955 944.5 873.8 1967 1493.2 1337.7 1979 2212.6 2004.41956 989.4 899
12、.8 1968 1551.3 1405.9 1980 2214.3 2000.41957 1012.1 919.7 1969 1599.8 1456.7 1981 2248.6 2024.21958 1028.8 932.9 1970 1688.1 1492.0 1982 2261.5 2050.71959 1067.2 979.4 1971 1728.4 1538.8 1983 2334.6 2145.91960 1091.1 1005.1 1972 1797.4 1621.9 1984 2468.4 2239.91961 1123.2 1025.2 1973 1916.3 1689.6 1
13、985 2509.0 2312.6根據(jù)對上述散點圖的直觀判斷,對消費和收入進(jìn)行根據(jù)對上述散點圖的直觀判斷,對消費和收入進(jìn)行線性回歸分析基本上是合理的。線性回歸分析基本上是合理的。但是,如果我們進(jìn)一步通過該回歸結(jié)果窗口的菜單但是,如果我們進(jìn)一步通過該回歸結(jié)果窗口的菜單操作得到下列殘差序列圖,可以發(fā)現(xiàn)該回歸殘差序操作得到下列殘差序列圖,可以發(fā)現(xiàn)該回歸殘差序列顯示出明顯的規(guī)律性變化,包含了明顯的趨勢性。列顯示出明顯的規(guī)律性變化,包含了明顯的趨勢性??梢钥紤]變量之間存在非線性關(guān)系的可能,因此可可以考慮變量之間存在非線性關(guān)系的可能,因此可考慮采用非線性最小二乘回歸考慮采用非線性最小二乘回歸。5.2 5.
14、2 異常值、規(guī)律性擾動和虛擬變量回歸異常值、規(guī)律性擾動和虛擬變量回歸一、異常值異常值二、規(guī)律性擾動規(guī)律性擾動三、虛擬變量回歸虛擬變量回歸異常值現(xiàn)象異常值現(xiàn)象 現(xiàn)實經(jīng)濟中常常存在這樣的情況,一些突發(fā)事件或變現(xiàn)實經(jīng)濟中常常存在這樣的情況,一些突發(fā)事件或變化對經(jīng)濟活動、經(jīng)濟關(guān)系造成化對經(jīng)濟活動、經(jīng)濟關(guān)系造成短暫短暫的,但卻是很的,但卻是很顯著顯著的沖擊影響。的沖擊影響。 這些影響既不能被看作微小的隨機擾動,但又不會決這些影響既不能被看作微小的隨機擾動,但又不會決定或改變長期的經(jīng)濟關(guān)系,或者說經(jīng)濟規(guī)律。定或改變長期的經(jīng)濟關(guān)系,或者說經(jīng)濟規(guī)律。 這種情況在經(jīng)濟數(shù)據(jù)上反映出來,就會表現(xiàn)為一個這種情況在經(jīng)濟
15、數(shù)據(jù)上反映出來,就會表現(xiàn)為一個脫脫離基本趨勢離基本趨勢的異常值。的異常值。 XY如果所研究的經(jīng)濟問題或相關(guān)數(shù)據(jù)中存在這種情況,建立如果所研究的經(jīng)濟問題或相關(guān)數(shù)據(jù)中存在這種情況,建立線性回歸模型時又沒有預(yù)先處理或剔除這種影響,就會表線性回歸模型時又沒有預(yù)先處理或剔除這種影響,就會表現(xiàn)為模型現(xiàn)為模型誤差項誤差項在相應(yīng)時點存在在相應(yīng)時點存在均值非均值非0 0的問題。的問題。例如變量例如變量 Y 和和 X 在長期中的關(guān)系基本滿足線性回歸模型在長期中的關(guān)系基本滿足線性回歸模型的各個假設(shè),但在時刻的各個假設(shè),但在時刻 有一個突發(fā)情況,使得有一個突發(fā)情況,使得 Y 出現(xiàn)出現(xiàn)一個一個 C 單位的暫時性波動。那
16、么如果用線性回歸模型:單位的暫時性波動。那么如果用線性回歸模型:0i000)(iiCiiEi當(dāng)當(dāng)其誤差項的均值是:其誤差項的均值是:0)(iE這種情況如果不作處理,線性回歸分析的有效性也會這種情況如果不作處理,線性回歸分析的有效性也會受到不利影響。受到不利影響。顯然不是顯然不是對任意對任意i i 都成立。都成立。異常值會使回歸分析結(jié)果出現(xiàn)較大偏差,參數(shù)估計異常值會使回歸分析結(jié)果出現(xiàn)較大偏差,參數(shù)估計量的性質(zhì)和相關(guān)統(tǒng)計推斷都會失效。量的性質(zhì)和相關(guān)統(tǒng)計推斷都會失效。異常值的發(fā)現(xiàn)判斷異常值的發(fā)現(xiàn)判斷 發(fā)現(xiàn)和判斷異常值的方法之一是分析經(jīng)濟問題的相關(guān)發(fā)現(xiàn)和判斷異常值的方法之一是分析經(jīng)濟問題的相關(guān)背景情況
17、,包括對經(jīng)濟現(xiàn)象、相關(guān)社會經(jīng)濟事件以及背景情況,包括對經(jīng)濟現(xiàn)象、相關(guān)社會經(jīng)濟事件以及數(shù)據(jù)序列的數(shù)據(jù)序列的直接分析直接分析等。等。 殘差序列分析殘差序列分析也是從技術(shù)角度發(fā)現(xiàn)和判斷異常值問題也是從技術(shù)角度發(fā)現(xiàn)和判斷異常值問題的基本方法。的基本方法。 因為異常值只是個別情況,最小二乘估計仍然是一致因為異常值只是個別情況,最小二乘估計仍然是一致估計量,回歸殘差中會包含由于異常值所導(dǎo)致模型誤估計量,回歸殘差中會包含由于異常值所導(dǎo)致模型誤差項均值非差項均值非0 0的信息。的信息。 回歸殘差序列分析發(fā)現(xiàn)和判斷異常值問題的方法回歸殘差序列分析發(fā)現(xiàn)和判斷異常值問題的方法 2Sei122KneSSii在模型假設(shè)
18、成立的前提下,回歸殘差是服從正態(tài)分布的隨在模型假設(shè)成立的前提下,回歸殘差是服從正態(tài)分布的隨機變量,其取值機變量,其取值95%95%左右的概率應(yīng)分布在均值加減左右的概率應(yīng)分布在均值加減2 2倍倍標(biāo)準(zhǔn)標(biāo)準(zhǔn)差的范圍內(nèi)。差的范圍內(nèi)。如果發(fā)現(xiàn)某個殘差如果發(fā)現(xiàn)某個殘差ie出現(xiàn):出現(xiàn):其中,其中,是殘差的標(biāo)準(zhǔn)差,模型在時點是殘差的標(biāo)準(zhǔn)差,模型在時點i i處就很可能存在異常值處就很可能存在異常值問題。問題。上述回歸殘差序列分析等價于上述回歸殘差序列分析等價于殘差序列圖分析殘差序列圖分析:eS(1)把根據(jù)回歸殘差序列和殘差標(biāo)準(zhǔn)差計算出的)把根據(jù)回歸殘差序列和殘差標(biāo)準(zhǔn)差計算出的數(shù)據(jù)序列,描繪到以數(shù)據(jù)序列,描繪到以
19、i i為橫軸,以為橫軸,以為縱軸的坐標(biāo)平面為縱軸的坐標(biāo)平面為縱軸的坐標(biāo)平面上,再在縱軸的為縱軸的坐標(biāo)平面上,再在縱軸的2 2處畫上兩條水平處畫上兩條水平的臨界線。的臨界線。(2)以誤差序列中是否有點落在兩條臨界線范圍之)以誤差序列中是否有點落在兩條臨界線范圍之外作為判斷異常值的初步標(biāo)準(zhǔn)。外作為判斷異常值的初步標(biāo)準(zhǔn)。ieS圖圖 異常值的殘差序列圖檢驗異常值的殘差序列圖檢驗i22 如果有個別如果有個別 坐標(biāo)落在兩條臨界線的范圍以外,就意坐標(biāo)落在兩條臨界線的范圍以外,就意味著在味著在i i 時點上有異常值。時點上有異常值。 用用EViewsEViews軟件進(jìn)行回歸分析可以直接輸出殘差序列圖,軟件進(jìn)行
20、回歸分析可以直接輸出殘差序列圖,并且在圖形中包括有兩倍標(biāo)準(zhǔn)差的臨界值,因此可以并且在圖形中包括有兩倍標(biāo)準(zhǔn)差的臨界值,因此可以直接根據(jù)直接根據(jù)EViewsEViews輸出的殘差序列圖判斷是否有異常值輸出的殘差序列圖判斷是否有異常值的可能性。的可能性。當(dāng)然,如果落在臨界線以外的點有多個,那么一方面可當(dāng)然,如果落在臨界線以外的點有多個,那么一方面可以考慮存在多個異常值的可能性,另外也應(yīng)該懷疑存在以考慮存在多個異常值的可能性,另外也應(yīng)該懷疑存在其他系統(tǒng)性偏差。其他系統(tǒng)性偏差。ieS存在多個較大殘差不能簡單地認(rèn)為是多個異常值,而是存在多個較大殘差不能簡單地認(rèn)為是多個異常值,而是應(yīng)該作進(jìn)一步的深入分析,結(jié)
21、合對其他問題的分析進(jìn)行應(yīng)該作進(jìn)一步的深入分析,結(jié)合對其他問題的分析進(jìn)行判斷。判斷。 此外,上述殘差序列判斷異常值的臨界值標(biāo)準(zhǔn)此外,上述殘差序列判斷異常值的臨界值標(biāo)準(zhǔn)是是95%95%置信度的,當(dāng)置信度的,當(dāng) 的絕對值落在的絕對值落在2 2到到3 3之間之間時,用時,用95%95%的置信度判斷有異常值,而用的置信度判斷有異常值,而用99%99%的的置信度判斷則可能沒有異常值,因此仍然存在置信度判斷則可能沒有異常值,因此仍然存在模糊的地方。模糊的地方。這時候必須與問題背景分析結(jié)合起來考慮,并這時候必須與問題背景分析結(jié)合起來考慮,并考慮各點殘差相對情況等??紤]各點殘差相對情況等。ieS問題的處理問題的
22、處理 解決的方法是引進(jìn)一個針對性的虛擬變量解決的方法是引進(jìn)一個針對性的虛擬變量D D,其定義式為:,其定義式為: XY0ii 000)(iiCiiEi當(dāng)當(dāng)如果判斷模型存在異常值問題,必須作針對性的處理。如果判斷模型存在異常值問題,必須作針對性的處理。例如一個兩變量線性回歸模型:例如一個兩變量線性回歸模型:在在處存在異常值問題:處存在異常值問題:0010iiiiDi當(dāng)當(dāng) 在引進(jìn)虛擬變量在引進(jìn)虛擬變量D D 的新模型中,異常值就不會的新模型中,異常值就不會造成模型誤差項出現(xiàn)均值非造成模型誤差項出現(xiàn)均值非0 0的問題了,從而的問題了,從而可以保證回歸分析的有效性。可以保證回歸分析的有效性。 CDXY
23、CD0001000)() (iiCCiiCDEEii得到一個得到一個新的回歸模型:新的回歸模型:例例 消費函數(shù)模型的異常值問題消費函數(shù)模型的異常值問題 -600-400-20002004006008284868890929496980002Y Residuals圖圖5.5 消費函數(shù)殘差序列圖消費函數(shù)殘差序列圖 殘差序列圖分析殘差序列圖分析 根據(jù)圖中的殘差分布可以看出,根據(jù)圖中的殘差分布可以看出,19961996、20012001和和20022002年的年的回歸殘差絕對值回歸殘差絕對值,都大于,都大于2 2倍的殘差倍的殘差標(biāo)準(zhǔn)差,因此可能屬于異常值。標(biāo)準(zhǔn)差,因此可能屬于異常值。 由于相比之下由于
24、相比之下19961996、19991999、20002000和和20012001四年的四年的殘差偏離更大,而在去掉這幾年趨勢以后的其殘差偏離更大,而在去掉這幾年趨勢以后的其余年份基本上都在長期趨勢上,因此考慮余年份基本上都在長期趨勢上,因此考慮引進(jìn)引進(jìn)四個虛擬變量四個虛擬變量。 再看引進(jìn)虛擬變量后回歸的下列殘差序列圖,再看引進(jìn)虛擬變量后回歸的下列殘差序列圖,則現(xiàn)在是有多點而不是個別點在則現(xiàn)在是有多點而不是個別點在2 2倍標(biāo)準(zhǔn)差臨倍標(biāo)準(zhǔn)差臨界值之外,而且都離臨界值不遠(yuǎn),并且界值之外,而且都離臨界值不遠(yuǎn),并且2 2倍標(biāo)倍標(biāo)準(zhǔn)差的臨界值范圍也比未引進(jìn)虛擬變量時小了準(zhǔn)差的臨界值范圍也比未引進(jìn)虛擬變量時
25、小了許多,因此可不再認(rèn)為存在異常值。許多,因此可不再認(rèn)為存在異常值。 圖圖5.6 5.6 引進(jìn)虛擬變量后的回歸殘差引進(jìn)虛擬變量后的回歸殘差 -150-100-500501001508284868890929496980002Y Residuals規(guī)律性擾動 周期性或其他規(guī)律性擾動,也會使線性回歸模周期性或其他規(guī)律性擾動,也會使線性回歸模型的誤差項偏離零均值假設(shè)。型的誤差項偏離零均值假設(shè)。 周期性擾動比較典型的例子是商業(yè)銷量指標(biāo)的周期性擾動比較典型的例子是商業(yè)銷量指標(biāo)的季節(jié)性變化。季節(jié)性變化。 這些問題并不影響變量關(guān)系的總體趨勢,但都這些問題并不影響變量關(guān)系的總體趨勢,但都會對變量關(guān)系產(chǎn)生規(guī)律性
26、的影響,如果不預(yù)先會對變量關(guān)系產(chǎn)生規(guī)律性的影響,如果不預(yù)先加以處理或排除掉,就會導(dǎo)致加以處理或排除掉,就會導(dǎo)致誤差項均值非誤差項均值非0 0問題的出現(xiàn),影響回歸分析的效果。問題的出現(xiàn),影響回歸分析的效果。一個例子一個例子 例如變量例如變量Y Y 的季度數(shù)據(jù)中,的季度數(shù)據(jù)中,第一季度第一季度總是受到總是受到一個季節(jié)性因素的影響。一個季節(jié)性因素的影響。 如果我們忽視這種影響,用兩變量模型或多元如果我們忽視這種影響,用兩變量模型或多元模型研究模型研究 Y Y 的規(guī)律,就會遇到的規(guī)律,就會遇到誤差項均值非誤差項均值非0 0問題問題 第一季度第一季度iCiEi0)(問題的發(fā)現(xiàn)與判斷問題的發(fā)現(xiàn)與判斷 由規(guī)
27、律性擾動導(dǎo)致的誤差項均值非零問題的發(fā)現(xiàn)、判斷和處理,與異常值問題基本相似。 在發(fā)現(xiàn)和判斷方面,經(jīng)濟問題的背景分析,以及同樣的回歸殘差序列分析,基本上都可以適用于規(guī)律性擾動問題。 規(guī)律性擾動在殘差序列圖上會表現(xiàn)為多個有規(guī)律的較大殘差,可以通過與問題背景的相互印證和分析,確定是否屬于規(guī)律性擾動。 問題的處理問題的處理 解決規(guī)律性擾動問題的方法之一是對數(shù)據(jù)進(jìn)行統(tǒng)計平滑處理,消除季節(jié)性或其他周期性擾動的影響。 但平滑處理存在兩個問題,一是不能區(qū)別趨勢因素和季節(jié)性擾動,不能真正確定所研究變量關(guān)系的具體變化軌跡,二是容易導(dǎo)致另一種問題,就是誤差序列自相關(guān)問題(以后會介紹)。 因此平滑處理并不是克服規(guī)律性擾
28、動對線性回歸分析影響的好方法。引進(jìn)虛擬變量引進(jìn)虛擬變量 處理規(guī)律性擾動問題的較好方法也是引進(jìn)虛擬變量,處理規(guī)律性擾動問題的較好方法也是引進(jìn)虛擬變量,但有時需要引進(jìn)但有時需要引進(jìn)多個虛擬變量多個虛擬變量。 以上面第一季度存在季節(jié)性因素影響的問題為例。如以上面第一季度存在季節(jié)性因素影響的問題為例。如果在這個例子中,使用虛擬變量果在這個例子中,使用虛擬變量第一季度當(dāng)?shù)谝患径犬?dāng)iiDi10CDXY第一季度第一季度iiDi101第三季度第三季度iiDi103把模型改為把模型改為:或01122Y=KKXXX那么新模型就不再存在誤差項均值非那么新模型就不再存在誤差項均值非0 0的問題,回歸的問題,回歸分析的
29、效果就能得到保證。分析的效果就能得到保證。如果第一季度受到一種季節(jié)性因素擾動,第三季度受如果第一季度受到一種季節(jié)性因素擾動,第三季度受到另一種方向和力度不同因素的擾動。那么可以引進(jìn)到另一種方向和力度不同因素的擾動。那么可以引進(jìn)兩個虛擬變量兩個虛擬變量 :3311DCDCXY把這兩個虛擬變量同時引入模型,模型變?yōu)椋喊堰@兩個虛擬變量同時引入模型,模型變?yōu)椋夯蚧?11221133Y=KKXXXC DC D新模型同樣可以避免由于上述季節(jié)性擾動所導(dǎo)致的誤新模型同樣可以避免由于上述季節(jié)性擾動所導(dǎo)致的誤差項均值非差項均值非0 0問題。問題。在對截面數(shù)據(jù)的計量經(jīng)濟分析中,觀測對象特征差異在對截面數(shù)據(jù)的計量經(jīng)濟
30、分析中,觀測對象特征差異導(dǎo)致的規(guī)律性擾動,也可以利用虛擬變量加以處理。導(dǎo)致的規(guī)律性擾動,也可以利用虛擬變量加以處理。虛擬變量模型虛擬變量模型 一、虛擬變量的基本含義一、虛擬變量的基本含義 二、虛擬變量的引入二、虛擬變量的引入 三、虛擬變量的設(shè)置原則三、虛擬變量的設(shè)置原則一、虛擬變量的基本含義一、虛擬變量的基本含義 許多經(jīng)濟變量是可以定量度量可以定量度量的,如:如:商品需求量、價格、收入、產(chǎn)量等 但也有一些影響經(jīng)濟變量的因素?zé)o法定量度量無法定量度量,如:如:職業(yè)、性別對收入的影響,戰(zhàn)爭、自然災(zāi)害對GDP的影響,季節(jié)對某些產(chǎn)品(如冷飲)銷售的影響等等。 為了在模型中能夠反映這些因素的影響,并提高模
31、型的精度,需要將它們“量化”。 這種“量化”通常是通過引入“虛擬變量”來完成的。根據(jù)這些因素的屬性類型,構(gòu)造只取“0”或“1”的人工變量,通常稱為虛擬變量虛擬變量(dummy variables),記為D。 例如例如,反映教育程度的虛擬變量可取為,反映教育程度的虛擬變量可取為: 1, 本科學(xué)歷 D= 0, 非本科學(xué)歷 一般地,在虛擬變量的設(shè)置中: 基礎(chǔ)類型、肯定類型取值為基礎(chǔ)類型、肯定類型取值為1; 比較類型,否定類型取值為比較類型,否定類型取值為0。概念:概念: 同時含有一般解釋變量與虛擬變量的模型稱為虛擬同時含有一般解釋變量與虛擬變量的模型稱為虛擬變量模型或者方差分析變量模型或者方差分析(
32、analysis-of variance: ANOVA)模型模型。 一個以性別為虛擬變量考察企業(yè)職工薪金的模型:iiiiDXY210其中:Yi為企業(yè)職工的薪金,Xi為工齡, Di=1,若是男性,Di=0,若是女性。 二、虛擬變量的引入二、虛擬變量的引入 虛擬變量做為解釋變量引入模型有兩種基本方式:加法方式加法方式和乘法方式乘法方式。iiiiXDXYE10)0,|( 企業(yè)男職工的平均薪金為:企業(yè)男職工的平均薪金為:iiiiXDXYE120)() 1,|( 上述企業(yè)職工薪金模型中性別虛擬變量的引入采取了加法方式。 在該模型中,如果仍假定E(i)=0,則 企業(yè)女職工的平均薪金為:企業(yè)女職工的平均薪金
33、為: 1 1、加法方式、加法方式幾何意義:幾何意義: 假定20,則兩個函數(shù)有相同的斜率,但有不同的截距。意即,男女職工平均薪金對工齡的變化率是一樣的,但兩者的平均薪金水平相差2。 可以通過傳統(tǒng)的回歸檢驗,對2的統(tǒng)計顯著性進(jìn)行檢驗,以判斷企業(yè)男女職工的平均薪金水平是否有顯著差異。 年薪 Y 男職工 女職工 工齡 X02 又例又例:在橫截面數(shù)據(jù)基礎(chǔ)上,考慮個人保健支出對個人收入和教育水平的回歸。 教育水平考慮三個層次:高中以下, 高中, 大學(xué)及其以上 011D 其他高中 012D 其他大學(xué)及其以上模型可設(shè)定如下:iiiDDXY231210 這時需要引入兩個虛擬變量: 在E(i)=0 的初始假定下,
34、高中以下、高中、大學(xué)及其以上教育水平下個人保健支出的函數(shù): 高中以下:iiiXDDXYE1021)0, 0,|( 高中:iiiXDDXYE12021)()0, 1,|( 大學(xué)及其以上:iiiXDDXYE13021)() 1, 0,|( 假定32,其幾何意義: 大學(xué)教育 保健 高中教育 支出 低于中學(xué)教育 收入 還可將多個虛擬變量引入模型中以考察多種還可將多個虛擬變量引入模型中以考察多種“定定性性”因素的影響。因素的影響。 如如在上述職工薪金的例中,再引入代表學(xué)歷的虛擬變量D2:iiiDDXY231210012D本科及以上學(xué)歷本科以下學(xué)歷職工薪金的回歸模型可設(shè)計為:女職工本科以下學(xué)歷的平均薪金:
35、iiiXDDXYE13021)() 1, 0,|(女職工本科以上學(xué)歷的平均薪金:iiiXDDXYE132021)() 1, 1,|(iiiXDDXYE1021)0, 0,|(iiiXDDXYE12021)()0, 1,|(于是,不同性別、不同學(xué)歷職工的平均薪金分別為:男職工本科以下學(xué)歷的平均薪金:男職工本科以上學(xué)歷的平均薪金: 2 2、乘法方式、乘法方式 加法方式引入虛擬變量,考察:截距的不同截距的不同, 許多情況下:往往是斜率就有變化,或斜率、截或斜率、截距同時發(fā)生變化距同時發(fā)生變化。 斜率的變化可通過以乘法的方式引入虛擬變量來斜率的變化可通過以乘法的方式引入虛擬變量來測度測度。 例例:根據(jù)
36、消費理論,消費水平C主要取決于收入水平Y(jié),但在一個較長的時期,人們的消費傾向會發(fā)生變化,尤其是在自然災(zāi)害、戰(zhàn)爭等反常年份,消費傾向往往出現(xiàn)變化。這種消費傾向的變化可通過在收入的系數(shù)中引入虛擬變量來考察。tttttXDXC210 這里,虛擬變量D以與X相乘的方式引入了模型中,從而可用來考察消費傾向的變化。 假定E(i)= 0,上述模型所表示的函數(shù)可化為: 正常年份:ttttXDXCE)() 1,|(210 反常年份:ttttXDXCE10)0,|(如,設(shè)01tD反常年份正常年份消費模型可建立如下: 當(dāng)截距與斜率發(fā)生變化時,則需要同時引入加當(dāng)截距與斜率發(fā)生變化時,則需要同時引入加法與乘法形式的虛擬
37、變量法與乘法形式的虛擬變量。 例:例:考察1990年前后的中國居民的總儲蓄-收入關(guān)系是否已發(fā)生變化。 表5.1.1中給出了中國19792001年以城鄉(xiāng)儲蓄存款余額代表的居民儲蓄以及以GNP代表的居民收入的數(shù)據(jù)。表表 5.1.1 19792001 年中國居民儲蓄與收入數(shù)據(jù)年中國居民儲蓄與收入數(shù)據(jù)(億元)(億元)90年前儲蓄GNP90年后儲蓄GNP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.3199314762.434560.51982675.45301.8199421518.846670.0
38、1983892.55957.4199529662.357494.919841214.77206.7199638520.866850.519851622.68989.1199746279.873142.719862237.610201.4199853407.576967.219873073.311954.5199959621.880579.419883801.514922.3200064332.488228.119895146.916917.8200173762.494346.419907034.218598.4 以Y為儲蓄,X為收入,可令: 1990年前: Yi=1+2Xi+1i i=1,2,
39、n1 1990年后: Yi=1+2Xi+2i i=1,2,n2 則有可能出現(xiàn)下述四種情況中的一種:(1) 1=1 ,且2=2 ,即兩個回歸相同,稱為重合回重合回歸歸(Coincident Regressions);(2) 11 ,但2=2 ,即兩個回歸的差異僅在其截距,稱為平行回歸平行回歸(Parallel Regressions);(3) 1=1 ,但22 ,即兩個回歸的差異僅在其斜率,稱為匯合回歸匯合回歸(Concurrent Regressions);(4) 11,且22 ,即兩個回歸完全不同,稱為相相異回歸異回歸(Dissimilar Regressions)。這一問題可通過引入乘法形
40、式的虛擬變量來解決。 將n1與n2次觀察值合并,并用以估計以下回歸:iiiiiiXDDXY)(4310Di為引入的虛擬變量:01iD于是有:iiiiXXDYE10), 0|(iiiiXXDYE)()(), 1|(4130可分別表示1990年后期與前期的儲蓄函數(shù)。年后年前9090 在統(tǒng)計檢驗中,如果4=0的假設(shè)被拒絕,則說明兩個時期中儲蓄函數(shù)的斜率不同。 具體的回歸結(jié)果為:具體的回歸結(jié)果為: (-6.11) (22.89) (4.33) (-2.55) 由3與4的t檢驗可知:參數(shù)顯著地不等于0,強烈示出兩個時期的回歸是相異的, 儲蓄函數(shù)分別為:儲蓄函數(shù)分別為:1990年前:1990年后:iiii
41、iXDDXY4765. 03 .138028881. 0154522R=0.9836iiXY4116. 07 .1649iiXY8881. 015452這 一 問 題 也 可 以 用鄒氏結(jié)構(gòu)變化的檢驗(Chow test)來解決。具體方法是以懷疑發(fā)生結(jié)構(gòu)(參數(shù))變化的時點為界,把觀測樣本分為兩組 。然后用兩組子樣本和全樣本分別進(jìn)行回歸,ur將兩組子樣本回歸的殘差平方和加總得到SSR ,稱為無約束平方和。r全樣本回歸的殘差平方和SSR ,稱為有約束的殘差平方和。 rurur12SSR -SSRK+1構(gòu)造下列F統(tǒng)計量:F=SSRn +n -2K-2 其中K是模型(不包括常數(shù)項)的解釋變量個數(shù),n1
42、和n2分別是兩個子樣本的樣本容量。 該統(tǒng)計量服從兩個自由度為K+1和n1+n2-2K-2的F 分布。 因此,如果該F 統(tǒng)計量不大于相應(yīng)自由度的F 分布臨界值,說明有約束和無約束的兩個回歸殘差平方和的差別不明顯,模型結(jié)構(gòu)(參數(shù))并沒有發(fā)生顯著變化。反之則說明模型結(jié)構(gòu)確實發(fā)生了明顯變化。 直接把1990年作為發(fā)生可能的結(jié)構(gòu)變化的轉(zhuǎn)折點,也就是把樣本區(qū)間分為1979,1990和1991,2001兩個區(qū)間。 直接對這兩個樣本區(qū)間分別回歸,得到兩個殘差平方和分別為2057709和179000000,因此鄒檢驗的無約束殘差平方和為181057709。 整個樣本區(qū)間回歸的殘差平方和,也就是鄒檢驗的受約束殘差
43、平方和為362000000。 把這兩個殘差平方和與樣本容量和模型解釋變量數(shù)一起代入鄒檢驗的F統(tǒng)計量,得到 顯然,該統(tǒng)計量是顯著的(大于臨界值),可以認(rèn)為模型的結(jié)構(gòu)發(fā)生了變化。36200000049181057709(12 11 22)F0.052,193.52F 3 3、臨界指標(biāo)的虛擬變量的引入、臨界指標(biāo)的虛擬變量的引入 在經(jīng)濟發(fā)生轉(zhuǎn)折時期,可通過建立臨界指標(biāo)的虛擬變量模型來反映。 例如,例如,進(jìn)口消費品數(shù)量Y主要取決于國民收入X的多少,中國在改革開放前后,Y對X的回歸關(guān)系明顯不同。 這時,可以t*=1979年為轉(zhuǎn)折期,以1979年的國民收入Xt*為臨界值,設(shè)如下虛擬
44、變量:01tD*tttt則進(jìn)口消費品的回歸模型可建立如下:則進(jìn)口消費品的回歸模型可建立如下:ttttttDXXXY)(*210 OLS法得到該模型的回歸方程為法得到該模型的回歸方程為則兩時期進(jìn)口消費品函數(shù)分別為:tttttDXXXY)(*210當(dāng)tt*=1979年,ttXY10當(dāng)tt*=1979年,titXXY)()(21*20三、虛擬變量的設(shè)置原則三、虛擬變量的設(shè)置原則 虛擬變量的個數(shù)須按以下原則確定:虛擬變量的個數(shù)須按以下原則確定: 每一定性變量所需的虛擬變量個數(shù)要比該定性變每一定性變量所需的虛擬變量個數(shù)要比該定性變量的類別數(shù)少量的類別數(shù)少1,即如果有,即如果有m個類別,只在模型中引個類別
45、,只在模型中引入入m-1個虛擬變量。個虛擬變量。 例例。已知冷飲的銷售量Y除受k種定量變量Xk的影響外,還受春、夏、秋、冬四季變化的影響,要考察該四季的影響,只需引入三個虛擬變量即可:011tD其他春季012tD其他夏季013tD其他秋季則冷飲銷售量的模型為: 在上述模型中,若再引入第四個虛擬變量ttttktkttDDDXXY332211110014tD其他冬季則冷飲銷售模型變量為:tttttktkttDDDDXXY44332211110其矩陣形式為:D)(X,Y 如果只取六個觀測值,其中春季與夏季取如果只取六個觀測值,其中春季與夏季取了兩次,秋、冬各取到一次觀測值,則式中的:了兩次,秋、冬各
46、取到一次觀測值,則式中的: 顯然,(X,D)中的第1列可表示成后4列的線性組合,從而(X,D)不滿秩,參數(shù)無法唯一求出。 這就是所謂的這就是所謂的“虛擬變量陷井虛擬變量陷井”,應(yīng)避免。000110010110001010010010100011)(616515414313212111kkkkkkXXXXXXXXXXXXDX,k1043215.3 相關(guān)變量遺漏或包含無關(guān)變相關(guān)變量遺漏或包含無關(guān)變量量 相關(guān)變量的遺漏相關(guān)變量的遺漏無關(guān)變量的誤選無關(guān)變量的誤選遺漏相關(guān)變量偏誤遺漏相關(guān)變量偏誤包含無關(guān)變量偏誤包含無關(guān)變量偏誤檢驗是否含有無關(guān)變量檢驗是否含有無關(guān)變量檢驗是否有相關(guān)變量的遺漏檢驗是否有相關(guān)
47、變量的遺漏 1、相關(guān)變量的遺漏、相關(guān)變量的遺漏 (omitting relevant variables) 例如例如,如果“正確”的模型為22110XXY而我們將模型設(shè)定為 vXY110即設(shè)定模型時漏掉了一個相關(guān)的解釋變量。這類錯誤稱為遺漏相關(guān)變量遺漏相關(guān)變量。 動態(tài)設(shè)定偏誤動態(tài)設(shè)定偏誤(dynamic mis-specification):遺漏相關(guān)變量表現(xiàn)為對Y或X滯后項的遺漏 。 2、無關(guān)變量的誤選、無關(guān)變量的誤選 (including irrevelant variables) 例如例如,如果 Y=0+1X1+2X2+仍為“真”,但我們將模型設(shè)定為 Y=0+ 1X1+ 2X2+ 3X3
48、+即設(shè)定模型時,多選了一個無關(guān)解釋變量。 3、遺漏相關(guān)變量偏誤遺漏相關(guān)變量偏誤 采用遺漏相關(guān)變量的模型進(jìn)行估計而帶來的偏誤稱為遺漏相關(guān)變量偏誤遺漏相關(guān)變量偏誤(omitting relevant variable bias)。 設(shè)正確的模型為 Y=0+1X1+2X2+卻對 Y=0+ 1X1+v進(jìn)行回歸,得2111iiixyx將正確模型 Y=0+1X1+2X2+ 的離差形式 iiiixxy2211代入2111iiixyx得21121212121221112111)()(iiiiiiiiiiiiiixxxxxxxxxxyx(1)如果漏掉的X2與X1相關(guān),則上式中的第二項在小樣本下求期望與大樣本下求概率極限都不會為零,從而使得OLSOLS估估計量在小樣本下有偏,在大樣本下非一致計量在小樣本下有偏,在大樣本下非一致。 (2)如果X2與X1不相關(guān),則1的估計滿足無偏性與一致性;但這時0的估計卻是有偏的。 由 Y=0+ 1X1+v 得2121)(ixVar由 Y=0+1X1+2X2+ 得 )1 ()()(221222122
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科教版小學(xué)科學(xué)教師培訓(xùn)計劃
- 中學(xué)心理健康行為指導(dǎo)計劃
- 貴州版三年級下冊科學(xué)探索活動計劃
- 四年級語文課堂管理與教學(xué)計劃
- 2025年消防安全有限空間培訓(xùn)與演習(xí)計劃
- 2025年湘教版二年級上冊音樂多元文化教育計劃
- 2025年人教版五年級語文課堂互動計劃
- 2025年少先隊員素質(zhì)提升計劃
- 2024-2025體育俱樂部發(fā)展與培訓(xùn)計劃
- 舊家具買賣合同
- 2021改革開放以來新疆的發(fā)展課件
- 7.1 文化的內(nèi)涵與功能 課件-高中政治統(tǒng)編版必修四哲學(xué)與文化
- 高考英語詞匯3500詞-亂序版
- 大單元教學(xué)的概念及英語大單元教學(xué)
- 3-2《瓶子大變身》教學(xué)課件
- 移動互聯(lián)新發(fā)展課件 2024-2025學(xué)年人教版(2024)初中信息技術(shù)七年級全一冊
- 【中職專用】備戰(zhàn)中職高考數(shù)學(xué)沖刺模擬卷三
- 多聯(lián)機施工組織方案
- 電子商務(wù)師中級題庫
- 個人信息保護法試題
- 汽車租賃公司應(yīng)急救援預(yù)案
評論
0/150
提交評論