虛擬變量(dummy variable)_第1頁
虛擬變量(dummy variable)_第2頁
虛擬變量(dummy variable)_第3頁
虛擬變量(dummy variable)_第4頁
虛擬變量(dummy variable)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、.虛擬變量(dummy variable)在實(shí)際建模過程中,被解釋變量不但受定量變量影響,同時還受定性變量影響。例如需要考慮性別、民族、不同歷史時期、季節(jié)差異、企業(yè)所有制性質(zhì)不同等因素的影響。這些因素也應(yīng)該包括在模型中。由于定性變量通常表示的是某種特征的有和無,所以量化方法可采用取值為1或0。這種變量稱作虛擬變量,用D表示。虛擬變量應(yīng)用于模型中,對其回歸系數(shù)的估計與檢驗(yàn)方法與定量變量相同。1 截距移動設(shè)有模型,yt = b0 + b1 xt + b2D + ut ,其中yt,xt為定量變量;D為定性變量。當(dāng)D = 0 或1時,上述模型可表達(dá)為, b0 + b1xt + ut , (D = 0)

2、 yt = (b0 + b2) + b1xt + ut , (D = 1) D =0 D = 1 b0 b0+b2 圖8.1 測量截距不同D = 1或0表示某種特征的有無。反映在數(shù)學(xué)上是截距不同的兩個函數(shù)。若b2顯著不為零,說明截距不同;若b2為零,說明這種分類無顯著性差異。例:中國成年人體重y(kg)與身高x(cm)的回歸關(guān)系如下: 105 + x D = 1 (男) y = - 100 + x - 5D = 100 + x D = 0 (女)注意: 若定性變量含有m個類別,應(yīng)引入m-1個虛擬變量,否則會導(dǎo)致多重共線性,稱作虛擬變量陷阱(dummy variable trap)。 關(guān)于定性變

3、量中的哪個類別取0,哪個類別取1,是任意的,不影響檢驗(yàn)結(jié)果。 定性變量中取值為0所對應(yīng)的類別稱作基礎(chǔ)類別(base category)。 對于多于兩個類別的定性變量可采用設(shè)一個虛擬變量而對不同類別采取賦值不同的方法處理。如: 1 (大學(xué)) D = 0 (中學(xué)) -1 (小學(xué))?!景咐?】 中國季節(jié)GDP數(shù)據(jù)的擬合(虛擬變量應(yīng)用,及case1-solve) GDP序列圖 不用虛擬變量的情形若不采用虛擬變量,得回歸結(jié)果如下,GDP = 1.5427 + 0.0405 T (11.0) (3.5) R2 = 0.3991, DW = 2.6, s.e. = 0.3定義 1 (1季度) 1 (2季度)

4、 1 (3季度) D1 = D2 = D3 = 0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度)第4季度為基礎(chǔ)類別。GDP = 2.0922 + 0.0315 T 0.8013 D1 0.5137 D2 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863, DW = 1.96, s.e. = 0.05附數(shù)據(jù)如下:年GDPtD1D2D31996:11.315611001996:21.660020101996:31.591930011996:42.2209640001997:11.468565100

5、1997:21.8494860101997:31.797270011997:42.362080001998:11.5899491001998:21.88316100101998:31.97044110011998:42.51176120001999:11.6784131001999:21.9405140101999:32.0611150011999:42.5254160002000:11.8173171002000:22.1318180102000:32.2633190012000:42.728020000數(shù)據(jù)來源:中國統(tǒng)計年鑒1998-20012 斜率變化 以上只考慮定性變量影響截距,未考慮

6、影響斜率,即回歸系數(shù)的變化。當(dāng)需要考慮時,可建立如下模型: yt = b0 + b1 xt + b2 D + b3 xt D + ut ,其中xt為定量變量;D為定性變量。當(dāng)D = 0 或1時,上述模型可表達(dá)為, (b0 + b2 ) + (b1 + b3)xt + ut , (D = 1) yt = b0 + b1 xt + ut , (D = 0) 通過檢驗(yàn) b3是否為零,可判斷模型斜率是否發(fā)生變化。圖8.5 情形1(不同類別數(shù)據(jù)的截距和斜率不同) 圖8.6 情形2(不同類別數(shù)據(jù)的截距和斜率不同) 例2:用虛擬變量區(qū)別不同歷史時期(file: case2及case2-solve)中國進(jìn)出口

7、貿(mào)易總額數(shù)據(jù)(1950-1984)見上表。試檢驗(yàn)改革前后該時間序列的斜率是否發(fā)生變化。定義虛擬變量D如下 0 (1950 - 1977) D = 1 (1978 - 1984)中國進(jìn)出口貿(mào)易總額數(shù)據(jù)(1950-1984) (單位:百億元人民幣)年tradeTDT *D年tradeTDT*D19500.41510019681.085190019510.59520019691.069200019520.64630019701.129210019530.80940019711.209220019540.84750019721.469230019551.205240019561.92325001957

8、1.904260019581.28790019762.641270019591.493100019772.725280019601.284110019783.5502912919610.9.5463013019620.8.6383113119630.857140019817.3533213219640.975150019827.7133313319651.184160019838.6013413419661.2711700198412.0103513519671.1221800以時間T=time為解釋變量,進(jìn)出口貿(mào)易總額用trade表示,估計結(jié)果如下:trade = 0.37 + 0.066

9、time - 33.96D + 1.20 time D (1.86) (5.53) (-10.98) (12.42) 0.37 + 0.066 time (D = 0, 1950 - 1977) = - 33.59 + 1.27 time (D = 1, 1978 - 1984) 上式說明,改革前后無論截距和斜率都發(fā)生了變化。進(jìn)出口貿(mào)易總額的年平均增長量擴(kuò)大了18倍。【案例3】香港季節(jié)GDP數(shù)據(jù)(單位:千億港元)的擬合(file: case3及case3-solve)19901997年香港季度GDP呈線性增長。1997年由于遭受東南亞金融危機(jī)的影響,經(jīng)濟(jì)發(fā)展處于停滯狀態(tài),19982002年底G

10、DP總量幾乎沒有增長(見上圖)。對這樣一種先增長后停滯,且含有季節(jié)性周期變化的過程簡單地用一條直線去擬合顯然是不恰當(dāng)?shù)?。為區(qū)別不同季節(jié),和不同時期,定義季節(jié)虛擬變量D2、D3、D4和區(qū)別不同時期的虛擬變量DT如下(數(shù)據(jù)見附錄): 1 (第2季度) D2 = 0 (其他季度) 1 (第3季度) D3 = 0 (其他季度) 1 (第4季度) D4 = 0 (其他季度) 1 (1998:12002:4) DT = 0 (1990:1 1997:4)得估計結(jié)果如下: GDPt = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4+ 1.8338

11、 DT - 0.0654 DT t (50.8) (64.6) (3.7) (9.9) (11.0) (19.9) (-28.0) R2 = 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T=52, t0.05 (52-7) = 2.01對于1990:1 1997:4 GDPt = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4對于1998:12002:4 GDPt = 2.9911 + 0.0014 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4如果不采用虛擬變量擬合效果將

12、很差:GDPt = 1.6952 + 0.0377 t (20.6) (13.9) R2 = 0.80, DW = 0.3, T=52, t0.05 (52-2) = 2.01【案例4】 天津市糧食市場小麥批發(fā)價與面粉零售價的關(guān)系研究(file: xiezhiyong)首先看天津市糧食市場小麥批發(fā)價格的變化情況(圖1)。1995年初,天津市糧食市場的小麥批發(fā)價格首先放開。在經(jīng)歷5個月的上揚(yáng)之后,進(jìn)入平穩(wěn)波動期。從1996年8月份開始小麥批發(fā)價格一路走低。至2002年12月份,小麥批發(fā)價格降至是1160元/噸。其次看面粉零售價的變化情況。因?yàn)槊娣哿闶蹆r格直接關(guān)系到居民的日常生活,所以開始時沒有與

13、小麥批發(fā)價格一起放開。當(dāng)小麥批發(fā)價格一路看漲時,1995年1月至1996年6月面粉零售價格一直處于2.14元/千克的水平上。1996年7月起,面粉零售價格也開始在市場上放開。受小麥批發(fā)價格上漲的影響,一個月內(nèi)面粉零售價格從2.14元/千克漲到2.74元/千克。在這個價位上堅(jiān)持了11個月之后,面粉零售價格開始下降。與小麥批發(fā)價格的下降相一致,在經(jīng)歷了5年零7個月的變化之后,面粉零售價格又恢復(fù)到接近開放前2.14元/千克的水平上(2.17元)。散點(diǎn)圖如圖2。按時間分析這些觀測點(diǎn)的變化情況(見圖3,逆時針方向運(yùn)動)。見圖4,直接擬合這些數(shù)據(jù)效果將很差(R2 = 0.027, r = 0.17)。 圖1 圖2 圖3 圖4 利用虛擬變量技術(shù),在模型中加入虛擬變量。定義D = 0,(1995: 11996:6,面粉零售價格放開之前), D = 1,(1996:72002:12,面粉零售價格放開之后)。取對數(shù)關(guān)系建立模型。Lnsale的系數(shù)沒有顯著性(對于面粉零售價格放開之前的散點(diǎn)來說回歸直線是一條水平線)。剔出Lnsale變量,得估計結(jié)果PRICE = 2.140 + 1.1215 LnsaleD 7.7458D (131.5) (23.9) (-23.0) R2 = 0.9054,PRICE = 2.140, D=0PRICE = 5.6058 + 1.1215 Ln

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論