第四章 多元線性回歸模型 管理預測與決策課件_第1頁
第四章 多元線性回歸模型 管理預測與決策課件_第2頁
第四章 多元線性回歸模型 管理預測與決策課件_第3頁
第四章 多元線性回歸模型 管理預測與決策課件_第4頁
第四章 多元線性回歸模型 管理預測與決策課件_第5頁
已閱讀5頁,還剩90頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第四章第四章 多元線性回歸模型多元線性回歸模型2021-11-122內(nèi)容提要內(nèi)容提要第一節(jié)第一節(jié) 多元線性回歸多元線性回歸模型的建立及假定條件模型的建立及假定條件第二節(jié)第二節(jié) 最小二乘法最小二乘法第三節(jié)第三節(jié) 最小二乘估計量的特性最小二乘估計量的特性第四節(jié)第四節(jié) 可決系數(shù)可決系數(shù)第五節(jié)第五節(jié) 顯著性檢驗與置信區(qū)間顯著性檢驗與置信區(qū)間第六節(jié)第六節(jié) 預測預測第七節(jié)第七節(jié) 案例分析案例分析2021-11-124 假設被解釋變量假設被解釋變量y y是解釋變量是解釋變量x x1 1,x x2 2,x xk k和和隨機誤差項隨機誤差項u u的線性函數(shù),表達式為:的線性函數(shù),表達式為:u.22110kkxx

2、xy總體回歸模型總體回歸模型kkxxxye.)(22110總體回歸線(方程)總體回歸線(方程)一、基本概念一、基本概念2021-11-125 u210pxy)114. 0()003. 0()6 . 9(99. 0739. 0112. 07 .1162rpxy例例1 1: 其中其中:y=:y=在食品上的總支出在食品上的總支出; ; x= x=個人可支配收入個人可支配收入; ; p= p=食品價格指數(shù)食品價格指數(shù); ; 用美國用美國1959-19831959-1983年的數(shù)據(jù)(單位:年的數(shù)據(jù)(單位:1010億美元),億美元),得到如下回歸結果(括號中數(shù)字為標準誤差):得到如下回歸結果(括號中數(shù)字為

3、標準誤差):2021-11-126上例中斜率系數(shù)的含義說明如下:上例中斜率系數(shù)的含義說明如下: 價格不變的情況下,個人可支配收入每上升價格不變的情況下,個人可支配收入每上升1010億億美元(美元(1 1個個billionbillion),食品消費支出平均增加),食品消費支出平均增加1.121.12億億元(元(0.1120.112個個 billionbillion)。)。 收入不變的情況下,價格指數(shù)每上升一個點,食收入不變的情況下,價格指數(shù)每上升一個點,食品消費支出平均減少品消費支出平均減少7.397.39億元(億元(0.7390.739個個billionbillion)多元線性回歸模型中斜率系

4、數(shù)的含義多元線性回歸模型中斜率系數(shù)的含義2021-11-127 設(設( x x1i1i,x x2i2i,x xkiki;y yi i),),i=1i=1,2 2,n n是對總體是對總體( x x1 1,x x2 2,x xk k;y y)的)的n n次獨立樣次獨立樣本觀測值,則:本觀測值,則:nixxxyikikiii, 2 , 1u.221102021-11-128nknknnnkkkkuxxxyuxxxyuxxxy.2211022222121021121211101對于對于n n組觀測值,即:組觀測值,即:2021-11-129其矩陣形式為:其矩陣形式為:uxy121.nnyyyy) 1

5、(1212111.1.1.1knknnkkxxxxxxx1211) 1(10.nnkkuuuu其中:其中:2021-11-1210設樣本(設樣本(x x1i1i,x x2i2i,x xkiki;y yi i),),i=1i=1,2 2,n n),(),估計(k10k10.的估計值。殘差項,擬合誤差,是的估計值或估計量;ik10k10i22110,.,.,.ikikiiieexxxy樣本回歸模型樣本回歸模型2021-11-1211kikiiixxxy.22110樣本回歸線(方程)樣本回歸線(方程)其矩陣形式為:其矩陣形式為:xy 其中其中: :121.nnyyyy1) 1(10.kk2021-1

6、1-1212 多元線性回歸模型在滿足下列基本假設的情況多元線性回歸模型在滿足下列基本假設的情況下,可以采用普通最小二乘法(下,可以采用普通最小二乘法(olsols)估計參數(shù)。)估計參數(shù)。(1 1)零均值:)零均值:即隨機誤差項是一個期望值或平即隨機誤差項是一個期望值或平均值為零的隨機變量。均值為零的隨機變量。 e(e( ii) ) =0 i=1,2, =0 i=1,2, 則,則,y yii的期望值或平均值為:的期望值或平均值為: e(ye(yi i)=)= 0 0+ + 1 1x x1i 1i + + 2 2x x2i 2i + + + k kx xki ki i=1,2, i=1,2, 二、

7、多元線性回歸模型的基本假定二、多元線性回歸模型的基本假定2021-11-1213矩陣表達式為:矩陣表達式為:00.00)(.)()(.)(2121nnueueueuuueue2021-11-1214(2 2)同方差)同方差 對于解釋變量對于解釋變量x x1 1,x x2 2,x xk k的所有觀測的所有觀測值,隨機誤差項具有相同方差值,隨機誤差項具有相同方差。 varvar( ( ii)=e()=e( ii2 2) ) = = 2 2 i=1,2, i=1,2, 則,則,y yii與與 ii具有相同的方差:具有相同的方差: varvar( (y yii)=)= 2 2 i=1,2, i=1,2

8、, 2021-11-1215(3 3)無序列相關)無序列相關 covcov( ( i, i, j j)=)=e(e( ii j j)=)=0 0 ij iij i,j=1,2, j=1,2, 則,則,covcov( (y yi, i,y yj j)=)=e(e( ii j j)=)=0 02021-11-1216假設(假設(2 2)和()和(3 3)矩陣表達式為:)矩陣表達式為:22222122212121212212221212121212111.00.0.00.0)(.)()(.)(.)()()(.)()(.,.,.)( )()()(nnnnnnnnnnnnnnnnueuueuueuueu

9、euueuueuueueuuuuuuuuuuuuuuueuuuuuueuueueuueueuvar方差方差- -協(xié)方差矩陣協(xié)方差矩陣2021-11-1217(4 4)解釋變量)解釋變量x x1 1,x x2 2,x xk k是確定性變是確定性變量,不是隨機變量;并且解釋變量與隨量,不是隨機變量;并且解釋變量與隨機誤差項之間不相關。機誤差項之間不相關。即即: : cov(x cov(xij ij , j j)=0)=0 i=1,2, i=1,2,k; j= 1,2,1,2,n2021-11-1218(5 5) i i服從正態(tài)分布服從正態(tài)分布 iin(0, n(0, 2 2 ) i=1,2, )

10、i=1,2, ,n,n 則則y yiin(n( 0 0+ + 1 1x x1i 1i+ + 2 2x x2i 2i+ + k kx xki ki, , 2 2) ) i=1,2, i=1,2, ,n ,n2021-11-1220對于:對于:kikiiiiixxyyye.110殘差為:殘差為:k,.,10問題是選擇問題是選擇 ,使得殘差平方和最小。,使得殘差平方和最小。kikiiixxxy.22110ni,.,2 , 1ikikiiiexxxy.221102021-11-1221要使殘差平方和要使殘差平方和:2110210.),.,(kikiiikxxyeq0.,0,010kqqq為為最小最小,

11、則應有:,則應有:2021-11-12220)().(2.0)().(20) 1().(2110111011100kikikiikikikiikikiixxxyqxxxyqxxyq即:即:2021-11-1223ikikikikikiiiikikiiikikiyxxxxxyxxxxxyxxn21101121110110. 化簡整理后我們得到如下化簡整理后我們得到如下k+1k+1個方程(即個方程(即正規(guī)正規(guī)方程組方程組):):2021-11-1224)(xxxy即即:=2112111.kiikikiikiiikiixxxxxxxxxxnk.10ikiiinknkknyxyxyyyyxxxxxx.

12、 .1.111212111211按矩陣形式,上述方程組可表示為:按矩陣形式,上述方程組可表示為:yxxx正規(guī)方程組正規(guī)方程組 yx2021-11-1225的的olsols估計量估計量則參數(shù)的最小二乘估計值為:則參數(shù)的最小二乘估計值為: yxxx1)(2021-11-12261. 1.最小樣本容量:最小樣本容量:是指從最小二乘原理出發(fā),欲得是指從最小二乘原理出發(fā),欲得到參數(shù)估計量,不管其質(zhì)量如何,所要求的樣本容量的下到參數(shù)估計量,不管其質(zhì)量如何,所要求的樣本容量的下限。限。n k+12. 2.滿足基本要求的樣本容量滿足基本要求的樣本容量 即樣本容量必須不少于模型中解釋變量的數(shù)即樣本容量必須不少于

13、模型中解釋變量的數(shù)目(包括常數(shù)項)。這就是最小樣本容量。目(包括常數(shù)項)。這就是最小樣本容量。 一般經(jīng)驗認為,當一般經(jīng)驗認為,當n 30或者至少或者至少n 3(k+1)時,才能滿足模型估計的基本要求。時,才能滿足模型估計的基本要求。 2021-11-1228一、線性性一、線性性證明:證明: 令令a=a=(x xx x)-1-1x x 由古典假定(由古典假定(4 4),),x x1 1,x x2 2,x xk k是非隨機變是非隨機變量,所以矩陣量,所以矩陣a a是一個非隨機的(是一個非隨機的(k+1k+1)n n階階常數(shù)矩陣。常數(shù)矩陣。ayyxxx1)(則:則:2021-11-1229uxxxu

14、xxxxxxxuxxxxyxxx11111)()()()()()()( 因為二、無偏性二、無偏性)()()()(11uexxxuxxxee證明:證明:2021-11-1230 這表明,這表明,ols估計量估計量 是無偏估計量。是無偏估計量。kkkeeee.)(.)()(.101010即:即: 2021-11-1231)(evar 這是一個(這是一個(k+1)(k+1)矩陣,其主對角線上元素矩陣,其主對角線上元素即構成即構成 var( ), 非主對角線元素是相應的協(xié)方差非主對角線元素是相應的協(xié)方差, 如下如下所示所示:為求為求var( ),我們考慮:我們考慮:三、最小方差性(有效性三、最小方差性

15、(有效性)2021-11-1232)(.),(),(.),(.)(),(),(.),()(1011010100kkkkkvarcovcovcovvarcovcovcovvar下面推導此矩陣的計算公式。下面推導此矩陣的計算公式。kkkke.110011002021-11-1233由上一段的結果,我們有:由上一段的結果,我們有:uxxx1)( 11uuxxxexxx11xxxuuxxxeuu11xxxxxxee121xxxixxxn211xxxxxx21xx因此:因此:2021-11-123421)() (xxcovvar 如前所述,我們得到的實際上不僅是如前所述,我們得到的實際上不僅是 的方差,

16、的方差,而且是一個方差而且是一個方差-協(xié)方差矩陣,為了反映這一事實,我協(xié)方差矩陣,為了反映這一事實,我們用下面的符號表示之:們用下面的符號表示之:211011010100)()(),(),(.),(.)(),(),(.),()(xxvarcovcovcovvarcovcovcovvarkkkkk展開就是:展開就是:2021-11-1235 記記 c=c=(x xx x)-1-1= =(c cijij) 則:則:kicxxvariiiii, 1 , 0)()(1, 121, 112kjijicxxcovjijiji, 1 , 0,)(),(1, 121, 112(最小方差性的證明略)(最小方差性

17、的證明略)2021-11-1236 對于對于y=xy=x+u+u 以及標準假設條件(以及標準假設條件(1 1)- -(5 5),普通最小二乘估計量是最佳線),普通最小二乘估計量是最佳線性無偏估計量(性無偏估計量(blueblue)高斯高斯- -馬爾科夫定理馬爾科夫定理2021-11-1237與一元線性模型相似,與一元線性模型相似, 2的無偏估計量是:的無偏估計量是:) 1() 1(222knyxyyknesei 我們在估計我們在估計0 0, , 1 1 , , , k k的過程中,失去了的過程中,失去了(k+1k+1)個自由度。)個自由度。四、四、 2 2的估計的估計2021-11-1238例

18、例2: 2: 企業(yè)管理費取決于兩種重點產(chǎn)品的產(chǎn)量,線性企業(yè)管理費取決于兩種重點產(chǎn)品的產(chǎn)量,線性回歸模型是:回歸模型是:y=y= 0 0+ + 1 1x x1 1+ + 2 2x x2 2+u+u年年 管理費用管理費用 a產(chǎn)品產(chǎn)量產(chǎn)品產(chǎn)量 b產(chǎn)品產(chǎn)量產(chǎn)品產(chǎn)量13352114385643245546樣本數(shù)據(jù)為:樣本數(shù)據(jù)為:2021-11-12395 . 25 . 185 . 115 . 485 . 47 .261097620129812581551525155641421651411531538131xxyxxxxy;解:2021-11-1240exxyyxxx2115 . 15 . 24:5 .

19、 15 . 2410976205 . 25 . 185 . 115 . 485 . 47 .26)(所以回歸模型為2021-11-12415811. 15 . 275. 1)()(0917. 2175. 1)()(8356. 67 .2675. 1)()(75. 1355 .10610815 .10610976205 . 15 . 241332122111102xxsexxsexxseknyxyyyx1082yy的估計如下:隨機擾動項的方差2021-11-1243對于一元線性回歸模型:對于一元線性回歸模型: y=y=0 0+1 1x+ux+u2221yyerii其中,其中,e ei i2 2

20、=殘差平方和殘差平方和我們有我們有: :一、多元樣本決定系數(shù)一、多元樣本決定系數(shù)r r2 22021-11-1244對于多元線性模型:對于多元線性模型:uxxykk.110tssesstssrssryyerii112222或我們可用同樣的方法定義決定系數(shù):我們可用同樣的方法定義決定系數(shù):2021-11-1245 二、總離差平方和的分解二、總離差平方和的分解2222)(ynyyynyyytssii22)()(ynyxyxyyynyyesstssrssyxyyyyeessiii)(222021-11-1246將上述結果代入將上述結果代入r2的公式,得到:的公式,得到:222ynyyynyxtssr

21、ssr決定系數(shù)決定系數(shù)r r2 2 的矩陣形式的矩陣形式 殘差平方和的一個特點是,每當模型增加一個殘差平方和的一個特點是,每當模型增加一個解釋變量,并用改變后的模型重新進行估計,殘差解釋變量,并用改變后的模型重新進行估計,殘差平方和的值會減小。由此可以推論,決定系數(shù)是一平方和的值會減小。由此可以推論,決定系數(shù)是一個與解釋變量的個數(shù)有關的量:個與解釋變量的個數(shù)有關的量: 解釋變量個數(shù)增加解釋變量個數(shù)增加eei i2 2減小減小r r2 2增大增大 這就給人一個這就給人一個:要使得模型擬合得好,就:要使得模型擬合得好,就必須增加解釋變量。但是,在樣本容量一定的情況必須增加解釋變量。但是,在樣本容量

22、一定的情況下,增加解釋變量必定使得自由度減少。所以用以下,增加解釋變量必定使得自由度減少。所以用以檢驗擬合優(yōu)度的統(tǒng)計量必須能夠防止這種傾向。于檢驗擬合優(yōu)度的統(tǒng)計量必須能夠防止這種傾向。于是,實際中應用的統(tǒng)計量是在對進行調(diào)整后的。是,實際中應用的統(tǒng)計量是在對進行調(diào)整后的。 2021-11-12482r2r2r二、修正決定系數(shù):二、修正決定系數(shù):定義修正決定系數(shù)定義修正決定系數(shù) (adjusted )如下:)如下:) 1() 1(12ntssknessrtssknessn) 1() 1(1)1(1112rknn2021-11-1249q1.1.當當n n較大,較大,k k較小時,兩者相差不大。較小

23、時,兩者相差不大。 q2.2.當當n n不是很大,而不是很大,而k k又較大時,兩者差別較明顯;又較大時,兩者差別較明顯;q3.3.當樣本容量一定時:當樣本容量一定時: (1 1)當)當k1k1時,時, (2 2)僅當)僅當k=0k=0時,等號成立。即時,等號成立。即 (3 3)當)當k k增大時,二者的差異也隨之增大。增大時,二者的差異也隨之增大。 (4 4) 可能出現(xiàn)負值(無意義,取值為可能出現(xiàn)負值(無意義,取值為0 0) (當當r r2 2 k/fff ,拒絕,拒絕h h0 0;否;否則不拒絕則不拒絕h h0 0。f f值越大,值越大,方程的總體線性方程的總體線性關系關系越顯著。越顯著。

24、f檢驗的步驟2021-11-1255步驟如下:步驟如下: 1.1.建立假設建立假設 原假設原假設 h h0 0:1 1 = = 2 2 = = =k k= = 0 0 備擇假設備擇假設 h h1 1: i i不全為不全為0 0(i=1i=1,2 2,k k) 顯然,當顯然,當h h0 0成立時,即表示模型中被解釋成立時,即表示模型中被解釋變量與解釋變量之間不存在顯著的線性關系;變量與解釋變量之間不存在顯著的線性關系;當當h h1 1成立時,即表示模型的線性關系成立。成立時,即表示模型的線性關系成立。 注意:注意:一元線性回歸中,一元線性回歸中, f f檢驗與檢驗與t t檢驗一致檢驗一致 202

25、1-11-12562.2.在在h h0 0成立的條件下,構造統(tǒng)計量成立的條件下,構造統(tǒng)計量)1,()1/(/knkfknesskrssf 直觀上看,回歸平方和直觀上看,回歸平方和rssrss是解釋變量整體對被解是解釋變量整體對被解釋變量釋變量y y的線性作用的結果,如果的線性作用的結果,如果rss/essrss/ess的比值較大,的比值較大,則解釋變量整體對則解釋變量整體對y y的解釋程度高,可以認為總體存在的解釋程度高,可以認為總體存在線性關系;反之,總體可能不存在線性關系。線性關系;反之,總體可能不存在線性關系。因此因此, ,可可以通過該比值的大小對總體線性關系進行推斷。以通過該比值的大小

26、對總體線性關系進行推斷。2021-11-1257 給定顯著性水平給定顯著性水平 ,查,查f f分布分布表,可得到臨表,可得到臨界值界值f f ( (k,n-k-k,n-k-1)1),由樣本求出統(tǒng)計量,由樣本求出統(tǒng)計量f f的數(shù)值。的數(shù)值。 若若f f f f ( (k,n-k-k,n-k-1),1),則拒絕則拒絕h h0 0,即回歸方程,即回歸方程顯著成立;顯著成立; 若若f f f f ( (k,n-k-k,n-k-1), 1), 則接受則接受h h0 0,即回歸方程,即回歸方程不顯著。不顯著。3.3.計算,判斷計算,判斷2021-11-12581-f(k,n-k-1)ff(f)拒絕域拒絕域

27、顯著水平顯著水平的單側(cè)的單側(cè) f f檢驗拒絕域檢驗拒絕域2021-11-1259例例4 4:在某模型中,在某模型中,k=2,n=16,k=2,n=16,給定給定=0.01,=0.01,查得查得0.010.01(2,13)=6.702,13)=6.70,而,而=28682.516.70,=28682.516.70,所以該所以該線性模型在線性模型在0.990.99的置信水平下顯著成立。的置信水平下顯著成立。2021-11-1260二、解釋變量的顯著性檢驗(二、解釋變量的顯著性檢驗(t t檢驗)檢驗) 方程的方程的總體線性總體線性關系顯著關系顯著 每個解釋變量每個解釋變量對對被解釋變量的影響都是顯著

28、的。被解釋變量的影響都是顯著的。 因此,必須對每個解釋變量進行顯著性檢驗,因此,必須對每個解釋變量進行顯著性檢驗,以決定是否作為解釋變量被保留在模型中。以決定是否作為解釋變量被保留在模型中。 這一檢驗是由對變量的這一檢驗是由對變量的t t檢驗完成的。檢驗完成的。2021-11-12611. .t統(tǒng)計量統(tǒng)計量 由于由于參數(shù)估計量的方差為:參數(shù)估計量的方差為: kicxxvariiiii, 1 , 0)()(1, 121, 112),(1, 12 iiiicn2021-11-1262因此,可構造如下因此,可構造如下t統(tǒng)計量:統(tǒng)計量: ii2i1,1 (1)()iitt n ksc 其中其中 2為隨

29、機誤差項的方差,在實際計為隨機誤差項的方差,在實際計算時,用它的估計量代替算時,用它的估計量代替: : 1122knkneiee2021-11-12632.t檢驗檢驗 建立原假設與備擇假設:建立原假設與備擇假設: h h1 1: i i 0 0 給定顯著性水平給定顯著性水平 ,可得到臨界值,可得到臨界值t t /2/2( (n-k-n-k-1)1),由樣本求出統(tǒng)計量由樣本求出統(tǒng)計量t t的數(shù)值,通過:的數(shù)值,通過: |t|t| t t /2/2( (n-k-n-k-1) 1) 或或 |t|t| t t /2/2( (n-k-n-k-1)1)來拒絕或接受原假設來拒絕或接受原假設h h0 0,從而

30、,從而判定對應的解釋變判定對應的解釋變量是否應包括在模型中。量是否應包括在模型中。 h h0 0: i i=0=0(i=1,2i=1,2k k)2021-11-1264三、回歸系數(shù)的置信區(qū)間三、回歸系數(shù)的置信區(qū)間ii2i1,1 (1)()iitt n ksc 給定顯著性水平給定顯著性水平 ,可得到臨界值,可得到臨界值t t /2/2( (n-k-n-k-1)1),)1()1(22iiststknikni置信區(qū)間:置信區(qū)間:2021-11-1266 與一元線性回歸模型的作法類似,預測指與一元線性回歸模型的作法類似,預測指的是對各自變量的某一組具體值的是對各自變量的某一組具體值來預測與之相對應的因

31、變量值來預測與之相對應的因變量值y y0 0。當然,要進。當然,要進行預測,有一個假設前提應當滿足,即行預測,有一個假設前提應當滿足,即擬合的擬合的模型在預測期也成立模型在預測期也成立。 ).(020100kxxxx2021-11-1267點預測值由已給定的諸點預測值由已給定的諸x x值對應的回歸值給出,即:值對應的回歸值給出,即: 一、點預測一、點預測020210100.kkxxxy2021-11-1268預測誤差可定義為:預測誤差可定義為:000yye二、區(qū)間預測二、區(qū)間預測1.1.單個值的預測區(qū)間單個值的預測區(qū)間)(1 )()(1 )var(0)(0102022220102000xxxx

32、sesxxxxeeeeee則。代替未知,故用其中正態(tài)分布可以證明,證明略證明略2021-11-1269)(1,)(1010200102000xxxxtyxxxxtyyy的預測區(qū)間:的置信度為則,2021-11-12702.2.均值的預測區(qū)間均值的預測區(qū)間0102201020)()()var(xxxxsxxxxe則可以證明:)(,)()/()/(102010200000xxxxtyxxxxtyxyexye的預測區(qū)間:的置信度為與單個值預與單個值預測的區(qū)別測的區(qū)別證明略證明略2021-11-1272 經(jīng)過研究,發(fā)現(xiàn)家庭書刊消費水平受家庭收經(jīng)過研究,發(fā)現(xiàn)家庭書刊消費水平受家庭收入及戶主受教育年限的影

33、響。入及戶主受教育年限的影響。 y y家庭書刊消費水平(元家庭書刊消費水平(元/ /月);月); x x1 1家庭收入(元家庭收入(元/ /月);月); x x2 2戶主受教育年限(年)戶主受教育年限(年) 若經(jīng)調(diào)查得到一家庭的收入水平為若經(jīng)調(diào)查得到一家庭的收入水平為x x1 1=4000=4000, x x2 2=20=20,要求預測,要求預測y y0 0。iiiixxy221102021-11-1273yx1x21 14501027.282 2507.71045.293 3613.91225.8124 4563.41312.295 5501.51316.476 6781.51442.415

34、7 7541.8164198 8611.11768.8109 91222.11981.2181010793.21998.6141111660.82196101212792.72105.4121313580.82147.481414612.72154101515890.82231.414161611212611.81817171094.23143.416181812533624.6202021-11-1274例例4.1 4.1 :某地區(qū)通過一個樣本容量為某地區(qū)通過一個樣本容量為722722的調(diào)查數(shù)據(jù)得的調(diào)查數(shù)據(jù)得到勞動力受教育的一個回歸方程為到勞動力受教育的一個回歸方程為 r r2 2=0.21

35、4=0.214式中,式中,y y為勞動力受教育年數(shù),為勞動力受教育年數(shù),x x1 1為該勞動力家庭中兄弟姐為該勞動力家庭中兄弟姐妹的個數(shù),妹的個數(shù),x x2 2與與x x3 3分別為母親與父親受到教育的年數(shù)。分別為母親與父親受到教育的年數(shù)。 (1 1)x x1 1是否具有預期的影響?為什么?若是否具有預期的影響?為什么?若x x2 2與與x x3 3保持不保持不變,為了使預測的受教育水平減少一年,需要變,為了使預測的受教育水平減少一年,需要x x1 1增加多少?增加多少? (2 2)請對)請對x x2 2的系數(shù)給予適當?shù)慕忉?。的系?shù)給予適當?shù)慕忉尅?(3 3)如果兩個勞動力都沒有兄弟姐妹,但其

36、中一個的父)如果兩個勞動力都沒有兄弟姐妹,但其中一個的父母受教育的年數(shù)為母受教育的年數(shù)為1212年,另一個的父母受教育的年數(shù)為年,另一個的父母受教育的年數(shù)為1616年,則兩人受教育的年數(shù)預期相差多少?年,則兩人受教育的年數(shù)預期相差多少?321210. 0131. 0094. 036.10xxxy 補充: 虛擬變量dummy variable2021-11-12761 1、定義、定義 許多經(jīng)濟變量是許多經(jīng)濟變量是可以定量度量可以定量度量的。但也有一些影的。但也有一些影響經(jīng)濟變量的因素響經(jīng)濟變量的因素無法定量度量無法定量度量。 為了在模型中能夠反映這些因素的影響,并提高為了在模型中能夠反映這些因素

37、的影響,并提高模型的精度,需要將它們模型的精度,需要將它們“量化量化”。這種。這種“量化量化”通常是通過引入通常是通過引入“虛擬變量虛擬變量”來完成的。來完成的。 根據(jù)這些因素的屬性類型,構造只取根據(jù)這些因素的屬性類型,構造只取“0”0”或或“1”1”的 人 工 變 量 , 通 常 稱 為的 人 工 變 量 , 通 常 稱 為 虛 擬 變 量虛 擬 變 量 ( d u m m y d u m m y variablevariable),記為,記為d d。一、虛擬變量的概念及作用一、虛擬變量的概念及作用2021-11-1277性別性別d1男性男性0女性女性城市與農(nóng)村城市與農(nóng)村d1城市城市0農(nóng)村農(nóng)

38、村例:例: 0 非非 本本 科科 學學 歷歷 d= 1 本本 科科 學學 歷歷 一般地,在虛擬變量的設置中:一般地,在虛擬變量的設置中: 基礎類型、否定類型取值為基礎類型、否定類型取值為0 0; 比較類型,肯定類型取值為比較類型,肯定類型取值為1 1。學歷學歷2021-11-12782 2、模型中引入虛擬變量的作用、模型中引入虛擬變量的作用(1 1)可以描述和測量定性因素的的影響。)可以描述和測量定性因素的的影響。(2 2)能夠正確反映經(jīng)濟變量之間的相互關)能夠正確反映經(jīng)濟變量之間的相互關系,提高模型的精度。系,提高模型的精度。 (相當于將不同相當于將不同屬性的樣本合并,擴大了樣本容量屬性的樣

39、本合并,擴大了樣本容量)。)。 (3 3)便于處理異常數(shù)據(jù)。)便于處理異常數(shù)據(jù)。2021-11-1279二、虛擬變量的設置二、虛擬變量的設置1 1、虛擬變量的設置原則、虛擬變量的設置原則 (1 1)一個因素多個屬性)一個因素多個屬性 如果某定性因素有如果某定性因素有 m m 種互斥的屬性類型種互斥的屬性類型,在模型中引入,在模型中引入 m-1m-1 個虛擬變量。個虛擬變量。 如果不如此,如果不如此,m m個狀態(tài)引入個狀態(tài)引入m m個虛擬變量來個虛擬變量來表示,虛擬變量間會造成表示,虛擬變量間會造成完全多重共線性完全多重共線性。011td其他春季012td其他夏季013td其他秋季例例1 1:性

40、別有性別有2 2個互斥的屬性,引用個互斥的屬性,引用2-1=12-1=1個虛擬個虛擬變量;變量;例例2 2:文化程度分小學、初中、高中、大學、研文化程度分小學、初中、高中、大學、研究生究生5 5類,引用類,引用4 4個虛擬變量。個虛擬變量。例例3 3:已知冷飲的已知冷飲的銷售量銷售量y y除受除受k k種定量變量種定量變量x xk k的的影響外,還受影響外,還受春、夏、秋、冬四季春、夏、秋、冬四季變化的影響,變化的影響,要考察該四季的影響,只需引入要考察該四季的影響,只需引入三個虛擬變量三個虛擬變量即即可:可:2021-11-1281則冷飲銷售量的模型為:則冷飲銷售量的模型為:在上述模型中,若

41、再引入第四個虛擬變量:在上述模型中,若再引入第四個虛擬變量:ttttktkttdddxxy332211110014td其他冬季則冷飲銷售模型變量為:則冷飲銷售模型變量為:tttttktkttddddxxy44332211110完全多重共線性完全多重共線性2021-11-1282(2 2)多個因素多個屬性)多個因素多個屬性 k個定性變量,每個變量有個定性變量,每個變量有mi個屬性類型(個屬性類型(i=1,2,k) 虛擬變量個數(shù)為:虛擬變量個數(shù)為:kiim1) 1((3 3)虛擬變量在模型中,可以作解釋變量,也可)虛擬變量在模型中,可以作解釋變量,也可以作因變量。以作因變量。2021-11-128

42、32 2、虛擬變量的引入方式、虛擬變量的引入方式 虛擬變量作為解釋變量引入模型有兩種基本虛擬變量作為解釋變量引入模型有兩種基本方式:方式:加法方式加法方式和和乘法方式乘法方式。2021-11-1284例:例:研究女性在工作中是否受到歧視,設研究女性在工作中是否受到歧視,設y y表表示年薪,示年薪,x x表示工作年限,建立如下虛擬變量表示工作年限,建立如下虛擬變量模型模型:udxy210 0 女女 性性 d = 1 男男 性性 其中:其中:(1 1)加法方式)加法方式作用:作用:改變截距水平。改變截距水平。 2021-11-1285 y 男性 女性 0+2 0 x 對估計結果應用對估計結果應用t

43、檢驗:檢驗:若若2 2顯著異于顯著異于0 0,則說明存在性別歧視;,則說明存在性別歧視;若若2 2不顯著異于不顯著異于0 0,則說明不存在性別歧視;,則說明不存在性別歧視;2021-11-1286(2)乘法方式 用虛擬解釋變量與其他解釋變量相乘作為新的用虛擬解釋變量與其他解釋變量相乘作為新的解釋變量,以達到調(diào)整模型斜率系數(shù)的目的。解釋變量,以達到調(diào)整模型斜率系數(shù)的目的。 例例:不同的家庭結構,家庭消費支出的不同的家庭結構,家庭消費支出的mpc可可能會發(fā)生變化。能會發(fā)生變化。ttttotuxdaxbby)(11有適齡子女有適齡子女0無適齡子女無適齡子女其中其中,d d2021-11-1287y

44、有適齡子女 無適齡子女 b0 x ttottotuxbbuxabby11)(上式相當于下列兩式:上式相當于下列兩式:a a是否顯著是否顯著可以表明斜率在可以表明斜率在不同家庭結構下是否變化。不同家庭結構下是否變化。2021-11-1288(3)一般方式(混合方式) 當截距與斜率發(fā)生變化時,則需要同當截距與斜率發(fā)生變化時,則需要同時引入時引入加法與乘法加法與乘法形式的虛擬變量。形式的虛擬變量。2021-11-1289此式等價于下列兩式:此式等價于下列兩式:ttttttuxyuxy)()(112010男性:女性:例:例:如果男性與女性就業(yè)者的初始年薪和年薪增如果男性與女性就業(yè)者的初始年薪和年薪增加

45、速度都有差異,則可以將加速度都有差異,則可以將加法模型加法模型和和乘法模型乘法模型結合起來。結合起來。ttttttudxdxy2110d1男性男性0女性女性2021-11-1290(4)分段線性回歸 在經(jīng)濟發(fā)生轉(zhuǎn)折時期,可通過建立臨界指標的虛擬變量在經(jīng)濟發(fā)生轉(zhuǎn)折時期,可通過建立臨界指標的虛擬變量模型來反映。模型來反映。 例如例如:進口消費品數(shù)量進口消費品數(shù)量y主要取決于國民收入主要取決于國民收入x的多少,的多少,中國在改革開放前后,中國在改革開放前后,y對對x的回歸關系明顯不同。的回歸關系明顯不同。 這時,可以這時,可以t*=1979年為轉(zhuǎn)折期,以年為轉(zhuǎn)折期,以1979年的國民收入年的國民收入xt*為臨界值,設如下虛擬變量:為臨界值,設如下虛擬變量:01td*tttt則進口消費品的回歸模型可建立如下:則進口消費品的回歸模型可建立如下:ttttttdxxxy)(*2102021-11-1291ols法得到該模型的回歸方程為:則兩時期進口消費品函數(shù)分別為:則兩時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論