第9講 二元結(jié)果模型_第1頁
第9講 二元結(jié)果模型_第2頁
第9講 二元結(jié)果模型_第3頁
第9講 二元結(jié)果模型_第4頁
第9講 二元結(jié)果模型_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第9講 離散選擇模型之二元結(jié)果模型參考書目:1 Long, J. S., and J. Freese. 2006. Regression Models for Categorical Dependent Variables Using Stata. 2nd ed. College Station, TX: Stata Press教學(xué)視頻:Logistic regression, part 1: Binary predictorsLogistic regression, part 2: Continuous predictorsLogistic regression, part 3: Facto

2、r variables一、離散被解釋變量的例子二元結(jié)果模型:考研或不考研;就業(yè)或待業(yè);買房或不買房;買保險或不買保險;貸款申請被批準(zhǔn)或拒絕;出國或不出國;回國或不回國;戰(zhàn)爭或和平;醫(yī)藥實驗中的生或死。多元結(jié)果模型:對不同交通方式的選擇(走路、騎車、坐車上班);對不同職業(yè)的選擇。這類模型被稱為“離散選擇模型”(discrete choice model) ??紤]到離散被解釋變量的特點(diǎn),通常不宜用OLS進(jìn)行回歸。假設(shè)個體只有兩種選擇,比如 y=1 (考研)或 y=0 (不考研)。是否考研,取決于研究生畢業(yè)后的預(yù)期收入、個人興趣、本科畢業(yè)后直接就業(yè)的收入前景等。所有解釋變量都包括在向量x中。二、二元

3、結(jié)果模型的微觀基礎(chǔ)對于二元選擇行為,可通過“潛變量”(latent variable)概括該行為的凈收益(收益減去成本)。如果凈收益大于0,則選擇做;否則,選擇不做。y*=x + 其中,凈收益y*為潛變量,不可觀測。選擇規(guī)則為y=1,若y*0y=0,若y*0如果為正態(tài)分布,則為Probit;如果為邏輯分布,則為Logit。logistic Logistic regression, reporting odds ratios(Logistic回歸,報告優(yōu)勢比/比值比)對于Logit模型,記p= P(y =1|x ) ,則1-P= P(y =0|x )。p /(1-p) 稱為“幾率比/優(yōu)勢比/比值

4、比”(odds ratio)。那么什么是幾率比?舉例說明,假設(shè)在檢驗藥物療效的隨機(jī)實驗中,“ y =1 ”表示“生”,“ y =0 ”表示“死”;則幾率比為2意味著存活的概率是死亡概率的兩倍。命令語法:logistic depvar indepvars if in weight ,options命令logistic擬合logistic回歸模型,其中depvar是一個0/1變量(更準(zhǔn)確地說,是一個0/非0變量)。logistic顯示的估計結(jié)果是優(yōu)勢比;要想查看系數(shù),運(yùn)行l(wèi)ogistic后,輸入logit。一、概述logistic替代logit命令,通常是擬合最大似然logit模型的首選方法。St

5、ata使用logit和logistic意味著同樣的事情:最大似然估計。并且兩種命令會得到相同的結(jié)果。logistic命令通常優(yōu)于logit命令,原因是logistic提供優(yōu)勢比而不是系數(shù)的估計結(jié)果。對于logistic回歸的介紹,請參閱Lemeshow & Hosmer(2005),Pagano & Gauvreau (2000,470487),或Pampel (2000);一個完整的,非數(shù)學(xué)的討論,請參閱Kleinbaum & Klein (2010);一個更深入的討論,請參閱Hosmer, Lemeshow, & Sturdivant (2013)。Gould (2000)討論了關(guān)于log

6、istic回歸的解釋。Dupont (2009)和Hilbe (2009) 用Stata實例討論了logistic回歸。Vittinghoff et al. (2012)重點(diǎn)討論了模型設(shè)定問題。Stata有一系列命令用來估計二分類或多分類因變量模型。Long和Freese (2014)專門論述了如何使用Stata擬合此類模型。下面是一些常用估計命令的列表。help estimation commands提供了Stata全部估計命令的完整列表。asclogitR麥克法登離散選擇模型(McFaddens choice)asmprobitR多項式probit模型asroprobitR排序probit

7、模型binregR二項式的廣義線性模型biprobitR二元probit模型blogitR分組數(shù)據(jù)的logit模型bprobitR分組數(shù)據(jù)的probit模型clogitR條件(固定效應(yīng))logistic回歸cloglogR互補(bǔ)重對數(shù)模型exlogisticR精確logistic回歸glmR廣義線性模型glogitR分組數(shù)據(jù)的加權(quán)最小二乘logistic回歸gprobitR分組數(shù)據(jù)的加權(quán)最小二乘probit回歸 heckoprobitR有序probit的樣本選擇模型heckprobitRprobit的樣本選擇模型hetprobitR異方差probit模型ivprobitR具有連續(xù)內(nèi)生變量的pro

8、bit模型logitRLogistic回歸分析,報告系數(shù)mecloglogME多層次混合效應(yīng)互補(bǔ)雙對數(shù)回歸meglmME多層次混合效應(yīng)廣義線性模型melogitME多層次混合效應(yīng)logistic回歸meprobitME多層次混合效應(yīng)probit回歸mlogitR多分類因變量logistic回歸mprobitR多分類因變量 probit 回歸nlogitR嵌套logit回歸ologitR有序logistic回歸oprobitR有序probit 回歸probitRProbit回歸rologitR有序秩logistic回歸scobitRSkewed logistic regressionslogit

9、RStereotype logistic regressionsvy: cmdSVY svy estimation命令的svy版 xtcloglogXT隨機(jī)效應(yīng)和總體平均cloglog模型xtgeeXTGEE 總體平均廣義線性模型xtlogitXT固定效應(yīng)、隨機(jī)效應(yīng)和總體平均logit模型xtologitXT隨機(jī)效應(yīng)有序logistic模型xtoprobitXT隨機(jī)效應(yīng)有序probit模型xtprobitXT隨機(jī)效應(yīng)和總體平均probit模型例:估計決定美國婦女就業(yè)與否的二元結(jié)果模型。數(shù)據(jù)集包括以下變量:虛擬變量work(1=就業(yè)),age(年齡),虛擬變量married(1=已婚),chil

10、dren(子女?dāng)?shù)),education(受教育年限)??紤]以下模型:worki=0+1agei+2marriedi+3childreni+4educationi+i作為對照,首先使用OLS進(jìn)行線性概率模型(LPM)估計:use womenwk1,clear (原數(shù)據(jù)是womenwk.dta)reg work age married children educationprobit work age married children education,nologmfx (計算probit模型在樣本均值處的邊際效應(yīng),與OLS估計的回歸系數(shù)進(jìn)行比較)estat classification (計算

11、預(yù)測準(zhǔn)確的百分比)logit work age married children education,nologmfxestat classificationhetprob work age married children education,het(age married children education) nolog (p值為0.78,所以接受“同方差”的原假設(shè)。)generate age2=age*agegenerate agemari=age*marriedgenerate agechr=age*childrenquietly logit work age married chi

12、ldren education age2 agemari agechrtest age2 agemari agechr (接受零假設(shè))quietly logit work age married children educationestimates store blogitquietly probit work age married children educationestimates store bprobitquietly regress work age married children educationestimates store bolsquietly logit work

13、 age married children education,vce(robust)estimates store blogitrquietly probit work age married children education,vce(robust)estimates store bprobitrquietly regress work age married children education,vce(robust)estimates store bolsrestimates table blogit blogitr bprobit bprobitr bols bolsr, t b(

14、%7.3f) stfmt(%8.2f)例子:航天飛機(jī)數(shù)據(jù)use shuttle,clear(美國航天飛機(jī)25次飛行數(shù)據(jù),包括1986年挑戰(zhàn)者號最后一次升空失敗的飛行)describe(distress:助推結(jié)點(diǎn)一處或多處受損;temp:助推結(jié)點(diǎn)的溫度;date:從1960.1.1起的消逝天數(shù))generate date=mdy(month,day,year)tabulate distresstabulate distress,nolabelgenerate any=distressreplace any=1 if distress=2 (建立虛擬變量any,0代表無損壞,1代表有1處或更多損壞

15、)logistic any date (logistic提供優(yōu)勢比,eb。它的意義是,自變量每增加一個單位時,事件(y=1)的發(fā)生比的變化倍數(shù)(如有其他自變量,則以其他自變量保持不變?yōu)闂l件))predict phat (取得預(yù)測概率)label variable phat “Predicted P(distress=1)”graph twoway connected phat dateestat classification(默認(rèn)應(yīng)用0.5的概率作為分割點(diǎn))。幾種符號的含義:D:一個觀測中所關(guān)注的事件確實發(fā)生(y=1)。在本例中,D表示結(jié)點(diǎn)損壞發(fā)生了D:一個觀測中所關(guān)注的事件沒有發(fā)生(y=0)

16、。在本例中,D表示結(jié)點(diǎn)損壞沒發(fā)生+:模型預(yù)測概率值大于等于分割點(diǎn)。本例中,+表示模型預(yù)測的事故發(fā)生概率為0.5或更高-:模型預(yù)測概率值小于分割點(diǎn)。Pr(D|+)=12/16=75% (準(zhǔn)確預(yù)測)Pr( -D|+)=4/16=25%Pr(D| -)=5/7=71.43%(準(zhǔn)確預(yù)測)Pr( D| -) =2/7= 28.57%logistic any date temp(加入助推結(jié)點(diǎn)溫度temp)根據(jù)擬合模型,結(jié)點(diǎn)溫度每1度增量將使助推結(jié)點(diǎn)損壞發(fā)生比乘以0.84,也就是說溫度每提高1度減少損壞發(fā)生比16%??ǚ綑z驗更有確定性。estat classification (分類正確率提高到78.26%

17、)三、條件效應(yīng)標(biāo)繪圖(條件效應(yīng)標(biāo)繪圖有助于理解logistic模型在概率方面意味著什么)quietly logit any date tempgenerate L1=_b_cons+_bdate*8569+_btemp*tempgenerate phat1=1/(1+exp(-L1)(date的第25百分位數(shù)為8569;L1是預(yù)測的logit值;phat1為相應(yīng)的distress=1的預(yù)測概率)label variable phat1 “P(distress=1) | date=8569”generate L2=_b_cons+_bdate*9341+_btemp*tempgenerate p

18、hat2=1/(1+exp(-L2)(date的第75百分位數(shù)為9341)label variable phat2 “P(distress=1) | date=9341”graph twoway mspline phat1 temp,bands(50) | mspline phat2 temp,bands(50) |,ytitle(“Probability of thermal distress”) legend(label(1 “June 1983”) label(2 “July 1985”)(挑戰(zhàn)者號的起飛溫度為31,這將使它位于圖的左側(cè)頂部。這個分析預(yù)測出助推結(jié)點(diǎn)幾乎是肯定要損壞的)四、診斷統(tǒng)計與標(biāo)繪圖(不講)quietly logistic any date temppredict phat3label variable phat3 “Predicted probability”predict dx2,dx2label variable dx2 “Change in Pearson chi-squared”predict db,dbetalabel variable db “Influence”predict dd,ddev

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論