版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、2021/3/912021/3/92主要內(nèi)容泊松回歸模型負二項和廣義負二項回歸模型零膨脹回歸模型2021/3/93實驗實驗10-110-1:泊松回歸模型:泊松回歸模型實驗基本原理實驗基本原理 對上式兩邊取對數(shù)可得對數(shù)似然函數(shù),之后對求導(dǎo)便可得最大似然估計值。2021/3/94實驗內(nèi)容及數(shù)據(jù)來源實驗內(nèi)容及數(shù)據(jù)來源本書附帶光盤data文件夾下的“airinjure.dta”工作文件,給出了美國九家大的航線一年中的傷亡人數(shù)數(shù)據(jù)。 變量包括airline=航線,injuries=該航線一年的傷亡人數(shù),n=各航線飛離紐約的航班數(shù)量占全部飛離紐約的航班數(shù)量的比例,XYZowned=航線是否為XYZ公司所擁
2、有(1代表為XYZ公司擁有,0代表為其他公司擁有)。利用這些數(shù)據(jù),我們分析XYZ公司擁有的航線是否有更高的傷亡率。因為被解釋變量injuries為計數(shù)數(shù)據(jù),所以我們考慮使用泊松模型。利用“airinjure.dta”的數(shù)據(jù),我們將講解泊松回歸的操作、擬合優(yōu)度的檢驗以及模型的預(yù)測。2021/3/95實驗操作指導(dǎo)實驗操作指導(dǎo)1 泊松回歸的操作泊松回歸的操作(1)泊松回歸的基本操作進行泊松回歸的基本命令如下:poisson depvar indepvar if in weight ,options其中,poisson代表“泊松回歸”的基本命令語句,depvar代表被解釋變量的名稱,indepvar代
3、表解釋變量的名稱,if代表條件語句,in代表范圍語句,weight代表權(quán)重語句,options代表其他選項。2021/3/96表10.2顯示了各options選項及其含義。2021/3/972021/3/98(2)計算發(fā)生率比IRR我們重新進行前面的回歸,令其匯報發(fā)生率比。輸入命令: poisson injuries XYZowned, exposure(n) irr 其中,選項exposure()約束ln(n)的系數(shù)為1,irr表示結(jié)果匯報發(fā)生率比。2021/3/99(3)水平形式的泊松回歸我們先產(chǎn)生一個變量ln(n),然后再進行泊松回歸。 gen lnn=ln(n) poisson inj
4、uries XYZowned lnn 其中,第一步為產(chǎn)生一個新變量lnn,其值為n的自然對數(shù);第二步進行泊松回歸,被解釋變量為injuries,解釋變量為XYZowned和lnn。2021/3/9102.泊松回歸的檢驗和預(yù)測泊松回歸的檢驗和預(yù)測(1)擬合優(yōu)度(goodness of fit)檢驗命令estat gof 用于檢驗?zāi)P褪欠衽c數(shù)據(jù)吻合良好。在泊松回歸之后進行該檢驗,原假設(shè)為模型服從泊松分布。當(dāng)p值很小時,我們就應(yīng)該拒絕原假設(shè)。對前面回歸的模型進行擬合優(yōu)度檢驗,命令為:quietly poisson injuries XYZowned, exposure(n)estat gof其中,第
5、一步命令中的quietly用于指示stata不顯示該步的結(jié)果;第二步為擬合優(yōu)度的檢驗。2021/3/911(2)泊松回歸的預(yù)測預(yù)測的基本命令格式為:predict type newvar if in , statistic nooffset其中,predict是預(yù)測的基本命令語句,newvar代表生成的新變量的名稱,type代表新變量的類型,if代表條件語句,in代表范圍語句,statistic代表要預(yù)測的統(tǒng)計量。表10.3顯示了各statistic統(tǒng)計量及其含義。2021/3/9122021/3/913實驗實驗10-210-2:負二項和廣義負二項回歸模:負二項和廣義負二項回歸模型型實驗基本原
6、理實驗基本原理2021/3/914實驗內(nèi)容及數(shù)據(jù)來源實驗內(nèi)容及數(shù)據(jù)來源本書附帶光盤data文件夾下的“mortality.dta”工作文件給出了不同時期兒童死亡人數(shù)的調(diào)查數(shù)據(jù)。變量包括:cohort=分組變量(1代表出生于1941-1959年間,2代表出生于1960-1967年間,3代表出生于1968-1976年間), age_mos=死亡時的年齡(單位為月),deaths=死亡人數(shù), exposure=暴露于風(fēng)險的總年數(shù)(=兒童人數(shù)*相應(yīng)的年齡)。利用這些數(shù)據(jù),我們研究不同年代對兒童死亡率的影響。我們會進行泊松回歸及其擬合優(yōu)度檢驗,負二項回歸以及廣義負二項回歸。2021/3/915實驗操作指
7、導(dǎo)實驗操作指導(dǎo)1 泊松回歸及擬合優(yōu)度檢驗泊松回歸及擬合優(yōu)度檢驗因為我們要進行的回歸分析中,被解釋變量死亡人數(shù)是計數(shù)變量,因此,我們首先考慮進行泊松回歸。命令如下:gen logexp=ln(exposure)xi: poisson deaths i.cohort, offset(logexp)其中,第一步生成了一個新變量logexp,其值為變量exposure的自然對數(shù);第二步為泊松回歸。在第二步中,xi表示生成擴展交互項(interaction expansion),在這里,解釋變量cohort之前有前綴“i.”,即表示生成cohort的虛擬變量(因為分組變量cohort取值為1、2、3,所
8、以會生成3個虛擬變量)。也就是說,被解釋變量為deaths,解釋變量為虛擬變量_Icohort_1、_Icohort_2和_Icohort_3。為避免多重共線性,stata會自動刪掉一個虛擬變量。此外,選項offset(logexp)表明約束logexp的系數(shù)為1,這是因為我們要研究組別對死亡率的影響,而死亡人數(shù)除以暴露期才是死亡率。2021/3/916對上面的回歸進行擬合優(yōu)度檢驗:estat gof結(jié)果顯示,我們應(yīng)當(dāng)拒絕數(shù)據(jù)服從泊松回歸的原假設(shè)。2021/3/9172 負二項回歸負二項回歸對 “mortality.dta”的數(shù)據(jù)進行泊松回歸后,擬合優(yōu)度檢驗表明泊松回歸模型是不合適的。這樣,我
9、們考慮用負二項回歸模型。負二項回歸的基本命令格式為:nbreg depvar indepvar if in weight , nbreg_options其中,nbreg代表“負二項回歸”的基本命令語句,depvar代表被解釋變量的名稱,indepvar代表解釋變量的名稱,if代表條件語句,in代表范圍語句,weight代表權(quán)重語句,nbreg_options代表其他選項。2021/3/918下面,我們利用“mortality.dta”的數(shù)據(jù)進行負二項回歸,命令為:xi: nbreg deaths i.cohort, offset(logexp) nolog其中,被解釋變量為deaths,解釋變
10、量為cohort的虛擬變量,選項offset(logexp)約束logexp的系數(shù)為1,nolog表明不顯示迭代過程。2021/3/9193 廣義負二項回歸廣義負二項回歸廣義負二項回歸的命令與負二項回歸基本一致,為:gnbreg depvar indepvar if in weight , gnbreg_options其中,gnbreg代表“廣義負二項回歸”的基本命令語句,gnbreg_options代表其他選項。仍利用“mortality.dta”的數(shù)據(jù),我們假設(shè)死亡人數(shù)是年齡的函數(shù),而參數(shù)則是分組變量cohort的函數(shù)。為了擬合這個模型,我們鍵入以下命令:xi: gnbreg deaths
11、 age_mos, lnalpha(i.cohort) offset(logexp)該命令中,xi:是為了與i.cohort相呼應(yīng),生成cohort的虛擬變量。選項lnalpha(i.cohort) 表明,參數(shù)則是cohort的虛擬變量的函數(shù)。如果我們認為在cohort相鄰兩組間的差異是一樣的時候,可以直接使用cohort,而不必用其虛擬變量。2021/3/9204 模型的預(yù)測模型的預(yù)測負二項回歸和廣義負二項回歸的模型預(yù)測和泊松回歸的模型預(yù)測大致相同,只有幾個選項不一樣。預(yù)測的基本的命令格式如下:predict type newvar if in , statistic nooffset其中,
12、predict代表預(yù)測的基本命令語句,newvar代表生成的新變量的名稱,type代表新變量的類型,if代表條件語句,in代表范圍語句,statistic代表進行預(yù)測的統(tǒng)計量。nbreg和gnbreg可用的statistic選項包括n、ir、xb和stdp,對選項的解釋,也和poisson相同。2021/3/921下面,讓我們通過例子來加深對命令的理解。仍使用“mortality.dta”的數(shù)據(jù),我們先進行負二項回歸,然后預(yù)測,再考察預(yù)測值的描述統(tǒng)計量。命令為:quietly xi: nbreg deaths i.cohortpredict countsummarize deaths coun
13、t其中,第一步為進行負二項回歸,quietly表明不顯示該回歸的結(jié)果;第二步對被解釋變量進行預(yù)測,并將其命名為count;第三步將顯示被解釋變量deaths和預(yù)測變量count的描述統(tǒng)計量。下面,我們再進行scores的預(yù)測,并對預(yù)測結(jié)果進行描述。命令為:predict dscore1 dscore2, scoresdescribe deaths dscore1 dscore22021/3/922實驗實驗10-310-3:零膨脹回歸模型:零膨脹回歸模型實驗基本原理實驗基本原理當(dāng)計數(shù)數(shù)據(jù)中含有大量的“0”值時,可以考慮使用“零膨脹泊松回歸”(Zero-Inflated Poisson regre
14、ssion,簡記ZIP)或“零膨脹負二項回歸”(Zero-Inflated Negative Binomial regression,簡記ZINB)。對零膨脹回歸模型而言,估計是分兩階段進行的。首先,決定計數(shù)變量“取零”還是“取正整數(shù)”,這相當(dāng)于二值選擇。其次,如果決定“取正整數(shù)”,則進一步確定選擇哪個正整數(shù)。2021/3/923實驗內(nèi)容及數(shù)據(jù)來源實驗內(nèi)容及數(shù)據(jù)來源本書附帶光盤data文件夾的“fish.dta”工作文件給出了某一國家公園中游客捕魚情況的數(shù)據(jù),主要變量包括: count=各群游客捕獲的魚的條數(shù),persons=該群游客的數(shù)量,child=該群游客中兒童的數(shù)量,livebait=
15、是否使用活餌,camper=是否露營。利用這些數(shù)據(jù),我們研究各因素對游客捕魚條數(shù)的影響。考慮到被解釋變量count中有142個觀測值取值為0,我們使用零膨脹回歸模型來進行模型擬合。下面,利用“fish.dta”的數(shù)據(jù),我們來講解零膨脹泊松回歸、零膨脹負二項回歸的擬合和預(yù)測。2021/3/924實驗操作指導(dǎo)實驗操作指導(dǎo)1 零膨脹泊松回歸(零膨脹泊松回歸(ZIP)的操作)的操作2021/3/925對于“fish.dta”的數(shù)據(jù),我們認為,影響捕獲的魚的條數(shù)(count)的因素主要有該群游客有幾人(persons)以及是否使用活餌(livebait),而影響游客捕魚與否的因素則包括游客中有幾人是兒童
16、(child)以及是否露營(camper)。我們希望在回歸的過程中匯報Vuong統(tǒng)計量,這樣,該回歸的命令為:zip count persons livebait, inf(child camper) vuong2021/3/9262 零膨脹泊松回歸的預(yù)測零膨脹泊松回歸的預(yù)測2021/3/927對于本例,我們可以預(yù)測捕獲的魚的數(shù)量,并命名為pcount:predict pcount或預(yù)測捕魚數(shù)量為0的概率,并命名為prob:predict prob, pr 對于其他選項,道理相同,在此不再舉例。2021/3/9283 零膨脹負二項回歸(零膨脹負二項回歸(ZINB)的操作)的操作仍然利用“fis
17、h.dta”的數(shù)據(jù),我們來擬合零膨脹負二項回歸,并匯報Vuong統(tǒng)計量以及似然比檢驗。zinb count persons livebait, inf(child camper) vuong zip這里,被解釋變量為count,解釋變量為persons和livebait,決定是否捕魚的變量為child和camper。2021/3/929習(xí)題習(xí)題1.利用本書附帶光盤data文件夾下“poissonreg.dta”工作文件對決定初中生曠課天數(shù)的因素進行分析。主要變量包括: id=學(xué)生的編號,school=學(xué)校,male=是否男生,math=數(shù)學(xué)課成績,langarts=語言藝術(shù)課成績,daysatt=在校天數(shù),daysabs=曠課天數(shù)。以daysabs為被解釋變量,以male和langarts為解釋變量,進行泊松回歸模型的擬合。下圖列出了數(shù)據(jù)的基本情況。2021/3/9302.在習(xí)題1的回歸之后,對曠課天數(shù)進行預(yù)測,并比較使用不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度化妝品產(chǎn)品代言合同協(xié)議4篇
- 2025年度臨時餐飲場地租賃服務(wù)協(xié)議8篇
- 二零二五年度水電設(shè)施智能化改造合同3篇
- 二零二五版餐飲企業(yè)廚師招聘與人才輸送協(xié)議3篇
- 二零二四事業(yè)單位員工試用期人才引進與培養(yǎng)合作協(xié)議3篇
- 2024石材荒料購銷及石材產(chǎn)品安全檢測服務(wù)合同3篇
- 2024蔬菜種植與農(nóng)產(chǎn)品加工企業(yè)銷售合作協(xié)議范本3篇
- 2024進出口食品貿(mào)易合同
- 二零二五版合同法擔(dān)保條款設(shè)計-企業(yè)風(fēng)險控制策略3篇
- 二零二五年度在線教育平臺股權(quán)收購合同3篇
- GB/T 37238-2018篡改(污損)文件鑒定技術(shù)規(guī)范
- 普通高中地理課程標準簡介(湘教版)
- 河道治理工程監(jiān)理通知單、回復(fù)單范本
- 超分子化學(xué)簡介課件
- 高二下學(xué)期英語閱讀提升練習(xí)(一)
- 易制爆化學(xué)品合法用途說明
- 【PPT】壓力性損傷預(yù)防敷料選擇和剪裁技巧
- 大氣喜慶迎新元旦晚會PPT背景
- DB13(J)∕T 242-2019 鋼絲網(wǎng)架復(fù)合保溫板應(yīng)用技術(shù)規(guī)程
- 心電圖中的pan-tompkins算法介紹
- 羊絨性能對織物起球的影響
評論
0/150
提交評論