統(tǒng)計學:Logistic回歸分析_第1頁
統(tǒng)計學:Logistic回歸分析_第2頁
統(tǒng)計學:Logistic回歸分析_第3頁
統(tǒng)計學:Logistic回歸分析_第4頁
統(tǒng)計學:Logistic回歸分析_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Logistic回歸模型要求:1.掌握Logistic回歸模型主要指標的統(tǒng)計意義2.理解偏相關(guān)系數(shù)的統(tǒng)計意義3.理解Logistic回歸模型建模的SAS程序和SPSS操作過程第一節(jié)Logistic回歸模型的基本概念

在醫(yī)學研究中經(jīng)常遇到應(yīng)變量為互斥的二項分類資料,如:治愈與未愈、生存與死亡、發(fā)病與未發(fā)病等。同時有許多自變量(外部環(huán)境或條件)可能對結(jié)果(應(yīng)變量)產(chǎn)生影響。在醫(yī)學中(尤其在流行病學方面)解決這一問題是不能使用線性回歸分析方法。這是因為:①線性回歸中要求分析的應(yīng)變量指標的取值是服從正態(tài)分布的隨機變量,而對于觀察結(jié)果為分類資料,尤其是只有兩個對立結(jié)果的分布通常是二項分布;②如果勉強使用線性回歸的方法進行分析,即以此結(jié)果為應(yīng)變量Y,其它的觀察結(jié)果為自變量X,那么回歸方程沒有多大實際意義。二項分布與Logistic回歸

對于二項分布來講,很明顯這時結(jié)果變量的取值0或1應(yīng)該是這個觀察發(fā)生的可能與否,即它表示在一定條件下觀察事件發(fā)生的可能性,是一個概率性的結(jié)果,所以相應(yīng)的概率值范圍應(yīng)限制在0~1之間。從上世紀70年代開始,Logistic回歸逐漸發(fā)展起來,從理論和方法上較好地解決了這一問題,尤其在病因?qū)W研究方面有其獨到見解。Logistic回歸模型的分類按反應(yīng)變量的類型分:1.兩分類的Logistic回歸模型2.多分類有序反應(yīng)變量的Logistic回歸模型3.多分類無序反應(yīng)變量的Logistic回歸模型式按設(shè)計類型分:1.非條件Logistic回歸模型,研究對象未經(jīng)過配對的成組資料2.條件Logistic回歸模型,研究對象為1︰1或1︰m配對資料一、Logistic回歸分析的實例例19-1

在搶救急性心肌梗死(AMI)患者能否成功的危險因素調(diào)查中,某醫(yī)院收集了5年中該院所有的AMI患者的搶救病史共200例。在搶救前:X1=1表示已發(fā)生休克,X1=0表示未發(fā)生休克;X2=1表示發(fā)生心衰,X2=0表示未發(fā)生心衰;X3=1表示12小時內(nèi)將患者送往醫(yī)院,X3=0表示12小時內(nèi)未將患者送往醫(yī)院;詳細資料如下:y=0表示搶救成功y=1表示未搶救成功X1X2X3nX1X2X3n00035000400134001100101701040111901115100171006101610191106110611161116二、資料一般形式和模型結(jié)構(gòu)1.資料形式例號分析變量觀察結(jié)果yX1X2…Xk陽性1陰性01…………02…………03…………1……………0n…………12.模型結(jié)構(gòu)

研究中設(shè)效應(yīng)指標y=1為發(fā)生,y=0為不發(fā)生(對某一疾病而言,相當于發(fā)病與不發(fā)?。?,現(xiàn)觀察k個指標(這些指標一般稱為危險因素),記為X=(X1,X2,…Xk),當效應(yīng)值y=1時和y=0的概率(模型)分別為:(P+Q=1)模型參數(shù)解釋在n例觀察對象中,第i名觀察對象在Xi1,Xi2,…Xip作用下,應(yīng)變量yi=0的可能性Qi為:應(yīng)變量yi=1的可能性Pi為:第二節(jié)Logistic回歸模型的參數(shù)估計和假設(shè)檢驗一、參數(shù)意義(釋義同于病例-對照設(shè)計研究)二、參數(shù)估計

由于Logistic回歸是一種概率模型,通常采用最大似然估計法(maximumlikelihoodestimate)求解模型中的參數(shù)βj的估計值bj(j=0,1,2,….k)。方法是:***例19-1的Logistic回歸SAS程序***DATAa;INPUTyx1x2x3

freq@@;CARDS;000035100040001341001100010171010400111910111501001711006010161101901106111060111611116;PROClogisticdescending;FREQcount;MODELy=x1x2x3;RUN;例19-1資料的參數(shù)估計變量名參數(shù)估計βk

標準誤SE(βk

)Waldχ2

值P標準化參數(shù)估計值β'kOR常數(shù)項-2.08580.351335.2640.0001X11.10980.348510.14190.00140.28373.034X20.70280.32924.55860.03280.18992.019X30.97510.34408.03620.00460.26912.651

由于各變量指標單位不同,不能用βj的大小比較各xi的作用大小,而須用標準化偏回歸系數(shù)β’j

來比較。結(jié)果解釋3個βi的估計值都是正數(shù),表明這三個因素都是危險因素且都有統(tǒng)計學意義。從優(yōu)勢比OR上可以看出,在因素x2和x3固定不變時,因素x1每增加一個等級所引起的優(yōu)勢比為增加前的3.034倍;在因素X1和X3固定不變時,因素x2每增加一個等級所引起的優(yōu)勢比為增加前的2.019倍。在因素x1和x2固定不變時,因素x3每增加一個等級所引起的優(yōu)勢比為增加前的2.651倍。同時在考察因素相對貢獻大小時,從標準系數(shù)看,β'1>β'

3>β'2,故x1的相對貢獻比x2和x3大。個例預測

設(shè)某AMI患者在癥狀5小時內(nèi)送到醫(yī)院(x3=0),未發(fā)生休克(x1=0),已有心衰(x2=1),求搶救成功的概率。三、回歸模型的假設(shè)和回歸系數(shù)的區(qū)間估計1.回歸模型的假設(shè)檢驗H0:β=0(模型中不含變量)H1:β≠0(模型中含變量)統(tǒng)計量:G=-

2lnL-

(-2lnL')~χ2(k)

在例19-1中的SAS結(jié)果中:ModelFitStatisticsCriterionInterceptOnlyInterceptandCovariatesPr>ChiSqAIC246.346230.616SC249.644243.809

-2LogL244.346222.616 <0.0001G=-

2lnL-

(-

2lnL')=244.346-222.616=21.73,k=3,P=0.00007拒絕H0說明模型變量有統(tǒng)計學意義。2.回歸系數(shù)的假設(shè)檢驗(Wald法)H0:βj=0;H1:βj≠0

在例19-1中的SAS結(jié)果中:變量名參數(shù)估計βk

標準誤SE(βk

)Waldχ2

值P常數(shù)項-2.08580.351335.2640.0001X11.10980.348510.14190.0014X20.70280.32924.55860.0328X30.97510.34408.03620.00463.優(yōu)勢比OR和β的區(qū)間估計

在例19-1中的SAS結(jié)果中:變量名參數(shù)估計βk

標準誤SE(βk

)ORkOR的95%CIβ的95%CIX11.10980.34853.0341.5326.0060.4271.793X20.70280.32922.0191.0593.8500.0571.348X30.97510.34402.6511.3515.2030.3041.649例19-2

研究食管癌與飲酒的關(guān)系,年齡可能是混雜因素。將飲酒按年齡分解成4個四格表,用Logistic回歸校正混雜因素。B年齡組合計25~4445~5455~6465+病例對照病例對照病例對照病例對照病例對照飲酒53525294227241896109不飲酒5270211383413944119104666Logistic回歸模型變量名參數(shù)估計βk

標準誤SE(βk

)Waldχ2

值POR常數(shù)項-3.8320.334131.6770.0001A11.9720.37128.3300.00017.184A22.4870.35848.2970.000112.027A32.7410.36357.0930.000115.051B1.6800.18978.7980.00015.367表中顯示,各年齡組的OR=7.184、12.027、15.051,是不同年齡組(水平)與25~44歲組的優(yōu)勢比。有序變量的Logistic回歸模型變量名參數(shù)估計βk

標準誤SE(βk

)Waldχ2

值POR常數(shù)項-3.7920.277185.7820.0001A0.7290.08672.0780.00012.073B1.7750.18889.5070.00015.899第三節(jié)條件Logistic回歸模型

條件Logistic回歸(conditionallogisticregression)是針對匹配資料分析的一種方法。在匹配設(shè)計的病例—對研究照中,為了控制一些重要的混雜因素,常把病例和對照按照年齡、性別等條件進行匹配,形成多個匹配組。從原理上講各匹配組的病例數(shù)和對照組人數(shù)是任意的,最常見的是每組中一個病例和若干個對照,即1︰M配對研究。每一匹配組內(nèi)的病例與對照是可比的,組間病例與對照組無可比性。因此需要按組內(nèi)對象的暴露狀況和發(fā)病情況建立Logistic回歸模型。設(shè)有n個匹配組,每一組的第一個觀察對象為病例,另有M個觀察對象為對照,用Xitj表示第i組第t個觀察對象的第j個危險因素的觀察值,資料形式為:(見表)1︰M條件Logstic回歸數(shù)據(jù)的格式匹配組號組內(nèi)編號應(yīng)變量危險因素ityX1X2…Xk101X101X102…X10k10X111X112…X11k20X121X122…X12k…………………M0X1M1X1M2…X1Mk01X201X202…X20k210X211X212…X21k20X221X222…X22k………………M0X2M1X2M2…X2Mk…………………一個自變量的1︰1配對條件概率設(shè):只有一個自變量X,假定個體得病的概率與exp(β0+βX)成正比,A為病例,B為對照;Y=1表示得病,Y=0表示未得病。一對病例和對照中只有1人得病的條件下恰好是A得病的概率為:k個自變量的1︰1配對條件概率設(shè):假定有k個自變量X1,X2,…,Xk。一對病例和對照中只有1人得病的條件下恰好是A得病的概率為:1︰1配對Logstic回歸模型例19-3

某市調(diào)查食管癌發(fā)病率與咸魚攝入的關(guān)系,設(shè)計時采用1︰1配對病例對照形式,按每一個病例的性別、年齡和居住地選取一個健康對照。調(diào)查的咸魚攝入量分三個水平:1表示“<1次/月”,2表示“>1次/月”,3表示“>1次/周”。共調(diào)查200對例病例與對照,資料如下:病例暴露水平對照暴露水平合計(對)12311258313622171293264535合計172199200***例19-3的條件Logistic回歸SAS程序及結(jié)果***1.編寫程序見程序2.SAS結(jié)果變量名參數(shù)估計bk

標準誤Waldχ2

值ORX1.0580.23819.7432.881x10.9460.3935.8112.576x22.2010.54616.2499.033用x表示咸魚攝入頻率,用兩個0-1假變量x1,x2表示咸魚攝入頻率的三個等級:(x1,x2)=(0,0)表示每月攝入少于1次;(1,0)表示每月1次以上;(0,1)表示每周1次以上。例19-3的SAS程序DATAmatch;INPUTnoidx@@;x1=0;x2=0;IFx=2

THENx1=1;IFx=3

THENx2=1;CARDS;1 1 1 1 0 12 1 1 2 0 13 1 1 3 0 14 1 1 4 0 1…. … … … …92 1 1 92 0 193 1 1 93 0 1199 1 3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論