Logistic回歸模型1PPT_第1頁
Logistic回歸模型1PPT_第2頁
Logistic回歸模型1PPT_第3頁
Logistic回歸模型1PPT_第4頁
Logistic回歸模型1PPT_第5頁
已閱讀5頁,還剩119頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、2021/8/2512021/8/252 Logistic 回歸模型回歸模型 主講:黃志碧主講:黃志碧 2021/8/253 回歸分析概述回歸分析概述 1、根據(jù)自變量多少分、根據(jù)自變量多少分 (1)簡單回歸(一個自變量)簡單回歸(一個自變量) (2)多元回歸(多個自變量)多元回歸(多個自變量) 2、根據(jù)、根據(jù)Y的取值分的取值分 (1)確定型回歸(多元線性回歸)確定型回歸(多元線性回歸) (2)概率型回歸()概率型回歸(Logistic回歸)回歸) 3、根據(jù)回歸圖形分、根據(jù)回歸圖形分 線性回歸(多元線性回歸)線性回歸(多元線性回歸) 非線性回歸(非線性回歸(Logistic回歸)回歸)2021/

2、8/254mmXXXY 22110多元線性回歸模型多元線性回歸模型 描述Y 與 X1, X2Xm之間的線性關系。 Y:連續(xù)變量,呈正態(tài)分布。 最小二乘法求1, 2 m2021/8/255 Logistic Logistic 回歸模型回歸模型)exp()exp()|(XXxyP 0011)exp(11)|0(0XxyQ 2021/8/256 Logistic Logistic回歸模型概述回歸模型概述 LogisticLogistic回歸模型是一種回歸模型是一種概率模型概率模型,它是以某,它是以某一事件發(fā)生與否的概率一事件發(fā)生與否的概率P P為因變量,以影響為因變量,以影響P P的的因素為自變量建

3、立的回歸模型,分析某事件發(fā)因素為自變量建立的回歸模型,分析某事件發(fā)生的概率與自變量之間的關系,是一種非線性生的概率與自變量之間的關系,是一種非線性回歸模型。回歸模型。2021/8/257 Logistic回歸模型適用的資料:回歸模型適用的資料: Logistic 回歸模型用于因變量回歸模型用于因變量Y為分類的資料,為分類的資料,二項或多項分類的資料,二項或多項分類的資料,Y也可以是計量資料,但也可以是計量資料,但主要用于主要用于 Y為二項分類的資料為二項分類的資料(0,1資料資料)。 2021/8/258注意:注意: Y為二項分類的資料不宜用線性回歸模型為二項分類的資料不宜用線性回歸模型來進行

4、分析,原因是:來進行分析,原因是: (1) 由于由于Y的取值僅為的取值僅為0或或1,不符合正態(tài)分布和方,不符合正態(tài)分布和方差齊性的假設;差齊性的假設; (2) 用線性回歸建立的方程來預報二分類資料,用線性回歸建立的方程來預報二分類資料,會使會使Y的預報值超出的預報值超出0,1之外,給結果解釋帶來困之外,給結果解釋帶來困難。難。2021/8/259 Logistic回歸模型的應用回歸模型的應用LogisticLogistic回歸模型在流行病學、臨床醫(yī)學研究中有回歸模型在流行病學、臨床醫(yī)學研究中有廣泛應用。只要事件的結局能表達為廣泛應用。只要事件的結局能表達為發(fā)生或不發(fā)生發(fā)生或不發(fā)生兩項分類的資料

5、,一般都能用該模型進行分析。兩項分類的資料,一般都能用該模型進行分析。 常用于病因分析、預后因素分析、鑒別診斷、評常用于病因分析、預后因素分析、鑒別診斷、評價治療措施的好壞等等。價治療措施的好壞等等。 如:非傳染性疾病的病因研究資料;影響治療如:非傳染性疾病的病因研究資料;影響治療效果的因素;影響惡性腫瘤復發(fā)或遠處轉移的因素;效果的因素;影響惡性腫瘤復發(fā)或遠處轉移的因素;藥物劑量與動物死亡的關系,等等。藥物劑量與動物死亡的關系,等等。2021/8/2510 病因研究的方法病因研究的方法 隊列研究:隊列研究: 按是否暴露于某因素或不同的暴露水平分組,按是否暴露于某因素或不同的暴露水平分組,觀察各

6、組的發(fā)病或死亡情況。可以直接計算相對觀察各組的發(fā)病或死亡情況??梢灾苯佑嬎阆鄬ξkU度(危險度(RRRR),說明暴露因素與發(fā)病或死亡的聯(lián)),說明暴露因素與發(fā)病或死亡的聯(lián)系強度。系強度。 病例對照研究:病例對照研究: 選某病患者做為病例組,以健康人或非該病患選某病患者做為病例組,以健康人或非該病患者做為對照組,收集某些因素暴露的情況。者做為對照組,收集某些因素暴露的情況。2021/8/2511 病例對照研究類型病例對照研究類型 成組的病例對照研究成組的病例對照研究 配比的病例對照研究配比的病例對照研究 (1 1:1 1 , 1 1:2 2 ,1 1:3 3,1 1:4 4) 計算優(yōu)勢比(計算優(yōu)勢比

7、(Odds ratio, OR) Odds ratio, OR) ,說明危險因素,說明危險因素與疾病或死亡聯(lián)系的強度。與疾病或死亡聯(lián)系的強度。 優(yōu)勢優(yōu)勢(Odds):(Odds):指暴露組或非暴露組發(fā)?。ɑ蛩劳觯┲副┞督M或非暴露組發(fā)病(或死亡)的概率的概率P P與未發(fā)病的概率(與未發(fā)病的概率(1 1P)P)之比:之比:P/(1-P)P/(1-P),稱為優(yōu)勢稱為優(yōu)勢(Odds)(Odds)。2021/8/2512 病因研究資料分析方法病因研究資料分析方法 單因素分析:單因素分析:傳統(tǒng)的經(jīng)典的分析方法;傳統(tǒng)的經(jīng)典的分析方法; 受混雜因素的影響較大,可在設計時控制,或進受混雜因素的影響較大,可在設計

8、時控制,或進 行分層分析。如分層較多,需要的樣本含量較大,行分層分析。如分層較多,需要的樣本含量較大,有時難以做到。有時難以做到。 多因素分析:多因素分析:logistic回歸模型進行分析?;貧w模型進行分析。2021/8/2513 Logistic回歸模型可分為回歸模型可分為 1、條件、條件Logistic 回歸模型回歸模型 2、非條件、非條件Logistic回歸模型?;貧w模型。前者適合于配對或配伍設計資料;后者適合于成前者適合于配對或配伍設計資料;后者適合于成組設計資料。組設計資料。 因變量可以是:兩項分類、無序多項分類、有序因變量可以是:兩項分類、無序多項分類、有序多項分類等。多項分類等。

9、2021/8/2514 第一節(jié)第一節(jié) 多元多元 logistic 回歸模型基本概念回歸模型基本概念 2021/8/2515 一、模型結構一、模型結構(一一)、 logistic分布函數(shù)分布函數(shù) y y的取值在的取值在之間,函數(shù)值之間,函數(shù)值F(y) F(y) 在在0 01 1之間取值,且呈單調(diào)上升的之間取值,且呈單調(diào)上升的S S型曲線。可以將這型曲線??梢詫⑦@一特征運用到流行病學和臨床醫(yī)學中描述事件發(fā)一特征運用到流行病學和臨床醫(yī)學中描述事件發(fā)生的概率與影響因素的關系生的概率與影響因素的關系。yyeeyF1)(2021/8/25162021/8/2517(二)(二) logisticlogist

10、ic回歸模型回歸模型 利用利用logisticlogistic分布函數(shù)的特征來表示在自變量分布函數(shù)的特征來表示在自變量X X的作用下出現(xiàn)陽性結果或陰性性結果的概率。的作用下出現(xiàn)陽性結果或陰性性結果的概率。 出現(xiàn)陽性結果的概率記為:出現(xiàn)陽性結果的概率記為: P( y=1|x)P( y=1|x), 出現(xiàn)陰性結果的概率為出現(xiàn)陰性結果的概率為: : Q( y=0|x),Q( y=0|x), 注意:注意:P+Q=1P+Q=1。 2021/8/2518)exp()exp()|(XXxyP 0011)exp(11)|0(0XxyQ 當只有一個自變量時,當只有一個自變量時,logistic回歸模型:回歸模型:

11、 式中,式中, 為回歸線的截距,為回歸線的截距, 是與是與X有關的有關的參數(shù),也稱回歸系數(shù)。參數(shù),也稱回歸系數(shù)。0 (1)(2)2021/8/2519)exp()|0()|1(0XxyQxyP (3)2021/8/2520 當有多個當有多個X時,時, logistic回歸模型:回歸模型:).exp(1).exp()|1(2211022110ppppxxxxxxxyP ).exp(11)|0(22110ppxxxxyQ (4)(5)式中,式中, 為截距,為截距, (j=1,2,p), 稱偏回歸系稱偏回歸系數(shù)。數(shù)。0 j 2021/8/2521).exp()|0()|1(22110ppxxxxyQ

12、xyP (6)式式(1) 或或 式式(4)稱為稱為logistic回歸模型?;貧w模型。).exp(1).exp()|1(2211022110ppppxxxxxxxyP )exp()exp()|(XXxyP 00112021/8/2522(三)(三) logit變換:變換: 將將S型曲線轉化為直線型曲線轉化為直線 xQP 0)/ln(ppxxxQP .)/ln(22110(7)(8))exp()|0()|1(0XxyQxyP ).exp()|0()|1(22110ppxxxxyQxyP (3)(6)對式對式(3)和式和式(6) 兩邊取自然對數(shù)得:兩邊取自然對數(shù)得:2021/8/2523)/ln(

13、logit(P)QP記xPit0)(logppxxxPit .)(log22110 這就是線性回歸方程。這就是線性回歸方程。說明:說明:(1) ln( P/Q)(1) ln( P/Q)稱為稱為 logitlogit(P P)變換;)變換; (2) P/Q(2) P/Q稱為事件的優(yōu)勢,在流行病學中稱稱為事件的優(yōu)勢,在流行病學中稱為比值為比值(odds)(odds)。因此,優(yōu)勢的對數(shù)值與影響因素之間呈線性關系。因此,優(yōu)勢的對數(shù)值與影響因素之間呈線性關系。2021/8/2524(四)(四) 優(yōu)勢比優(yōu)勢比(odds ratio), 簡記簡記OR暴露組的優(yōu)勢(比值)與非暴露組的優(yōu)勢(比值)暴露組的優(yōu)勢(

14、比值)與非暴露組的優(yōu)勢(比值)之比,稱優(yōu)勢比(比值比)(之比,稱優(yōu)勢比(比值比)(OR)。)。OR用于說用于說明暴露某因素引起疾病或死亡的危險度大小。明暴露某因素引起疾病或死亡的危險度大小。)0(1/)0()1(1/)1(PPPPOR (9)2021/8/2525)0(log)1 (log)0(1/)0()1 (1/) 1 (ln()ln(PitPitPPPPOR對式(對式(9 9)兩邊取自然對數(shù)得:)兩邊取自然對數(shù)得:(10) P(1)X取取1時,為暴露組時,為暴露組 ; P(0)X取取0時,為非暴露組。時,為非暴露組。)ln(OR xPit0)(log)0() 1()0(log)1 (lo

15、g)ln(00PitPitOReOR 2021/8/2526由上式可見,由上式可見, 的意義是:在其他自變量固定不的意義是:在其他自變量固定不變的情況下,自變量的暴露水平每改變一個測量變的情況下,自變量的暴露水平每改變一個測量單位所引起的優(yōu)勢比(單位所引起的優(yōu)勢比(OROR)自然對數(shù)的改變量,)自然對數(shù)的改變量,或引起優(yōu)勢比為增加前的或引起優(yōu)勢比為增加前的exp( )exp( )倍。倍。 (五)(五) 的統(tǒng)計學意義的統(tǒng)計學意義 )ln(OR eOR)exp(2021/8/2527 與優(yōu)勢比與優(yōu)勢比OR有密切關系,同時與暴露有密切關系,同時與暴露因素(自變量)的取值有密切關系。因素(自變量)的取

16、值有密切關系。 1、若、若 為正值,為正值, 增加使增加使OR增大,增大, 是是危險因素;危險因素; 若若 為負值,為負值, 增加使增加使OR減少,減少, 是保護是保護因素。因素。 2、當暴露因素、當暴露因素X為二水平時(為二水平時(X取取0,1),),logistic 回歸模型中回歸模型中X的系數(shù)的系數(shù) 就是暴露與就是暴露與非暴露優(yōu)勢比的對數(shù)值。非暴露優(yōu)勢比的對數(shù)值。j jxjxj jxjxj j 2021/8/2528 如果暴露時如果暴露時X=a ,非暴露時非暴露時X=b , 則:則:)()()(loglog)/()/(ln()ln(babaitPitPPPPPOR 01001111此時,

17、此時, 不能直接解釋為優(yōu)勢比的對數(shù)值,不能直接解釋為優(yōu)勢比的對數(shù)值,因為此時因為此時X改變改變“一個單位一個單位”沒有實際意義。沒有實際意義。比如:年齡從比如:年齡從50歲變到歲變到51歲。歲。 2021/8/25293、當、當X為等級變量時(為等級變量時(0、1、2.),以最小,以最小或最大等級為參照組,或最大等級為參照組,exp( )為增加一個等為增加一個等級時的優(yōu)勢比,級時的優(yōu)勢比, exp( k )為增加為增加K個等級時個等級時的優(yōu)勢比。的優(yōu)勢比。4、如果、如果X為連續(xù)性變量,如年齡,則將為連續(xù)性變量,如年齡,則將X分分段或變?yōu)榈燃壻Y料再分析。如段或變?yōu)榈燃壻Y料再分析。如6064歲的人

18、歲的人比比5559歲的人,有多大的可能性患冠心病,歲的人,有多大的可能性患冠心病,OR為為exp(5 )。 2021/8/25305、當、當X為多項分類變量時,用為多項分類變量時,用1、2、3.k表表示示k個不同的分類,分析時轉為個不同的分類,分析時轉為k-1個指示變個指示變量或啞變量。每個指示變量都是二分類變量,量或啞變量。每個指示變量都是二分類變量,都有自己的系數(shù)。如血型、民族、職業(yè)、工都有自己的系數(shù)。如血型、民族、職業(yè)、工種等。種等。 如血型變量如血型變量X:A、B、AB、O,用,用1、2、3、4分別表示。此時分別表示。此時X僅為分類變量,不是僅為分類變量,不是等級變量。等級變量。202

19、1/8/2531 分析時,用分析時,用D1、 D2、D3 表示血型表示血型 x=1時:時:D1=1, D2=0,D3=0 A血型;血型; x=2時:時:D1=0, D2=1,D3=0 B血型;血型; x=3時:時:D1=0, D2=0,D3=1 AB血型;血型; x=4時:時:D1=0, D2=0,D3=0 O血型;血型;分析時,將分析時,將D1、 D2、D3放入放入logistic回歸模回歸模型同時分析,得型同時分析,得3個參數(shù):個參數(shù): 。 表示表示A與與O的優(yōu)勢比;的優(yōu)勢比; 表示表示B與與O的優(yōu)的優(yōu)勢比;勢比; 表示表示AB與與O的優(yōu)勢比。的優(yōu)勢比。2 3 1 321 、2021/8/

20、2532 (六)標準回歸系數(shù)(六)標準回歸系數(shù) 用于比較各個自變量對模型貢獻大小。用于比較各個自變量對模型貢獻大小。iiiiiiiSbSbSSbb5513. 03/ib 為標準回歸系數(shù),為標準回歸系數(shù),bi為第為第i個自變量的回歸系個自變量的回歸系數(shù),數(shù),Si為第為第i個自變量的標準差,個自變量的標準差,S為為Y的標準差。的標準差。 的絕對值越大,則該自變量對的絕對值越大,則該自變量對模型貢獻越大。模型貢獻越大。ib2021/8/2533 二、二、logistic回歸模型的參數(shù)估計與假設檢驗回歸模型的參數(shù)估計與假設檢驗 (一)(一)logistic回歸模型的建立回歸模型的建立 Logistic

21、Logistic回歸分析的過程,就是要根據(jù)樣本資回歸分析的過程,就是要根據(jù)樣本資料,求出各自變量的回歸系數(shù)料,求出各自變量的回歸系數(shù) 。由于。由于logisticlogistic回歸是一種概率模型,通常用最大似然法回歸是一種概率模型,通常用最大似然法(maximun likelihood,MLmaximun likelihood,ML)求回歸系數(shù)的估計值)求回歸系數(shù)的估計值 (i=1,2,3,p)(i=1,2,3,p)。 ii2021/8/2534 (二)(二) logistic回歸模型的假設檢驗回歸模型的假設檢驗 1、回歸系數(shù)的假設檢驗、回歸系數(shù)的假設檢驗 求得回歸系數(shù)后,還要對回歸系數(shù)進行

22、檢驗,求得回歸系數(shù)后,還要對回歸系數(shù)進行檢驗,目的是檢驗總體回歸系數(shù)目的是檢驗總體回歸系數(shù)是否為零。檢驗方法有:是否為零。檢驗方法有: 1)、似然比檢驗()、似然比檢驗(likelihiood ratio test) (1) 檢驗引入的變量對模型有無貢獻; (2)對模型回歸系數(shù)進行整體檢驗。2021/8/2535似然比檢驗(似然比檢驗(likelihiood ratio test): L 為方程中包含為方程中包含m(mP)個自變量的對數(shù))個自變量的對數(shù)似然函數(shù)值;似然函數(shù)值; 為增加一個自變量為增加一個自變量 Xi 后后的對數(shù)似然函數(shù)值。的對數(shù)似然函數(shù)值。G 服從自由度為服從自由度為1的的 X

23、2 分布。若分布。若 , 則可以認為在則可以認為在檢驗檢驗水準下水準下有統(tǒng)計學意義,有統(tǒng)計學意義, Xi可以引入方程,否則不能可以引入方程,否則不能引入方程。引入方程。L LLLLGlnln)/ln( 2221, xL 2021/8/25362)、Wald檢驗檢驗 3)、計分檢驗()、計分檢驗(score test)。)。 似然比檢驗最可靠,似然比檢驗最可靠, Wald檢驗和計分檢驗檢驗和計分檢驗一致。一致。Wald檢驗未考慮因素的綜合作用,當檢驗未考慮因素的綜合作用,當因素間存在共線性時,所得結果不可靠。因素間存在共線性時,所得結果不可靠。)( SEz0 2021/8/25372、logis

24、tic回歸模型的擬合優(yōu)度檢驗回歸模型的擬合優(yōu)度檢驗 檢驗檢驗logisticlogistic回歸模型預測的理論頻數(shù)分布回歸模型預測的理論頻數(shù)分布是否符合實際的理論頻數(shù)分布。是否符合實際的理論頻數(shù)分布。 常用的方法:常用的方法: (1)偏差檢驗()偏差檢驗(Deviation test) (2)Pearson 檢驗檢驗 (3)Hosmer-Lemesshow 檢驗。檢驗。 2021/8/2538 偏差檢驗、偏差檢驗、Pearson Pearson 檢驗的效果相近,其對樣檢驗的效果相近,其對樣本含量和理論頻數(shù)要求比較嚴格。本含量和理論頻數(shù)要求比較嚴格。 Hosmer-Lemesshow Hosme

25、r-Lemesshow 檢驗用于兩分類應變量檢驗用于兩分類應變量的的LogisticLogistic回歸分析,當樣本含量大,自變量回歸分析,當樣本含量大,自變量數(shù)目多,且有連續(xù)型變量引入模型時,檢驗效數(shù)目多,且有連續(xù)型變量引入模型時,檢驗效果好。果好。 模型擬合優(yōu)度檢驗模型擬合優(yōu)度檢驗: H: H0 0設實際頻數(shù)分布和理設實際頻數(shù)分布和理論頻數(shù)分布相符合,即模型的擬合優(yōu)度較好。論頻數(shù)分布相符合,即模型的擬合優(yōu)度較好。2021/8/2539 第二節(jié)第二節(jié) 二項分類變量資料二項分類變量資料 非條件非條件logistic logistic 回歸回歸2021/8/2540 二項分類反應變量是最常見的變

26、量類型,二項分類反應變量是最常見的變量類型,又稱又稱0、1變量??捎糜诓±兞?。可用于病例-對照研究,隊列對照研究,隊列研究和橫斷面研究,其中成組設計的非條件研究和橫斷面研究,其中成組設計的非條件Logistic回歸最常見。回歸最常見。2021/8/2541例15-1:評價新舊兩種降糖藥的治療效果。2021/8/2542 變量的賦值方法 因素 變量名 賦值方法 研究中心 X1 甲醫(yī)院 1, 乙醫(yī)院 2 降糖藥 X2 新藥 1 , 舊藥2 治療效果 Y 有效 1 , 無效 02021/8/2543 SPSS 數(shù)據(jù)文件建構數(shù)據(jù)文件建構2021/8/2544 數(shù)據(jù)錄入2021/8/2545不同醫(yī)院用

27、新舊兩種藥物治療的效果不同醫(yī)院用新舊兩種藥物治療的效果.367.3131.3741.2411.443.7812.6661.729.32029.1191.0005.6363.00810.562-.413.2532.6591.103.662研究中心降糖藥常數(shù)項Step1aBS.E.WalddfSig.Exp(B)LowerUpper95.0% C.I.for EXP(B)Variable(s) entered on step 1: x1, x2.a. 新舊兩種降糖藥效果不同,新藥療效是舊藥新舊兩種降糖藥效果不同,新藥療效是舊藥的的5.636倍。不同醫(yī)院療效無差異。倍。不同醫(yī)院療效無差異。Hosme

28、r and Lemeshow TestHosmer and Lemeshow Test.5192.772Step1Chi-squaredfSig.對模型的檢驗:對模型的檢驗:X2=0.519,P=0.772。說明模型擬合。說明模型擬合效果好。效果好。2021/8/2546例1:(成組的病例對照研究) 賦值方法: 對象: 病人 1 , 對照 0 雌激素:用過 1 , 未用過 02021/8/2547708931281916455111011.)()( bcadPPPPOR5516. 60964. 21641191128155196. 1exp7089. 3)1111exp(dcbauOROR95

29、可信區(qū)間:2021/8/2548用logistic回歸模型分析: 2021/8/25492021/8/2550子子 宮宮 內(nèi)內(nèi) 膜膜 癌癌 與與 雌雌 激激 素素 關關 系系 l lo og gi is st ti ic c 回回 歸歸 分分 析析 結結 果果1.311.29120.2781.0003.7092.0966.562-.248.1184.4161.036.780 xConstantStep1aBS.E.WalddfSig.Exp(B)LowerUpper95.0% C.I.for EXP(B)Variable(s) entered on step 1: x.a. 回歸系數(shù):回歸系數(shù)

30、:b=1.311回歸系數(shù)標準誤:回歸系數(shù)標準誤:S.E.=0.291回歸系數(shù)檢驗:回歸系數(shù)檢驗:Wald=20.278, P=0.000OR: Exp(B)=3.709總體回歸系數(shù)總體回歸系數(shù)95%CI:2.0966.562 (說明總體回歸系說明總體回歸系數(shù)不為數(shù)不為0) 2021/8/2551因為b=1.311,服用雌激素取值為1,故雌激素是子宮內(nèi)膜癌的危險因素。 服用雌激素者患子宮內(nèi)膜癌的危險性是不服用者的3.709倍。2021/8/2552例2:婦女吸煙和使用避孕藥與血栓形成的關系。2021/8/2553 變量賦值的方法 因素 變量 賦值方法是否吸煙 X1 吸煙 1 , 不吸煙 0 是否

31、用避孕藥 X2 服用1 , 不用 0 對象 Y 血栓病人 1 , 對照 02021/8/2554 數(shù)據(jù)文件結構數(shù)據(jù)文件結構2021/8/2555 數(shù)據(jù)錄入2021/8/2556婦婦女女吸吸煙煙和和用用口口服服避避孕孕藥藥與與血血栓栓形形成成的的關關系系分分析析結結果果.447.3991.2521.2631.563.7153.4192.068.42923.2311.0007.9123.41218.346-1.300.22533.2671.000.272x1x2ConstantStep1aBS.E.WalddfSig.Exp(B)LowerUpper95.0% C.I.for EXP(B)Vari

32、able(s) entered on step 1: x1, x2.a. 血栓形成與口服避孕藥有關,與吸煙無關,口服避孕藥是血栓形成的危險因素,服用者是不服用者7.912倍。H Ho os sm me er r a an nd d L Le em me es sh ho ow w T Te es st t2.2212.329Step1Chi-squaredfSig.對模型的檢驗:X2=2.221,P=0.329。說明模型擬合效果好。2021/8/2557 第三節(jié)第三節(jié) 多分類結果變量的多分類結果變量的 logisticlogistic回歸回歸2021/8/2558 前面介紹的前面介紹的logi

33、stic回歸模型的反應變量回歸模型的反應變量Y的取值僅有兩個(的取值僅有兩個(0 ,1),為二項反應變量。),為二項反應變量。但在實際中經(jīng)常碰到但在實際中經(jīng)常碰到Y的取值為多個的情況的取值為多個的情況, 稱多項分類變量。稱多項分類變量。 如:某種疾病處于不同的臨床期;同一種腫如:某種疾病處于不同的臨床期;同一種腫瘤不同的亞型;病例對照研究中,一個病瘤不同的亞型;病例對照研究中,一個病例組,兩個或多個對照組,如醫(yī)院對照和健例組,兩個或多個對照組,如醫(yī)院對照和健康人對照。康人對照。2021/8/2559 根據(jù)類別之間有無大小順序,多項分類變量根據(jù)類別之間有無大小順序,多項分類變量分為:分為: 無序

34、(名義)變量無序(名義)變量(nominal):如血型、民:如血型、民族、職業(yè)等族、職業(yè)等 有序變量有序變量(ordinal variables):如療效分為:如療效分為四個等級四個等級(無效、好轉、顯效、痊愈);疾病無效、好轉、顯效、痊愈);疾病嚴重程度分為:輕度、中度、重度等。嚴重程度分為:輕度、中度、重度等。2021/8/2560 對于多項分類反應結果資料,如果兩兩拆開對于多項分類反應結果資料,如果兩兩拆開或合并成二分類資料,用前介紹的兩分類或合并成二分類資料,用前介紹的兩分類logistic回歸模型進行分析,會損失部分信息,回歸模型進行分析,會損失部分信息,降低統(tǒng)計效能(降低降低統(tǒng)計效

35、能(降低3050)。)。 對于這種資料應該采用多項分類對于這種資料應該采用多項分類logistic回回歸模型進行分析。歸模型進行分析。2021/8/2561一、無序多分類反應變量的一、無序多分類反應變量的logistic回歸回歸2021/8/2562(一)、模型結構(一)、模型結構設設Y Y有有K K個類別,令第個類別,令第i(i=1,2,K)i(i=1,2,K)類的概率分別類的概率分別是是PP1 1,P P2 2 P PK K,并滿足:并滿足: P P1 1P P2 2 P PK K1 1。當當K=2K=2時,就是二項分布。時,就是二項分布。 令自變量為令自變量為X X,用,用i i,i i

36、分別表示第分別表示第i i類的常數(shù)類的常數(shù)項和自變量的參數(shù),則多項分類項和自變量的參數(shù),則多項分類logitlogit模型為:模型為: xitPiiilog ( i=0,1,2,K-1)(廣義廣義logit模型)模型)2021/8/2563 該模型需要估計該模型需要估計K-1個二項分類個二項分類logit模型,稱廣義模型,稱廣義logit模型。模型。 模型左側為兩個類型間的對數(shù)優(yōu)勢。模型由模型左側為兩個類型間的對數(shù)優(yōu)勢。模型由K-1個具有各自參數(shù)的個具有各自參數(shù)的logit等式組成,即效應反應類別等式組成,即效應反應類別與基線的不同由所改變。當與基線的不同由所改變。當K2時只有一個等式,時只有

37、一個等式, K3時有二個等式。時有二個等式。)(.log/xgxxxitppp11212111101 )(.log/xgxxxitppp22222121202 2021/8/2564任兩個類別a, b間模型的估計方法:xxxppitppitppppitPPitbababbaabababa)()()()()(log)(log)/(loglog 0000反應變量的概率:1211 KkxxPkiiikkk,.,)exp()exp( 2021/8/2565說明:對于每一類別說明:對于每一類別k的反應概率的反應概率Pk,分母相同,分母相同,且等于每個類別且等于每個類別k的分子之和,所以的分子之和,所以

38、無論以哪一類別做基線,基線所對應的參數(shù)均無論以哪一類別做基線,基線所對應的參數(shù)均為為0。 KkkP11 模型中參數(shù)的意義和檢驗:模型中參數(shù)的意義和檢驗: 模型中的參數(shù)與二分類模型中的參數(shù)與二分類logistic回歸相似,要注回歸相似,要注意是哪兩類比較;同一變量在不同意是哪兩類比較;同一變量在不同logit函數(shù)中效應函數(shù)中效應可能不一樣??赡懿灰粯?。2021/8/2566例例15-2:分析新生兒體重和產(chǎn)婦妊娠期間疾分析新生兒體重和產(chǎn)婦妊娠期間疾病對新生兒分娩的影響。病對新生兒分娩的影響。 用SPSS進行分析: 數(shù)據(jù)文件: 結果: 2021/8/2567 例6 分析產(chǎn)后大出血與孕高癥的關系。 用

39、SPSS進行分析: 數(shù)據(jù)文件: 結果:與對照組相比:有孕高癥者發(fā)生子宮性大出血者,是沒有孕高癥者的2.435倍;發(fā)生胎盤性大出血者,是沒有孕高癥者的5.909倍。 孕高癥是產(chǎn)后大出血的一個危險因素。2021/8/2568例7 分析產(chǎn)后大出血與孕高癥的關系。 用SPSS進行分析: 數(shù)據(jù)文件: 結果:2021/8/2569二、有序多分類反應變量的二、有序多分類反應變量的logisticlogistic回歸回歸2021/8/2570 有序多類變量資料用該模型進行分析。(一)、累積(一)、累積logit模型結構模型結構 有序反應變量為有序反應變量為Y, 共有共有K個類別,令第個類別,令第j(j=1,2

40、,.K)類的概率分別是類的概率分別是P1,P2 PK,并滿足:并滿足: P1P2 Pk1。當。當K=2時,就是二項分布。時,就是二項分布。 令自變量為令自變量為X,用,用k,k分別表示第分別表示第k類的常數(shù)項和類的常數(shù)項和自變量的參數(shù),則累積自變量的參數(shù),則累積logit模型為:模型為:2021/8/2571xKYPitk )(log 對每個可能的類別k, 反應變量Y k的概率就是累積概率,第k分類的累積概率為: KPPPKYP.)( 21(k=1,2,K).log()()(log()(logKkkkPPPPPPkYPkYPKYPit 212112021/8/2572 有K個反應類,就有K-1

41、個二項分類的累積logit模型。 如3,則有2個累積logit模型。)log()log(321211PPPPPP 和和 分類方法: 1 , 2 3 ; 1 2 ,3 2021/8/2573 用累積概率表示累計logit 模型:)exp()exp()(XXkYPkk 1K=1,2,.K-1)2021/8/2574例8 分析小學生IQ與母親文化程度的關系。0.6373OR=exp(0.6373)=1.89母親文化程度提高一級,兒童智力提高一個或一個以上等級的可能性增加0.89倍。2021/8/2575 累積比數(shù)模型的應用條件 自變量的回歸系數(shù)與分割點無關。即:123等;2021/8/2576例8

42、為探討營養(yǎng)與智力的關系,某單位從某市為探討營養(yǎng)與智力的關系,某單位從某市3 3所所小學中整群抽取小學中整群抽取1818個班級,測定了學生的智商,個班級,測定了學生的智商,以智力等級以智力等級Y Y作為結果變量,同時調(diào)查了有關營作為結果變量,同時調(diào)查了有關營養(yǎng)方面的信息,養(yǎng)方面的信息,Y Y被分成四個等級,即被分成四個等級,即y=1y=1:IQ90;y=2IQ90;y=2:90IQ11090IQ110;y=3,110y=3,110Q130;yQ130;y4 4:IQ130IQ130。這是一份多分類有序結果資料,。這是一份多分類有序結果資料,現(xiàn)擬采用累積比數(shù)現(xiàn)擬采用累積比數(shù)logisticlogi

43、stic回歸分析之。回歸分析之。 2021/8/25772021/8/25782021/8/25792021/8/25802021/8/2581 第四節(jié)第四節(jié) 配比設計的條件配比設計的條件logisticlogistic回歸回歸 適用于配比的病例對照研究資料(適用于配比的病例對照研究資料(matched case-control study)2021/8/2582一、配比設計的條件一、配比設計的條件logistic回歸模型回歸模型 配比研究設計的目的:配比研究設計的目的: 控制混雜因素對研究結果的影響??刂苹祀s因素對研究結果的影響。 配比因素:影響研究結果的主要的非研究因素配比因素:影響研究結

44、果的主要的非研究因素(主要的混雜因素);(主要的混雜因素); 配比變量的類型:配比變量的類型:分類(屬性)變量:分類(屬性)變量:性別、民族、病情等性別、民族、病情等(定量變量:定量變量:年齡、工齡、血壓等(配比時按一定年齡、工齡、血壓等(配比時按一定波動范圍進行配比。如年齡波動范圍進行配比。如年齡2 2,血壓,血壓 5mmHg)2021/8/2583 配比因素不要太多,一般配比因素不要太多,一般34個。配比因個。配比因素應該是影響研究結果的主要混雜因素。素應該是影響研究結果的主要混雜因素。 配比設計可以提高研究效率,提高配比設計可以提高研究效率,提高OR估計估計的精確度,使方差可縮小的精確度

45、,使方差可縮小1015。 用途:主要用于罕見或少見的疾病的病因研用途:主要用于罕見或少見的疾病的病因研究。究。 缺點:配比因素不進行分析。缺點:配比因素不進行分析。 對照數(shù):可以是對照數(shù):可以是1個(個(1:1)也可以是)也可以是2個個(1:2配對),最多配對),最多4個對照,超過個對照,超過4個不能增個不能增加研究的效率。加研究的效率。2021/8/2584 二、條件二、條件logistic回歸資料資料表示方法回歸資料資料表示方法 設:設: 共有共有n n個配比組,第個配比組,第i i個配比組(個配比組(i=1n)i=1n)共有共有1+m1+m個觀察對象,所研究的危險因素共有個觀察對象,所研

46、究的危險因素共有p p個,個,X1X1,X2.XpX2.Xp。(m(m為對照個數(shù))為對照個數(shù))配比設計資料形式。配比設計資料形式。XnmiXnmi n: n: 配比組號配比組號(1n)(1n),m: m: 組內(nèi)編號組內(nèi)編號(0m(0m,0 0代表代表病例,對照計為病例,對照計為j=1m)j=1m),i:i:分析因素(自變量,分析因素(自變量,編號編號i=1p)i=1p)。 X101: (X101: (第第1 1個配比組病例的第個配比組病例的第1 1個觀察指標)個觀察指標) X111: (X111: (第第1 1個配比組對照的第個配比組對照的第1 1個觀察指標)個觀察指標)2021/8/2585

47、 用第i個配比組建立的logistic回歸模型:模型假設:自變量X在各配比組對研究結果的作用是相同的。 i(常數(shù)項)為該配比組的各個自變量均為0時的基線風險。 i 大小對自變量的解析無幫助,在模型中不考慮,條件logistic回歸模型如下:ppixxxitp.log2211ppxxxitp .log2211因此,條件因此,條件logistic回歸模型僅用于危險因素的分回歸模型僅用于危險因素的分析,不能用來進行預測。析,不能用來進行預測。2021/8/2586例4 軟組織肉瘤與接觸苯氧乙酸或氯酚的關系(1:1 配對)。 原始數(shù)據(jù)格式: SPSS數(shù)據(jù)文件: 注意: 建立數(shù)據(jù)文件時,要虛擬一個生存時

48、間,對照的生存時間比病例的生存時間長就可以了。這里生存時間變量用Time 表示,病例給1, 對照給2 。2021/8/2587用用SPSS分析步驟:分析步驟: Analyze Survival Cox Regression (調(diào)用調(diào)用Cox回歸回歸) Time: Time (指定虛擬生存時間變量)(指定虛擬生存時間變量) Status: Y (選入生存狀態(tài)變量)選入生存狀態(tài)變量) Define Event: Single value: 1 (1 表示出現(xiàn)觀察結局)表示出現(xiàn)觀察結局) Covariate: X; 你(選入欲分析的變量)你(選入欲分析的變量) Strata: match (指定分層

49、變量,配比組指定分層變量,配比組) 2021/8/2588模模型型系系數(shù)數(shù)的的綜綜合合測測試試a a, ,b b376.2417.2001.0077.7101.0057.7101.005-2 倍對數(shù)似然值卡方dfSig.整體 (得分)卡方dfSig.從上一步驟開始更改卡方dfSig.從上一塊開始更改起始塊編號 0,最初的對數(shù)似然函數(shù):-2 倍對數(shù)似然值: 383.950a. 起始塊編號 1. 方法 = 輸入b. 方方 程程 中中 的的 變變 量量1.386.5596.1501.0134.0001.33711.965x1BSEWalddfSig.Exp(B)下部上部95.0% CI 用于 Exp

50、(B)上表結果說明回歸模型成立的;下表結果指明X1的是個危險因素,接觸者患軟組織肉瘤是不接觸者的4倍。2021/8/2589)exp()exp()|(XXxyP 0011).exp().exp()|(XXxyP386311386311 2021/8/2590例15-4 分析糖尿病與血壓、血脂、家族史、體重指數(shù)、職業(yè)的關系。(1:1配對研究)2021/8/2591結果表明:血壓、家族史、體重指數(shù)和職業(yè)都與結果表明:血壓、家族史、體重指數(shù)和職業(yè)都與糖尿病有關。血壓、家族史、體重指數(shù)是危險因糖尿病有關。血壓、家族史、體重指數(shù)是危險因素,腦力勞動增加糖尿病危險性。素,腦力勞動增加糖尿病危險性。2021

51、/8/2592Logistic回歸模型的應用條件回歸模型的應用條件2021/8/25931 1應變量應變量Y Y必須是二項分類變量,即必須是二項分類變量,即Y Y的取值的取值必須是必須是0 0,1 1,如果是非,如果是非0 0,1 1變量,可通過變變量,可通過變換使其成為換使其成為0 0,1 1變量。例如,生存時間,可變量。例如,生存時間,可令生存時間不滿一年為令生存時間不滿一年為0 0,滿一年及以上的為,滿一年及以上的為1 1。但分析類似這樣的生存資料,其效率低于。但分析類似這樣的生存資料,其效率低于COXCOX模型,最好使用模型,最好使用COXCOX模型進行分析。模型進行分析。2021/8

52、/25942Logistic回歸模型是建立在事件獨立性基回歸模型是建立在事件獨立性基礎上,即甲的發(fā)病與否對乙是否發(fā)病的概率礎上,即甲的發(fā)病與否對乙是否發(fā)病的概率沒有影響。所以僅適用于非傳染病的資料的沒有影響。所以僅適用于非傳染病的資料的分析。分析。3Logistic回歸模型原則上只適用于發(fā)病率回歸模型原則上只適用于發(fā)病率較低的疾病,如心血管病、惡性腫瘤等,因較低的疾病,如心血管病、惡性腫瘤等,因為只有發(fā)病率低的疾病,該模型計算的為只有發(fā)病率低的疾病,該模型計算的OR才才近似等于近似等于RR,如不需計算如不需計算RR,則不受此限制。,則不受此限制。2021/8/2595 關于關于logistic

53、 回歸的樣本含量回歸的樣本含量 logistic logistic 回歸的樣本含量比多元線性回歸要多,回歸的樣本含量比多元線性回歸要多,所需樣本含量為自變量的所需樣本含量為自變量的2020倍;每個自變量至少倍;每個自變量至少有有1010個陽性結果(至少占個陽性結果(至少占30%30%以上)。配比研究以上)。配比研究5050個配比組以上,對照最多個配比組以上,對照最多4 4個。個。2021/8/2596應用應用logistic logistic 回歸模型注意事項回歸模型注意事項2021/8/25971、根據(jù)應變量的類型,選用合適的、根據(jù)應變量的類型,選用合適的logistic回回歸模型。歸模型。

54、 2、對自變量的處理、對自變量的處理 (1)連續(xù)性資料:直接納入;)連續(xù)性資料:直接納入; (2)無序分類資料:設啞變量;)無序分類資料:設啞變量; (3)等級資料:按等級賦值。)等級資料:按等級賦值。2021/8/25983、自變量的篩選:最大可取0.2。當變量較多時,先用單因素篩選。然后后逐步法進行篩選。4、樣本含量 近可能多的樣本量。按經(jīng)驗估計至少是自變量個數(shù)的1520倍。2021/8/2599 5 5、對性質(zhì)相同的一些自變量進行部分多因素分、對性質(zhì)相同的一些自變量進行部分多因素分析。析。 6 6、將單因素分析有意義及從專業(yè)上認為有重要、將單因素分析有意義及從專業(yè)上認為有重要意義的變量,

55、作為候選變量,進行多因素篩選,意義的變量,作為候選變量,進行多因素篩選,建立起多因素模型。建立起多因素模型??梢匀。嚎梢匀。?.050.05、0.10.1、0.150.15、0.20.2,甚至,甚至0.30.3。但最好不超過。但最好不超過0.10.1。否則。否則選入一些不重要的變量,所估計的系數(shù)不穩(wěn)定。選入一些不重要的變量,所估計的系數(shù)不穩(wěn)定。7 7、考慮是否納入變量的交互作用項。、考慮是否納入變量的交互作用項。2021/8/251002021/8/251012021/8/251022021/8/25103 軟組織肉瘤與接觸苯氧乙酸或氯酚的關系軟組織肉瘤與接觸苯氧乙酸或氯酚的關系 軟組織肉瘤軟

56、組織肉瘤 接觸接觸 未接觸未接觸 合計合計 對對 接觸接觸 3(a) 4 (b) 7 照照 未接觸未接觸 16 (c) 30(d) 46 合計合計 19 34 532021/8/251042021/8/251052021/8/25106最終模型與只包含常數(shù)項模型相比,最終模型與只包含常數(shù)項模型相比,-2lnL-2lnL從從165.94165.94降為降為49.51949.519,似然比,似然比X X2 2=116.42,v=6,P0.001,=116.42,v=6,P0.001,說明模說明模型總體擬合情況良好。經(jīng)模型擬合優(yōu)度檢驗,型總體擬合情況良好。經(jīng)模型擬合優(yōu)度檢驗,PearsonPearson檢驗檢驗X X2 2=2.216,P=0.696,=2.216,P=0.696,偏差檢驗偏差檢驗X X2 2=3.083, =3.083, P=0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論