多重線性回歸分析.課件_第1頁
多重線性回歸分析.課件_第2頁
多重線性回歸分析.課件_第3頁
多重線性回歸分析.課件_第4頁
多重線性回歸分析.課件_第5頁
已閱讀5頁,還剩148頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多重線性回歸分析例:由于改革開放政策,深圳特區(qū)中外來人口大幅度增加,為了考察特區(qū)中外來人口對本地經(jīng)濟發(fā)展的貢獻,深圳特區(qū)統(tǒng)計局收集了所屬的寶安縣在1987年末18個鎮(zhèn)的人口與工農(nóng)業(yè)總產(chǎn)值數(shù)據(jù)(見數(shù)據(jù)文件reg.sav)。此處把工農(nóng)業(yè)總產(chǎn)值當作因變量(W),而把外地及本地人口數(shù)當作兩個自變量(Z1,Z2)。(有關(guān)統(tǒng)計方法的原理及計算參見孫尚拱,醫(yī)學(xué)多變量統(tǒng)計與統(tǒng)計軟件,北京醫(yī)科大學(xué)出版社,2000)第1頁,共153頁。數(shù)據(jù)文件reg.sav第2頁,共153頁。1.如何估計自變量與因變量之間的相互關(guān)系?(估計回歸方程)2.哪些自變量對因變量有影響?(影響因素分析)3.哪一個自變量對因變量的影響更重

2、要?(自變量的相對重要性分析)4.如何用自變量預(yù)測因變量?(預(yù)測分析)(一)多重回歸分析的任務(wù)第3頁,共153頁。(二)多重回歸分析的適用條件1.自變量與因變量之間存在線性關(guān)系2.殘差的正態(tài)性3.殘差的等方差性4.剔除強影響點(突出點,outliers)5.自變量之間不應(yīng)存在共線性6.獨立性殘差:實際測量值和預(yù)測值之間的差異第4頁,共153頁。關(guān)于獨立性:所有的觀測值是相互獨立的。如果受試對象僅被隨機觀測一次,那么一般都會滿足獨立性的假定。但是出現(xiàn)下列情況時,觀測值不是相互獨立的:時間序列、重復(fù)測量(某種藥物使用后1個月兩個月三個月的療效)等情況。SPSS軟件在“Linear Regressi

3、on:Statistics”對話框中,提供了Durbin-Watson統(tǒng)計量d,以檢驗自相關(guān)系數(shù)是否為0。當d值接近于2,則殘差之間是不相關(guān)的(此指標僅作參考。是否可使用多元分析主要依據(jù)實驗設(shè)計)。第5頁,共153頁。1.如何估計自變量與因變量之間的相互關(guān)系?(估計回歸方程)其中y為實測值, 為預(yù)測值(predicted value)估計模型中系數(shù)的方法:最小二乘方法(Least Square,LS),即殘差平方和最小。b1, b2. bm稱為偏回歸系數(shù)(partial regression coefficient) :當固定其他變量時(扣除其他自變量的影響,即Bm就是已經(jīng)調(diào)整了其他影響因素后

4、的回歸系數(shù),故名偏),xm每增加一個單位,y的增加值都是bm。 (一)多重回歸分析的任務(wù)第6頁,共153頁。模型擬和的優(yōu)良性指標R:復(fù)相關(guān)系數(shù),反映了Y與M個自變量的總體相關(guān)系數(shù);R2:決定系數(shù)(R Square)R2c:調(diào)整決定系數(shù)(Adjusted R square ),是對決定系數(shù)的修正,是更客觀的指標。 (若要做預(yù)測分析的話,R值的要求較高,應(yīng)0.75。0.6湊活,0.3.,0.4預(yù)測效果很差。若只是做影響因素分析的話0.5之類都還好)這些指標越接近于1,說明回歸模型擬合越好。 第7頁,共153頁。2.哪些自變量對因變量有影響?(影響因素分析)對回歸模型的統(tǒng)計檢驗當P0.05,則認為此

5、回歸模型有顯著性。對自變量的統(tǒng)計檢驗當P0.05,則認為此自變量對因變量有影響。第8頁,共153頁。自變量的篩選實際應(yīng)用中,通常從專業(yè)知識出發(fā),建立一個簡約(parsimonious)的回歸模型,即用盡可能少的自變量擬合模型。 常用方法(最常用的是2和3,1仍然是單變量思想。注意,選入標準0.05,剔除標準寬些0.10)1.前進法(Forward):逐步增加變量到模型中(由少到多),對已經(jīng)進入的變量不再剔除;SPSS中默認的選入自變量的檢驗水準為0.05。2.后退法(Backward):從模型中逐步剔除變量(由多到少),對已經(jīng)剔除的變量不再進入;SPSS中默認的剔除自變量的檢驗水準為0.10。

6、 3.逐步法(Stepwise):結(jié)合了前進法和后退法,變量邊進入邊剔除。第9頁,共153頁。3.哪一個自變量對因變量的影響更重要?(自變量的相對重要性分析)當自變量的量綱相同時,衡量自變量相對重要性的指標: 偏回歸系數(shù);若偏回歸系數(shù)的絕對值越大,則相應(yīng)自變量對因變量的影響就越大。第10頁,共153頁。當自變量的量綱不同時,衡量自變量相對重要性的指標:(偏回歸系數(shù)有量綱,以下指標無,故可用來衡量)標準化偏回歸系數(shù)(Standardized regression coefficient)、偏相關(guān)系數(shù)(Partial Correlation)和部分相關(guān)系數(shù)(Part Correlation)。上述

7、指標的絕對值越大,則相應(yīng)自變量對因變量的影響就越大。 第11頁,共153頁。標準化偏回歸系數(shù):對自變量、因變量作標準化處理后計算的回歸系數(shù)。偏相關(guān)系數(shù):因變量與自變量均扣除其他自變量影響之后,二者之間的相關(guān)系數(shù)。與簡單相關(guān)系數(shù)(Pearson相關(guān)系數(shù))不同;例如:考察因變量Y與自變量X1 、X2的多元回歸分析,Y與X1的偏相關(guān)系數(shù)為扣除X2影響后的Y與X1的相關(guān)性。 Y與X1的簡單相關(guān)系數(shù)為忽略X2影響后的Y與X1的相關(guān)性。部分相關(guān)系數(shù):自變量扣除其他自變量影響之后,因變量與自變量之間的相關(guān)系數(shù)。與偏相關(guān)系數(shù)不同,部分相關(guān)系數(shù)中因變量未扣除其他自變量的影響。 第12頁,共153頁。4.如何用自

8、變量預(yù)測因變量?(預(yù)測分析)當自變量取某個數(shù)值時,y的預(yù)測值為Y的均數(shù)的95置信區(qū)間個體Y值的95容許區(qū)間預(yù)測分析時,(x10,x20 xm0)應(yīng)該在樣本的自變量取值范圍內(nèi)。 第13頁,共153頁。1.自變量與因變量之間存在線性關(guān)系通過繪制y與每個自變量的偏相關(guān)散點圖,可以判斷y與自變量之間是否存在線性關(guān)系。 2.殘差的正態(tài)性通過繪制標準化殘差的直方圖以及正態(tài)概率圖(P-P圖),可以判斷是否服從正態(tài)分布。此條件可以放寬,只要不是嚴重偏離正態(tài)即可。3.殘差的等方差性通過繪制標準化殘差與預(yù)測值的散點圖,若標準化殘差在零水平線上下波動,無明顯的規(guī)律性,則可以判斷滿足等方差的假定。 (二)多重回歸分析

9、的適用條件第14頁,共153頁。通過標準化殘差(Standardized Residuals) (服從T分布)、學(xué)生氏殘差(Studentlized Residuals) (服從Z分布)來判斷強影響點 。當指標的絕對值大于3時,可以認為樣本存在強影響點。刪除強影響點應(yīng)該慎重,需要結(jié)合專業(yè)知識。以下兩種情況可以考慮刪除強影響點:1.強影響點是由于數(shù)據(jù)記錄錯誤造成的;2.強影響點來自不同的總體。4.剔除強影響點(Influential cases;或稱為突出點,outliers)第15頁,共153頁。5.自變量之間不應(yīng)存在共線性(Collinear) (可以有一定的相關(guān)性,因為如果完全不相關(guān),相關(guān)

10、系數(shù)為0,那么就和單變量分析一樣。)當一個(或幾個)自變量可以由其他自變量線性表示時,稱該自變量與其他自變量間存在共線性關(guān)系。常見于:1.一個變量是由其他變量派生出來的,如:BMI由身高和體重計算得出 ;2.一個變量與其他變量存在很強的相關(guān)性。當自變量之間存在共線性時,會使回歸系數(shù)的估計不確定、預(yù)測值的精度降低以及對y有影響的重要自變量不能選入模型 。第16頁,共153頁。共線性診斷方法:1.TOL(容許度,Tolerance)法:TOL越接近零,共線性越大。2.VIF(方差膨脹因子,Variance Inflation Factor,VIF )法:VIF越大,共線性越大。3.特征根(Eige

11、nvalue)法:如果自變量相關(guān)矩陣的特征根近似于零,則自變量之間存在共線性。4.CI(條件指數(shù),Condition Index)法:CI越大,共線性越大。第17頁,共153頁。1. 數(shù)據(jù)預(yù)處理:根據(jù)經(jīng)濟學(xué)專業(yè)知識,需要先對Z1、Z2、W作對數(shù)變換,分別記為X1、X2、Y。(三)多重線性回歸:實例分析變換后的數(shù)據(jù)第18頁,共153頁。回歸線性2.多重回歸分析第19頁,共153頁。因變量自變量第20頁,共153頁。Statistics對話框回歸系數(shù)的估計模型擬和共線性診斷部分相關(guān)與偏相關(guān)系數(shù)統(tǒng)計描述第21頁,共153頁。Plots對話框標準化殘差圖直方圖正態(tài)概率圖,P-P圖繪制所有的偏相關(guān)圖 第

12、22頁,共153頁。Save對話框第23頁,共153頁。分別給出Y、X1、X2的均數(shù)與標準差相關(guān)系數(shù)陣簡單相關(guān)系數(shù)(Pearson相關(guān))P值從簡單相關(guān)系數(shù)可見:Y與X1、X2存在較強相關(guān)性,X1、X2存在中等相關(guān)性。3.輸出結(jié)果解釋第24頁,共153頁。復(fù)相關(guān)系數(shù)決定系數(shù)調(diào)整決定系數(shù)F值P值此模型的復(fù)相關(guān)系數(shù)為0.857,調(diào)整決定系數(shù)為0.699,反映此模型擬和較好;模型經(jīng)統(tǒng)計學(xué)檢驗,F(xiàn)=20.738,P0.05,說明此多元回歸模型有顯著性。第25頁,共153頁。非標準化系數(shù) 標準化系數(shù) t值 P值簡單相關(guān)偏相關(guān)部分相關(guān)TolVIF經(jīng)統(tǒng)計學(xué)檢驗,X1與X2均有顯著性,因此回歸模型為 ;根據(jù)偏回

13、歸系數(shù)的大小,可以認為X2對Y的影響比X1大。第26頁,共153頁。特征根條件指數(shù), CI方差比例共線性診斷共線性診斷:兩個自變量之間不存在共線性。第27頁,共153頁。因為標準化殘差、學(xué)生化殘差的絕對值小于3,所以從統(tǒng)計學(xué)上認為樣本不存在強影響點。殘差統(tǒng)計量學(xué)生化殘差標準化殘差第28頁,共153頁。直方圖及P-P圖從殘差直方圖及P-P圖可見:殘差正態(tài)性不太好,可能與樣本量太小有關(guān)。第29頁,共153頁。通過繪制y與X1的偏相關(guān)散點圖,可以判斷y與X1之間存在線性關(guān)系。 第30頁,共153頁。通過繪制y與X2的偏相關(guān)散點圖,可以判斷y與X1之間存在線性關(guān)系。 第31頁,共153頁。檢查殘差的等

14、方差性:由圖可見:殘差滿足等方差性。第32頁,共153頁。提示: 多重線性回歸分析允許自變量為分類變量,但當自變量為多分類變量時,需要以“啞變量(dummy variables)”的方式引入模型。 如:某個自變量為“文化程度”:1=文盲,2=小學(xué),3=中學(xué),4=大學(xué)及以上。若以“大學(xué)及以上”為參照,關(guān)心文盲、小學(xué)、中學(xué)分別與大學(xué)及以上的比較,則進行回歸分析時,此自變量須用3個啞變量表達:x1: 1=文盲,0=其他;x2: 1=小學(xué),0=其他;x3: 1=中學(xué),0=其他。第33頁,共153頁。練習(xí)1以下實例摘自Hosmer, David W . (2000). Applied logistic

15、regression . John Wiley, New York.研究目的是考察與嬰兒低出生體重有關(guān)的可能危險因素(當體重低于2500g時,認為是低出生體重嬰兒)。研究收集了189例婦女的數(shù)據(jù),其中59例分娩低出生體重嬰兒,130例分娩正常體重嬰兒(數(shù)據(jù)見文件data1.sav)。第34頁,共153頁。(一)Logistic回歸分析的任務(wù)影響因素分析logistic回歸常用于疾病的危險因素分析,logistic回歸分析可以提供一個重要的指標:OR。(二)Logistic回歸分析的基本原理1.變量特點因變量:二分類變量,若令因變量為y,則常用y1表示“發(fā)病”,y0表示“不發(fā)病”(在病例對照研究

16、中,分別表示病例組和對照組)。自變量:可以為分類變量,也可以為連續(xù)變量。Logistic回歸分析第35頁,共153頁。2.Logistic模型P=P(y=1|x),為發(fā)病概率;1-P=P(y=0|x),為不發(fā)病概率。0為常數(shù)項, 1 , 2 . m分別為m個自變量的回歸系數(shù)。g(x)是對P的變換,稱為logit變換:可以得到:第36頁,共153頁。模型估計方法:最大似然法(Maximum Likelihood Method):構(gòu)造似然函數(shù)( Likelihood function )L= P(y=1|x) P(y=0|x),通過迭代法(默認20次以內(nèi))估計一組參數(shù)(0, 1 , 2 . m)使

17、L達到最大。第37頁,共153頁。3.模型及自變量的統(tǒng)計檢驗?zāi)P蜋z驗:H0:12im H1:至少有一個i0采用似然比檢驗(the likelihood ratio test),當P0.05時,拒絕H0,認為模型有統(tǒng)計學(xué)意義。自變量檢驗:H0:i0H1:i0采用Wald檢驗,當P0.05時,拒絕H0,認為i不為0。第38頁,共153頁。4.自變量的篩選與多元線性回歸分析類似,有Forward法(實際上是逐步向前法)、Backward法。默認方法為Enter,即所有自變量一次全部進入方程。注:不同自變量的篩選方法,當結(jié)果差別較大時,應(yīng)該結(jié)合專業(yè)知識,用盡可能少的變量擬合一個最佳模型。依據(jù)Wald統(tǒng)

18、計量(Wald statistic) 、似然比統(tǒng)計量(Likelihood ratio)或者條件統(tǒng)計量(Conditional statistic)剔除變量時,似然比統(tǒng)計量是決定哪個變量應(yīng)該被剔除的最好方法。第39頁,共153頁。5.模型擬合的優(yōu)良性指標(1)擬合分類表(Classification Table)根據(jù)Logistic回歸模型,對樣本重新判別分類,總符合率越接近100%,則模型擬合越好。Logistic回歸用于判別分類很粗劣,尤其在很多情況下對于小樣本的分類效果差 。(2)Hosmer-Lemeshow 擬合優(yōu)度統(tǒng)計量 (與樣本量有關(guān))當檢驗的P值大于0.1時,則說明模型對樣本的

19、擬合是可以接受的。第40頁,共153頁。6.OR與RRLogistic回歸模型中,OR=exp()。lnOR=當某種疾病的發(fā)病率或死亡率很低時,ORRROR的置信區(qū)間為: 當自變量為連續(xù)變量時,回歸系數(shù)的解釋與變量單位有關(guān)。當x改變“c個”單位時,OR=exp(c),置信區(qū)間為 第41頁,共153頁。例:比較新療法與舊療法治療某種疾病的療效?,F(xiàn)對40例患者隨機分組,分別接受新療法和舊療法治療。根據(jù)專業(yè)知識,患者的病情嚴重程度、年齡對療效也有影響。如何評價新舊療法的療效(見數(shù)據(jù)文件logistic.sav)?(注:作為舉例,本例樣本量僅為40例,由于樣本量太小,Logistic回歸的結(jié)論僅作為參

20、考)第42頁,共153頁。變量說明:Y:治愈情況,1=治愈;0=未治愈;X1:病情嚴重程度,0=不嚴重,1=嚴重;X2:年齡。X3:治療方法,0=新療法,1=舊療法。第43頁,共153頁。二值Logistic回歸第44頁,共153頁。因變量協(xié)變量(自變量)注:此處將X1、X3看作為連續(xù)變量;采用Enter法。第45頁,共153頁。OR的95%置信區(qū)間第46頁,共153頁。對模型的檢驗-2Log likelihood=40.597經(jīng)統(tǒng)計學(xué)檢驗,模型2=13.951,P=0.003,Logistic回歸模型有顯著性。第47頁,共153頁。符合率為70.0%擬合分類表第48頁,共153頁?;貧w系數(shù)標

21、準誤Wald值P值OROR置信區(qū)間根據(jù)模型,病情嚴重程度與治療方法對患者的治愈情況有影響;其中病情嚴重組相對于不嚴重組,OR0.203,95%置信區(qū)間為(0.038,1.092)(此區(qū)間包括1,缺乏實際意義);舊療法組相對于新療法組, OR0.103,95%置信區(qū)間為(0.019,0.553)第49頁,共153頁。另法:將X1、X3指定為分類變量。第50頁,共153頁。與前述結(jié)果相比,X1與X3的回歸系數(shù)符號發(fā)生了變化,結(jié)果解釋有所不同:病情不嚴重組相對于嚴重組,OR4.928, 95%置信區(qū)間為(0.916,26.506) ;新療法組相對于舊療法組, OR9.707, 95%置信區(qū)間為(1.

22、809,52.103) 。另法:將X1、X3指定為分類變量。注:對于二分類變量,可以當作連續(xù)變量處理,也可以指定為分類變量,但要注意結(jié)果解釋。第51頁,共153頁。后退法篩選變量第52頁,共153頁。每步的模型檢驗、-2Log likelihood及擬合分類表第53頁,共153頁。不在模型中的變量后退法篩選變量第54頁,共153頁。逐步前進法篩選變量第55頁,共153頁。不在模型中的變量逐步前進法篩選變量第56頁,共153頁。應(yīng)用Logistic回歸分析時的注意事項1. Logistic回歸是乘法模型,這一點,在結(jié)果解釋時需要慎重。對于自變量(X1,X2),OR12=EXP(1+2)=OR1O

23、R2例:某研究調(diào)查胃癌發(fā)病的危險因素,得到“有不良飲食習(xí)慣”相對于“無不良飲食習(xí)慣”的OR=2.6, “喜吃鹵食和鹽漬食物”相對于“不吃鹵食和鹽漬食物”的OR=2.4。那么根據(jù)Logistic回歸,“有不良飲食習(xí)慣且喜吃鹵食和鹽漬食物”相對于“無不良飲食習(xí)慣且不吃鹵食和鹽漬食物”的OR=2.62.4=6.24,得出此結(jié)論時需要考慮從專業(yè)知識上是否合理。第57頁,共153頁。通常情況下,自變量為二分類變量時,可以當作連續(xù)變量進入模型(常用0、1或者1、2賦值),也可以通過“categorical”來指定啞變量。但是,對多分類變量應(yīng)該通過“categorical”來指定啞變量,而不宜直接作為連續(xù)變

24、量處理。 當自變量有m個分類時,則需要定義m-1個啞變量。如定義自變量“文化程度”的啞變量:若以“大學(xué)及以上”為參照,關(guān)心文盲、小學(xué)、中學(xué)分別與大學(xué)及以上的比較,則進行Logistic回歸分析時,需定義3個啞變量:x1: 1=文盲,0=其他;x2: 1=小學(xué),0=其他;x3: 1=中學(xué),0=其他;當x1、x2、x3取值均為0時,則表示文化程度為“大學(xué)及以上”。 第58頁,共153頁。附錄:經(jīng)典Logistic回歸分析的其他應(yīng)用假設(shè)檢驗的目的推斷多個總體率是否相等當P0.05,拒絕H0時,總的說來各組有差別,但并不意味著任何兩組都有差別:可能是任何兩者間都有差別,也可能其中某兩者間有差別,而其它

25、組間無差別。目前尚無公認的進一步兩兩比較的方法(可考慮采用Logistic回歸)。結(jié)果解釋回顧:分類變量的假設(shè)檢驗完全隨機設(shè)計的多個樣本比較第59頁,共153頁。例:某省從3個水中氟含量不同的地區(qū)隨機抽取1012歲兒童,進行第一恒齒患病率的調(diào)查,問3個地區(qū)兒童第一恒齒患病率是否不同?第60頁,共153頁。變量說明:group:組別,1=高氟區(qū),2=干預(yù)區(qū),3低氟區(qū);effect:1=患齲,2=未患齲;freq:頻數(shù) 。第61頁,共153頁。經(jīng)2檢驗, 2=10.489,P=0.005,可以認為:總的來說三個地區(qū)患齲情況有差別。Pearson卡方值P值患齲率第62頁,共153頁。如何進一步判斷哪

26、兩個地區(qū)有差別?二值Logistic回歸在進行Logistic回歸分析之前,需要用freq變量進行加權(quán)第63頁,共153頁。第64頁,共153頁。以低氟區(qū)為參照,其他兩個地區(qū)與低氟區(qū)進行比較。Categorical對話框第65頁,共153頁。Options對話框OR的95%置信區(qū)間第66頁,共153頁。對模型的檢驗結(jié)論:經(jīng)統(tǒng)計學(xué)檢驗,2=11.852,P=0.003,Logistic模型有顯著性。高氟區(qū)、干預(yù)區(qū)與低氟區(qū)相比,患病率均有差異(P0.05)。第67頁,共153頁。 生存分析 生存分析是將事件的結(jié)果和出現(xiàn)這一結(jié)果所經(jīng)歷的時間,結(jié)合起來進行分析的一種統(tǒng)計分析方法。 資料特點(1)通過隨

27、訪進行收集(2)起始時間(3)事件的結(jié)局及時間(4)生存時間的分布十分復(fù)雜(5)隨訪資料常因失訪等原因造成某些數(shù)據(jù)觀察不完全 第68頁,共153頁。事件:研究者所認定的結(jié)局生存時間:開始觀察到某終點事件所經(jīng)歷的時間跨度。 (1)完全數(shù)據(jù):指從起點至出現(xiàn)認定事件所經(jīng)歷的時間跨度。 (2)截尾數(shù)據(jù):從起點至截尾點所經(jīng)歷的時間。 截尾:沒有觀察到的認定事件。有以下幾種情況: 失訪、拒絕訪問、中途退出等, 死于其它與研究無關(guān)的疾病 研究工作結(jié)束時事件尚未發(fā)生等 完全數(shù)據(jù)是生存分析的主要依據(jù);截尾數(shù)據(jù)也提供部分信息,說明病人在某時刻之前沒有發(fā)生事件。 基本術(shù)語第69頁,共153頁。生存函數(shù)又稱生存率S(

28、t) :觀察對象活過時點t的概率. S(t)= P(xt) ,為累積生存概率。 有截尾數(shù)據(jù),分母就必須分時段校正,故此式一般不能直接應(yīng)用。 第70頁,共153頁。生存概率和生存率的區(qū)別,前者是單位時段生存概率;而后者是多個時段的生存概率,是多個時段的累積的結(jié)果。生存率的估計:假定病人在各個時段生存的事件相互獨立,則生存率為各時段生存概率之積。 第71頁,共153頁。第72頁,共153頁。Kaplan-Meier法:適用于小樣本資料,生存時間記錄要確切。 壽命表法:適用于頻數(shù)表資料或大樣本資料,生存時間分段記錄的資料。生存時間的估計和檢驗第73頁,共153頁。例 某研究者收集一些肺癌病例, 數(shù)據(jù)

29、見survival1.savtime生存時間(天)status生存狀態(tài). 0,截尾; 1,死亡type肺癌類型: 1腺癌, 2大細胞癌, 3小細胞癌, 4鱗癌health病人入院時的身體狀況diagtime從診斷為肺癌到開始治療的時間age病人的年齡sex病人的性別試比較不同類型肺癌患者生存時間 Kaplan-Meier法第74頁,共153頁。SPSS數(shù)據(jù)文件第75頁,共153頁。AnalyzeSurvivalKaplan-MeierTime: time(生存時間變量)Status: status(生存狀態(tài)變量) Define event: single vaule:1Factor: type

30、(欲比較的分類變量)Compare factor test staticics: 選 log rankOption statistics :survival table plot: 選SurvivalOkSPSS操作第76頁,共153頁。第77頁,共153頁。K-M主對話框第78頁,共153頁。生存率曲線統(tǒng)計學(xué)檢驗 第79頁,共153頁。option子對話框第80頁,共153頁。腺癌的生存分析表結(jié)果第81頁,共153頁。腺癌的生存時間的均數(shù)、中位數(shù)Number of Cases: 18 Censored: 1 ( 5.56%) Events: 17 Survival Time Standard

31、 Error 95% Confidence Interval Mean均數(shù): 62 12 ( 38, 86 ) Median中位數(shù): 48 6 ( 36, 60 )第82頁,共153頁。218.41,P=0.004,顯示四種病理類型患者的生存率曲線分布差別有統(tǒng)計學(xué)意義第83頁,共153頁。四種病理類型肺癌患者的生存曲線,鱗癌生存狀況較好,其次為大細胞癌,小細胞癌和腺癌的生存狀況較差第84頁,共153頁。數(shù)據(jù)特點 壽命表數(shù)據(jù),所有病例的隨訪都是定期(一年)進行的. 為便于錄入可使用每個組段的起始年數(shù)表示每個組段. 計算的是1年的生存概率,n年的生存率。壽命表法例 某醫(yī)院對114例胃癌患者術(shù)后生存

32、情況進行隨訪, 見文件lifetb1.sav, 計算胃癌患者術(shù)后各年生存率第85頁,共153頁。SPSS數(shù)據(jù)文件第86頁,共153頁。dataweight case;weight case by : freq。OK SPSS操作 (一)SPSS操作(二)AnalyzeSurvivalLife TablesTime框: time(生存時間變量)Display Time Iiterals:10 to 1Status框: died(生存狀態(tài)變量) Define event: single vaule:1Option選lietable table;plot: 選Survival。Ok第87頁,共153

33、頁。Life table 主對話框第88頁,共153頁。其它選項說明:Factor: 分組變量By factor: 分層變量Options對話框 compare levers of first factor overall:幾組生存曲線的檢驗 pairwise:幾組生存曲線的兩兩比較第89頁,共153頁。Life Table結(jié)果第90頁,共153頁。兩組兒童橫紋肌瘤治療后復(fù)發(fā)時間處理組9,12,16,19,19,20,20,24,24,30,31,34,42,44,53,59,62對照組2,3,9,10,10,12,15,15,16,18,24,30,36,40,45分析兩組兒童的生存情況練習(xí)

34、1第91頁,共153頁。第92頁,共153頁。 常用術(shù)語生存函數(shù)又稱生存率S(t) :觀察對象活過時點t的概率. S(t)= P(xt) ,為累積生存概率。如果有截尾數(shù)據(jù),分母就必須分時段校正,故此式一般不能直接應(yīng)用。Cox 比例風險模型第93頁,共153頁。 常用術(shù)語生存概率和生存率的區(qū)別,前者是單位時段生存概率;而后者是多個時段的生存概率,是多個時段的累積的結(jié)果。生存率的估計:假定病人在各個時段生存的事件相互獨立,則生存率為各時段生存概率之積。 第94頁,共153頁。常用術(shù)語第95頁,共153頁。Cox 比例風險模型 1972年由英國的Cox提出,屬半?yún)?shù)模型。 Cox模型的基本形式: h

35、(t,x)為具有協(xié)變量x的個體在時刻t的風險函數(shù)(風險率, 瞬時死亡率),h0(t)稱基準風險率,即所有協(xié)變量均為0時,個體時刻t的風險函數(shù)第96頁,共153頁。 上式的右側(cè)分兩部分: h0(t)與時間有關(guān)的任意函數(shù),其分布和形狀無明確假定,是非參數(shù)部分。另一部分是參數(shù)部分,其參數(shù)可以通過樣本估計. 因為無須估計h0(t), 故Cox回歸的模型擬和不是直接用生存時間作為因變量,而是以風險函數(shù)與基礎(chǔ)風險函數(shù)的比值為因變量。Cox 比例風險模型第97頁,共153頁。Cox 比例風險模型第98頁,共153頁。例 某研究者收集一些肺癌病例,進行Cox回歸分析。數(shù)據(jù)見Survival1.sav數(shù)據(jù)tim

36、e生存時間(天)status生存狀態(tài). 0,截尾; 1,死亡type肺癌類型: 1腺癌, 2大細胞癌, 3小細胞癌, 4鱗癌health病人入院時的身體狀況diagtime從診斷為肺癌到開始治療的時間age病人的年齡sex病人的性別試比較不同類型肺癌患者生存時間 第99頁,共153頁。SPSS操作AnalyzeSurvivalCox regressionTime: timeStatus: statusDefine event: single vaule:1Covariates: type/ health /diagtime/ age /sex (待篩選的協(xié)變量)Categorical :Cov

37、ariates:type(將肺癌亞型定義為啞變量)Method : forward LRplot: SurvivalOption : CI for exp()Display model information: At last stepOk 第100頁,共153頁。第101頁,共153頁。Cox Regression 主對話框第102頁,共153頁。 SPSS結(jié)果第103頁,共153頁。第104頁,共153頁。第105頁,共153頁。第106頁,共153頁。第107頁,共153頁。第108頁,共153頁。第109頁,共153頁。第110頁,共153頁。第111頁,共153頁。判別分析是根據(jù)訓(xùn)練

38、樣本的特定指標,找出判別函數(shù),用以判斷未分類個體歸屬的方法訓(xùn)練樣本(training sample) :明確分類,含特定測量指標廣泛應(yīng)用于臨床診斷與鑒別診斷。判別分析(Discriminant Analysis) 第112頁,共153頁。關(guān)于訓(xùn)練樣本1、每一個樣本的所屬類別應(yīng)采用“金標準”2、測量指標必須與分類有關(guān),測量值必須準確3、樣本量足夠大。第113頁,共153頁。判別效果的評價: 用誤判率P來評價 樣本二分法 回代法 交互驗證(Cross-Validation):依次去掉1例,建立判別函數(shù),在用建立的判別函數(shù)判斷該例。第114頁,共153頁。 例1 從胃癌、萎縮性胃炎及非胃病三類人群中

39、,每類各抽取5例。每一例都進行4項生化指標的檢測:銅蘭蛋白X1、藍色反應(yīng)X2、吲哚乙酸X3、中性硫化物X4 ,數(shù)據(jù)如下(孫尚拱): 第115頁,共153頁。第116頁,共153頁。 又稱Fisher線性判別。對分布沒有要求,也沒有等協(xié)方差陣假定。 Fisher借鑒自己創(chuàng)造方差分析的思想,試圖找到一個由原始自變量組成的線性函數(shù),使得類間距離盡可能大,而母體內(nèi)的方差盡可能的小。典則判別分析(canonical discriminant)第117頁,共153頁。 設(shè)有個k類,從第r個類中隨機抽取nr個樣品,共抽到n=n1+n2+ nk,每個個體測量變量X1, X2 Xm,構(gòu)造與原始變量成線性函數(shù)關(guān)系

40、的綜合指標u(x ):第118頁,共153頁。Fisher的判別思想是使上式盡可能大。第119頁,共153頁。 最大時的判別系數(shù) , 并記此時為1,該U1(x)區(qū)分能力最大; 次大時的判別系數(shù) ,并記此時為2;該U2(x)區(qū)分能力次之; 最多可以找到p(pmin(k-1),m)個不為0的及相應(yīng)p 個判別系數(shù)向量。 第120頁,共153頁。 特征根i反映了該判別函數(shù)Ui(x)的區(qū)分能力;其相對區(qū)分能力為: 顯然1的區(qū)分能力最大,1相對區(qū)分能力為:第121頁,共153頁。 另一個衡量綜合指標Ui(x)與k個母體關(guān)系密切程度的指標為典則相關(guān)系數(shù)。第122頁,共153頁。對判別函數(shù)進行檢驗H0:各組的

41、均值向量相等WilkLambda值:第123頁,共153頁。 分類 將P組判別系數(shù)帶入判別函數(shù),分別計算每個樣品的綜合指標,記 為第r類綜合指標的中心點(均數(shù))。 X0為待分類的樣品,可計算出P個綜合指標 ,計算該點到各類中心點的歐式距離 若X0到r類的距離最近,則將X0判為r類。第124頁,共153頁。例1 某醫(yī)師對25例正常人, 15例肝硬化患者,40例血清甲胎蛋白陽性肝癌患者和20例甲胎蛋白陰性肝癌患者的四種血清蛋白成分(PA,a1-AG,a1-AT,HP)進行觀察,試建立判別函數(shù), 數(shù)據(jù)見discrim田.sav第125頁,共153頁。第126頁,共153頁。判別分析主對話框第127頁,共153頁。第128頁,共153頁。第129頁,共153頁。第130頁,共153頁。10.908, 相對區(qū)分能力為82.3%2=0.195

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論