多因素分析課件_第1頁
多因素分析課件_第2頁
多因素分析課件_第3頁
多因素分析課件_第4頁
多因素分析課件_第5頁
已閱讀5頁,還剩131頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

多因素分析多元線性回歸Logistic回歸生存分析.多因素分析多元線性回歸.第一部分多元線性回歸簡單線性回歸只考慮一個X對Y的影響;多元線性回歸(multiplelinearregression)考慮多個自變量X對Y的影響此時要考慮:1.Y是否滿足LINE2.所建回歸方程是否有意義:AVOVA3.回歸方程中的每個自變量是否都有意義:t檢驗4.如何獲得變量最少,解釋Y變異又較多的方程?

篩選變量方法第一部分多元線性回歸簡單線性回歸只考慮一個X對Y的影響;330名糖尿病患者脂聯(lián)素ADI(Y,ng/ml)與體重指數(shù)BMI(x1,kg/m2)、病程(x2,year)、瘦素LEP(x3,ng/ml)、空腹血糖FPG(x4,mmol/L)關系分析330名糖尿病患者脂聯(lián)素ADI(Y,ng/ml)與體重指數(shù)B4根據(jù)樣本得到的回歸方程偏回歸系數(shù)

partialregressioncoefficient表示在其他自變量固定條件下,某自變量每增減一個單位對y的平均效應影響。標準化偏回歸系數(shù)(standardized~),表示在其他自變量固定條件下,某自變量每增減一個標準單位,y改變的平均標準單位數(shù)。其大小反映了該自變量的重要性多因素的分析更加切合實際;提高回歸方程的估計精度;從多個可能的因素中選擇真正有意義的因素4根據(jù)樣本得到的回歸方程偏回歸系數(shù)partialregr偏回歸系數(shù)的計算:最小二乘原理假設檢驗:偏回歸系數(shù)檢驗-t檢驗模型整體檢驗-方差分析前提條件:線性、獨立性、正態(tài)性、方

差相等,LINE

偏回歸系數(shù)的計算:最小二乘原理SPSS操作步驟分析→回歸→線性→因變量:Y;自變量:x1-x4→ok體重指數(shù)病程瘦素空腹血糖-1.030意思為在x2、x3、x4為給定值的情況下,體重指數(shù)每增加一個單位,脂聯(lián)素平均減少1.030

(ng/ml)Foragivenx2,x3,x4,each1kg/m2increaseinx1isassociatedwithanaveragedecreaseinYof1.030ng/ml.SPSS操作步驟分析→回歸→線性→因變量:Y;自變量:x1-方程的假設檢驗整個模型的假設檢驗:方差分析法(ANOVA)F=17.000,P<0.001,拒絕H0,以下模型是有意義的.方程的假設檢驗整個模型的假設檢驗:方差分析法(ANOVA是不是每個自變量的偏回歸系數(shù)均有統(tǒng)計學意義呢?t檢驗

N為個體數(shù),k為自變量個數(shù)并不是每個自變量都有意義!,在alpha=0.05,x1x2x4三個變量沒有統(tǒng)計學意義是不是每個自變量的偏回歸系數(shù)均有統(tǒng)計學意義呢?t檢驗

N為個自變量篩選常用方法Allpossiblesubsetsselection最優(yōu)子集回歸,全局擇優(yōu)法Stepwiseselectioninclude逐步回歸法forwardselection前向選擇backwardelimination后向選擇stepwiseregression逐步選擇9.由于變量之間是有關聯(lián)的,因此并不是簡單地將三個變量從方程中去除!自變量篩選常用方法Allpossiblesubsets10一最優(yōu)子集法

最優(yōu)子集法是對自變量各種不同的組合所建立的回歸方程進行比較,從而選出一個“最優(yōu)”的回歸方程。10一最優(yōu)子集法11評價指標:1殘差平方和與決定系數(shù)殘差平方和越小越好,R2越大越好11評價指標:1殘差平方和與決定系數(shù)殘差平方和越小越好,R122殘差均方與調(diào)整確定系數(shù)考慮了引入變量的個數(shù)p122殘差均方與調(diào)整確定系數(shù)考慮了引入變量的個數(shù)p133Cp統(tǒng)計量(Cpstatistic)

由MallowsCL.提出。當p個自變量擬合的方程理論上“最優(yōu)”時,Cp的期望值為p+1,因此應選擇Cp越接近于p+1的回歸方程為“最優(yōu)”方程。133Cp統(tǒng)計量(Cpstatistic)由Mal14SAS運行結果14SAS運行結果二、逐步回歸法向后法(刪)向前法(進)逐步法方程方程方程規(guī)定進入,保留(刪)的P值,且要求P進<P刪,P值大小如何選取?自變量框中變量全部進入方程強迫刪除二、逐步回歸法向后法向前法逐步法方程方程方程規(guī)定進入,保留(多因素分析課件多因素分析課件最終得到對脂聯(lián)素有意義的影響因素為BMI與瘦素,(非標準化偏回歸系數(shù))生物學意義為BMI、瘦素增加,脂聯(lián)素含量是下降的,(標準化偏回歸系數(shù))瘦素的影響作用大于BMI的影響。最終得到對脂聯(lián)素有意義的影響因素為BMI與瘦素,(非標準化偏思考多元線性回歸中應變量Y是什么類型的變量?偏回歸系數(shù)與標準偏回歸系數(shù)的意義控制混雜因素有哪些方法?方差分析與t檢驗在多元線性回歸分析中的作用有何不同?變量篩選有哪些方法?在應用逐步法篩選變量時是不是一定取alpha=0.05?如何選?。克伎级嘣€性回歸中應變量Y是什么類型的變量?第二部分Logistic回歸本方法教學要求適用資料回歸方程表達偏回歸系數(shù)與比數(shù)比OR模型檢驗與偏回歸系數(shù)檢驗啞變量設置變量篩選應用第二部分Logistic回歸本方法教學要求Logistic回歸分析思路同多元線性回歸要考慮和解決如下幾個問題:1、Y中的1,0的比例,比例接近0或1都不好2、模型的全局檢驗,似然比檢驗LR(多元線性回歸是ANOVA)3、方程中每個系數(shù)的檢驗:wald或LR,多元線性回歸是t-test)4、變量篩選:向前,向后(條件LR,LR,Wald)5、個體概率預測,判斷Logistic回歸分析思路同多元線性回歸適用資料應變量Y為二分類:二元Logistic回歸Y為無序多分類:多項Logistic回歸Y為有序多分類:有序Logistic回歸自變量類型不限,變量個數(shù)單個多個均可本次課只講二分類Logistic回歸,且是完全隨機設計資料,因此也稱非條件Logistic回歸適用資料應變量Y為二分類:二元Logistic回歸23回歸方程表達P為發(fā)病的概率,0≤P≤1,廣義線性模型。Log,就是自然對數(shù)ln;ex,可寫成exp(x)

23回歸方程表達P為發(fā)病的概率,0≤P≤1,廣義線性模型。偏回歸系數(shù)計算基本原理:極大似然法(Maximumlikelihood,ML)要求lnL達到最大。偏回歸系數(shù)計算基本原理:極大似然法(Maximumlike25復習:優(yōu)勢odds與優(yōu)勢比oddsratio優(yōu)勢(比勢)為某病患者(或非患者)某暴露因素存在的比例P(E)和不存在的比例(1-P(E))的比例。Odds=P(E)/[1-P(E)]25復習:優(yōu)勢odds與優(yōu)勢比oddsratio優(yōu)勢(比勢26優(yōu)勢比oddsratio,OR患者與非患者某因素優(yōu)勢的比值被稱作優(yōu)勢比(比數(shù)比)。OR=odds1/odds0

例病人有超重或肥胖史(BMI>=25)的優(yōu)勢

odds1=(1656/2987)/(1331/2987)=1.2442非病人有超重或肥胖史史的優(yōu)勢Odds0=2492/5461=0.4563OR=odds1/Odds0=1.2442/0.4563=2.727

高血壓1非病人0合計超重或肥胖11656a2492b4148正常01331c5461d6792合計298779531094026優(yōu)勢比oddsratio,OR患者與非患者某因素優(yōu)勢的272728若y=1為disease,y=0為non-disease,有28若y=1為disease,y=0為non-disease29高血壓1非病人0合計超重或肥胖11656a2492b4148正常01331c5461d6792合計2987795310940

29高血壓1非病人0合計超重或肥胖11656a2492b30回歸系數(shù)的解釋logistic回歸中的系數(shù),與OR的關系:=ln(OR)設P1為X=1的得病概率,P0為X=0的得病概率30回歸系數(shù)的解釋logistic回歸中的系數(shù),與OR的關31模型檢驗與偏回歸系數(shù)檢驗

似然比檢驗(likelihoodtest)

似然比檢驗是通過比較兩個相嵌套模型的對數(shù)似然函數(shù)統(tǒng)計量G(又稱Deviance)來進行的,其統(tǒng)計量為:

G=GP-GK

=-2ln(LP)+2ln(LK)G服從自由度為K-P的2分布。所以似然比檢驗既可對模型進行整體檢驗,又可以對每個(引進/剔除)的變量進行檢驗

31模型檢驗與偏回歸系數(shù)檢驗

似然比檢驗(likelihoo32似然比檢驗檢驗變量X1是否有統(tǒng)計學意義:模型1:不考慮,-2lnL1=12827.236模型2:考慮X,-2lnL2=12301.503G=-2lnL1-(-2lnL2)L為對數(shù)似然函數(shù)值

G=12301.503-12827.236=174.267,

=1,P<0.001說明回歸系數(shù)β具有統(tǒng)計學意義。32似然比檢驗檢驗變量X1是否有統(tǒng)計學意義:333334(偏)回歸系數(shù)wald檢驗34(偏)回歸系數(shù)wald檢驗SPSS軟件操作分析→回歸→二元logistic回歸→因變量:C協(xié)變量:r→選項→確定SPSS軟件操作分析→回歸→二元logistic回歸→因變量36多分類變量:啞變量(dummyvariable)x=1時:x1=0,x2=0,x3=0表示A型血x=2時:x1=1,x2=0,x3=0表示B型血x=3時:x1=0,x2=1,x3=0表示AB型血x=4時:x1=0,x2=0,x3=1表示O型血exp(1)表示B與A比之OR;exp(2)表示AB與A比之OR;exp(3)表示O與A比之OR。36多分類變量:啞變量(dummyvariable)例為研究居民兩周患病未治療的影響因素,采用多階段分層整群抽樣,對某地11790名農(nóng)村居民進行了入戶調(diào)查,調(diào)查內(nèi)容包括性別x1(男:0女:1)年齡x2(<5歲:1;5歲~:2;15歲~:3;45歲~:4;65歲~:5)年人均收入x3(不低于平均水平:0;低于平均水平:1)醫(yī)療保障x4(有:0無:1)到就近醫(yī)療點時間x5(<10分鐘:1;10分鐘~:2;30分鐘~:3)自感疾病嚴重程度x6(不嚴重:1;一般:2;嚴重:3)發(fā)病時間x7(急性病兩周內(nèi)發(fā)生:1,急性病兩周前發(fā)生延續(xù)到兩周內(nèi):2,慢性病持續(xù)到兩周內(nèi):3)、就診Y(就診:0,未就診:1)。11790名居民中,調(diào)查前二周患者1649人,其中未就醫(yī)者720人。例為研究居民兩周患病未治療的影響因素,采用多階段分層整群38P386例20-238P386例20-239逐步法39逐步法4040操作步驟analyze→regression→binarylogistic→depedent:ycovariates:x1-x7→categorical:x7→continue→method:backwardLR→options:entry0.02,removal0.05

→continue→ok操作步驟analyze→regression→binary樣本含量估計在多重線性回歸分析中,若復相關系數(shù)大于0.5時,一般樣本量n是研究變量數(shù)m的10~20倍。也可以根據(jù)公式估計Logistic回歸要求樣本量是自變量數(shù)的20倍;或在陽性率小于50%時每個自變量至少需要10個陽性結果。樣本含量估計在多重線性回歸分析中,若復相關系數(shù)大于0.5時,復習思考1、Logistic回歸應變量是什么?2、Logistic回歸系數(shù)的流行病學解釋3、OR值的解釋與暴露因素及Y的設置有關嗎?4、為什么要進行變量篩選?5、最終進入方程的變量取決于哪些因素?復習思考第三部分醫(yī)學隨訪資料的統(tǒng)計分析方法-生存分析

survivalanalysis44.第三部分醫(yī)學隨訪資料的統(tǒng)計分析方法-生存分析

surviva問題1如果甲藥治愈率為80%,療程1月乙藥治愈率為90%,療程3月.

哪個更好?158例經(jīng)手術治療大腸癌患者臨床病理因素及5年生存狀態(tài).如果有人沒觀察滿5年,

4年時死于其他原因,這個人的信息可否利用?45問題1如果甲藥治愈率為80%,療程1月158例經(jīng)手術治療大問題2如何計算平均數(shù)

手術到死亡時間

371520252630

平均生存時間mean=1839152025+2730+

中位生存時間median=2046問題2如何計算平均數(shù)

手術到死亡時間46以30天為界的分類結果: 死亡 生存A 6 2 B 4 4

完全數(shù)據(jù)的均數(shù):Mean(A)=12.5Mean(B)=11.0

問題3這個數(shù)據(jù)如何分析?A

3 6 8 10 22 26

30+30+

B 6 8 10 20 30+30+30+30+

?

47以30天為界完全數(shù)據(jù)的均數(shù):問題3這個數(shù)據(jù)如何分析?A數(shù)據(jù)特點結局不僅取決于有效/無效,還與起效時間長短有關時間不僅有完全數(shù)據(jù),還有不完全數(shù)據(jù)(截尾數(shù)據(jù),刪失數(shù)據(jù))生存數(shù)據(jù)常常是偏態(tài)的生存分析48數(shù)據(jù)特點結局不僅取決于有效/無效,還與起效時間長短有關486例膀胱腫患者術后生存時間記錄表某醫(yī)師收集了1996-2000年間經(jīng)手術治療的膀胱腫癌患者,其中術后生存時間以月為單位,研究可能影響的3個因素:年齡(歲)、分級(1=I級,2=II級,3=III級),腫癌大小(1=<3,2=≥3),是否復發(fā)(1=是,0=否)496例膀胱腫患者術后生存時間記錄表某醫(yī)師收集了1996-200生存資料基本概念

起點事件與終點事件(結局)生存時間(過程)截尾值50生存資料基本概念

起點事件與終點事件(結局)50基本概念起點事件與終點事件生存時間暴露因素疾病確診—死亡治療開始—痊愈手術—死亡或痊愈癥狀緩解—疾病惡化接觸毒物-出現(xiàn)毒性反映臨床試驗開始—不良反應接觸危險因素—發(fā)病小白鼠染毒—中毒死亡開始戒煙—再次吸煙結婚登記—第一次離婚51基本概念起點事件與終點事件疾病確診—死亡51生存時間(survivaltime)失效時間(failuretime)廣義:從起點事件到終點事件所經(jīng)歷的時間跨度。其包括三個內(nèi)容:事件的起點、事件的終點及測量單位(小時、日、月、年等)

52起點事件終點事件生存時間生存時間(survivaltime)失效時間(failur完全數(shù)據(jù)與刪失數(shù)據(jù)完全數(shù)據(jù)(Completedata)刪失數(shù)據(jù),截尾數(shù)據(jù)(Censoreddata)終點數(shù)據(jù)沒有發(fā)生失訪/脫落(losttofollow-up,

drop-out)其他競爭性事件治療措施改變53完全數(shù)據(jù)與刪失數(shù)據(jù)完全數(shù)據(jù)(Completedata)53生存資料的統(tǒng)計分析方法

統(tǒng)計描述:生存率及其標準誤統(tǒng)計推斷:總體生存率的可信區(qū)間估計;兩樣本或多樣本生存率比較生存過程的影響因素分析54生存資料的統(tǒng)計分析方法

統(tǒng)計描述:生存率及其標準誤54生存資料的統(tǒng)計描述生存概率與死亡概率survivalprobability,deadprobability生存率survivalfunction,cumulativesurvivalprobability半數(shù)生存時間mediansurvivaltime55生存資料的統(tǒng)計描述生存概率與死亡概率survivalpr生存資料的統(tǒng)計推斷生存率的估計—小樣本的乘積極限法product-limitmethod(Kaplan-Meier法)—大樣本的壽命表法life-tablemethod

生存曲線的比較—log-rank檢驗56生存資料的統(tǒng)計推斷生存率的估計56生存曲線下降速度快表現(xiàn)為坡度大、曲線陡峭,說明其生存率較低或生期較短;若下降速度慢表現(xiàn)為坡度小、曲線平緩,說明其生存率較高或生期較長。57生存曲線下降速度快表現(xiàn)為坡度大、曲線陡峭,說明其生存率較低或中位生存期或半數(shù)生存期

mediansurvivaltime仍有半數(shù)觀察個體存活的時間。數(shù)值求解圖表法-通過生存率為50%從生存曲線粗略估計線性內(nèi)插法interpolation若中位生存期越長,疾病預后越好;反之,預后越差。58中位生存期或半數(shù)生存期

mediansurvivalti生存率曲線的比較log-rank檢驗(對數(shù)秩檢驗)兩時點生存率的比較生存率及標準誤均有截尾值,所以不能用普通的二項分布的Z檢驗或分類資料的卡方檢驗比較兩樣本生存率。59生存率曲線的比較log-rank檢驗(對數(shù)秩檢驗)59對數(shù)秩檢驗的條件:

要求各生存曲線不能交叉;交叉提示可能存在混雜因素,應采用多因素分析方法來校正或采用分層分析方法。60對數(shù)秩檢驗的條件:6061Cox回歸比例風險回歸模型(proportionalhazardsregressionmodel)簡稱COX回歸研究協(xié)變量與生存函數(shù)(風險函數(shù))之間的關系。

61Cox回歸比例風險回歸模型(proportionalh比例風險回歸模型62H(t)

t時刻的風險函數(shù)(hazardfunction);h0(t)為基準風險函數(shù),與時間有關,任意分布;比例風險(proportionalhazard,PH)假設:任一時刻兩組風險比是常數(shù),比例系數(shù)為exp(.)比例風險回歸模型62H(t)t時刻的風險函數(shù)(hazar風險比(HazardRatio,

HR)風險比(HazardRatio,

HR)同一時點兩組風險函數(shù)之比63風險比(HazardRatio,HR)風險比(Hazar41名某惡性腫瘤病人的生存時間及其影響因素

6441名某惡性腫瘤病人的生存時間及其影響因素

6441名某惡性腫瘤病人的多變量Cox回歸結果

6541名某惡性腫瘤病人的多變量Cox回歸結果

65生存資料的基本要求隨機樣本,數(shù)量足夠死亡例數(shù)不能太少截尾比例不能太大生存時間盡可能精確,如‘日’66生存資料的基本要求隨機樣本,數(shù)量足夠66作業(yè)請從應變量類型、模型表達形式、回歸系數(shù)解釋小結多元線性回歸、logistic回歸與Cox回歸三個多因素分析方法為什么要設置啞變量?作業(yè)請從應變量類型、模型表達形式、回歸系數(shù)解釋小結多元線性回以下是logistic回歸分析結果,試解釋結果x2年齡:<5歲=1;5歲~=2;15歲~=3;45歲~=4;65歲~=5);x6自感疾病嚴重程度:不嚴重=1;一般=2;嚴重=3;x7發(fā)病時間:急性病兩周內(nèi)發(fā)生=1,

急性病兩周前發(fā)生延續(xù)到兩周內(nèi)=2慢性病持續(xù)到兩周內(nèi)=3;Y就診

就診=0,未就診=1以下是logistic回歸分析結果,試解釋結果多因素分析多元線性回歸Logistic回歸生存分析.多因素分析多元線性回歸.第一部分多元線性回歸簡單線性回歸只考慮一個X對Y的影響;多元線性回歸(multiplelinearregression)考慮多個自變量X對Y的影響此時要考慮:1.Y是否滿足LINE2.所建回歸方程是否有意義:AVOVA3.回歸方程中的每個自變量是否都有意義:t檢驗4.如何獲得變量最少,解釋Y變異又較多的方程?

篩選變量方法第一部分多元線性回歸簡單線性回歸只考慮一個X對Y的影響;7130名糖尿病患者脂聯(lián)素ADI(Y,ng/ml)與體重指數(shù)BMI(x1,kg/m2)、病程(x2,year)、瘦素LEP(x3,ng/ml)、空腹血糖FPG(x4,mmol/L)關系分析330名糖尿病患者脂聯(lián)素ADI(Y,ng/ml)與體重指數(shù)B72根據(jù)樣本得到的回歸方程偏回歸系數(shù)

partialregressioncoefficient表示在其他自變量固定條件下,某自變量每增減一個單位對y的平均效應影響。標準化偏回歸系數(shù)(standardized~),表示在其他自變量固定條件下,某自變量每增減一個標準單位,y改變的平均標準單位數(shù)。其大小反映了該自變量的重要性多因素的分析更加切合實際;提高回歸方程的估計精度;從多個可能的因素中選擇真正有意義的因素4根據(jù)樣本得到的回歸方程偏回歸系數(shù)partialregr偏回歸系數(shù)的計算:最小二乘原理假設檢驗:偏回歸系數(shù)檢驗-t檢驗模型整體檢驗-方差分析前提條件:線性、獨立性、正態(tài)性、方

差相等,LINE

偏回歸系數(shù)的計算:最小二乘原理SPSS操作步驟分析→回歸→線性→因變量:Y;自變量:x1-x4→ok體重指數(shù)病程瘦素空腹血糖-1.030意思為在x2、x3、x4為給定值的情況下,體重指數(shù)每增加一個單位,脂聯(lián)素平均減少1.030

(ng/ml)Foragivenx2,x3,x4,each1kg/m2increaseinx1isassociatedwithanaveragedecreaseinYof1.030ng/ml.SPSS操作步驟分析→回歸→線性→因變量:Y;自變量:x1-方程的假設檢驗整個模型的假設檢驗:方差分析法(ANOVA)F=17.000,P<0.001,拒絕H0,以下模型是有意義的.方程的假設檢驗整個模型的假設檢驗:方差分析法(ANOVA是不是每個自變量的偏回歸系數(shù)均有統(tǒng)計學意義呢?t檢驗

N為個體數(shù),k為自變量個數(shù)并不是每個自變量都有意義!,在alpha=0.05,x1x2x4三個變量沒有統(tǒng)計學意義是不是每個自變量的偏回歸系數(shù)均有統(tǒng)計學意義呢?t檢驗

N為個自變量篩選常用方法Allpossiblesubsetsselection最優(yōu)子集回歸,全局擇優(yōu)法Stepwiseselectioninclude逐步回歸法forwardselection前向選擇backwardelimination后向選擇stepwiseregression逐步選擇77.由于變量之間是有關聯(lián)的,因此并不是簡單地將三個變量從方程中去除!自變量篩選常用方法Allpossiblesubsets78一最優(yōu)子集法

最優(yōu)子集法是對自變量各種不同的組合所建立的回歸方程進行比較,從而選出一個“最優(yōu)”的回歸方程。10一最優(yōu)子集法79評價指標:1殘差平方和與決定系數(shù)殘差平方和越小越好,R2越大越好11評價指標:1殘差平方和與決定系數(shù)殘差平方和越小越好,R802殘差均方與調(diào)整確定系數(shù)考慮了引入變量的個數(shù)p122殘差均方與調(diào)整確定系數(shù)考慮了引入變量的個數(shù)p813Cp統(tǒng)計量(Cpstatistic)

由MallowsCL.提出。當p個自變量擬合的方程理論上“最優(yōu)”時,Cp的期望值為p+1,因此應選擇Cp越接近于p+1的回歸方程為“最優(yōu)”方程。133Cp統(tǒng)計量(Cpstatistic)由Mal82SAS運行結果14SAS運行結果二、逐步回歸法向后法(刪)向前法(進)逐步法方程方程方程規(guī)定進入,保留(刪)的P值,且要求P進<P刪,P值大小如何選?。孔宰兞靠蛑凶兞咳窟M入方程強迫刪除二、逐步回歸法向后法向前法逐步法方程方程方程規(guī)定進入,保留(多因素分析課件多因素分析課件最終得到對脂聯(lián)素有意義的影響因素為BMI與瘦素,(非標準化偏回歸系數(shù))生物學意義為BMI、瘦素增加,脂聯(lián)素含量是下降的,(標準化偏回歸系數(shù))瘦素的影響作用大于BMI的影響。最終得到對脂聯(lián)素有意義的影響因素為BMI與瘦素,(非標準化偏思考多元線性回歸中應變量Y是什么類型的變量?偏回歸系數(shù)與標準偏回歸系數(shù)的意義控制混雜因素有哪些方法?方差分析與t檢驗在多元線性回歸分析中的作用有何不同?變量篩選有哪些方法?在應用逐步法篩選變量時是不是一定取alpha=0.05?如何選???思考多元線性回歸中應變量Y是什么類型的變量?第二部分Logistic回歸本方法教學要求適用資料回歸方程表達偏回歸系數(shù)與比數(shù)比OR模型檢驗與偏回歸系數(shù)檢驗啞變量設置變量篩選應用第二部分Logistic回歸本方法教學要求Logistic回歸分析思路同多元線性回歸要考慮和解決如下幾個問題:1、Y中的1,0的比例,比例接近0或1都不好2、模型的全局檢驗,似然比檢驗LR(多元線性回歸是ANOVA)3、方程中每個系數(shù)的檢驗:wald或LR,多元線性回歸是t-test)4、變量篩選:向前,向后(條件LR,LR,Wald)5、個體概率預測,判斷Logistic回歸分析思路同多元線性回歸適用資料應變量Y為二分類:二元Logistic回歸Y為無序多分類:多項Logistic回歸Y為有序多分類:有序Logistic回歸自變量類型不限,變量個數(shù)單個多個均可本次課只講二分類Logistic回歸,且是完全隨機設計資料,因此也稱非條件Logistic回歸適用資料應變量Y為二分類:二元Logistic回歸91回歸方程表達P為發(fā)病的概率,0≤P≤1,廣義線性模型。Log,就是自然對數(shù)ln;ex,可寫成exp(x)

23回歸方程表達P為發(fā)病的概率,0≤P≤1,廣義線性模型。偏回歸系數(shù)計算基本原理:極大似然法(Maximumlikelihood,ML)要求lnL達到最大。偏回歸系數(shù)計算基本原理:極大似然法(Maximumlike93復習:優(yōu)勢odds與優(yōu)勢比oddsratio優(yōu)勢(比勢)為某病患者(或非患者)某暴露因素存在的比例P(E)和不存在的比例(1-P(E))的比例。Odds=P(E)/[1-P(E)]25復習:優(yōu)勢odds與優(yōu)勢比oddsratio優(yōu)勢(比勢94優(yōu)勢比oddsratio,OR患者與非患者某因素優(yōu)勢的比值被稱作優(yōu)勢比(比數(shù)比)。OR=odds1/odds0

例病人有超重或肥胖史(BMI>=25)的優(yōu)勢

odds1=(1656/2987)/(1331/2987)=1.2442非病人有超重或肥胖史史的優(yōu)勢Odds0=2492/5461=0.4563OR=odds1/Odds0=1.2442/0.4563=2.727

高血壓1非病人0合計超重或肥胖11656a2492b4148正常01331c5461d6792合計298779531094026優(yōu)勢比oddsratio,OR患者與非患者某因素優(yōu)勢的952796若y=1為disease,y=0為non-disease,有28若y=1為disease,y=0為non-disease97高血壓1非病人0合計超重或肥胖11656a2492b4148正常01331c5461d6792合計2987795310940

29高血壓1非病人0合計超重或肥胖11656a2492b98回歸系數(shù)的解釋logistic回歸中的系數(shù),與OR的關系:=ln(OR)設P1為X=1的得病概率,P0為X=0的得病概率30回歸系數(shù)的解釋logistic回歸中的系數(shù),與OR的關99模型檢驗與偏回歸系數(shù)檢驗

似然比檢驗(likelihoodtest)

似然比檢驗是通過比較兩個相嵌套模型的對數(shù)似然函數(shù)統(tǒng)計量G(又稱Deviance)來進行的,其統(tǒng)計量為:

G=GP-GK

=-2ln(LP)+2ln(LK)G服從自由度為K-P的2分布。所以似然比檢驗既可對模型進行整體檢驗,又可以對每個(引進/剔除)的變量進行檢驗

31模型檢驗與偏回歸系數(shù)檢驗

似然比檢驗(likelihoo100似然比檢驗檢驗變量X1是否有統(tǒng)計學意義:模型1:不考慮,-2lnL1=12827.236模型2:考慮X,-2lnL2=12301.503G=-2lnL1-(-2lnL2)L為對數(shù)似然函數(shù)值

G=12301.503-12827.236=174.267,

=1,P<0.001說明回歸系數(shù)β具有統(tǒng)計學意義。32似然比檢驗檢驗變量X1是否有統(tǒng)計學意義:10133102(偏)回歸系數(shù)wald檢驗34(偏)回歸系數(shù)wald檢驗SPSS軟件操作分析→回歸→二元logistic回歸→因變量:C協(xié)變量:r→選項→確定SPSS軟件操作分析→回歸→二元logistic回歸→因變量104多分類變量:啞變量(dummyvariable)x=1時:x1=0,x2=0,x3=0表示A型血x=2時:x1=1,x2=0,x3=0表示B型血x=3時:x1=0,x2=1,x3=0表示AB型血x=4時:x1=0,x2=0,x3=1表示O型血exp(1)表示B與A比之OR;exp(2)表示AB與A比之OR;exp(3)表示O與A比之OR。36多分類變量:啞變量(dummyvariable)例為研究居民兩周患病未治療的影響因素,采用多階段分層整群抽樣,對某地11790名農(nóng)村居民進行了入戶調(diào)查,調(diào)查內(nèi)容包括性別x1(男:0女:1)年齡x2(<5歲:1;5歲~:2;15歲~:3;45歲~:4;65歲~:5)年人均收入x3(不低于平均水平:0;低于平均水平:1)醫(yī)療保障x4(有:0無:1)到就近醫(yī)療點時間x5(<10分鐘:1;10分鐘~:2;30分鐘~:3)自感疾病嚴重程度x6(不嚴重:1;一般:2;嚴重:3)發(fā)病時間x7(急性病兩周內(nèi)發(fā)生:1,急性病兩周前發(fā)生延續(xù)到兩周內(nèi):2,慢性病持續(xù)到兩周內(nèi):3)、就診Y(就診:0,未就診:1)。11790名居民中,調(diào)查前二周患者1649人,其中未就醫(yī)者720人。例為研究居民兩周患病未治療的影響因素,采用多階段分層整群106P386例20-238P386例20-2107逐步法39逐步法10840操作步驟analyze→regression→binarylogistic→depedent:ycovariates:x1-x7→categorical:x7→continue→method:backwardLR→options:entry0.02,removal0.05

→continue→ok操作步驟analyze→regression→binary樣本含量估計在多重線性回歸分析中,若復相關系數(shù)大于0.5時,一般樣本量n是研究變量數(shù)m的10~20倍。也可以根據(jù)公式估計Logistic回歸要求樣本量是自變量數(shù)的20倍;或在陽性率小于50%時每個自變量至少需要10個陽性結果。樣本含量估計在多重線性回歸分析中,若復相關系數(shù)大于0.5時,復習思考1、Logistic回歸應變量是什么?2、Logistic回歸系數(shù)的流行病學解釋3、OR值的解釋與暴露因素及Y的設置有關嗎?4、為什么要進行變量篩選?5、最終進入方程的變量取決于哪些因素?復習思考第三部分醫(yī)學隨訪資料的統(tǒng)計分析方法-生存分析

survivalanalysis112.第三部分醫(yī)學隨訪資料的統(tǒng)計分析方法-生存分析

surviva問題1如果甲藥治愈率為80%,療程1月乙藥治愈率為90%,療程3月.

哪個更好?158例經(jīng)手術治療大腸癌患者臨床病理因素及5年生存狀態(tài).如果有人沒觀察滿5年,

4年時死于其他原因,這個人的信息可否利用?113問題1如果甲藥治愈率為80%,療程1月158例經(jīng)手術治療大問題2如何計算平均數(shù)

手術到死亡時間

371520252630

平均生存時間mean=1839152025+2730+

中位生存時間median=20114問題2如何計算平均數(shù)

手術到死亡時間46以30天為界的分類結果: 死亡 生存A 6 2 B 4 4

完全數(shù)據(jù)的均數(shù):Mean(A)=12.5Mean(B)=11.0

問題3這個數(shù)據(jù)如何分析?A

3 6 8 10 22 26

30+30+

B 6 8 10 20 30+30+30+30+

?

115以30天為界完全數(shù)據(jù)的均數(shù):問題3這個數(shù)據(jù)如何分析?A數(shù)據(jù)特點結局不僅取決于有效/無效,還與起效時間長短有關時間不僅有完全數(shù)據(jù),還有不完全數(shù)據(jù)(截尾數(shù)據(jù),刪失數(shù)據(jù))生存數(shù)據(jù)常常是偏態(tài)的生存分析116數(shù)據(jù)特點結局不僅取決于有效/無效,還與起效時間長短有關486例膀胱腫患者術后生存時間記錄表某醫(yī)師收集了1996-2000年間經(jīng)手術治療的膀胱腫癌患者,其中術后生存時間以月為單位,研究可能影響的3個因素:年齡(歲)、分級(1=I級,2=II級,3=III級),腫癌大小(1=<3,2=≥3),是否復發(fā)(1=是,0=否)1176例膀胱腫患者術后生存時間記錄表某醫(yī)師收集了1996-200生存資料基本概念

起點事件與終點事件(結局)生存時間(過程)截尾值118生存資料基本概念

起點事件與終點事件(結局)50基本概念起點事件與終點事件生存時間暴露因素疾病確診—死亡治療開始—痊愈手術—死亡或痊愈癥狀緩解—疾病惡化接觸毒物-出現(xiàn)毒性反映臨床試驗開始—不良反應接觸危險因素—發(fā)病小白鼠染毒—中毒死亡開始戒煙—再次吸煙結婚登記—第一次離婚119基本概念起點事件與終點事件疾病確診—死亡51生存時間(survivaltime)失效時間(failuretime)廣義:從起點事件到終點事件所經(jīng)歷的時間跨度。其包括三個內(nèi)容:事件的起點、事件的終點及測量單位(小時、日、月、年等)

120起點事件終點事件生存時間生存時間(survivaltime)失效時間(failur完全數(shù)據(jù)與刪失數(shù)據(jù)完全數(shù)據(jù)(Completedata)刪失數(shù)據(jù),截尾數(shù)據(jù)(Censoreddata)終點數(shù)據(jù)沒有發(fā)生失訪/脫落(losttofollow-up,

drop-out)其他競爭性事件治療措施改變121完全數(shù)據(jù)與刪失數(shù)據(jù)完全數(shù)據(jù)(Completedata)53生存資料的統(tǒng)計分析方法

統(tǒng)計描述:生存率及其標準誤統(tǒng)計推斷:總體生存率的可信區(qū)間估計;兩樣本或多樣本生存率比較生存過程的影響因素分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論