混雜偏倚-效應修正_第1頁
混雜偏倚-效應修正_第2頁
混雜偏倚-效應修正_第3頁
混雜偏倚-效應修正_第4頁
混雜偏倚-效應修正_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

混雜偏倚的識別與控制

一、混雜偏倚的概念

在病因研究中,當對所關心的某種暴露因素(E)與某種疾病(D)之間的關聯進行定量估計時,由于其他因子(F)的影響,致使E和D之間關聯的真實性被歪曲,關聯強度被放大或縮小,這種歪曲關聯真實性的作用被稱作混雜作用(confoundingeffect),起到混雜作用的因子被稱為混雜因子(confounder或confoundingfactor,F)。?混雜偏倚本質

√一種人為造成的偏倚√是在研究的設計階段未對混雜因子加以控制或資料分析時未能進行正確校正所致√是完全可以避免和控制的一種系統誤差?

混雜因子成立的條件(1)必須是所研究疾病的危險因素或保護性因素(2)必須和暴露因素之間存在統計學關聯(3)一定不是暴露因素與疾病因果鏈上的中間變量

二、混雜偏倚產生的機理

例:氡氣與肺癌的定群研究

?以RR值描述暴露于氡氣人群與不暴露于氡氣人群在肺癌發(fā)生頻率之間的關聯強度。

肺癌患者(D+)未患肺癌者(D–)

暴露于氡氣的人群(E)aba+b未暴露于氡氣的人群(ē)cdc+da/(a+b)RR=----------------------c/(c+d)以四格表的數據計算關聯強度指標RR值

?RR值的真實性評價

此RR值是否真實地反映了氡氣與肺癌之間的關聯強度,完全取決于下述條件:

(1)氡氣暴露人群(E)和未暴露人群(ē)之間在產生肺癌的易感性方面是否可比

(2)導致肺癌的其它危險因素在兩組人群之間的分布頻率是否可比?!癮”例肺癌的歸因可能性(來自暴露人群):(A)由氡氣所致

(B)由吸煙所致(研究者已知道的致肺癌因素)(C)由其它未知因素所致

“c”例肺癌的歸因可能性(來自非暴露人群):

(B)由吸煙所致

(C)由其它未知因素所致

?對RR值的解讀此相對危險度RR在本項研究中包含有三種效應:(A)氡氣的致癌效應

(B)吸煙的致癌效應

(C)其它未知因素的致癌效應

?RR值產生混雜偏倚的條件

(B)吸煙的致癌效應RRS≠1

(C)其它未知因素的致癌效應RRU≠1

?當吸煙的致癌效應RRS≠1時

下述情況下吸煙可導致該研究產生混雜偏倚:?研究設計階段:未保證吸煙者在兩人群中的均衡性?分析階段:未先將兩人群按吸煙和未吸煙分層,然后再按每一層去確定氡氣暴露和肺癌之間的關聯

該研究中混雜偏倚產生的機理:

是因為導致肺癌產生的另一因素吸煙在兩

組人群中分布不均衡。

三、混雜偏倚和混雜因子的判別

?根據專業(yè)知識確定研究中可能存在的混雜

因子

在流行病學研究中,混雜因子可分為兩類:

1.人口統計學因子:

年齡、性別、種族、職業(yè)、經濟收入、文

化水平等人口統計學指標,是經常遇到的

混雜因子。

2.暴露因素以外的其它危險因子:研究中混雜因子廣泛存在,表現形式多樣,

常常在隱匿中起到混雜作用。

?利用分層分析進行定量判別-以定群研究為例-分層分析:將研究人群按是否暴露于可疑

混雜因子F分類(最簡單可分為暴露與不

暴露兩組),然后再做單因素分析。

未分層資料的分析

cRR暴露人群(E)aba+b未暴露人群(ē)cdc+d患者(D+)非患者(D-)暴露人群(E)a1b1未暴露人群(ē)c1d1患者(D+)非患者(D-)aRR1aRR2

分層資料的分析

a2b2c2d2患者(D+)非患者(D-)

暴露第三因子F

未暴露第三因子FD+D-

E+a1b1E-c1d1D+D-

E+a2b2E-c2d2D+D-

E+abE-cdcRRaRR1aRR2F+F-

?用簡單公式描述:1.cRR=aRR2或aRR1:

F不是混雜因子,cRR值不存在F的混雜偏倚。2.cRRaRR2或aRR1:

F是混雜因子,cRR值存在F的混雜偏倚。

上述分析也可適用于病例對照的OR值分析。

四、混雜偏倚的方向根據偏倚的產生機理,當混雜因子對暴露與疾病之間的關聯產生歪曲時,混雜偏倚具有一定的方向性和大小。其方向可正可負,其作用可大可小,取決于E、F和D之間的關系。

?正混雜:cRR或cOR被放大,高于真實值

?負混雜:cRR或cOR被縮小,低于真實值

五、混雜偏倚的控制

(一)在設計階段進行控制

1.限制。

2.隨機分配:隨機分配又可細分為簡單隨機分配

和分層隨機分配(stratifiedrandomization)

兩種方式。

3.匹配(matching):匹配是最經常用于控制混

雜因子的方法。

?群體頻數匹配

指混雜因子發(fā)生的頻度在不同組應大致平橫;

?個體匹配

指按一個至數個混雜因子分層,為病例選擇同層

的對照,一個病例配的對照數多為1-4個。

?匹配的好處√可以有效地控制混雜因子的作用,提高研究結果的真實性;√在減少總樣本數的情況下得到結論,提高研究的效率。

?匹配的缺點:(A)難以對匹配掉的混雜因子及交互作用做深入分析;

(B)在病例對照調查中,用匹配的方法控制混雜經常低估暴露對疾病的作用,嚴重時會引起過度匹配(overmatching)的問題,掩蓋暴露的真實作用。

(C)過分苛刻的匹配,會使得部分病例找不到對照,致使信息浪費,使研究的效率反而降低。

(二)在分析階段控制混雜

1.分層分析:分層分析是按混雜因素分層后,分別就暴露對疾病的關聯做分析,可以使用Mantel-Haenszel方法在分析階段控制混雜因子。-可以評價在各層中暴露與疾病的關聯;-可整體估價用分層技術排除混雜后的暴露與疾病總的關聯強度。

例:食管癌病因研究—病例對照研究設計

因素病例對照年齡(歲)

25-111535-919045-4616755-7616665-5510675+1331均值60.050.2標準差9.214.3酒精(克/天)

0-2938640-7528080-5187120+4522均值84.944.4標準差48.431.9

食管癌病例組和對照組暴露因素分布

?對資料進行初步審查

(1)對照組年輕人比重大于病例組

(2)在病例組中,飲酒消耗量的均值大于對照組,且重度飲酒者的比例大于對照組

(3)年齡和飲酒之間呈現輕度的負相關根據上述資料和已往醫(yī)學知識,即食管癌在年齡大者中多見,推測年齡這一因素可能對判斷飲酒與食管癌之間的關聯起一定的混雜作用。

飲酒(E)→食管癌(D)

\∕年齡(F)

?計算未分層時總的比值比cOR

飲酒不飲酒計

食管癌病例96(a)104(b)200(n1)

對照109(c)666(d)775(n0)

計205(m1)770(m0)975(N)cOR=ad/bc=(96x666)/(104x109)=5.64

[(ad-bc)–0.5N]2(N–1)X2=--------------------------------------n0m0n1m1

=108.11df=1,P<0.0001cOR的95%可信限區(qū)間估計公式為:

lnORU,lnORL=EXP[lnOR±1.96x(Var(lnOR))1/2]

式中:

Var(lnOR)=1/a+1/b+1/c+1/d

lnORu,lnORL=1.730.34,

即:ORL=4.02,ORu=7.93年齡(歲)組別每日飲酒量aORi80克0-79克25-病例對照19010635-病例對照42651645.0545-病例對照2529211385.6755-病例對照4227341396.3665-病例對照191836882.5875+病例對照50831

?按可疑的混雜因子年齡分層計算每層比值比aOR

?比較cOR和aOR

發(fā)現cOR與多組aORi有較大不一致,提示年齡可能

起了一定混雜作用。

?用Mantel-Haenszel方法

計算調整年齡這一混雜因子影響后總的ORmh。

∑(aidi/Ni)

ORM-H=-----------------------∑(bici/Ni)∑(aidi/Ni)ORM-H=-----------------------∑(bici/Ni)(1x106/116)+(4x164/199)+…+(5x31/44)]ORM-H=--------------------------------------------------(0x9/116)+(2x26/199)+…+(8x0/44)]=5.158

?對分層后總的ORmh=5.158做X2檢驗

確定這一樣本來自OR=1的總體的概率,計算公式為:

(∑ai–∑Ai–1/2)2X2=-----------------------------------[∑Var(ai;OR=1)]

式中:ai為各年齡組中第一小格內的實際觀察值Ai為各年齡組中第一小格內理論值,其估計公式為:

m1in1iAi=---------------(1)Ni

Var(ai;OR=1)為來自總體OR=1的樣本分層后各層暴露病例數ai的方差,其計算公式為:

m1in1im0in0iVar(ai;OR=1)=-------------------------(2)Ni2(Ni–1)An1-Am1-An0-m1+An1n0m0m1

在特定的無效假設下,即H0:OR=1時,可根據

前述公式(1)計算理論值A:

m1in1iAi=--------------Ni

計算每一層內第一小格理論值Ai的結果如下:

25-歲組:A1=(10x1)/116=0.08635-歲組:A2=(30x9)/199=1.356······75+歲組:A7=(5x31)/44=1.477

每層的方差按述前公式(2)計算Var(a1;OR=1)如下:

25-歲組:Var(a1;OR=1)=(10x106x1x115)/1162X(116-1)=0.079

35-歲組:Var(a2;OR=1)=(30x169x9x190)/1992X(199-1)=1.106·········75+歲組:Var(a7;OR=1)=(5x39x13x31)/442X(44-1)=0.944

每層的Ai值和Var(ai;OR=1)值見下表:年齡(歲)aiAiVar(ai;OR=1)25-10.0860.07935-41.3561.10645-2511.6636.85855-4221.66810.67065-1912.6406.44975+51.4770.9449648.89026.106

代入上述X2公式,得:

(96–48.890–1/2)2X2=--------------------------------=83.2226.106df=1,P<0.0001

ORmh的95%可信限區(qū)間估計公式為:

ORu,ORL=ORmh[1±1.96/(x2)1/2]

式中:X2應為未作連續(xù)校正的值,該值為:

X2=(96-48.890)2/26.106=85.01;

以此帶入[1±1.96/(x2)1/2]計算得:

[1±1.96/(x2)1/2]=0.7874,1.2126

代入上式得:

ORu,ORL=5.1580.7876,5.1581.2126

=3.64,7.31

比較cOR和ORmh,顯示兩者有較小的差別,表明年

齡起輕微的混雜作用,經分層調整消除年齡的混

雜作用后,食管癌與飲酒之間的關聯為:ORmh=5.158,95%可信限為3.64-7.31。

2.多因素分析

-當分析多個因子的混雜效應時,會出現分層過多的現象,以至難于實現對混雜的調整;

-應用多因素分析方法可有效控制混雜因子的影響常用的方法有下述幾種。

(1)多元Logistic回歸分析和Cox回歸分析適用于因變量為二值函數(患病,不患病)的定

群研究病和例對照研究。(2)協方差分析

適用于因變量是一連續(xù)變量的資料分析。效應修正作用的識別與描述D+D-

E+a1b1E-c1d1D+D-

E+a2b2E-c2d2aRR1aRR2F+F-效應修正作用概念:外部因子改變了研究因素與疾病的關聯強度測量:如果aRR1≠aRR2,存在效應修正作用:如果aRR1=aRR2,不存在效應修正作用:

意義:探討病因

正交互作用:aRR1>aRR2

負交互作用:aRR1<aRR2年齡(歲)組別每日飲酒量aORi80克0-79克25-病例對照19010635-病例對照42651645.0545-病例對照2529211385.6755-病例對照4227341396.3665-病例對照191836882.5875+病例對照50831

第三因子年齡分層后計算的每層比值比aOR

各層aORi值不太一致,提示年齡可能是效應修正因子通過一致性χ2檢驗,確定層間差異是否有統計學意義

aORi一致性χ2檢驗公式為:

?式中理論值Ai(ORmh),是根據ORmh的值通過計算每個年齡組相應的四格表中ai的理論值所獲得,其值的計算可按下述公式解一元二次方程:(本例中ORmh=5.158,為調整混雜效應后總的OR值)

25-34歲組:

A1(115–10+A1)=(1–A1)(10–A1)x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論