版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第二章 ROC曲線分析概要本文先介紹了 ROC理論的一些基礎(chǔ)知識如特異度和靈敏度等,然后簡要介紹 了非參數(shù)ROC分析方法,并建立了ROC模型。最后介紹了 ROC曲線及在R軟件中的繪 制。2.1 ROC 分析的基本要素ROC分析的基本要素包括真陽性和假陽性也稱靈敏度和特異度,以及“金標 準”“金標準”劃分被測試者的真實狀態(tài)為對照組和病例組兩類。 常見的金標準 有跟蹤隨訪、活組織檢查、尸體解剖、手術(shù)探查等。雖然“金標準”沒有必要是 十全十美的,但“金標準”應與評價的診斷系統(tǒng)無關(guān),而且比要評價的診斷系統(tǒng) 更可靠?!敖饦藴省辈粔蛲昝罆r,可用采用 Bayesian 、模糊金標準、 EM估計等方 法解決。
2、對按照“金標準” 確定的二分類總體, 對照組和病例組分別用陰性和陽性表 示診斷試驗結(jié)果。假定總體樣本量是 N,診斷試驗的可能結(jié)果總共有四種:被測試者患病且被正確診斷為患病者, 被測試者無病且被錯誤診斷為患病者, 被測試 者無病且被正確診斷為無病者, 被測試者無病且被錯誤診斷為患病者。 我們可以 用一個 22的列聯(lián)表來表示它們之間的關(guān)系。“金標準”診斷結(jié)果患病者健康者合計陽性a( 真陽性)b(假陽性)a+b陰性c( 假陰性)d(真陰性)c+d合計a+cb+da+b+c+d=NabTPR= a+acFPR= b+bd在醫(yī)學研究中,診斷試驗準確度指標最常用的是靈敏度與特異度。靈敏度( sensiti
3、vity ),也叫真陽率( true positive rate ,即 - 假陰率 (FNR)=a+cTPR)是被 測試者患病且被正確診斷為患病者的樣本量在陽性總體中占的比例。 靈敏度值越 大,假陰率越小。據(jù)表2-1 其計算公式是: 靈敏度(sensitivity)= 真陽率(TPR)標準誤為: SETPR = ac/(a + c)3特異度(specificity ),也叫真陰率 (true non-positive rate ,即TNPR),特異度 (specificity) =真陰率(TNPR) = 1 -假陽率(FPR) =db+d是受試者無病且被正確診斷為無病者的樣本量占陰性總體的比例
4、。 假陽率( false positive rate,即FPR) = 1 - 特異度特異度值越大,假陽率越小。據(jù)表 2-1 其計算公式是:標準誤為: SEFPR = bd/(b + d)3假設(shè)二分類總體均服從正態(tài)分布, TPR、FPR、TNPR 和FNPR之間的關(guān)系可以 用圖2-1來描述。圖中 x = c 為截斷點(診斷閾值),為假陽率( FPR), 為假陰率( FNPR)。2.2 ROC 準確性評價指標的優(yōu)越性診斷試驗的準確性評價指標有正確率、靈敏度和特異度等。它們雖然都可以 反映診斷的準確性,但評價的效果不是很理想。正確率是被測試者被正確診斷的例數(shù)和所占總體的百分數(shù)。其計算公式是:正確百分
5、率 = a+ d 100%N標準誤是: SE正確百分率 = (a+ d)(b + c)/N 3正確百分率的不足之處:1很大程度上依賴患病率。例如,雖然患病率是 5%,如果判定所有樣本為健康者,也有可能有 95%的正確百分率;2受診斷閾值的限制;3沒有表示出假陽性和假陰性錯誤診斷所占的比例,沒有唯一性表示,即=TPR- FPR=a+cbb+d使有相同的正確百分率的兩個總體,也可能有十分不同的假陽性和假陰性?;诖?, 單獨計算靈敏度和特異度, 以彌補正確率的不足, 如果兩個指標的 值越高,診斷評價效果也就越好,其實不然。在對診斷系統(tǒng)做出比較時,如果單 獨使用靈敏度與特異度, 就會存在很大的不足:
6、這兩個指標依賴于診斷閾值 (或 截斷點),改變診斷閾值可以增加診斷的靈敏度, 但同時也減少了特異度; 反之, 如果增加診斷的特異度,則需要以減少靈敏度為代價。另外,有人提出的 Youden 指數(shù)、陽性似然比、 :真陽率與假陽率之比)和 陰性似然比等等。Youden指數(shù)是指真陽性率與假陽性率之差,計算公式為:Youden指數(shù)=靈敏度+特異度-1=真陽性率 -假陽性率其標準誤為: SEYouden 指數(shù) = ac 3 + bd 3 Youden 指數(shù) (a+c )3 (b+d )3陽性似然比( positive likelihood ratio 簡寫為: LR+)是真陽性率與假陽性率 之比,即靈敏
7、度與( 1-特異度)的比值,它是 ROC曲線某工作點對應的斜率。陰性似然比( negative likelihood ratio 簡寫為: LR-)是假陰性率與真陰性率 之比,即( 1-敏感度)與 特異度的比值。這些診斷指標綜合考慮了靈敏度和特異度, 但一個指標只對應于一個診斷閾值。當診斷閾值改變時,會得到不同的指標值,給診斷準確度的比較帶來不便。所以一般選擇陽性似然比或 Youden 指數(shù)最大者為最佳工作點。在評價整個診斷 方法的準確性時用 ROC 分析,當改變診斷閾值時, 可同時獲得靈敏度和特異度, 也就可以獲得 TPR 和 FPR 值。 ROC 曲線是以 FPR 為橫坐標和以 TPR 為
8、縱坐 標繪制而成,并且 ROC 曲線下的面積大小衡量了診斷系統(tǒng)的判別能力。2.3 ROC 曲線的構(gòu)建以假陽性率( FPR)為橫坐標、真陽性率( TRP)為縱坐標,形成正方形,在 圖上將 ROC工作點標出,并用線條將這些低昂依序連接起來構(gòu)建不光滑的ROC曲線。構(gòu)建光滑的曲線需要交涉對照組和病例組服從于某一分布(如正態(tài)分布、 Gamma分布等),用曲線擬合技術(shù)估計其參數(shù),直接用參數(shù)產(chǎn)生曲線。無論資料 類型如何,曲線一定通過( 0,0 )和(1,1 )兩點,這兩個點對應著靈敏度 =0,特 異度=1和靈敏度 =1,特異度=0.理論上診斷實驗都有 TPR=1,F(xiàn)PR=0。完全無價值 的診斷為 TPR=F
9、PR這, 條線條稱為幾率線( guessing line 或 chance line ),也 稱為無信息線( line of no information );ROC曲線對診斷的準確性采用同一尺度直觀地體現(xiàn)出來, 描述了診斷實驗對 正反兩種狀態(tài)的判別能力。 曲線上每一個點通過改變其診斷閥值 (截斷點)而得, 是靈敏度和特異度的折衷結(jié)果。 提高診斷標準則產(chǎn)生較低的靈敏度和較高的特異 度;降低診斷標準則產(chǎn)生較高的靈敏度和較低的特異度。 如果比較兩個診斷方法 的效果,則較高的 ROC曲線具有較好的診斷性能, 如果曲線交叉, 則通過計算曲 線下面積進行進一步比較。用 ROC曲線下面積 (記為 AZ)反
10、映診斷試驗的準確度, 它可以被看成是正確 決策的概率。該面積的取值范圍為( 0.5,1 ),完全無價值的診斷 AZ=0.5 ;完美的 診斷 AZ=1。習慣上認為 ROC曲線下面積為 0.50 0.70 ,表示診斷的準確度較低; 在 0.70 0.90 之間表示診斷的準確度中等; 面積達到 0.90 以上則表示診斷的準 確度較高。2.4 ROC 曲線的擬合方法ROC曲線的獲得是通過兩個不同的總體(正常組和異常組) ,它的橫軸和縱 軸(假陽性率和真陽性率)存在相關(guān)關(guān)系,因此不能假定它們來自單一的總體, 不能用一般非線性模型擬合。 ROC曲線擬合方法主要有雙正態(tài)模型參數(shù)法和非參 數(shù)法。除了主要的 R
11、OC分析方法外,有序回歸模型(包括位置尺度模型、比例優(yōu) 勢模型、 GEE法)、 COX比例風險模型等也可以擬合 ROC曲線、計算 ROC曲線下 面積以及標準誤。這些模型還考慮了協(xié)變量的混雜效應。2.4.1雙正態(tài)模型參數(shù)法雙正態(tài)模型假定正常組和異常組都服從正態(tài)分布。 當前該模型在 ROC分析上 比較完善,可以處理不同的 ROC資料,獲得光滑的 ROC曲線。當樣本量較大時, 有序分類數(shù)大于 5 時,該模型獲得的結(jié)果是比較可靠的。但是當樣本量較少時, 雙正態(tài)模型擬合會產(chǎn)生退化資料, ML估計會迭代不收斂。按“金標準” 將實驗對象劃分為正常組和異常組, 假設(shè)它們分別服從總體均 值為0、 1 (0 ?正
12、| 常 = 1 - (0 )0真陽性率為:t - 1TPR= Pr?1 ?異| 常 = 1- (1 )1其中?0?、?1分別表示正常組和異常組的實驗測量值或有序分類之; t 為截斷 點,實驗測量值 xt, 診斷為陽性, xt 診斷為陰性;( )為標準正態(tài)累積分布函數(shù)。令 t = 0 + 0 -1 (1 - FPR), 則有:1 - 00 -1TPR= ( 1 0) + 0-1 (FPR) 11令a= 1-0,b =10, 則上式可寫為: 1-1TPR= a+ b-1 (FPR),0 FPR1其中 -1 ( ?)為標準正態(tài)離差值A(chǔ)Z = a1+ b2參數(shù)a、b通過極大似然法maximum lik
13、elihood,ML)估計整個ROC曲線下面積為:2.4.2非參數(shù) ROC擬合方法非參數(shù)法主要有: Hanley 和 McNeil 法、 Delong 和 Clarke-Pearson 法。非 參數(shù)法對正常組和異常組的分布沒有要求, 它們可以充分利用所有的截斷點, 對 連續(xù)性樣本量沒有大小的顯著, 不會出現(xiàn)計算結(jié)果不收斂的情況。 當截斷點 (或 有序分類)大于 5 時,結(jié)果比較理想,當截斷點不斷增加時, ROC曲線將逐漸向 光滑參數(shù)曲線靠攏。Hanley 和 McNeil 非參數(shù)法假設(shè)正常組的觀察值個數(shù)為 n0, 記作 x1j(j = 1,2,? , n0) ;異常組的觀察值個 數(shù)為 n1,
14、記 作x0i(i = 1,2,? ,n1)。異 常組 的觀 察值 更大 ,根據(jù) WilcoxonMann-Whitney 統(tǒng)計量, ROX曲線下面積(AZ)等于異常組每個觀測值大于正常組 每個觀測值的概率。即AZ的標準誤為:SE(AZ) = AZ(1- AZ)+ (n1- 1)(Q1n-nAZ2) +(n0- 1)(Q2- AZ2)n1n0其中Q1是兩個隨機隨著的異常組觀測值比一個隨機選擇的正常組觀察值都更大 可能分類為異常的概率。 Q2是一個隨機隨著的異常組觀測值比兩個隨機選擇的 正常組觀察值都更大可能分類為異常的概率。2.5基于非參數(shù)法的 ROC 分析基于本文實證分析采用的是非參數(shù)方法的
15、ROC模型,因此將在本小結(jié)著重介 紹下非參數(shù)法的 ROC分析。2.51 等級變量的非參數(shù) ROC分析 通常情況下,診斷系統(tǒng)獲得的原始資料的記錄有離散型和連續(xù)型兩種形式。許多生物醫(yī)學診斷試驗的測量工具是連續(xù)型的, 如血清抗原和酶濃度; 醫(yī)學影像 診斷試驗的診斷結(jié)果是離散型的。 n0n1 (x0i , x1j)j=1i=11x1j x0i0.5x1j =x0i0 x1j x0i(x 0i,x1j) =1 AZ = n1n0對于不同的形式, ROC曲線估計方法是相同的, 我們以離散型診斷結(jié)果為例。如果將診斷指標以有序分類的方式分成 k類,k = 1, , K 。其中 1類別 表示完全沒患病, K 類
16、別表示肯定患病。假設(shè)對于每一個分類類別 Y,有一個隱 藏的連續(xù)決策變量 X,將結(jié)果劃分到第 k 類中,如果決策變量 X在區(qū)間( k-1 ,k)FPR=N30 + N40 + N50N0異常組陽性個體數(shù)為N31+N41+N51,其真陽率為TPR=N31 + N41 + N51中,k = 1, , K; 0= -, k= + ;即當k-1 ? ?|?k = 1)n12.5.3連續(xù)變量的非參數(shù) ROC分析 若診斷結(jié)果為連續(xù)型變量,則處理方法與上面等級變量類似,設(shè)定閾值c,當yc時為陽性,當 yc時為陰性。那么,若設(shè)“金標準”為 K,則對于每一個閾 值 c,我們就能推斷出相應的真陽率 TPR(靈敏度)
17、和假陽率 FPR( 1 特異度), 設(shè)靈敏度為 Sen(c) ,特異度為 Spe(c) ,則有:FPR(c) = 1 -Spe(c) =in=01 I(yi ?|?k = 0)n0其中, n0為金標準 K=0時的樣本量,同理, n1為金標準 K=1時的樣本量。如上述所示,當變量為連續(xù)型時,每個 c都有對應的靈敏度和特異度,把 c 取遍此連續(xù)型變量在樣本中的所有互異的觀測值, 把這些點對 FPR(c) ,TPR(c) 連成曲線便構(gòu)成 ROC曲線。2.6 ROC 曲線間差異的顯著性檢驗ROC曲線提供了直觀比較兩個診斷方法準確性的方法, 較高的 ROC曲線具有 較好的診斷性能,但是如果曲線交叉,則無
18、法直觀地看出來,同時,直觀上看兩 條曲線有差異, 但是不一定是統(tǒng)計顯著的, 所以需要通過統(tǒng)計檢驗的方法進一步 檢驗兩種診斷方法的準確性是否有顯著差別。 采用參數(shù)法非參數(shù)法擬合 ROC曲線 有不同的檢驗方法。 對于雙正態(tài)模型方法擬合的 ROC曲線,可以采用雙變量參數(shù) 卡方檢驗(bivariate Chi-square test )、真陽性率 z 檢驗(TPRZ -score test )、 面積 z 檢驗( area z-score test )。2.6.1雙變量參數(shù)卡方檢驗檢驗兩診斷實驗的雙正態(tài)參數(shù)間有無差異。 假設(shè)兩個 ROC曲線的參數(shù)分別是(a1,b1)、( a2,b2)。原假設(shè):兩條雙正
19、態(tài) ROC曲線相同,即 a1 = a2,b1 = b2。 如果原假設(shè)成立,且參數(shù)估計值 ?a1,b?1,a?2,b?2為聯(lián)合正態(tài)分布。則檢驗統(tǒng)計 量為:22 = -1 ?服從自由度為 2 的卡方分布,其中 為行向量( a?1 - ?a2, b?1 - b?2), 是 22協(xié) 方差矩陣,矩陣元素:11 = Var( a?1 ) + Var( a?2 ) - 2Cov(a?1 ,a?2)22 = Var(b?1 ) + Var(b?2) - 2Cov(b?1 ,b?2)12 = 21 = Cox(?a1 ,b?1) + Cox(a?2 ,b?2) - Cox(a?1 ,b?2) - Cox(?a2
20、 ,b?1)2.6.2真陽性 z 檢驗 有時候想要研究的是在特定的假陽性率條件下, 兩條 ROC曲線上的真陽性率 是否相同。此時并不關(guān)心兩診斷實驗是否產(chǎn)生完全相同的 ROC曲線。此時,原假設(shè)為:在特定的FPR0 下,兩條 ROC曲線的 TPR 相等,即TPR1=TPR2=TPR0。當原假設(shè)成立,且 a?1 ,b?1,a?2 ,b?2為多變量正態(tài),則v = (FPR2) - (FPR1 ) = a2+ b2-1 (FPR0 ) - a1 + b1-1 ( FPR0 ) 服從均值為 0,標準差v = 11 - 2t 12 + t222的隨機正態(tài)分布。其中 -1t=-1 (1 - FPR0)。2.6
21、.2面積 z 檢驗該方法對 ROC曲線下面積間的差值做 z 檢驗來判斷兩個診斷實驗方法的準確 性。原假設(shè)為:兩條 ROC曲線下面積相等,即 Az1= Az2。,如果原假設(shè)成立,且樣 本量較大,則兩診斷 ROC曲線下面積的差值:?a1a?2v = Az1 - Az2 = - ( 1 + b?1 )( 1 + b?2 )近似服從均值為 0,方差為:442 ?v ?vv2 = (?) (?) Cov(?i,?j)j=1 i=1 i j的正態(tài)分布,其中 i : i = 1,2,3,4 = a1,a2,b1,b2,為ROC曲線的四個參數(shù)當兩個比較的診斷實驗相互獨立時,對應的所有交叉曲線協(xié)方差項等于 0.
22、Metz 等的研究表明,當正常組和異常組的樣本量都超過 50 時,以上檢驗的結(jié)果都是 可靠的。2.6.3非參數(shù)擬合 ROC曲線時,曲線下面積的比較利用 Hanley 和 McNeil 非參數(shù)法擬合 ROC曲線時,比較兩個 ROC曲線下面積 間是否有顯著差異時,可用檢驗統(tǒng)計量|Az1 - Az2 |z= SE12 + SE22 - 2rSE1SE2z 是標準正態(tài)的離差值, SE1和 SE2 是兩個實驗的標準誤,分別有上文計算公式得 到。r 是兩個 ROC曲線下面積間的相關(guān)系數(shù),計算正常組的兩診斷實驗間的相關(guān) 系數(shù)和異常組的兩診斷實驗間的相關(guān)系數(shù), 得到兩診斷實驗的平均相關(guān)系數(shù), 以 及平均面積,查表可得 r 值。2.7 ROC 曲線的統(tǒng)計軟件實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 車站裝修批蕩施工協(xié)議
- 防腐施工應急預案合同
- 互聯(lián)網(wǎng)項目招投標合同注意事項
- 化工行業(yè)招待費管理新方法
- 花藝助理勞動合同注意事項
- 供水供電收費管理:發(fā)票管理辦法
- 食品飲料輸送管道施工
- 2025版空置房屋閑置資源盤活利用合作開發(fā)合同3篇
- 臨時辦學場所租賃合同
- 2025版二零二五年度新能源充電樁建設(shè)與運營合同3篇
- 博士能數(shù)碼望遠鏡118326使用說明書
- 2021年12月英語六級聽力試題、原文及答案 兩套
- cad自定義線型、形定義線型、cad斜坡線學習
- 任上線立塔架線施工專項方案
- 139.華師《管理溝通》期末考試復習資料精簡版
- 小學英語不規(guī)則動詞表
- VIC模型PPT課件
- AQL2.5抽檢標準
- 征信知識測試題及答案
- JJF 1629-2017 烙鐵溫度計校準規(guī)范(高清版)
- 理想系列一體化速印機故障代碼
評論
0/150
提交評論