版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1生存分析 (10號) 21160311055 侯笛2目錄1概述2常用術語3分析方法4案例分析3概述4定義生存分析是研究生存現(xiàn)象和響應時間數(shù)據(jù)及其統(tǒng)計規(guī)律的一門學科。由于最初研究的關鍵事件是死亡,故稱為生存分析。生存分析是統(tǒng)計科學的重要分支,其研究的兩個重要變元為“事件”和“壽命”。事件:生存分析中定義的事件有死亡、損壞、失敗、解雇、病發(fā)等等。例如病人的死亡,產品的失效,疾病的發(fā)生,職員被解雇。壽命:從記錄開始到事件發(fā)生的時間。5特點生存分析的優(yōu)點在于其能夠處理刪失數(shù)據(jù)。生存分析的統(tǒng)計資料以生存時間為反應變量,此類資料的生存時間變量大多不服從正態(tài)分布,且由于刪失值的存在,不適合用傳統(tǒng)的分析方法
2、處理。此時就應選用生存分析的方法。6研究內容生存分析研究的內容主要有以下兩個方面: 一 對生存過程的描述 二 分析生存過程的影響因素并對生存的結局加以預測7應用領域生存分析雖然源自醫(yī)學領域,但其在生物學,保險學,可靠性工程學,經濟學,教育學,社會學等領域都有廣泛的應用。比如: 醫(yī)療科學中病人的去世 保險行業(yè)中的賠償 可靠性工程中產品的失效 金融領域中銀行賬戶從開立到取消的時間的研究 教育行業(yè)中學生的中途退學 客戶關系管理中的客戶流失8常用術語9生存數(shù)據(jù)生存分析中所分析的數(shù)據(jù)通常稱為分析數(shù)據(jù),一般度量的是某個事件發(fā)生所經歷的時間長度。生存數(shù)據(jù)可以分為完全數(shù)據(jù)和刪失數(shù)據(jù)。完全數(shù)據(jù):指提供了完整信息
3、的數(shù)據(jù)。例如,在研究產品的失效時間時,某個樣品從進入研究直到失效都在我們的觀察中,可以得到該樣品的具體失效時間,這就是一個完全數(shù)據(jù)。刪失數(shù)據(jù):是指在觀測期內,我們并沒有看見個體的狀態(tài)發(fā)生改變,無法確定個體具體的生存時間。又分為左刪失數(shù)據(jù),右刪失數(shù)據(jù),區(qū)間刪失數(shù)據(jù)。10ABCDE刪失數(shù)據(jù)示意圖起始 觀測時間區(qū)間 終止死亡死亡死亡未知退出完全數(shù)據(jù):A,觀測期內死亡右刪失數(shù)據(jù):B,觀測未終止時因故退出C,觀測終止時尚未死亡左刪失數(shù)據(jù):D,死亡時間在某一時刻之前,具體時間未知區(qū)間刪失數(shù)據(jù):E,死亡時間位于某一區(qū)間,具體時間未知11生存函數(shù)生存函數(shù)(survival function),又稱為累積生存率
4、,我們用符號T表示個體的生存時間(從開始記錄到事件發(fā)生的時間),用 t 表示觀測時間,將生存函數(shù)記作 S(t),是指個體生存時間大于 t 的概率。S(t)= P(T t ),顯然 S(t)是非升函數(shù),且S(0)= 1, S()= 0,12風險函數(shù)風險函數(shù)(hazard function),又稱為瞬時死亡率,記作 h(t)。是指在t時刻存活的個體,在t+ t 時刻死亡的概率。顯然,h(t)非負,且無上限。tttTtPlim =)t(h0t)(13分析方法14按照是否使用參數(shù),可以將生存分析中的分析方法分為三類:參數(shù)方法:若已經證明某事件的發(fā)展可以用某個參數(shù)模型很好地擬合,就可以用參數(shù)方法做該事件
5、的生存分析。常用的參數(shù)模型有指數(shù)分布模型、對數(shù)分布模型、正態(tài)分布模型,威泊分布模型等。非參數(shù)方法:當被研究事件不能被參數(shù)模型很好地擬合時,可以采用非參數(shù)方法研究它的生存特征。常用的非參數(shù)方法包括生命表分析和K-M分析。半?yún)?shù)方法:它比參數(shù)模型靈活,與非參數(shù)方法相比更容易對分析結果進行解釋。生存分析中使用的半?yún)?shù)模型是Cox比例風險模型。15非參數(shù)方法l生命表分析lK-M分析16生命表分析生命表分析將觀測時間分成時間段,按時間段逐個統(tǒng)計事件發(fā)生的情況,以此估計生存函數(shù)。假設共有k個時間段 t 0 , t 1) , t 1 , t 2) , , t k-1 , t k ) , 每個區(qū)間中事件發(fā)生的
6、次數(shù)分別為 d 1 ,d 2 , , d k , 每個區(qū)間中的個體總數(shù)分別為 n 1 , n 2 , , n k ,所以在第 i 個區(qū)間個體存活的概率為(n i - d i )/ n i ,而個體可以從第一個區(qū)間存活到第 i 個區(qū)間的概率(累積生存率)為: i = 1 , 2 , ,k ,且S(t)為遞減函數(shù)。ttint ()iiindS17K-M分析Kaplan-Meier分析,也稱為乘積極限分析,是Kaplan和Meier在1958年提出的一種估計生存函數(shù)的非參數(shù)方法。與生命表分析不同,K-M分析以事件發(fā)生的時間點將觀測區(qū)間分段,用來估計生存函數(shù)。下舉例說明其具體的分析過程。18 下表記錄
7、了5個實驗對象的存活時間,其中F代表失效,S代表存活,2和4為右刪失數(shù)據(jù)。用S(t)表示實驗對象的累積存活概率,分時間段計算如右:t0,31) :此區(qū)間5個實驗對象均存活,故 S(t)=5/5=1.31,65) :個體1在31小時死亡,故本區(qū)間 S(t)=14/5=0.865,150) :個體2在65小時退出實驗,本區(qū)間無個體死亡,S(t)=0.84/4=0.8.150,220) :個體3在150小時死亡,S(t)=0.82/3=0.53.220,300) :個體4在220小時退出實驗,本區(qū)間無個體死亡,S(t)=0.532/2=0.53.t=300時,個體5死亡,S(300)=019 以SP
8、SS對上例進行K-M分析,結果如下:1.輸入數(shù)據(jù)2.進行K-M分析20參數(shù)設置21輸出結果K-M分析生存函數(shù)圖22生命表分析與K-M分析的比較l生命表分析適用于大樣本的情況,特別是沒有個體數(shù)據(jù)的情形,主要優(yōu)點是對生存時間的分布沒有要求。lK-M分析中時間區(qū)間的劃分是以事件的發(fā)生為依據(jù)的,因此必須知道每個個體的生存時間數(shù)據(jù),適用于小樣本的情況。23半?yún)?shù)方法生存分析中我們常常遇到個體的生存狀況受到多種因素影響的情況。這些對生存時間有影響的變量稱為協(xié)變量。在分析生存數(shù)據(jù)時要將協(xié)變量的影響考慮進去。Cox半?yún)?shù)模型就很好地解決了這個問題。它假定風險函數(shù)由兩部分構成:基準風險函數(shù)和協(xié)變量線性組合的指數(shù)
9、。 Cox半?yún)?shù)模型又分為獨立協(xié)變量比例風險模型和時間相依性協(xié)變量比例風險模型兩種。二者的區(qū)別在于協(xié)變量的取值是否和時間有關。24Cox獨立協(xié)變量比例風險模型該模型可寫成如下形式:式中,Z1,Z2,Zm為協(xié)變量,這里的協(xié)變量與時間無關,1,2,m為對應協(xié)變量的未知參數(shù)。h 0(t)是基準風險函數(shù)。實際應用中常比較兩個不同個體風險函數(shù)的比率,即危險率??梢宰C明危險率為常數(shù),因此該模型又稱為比例風險模型。當協(xié)變量與時間有關時,危險率將不再是常數(shù),此時稱為時間相依性比例風險模型。)exp()(),(),(h2211021mmmzzzthzzzt25案例分析26l 兩組小白鼠用來檢驗癌癥的治療狀況。一
10、組使用傳統(tǒng)治療方法,另一組使用試驗方法,試驗人員記錄了小白鼠的存活時間及狀態(tài):Days為存活時間或觀測時間;Status表示生存狀態(tài),取值1表示死亡,0表示存活;Group表示治療方法,取0表示傳統(tǒng)療法,取1表示試驗療法,共有64組數(shù)據(jù)。27原始數(shù)據(jù)如下:28首先用生命表分析方法對數(shù)據(jù)進行處理:1.輸入數(shù)據(jù)2.選擇生命表分析293.設置參數(shù)304.輸出結果可以看出,大約在200天時兩種治療方法的生存函數(shù)相交,在200天以前傳統(tǒng)治療方法的存活率較高,而在200天以后試驗方法的治療效果明顯優(yōu)于傳統(tǒng)治療方法。中位數(shù)生存時間是生存率為50%時,生存時間的平均水平。從中位數(shù)生存時間來看,傳統(tǒng)治療方法的中
11、位數(shù)為241天,試驗方法的中位數(shù)為266天,明顯高于傳統(tǒng)治療方法??梢耘袛嘣囼灧椒ǖ寞熜啾葌鹘y(tǒng)治療方法有所提高。31用K-M方法對數(shù)據(jù)進行處理,結果如下:生存函數(shù)分布和生命表分析的結果相似。K-M方法可以記錄刪失數(shù)據(jù),且由于分段較多整體呈現(xiàn)密集的鋸齒,而生命表分析的分布則較為平緩。在結果檢驗上,不同檢驗方法結果有所差異,其中Log Rank檢驗的p值小于0.05,表明兩種治療方法有顯著性差異。32除了治療方法對小白鼠的生存狀況有影響,其他因素如性別,年齡,體重等都可能對其生存時間造成影響。加入這些數(shù)據(jù)后,用Cox獨立協(xié)變量比例風險模型重新分析。1.輸入數(shù)據(jù)2.設置參數(shù)333.輸出結果 分類變量是指不連續(xù)的變量,此例中治療方法的值只取0和1,性別只取F和M。不同于體重、年齡這些連續(xù)變量,分類變量在計算風險比例時以參考類別作為參照。如在本案例中治療方法這一因子以試驗方法作為參照。計算結果為傳統(tǒng)方法的風險率相對于參考的倍數(shù)。3435上表為模型系數(shù)的綜合檢驗結果??梢钥吹絧=0,小于0.05,說明這些因素中有些變量對白鼠的生存時間有顯著影響。36此表給出了各個變量的單個模型系數(shù)檢驗結果,可以看到體重變量的p=0,說明體重對風險函數(shù)有極顯著影響。體重每增加1(盎司),風險大約
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年皮膚分析系統(tǒng)行業(yè)市場現(xiàn)狀供需分析及重點企業(yè)投資評估規(guī)劃分析研究報告
- 2024-2030年版中國儲能產業(yè)發(fā)展態(tài)勢及投資規(guī)劃分析報告
- 2024-2030年橡膠制密封件公司技術改造及擴產項目可行性研究報告
- 2024-2030年新版中國鉸接式自卸卡車項目可行性研究報告
- 2024-2030年新版中國沼氣集氣設備項目可行性研究報告
- 2024-2030年堆肥撒布機行業(yè)市場現(xiàn)狀供需分析及重點企業(yè)投資評估規(guī)劃分析研究報告
- 2024-2030年全球及中國黑胡椒粉行業(yè)銷售現(xiàn)狀及前景趨勢預測報告
- 04年互聯(lián)網金融服務合同
- 2024-2030年全球及中國罐裝雞尾酒行業(yè)銷售模式及營銷策略分析報告
- 2024-2030年全球及中國石榴花提取物行業(yè)發(fā)展動態(tài)及供需前景預測報告
- 2024-2025學年八年級上學期期中考試地理試題
- 2019年湖南岳陽中考滿分作文《握手》3
- 危急值的考試題及答案
- 鼻竇炎圍手術期護理
- 浙江省北斗星盟2023-2024學年高二下學期5月階段性聯(lián)考數(shù)學試題2
- 統(tǒng)編版(2024新版)七年級《道德與法治》上冊第一單元《少年有夢》單元測試卷(含答案)
- 自然拼讀法-圖文.課件
- 2024中國長江電力股份限公司招聘高頻500題難、易錯點模擬試題附帶答案詳解
- 電商主播考勤管理制度
- 2024-2030年中國礦泉水行業(yè)發(fā)展趨勢及發(fā)展前景研究報告
- 商業(yè)銀行貴金屬業(yè)務消費者權益保護實施辦法
評論
0/150
提交評論