




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
流行病學數據的分析處理方法流行病學數據的分析處理方法第1頁2流行病學數據分析前準備工作
一、原始數據檢驗
在數據分析前需要對原始流行病學調查研究數據進行一次審查,發(fā)覺可能存在錯誤、遺漏研究變量取值和其它問題,并采取對應辦法進行處理。若在調查表中發(fā)覺有缺失數據,能夠經過電話再次問詢研究對象、查閱相關統(tǒng)計、應用儲存血液標本重新檢測或再次取樣等辦法進行補充。若發(fā)覺邏輯錯誤,也要及時更正。需要對調查問卷進行編碼或者對已編碼問卷進行核查,防止重復和遺漏。流行病學數據的分析處理方法第2頁3
二、選擇適當數據管理和數據分析軟件常見數據管理軟件
MicrosoftFoxPro、MicrosoftAccess、MicrosoftExcel
這些數據管理軟件也含有簡單數據分析功效,Excel數據分析功效更強,不但可實現描述性統(tǒng)計,還能夠做t檢驗、方差分析、相關回歸分析等常見數據分析軟件
SAS(StatisticalAnalysisSystem)和SPSS(StatisticalPackageforSocialScience),它們均含有很強數據分析和數據管理功效流行病學數據的分析處理方法第3頁4
三、數據計算機錄入(編號、定義變量名、變量數量化)編號:給每一個調查表或調查對象一個編號以識別錄入數據與調查表或調查對象對應關系(唯一性)使用阿拉伯數字1、2、3…等給每份調查表按照次序編號,這么有利于以后對輸入數據進行檢驗、查對與修改錯誤。能夠給編號以時間、地域、單位、調查對象編號等,如:01(濟南)02(歷下)0001(調查對象)流行病學數據的分析處理方法第4頁5
定義變量名稱:命名:能夠應用漢字、拼音、也能夠應用英文,但以使用拼音或英文為好,這么能夠方便輸入。注意:變量名應簡短、易懂易記:如對性別、年紀、身高、體重能夠使用gender,age,height和weight進行命名。對名稱較長變量,能夠使用簡寫,如wt表示weight、ht表示height。標識或說明:有些數據管理和分析軟件可變量進行標識或說明,防止時間長久了而忘記數據庫中變量名字,如對上述Wt可標識為“weight”。流行病學數據的分析處理方法第5頁6
變量數量化
假如調查表設計是編碼式,則此步驟可省略,直接將變量取值編碼結果輸入計算機。
若不是編碼式調查結果,則需要對變量取值結果進行編碼(數量化)。
流行病學數據的分析處理方法第6頁7
常見變量類型
1、字符型(charactertype):
輸入字符如漢字或英文
2、數值型(numericaltype):
以數值形式輸入
3、日期型(datatype):
按照要求格式輸入日期數值4、邏輯性(logicaltype):
流行病學數據的分析處理方法第7頁8
變量數量化時應注意:(1)除日期型變量外盡可能使用數值型變量(2)一些數值變量(numericalvariable)可直接輸入變量取值,如研究對象身高、體重、血壓水平等。(3)分類變量(categoricalvariable)及有序變量(ordinalvariable)則可將其取值進行量化,然后再輸入計算機
流行病學數據的分析處理方法第8頁9
如:分類變量——種族白人—1黑人—2
西班牙裔人—3亞太裔—4
其它種族—5注意:
分類變量在進行多原因分析時,必須轉換成啞變量(dummyvariable),不能直接將前述取值1、2、3、4、5放入方程中進行分析。
流行病學數據的分析處理方法第9頁10
有序變量數量化次序合理,則能夠直接進行分析如:教育程度文盲:0
小學:1
中學:2
高中及中專:3
大學:4
碩士及以上:5流行病學數據的分析處理方法第10頁11
四、數據檢驗與查對(一)檢驗數據庫結構數據庫樣本數(觀察數)、變量數、變量名稱及定義等。(二)檢驗各變量取值情況查看變量取值范圍,有沒有邏輯錯誤:如性別應有兩個取值,若有2個以上取值,說明存在錯誤。對數據變量要檢驗其最小值(minimum)、最大值(maximum)、均數(mean)、中位數(median),并查看是否有異常取值(outlier),如極小值及極大值。
異常值若影響顯著時應刪除流行病學數據的分析處理方法第11頁12
五、數據整理(一)數據分組分類變量:按其原有分類進行分組,若有必要,可將性質相近或差異不大類別進行合并。如教育程度。數值變量:按照實際生理、病理或臨床意義分組,如體重指數:低體重、正常體重、超重和肥胖
流行病學數據的分析處理方法第12頁13
按使用方便程度和專業(yè)上慣用方法分組,如年紀在某一個適當范圍內每5歲或10歲分成一組。按分位數分組,即首先找出四分位數(quartile)或五分位數(quintile)界值,然后應用這些界值將研究對象平均分成4組(每組25%研究對象)或5組(每組20%研究對象)。流行病學數據的分析處理方法第13頁14
(二)數據轉換1、非正態(tài)數據變量轉換原理:
正態(tài)分布——參數檢驗(parametrictest)
非正態(tài)數據——非參數檢驗(non-parametrictest)
(不是對原始數據檢驗)如:秩和檢驗(是對原始數據秩次檢驗)檢驗:正態(tài)性檢驗、方差齊性檢驗方法:對數變換;平方根變換;倒數變換
流行病學數據的分析處理方法第14頁15
2、分類變量轉換成啞變量原理:分類變量是二分類尺度及次序尺度,則可直接應用其原有數量化數值。
名義尺度因為各類別間沒有次序關系,在進行不一樣分析(包含多元分析、logistic回歸、Cox回歸等)時,不能使用原始計算機錄入數值,必經進行變量轉換。即將該變量轉換成(水平數-1)個啞變量,再將這些新轉換變量放入多原因模型中。流行病學數據的分析處理方法第15頁16
方法:比如:將種族原始取值轉換成啞變量(新變量)
表1.分類變量轉換成啞變量方法
新變量.種族原始取值(x1)x1-1x1-2x1-3x1-4白人10000黑人21000亞太裔30100西班牙裔人40010其它種族50001新變量以白人為參考,X1-1表示黑人與白人比較,依這類推流行病學數據的分析處理方法第16頁17
六、確定擬分析因變量和應變量因(自)變量(independentvariable):是指影響疾病發(fā)生或健康情況分布變量,是原因變量、已知變量、x變量。應變量(dependentvariable):是指隨因變量改變而發(fā)生改變變量,是結果變量、預測變量、y變量。
應變量是在自變量作用下產生反應變量流行病學數據的分析處理方法第17頁18
意義有利于選擇擬研究變量:對調查表設計含有指導作用能夠指導數據分析方法選擇:
因變量是分類變量:采取Χ2檢驗,logistic回歸分析等。
因變量是數值變量:采取t檢驗、方差分析,協(xié)方差分析、多元回歸等。有利于模型建立:應變量(y)放在模型左側,因變量(x)放在模型右側。流行病學數據的分析處理方法第18頁19
例1.
欲評價不一樣治療方法(口服藥品、注射胰島素及膳食控制)對糖尿病人治療效果(血糖水平),分析時要求調整病人性別、年紀和病程影響。
血糖水平(應變量y)=治療方法(因變量x)+其它協(xié)變量
(covariate,性別、年紀和病程)例2.
欲分析脂蛋白(a)與冠心病發(fā)生關系。
冠心病(應變量y)=脂蛋白(a)(因變量x)
流行病學數據的分析處理方法第19頁20
七、缺失數據(missingdata)處理缺失數據:是指其測量結果缺失。
產生原因:問卷調查:遺漏出生日期和年紀,調查結束后又無法補救試驗室檢測:血脂或血糖因為血清量不足或研究對象拒絕采血而致過去處理:僅用無缺失數據進行分析—損失樣本量缺失數據“合理”賦值—人為賦值不一定合理流行病學數據的分析處理方法第20頁21
現在處理
數據分析處理件軟處理:SAS自動分析處理
如一個數據庫中有性別和年紀等變量,性別有10個缺失數據,年紀有3個缺失數據:分析性別時不包含性別缺失10個個體分析年紀時不包含缺失年紀3個個體當分析中(如多原因分析)共同使用了性別和年紀時,分析實際樣本數量是性別和年紀這兩個變量均不含缺失數據樣本流行病學數據的分析處理方法第21頁22流行病學數據分析方法選擇一、流行病學數據分析程序
數值變量
正態(tài)性檢驗正態(tài)數據轉換非正態(tài)參數檢驗非參數檢驗
圖1.數值變量分析程序
流行病學數據的分析處理方法第22頁23
單原因分析Χ2檢驗分類變量分層分析多原因分析logistic回歸分析
Cox回歸分析其它分析方法
圖2.分類變量分析程序
流行病學數據的分析處理方法第23頁24
二、依據研究設計類型選擇(一)成組比較設計兩組比較:t檢驗或Χ2檢驗多組比較:方差分析、行×列表Χ2檢驗病例對照研究:按其分析方法分析分級病列對照研究:按其分析方法分析(二)配對(本身試驗前后)設計配比t檢驗、Χ2檢驗配正確病例對照研究方法進行數據
流行病學數據的分析處理方法第24頁25
(三)重復測量設計
在給定一個處理原因后在不一樣時間重復測量某一效應變量改變情況。如欲評價生物制品接種后免疫學效果,在接種后2周、4周、6周和8周測定抗體滴度:重復測量方差分析方法
(四)多原因設計自變量是數值變量:多元回歸分析方法、協(xié)方差分析方法自變量分類變量:logistic回歸分析方法、判別分析方法、聚類分析方法流行病學數據的分析處理方法第25頁26
三、依據變量類型選擇
因變量
應變量(y)
(x)數值變量分類變量有序變量數值變量相關分析,多元回歸分析t檢驗,方差分析,協(xié)方差分析,多元回歸分析相關分析,多元回歸分析分類變量t檢驗,方差分析,logistic回歸分析,判別分析,聚類分析Χ2檢驗,logistic回歸分析Χ2檢驗有序變量方差分析,logistic回歸分析,判別分析,聚類分析Χ2檢驗,logistic回歸分析相關分析,Χ2檢驗生存時間生存分析表2.不一樣變量類型數據分析方法選擇流行病學數據的分析處理方法第26頁27表3.不一樣研究設計和數據類型數據分析方法選擇
研究設計類型變量類型
兩組比較兩組以上比較試驗前后比較重復測量兩變量間聯(lián)絡數值變量t檢驗方差分析配對t檢驗重復測量方差分析線性回歸Pearson相關系數分類變量Χ2檢驗Χ2檢驗配對Χ2檢驗列聯(lián)表相關系數
有序變量Mann-Whitney秩和檢驗Kruskal-Wallis分析(成組設計多個樣本比較秩和檢驗)Wilcoxon符號秩和檢驗(配對設計差值符號檢驗)Spearman相關系數生存時間生存分析流行病學數據的分析處理方法第27頁28不一樣流行病學研究類型數據分析方法一、描述性研究(一)現況研究分布描述:患病率、危險原因流行率、數值變量分布探討原因:相關回歸分析、Χ2檢驗、t檢驗、方差分析、多原因分析、人群歸因危險度(二)生態(tài)學研究同現況研究(三)篩檢篩檢試驗真實性和可靠性人群中疾病、健康情況、危險原因篩選結果分析方法:同現況研究流行病學數據的分析處理方法第28頁29(一)病例對照研究
病例對照研究數據成組設計配比設計粗OR→分級OR→劑量反應分層OR分級OR→劑量反應
(趨勢Χ2檢驗)(趨勢Χ2檢驗
)分層OR混雜與效應修飾分析混雜與效應修飾分析
圖3.病例對照研究數據分析程序
二、分析性研究數據分析方法流行病學數據的分析處理方法第29頁30(二)隊列研究
隊列研究數據
人時、發(fā)病密度/累積發(fā)病率
粗RR、AR、AR%、PAR及PAR%分層RR、AR、AR%、PAR、PAR%
分級RR、AR、AR%、PAR、PA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 實習就業(yè)基地協(xié)議書
- 收購企業(yè)框架協(xié)議書
- 老人上班免責協(xié)議書
- 意向房屋租賃協(xié)議書
- 長期財務服務協(xié)議書
- 簡易酒店婚宴協(xié)議書
- 解除投資關系協(xié)議書
- 教育行業(yè)安全協(xié)議書
- 門面出租協(xié)議書范文
- 商鋪閣樓轉讓協(xié)議書
- 2023-2024學年湖北省荊門市京山市八年級(下)期中數學試卷(含解析)
- 創(chuàng)新思維拓展-知到答案、智慧樹答案
- 浙江宇翔職業(yè)技術學院單招職測參考試題庫(含答案)
- 給小學生科普地質學知識
- 課程與教學評價課件
- 提高手衛(wèi)生正確率品管圈課件
- 中醫(yī)護理技術穴位貼敷
- 分布式光伏高處作業(yè)專項施工方案
- 《狼王夢》小學讀后感400字
- 中國居民膳食指南(全)
- 水泥脫硝安全專篇
評論
0/150
提交評論