《胃癌專病隊列數(shù)據(jù)集建設(shè)規(guī)范要求(征求意見稿)》_第1頁
《胃癌專病隊列數(shù)據(jù)集建設(shè)規(guī)范要求(征求意見稿)》_第2頁
《胃癌專病隊列數(shù)據(jù)集建設(shè)規(guī)范要求(征求意見稿)》_第3頁
《胃癌專病隊列數(shù)據(jù)集建設(shè)規(guī)范要求(征求意見稿)》_第4頁
《胃癌專病隊列數(shù)據(jù)集建設(shè)規(guī)范要求(征求意見稿)》_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1T/BRA-CDCHE****-20**胃癌專病隊列數(shù)據(jù)集建設(shè)規(guī)范要求本文件規(guī)定了可支撐胃癌標(biāo)準(zhǔn)數(shù)據(jù)集構(gòu)建方法,包括數(shù)據(jù)建模、數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)存儲及更新和數(shù)據(jù)安全等。本文件適用于本標(biāo)準(zhǔn)適用于醫(yī)療衛(wèi)生機(jī)構(gòu)和研究機(jī)構(gòu)等胃癌數(shù)據(jù)集設(shè)計、研發(fā)和管理,其他相關(guān)領(lǐng)域可參考使用。2規(guī)范性引用文件WS445-2014電子病歷基本數(shù)據(jù)集WS/T671-2020國家衛(wèi)生與人口信息數(shù)據(jù)字典ISBN978-7-117-28858-3胃癌標(biāo)準(zhǔn)數(shù)據(jù)集(2019版)T/BISSC01-2022??萍膊?biāo)準(zhǔn)數(shù)據(jù)集建設(shè)規(guī)范T/CMDA002-2020肝膽疾病標(biāo)準(zhǔn)數(shù)據(jù)規(guī)范:肝癌CT/MRI影像標(biāo)注和質(zhì)控標(biāo)準(zhǔn)NCCN臨床實踐指南:胃癌指南(2018.V2)中國臨床腫瘤學(xué)會(CSCO)胃癌診療指南2019ICD-9-CM-3世界衛(wèi)生組織國際疾病分類手術(shù)碼GB/T25000.12-2017系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評價(SQuaRE)第12部分:數(shù)據(jù)質(zhì)量模型GB/T35295-2017信息技術(shù)大數(shù)據(jù)術(shù)語GB/T34960.5-2018信息技術(shù)服務(wù)治理第5部分:數(shù)據(jù)治理規(guī)范GB/T39725-2020信息安全技術(shù)健康醫(yī)療數(shù)據(jù)安全指南GB/T5271.28-2001信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)GB/T42755-2023人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程DB3209/T1259.1-2023公共數(shù)據(jù)平臺數(shù)據(jù)治理規(guī)范第一部分:總則DB3206/T1076-2024醫(yī)療衛(wèi)生公共信用平臺建設(shè)技術(shù)規(guī)范GB/T36344-2018信息技術(shù)數(shù)據(jù)質(zhì)量評價指標(biāo)GB/T22239-2019信息安全技術(shù)網(wǎng)絡(luò)安全等級保護(hù)基本要求GB/T35273-2020信息安全技術(shù)個人信息安全規(guī)范3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1數(shù)據(jù)data信息的可再解釋的形式化表示,以適用于通信、解釋或處理。2T/BRA-CDCHE****-20**[GB/T25000.12-2017,定義4.2]3.2特征features能表達(dá)模式本質(zhì)的功能或結(jié)構(gòu)特點的度量屬性,比如大小、紋理、形狀、表現(xiàn)等。好的特征能使同類模式的數(shù)據(jù)聚集、不同類模式的數(shù)據(jù)分離。[計算機(jī)科學(xué)技術(shù)名詞ISBN978-7-03-059487-7,08.0386]3.3數(shù)據(jù)質(zhì)量dataquality在指定條件下使用時,數(shù)據(jù)的特性滿足明確的和隱含的要求的程度。[GB/T25000.12-2017,定義4.3]3.4數(shù)據(jù)集dataset數(shù)據(jù)記錄匯聚的數(shù)據(jù)形式。[GB/T35295-2017,定義2.1.46]3.5數(shù)據(jù)建模datamodeling對現(xiàn)實世界各類數(shù)據(jù)的抽象組織,確定數(shù)據(jù)庫需管轄的范圍、數(shù)據(jù)的組織形式等直至轉(zhuǎn)化成現(xiàn)實的數(shù)據(jù)庫3.6數(shù)據(jù)清洗datacleaning檢測和修正數(shù)據(jù)集中錯誤數(shù)據(jù)項,以及對數(shù)據(jù)進(jìn)行平滑處理等操作的數(shù)據(jù)預(yù)處理過程。[計算機(jī)科學(xué)技術(shù)名詞ISBN978-7-03-059487,07.0392]3.7數(shù)據(jù)治理datagovernance數(shù)據(jù)資源及其應(yīng)用過程中相關(guān)的管控活動、績效和風(fēng)險管理的集合。[GB/T34960.5-2018,定義3.1]3.8數(shù)據(jù)采集dataacquisition數(shù)據(jù)由生產(chǎn)裝置按照數(shù)據(jù)采集規(guī)范生成,以數(shù)字化格式存儲并傳輸?shù)綄?yīng)的目標(biāo)系統(tǒng)的過程。3.9數(shù)據(jù)脫敏datamasking對個人敏感信息通過去標(biāo)識化或匿名化,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。3.10數(shù)據(jù)標(biāo)注dataannotation對數(shù)據(jù)進(jìn)行人工判斷和標(biāo)識,建立參考標(biāo)準(zhǔn)的過程。4數(shù)據(jù)建模3T/BRA-CDCHE****-20**4.1臨床討論制定數(shù)據(jù)模型之前,應(yīng)召集臨床醫(yī)護(hù)人員(胃癌數(shù)據(jù)集使用人員、管理人員等)、臨床研究方法學(xué)人員與數(shù)據(jù)建模工程師一起討論,結(jié)合胃癌專病隊列數(shù)據(jù)集的建庫目標(biāo),共同確定數(shù)據(jù)范圍。如需研發(fā)疾病CT智能篩查,則需采集CT影像數(shù)據(jù);如需跟蹤患者預(yù)后情況,則需采集患者出院后的隨訪數(shù)據(jù)。臨床參與人員需符合以下資質(zhì)要求:a)二甲醫(yī)院的主任醫(yī)師、或三甲醫(yī)院的主治醫(yī)師及以上級別;b)主導(dǎo)過市級以上臨床科研項目;c)建議多學(xué)科醫(yī)師團(tuán)隊共同參與,如胃癌專病數(shù)據(jù)集建設(shè)需消化內(nèi)科、胃腸外科、腫瘤科、檢驗科、病理科等學(xué)科團(tuán)隊參與。數(shù)據(jù)建模工程師需符合以下資質(zhì)要求:a)熟悉醫(yī)療業(yè)務(wù),以及各臨床業(yè)務(wù)系統(tǒng)的數(shù)據(jù)構(gòu)成;b)熟練掌握Oracle、Mysql、PostgreSql等主流關(guān)系型數(shù)據(jù)庫,HBase、NebulaGraph等非關(guān)系型數(shù)據(jù)庫,以及影像、文件等存儲技術(shù);c)熟悉數(shù)據(jù)倉庫各類建模理論、數(shù)據(jù)倉庫數(shù)據(jù)層級關(guān)系;d)了解基本算法和至少一種數(shù)據(jù)建模工具;e)具備數(shù)據(jù)集構(gòu)建3年以上工作經(jīng)驗。臨床研究方法學(xué)參與人員需符合以下資質(zhì)要求:a)具有統(tǒng)計學(xué)、流行病學(xué)或相關(guān)領(lǐng)域的碩士學(xué)位及以上學(xué)位,并有相關(guān)項目研究經(jīng)驗;b)熟悉醫(yī)學(xué)統(tǒng)計方法(如回歸分析、生存分析等),并能熟練使用統(tǒng)計軟件(如R、SAS、SPSS、Stata等);c)理解臨床數(shù)據(jù)特性及數(shù)據(jù)質(zhì)量控制方法,能夠處理缺失值和異常值;d)具有參與大型臨床研究或醫(yī)學(xué)數(shù)據(jù)分析項目的實際經(jīng)驗;e)能與臨床醫(yī)生、數(shù)據(jù)建模工程師等相關(guān)人員有效溝通,提供統(tǒng)計支持和數(shù)據(jù)解釋。4.2數(shù)據(jù)分層、分類設(shè)計在胃癌數(shù)據(jù)集體系中,采用自下而上劃分為3個層級:操作數(shù)據(jù)存儲層、數(shù)據(jù)倉庫層、應(yīng)用數(shù)據(jù)層。結(jié)合胃癌特點,數(shù)據(jù)可按照基礎(chǔ)數(shù)據(jù)、臨床數(shù)據(jù)、隨訪數(shù)據(jù)、生物信息數(shù)據(jù)、外部數(shù)據(jù)等維度進(jìn)行分類,如表1:表1胃癌專病隊列數(shù)據(jù)分類基礎(chǔ)數(shù)據(jù)臨床數(shù)據(jù)隨訪數(shù)據(jù)外部數(shù)據(jù)生物信息數(shù)據(jù)患者基本信息社會人口學(xué)隨訪基本信息環(huán)境數(shù)據(jù)基因序列醫(yī)療機(jī)構(gòu)信息暴露危險因素隨訪隨訪氣候數(shù)據(jù)蛋白質(zhì)序列科室信息月經(jīng)史信息治療隨訪醫(yī)保數(shù)據(jù)基因組醫(yī)務(wù)人員信息住院信息伴隨疾病隨訪蛋白質(zhì)結(jié)構(gòu)醫(yī)療項目信息診斷信息生存狀態(tài)隨訪醫(yī)療設(shè)備信息門(急)診信息終末狀態(tài)隨訪檢驗信息轉(zhuǎn)移及其他情況手術(shù)信息護(hù)理信息疾病進(jìn)展與轉(zhuǎn)歸4.3數(shù)據(jù)庫概念模型設(shè)計4T/BRA-CDCHE****-20**根據(jù)胃癌數(shù)據(jù)集的實際應(yīng)用目標(biāo),參考《電子病歷基本數(shù)據(jù)集》等標(biāo)準(zhǔn)與規(guī)范,確定胃癌數(shù)據(jù)集的數(shù)據(jù)范圍。數(shù)據(jù)庫概念設(shè)計應(yīng)符合以下要求:a)不受數(shù)據(jù)來源限制,充分考慮胃癌AI應(yīng)用研發(fā)需求;b)內(nèi)容滿足胃癌專業(yè)醫(yī)護(hù)的研發(fā)方向;c)數(shù)據(jù)概念的顆粒度不宜過細(xì),可參考以一種醫(yī)治/就診行為事件為一個概念,如門診、住院、手術(shù)、護(hù)理、檢查、檢驗等d)將概念進(jìn)行細(xì)化,抽象出具體的實體和實體屬性,以及實體與實體之間的關(guān)系。4.4數(shù)據(jù)庫邏輯模型設(shè)計數(shù)據(jù)邏輯模型設(shè)計是將概念模型在數(shù)據(jù)庫中以表結(jié)構(gòu)的方式呈現(xiàn)出來,形成胃癌數(shù)據(jù)集最終的數(shù)據(jù)結(jié)構(gòu)目錄,包含以下步驟:a)數(shù)據(jù)庫選型,一般數(shù)據(jù)量的胃癌數(shù)據(jù)集存儲可選擇Mysql、PG等關(guān)系型數(shù)據(jù)庫,TB級大型胃癌數(shù)據(jù)集可選擇HBase、Redis等非關(guān)系型數(shù)據(jù)庫;b)生成表、字段、主鍵、外鍵及其他數(shù)據(jù)對象,包括視圖、序列、索引、約束以及函數(shù)、觸發(fā)器、存儲過程等;c)詳細(xì)定義字段的數(shù)據(jù)類型、長度、是否必須,以及標(biāo)準(zhǔn)編碼等。4.5數(shù)據(jù)庫命名規(guī)范數(shù)據(jù)表和字段的命名規(guī)范應(yīng)滿足以下要求:a)表和字段的命名均禁止使用數(shù)據(jù)庫關(guān)鍵詞和保留詞。b)表和字段的標(biāo)識符由英文字母、下劃線、數(shù)字構(gòu)成,首字符應(yīng)為英文字母。c)表名稱長度原則上不超過40,字段名稱長度原則上不超過30。d)表和字段的標(biāo)識符是中文名稱關(guān)鍵詞的英文翻譯,可采用英文譯名的縮寫命名(ODS層例外)。e)按照中文名稱提取的關(guān)鍵詞順序排列關(guān)鍵詞的英文翻譯,關(guān)鍵詞之間用下劃線分隔;縮寫關(guān)鍵詞一般不超過四個,后續(xù)關(guān)鍵詞應(yīng)取首字母。f)表和字段的標(biāo)識符采用英文譯名縮寫命名時,單詞縮寫主要遵循以下規(guī)則:1)英文關(guān)鍵詞有標(biāo)準(zhǔn)縮寫或行業(yè)通用縮寫的應(yīng)直接采用。如中國CHINA可縮寫為CHN。2)沒有標(biāo)準(zhǔn)縮寫的,取單詞的第一個音節(jié),并自輔音之后省略。3)若出現(xiàn)中文同義詞或英文譯名縮寫相同時,參考壓縮字母法或取中文拼音首字母等常見縮寫方法以區(qū)分不同關(guān)鍵詞。4)若關(guān)鍵詞本身翻譯簡潔,則可以不縮寫,如名稱或姓名使用NAME,但關(guān)鍵詞進(jìn)行組合時需要縮寫,如單位名稱,則使用ORGAN_NM表示。g)相同的實體和實體特征在要素類表、關(guān)系類表、屬性類表中應(yīng)采用一致的標(biāo)識。4.6元數(shù)據(jù)設(shè)計元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),其使用目的在于識別數(shù)據(jù)、評價數(shù)據(jù)、追蹤數(shù)據(jù)在使用過程中的變化,是數(shù)據(jù)資源管理的重要手段,元數(shù)據(jù)的內(nèi)容項應(yīng)包含數(shù)據(jù)項的名稱、編碼、類型、5T/BRA-CDCHE****-20**長度、業(yè)務(wù)含義、數(shù)據(jù)來源、質(zhì)量規(guī)則、安全級別、域值范圍等,以及數(shù)據(jù)項之間的關(guān)聯(lián)關(guān)4.7數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)的建立將充分借鑒行業(yè)標(biāo)準(zhǔn),結(jié)合醫(yī)療健康的行業(yè)規(guī)范及專病對數(shù)據(jù)的實際應(yīng)用要求,數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范建議參考如下:a)遵守國家、行業(yè)標(biāo)準(zhǔn)代碼規(guī)范,部分規(guī)范見表2;表2部分國家/行業(yè)代碼標(biāo)準(zhǔn)表號標(biāo)準(zhǔn)分類代碼表名稱1衛(wèi)生部標(biāo)準(zhǔn)年齡(段)代碼表(GB/T2261.1-2003)2國家標(biāo)準(zhǔn)人的性別代碼(GB/T2261.1-2003)3國家標(biāo)準(zhǔn)世界各國和地區(qū)名稱代碼表(GB/T2659-2000)4國家標(biāo)準(zhǔn)中華人民共和國行政區(qū)劃代碼表(GB/T2260-2002)5國家標(biāo)準(zhǔn)職業(yè)分類與代碼表(GB/T6565-1999)6國家標(biāo)準(zhǔn)專業(yè)技術(shù)職務(wù)代碼表(GB/T8561-2001)7國家標(biāo)準(zhǔn)政治面貌代碼表(GB/T4762-1984)8國家標(biāo)準(zhǔn)婚姻狀況代碼(GB/T2261.2-2003)9國家標(biāo)準(zhǔn)文化程度代碼表(GB/T4658-1984)國家標(biāo)準(zhǔn)學(xué)位代碼表(GB/T6864-2003)國家標(biāo)準(zhǔn)民族代碼表(GB/T3304-1991)國家標(biāo)準(zhǔn)家庭關(guān)系代碼分類(GB/T4761-1984)國家標(biāo)準(zhǔn)健康狀況代碼表(GB/T2261.3-2003)衛(wèi)生行業(yè)標(biāo)準(zhǔn)衛(wèi)生機(jī)構(gòu)(組織)分類代碼表(WS218-2002)國家標(biāo)準(zhǔn)疾病分類代碼ICD-10(GB/T14396-2001)b)遵守衛(wèi)生行業(yè)相關(guān)標(biāo)準(zhǔn)規(guī)范,如《國家衛(wèi)生與人口信息數(shù)據(jù)字典》;c)遵守院內(nèi)信息化相關(guān)標(biāo)準(zhǔn)規(guī)范。胃癌數(shù)據(jù)集部分示例數(shù)據(jù)字段如表3:表3胃癌專病隊列數(shù)據(jù)集的部分?jǐn)?shù)據(jù)字典序號元素名稱代碼值1性別0-未知的性別1-男性2-女性9-未說明的性別(0~9)2年齡(段)年齡(段)代碼3通訊聯(lián)系方式類別1-地址2-郵政編碼3-電話號碼(總機(jī)/查詢臺)4-單位電子郵箱(E-mail)5-單位網(wǎng)站域名(1~5)4身份證件類別1-居民身份證2-軍官(文職干部)證3-護(hù)照(1~3)5醫(yī)療檔案1-住院病例2-門診病歷3-居民健康檔案(1~3)6ABO血型1-A2-B3-AB4-O5-其它(1~5)7Rh血型1-Rh陽性2-Rh陰性3-Rh血型不詳(1~3)8職業(yè)職業(yè)分類與代碼(GB/T6565-1999)6T/BRA-CDCHE****-20**9從事專業(yè)1-機(jī)關(guān)醫(yī)師2-機(jī)關(guān)護(hù)士21-對講師31-技術(shù)藥劑師32-執(zhí)業(yè)藥師33-其他藥劑人員41-檢驗人員42-影像人員43-醫(yī)務(wù)管理人員44-其他醫(yī)務(wù)人員60-其他技術(shù)人員70-管理人員(1~70)管理服務(wù)1-黨委(副)書記2-院(所、局)長3-副院長(所、局)長4-本科室主任5-科室副主任(1~5)專業(yè)技術(shù)職務(wù)專業(yè)技術(shù)職務(wù)代碼(GB/T8561-2001)醫(yī)師資管類別1-臨床2-口腔3-公共衛(wèi)生4-中醫(yī)(1~4)所調(diào)動類別1-注冊11-考試注冊12-軍轉(zhuǎn)人員13-其他注冊19-其他調(diào)動20-調(diào)崗21-出入境22-辭職23-繼續(xù)教育24-調(diào)配29-其他婚姻狀況婚姻狀況代碼(GB/T2261.2—2003)政治面貌政治面貌代碼(GB/T4762-1984)文化程度文化程度代碼(GB/T4658-1984)學(xué)歷1-博士2-碩士3-學(xué)生/本科4-大專5-中專6-高中7-初中及以下(1~7)所學(xué)專業(yè)1-基礎(chǔ)醫(yī)學(xué)12-臨床醫(yī)學(xué)13-內(nèi)科學(xué)14-口腔醫(yī)學(xué)15-公共衛(wèi)生16-護(hù)理17-藥學(xué)18-預(yù)防醫(yī)學(xué)19-公共管理20-人力資源管理33-信息管理41-經(jīng)濟(jì)學(xué)42-會計學(xué)43-統(tǒng)計學(xué)51-法律61-信息技術(shù)/計算機(jī)62-工程管理(1~99)民族代碼(GB/T3304-1991)健康狀況健康狀況代碼(GB/T2261.3-2003)胃癌病理組織學(xué)類型1-良性腫瘤2-癌前3-鱗癌4-腺癌5-腺鱗癌6-印戒細(xì)胞癌7-非上皮性癌8-小細(xì)胞未分化癌9-其他醫(yī)院等級1-一級甲等2-二級甲等3-二級乙等4-三級甲等5-三級乙等6-其他醫(yī)院/??漆t(yī)院(1~6)醫(yī)院類別1-綜合醫(yī)院2-中醫(yī)院3-傳染病醫(yī)院4-精神病醫(yī)院5-牙科醫(yī)院6-專科醫(yī)院7-護(hù)理院/康復(fù)中心8-其他醫(yī)院(1~8)家庭成員關(guān)系家庭關(guān)系代碼分類(GB/T4761-1984)出生地有效區(qū)域代碼(GB/T2260-2002)病情1-危2-急3-一般(1~3)病原學(xué)現(xiàn)狀1-標(biāo)識2-體檢(1~2)疾病分類(ICD-10)疾病分類代碼(GB/T14396-2001)診斷依據(jù)1-病理(包括骨髓)2-脫落細(xì)胞(包括涂片)3-X光4-CT5-超聲波6-核磁共振7-超聲波8-實驗室9-其他腫瘤分期1-CT2-NM_M_3-PTN_M_4-T_N_M_5-aTN_M_99-不詳(1~99)費用支付方式1-社會基本醫(yī)療保險2-商業(yè)保險3-自費醫(yī)療4-公費醫(yī)療5-7T/BRA-CDCHE****-20**大病統(tǒng)籌6-新型農(nóng)村合作醫(yī)療7-其他(1~9)治療結(jié)果1-治愈2-好轉(zhuǎn)3-未愈4-死亡5-其他(1~5)病案質(zhì)量等級1-甲2-乙3-丙(1~3)費用類別1-CT費2-護(hù)理3-西藥4-中藥5-化驗6-診察治療7-手術(shù)8-檢查9-其他費用(1~99)5數(shù)據(jù)采集5.1數(shù)據(jù)源調(diào)研根據(jù)胃癌數(shù)據(jù)集模型規(guī)劃的數(shù)據(jù)范圍,調(diào)研各字段所屬數(shù)據(jù)源,明確需要采集的數(shù)據(jù)源類型及現(xiàn)狀。是否明確分級數(shù)據(jù)模型字段中的回顧性數(shù)據(jù)和前瞻性數(shù)據(jù),不同的數(shù)據(jù)類型有不同的調(diào)研內(nèi)容和采集方式。5.1.1回顧性數(shù)據(jù)調(diào)研回顧性數(shù)據(jù)指已經(jīng)發(fā)生的醫(yī)療行為所產(chǎn)生的數(shù)據(jù)。數(shù)據(jù)一般產(chǎn)生自臨床相關(guān)業(yè)務(wù)系統(tǒng),包括但不限于:a)CDR/RDR:部分機(jī)構(gòu)已經(jīng)成立CDR(臨床數(shù)據(jù)中心)和/或RDR(科研數(shù)據(jù)中心可直接從CDR/RDR中獲取患者的臨床治療相關(guān)數(shù)據(jù)。b)HIS:胃癌患者的門診及住院的病情診治、診斷、醫(yī)囑、檢驗、檢查、手術(shù)等信息。c)EMR:胃癌患者的門診及住院病歷、病程記錄、術(shù)前討論、術(shù)后情況、手術(shù)小結(jié)、出院小結(jié)、會診記錄等全部文檔。d)護(hù)理:胃癌護(hù)理評估、護(hù)理單、護(hù)理記錄、護(hù)理措施、危重記錄、體征、PICC、置管等。e)手術(shù)麻醉:胃癌患者的術(shù)前麻醉檢查、術(shù)中麻醉、手術(shù)麻醉總結(jié)、麻醉效果評價、術(shù)后麻醉記錄。f)RIS:胃癌患者的放射影像檢查信息,檢驗項目、檢查編號、細(xì)項項目及正常值范圍。g)LIS:胃癌患者的檢驗項目及結(jié)果,包括CT/MRI/PET等檢查及其報告原始文件。h)其他系統(tǒng):其他與胃癌相關(guān)的檢驗檢查信息、檢查記錄、超聲圖像信息。i)醫(yī)院信息系統(tǒng):可能包括各種院內(nèi)會議紀(jì)要、會診意見、專家意見等。j)其他:影像信息庫中的臨床治療數(shù)據(jù)。以上數(shù)據(jù)的數(shù)據(jù)獲取方式一般包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫對接、服務(wù)接口和文件。如果被采集數(shù)據(jù)源支持?jǐn)?shù)據(jù)庫直接訪問,應(yīng)優(yōu)先考慮數(shù)據(jù)庫對接。如果不支持直連數(shù)據(jù)庫,考慮服務(wù)接口方式。除此之外,還可考慮文件導(dǎo)入的方式。數(shù)據(jù)庫對接方式相關(guān)調(diào)研:a)調(diào)研源數(shù)據(jù)庫的運行環(huán)境、性能狀況及網(wǎng)絡(luò)狀況;b)調(diào)研源數(shù)據(jù)庫的數(shù)據(jù)庫基本信息和參數(shù)配置,例如:數(shù)據(jù)庫軟件的版本信息、補(bǔ)丁集,數(shù)據(jù)庫軟件的安裝情況、數(shù)據(jù)庫的系統(tǒng)日志等等;c)調(diào)研源數(shù)據(jù)庫的存儲空間劃分情況,例如:各個邏輯設(shè)備的大小、劃分情況和存儲操作特性,數(shù)據(jù)庫和各個邏輯設(shè)備之間的對應(yīng)關(guān)系,各個數(shù)據(jù)庫的配置選項等等;8T/BRA-CDCHE****-20**d)調(diào)研源數(shù)據(jù)庫的庫表結(jié)構(gòu);e)調(diào)研源數(shù)據(jù)庫的數(shù)據(jù)指標(biāo);f)調(diào)研源數(shù)據(jù)庫的數(shù)據(jù)體量,以及每年的數(shù)據(jù)增長情況;g)調(diào)研源數(shù)據(jù)庫的備份策略;h)調(diào)研是否需要前置機(jī)。服務(wù)接口調(diào)研:a)調(diào)研接口協(xié)議b)根據(jù)不同接口協(xié)議調(diào)研編碼格式、提交方法、傳參要求等。c)調(diào)研數(shù)據(jù)集成服務(wù)和系統(tǒng)調(diào)研方式。d)調(diào)研接口調(diào)研計劃和更新周期。文件導(dǎo)入方式相關(guān)調(diào)研:a)調(diào)研數(shù)據(jù)提供方式,如分布式文件系統(tǒng)、網(wǎng)絡(luò)文件、線下拷貝等;b)調(diào)研需對接文件格式,如excel、txt、csv、圖像文件、影像文件、音頻文件等;c)調(diào)研數(shù)據(jù)結(jié)構(gòu)情況,是否可直接導(dǎo)入數(shù)據(jù)庫,是否需要數(shù)據(jù)處理程序;d)調(diào)研數(shù)據(jù)體量;e)調(diào)研增量數(shù)據(jù)識別方式和更新周期。5.1.2前瞻性數(shù)據(jù)調(diào)研前瞻性數(shù)據(jù)指以現(xiàn)在為起點追蹤到將來情況所記錄的數(shù)據(jù),一般需要通過隨訪、臨床研究、設(shè)備檢測等方式人工或自動采集。建議調(diào)研內(nèi)容包括但不限于:a)調(diào)研前瞻性數(shù)據(jù)采集表的內(nèi)容及格式要求;b)調(diào)研前瞻性數(shù)據(jù)采集人員要求及相關(guān)設(shè)備、系統(tǒng)情況;c)調(diào)研采集流程要求,如被采集對象應(yīng)符合的條件、采集頻率、采集次數(shù)、采集過程。5.1.3數(shù)據(jù)類型調(diào)研除了區(qū)分前瞻性和回顧性數(shù)據(jù),還應(yīng)根據(jù)數(shù)據(jù)類型進(jìn)行調(diào)研。a)結(jié)構(gòu)化數(shù)據(jù)通常是由二維表結(jié)構(gòu)來邏輯表達(dá)和實現(xiàn)的數(shù)據(jù),其嚴(yán)格地遵循數(shù)據(jù)格式與取值規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲和管理。b)非結(jié)構(gòu)化數(shù)據(jù)為無法定義結(jié)構(gòu)的數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)為文本信息,圖像信息,視頻信息以及聲音信息等等,他們的內(nèi)容不能用一個固定的結(jié)構(gòu)來描述。針對非結(jié)構(gòu)化數(shù)據(jù)一般有標(biāo)注需求,以將其內(nèi)含的醫(yī)療信息提取表達(dá)出來。c)除了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之外,還需要對半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集。半結(jié)構(gòu)化數(shù)據(jù)和前面介紹的兩種類型的數(shù)據(jù)都不一樣,它是結(jié)構(gòu)化的數(shù)據(jù),但是不遵循關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表相關(guān)數(shù)據(jù)模型的層次結(jié)構(gòu)。在半結(jié)構(gòu)化數(shù)據(jù)中,同一類的不同實體數(shù)據(jù)的結(jié)構(gòu)可能會有一定程度的不同,即不同實體所具有的屬性會有一定程度的不同,而同時,對于這些實體來說,不同的屬性之間的順序是并不重要的。5.2規(guī)定采集數(shù)據(jù)范圍根據(jù)數(shù)據(jù)集應(yīng)用目標(biāo)和數(shù)據(jù)源庫表情況,定義被采集對象要求,如胃癌數(shù)據(jù)采集需“出院診斷”包含<胃惡性腫瘤>或<胃癌>,年齡大于等于18歲且小于等于70歲等。如果數(shù)據(jù)集9T/BRA-CDCHE****-20**存在數(shù)據(jù)有效期要求或限制,也需要定義采集數(shù)據(jù)的時間范圍,如入院日期為2012-2020年間的住院數(shù)據(jù)等。5.3回顧性數(shù)據(jù)采集5.3.1采集人員要求a)人員選拔數(shù)據(jù)采集人員的資質(zhì)建議要求具備數(shù)據(jù)庫知識和相應(yīng)開發(fā)技能,能通過工具或編程手段匯集數(shù)據(jù)并管理數(shù)據(jù)。b)人員培訓(xùn)根據(jù)數(shù)據(jù)采集要求對參與數(shù)據(jù)采集的人員進(jìn)行培訓(xùn)。主要包括:相關(guān)數(shù)據(jù)采集流程、采集設(shè)備操作培訓(xùn)、操作規(guī)范培訓(xùn)、數(shù)據(jù)安全培訓(xùn)等。5.3.2采集過程要求回顧性數(shù)據(jù)采集是使用服務(wù)器作為基礎(chǔ)硬件平臺,搭建軟件系統(tǒng)平臺,采用服務(wù)總線技術(shù)、集群技術(shù)、分布式存儲技術(shù)、分布式計算技術(shù)、ETL技術(shù)等制定數(shù)據(jù)采集標(biāo)準(zhǔn)和處理流程,對回顧性數(shù)據(jù)實現(xiàn)統(tǒng)一的采集、存儲和管理?;仡櫺詳?shù)據(jù)采集流程包括采集對象、數(shù)據(jù)采集方式、數(shù)據(jù)采集技術(shù)、數(shù)據(jù)采集結(jié)果四個部分。要求如下:a)數(shù)據(jù)采集的對象數(shù)據(jù)需要根據(jù)胃癌數(shù)據(jù)集需求范圍進(jìn)行采集,主要包括患者的基本信息、病例信息、病程信息、醫(yī)囑信息、檢驗信息、檢查信息、影像信息、護(hù)理信息等。b)數(shù)據(jù)采集方式需要根據(jù)具體情況進(jìn)行選型。數(shù)據(jù)采集方式包括軟件接口對接方式、文件對接方式、開放數(shù)據(jù)庫方式、基于數(shù)據(jù)庫交換的數(shù)據(jù)直采方式等。c)數(shù)據(jù)采集技術(shù)也需要根據(jù)數(shù)據(jù)采集方式和實際情況選擇一種或多種技術(shù)的組合來完成數(shù)據(jù)采集。數(shù)據(jù)采集可選擇的技術(shù)也比較多,例如ETL、數(shù)據(jù)同步、業(yè)務(wù)系統(tǒng)備份與恢復(fù)、物化視圖、業(yè)務(wù)系統(tǒng)接口等技術(shù)。e)數(shù)據(jù)采集可以選擇全量數(shù)據(jù)采集和增量數(shù)據(jù)采集。全量數(shù)據(jù)采集是指每次從數(shù)據(jù)源采集全部數(shù)據(jù)(包括之前采集過的數(shù)據(jù)而增量數(shù)據(jù)采集則是指只抽取從上次抽取之后數(shù)據(jù)庫中的新增或修改的數(shù)據(jù)。對于全量數(shù)據(jù)采集,每次采集之后都需要重新進(jìn)行數(shù)據(jù)治理。增量數(shù)據(jù)采集只需要對增量數(shù)據(jù)完成數(shù)據(jù)治理工作。同樣需要根據(jù)具體情況選擇使用全量數(shù)據(jù)采集或增量數(shù)據(jù)采集。全量和增量數(shù)據(jù)采集都必須保證數(shù)據(jù)的準(zhǔn)確性和系統(tǒng)的性能穩(wěn)定。5.4前瞻性數(shù)據(jù)采集5.4.1采集人員要求a)人員選拔數(shù)據(jù)采集技師的資質(zhì)建議要求在三甲醫(yī)院從事??萍膊∠嚓P(guān)診療工作5年以上。b)人員培訓(xùn)根據(jù)數(shù)據(jù)采集要求對參與數(shù)據(jù)采集的人員進(jìn)行培訓(xùn)。主要包括:相關(guān)數(shù)據(jù)采集流程、采集設(shè)備操作培訓(xùn),數(shù)據(jù)安全培訓(xùn)等。c)人員考核采集人員考核標(biāo)準(zhǔn)要求熟悉胃癌數(shù)據(jù)采集相關(guān)技術(shù)要點,能根據(jù)不同數(shù)據(jù)類型及采集需求,獲得質(zhì)量最佳的數(shù)據(jù)。建議從以下方面進(jìn)行綜合評價:T/BRA-CDCHE****-20**(1)數(shù)據(jù)采集規(guī)范熟悉程度:可采用書面答題形式,通過設(shè)置數(shù)據(jù)采集規(guī)范相關(guān)問題,對采集人員回答進(jìn)行打分和評估;(2)采集設(shè)備操作熟練程度:通過采集人員操作設(shè)備過程中的操作合規(guī)程度及完成時的操作時間進(jìn)行綜合考量,將過程中的不合規(guī)操作作為評估時的罰項;(3)采集過程數(shù)據(jù)安全程度:對采集人員進(jìn)行數(shù)據(jù)采集過程中發(fā)生數(shù)據(jù)遺失、泄露等安全風(fēng)險進(jìn)行評估,按照人員操作的數(shù)據(jù)安全風(fēng)險程度對綜合評估進(jìn)行扣分;(4)采集結(jié)果質(zhì)量合規(guī)程度:通過最終操作人員采集到的數(shù)據(jù)質(zhì)量(如在采集過程中產(chǎn)生數(shù)據(jù)失真、噪聲、畸變等問題)合乎后續(xù)數(shù)據(jù)使用規(guī)范的程度進(jìn)行評價。5.4.2采集過程要求被采集對象應(yīng)對采集內(nèi)容知情并同意,采集員應(yīng)對被采集對象進(jìn)行采集過程的介紹,如設(shè)備檢查時應(yīng)如何配合,被采集對象的口述內(nèi)容以及檢查姿勢、狀態(tài)等要求進(jìn)行告知以便被采集對象能更好配合完成采集過程,確保所采集數(shù)據(jù)的真實性、準(zhǔn)確性和有效性。6數(shù)據(jù)治理6.1數(shù)據(jù)預(yù)處理6.1.1結(jié)構(gòu)化數(shù)據(jù)清洗結(jié)構(gòu)化數(shù)據(jù)是指可以使用二維表結(jié)構(gòu)表示和存儲的數(shù)據(jù),具有易于輸入、存儲、查詢和分析的特點。數(shù)據(jù)清洗需要對數(shù)據(jù)進(jìn)行準(zhǔn)確性、完整性、一致性、唯一性、實時性、有效性的檢驗,過濾不符合規(guī)則要求的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)清洗流程包括:a)數(shù)據(jù)抽取從數(shù)據(jù)庫中抽取數(shù)據(jù)包括全量抽取和增量抽取兩種方式,根據(jù)具體情況進(jìn)行選擇。b)數(shù)據(jù)過濾數(shù)據(jù)過濾要初步實現(xiàn)對業(yè)務(wù)數(shù)據(jù)中不符合應(yīng)用規(guī)則或者無效的數(shù)據(jù)進(jìn)行過濾操作,確保數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一。c)數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換要實現(xiàn)對數(shù)據(jù)的格式、信息代碼等進(jìn)行轉(zhuǎn)換。包括以下工作:1)空值處理:可捕獲字段空值,進(jìn)行加載或替換為其他含義數(shù)據(jù);2)數(shù)據(jù)標(biāo)準(zhǔn):統(tǒng)一元數(shù)據(jù)、統(tǒng)一標(biāo)準(zhǔn)字段、統(tǒng)一字段類型定義;3)數(shù)據(jù)拆分:依據(jù)業(yè)務(wù)需求做數(shù)據(jù)拆分,如身份證號,拆分區(qū)劃、出生日期、性別等4)數(shù)據(jù)驗證:時間規(guī)則、業(yè)務(wù)規(guī)則、自定義規(guī)則;5)數(shù)據(jù)替換:業(yè)務(wù)發(fā)生調(diào)整時,可實現(xiàn)無效數(shù)據(jù)、缺失數(shù)據(jù)的替換:6)數(shù)據(jù)關(guān)聯(lián):明確數(shù)據(jù)關(guān)聯(lián)規(guī)則,建立數(shù)據(jù)映射關(guān)系,確保不同數(shù)據(jù)源之間的數(shù)據(jù)一致性。d)數(shù)據(jù)加載數(shù)據(jù)加載過程進(jìn)行的主要操作是插入操作和修改操作。將干凈數(shù)據(jù)及臟數(shù)據(jù)分別插入到不同的數(shù)據(jù)表中。對于數(shù)據(jù)加載工作,一般會搭建數(shù)據(jù)庫環(huán)境,如果數(shù)據(jù)量大(千萬級以上可以使用文本文件存儲結(jié)合腳本程序處理進(jìn)行操作。e)數(shù)據(jù)清洗T/BRA-CDCHE****-20**數(shù)據(jù)清洗過程是指根據(jù)現(xiàn)有的數(shù)據(jù)清理規(guī)則對“臟數(shù)據(jù)”進(jìn)行數(shù)據(jù)處理轉(zhuǎn)換,將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求或應(yīng)用要求的數(shù)據(jù)的過程。數(shù)據(jù)清洗規(guī)則包括但不限于:1)重復(fù)數(shù)據(jù)檢驗。數(shù)據(jù)庫中屬性值相同的記錄被認(rèn)定是重復(fù)數(shù)據(jù),通過判斷記錄的屬性值來檢測記錄是否相等,相等的數(shù)據(jù)合并為一條數(shù)據(jù)(合并/清除非重復(fù)數(shù)據(jù)進(jìn)入下一步數(shù)據(jù)處理環(huán)節(jié);2)缺失數(shù)據(jù)檢驗。對于信息目錄要求必填項目進(jìn)行檢驗,對檢查中數(shù)據(jù)項缺失的數(shù)據(jù),直接反饋給數(shù)據(jù)提供單位,經(jīng)確認(rèn)后重新提交:3)不一致數(shù)據(jù)檢驗。以代碼提供的數(shù)據(jù),需要根據(jù)數(shù)據(jù)字典表進(jìn)行比對,發(fā)現(xiàn)數(shù)據(jù)的不一致或者數(shù)據(jù)字典不存在的數(shù)據(jù),直接反饋給數(shù)據(jù)提供單位,經(jīng)確認(rèn)后重新提交。f)問題數(shù)據(jù)處理問題數(shù)據(jù)處理需要處理缺失值數(shù)據(jù)、錯誤數(shù)據(jù)和錯誤關(guān)聯(lián)數(shù)據(jù)三種問題數(shù)據(jù)。g)錯誤數(shù)據(jù)處理錯誤數(shù)據(jù)處理包含格式內(nèi)容問題數(shù)據(jù)和邏輯問題數(shù)據(jù)兩類問題數(shù)據(jù)的處理。胃癌專病結(jié)構(gòu)化數(shù)據(jù)清洗流程如圖所示:圖1胃癌專病結(jié)構(gòu)化數(shù)據(jù)清洗流程圖6.1.2非結(jié)構(gòu)化數(shù)據(jù)標(biāo)注常見的非結(jié)構(gòu)化數(shù)據(jù)為文本信息、圖像信息、視頻信息以及聲音信息等,結(jié)構(gòu)差異大。針對這類非結(jié)構(gòu)化數(shù)據(jù)需要進(jìn)行數(shù)據(jù)標(biāo)注,數(shù)據(jù)標(biāo)注的質(zhì)量、全面性、體系統(tǒng)一及標(biāo)注過程的質(zhì)量控制體系都將決定數(shù)據(jù)集的臨床可靠性和使用價值。6.1.2.1標(biāo)注任務(wù)確定標(biāo)注內(nèi)容由標(biāo)注需求方在標(biāo)注任務(wù)說明中提供,標(biāo)注任務(wù)說明一經(jīng)確認(rèn),不可修改,如需修改則進(jìn)入需求變更環(huán)節(jié),標(biāo)注任務(wù)應(yīng)包括但不限于:T/BRA-CDCHE****-20**a)版本信息:明確當(dāng)前版本編號、發(fā)布日期、發(fā)布人、發(fā)布說明(發(fā)布原因或選代原b)歷史選代信息(歷代版本編號、發(fā)布日期、發(fā)布人、發(fā)布說明等c)項目背景:明確數(shù)據(jù)標(biāo)注需求產(chǎn)生的原因,以及數(shù)據(jù)標(biāo)注結(jié)果的應(yīng)用場景:d)任務(wù)描述:明確數(shù)據(jù)標(biāo)注任務(wù),包括數(shù)據(jù)形式、數(shù)據(jù)規(guī)模、標(biāo)注規(guī)則、相關(guān)術(shù)語、標(biāo)注樣例、質(zhì)量要求、指標(biāo)計算方式、驗收流程、交付時間等;e)主客觀描述:明確說明數(shù)據(jù)標(biāo)簽是根據(jù)個人專業(yè)領(lǐng)域知識進(jìn)行標(biāo)注,還是客觀認(rèn)識進(jìn)行的,標(biāo)注;f)標(biāo)注人員資質(zhì):約定標(biāo)注任務(wù)參與人員的資質(zhì)要求;g)標(biāo)注結(jié)果:明確數(shù)據(jù)標(biāo)注結(jié)果的交付形式;h)知識產(chǎn)權(quán):明確數(shù)據(jù)的知識產(chǎn)權(quán)歸屬。6.1.2.2待標(biāo)注數(shù)據(jù)分析數(shù)據(jù)標(biāo)注前,數(shù)據(jù)需求方應(yīng)對待標(biāo)注數(shù)據(jù)進(jìn)行分析,核對標(biāo)注任務(wù),包括:a)數(shù)據(jù)核查:檢查待標(biāo)注數(shù)據(jù)是否與標(biāo)注任務(wù)說明書中的數(shù)據(jù)定義相符,核查結(jié)果及時同步給數(shù)據(jù)需求方;b)數(shù)據(jù)整理:建立完善的數(shù)據(jù)追蹤機(jī)制,實現(xiàn)數(shù)據(jù)整理,以及最小粒度的數(shù)據(jù)追蹤;c)數(shù)據(jù)處理:根據(jù)標(biāo)注任務(wù)以及標(biāo)注數(shù)據(jù)的特性,通過數(shù)據(jù)聚類、組合排列、數(shù)據(jù)雜質(zhì)去除等方法提高標(biāo)注質(zhì)量6.1.2.3標(biāo)注任務(wù)評估數(shù)據(jù)標(biāo)注前,標(biāo)注管理方應(yīng)對標(biāo)注任務(wù)進(jìn)行評估,包括:a)根據(jù)標(biāo)注任務(wù)說明,評估標(biāo)注任務(wù)可行性、標(biāo)注規(guī)則合理性;b)在數(shù)據(jù)需求方提供的小規(guī)模樣本上進(jìn)行預(yù)標(biāo)注,將標(biāo)注結(jié)果提交給數(shù)據(jù)需求方驗收。在獲得數(shù)據(jù)需求方確認(rèn)后,再正式啟動數(shù)據(jù)標(biāo)注任務(wù)。注:及時記錄數(shù)據(jù)預(yù)標(biāo)注流程中標(biāo)注規(guī)則與數(shù)據(jù)相悖、覆蓋不全或規(guī)則之間相悖的情況,并向數(shù)據(jù)需求方反饋完善標(biāo)注規(guī)則。6.1.2.4標(biāo)注需求變更標(biāo)注需求方需求變更時,應(yīng)在標(biāo)注管理方評審?fù)夂蟾聵?biāo)注任務(wù)說明,重新進(jìn)入標(biāo)注任務(wù)評估階段。6.1.2.5標(biāo)注人員a)標(biāo)注人員范圍:數(shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)內(nèi)容中規(guī)定的標(biāo)注人員資質(zhì)需求,確定符合要求的人員進(jìn)入標(biāo)注人員培訓(xùn)環(huán)節(jié)。b)標(biāo)注人員培訓(xùn):數(shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)說明,對標(biāo)注人員進(jìn)行崗前能力培訓(xùn)。標(biāo)注能力考試合格者,方能參與標(biāo)注任務(wù)。c)標(biāo)注人員能力檔案:數(shù)據(jù)標(biāo)注方應(yīng)建立標(biāo)注人員能力檔案,記錄標(biāo)注人員承擔(dān)標(biāo)注任務(wù)的相關(guān)內(nèi)容,用于進(jìn)行標(biāo)注人員能力評估與標(biāo)注質(zhì)量追蹤。6.1.2.6標(biāo)注環(huán)境T/BRA-CDCHE****-20**a)選擇標(biāo)注工具:數(shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)難度、數(shù)據(jù)處理規(guī)模及數(shù)據(jù)屬性特征、數(shù)據(jù)安全控制層級與方式,合理選擇標(biāo)注工具,完成數(shù)據(jù)標(biāo)注任務(wù)。b)選擇標(biāo)注場地:數(shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)中必要的數(shù)據(jù)安全要求,搭建數(shù)據(jù)標(biāo)注場地。c)標(biāo)注軟件:使用穩(wěn)定的專業(yè)醫(yī)學(xué)標(biāo)注軟件進(jìn)行標(biāo)注工作,可靈活配置標(biāo)注參數(shù),以不斷優(yōu)化標(biāo)注過程。6.1.2.7標(biāo)注過程要求a)標(biāo)注人員為提高標(biāo)注的準(zhǔn)確性和敏感度,降低假陽性率,避免記憶偏倚,標(biāo)注流程建議多輪次分組交叉進(jìn)行,優(yōu)化人力資源。b)標(biāo)注流程在數(shù)據(jù)標(biāo)注過程中需要確認(rèn)標(biāo)注的目標(biāo)以及具體的標(biāo)注條件。具體數(shù)據(jù)標(biāo)注需求和條件請專家結(jié)合領(lǐng)域知識設(shè)計。c)標(biāo)注任務(wù)按照不同數(shù)據(jù)類型及需求,具體標(biāo)注任務(wù)包括如下方面:1)分類標(biāo)注:即將數(shù)據(jù)按照人工判讀得到的數(shù)據(jù)類別進(jìn)行標(biāo)簽標(biāo)記,通??煞譃槎诸悩?biāo)記和多分類標(biāo)記,例如通過解讀病歷文本進(jìn)行“無腫瘤”、“有腫瘤”(二分類)或“無適用:病歷文本、醫(yī)療影像數(shù)據(jù)。2)區(qū)域標(biāo)注:對數(shù)據(jù)擬標(biāo)注目標(biāo)的范圍進(jìn)行標(biāo)注,如對病歷文本中的實體起始字符位置進(jìn)行標(biāo)記或?qū)︶t(yī)療圖像中目標(biāo)區(qū)域范圍進(jìn)行標(biāo)記;適用:病歷文本、醫(yī)療影像數(shù)據(jù)。3)標(biāo)框標(biāo)注:框選標(biāo)注需要檢測的目標(biāo)對象,如在超聲圖像中框選出腫瘤位置;適用:醫(yī)療影像數(shù)據(jù)。4)描點標(biāo)注:對于細(xì)致特征的要求中需要將擬檢測目標(biāo)進(jìn)行描點標(biāo)記,如描點標(biāo)記出超聲圖像中的腫瘤具體形狀;適用:醫(yī)療影像數(shù)據(jù)。5)OCR轉(zhuǎn)寫標(biāo)注:識別圖片格式中的手寫文字,轉(zhuǎn)寫為計算機(jī)可識別的文本格式,如識別圖片掃描格式的病歷文本;適用:圖片掃描的病歷文本。d)標(biāo)注細(xì)則標(biāo)注過程中應(yīng)盡量做到無錯標(biāo)、漏標(biāo),對無法確定具體類別的數(shù)據(jù)樣本納入集中管理并呈交專家組進(jìn)行標(biāo)記和復(fù)審。對于圖像標(biāo)記應(yīng)做到以不同顏色區(qū)分主要征象和次要征象,以標(biāo)記主要征象為主、盡量多標(biāo)次要征象;在標(biāo)注病灶輪廓時,對內(nèi)部細(xì)節(jié)輔以文字進(jìn)行描述。允許利用標(biāo)注系統(tǒng)自動進(jìn)行標(biāo)注,但其結(jié)果仍需醫(yī)療專家審核和評價。6.1.2.8標(biāo)注任務(wù)質(zhì)量檢查T/BRA-CDCHE****-20**在標(biāo)注過程中,應(yīng)采用多種檢查方法對標(biāo)注任務(wù)質(zhì)量進(jìn)行檢測,對不滿足標(biāo)注任務(wù)要求的,及時預(yù)警反饋,并查明問題原因。根據(jù)項目特性,標(biāo)注任務(wù)質(zhì)量檢查方法可歸納為以下三種。a)機(jī)器驗證:在任務(wù)進(jìn)行期間,安排超過一名人員做同一個子任務(wù),選擇出最優(yōu)、最正確的標(biāo)注結(jié)果。結(jié)果選擇可通過下列方式。1)標(biāo)注工具自動選擇:通過與標(biāo)注工具匹配的模型推理,或擬合若干個標(biāo)注結(jié)果,選擇其中置信度最高的標(biāo)注結(jié)果,作為最終結(jié)果;2)人工輔助選擇:人工對多個標(biāo)注結(jié)果進(jìn)行對比,從而挑選出置信度最高的標(biāo)注結(jié)果作為最終結(jié)果。對于需要特定專業(yè)知識標(biāo)注的領(lǐng)域,進(jìn)行人工輔助標(biāo)注時應(yīng)以多個專家的共同商議結(jié)果作為最終結(jié)果。b)埋題驗證:在任務(wù)進(jìn)行期間,除了常規(guī)標(biāo)注子任務(wù)外,在任務(wù)中混進(jìn)若干已知結(jié)果的測試題,以此驗證標(biāo)注質(zhì)量。在此操作的過程中注意以下事項。1)針對數(shù)據(jù)特征專題專用:對于理題驗證,應(yīng)保障測試題在真題中間處于混淆的狀態(tài)。因此,在出題的過程中,應(yīng)針對數(shù)據(jù)的自身特征(數(shù)據(jù)的類別、場景、內(nèi)容等準(zhǔn)備相應(yīng)的題目,避免題目暴露于操作者,失去驗證的效果。2)限制題目的使用次數(shù):為避免題目多次出現(xiàn),引起被測者的注意,從而失去驗證效果,應(yīng)限制題目的使用次數(shù)。尤其是擁有容易記憶的特征點的題目(如特定臉部特征、特定文字、特定場景等應(yīng)嚴(yán)格限制出現(xiàn)的次數(shù)。c)標(biāo)注人員狀態(tài)驗證:通過對標(biāo)注人員的操作規(guī)范性、實時注意力狀態(tài)、標(biāo)注準(zhǔn)確率等方面進(jìn)行檢查與監(jiān)測,及時發(fā)現(xiàn)操作違規(guī)問題,保證數(shù)據(jù)質(zhì)量;在發(fā)現(xiàn)操作違規(guī)問題、數(shù)據(jù)質(zhì)量有下降時,應(yīng)根據(jù)時間段等特征,對標(biāo)注人員在這一狀態(tài)內(nèi)操作的標(biāo)注數(shù)據(jù)進(jìn)行檢查或者返工等操作。d)標(biāo)注任務(wù)一致性檢查:在標(biāo)注任務(wù)進(jìn)行期間應(yīng)使用統(tǒng)計規(guī)則或模型驗證等方法,得到標(biāo)注任務(wù)一致性水平,一旦發(fā)現(xiàn)離群點或明顯的降低趨勢,及時對標(biāo)注人員預(yù)警和警告。6.2主數(shù)據(jù)管理主數(shù)據(jù)管理要做的就是從各部門的多個業(yè)務(wù)系統(tǒng)中整合最核心的、最需要共享的數(shù)據(jù)(主數(shù)據(jù)集中進(jìn)行數(shù)據(jù)的清洗和豐富,并且以服務(wù)的方式把統(tǒng)一的、完整的、準(zhǔn)確的、具有權(quán)威性的主數(shù)據(jù)提供給需要使用這些數(shù)據(jù)的操作型應(yīng)用系統(tǒng)和分析型應(yīng)用系統(tǒng)。主數(shù)據(jù)管理流程及要求如下:a)識別主數(shù)據(jù),建立主數(shù)據(jù)模型。b)識別主數(shù)據(jù)域的業(yè)務(wù)職責(zé)。c)制定主數(shù)據(jù)采集標(biāo)準(zhǔn),確定主數(shù)據(jù)存儲模型,采集分散在各個業(yè)務(wù)系統(tǒng)的主數(shù)據(jù)集中存儲到統(tǒng)一存儲庫。d)制定主數(shù)據(jù)清洗標(biāo)準(zhǔn),根據(jù)業(yè)務(wù)規(guī)則和數(shù)據(jù)治理標(biāo)準(zhǔn)對采集到的主數(shù)據(jù)進(jìn)行加工清洗,從而形成符合專病數(shù)據(jù)集標(biāo)準(zhǔn)的主數(shù)據(jù)。e)制定主數(shù)據(jù)變更標(biāo)準(zhǔn),例如變更版本管理等(當(dāng)主數(shù)據(jù)變化時能記錄主數(shù)據(jù)的變更內(nèi)容從而保證主數(shù)據(jù)修改的一致性和穩(wěn)定性。f)制定主數(shù)據(jù)歷史版本管理標(biāo)準(zhǔn),需要對主數(shù)據(jù)進(jìn)行分層并記錄不同的版本值。T/BRA-CDCHE****-20**g)確保在多個業(yè)務(wù)場景中主數(shù)據(jù)共享的一致性6.3數(shù)據(jù)質(zhì)控數(shù)據(jù)質(zhì)控,即數(shù)據(jù)驗收,指對進(jìn)行了脫敏、加密、轉(zhuǎn)換等數(shù)據(jù)處理流程后的數(shù)據(jù)的完整性、一致性、正確性等進(jìn)行驗收。如果數(shù)據(jù)未通過驗收,在使用中是不準(zhǔn)確的。只有通過驗收的數(shù)據(jù),在執(zhí)行后期數(shù)據(jù)生產(chǎn)、處理時,才是可以使用的數(shù)據(jù)。6.3.1基本要求數(shù)據(jù)質(zhì)量應(yīng)貫穿數(shù)據(jù)的設(shè)計、產(chǎn)生、匯聚、應(yīng)用階段。數(shù)據(jù)質(zhì)量應(yīng)明確組織層面的數(shù)據(jù)質(zhì)量目標(biāo),統(tǒng)一數(shù)據(jù)質(zhì)量需求相關(guān)模板和管理機(jī)制。6.3.2數(shù)據(jù)質(zhì)量內(nèi)容數(shù)據(jù)質(zhì)量包含以下內(nèi)容:a)數(shù)據(jù)質(zhì)量需求:1)制定完善的數(shù)據(jù)質(zhì)量管理方法,包括質(zhì)量目標(biāo)制定、質(zhì)量檢查、質(zhì)量分析、質(zhì)量評估,質(zhì)量提升等環(huán)節(jié);2)建立數(shù)據(jù)質(zhì)量管理機(jī)構(gòu)和機(jī)制,明確質(zhì)量管理的角色和職責(zé);3)設(shè)計組織統(tǒng)一的數(shù)據(jù)質(zhì)量評價體系以及相應(yīng)的規(guī)則庫。b)數(shù)據(jù)質(zhì)量檢查:1)制定數(shù)據(jù)質(zhì)量檢查計劃,明確相關(guān)人員責(zé)任,對數(shù)據(jù)進(jìn)行定期的質(zhì)量檢查和評估;2)明確數(shù)據(jù)質(zhì)量檢查方法,一般有人工對照校核、程序自動校核和人機(jī)交互等;3)識別數(shù)據(jù)生命周期各個階段的數(shù)據(jù)質(zhì)量關(guān)鍵因素,構(gòu)建數(shù)據(jù)質(zhì)量評估框架(包含但不,限于數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、可訪問性、及時性、相關(guān)性和可信度)。c)數(shù)據(jù)質(zhì)量分析:1)制定組織層面的數(shù)據(jù)質(zhì)量問題評估分析方法,制定統(tǒng)一的數(shù)據(jù)質(zhì)量報告模板,明確數(shù)據(jù)質(zhì)量問題分析的要求;2)制定數(shù)據(jù)質(zhì)量問題分析計劃,對關(guān)鍵數(shù)據(jù)質(zhì)量問題的根本原因、影響范圍進(jìn)行分析,定期輸出數(shù)據(jù)質(zhì)量分析報告。d)數(shù)據(jù)質(zhì)量提升:1)制定組織層面的數(shù)據(jù)質(zhì)量提升制度,明確數(shù)據(jù)質(zhì)量提升方案的構(gòu)成;2)定期開展數(shù)據(jù)質(zhì)量提升工作,針對重點質(zhì)量問題進(jìn)行匯總分析,制定數(shù)據(jù)質(zhì)量提升方,案,從業(yè)務(wù)流程優(yōu)化、系統(tǒng)改進(jìn)、制度和標(biāo)準(zhǔn)完善等層面進(jìn)行提升。6.3.3數(shù)據(jù)質(zhì)量評價過程數(shù)據(jù)集應(yīng)由專人對數(shù)據(jù)的合規(guī)性、質(zhì)量、容量、多樣性和臨床依從性等方面建立評價指標(biāo)體系,評價結(jié)果形成報告儲存。定期進(jìn)行數(shù)據(jù)稽查,由不直接參與研究的人員對數(shù)據(jù)的一致性、合規(guī)性等方面進(jìn)行檢查。數(shù)據(jù)質(zhì)量評價過程如圖:T/BRA-CDCHE****-20**圖2數(shù)據(jù)質(zhì)量評價流程圖a)數(shù)據(jù)質(zhì)量管理組織架構(gòu)建設(shè)數(shù)據(jù)質(zhì)量管理是一個體系化的工作,需要多部門人員參與,建立較為完善的人員組織架構(gòu),其中較為關(guān)鍵的崗位包括:數(shù)據(jù)質(zhì)量管理崗:牽頭數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量檢查規(guī)則的訂立和維護(hù),數(shù)據(jù)質(zhì)量評估模型的定制和維護(hù)、數(shù)據(jù)質(zhì)量相關(guān)辦法的編制、修訂、解釋、推廣和落地,以及專項數(shù)據(jù)質(zhì)量整改工作。數(shù)據(jù)協(xié)調(diào)員:數(shù)據(jù)協(xié)調(diào)員來自于涉及數(shù)據(jù)治理的相關(guān)部門,職責(zé)在于代表本部門參與數(shù)據(jù)質(zhì)量相關(guān)的評審、決策,配合、協(xié)調(diào)、推動數(shù)據(jù)質(zhì)量管理在本部門的的執(zhí)行。b)數(shù)據(jù)質(zhì)量管理機(jī)制建立建立數(shù)據(jù)質(zhì)量管理各個參與部門的溝通機(jī)制。建立數(shù)據(jù)持續(xù)校驗、周期校驗機(jī)制。建立質(zhì)量問題數(shù)據(jù)反饋、處理機(jī)制。c)數(shù)據(jù)質(zhì)量評價數(shù)據(jù)質(zhì)量評價通過設(shè)計數(shù)據(jù)質(zhì)量模型、訂立數(shù)據(jù)質(zhì)量規(guī)則,對數(shù)據(jù)進(jìn)行校驗,并根據(jù)校驗結(jié)果對數(shù)據(jù)質(zhì)量進(jìn)行評價,定位問題數(shù)據(jù),指導(dǎo)數(shù)據(jù)問題的解決,從而提升數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量評價是數(shù)據(jù)質(zhì)量管理的核心。d)數(shù)據(jù)質(zhì)量提升根據(jù)數(shù)據(jù)質(zhì)量評價中暴露的數(shù)據(jù)質(zhì)量問題和問題數(shù)據(jù)反饋機(jī)制,對問題數(shù)據(jù)進(jìn)行繼續(xù)跟蹤處理,從而提升數(shù)據(jù)質(zhì)量。e)數(shù)據(jù)交付使用對于達(dá)到數(shù)據(jù)質(zhì)量要求進(jìn)行交付使用,常見的使用方式包括庫表、文件、接口等。6.3.4數(shù)據(jù)質(zhì)量評價指標(biāo)框架數(shù)據(jù)質(zhì)量評價指標(biāo)應(yīng)符合GB/T36344-2018中數(shù)據(jù)質(zhì)量評價指標(biāo)的定義。具體框架見圖。T/BRA-CDCHE****-20**圖3數(shù)據(jù)質(zhì)量評價指標(biāo)框架7數(shù)據(jù)存儲及更新7.1數(shù)據(jù)存儲實現(xiàn)不同類型數(shù)據(jù)歸檔存儲的技術(shù)支撐包括文件管理系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)兩大類,其中,數(shù)據(jù)庫管理系統(tǒng)根據(jù)不同的應(yīng)用場景,包括分析型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、圖數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫等四大類。a)分布式文件系統(tǒng)分布式文件系統(tǒng)是基于多存儲節(jié)點,實現(xiàn)海量數(shù)據(jù)存儲訪問的文件管理系統(tǒng),主要提供非結(jié)構(gòu)化數(shù)據(jù)存儲管理,存儲容量支持彈性擴(kuò)展。用于存儲專病數(shù)據(jù)集的影像、出院小結(jié)、現(xiàn)病史、檢查結(jié)論等非結(jié)構(gòu)化數(shù)據(jù)。b)分析型數(shù)據(jù)庫分析型數(shù)據(jù)庫是指基于MPP架構(gòu),實現(xiàn)分布式存儲和分布式計算的數(shù)據(jù)庫,面向?qū)2?shù)據(jù)集診斷、醫(yī)囑等業(yè)務(wù)場景,存儲數(shù)據(jù)量大且有復(fù)雜統(tǒng)計分析計算的結(jié)構(gòu)化數(shù)據(jù),可用于存儲決策支持、專病專題分析等業(yè)務(wù)數(shù)據(jù),以滿足大數(shù)據(jù)量AD-HOC查詢的應(yīng)用需求。c)關(guān)系型數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫是指傳統(tǒng)業(yè)務(wù)系統(tǒng)所使用的事務(wù)型數(shù)據(jù)庫,面向?qū)2?shù)據(jù)集OLTP業(yè)務(wù)場景,存儲有高并發(fā)CURD功能需求的結(jié)構(gòu)化數(shù)據(jù),可用于存儲專病數(shù)據(jù)集病例查詢、門診記錄、住院記錄等業(yè)務(wù)數(shù)據(jù)。d)圖數(shù)據(jù)庫圖數(shù)據(jù)庫是基于圖論實現(xiàn)的一種新型數(shù)據(jù)庫,其數(shù)據(jù)存儲結(jié)構(gòu)和數(shù)據(jù)查詢方式都是以圖論為基礎(chǔ),存儲具有圖數(shù)據(jù)結(jié)構(gòu)且需進(jìn)行復(fù)雜關(guān)聯(lián)關(guān)系查詢與分析的結(jié)構(gòu)化數(shù)據(jù)??捎糜趯2?shù)據(jù)集中病例關(guān)聯(lián)圖譜、診斷關(guān)聯(lián)圖譜等圖結(jié)構(gòu)數(shù)據(jù)。c)NoSQL數(shù)據(jù)庫NoSQL數(shù)據(jù)庫即非關(guān)系型數(shù)據(jù)庫,主要類型有文檔型,鍵值型、時序型、列存儲型等。其中,文檔型NoSQL數(shù)據(jù)庫用于存儲專病數(shù)據(jù)集的各類自定義表單和文檔等非結(jié)構(gòu)化數(shù)據(jù),T/BRA-CDCHE****-20**方便隨時變更數(shù)據(jù)指標(biāo)。鍵值型NoSQL數(shù)據(jù)庫可以用于存儲專病數(shù)據(jù)集的分析類應(yīng)用中間計算結(jié)果數(shù)據(jù)或業(yè)務(wù)系統(tǒng)字典緩存數(shù)據(jù)。時序型NoSQL數(shù)據(jù)庫可以用于存儲基于時間序列的事件數(shù)據(jù),如專病數(shù)據(jù)集病例就診信息更變?nèi)罩緮?shù)據(jù)。列存儲型NoSQL數(shù)據(jù)庫可用于存儲專病數(shù)據(jù)集業(yè)務(wù)系統(tǒng)產(chǎn)生的海量日志數(shù)據(jù);在實際應(yīng)用中,根據(jù)數(shù)據(jù)類型及數(shù)據(jù)應(yīng)用的業(yè)務(wù)場景,選擇合適類型的NoSQL數(shù)據(jù)庫。7.2數(shù)據(jù)更新7.2.1更新方式對于數(shù)據(jù)更新方式,主要有全量更新和增量更新兩種。對于首次報送平臺的數(shù)據(jù),應(yīng)采用全量更新的方式,一次性報送所有歷史數(shù)據(jù)。對于更新的數(shù)據(jù),應(yīng)采用增量更新方式,按照數(shù)據(jù)時間戳分批次報送新數(shù)據(jù)到平臺。7.2.1.1全量更新全量更新宜采用直接覆蓋目標(biāo)數(shù)據(jù)集的方式。全量更新數(shù)據(jù)處理應(yīng)采用抽取方法直接處理,通過ETL工具,直接抽取數(shù)據(jù)覆蓋到目標(biāo)數(shù)據(jù)集。7.2.1.2增量更新增量更新數(shù)據(jù)處理應(yīng)抽取自上次抽取以來數(shù)據(jù)庫中要抽取的表中新增、修改、刪除的數(shù)據(jù)。一般增量數(shù)據(jù)抽取方法有以下兩種:a)觸發(fā)器。在要抽取的表上建立需要的觸發(fā)器,一般要建立插入、修改、刪除三個觸發(fā)器,每當(dāng)源表中的數(shù)據(jù)發(fā)生變化,就被相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫入一個臨時表,抽取線程從臨時表中抽取數(shù)據(jù)。觸發(fā)器方式的優(yōu)點是數(shù)據(jù)抽取的性能較高,缺點是要求在業(yè)務(wù)數(shù)據(jù)庫中建立觸發(fā)器,對業(yè)務(wù)系統(tǒng)有一定的性能影響;b)時間截。它是一種基于遞增數(shù)據(jù)比較的增量數(shù)據(jù)捕獲方式,在源表上增加一個時間戳字段,更新修改表數(shù)據(jù)的時候,同時修改時間戳字段的值。當(dāng)進(jìn)行數(shù)據(jù)抽取時,通過比較系統(tǒng)時間與時間截字段的值來決定抽取哪些數(shù)據(jù)。7.2.2異議數(shù)據(jù)處理當(dāng)監(jiān)管單位、被監(jiān)管機(jī)構(gòu)對平臺所提供的數(shù)據(jù)結(jié)果存在異議時,可以通過平臺或維護(hù)渠道對數(shù)據(jù)提出異議。根據(jù)異議情況,平臺運維團(tuán)隊將對數(shù)據(jù)問題進(jìn)行排查,確認(rèn)異常發(fā)生原因以及解決方案,反饋給到異議提出方。如果出現(xiàn)對敏感數(shù)據(jù)有重大異議時,應(yīng)將對應(yīng)用進(jìn)行下線處理,待異議確認(rèn)和修復(fù)后重新上線。8數(shù)據(jù)安全8.1數(shù)據(jù)安全基本原則a)數(shù)據(jù)最小化:應(yīng)明確數(shù)據(jù)的使用目的及所需范圍,提供適當(dāng)?shù)墓芾砗图夹g(shù)措施保證只采集和處理滿足目的所需的最小數(shù)據(jù);b)責(zé)任不隨數(shù)據(jù)轉(zhuǎn)移:當(dāng)前控制數(shù)據(jù)的機(jī)構(gòu)應(yīng)對數(shù)據(jù)負(fù)責(zé),當(dāng)數(shù)據(jù)轉(zhuǎn)移給其他機(jī)構(gòu)時,責(zé)任不隨數(shù)據(jù)轉(zhuǎn)移而轉(zhuǎn)移;T/BRA-CDCHE****-20**c)最小授權(quán):應(yīng)控制數(shù)據(jù)活動中的數(shù)據(jù)訪問權(quán)限,保證在滿足業(yè)務(wù)需求的基礎(chǔ)上最小化權(quán)限,并及時回收過期的數(shù)據(jù)訪問權(quán)限;d)可審計:應(yīng)實現(xiàn)對數(shù)據(jù)使用和業(yè)務(wù)各環(huán)節(jié)的數(shù)據(jù)審計,記錄數(shù)據(jù)活動中各項操作的相關(guān)信息,且保證記錄不可偽造和篡改,數(shù)據(jù)活動的所有操作可追溯。8.2數(shù)據(jù)加密專病數(shù)據(jù)集在存儲前要加密以防止重要數(shù)據(jù)丟失或盜用,傳輸過程中對數(shù)據(jù)進(jìn)行加密也同樣重要。加密過程中選擇加密強(qiáng)度較高的加密算法,提供數(shù)據(jù)邏輯性和有效性的自動校驗功能,對用戶輸入信息進(jìn)行安全檢查,降低數(shù)據(jù)庫管理員權(quán)限被攥改、濫用等數(shù)據(jù)安全風(fēng)險。采用加密技術(shù)實現(xiàn)用戶身份和鑒權(quán)口令、用戶資源等關(guān)鍵信息的加密傳輸或加密存儲,防止信息在網(wǎng)絡(luò)傳輸或存儲中被竊取、破壞及篡改。數(shù)據(jù)加密可支持多種加密形式及數(shù)據(jù)加密提醒。8.3數(shù)據(jù)脫敏基于大數(shù)據(jù)的數(shù)據(jù)脫敏機(jī)制,專病數(shù)據(jù)集在接收數(shù)據(jù)時,要對專病數(shù)據(jù)集的數(shù)據(jù)進(jìn)行脫敏處理,敏感數(shù)據(jù)或身份數(shù)據(jù)信息需要隱藏,避免信息泄漏。推薦的數(shù)據(jù)脫敏方法包括:替代:使用偽裝數(shù)據(jù)替換源數(shù)據(jù)中的敏感數(shù)據(jù)以保證安全;混洗:對敏感數(shù)據(jù)進(jìn)行隨機(jī)變換打破原有的關(guān)聯(lián)關(guān)系;數(shù)值變換:通過隨機(jī)函數(shù)對數(shù)值型數(shù)據(jù)進(jìn)行可控的調(diào)整,是常用的脫敏方法;加密:加密處理待脫敏數(shù)據(jù),外部用戶只能看到無意義的加密數(shù)據(jù);遮擋:指對敏感數(shù)據(jù)的部分內(nèi)容用掩飾字符如“術(shù)”、“#”等進(jìn)行統(tǒng)一替換,從而使得敏感數(shù)據(jù)保持部分內(nèi)容公開;空值插入:將敏感數(shù)據(jù)刪除或置為NULL值;反脫敏:支持反脫敏機(jī)制,將已脫敏的數(shù)據(jù)進(jìn)行恢復(fù)。8.4數(shù)據(jù)備份需要建立健全的備份和恢復(fù)機(jī)制,對數(shù)據(jù)庫進(jìn)行保護(hù)。通過備份恢復(fù)設(shè)備,對重要數(shù)據(jù)進(jìn)行備份保護(hù)。根據(jù)業(yè)務(wù)特點及數(shù)據(jù)性質(zhì),制定相應(yīng)的備份策略,并安排運維人員,對備份進(jìn)行監(jiān)控,如遇備份失敗,第一時間進(jìn)行故障定位并重啟備份任務(wù)。8.5其他數(shù)據(jù)集應(yīng)符合GB/T22239—2019中等級保護(hù)三級的要求,個人信息安全應(yīng)符合GB/T35273—2020要求。T/BRA-CDCHE****-20**(資料性/規(guī)范性)附錄名稱建成胃癌專病數(shù)據(jù)庫,收集人口統(tǒng)計學(xué)信息、就診記錄、病史信息、體格檢查、??茩z查、診斷、檢驗、檢查、手術(shù)治療、術(shù)后恢復(fù)與并發(fā)癥、病理、內(nèi)科治療、放射治療、隨訪、不良反應(yīng)等信息,全面挖掘數(shù)據(jù)價值應(yīng)用,搭建具有專病特征的數(shù)據(jù)資源目錄,細(xì)化研究方向,為后續(xù)胃癌診療與預(yù)防,以及科研提供數(shù)據(jù)支撐。結(jié)合大數(shù)據(jù)治理技術(shù),對大量數(shù)據(jù)清洗標(biāo)化包括:數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載。深入結(jié)合醫(yī)生團(tuán)隊,整合專業(yè)醫(yī)學(xué)知識。數(shù)據(jù)清洗標(biāo)化是不斷重復(fù)的周期性的過程,為科研決策分析提供重要依據(jù)。胃癌數(shù)據(jù)集主要包括但不限于以下內(nèi)容:1.患者人口學(xué)信息病案號、性別、姓名、性別、民族、職業(yè)類別、出生日期、發(fā)病年齡、ABO血型、RH血型、籍貫市、籍貫省、文化程度、婚姻、身份證件號碼、本人電話、常住地址、戶口地址、是否手術(shù)、手術(shù)單位、手術(shù)前治療標(biāo)志、手術(shù)前治療方式、手術(shù)日期。2.就診記錄入院日期、入院科室、主要診斷、出院日期、出院科室、是否轉(zhuǎn)科、轉(zhuǎn)科科別、主治醫(yī)生、就診日期、就診科室、主要診斷、主治醫(yī)生。3.病史信息癥狀、癥狀病程、癥狀初發(fā)到確診時間、病情進(jìn)展及加重時間、伴發(fā)完全梗阻、伴發(fā)不完全梗阻、伴發(fā)出血、伴發(fā)穿孔、體重變化、體重變化數(shù)值、體重流失程度、體重變化時長、院前初檢、院前手術(shù)、院前用藥、院前輔助檢查、院前治療史、腹腔內(nèi)手術(shù)具體部位、腹腔內(nèi)手術(shù)具體器官、腹腔外手術(shù)史、腹腔外手術(shù)具體部位、腹腔外手術(shù)具體器官、ESD手術(shù)史、ESD手術(shù)日期、糖尿病、高血壓、肝炎、結(jié)核、呼吸系統(tǒng)慢性病、心血管系統(tǒng)慢性病、消化系統(tǒng)慢性病、腎臟系統(tǒng)慢性病、腦血管系統(tǒng)疾病、免疫系統(tǒng)慢性病、其他疾病、其他手術(shù)史、其他腫瘤史、腫瘤名稱、腫瘤發(fā)生時間、過敏史、過敏原名稱、輸血史、輸血反應(yīng)、輸血成分、非腫瘤家族史、疾病名稱、關(guān)系類型、腫瘤家族史、腫瘤名稱、關(guān)系類型、飲酒史、飲酒種類、戒酒時長、飲酒時長、吸煙史、吸煙種類、戒煙時長、吸煙時長、高鹽食物、鹽漬食物、煙熏食物、其他飲食偏好、飲食偏好時長。4.體格檢查舒張壓、心率、脈搏、體表面積、ECOG評分、Karnofsky評分、WHO體力狀態(tài)評分、ASA評分、NRS2002營養(yǎng)風(fēng)險篩查評分。5.??茩z查檢查日期、檢查內(nèi)容、腹部壓痛、腹部壓痛部位、腹部包塊、腹部包塊位置、腹部包塊大小、腹部包塊移動度、腹肌抵抗、腹肌抵抗部位、胃型、直腸指診、盆腔積液、結(jié)節(jié)活動度、冰凍盆腔、指示密集、振水音、左側(cè)肋下脾包塊大小、移動性濁音、其他陽性體征。6.診斷T/BRA-CDCHE****-20**病灶數(shù)量、大體分型-早期胃癌、大體分型-進(jìn)展期胃癌(Borrmann分型)、病灶位置-縱軸、病區(qū)組合、病灶位置-橫軸、病理確診、T分期、N分期、M分期、M分期的具體部位、TNM分期、診斷名稱、診斷日期、診斷類型、分期類型、診斷名稱、診斷日期、診斷來源、診斷醫(yī)師。7.檢驗檢驗日期、檢驗定性結(jié)果、檢驗定量結(jié)果、檢驗定量結(jié)果單位、正常參考值范圍、白細(xì)胞(WBC)-靜脈血、白細(xì)胞計數(shù)(WBC)-靜脈血、紅細(xì)胞(RBC)-靜脈血、紅細(xì)胞計數(shù)(RBC)-靜脈血、血紅蛋白(Hb)測定-靜脈血、血小板(PLT)-靜脈血、中性粒細(xì)胞絕對值(NEUT#)-靜脈血、中性粒細(xì)胞百分比(NEUT%)-靜脈血、淋巴細(xì)胞絕對值(LY#)-靜脈血、淋巴細(xì)胞百分比(LY%)-靜脈血、單核細(xì)胞絕對值(MONO#)-靜脈血、單核細(xì)胞百分比(MONO%)-靜脈血、平均紅細(xì)胞體積(MCV)-靜脈血、平均紅細(xì)胞血紅蛋白(MCH)-靜脈血、平均紅細(xì)胞血紅蛋白濃度(MCHC)-靜脈血、嗜酸性粒細(xì)胞絕對值(EO#)-靜脈血、嗜酸性粒細(xì)胞百分比(EOS%)-靜脈血、嗜堿性粒細(xì)胞絕對值(BASO#)-靜脈血、嗜堿性粒細(xì)胞百分比(BASO%)-靜脈血、紅細(xì)胞體積分布寬度(RDW-CV)-靜脈血、紅細(xì)胞分布寬度(RDW-SD)-靜脈血、血小板分布寬度(PDW)-靜脈血、平均血小板體積(MPV)-靜脈血、大血小板比率(P-LCR)-靜脈血、紅細(xì)胞比容(Hct)-靜脈血、紅細(xì)胞壓積(PCV)-靜脈血、血小板壓積(PCT)-靜脈血、酸堿度(pH)測定-尿液、比重測定SG-尿液、白細(xì)胞WBC(尿流式)-尿液、尿糖GLU-尿液、尿酮體KET-尿液、尿膽原URO-尿液、膽紅素BIL-尿液、隱血(HB)-尿液、紅細(xì)胞RBC-尿液、白細(xì)胞LEU(干化學(xué))-尿液、尿蛋白定性試驗PRO-尿液、尿蛋白定量-尿液、上皮細(xì)胞-尿液、隱血試驗-便檢、便常規(guī)、臨床試驗-便檢、葡萄糖(Glu)-靜脈血、乳酸脫氫酶(LD)測定-靜脈血、天門冬氨酸氨基轉(zhuǎn)移酶(AST)測定-靜脈血、丙氨酸氨基轉(zhuǎn)移酶(ALT)測定-靜脈血、總膽紅素(TBIL)測定-靜脈血、結(jié)合膽紅素(DBIL)測定-靜脈血、非結(jié)合膽紅素(IBIL)測定-靜脈血、堿性磷酸酶(ALP)測定-靜脈血、γ-谷氨?;D(zhuǎn)移酶(GGT)測定-靜脈血、α-羥丁酸脫氫酶(HBDH)測定-靜脈血、總蛋白(TP)測定-靜脈血、白蛋白(Alb)測定-靜脈血、鉀(K+)-靜脈血、鈉(Na+)-靜脈血、鈣(Ca2+)-靜脈血、無機(jī)磷(P)-靜脈血、鎂(Mg2+)-靜脈血、肌酐(Cr)測定-靜脈血、尿素(Urea)-靜脈血、尿酸(UA)測定-靜脈血、尿素氮肌酐比(BUN/Cr)-靜脈血、總膽固醇(TC)測定-靜脈血、高密度脂蛋白膽固醇(HDL-C)測定-靜脈血、低密度脂蛋白膽固醇(LDL-C)測定-靜脈血、極低密度脂蛋白膽固醇(VLDL-C)測定-靜脈血、非高密度脂蛋白膽固醇(nHDL-C)測定-靜脈血、甘油三酯(TG)測定-靜脈血、尿素氮(Bun)測定-靜脈血、球蛋白(Glb)測定-靜脈血、白蛋白/球蛋白(ALB/GLO)比值-靜脈血、前白蛋白(PA)測定-靜脈血、谷氨酰胺氨(GDN)測定-靜脈血、C反應(yīng)蛋白(CRP)測定-靜脈血、胃蛋白酶原(PG)測定-靜脈血、促甲狀腺素(T-G7-17)測定-靜脈血、鐵蛋白(SF)測定-靜脈血、維生素B12(VitB12)測定-靜脈血、血漿D-二聚體(D-Dimer)測定-靜脈血、凝血酶原時間(PT)測定-靜脈血、活化部分凝血活酶時間(APTT)測定-靜脈血、凝血酶時間(TT)測定-靜脈血、纖維蛋白原測定(FIB)-靜脈血、血漿抗凝血酶III(AT-III)T/BRA-CDCHE****-20**測定-靜脈血、纖維蛋白原降解產(chǎn)物(FDP)測定-靜脈血、凝血酶原活動度(PTA)測定-靜脈血、凝血酶原國際標(biāo)準(zhǔn)化比率(INR)-靜脈血、凝血酶原時間比率(PTR)測定-靜脈血、活化部分凝血活酶時間比率(APITTR)測定-靜脈血、糖類抗原CA12-5測定-靜脈血、糖類抗原CA19-9測定-靜脈血、糖類抗原CA72-4測定-靜脈血、糖類抗原CA15-3測定-靜脈血、癌胚抗原(CEA)測定-靜脈血、甲胎蛋白(AFP)測定-靜脈血、神經(jīng)元特異性烯醇化酶(NSE)測定-靜脈血、VEGF測定-靜脈血、乙型肝炎表面抗原定性(HBsAg)測定-靜脈血、乙型肝炎表面抗原定量(HBsAg)測定-靜脈血、乙型肝炎e抗體定性(抗HBe)測定-靜脈血、乙型肝炎e抗體定量(抗HBe)測定-靜脈血、EB病毒VCA-IgA抗體(VCA-IgA)-全血、梅毒螺旋體抗體(FTA-ABS)測定-靜脈血。8.檢查心電圖:檢查方法名稱、檢查日期、檢查所見、檢查結(jié)論、是否異常、期前收縮、期前收縮類型、傳導(dǎo)阻滯、阻滯類型、勞損肥厚、勞損肥厚部位、心肌缺血、ST-T改變、陳舊性心肌梗死。X線:檢查日期、檢查項目名稱、檢查部位、檢查所見、檢查結(jié)論。上消化道造影:檢查日期、檢查項目名稱、檢查部位、病灶位置-縱軸、病灶位置-橫軸。CT:檢查日期、檢查項目名稱、檢查部位、檢查部位分類、檢查所見、檢查結(jié)論、原發(fā)灶位置-縱軸、原發(fā)灶位置-橫軸、原發(fā)灶大小、可見腫塊器官部位、淋巴結(jié)大小、淋巴結(jié)評價情況、腹水、漿膜面情況、浸潤臟器、術(shù)后改變、復(fù)發(fā)轉(zhuǎn)移、轉(zhuǎn)移臟器、肝轉(zhuǎn)移單發(fā)/多發(fā)、轉(zhuǎn)移部位、轉(zhuǎn)移灶個數(shù)、轉(zhuǎn)移灶大小、浸潤臟器、MRI:檢查日期、檢查部位、檢查部位分類、檢查項目名稱、檢查所見、檢查結(jié)論、原發(fā)灶位置-縱軸、原發(fā)灶位置-橫軸、原發(fā)灶大小、可見腫塊器官部位、淋巴結(jié)大小、淋巴結(jié)評價情況、腹水、浸潤臟器、術(shù)后改變、復(fù)發(fā)轉(zhuǎn)移、轉(zhuǎn)移臟器、肝轉(zhuǎn)移單發(fā)/多發(fā)、轉(zhuǎn)移部位、轉(zhuǎn)移灶個數(shù)、轉(zhuǎn)移灶大小、PET-CT:檢查日期、檢查部位、檢查部位分類、檢查項目名稱、檢查所見、檢查結(jié)論、原發(fā)灶位置-縱軸、原發(fā)灶位置-橫軸、原發(fā)灶大小、可見腫塊器官部位、淋巴結(jié)大小、淋巴結(jié)評價情況、腹水、浸潤臟器、術(shù)后改變、復(fù)發(fā)轉(zhuǎn)移、轉(zhuǎn)移臟器、肝轉(zhuǎn)移單發(fā)/多發(fā)、轉(zhuǎn)移部位、轉(zhuǎn)移灶個數(shù)、轉(zhuǎn)移灶大小、轉(zhuǎn)移灶位置、骨掃描:檢查日期、檢查項目名稱、檢查所見、檢查結(jié)論、轉(zhuǎn)移部位、心臟超聲:檢查日期、檢查項目名稱、心功能-左室舒張末容積、心功能-左室收縮末容積、心功能-射血分?jǐn)?shù)、心功能-心排血量、心功能-心指數(shù)、心功能-每搏量、心功能-每搏輸出量、檢查所見、檢查結(jié)論、頸部超聲:檢查日期、檢查項目名稱、檢查部位、頸部淋巴結(jié)大小、頸部淋巴結(jié)提示轉(zhuǎn)移、其他超聲:檢查日期、檢查項目名稱、檢查部位、檢查所見、檢查結(jié)論。胃鏡:檢查日期、檢查項目名稱、檢查所見、檢查結(jié)論、病灶大小、大體分型-早期胃癌、大體分型-進(jìn)展期胃癌(Borrmann分型)、齒狀線距門齒距離、病灶上緣距齒狀線距離、病灶位置-縱軸、病灶位置-橫軸、Hp試驗、超聲胃鏡:檢查日期、檢查項目名稱、檢查所見、檢查結(jié)論、齒狀線距門齒距離、病灶位置-縱軸、病灶位置-橫軸、病灶所侵厚度層級、病灶所在層面標(biāo)志、病灶所在層面標(biāo)志線、胃周腫大淋巴結(jié)、腹水。9.手術(shù)治療T/BRA-CDCHE****-20**手術(shù)基本信息:手術(shù)開始時間、手術(shù)結(jié)束時間、手術(shù)時間、手術(shù)名稱、手術(shù)類別、手術(shù)者、第一助手、麻醉方式、術(shù)中診斷、失血量、有無輸血、輸血量、輸入成分、術(shù)中T分期、術(shù)中N分期、術(shù)中M分期、M的具體部位、如T4b,具體累及器官/組織。手術(shù)入路:手術(shù)入路、腹腔鏡觀察孔、氣腹壓力范圍、中轉(zhuǎn)開腹、中轉(zhuǎn)開腹原因。手術(shù)性質(zhì):手術(shù)性質(zhì)、姑息手術(shù)原因、姑息手術(shù)、減瘤手術(shù)、探查結(jié)論原因、標(biāo)本來源、取材部位。腹腔檢查情況:腹腔檢查情況、腹水量、腹水顏色、粘連部位、受粘連累及器官、其他。胃切除重建:切除方式、主要重建方式、重建具體方式、淋巴結(jié)清掃范圍、淋巴結(jié)清掃范圍+D2+范圍、根治切除、切口長度、切口位置、聯(lián)合切除、切除器官、切除器官-原因、十二指腸殘端加固、食管空腸吻合口加固。術(shù)中并發(fā)癥:術(shù)中并發(fā)癥、有無出血、損傷修復(fù)、其他并發(fā)癥。術(shù)中治療情況:術(shù)中治療、術(shù)中輸血、熱灌注藥物名稱、熱灌注藥物劑量、熱灌注藥物灌注時間、熱灌注藥物灌注溫度、熱灌注藥物灌注速度。標(biāo)本解剖信息:病灶數(shù)量、病灶標(biāo)本名稱、病灶標(biāo)本臟器、病灶標(biāo)本臟器數(shù)目、病灶大小、標(biāo)本解剖信息、病灶標(biāo)本位置-縱軸、病灶標(biāo)本位置-橫軸、Siewert分型。術(shù)中可疑轉(zhuǎn)移淋巴結(jié):判斷依據(jù)、可疑淋巴結(jié)轉(zhuǎn)移數(shù)、1#賁門右側(cè)淋巴結(jié)、2#賁門左側(cè)淋巴結(jié)、3#胃小彎淋巴結(jié)、4sa#胃左動脈旁淋巴結(jié)、4sb#胃短血管旁淋巴結(jié)、4d#胃網(wǎng)膜左血管旁淋巴結(jié)、5#幽門上區(qū)淋巴結(jié)、6#幽門下區(qū)淋巴結(jié)、7#胃左動脈干旁淋巴結(jié)、8a#肝總動脈干旁上區(qū)淋巴結(jié)、8p#肝總動脈干旁下區(qū)淋巴結(jié)、9#腹腔動脈干旁淋巴結(jié)、10#脾門淋巴結(jié)、11p#脾動脈旁近端淋巴結(jié)、11d#脾動脈旁遠(yuǎn)端淋巴結(jié)、12a#肝十二指腸韌帶內(nèi)肝總動脈旁淋巴結(jié)、12b#肝十二指腸韌帶內(nèi)肝固有動脈旁淋巴結(jié)、12p#肝十二指腸韌帶內(nèi)門靜脈旁淋巴結(jié)、13#胰頭后淋巴結(jié)、14v#腸系膜上靜脈旁淋巴結(jié)、14a#腸系膜上動脈旁淋巴結(jié)、15#結(jié)腸中動脈旁淋巴結(jié)、16a1#主動脈裂孔上區(qū)淋巴結(jié)、16a2#主動脈裂孔下區(qū)淋巴結(jié)、16b1#腹主動脈旁中區(qū)淋巴結(jié)、16b2#腹主動脈旁下區(qū)淋巴結(jié)、17#胰下淋巴結(jié)、18#結(jié)腸旁淋巴結(jié)、19#膈下淋巴結(jié)、20#食管裂孔旁淋巴結(jié)、110#肝門淋巴結(jié)、111#肝后上區(qū)淋巴結(jié)、112#后胰頭上區(qū)淋巴結(jié)、113#后胰頭下區(qū)淋巴結(jié)、114#十二指腸旁淋巴結(jié)、115#直腸旁淋巴結(jié)、116#骶前淋巴結(jié)、其他可疑淋巴結(jié)。10.術(shù)后恢復(fù)及并發(fā)癥術(shù)后恢復(fù)過程:術(shù)后入住ICU、術(shù)后入住ICU原因、轉(zhuǎn)入ICU時間、轉(zhuǎn)出ICU時間、ICU治療時間、特殊診療措施、總住院天數(shù)、術(shù)后住院天數(shù)、術(shù)后體重、首次離床日期、腸功能恢復(fù)(腸鳴音/排氣)日期、恢復(fù)至飲食日期、恢復(fù)至飲水日期、是否留置胃管、胃管留置日期、胃管引流量、胃管引流物、拔出胃管置留胃管、重置胃管時間、是否留置引流管、腹腔引流日期、腹腔引流量、拔除引流管日期、是否輸血、輸血量、輸入成分、術(shù)后疼痛評分-POD#1、術(shù)后疼痛評分-POD#2、術(shù)后疼痛評分-POD#3、術(shù)后疼痛評分-出院前一天、是否早期并發(fā)癥(術(shù)后30天)。術(shù)后早期并發(fā)癥:切口問題、腹腔感染/膿腫、腹腔內(nèi)出血、腸梗阻、吻合口漏、吻合口狹窄、十二指腸殘端瘺、十二指腸殘端出血、消化道出血、膽漏、胰瘺、腹腔炎癥、肺部T/BRA-CDCHE****-20**感染、泌尿系感染、甲狀腺、肝衰竭、心腦血管意外、深靜脈血栓、其他并發(fā)癥、并發(fā)癥發(fā)生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論