




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
DBXX/TXXX—XXXX
江西省醫(yī)療大數(shù)據(jù)平臺技術規(guī)范第三部分:數(shù)據(jù)采集規(guī)范
1范圍
本規(guī)范規(guī)定了醫(yī)療大數(shù)據(jù)平臺數(shù)據(jù)采集接入的術語和定義以及相關技術要求,包含數(shù)據(jù)采集過程、
歷史數(shù)據(jù)采集規(guī)范、增量數(shù)據(jù)采集規(guī)范、數(shù)據(jù)采集質(zhì)控要求等內(nèi)容。
本規(guī)范適用于醫(yī)療大數(shù)據(jù)平臺數(shù)據(jù)采集過程的設計、開發(fā)、選型和實施,可作為醫(yī)療大數(shù)據(jù)平臺數(shù)
據(jù)采集接入時的評測依據(jù)。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T18391.1—2009信息技術元數(shù)據(jù)注冊系統(tǒng)(MDR)第1部分:框架
GB/T34960.5—2018信息技術服務治理第5部分:數(shù)據(jù)治理規(guī)范
GB/T36345信息技術通用數(shù)據(jù)導入接口
3術語和定義
GB/T18391.1—2009、GB/T34960.5—2018、GB/T36345界定的以及下列術語和定義適用于本文件。
3.1
數(shù)據(jù)模型
數(shù)據(jù)模型為數(shù)據(jù)采集提供參考依據(jù),由于不同醫(yī)院的廠商、系統(tǒng)都可能不一致,而且醫(yī)院也存在更
換系統(tǒng)的情況,統(tǒng)一的數(shù)據(jù)模型可以兼容醫(yī)院不同廠商的系統(tǒng),對外統(tǒng)一標準輸出。
3.2
源系統(tǒng)數(shù)據(jù)
源系統(tǒng)數(shù)據(jù)是指醫(yī)院臨床業(yè)務系統(tǒng)數(shù)據(jù),包括HIS業(yè)務、LIS業(yè)務、RIS業(yè)務、EMR業(yè)務、手麻、
病案等產(chǎn)生的數(shù)據(jù),可能存儲在不同類型的數(shù)據(jù)庫匯總。
3.3
歷史數(shù)據(jù)采集
歷史數(shù)據(jù)采集是指采集醫(yī)院過往的醫(yī)療數(shù)據(jù),一家醫(yī)院在源系統(tǒng)數(shù)據(jù)庫中基本上有近十年數(shù)據(jù),這
些數(shù)據(jù)量比較龐大,需要采取不一樣的方式一次性采集,和增量數(shù)據(jù)同步方案存在一定的差異性。
3.4
1
DBXX/TXXX—XXXX
增量數(shù)據(jù)采集
增量數(shù)據(jù)采集是指采集醫(yī)院每天新增或者變更數(shù)據(jù),由于醫(yī)院業(yè)務量比較大,住院患者數(shù)據(jù)變更比
較頻繁,根據(jù)醫(yī)院實際情況可以考慮T+1或者實時進行增量數(shù)據(jù)采集,不同數(shù)據(jù)采集模式采用的數(shù)據(jù)采
集方案存在一定差異性。
3.5
數(shù)據(jù)映射
數(shù)據(jù)映射是指將醫(yī)院不同廠商的不同系統(tǒng)的業(yè)務數(shù)據(jù)存儲的字段與標準模型進行對照,確保數(shù)據(jù)采
集到數(shù)據(jù)模型對應的內(nèi)容是一致的,不存在數(shù)據(jù)與對應字段不一致的情況。
3.6
數(shù)據(jù)標準化
數(shù)據(jù)標準化是指將不同醫(yī)院的數(shù)據(jù)形成統(tǒng)一的標準,方便后續(xù)使用,目前不同廠商對數(shù)據(jù)標準都存
在差異,需要將源數(shù)據(jù)按照標準數(shù)據(jù)模型進行轉(zhuǎn)換,符合數(shù)據(jù)標準要求。
3.7
數(shù)據(jù)采集治理
數(shù)據(jù)治理是指將醫(yī)院臟、亂、差的數(shù)據(jù)按照標準數(shù)據(jù)模型進行數(shù)據(jù)治理,將質(zhì)量比較差的數(shù)據(jù)通過
數(shù)據(jù)治理后提高數(shù)據(jù)質(zhì)量,以滿足后續(xù)的臨床數(shù)據(jù)應用。
3.8
數(shù)據(jù)采集質(zhì)控
數(shù)據(jù)采集質(zhì)控是指醫(yī)院不同業(yè)務廠商的數(shù)據(jù)按照標準數(shù)據(jù)模型進行采集后,對采集入庫的數(shù)據(jù)進行
數(shù)據(jù)質(zhì)量核查,對數(shù)據(jù)質(zhì)量存在問題的數(shù)據(jù)進行預警和糾錯,提高數(shù)據(jù)質(zhì)量。
4縮略語
下列縮略語適用于本文件:
——HIT衛(wèi)生信息技術HealthcareInformationTechnology;
——ESB企業(yè)服務總線EnterpriseServiceBus;
——ETL抽取-轉(zhuǎn)換-加載Extrat-Transform-Load;
——CDR臨床數(shù)據(jù)中心ClinicalDataRepository;
——ODR運營數(shù)據(jù)中心OperationDataRepository;
——RDR科研數(shù)據(jù)中心ResearchDataRepository;
——BI運營數(shù)據(jù)中心的可視化BusinessIntelligence;
——AI人工智能ArtificialIntelligence;
——NLP自然語言處理;
——NER命名實體識別NamedEntityRecognition);
——SaaS軟件即服務Software-as-a-service;
——PaaS平臺即服務Platform-as-a-Service;
——IaaS基礎設施即服務Infrastructure-as-a-Service;
2
DBXX/TXXX—XXXX
——SOA面向服務的體系結(jié)構(gòu)Service-OrientedArchitecture。
——HL7衛(wèi)生信息交換標準HealthLevelSeven;
——DICOM醫(yī)學數(shù)字成像和通信DigitalImagingandCommunicationsinMedicine;
——LOINC觀測指標標識符邏輯命名與編碼系統(tǒng);
——SNOMEDCT醫(yī)學系統(tǒng)命名法-臨床術語SystematizedNomenclatureofMedicine--Clinical
Terms);
——ICD國際疾病分類InternationalClassificationofDisease);
——EMR電子病歷ElectronicMedicalRecord;
——HIS醫(yī)院信息系統(tǒng)HospitalInformationSystem;
——CIS臨床信息系統(tǒng)ClinicalInformationSystem;
——LIS實驗室信息系統(tǒng)LaboratoryInformationSystem;
——RIS放射學信息系統(tǒng)RadiologyInformationSystem;
——PACS影像歸檔和通信系統(tǒng)PictureArchivingandCommunicationSystem;
——CRF臨床研究表CaseReportForm;
——CDSS臨床決策支持系統(tǒng)ClinicalDecisionSupportSystem。
5數(shù)據(jù)接入要求
5.1數(shù)據(jù)采集范圍
醫(yī)療大數(shù)據(jù)平臺接入數(shù)據(jù)源應包括但不限于:HIS、EMR、護理、手術麻醉、LIS、PACS、RIS、病理、
心電圖、超聲、體檢、隨訪EDC、生物樣本庫等院內(nèi)臨床業(yè)務系統(tǒng),以及基因數(shù)據(jù)庫、物聯(lián)設備監(jiān)測數(shù)
據(jù)庫、公共衛(wèi)生數(shù)據(jù)庫等特殊衛(wèi)生健康數(shù)據(jù)。
數(shù)據(jù)采集范圍包含但不限于:
——HIS:患者基本信息(含門急診、住院)、就診記錄、診斷、醫(yī)囑、用藥、耗材、手術、輸血、
檢查、檢驗等臨床信息,人員、醫(yī)療組、科室、診斷編碼、手術編碼、項目編碼等主數(shù)據(jù)信息;
——EMR:門診患者的門診病歷,住院患者的入院病歷、病程、術前討論、術后情況、出院小結(jié)、
會診記錄等全部文書;
——病案首頁:就診主索引、臨床首頁信息和編目首頁信息
——護理:就診主索引、護理首頁、護理評估、護理記錄、護理措施、危重記錄、體征、PICC、
置管等;
——手術麻醉:就診主索引、麻醉記錄單、手術記錄單、監(jiān)控儀器數(shù)據(jù);
——LIS:就診主索引、檢查項目、檢查細項、細項結(jié)果及正常值范圍;
——RIS:就診主索引、檢查報告、CT/MRI/PET等各類文字報告原始文件;
——病理:就診主索引、檢查報告、涂片圖像原始文件;
——心電圖:就診主索引、檢查報告、心電圖原始文件或pdf文件;
——超聲:就診主索引、檢查報告、超聲圖像原始文件;
——體檢:患者基本信息(體檢)、體檢項目清單、各項檢查結(jié)果及正常值范圍、各科室檢查結(jié)
論、終檢結(jié)論、相關影像原始文件等;
——隨訪:患者基本信息(隨訪)、臨床隨訪和病案隨訪數(shù)據(jù)及院外隨訪數(shù)據(jù);
——生物樣本:醫(yī)療機構(gòu)生物樣本中心采集并留存的生物信息、存儲信息;
——基因:患者基本信息、患者基因檢查結(jié)果記錄、基因原始數(shù)據(jù);
——物聯(lián)網(wǎng)設備健康監(jiān)測數(shù)據(jù):患者基本信息,通過物聯(lián)網(wǎng)可穿戴健康監(jiān)測設備采集的實時監(jiān)測
數(shù)據(jù)、健康監(jiān)測報告數(shù)據(jù);
3
DBXX/TXXX—XXXX
——公共衛(wèi)生數(shù)據(jù):涉及公共衛(wèi)生應急、疾病預防控制、婦幼保健、精神衛(wèi)生、衛(wèi)生監(jiān)督、健康
教育、120、血液等眾多衛(wèi)生健康數(shù)據(jù)。
5.2采集方式及頻率
5.2.1采集方式
醫(yī)療采集方式主要分為:
——在線采集
——離線采集
5.2.2采集頻率
醫(yī)療數(shù)據(jù)采集應根據(jù)業(yè)務需求選擇不同的采集頻率,應分為:
——秒級實時數(shù)據(jù)同步;
——不同時間單位的間隔數(shù)據(jù)采集,包括15分鐘、小時、日、月等頻率。
5.3采集作業(yè)要求
大數(shù)據(jù)平臺數(shù)據(jù)采集作業(yè)管理應包含作業(yè)策略、作業(yè)調(diào)度、作業(yè)監(jiān)控等基本功能,以保障采集作業(yè)
高效穩(wěn)定。采集作業(yè)要求應完成如下目標:
——作業(yè)策略應包括前期處理、執(zhí)行、任務日志、異常處理;
——作業(yè)異常處理應支持自動重試、調(diào)用備用任務、手工重試等方式;
——作業(yè)調(diào)度應對數(shù)據(jù)采集任務進行全局調(diào)用;
——作業(yè)調(diào)度應在滿足業(yè)務需求的前提下,最大限度減少數(shù)據(jù)采集頻率,降低數(shù)據(jù)源負擔;
——作業(yè)監(jiān)控應充分考慮各采集任務存在的風險點,制定監(jiān)控任務,留存任務監(jiān)控記錄;
——作業(yè)管理應能夠通過短信、郵件等方式進行異常告警,協(xié)助運維人員及時準確發(fā)現(xiàn)問題;
——作業(yè)管理者應定期對數(shù)據(jù)采集作業(yè)監(jiān)控記錄進行分析,制定作業(yè)優(yōu)化方法。
5.4采集技術要求
5.4.1綜述
醫(yī)療大數(shù)據(jù)平臺數(shù)據(jù)接入方式針對不同業(yè)務需求、數(shù)據(jù)源適配情況常見技術包括業(yè)務系統(tǒng)數(shù)據(jù)庫備
份恢復、數(shù)據(jù)同步(如OGG、CDC等)、數(shù)據(jù)并行接入工具(Sqoop、DataX)、物化視圖、ETL(抽取工
具)、集成平臺等。
5.4.2備份恢復
備份恢復是通過數(shù)據(jù)庫備份技術對生產(chǎn)庫進行實時\定期備份后,建立備份數(shù)據(jù)后通過數(shù)據(jù)恢復技
術將數(shù)據(jù)恢復至大數(shù)據(jù)平臺,其應滿足如下要求:
——備份恢復方式應被應用于大批量數(shù)據(jù)采集且對時效性要求不高的采集任務;
——備份數(shù)據(jù)庫應在提交給平臺前做好數(shù)據(jù)脫敏、加密處理等必要前期處理后,備份生產(chǎn)庫;
——數(shù)據(jù)源備份恢復時間應避免在業(yè)務高峰時期,減少數(shù)據(jù)源負擔。
5.4.3數(shù)據(jù)同步
數(shù)據(jù)同步是通過傳統(tǒng)關系型數(shù)據(jù)庫自帶的數(shù)據(jù)同步技術進行實時數(shù)據(jù)同步,其應滿足如下要求:
——數(shù)據(jù)同步應被應用于要求實時數(shù)據(jù)采集、吞吐量不大的采集任務;
——數(shù)據(jù)同步應支持OracleGoldenGate、MysqlBinlog、SqlserverCDC等數(shù)據(jù)同步技術;
4
DBXX/TXXX—XXXX
——數(shù)據(jù)同步任務應配置數(shù)據(jù)量效驗規(guī)則,防止數(shù)據(jù)同步過程中的數(shù)據(jù)丟失;
——數(shù)據(jù)同步應提供秒級的數(shù)據(jù)延時。
5.4.4物化視圖
物化視圖是包括一個查詢結(jié)果的數(shù)據(jù)庫對象,它是遠程數(shù)據(jù)的的本地副本,通過物化視圖可以實現(xiàn)
數(shù)據(jù)從數(shù)據(jù)源復制到大數(shù)據(jù)平臺,其應滿足如下要求:
——物化視圖復制應包含只讀物化視圖復制、可更新物化視圖復制和可寫物化視圖復制;
——物化視圖對數(shù)據(jù)源侵入性較大、數(shù)據(jù)源負擔大、安全性差,應在其他方式均無法滿足需求時
使用。
5.4.5ETL采集
ETL(ExtractTransformLoad)是一種流式數(shù)據(jù)采集,是一種高效的實時數(shù)據(jù)加工工具,可以實
現(xiàn)流式數(shù)據(jù)的抽取、數(shù)據(jù)轉(zhuǎn)換和加工、數(shù)據(jù)裝載,其應該滿足如下要求:
——ETL工具應包括數(shù)據(jù)抽取、轉(zhuǎn)換、加載功能;
——ETL工具應提供圖形化界面,支持拖拽方式配置ETL任務節(jié)點;
——ETL工具transformation應包含輸入、輸出、查詢、轉(zhuǎn)化、連接、腳本環(huán)節(jié);
——ETL工具應支持自定義數(shù)據(jù)轉(zhuǎn)換方法,腳本環(huán)節(jié)應支持javaScropt、python腳本編寫的數(shù)據(jù)
處理程序;
——ETL工具應支持主流數(shù)據(jù)源對接;
——ETL工具應支持向HIVE、Hbase、Greenplum等主流大數(shù)據(jù)平臺數(shù)據(jù)庫組件導入數(shù)據(jù)。
5.4.6集成平臺數(shù)據(jù)提取
醫(yī)院有集成平臺可以采用醫(yī)療大數(shù)據(jù)平臺從醫(yī)院集成平臺訂閱消息,獲取實時數(shù)據(jù)。
——集成平臺應符合醫(yī)療行業(yè)標準接口定義規(guī)范;
——集成平臺消息傳輸應該具備應答機制,形成消息閉環(huán);
——消息通過接口傳輸需要進行加密,提高消息傳輸安全性;
——消息需要支持續(xù)傳,保證大數(shù)據(jù)平臺數(shù)據(jù)的準確性及完整性。
5.5采集質(zhì)控要求
5.5.1為了保障數(shù)據(jù)采集接入時的數(shù)據(jù)質(zhì)量,應在數(shù)據(jù)接入時完成數(shù)據(jù)質(zhì)量基礎檢查、字段級檢查、
表級檢查以保障數(shù)據(jù)的完整性、連續(xù)性、時效性,并進行數(shù)據(jù)采集質(zhì)檢實時告警及定期報告生成。
5.5.2基礎檢查包括:
——檢查數(shù)據(jù)采集范圍是否符合要求;
——檢查數(shù)據(jù)采集實時性是否滿足要求;
——檢查數(shù)據(jù)采集作業(yè)是否連續(xù);
——檢查數(shù)據(jù)采集作業(yè)是否存在異常;
5.5.3字段級檢查包括:
——針對數(shù)值型字段可通過計算檢查是否存在異常;
——針對業(yè)務關鍵字段可通過業(yè)務邏輯判斷檢查是否存在異常;
——針對主鍵、外鍵等關鍵字段可通過字段關聯(lián)檢查是否存在異常;
5.5.4表級檢查包括:
——表級采集可通過數(shù)據(jù)量檢查是否存在異常;
——
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療領域的新機遇區(qū)塊鏈技術的市場應用與前景
- 醫(yī)療設備操作規(guī)范與質(zhì)量控制
- 醫(yī)療大數(shù)據(jù)分析在醫(yī)療服務中的應用
- 2025年試用期轉(zhuǎn)正工作總結(jié)模版
- 醫(yī)療大數(shù)據(jù)下的患者滿意度分析
- AI技術在手術輔助系統(tǒng)中的倫理邊界探討
- 醫(yī)學倫理在中藥治療技術傳播中的作用研究
- 生產(chǎn)部門2025年度工作總結(jié)模版
- 代課老師聘用合同范例
- 醫(yī)患溝通藝術與銷售溝通技巧共通點解析
- 起訴意見書(公安)
- 2023學年完整公開課版用戶思維
- 醫(yī)院獲得性肺炎的診斷與治療
- 新產(chǎn)品試產(chǎn)工作指引
- 松下伺服驅(qū)動器說明書
- 實驗:驗證動量守恒定律 說課課件
- 連桿加工工藝規(guī)程及夾具設計工序卡-工藝規(guī)程卡
- 動態(tài)軌道衡電子稱重儀及定量稱重控制系統(tǒng)設計概要
- 2023-2024學年浙江省舟山市小學語文二年級下冊期末自測模擬試卷
- 新生兒早期基本保健(EENC)指南要點解讀課件
- 酒精中毒性韋尼克腦病與酒精戒斷模板課件整理
評論
0/150
提交評論