《醫(yī)療科研大數(shù)據(jù)平臺(tái)技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第1頁
《醫(yī)療科研大數(shù)據(jù)平臺(tái)技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第2頁
《醫(yī)療科研大數(shù)據(jù)平臺(tái)技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第3頁
《醫(yī)療科研大數(shù)據(jù)平臺(tái)技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第4頁
《醫(yī)療科研大數(shù)據(jù)平臺(tái)技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)指南第4部分:臨床科研系統(tǒng)功能本文件規(guī)定了臨床科研系統(tǒng)的總體功能規(guī)范,包括臨床科研數(shù)據(jù)管理要求、科研項(xiàng)目管理要求、臨床科研數(shù)據(jù)分析要求等方面內(nèi)容。本文件適用于各醫(yī)療單位、企業(yè)構(gòu)建臨床科研系統(tǒng)解決方案的研發(fā)、選擇和評(píng)價(jià),不適用于各醫(yī)療單位、企業(yè)硬件要求,也不包括醫(yī)院整體臨床數(shù)據(jù)中心的要求。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T14396疾病分類與代碼GB/T18391.1信息技術(shù)元數(shù)據(jù)注冊(cè)系統(tǒng)(MDR)第1部分:框架GB/T34960.5信息技術(shù)服務(wù)治理第5部分:數(shù)據(jù)治理規(guī)范GB/T35295信息技術(shù)大數(shù)據(jù)術(shù)語GB/T37721信息技術(shù)臨床科研系統(tǒng)功能要求WS/T303衛(wèi)生信息數(shù)據(jù)元標(biāo)準(zhǔn)化規(guī)則WS/T304衛(wèi)生信息數(shù)據(jù)模式描述指南WS/T500(所有部分)電子病歷共享文檔規(guī)范3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1隨機(jī)對(duì)照試驗(yàn)randomizedcontrolledtrial隨機(jī)對(duì)照試驗(yàn)是一種對(duì)醫(yī)療衛(wèi)生服務(wù)中的某種療法或藥物的效果進(jìn)行檢測(cè)的手段,特別常用于醫(yī)學(xué)、藥學(xué)、護(hù)理學(xué)研究中,在司法、教育、社會(huì)科學(xué)等其他領(lǐng)域也有所應(yīng)用。3.2數(shù)據(jù)戰(zhàn)略datastrategy組織開展數(shù)據(jù)工作的愿景和高階指引。[GB/T34960.5,定義3.4]3.32臨床預(yù)測(cè)模型clinicalpredictionmodel臨床預(yù)測(cè)模型,又稱臨床預(yù)測(cè)規(guī)則或者風(fēng)險(xiǎn)評(píng)分,是指利用多因素模型估算患者有某種疾病的概率3.4數(shù)據(jù)預(yù)處理datapreprocessing數(shù)據(jù)預(yù)處理,由于真實(shí)世界的臨床數(shù)據(jù)大體上都是不完整,不一致的臟數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間。3.5特征工程featuresengineering特征工程,是指用一系列工程化的方式從原始數(shù)據(jù)中篩選出更好的數(shù)據(jù)特征,以提升模型的訓(xùn)練效果。在臨床研究中常見的特征工程包括變量篩選:如逐步回歸、嶺回歸、LASSO回歸、基于機(jī)器學(xué)習(xí)算法的重要度排序等,除了變量篩選外還常用到的主成分分析與因子分析進(jìn)行特征工程。3.6模型評(píng)價(jià)modelevaluation確定納入模型的因子和結(jié)局變量后,選擇不同的模型類型,例如傳統(tǒng)的Logistic回歸、線性回歸、COX比例風(fēng)險(xiǎn)模型等,也可以使用機(jī)器學(xué)習(xí)算法(SVM、Xgboost等通過對(duì)測(cè)試集上預(yù)測(cè)效果進(jìn)行模型的評(píng)價(jià),常用的模型評(píng)價(jià)指標(biāo)有ROC-AUC、F1-score、召回率、區(qū)分度、校準(zhǔn)度等模型性能評(píng)價(jià)指標(biāo)。4縮略語下列縮略語適用于本文件:API:應(yīng)用程序編程接口(ApplicationProgrammingInterface);ETL:抽取、轉(zhuǎn)換、加載(Extract-Transform-Load);CRF:病例報(bào)告表(CaseReportForm);PI:主要研究者(principleinvestigator);CI:合作研究者(co-investigator);SI:助理研究者(sub-investigator);CSV:逗號(hào)分隔值(Comma-SeparatedValues);EMRs:電子病歷系統(tǒng)(ElectronicMedicalRecordSystem);JSON:對(duì)象簡譜(JavaScriptObjectNotation);XML:可擴(kuò)展標(biāo)記語言(eXtensibleMarkupLanguage);XSL:可擴(kuò)展樣式語言(eXtensibleStylesheetLanguage);ML:機(jī)器學(xué)習(xí)(MachineLearning);RCT:隨機(jī)對(duì)照試驗(yàn)(RandomizedControlledTrial);GCP:藥物臨床試驗(yàn)管理規(guī)范(GoodClinicalPractice);COX:比例風(fēng)險(xiǎn)回歸模型(proportionalhazardsmodel);3ROC:接受者操作特性曲線(receiveroperatingcharacteristiccurve);PSM:傾向性評(píng)分匹配(PropensityScoreMatching);One-Hot:獨(dú)熱編碼(One-HotEncoding);OLAP:聯(lián)機(jī)事務(wù)處理(OnlineTransactionProcessing)。5臨床科研系統(tǒng)設(shè)計(jì)總則5.1概述建設(shè)基于人工智能的全院級(jí)科研一體化平臺(tái),可以對(duì)醫(yī)院臨床病歷數(shù)據(jù)進(jìn)行結(jié)構(gòu)化、標(biāo)準(zhǔn)化的整合治理,面向醫(yī)院重點(diǎn)專科提供臨床科研數(shù)據(jù)采集和分析服務(wù),滿足不同臨床醫(yī)生不同的科研訴求,從而促進(jìn)醫(yī)療機(jī)構(gòu)的科研產(chǎn)出。臨床科研系統(tǒng)的目標(biāo)是利用信息技術(shù)手段,有效地聚合、分析、管理、利用醫(yī)療大數(shù)據(jù)資源,打造高質(zhì)量的臨床科研數(shù)據(jù)中心,提供科研的統(tǒng)計(jì)分析工具,嵌套醫(yī)學(xué)常用統(tǒng)計(jì)方法,以滿足臨床科研對(duì)高質(zhì)量研究與管理的要求。6總體技術(shù)要求6.1概述主要從系統(tǒng)架構(gòu)、系統(tǒng)性能、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)與信息安全4個(gè)方面規(guī)范了臨床科研系統(tǒng)的基本技術(shù)要求。6.2系統(tǒng)架構(gòu)技術(shù)要求——系統(tǒng)宜支持多種數(shù)據(jù)格式,具有高效的數(shù)據(jù)采集和存儲(chǔ)能力,能夠采集和存儲(chǔ)來自不同來源的大量臨床數(shù)據(jù),包括病歷、影像、生物標(biāo)本、基因測(cè)序等?!到y(tǒng)宜支持?jǐn)?shù)據(jù)集成和分析,能夠?qū)⒉煌瑏碓吹臄?shù)據(jù)集成到一起,并對(duì)數(shù)據(jù)進(jìn)行分析和挖掘。支持高效的數(shù)據(jù)處理和分析能力,包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理等。——系統(tǒng)宜具有高效可靠的數(shù)據(jù)庫,能夠支持海量數(shù)據(jù)的存儲(chǔ)和高并發(fā)的數(shù)據(jù)讀寫操作。——系統(tǒng)宜具有高可用性和容錯(cuò)性,以確保系統(tǒng)的穩(wěn)定性和可靠性。高可用性和容錯(cuò)性技術(shù)可以使用負(fù)載均衡、故障轉(zhuǎn)移、多活部署等?!到y(tǒng)宜具有可擴(kuò)展性和高可用性,能夠支持大規(guī)模的用戶和數(shù)據(jù),同時(shí)具有高可用性和容錯(cuò)性,以確保系統(tǒng)的穩(wěn)定性和可靠性——系統(tǒng)宜具備嚴(yán)格的安全性和隱私保護(hù)措施,以保護(hù)患者的隱私和數(shù)據(jù)的安全。安全性和隱私保護(hù)技術(shù)可以使用加密、認(rèn)證、授權(quán)等。6.3臨床科研系統(tǒng)數(shù)據(jù)與信息安全——臨床科研系統(tǒng)宜支持單中心\多中心科研數(shù)據(jù)使用審批流程,明確數(shù)據(jù)出口以及數(shù)據(jù)使用權(quán)——與醫(yī)院信息系統(tǒng)對(duì)接時(shí)宜遵循醫(yī)院數(shù)據(jù)管理的要求,對(duì)醫(yī)院生產(chǎn)系統(tǒng)進(jìn)行只讀訪問,不對(duì)醫(yī)院生產(chǎn)系統(tǒng)進(jìn)行數(shù)據(jù)寫入。4——所有用戶的密碼在數(shù)據(jù)庫中,采用摘要算法加密后再保存。——支持用戶的權(quán)限的設(shè)置:支持醫(yī)院管理人員方便的管理各種角色、用戶的功能權(quán)限、數(shù)據(jù)訪問和使用權(quán)限的定義?!С植僮魅罩镜挠涗洠簩?duì)所有用戶操作記錄日志,記錄訪問IP地址、時(shí)間、用戶名、操作涉及的模塊等信息?!С只颊呷ル[私管理:對(duì)于患者隱私,在應(yīng)用或系統(tǒng)設(shè)計(jì)時(shí)充分考慮相關(guān)數(shù)據(jù)的隱私保護(hù)政7總體功能要求本標(biāo)準(zhǔn)的功能要求主要從樣本收集、科研項(xiàng)目管理、數(shù)據(jù)選取、數(shù)據(jù)挖掘以及系統(tǒng)管理5個(gè)方面對(duì)臨床科研系統(tǒng)的基本功能做出要求,各模塊間的相互關(guān)系,如圖1所示。圖1臨床科研系統(tǒng)框架8樣本收集模塊功能要求8.1概述樣本收集是臨床研究的第一步,對(duì)于內(nèi)部樣本即存儲(chǔ)于醫(yī)療大數(shù)據(jù)平臺(tái)內(nèi)的樣本,宜支持多種形式、復(fù)雜條件的查詢進(jìn)行收集,外部樣本主要針對(duì)前瞻性研究,宜支持手工錄入、電子交換或是數(shù)據(jù)導(dǎo)入的收集方法。8.2外部樣本采集外部樣本采集功能要求如下:——宜支持手工錄入樣本信息;——宜支持上傳相關(guān)圖片信息;——宜支持以接口的方式與外部系統(tǒng)進(jìn)行交互導(dǎo)入數(shù)據(jù)集,數(shù)據(jù)提供方宜按照接口標(biāo)準(zhǔn)處理需要導(dǎo)入的數(shù)據(jù),如JSON、WebService等方式;——宜支持以ETL(數(shù)據(jù)倉庫技術(shù))的方式從外部系統(tǒng)抽取數(shù)據(jù),數(shù)據(jù)提供方宜按照ETL技術(shù)標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行抽取、清洗、校對(duì)等。58.3內(nèi)部樣本檢索內(nèi)部樣本檢索功能要求如下:——宜提供可視化的工具進(jìn)行各類數(shù)據(jù)查詢統(tǒng)計(jì),同時(shí)支持查詢結(jié)果數(shù)據(jù)的圖形、報(bào)表展示——宜支持復(fù)雜條件的檢索方式,自由構(gòu)造查詢條件以及組合篩選條件,查詢條件包括但不限于:大于、小于、等于、大于等于、小于等于、不等于,包含,不包含等;組合條件包括但不限于:且、或等;——宜支持多維度的檢索,包括但不限于:診斷、檢驗(yàn)、體征、時(shí)間、就診信息等;——宜支持病例全文的精確以及模糊檢索;——宜支持對(duì)疾病名進(jìn)行歸一化搜索,如搜索慢性阻塞性肺疾病或慢阻肺或英文簡寫,搜索到的宜是同一種疾病的相關(guān)內(nèi)容;——宜支持管理人員設(shè)置系統(tǒng)使用人的數(shù)據(jù)可查詢范圍。9科研項(xiàng)目模塊功能要求9.1概述臨床科研項(xiàng)目主要包括前瞻性研究以及回顧性研究,系統(tǒng)功能宜滿足兩類研究的使用需求,參考附錄A。9.2前瞻性研究項(xiàng)目前瞻性研究功能要求如下:——宜提供科研項(xiàng)目管理功能,包括但不限于項(xiàng)目管理、團(tuán)隊(duì)管理、成員管理、多中心管理等;——宜支持受試者(患者)管理功能,包括但不限于篩選、添加、更新、刪除受試者(患者)信息等;——宜提供入組樣本的隨機(jī)分組功能,以滿足隨機(jī)對(duì)照試驗(yàn)的要求;——宜提供CRF表單制作功能,宜允許用戶或管理人員創(chuàng)建編輯CRF表單;——宜提供多終端的表單填寫功能,包括但不限于網(wǎng)頁填寫、收集APP填寫、微信小程序填寫等;——宜提供可視化的隨訪管理功能,允許項(xiàng)目成員查看隨訪對(duì)象的隨訪進(jìn)度;——宜提供項(xiàng)目的質(zhì)控。9.3回顧性研究項(xiàng)目回顧性研究功能要求如下:——宜提供隊(duì)列管理功能,包括但不限于刪除隊(duì)列、查詢隊(duì)列、手工增加隊(duì)列樣本等;——宜提供隊(duì)列的二次篩選功能,包括但不限于隊(duì)列的并集、交集、對(duì)某一指標(biāo)進(jìn)行篩選。10數(shù)據(jù)選取功能要求10.1概述科研數(shù)據(jù)選取宜提供基線選擇、變量選取所需的可視化工具,宜提供數(shù)據(jù)選取的患者信息展示,并支持最終選取數(shù)據(jù)的導(dǎo)出。10.2定義基線支持可視化定義研究基線,包括但不限于診斷、檢驗(yàn)、就診信息、用藥、手術(shù)等。610.3變量選擇——支持設(shè)置數(shù)據(jù)選取所需的患者信息相關(guān)變量,包括但不限于診斷、檢驗(yàn)、就診信息、用藥、手術(shù)等?!С诌x取基于自然語言處理的患者信息?!С肿远x變量的配置、編輯、刪除?!С峙渲盟x變量選取的時(shí)間點(diǎn)或時(shí)間段?!С直4孀兞窟x擇模板應(yīng)用于其他項(xiàng)目。10.4數(shù)據(jù)導(dǎo)出——宜提供患者視圖,宜提供展示納入數(shù)據(jù)選取的患者信息,宜提供單個(gè)患者整個(gè)數(shù)據(jù)生命周期的全部數(shù)據(jù)。——宜提供數(shù)據(jù)導(dǎo)出功能,數(shù)據(jù)使用者或管理者可從將選取的數(shù)據(jù)以所需的格式導(dǎo)出,格式包括但不限于CSV、XLS、SAS、Excel、SPSS等多種格式。11數(shù)據(jù)挖掘功能要求11.1概述數(shù)據(jù)挖掘功能宜滿足不同臨床研究設(shè)計(jì)(如:RCT)或臨床試驗(yàn)標(biāo)準(zhǔn)(如:GCP)中需要的分析算法,該模塊功能要求主要包括:提供對(duì)原始數(shù)據(jù)以及處理后數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)建模以及數(shù)據(jù)圖表的分析工具庫,同時(shí)能夠輸出分析結(jié)果、知識(shí)或者決策,參考附錄B。。11.2數(shù)據(jù)清洗數(shù)據(jù)清洗宜模塊功能要求如下:——宜提供數(shù)據(jù)編輯功能,包括但不限于小數(shù)點(diǎn)位數(shù)修改,變量屬性修改(定量數(shù)據(jù)、定類數(shù)據(jù)等),變量名修改,變量刪除,變量轉(zhuǎn)化等;——宜提供數(shù)據(jù)批量清洗功能,包括但不限于缺失值填補(bǔ)、剔除文本、記錄替換等;——提供重編碼功能,包括但不限于分組重編碼、One-hot編碼等;——宜提供數(shù)據(jù)標(biāo)準(zhǔn)化功能,包括但不限于歸一化、正則化等;——宜提供數(shù)據(jù)篩選功能,使用目標(biāo)數(shù)據(jù)集自由構(gòu)造查詢條件以及組合篩選條件,查詢條件包括但不限于:大于、小于、等于、大于等于、小于等于、不等于,包含,不包含等;組合條件包括但不限于:且、或等。11.3數(shù)據(jù)分析——提供研究樣本的描述功能:包括但不限于最大值、最小值統(tǒng)計(jì)、正態(tài)檢驗(yàn)、交叉表等。——提供變量關(guān)聯(lián)分析功能,包括但不限于共線性、相關(guān)性分析等?!峁┙M間\組內(nèi)差異分析功能,包括但不限于非參數(shù)檢驗(yàn)、T檢驗(yàn)、單因素方差分析等。——提供臨床常用回歸\生存分析功能,包括但不限于Logistic回歸、COX回歸、生存分析、RCS樣條、主成分分析等?!峁┚C合統(tǒng)計(jì)分析功能,包括但不限于單因素\多因素分析、多模型回歸分析、趨勢(shì)分析、分層分析等;支持分析結(jié)果的可視化與導(dǎo)出?!С纸y(tǒng)計(jì)任務(wù)復(fù)用與修改要求。11.4數(shù)據(jù)建模7——宜提供臨床科研中常用的基于機(jī)器學(xué)習(xí)的分類算法,包括但不限于XGboost分類、RF分類、KNN分類、SVM分類、logistics分類、樸素貝葉斯分類、ADboost分類、lightGB分類等?!颂峁┡R床科研中常用的基于機(jī)器學(xué)習(xí)的回歸算法,包括但不限于XGboost回歸、RF回歸、KNN回歸、SVM回歸、線性回歸等?!颂峁┡R床科研中常用的基于機(jī)器學(xué)習(xí)的聚類算法,包括但不限于K-mean聚類、Birch聚類、高斯混合模型聚類等?!颂峁┡R床科研中常用的降維算法,如PCA、LDA等?!芍С侄喾N神經(jīng)網(wǎng)絡(luò)算法,包括但不限于MLP、DNN、CNN、LSTM等?!芍С职凑毡壤齽澐?jǐn)?shù)據(jù)集的訓(xùn)練集、測(cè)試集,提供手動(dòng)設(shè)置劃分比例的界面?!芍С謱?duì)選定模型的手動(dòng)調(diào)整、自動(dòng)調(diào)整模型參數(shù),提供手工調(diào)整參數(shù)的界面?!芍С侄鄠€(gè)預(yù)測(cè)模型間預(yù)測(cè)效能進(jìn)行比較,提供測(cè)試集以及訓(xùn)練集中預(yù)測(cè)效能的比較。——可支持機(jī)器學(xué)習(xí)流程的其它其它組件,包括特征提取、特征選擇、重要度排序、交叉驗(yàn)證等?!商峁┗诿總€(gè)建模分析方法產(chǎn)生分析結(jié)果的說明和解釋。12科研系統(tǒng)管理功能要求12.1概述系統(tǒng)管理提供用戶管理、角色與權(quán)限、數(shù)據(jù)策略、院外訪問設(shè)置和日志審計(jì)功能。12.2用戶管理——宜支持展示系統(tǒng)用戶信息?!酥С痔砑?、編輯、刪除用戶信息。12.3角色與權(quán)限——宜支持不同角色配置不同功能權(quán)限?!酥С终故静煌巧臋?quán)限,并支持新增、刪除、編輯角色的權(quán)限。12.4科研項(xiàng)目權(quán)限管理——宜支持管理人員設(shè)置對(duì)項(xiàng)目的增刪改查權(quán)限;——系統(tǒng)宜提供研究項(xiàng)目背景、數(shù)據(jù)來源、入排標(biāo)準(zhǔn)、研究設(shè)計(jì)等文檔的錄入界面——支持系統(tǒng)管理者對(duì)全部的研究項(xiàng)目進(jìn)行增刪改查?!С謭F(tuán)隊(duì)成員權(quán)限管理,根據(jù)不同權(quán)限配置用戶角色的功能權(quán)限及數(shù)據(jù)權(quán)限,權(quán)限包括但不限于PI、CI、SI等角色的功能權(quán)限。12.5科研數(shù)據(jù)安全管理——支持?jǐn)?shù)據(jù)權(quán)限策略與配置,包括根據(jù)用戶職稱、職位(也可以定制化)配置全院、所在科室數(shù)據(jù)權(quán)限策略。——支持對(duì)于某一類患者信息(姓名、家庭地址、身份證)進(jìn)行加密,避免患者隱私泄露。支持系統(tǒng)用戶登錄/登出/變更、智能搜索、數(shù)據(jù)導(dǎo)出等操作的日志審計(jì)。8(資料性)醫(yī)療大數(shù)據(jù)科研平臺(tái)的實(shí)踐案例A.1案例背景隨著醫(yī)療機(jī)構(gòu)信息化的不斷完善,醫(yī)療機(jī)構(gòu)擁有的數(shù)據(jù)量越來越龐大。在大數(shù)據(jù)時(shí)代,對(duì)于研究型醫(yī)療機(jī)構(gòu),如何釋放大數(shù)據(jù)的價(jià)值成為很多醫(yī)療機(jī)構(gòu)關(guān)注的問題??蒲惺轻t(yī)療機(jī)構(gòu)高質(zhì)量發(fā)展的重要基石,也是發(fā)揮大數(shù)據(jù)價(jià)值的主要領(lǐng)域。一方面,借助大數(shù)據(jù)平臺(tái)完成數(shù)據(jù)治理,提升醫(yī)療機(jī)構(gòu)數(shù)據(jù)質(zhì)量,提高科研產(chǎn)出效率。另一方面,借助大數(shù)據(jù)促進(jìn)醫(yī)療機(jī)構(gòu)智慧管理、臨床智能應(yīng)用,加速智慧醫(yī)療機(jī)構(gòu)建設(shè)。A.2痛點(diǎn)和難點(diǎn)A.2.1痛點(diǎn)A.2.1.1科研無法直接使用非結(jié)構(gòu)化數(shù)據(jù)醫(yī)療機(jī)構(gòu)雖然積累了海量數(shù)據(jù),但由于80%左右的數(shù)據(jù)是非結(jié)構(gòu)化的數(shù)據(jù),在科研中是無法有效利用的。醫(yī)療機(jī)構(gòu)急需非結(jié)構(gòu)化電子記錄的結(jié)構(gòu)化處理能力,采用醫(yī)療人工智能技術(shù)將醫(yī)學(xué)語境下基于自然語言描述的醫(yī)療記錄自動(dòng)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),滿足臨床科研需求。A.2.1.2缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)在沒有統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)的階段,醫(yī)療機(jī)構(gòu)雖然擁有海量的、種類豐富的臨床數(shù)據(jù),在數(shù)據(jù)統(tǒng)計(jì)等應(yīng)用的過程中,發(fā)現(xiàn)了很多統(tǒng)計(jì)不準(zhǔn)確、篩選范圍覆蓋不完整等問題。例如,搜索“慢性阻塞性肺疾病”的相關(guān)病例,有很大比例的病例應(yīng)該被搜索出來,但是卻沒有搜索出來,因?yàn)椴糠只颊叩呐R床描述采用的是慢阻肺、英文簡稱或者其他的描述方式。A.2.1.3缺乏工具,病例數(shù)據(jù)采集、統(tǒng)計(jì)分析難——傳統(tǒng)的病例數(shù)據(jù)采集是采用的是Excle和人工收集數(shù)據(jù)的模式,收集數(shù)據(jù)這種低價(jià)值、重復(fù)性勞動(dòng)占用了臨床科研工作大量的寶貴時(shí)間。——有了數(shù)據(jù)后,由于缺乏科研工具,在隊(duì)列管理、樣本納入、數(shù)據(jù)分析方面均采用人工處理方式或借助多種第三方工具,一方面是存在速度慢、效率低的問題,另一方面第三方軟件還存在數(shù)據(jù)泄露的安全隱患。A.2.1.4信息安全無保障——醫(yī)療機(jī)構(gòu)數(shù)據(jù)服務(wù)缺少數(shù)據(jù)隱私和脫敏配置功能,無法在對(duì)應(yīng)的服務(wù)中進(jìn)行脫敏處理?!獋鬏斶^程宜當(dāng)缺少加密配置功能,無法服務(wù)的傳輸過程中對(duì)交互數(shù)據(jù)進(jìn)行加密處理。——數(shù)據(jù)訪問缺少訪問控制與監(jiān)管的功能,無法做到對(duì)每個(gè)接入數(shù)據(jù)服務(wù)的系統(tǒng)和數(shù)據(jù)使用方都進(jìn)行登記與注冊(cè),以及記錄每次訪問的情況。A.2.2難點(diǎn)A.2.2.1面向未來3~5年的統(tǒng)籌規(guī)劃及落地方案9——評(píng)估醫(yī)療機(jī)構(gòu)內(nèi),業(yè)務(wù)系統(tǒng)和人員能力等現(xiàn)狀,分析醫(yī)療機(jī)構(gòu)科研發(fā)展方向及重點(diǎn),為醫(yī)療機(jī)構(gòu)數(shù)據(jù)治理制定可行性方案?!贫ㄡt(yī)療機(jī)構(gòu)、科研平臺(tái)服務(wù)商、其他系統(tǒng)服務(wù)商之間的規(guī)劃、治理范圍和任務(wù)的界定,以及實(shí)施策略、流程的設(shè)計(jì)。——制作監(jiān)督執(zhí)行過程的策略和方式,保證實(shí)施進(jìn)度和質(zhì)量。A.2.2.2高質(zhì)量、可持續(xù)的數(shù)據(jù)治理體系設(shè)計(jì)——醫(yī)療機(jī)構(gòu)數(shù)據(jù)中心要建立一套可評(píng)價(jià)的體系,從數(shù)據(jù)的及時(shí)性、完整性、準(zhǔn)確性、一致性、關(guān)聯(lián)性、溯源性等6個(gè)維度對(duì)數(shù)據(jù)治理過程進(jìn)行評(píng)價(jià)?!皶r(shí)性:業(yè)務(wù)數(shù)據(jù)產(chǎn)生的時(shí)間(以數(shù)據(jù)記錄時(shí)間或業(yè)務(wù)時(shí)間為準(zhǔn))與數(shù)據(jù)收集的時(shí)間間隔,宜滿足一定的時(shí)間要求。該評(píng)價(jià)主要是針對(duì)數(shù)據(jù)治理中數(shù)據(jù)收集的過程?!暾裕横t(yī)療機(jī)構(gòu)數(shù)據(jù)中心宜制定數(shù)據(jù)完整性相關(guān)質(zhì)量指標(biāo),通過業(yè)務(wù)標(biāo)準(zhǔn)來識(shí)別業(yè)務(wù)關(guān)鍵數(shù)據(jù)的完整性,并根據(jù)評(píng)價(jià)情況,對(duì)數(shù)據(jù)質(zhì)量過程進(jìn)行持續(xù)優(yōu)化和調(diào)整?!暾裕横t(yī)療機(jī)構(gòu)數(shù)據(jù)中心宜制定數(shù)據(jù)準(zhǔn)確性相關(guān)質(zhì)量指標(biāo),結(jié)合業(yè)務(wù)規(guī)則和數(shù)據(jù)標(biāo)準(zhǔn)來識(shí)別數(shù)據(jù)的準(zhǔn)確程度,并根據(jù)評(píng)價(jià)情況,對(duì)數(shù)據(jù)治理過程進(jìn)行持續(xù)優(yōu)化和調(diào)整?!恢滦裕横t(yī)療機(jī)構(gòu)數(shù)據(jù)中心宜制定數(shù)據(jù)一致性相關(guān)質(zhì)量指標(biāo),結(jié)合業(yè)務(wù)規(guī)則和數(shù)據(jù)標(biāo)準(zhǔn)來識(shí)別數(shù)據(jù)的一致性程度,并根據(jù)評(píng)價(jià)情況,對(duì)數(shù)據(jù)治理過程進(jìn)行持續(xù)優(yōu)化和調(diào)整?!P(guān)聯(lián)性:醫(yī)療機(jī)構(gòu)數(shù)據(jù)中心宜制定數(shù)據(jù)關(guān)聯(lián)性相關(guān)質(zhì)量指標(biāo),結(jié)合數(shù)據(jù)庫管理范式要求識(shí)別數(shù)據(jù)的關(guān)聯(lián)性水平,并根據(jù)評(píng)價(jià)情況,對(duì)數(shù)據(jù)治理過程進(jìn)行持續(xù)優(yōu)化和調(diào)整。A.3平臺(tái)架構(gòu)平臺(tái)架構(gòu)分為四個(gè)層級(jí):——數(shù)據(jù)集成:科研平臺(tái)首先采集院內(nèi)的臨床數(shù)據(jù)和院外產(chǎn)生的隨訪、CRF表單等數(shù)據(jù)。——數(shù)據(jù)治理:集成的數(shù)據(jù)與術(shù)語標(biāo)準(zhǔn)體系進(jìn)行映射或進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)化,支持進(jìn)行數(shù)據(jù)合理性校驗(yàn),實(shí)現(xiàn)將多元性、異源性數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一標(biāo)準(zhǔn)的高質(zhì)量科研數(shù)據(jù)?!獢?shù)據(jù)中心:將經(jīng)過治理的數(shù)據(jù)存放在科研數(shù)據(jù)中心?!蒲袘?yīng)用:科研人員使用應(yīng)用系統(tǒng)來建立課題、隊(duì)列、篩選病歷,做回顧性、前瞻性研究。圖A.1臨床科研系統(tǒng)架構(gòu)A.4功能介紹A.4.1構(gòu)建ETL平臺(tái)實(shí)現(xiàn)歷史與實(shí)時(shí)數(shù)據(jù)匯聚,保障數(shù)據(jù)完整性與整合性?!?guī)劃大數(shù)據(jù)平臺(tái)數(shù)據(jù)池,將所有臨床原始數(shù)據(jù)匯聚進(jìn)數(shù)據(jù)池;——通過ETL相關(guān)工具實(shí)現(xiàn)構(gòu)建基礎(chǔ)數(shù)據(jù)采集平臺(tái);——設(shè)置DICOM前置服務(wù)器,接入醫(yī)療影像、心電等原始數(shù)據(jù);——設(shè)置基因數(shù)據(jù)服務(wù)器,通過與測(cè)序儀直連方式接收基因測(cè)序數(shù)據(jù)。A.4.2建立數(shù)據(jù)脫敏規(guī)范,開啟平臺(tái)軟硬件結(jié)合安全防護(hù),保障數(shù)據(jù)安全性?!獏⒄誋IPAA定義的18項(xiàng)內(nèi)容進(jìn)行脫敏、加密存儲(chǔ);——平臺(tái)在院內(nèi)網(wǎng)部署,接口機(jī)納入堡壘機(jī)管理;平臺(tái)開啟Kerberos安全認(rèn)證以及嚴(yán)格的權(quán)限控制。A.4.3建立數(shù)據(jù)質(zhì)量核查、監(jiān)控流程,提高基礎(chǔ)數(shù)據(jù)質(zhì)量?!?dú)v史數(shù)據(jù):生成數(shù)據(jù)質(zhì)量核查報(bào)告,作為后續(xù)數(shù)據(jù)清洗依據(jù);——新增數(shù)據(jù):選取不同檢查方法實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)質(zhì)量及預(yù)警。A.4.4建立數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)范。提取非結(jié)構(gòu)化數(shù)據(jù)信息,提高數(shù)據(jù)可用性對(duì)電子病歷、MRI\CT報(bào)告中文本數(shù)據(jù)進(jìn)行自然語言處理,產(chǎn)生了結(jié)構(gòu)化數(shù)據(jù),包括門診病歷數(shù)據(jù)和住院病歷數(shù)據(jù)。A.4.5采用分層、分域模型構(gòu)建醫(yī)療大數(shù)據(jù)模型,采用主題化、層次化方式管理數(shù)據(jù),提高數(shù)據(jù)使用效率?!ㄟ^構(gòu)建數(shù)據(jù)倉庫,對(duì)全量醫(yī)療數(shù)據(jù)進(jìn)行集中治理;——采用分層、分域架構(gòu)建立數(shù)據(jù)倉庫,形成了接口層、主題層、匯總層、應(yīng)用層;——在應(yīng)用層基礎(chǔ)上,通過構(gòu)建指標(biāo)集、標(biāo)簽集、應(yīng)用寬表組成數(shù)據(jù)集市,為醫(yī)療機(jī)構(gòu)運(yùn)營、機(jī)器學(xué)習(xí)算法、臨床業(yè)務(wù)提供高效數(shù)據(jù)支撐。A.4.6建設(shè)科研系統(tǒng),加強(qiáng)科研數(shù)據(jù)采集與檢索,提升提高科研數(shù)據(jù)的統(tǒng)計(jì)分析能力:——支持多維度科研變量來檢索臨床歷史數(shù)據(jù)進(jìn)行回顧性研究,滿足自定義eCRF系統(tǒng)自動(dòng)采集臨床科研數(shù)據(jù),實(shí)現(xiàn)前瞻性科研的需要??蒲袛?shù)據(jù)能直接導(dǎo)出支持SAS/SPSS等第三方統(tǒng)計(jì)軟件使用;——嵌套醫(yī)學(xué)統(tǒng)計(jì)中絕大多數(shù)的統(tǒng)計(jì)方法,能夠依據(jù)數(shù)據(jù)類型自動(dòng)選擇最合適的統(tǒng)計(jì)方法,并且自動(dòng)生成統(tǒng)計(jì)報(bào)告。其中統(tǒng)計(jì)報(bào)告包含標(biāo)準(zhǔn)三線表、統(tǒng)計(jì)結(jié)果描述、統(tǒng)計(jì)圖形等。A.5應(yīng)用效果A.5.1利用大數(shù)據(jù)平臺(tái),減少科研時(shí)間A.5.1.1回顧性研究方面,改變了傳統(tǒng)Excle和人工收集數(shù)據(jù)的模式,實(shí)現(xiàn)了智能檢索、變量選擇和智能統(tǒng)計(jì)分析。針對(duì)前瞻性研究,大數(shù)據(jù)幫助實(shí)現(xiàn)了患者入組、方案設(shè)計(jì)和隨訪采集等。A.5.1.2以智能搜索為例,科研人員檢索一位腦出血患者,很快就能發(fā)現(xiàn)系統(tǒng)里腦出血患者的人次、年齡分布等信息,同時(shí)支持二次篩選,剔除腦干出血和創(chuàng)傷性出血的患者。A.5.1.3數(shù)據(jù)分析方面,由于科研系統(tǒng)中嵌入了相關(guān)的統(tǒng)計(jì)工具,例如描述性分析和差異性分析。通過這些統(tǒng)計(jì)模型,可以讓科研人員很快分析出結(jié)果,從而大大節(jié)約工作效率。此外,也讓很多沉睡的數(shù)據(jù)能夠得到很好的利用。A.5.1.4從效率上看,過去醫(yī)療機(jī)構(gòu)要做一個(gè)回顧性研究,耗時(shí)在數(shù)周到數(shù)月都有可能。醫(yī)療機(jī)構(gòu)在使用了科研大數(shù)據(jù)平臺(tái)后,在十分鐘之內(nèi)就可以建立一個(gè)科研隊(duì)列。前瞻性研究同樣如此,借助CRF自動(dòng)回填、智能隨訪等功能,可以減少60%左右的科研耗時(shí)。(資料性)醫(yī)療大數(shù)據(jù)科研統(tǒng)計(jì)分析平臺(tái)的實(shí)踐案例B.1案例背景B.1.1一站式臨床研究建模平臺(tái)是集數(shù)據(jù)治理、醫(yī)學(xué)統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)建模于一體的全流程臨床研究專業(yè)分析平臺(tái)。平臺(tái)以科研項(xiàng)目為導(dǎo)向,集多種功能于一身,能實(shí)現(xiàn)從數(shù)據(jù)上傳到分析結(jié)果一鍵式、一站式輸出的智能平臺(tái),在降低使用門檻的同時(shí)能夠大大提升數(shù)據(jù)分析及建模效率,為臨床醫(yī)護(hù)人員提供便捷。B.1.2平臺(tái)的愿景是讓臨床研究變得沒有門檻,提升臨床研究工作者的研究效率,普及機(jī)器學(xué)習(xí)及人工智能技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用,最終推動(dòng)國內(nèi)臨床研究水平向世界看齊。B.2痛點(diǎn)和難點(diǎn)B.2.1痛點(diǎn)B.2.1.1傳統(tǒng)的臨床科研數(shù)據(jù)分析系統(tǒng)例如SPSS、SAS、stats、graphpad等需要前期長時(shí)間的培訓(xùn)學(xué)習(xí),耗時(shí)長、費(fèi)用高、效果差;大部分臨醫(yī)生無法完全掌握,分析工具軟件種類繁多,沒有能夠?qū)崿F(xiàn)功能整合的分析工具。B.2.1.2基于機(jī)器學(xué)習(xí)的臨床預(yù)測(cè)模型的研究目前沒有數(shù)據(jù)分析系統(tǒng)能夠有效支持,而R\PYTHON等數(shù)據(jù)分析編程語言的學(xué)習(xí)門檻較高且不容易掌握,需要研究人員有一定的編程基礎(chǔ)。B.2.2難點(diǎn)整合臨床研究中常用的數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析方法;多種機(jī)器學(xué)習(xí)算法的集成,可以在線進(jìn)行基于機(jī)器學(xué)習(xí)臨床預(yù)測(cè)模型的構(gòu)建;解決海量、多線程的數(shù)據(jù)分析問題。B.3基本情況目前平臺(tái)已完成包括數(shù)據(jù)治理、基線分析、高級(jí)統(tǒng)計(jì)分析、智能AI分析、圖表制作、分析日志6大功能模塊,40個(gè)子模塊,100余種分析方法建設(shè),能夠滿足臨床研究的分析及教學(xué)工作。B.4平臺(tái)架構(gòu)平臺(tái)后端算法采用Python和R語言混編實(shí)現(xiàn),平臺(tái)后臺(tái)框架采用Django,同時(shí)為滿足高并發(fā)機(jī)器學(xué)習(xí)的需求,配置多臺(tái)服務(wù)器做Nginx負(fù)載均衡,關(guān)系型數(shù)據(jù)采用的Mysql5.6.49,非關(guān)系型數(shù)據(jù)庫采取的Redis6.0.9存取,前臺(tái)JinJa2模板渲染和Vue、js實(shí)現(xiàn),如圖B.1所示。圖B.1某臨床科研數(shù)據(jù)分析平臺(tái)系統(tǒng)架構(gòu)B.5功能介紹B.5.1項(xiàng)目管理分析平臺(tái)以項(xiàng)目為導(dǎo)向,用戶可根據(jù)研究方向新增研究項(xiàng)目,項(xiàng)目可上傳數(shù)據(jù)、存儲(chǔ)研究標(biāo)題、研究方案和研究設(shè)計(jì)等,如圖B.2所示。圖B.2項(xiàng)目管理界面B.5.2數(shù)據(jù)治理針對(duì)臨床研究研究設(shè)計(jì)的數(shù)據(jù)清洗模塊,提供缺失數(shù)據(jù)剔除、相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論