基于術(shù)語圖譜的臨床大數(shù)據(jù)清洗_第1頁
基于術(shù)語圖譜的臨床大數(shù)據(jù)清洗_第2頁
基于術(shù)語圖譜的臨床大數(shù)據(jù)清洗_第3頁
基于術(shù)語圖譜的臨床大數(shù)據(jù)清洗_第4頁
基于術(shù)語圖譜的臨床大數(shù)據(jù)清洗_第5頁
免費預(yù)覽已結(jié)束,剩余42頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于術(shù)語圖譜的臨床大數(shù)據(jù)清洗技術(shù)創(chuàng)新,變革未來目錄 / CONTENTS大數(shù)據(jù)價值鏈與臨床大數(shù)據(jù)挖掘流程數(shù)據(jù)清洗流程與術(shù)語圖譜的作用人機(jī)協(xié)同的、基于規(guī)范的、包含常用術(shù)語的、基 于本體的術(shù)語圖譜的構(gòu)建工具與算法支撐大數(shù)據(jù)價值鏈1.數(shù)據(jù)獲取2.數(shù)據(jù)清洗3. 數(shù)據(jù)篩選和可達(dá)5. 應(yīng)用設(shè)計與開發(fā)4. 方法與算法02030405010. 業(yè)務(wù)系統(tǒng) 數(shù)據(jù)(錄入)00. 測試臨床大數(shù)據(jù)挖掘具體工作數(shù)據(jù)獲取醫(yī)院CDR ( 各類影像和檢查報告) / 分院??漆t(yī)聯(lián)體/ 多中心 ( 基于區(qū)塊鏈)區(qū)域醫(yī)聯(lián)體 ( 政府)隨訪。數(shù)據(jù)清洗與轉(zhuǎn) 換內(nèi)容抽取 ( X S LT )自然語言結(jié)構(gòu)化正則表示數(shù)據(jù)映射數(shù)據(jù)歸一化數(shù)據(jù)篩選

2、和查 看病人篩選( 基于疾病/ 檢查/ 手術(shù))搜索/ 語義搜索/ 抽屜式搜索病人詳細(xì)篩選隊列構(gòu)建方法與算法P S M , C o x , L i n e a r Re g r e s s i o n深度學(xué)習(xí)、決策樹、影像識別應(yīng)用科研人工智能: 輔助影像診斷/ 決策支持輔助工作數(shù)據(jù)模型高效數(shù)據(jù)存儲臨床真實世界研究1.0手動作業(yè)進(jìn)階2.0醫(yī)院或區(qū)域健康平臺中采集數(shù)據(jù)并 自動清洗臨床科研中心(Research data repository )科研數(shù)據(jù)治理 (流程管理!人員管理!規(guī)范管理?。?shù)據(jù)整體診斷數(shù)據(jù) 檢驗/檢查數(shù)據(jù) 治療數(shù)據(jù) 療效數(shù)據(jù)數(shù)據(jù)質(zhì)量(可用性)評估數(shù)據(jù)完整性/一致性代碼和名稱一致性數(shù)

3、據(jù)精確性大數(shù)據(jù)分析與挖掘算法基于深度學(xué)習(xí)的診斷、 用藥預(yù)測與生存預(yù)測疾病自動分類、致 病相關(guān)因素挖掘等大數(shù)據(jù)平臺數(shù)據(jù)質(zhì)量問題反饋數(shù)據(jù)質(zhì)量問題反饋知識庫知識服務(wù)語義搜索、智能問答醫(yī)療健康知識圖譜臨床病歷庫療效分析/風(fēng)險預(yù)測模型庫專病庫抽取(二次建庫)專病病例確定字段確定與提取文本結(jié)構(gòu)化名稱編碼隊列構(gòu)建入隊列條件控制變量終點事件基于PSM的對照組采樣基于傾向性分析的療效對比基于邏輯回歸的顯著性分析基于COX的生存分析基于KM的生存分析進(jìn)階3.0A從電子病歷源頭開始臨床醫(yī)生專科電子病歷基于CRF表單設(shè)計界面前結(jié)構(gòu)化與中結(jié)構(gòu)化 文本結(jié)構(gòu)化 自動編碼知識庫醫(yī)療健康知識圖譜醫(yī)療術(shù)語診療路徑數(shù)據(jù)質(zhì)量控制數(shù)據(jù)

4、完整性/一致性代碼和名稱一致性數(shù)據(jù)精確性隨訪數(shù)據(jù)質(zhì)量反饋 專科病例庫搜索語義問答統(tǒng)計與分析隊列構(gòu)建入隊列條件控制變量終點事件基于傾向性分析的療效對比基于PSM的對照組采樣基于邏輯回歸的顯著性分析基于COX的生存分析基于KM的生存分析對于病人來說,??剖欠窈侠??不同??拼鎯Φ腎T問題基于深度學(xué)習(xí)的診斷、用藥預(yù)測與生存預(yù)測疾病自動分類、致病相關(guān)因素挖掘等基于傾向性分析的療效對比基于機(jī)器學(xué)習(xí)的智能分診通過病人信息輔助醫(yī)生進(jìn)行診斷大數(shù)據(jù)分析與挖掘算法進(jìn)階3.0B基于區(qū)塊鏈的確權(quán)與利益共享醫(yī)院 1醫(yī)院 n大數(shù)據(jù)分析與挖掘算法基于深度學(xué)習(xí)的診斷、用藥預(yù)測與生存預(yù)測疾病自動分類、致病相關(guān)因素挖掘等基于傾向性

5、分析的療效對比基于機(jī)器學(xué)習(xí)的智能分診通過病人信息輔助醫(yī)生進(jìn)行診斷醫(yī)院 2多中心??撇±龓欤ㄌ摂M/真實)數(shù)據(jù)上鏈利益分享鏈數(shù)據(jù)上鏈數(shù)據(jù)上鏈基于數(shù)據(jù)來源的 貢獻(xiàn)計算機(jī)制清洗和查詢中的難點:常用術(shù)語的表達(dá)多樣化癥狀同義詞與上下位關(guān)系 (頭疼,頭有點疼)疾病的同義詞與上下位關(guān)系 (心衰,慢性心力衰竭,PCI手術(shù)后慢性心理衰竭)藥品機(jī)理與成分 (ACEI 類降壓藥)一致的記錄數(shù)編碼不在ICD10名稱不在ICD10編碼和名稱不對應(yīng)70928551343563某醫(yī)院某科室10年數(shù)據(jù) 診斷代碼和名稱一致性檢測在心衰病人信息表中,總記錄數(shù)為16241,而疾病編碼和疾病 名稱相對應(yīng)的記錄數(shù)為709條。數(shù)據(jù)分布:一

6、致的記錄數(shù)編碼不在ICD10 名稱不在ICD10 不對應(yīng)目錄 / CONTENTS大數(shù)據(jù)價值鏈與臨床大數(shù)據(jù)挖掘流程數(shù)據(jù)清洗/篩選/利用要點與術(shù)語圖譜的作用人機(jī)協(xié)同的、基于規(guī)范的、包含常用術(shù)語的、基 于本體的術(shù)語圖譜的構(gòu)建工具與算法支撐界面用于輸入疾病名稱和ICD 編碼,為了解決術(shù)語不統(tǒng)一問 題,結(jié)合術(shù)語庫中的同義詞在 院內(nèi)CDR中進(jìn)行抽取病例。例如 “2型糖尿病”,在術(shù)語 庫中會得到“糖尿病2型”和“型糖尿病”等相關(guān)同義詞。 基于這些所有同義詞抽取符合條件的病人相關(guān)信息。病例篩選類CRF表單界面, 定義專病庫所需要 的內(nèi)容,包括人群 特征、檢驗檢查結(jié) 果等。專病模型定義數(shù)據(jù)清洗引擎數(shù)據(jù)清洗引擎

7、進(jìn)行專病數(shù)據(jù)清洗。 可對主訴、五史、檢查等自然語 言內(nèi)容進(jìn)行結(jié)構(gòu)化。清洗方式,通過多鐘不同方式, 不同清洗規(guī)則進(jìn)行組合對不同數(shù) 據(jù)進(jìn)行清洗??杀O(jiān)控清洗過程。數(shù)據(jù)清洗引擎對于自然語言處理引擎,該系統(tǒng) 可對癥狀體征、疾病、手術(shù)、化 學(xué)檢驗、儀器檢查、藥品使用等 醫(yī)療事件進(jìn)行細(xì)粒度的識別。病例篩選抽屜式搜索,如通過年齡、性別 等基本信息、科室、診斷、檢驗、 檢查、用藥和手術(shù)等進(jìn)行病例的 篩選,以達(dá)到復(fù)雜條件下的病例 庫篩選數(shù)據(jù)篩選與轉(zhuǎn)換-隊列構(gòu)建在全院級別、??啤2〖墑e快 速構(gòu)造隊列選擇起點事件和終點 事件以及事件距離,以此構(gòu)建患 者的分析隊列,進(jìn)行隊列分析。數(shù)據(jù)應(yīng)用-圖表分析基于病例庫的構(gòu)建結(jié)果

8、,可對病 例庫進(jìn)行橫斷面分析。系統(tǒng)提供 人群分布、并發(fā)癥分布等預(yù)設(shè)圖 表。為了靈活的進(jìn)行橫斷面分析,系 統(tǒng)提供了包括餅圖、柱狀圖、線 形圖、地域分布圖和熱力圖的自 定義圖表設(shè)置功能。數(shù)據(jù)應(yīng)用科研挖掘如圖是COX生存分析結(jié)果,可展示算法 系數(shù)及每個分析因素的系數(shù)圖術(shù)語庫應(yīng)用1.病例篩選2.數(shù)據(jù)歸一化3.自然語言處理4.文本質(zhì)量評估5.語義搜索術(shù)語應(yīng)用數(shù)據(jù)歸一化文本結(jié)構(gòu)化時,使用術(shù)語庫實現(xiàn)自動標(biāo)注術(shù)語應(yīng)用文本結(jié)構(gòu)化個人史【出生情況】G2P1(第2次懷孕,生產(chǎn)孩子1個, 人工流產(chǎn)1次),足月順產(chǎn),否認(rèn)窒息史,否認(rèn)搶 救史,出生體重3150g,身長不詳?!疚桂B(yǎng)史】出生后混合喂養(yǎng),7月添加輔食。否 認(rèn)喂

9、養(yǎng)困難史。【窒息史】否認(rèn)窒息史缺 失個人史(總0.1)SubClassOf出生情況喂養(yǎng)史SubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfP(0.01)xsd:string:1G(0.01)xsd:string:2喂養(yǎng)方式(0.02)xsd:string: hhwy出生體重(0.01)xsd:string: 3150g足月生產(chǎn)(0.02)xsd:string:1出生體長(0.01)xsd:string: null添加輔食時間(0.01)xsd:string: 7th

10、 month窒息史(0.01)xsd:string:0研究結(jié)果以某兒科醫(yī)院的糖尿病個人史為例假定在本實例中其他部分都是完整的,而個人史部分 所占總權(quán)重為0.1。則本例的完整率為:臨床規(guī)定糖尿病個人史中應(yīng)包含以下實體數(shù)據(jù)質(zhì)量評估方法語義完整性評估方法目錄 / CONTENTS大數(shù)據(jù)價值鏈與臨床大數(shù)據(jù)挖掘流程數(shù)據(jù)清洗/篩選/利用要點與術(shù)語圖譜的作用人機(jī)協(xié)同的、基于規(guī)范的、包含常用術(shù)語的、基 于本體的術(shù)語圖譜的構(gòu)建工具與算法支撐遵循與關(guān)聯(lián)國際主流標(biāo)準(zhǔn)疾病 ICD-11,ICD10癥狀 ? SNOMED CT (Clinical Finding)檢查 ?LOINC藥品 RXNORM?ATC遵循國家標(biāo)準(zhǔn)

11、選擇簡單結(jié)合實際業(yè)務(wù)目前和未來數(shù)據(jù)情況不給臨床醫(yī)生造成任何不便最大程度減少信息科和醫(yī)務(wù)處工作利用大數(shù)據(jù)與人工智能自動構(gòu)建 加上 人工校驗形成常用語體系(補(bǔ)充 常用術(shù)語+術(shù)語關(guān)系+使用場景+工具參考實現(xiàn))結(jié)合常用語的術(shù)語圖譜方構(gòu)建方法論研發(fā)術(shù)語關(guān)系集研發(fā)核心術(shù)語集研發(fā)同義詞集合檢驗學(xué)專家臨床術(shù)語團(tuán)隊預(yù)處理信息團(tuán)隊去重標(biāo)準(zhǔn)化術(shù)語化去低質(zhì)量數(shù)據(jù)(如檢 驗指標(biāo)是人名)分組整理匯總整理2009條指標(biāo)+標(biāo)本 數(shù)據(jù)2030條指標(biāo)+標(biāo)本 數(shù)據(jù)21024條指標(biāo)+標(biāo)本 數(shù)據(jù)專家校驗檢驗術(shù)語構(gòu)建流程2030標(biāo)本+檢驗指標(biāo)1632檢驗指標(biāo)12324檢驗指標(biāo)同義詞檢驗術(shù)語集構(gòu)建術(shù)語庫: 區(qū)域診斷數(shù)據(jù) 鏈接到 ICD10

12、添加層次分 類:ICD10第一層鏈接 到ICD11術(shù)語校驗疾病術(shù)語構(gòu)建流程ICD10ICD1120756區(qū)域診斷數(shù)據(jù)(下位詞)158924168區(qū)域診斷數(shù)據(jù)(同義詞)1291疾病術(shù)語集遇到問題:醫(yī)生校驗時希望擴(kuò)充ICD10的疾病計劃解決方案:多輪迭代校驗,先將所有申康診斷數(shù)據(jù)鏈入ICD10,然 后再對并列的診斷數(shù)據(jù)進(jìn)一步劃分層次局灶性節(jié)段性 腎小球硬化癥局灶性節(jié)段性 腎小球硬化局灶性節(jié)段性 腎小球硬化癥局灶性節(jié)段性 腎小球硬化新增疾病疾病庫建設(shè)難點術(shù)語融合:ATC + CFDA構(gòu)建藥品術(shù)語分類體系:ATC 構(gòu)建藥品術(shù)語集:CFDA藥品術(shù)語構(gòu)建流程191621藥品通用名藥品產(chǎn)品名11290731

13、2248藥品分類術(shù)語內(nèi)科用藥分類:(共6715條)祛瘀劑(藥品)【ATC】解表劑(藥品)【ATC】祛暑劑(藥品)【ATC】瀉下劑(藥品)【ATC】清熱劑(藥品)【ATC】安神劑(藥品)【ATC】溫里劑(藥品)【ATC】化痰、止咳、平喘劑(藥品)【ATC】開竅劑(藥品)【ATC】固澀劑(藥品)【ATC】扶正劑(藥品)【ATC】止血劑(藥品)【ATC】理氣劑(藥品)【ATC】化濁降脂劑(藥品)【ATC】消導(dǎo)劑(藥品)【ATC】治風(fēng)劑(藥品)【ATC】祛濕劑(藥品)【ATC】條數(shù)(579條)(378條)(117條)(72條)(1132條)(318條)(145條)(696條)(78條)(58條)(15

14、73條)(73條)(309條)(142條)(206條)(277條)(559條)藥品術(shù)語集遇到的問題1、ATC分類編碼無法區(qū)分中成藥和西藥解決方案:在原有的ATC編碼首位加上相應(yīng)標(biāo)識符(西藥為X,中成藥為Z)2、不同的產(chǎn)品名稱,相同的通用名,不同劑型(如注射液和滴眼液)解決方案:根據(jù)藥物的主要成分進(jìn)行ATC分類藥品術(shù)語流程目錄 / CONTENTS大數(shù)據(jù)價值鏈與臨床大數(shù)據(jù)挖掘流程數(shù)據(jù)清洗/篩選/利用要點與術(shù)語圖譜的作用人機(jī)協(xié)同的、基于規(guī)范的、包含常用術(shù)語的、基 于本體的術(shù)語圖譜的構(gòu)建工具與算法支撐標(biāo)準(zhǔn)指標(biāo)實測指標(biāo)(1)實體名稱標(biāo)準(zhǔn)化算法醫(yī)療數(shù)據(jù)質(zhì)量普遍存在“一致性” 問題,具體體現(xiàn)在醫(yī)療信息系統(tǒng)

15、異 構(gòu)性、數(shù)據(jù)錄入不規(guī)范等問題。醫(yī)學(xué)檢查指標(biāo)舉例:以醫(yī)學(xué)檢查 指標(biāo)為例,同一個指標(biāo),在不同醫(yī) 療機(jī)構(gòu)、甚至同一個機(jī)構(gòu)內(nèi)部都有 多種名稱。實體名稱標(biāo)準(zhǔn)化算法(I)(2)不一致的常見情況格式問題格式問題13-碳呼氣試驗13-碳 呼氣試驗別名問題B型鈉尿肽腦尿鈉肽相關(guān)問題血葡萄糖1小時血葡萄糖實體名稱標(biāo)準(zhǔn)化算法(II)問題定義所有就診記錄,抽取其中的指標(biāo)名稱、縮寫、參考 值、單位等字段。輸入輸出在指標(biāo)名稱后添加一個“標(biāo)準(zhǔn)化名稱” 字段。指標(biāo)名稱縮寫參考值單位腦利鈉肽BNP0-100Pg/ml指標(biāo)名稱標(biāo)準(zhǔn)化名稱縮寫參考值單位腦利鈉肽B型鈉尿肽BNP0-100Pg/ml實體名稱標(biāo)準(zhǔn)化算法(III)工作流

16、程實體名稱標(biāo)準(zhǔn)化算法(IV)具體例子實體名稱標(biāo)準(zhǔn)化算法(V)臨床實體間上下位關(guān)系的4種類別1、下位詞對上位詞增加了修飾2、下位詞的組成部分是上位詞組成部分 的下位詞3、下位詞對上位詞增加了修飾,其組成 部分又是上位詞組成部分的下位詞4、判斷上下位關(guān)系時需要用到同義詞推 理同義詞和上下位識別算法(I)難點現(xiàn)有基于上下文路徑的識別方法依賴于詞共現(xiàn)語料,然而現(xiàn)實中的臨床實 體對缺乏足夠的詞共現(xiàn)語料NP0,如NP1、NP2 NP0是NP1和NP2的上位詞現(xiàn)有基于分布式表示的識別方法依賴于實體所在的上下文,然而現(xiàn)實中的臨床實體缺乏足夠的上下文上位詞比下位詞擁有更廣泛的上下文解決思路充分挖掘臨床實體的內(nèi)部構(gòu)成信息,通過對比兩實體的內(nèi)部構(gòu)成元素來進(jìn) 行上下位關(guān)系判斷同義詞和上下位識別算法(II)思路一(知識驅(qū)動)知識圖譜構(gòu)建上下位關(guān)系同義關(guān)系構(gòu)成元素的細(xì)粒度識別構(gòu)成元素的標(biāo)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論