面向中文電子病歷的NLP關(guān)鍵技術(shù)研究課件_第1頁
面向中文電子病歷的NLP關(guān)鍵技術(shù)研究課件_第2頁
面向中文電子病歷的NLP關(guān)鍵技術(shù)研究課件_第3頁
面向中文電子病歷的NLP關(guān)鍵技術(shù)研究課件_第4頁
面向中文電子病歷的NLP關(guān)鍵技術(shù)研究課件_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、面向中文電子病歷的NLP關(guān)鍵技術(shù)研究2014年4月13日Copyrights 2014 HITAll Rights Reserved蔣志鵬 關(guān)毅哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院xyf-電子病歷(EMR)醫(yī)務(wù)人員在醫(yī)療活動(dòng)過程中,使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的文字、符號(hào)、圖表、圖形、數(shù)據(jù)、影像等數(shù)字化信息,并能實(shí)現(xiàn)存儲(chǔ)、管理、傳輸和重現(xiàn)的醫(yī)療記錄2014年4月13日Copyrights 2014HITAll Rights Reserved中文電子病歷(CEMR)對(duì)患者身體狀況的半結(jié)構(gòu)化專業(yè)描述2014年4月13日Copyrights 2014HITAll Rights Reserved中文電子病歷(CEMR

2、)醫(yī)療大數(shù)據(jù)每天約800份每月約15000份每年約15萬份2014年4月13日Copyrights 2014HITAll Rights Reserved中文電子病歷(CEMR)2014年4月13日Copyrights 2014HITAll Rights Reserved目前在CEMR方面展開的研究工作CEMR句法樹庫構(gòu)建2014年4月13日Copyrights 2014 HITAll Rights Reserved 語法標(biāo)注規(guī)范制定 語法標(biāo)注結(jié)果及分析 高精度詞性標(biāo)注系統(tǒng)語法標(biāo)注規(guī)范制定2014年4月13日Copyrights 2014HITAll Rights Reserved基于PCTB規(guī)

3、范進(jìn)行迭代修訂人機(jī)互助醫(yī)生協(xié)助一致性評(píng)價(jià)語法標(biāo)注規(guī)范制定2014年4月13日Copyrights 2014HITAll Rights Reserved規(guī)范中一些重要修訂 篩選、補(bǔ)充、細(xì)化PCTB詞性標(biāo)注規(guī)范 例如,“伴有視物模糊”中的“視物” 提出適用于CEMR的術(shù)語切分方案 PCTB:“吃飯”不切分,“吃梨”“吃桃”切分 CEMR:“持物”“抗凝”是否切分?以“抗凝”為例:語法標(biāo)注規(guī)范制定2014年4月13日Copyrights 2014HITAll Rights Reserved標(biāo)注質(zhì)量控制表1 規(guī)范修訂前后主要詞性歧義項(xiàng)分布表2 前3次迭代分詞和詞性標(biāo)注準(zhǔn)確率及一致性PCTB詞性標(biāo)注規(guī)范

4、面向電子病歷的詞性標(biāo)注規(guī)范歧義項(xiàng)數(shù)量歧義項(xiàng)數(shù)量NNVV89NNVV47JJLC72NNM15MLC64JJNN9NNVA63NNVA9JJNN37NDNN6迭代次數(shù)中文分詞詞性標(biāo)注A1 F1值(%)A2 F1值(%)IAA(%)A1 Precision(%)A2 Precision(%)IAA(%)196.7692.2796.5396.6888.5389.25295.5196.9497.8997.3697.8195.18398.4996.4798.2597.8097.6095.60語法標(biāo)注規(guī)范制定2014年4月13日Copyrights 2014HITAll Rights Reserved分詞

5、、詞性標(biāo)注、句法標(biāo)注規(guī)范語法標(biāo)注規(guī)范制定2014年4月13日Copyrights 2014HITAll Rights Reserved標(biāo)注結(jié)果 138份帶有詞性、句法標(biāo)簽的電子病歷 來自神經(jīng)內(nèi)科和普通外科 包括出院小結(jié)和首次病程記錄語法標(biāo)注規(guī)范制定2014年4月13日Copyrights 2014HITAll Rights ReservedCEMR句法樹庫構(gòu)建的主要困難:目前沒有任何基于CEMR的標(biāo)注語料各級(jí)標(biāo)注均需要醫(yī)生的參與不同醫(yī)療機(jī)構(gòu)、不同科室病歷差異較大CEMR句法樹庫構(gòu)建2014年4月13日Copyrights 2014 HITAll Rights Reserved 語法標(biāo)注規(guī)范制定

6、 語法標(biāo)注結(jié)果分析 高精度詞性標(biāo)注系統(tǒng)語法標(biāo)注結(jié)果分析2014年4月13日Copyrights 2014HITAll Rights ReservedCEMR文本語言的特點(diǎn):包含大量專業(yè)術(shù)語(如“共濟(jì)運(yùn)動(dòng)”、 “腦梗死”)、習(xí)慣用語(如“伴”、“否認(rèn)”)及縮略詞(如“CT”、“MMR”)常用數(shù)字、量詞和形容詞表示檢查結(jié)果(如“100/70mmHg”)句子結(jié)構(gòu)不完整,但規(guī)律性較強(qiáng)頻繁使用并列長(zhǎng)句,導(dǎo)致句法結(jié)構(gòu)趨于扁平語法標(biāo)注結(jié)果分析2014年4月13日Copyrights 2014HITAll Rights Reserved通用標(biāo)注模型效果 詞性標(biāo)注 平均準(zhǔn)確率僅為 82.35% Fig.2a 出

7、院小結(jié)各部分標(biāo)注效果 Fig.2b 首次病程記錄各部分標(biāo)注效果 語法標(biāo)注結(jié)果分析2014年4月13日Copyrights 2014HITAll Rights Reserved通用標(biāo)注模型效果句法分析 F1(auto pos) :53.58% F1(gold pos) :73.19%Fig.3a 出院小結(jié)各部分標(biāo)注效果 Fig.3b 首次病程記錄各部分標(biāo)注效果語法標(biāo)注結(jié)果分析2014年4月13日Copyrights 2014HITAll Rights Reserved實(shí)驗(yàn)數(shù)據(jù):訓(xùn)練集:56份中文電子病歷調(diào)試集:14份中文電子病歷實(shí)驗(yàn)結(jié)果:CORPUSPOS(%)PARSE(%)CEMR(grou

8、p)93.5980.68CEMR(all)93.7680.36CEMR(single)93.5380.11PCTB77.6853.58* CEMR(all)85.9468.46CEMR句法樹庫構(gòu)建2014年4月13日Copyrights 2014 HITAll Rights Reserved 語法標(biāo)注規(guī)范制定 語法標(biāo)注結(jié)果及分析 高精度詞性標(biāo)注系統(tǒng)系統(tǒng)處理流程2014年4月13日Copyrights 2014HITAll Rights Reserved111中文分詞與詞性標(biāo)注的聯(lián)合模型2014年4月13日Copyrights 2014HITAll Rights Reserved感知器算法輸入:

9、訓(xùn)練樣本;迭代次數(shù)T 初始化:參數(shù)向量 訓(xùn)練過程:for t = 1.T, i = 1.n 使用beam search 算法找到當(dāng)前參數(shù)下滿足下面條件的標(biāo)注序列 如果則更新參數(shù)向量輸出:參數(shù)向量基于轉(zhuǎn)移的錯(cuò)誤驅(qū)動(dòng)模型2014年4月13日Copyrights 2014HITAll Rights Reserved提出適用于CEMR的轉(zhuǎn)移模板擴(kuò)展經(jīng)典的訓(xùn)練算法: 1. 以轉(zhuǎn)換前為當(dāng)前詞的規(guī)則 2. 以轉(zhuǎn)換前為條件的規(guī)則 3. 以轉(zhuǎn)換后為當(dāng)前詞的規(guī)則 4. 以轉(zhuǎn)換后為條件的規(guī)則實(shí)驗(yàn)結(jié)果及分析2014年4月13日Copyrights 2014HITAll Rights Reserved實(shí)驗(yàn)數(shù)據(jù):訓(xùn)練集:

10、PCTB語料+110份中文電子病歷調(diào)試集:14份中文電子病歷測(cè)試集:14份中文電子病歷實(shí)驗(yàn)結(jié)果標(biāo)注模型分詞(F1)詞性標(biāo)注(F1)WI postagger94.39%93.20%詞網(wǎng)格模型90.45%89.05%基于字的模型90.15%88.73%管道式模型84.15%82.11%CEMR實(shí)體和實(shí)體關(guān)系語料構(gòu)建2014年4月13日Copyrights 2014 HITAll Rights Reserved 實(shí)體標(biāo)注語料規(guī)模和科室分布標(biāo)注語料中實(shí)體的統(tǒng)計(jì)分析實(shí)體標(biāo)注規(guī)范制定實(shí)體標(biāo)注結(jié)果及評(píng)價(jià)實(shí)體標(biāo)注語料規(guī)模2014年4月13日Copyrights 2014HITAll Rights Reserv

11、edCEMR實(shí)體標(biāo)注語料規(guī)模原始語料:2012全年的電子病歷,共144230份,來自35個(gè)科室,87個(gè)子科室已校對(duì)語料:3085份中文電子病歷,按照上述子科室平均抽取已標(biāo)注語料:991份中文電子病歷,包含為479420個(gè)字符,35327個(gè)實(shí)體實(shí)體標(biāo)注語料科室分布2014年4月13日Copyrights 2014HITAll Rights ReservedCEMR實(shí)體標(biāo)注語料分布CEMR實(shí)體和實(shí)體關(guān)系語料構(gòu)建2014年4月13日Copyrights 2014 HITAll Rights Reserved 實(shí)體標(biāo)注語料規(guī)模和科室分布標(biāo)注語料中實(shí)體的統(tǒng)計(jì)分析實(shí)體標(biāo)注規(guī)范制定實(shí)體標(biāo)注結(jié)果及評(píng)價(jià)標(biāo)注語料

12、中實(shí)體的統(tǒng)計(jì)分析2014年4月13日Copyrights 2014HITAll Rights Reserved對(duì)比CEMR和開放領(lǐng)域語料的實(shí)體密集度開放領(lǐng)域語料:MET-2中的中文新聞?wù)Z料,共104個(gè)文檔CEMR實(shí)體和實(shí)體關(guān)系語料構(gòu)建2014年4月13日Copyrights 2014 HITAll Rights Reserved 實(shí)體標(biāo)注語料規(guī)模和科室分布標(biāo)注語料中實(shí)體的統(tǒng)計(jì)分析實(shí)體標(biāo)注規(guī)范制定實(shí)體標(biāo)注結(jié)果及評(píng)價(jià)實(shí)體標(biāo)注語料構(gòu)建團(tuán)隊(duì)2014年4月13日Copyrights 2014HITAll Rights Reserved語料構(gòu)建團(tuán)隊(duì)研究室成員:2名博士生,1名碩士生主要負(fù)責(zé)標(biāo)注規(guī)范初步制定

13、、實(shí)體關(guān)系標(biāo)注參與標(biāo)注的醫(yī)生:哈醫(yī)大四院神經(jīng)內(nèi)科醫(yī)生(碩士)哈醫(yī)大二院呼吸內(nèi)科醫(yī)生(博士)主要負(fù)責(zé)標(biāo)注規(guī)范修訂、實(shí)體標(biāo)注和標(biāo)注人員培訓(xùn)實(shí)體標(biāo)注規(guī)范制定2014年4月13日Copyrights 2014HITAll Rights Reserved實(shí)體標(biāo)注規(guī)范制定 實(shí)體標(biāo)注培訓(xùn)The realization of Chinese interface for UMLS2022/7/252014年4月13日Copyrights 2014HITAll Rights Reserved實(shí)體標(biāo)注規(guī)范制定CEMR實(shí)體和實(shí)體關(guān)系標(biāo)注規(guī)范CEMR實(shí)體和實(shí)體關(guān)系語料構(gòu)建2014年4月13日Copyrights 201

14、4 HITAll Rights Reserved 實(shí)體標(biāo)注語料規(guī)模和科室分布標(biāo)注語料中實(shí)體的統(tǒng)計(jì)分析實(shí)體標(biāo)注規(guī)范制定實(shí)體標(biāo)注結(jié)果及評(píng)價(jià)The realization of Chinese interface for UMLS2022/7/252014年4月13日Copyrights 2014HITAll Rights Reserved實(shí)體標(biāo)注結(jié)果CEMR實(shí)體標(biāo)注樣例The realization of Chinese interface for UMLS2022/7/252014年4月13日Copyrights 2014HITAll Rights Reserved實(shí)體標(biāo)注結(jié)果CEMR實(shí)體關(guān)系標(biāo)

15、注樣例實(shí)體標(biāo)注語料一致性評(píng)價(jià)2014年4月13日Copyrights 2014HITAll Rights Reserved正式標(biāo)注質(zhì)量控制實(shí)體標(biāo)注語料一致性評(píng)價(jià)2014年4月13日Copyrights 2014HITAll Rights Reserved評(píng)價(jià)標(biāo)準(zhǔn)實(shí)體邊界匹配實(shí)體邊界、實(shí)體類型匹配實(shí)體邊界、實(shí)體類型、實(shí)體修飾類型匹配IAAKappa類型修飾邊界+類型+修飾186.7%98.0%95.5%73.6%293.9%97.5%95.7%85.4%394.2%98.4%96.5%86.4%其他研究工作2014年4月13日Copyrights 2014HITAll Rights ReservedCEMRPHKUMLS個(gè)性化健康信息抽取個(gè)性化健康知識(shí)表示個(gè)性化健康知識(shí)維護(hù)已錄用文章2014年4月13日Copyrights 2014HITAll Rights ReservedXinbo Lv, Yi Guan, Benyang Deng. Transfer Learning based Clinical Concept Extraction

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論