版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
醫(yī)學自然語言處理
Medical
Natural
Language
Processing宋亞男解放軍總醫(yī)院醫(yī)療大數(shù)據(jù)中心
2019年7月4日CHIMA
2019醫(yī)學自然語言處理的基本任務目
錄1醫(yī)學自然語言處理的基本技術2醫(yī)學自然語言處理的典型問題3我院的實踐與總結4CHIMA
2019
01醫(yī)學自然語言處理的基本任務
主要用途、基本任務CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心?????電子病歷醫(yī)學文獻臨床指南健康檔案……結構化、標準化
NLP技術數(shù)據(jù)分析?
統(tǒng)計分析?
機器學習????疾病診斷模式藥物治療模式預后評價模式……醫(yī)學自然語言處理的基本任務
?
主要用途
?
病歷文本數(shù)據(jù)挖掘
?
醫(yī)療知識庫構建
?
病歷檢索
?
……
可分析的醫(yī)療數(shù)據(jù)????標準化的電子病歷醫(yī)學知識庫整合后的健康檔案……臨床應用????輔助診療系統(tǒng)CDSS藥物安全性檢測醫(yī)療政策決策支持相似病歷檢索應用實踐CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心
例:?
可見多發(fā)結節(jié)影,大小約
1.16X0.98厘米醫(yī)學自然語言處理的基本任務
例:?
胃脹反酸、泛酸、返酸例:“細菌性痢疾”?
細菌
/n
性
/ng
痢疾
/
n名詞名詞性語素例:?
可見多發(fā)結節(jié)影,大小約
1.16X0.98厘米010603040502
分詞例:“無意識障礙”?
無
|
意識
|
障礙
無
|
意識障礙
詞性標注0102實體識別03
語義分析
例:?
在“肌力4+級”中“+”表示“強”“頭MRI+MRA示”中“+”表示“和”
實體關系抽取0605實體標準化04CHIMA
2019
02醫(yī)學自然語言處理的基本技術
分詞、詞性標注、實體識別、實體關系抽取、語義分析CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的基本技術?
分詞
?
分詞是將一句話切分成一個個單詞的過程?
分詞工具
?
結巴(jieba)分詞工具、NLPIR漢語分詞系統(tǒng)、IKAnalyzer開源分詞軟件?
關鍵技術
?
基于詞典的分詞方法(機械分詞法)
按照一定策略,將待分析的漢字串與一個充分大的機器字典中的詞條進行匹配,若
在詞典中找到某個字符串,則匹配成功
?逆向最大匹配法
?正向最大匹配法
?雙向匹配法
?
基于機器學習的分詞方法例:?
“無意識障礙”無意識
|
障礙(
)
無
|
意識障礙(?)CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心設詞典中詞語長度的最大值為M醫(yī)學自然語言處理的基本技術
?
基于詞典的分詞方法
開始從文檔末尾開始掃描,取最末端的M個字符作為匹配字段,查找字典
否
匹配成功
是
記錄分詞結果,對剩余的字符串繼
續(xù)重復以上步驟
將字符串長度減少1
是剩余字串的長度為零
輸出例:“南京市長江大橋”1.2.3.4.5.6.設最長詞為5在詞典中匹配“市長江大橋”匹配失敗,去掉最前面一個字“市”匹配“長江大橋”,匹配成功在詞典中剩余字符“南京市”,匹配成功輸出結果:
南京市
/
長江大橋CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的基本技術?
詞性標注
?
在給定句子中判定每個詞的詞性加以標注,如將詞分為名詞、形容詞、動
詞等?
關鍵技術
?
基于詞典的標注方法
?先對語句進行分詞,然后從字典中查找每個詞語的詞性,對其進行標注?
基于規(guī)則的標注方法
①
簡單處理,得到初標注結果
②
建立轉換規(guī)則,修正錯誤
③
得到標注結果例:?
細菌性痢疾?
膽囊壁明顯增厚細菌
/n
性
/ng
痢疾
/n膽囊
/n
壁
/ng
明顯
/a
增
/v
厚
/a名詞名詞性語素例:1.初標注:“他/r做/v了/u一/m個/q報告/v”2.轉換規(guī)則:
激活環(huán)境:該詞左邊第一個緊鄰詞的詞性是量詞(q),左邊第二個詞的詞性是數(shù)詞(m)
改寫規(guī)則:將該詞的詞性從動詞(v)改為名詞(n)3.得到標注結果:
“他/r做/v了/u一/m個/q報告/n”CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的基本技術
?
實體識別
?
醫(yī)學領域的實體抽取是從醫(yī)學數(shù)據(jù)源中提取出特定類型的命名實體,主要有疾病、藥
物、癥狀、檢查、手術操作、器官部位等
?
關鍵技術
?
基于規(guī)則的方法
?
正則法
例:清掃第1組,2組,3組淋巴結正則表達式:“%
[/d]
+
組淋巴結”1組淋巴結、2組淋巴結、3組淋巴結?
基于機器學習的方法
?
詞向量表示
將自然語言處理問題轉化為機器學習問題,首先在于采用一種詞表示方法將文本中的單詞和符號
數(shù)學化,即用一個數(shù)學向量表示。常用的詞向量表示方法:獨熱碼表示、Word2vec算法
例:
“乙肝”表示為
[
0
0
0
1
0
0
0
0
0
0
0
0…]
,“肝硬化”表示為
[
0
0
0
0
0
0
0
0
1
0
0
0…]CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心例:
頭顱CT檢查顯示腔隙性腦梗死1.人工特征標注:頭顱CT——檢查手段;腔隙性腦梗死——疾??;2.
訓練:將字符轉為向量表示,將分類標簽id化,并進行特征提取,構建訓練集特征向量
[
0
0
0
0
0
1
0
0
0
0
0
0…]—“TES”,
[
0
0
0
0
0
0
0
0
0
0
0
0
1
0…]—“DIS”3.模型進行訓練,訓練完成后對測試文本進行識別,得到機器標注結果:
<頭顱CT
/TES>
平掃見右側腦室體旁
<腔隙性腦梗死
/DIS
>人工特征標注醫(yī)學自然語言處理的基本技術
?
基于機器學習的實體識別方法
原始文本已標注數(shù)據(jù)
訓練集構建機器學習模型測試集測試的未標注文本輸入
輸出機器標注結果訓練特征提取CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的基本技術
?
實體標準化
?
醫(yī)學實體在不同的數(shù)據(jù)源中存在嚴重的多元指代問題
?
關鍵技術
?
基于醫(yī)學標準術語庫匹配的方法
?
醫(yī)學知識圖譜
如兩個實體被多個相同實體以相同關系指向,則二者為同一實體的概率較高
?
基于機器學習的方法
用Word2vec模型對上下文取窗口進行訓練,求解最大似然的共現(xiàn)概率。訓練完成
后,使用向量余弦相似度計算實體相似性。
對于訓練充分的詞表示向量而言,一組相似詞的向量語義距離更近。
如“首都”和“北京”的語義距離要比“上海”更近CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心?
實體關系抽取
?
發(fā)現(xiàn)文本中實體對間的各種語義關系
?
實體關系可以用于構建知識框架,如疾病與藥物的關系、癥狀與疾病的關
系、基因與疾病的關系等?
關鍵技術
?
實體共現(xiàn)法
認為兩個相距很近的實體如果以一定的順序在一個文本語料庫中高頻率地重復,那么
這兩個實體相關的可能性很大
?
機器學習方法
將關系抽取看作是一個分類問題,通過具體的學習算法,在人工標引語料的基礎上
構造分類器,再用訓練得到的分類器抽取測試文本中的實體關系
?
深度學習例如:
?
患者3天前受涼后出現(xiàn)咳嗽、咳痰
?
高血壓病史40年,口服厄貝沙坦控制可醫(yī)學自然語言處理的基本技術
誘因CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的基本技術
?
基于深度學習的實體關系抽取輸入層編碼層卷積層池化層輸出層(1)輸入層:需要判別關系類別的實體文本(2)編碼層:預處理,使用Word2vec訓練的向量模型表示實體文本對于一句話中每個單詞均為
k
維的詞向量,因此對于長度為
n的一句話則可用維度為
n*k的矩陣(3)卷積層:設計一個過濾器窗口W,其維度為h?k,h表示窗口所含的單詞個數(shù),不斷地滑動該窗口,每次滑動一個位置時,完成非線性激活函數(shù)的計算(4)最大池化層:為了得到最大特征,進行max-over-time操作,取出最大值(5)輸出層:通過向量映射,得到待預測的類別結果CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的基本技術?
語義分析
?
在詞的層次上,語義分析的基本任務是進行詞義消歧
?
在句子層面上是語義角色標注
?
在篇章層面上是指代消歧,也稱共指消解?
基于機器學習的消歧方法
?
有監(jiān)督:通過建立分類器,根據(jù)上下文和標注結果完成分類任務,用劃分多義詞上下文類別的方
法來區(qū)分多義詞的詞義
?貝葉斯模型、最大熵模型、支持向量機模型、深度神經(jīng)網(wǎng)絡模型
?
無監(jiān)督:使用聚類算法對同一個多義詞的所有上下文進行等價類劃分,在詞義識別的時候,將該
詞的上下文與各個詞義對應上下文的等價類進行比較,通過上下文對應的等價類來確定詞的詞義
?聚類算法例:
?
病毒(計算機病毒、生物病毒)
?
打球、打電話、打毛衣CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理方法總結
?
基于詞典和規(guī)則的處理方法
?
詞典匹配
?
正則表達式
?
基于統(tǒng)計的處理方法
?
支持向量機(Support
Vector
Machine,SVM)
?
隱馬爾可夫(Hidden
Markov
Model,HMM)
?
條件隨機場(Conditional
Random
Fields,CRF)
?
長短時記憶網(wǎng)絡(Long
Short
Term
Memory,LSTM)
?
卷積神經(jīng)網(wǎng)絡(Convolutional
Neural
Network
,CNN)
?
兩者融合的方法CHIMA
2019
03醫(yī)學自然語言處理的典型問題CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的典型問題
?
問題一?
有瑕疵的或不規(guī)范的輸入例:?
2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病
?
冠狀動脈支架置入術、冠狀動脈支架植入術
?
胃脹反酸、泛酸、返酸?
不同的數(shù)據(jù)來源(如病歷、醫(yī)學論文等)或不同的人員(如科研人員、臨
床醫(yī)生、病人等)在表達相同或相似概念時其描述方式多種多樣
例:冠心病、冠狀動脈粥樣硬化性心臟病、CAD
上述現(xiàn)象本質上是歸屬于同一類問題,這類問題在通用領域稱為實體對齊、實體標準化CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的典型問題
?
解決方法
?
采用規(guī)則的方法,將實體描述經(jīng)過一系列規(guī)則變換(如,簡寫轉全稱)后
進行匹配例:冠心病、冠狀動脈粥樣硬化性心臟病、CAD?
采用機器學習方法,基于向量空間模型將實體表示為詞向量再學習向量之
間的相似性關系
例:?
2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病?
冠狀動脈支架置入術、冠狀動脈支架植入術?
胃脹反酸、泛酸、返酸冠狀動脈粥樣硬化性心臟病
2型糖尿病冠狀動脈支架置入術
胃脹反酸CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心?
正則表達式?
實體關系抽取問題判斷概念是否具有“否定”的上下文環(huán)境醫(yī)學自然語言處理的典型問題
?
問題二
?
病歷文檔經(jīng)常需要對某些概念進行否定性質的描述,因而要在病歷中單純
地依賴文中有沒有出現(xiàn)術語作為信息檢索的依據(jù)并不能取得好的結果
例:“否認手術史”、“未觸及質硬結節(jié)”、“支氣管斷端未見癌”
?
解決方法實體識別確定實體關系共現(xiàn)法尋找距離相近的實體抽取目標實體前后出現(xiàn)的否定詞CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的典型問題?問題三?醫(yī)學領域相關實體和實體之間的關系比較復雜,例:蛋白質之間相互作用關系、藥物之間相互作用關系、藥物疾病對應關系等?解決方案?
建立完備的醫(yī)學知識庫、知識圖譜?
LSTM、CNN等算法,建立學習模型,識別疾病——藥物之間的關系?
相對規(guī)范的文本記錄(病理報告),可考慮基于規(guī)則的方法提取,如正則表達式例:既往史:否認肝炎、肺結核、瘧疾病史,高血壓10年余,糖尿病7年,口服二甲雙胍治療,血糖控制可,口服硝苯地平,血壓維持在130/70mmHg左右屬于實體關系抽取的一類典型問題例:送檢(右肺中葉結節(jié))淋巴結見轉移癌(1/1),送檢(第2組、第4組、第7組、第11組)淋巴結未見轉移癌(分別為0/1、0/2、0/1、0/1)第2組第4組第7組000121
第11組右肺中葉結節(jié)0111
病史高血壓糖尿病
淋巴結病程10年7年
藥物治療
硝苯地平
二甲雙胍陽性數(shù)
清掃數(shù)CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的典型問題
?問題四
?
電子病歷中出現(xiàn)大量長句,需要做語義識別?解決方案
?
對于長句語義識別,適合用LSTM網(wǎng)絡模型,通過搭建多層復合LSTM網(wǎng)絡,
將原語料反向輸入生成反向LSTM層,與正向LSTM層相結合,加強關鍵成
分與上下文的關聯(lián)度例:食管胃交界部小彎側潰瘍型中-低分化腺癌,部分為粘液腺癌,腫瘤大小為5x3.5x1.5cm,癌組織侵及胃壁全層,并侵犯神經(jīng),檢出之上下切緣及送檢(食管切緣)均未見癌keyvalue組織學類型分化程度腫瘤大小腫瘤部位腺癌、粘液腺癌低分化5x3.5x1.5cm胃食管結合部胃小彎CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心醫(yī)學自然語言處理的典型問題
?
難點問題
?
相同的醫(yī)學問題、不同的研究目的,提取規(guī)則不一樣
?例:糖尿病提取藥物史
——
降壓藥、降糖藥侵襲性真菌病提取抗菌藥物史
——
病前30天內使用抗菌藥物、長期(超過2周)使用抗菌藥物
?
病歷結構化后,抽取出的信息是孤立的,丟失了大量的時間信息和因果邏
輯關系
?例:入院記錄會描述患者病情的發(fā)展情況,包含了大量時間信息,以及前后、因
果邏輯關系緣于2012年4月24日車禍后出現(xiàn)左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折,
在當?shù)蒯t(yī)院住院手術治療,
出院后因左腕疼痛輾轉于各診所肌肉注射或靜脈滴注各種抗生素(隔2-3天應用3-5天),達3個月;
于2012年8月出現(xiàn)高熱,口腔內白斑,體溫達40℃,伴發(fā)冷,
在某醫(yī)院診斷為“真菌感染”,
打針治療后癥狀無明顯好轉,
后轉至某醫(yī)院呼吸科,
診斷為“成人Still病”,
接受“氟康唑、免疫球蛋白、甲潑尼龍40mg
1/日”等治療,體溫降至正常,
出院口服“甲潑尼龍6片
1/日,
硫酸羥氯喹0.2g
2/日;
來氟米特
20mg
1/日”
。
于2013年12月出現(xiàn)左側髖關節(jié)疼痛,
下蹲困難(蹲起時自覺雙側腘窩疼痛),
于某醫(yī)院行髖關節(jié)核磁檢查,
示:左側髖臼信號異常并左側髖關節(jié)腔積液……從文本中直接抽取實體即可不是在文本中直接體現(xiàn),需要添加復雜的語義分析CHIMA
2019
04我院的實踐與總結CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心病案紙解放軍總醫(yī)院電子病歷文本結構化進展
?
全院電子病歷文本清洗治理
?
原始病歷——零散的文件存儲、純文本格式、信息不易查詢提取
?
清洗治理后的病歷——數(shù)據(jù)庫形式存儲、半結構化格式、顯著提高電子病歷利用率患者基本信息入院記錄患者ID主訴…
現(xiàn)病史首次病程記錄既往史婚育史體格檢查病例特點個人史家族史擬診討論診療計劃…日常病程記錄查房記錄…病歷數(shù)據(jù)庫????存儲查詢提取統(tǒng)計CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心解放軍總醫(yī)院電子病歷文本結構化進展
?
全院電子病歷文本清洗治理
?
平臺界面展示CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心解放軍總醫(yī)院電子病歷文本結構化進展
?
基于專病的病歷文本結構化處理平臺
?
不同病種需要提取的醫(yī)學問題有較大差異,需要個性化定制
例:胃癌手術報告需要提取:切除范圍、根治度、消化道重建方式等
肺癌手術報告需要提取:切口類型、切除部位、是否可見胸腔積液、胸腔粘連等1234建立標準化的語料庫輔助建立專病數(shù)據(jù)庫建立專病知識圖譜數(shù)據(jù)挖掘、輔助臨床科研?
胃癌手術報告、病理報告、病程記錄的結構化處理?
肺癌手術報告、病理報告、CT報告的結構化處理?
乳腺癌病理報告、超聲報告的結構化處理?
侵襲性真菌病的入院記錄結構化處理CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心AI輔助的可配置
規(guī)則抽取框架基于深度網(wǎng)絡的
信息抽取模型解放軍總醫(yī)院電子病歷文本結構化進展
?
病歷文本結構化平臺
醫(yī)療文本結構化平臺
可定制抽取字段、精細化要素提取
標準化歸一映射、智能化技術框架CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心解放軍總醫(yī)院電子病歷文本結構化進展
?
AI輔助的可配置規(guī)則抽取框架,高效地應對個性化提取需求
AI預處理深度理解醫(yī)療文本
要素及屬性分析定位候選句字段值抽取歸一化/標準化字段配置結構化輸出字段名值腫瘤部位組織學類型胃小彎,
胃體腺癌分化程度腫瘤大小低分化8x8x1.8cmBorrmann分型T分期切緣局限潰瘍型T4a陰性病歷文本胃小彎及胃體后壁潰瘍型低分化腺癌,腫瘤大小約為8×8×1.8cm。癌組織侵及胃壁全層、神經(jīng)伴脈管內癌栓,再取上、下切緣及送檢(食管下切縁)均未見癌。病歷相似句擴展醫(yī)生同義要素擴展
AI
輔助
AI輔助指導CHIMA
2019中國人民解放軍總醫(yī)院
醫(yī)療大數(shù)據(jù)中心
解放軍總醫(yī)院電子病歷文本結構化進展?
基于深度網(wǎng)絡的信息抽取模型,精準理解病歷文本基于序列到序列的深度神經(jīng)網(wǎng)絡模型,不但可以在原文中精確定位結果,還可以對文本進行推理總結結構化輸出字段名值腫瘤部位組織學類型胃小彎,
胃體腺癌分化程度低分化腫瘤大小8x8x1.8cmBorrmann分型T分期切緣局限潰瘍型T4a陰性病歷文本胃
小
彎
及
胃
體
后
壁
潰
瘍
型
低
分
化
腺
癌
,腫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年智能空調銷售與高效安裝服務合同樣本3篇
- 二零二五年度廠房租賃合同書(含租金支付方式說明)3篇
- 鄉(xiāng)村旅游體育旅游融合發(fā)展-洞察分析
- 二零二五年度舞臺現(xiàn)場導播及直播合同2篇
- 隱私保護下的數(shù)據(jù)融合技術-洞察分析
- 社交媒體行業(yè)推廣工作總結
- 康復科護士的工作感悟
- 委托法律服務保密協(xié)議
- 高端裝備制造生產線改造項目合同
- 裝修零星補充合同范本
- 2024-2025年中國ETC行業(yè)發(fā)展趨勢預測及投資戰(zhàn)略咨詢報告
- 年度得到 · 沈祖蕓全球教育報告(2024-2025)
- 飛行員心理素質訓練考核試卷
- 2025河北機場管理集團限公司招聘39人高頻重點提升(共500題)附帶答案詳解
- GB/T 17145-2024廢礦物油回收與再生利用導則
- 運輸公司安全隱患大排查整治行動方案
- 道具設計安裝合同模板
- 建筑設計公司員工薪酬方案
- 2024至2030年中國白內障手術耗材行業(yè)投資前景及策略咨詢研究報告
- 體育單杠課件教學課件
- 附著式升降腳手架(爬架)安全技術交底
評論
0/150
提交評論