醫(yī)學自然語言處理概述_第1頁
醫(yī)學自然語言處理概述_第2頁
醫(yī)學自然語言處理概述_第3頁
醫(yī)學自然語言處理概述_第4頁
醫(yī)學自然語言處理概述_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、M e d i c a l N a t u r a l L a n g u a g e P r o c e s s i n g醫(yī)學自然語言處理概述醫(yī)學自然語言處理的基本任務 目錄1醫(yī)學自然語言處理的基本技術2醫(yī)學自然語言處理的典型問題3我院的實踐與總結401醫(yī)學自然語言處理的基本任務主要用途、基本任務醫(yī)學自然語言處理的基本任務主要用途病歷文本數(shù)據(jù)挖掘醫(yī)療知識庫構建病歷檢索NLP技術電子病歷醫(yī)學文獻臨床指南健康檔案結構化、標準化數(shù)據(jù)分析統(tǒng)計分析機器學習疾病診斷模式藥物治療模式預后評價模式可分析的醫(yī)療數(shù)據(jù)標準化的電子病歷醫(yī)學知識庫整合后的健康檔案臨床應用輔助診療系統(tǒng)CDSS藥物安全性檢測醫(yī)療政策決

2、策支持相似病歷檢索應用實踐例:可見多發(fā)結節(jié)影,大小約1 . 1 6 X 0 . 9 8 厘米例:在“肌力4+級”中“+”表示“強”“頭MRI+MRA示”中“+”表示“和”醫(yī)學自然語言處理的基本任務例:胃脹反酸、泛酸、返酸例 : “無意識障礙”無 | 意識 | 障礙 無 | 意識障礙例:“細菌性痢疾”細菌 /n 性 /ng 痢疾 / n名詞名詞性語素例:可見多發(fā)結節(jié)影,大小約1 . 1 6 X 0 . 9 8 厘米010603040502語義分析06分詞01詞性標注02實體識別03實體關系抽取05實體標準化0402醫(yī)學自然語言處理的基本技術分詞、詞性標注、實體識別、實體關系抽取、語義分析醫(yī)學自然

3、語言處理的基本技術分詞分詞是將一句話切分成一個個單詞的過程分詞工具結巴(jieba)分詞工具、NLPIR漢語分詞系統(tǒng)、IKAnalyzer開源分詞軟件關鍵技術基于詞典的分詞方法(機械分詞法)按照一定策略,將待分析的漢字串與一個充分大的機器字典中的詞條進行匹配,若 在詞典中找到某個字符串,則匹配成功逆向最大匹配法正向最大匹配法雙向匹配法基于機器學習的分詞方法例: “無意識障礙”無意識 | 障礙()無 | 意識障礙()醫(yī)學自然語言處理的基本技術設詞典中詞語長度的最大值為M基于詞典的分詞方法開始從文檔末尾開始掃描,取最末端的M個 字符作為匹配字段,查找字典記錄分詞結果,對剩余的字符串繼 續(xù)重復以上步

4、驟匹配成功是否將字符串 長度減少1是剩余字串的長度為零輸出例:“南京市長江大橋”1.設最長詞為52.在詞典中匹配“市長江大橋”3.匹配失敗,去掉最前面一個字“市”匹配“長江大橋”,匹配成功在詞典中剩余字符“南京市”,匹 配成功輸出結果:南京市 / 長江大橋醫(yī)學自然語言處理的基本技術詞性標注在給定句子中判定每個詞的詞性加以標注,如將詞分為名詞、形容詞、動 詞等關鍵技術基于詞典的標注方法先對語句進行分詞,然后從字典中查找每個詞語的詞性,對其進行標注基于規(guī)則的標注方法簡單處理,得到初標注結果建立轉換規(guī)則,修正錯誤得到標注結果例:細菌性痢疾膽囊壁明顯增厚細菌 /n 性 /ng 痢疾 /n膽囊 /n 壁

5、 /ng 明顯 /a 增 /v 厚 /a名詞名詞性語素例:1.初標注:“他/r做/v了/u一/m個/q報告/v”2.轉換規(guī)則:激活環(huán)境:該詞左邊第一個緊鄰詞的詞性是量詞(q),左邊第二個詞的詞性是數(shù)詞(m)改寫規(guī)則:將該詞的詞性從動詞(v)改為名詞(n)3.得到標注結果:“他/r做/v了/u一/m個/q報告/n”醫(yī)學自然語言處理的基本技術實體識別醫(yī)學領域的實體抽取是從醫(yī)學數(shù)據(jù)源中提取出特定類型的命名實體,主要有疾病、藥 物、癥狀、檢查、手術操作、器官部位等1組淋巴結、2組淋巴結、3組淋巴結關鍵技術基于規(guī)則的方法正則法例:清掃第1組,2組,3組淋巴結正則表達式:“% /d + 組淋巴結”基于機器

6、學習的方法詞向量表示將自然語言處理問題轉化為機器學習問題,首先在于采用一種詞表示方法將文本中的單詞和符號 數(shù)學化,即用一個數(shù)學向量表示。常用的詞向量表示方法:獨熱碼表示、Word2vec算法例: “乙肝”表示為 0 0 0 1 0 0 0 0 0 0 0 0 ,“肝硬化”表示為 0 0 0 0 0 0 0 0 1 0 0 0醫(yī)學自然語言處理的基本技術基于機器學習的實體識別方法例: 頭顱CT檢查顯示腔隙性腦梗死1.人工特征標注:頭顱CT檢查手段;腔隙性腦梗死疾??;2. 訓練:將字符轉為向量表示,將分類標簽id化,并進行特征提取,構建訓練集特征向量 0 0 0 0 0 1 0 0 0 0 0 0“

7、TES”, 0 0 0 0 0 0 0 0 0 0 0 0 1 0“DIS” 3.模型進行訓練,訓練完成后對測試文本進行識別,得到機器標注結果: 平掃見右側腦室體旁 已標注數(shù)據(jù)人工特征標注原始文本訓練集構建機器學習模型測試集測試的未標注文本輸入輸出機器標注結果訓練特征提取醫(yī)學自然語言處理的基本技術實體標準化醫(yī)學實體在不同的數(shù)據(jù)源中存在嚴重的多元指代問題關鍵技術基于醫(yī)學標準術語庫匹配的方法醫(yī)學知識圖譜如兩個實體被多個相同實體以相同關系指向,則二者為同一實體的概率較高基于機器學習的方法用Word2vec模型對上下文取窗口進行訓練,求解最大似然的共現(xiàn)概率。訓練完成 后,使用向量余弦相似度計算實體相似

8、性。對于訓練充分的詞表示向量而言,一組相似詞的向量語義距離更近。如“首都”和“北京”的語義距離要比“上?!备t(yī)學自然語言處理的基本技術實體關系抽取發(fā)現(xiàn)文本中實體對間的各種語義關系實體關系可以用于構建知識框架,如疾病與藥物的關系、癥狀與疾病的關 系、基因與疾病的關系等關鍵技術實體共現(xiàn)法認為兩個相距很近的實體如果以一定的順序在一個文本語料庫中高頻率地重復,那么這兩個實體相關的可能性很大機器學習方法將關系抽取看作是一個分類問題,通過具體的學習算法,在人工標引語料的基礎上構造分類器,再用訓練得到的分類器抽取測試文本中的實體關系深度學習例如: 患者3 天前受涼后出現(xiàn)咳嗽、咳痰 高血壓病史40 年,口服

9、厄貝沙坦控制可誘因醫(yī)學自然語言處理的基本技術基于深度學習的實體關系抽取輸入層編碼層卷積層池化層輸出層(1)輸入層:需要判別關系類別的實體文本(2)編碼層:預處理,使用Word2vec訓練的向量模型表示實體文本對于一句話中每個單詞均為 k 維的詞向量,因此對于長度為 n的一句話則可用維度為 n*k的矩陣(3)卷積層:設計一個過濾器窗口W,其維度為hk,h表示窗口所含的單詞個數(shù),不斷地滑動該窗 口,每次滑動一個位置時,完成非線性激活函數(shù)的計算(4)最大池化層:為了得到最大特征,進行max-over-time操作,取出最大值(5)輸出層:通過向量映射,得到待預測的類別結果醫(yī)學自然語言處理的基本技術語

10、義分析在詞的層次上,語義分析的基本任務是進行詞義消歧在句子層面上是語義角色標注在篇章層面上是指代消歧,也稱共指消解基于機器學習的消歧方法有監(jiān)督:通過建立分類器,根據(jù)上下文和標注結果完成分類任務,用劃分多義詞上下文類別的方法來區(qū)分多義詞的詞義貝葉斯模型、最大熵模型、支持向量機模型、深度神經(jīng)網(wǎng)絡模型無監(jiān)督:使用聚類算法對同一個多義詞的所有上下文進行等價類劃分,在詞義識別的時候,將該詞的上下文與各個詞義對應上下文的等價類進行比較,通過上下文對應的等價類來確定詞的詞義聚類算法例:病毒(計算機病毒、生物病毒)打球、打電話、打毛衣醫(yī)學自然語言處理方法總結基于詞典和規(guī)則的處理方法詞典匹配正則表達式基于統(tǒng)計的

11、處理方法支持向量機(Support Vector Machine,SVM)隱馬爾可夫(Hidden Markov Model,HMM)條件隨機場(Conditional Random Fields,CRF)長短時記憶網(wǎng)絡(Long Short Term Memory,LSTM)卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network ,CNN)兩者融合的方法03醫(yī)學自然語言處理的典型問題醫(yī)學自然語言處理的典型問題問題一有瑕疵的或不規(guī)范的輸入不同的數(shù)據(jù)來源(如病歷、醫(yī)學論文等)或不同的人員(如科研人員、臨 床醫(yī)生、病人等)在表達相同或相似概念時其描述方式多種多樣例: 2型糖尿病、二

12、形糖尿病、2-糖尿病、II型糖尿病冠狀動脈支架置入術、冠狀動脈支架植入術胃脹反酸、泛酸、返酸例:冠心病、冠狀動脈粥樣硬化性心臟病、CAD上述現(xiàn)象本質上是歸屬于同一類問題,這類問題在通用領域稱為實體對齊、實體標準化醫(yī)學自然語言處理的典型問題解決方法采用規(guī)則的方法,將實體描述經(jīng)過一系列規(guī)則變換(如,簡寫轉全稱)后 進行匹配采用機器學習方法,基于向量空間模型將實體表示為詞向量再學習向量之 間的相似性關系例:冠心病、冠狀動脈粥樣硬化性心臟病、CAD例: 2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠狀動脈支架置入術、冠狀動脈支架植入術胃脹反酸、泛酸、返酸冠狀動脈粥樣硬化性心臟病2型糖尿病冠狀動脈支

13、架置入術胃脹反酸醫(yī)學自然語言處理的典型問題問題二病歷文檔經(jīng)常需要對某些概念進行否定性質的描述,因而要在病歷中單純 地依賴文中有沒有出現(xiàn)術語作為信息檢索的依據(jù)并不能取得好的結果解決方法正則表達式實體關系抽取問題判斷概念是否具有“否定”的上 下文環(huán)境例:“否認手術史”、“未觸及質硬結節(jié)”、“支氣管斷端未見癌”實體識別確定實體關系共現(xiàn)法尋找距離相近的實體抽取目標實體前后出現(xiàn)的否定詞醫(yī)學自然語言處理的典型問題 問題三醫(yī)學領域相關實體和實體之間的關系比較復雜,例:蛋白質之間相互作用關系、藥物之間相互作用 關系、藥物疾病對應關系等 解決方案建立完備的醫(yī)學知識庫、知識圖譜LSTM、CNN等算法,建立學習模型

14、,識別疾病藥物之間的關系相對規(guī)范的文本記錄(病理報告),可考慮基于規(guī)則的方法提取,如正則表達式例:既往史:否認肝炎、肺結核、瘧疾病史,高血壓10年余,糖尿病7年,口 服二甲雙胍治療,血糖控制可,口服硝苯地平,血壓維持在130/70mmHg 左右屬于實體關系抽取的一類典型問題例:送檢(右肺中葉結節(jié))淋巴結見轉移癌(1/1),送檢(第2組、第4組、第7組、第11組)淋巴結未見轉移癌(分別為0/1、0/2、0/1、0/1)淋巴結陽性數(shù)清掃數(shù)第2組01第4組02第7組01第11組01右肺中葉結節(jié)11病史病程藥物治療高血壓10年硝苯地平糖尿病7年二甲雙胍醫(yī)學自然語言處理的典型問題 問題四電子病歷中出現(xiàn)大

15、量長句,需要做語義識別 解決方案對于長句語義識別,適合用LSTM網(wǎng)絡模型,通過搭建多層復合LSTM網(wǎng)絡, 將原語料反向輸入生成反向LSTM層,與正向LSTM層相結合,加強關鍵成 分與上下文的關聯(lián)度例:食管胃交界部小彎側潰瘍型中-低分化腺癌,部分為粘液腺癌, 腫瘤大小為5x3.5x1.5cm,癌組織侵及胃壁全層,并侵犯神經(jīng), 檢出之上下切緣及送檢(食管切緣)均未見癌keyvalue組織學類型腺癌、粘液腺癌分化程度低分化腫瘤大小5x3.5x1.5cm腫瘤部位胃食管結合部胃小彎醫(yī)學自然語言處理的典型問題難點問題相同的醫(yī)學問題、不同的研究目的,提取規(guī)則不一樣例:糖尿病提取藥物史 降壓藥、降糖藥從文本中

16、直接抽取實體即可侵襲性真菌病提取抗菌藥物史 病前30天內(nèi)使用抗菌藥物、長期(超過2周)使 用抗菌藥物不是在文本中直接體現(xiàn),需要添加復雜的語義分析病歷結構化后,抽取出的信息是孤立的,丟失了大量的時間信息和因果邏 輯關系例:入院記錄會描述患者病情的發(fā)展情況,包含了大量時間信息,以及前后、因 果邏輯關系緣于2012年4月24日車禍后出現(xiàn)左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折, 在當?shù)蒯t(yī)院住院手術治療, 出院后 因左腕疼痛輾轉于各診所肌肉注射或靜脈滴注各種抗生素(隔2-3天應用3-5天),達3個月; 于2012年8月出現(xiàn)高熱, 口腔內(nèi)白斑,體溫達40,伴發(fā)冷, 在某醫(yī)院診斷為“真菌感染”, 打針治

17、療后癥狀無明顯好轉, 后轉至某醫(yī)院呼吸 科, 診斷為“成人Still病”, 接受“氟康唑、免疫球蛋白、甲潑尼龍40mg 1/日”等治療,體溫降至正常, 出院口服 “甲潑尼龍6片 1/日, 硫酸羥氯喹0.2g 2/日; 來氟米特 20mg 1/日” 。 于2013年12月出現(xiàn)左側髖關節(jié)疼痛, 下蹲困 難(蹲起時自覺雙側腘窩疼痛), 于某醫(yī)院行髖關節(jié)核磁檢查, 示:左側髖臼信號異常并左側髖關節(jié)腔積液04實踐經(jīng)驗總結病案紙解放軍總醫(yī)院電子病歷文本結構化進展全院電子病歷文本清洗治理原始病歷零散的文件存儲、純文本格式、信息不易查詢提取清洗治理后的病歷數(shù)據(jù)庫形式存儲、半結構化格式、顯著提高電子病歷利用率患

18、者基本信息患者ID入院記錄現(xiàn)病史 個人史 家族史主訴 既往史 婚育史體格檢查首次病程記錄病例特點 診療計劃擬診討論日常病程記錄查房記錄病歷數(shù)據(jù)庫存儲查詢提取統(tǒng)計解放軍總醫(yī)院電子病歷文本結構化進展全院電子病歷文本清洗治理平臺界面展示解放軍總醫(yī)院電子病歷文本結構化進展基于專病的病歷文本結構化處理平臺不同病種需要提取的醫(yī)學問題有較大差異,需要個性化定制例:胃癌手術報告需要提?。呵谐秶?、根治度、消化道重建方式等肺癌手術報告需要提取:切口類型、切除部位、是否可見胸腔積液、胸腔粘連等1建立標準化的語料庫2輔助建立專病數(shù)據(jù)庫3建立專病知識圖譜4數(shù)據(jù)挖掘、輔助臨床科研胃癌手術報告、病理報告、病程記錄的結構化

19、處理肺癌手術報告、病理報告、CT報告的結構化處理乳腺癌病理報告、超聲報告的結構化處理侵襲性真菌病的入院記錄結構化處理解放軍總醫(yī)院電子病歷文本結構化進展病歷文本結構化平臺AI輔助的可配置 規(guī)則抽取框架基于深度網(wǎng)絡的 信息抽取模型醫(yī)療文本結構化平臺可定制抽取字段、精細化要素提取 標準化歸一映射、智能化技術框架解放軍總醫(yī)院電子病歷文本結構化進展AI輔助的可配置規(guī)則抽取框架,高效地應對個性化提取需求AI預處理深度理解醫(yī)療文本 要素及屬性分析定位候選句字段值抽取歸一化/標準化字段配置結構化輸出字段名值腫瘤部位胃小彎, 胃體組織學類型腺癌分化程度低分化腫瘤大小8x8x1.8cmBorrmann分型局限潰瘍型T分期T4a切緣陰性病歷文本胃小彎及胃體后壁潰瘍型低分 化腺癌,腫瘤大小約為881.8cm。癌組織侵及胃壁 全層、神經(jīng)伴脈管內(nèi)癌栓,再 取上、下切緣及送檢(食管下 切縁)均未見癌。病歷相似句擴展同義要素擴展醫(yī)生AI輔助AI輔助指導解放軍總醫(yī)院電子病歷文本結構化進展基于深度網(wǎng)絡的信息抽取模型,精準理解病歷文本基于序列到序列的深度神經(jīng)網(wǎng)絡模型,不但可以在原文中精確定位結果, 還可以對文本進行推理總結結構化輸出字段名值腫瘤部位胃小彎, 胃體組織學類型腺癌分化程度低分化腫瘤大小8x8x1.8cmBorrm

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論