醫(yī)學(xué)自然語(yǔ)言處理概述課件_第1頁(yè)
醫(yī)學(xué)自然語(yǔ)言處理概述課件_第2頁(yè)
醫(yī)學(xué)自然語(yǔ)言處理概述課件_第3頁(yè)
醫(yī)學(xué)自然語(yǔ)言處理概述課件_第4頁(yè)
醫(yī)學(xué)自然語(yǔ)言處理概述課件_第5頁(yè)
已閱讀5頁(yè),還剩61頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

M

e

d

i

c

a

l

N

a

t

u

r

a

l

L

a

n

g

u

a

g

e

P

r

o

c

e

s

s

i

n

g醫(yī)學(xué)自然語(yǔ)言處理概述MedicalNaturalL1MedicalNaturalL醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)

目 錄 1醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)2醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題3我院的實(shí)踐與總結(jié)4醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)目 錄 1醫(yī)學(xué)自然語(yǔ)言處理的基本2醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)目 錄 1醫(yī)學(xué)自然語(yǔ)言處理的基本01醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)主要用途、基本任務(wù)01醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)301醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)01醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)主要用途病歷文本數(shù)據(jù)挖掘醫(yī)療知識(shí)庫(kù)構(gòu)建病歷檢索……NLP技術(shù)電子病歷醫(yī)學(xué)文獻(xiàn)臨床指南健康檔案……結(jié)構(gòu)化、標(biāo)準(zhǔn)化數(shù)據(jù)分析統(tǒng)計(jì)分析機(jī)器學(xué)習(xí)疾病診斷模式藥物治療模式預(yù)后評(píng)價(jià)模式……可分析的醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化的電子病歷醫(yī)學(xué)知識(shí)庫(kù)整合后的健康檔案……臨床應(yīng)用輔助診療系統(tǒng)CDSS藥物安全性檢測(cè)醫(yī)療政策決策支持相似病歷檢索應(yīng)用實(shí)踐醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)主要用途NLP技術(shù)電子病歷結(jié)構(gòu)化、4醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)主要用途NLP技術(shù)電子病歷結(jié)構(gòu)化、例:? 可見(jiàn)多發(fā)結(jié)節(jié)影,大小約1

.

1

6

X

0

.

9

8

厘米例:? 在“肌力4+級(jí)”中“+”表示“強(qiáng)”“頭MRI+MRA示”中“+”表示“和”醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)例:? 胃脹反酸、泛酸、返酸例:“無(wú)意識(shí)障礙”? 無(wú)

|

意識(shí)

|

障礙

無(wú)

|

意識(shí)障礙例:“細(xì)菌性痢疾”? 細(xì)菌

/n

/ng

痢疾

/

n名詞名詞性語(yǔ)素例:? 可見(jiàn)多發(fā)結(jié)節(jié)影,大小約1

.

1

6

X

0

.

9

8

厘米010603040502語(yǔ)義分析06分詞01詞性標(biāo)注02實(shí)體識(shí)別03實(shí)體關(guān)系抽取05實(shí)體標(biāo)準(zhǔn)化04例:1.16X0.98厘米例:? 在“肌力5例:1.16X0.98厘米例:? 在“肌力02醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)分詞、詞性標(biāo)注、實(shí)體識(shí)別、實(shí)體關(guān)系抽取、語(yǔ)義分析02醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)602醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)02醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)分詞分詞是將一句話(huà)切分成一個(gè)個(gè)單詞的過(guò)程分詞工具結(jié)巴(jieba)分詞工具、NLPIR漢語(yǔ)分詞系統(tǒng)、IKAnalyzer開(kāi)源分詞軟件關(guān)鍵技術(shù)基于詞典的分詞方法(機(jī)械分詞法)按照一定策略,將待分析的漢字串與一個(gè)充分大的機(jī)器字典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功逆向最大匹配法正向最大匹配法雙向匹配法基于機(jī)器學(xué)習(xí)的分詞方法例:?

“無(wú)意識(shí)障礙” 無(wú)意識(shí)

|障礙() 無(wú)

|

意識(shí)障礙(?)醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)分詞分詞是將一句話(huà)切分成一個(gè)個(gè)單詞7醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)分詞分詞是將一句話(huà)切分成一個(gè)個(gè)單詞醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)設(shè)詞典中詞語(yǔ)長(zhǎng)度的最大值為M基于詞典的分詞方法開(kāi)始從文檔末尾開(kāi)始掃描,取最末端的M個(gè)字符作為匹配字段,查找字典記錄分詞結(jié)果,對(duì)剩余的字符串繼續(xù)重復(fù)以上步驟匹配成功是否將字符串長(zhǎng)度減少1是剩余字串的長(zhǎng)度為零輸出例:“南京市長(zhǎng)江大橋”1. 設(shè)最長(zhǎng)詞為52. 在詞典中匹配“市長(zhǎng)江大橋”3. 匹配失敗,去掉最前面一個(gè)字“市”匹配“長(zhǎng)江大橋”,匹配成功在詞典中剩余字符“南京市”,匹配成功輸出結(jié)果:南京市

/

長(zhǎng)江大橋醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)設(shè)詞典中詞語(yǔ)長(zhǎng)度的最大值為M基于詞8醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)設(shè)詞典中詞語(yǔ)長(zhǎng)度的最大值為M基于詞醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個(gè)詞的詞性加以標(biāo)注,如將詞分為名詞、形容詞、動(dòng)詞等關(guān)鍵技術(shù)基于詞典的標(biāo)注方法先對(duì)語(yǔ)句進(jìn)行分詞,然后從字典中查找每個(gè)詞語(yǔ)的詞性,對(duì)其進(jìn)行標(biāo)注基于規(guī)則的標(biāo)注方法① 簡(jiǎn)單處理,得到初標(biāo)注結(jié)果② 建立轉(zhuǎn)換規(guī)則,修正錯(cuò)誤③ 得到標(biāo)注結(jié)果例:細(xì)菌性痢疾膽囊壁明顯增厚細(xì)菌

/n

/ng

痢疾

/n膽囊

/n

/ng

明顯

/a

/v

/a名詞名詞性語(yǔ)素例:1.初標(biāo)注:“他/r做/v了/u一/m個(gè)/q報(bào)告/v”2.轉(zhuǎn)換規(guī)則:激活環(huán)境:該詞左邊第一個(gè)緊鄰詞的詞性是量詞(q),左邊第二個(gè)詞的詞性是數(shù)詞(m)改寫(xiě)規(guī)則:將該詞的詞性從動(dòng)詞(v)改為名詞(n)3.得到標(biāo)注結(jié)果:“他/r做/v了/u一/m個(gè)/q報(bào)告/n”醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個(gè)詞的詞9醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個(gè)詞的詞醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體識(shí)別醫(yī)學(xué)領(lǐng)域的實(shí)體抽取是從醫(yī)學(xué)數(shù)據(jù)源中提取出特定類(lèi)型的命名實(shí)體,主要有疾病、藥物、癥狀、檢查、手術(shù)操作、器官部位等1組淋巴結(jié)、2組淋巴結(jié)、3組淋巴結(jié)關(guān)鍵技術(shù)基于規(guī)則的方法正則法例:清掃第1組,2組,3組淋巴結(jié)正則表達(dá)式:“%

[/d]

+

組淋巴結(jié)”基于機(jī)器學(xué)習(xí)的方法詞向量表示將自然語(yǔ)言處理問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)問(wèn)題,首先在于采用一種詞表示方法將文本中的單詞和符號(hào)數(shù)學(xué)化,即用一個(gè)數(shù)學(xué)向量表示。常用的詞向量表示方法:獨(dú)熱碼表示、Word2vec算法例:

“乙肝”表示為

[

0

0

0

1

0

0

0

0

0

0

0

0…]

,“肝硬化”表示為

[

0

0

0

0

0

0

0

0

1

0

0

0…]醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體識(shí)別1組淋巴結(jié)、2組淋巴結(jié)、310醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體識(shí)別1組淋巴結(jié)、2組淋巴結(jié)、3醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法例:

頭顱CT檢查顯示腔隙性腦梗死1.人工特征標(biāo)注:頭顱CT——檢查手段;腔隙性腦梗死——疾病;2.

訓(xùn)練:將字符轉(zhuǎn)為向量表示,將分類(lèi)標(biāo)簽id化,并進(jìn)行特征提取,構(gòu)建訓(xùn)練集特征向量[000001000000…]—“TES”,[00000000000010…]—“DIS”

3.模型進(jìn)行訓(xùn)練,訓(xùn)練完成后對(duì)測(cè)試文本進(jìn)行識(shí)別,得到機(jī)器標(biāo)注結(jié)果:<頭顱CT

/TES>

平掃見(jiàn)右側(cè)腦室體旁

<腔隙性腦梗死

/DIS

>已標(biāo)注數(shù)據(jù)人工特征標(biāo)注原始文本訓(xùn)練集構(gòu)建機(jī)器學(xué)習(xí)模型測(cè)試集測(cè)試的未標(biāo)注文本輸入輸出機(jī)器標(biāo)注結(jié)果訓(xùn)練特征提取醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法例:頭11醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法例:頭醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體標(biāo)準(zhǔn)化醫(yī)學(xué)實(shí)體在不同的數(shù)據(jù)源中存在嚴(yán)重的多元指代問(wèn)題關(guān)鍵技術(shù)基于醫(yī)學(xué)標(biāo)準(zhǔn)術(shù)語(yǔ)庫(kù)匹配的方法醫(yī)學(xué)知識(shí)圖譜如兩個(gè)實(shí)體被多個(gè)相同實(shí)體以相同關(guān)系指向,則二者為同一實(shí)體的概率較高基于機(jī)器學(xué)習(xí)的方法用Word2vec模型對(duì)上下文取窗口進(jìn)行訓(xùn)練,求解最大似然的共現(xiàn)概率。訓(xùn)練完成后,使用向量余弦相似度計(jì)算實(shí)體相似性。對(duì)于訓(xùn)練充分的詞表示向量而言,一組相似詞的向量語(yǔ)義距離更近。如“首都”和“北京”的語(yǔ)義距離要比“上海”更近醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體標(biāo)準(zhǔn)化12醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體標(biāo)準(zhǔn)化醫(yī)學(xué)自然語(yǔ)言處理的基本技醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體關(guān)系抽取發(fā)現(xiàn)文本中實(shí)體對(duì)間的各種語(yǔ)義關(guān)系實(shí)體關(guān)系可以用于構(gòu)建知識(shí)框架,如疾病與藥物的關(guān)系、癥狀與疾病的關(guān)系、基因與疾病的關(guān)系等關(guān)鍵技術(shù)實(shí)體共現(xiàn)法認(rèn)為兩個(gè)相距很近的實(shí)體如果以一定的順序在一個(gè)文本語(yǔ)料庫(kù)中高頻率地重復(fù),那么這兩個(gè)實(shí)體相關(guān)的可能性很大機(jī)器學(xué)習(xí)方法將關(guān)系抽取看作是一個(gè)分類(lèi)問(wèn)題,通過(guò)具體的學(xué)習(xí)算法,在人工標(biāo)引語(yǔ)料的基礎(chǔ)上構(gòu)造分類(lèi)器,再用訓(xùn)練得到的分類(lèi)器抽取測(cè)試文本中的實(shí)體關(guān)系深度學(xué)習(xí)例如:?

患者3

天前受涼后出現(xiàn)咳嗽、咳痰?

高血壓病史40

年,口服厄貝沙坦控制可誘因醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體關(guān)系抽取實(shí)體關(guān)系可以用于構(gòu)建知13醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體關(guān)系抽取實(shí)體關(guān)系可以用于構(gòu)建知醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取輸入層編碼層卷積層 池化層 輸出層(1)輸入層:需要判別關(guān)系類(lèi)別的實(shí)體文本(2)編碼層:預(yù)處理,使用Word2vec訓(xùn)練的向量模型表示實(shí)體文本對(duì)于一句話(huà)中每個(gè)單詞均為

k

維的詞向量,因此對(duì)于長(zhǎng)度為

n的一句話(huà)則可用維度為

n*k的矩陣(3)卷積層:設(shè)計(jì)一個(gè)過(guò)濾器窗口W,其維度為h?k,h表示窗口所含的單詞個(gè)數(shù),不斷地滑動(dòng)該窗口,每次滑動(dòng)一個(gè)位置時(shí),完成非線(xiàn)性激活函數(shù)的計(jì)算(4)最大池化層:為了得到最大特征,進(jìn)行max-over-time操作,取出最大值(5)輸出層:通過(guò)向量映射,得到待預(yù)測(cè)的類(lèi)別結(jié)果醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取輸入層編14醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取輸入層編醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)語(yǔ)義分析在詞的層次上,語(yǔ)義分析的基本任務(wù)是進(jìn)行詞義消歧在句子層面上是語(yǔ)義角色標(biāo)注在篇章層面上是指代消歧,也稱(chēng)共指消解基于機(jī)器學(xué)習(xí)的消歧方法有監(jiān)督:通過(guò)建立分類(lèi)器,根據(jù)上下文和標(biāo)注結(jié)果完成分類(lèi)任務(wù),用劃分多義詞上下文類(lèi)別的方法來(lái)區(qū)分多義詞的詞義貝葉斯模型、最大熵模型、支持向量機(jī)模型、深度神經(jīng)網(wǎng)絡(luò)模型無(wú)監(jiān)督:使用聚類(lèi)算法對(duì)同一個(gè)多義詞的所有上下文進(jìn)行等價(jià)類(lèi)劃分,在詞義識(shí)別的時(shí)候,將該詞的上下文與各個(gè)詞義對(duì)應(yīng)上下文的等價(jià)類(lèi)進(jìn)行比較,通過(guò)上下文對(duì)應(yīng)的等價(jià)類(lèi)來(lái)確定詞的詞義聚類(lèi)算法例:病毒(計(jì)算機(jī)病毒、生物病毒)打球、打電話(huà)、打毛衣醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)語(yǔ)義分析在詞的層次上,語(yǔ)義分析的基15醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)語(yǔ)義分析在詞的層次上,語(yǔ)義分析的基醫(yī)學(xué)自然語(yǔ)言處理方法總結(jié)基于詞典和規(guī)則的處理方法詞典匹配正則表達(dá)式基于統(tǒng)計(jì)的處理方法支持向量機(jī)(Support

Vector

Machine,SVM)隱馬爾可夫(Hidden

Markov

Model,HMM)條件隨機(jī)場(chǎng)(Conditional

Random

Fields,CRF)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long

Short

Term

Memory,LSTM)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional

Neural

Network

,CNN)兩者融合的方法醫(yī)學(xué)自然語(yǔ)言處理方法總結(jié)基于詞典和規(guī)則的處理方法16醫(yī)學(xué)自然語(yǔ)言處理方法總結(jié)基于詞典和規(guī)則的處理方法醫(yī)學(xué)自然語(yǔ)言03醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題03醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題1703醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題03醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題一有瑕疵的或不規(guī)范的輸入不同的數(shù)據(jù)來(lái)源(如病歷、醫(yī)學(xué)論文等)或不同的人員(如科研人員、臨床醫(yī)生、病人等)在表達(dá)相同或相似概念時(shí)其描述方式多種多樣例:?

2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠狀動(dòng)脈支架置入術(shù)、冠狀動(dòng)脈支架植入術(shù)胃脹反酸、泛酸、返酸例:冠心病、冠狀動(dòng)脈粥樣硬化性心臟病、CAD上述現(xiàn)象本質(zhì)上是歸屬于同一類(lèi)問(wèn)題,這類(lèi)問(wèn)題在通用領(lǐng)域稱(chēng)為實(shí)體對(duì)齊、實(shí)體標(biāo)準(zhǔn)化醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題一不同的數(shù)據(jù)來(lái)源(如病歷、醫(yī)學(xué)18醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題一不同的數(shù)據(jù)來(lái)源(如病歷、醫(yī)學(xué)醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題解決方法采用規(guī)則的方法,將實(shí)體描述經(jīng)過(guò)一系列規(guī)則變換(如,簡(jiǎn)寫(xiě)轉(zhuǎn)全稱(chēng))后進(jìn)行匹配采用機(jī)器學(xué)習(xí)方法,基于向量空間模型將實(shí)體表示為詞向量再學(xué)習(xí)向量之間的相似性關(guān)系例:冠心病、冠狀動(dòng)脈粥樣硬化性心臟病、CAD例:?

2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠狀動(dòng)脈支架置入術(shù)、冠狀動(dòng)脈支架植入術(shù)胃脹反酸、泛酸、返酸冠狀動(dòng)脈粥樣硬化性心臟病2型糖尿病冠狀動(dòng)脈支架置入術(shù)胃脹反酸醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題解決方法采用機(jī)器學(xué)習(xí)方法,基于向量19醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題解決方法采用機(jī)器學(xué)習(xí)方法,基于向量醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題二病歷文檔經(jīng)常需要對(duì)某些概念進(jìn)行否定性質(zhì)的描述,因而要在病歷中單純地依賴(lài)文中有沒(méi)有出現(xiàn)術(shù)語(yǔ)作為信息檢索的依據(jù)并不能取得好的結(jié)果解決方法正則表達(dá)式實(shí)體關(guān)系抽取問(wèn)題判斷概念是否具有“否定”的上下文環(huán)境例:“否認(rèn)手術(shù)史”、“未觸及質(zhì)硬結(jié)節(jié)”、“支氣管斷端未見(jiàn)癌”實(shí)體識(shí)別確定實(shí)體關(guān)系共現(xiàn)法尋找距離相近的實(shí)體抽取目標(biāo)實(shí)體前后出現(xiàn)的否定詞醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題二解決方法判斷概念是否具有“否20醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題二解決方法判斷概念是否具有“否醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?

問(wèn)題三醫(yī)學(xué)領(lǐng)域相關(guān)實(shí)體和實(shí)體之間的關(guān)系比較復(fù)雜,例:蛋白質(zhì)之間相互作用關(guān)系、藥物之間相互作用關(guān)系、藥物疾病對(duì)應(yīng)關(guān)系等?

解決方案建立完備的醫(yī)學(xué)知識(shí)庫(kù)、知識(shí)圖譜LSTM、CNN等算法,建立學(xué)習(xí)模型,識(shí)別疾病——藥物之間的關(guān)系相對(duì)規(guī)范的文本記錄(病理報(bào)告),可考慮基于規(guī)則的方法提取,如正則表達(dá)式例:既往史:否認(rèn)肝炎、肺結(jié)核、瘧疾病史,高血壓10年余,糖尿病7年,口服二甲雙胍治療,血糖控制可,口服硝苯地平,血壓維持在130/70mmHg左右屬于實(shí)體關(guān)系抽取的一類(lèi)典型問(wèn)題例:送檢(右肺中葉結(jié)節(jié))淋巴結(jié)見(jiàn)轉(zhuǎn)移癌(1/1),送檢(第2組、第4組、第7組、第11組)淋巴結(jié)未見(jiàn)轉(zhuǎn)移癌(分別為0/1、0/2、0/1、0/1)淋巴結(jié)陽(yáng)性數(shù)清掃數(shù)第2組01第4組02第7組01第11組01右肺中葉結(jié)節(jié)11病史病程藥物治療高血壓10年硝苯地平糖尿病7年二甲雙胍醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?問(wèn)題三醫(yī)學(xué)領(lǐng)域相關(guān)實(shí)體和實(shí)體之21醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?問(wèn)題三醫(yī)學(xué)領(lǐng)域相關(guān)實(shí)體和實(shí)體之醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?

問(wèn)題四電子病歷中出現(xiàn)大量長(zhǎng)句,需要做語(yǔ)義識(shí)別?

解決方案對(duì)于長(zhǎng)句語(yǔ)義識(shí)別,適合用LSTM網(wǎng)絡(luò)模型,通過(guò)搭建多層復(fù)合LSTM網(wǎng)絡(luò),將原語(yǔ)料反向輸入生成反向LSTM層,與正向LSTM層相結(jié)合,加強(qiáng)關(guān)鍵成分與上下文的關(guān)聯(lián)度例:食管胃交界部小彎側(cè)潰瘍型中-低分化腺癌,部分為粘液腺癌,腫瘤大小為5x3.5x1.5cm,癌組織侵及胃壁全層,并侵犯神經(jīng),檢出之上下切緣及送檢(食管切緣)均未見(jiàn)癌keyvalue組織學(xué)類(lèi)型腺癌、粘液腺癌分化程度低分化腫瘤大小5x3.5x1.5cm腫瘤部位胃食管結(jié)合部胃小彎醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?問(wèn)題四?解決方案例:keyv22醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?問(wèn)題四?解決方案例:keyv醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題難點(diǎn)問(wèn)題相同的醫(yī)學(xué)問(wèn)題、不同的研究目的,提取規(guī)則不一樣例:糖尿病提取藥物史

——

降壓藥、降糖藥從文本中直接抽取實(shí)體即可侵襲性真菌病提取抗菌藥物史

——

病前30天內(nèi)使用抗菌藥物、長(zhǎng)期(超過(guò)2周)使用抗菌藥物 不是在文本中直接體現(xiàn),需要添加復(fù)雜的語(yǔ)義分析病歷結(jié)構(gòu)化后,抽取出的信息是孤立的,丟失了大量的時(shí)間信息和因果邏輯關(guān)系例:入院記錄會(huì)描述患者病情的發(fā)展情況,包含了大量時(shí)間信息,以及前后、因果邏輯關(guān)系緣于2012年4月24日車(chē)禍后出現(xiàn)左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折,

在當(dāng)?shù)蒯t(yī)院住院手術(shù)治療,

出院后因左腕疼痛輾轉(zhuǎn)于各診所肌肉注射或靜脈滴注各種抗生素(隔2-3天應(yīng)用3-5天),達(dá)3個(gè)月;

于2012年8月出現(xiàn)高熱,口腔內(nèi)白斑,體溫達(dá)40℃,伴發(fā)冷,

在某醫(yī)院診斷為“真菌感染”,

打針治療后癥狀無(wú)明顯好轉(zhuǎn),

后轉(zhuǎn)至某醫(yī)院呼吸科,

診斷為“成人Still病”,

接受“氟康唑、免疫球蛋白、甲潑尼龍40mg

1/日”等治療,體溫降至正常,

出院口服“甲潑尼龍6片

1/日,

硫酸羥氯喹0.2g

2/日;

來(lái)氟米特

20mg

1/日”

于2013年12月出現(xiàn)左側(cè)髖關(guān)節(jié)疼痛,

下蹲困難(蹲起時(shí)自覺(jué)雙側(cè)腘窩疼痛),

于某醫(yī)院行髖關(guān)節(jié)核磁檢查,

示:左側(cè)髖臼信號(hào)異常并左側(cè)髖關(guān)節(jié)腔積液……醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題難點(diǎn)問(wèn)題糖尿病提取藥物史——降23醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題難點(diǎn)問(wèn)題糖尿病提取藥物史——降04實(shí)踐經(jīng)驗(yàn)總結(jié)04實(shí)踐經(jīng)驗(yàn)總結(jié)2404實(shí)踐經(jīng)驗(yàn)總結(jié)04實(shí)踐經(jīng)驗(yàn)總結(jié)24病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理原始病歷——零散的文件存儲(chǔ)、純文本格式、信息不易查詢(xún)提取清洗治理后的病歷——數(shù)據(jù)庫(kù)形式存儲(chǔ)、半結(jié)構(gòu)化格式、顯著提高電子病歷利用率患者基本信息患者ID…入院記錄現(xiàn)病史個(gè)人史家族史主訴既往史婚育史體格檢查首次病程記錄病例特點(diǎn)診療計(jì)劃擬診討論…日常病程記錄查房記錄…病歷數(shù)據(jù)庫(kù)存儲(chǔ)查詢(xún)提取統(tǒng)計(jì)病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗25病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理平臺(tái)界面展示解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理26解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理解解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于專(zhuān)病的病歷文本結(jié)構(gòu)化處理平臺(tái)不同病種需要提取的醫(yī)學(xué)問(wèn)題有較大差異,需要個(gè)性化定制例:胃癌手術(shù)報(bào)告需要提?。呵谐秶?、根治度、消化道重建方式等肺癌手術(shù)報(bào)告需要提?。呵锌陬?lèi)型、切除部位、是否可見(jiàn)胸腔積液、胸腔粘連等1 建立標(biāo)準(zhǔn)化的語(yǔ)料庫(kù)2輔助建立專(zhuān)病數(shù)據(jù)庫(kù)3 建立專(zhuān)病知識(shí)圖譜4 數(shù)據(jù)挖掘、輔助臨床科研胃癌手術(shù)報(bào)告、病理報(bào)告、病程記錄的結(jié)構(gòu)化處理肺癌手術(shù)報(bào)告、病理報(bào)告、CT報(bào)告的結(jié)構(gòu)化處理乳腺癌病理報(bào)告、超聲報(bào)告的結(jié)構(gòu)化處理侵襲性真菌病的入院記錄結(jié)構(gòu)化處理解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于專(zhuān)病的病歷文本結(jié)構(gòu)化處27解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于專(zhuān)病的病歷文本結(jié)構(gòu)化處解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展病歷文本結(jié)構(gòu)化平臺(tái)AI輔助的可配置規(guī)則抽取框架基于深度網(wǎng)絡(luò)的信息抽取模型醫(yī)療文本結(jié)構(gòu)化平臺(tái)可定制抽取字段、精細(xì)化要素提取標(biāo)準(zhǔn)化歸一映射、智能化技術(shù)框架解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展病歷文本結(jié)構(gòu)化平臺(tái)醫(yī)療文本28解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展病歷文本結(jié)構(gòu)化平臺(tái)醫(yī)療文本解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展AI輔助的可配置規(guī)則抽取框架,高效地應(yīng)對(duì)個(gè)性化提取需求AI預(yù)處理深度理解醫(yī)療文本要素及屬性分析定位候選句字段值抽取歸一化/標(biāo)準(zhǔn)化字段配置結(jié)構(gòu)化輸出字段名值腫瘤部位胃小彎,

胃體組織學(xué)類(lèi)型腺癌分化程度低分化腫瘤大小8x8x1.8cmBorrmann分型局限潰瘍型T分期T4a切緣陰性病歷文本胃小彎及胃體后壁潰瘍型低分化腺癌,腫瘤大小約為8×8×1.8cm。癌組織侵及胃壁全層、神經(jīng)伴脈管內(nèi)癌栓,再取上、下切緣及送檢(食管下切縁)均未見(jiàn)癌。病歷相似句擴(kuò)展同義要素?cái)U(kuò)展醫(yī)生AI輔助AI輔助指導(dǎo)解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展AI輔助的可配置規(guī)則抽取框29解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展AI輔助的可配置規(guī)則抽取框解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于深度網(wǎng)絡(luò)的信息抽取模型,精準(zhǔn)理解病歷文本基于序列到序列的深度神經(jīng)網(wǎng)絡(luò)模型,不但可以在原文中精確定位結(jié)果,還可以對(duì)文本進(jìn)行推理總結(jié)結(jié)構(gòu)化輸出字段名值腫瘤部位胃小彎,

胃體組織學(xué)類(lèi)型腺癌分化程度低分化腫瘤大小8x8x1.8cmBorrmann分型局限潰瘍型T分期T4a切緣陰性病歷文本胃

,腫

8 ×

8

×

1

.

8

c

m

。

癌組織侵及胃壁全層、神經(jīng)伴脈管

內(nèi)癌栓

,

下結(jié)果歸一切

見(jiàn)

??截惤Y(jié)果拷貝結(jié)果解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于深度網(wǎng)絡(luò)的信息抽取模型30解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于深度網(wǎng)絡(luò)的信息抽取模型總結(jié)與展望醫(yī)學(xué)自然語(yǔ)言處理技術(shù)的發(fā)展水平在詞法分析層面,醫(yī)療實(shí)體識(shí)別以及實(shí)體關(guān)系的抽取技術(shù)已經(jīng)比較成熟,在此基礎(chǔ)上可實(shí)現(xiàn)電子病歷文本數(shù)據(jù)的特征提取、

病歷檢索例:檢索條件:既往病史中有肺結(jié)核的患者特征提取需求:提取肺癌患者的吸煙史、飲酒史等在語(yǔ)義分析層面,NLP技術(shù)還無(wú)法實(shí)現(xiàn)完全理解病歷中隱含的知識(shí),難以像醫(yī)生一樣去理解病歷例:檢索條件:提取長(zhǎng)期使用抗菌藥物史、化療后腫瘤尺寸變小的患者——“長(zhǎng)期使用抗菌藥物”“腫瘤變小”不是在文本中直接體現(xiàn)的,需要通過(guò)復(fù)雜的語(yǔ)義理解去判斷難以利用一種通用模型解決所有的醫(yī)學(xué)問(wèn)題現(xiàn)階段醫(yī)療文本結(jié)構(gòu)化應(yīng)用模式,大部分是帶著醫(yī)學(xué)問(wèn)題去抽取知識(shí),很大程度上依賴(lài)于醫(yī)生對(duì)醫(yī)學(xué)問(wèn)題的歸納和總結(jié)相同的醫(yī)學(xué)問(wèn)題,在不同應(yīng)用場(chǎng)景下,知識(shí)抽取模型不同總結(jié)與展望醫(yī)學(xué)自然語(yǔ)言處理技術(shù)的發(fā)展水平31總結(jié)與展望醫(yī)學(xué)自然語(yǔ)言處理技術(shù)的發(fā)展水平總結(jié)與展望醫(yī)學(xué)自然語(yǔ)總結(jié)與展望自然語(yǔ)言處理未來(lái)在醫(yī)療行業(yè)的應(yīng)用模式通用化模型與個(gè)性化定制相結(jié)合的醫(yī)療文本結(jié)構(gòu)化工具通用化模型——解決醫(yī)療實(shí)體識(shí)別、實(shí)體關(guān)系抽取的問(wèn)題個(gè)性化定制——解決特定條件、特定病種的信息抽取問(wèn)題,輔助臨床科研人員、數(shù)據(jù)分析人員提取文本特征,進(jìn)行數(shù)據(jù)挖掘智能化的病歷檢索系統(tǒng)支持多種形式的高精度檢索總結(jié)與展望自然語(yǔ)言處理未來(lái)在醫(yī)療行業(yè)的應(yīng)用模式32總結(jié)與展望自然語(yǔ)言處理未來(lái)在醫(yī)療行業(yè)的應(yīng)用模式總結(jié)與展望自然謝謝聆聽(tīng)!謝謝聆聽(tīng)!33謝謝聆聽(tīng)!謝謝聆聽(tīng)!33M

e

d

i

c

a

l

N

a

t

u

r

a

l

L

a

n

g

u

a

g

e

P

r

o

c

e

s

s

i

n

g醫(yī)學(xué)自然語(yǔ)言處理概述MedicalNaturalL34MedicalNaturalL醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)

目 錄 1醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)2醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題3我院的實(shí)踐與總結(jié)4醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)目 錄 1醫(yī)學(xué)自然語(yǔ)言處理的基本35醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)目 錄 1醫(yī)學(xué)自然語(yǔ)言處理的基本01醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)主要用途、基本任務(wù)01醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)3601醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)01醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)主要用途病歷文本數(shù)據(jù)挖掘醫(yī)療知識(shí)庫(kù)構(gòu)建病歷檢索……NLP技術(shù)電子病歷醫(yī)學(xué)文獻(xiàn)臨床指南健康檔案……結(jié)構(gòu)化、標(biāo)準(zhǔn)化數(shù)據(jù)分析統(tǒng)計(jì)分析機(jī)器學(xué)習(xí)疾病診斷模式藥物治療模式預(yù)后評(píng)價(jià)模式……可分析的醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化的電子病歷醫(yī)學(xué)知識(shí)庫(kù)整合后的健康檔案……臨床應(yīng)用輔助診療系統(tǒng)CDSS藥物安全性檢測(cè)醫(yī)療政策決策支持相似病歷檢索應(yīng)用實(shí)踐醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)主要用途NLP技術(shù)電子病歷結(jié)構(gòu)化、37醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)主要用途NLP技術(shù)電子病歷結(jié)構(gòu)化、例:? 可見(jiàn)多發(fā)結(jié)節(jié)影,大小約1

.

1

6

X

0

.

9

8

厘米例:? 在“肌力4+級(jí)”中“+”表示“強(qiáng)”“頭MRI+MRA示”中“+”表示“和”醫(yī)學(xué)自然語(yǔ)言處理的基本任務(wù)例:? 胃脹反酸、泛酸、返酸例:“無(wú)意識(shí)障礙”? 無(wú)

|

意識(shí)

|

障礙

無(wú)

|

意識(shí)障礙例:“細(xì)菌性痢疾”? 細(xì)菌

/n

/ng

痢疾

/

n名詞名詞性語(yǔ)素例:? 可見(jiàn)多發(fā)結(jié)節(jié)影,大小約1

.

1

6

X

0

.

9

8

厘米010603040502語(yǔ)義分析06分詞01詞性標(biāo)注02實(shí)體識(shí)別03實(shí)體關(guān)系抽取05實(shí)體標(biāo)準(zhǔn)化04例:1.16X0.98厘米例:? 在“肌力38例:1.16X0.98厘米例:? 在“肌力02醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)分詞、詞性標(biāo)注、實(shí)體識(shí)別、實(shí)體關(guān)系抽取、語(yǔ)義分析02醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)3902醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)02醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)分詞分詞是將一句話(huà)切分成一個(gè)個(gè)單詞的過(guò)程分詞工具結(jié)巴(jieba)分詞工具、NLPIR漢語(yǔ)分詞系統(tǒng)、IKAnalyzer開(kāi)源分詞軟件關(guān)鍵技術(shù)基于詞典的分詞方法(機(jī)械分詞法)按照一定策略,將待分析的漢字串與一個(gè)充分大的機(jī)器字典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功逆向最大匹配法正向最大匹配法雙向匹配法基于機(jī)器學(xué)習(xí)的分詞方法例:?

“無(wú)意識(shí)障礙” 無(wú)意識(shí)

|障礙() 無(wú)

|

意識(shí)障礙(?)醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)分詞分詞是將一句話(huà)切分成一個(gè)個(gè)單詞40醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)分詞分詞是將一句話(huà)切分成一個(gè)個(gè)單詞醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)設(shè)詞典中詞語(yǔ)長(zhǎng)度的最大值為M基于詞典的分詞方法開(kāi)始從文檔末尾開(kāi)始掃描,取最末端的M個(gè)字符作為匹配字段,查找字典記錄分詞結(jié)果,對(duì)剩余的字符串繼續(xù)重復(fù)以上步驟匹配成功是否將字符串長(zhǎng)度減少1是剩余字串的長(zhǎng)度為零輸出例:“南京市長(zhǎng)江大橋”1. 設(shè)最長(zhǎng)詞為52. 在詞典中匹配“市長(zhǎng)江大橋”3. 匹配失敗,去掉最前面一個(gè)字“市”匹配“長(zhǎng)江大橋”,匹配成功在詞典中剩余字符“南京市”,匹配成功輸出結(jié)果:南京市

/

長(zhǎng)江大橋醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)設(shè)詞典中詞語(yǔ)長(zhǎng)度的最大值為M基于詞41醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)設(shè)詞典中詞語(yǔ)長(zhǎng)度的最大值為M基于詞醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個(gè)詞的詞性加以標(biāo)注,如將詞分為名詞、形容詞、動(dòng)詞等關(guān)鍵技術(shù)基于詞典的標(biāo)注方法先對(duì)語(yǔ)句進(jìn)行分詞,然后從字典中查找每個(gè)詞語(yǔ)的詞性,對(duì)其進(jìn)行標(biāo)注基于規(guī)則的標(biāo)注方法① 簡(jiǎn)單處理,得到初標(biāo)注結(jié)果② 建立轉(zhuǎn)換規(guī)則,修正錯(cuò)誤③ 得到標(biāo)注結(jié)果例:細(xì)菌性痢疾膽囊壁明顯增厚細(xì)菌

/n

/ng

痢疾

/n膽囊

/n

/ng

明顯

/a

/v

/a名詞名詞性語(yǔ)素例:1.初標(biāo)注:“他/r做/v了/u一/m個(gè)/q報(bào)告/v”2.轉(zhuǎn)換規(guī)則:激活環(huán)境:該詞左邊第一個(gè)緊鄰詞的詞性是量詞(q),左邊第二個(gè)詞的詞性是數(shù)詞(m)改寫(xiě)規(guī)則:將該詞的詞性從動(dòng)詞(v)改為名詞(n)3.得到標(biāo)注結(jié)果:“他/r做/v了/u一/m個(gè)/q報(bào)告/n”醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個(gè)詞的詞42醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)詞性標(biāo)注在給定句子中判定每個(gè)詞的詞醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體識(shí)別醫(yī)學(xué)領(lǐng)域的實(shí)體抽取是從醫(yī)學(xué)數(shù)據(jù)源中提取出特定類(lèi)型的命名實(shí)體,主要有疾病、藥物、癥狀、檢查、手術(shù)操作、器官部位等1組淋巴結(jié)、2組淋巴結(jié)、3組淋巴結(jié)關(guān)鍵技術(shù)基于規(guī)則的方法正則法例:清掃第1組,2組,3組淋巴結(jié)正則表達(dá)式:“%

[/d]

+

組淋巴結(jié)”基于機(jī)器學(xué)習(xí)的方法詞向量表示將自然語(yǔ)言處理問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)問(wèn)題,首先在于采用一種詞表示方法將文本中的單詞和符號(hào)數(shù)學(xué)化,即用一個(gè)數(shù)學(xué)向量表示。常用的詞向量表示方法:獨(dú)熱碼表示、Word2vec算法例:

“乙肝”表示為

[

0

0

0

1

0

0

0

0

0

0

0

0…]

,“肝硬化”表示為

[

0

0

0

0

0

0

0

0

1

0

0

0…]醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體識(shí)別1組淋巴結(jié)、2組淋巴結(jié)、343醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體識(shí)別1組淋巴結(jié)、2組淋巴結(jié)、3醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法例:

頭顱CT檢查顯示腔隙性腦梗死1.人工特征標(biāo)注:頭顱CT——檢查手段;腔隙性腦梗死——疾??;2.

訓(xùn)練:將字符轉(zhuǎn)為向量表示,將分類(lèi)標(biāo)簽id化,并進(jìn)行特征提取,構(gòu)建訓(xùn)練集特征向量[000001000000…]—“TES”,[00000000000010…]—“DIS”

3.模型進(jìn)行訓(xùn)練,訓(xùn)練完成后對(duì)測(cè)試文本進(jìn)行識(shí)別,得到機(jī)器標(biāo)注結(jié)果:<頭顱CT

/TES>

平掃見(jiàn)右側(cè)腦室體旁

<腔隙性腦梗死

/DIS

>已標(biāo)注數(shù)據(jù)人工特征標(biāo)注原始文本訓(xùn)練集構(gòu)建機(jī)器學(xué)習(xí)模型測(cè)試集測(cè)試的未標(biāo)注文本輸入輸出機(jī)器標(biāo)注結(jié)果訓(xùn)練特征提取醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法例:頭44醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法例:頭醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體標(biāo)準(zhǔn)化醫(yī)學(xué)實(shí)體在不同的數(shù)據(jù)源中存在嚴(yán)重的多元指代問(wèn)題關(guān)鍵技術(shù)基于醫(yī)學(xué)標(biāo)準(zhǔn)術(shù)語(yǔ)庫(kù)匹配的方法醫(yī)學(xué)知識(shí)圖譜如兩個(gè)實(shí)體被多個(gè)相同實(shí)體以相同關(guān)系指向,則二者為同一實(shí)體的概率較高基于機(jī)器學(xué)習(xí)的方法用Word2vec模型對(duì)上下文取窗口進(jìn)行訓(xùn)練,求解最大似然的共現(xiàn)概率。訓(xùn)練完成后,使用向量余弦相似度計(jì)算實(shí)體相似性。對(duì)于訓(xùn)練充分的詞表示向量而言,一組相似詞的向量語(yǔ)義距離更近。如“首都”和“北京”的語(yǔ)義距離要比“上?!备t(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體標(biāo)準(zhǔn)化45醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體標(biāo)準(zhǔn)化醫(yī)學(xué)自然語(yǔ)言處理的基本技醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體關(guān)系抽取發(fā)現(xiàn)文本中實(shí)體對(duì)間的各種語(yǔ)義關(guān)系實(shí)體關(guān)系可以用于構(gòu)建知識(shí)框架,如疾病與藥物的關(guān)系、癥狀與疾病的關(guān)系、基因與疾病的關(guān)系等關(guān)鍵技術(shù)實(shí)體共現(xiàn)法認(rèn)為兩個(gè)相距很近的實(shí)體如果以一定的順序在一個(gè)文本語(yǔ)料庫(kù)中高頻率地重復(fù),那么這兩個(gè)實(shí)體相關(guān)的可能性很大機(jī)器學(xué)習(xí)方法將關(guān)系抽取看作是一個(gè)分類(lèi)問(wèn)題,通過(guò)具體的學(xué)習(xí)算法,在人工標(biāo)引語(yǔ)料的基礎(chǔ)上構(gòu)造分類(lèi)器,再用訓(xùn)練得到的分類(lèi)器抽取測(cè)試文本中的實(shí)體關(guān)系深度學(xué)習(xí)例如:?

患者3

天前受涼后出現(xiàn)咳嗽、咳痰?

高血壓病史40

年,口服厄貝沙坦控制可誘因醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體關(guān)系抽取實(shí)體關(guān)系可以用于構(gòu)建知46醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)實(shí)體關(guān)系抽取實(shí)體關(guān)系可以用于構(gòu)建知醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取輸入層編碼層卷積層 池化層 輸出層(1)輸入層:需要判別關(guān)系類(lèi)別的實(shí)體文本(2)編碼層:預(yù)處理,使用Word2vec訓(xùn)練的向量模型表示實(shí)體文本對(duì)于一句話(huà)中每個(gè)單詞均為

k

維的詞向量,因此對(duì)于長(zhǎng)度為

n的一句話(huà)則可用維度為

n*k的矩陣(3)卷積層:設(shè)計(jì)一個(gè)過(guò)濾器窗口W,其維度為h?k,h表示窗口所含的單詞個(gè)數(shù),不斷地滑動(dòng)該窗口,每次滑動(dòng)一個(gè)位置時(shí),完成非線(xiàn)性激活函數(shù)的計(jì)算(4)最大池化層:為了得到最大特征,進(jìn)行max-over-time操作,取出最大值(5)輸出層:通過(guò)向量映射,得到待預(yù)測(cè)的類(lèi)別結(jié)果醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取輸入層編47醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取輸入層編醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)語(yǔ)義分析在詞的層次上,語(yǔ)義分析的基本任務(wù)是進(jìn)行詞義消歧在句子層面上是語(yǔ)義角色標(biāo)注在篇章層面上是指代消歧,也稱(chēng)共指消解基于機(jī)器學(xué)習(xí)的消歧方法有監(jiān)督:通過(guò)建立分類(lèi)器,根據(jù)上下文和標(biāo)注結(jié)果完成分類(lèi)任務(wù),用劃分多義詞上下文類(lèi)別的方法來(lái)區(qū)分多義詞的詞義貝葉斯模型、最大熵模型、支持向量機(jī)模型、深度神經(jīng)網(wǎng)絡(luò)模型無(wú)監(jiān)督:使用聚類(lèi)算法對(duì)同一個(gè)多義詞的所有上下文進(jìn)行等價(jià)類(lèi)劃分,在詞義識(shí)別的時(shí)候,將該詞的上下文與各個(gè)詞義對(duì)應(yīng)上下文的等價(jià)類(lèi)進(jìn)行比較,通過(guò)上下文對(duì)應(yīng)的等價(jià)類(lèi)來(lái)確定詞的詞義聚類(lèi)算法例:病毒(計(jì)算機(jī)病毒、生物病毒)打球、打電話(huà)、打毛衣醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)語(yǔ)義分析在詞的層次上,語(yǔ)義分析的基48醫(yī)學(xué)自然語(yǔ)言處理的基本技術(shù)語(yǔ)義分析在詞的層次上,語(yǔ)義分析的基醫(yī)學(xué)自然語(yǔ)言處理方法總結(jié)基于詞典和規(guī)則的處理方法詞典匹配正則表達(dá)式基于統(tǒng)計(jì)的處理方法支持向量機(jī)(Support

Vector

Machine,SVM)隱馬爾可夫(Hidden

Markov

Model,HMM)條件隨機(jī)場(chǎng)(Conditional

Random

Fields,CRF)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long

Short

Term

Memory,LSTM)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional

Neural

Network

,CNN)兩者融合的方法醫(yī)學(xué)自然語(yǔ)言處理方法總結(jié)基于詞典和規(guī)則的處理方法49醫(yī)學(xué)自然語(yǔ)言處理方法總結(jié)基于詞典和規(guī)則的處理方法醫(yī)學(xué)自然語(yǔ)言03醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題03醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題5003醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題03醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題一有瑕疵的或不規(guī)范的輸入不同的數(shù)據(jù)來(lái)源(如病歷、醫(yī)學(xué)論文等)或不同的人員(如科研人員、臨床醫(yī)生、病人等)在表達(dá)相同或相似概念時(shí)其描述方式多種多樣例:?

2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠狀動(dòng)脈支架置入術(shù)、冠狀動(dòng)脈支架植入術(shù)胃脹反酸、泛酸、返酸例:冠心病、冠狀動(dòng)脈粥樣硬化性心臟病、CAD上述現(xiàn)象本質(zhì)上是歸屬于同一類(lèi)問(wèn)題,這類(lèi)問(wèn)題在通用領(lǐng)域稱(chēng)為實(shí)體對(duì)齊、實(shí)體標(biāo)準(zhǔn)化醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題一不同的數(shù)據(jù)來(lái)源(如病歷、醫(yī)學(xué)51醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題一不同的數(shù)據(jù)來(lái)源(如病歷、醫(yī)學(xué)醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題解決方法采用規(guī)則的方法,將實(shí)體描述經(jīng)過(guò)一系列規(guī)則變換(如,簡(jiǎn)寫(xiě)轉(zhuǎn)全稱(chēng))后進(jìn)行匹配采用機(jī)器學(xué)習(xí)方法,基于向量空間模型將實(shí)體表示為詞向量再學(xué)習(xí)向量之間的相似性關(guān)系例:冠心病、冠狀動(dòng)脈粥樣硬化性心臟病、CAD例:?

2型糖尿病、二形糖尿病、2-糖尿病、II型糖尿病冠狀動(dòng)脈支架置入術(shù)、冠狀動(dòng)脈支架植入術(shù)胃脹反酸、泛酸、返酸冠狀動(dòng)脈粥樣硬化性心臟病2型糖尿病冠狀動(dòng)脈支架置入術(shù)胃脹反酸醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題解決方法采用機(jī)器學(xué)習(xí)方法,基于向量52醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題解決方法采用機(jī)器學(xué)習(xí)方法,基于向量醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題二病歷文檔經(jīng)常需要對(duì)某些概念進(jìn)行否定性質(zhì)的描述,因而要在病歷中單純地依賴(lài)文中有沒(méi)有出現(xiàn)術(shù)語(yǔ)作為信息檢索的依據(jù)并不能取得好的結(jié)果解決方法正則表達(dá)式實(shí)體關(guān)系抽取問(wèn)題判斷概念是否具有“否定”的上下文環(huán)境例:“否認(rèn)手術(shù)史”、“未觸及質(zhì)硬結(jié)節(jié)”、“支氣管斷端未見(jiàn)癌”實(shí)體識(shí)別確定實(shí)體關(guān)系共現(xiàn)法尋找距離相近的實(shí)體抽取目標(biāo)實(shí)體前后出現(xiàn)的否定詞醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題二解決方法判斷概念是否具有“否53醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題問(wèn)題二解決方法判斷概念是否具有“否醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?

問(wèn)題三醫(yī)學(xué)領(lǐng)域相關(guān)實(shí)體和實(shí)體之間的關(guān)系比較復(fù)雜,例:蛋白質(zhì)之間相互作用關(guān)系、藥物之間相互作用關(guān)系、藥物疾病對(duì)應(yīng)關(guān)系等?

解決方案建立完備的醫(yī)學(xué)知識(shí)庫(kù)、知識(shí)圖譜LSTM、CNN等算法,建立學(xué)習(xí)模型,識(shí)別疾病——藥物之間的關(guān)系相對(duì)規(guī)范的文本記錄(病理報(bào)告),可考慮基于規(guī)則的方法提取,如正則表達(dá)式例:既往史:否認(rèn)肝炎、肺結(jié)核、瘧疾病史,高血壓10年余,糖尿病7年,口服二甲雙胍治療,血糖控制可,口服硝苯地平,血壓維持在130/70mmHg左右屬于實(shí)體關(guān)系抽取的一類(lèi)典型問(wèn)題例:送檢(右肺中葉結(jié)節(jié))淋巴結(jié)見(jiàn)轉(zhuǎn)移癌(1/1),送檢(第2組、第4組、第7組、第11組)淋巴結(jié)未見(jiàn)轉(zhuǎn)移癌(分別為0/1、0/2、0/1、0/1)淋巴結(jié)陽(yáng)性數(shù)清掃數(shù)第2組01第4組02第7組01第11組01右肺中葉結(jié)節(jié)11病史病程藥物治療高血壓10年硝苯地平糖尿病7年二甲雙胍醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?問(wèn)題三醫(yī)學(xué)領(lǐng)域相關(guān)實(shí)體和實(shí)體之54醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?問(wèn)題三醫(yī)學(xué)領(lǐng)域相關(guān)實(shí)體和實(shí)體之醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?

問(wèn)題四電子病歷中出現(xiàn)大量長(zhǎng)句,需要做語(yǔ)義識(shí)別?

解決方案對(duì)于長(zhǎng)句語(yǔ)義識(shí)別,適合用LSTM網(wǎng)絡(luò)模型,通過(guò)搭建多層復(fù)合LSTM網(wǎng)絡(luò),將原語(yǔ)料反向輸入生成反向LSTM層,與正向LSTM層相結(jié)合,加強(qiáng)關(guān)鍵成分與上下文的關(guān)聯(lián)度例:食管胃交界部小彎側(cè)潰瘍型中-低分化腺癌,部分為粘液腺癌,腫瘤大小為5x3.5x1.5cm,癌組織侵及胃壁全層,并侵犯神經(jīng),檢出之上下切緣及送檢(食管切緣)均未見(jiàn)癌keyvalue組織學(xué)類(lèi)型腺癌、粘液腺癌分化程度低分化腫瘤大小5x3.5x1.5cm腫瘤部位胃食管結(jié)合部胃小彎醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?問(wèn)題四?解決方案例:keyv55醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題?問(wèn)題四?解決方案例:keyv醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題難點(diǎn)問(wèn)題相同的醫(yī)學(xué)問(wèn)題、不同的研究目的,提取規(guī)則不一樣例:糖尿病提取藥物史

——

降壓藥、降糖藥從文本中直接抽取實(shí)體即可侵襲性真菌病提取抗菌藥物史

——

病前30天內(nèi)使用抗菌藥物、長(zhǎng)期(超過(guò)2周)使用抗菌藥物 不是在文本中直接體現(xiàn),需要添加復(fù)雜的語(yǔ)義分析病歷結(jié)構(gòu)化后,抽取出的信息是孤立的,丟失了大量的時(shí)間信息和因果邏輯關(guān)系例:入院記錄會(huì)描述患者病情的發(fā)展情況,包含了大量時(shí)間信息,以及前后、因果邏輯關(guān)系緣于2012年4月24日車(chē)禍后出現(xiàn)左腕及左眼眶骨折左腕及左眼眶骨折左眼眶骨折,

在當(dāng)?shù)蒯t(yī)院住院手術(shù)治療,

出院后因左腕疼痛輾轉(zhuǎn)于各診所肌肉注射或靜脈滴注各種抗生素(隔2-3天應(yīng)用3-5天),達(dá)3個(gè)月;

于2012年8月出現(xiàn)高熱,口腔內(nèi)白斑,體溫達(dá)40℃,伴發(fā)冷,

在某醫(yī)院診斷為“真菌感染”,

打針治療后癥狀無(wú)明顯好轉(zhuǎn),

后轉(zhuǎn)至某醫(yī)院呼吸科,

診斷為“成人Still病”,

接受“氟康唑、免疫球蛋白、甲潑尼龍40mg

1/日”等治療,體溫降至正常,

出院口服“甲潑尼龍6片

1/日,

硫酸羥氯喹0.2g

2/日;

來(lái)氟米特

20mg

1/日”

于2013年12月出現(xiàn)左側(cè)髖關(guān)節(jié)疼痛,

下蹲困難(蹲起時(shí)自覺(jué)雙側(cè)腘窩疼痛),

于某醫(yī)院行髖關(guān)節(jié)核磁檢查,

示:左側(cè)髖臼信號(hào)異常并左側(cè)髖關(guān)節(jié)腔積液……醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題難點(diǎn)問(wèn)題糖尿病提取藥物史——降56醫(yī)學(xué)自然語(yǔ)言處理的典型問(wèn)題難點(diǎn)問(wèn)題糖尿病提取藥物史——降04實(shí)踐經(jīng)驗(yàn)總結(jié)04實(shí)踐經(jīng)驗(yàn)總結(jié)5704實(shí)踐經(jīng)驗(yàn)總結(jié)04實(shí)踐經(jīng)驗(yàn)總結(jié)57病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理原始病歷——零散的文件存儲(chǔ)、純文本格式、信息不易查詢(xún)提取清洗治理后的病歷——數(shù)據(jù)庫(kù)形式存儲(chǔ)、半結(jié)構(gòu)化格式、顯著提高電子病歷利用率患者基本信息患者ID…入院記錄現(xiàn)病史個(gè)人史家族史主訴既往史婚育史體格檢查首次病程記錄病例特點(diǎn)診療計(jì)劃擬診討論…日常病程記錄查房記錄…病歷數(shù)據(jù)庫(kù)存儲(chǔ)查詢(xún)提取統(tǒng)計(jì)病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗58病案紙解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理平臺(tái)界面展示解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理59解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展全院電子病歷文本清洗治理解解放軍總醫(yī)院電子病歷文本結(jié)構(gòu)化進(jìn)展基于專(zhuān)病的病歷文本結(jié)構(gòu)化處理平臺(tái)不同病種需要提取的醫(yī)學(xué)問(wèn)題有較大差異,需要個(gè)性化定制例:胃癌手術(shù)報(bào)告需要提?。呵谐?/p>

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論