論文基于“強(qiáng)”規(guī)則匹配技術(shù)的臨床數(shù)據(jù)處理應(yīng)用與實(shí)踐_第1頁(yè)
論文基于“強(qiáng)”規(guī)則匹配技術(shù)的臨床數(shù)據(jù)處理應(yīng)用與實(shí)踐_第2頁(yè)
論文基于“強(qiáng)”規(guī)則匹配技術(shù)的臨床數(shù)據(jù)處理應(yīng)用與實(shí)踐_第3頁(yè)
論文基于“強(qiáng)”規(guī)則匹配技術(shù)的臨床數(shù)據(jù)處理應(yīng)用與實(shí)踐_第4頁(yè)
論文基于“強(qiáng)”規(guī)則匹配技術(shù)的臨床數(shù)據(jù)處理應(yīng)用與實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于“強(qiáng)”規(guī)則匹配技術(shù)的臨床數(shù)據(jù)處理應(yīng)用與實(shí)踐摘要:臨床數(shù)據(jù)處理的關(guān)鍵是如何定義清晰的數(shù)據(jù)處理邊界,建立“強(qiáng)”規(guī)則匹配方法,以保證 數(shù)據(jù)提取的準(zhǔn)確性及具有極少的“冗余”度,完成“數(shù)據(jù)”向“信息”的轉(zhuǎn)換,形成應(yīng)用價(jià)值。 木文作者及合作團(tuán)隊(duì),通過(guò)對(duì)國(guó)內(nèi)6所大型三級(jí)卬等醫(yī)院,不同疾病類(lèi)型臨床數(shù)據(jù)處理方法的研 究,解決了信息模型構(gòu)建、臨床專(zhuān)業(yè)詞庫(kù)形成、臨床信息提取等技術(shù)難題,形成了具有較強(qiáng)應(yīng)用 價(jià)值的基于人數(shù)據(jù)的臨床質(zhì)量管理和科研數(shù)據(jù)支撐系統(tǒng)。比較結(jié)果證明,針對(duì)信息模型屮數(shù)據(jù)項(xiàng), 原始病歷的人工閱讀結(jié)果與專(zhuān)用信息捉取工具結(jié)來(lái)間的誤差能夠控制在2%以?xún)?nèi)。關(guān)鍵詞:臨床數(shù)據(jù)自由文本醫(yī)學(xué)分詞信息提取appli

2、cation and practice of clinical data processing based on strong rule matching technologyabstract: the key of clinical data process is how to define clear data boundary and establish "strong rule matching method, so the accuracy of the data extraction result and few z,redundacan be ensured. base

3、d on this, we can complete the transition of "datetto "infonnation"andformat the data application value. authors of this paper and cooperative team have worked on different type disease clinical data in 6 third class a hospital. this paper solvedthree main prob ioms in cl inical data

4、process, the con struct! on of informati on model, the constructi on of cl ini cal professional lexicon and the construction of cl inical semantic model. wedeveloped a cl inical quality management and scientific research data support system. the comparison results prove that the error between the ma

5、nual reading result and the computer auto extraction result can be controlled within 2%.key words: clinical data, free text, medical word segmentation, information extraction 1引言從20世紀(jì)末大數(shù)據(jù)搜索技術(shù)出現(xiàn)以來(lái),“數(shù)據(jù)”演變成更冇價(jià)值的“信息”才具備了現(xiàn)實(shí)可 行性。但是,基于“弱”規(guī)則匹配建立專(zhuān)業(yè)數(shù)據(jù)處理t具,將會(huì)給后期數(shù)據(jù)利用帶來(lái)比較繁瑣的 人工去“?!边^(guò)程,從而造成處理效率和“信息”的準(zhǔn)確性顯著下降?!皬?qiáng)”規(guī)則匹

6、配的關(guān)鍵 是:基于閉合信息模型,針對(duì)大量自由文本表達(dá)的非結(jié)構(gòu)化數(shù)據(jù),通過(guò)信息提取設(shè)計(jì),完成其中 信息實(shí)體的的準(zhǔn)確提取與轉(zhuǎn)換。本文在借鑒大數(shù)據(jù)處理技術(shù)的基礎(chǔ)上,通過(guò)臨床子語(yǔ)言特征的分 析,構(gòu)建出一套經(jīng)濟(jì)性、實(shí)川性校強(qiáng)、基于臨床專(zhuān)業(yè)詞庫(kù)和語(yǔ)義模式庫(kù)的自由文本信息提取模型, 并采用了監(jiān)督算法(最大期望(em)準(zhǔn)則、冇序聚類(lèi))2】,冇效保障了服務(wù)于醫(yī)學(xué)專(zhuān)業(yè)分詞器的 臨床專(zhuān)業(yè)詞庫(kù)的完整性和準(zhǔn)確性。同時(shí),通過(guò)白抽樣方法有效保障了服務(wù)于語(yǔ)義分析程序的語(yǔ)義 模式庫(kù)的完善,從而滿(mǎn)足了數(shù)據(jù)規(guī)模上升和數(shù)據(jù)多樣化特征卜的語(yǔ)義判別收斂和信息提取。2臨床數(shù)據(jù)的基本特征2.1臨床數(shù)據(jù)多源化。中國(guó)醫(yī)院信息化發(fā)展已經(jīng)歷了 20

7、余年的歷程,從著眼于流程和計(jì)費(fèi) 管理的h1s到目前廣泛應(yīng)用于記錄臨床過(guò)程和結(jié)論的電子病歷系統(tǒng)(emr)、實(shí)驗(yàn)室系統(tǒng)(l1s)、 放射系統(tǒng)(ris)、影像系統(tǒng)(pacs)、護(hù)理系統(tǒng)(nis)、手麻系統(tǒng)(0as),眾多臨床系統(tǒng)以結(jié)構(gòu) 化或非結(jié)構(gòu)化形式記錄了各類(lèi)臨床數(shù)據(jù),臨床數(shù)據(jù)分類(lèi)與醫(yī)院臨床信息系統(tǒng)(cis)的對(duì)應(yīng)關(guān)系 如表1所示。表1臨床數(shù)據(jù)分類(lèi)與信息系統(tǒng)對(duì)應(yīng)關(guān)系表健康狀態(tài)檢査/檢驗(yàn)治療物理對(duì)象語(yǔ)境疾 病癥 狀 體 征評(píng) 估負(fù) 性 事 件影 像檢 驗(yàn)病 理藥 物手 術(shù)物 理護(hù) 理部位裝 置器 械置入物地 點(diǎn)時(shí) 間人物hisvvvemrvvvvvvvvvjvvnisvvjvlisvvvvvrisv

8、vvvv0asvvvvvvvvvv2.2臨床信息表達(dá)非結(jié)構(gòu)化。在眾多cis中,臨床記錄最完整的電子病歷(emr)系統(tǒng)只 是做到了以病歷模板為基礎(chǔ)的存儲(chǔ)結(jié)構(gòu)化,并沒(méi)有做到語(yǔ)義上的結(jié)構(gòu)化,同樣的問(wèn)題也存在于其 它各類(lèi)cis中。2. 3同類(lèi)信息的表達(dá)多樣化。同一項(xiàng)信息由于記錄者習(xí)慣不同,在表達(dá)方式上也不完全一致, 例如:對(duì)于家族史的表達(dá),在“入院記錄”中,有的記錄為:“家族史:高血壓、糖尿病”,有的 記錄為:“否認(rèn)以下家族史:高血壓、糖尿病”,多類(lèi)表達(dá)需耍后期處理為同一表達(dá)方式:病案號(hào) +家族史代碼+結(jié)果,如:“1001922404: hh012: 0”;2. 4數(shù)據(jù)量大,信息價(jià)值密度低。臨床數(shù)據(jù)體

9、量巨大,積累速度快但其中關(guān)鍵環(huán)節(jié)信息雖:有 限,很多關(guān)鍵信息盂要多源關(guān)聯(lián)化判決,所以從低價(jià)值密度大體量數(shù)據(jù)中提取關(guān)鍵信息成為臨床 數(shù)據(jù)處理的關(guān)鍵。2. 5信息表達(dá)模式化較強(qiáng)。雖然而臨多樣化問(wèn)題,但由于醫(yī)生口身的專(zhuān)業(yè)訓(xùn)練,在表達(dá)模式 上變異冇限,如癥狀的表達(dá)基本上是:身體部位+描述(“上肢口j抬舉”,“言語(yǔ)笨拙”),排除癥狀 是“否認(rèn)i無(wú)” +描述(“否認(rèn)發(fā)熱,無(wú)糖尿病史”),這種表達(dá)模式為基于“強(qiáng)”規(guī)則的信息精確 提取提供r便利。3臨床信息模型建設(shè)為達(dá)成狹義自由表達(dá)下的臨床“數(shù)據(jù)”向臨床管理和科研需求釋放iii nj'w度匹配的“信息”, 需要針對(duì)不同應(yīng)用需求建立準(zhǔn)確的“信息”模型,冃

10、的是為后續(xù)的數(shù)據(jù)處理清晰界定取樣邊界, 這是最終實(shí)現(xiàn)臨床數(shù)據(jù)語(yǔ)義準(zhǔn)確性和完整性的基礎(chǔ),也是計(jì)算機(jī)識(shí)別和處理臨床數(shù)據(jù)的重要前提。 本文針對(duì)急性冠狀動(dòng)脈綜合癥、缺血性卒屮、結(jié)直腸癌根治術(shù)、浸潤(rùn)性乳腺癌根治術(shù)、重癥感染、 社區(qū)獲得性肺炎等6種重大疾病的過(guò)程質(zhì)雖監(jiān)測(cè)和管理盂求,通過(guò)閱讀和分析大雖的國(guó)內(nèi)外更學(xué) 文獻(xiàn),在中華醫(yī)學(xué)會(huì)心血管分會(huì)、神經(jīng)內(nèi)科分會(huì)、重癥醫(yī)學(xué)分會(huì)、呼吸病分會(huì)和腫瘤分會(huì)結(jié)直腸 癌學(xué)組、乳腺癌學(xué)組專(zhuān)家的指導(dǎo)和幫助下,建立了與臨床“質(zhì)量”管理高度相關(guān)的標(biāo)準(zhǔn)診療路徑 和監(jiān)測(cè)、評(píng)價(jià)指標(biāo)集,依據(jù)各評(píng)價(jià)指標(biāo)集總結(jié)相關(guān)數(shù)據(jù)項(xiàng)邊界,并為備數(shù)據(jù)項(xiàng)制訂相應(yīng)的提取規(guī) 則,例如:在st段抬高性急性冠狀動(dòng)脈綜合

11、征(stem)中,數(shù)據(jù)邊界之一為:“急診pci冠脈 造影成功比率”,需要提収:是否行急診pct、是否行冠脈造影術(shù)、術(shù)后timt血流級(jí)別、術(shù)后 血管狹窄程度等數(shù)據(jù)項(xiàng),其分別位于手術(shù)記錄、術(shù)后小結(jié)、出院記錄等病歷文書(shū)中,結(jié)果表達(dá)方 式為“0|1”、數(shù)值、百分比,這類(lèi)數(shù)據(jù)項(xiàng)定義及其表達(dá)方式構(gòu)成了臨床應(yīng)用的信息模型。4臨床數(shù)據(jù)處理系統(tǒng)架構(gòu)臨床信息提取系統(tǒng)架構(gòu)如圖1所示。圖1臨床信息處理系統(tǒng)架構(gòu)圖其中:醫(yī)學(xué)分詞程序:結(jié)合醫(yī)學(xué)詞庫(kù),將臨床自由文木分解成獨(dú)立詞語(yǔ);信息實(shí)體識(shí)別:由于醫(yī)學(xué)詞庫(kù)是支撐醫(yī)學(xué)分詞準(zhǔn)確度的基礎(chǔ),但初期不可能建設(shè)完善,而信 息實(shí)體識(shí)別可以初步判斷詞庫(kù)中的耒登錄詞,由于涉及臨床專(zhuān)業(yè)性,必須

12、要對(duì)訓(xùn)練語(yǔ)料中識(shí)別出 的信息實(shí)體進(jìn)行人工判別,并加入標(biāo)注,然后將新產(chǎn)生的標(biāo)注詞匯放入醫(yī)學(xué)詞庫(kù),這樣經(jīng)過(guò)一定 數(shù)量語(yǔ)料的訓(xùn)練,可以極大提高醫(yī)學(xué)分詞的準(zhǔn)確性;語(yǔ)義分析程序:針對(duì)醫(yī)學(xué)分詞結(jié)果,結(jié)合臨床語(yǔ)義模式庫(kù),其小的信息實(shí)體取出,經(jīng)過(guò)字典 對(duì)-照、格式轉(zhuǎn)換等,進(jìn)入臨床主題數(shù)據(jù)庫(kù)存儲(chǔ);臨床主題數(shù)據(jù)庫(kù)(edr):由于醫(yī)學(xué)專(zhuān)科和疾病種類(lèi)較多,各專(zhuān)科、各病種在臨丿木數(shù)據(jù)需求上 差異較大,所以臨床數(shù)據(jù)服務(wù)應(yīng)以病種為分類(lèi)標(biāo)準(zhǔn)構(gòu)建主題數(shù)據(jù)庫(kù),從而能夠更好地支撐臨床 數(shù)據(jù)二次應(yīng)用。5臨床數(shù)據(jù)處理技術(shù)在臨床數(shù)據(jù)處理過(guò)程中,最棘手的環(huán)節(jié)是將臨床自由文本記錄經(jīng)過(guò)語(yǔ)義分析與判別,轉(zhuǎn)化為 具有結(jié)構(gòu)化、代碼化、一致化特征的信

13、息實(shí)體,本文基于臨床子語(yǔ)言分析和臨床大數(shù)據(jù)特點(diǎn),在 臨床信息實(shí)體提取模型構(gòu)建方面建立出一套具冇高度町操作性的方案,其中重解決了醫(yī)學(xué)專(zhuān)業(yè)分 詞和臨床語(yǔ)義判別兩項(xiàng)關(guān)鍵技術(shù)。5.1建立醫(yī)學(xué)專(zhuān)業(yè)分詞器建立醫(yī)學(xué)專(zhuān)業(yè)分詞器的主要目的是完成臨床專(zhuān)業(yè)詞庫(kù)的構(gòu)建,為信息模型中數(shù)據(jù)項(xiàng)的語(yǔ)義判 別提供數(shù)據(jù)基礎(chǔ)。其中關(guān)鍵在于保障詞庫(kù)的準(zhǔn)確性和完整性。本文所建立的醫(yī)學(xué)專(zhuān)業(yè)分詞器包括: 分詞程序、通用訶庫(kù)(百度)、輔助專(zhuān)業(yè)訶庫(kù)(snomed:醫(yī)學(xué)標(biāo)準(zhǔn)術(shù)語(yǔ)集)、臨床專(zhuān)業(yè)訶庫(kù)。 其屮對(duì)于臨床自由文木分詞結(jié)果的準(zhǔn)確性彩響最大的是臨床專(zhuān)業(yè)詞庫(kù),在臨床表達(dá)上,各醫(yī)院、 各專(zhuān)科、各病種的不盡一致,尤其在專(zhuān)科間、病種間區(qū)別較人,由于本

14、系統(tǒng)旨在建立基于單病種 的臨床質(zhì)量監(jiān)測(cè),所以臨床專(zhuān)業(yè)詞庫(kù)的建設(shè)也相應(yīng)以單病種做了邏輯區(qū)分。其建設(shè)步驟如下:第一、基于通用詞庫(kù),針對(duì)臨床文本訓(xùn)練語(yǔ)料進(jìn)行初步的切分;第二、針對(duì)初分結(jié)果,通過(guò)em算法迭代地學(xué)習(xí)詞頻,再按照授大似然原則進(jìn)行分詞調(diào)整;笫三、対于調(diào)整結(jié)果,篩除通用詞庫(kù)中已包含詞語(yǔ),對(duì)余下結(jié)果,計(jì)算其良度和長(zhǎng)度等信息, 通過(guò)有序聚類(lèi)算法進(jìn)行排序,并選取前列詞語(yǔ)作為未登錄詞,從而達(dá)到識(shí)別未登錄詞的機(jī)器學(xué)習(xí) 目的;第四、對(duì)于機(jī)器學(xué)習(xí)的耒登錄詞進(jìn)行人工標(biāo)注,標(biāo)注結(jié)果進(jìn)入臨床專(zhuān)業(yè)詞庫(kù);第五、對(duì)以上過(guò)程進(jìn)行迭代,直到未登錄詞占臨床專(zhuān)業(yè)詞庫(kù)比例下降到1%以?xún)?nèi);第六、利用以上方法形成的臨床專(zhuān)業(yè)詞庫(kù),合并

15、通用詞庫(kù)和輔助專(zhuān)業(yè)詞庫(kù),采用正/逆向最 大匹配方法,對(duì)應(yīng)用語(yǔ)料進(jìn)行分詞。結(jié)果:采用以上方法,基于6所醫(yī)院,針對(duì)'stem病種,對(duì)照組納入600份病歷作為訓(xùn)練語(yǔ) 料,共計(jì)形成了 2835個(gè)專(zhuān)業(yè)詞語(yǔ),并采用測(cè)試組1000份病例進(jìn)行了人工校驗(yàn),分詞準(zhǔn)確度達(dá)到 97%o5. 2建立臨床語(yǔ)義模式庫(kù)和語(yǔ)義判別程序語(yǔ)義模式是對(duì)詞語(yǔ)順序、距離、結(jié)果表達(dá)的綜合標(biāo)注,臨床文木一般采用半結(jié)構(gòu)化的方式組 織內(nèi)容,語(yǔ)言模式化較強(qiáng),有利于進(jìn)行語(yǔ)義模式判別,即便如此,由于臨床文本專(zhuān)業(yè)性強(qiáng),不同 專(zhuān)科和病種的語(yǔ)義模式不盡相同,進(jìn)行人工語(yǔ)義模式標(biāo)注需要一定的醫(yī)療知識(shí)背景,不同醫(yī)牛, 由于個(gè)人的醫(yī)學(xué)基礎(chǔ)和臨床經(jīng)驗(yàn)差異,標(biāo)

16、注結(jié)果也難以一致,因此,標(biāo)注前需要制定詳細(xì)的標(biāo)注 規(guī)范,并對(duì)參與人員進(jìn)行詳細(xì)培訓(xùn),在標(biāo)注的過(guò)程中還面臨著規(guī)范的不斷調(diào)整,由于以上原因, 肓接構(gòu)造臨床語(yǔ)義模式庫(kù)將會(huì)代價(jià)昂貴。木文采用有監(jiān)督學(xué)習(xí)(h抽樣算法)的方法,可以利用 少量的訓(xùn)練語(yǔ)料形成初始語(yǔ)義模式庫(kù),滿(mǎn)足一定準(zhǔn)確度要求的識(shí)別結(jié)果,從而大大降低構(gòu)建成本。 具體步驟如下:第一、基于分詞結(jié)果,針對(duì)訓(xùn)練語(yǔ)料,人工判讀形成種了模式實(shí)體;第二、將種了模式實(shí)體投入語(yǔ)義模式庫(kù),再次針對(duì)訓(xùn)練語(yǔ)料,從包含實(shí)體的句了中提取文本 模式,并對(duì)所有模式進(jìn)行評(píng)分,選擇出得分最高的若干模式加入語(yǔ)義模式庫(kù)屮;第三、迭代第二步,直到在訓(xùn)練語(yǔ)料中不再發(fā)現(xiàn)新的語(yǔ)義模式;第四、針

17、對(duì)語(yǔ)義模式庫(kù)中的語(yǔ)義模式,人工判別真?zhèn)尾⑦M(jìn)行標(biāo)注,形成正式語(yǔ)義模式庫(kù);第五、基于臨床應(yīng)用的信息模型,針對(duì)應(yīng)用語(yǔ)料進(jìn)行語(yǔ)義模式判別。結(jié)果:采用以上方法,基于六所醫(yī)院的臨床數(shù)據(jù),針對(duì)stemt病種,對(duì)照組納入600份病歷 作為訓(xùn)練語(yǔ)料,共計(jì)形成了 189種語(yǔ)義模式,并采用測(cè)試組1000份病例進(jìn)行了人工校驗(yàn),語(yǔ)義 模式判別準(zhǔn)確度達(dá)到95%o6應(yīng)用情況木文作者及其合作團(tuán)隊(duì),先后在六所合作醫(yī)院,針對(duì)六種不同種類(lèi)疾病,通過(guò)應(yīng)用“強(qiáng)”規(guī)則匹 配方法,編制完成了數(shù)據(jù)處理程序,實(shí)現(xiàn)了白由文木表達(dá)的非結(jié)構(gòu)化數(shù)據(jù)的提取、轉(zhuǎn)換和加載, 并且,通過(guò)數(shù)據(jù)分析結(jié)果的呈現(xiàn),幫助合作醫(yī)院建立了醫(yī)療服務(wù)過(guò)程小醫(yī)護(hù)人員非致死性行為缺 陷的監(jiān)測(cè)和管控體系,有效提升了醫(yī)院精細(xì)化管理的水平。參考文獻(xiàn)1張華平,高凱.大數(shù)據(jù)搜索與挖掘m.北京:科學(xué)出版社,2013:1-273.周鑫.半監(jiān)督算法在自然語(yǔ)言處

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論