![從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)轉(zhuǎn)化研究_第1頁](http://file4.renrendoc.com/view/43bc518529ed0f45260585f3f210951d/43bc518529ed0f45260585f3f210951d1.gif)
![從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)轉(zhuǎn)化研究_第2頁](http://file4.renrendoc.com/view/43bc518529ed0f45260585f3f210951d/43bc518529ed0f45260585f3f210951d2.gif)
![從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)轉(zhuǎn)化研究_第3頁](http://file4.renrendoc.com/view/43bc518529ed0f45260585f3f210951d/43bc518529ed0f45260585f3f210951d3.gif)
![從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)轉(zhuǎn)化研究_第4頁](http://file4.renrendoc.com/view/43bc518529ed0f45260585f3f210951d/43bc518529ed0f45260585f3f210951d4.gif)
![從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)轉(zhuǎn)化研究_第5頁](http://file4.renrendoc.com/view/43bc518529ed0f45260585f3f210951d/43bc518529ed0f45260585f3f210951d5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
16/16從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)轉(zhuǎn)化研究摘
要/Abstract
臨床研究中電子病例報告表(eCRF)的數(shù)據(jù)收集,傳統(tǒng)上由臨床研究協(xié)調(diào)員(CRC)閱讀電子病歷(EMR)數(shù)據(jù)將相關(guān)內(nèi)容手動錄入至電子數(shù)據(jù)采集(EDC)系統(tǒng)。為了減輕CRC的負(fù)擔(dān),目前已有研究在探索將EMR源數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換直接變?yōu)檠芯繑?shù)據(jù)集的方法。EMR中大量的非結(jié)構(gòu)化文本數(shù)據(jù)導(dǎo)致了數(shù)據(jù)提取困難,無法直接用于臨床研究。本文首先探討了國內(nèi)對于真實世界數(shù)據(jù)應(yīng)用于臨床研究數(shù)據(jù)標(biāo)準(zhǔn)化的需求及困難,開發(fā)了一種數(shù)據(jù)標(biāo)準(zhǔn)化方法。本方法可以基于EMR源數(shù)據(jù),通過數(shù)據(jù)標(biāo)準(zhǔn)化的方式自動填充臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會(CDISC)標(biāo)準(zhǔn)的eCRF,并滿足監(jiān)管部門的數(shù)據(jù)遞交要求。本方法采用了我國常見的數(shù)據(jù)標(biāo)準(zhǔn)、人工智能領(lǐng)域的自然語言處理技術(shù),以及提升數(shù)據(jù)質(zhì)量的創(chuàng)新型數(shù)據(jù)采集模式。其數(shù)據(jù)轉(zhuǎn)化過程的核心是根據(jù)最簡化的數(shù)據(jù)模型制定文本數(shù)據(jù)標(biāo)簽指南,提高了使用自然語言處理算法的效率,優(yōu)化了其與臨床數(shù)據(jù)模型的互操作性,以及輔助提取研究中所需要的標(biāo)準(zhǔn)術(shù)語庫。
Forthedatacollectionofelectroniccasereportform(eCRF)inclinicalresearch,theclinicalresearchcoordinator(CRC)traditionallyreadstheelectronicmedicalrecord(EMR)andmanuallyentersitsrelevantcontentsintotheelectronicdatacollectionsystem(EDC).InordertoreducetheburdenofCRC,methodshasbeenexploredtodirectlytransformEMRsourcedataintoaresearchdatasetthroughdatastandardizationandtransformation.ThelargeamountofunstructuredtextdatainEMRleadstodifficultyindataextraction,whichpreventsdatafrombeingdirectlyusedinclinicalresearch.Thisstudydiscussesthedomesticneedsanddifficultiesofreal-worlddatastandardization,anddevelopsadatastandardizationframeworktosolvethedifficulties.ThedatastandardizationframeworkdevelopedcanbeusedtoautomaticallyfilltheeCRFsbasedontheCDISCstandardusingEMRsourcedatawhilesatisfyingregulatoryrequirementsfordatasubmissionauthorities.TheframeworkconsidersChina'scommondatastandards,naturallanguageprocessingtechnologyinthefieldofartificialintelligence,andinnovativedataacquisitionmodetoimprovedataquality.Thecoreaspectsofthedatatransformationprocessinthestandardizationframeworkincludetheformulationoftextdatalabelguidelinesaccordingtothesimpledatamodels,improvementoftheefficiencyofnaturallanguageprocessingalgorithms,optimizationofinteroperabilitywithclinicaldatamodelsandcaptureofstandardterminologiesusedinclinicalresearch.
關(guān)鍵詞/Keywords
真實世界數(shù)據(jù);臨床研究源數(shù)據(jù)采集;數(shù)據(jù)標(biāo)準(zhǔn)化;電子源數(shù)據(jù);符合監(jiān)管提交標(biāo)準(zhǔn)
real-worlddata;collectionofclinicalresearchsourcedata;datastandardization;electronicsourcedata;compliacewithregulatorysubmissionstandard
01、研究背景
真實世界數(shù)據(jù)(real-worlddata,RWD)是指來源于日常收集的各種與患者健康狀況和(或)診療及保健有關(guān)的數(shù)據(jù)[1-5]。目前,在我國與真實世界數(shù)據(jù)源[如電子病歷(electronicmedicalrecords,EMR)數(shù)據(jù)]相關(guān)的數(shù)據(jù)標(biāo)準(zhǔn)已逐漸從臨床文檔的基本指南演變?yōu)楦鼮橥ㄓ玫呐R床數(shù)據(jù)模型。如果不從根本上改進(jìn)閱讀EMR的功能、提高臨床診療的質(zhì)量,對EMR進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化將毫無意義。因此,實施真實世界數(shù)據(jù)標(biāo)準(zhǔn),通常是使用更標(biāo)準(zhǔn)化的數(shù)據(jù)收集方法的綜合討論結(jié)果。該方法首先要在滿足常規(guī)臨床診療數(shù)據(jù)收集要求的基礎(chǔ)上,通過提高數(shù)據(jù)收集的質(zhì)量,更好地利用真實世界數(shù)據(jù),例如將其用于臨床研究和臨床決策支持。
2009年12月,原衛(wèi)生部、國家中醫(yī)藥管理局發(fā)布《電子病歷基本架構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn)(試行)》[6],考慮到中西醫(yī)結(jié)合的病歷書寫基本規(guī)范和現(xiàn)有EMR的信息主要來源,采用目前衛(wèi)生領(lǐng)域已有的國際、國內(nèi)普遍應(yīng)用的成熟標(biāo)準(zhǔn),構(gòu)建適用于滿足醫(yī)療衛(wèi)生機構(gòu)間臨床診療信息共享的數(shù)據(jù)集以及共享文檔標(biāo)準(zhǔn),推廣及評價數(shù)據(jù)標(biāo)準(zhǔn)的實際應(yīng)用。2018年,國家衛(wèi)生健康委辦公廳發(fā)布《電子病歷系統(tǒng)應(yīng)用水平分級評價標(biāo)準(zhǔn)(試行)》[7]并實施評價醫(yī)院系統(tǒng)的分級,促使各醫(yī)院均加強了醫(yī)院系統(tǒng)功能。政策發(fā)布的目的是為使2020年所有3級醫(yī)院達(dá)到分級評價4級以上(全院信息共享、初級醫(yī)療決策支持);2級醫(yī)院達(dá)到分級評價3級以上(部門間數(shù)據(jù)交換)。目前,多數(shù)醫(yī)院信息系統(tǒng)已擁有基礎(chǔ)的全院信息共享能力。2020年8月,國家衛(wèi)生健康委統(tǒng)計信息中心發(fā)布了《國家醫(yī)療健康信息醫(yī)院信息互聯(lián)互通標(biāo)準(zhǔn)化成熟度測評方案(2020年版)》[8],更詳細(xì)地評價了醫(yī)院平臺互聯(lián)互通標(biāo)準(zhǔn)化成熟度。互聯(lián)互通的評價標(biāo)準(zhǔn),以提到的EMR數(shù)據(jù)集標(biāo)準(zhǔn)轉(zhuǎn)化成HL7臨床文檔結(jié)構(gòu)(CDA)標(biāo)準(zhǔn)的電子病例共享文檔標(biāo)準(zhǔn)為主,而HL7CDA是以HL7RIM作為主要支撐的數(shù)據(jù)模型[9-10]。
如果EMR數(shù)據(jù)變得標(biāo)準(zhǔn)化且更容易獲取,臨床研究的未來將受益匪淺。然而,由于完全通過使用標(biāo)準(zhǔn)化數(shù)據(jù)元素收集數(shù)據(jù)存在一定局限性,為了充分利用EMR,需要考慮結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。標(biāo)準(zhǔn)化數(shù)據(jù)元素的使用應(yīng)限于特定的用例,例如只是匯總住院患者主頁的患者病例報告,而不是擴展到所有數(shù)據(jù)元素。且標(biāo)準(zhǔn)化數(shù)據(jù)元素不適合醫(yī)生在臨床診療期間描述其完整的思維過程,通常缺乏醫(yī)生文本匯錄所需要的細(xì)節(jié)顆粒度以及臨床判斷中的推理過程。一般來說,通過使用越來越具體的數(shù)據(jù)元素或特定的詞匯進(jìn)行標(biāo)準(zhǔn)化,將減少用于描述醫(yī)療活動的思維范圍,并增加選擇正確選項所需的人力成本。因此,標(biāo)準(zhǔn)化數(shù)據(jù)的工作最好由能夠更快地適應(yīng)新數(shù)據(jù)模型和標(biāo)準(zhǔn)詞匯表的算法來處理,而不是對生成源數(shù)據(jù)的人員進(jìn)行過多培訓(xùn)。
如何提高從文本記錄中提取臨床研究數(shù)據(jù)的能力,將可能是未來數(shù)據(jù)標(biāo)準(zhǔn)化的潛在研究熱點。①與基于系統(tǒng)改變整個數(shù)據(jù)結(jié)構(gòu)的更改相比,改進(jìn)文本輸入的建議更容易實施。②將數(shù)據(jù)模型約束從源數(shù)據(jù)結(jié)構(gòu)中分離出來可能會激發(fā)更簡單的數(shù)據(jù)建模方法,而不必采用通用數(shù)據(jù)模型,如觀察健康數(shù)據(jù)科學(xué)和信息學(xué)OMOP通用數(shù)據(jù)模型(OMOPCDM)。構(gòu)建包含所有類型研究模型所付出的努力,將可能因無法實施和審核這些模型情況而失敗,或?qū)е率褂盟惴ㄌ崛∷钄?shù)據(jù)的效率低下。因此,模型就像術(shù)語一樣,需要具備關(guān)注并適應(yīng)不同研究項目的能力。③可以更有效地捕獲新的思維過程或常用的醫(yī)學(xué)術(shù)語,并用于快速改進(jìn)現(xiàn)有的數(shù)據(jù)模型和術(shù)語庫。④自然語言處理(naturelanguageprocessing,NLP)算法正在迅速發(fā)展,與人工相比,其可以更快地提取數(shù)據(jù)和數(shù)據(jù)上下文關(guān)系。本文旨在探索臨床研究中非結(jié)構(gòu)化文本數(shù)據(jù)的電子來源(eSource)模式,并將開發(fā)一個從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)化方法,用于根據(jù)臨床數(shù)據(jù)交換標(biāo)準(zhǔn)協(xié)會(CDISC)標(biāo)準(zhǔn)填寫病例報告表,并滿足數(shù)據(jù)收集中的監(jiān)管和可追溯性要求??蚣苤袘?yīng)用了我國常見的數(shù)據(jù)標(biāo)準(zhǔn)、人工智能領(lǐng)域的自然語言處理技術(shù),以及提升數(shù)據(jù)質(zhì)量的創(chuàng)新型數(shù)據(jù)采集模式。
02、從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)化過程的概述
將真實世界數(shù)據(jù)用于臨床研究,理想的方案是能直接從醫(yī)療機構(gòu)中的EMR捕獲源數(shù)據(jù)并將其傳輸?shù)脚R床研究電子病例報告表(electroniccasereportform,eCRF)的過程,真正實現(xiàn)電子數(shù)據(jù)采集(electronicdatacapture,EDC)系統(tǒng)。即需要研發(fā)一種能根據(jù)臨床研究方案中有關(guān)研究數(shù)據(jù)采集要求,在真實醫(yī)療環(huán)境中完成電子源數(shù)據(jù)記錄(eSourcerecord,ESR)的工具。其功能涵蓋臨床研究全流程,主要包括了源數(shù)據(jù)采集、數(shù)據(jù)提取和治理以及EDC和EMR對接。臨床醫(yī)師根據(jù)研究方案制定符合臨床習(xí)慣的病歷書寫規(guī)則,通過語音輸入和病史問診的病歷預(yù)填充等功能可以更高效地完成病歷記錄,利用微信公眾號等院外隨訪功能可以方便地收集院外數(shù)據(jù)。ESR可以實時自動從完成的病歷中抓取數(shù)據(jù)填充到eCRF中,同時也支持對源數(shù)據(jù)進(jìn)行溯源查看。ESR充分考慮了源數(shù)據(jù)來源的多樣性、數(shù)據(jù)互操作性和數(shù)據(jù)標(biāo)準(zhǔn)化的挑戰(zhàn)。通過創(chuàng)新性地優(yōu)化臨床研究的源數(shù)據(jù)采集過程,并遵循電子源數(shù)據(jù)要求理念和藥物臨床試驗質(zhì)量管理規(guī)范(GCP)原則設(shè)計,ESR系統(tǒng)還應(yīng)滿足臨床研究數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)(ALCOA+CCEA原則),同時提高臨床醫(yī)師撰寫EMR的工作效率。通過對接EMR和EDC,ESR可以靈活應(yīng)對當(dāng)前醫(yī)療信息水平現(xiàn)狀,實施更簡單且易于落地推廣,具有更高的規(guī)范性和可持續(xù)性。為了更好地將真實世界數(shù)據(jù)應(yīng)用于臨床研究,ESR系統(tǒng)必須與EMR和EDC系統(tǒng)具有互操作性,并滿足有關(guān)數(shù)據(jù)可追溯性的法規(guī)要求[11]。
為加強系統(tǒng)之間的互操作性,在ESR系統(tǒng)內(nèi)部設(shè)置了面向不同臨床研究角色的工作界面。醫(yī)生可以選擇使用各自醫(yī)院的EMR系統(tǒng),或直接使用ESR系統(tǒng)內(nèi)的電子病歷記錄模板,即ESR和EMR。此時,若醫(yī)生希望將數(shù)據(jù)導(dǎo)出至各自的EMR系統(tǒng),ESR系統(tǒng)也可實現(xiàn)回傳標(biāo)準(zhǔn)化后的EMR文件。
此外,ESR系統(tǒng)還考慮了臨床研究開展過程中臨床研究協(xié)調(diào)員(clinicalresearchcoordinator,CRC)記錄CRF的工作。ESR系統(tǒng)能夠從EDC系統(tǒng)中檢索CDISC操作數(shù)據(jù)模型(CDISCODM)表單并直接展示源數(shù)據(jù)。在數(shù)據(jù)標(biāo)準(zhǔn)化的過程完成后,CRC能夠?qū)徍藛蝹€表格的預(yù)填數(shù)據(jù)是否正確,并在簽署確認(rèn)后將CRF發(fā)至EDC系統(tǒng)。這樣,數(shù)據(jù)的可追溯性即可通過ESR系統(tǒng)得到保證,因為其記錄了整個數(shù)據(jù)標(biāo)準(zhǔn)化過程的軌跡,并能輔助CRC對每個CRF字段在原始文本里的記錄進(jìn)行溯源。從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標(biāo)準(zhǔn)化流程如圖1所示,通過對原始文本進(jìn)行分割和標(biāo)準(zhǔn)化,最終生成臨床研究數(shù)據(jù)集。
03、從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)化過程的實施
3.1EDC和EMR分別發(fā)送CRF和患者臨床表單至ESR系統(tǒng)
eSource流程主要涉及3個系統(tǒng):EMR、ESR和EDC系統(tǒng)。EDC系統(tǒng)以CDISCODM文件的形式傳送研究數(shù)據(jù)集和數(shù)據(jù)格式的要求,EMR系統(tǒng)則提供所需的患者電子病歷。ESR系統(tǒng)的EMR方將負(fù)責(zé)電子病歷的注釋,而ESR系統(tǒng)的EDC方將負(fù)責(zé)填寫CRF并生成可追溯的源數(shù)據(jù)以便CRC審核。
申辦方首先通過EDC系統(tǒng)將CRF以文件形式發(fā)送至ESR系統(tǒng),該文件可在ESR系統(tǒng)中呈現(xiàn)。一旦有患者入組,EMR系統(tǒng)可將受試者在研究開始后的所有電子病歷發(fā)送至ESR系統(tǒng)。
3.2研究數(shù)據(jù)集的建模及標(biāo)簽生成
建模前須充分了解研究數(shù)據(jù)集的變量類型及其特征,之后才能同時對研究數(shù)據(jù)集中每個變量的域及屬性進(jìn)行建模。通常,多個CDISC域可以在更高水平進(jìn)行合并,且這些域往往包含相同的屬性。
建模的第1步是使用類似于比OMOPCDM的定義更為廣泛的標(biāo)準(zhǔn),包括醫(yī)療狀況發(fā)生(conditionoccurrence)、操作發(fā)生(procedureoccurrence)、藥物暴露(exposureoccurrence)等,相當(dāng)于對分類更為詳細(xì)的CDISC域進(jìn)行了整合[12]。目的是提高標(biāo)簽的提取效率。
第2步是將屬性與域分開建模,屬性的建模不受域的限制,以避免出現(xiàn)重復(fù)使用同一屬性描述不同域的現(xiàn)象,減少標(biāo)簽數(shù)量。本研究屬性是在臨床數(shù)據(jù)獲取標(biāo)準(zhǔn)(CDASH)數(shù)據(jù)元素的類型指導(dǎo)下進(jìn)行建模。例如手術(shù)用藥(AG)和伴隨用藥(CM)中的劑量和頻率(DOSFRQ)在CDASH中建模為AG.DOSFRQ和CM.DOSFRQ,屬性DOSFRQ是公共屬性,將成為通用數(shù)據(jù)元素(commondataelements,CDE)的屬性標(biāo)簽。
第3步是標(biāo)記并提取章節(jié)標(biāo)題,以明確文本的基本結(jié)構(gòu)。目前,我國的EMR還未能普及HL7CDA類標(biāo)準(zhǔn)文檔,最主要的原因是EMR很多都是由非結(jié)構(gòu)化的沒有明確文本分段的文本數(shù)據(jù)組成。如果不對章節(jié)進(jìn)行結(jié)構(gòu)化,數(shù)據(jù)可能會丟失重要的背景信息,最終導(dǎo)致標(biāo)簽錯誤、數(shù)據(jù)質(zhì)量下降。
3.3模型訓(xùn)練和實體及實體間關(guān)系的提取
醫(yī)學(xué)專家和研究人員根據(jù)建模中使用的標(biāo)簽編寫了標(biāo)簽指南。標(biāo)簽也可以稱為實體。標(biāo)簽注釋工作人員由2名接受過專業(yè)訓(xùn)練的研究人員組成,使用編寫好的標(biāo)簽指南對EMR進(jìn)行注釋,包括每個域名標(biāo)簽(如藥物名稱)、屬性標(biāo)簽(如劑量和頻率),以及域名稱與屬性之間的實體關(guān)系。域名稱與屬性之間的實體關(guān)系僅限制單向關(guān)系,如從域名至屬性或是從域名到其他域名稱,實體之間不能使用雙向鏈接。使用標(biāo)簽、標(biāo)簽位置和標(biāo)簽之間的關(guān)系訓(xùn)練NLP模型??焖贅?biāo)記方法是通過反復(fù)進(jìn)行以下操作:①標(biāo)記總樣本量的10%;②用樣本訓(xùn)練NLP模型;③預(yù)先標(biāo)注下一個10%的數(shù)據(jù)并進(jìn)行人工修改。當(dāng)NLP模型被認(rèn)為足夠精準(zhǔn)時迭代過程停止,可以將模型應(yīng)用在剩余的數(shù)據(jù)提取中。
在實體抽取方面,采用雙向變形編碼器(BERT)+雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(BILSTM)+條件隨機場(CRF)的命名實體識別(namedentityrecognitionmodel)[13]。實體關(guān)系抽取方面,采用生物醫(yī)學(xué)文本挖掘的雙向變形編碼器(BIO-BERT)的關(guān)系抽取模型,監(jiān)督式學(xué)習(xí)(supervisedlearning),并使用標(biāo)注的實體關(guān)系進(jìn)行模型優(yōu)化[14]。
3.4生成研究專用術(shù)語庫
研究專用術(shù)語庫是指標(biāo)簽中實際提取得到的術(shù)語和標(biāo)準(zhǔn)術(shù)語之間的映射庫。建立專病領(lǐng)域研究專用術(shù)語庫,能夠同時滿足相關(guān)領(lǐng)域內(nèi)其他研究的術(shù)語標(biāo)準(zhǔn)化需求。建立研究專用術(shù)語庫需要有提取到的標(biāo)簽、CDISCODM特定術(shù)語表(codelist)以及國際標(biāo)準(zhǔn)術(shù)語[如《國際疾病分類》(第10版)(ICD-10)]。
首先將標(biāo)簽中的提取術(shù)語和CDISC代碼值整合并進(jìn)行匹配。術(shù)語匹配是通過將通用標(biāo)準(zhǔn)術(shù)語庫(如ICD-10)使用OpakiBM25的推薦算法算出每個術(shù)語中單詞的分?jǐn)?shù)、然后使用提取術(shù)語作為搜索術(shù)語、找到分?jǐn)?shù)最高的標(biāo)準(zhǔn)術(shù)語[15]。匹配完成后,每個標(biāo)準(zhǔn)術(shù)語將作為一個組,每個單獨的組將由醫(yī)學(xué)專家在術(shù)語編輯工具內(nèi)審核,對于標(biāo)準(zhǔn)術(shù)語匹配錯誤的標(biāo)簽提取術(shù)語,需要人工手動重新分配標(biāo)準(zhǔn)術(shù)語[16]。研究專用術(shù)語庫最終將生成一個詞匯表,包括了標(biāo)簽、標(biāo)準(zhǔn)提取術(shù)語、標(biāo)準(zhǔn)術(shù)語代碼、標(biāo)準(zhǔn)術(shù)語代碼系統(tǒng)、原始術(shù)語、原始術(shù)語代碼和原始術(shù)語代碼系統(tǒng),允許存儲可用于填寫CRF的預(yù)先指定CDISC代碼和值。對于標(biāo)簽不是文本類型的數(shù)據(jù),例如日期或數(shù)值標(biāo)簽,將會制定單獨的表格用于記錄每個標(biāo)簽所需的標(biāo)準(zhǔn)數(shù)據(jù)格式,這些格式由CDISCODM文件預(yù)先指定或根據(jù)數(shù)據(jù)類型自動分配。
3.5實體提取后,在填充CRF之前的規(guī)范化規(guī)則
NLP模型的輸出主要有2個表,即所有提取出的標(biāo)簽值列表(實體表)和實體之間的關(guān)系列表(實體關(guān)系表)。
第1項任務(wù)是使用特定研究術(shù)語庫,將每個實體標(biāo)簽標(biāo)記標(biāo)準(zhǔn)值和標(biāo)準(zhǔn)標(biāo)簽類型。實體表的數(shù)據(jù)元素,包括實體ID、實體值、實體值存在文本段的位置,實體標(biāo)簽類型、實體標(biāo)準(zhǔn)代碼、實體標(biāo)準(zhǔn)值、標(biāo)準(zhǔn)標(biāo)簽類型和跟蹤數(shù)據(jù)。跟蹤數(shù)據(jù)包括患者ID、醫(yī)療報告ID、文本段ID和記錄日期。
第2項任務(wù)是將實體關(guān)系表轉(zhuǎn)換為基于域的單條記錄。先將關(guān)系表轉(zhuǎn)換為各自的數(shù)據(jù)籃,每個數(shù)據(jù)籃都須指定數(shù)據(jù)籃ID和主實體ID。數(shù)據(jù)籃僅限于實體間的一階關(guān)系,這意味著如果存在實體A→實體B→實體C的關(guān)系,數(shù)據(jù)籃將只包括實體A→實體B,以防止數(shù)據(jù)籃中存在復(fù)雜的嵌套關(guān)系??赡軙嬖谝环N包含多個主實體的數(shù)據(jù)籃的情況,原因是其中1個主實體是另1個主實體的適應(yīng)癥,例如1個疾病名稱是藥物名稱實體的適應(yīng)癥(圖2)。相應(yīng)的方法是將對所有主實體預(yù)先做網(wǎng)絡(luò)分析(networkanalysis)、將對于存在關(guān)系的主實體,標(biāo)注相應(yīng)的主實體鏈接ID,并將這種關(guān)系添加到實體關(guān)系表中。
第3項任務(wù)是合并相同的數(shù)據(jù)籃,使得患者的每個主實體有且只有1條記錄。EMR可能會重復(fù)提及同一個主實體的不同細(xì)節(jié),例如可能會2次提及相似的暴露名稱,且第2次提及的內(nèi)容可能包含更多有關(guān)劑量和頻率的細(xì)節(jié)。不同數(shù)據(jù)籃合并不能僅依靠主實體標(biāo)準(zhǔn)代碼和醫(yī)療報告ID的匹配,例如左眼眼壓檢查和右眼眼壓檢查的數(shù)據(jù)籃無法合并。因此,需要為每個主要的數(shù)據(jù)域(域標(biāo)簽)分別編寫規(guī)則。只有檢查名稱(主實體)和位置實體(屬性實體)以及醫(yī)療報告ID都匹配才能合并數(shù)據(jù)籃。數(shù)據(jù)籃的合并可能出現(xiàn)以下4種情況:①信息不足:是指數(shù)據(jù)籃無法體現(xiàn)其唯一性。②不同身份信息:是指在有支持不同數(shù)據(jù)籃合并的屬性實體。③沖突信息:是指可以對數(shù)據(jù)籃進(jìn)行合并但有些數(shù)據(jù)互相沖突。④可確認(rèn)信息:是指可合并的數(shù)據(jù)籃間的數(shù)據(jù)存在不同但不屬于沖突。以上4種情況中,只有可確認(rèn)信息和不同身份信息下的數(shù)據(jù)籃能夠合并,并生成最終的事實表。事實表由事實ID、主要實體ID、主要實體標(biāo)準(zhǔn)標(biāo)簽類型、實體ID、實體標(biāo)簽類型、實體標(biāo)準(zhǔn)值和跟蹤數(shù)據(jù)(醫(yī)療報告ID和章節(jié)文本位置)的元素組成。最后,事實表中根據(jù)主要實體標(biāo)準(zhǔn)標(biāo)簽類型和實體標(biāo)簽類型映射到適當(dāng)?shù)腃DISCCDASH數(shù)據(jù)元素中,用于CRF表的預(yù)填充。
04、討
論
4.1互操作性方面的注意事項
改進(jìn)系統(tǒng)間的互操作性是實現(xiàn)RWD標(biāo)準(zhǔn)化的關(guān)鍵。從既往研究的經(jīng)驗來看,確保各系統(tǒng)間傳達(dá)數(shù)據(jù)的意義一致的同時簡化審核過程,就可以實現(xiàn)互操作性。
在本研究中,EMR和EDC系統(tǒng)通過元數(shù)據(jù)標(biāo)準(zhǔn)(如HL7CDA和CDISCODM)傳遞數(shù)據(jù)。現(xiàn)階段最大的障礙是醫(yī)院病歷系統(tǒng)供應(yīng)商早在制定行業(yè)標(biāo)準(zhǔn)之前就建立了自己的系統(tǒng),導(dǎo)致缺乏可用于數(shù)據(jù)交換的標(biāo)準(zhǔn)。在我國,雖然監(jiān)管機構(gòu)一直致力于推進(jìn)醫(yī)院數(shù)據(jù)互聯(lián)互通,通過對醫(yī)院數(shù)據(jù)共享能力進(jìn)行評級等方式,以期提高其運用標(biāo)準(zhǔn)[17]。但由于醫(yī)院間數(shù)據(jù)共享活動并不活躍,HL7CDA標(biāo)準(zhǔn)尚未得到廣泛應(yīng)用。另一方面,CDISCODM在EDC系統(tǒng)中作為表示CRF的方式得到了很好的實現(xiàn),但由于缺乏要求,可能會偏離CDASH標(biāo)準(zhǔn)命名方法對其數(shù)據(jù)字段的嚴(yán)格使用。ESR平臺已考慮到這些限制,特別是對于EMR數(shù)據(jù),通過標(biāo)記和提取每個報告中的章節(jié)完成基本文檔的結(jié)構(gòu)化,建立EMR文檔所需要的標(biāo)準(zhǔn)HL7形式的元數(shù)據(jù)。在本研究中,不需要對CDISCODM文件進(jìn)一步標(biāo)準(zhǔn)化,但未來希望可以通過NLP使用CDASH標(biāo)準(zhǔn)對未標(biāo)準(zhǔn)化的CRF進(jìn)行注釋。
為了確認(rèn)數(shù)據(jù)意義是否準(zhǔn)確、是否能被研究團隊理解,本研究關(guān)注了使CRC能夠方便審核每個CRF表格、提供可視化的溯源界面、能簡單在電子文件上簽字并發(fā)送回EDC系統(tǒng)。因為系統(tǒng)記錄了整個數(shù)據(jù)標(biāo)準(zhǔn)化過程,可追溯性可以通過ESR平臺得到保證,并允許CRC為每個CRF字段顯示是從臨床文檔中何處提取的。目前,本課題組正在致力于通過將臨床研究助理(CRA)和數(shù)據(jù)管理者(DM)的質(zhì)疑傳回ESR系統(tǒng),以使研究團隊能夠?qū)υ磾?shù)據(jù)或填充的數(shù)據(jù)提出疑問,從而更好地簡化數(shù)據(jù)審核流程。
4.2臨床研究數(shù)據(jù)建模注意事項
在研究標(biāo)簽的開發(fā)過程中,通過對主要實體(域名)進(jìn)行分類以及重復(fù)利用屬性實體來減少標(biāo)簽數(shù)量。采用這種簡單模型能使NLP在提取臨床文檔實體時更加高效。主要實體(域名)使用定義更廣泛的分類不僅增加了標(biāo)簽的通用性,也可通過研究專用術(shù)語庫保留原始提取術(shù)語值的特異性,以確保不會丟失原始重要信息。未來還可以從觀測指標(biāo)標(biāo)識符邏輯命名與編碼系統(tǒng)(LOINC)和臨床醫(yī)學(xué)系統(tǒng)術(shù)語(SNOMED-CT)等術(shù)語系統(tǒng)中學(xué)習(xí)更多關(guān)于不同領(lǐng)域數(shù)據(jù)辨認(rèn)實體獨特屬性的方法。由于ICD-11等標(biāo)準(zhǔn)術(shù)語的較新版本通過選擇多個屬性來識別獨特的領(lǐng)域概
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三農(nóng)產(chǎn)品品質(zhì)管理方案
- 數(shù)據(jù)挖掘技術(shù)在業(yè)務(wù)智能化中的應(yīng)用作業(yè)指導(dǎo)書
- 2025年青海貨運從業(yè)資格證考試模擬試題及答案大全解析
- 2025年河北貨運從業(yè)資格證考試題技巧
- 2025年保山a2貨運從業(yè)資格證模擬考試
- 2025年遼寧貨運從業(yè)資格證考試資料
- 2025年伊春c1貨運上崗證模擬考試
- 2024年高中語文第四單元第13課宇宙的邊疆課時優(yōu)案1含解析新人教版必修3
- 粵教版道德與法治九年級上冊2.1.2《政府社會治理的主要職責(zé)》聽課評課記錄
- 初中班主任教師工作計劃
- 2025年度數(shù)據(jù)備份與恢復(fù)合法委托服務(wù)合同
- 《證券法培訓(xùn)》課件
- 2024年鐵嶺衛(wèi)生職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
- 大班美術(shù)活動:傳統(tǒng)的節(jié)日
- 鞋類代理合作協(xié)議
- 防滑防摔倒安全教育
- 乳腺癌課件教學(xué)課件
- 連續(xù)性腎替代治療抗菌藥物劑量調(diào)整專家共識(2024年版)解讀
- 山西省2024年中考物理試題(含答案)
- 2024年廣西區(qū)公務(wù)員錄用考試《行測》真題及答案解析
- 健康體檢基礎(chǔ)知識培訓(xùn)
評論
0/150
提交評論