2024罕見病表型術(shù)語識別及診斷知識圖譜構(gòu)建技術(shù)要求_第1頁
2024罕見病表型術(shù)語識別及診斷知識圖譜構(gòu)建技術(shù)要求_第2頁
2024罕見病表型術(shù)語識別及診斷知識圖譜構(gòu)建技術(shù)要求_第3頁
2024罕見病表型術(shù)語識別及診斷知識圖譜構(gòu)建技術(shù)要求_第4頁
2024罕見病表型術(shù)語識別及診斷知識圖譜構(gòu)建技術(shù)要求_第5頁
免費預(yù)覽已結(jié)束,剩余2頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

目次前言 II1范圍 12規(guī)范性引用文件 13術(shù)語和定義 14縮略語 15概述 16罕見病表型術(shù)語識別 2數(shù)據(jù)收集和整理 2目次前言 II1范圍 12規(guī)范性引用文件 13術(shù)語和定義 14縮略語 15概述 16罕見病表型術(shù)語識別 2數(shù)據(jù)收集和整理 2術(shù)語標準化 2實體識別和關(guān)系抽取 2數(shù)據(jù)標注和驗證 2罕見病診斷知識圖譜構(gòu)建技術(shù)要求 2概述 2知識獲取 2知識抽取 3知識融合 3知識建模 3知識評估 4知識推理 4知識存儲 4安全性要求 578I罕見病表型術(shù)語識別及診斷知識圖譜構(gòu)建技術(shù)要求1 范圍本文件適用于罕見病表型術(shù)語識別及診斷知識圖譜系統(tǒng)的構(gòu)建。2 規(guī)范性引用文件(包括所有的修改單適用于本文件。GB/T22239 信息安全技術(shù) 網(wǎng)絡(luò)安全等級保護基本要求GB/T35273 信息安全技術(shù) 個人信息安全規(guī)范罕見病表型術(shù)語識別及診斷知識圖譜構(gòu)建技術(shù)要求1 范圍本文件適用于罕見病表型術(shù)語識別及診斷知識圖譜系統(tǒng)的構(gòu)建。2 規(guī)范性引用文件(包括所有的修改單適用于本文件。GB/T22239 信息安全技術(shù) 網(wǎng)絡(luò)安全等級保護基本要求GB/T35273 信息安全技術(shù) 個人信息安全規(guī)范3 術(shù)語和定義下列術(shù)語和定義適用于本文件。知識圖譜 knowledgegraph表型術(shù)語 PhenotypeOntology表型術(shù)語被定義為一些臨床觀察到的,偏離正常形態(tài)、功能、生理或者行為的描述。人類表型術(shù)語HumanPhenotypeOntology,HPO4 縮略語LHS 學(xué)習(xí)型健康醫(yī)療系統(tǒng) LearningHealthSystemRDF 資源描述框架 ResourceDescriptionFramework5 概述應(yīng)針對檢驗、檢查等結(jié)構(gòu)化數(shù)據(jù)識別HPO表型術(shù)語的判斷邏輯規(guī)則,以及在電子病歷(EMR)中的自然語言處理程序(NLP),以二者為基礎(chǔ)從EMR中識別表型術(shù)語,并結(jié)合OMIM、孤兒院等罕見病知識庫,1續(xù)獲得協(xié)作網(wǎng)內(nèi)罕見病確診病例后,通過LHS等理念進一步完善診斷知識圖譜。6 罕見病表型術(shù)語識別數(shù)據(jù)收集和整理EMRHPO表型術(shù)語。術(shù)語標準化應(yīng)對罕見病相關(guān)的術(shù)語和表達進行標準化。實體識別和關(guān)系抽取應(yīng)設(shè)計整合基于詞典及機器學(xué)習(xí)的NLP數(shù)據(jù)標注和驗證應(yīng)對識別和抽取的結(jié)果進行人工標注和驗證,以確保結(jié)果的準確性和可靠性。標注人員應(yīng)具備相關(guān)醫(yī)學(xué)知識,能夠正確理解和標注罕見病表型術(shù)語。續(xù)獲得協(xié)作網(wǎng)內(nèi)罕見病確診病例后,通過LHS等理念進一步完善診斷知識圖譜。6 罕見病表型術(shù)語識別數(shù)據(jù)收集和整理EMRHPO表型術(shù)語。術(shù)語標準化應(yīng)對罕見病相關(guān)的術(shù)語和表達進行標準化。實體識別和關(guān)系抽取應(yīng)設(shè)計整合基于詞典及機器學(xué)習(xí)的NLP數(shù)據(jù)標注和驗證應(yīng)對識別和抽取的結(jié)果進行人工標注和驗證,以確保結(jié)果的準確性和可靠性。標注人員應(yīng)具備相關(guān)醫(yī)學(xué)知識,能夠正確理解和標注罕見病表型術(shù)語。EMR,設(shè)計從結(jié)構(gòu)化數(shù)據(jù)中抽取語義一致的表型術(shù)語算法。7 罕見病診斷知識圖譜構(gòu)建技術(shù)要求概述構(gòu)建針對檢驗、檢查等結(jié)構(gòu)化數(shù)據(jù)識別HPO表型的邏輯判斷規(guī)則以及自然語言處理程序,以二者為基礎(chǔ)從EMR中識別表型術(shù)語,并結(jié)合OMIM、Orphanet等罕見病知識庫,通過疾病-表型-權(quán)重三元組關(guān)聯(lián)分析,形成罕見病診斷語義知識圖譜。總技術(shù)路線見圖1。圖1 總技術(shù)路線圖知識獲取2知識獲取階段應(yīng)明確知識圖譜構(gòu)建的數(shù)據(jù)來源,針對不同的數(shù)據(jù)來源制定相應(yīng)的獲取策略并進行獲取,做好后續(xù)構(gòu)建流程的數(shù)據(jù)準備。知識獲取包括知識采集和知識導(dǎo)入。對知識獲取階段的技術(shù)要求如下:——應(yīng)能從協(xié)作網(wǎng)異構(gòu)EMR中全面、準確識別HPO表型術(shù)語;——應(yīng)明確構(gòu)建知識圖譜所需數(shù)據(jù)的來源,如文獻、書籍等非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)、圖像、語音、視頻等非文本數(shù)據(jù)等;——對于組織內(nèi)的內(nèi)部數(shù)據(jù),應(yīng)對數(shù)據(jù)進行脫敏轉(zhuǎn)換后進行使用;——對于互聯(lián)網(wǎng)數(shù)據(jù),應(yīng)利用爬蟲工具或自行開發(fā)爬蟲程序爬取數(shù)據(jù),并經(jīng)過數(shù)據(jù)解析、清洗后形成數(shù)據(jù)集;——對于組織外的合作伙伴數(shù)據(jù),應(yīng)通過接口獲取或者通過數(shù)據(jù)文件的傳送獲取數(shù)據(jù);——應(yīng)將獲取到的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫或存儲中,以用于后續(xù)的分析。知識獲取階段應(yīng)明確知識圖譜構(gòu)建的數(shù)據(jù)來源,針對不同的數(shù)據(jù)來源制定相應(yīng)的獲取策略并進行獲取,做好后續(xù)構(gòu)建流程的數(shù)據(jù)準備。知識獲取包括知識采集和知識導(dǎo)入。對知識獲取階段的技術(shù)要求如下:——應(yīng)能從協(xié)作網(wǎng)異構(gòu)EMR中全面、準確識別HPO表型術(shù)語;——應(yīng)明確構(gòu)建知識圖譜所需數(shù)據(jù)的來源,如文獻、書籍等非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)、圖像、語音、視頻等非文本數(shù)據(jù)等;——對于組織內(nèi)的內(nèi)部數(shù)據(jù),應(yīng)對數(shù)據(jù)進行脫敏轉(zhuǎn)換后進行使用;——對于互聯(lián)網(wǎng)數(shù)據(jù),應(yīng)利用爬蟲工具或自行開發(fā)爬蟲程序爬取數(shù)據(jù),并經(jīng)過數(shù)據(jù)解析、清洗后形成數(shù)據(jù)集;——對于組織外的合作伙伴數(shù)據(jù),應(yīng)通過接口獲取或者通過數(shù)據(jù)文件的傳送獲取數(shù)據(jù);——應(yīng)將獲取到的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫或存儲中,以用于后續(xù)的分析。知識抽取知識抽取階段應(yīng)將非結(jié)構(gòu)化或半結(jié)構(gòu)化的原始數(shù)據(jù)抽取成圖譜標準知識,方便圖譜高效地進行知識構(gòu)建,知識抽取包括實體抽取、事件抽取、屬性挖掘和知識標化等。對知識抽取階段的技術(shù)要求如下:——應(yīng)能針對協(xié)作網(wǎng)內(nèi)異構(gòu)的EMR,設(shè)計從結(jié)構(gòu)化數(shù)據(jù)中抽取語義一致的表型術(shù)語算法;OCRNLP——應(yīng)支持通過圖譜的模式建模能力將業(yè)務(wù)領(lǐng)域知識抽象成圖譜的實體、關(guān)系、屬性、約束等;NLP——宜支持通過有限配置構(gòu)建事件抽取服務(wù),并將抽取結(jié)果寫入圖譜;——應(yīng)支持從不同信息源中采集特定實體的屬性信息。知識融合對知識融合階段的技術(shù)要求如下:——應(yīng)能對權(quán)威罕見病診斷知識庫與協(xié)作網(wǎng)內(nèi)多家醫(yī)院罕見病病例庫進行持續(xù)知識整合;——在同構(gòu)環(huán)境下,應(yīng)支持每個實體在全局有唯一實例,如通過提供系統(tǒng)插件以及搜索引擎、圖查詢、實體相似度等能力,實現(xiàn)開發(fā)少量代碼即可快速發(fā)現(xiàn)、消除重復(fù)冗余實體;——應(yīng)支持包括異構(gòu)多源實體、不同圖譜下同質(zhì)異構(gòu)實體的融合,如通過提供可解釋、可回溯的規(guī)則管理能力,方便管理融合策略;——應(yīng)支持為不同領(lǐng)域同實體共享、差異化迭代提供的實體繼承能力,宜支持選擇深度、淺度繼承公共實體,新增或覆蓋已有屬性;——宜支持多源知識子圖的融合,如通過提供子圖約簡、圖嵌入、子圖相似度等能力,實現(xiàn)高效地融合知識圖譜間的結(jié)構(gòu)信息與語義信息。——宜支持關(guān)系分層繼承能力,方便概念管理;——宜支持多語言的知識融合;——宜支持新增知識的實時融合。知識建模3知識建模階段應(yīng)首先將業(yè)務(wù)知識轉(zhuǎn)化成圖譜形式表達,完成結(jié)構(gòu)化數(shù)據(jù)到語義邏輯知識化的建模,并完成知識圖譜內(nèi)容的構(gòu)建。知識構(gòu)建包括模式定義、自動化建模、混合索引及實時調(diào)度等。對知識建模階段的技術(shù)要求如下:——通過對罕見病大型隊列電子病歷中的表型數(shù)據(jù)提取,整合并優(yōu)化疾病臨床表型本體、語義模型和知識圖譜,強化罕見病的推理權(quán)重,建立基于表型大數(shù)據(jù)的罕見病輔助診斷模型,為罕見病的臨床診治提供表型證據(jù)支持;——應(yīng)支持通過圖譜的模式建模能力將業(yè)務(wù)領(lǐng)域知識抽象成圖譜的實體、關(guān)系、屬性、約束等;——應(yīng)支持針對模式的增刪改查等操作;——宜支持引用其他領(lǐng)域已有的關(guān)系、實體定義等;——應(yīng)支持自動化的知識建模服務(wù);——宜支持自上而下和自下而上的途徑進行知識構(gòu)建;——應(yīng)支持針對文本、向量、空間等索引查詢召回能力的索引配置能力;——宜支持流、批一體的構(gòu)建鏈路,支持業(yè)務(wù)數(shù)據(jù)變更后秒級通過圖譜構(gòu)建鏈路更新到圖譜中;知識建模階段應(yīng)首先將業(yè)務(wù)知識轉(zhuǎn)化成圖譜形式表達,完成結(jié)構(gòu)化數(shù)據(jù)到語義邏輯知識化的建模,并完成知識圖譜內(nèi)容的構(gòu)建。知識構(gòu)建包括模式定義、自動化建模、混合索引及實時調(diào)度等。對知識建模階段的技術(shù)要求如下:——通過對罕見病大型隊列電子病歷中的表型數(shù)據(jù)提取,整合并優(yōu)化疾病臨床表型本體、語義模型和知識圖譜,強化罕見病的推理權(quán)重,建立基于表型大數(shù)據(jù)的罕見病輔助診斷模型,為罕見病的臨床診治提供表型證據(jù)支持;——應(yīng)支持通過圖譜的模式建模能力將業(yè)務(wù)領(lǐng)域知識抽象成圖譜的實體、關(guān)系、屬性、約束等;——應(yīng)支持針對模式的增刪改查等操作;——宜支持引用其他領(lǐng)域已有的關(guān)系、實體定義等;——應(yīng)支持自動化的知識建模服務(wù);——宜支持自上而下和自下而上的途徑進行知識構(gòu)建;——應(yīng)支持針對文本、向量、空間等索引查詢召回能力的索引配置能力;——宜支持流、批一體的構(gòu)建鏈路,支持業(yè)務(wù)數(shù)據(jù)變更后秒級通過圖譜構(gòu)建鏈路更新到圖譜中;——宜支持多人在線協(xié)同編輯,且實時更新。知識評估知識評估階段用于保障新加入知識圖譜的知識的質(zhì)量,應(yīng)主要包括規(guī)則評估、人工評估、智能評估三種方式。對知識評估階段的技術(shù)要求如下:——應(yīng)支持規(guī)則評估結(jié)合外部接口調(diào)用來評測知識正確性,或依賴系統(tǒng)規(guī)則評測知識的時效性、覆蓋率等;——應(yīng)支持人工評估與知識標注平臺無縫打通;——宜支持帶條件的對實體、屬性、關(guān)系等做無偏采樣,自動打通外包、眾包評估,持續(xù)評測知識質(zhì)量;——應(yīng)支持智能評估與算法模型結(jié)合,針對知識正確性、結(jié)構(gòu)穩(wěn)定性等進行評估。知識推理對知識推理階段的技術(shù)要求如下:——應(yīng)支持知識問答能力,基于知識圖譜實現(xiàn)知識問答;——應(yīng)支持關(guān)聯(lián)分析能力,基于知識圖譜實現(xiàn)知識的關(guān)聯(lián)分析;——宜支持規(guī)則推理能力,包括基于專家經(jīng)驗,在圖上進行基于路徑和節(jié)點屬性計算的迭代推理能力;——宜支持表示推理能力,包括并不限于通過聯(lián)動圖譜存儲、圖訓(xùn)練框架實現(xiàn)表示推理能力;通過對知識的嵌入表示,然后結(jié)合深度學(xué)習(xí)實現(xiàn)推理能力,同時可支持多種算法,結(jié)合業(yè)務(wù)下游模型進行關(guān)系預(yù)測、屬性預(yù)測、推薦排序等。知識存儲知識存儲階段將知識圖譜的概念層和數(shù)據(jù)層以計算機可識別的數(shù)據(jù)格式進行保存的物理形式,知識圖譜的存儲并不用依賴特定的底層結(jié)構(gòu),一般的做法是按照數(shù)據(jù)和應(yīng)用的需求采用不同的4底層存儲。7.8.3 對知識圖譜系統(tǒng)的知識存儲組件的功能要求如下:——應(yīng)滿足基礎(chǔ)的圖數(shù)據(jù)存儲需求,設(shè)計具備良好可伸縮性和靈活性的知識存儲結(jié)構(gòu),可滿足多RDF——應(yīng)具備查詢、讀取、計算和應(yīng)用需求的支持,可以實現(xiàn)和不同存儲、計算組件的交互,可以底層存儲。7.8.3 對知識圖譜系統(tǒng)的知識存儲組件的功能要求如下:——應(yīng)滿足基礎(chǔ)的圖數(shù)據(jù)存儲需求,設(shè)計具備良好可伸縮性和靈活性的知識存儲結(jié)構(gòu),可滿足多RDF——應(yīng)具備查詢、讀取、計算和應(yīng)用需求的支持,可以實現(xiàn)和不同存儲、計算組件的交互,可以滿足上層應(yīng)用對于存儲組件進行增刪查改的功能和性能需求;——應(yīng)具備對于安全性、可靠性、維護和管理的支持,可以實現(xiàn)基于角色的訪問控制、加密、多用戶、高可用性、備份和還

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論