




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
垂直知識(shí)圖譜構(gòu)造工具與行業(yè)應(yīng)用阮彤自然語(yǔ)言處理與大數(shù)據(jù)挖掘?qū)嶒?yàn)室主任華東理工大學(xué)主要內(nèi)容為什么垂直行業(yè)需要知識(shí)圖譜垂直知識(shí)圖譜的特點(diǎn)垂直知識(shí)圖譜工具——VKGBuilder介紹垂直知識(shí)圖譜應(yīng)用我們從通用知識(shí)圖譜開(kāi)始。。。。1.SSCO/對(duì)不同的中文數(shù)據(jù)源進(jìn)行合并,組成統(tǒng)一的知識(shí)庫(kù)。共有621萬(wàn)實(shí)例,73萬(wàn)類別,上億的事實(shí)。成果在ISWC以及SCI期刊上發(fā)表。使用機(jī)器學(xué)習(xí)獲得的知識(shí)網(wǎng)絡(luò),包括260,345個(gè)概念,5,602,180個(gè)實(shí)例,526,219個(gè)同義關(guān)系,下圖顯示了網(wǎng)絡(luò)的部分節(jié)點(diǎn)2.zhishi.me華東理工大學(xué)上海交大為了讓知識(shí)圖譜有用,準(zhǔn)備構(gòu)造一個(gè)搜索引擎?
谷歌知識(shí)圖譜01百度“知心”搜狗“知立方”02為什么行業(yè)需要知識(shí)圖譜1.圖書館行業(yè)的故事——地方圖書館與內(nèi)容供應(yīng)商之爭(zhēng)
內(nèi)容供應(yīng)商超星萬(wàn)方鏈接舟山圖書館門戶數(shù)字圖書館資源屬于內(nèi)容供應(yīng)商用戶訪問(wèn)日志屬于內(nèi)容供應(yīng)商!讀者誰(shuí)能夠提供更好的服務(wù)??jī)?nèi)容供應(yīng)商!為什么行業(yè)需要知識(shí)圖譜1.圖書館行業(yè)的故事——地方圖書館之爭(zhēng)
內(nèi)容供應(yīng)商超星萬(wàn)方維普鏈接鏈接鏈接舟山圖書館門戶數(shù)字圖書館誰(shuí)擁有更多的資源?大圖書館!浙江圖書館門戶國(guó)家圖書館門戶地方圖書館利用知識(shí)圖譜實(shí)現(xiàn)轉(zhuǎn)型嚴(yán)重的內(nèi)容相似缺乏內(nèi)容控制缺乏競(jìng)爭(zhēng)力尋覓新的機(jī)會(huì)!與地方經(jīng)濟(jì)結(jié)合自有內(nèi)容專有技術(shù)為什么行業(yè)需要知識(shí)圖譜2.證券行業(yè)的故事——購(gòu)買數(shù)據(jù)VS自己處理數(shù)據(jù)大智慧萬(wàn)德同花順交易所購(gòu)買模式平臺(tái)模式集成并分析數(shù)據(jù)同花順大智慧新聞網(wǎng)站證券公司研報(bào)內(nèi)部交易數(shù)據(jù)為什么行業(yè)需要知識(shí)圖譜2.證券行業(yè)的故事——現(xiàn)有搜索引擎的困惑搜牛問(wèn)財(cái)——知識(shí)庫(kù)結(jié)構(gòu)化查詢2.證券行業(yè)的故事——語(yǔ)義技術(shù)的滲透不同來(lái)源知識(shí)庫(kù)之間如何關(guān)聯(lián)?疾病、藥品、檢查的關(guān)聯(lián)中西醫(yī)疾病名稱關(guān)聯(lián)中西藥成分關(guān)聯(lián)電子病歷搜索某類患者,如心衰并患有高血壓患者的患者?與某病人相似的患者?電子病歷文本中有大量的數(shù)據(jù),如何進(jìn)行結(jié)構(gòu)化,以更好地進(jìn)行電子病歷數(shù)據(jù)的大數(shù)據(jù)挖掘?為什么行業(yè)需要知識(shí)圖譜3.醫(yī)療行業(yè)的例子——難點(diǎn)為什么行業(yè)需要知識(shí)圖譜3.醫(yī)療行業(yè)的例子——病歷結(jié)構(gòu)化的必要性
詞匯二義性傳統(tǒng)非結(jié)構(gòu)化病歷數(shù)據(jù),只能通過(guò)文本匹配來(lái)進(jìn)行查詢無(wú)法理解相同文字但不同含義的詞匯
關(guān)聯(lián)查詢無(wú)法精確切分查詢?cè)~,理解查詢意圖為什么行業(yè)需要知識(shí)圖譜3.醫(yī)療行業(yè)的例子——ICD-11的構(gòu)造ICD11使用了類/子類關(guān)系,子屬性,定義域與值域,等價(jià)類。ICD
11表達(dá)能力是SHOIN(D)??梢允褂肈L推理程序去推理系統(tǒng)之間的非一致性。每個(gè)疾病有56個(gè)屬性,而其中52個(gè)是用填實(shí)例的。ICD
10以及以前版本,基本上沒(méi)有結(jié)構(gòu)。分類碼通常是一長(zhǎng)串的疾病與它們相關(guān)的代碼,以及少量屬性,如同義詞等。WHO在11版的ICD開(kāi)發(fā)中使用語(yǔ)義Web技術(shù),支持協(xié)同編輯的語(yǔ)義Web平臺(tái)。4年中,有270個(gè)來(lái)自世界各地的領(lǐng)域?qū)<沂褂胕CAT編輯了45,000個(gè)類,執(zhí)行了260,000個(gè)變更。構(gòu)造了17,000個(gè)鏈接,鏈到外部醫(yī)學(xué)術(shù)語(yǔ)。為什么行業(yè)需要知識(shí)圖譜行業(yè)需要數(shù)據(jù)(語(yǔ)義)集成能力文本
與結(jié)構(gòu)化數(shù)據(jù)的集成不同來(lái)源、不同格式的大量數(shù)據(jù)自動(dòng)/半自動(dòng)的集成行業(yè)需要(語(yǔ)義)數(shù)據(jù)查詢能力更豐富的表達(dá)更精準(zhǔn)的結(jié)果
總結(jié)為什么行業(yè)需要知識(shí)圖譜知識(shí)圖譜的技術(shù)優(yōu)勢(shì)漸增式數(shù)據(jù)模式設(shè)計(jì)初始設(shè)計(jì)的時(shí)候,很難清楚所有的概念,而知識(shí)圖譜的動(dòng)態(tài)可擴(kuò)充性以及“無(wú)模式”特性使得用戶很容易增加或修改模式。數(shù)據(jù)集成更輕松本體的語(yǔ)義互操作特性以及“鏈接數(shù)據(jù)”原則,使得來(lái)自不同供應(yīng)商的數(shù)據(jù)集成更為方便?,F(xiàn)有標(biāo)準(zhǔn)支持有RDF(S),OWL,SPARQL等標(biāo)準(zhǔn),可以逐漸要求內(nèi)容供應(yīng)商支持。語(yǔ)義搜索用戶可以查詢具有某類特征的某類實(shí)體,比起基于基于關(guān)鍵詞的搜索,更為精準(zhǔn)。主要內(nèi)容為什么需要行業(yè)需要知識(shí)圖譜垂直知識(shí)圖譜的特點(diǎn)垂直知識(shí)圖譜工具垂直知識(shí)圖譜應(yīng)用垂直知識(shí)圖譜特點(diǎn)
領(lǐng)域?qū)?shù)據(jù)質(zhì)量要求更高,例如藥品名稱處方當(dāng)中,藥品的克數(shù)企業(yè)名稱企業(yè)股票價(jià)格領(lǐng)域數(shù)據(jù)字段與數(shù)據(jù)關(guān)聯(lián)更豐富一個(gè)企業(yè)包含的信息字段可能有上百個(gè)字段ICD11當(dāng)中,每個(gè)疾病有56個(gè)屬性,而其中52個(gè)是用填實(shí)例的。(不是隨意填寫一個(gè)文本,而是這個(gè)填的值本身也是RDF的一個(gè)實(shí)例。只有滿足了上述條件,才能用于商業(yè)分析與決策支持1.更為豐富與精確的領(lǐng)域數(shù)據(jù)VS姚明的身高?VS電影的字段垂直知識(shí)圖譜特點(diǎn)普通的KG,使用一種自底向上的方法,更強(qiáng)調(diào)數(shù)據(jù)的寬度。如DBpedia在構(gòu)造過(guò)程中,先有數(shù)據(jù),后有本體。對(duì)于行業(yè)本體來(lái)說(shuō),由于數(shù)據(jù)質(zhì)量以及行業(yè)本身的規(guī)范要求,將使用自頂向下的方式。2.自頂向下垂直知識(shí)圖譜特點(diǎn)企業(yè)/組織結(jié)構(gòu)自有數(shù)據(jù),如:對(duì)證券公司而言,自有用戶交易數(shù)據(jù)醫(yī)院,電子病歷,付費(fèi)、檢查記錄圖書館地方政府?dāng)?shù)據(jù)行業(yè)數(shù)據(jù)如行業(yè)標(biāo)準(zhǔn)、規(guī)范,如MedicalGuideline如第三方收集的企業(yè)數(shù)據(jù)
諸多以RDB方式存儲(chǔ)3.豐富的內(nèi)部數(shù)據(jù)來(lái)源垂直知識(shí)圖譜特點(diǎn)比起互聯(lián)網(wǎng)企業(yè),垂直行業(yè)客戶相對(duì)投入低,能力弱。需要可配置、圖形化界面。需要容易地面向不同行業(yè)做客戶化。4.需要可擴(kuò)充的第三方工具支持垂直知識(shí)圖譜特點(diǎn)醫(yī)療:如果我構(gòu)造了醫(yī)學(xué)知識(shí)圖譜,下一步就是,如何基于這個(gè)圖譜做診療?證券:如何我構(gòu)造了一個(gè)企業(yè)知識(shí)圖譜,下一步就是,如何找到滿足某一類條件的企業(yè)?5.與決策支持集成——語(yǔ)義搜索?RuleEngine?大數(shù)據(jù)挖掘?主要內(nèi)容為什么需要行業(yè)需要知識(shí)圖譜垂直知識(shí)圖譜的特點(diǎn)垂直知識(shí)圖譜工具垂直知識(shí)圖譜應(yīng)用垂直知識(shí)圖譜體系結(jié)構(gòu)RDBLODUGCTextD2RImporterLODLinkerUGCWrapperInformationExtractorSchemaexpansionandalignmentDataEnrichmentSchemaEditorDataEditorRestfulAPISemanticSearchWithNatureLanguageInterfaceVisualExplorer(CardView,WheelView)IncrementalSchemaDesignandDataEnrichmentKnowledgeRepositoryModuleGraphDatabaseKnowledgeAccessModuleSchemaInconsistencyorDataConflictKowledgeConstructionModuleKGArchitecture以舟山海洋數(shù)字圖書館的例子,說(shuō)明垂直知識(shí)圖譜工具
舟山海洋知識(shí)圖譜首頁(yè)構(gòu)造海洋KG的例子——多種數(shù)據(jù)來(lái)源RelationalDatabaseOwnedByZhouShanFisheryAgency(2attributes)Marine-relatedknowledgebasepublishedontheWeb(10attributes)Encyclopedicwebsitesandfreetextascomplementarycontent構(gòu)造KG從Web抽取數(shù)據(jù)BuildKG配置文件用于從HTML頁(yè)面抽取結(jié)構(gòu)化數(shù)據(jù)Web數(shù)據(jù)和知識(shí)圖譜中,實(shí)體與屬性的匹配規(guī)則。
3)將數(shù)據(jù)導(dǎo)入到圖譜中.從百科網(wǎng)站抽取數(shù)據(jù)BuildKG選項(xiàng)1)當(dāng)前實(shí)體學(xué)習(xí)/批處理學(xué)習(xí)2)三個(gè)百科:互動(dòng)、維基與百度3)抽取部分:摘要,Infobox,類型標(biāo)簽不同數(shù)據(jù)來(lái)源沖突解決BuildKG當(dāng)沖突發(fā)生的時(shí)候,會(huì)有一個(gè)紅色驚嘆號(hào)圖標(biāo)顯示在相應(yīng)字段。用戶點(diǎn)擊這個(gè)圖標(biāo),系統(tǒng)顯示具體的沖突來(lái)源、不同來(lái)源的值、以及建議的數(shù)值.用戶可以選擇他們認(rèn)為合適的方式。2.PossibleIntentions1.Query3.Answer4.RelatedBooks5.KnowledgeCard6.RelatedContents語(yǔ)義檢索BuildKGUserscansubmitanykeywordqueryornaturallanguagequestion.ThequeryisinterpretedintopossibleSPARQLquerieswithnaturallanguagedescriptions.OnceaSPARQLqueryisselected,thecorrespondinganswersarereturned.alongwithrelevantdocumentswhichcontainsemanticannotationsontheseanswers.瀏覽KG——卡片視圖ExploreKG卡片視圖將所有實(shí)體(這幅圖是魚)展現(xiàn)在一個(gè)3D空間。最終用戶可以放大、縮小、左移動(dòng)和右移動(dòng),或是點(diǎn)擊特定實(shí)體,看到實(shí)體詳情。瀏覽KG——輪子視圖搜索一個(gè)概念或?qū)嶓w上一頁(yè)同一個(gè)實(shí)體關(guān)系名稱ExploreKG輪子視圖使用兩個(gè)輪子組織概念/實(shí)體。對(duì)于左邊的輪子,感興趣的節(jié)點(diǎn)被放在中央,當(dāng)相關(guān)實(shí)體或?qū)傩员稽c(diǎn)擊的時(shí)候,點(diǎn)擊的實(shí)體/概念就會(huì)成為右邊輪子的中心,右邊相關(guān)節(jié)點(diǎn)就會(huì)發(fā)生變化未來(lái)產(chǎn)品框架1.大規(guī)模圖數(shù)據(jù)支持2.自動(dòng)探測(cè)數(shù)據(jù)來(lái)源3.多策略學(xué)習(xí),提高數(shù)據(jù)抽取精度4.自動(dòng)/半自動(dòng)多源數(shù)據(jù)融合。5.基于規(guī)則與推理的決策支持
主要內(nèi)容為什么垂直行業(yè)需要知識(shí)圖譜垂直知識(shí)圖譜的特點(diǎn)垂直知識(shí)圖譜工具垂直知識(shí)圖譜應(yīng)用知識(shí)圖譜幫助圖書館模式變遷ExtractandIntegrateDataFrommultipleSourcesContinuouslyprovideup-to-datecontent內(nèi)容供應(yīng)商+平臺(tái)運(yùn)營(yíng)商RoleofKGZhouShanECUSTZheJiangHeNan……ShangHaiFederatedThematicResourceLibrary……PortEconomyKnowledgeGraphTextileIndustryKnowledgeGraphAgro-ProductProcessingKnowledgeGraphMarineEconomyKnowledgeGraphChemicalEngineeringKnowledgeGraph未來(lái)互聯(lián)與共享的圖書館資源庫(kù)
Futurework證券行業(yè)基于知識(shí)圖譜技術(shù)的醫(yī)療知識(shí)庫(kù)——正在進(jìn)行。。。。病歷結(jié)構(gòu)化表示——正在進(jìn)行【主訴】?jī)芍軆?nèi)便血2次【現(xiàn)病史】患者2周前無(wú)明顯誘因下出現(xiàn)大便帶鮮紅色液體2次,無(wú)肛門口異物感,肛門口無(wú)突出物,大便色黃,無(wú)粘胨膿液,無(wú)惡心嘔吐,無(wú)胃寒發(fā)熱,無(wú)尿頻尿急尿痛血尿,無(wú)腹痛腹瀉里
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 化工產(chǎn)品批發(fā)商銷售技能提升考核試卷
- 儀器制造中的質(zhì)量控制與檢測(cè)技術(shù)考核試卷
- 機(jī)器人情感識(shí)別與表達(dá)考核試卷
- 高級(jí)審計(jì)培訓(xùn)課件
- 批發(fā)市場(chǎng)魚品安全監(jiān)管考核試卷
- 批發(fā)市場(chǎng)的小批量訂單處理考核試卷
- 飼料店轉(zhuǎn)讓合同范本
- 教學(xué)加盟合同范本
- 材料合同范本簡(jiǎn)易圖表
- 食品運(yùn)輸儲(chǔ)藏合同范本
- 內(nèi)科學(xué)講義(唐子益版)
- GB/T 19845-2005機(jī)械振動(dòng)船舶設(shè)備和機(jī)械部件的振動(dòng)試驗(yàn)要求
- GB 9706.14-1997醫(yī)用電氣設(shè)備第2部分:X射線設(shè)備附屬設(shè)備安全專用要求
- 測(cè)繪安全生產(chǎn)專題培訓(xùn)課件
- 心肺復(fù)蘇簡(jiǎn)易呼吸器使用除顫儀使用
- 油缸裝配作業(yè)指導(dǎo)書
- 2022年濟(jì)南工程職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試筆試試題及答案解析
- 初中數(shù)學(xué)競(jìng)賽試題匯編
- GB∕Z 27735-2022 野營(yíng)帳篷
- 高分子材料研究方法 X 射線法
- 【課件】第二單元第三節(jié)漢族民歌課件-2021-2022學(xué)年高中音樂(lè)人音版(2019)必修音樂(lè)鑒賞
評(píng)論
0/150
提交評(píng)論