知識圖譜課件_第1頁
知識圖譜課件_第2頁
知識圖譜課件_第3頁
知識圖譜課件_第4頁
知識圖譜課件_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

知識圖譜

知識圖譜

1

知識圖譜(KnowledgeGraph)是一種揭示實體之間關(guān)系的語義網(wǎng)絡(luò)。2012年5月17日,Google正式提出了知識圖譜的概念,其初衷是優(yōu)化搜索引擎返回的結(jié)果,增強(qiáng)用戶搜索質(zhì)量及體驗。知識圖譜(KnowledgeG2

知識圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實體及其關(guān)系,將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識圖譜以結(jié)構(gòu)化的形式描述客觀世界3

知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),其中的節(jié)點代表實體(Entity)或者概念(Concept),邊代表實體/概念之間的各種語義關(guān)系。知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),4知識圖譜的發(fā)展歷史1.第一階段(1955年~1977年)

第一階段是知識圖譜的起源階段,在這一階段中研究者們提出了引文網(wǎng)絡(luò)和語義網(wǎng)絡(luò)的概念知識圖譜的發(fā)展歷史1.第一階段(1955年~1977年)52.第二階段(1977年~2012年)

第二階段是知識圖譜的發(fā)展階段,語義網(wǎng)絡(luò)得到快速發(fā)展,“知識本體”的研究開始成為計算機(jī)科學(xué)的一個重要領(lǐng)域,知識圖譜吸收了語義網(wǎng)、本體在知識組織和表達(dá)方面的理念,使得知識更易于在計算機(jī)之間和計算機(jī)與人之間交換、流通和加工。2.第二階段(1977年~2012年)63.第三階段(2012年至今)

第三階段是知識圖譜的繁榮階段,2012年谷歌提出GoogleKnowledgeGraph,知識圖譜正式得名,谷歌通過知識圖譜技術(shù)改善了搜索引擎性能。在人工智能的蓬勃發(fā)展下,知識圖譜涉及的知識抽取、表示、融合、推理、問答等關(guān)鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務(wù)領(lǐng)域的一個新熱點3.第三階段(2012年至今)7知識圖譜的類型(1)事實知識

事實知識是知識圖譜中最常見的知識類型。大部分事實都是在描述實體的特定屬性或者關(guān)系,例如:三元組(柏拉圖,出生地,雅典)中的“出生地”就是其中一個屬性。知識圖譜的類型(1)事實知識8(2)概念知識

概念知識分為兩類,一類是實體與概念之間的類屬關(guān)系,另一類是子概念與父概念之間的子類關(guān)系。(2)概念知識9(3)詞匯知識

詞匯知識主要包括實體與詞匯之間的關(guān)系(實體的命名、稱謂、英文名等)以及詞匯之間的關(guān)系(同義關(guān)系、反義關(guān)系、縮略詞關(guān)系、上下位詞關(guān)系等)。例如,(“Plato”,中文名,柏拉圖)、(趙匡胤,廟號,宋太祖)、(妻子,同義,老婆)。(3)詞匯知識10(4)常識知識

常識是人類通過身體與世界交互而積累的經(jīng)驗與知識,是人們在交流時無須言明就能理解的知識。例如,我們都知道鳥有翅膀、鳥能飛等;又如,如果X是一個人,則X要么是男人要么是女人。常識知識的獲取是構(gòu)建知識圖譜時的一大難點。(4)常識知識11知識圖譜的重要性

知識圖譜已成為推動機(jī)器基于人類知識獲取認(rèn)知能力的重要途徑,并將逐漸成為未來智能社會的重要生產(chǎn)資料。知識圖譜的重要性知識圖譜已成121.知識圖譜是人工智能的重要基石2.知識圖譜推動智能應(yīng)用3.知識圖譜是強(qiáng)人工智能發(fā)展的核心驅(qū)動力之一1.知識圖譜是人工智能的重要基石13知識表示和知識建模

知識表示與知識建模是知識圖譜中的重要內(nèi)容,在構(gòu)建知識圖譜的時候,首先要建立知識表達(dá)的數(shù)據(jù)模型,也就是知識圖譜的整個數(shù)據(jù)組織體系。知識表示和知識建模

知識表示與知14

知識表示學(xué)習(xí)主要是面向知識圖譜中的實體和關(guān)系進(jìn)行表示學(xué)習(xí),使用建模方法將實體和向量表示在低維稠密向量空間中,然后進(jìn)行計算和推理。知識表示學(xué)習(xí)主要是面向知識圖譜中15

知識是人類在認(rèn)識和改造客觀世界的過程中總結(jié)出的客觀事實、概念、定理和公理的集合。知識具有不同的分類方式,例如,按照知識的作用范圍可分為常識性知識與領(lǐng)域性知識。知識表示是將現(xiàn)實世界中存在的知識轉(zhuǎn)換成計算機(jī)可識別和處理的內(nèi)容,是一種描述知識的數(shù)據(jù)結(jié)構(gòu),用于對知識的描述或約定。知識是人類在認(rèn)識和改造客觀世16知識表示方法

知識表示方法主要分為基于符號的知識表示方法與基于表示學(xué)習(xí)的知識表示方法。(1)基于符號的知識表示方法基于符號的知識表示方法分為一階謂詞邏輯表示法、產(chǎn)生式規(guī)則表示法、框架表示法與語義網(wǎng)絡(luò)表示法。知識表示方法

知識表示方法主要分為基于符號的知識表示方法與基17(2)基于表示學(xué)習(xí)的知識表示方法

早期知識表示方法與語義網(wǎng)知識表示法通過符號顯式地表示概念及其關(guān)系。事實上,許多知識具有不易符號化、隱含性等特點,因此僅通過顯式表示的知識無法獲得全面的知識特征。此外,語義計算是知識表示的重要目標(biāo),基于符號的知識表示方法無法有效計算實體間的語義關(guān)系。(2)基于表示學(xué)習(xí)的知識表示方法18技術(shù)發(fā)展趨勢

(1)符號與表示學(xué)習(xí)的融合統(tǒng)一(2)面向事理邏輯的知識表示(3)融合時空間維度的知識表示(4)融合跨媒體元素的知識表示技術(shù)發(fā)展趨勢

(1)符號與表示學(xué)習(xí)的融合統(tǒng)一19知識建模

知識建模是通過各種知識獲取方法獲得突發(fā)事件領(lǐng)域的主要概念和概念之間的關(guān)系,用精確的語言加以描述的過程。知識建模知識建模是通過各種知20

知識建模是指建立知識圖譜的數(shù)據(jù)模型,即采用什么樣的方式來表達(dá)知識,構(gòu)建一個本體模型對知識進(jìn)行描述。知識建模是指建立知識圖譜的數(shù)據(jù)模型21

知識建模一般有自頂向下和自底向上兩種構(gòu)建方法。自頂向下的方法是指在構(gòu)建知識圖譜時首先定義數(shù)據(jù)模式即本體,一般通過領(lǐng)域?qū)<胰斯ぞ幹?。從最頂層的概念開始定義,然后逐步細(xì)化,形成結(jié)構(gòu)良好的分類層次結(jié)構(gòu)。知識建模一般有自頂向下和自底向上22知識建模方法

知識建模目前的實際操作過程,可分為手工建模方式和半自動建模方式。手工建模方式適用于容量小、質(zhì)量要求高的知識圖譜,但是無法滿足大規(guī)模的知識構(gòu)建,是一個耗時、昂貴、需要專業(yè)知識的任務(wù);半自動建模方式將自然語言處理與手工方式結(jié)合,適于規(guī)模大且語義復(fù)雜的知識圖譜。知識建模方法

知識建模目前的23(1)手工建模方式

手工建模方式過程主要可以分為6個步驟:明確領(lǐng)域本體及任務(wù)、模型復(fù)用、列出本體涉及領(lǐng)域中的元素、明確分類體系、定義屬性及關(guān)系和定義約束條件。(1)手工建模方式24(2)半自動建模方式

半自動建模方式先通過自動方式獲取知識圖譜,然后再進(jìn)行大量的人工干預(yù)。運用自然語言處理技術(shù)半自動建模的方法可以分為3大類:基于結(jié)構(gòu)化數(shù)據(jù)的知識建模方法、基于半結(jié)構(gòu)化數(shù)據(jù)的知識建模方法和基于非結(jié)構(gòu)化數(shù)據(jù)的知識建模方法。(2)半自動建模方式25(3)知識建模評價

對知識建模質(zhì)量評價也是知識建模的重要組成部分,通常與實體對齊任務(wù)一起進(jìn)行。質(zhì)量評價的作用在于可以對知識模型的可信度進(jìn)行量化,通過舍棄置信度較低的知識來保障知識庫的質(zhì)量。(3)知識建模評價26知識抽取

知識抽取指從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識提取,形成知識的過程。為了提供令用戶滿意的知識服務(wù),知識圖譜不僅要包含其涉及領(lǐng)域已知的知識,還要能及時發(fā)現(xiàn)并添加新的知識。知識抽取知識抽取指從不同來源、不同27第七章知識圖譜課件28實體抽取

實體抽取也被稱為命名實體識別(NamedEntityRecognition,NER),指從原始數(shù)據(jù)中自動識別出命名實體。實體抽取實體抽取也被稱為命名29

實體抽取的方法主要有基于規(guī)則與詞典的方法、基于機(jī)器學(xué)習(xí)的方法以及面向開放域的抽取方法。實體抽取的方法主要有基于規(guī)30關(guān)系抽取

關(guān)系抽取的目標(biāo)是抽取語料中命名實體的語義關(guān)系。實體抽取技術(shù)會在原始的語料上標(biāo)記一些命名實體。為了形成知識結(jié)構(gòu),還需要從中抽取命名實體間的關(guān)聯(lián)信息,從而利用這些信息將離散的命名實體連接起來,這就是關(guān)系抽取技術(shù)。關(guān)系抽取關(guān)系抽取的目標(biāo)是抽取語料中命名實31屬性抽取

實體的屬性可以使實體對象更加豐滿。屬性抽取的目的是從多種來源的數(shù)據(jù)中抽取目標(biāo)實體的屬性內(nèi)容。實體的屬性可以看作是連接實體與屬性值的關(guān)系,因此,在實際應(yīng)用中,一些學(xué)者將屬性抽取問題轉(zhuǎn)化為關(guān)系抽取問題。屬性抽取

實體的屬性可以使32知識存儲

知識存儲是針對知識圖譜的知識表示形式設(shè)計底層存儲方式,完成各類知識的存儲,以支持對大規(guī)模數(shù)據(jù)的有效管理和計算。知識存儲

知識存儲是針對知識圖譜的知33

知識存儲的對象包括基本屬性知識、關(guān)聯(lián)知識、事件知識、時序知識和資源類知識等。知識存儲方式的質(zhì)量直接影響知識圖譜中知識查詢、知識計算及知識更新的效率。知識存儲的對象包括基34

從存儲結(jié)構(gòu)劃分,知識存儲分為基于表結(jié)構(gòu)的存儲和基于圖結(jié)構(gòu)的存儲。從存儲結(jié)構(gòu)劃分,知識存儲分為基于表結(jié)構(gòu)的存35知識存儲工具

知識圖譜的存儲并不依賴特定的底層結(jié)構(gòu),一般的做法是按數(shù)據(jù)和應(yīng)用的需求采用不同的底層存儲,甚至可以基于現(xiàn)有的關(guān)系數(shù)據(jù)庫進(jìn)行構(gòu)建。1.關(guān)系型數(shù)據(jù)庫2.圖數(shù)據(jù)庫知識存儲工具

知識圖譜的存儲并36知識融合

知識融合即合并兩個知識圖譜(本體),基本的問題是研究將來自多個來源的關(guān)于同一個實體或概念的描述信息融合起來的方法。知識融合知識融合即合并兩個知識37

知識融合的概念最早出現(xiàn)在霍爾薩普爾(Holsapple)和溫士頓(Whinston)在1983年發(fā)表的文章ASoftwareToolsForKnowledgeFusion中,并在20世紀(jì)90年代得到研究者的廣泛關(guān)注。知識融合的概念最早出現(xiàn)在霍爾薩38

知識融合是面向知識服務(wù)和決策問題,以多源異構(gòu)數(shù)據(jù)為基礎(chǔ),在本體庫和規(guī)則庫的支持下,通過知識抽取和轉(zhuǎn)換獲得隱藏在數(shù)據(jù)資源中的知識因子及其關(guān)聯(lián)關(guān)系,進(jìn)而在語義層次上組合、推理、創(chuàng)造出新知識的過程,并且這個過程需要根據(jù)數(shù)據(jù)源的變化和用戶反饋進(jìn)行實時動態(tài)調(diào)整。知識融合是面向知識服務(wù)和決策39知識推理

知識圖譜的表示(Representation)指的是用什么數(shù)據(jù)結(jié)構(gòu)來表示一個知識圖譜。顧名思義,知識圖譜是以圖的方式來展示知識,但是這并不代表知識圖譜必須采用圖的表示。從圖的角度看,知識圖譜是一個語義網(wǎng)絡(luò),即一種用互聯(lián)的節(jié)點和邊來表示知識的結(jié)構(gòu)。知識推理

知識圖譜的表示(Rep40

語義網(wǎng)絡(luò)中的語義主要體現(xiàn)在圖中邊的含義上,為了賦予這些邊語義,研究人員先是提出了術(shù)語語言(TerminologicalLanguage),并最終提出了描述邏輯(DescriptionLogic),描述邏輯是一階謂詞邏輯的一個子集,推理復(fù)雜度是可判定的(Decidable)。W3C采用了以描述邏輯為邏輯基礎(chǔ)的本體語言O(shè)WL(OntologyWebLanguage)作為定義Web術(shù)語的標(biāo)準(zhǔn)語言,還推出了另外一種用于表示W(wǎng)eb本體的語言RDFSchema(簡稱RDFS)。語義網(wǎng)絡(luò)中的語義主要體現(xiàn)在圖中41并行知識推理

現(xiàn)有的并行推理方法主要集中在前向鏈推理,即應(yīng)用推理規(guī)則到知識圖譜生成新的三元組,所以對于動態(tài)知識圖譜的推理處理效果不佳。另外,前向鏈推理會導(dǎo)致知識圖譜存儲大量冗余知識,也不利于高效的知識檢索和查詢。并行知識推理現(xiàn)有的42知識圖譜的應(yīng)用

知識圖譜的應(yīng)用場景很多,在不同行業(yè)、不同領(lǐng)域都有廣泛應(yīng)用,知識圖譜在商業(yè)領(lǐng)域的應(yīng)用主要體現(xiàn)在語義搜索和問答系統(tǒng)這兩方面。知識圖譜的應(yīng)用

知識圖譜43語義搜索

語義搜索的研究涉及多個領(lǐng)域,包括搜索引擎、語義網(wǎng)、數(shù)據(jù)挖掘和知識推理等。運用的主要方法有圖論、匹配算法和邏輯(特別是描述邏輯、模糊邏輯等方法)。語義搜索語義搜索的研究涉及多個44問答系統(tǒng)

問答系統(tǒng)也是知識圖譜應(yīng)用較為廣泛的領(lǐng)域,問答系統(tǒng)需要理解查詢的語義信息,將輸入的自然語言轉(zhuǎn)化為知識庫中的實體和關(guān)系的映射。例如,輸入“阿里巴巴的創(chuàng)始人”,系統(tǒng)會到知識庫中尋找“馬云”這個實體,并搜索該實體下“創(chuàng)始人”這個屬性的值,將其展現(xiàn)在系統(tǒng)頁面上。問答系統(tǒng)問答系統(tǒng)也是知識圖45小結(jié)(1)知識圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實體及其關(guān)系。(2)知識表示方法主要分為基于符號的知識表示方法、基于表示學(xué)習(xí)的知識表示方法2種。(3)知識抽取指從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識提取,形成知識的過程。(4)知識存儲是針對知識圖譜的知識表示形式設(shè)計底層存儲方式,完成各類知識的存儲,以支持對大規(guī)模數(shù)據(jù)的有效管理和計算。(5)知識融合的目標(biāo)是產(chǎn)生新的知識,是對松耦合來源中的知識進(jìn)行集成,構(gòu)成一個合成的資源,用來補(bǔ)充不完全的知識和獲取新知識。(6)知識圖譜的推理首先需要考慮的是知識如何表達(dá)的問題,即知識圖譜的知識表示,它包括基于圖結(jié)構(gòu)的表示以及相應(yīng)的邏輯基礎(chǔ),還有基于張量的表示。(7)語義搜索是指搜索引擎的工作不再拘泥于用戶所輸入請求語句的字面本身,而是透過現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到用戶的真實意圖,并依此來進(jìn)行搜索,從而更準(zhǔn)確地向用戶返回最符合其需求的搜索結(jié)果。(8)知識庫問答系統(tǒng)在回答用戶問題時,需要正確理解用戶所提出的自然語言問題,抽取其中的關(guān)鍵語義信息,然后在已有單個或多個知識庫中通過檢索、推理等手段獲取答案并返回給用戶。小結(jié)(1)知識圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實體及其46知識圖譜

知識圖譜

47

知識圖譜(KnowledgeGraph)是一種揭示實體之間關(guān)系的語義網(wǎng)絡(luò)。2012年5月17日,Google正式提出了知識圖譜的概念,其初衷是優(yōu)化搜索引擎返回的結(jié)果,增強(qiáng)用戶搜索質(zhì)量及體驗。知識圖譜(KnowledgeG48

知識圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實體及其關(guān)系,將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識圖譜以結(jié)構(gòu)化的形式描述客觀世界49

知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),其中的節(jié)點代表實體(Entity)或者概念(Concept),邊代表實體/概念之間的各種語義關(guān)系。知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),50知識圖譜的發(fā)展歷史1.第一階段(1955年~1977年)

第一階段是知識圖譜的起源階段,在這一階段中研究者們提出了引文網(wǎng)絡(luò)和語義網(wǎng)絡(luò)的概念知識圖譜的發(fā)展歷史1.第一階段(1955年~1977年)512.第二階段(1977年~2012年)

第二階段是知識圖譜的發(fā)展階段,語義網(wǎng)絡(luò)得到快速發(fā)展,“知識本體”的研究開始成為計算機(jī)科學(xué)的一個重要領(lǐng)域,知識圖譜吸收了語義網(wǎng)、本體在知識組織和表達(dá)方面的理念,使得知識更易于在計算機(jī)之間和計算機(jī)與人之間交換、流通和加工。2.第二階段(1977年~2012年)523.第三階段(2012年至今)

第三階段是知識圖譜的繁榮階段,2012年谷歌提出GoogleKnowledgeGraph,知識圖譜正式得名,谷歌通過知識圖譜技術(shù)改善了搜索引擎性能。在人工智能的蓬勃發(fā)展下,知識圖譜涉及的知識抽取、表示、融合、推理、問答等關(guān)鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務(wù)領(lǐng)域的一個新熱點3.第三階段(2012年至今)53知識圖譜的類型(1)事實知識

事實知識是知識圖譜中最常見的知識類型。大部分事實都是在描述實體的特定屬性或者關(guān)系,例如:三元組(柏拉圖,出生地,雅典)中的“出生地”就是其中一個屬性。知識圖譜的類型(1)事實知識54(2)概念知識

概念知識分為兩類,一類是實體與概念之間的類屬關(guān)系,另一類是子概念與父概念之間的子類關(guān)系。(2)概念知識55(3)詞匯知識

詞匯知識主要包括實體與詞匯之間的關(guān)系(實體的命名、稱謂、英文名等)以及詞匯之間的關(guān)系(同義關(guān)系、反義關(guān)系、縮略詞關(guān)系、上下位詞關(guān)系等)。例如,(“Plato”,中文名,柏拉圖)、(趙匡胤,廟號,宋太祖)、(妻子,同義,老婆)。(3)詞匯知識56(4)常識知識

常識是人類通過身體與世界交互而積累的經(jīng)驗與知識,是人們在交流時無須言明就能理解的知識。例如,我們都知道鳥有翅膀、鳥能飛等;又如,如果X是一個人,則X要么是男人要么是女人。常識知識的獲取是構(gòu)建知識圖譜時的一大難點。(4)常識知識57知識圖譜的重要性

知識圖譜已成為推動機(jī)器基于人類知識獲取認(rèn)知能力的重要途徑,并將逐漸成為未來智能社會的重要生產(chǎn)資料。知識圖譜的重要性知識圖譜已成581.知識圖譜是人工智能的重要基石2.知識圖譜推動智能應(yīng)用3.知識圖譜是強(qiáng)人工智能發(fā)展的核心驅(qū)動力之一1.知識圖譜是人工智能的重要基石59知識表示和知識建模

知識表示與知識建模是知識圖譜中的重要內(nèi)容,在構(gòu)建知識圖譜的時候,首先要建立知識表達(dá)的數(shù)據(jù)模型,也就是知識圖譜的整個數(shù)據(jù)組織體系。知識表示和知識建模

知識表示與知60

知識表示學(xué)習(xí)主要是面向知識圖譜中的實體和關(guān)系進(jìn)行表示學(xué)習(xí),使用建模方法將實體和向量表示在低維稠密向量空間中,然后進(jìn)行計算和推理。知識表示學(xué)習(xí)主要是面向知識圖譜中61

知識是人類在認(rèn)識和改造客觀世界的過程中總結(jié)出的客觀事實、概念、定理和公理的集合。知識具有不同的分類方式,例如,按照知識的作用范圍可分為常識性知識與領(lǐng)域性知識。知識表示是將現(xiàn)實世界中存在的知識轉(zhuǎn)換成計算機(jī)可識別和處理的內(nèi)容,是一種描述知識的數(shù)據(jù)結(jié)構(gòu),用于對知識的描述或約定。知識是人類在認(rèn)識和改造客觀世62知識表示方法

知識表示方法主要分為基于符號的知識表示方法與基于表示學(xué)習(xí)的知識表示方法。(1)基于符號的知識表示方法基于符號的知識表示方法分為一階謂詞邏輯表示法、產(chǎn)生式規(guī)則表示法、框架表示法與語義網(wǎng)絡(luò)表示法。知識表示方法

知識表示方法主要分為基于符號的知識表示方法與基63(2)基于表示學(xué)習(xí)的知識表示方法

早期知識表示方法與語義網(wǎng)知識表示法通過符號顯式地表示概念及其關(guān)系。事實上,許多知識具有不易符號化、隱含性等特點,因此僅通過顯式表示的知識無法獲得全面的知識特征。此外,語義計算是知識表示的重要目標(biāo),基于符號的知識表示方法無法有效計算實體間的語義關(guān)系。(2)基于表示學(xué)習(xí)的知識表示方法64技術(shù)發(fā)展趨勢

(1)符號與表示學(xué)習(xí)的融合統(tǒng)一(2)面向事理邏輯的知識表示(3)融合時空間維度的知識表示(4)融合跨媒體元素的知識表示技術(shù)發(fā)展趨勢

(1)符號與表示學(xué)習(xí)的融合統(tǒng)一65知識建模

知識建模是通過各種知識獲取方法獲得突發(fā)事件領(lǐng)域的主要概念和概念之間的關(guān)系,用精確的語言加以描述的過程。知識建模知識建模是通過各種知66

知識建模是指建立知識圖譜的數(shù)據(jù)模型,即采用什么樣的方式來表達(dá)知識,構(gòu)建一個本體模型對知識進(jìn)行描述。知識建模是指建立知識圖譜的數(shù)據(jù)模型67

知識建模一般有自頂向下和自底向上兩種構(gòu)建方法。自頂向下的方法是指在構(gòu)建知識圖譜時首先定義數(shù)據(jù)模式即本體,一般通過領(lǐng)域?qū)<胰斯ぞ幹?。從最頂層的概念開始定義,然后逐步細(xì)化,形成結(jié)構(gòu)良好的分類層次結(jié)構(gòu)。知識建模一般有自頂向下和自底向上68知識建模方法

知識建模目前的實際操作過程,可分為手工建模方式和半自動建模方式。手工建模方式適用于容量小、質(zhì)量要求高的知識圖譜,但是無法滿足大規(guī)模的知識構(gòu)建,是一個耗時、昂貴、需要專業(yè)知識的任務(wù);半自動建模方式將自然語言處理與手工方式結(jié)合,適于規(guī)模大且語義復(fù)雜的知識圖譜。知識建模方法

知識建模目前的69(1)手工建模方式

手工建模方式過程主要可以分為6個步驟:明確領(lǐng)域本體及任務(wù)、模型復(fù)用、列出本體涉及領(lǐng)域中的元素、明確分類體系、定義屬性及關(guān)系和定義約束條件。(1)手工建模方式70(2)半自動建模方式

半自動建模方式先通過自動方式獲取知識圖譜,然后再進(jìn)行大量的人工干預(yù)。運用自然語言處理技術(shù)半自動建模的方法可以分為3大類:基于結(jié)構(gòu)化數(shù)據(jù)的知識建模方法、基于半結(jié)構(gòu)化數(shù)據(jù)的知識建模方法和基于非結(jié)構(gòu)化數(shù)據(jù)的知識建模方法。(2)半自動建模方式71(3)知識建模評價

對知識建模質(zhì)量評價也是知識建模的重要組成部分,通常與實體對齊任務(wù)一起進(jìn)行。質(zhì)量評價的作用在于可以對知識模型的可信度進(jìn)行量化,通過舍棄置信度較低的知識來保障知識庫的質(zhì)量。(3)知識建模評價72知識抽取

知識抽取指從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識提取,形成知識的過程。為了提供令用戶滿意的知識服務(wù),知識圖譜不僅要包含其涉及領(lǐng)域已知的知識,還要能及時發(fā)現(xiàn)并添加新的知識。知識抽取知識抽取指從不同來源、不同73第七章知識圖譜課件74實體抽取

實體抽取也被稱為命名實體識別(NamedEntityRecognition,NER),指從原始數(shù)據(jù)中自動識別出命名實體。實體抽取實體抽取也被稱為命名75

實體抽取的方法主要有基于規(guī)則與詞典的方法、基于機(jī)器學(xué)習(xí)的方法以及面向開放域的抽取方法。實體抽取的方法主要有基于規(guī)76關(guān)系抽取

關(guān)系抽取的目標(biāo)是抽取語料中命名實體的語義關(guān)系。實體抽取技術(shù)會在原始的語料上標(biāo)記一些命名實體。為了形成知識結(jié)構(gòu),還需要從中抽取命名實體間的關(guān)聯(lián)信息,從而利用這些信息將離散的命名實體連接起來,這就是關(guān)系抽取技術(shù)。關(guān)系抽取關(guān)系抽取的目標(biāo)是抽取語料中命名實77屬性抽取

實體的屬性可以使實體對象更加豐滿。屬性抽取的目的是從多種來源的數(shù)據(jù)中抽取目標(biāo)實體的屬性內(nèi)容。實體的屬性可以看作是連接實體與屬性值的關(guān)系,因此,在實際應(yīng)用中,一些學(xué)者將屬性抽取問題轉(zhuǎn)化為關(guān)系抽取問題。屬性抽取

實體的屬性可以使78知識存儲

知識存儲是針對知識圖譜的知識表示形式設(shè)計底層存儲方式,完成各類知識的存儲,以支持對大規(guī)模數(shù)據(jù)的有效管理和計算。知識存儲

知識存儲是針對知識圖譜的知79

知識存儲的對象包括基本屬性知識、關(guān)聯(lián)知識、事件知識、時序知識和資源類知識等。知識存儲方式的質(zhì)量直接影響知識圖譜中知識查詢、知識計算及知識更新的效率。知識存儲的對象包括基80

從存儲結(jié)構(gòu)劃分,知識存儲分為基于表結(jié)構(gòu)的存儲和基于圖結(jié)構(gòu)的存儲。從存儲結(jié)構(gòu)劃分,知識存儲分為基于表結(jié)構(gòu)的存81知識存儲工具

知識圖譜的存儲并不依賴特定的底層結(jié)構(gòu),一般的做法是按數(shù)據(jù)和應(yīng)用的需求采用不同的底層存儲,甚至可以基于現(xiàn)有的關(guān)系數(shù)據(jù)庫進(jìn)行構(gòu)建。1.關(guān)系型數(shù)據(jù)庫2.圖數(shù)據(jù)庫知識存儲工具

知識圖譜的存儲并82知識融合

知識融合即合并兩個知識圖譜(本體),基本的問題是研究將來自多個來源的關(guān)于同一個實體或概念的描述信息融合起來的方法。知識融合知識融合即合并兩個知識83

知識融合的概念最早出現(xiàn)在霍爾薩普爾(Holsapple)和溫士頓(Whinston)在1983年發(fā)表的文章ASoftwareToolsForKnowledgeFusion中,并在20世紀(jì)90年代得到研究者的廣泛關(guān)注。知識融合的概念最早出現(xiàn)在霍爾薩84

知識融合是面向知識服務(wù)和決策問題,以多源異構(gòu)數(shù)據(jù)為基礎(chǔ),在本體庫和規(guī)則庫的支持下,通過知識抽取和轉(zhuǎn)換獲得隱藏在數(shù)據(jù)資源中的知識因子及其關(guān)聯(lián)關(guān)系,進(jìn)而在語義層次上組合、推理、創(chuàng)造出新知識的過程,并且這個過程需要根據(jù)數(shù)據(jù)源的變化和用戶反饋進(jìn)行實時動態(tài)調(diào)整。知識融合是面向知識服務(wù)和決策85知識推理

知識圖譜的表示(Representation)指的是用什么數(shù)據(jù)結(jié)構(gòu)來表示一個知識圖譜。顧名思義,知識圖譜是以圖的方式來展示知識,但是這并不代表知識圖譜必須采用圖的表示。從圖的角度看,知識圖譜是一個語義網(wǎng)絡(luò),即一種用互聯(lián)的節(jié)點和邊來表示知識的結(jié)構(gòu)。知識推理

知識圖譜的表示(Rep86

語義網(wǎng)絡(luò)中的語義主要體現(xiàn)在圖中邊的含義上,為了賦予這些邊語義,研究人員先是提出了術(shù)語語言(TerminologicalLanguage),并最終提出了描述邏輯(DescriptionLogic),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論