人工智能-知識(shí)圖譜機(jī)器大腦中的知識(shí)庫(kù)

上傳人：人*** IP屬地：天津上傳時(shí)間：2022-07-25 格式：DOCX 頁(yè)數(shù)：9 大?。?58.92KB 積分：16 舉報(bào) 版權(quán)申訴

人工智能-知識(shí)圖譜機(jī)器大腦中的知識(shí)庫(kù)_第2頁(yè)

人工智能-知識(shí)圖譜機(jī)器大腦中的知識(shí)庫(kù)_第3頁(yè)

人工智能-知識(shí)圖譜機(jī)器大腦中的知識(shí)庫(kù)_第4頁(yè)

人工智能-知識(shí)圖譜機(jī)器大腦中的知識(shí)庫(kù)_第5頁(yè)

已閱讀5頁(yè)，還剩4頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、知識(shí)圖譜技術(shù)原理介紹莫扎特2016-01-0917:31:55大數(shù)據(jù)技術(shù)評(píng)論(0)作者：王昊奮近兩年來(lái)，隨著LinkingOpenDatal等項(xiàng)目的全面展開(kāi)，語(yǔ)義Web數(shù)據(jù)源的數(shù)量激增，大量RDF數(shù)據(jù)被發(fā)布。互聯(lián)網(wǎng)正從僅包含網(wǎng)頁(yè)和網(wǎng)頁(yè)之間超鏈接的文檔萬(wàn)維網(wǎng)(DocumentWeb)轉(zhuǎn)變成包含大量描述各種實(shí)體和實(shí)體之間豐富關(guān)系的數(shù)據(jù)萬(wàn)維網(wǎng)(DataWeb)。在這個(gè)背景下，Google、百度和搜狗等搜索引擎公司紛紛以此為基礎(chǔ)構(gòu)建知識(shí)圖譜，分別為KnowledgeGraph、知心和知立方，來(lái)改進(jìn)搜索質(zhì)量，從而拉開(kāi)了語(yǔ)義搜索的序幕。下面我將從以下幾個(gè)方面來(lái)介紹知識(shí)圖譜：知識(shí)圖譜的表示和在搜索中的展現(xiàn)形

2、式，知識(shí)圖譜的構(gòu)建和知識(shí)圖譜在搜索中的應(yīng)用等，從而讓大家有機(jī)會(huì)了解其內(nèi)部的技術(shù)實(shí)現(xiàn)和各種挑戰(zhàn)。知識(shí)圖譜的表示和在搜索中的展現(xiàn)形式正如Google的辛格博士在介紹知識(shí)圖譜時(shí)提到的：“Theworldisnotmadeofstrings,butismadeofthings.，知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念。其中，每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的ID來(lái)標(biāo)識(shí)，稱為它們的標(biāo)識(shí)符(identifier)。每個(gè)屬性-值對(duì)(attribute-valuepair,又稱AVP)用來(lái)刻畫實(shí)體的內(nèi)在特性，而關(guān)系(relation)用來(lái)連接兩個(gè)實(shí)體，刻畫它們之間的關(guān)聯(lián)。知識(shí)圖譜亦可被看作是一張巨大的

3、圖，圖中的節(jié)點(diǎn)表示實(shí)體或概念，而圖中的邊則由屬性或關(guān)系構(gòu)成。上述圖模型可用W3C提出的資源描述框架RDF2或?qū)傩詧D(propertygraph)3來(lái)表示。知識(shí)圖譜率先由Google提出，以提高其搜索的質(zhì)量。為了更好地理解知識(shí)圖譜，我們先來(lái)看一下其在搜索中的展現(xiàn)形式，即知識(shí)卡片(又稱KnowledgeCard)。知識(shí)卡片旨在為用戶提供更多與搜索內(nèi)容相關(guān)的信息。更具體地說(shuō)，知識(shí)卡片為用戶查詢中所包含的實(shí)體或返回的答案提供詳細(xì)的結(jié)構(gòu)化摘要。從某種意義來(lái)說(shuō)，它是特定于查詢(queryspecific)的知識(shí)圖譜。例如，當(dāng)在搜索引擎中輸入“姚明作為關(guān)鍵詞時(shí)，我們發(fā)現(xiàn)搜索結(jié)果頁(yè)面的右側(cè)原先用于置放廣告的地

4、方被知識(shí)卡片所取代。廣告被移至左上角，而廣告下面則顯示的是傳統(tǒng)的搜索結(jié)果，即匹配關(guān)鍵詞的文檔列表。這個(gè)布局上的微調(diào)也預(yù)示著各大搜索引擎在提高用戶體驗(yàn)和直接返回答案方面的決心?！救笏阉饕骊P(guān)于姚明的知識(shí)卡片(略)】雖說(shuō)三大搜索引擎在知識(shí)卡片的排版和內(nèi)容展現(xiàn)上略有不同，但是它們都列出了姚明的身高、體重、民族等屬性信息。此外，它們均包含“用戶還搜索了或“其他人還搜的功能來(lái)展現(xiàn)相關(guān)的人物。該功能允許用戶去瀏覽其他與姚明相關(guān)的人物的詳細(xì)信息。細(xì)心的讀者也發(fā)現(xiàn)Google在其知識(shí)卡片中也展示了很多與姚明相關(guān)的圖片，以圖文并茂的方式來(lái)展示姚明的方方面面。百度則結(jié)合了百度風(fēng)云榜的信息，列出了姚明的類別(體壇

5、人物)及其百度指數(shù)(今日排名和今日搜索熱度等信息)。在搜索結(jié)果頁(yè)面的左上角(在圖中未給出)，百度還展示了其特有的專題搜索，包含了與姚明相關(guān)的百科、圖片、微博、新聞、音樂(lè)、貼吧和視頻等七大類的結(jié)果，基本涵蓋了用戶最基本的需求。搜狗在列出與姚明相關(guān)的百科、圖片，電影和最新相關(guān)消息等專題的同時(shí)，其知識(shí)卡片額外顯示了諸如“主持電視節(jié)目、“效力籃球隊(duì)、“人物關(guān)系等各種細(xì)粒度的語(yǔ)義關(guān)系。當(dāng)遇到含有歧義的用戶查詢時(shí)，知識(shí)卡片還會(huì)列出其他可能的查詢目標(biāo)對(duì)象。在上面的例子中，搜狗還列出了一項(xiàng)“您是否要找的功能，列出一位也叫姚明的一級(jí)作曲家。該功能用于去歧義，在顯示最相關(guān)實(shí)體的同時(shí)也給出其他可能的對(duì)象，達(dá)到去歧義

6、的作用。當(dāng)搜索“李娜或“長(zhǎng)城時(shí)，Google和百度也在其知識(shí)卡片下方展現(xiàn)了類似的功能。除了給出著名網(wǎng)球運(yùn)動(dòng)員李娜和萬(wàn)里長(zhǎng)城之外，它們還列出歌手李娜和長(zhǎng)城汽車供用戶選擇和瀏覽。更值得一提的是，當(dāng)在搜狗知立方中輸入“姚明的老婆的女兒的身高如此復(fù)雜的查詢時(shí)，其會(huì)直接返回其女兒的姓名(姚沁蕾)以及其身高(110cm),并給出推理說(shuō)明“葉莉的女兒是姚沁蕾。如此詳實(shí)的說(shuō)明不僅為返回的答案提供了很好的解釋，從另一個(gè)側(cè)面也展示了知識(shí)圖譜的強(qiáng)大，其不僅能識(shí)別出運(yùn)動(dòng)員姚明，也能抽取出關(guān)系“老婆和“女兒和屬性“身高等信息。當(dāng)我們將查詢修改為“姚明的妻子的女兒的身高”時(shí)，依然返回相同的結(jié)果，這也意味著知識(shí)圖譜知道“妻

7、子”和“老婆”代表相同的含義。通過(guò)上述的介紹，大家應(yīng)該對(duì)知識(shí)圖譜的表示以及其在搜索中的展現(xiàn)形式有了更深的了解。接著，我將介紹知識(shí)圖譜的構(gòu)建以及如何在搜索中應(yīng)用知識(shí)圖譜返回相應(yīng)的知識(shí)卡片以及答案。知識(shí)圖譜的構(gòu)建知識(shí)圖譜的規(guī)模據(jù)不完全統(tǒng)計(jì)，Google知識(shí)圖譜到目前為止包含了5億個(gè)實(shí)體和35億條事實(shí)(形如實(shí)體-屬性-值，和實(shí)體-關(guān)系-實(shí)體)。其知識(shí)圖譜是面向全球的，因此包含了實(shí)體和相關(guān)事實(shí)的多語(yǔ)言描述。不過(guò)相比占主導(dǎo)的英語(yǔ)外，僅包含其他語(yǔ)言(如中文)的知識(shí)圖譜的規(guī)模則小了很多。與此不同的是，百度和搜狗主要針對(duì)中文搜索推出知識(shí)圖譜，其知識(shí)庫(kù)中的知識(shí)也主要以中文來(lái)描述，其規(guī)模略小于Google的。知識(shí)

8、圖譜的數(shù)據(jù)來(lái)源為了提高搜索質(zhì)量，特別是提供如對(duì)話搜索和復(fù)雜問(wèn)答等新的搜索體驗(yàn)，我們不僅要求知識(shí)圖譜包含大量高質(zhì)量的常識(shí)性知識(shí)，還要能及時(shí)發(fā)現(xiàn)并添加新的知識(shí)。在這種背景下，知識(shí)圖譜通過(guò)收集來(lái)自百科類站點(diǎn)和各種垂直站點(diǎn)的結(jié)構(gòu)化數(shù)據(jù)來(lái)覆蓋大部分常識(shí)性知識(shí)。這些數(shù)據(jù)普遍質(zhì)量較高，更新比較慢。而另一方面，知識(shí)圖譜通過(guò)從各種半結(jié)構(gòu)化數(shù)據(jù)(形如HTML表格)抽取相關(guān)實(shí)體的屬性-值對(duì)來(lái)豐富實(shí)體的描述。此外，通過(guò)搜索日志(querylog)發(fā)現(xiàn)新的實(shí)體或新的實(shí)體屬性從而不斷擴(kuò)展知識(shí)圖譜的覆蓋率。相比高質(zhì)量的常識(shí)性知識(shí)，通過(guò)數(shù)據(jù)挖掘抽取得到的知識(shí)數(shù)據(jù)更大，更能反映當(dāng)前用戶的查詢需求并能及時(shí)發(fā)現(xiàn)最新的實(shí)體或事實(shí)，但

9、其質(zhì)量相對(duì)較差，存在一定的錯(cuò)誤。這些知識(shí)利用互聯(lián)網(wǎng)的冗余性在后續(xù)的挖掘中通過(guò)投票或其他聚合算法來(lái)評(píng)估其置信度，并通過(guò)人工審核加入到知識(shí)圖譜中。百科類數(shù)據(jù)維基百科4，通過(guò)協(xié)同編輯，已經(jīng)成為最大的在線百科全書，其質(zhì)量與大英百科媲美?？梢酝ㄟ^(guò)以下方式來(lái)從維基百科中獲取所需的內(nèi)容：通過(guò)文章頁(yè)面(ArticlePage)抽取各種實(shí)體;通過(guò)重定向頁(yè)面(RedirectPage)獲得這些實(shí)體的同義詞(又稱Synonym);通過(guò)去歧義頁(yè)面(DisambiguationPage)和內(nèi)鏈錨文本(InternalLinkAnchorText)獲得它們的同音異義詞(又稱Homonym);通過(guò)概念頁(yè)面(Category

10、Page)獲得各種概念以及其上下位(subclass)關(guān)系；通過(guò)文章頁(yè)面關(guān)聯(lián)的開(kāi)放分類抽取實(shí)體所對(duì)應(yīng)的類別;通過(guò)信息框(Infobox)抽取實(shí)體所對(duì)應(yīng)的屬性-值對(duì)和關(guān)系-實(shí)體對(duì)。類似地，從百度百科和互動(dòng)百科抽取各種中文知識(shí)來(lái)彌補(bǔ)維基百科中文數(shù)據(jù)不足的缺陷。此外，F(xiàn)reebase5是另一個(gè)重要的百科類的數(shù)據(jù)源，其包含超過(guò)3900萬(wàn)個(gè)實(shí)體(其稱為Topics)和18億條事實(shí)，規(guī)模遠(yuǎn)大于維基百科。對(duì)比之前提及的知識(shí)圖譜的規(guī)模，我們發(fā)現(xiàn)僅Freebase個(gè)數(shù)據(jù)源就構(gòu)成了Google知識(shí)圖譜的半壁江山。更為重要的是，維基百科所編輯的是各種詞條，這些詞條以文章的形式來(lái)展現(xiàn)，包含各種半結(jié)構(gòu)化信息，需要通過(guò)事

11、先制定的規(guī)則來(lái)抽取知識(shí);而Freebase則直接編輯知識(shí)，包括實(shí)體及其包含的屬性和關(guān)系，以及實(shí)體所屬的類型等結(jié)構(gòu)化信息。因此，不需要通過(guò)任何抽取規(guī)則即可獲得高質(zhì)量的知識(shí)。雖然開(kāi)發(fā)Freebase的母公司MetaWeb于2010年被Google收購(gòu)，F(xiàn)reebase還是作為開(kāi)放的知識(shí)管理平臺(tái)獨(dú)立運(yùn)行。所以百度和搜狗也將Freebase加入到其知識(shí)圖譜中。結(jié)構(gòu)化數(shù)據(jù)除了百科類的數(shù)據(jù)，各大搜索引擎公司在構(gòu)建知識(shí)圖譜時(shí)，還考慮其他結(jié)構(gòu)化數(shù)據(jù)。其中，LOD項(xiàng)目在發(fā)布各種語(yǔ)義數(shù)據(jù)的同時(shí)，通過(guò)owl:sameAs將新發(fā)布的語(yǔ)義數(shù)據(jù)中涉及的實(shí)體和LOD中已有數(shù)據(jù)源所包含的潛在同一實(shí)體進(jìn)行關(guān)聯(lián)，從而實(shí)現(xiàn)了手工的

12、實(shí)體對(duì)齊(entityalignment)。LOD不僅包括如DBpedia6和YAG07等通用語(yǔ)義數(shù)據(jù)集，還包括如MusicBrainz8和DrugBank9等特定領(lǐng)域的知識(shí)庫(kù)。因此，Google等通過(guò)整合LOD中的(部分)語(yǔ)義數(shù)據(jù)提高知識(shí)的覆蓋率，尤其是垂直領(lǐng)域的各種知識(shí)。此外，Web上存在大量高質(zhì)量的垂直領(lǐng)域站點(diǎn)(如電商網(wǎng)站，點(diǎn)評(píng)網(wǎng)站等)，這些站點(diǎn)被稱為DeepWeb10。它們通過(guò)動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)將保存在數(shù)據(jù)庫(kù)中的各種領(lǐng)域相關(guān)的結(jié)構(gòu)化數(shù)據(jù)以HTML表格的形式展現(xiàn)給用戶。各大搜索引擎公司通過(guò)收購(gòu)這些站點(diǎn)或購(gòu)買其數(shù)據(jù)來(lái)進(jìn)一步擴(kuò)充其知識(shí)圖譜在特定領(lǐng)域的知識(shí)。這樣做出于三方面原因：其一、大量爬取這些站

13、點(diǎn)的數(shù)據(jù)會(huì)占據(jù)大量帶寬，導(dǎo)致這些站點(diǎn)無(wú)法被正常訪問(wèn);其二、爬取全站點(diǎn)數(shù)據(jù)可能會(huì)涉及知識(shí)產(chǎn)權(quán)糾紛;最后，相比靜態(tài)網(wǎng)頁(yè)的爬取，DeepWeb爬蟲(chóng)需要通過(guò)表單填充(FormFilling)技術(shù)來(lái)獲取相關(guān)內(nèi)容，且解析這些頁(yè)面中包含的結(jié)構(gòu)化信息需要額外的自動(dòng)化抽取算法，具體細(xì)節(jié)在下一節(jié)描述。半結(jié)構(gòu)化數(shù)據(jù)挖掘AVP雖然從DeepWeb爬取數(shù)據(jù)并解析其中所包含的結(jié)構(gòu)化信息面臨很大的挑戰(zhàn)，各大搜索引擎公司仍在這方面投入了大量精力。一方面，Web上存在大量長(zhǎng)尾的結(jié)構(gòu)化站點(diǎn)，這些站點(diǎn)提供的數(shù)據(jù)與最主流的相關(guān)領(lǐng)域站點(diǎn)所提供的內(nèi)容具有很強(qiáng)的互補(bǔ)性，因此對(duì)這些長(zhǎng)尾站點(diǎn)進(jìn)行大規(guī)模的信息抽取(尤其是實(shí)體相關(guān)的屬性-值對(duì)的抽

14、取)對(duì)于知識(shí)圖譜所含內(nèi)容的擴(kuò)展是非常有價(jià)值的。另一方面，中文百科類的站點(diǎn)(如百度百科等)的結(jié)構(gòu)化程度遠(yuǎn)不如維基百科，能通過(guò)信息框獲得AVP的實(shí)體非常稀少，大量屬性-值對(duì)隱含在一些列表或表格中。一個(gè)切實(shí)可行的做法是構(gòu)建面向站點(diǎn)的包裝器(Site-specificWrapper)。其背后的基本思想是：一個(gè)DeepWeb站點(diǎn)中的各種頁(yè)面由統(tǒng)一的程序動(dòng)態(tài)生成，具有類似的布局和結(jié)構(gòu)。利用這一點(diǎn)，我們僅需從當(dāng)前待抽取站點(diǎn)采樣并標(biāo)注幾個(gè)典型詳細(xì)頁(yè)面(DetailedPages)，利用這些頁(yè)面通過(guò)模式學(xué)習(xí)算法(PatternLearning)自動(dòng)構(gòu)建出一個(gè)或多個(gè)以類Xpath表示的模式，然后將其應(yīng)用在該站點(diǎn)的

15、其他詳細(xì)頁(yè)面中從而實(shí)現(xiàn)自動(dòng)化的AVP抽取。對(duì)于百科類站點(diǎn)，我們可以將具有相同類別的頁(yè)面作為某個(gè)“虛擬”站點(diǎn)，并使用類似的方法進(jìn)行實(shí)體AVP的抽取。自動(dòng)學(xué)習(xí)獲得的模式并非完美，可能會(huì)遺漏部分重要的屬性，也可能產(chǎn)生錯(cuò)誤的抽取結(jié)果。為了應(yīng)對(duì)這個(gè)問(wèn)題，搜索引擎公司往往通過(guò)構(gòu)建工具來(lái)可視化這些模式，并人工調(diào)整或新增合適的模式用于抽取。此外，通過(guò)人工評(píng)估抽取的結(jié)果，將那些抽取結(jié)果不令人滿意的典型頁(yè)面進(jìn)行再標(biāo)注來(lái)更新訓(xùn)練樣本，從而達(dá)到主動(dòng)學(xué)習(xí)（ActiveLearning）的目的。d）通過(guò)搜索日志進(jìn)行實(shí)體和實(shí)體屬性等挖掘搜索日志是搜索引擎公司積累的寶貴財(cái)富。一條搜索日志形如查詢，點(diǎn)擊的頁(yè)面鏈接，時(shí)間戳。通過(guò)

16、挖掘搜索日志，我們往往可以發(fā)現(xiàn)最新出現(xiàn)的各種實(shí)體及其屬性，從而保證知識(shí)圖譜的實(shí)時(shí)性。這里側(cè)重于從查詢的關(guān)鍵詞短語(yǔ)和點(diǎn)擊的頁(yè)面所對(duì)應(yīng)的標(biāo)題中抽取實(shí)體及其屬性。選擇查詢作為抽取目標(biāo)的意義在于其反映了用戶最新最廣泛的需求，從中能挖掘出用戶感興趣的實(shí)體以及實(shí)體對(duì)應(yīng)的屬性。而選擇頁(yè)面的標(biāo)題作為抽取目標(biāo)的意義在于標(biāo)題往往是對(duì)整個(gè)頁(yè)面的摘要，包含最重要的信息。據(jù)百度研究者的統(tǒng)計(jì)，90%以上的實(shí)體可以在網(wǎng)頁(yè)標(biāo)題中被找到。為了完成上述抽取任務(wù)，一個(gè)常用的做法是：針對(duì)每個(gè)類別，挑選出若干屬于該類的實(shí)體（及相關(guān)屬性）作為種子（Seeds）,找到包含這些種子的查詢和頁(yè)面標(biāo)題，形成正則表達(dá)式或文法模式。這些模式將被用于

17、抽取查詢和頁(yè)面標(biāo)題中出現(xiàn)的其他實(shí)體及其屬性。如果當(dāng)前抽取所得的實(shí)體未被包含在知識(shí)圖譜中，則該實(shí)體成為一個(gè)新的候選實(shí)體。類似地，如果當(dāng)前被抽取的屬性未出現(xiàn)在知識(shí)圖譜中，則此屬性成為一個(gè)新的候選屬性。這里，我們僅保留置信度高的實(shí)體及其屬性，新增的實(shí)體和屬性將被作為新的種子發(fā)現(xiàn)新的模式。此過(guò)程不斷迭代直到?jīng)]有新的種子可以加入或所有的模式都已經(jīng)找到且無(wú)法泛化。在決定模式的好壞時(shí)，常用的基本原則是盡量多地發(fā)現(xiàn)屬于當(dāng)前類別的實(shí)體和對(duì)應(yīng)屬性，盡量少地抽取出屬于其他類別的實(shí)體及屬性。上述方法被稱為基于Bootstrapping的多類別協(xié)同模式學(xué)習(xí)。從抽取圖譜到知識(shí)圖譜上述所介紹的方法僅僅是從各種類型的數(shù)據(jù)源抽

18、取構(gòu)建知識(shí)圖譜所需的各種候選實(shí)體（概念）及其屬性關(guān)聯(lián)，形成了一個(gè)個(gè)孤立的抽取圖譜（ExtractionGraphs）。為了形成一個(gè)真正的知識(shí)圖譜，我們需要將這些信息孤島集成在一起。下面我對(duì)知識(shí)圖譜挖掘所涉及的重要技術(shù)點(diǎn)逐一進(jìn)行介紹。a）實(shí)體對(duì)齊實(shí)體對(duì)齊（ObjectAlignment）旨在發(fā)現(xiàn)具有不同ID但卻代表真實(shí)世界中同一對(duì)象的那些實(shí)體，并將這些實(shí)體歸并為一個(gè)具有全局唯一標(biāo)識(shí)的實(shí)體對(duì)象添加到知識(shí)圖譜中。雖然實(shí)體對(duì)齊在數(shù)據(jù)庫(kù)領(lǐng)域被廣泛研究，但面對(duì)如此多異構(gòu)數(shù)據(jù)源上的Web規(guī)模的實(shí)體對(duì)齊，這還是第一次嘗試。各大搜索引擎公司普遍采用的方法是聚類。聚類的關(guān)鍵在于定義合適的相似度度量。這些相似度度量

19、遵循如下觀察：具有相同描述的實(shí)體可能代表同一實(shí)體（字符相似）;具有相同屬性-值的實(shí)體可能代表相同對(duì)象（屬性相似）;具有相同鄰居的實(shí)體可能指向同一個(gè)對(duì)象（結(jié)構(gòu)相似）。在此基礎(chǔ)上，為了解決大規(guī)模實(shí)體對(duì)齊存在的效率問(wèn)題，各種基于數(shù)據(jù)劃分或分割的算法被提出將實(shí)體分成一個(gè)個(gè)子集，在這些子集上使用基于更復(fù)雜的相似度計(jì)算的聚類并行地發(fā)現(xiàn)潛在相同的對(duì)象。另外，利用來(lái)自如LOD中已有的對(duì)齊標(biāo)注數(shù)據(jù)(使用owl:sameAs關(guān)聯(lián)兩個(gè)實(shí)體)作為訓(xùn)練數(shù)據(jù)，然后結(jié)合相似度計(jì)算使用如標(biāo)簽傳遞(LabelPropagation)等基于圖的半監(jiān)督學(xué)習(xí)算法發(fā)現(xiàn)更多相同的實(shí)體對(duì)。無(wú)論何種自動(dòng)化方法都無(wú)法保證100%的準(zhǔn)確率，所以

20、這些方法的產(chǎn)出結(jié)果將作為候選供人工進(jìn)一步審核和過(guò)濾。知識(shí)圖譜schema構(gòu)建在之前的技術(shù)點(diǎn)介紹中，大部分篇幅均在介紹知識(shí)圖譜中數(shù)據(jù)層(DataLevel)的構(gòu)建，而沒(méi)有過(guò)多涉及模式層(SchemaLevel)。事實(shí)上，模式是對(duì)知識(shí)的提煉，而且遵循預(yù)先給定的schema有助于知識(shí)的標(biāo)準(zhǔn)化，更利于查詢等后續(xù)處理。為知識(shí)圖譜構(gòu)建schema相當(dāng)于為其建立本體(Ontology)。最基本的本體包括概念、概念層次、屬性、屬性值類型、關(guān)系、關(guān)系定乂域(Domain)概念集以及關(guān)系值域(Range)概念集。在此基礎(chǔ)上，我們可以額外添加規(guī)則(Rules)或公理(Axioms)來(lái)表示模式層更復(fù)雜的約束關(guān)系。面對(duì)

21、如此龐大且領(lǐng)域無(wú)關(guān)的知識(shí)庫(kù)，即使是構(gòu)建最基本的本體，也是非常有挑戰(zhàn)的。Google等公司普遍采用的方法是自頂向下(Top-Down)和自底向上(Bottom-Up)相結(jié)合的方式。這里，自頂向下的方式是指通過(guò)本體編輯器(OntologyEditor)預(yù)先構(gòu)建本體。當(dāng)然這里的本體構(gòu)建不是從無(wú)到有的過(guò)程，而是依賴于從百科類和結(jié)構(gòu)化數(shù)據(jù)得到的高質(zhì)量知識(shí)中所提取的模式信息。更值得一提的是，Google知識(shí)圖譜的Schema是在其收購(gòu)的Freebase的schema基礎(chǔ)上修改而得。Freebase的模式定義了Domain(領(lǐng)域)，Type(類別)和Topic(主題，即實(shí)體)。每個(gè)Domain有若干Type

22、s，每個(gè)Type包含多個(gè)Topics且和多個(gè)Properties關(guān)聯(lián)，這些Properties規(guī)定了屬于當(dāng)前Type的那些Topics需要包含的屬性和關(guān)系。定義好的模式可被用于抽取屬于某個(gè)Type或滿足某個(gè)Property的新實(shí)體(或?qū)嶓w對(duì))。另一方面，自底向上的方式則通過(guò)上面介紹的各種抽取技術(shù)，特別是通過(guò)搜索日志和WebTable抽取發(fā)現(xiàn)的類別、屬性和關(guān)系，并將這些置信度高的模式合并到知識(shí)圖譜中。合并過(guò)程將使用類似實(shí)體對(duì)齊的對(duì)齊算法。對(duì)于未能匹配原有知識(shí)圖譜中模式的類別、屬性和關(guān)系作為新的模式加入知識(shí)圖譜供人工過(guò)濾。自頂向下的方法有利于抽取新的實(shí)例，保證抽取質(zhì)量，而自底向上的方法則能發(fā)現(xiàn)新的

23、模式。兩者是互補(bǔ)的。不一致性的解決當(dāng)融合來(lái)自不同數(shù)據(jù)源的信息構(gòu)成知識(shí)圖譜時(shí)，有一些實(shí)體會(huì)同時(shí)屬于兩個(gè)互斥的類別(如男女)或某個(gè)實(shí)體所對(duì)應(yīng)的一個(gè)Propertyll(如性別)對(duì)應(yīng)多個(gè)值。這樣就會(huì)出現(xiàn)不一致性。這些互斥的類別對(duì)以及FunctionalProperties可以看作是模式層的知識(shí)，通常規(guī)模不是很大，可以通過(guò)手工指定規(guī)則來(lái)定義。而由于不一致性的檢測(cè)要面對(duì)大規(guī)模的實(shí)體及相關(guān)事實(shí)，純手工的方法將不再可行。一個(gè)簡(jiǎn)單有效的方法充分考慮數(shù)據(jù)源的可靠性以及不同信息在各個(gè)數(shù)據(jù)源中出現(xiàn)的頻度等因素來(lái)決定最終選用哪個(gè)類別或哪個(gè)屬性值。也就是說(shuō)，我們優(yōu)先采用那些可靠性高的數(shù)據(jù)源(如百科類或結(jié)構(gòu)化數(shù)據(jù))抽取得

24、到的事實(shí)。另外，如果一個(gè)實(shí)體在多個(gè)數(shù)據(jù)源中都被識(shí)別為某個(gè)類別的實(shí)例，或?qū)嶓w某個(gè)functionalproperty在多個(gè)數(shù)據(jù)源中都對(duì)應(yīng)相同的值，那么我們傾向于最終選擇該類別和該值。注：在統(tǒng)計(jì)某個(gè)類別在數(shù)據(jù)源中出現(xiàn)的頻率前需要完成類別對(duì)齊計(jì)算。類似地，對(duì)于數(shù)值型的屬性值我們還需要額外統(tǒng)一它們所使用的單位。知識(shí)圖譜上的挖掘通過(guò)各種信息抽取和數(shù)據(jù)集成技術(shù)已經(jīng)可以構(gòu)建Web規(guī)模的知識(shí)圖譜。為了進(jìn)一步增加圖譜的知識(shí)覆蓋率，需要進(jìn)一步在知識(shí)圖譜上進(jìn)行挖掘。下面將介紹幾項(xiàng)重要的基于知識(shí)圖譜的挖掘技術(shù)。a）推理推理（Reasoning或Inference）被廣泛用于發(fā)現(xiàn)隱含知識(shí)。推理功能一般通過(guò)可擴(kuò)展的規(guī)則引

25、擎來(lái)完成。知識(shí)圖譜上的規(guī)則一般涉及兩大類。一類是針對(duì)屬性的，即通過(guò)數(shù)值計(jì)算來(lái)獲取其屬性值。例如：知識(shí)圖譜中包含某人的出生年月，我們可以通過(guò)當(dāng)前日期減去其出生年月獲取其年齡。這類規(guī)則對(duì)于那些屬性值隨時(shí)間或其他因素發(fā)生改變的情況特別有用。另一類是針對(duì)關(guān)系的，即通過(guò)（鏈?zhǔn)剑┮?guī)則發(fā)現(xiàn)實(shí)體間的隱含關(guān)系。例如，我們可以定義規(guī)定：岳父是妻子的父親。利用這條規(guī)則，當(dāng)已知姚明的妻子（葉莉）和葉莉的父親（葉發(fā)）時(shí)，可以推出姚明的岳父是葉發(fā)。b）實(shí)體重要性排序搜索引擎識(shí)別用戶查詢中提到的實(shí)體，并通過(guò)知識(shí)卡片展現(xiàn)該實(shí)體的結(jié)構(gòu)化摘要。當(dāng)查詢涉及多個(gè)實(shí)體時(shí)，搜索引擎將選擇與查詢更相關(guān)且更重要的實(shí)體來(lái)展示。實(shí)體的相關(guān)性度量

26、需在查詢時(shí)在線計(jì)算，而實(shí)體重要性與查詢無(wú)關(guān)可離線計(jì)算。搜索引擎公司將PageRank算法12應(yīng)用在知識(shí)圖譜上來(lái)計(jì)算實(shí)體的重要性。和傳統(tǒng)的WebGraph相比，知識(shí)圖譜中的節(jié)點(diǎn)從單一的網(wǎng)頁(yè)變成了各種類型的實(shí)體，而圖中的邊也由連接網(wǎng)頁(yè)的超鏈接（Hyperlink）變成豐富的各種語(yǔ)義關(guān)系。由于不同的實(shí)體和語(yǔ)義關(guān)系的流行程度以及抽取的置信度均不同，而這些因素將影響實(shí)體重要性的最終計(jì)算結(jié)果，因此，各大搜索引擎公司嵌入這些因素來(lái)刻畫實(shí)體和語(yǔ)義關(guān)系的初始重要性，從而使用帶偏的PageRank算法（BiasedPageRank）。c）相關(guān)實(shí)體挖掘在相同查詢中共現(xiàn)的實(shí)體，或在同一個(gè)查詢會(huì)話（Session）中被

27、提到的其他實(shí)體稱為相關(guān)實(shí)體。一個(gè)常用的做法是將這些查詢或會(huì)話看作是虛擬文檔，將其中出現(xiàn)的實(shí)體看作是文檔中的詞條，使用主題模型（如LDA）發(fā)現(xiàn)虛擬文檔集中的主題分布。其中每個(gè)主題包含1個(gè)或多個(gè)實(shí)體，這些在同一個(gè)主題中的實(shí)體互為相關(guān)實(shí)體。當(dāng)用戶輸入查詢時(shí)，搜索引擎分析查詢的主題分布并選出最相關(guān)的主題。同時(shí)，搜索引擎將給出該主題中與知識(shí)卡片所展現(xiàn)的實(shí)體最相關(guān)的那些實(shí)體作為“其他人還搜了”的推薦結(jié)果。知識(shí)圖譜的更新和維護(hù)a）Type和Collection的關(guān)系知識(shí)圖譜的schema為了保證其質(zhì)量，由專業(yè)團(tuán)隊(duì)審核和維護(hù)。以Google知識(shí)圖譜為例，目前定義的Type數(shù)在103-104的數(shù)量級(jí)。為了提高知

28、識(shí)圖譜的覆蓋率，搜索引擎公司還通過(guò)自動(dòng)化算法從各種數(shù)據(jù)源抽取新的類型信息（也包含關(guān)聯(lián)的Property信息），這些類型信息通過(guò)一個(gè)稱為Collection的數(shù)據(jù)結(jié)構(gòu)保存。它們不是馬上被加入到知識(shí)圖譜schema中。有些今天生成后第二天就被刪除了，有些則能長(zhǎng)期的保留在Collection中，如果Collection中的某一種類型能夠長(zhǎng)期的保留，發(fā)展到一定程度后，由專業(yè)的人員進(jìn)行決策和命名并最終成為一種新的Type。b）結(jié)構(gòu)化站點(diǎn)包裝器的維護(hù)站點(diǎn)的更新常常會(huì)導(dǎo)致原有模式失效。搜索引擎會(huì)定期檢查站點(diǎn)是否存在更新。當(dāng)檢測(cè)到現(xiàn)有頁(yè)面（原先已爬?。┌l(fā)生了變化，搜索引擎會(huì)檢查這些頁(yè)面的變化量，同時(shí)使用最新的

29、站點(diǎn)包裝器進(jìn)行AVP抽取。如果變化量超過(guò)事先設(shè)定的閾值且抽取結(jié)果與原先標(biāo)注的答案差別較大，則表明現(xiàn)有的站點(diǎn)包裝器失效了。在這種情況下，需要對(duì)最新的頁(yè)面進(jìn)行重新標(biāo)注并學(xué)習(xí)新的模式，從而構(gòu)建更新的包裝器。c）知識(shí)圖譜的更新頻率加入到知識(shí)圖譜中的數(shù)據(jù)不是一成不變的。Type對(duì)應(yīng)的實(shí)例往往是動(dòng)態(tài)變化的。例如，美國(guó)總統(tǒng)，隨著時(shí)間的推移，可能對(duì)應(yīng)不同的人。由于數(shù)據(jù)層的規(guī)模和更新頻度都遠(yuǎn)超schema層，搜索引擎公司利用其強(qiáng)大的計(jì)算保證圖譜每天的更新都能在3個(gè)小時(shí)內(nèi)完成，而實(shí)時(shí)的熱點(diǎn)也能保證在事件發(fā)生6個(gè)小時(shí)內(nèi)在搜索結(jié)果中反映出來(lái)。d）眾包（Crowdsourcing）反饋機(jī)制除了搜索引擎公司內(nèi)部的專業(yè)團(tuán)隊(duì)對(duì)構(gòu)建的知識(shí)圖譜進(jìn)行審核和維護(hù)，它們還依賴用戶來(lái)幫助改善圖譜。具體來(lái)說(shuō)，用戶可以對(duì)搜索結(jié)果中展現(xiàn)的知識(shí)卡片所列出的實(shí)體相關(guān)的事實(shí)進(jìn)行糾錯(cuò)。當(dāng)很多用戶都指出某個(gè)錯(cuò)誤時(shí)，搜索引擎將采納并修正。這種利用群體智慧的協(xié)同式知識(shí)編

人人文庫(kù)> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能-知識(shí)圖譜機(jī)器大腦中的知識(shí)庫(kù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔