中國知識圖譜行業(yè)發(fā)展現狀及展望_第1頁
中國知識圖譜行業(yè)發(fā)展現狀及展望_第2頁
中國知識圖譜行業(yè)發(fā)展現狀及展望_第3頁
中國知識圖譜行業(yè)發(fā)展現狀及展望_第4頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

中國知識圖譜行業(yè)發(fā)展現狀及展望一、知識圖譜的定義及分類知識圖譜本質上是一種把世界實體和實體關系進行相互關聯的語義網絡,其中的節(jié)點表示實體,邊則代表實體之間的各種語義關系。在學術論文中,則根據應用場景和技術背景等,對于知識圖譜提出了很多不同的定義??傮w來看,雖然知識圖譜沒有統一的定義,但是公認的知識圖譜的概念應該包括如下幾個基本要素:知識節(jié)點(從實際對象抽象而來)、邊(節(jié)點間的關系,由實際關系抽象而來)和對象的數量(節(jié)點和邊的數量要足夠大)。知識圖譜可以從不同的角度可以將其分為不同的類型,比如從構建方法、構建技術、使用方式等。目前比較常用的分類方法是從應用目標出發(fā),將其分為通用知識圖譜和垂直知識圖譜。通用知識圖譜不面向特定的領域,強調的是知識的廣度,包含了大量的常識性知識;而垂直知識圖譜則面向特定領域,強調的是知識的深度,包含的某個領域的特色知識。二、知識圖譜的架構1、邏輯架構知識圖譜的邏輯結構可以分為模式層和數據層兩部分。模式層在數據層之上,存儲的是經過提煉的知識,通常采用本體等技術來管理。模式層借助本體庫對公理、規(guī)則和約束條件的支持能力來規(guī)范實體、關系以及實體類型和屬性等對象之間的聯系。數據層則主要由一系列的事實組成,知識則是以事實為單位進存儲。在知識圖譜的數據層,知識可以用事實為單位進行存儲,也可以采用“實體-關系-實體”或者“實體-屬性-性值”的三元組作為存儲方式。2、技術架構知識圖譜的構建方式可以分為自頂向下和自底向上兩種。自頂向下的構建方式從結構化資源出發(fā),通過從資源中抽取本體和模式信息,不斷地加入到知識庫中;自底向上的構建方法則是從公開的資源中采取技術手段獲取資源,并對資源進行人工審核后再加入知識庫中。對于通用知識圖譜的構建來講,因為具有大量百科類網址資源的存在,為其提供了高質量的數據源,可以首先建立起良好的體系架構,然后從數據源中抽取所需的數據,將其填充到合理的位置中即可。目前通用的知識圖譜都非常依賴這種方法,也非常依賴高質量的數據源。而自底向上的構建方法首先面對的可能是大量的結構不良甚至是無結構的數據,這在實際處理中是非常困難的。后來隨著知識抽取技術的發(fā)展,自底向上的構建方式才逐漸流行起來。但是由于垂直領域知識具有更為嚴格的層次結構和表達形式,傳統的自頂向下或者自底向上方式都不適合直接用來構建知識圖譜。阮彤等人提出了基于數據驅動的增量式知識圖譜構建方法。該方法通過自頂向下的方式構建知識圖譜的模式圖,采用自底向上的方式構建數據圖,即保證了知識的層次性,又為數據抽取的質量提供了保障。三、知識圖譜的關鍵技術無論圖譜的構建模式如何(自頂向下或者自底向上),其中的關鍵技術都是相同的。從下圖中可以看出,知識抽取、知識融合、知識推理和知識應用等都是知識圖譜體系中的關鍵技術。需要指出的是,垂直領域知識圖譜是源于通用知識圖譜且根植于特定行業(yè),所以其構建中的關鍵技術與通用知識圖譜相對比,既具有類似性也具有獨特的特點。四、國內垂直領域知識圖譜現狀知識圖譜作為一種基礎性資源,在促進國民經濟各個行業(yè)的知識化方面具有重要的意義。國內目前對于知識圖譜的應用種類繁多,在電商平臺、企業(yè)信息、科技情報、創(chuàng)業(yè)投資、農林科技、醫(yī)療衛(wèi)生、工業(yè)應用、影音娛樂等不同領域均有應用。國內企業(yè)界對于知識圖譜的研究目前非?;钴S,特別是一些大型的互聯網企業(yè),對于知識圖譜的需求是非常強烈的。例如百度的知識圖譜自從2014年上線開始,業(yè)務規(guī)模三年間增長了大約160倍;搜狗借助基于知識圖譜的AI技術,使得其移動端的搜索流量取得了快速增長;騰訊則利用自己的數據優(yōu)勢構建了自己的社交知識圖譜,服務于眾多的產品;基于知識圖譜的個性化推薦系統則為阿里的營收增長起到了至關重要的作用。相比較于與BAT(百度、騰訊、阿里巴巴)這類大公司而言,垂直知識領域則是國內創(chuàng)業(yè)公司的首選。為了彌補自己的專業(yè)領域數據不足等劣勢,國內的創(chuàng)業(yè)公司往往選擇和相關領域的企業(yè)合作,以垂直領域作為市場切入點,以行業(yè)數據和知識圖譜相關技術(如自然語言處理,大數據等)作為壁壘來保證企業(yè)的成長。各類企業(yè)的積極參與,使得國內業(yè)界的知識圖譜可以形成一個良性的閉環(huán)發(fā)展模式,進一步促進了知識圖譜本身的發(fā)展。五、基于CiteSpace軟件的研究相比較而言,更多的研究人員將CiteSpace作為一個工具,對不同領域的問題進行了多視角的分析探討。經過統計分析,目前管理科學領域,如圖書情報學、管理科學與工程、公共管理與工商管理等,占據了應用領域的大部分,其余的則分布在人文社科等領域。但是隨著該工具的應用的普及,在自然科學領域的應用也在迅速發(fā)展。從應用方式上看,主要表現選擇特定領域,采用CNKI或者WebofScience的數據庫,搜集數據,然后對該領域進行分析。六、知識圖譜行業(yè)發(fā)展展望國民經濟的各個垂直領域對于知識圖譜的需求是非常強烈的,知識圖譜可以應用的范圍也是非常廣闊的,因此建設垂直領域知識圖譜對于經濟社會發(fā)展是非常有必要的。目前在垂直領域,知識圖譜應用的范圍還是較窄的,集中在一些可以迅速見到效益的領域(如電商、搜索等),且應用的深度不夠,多是集中在圖譜的構建上,還未在行業(yè)中真正形成使用和建設的良性循環(huán)。在未來,知識圖譜應該作為和國家標準一樣的基礎知識資

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論