基于Ontology的知識庫研究及其在數字圖書館中的應用_第1頁
基于Ontology的知識庫研究及其在數字圖書館中的應用_第2頁
基于Ontology的知識庫研究及其在數字圖書館中的應用_第3頁
基于Ontology的知識庫研究及其在數字圖書館中的應用_第4頁
基于Ontology的知識庫研究及其在數字圖書館中的應用_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于Ontology的智能檢索技術研究與實踐 基金項目:本文受中國科學院西部之光項目:基于本體的天然藥物知識推理系統的設計與應用;中國科學院知識創(chuàng)新工程青年人才領域前沿項目:基于本體的智能檢索技術探索與實踐資助。作者簡介:1胡正銀,男,研究生,1979,中國科學院國家科學圖書館成都分館(成都文獻情報中心)信息技術部工程師,四川大學公共管理學院情報學碩士研究生,已發(fā)表論文6篇。研究方向:知識管理與數據挖掘。通信地址:四川省成都市人民南路四段九號中國科學院成都文獻情報中心。聯系電話Email:。2方曙,男,博士,1957,中科院國家科學圖書館

2、副館長,成都分館館長,中科院研究生院情報學博士生導師、四川大學公共管理學院情報學碩士研究生導師,已發(fā)表論文60余篇。研究方向:知識管理與情報分析。3鄭穎, 女 ,博士,1973,中科院國家科學圖書館副研究員,已經發(fā)表論文多篇。研究方向:知識管理與情報分析。4鐘秀琴,女 ,博士,1976,中科院成都計算機應用研究所,副研究員,已經發(fā)表論文多篇。研究方向:知識庫。Method of Development and Architecture of an Ontology-Based intelligent retrieval System胡正銀1,2 ,方曙2 ,鄭穎2,鐘秀琴3(1. 四川大學公共

3、管理學院,成都 610041;2. 中科院國家科學圖書館成都分館,3. 中科院成都計算機應用研究所,成都 610041)【摘 要】:本文在調研基于本體智能檢索相關技術的基礎上,總結和討論了其建設方法與體系結構?;诒倔w的智能檢索系統體系結構從下至上可分為:數據層、語義圖層、推理層、查詢層、接口層。論文具體討論了一個基于中醫(yī)藥本體的實驗性智能檢索系統實現的詳細過程,重點論述了語義圖層、推理層的技術實現,并指出了在實際建設中需注意的一些問題?!娟P鍵詞】:本體;智能檢索;知識庫;推理規(guī)則【中圖分類號】 G250 【文章標識碼】 A1、 引言傳統的學科信息門戶多提供基于學科分類的資源導航服務與基于關鍵

4、詞匹配的檢索服務,由于信息之間缺乏語意的關聯,因此很難提供基于知識的服務?;诒倔w的智能檢索技術在傳統的關鍵詞匹配檢索的基礎上,通過添加了語義層,可實現基于語義的智能檢索,目前已成為研究的熱點1。雖然基于ontology的智能檢索技術研究仍處于發(fā)展的前期,還有很多研究難題,但其已經引起了包括圖書情報界在內的廣泛關注。2、 智能檢索系統體系結構以語義網七層體系結構為參考,基于本體的智能檢索系統結構如下2 :接口層(提供用戶和應用程序接口)查詢層(在語義圖的基礎上,實現智能查詢)推理層(提供基于規(guī)則的知識推理和知識發(fā)現的功能)語義圖層(對概念進行語義描述,用定義的關系連接各種概念,并對數據庫中的資

5、源進行語義映射,建立領域知識的核心語義圖)數據層(有機地整合多源數據和通用本體,并提供遠程訪問接口)圖1 基于本體的智能檢索系統體系結構圖Fig 1 “ontology-based intelligent retrieval” architecture diagram1、數據層:有機地整合多源數據及通用本體等,并提供遠程訪問其它相關數據的接口。2、語義圖層:在已有數據庫及文獻資料等資源的基礎上,采用RDF,OWL等描述語言對數據庫的各類數據和資源進行語義描述和關系映射,建立一個領域知識的核心語義圖。該語義圖可擴展、可讀寫、可推導。逐步構建領域的本體3。3、推理層:推理規(guī)則的提取與描述,利用推理

6、引擎如:Jena或RacePro或RDF Prolog等,實現知識推理和新知識發(fā)現的功能。4、查詢層:在語義圖的基礎上,利用推理功能,根據數字圖書館知識服務的需要,可建立知識查詢服務。5、接口層:在一個查詢界面下實現跨數據庫查詢和數據整合,使得用戶查詢更加便利和全面,提供用戶和應用程序接口。3、 智能檢索實驗性系統的實現本文以AllegroGraph知識庫管理系統為基礎,以AllegroGraph知識庫系統自帶的RDF Prolog語言作為推理規(guī)則描述語言,在Java環(huán)境下實現了一個基于中醫(yī)藥本體的智能檢索演示系統,具體方案描述如下: 1、 數據層:在中藥專家的指導下,以中國中醫(yī)藥主題詞表4

7、,中國大百科全書中醫(yī)5中醫(yī)卷,國科圖成都分館自建的天然藥物數據庫相關內容,作為本系統的數據源。主要涉及的數據包括:中草藥的分類及其味,性,效等屬性;中藥方劑分類療效及組成等屬性;中醫(yī)病癥的癥狀等屬性。2、 語義圖層:采用OWL描述語言對數據層數據進行描述,建立本體文件。該本體包含相關概念之間的關系及部分中草藥,中藥方劑實例的映射關系,形成該領域核心語義圖。在本體的建設過程中,根據中醫(yī)藥主題詞表的分類標準,采用自上而下的設計方法。如在定義中草藥類時,先定義中草藥類,然后按照其療效分別定義:安神藥,補益藥,解表藥等類,最后才在子類下面定義具體中草藥實例4 5。中草藥本體的結構設計如圖2:中醫(yī)藥實驗

8、本體方劑清熱劑開竅劑安神劑清熱祛濕劑清臟府熱劑清熱解毒劑八正散白頭翁湯黃連解毒湯柏子養(yǎng)心丸中草藥解表藥辛涼解表藥辛溫解表藥白芷薄荷補益藥補氣藥補血藥白及白芍開竅藥安息香中醫(yī)病癥陰陽癥候虛實癥候寒熱癥候六經癥候寒證化熱肝火犯肺陽盛格陰太陽中風圖2 中草藥實驗本體結構圖Fig 2 “herb demo ontology” architecture diagram其中中藥類特定屬性包括:品名、別名、性(寒、熱、溫、涼)味(辛、甘、酸、苦、咸)、功效、應用等;方劑類的特定屬性包括:成份、主治等;中醫(yī)病癥類的特定屬性包括:癥狀等。在設計概念及實例之間相互關系時,除了owl中內置的上下位關系 subcla

9、ssof 、同一關系:SameAs、 類-實例關系:Individual外,部分定制關系如表1:表1 本體部分屬性Table1 Part of the Meridians Ontologys Attributes謂詞DomainRange舉例iscomponent中草藥方劑陳皮是純陽正氣丸配方的一部分usezy方劑中草藥純陽正氣丸配方中有陳皮這味藥cancure方劑病癥純陽正氣丸能治療寒濕癥transfer病癥病癥寒熱癥可轉換成為寒濕癥使用Protg或TBC編輯器建立本體文件。目前本體數據持久化主要有三種方式:文件存儲、傳統關系型數據庫存儲、RDF三元組存儲6 7 8 :表2 本體數據持久化方

10、式Table2 Method of the ontology storage持久化方式特點文件存儲輕便快捷,適合于小型的本體庫。不需要過多的配置,便于備份,復制,編輯,且查詢速度快。缺點在于不適合較大的本體庫,每次都需要讀入內存進行操作,缺乏單獨的索引機制,且對于模型的修改需要一次性保存全部模型,效率不高傳統關系型數據庫存儲可處理更大更復雜的本體模型,標準的查詢接口,容易使用。但當本體模型變化時,需要底層改動數據庫結構,使得維護,擴展困難,在推理方面,效率低下。針對RDBMS不能有效適應本體模型變化的缺點,技術上常用是一種改進方案:數據存儲與本體模型存儲相分離,即:RDBMS只存儲基本的數據信

11、息,本體模型采用單獨的本體Schema文件保存,當查詢時,根據事實庫中的已有事實,加載規(guī)則庫中的規(guī)則,從而推理出新的事實,并將新的事實加入到OWL知識庫中,實現了 OWL知識庫內容的更新與擴充RDF三元組存儲專門針對本體存儲,知識推理開發(fā)設計。有利于存儲非結構化數據,適應本體知識的不斷變化與累積,高效的索引與搜索性能,允許智能推理。其缺點是:檢索,推理需要單獨的語言,如:SPARQL、Prolog,標準化管理界面缺乏,相關技術人員缺乏經分析比較,本系統采用專門的RDF三元組存儲系統AllegroGraph實現本體數據的持久化保存。我們認為:專門的ontology知識庫管理系統必將越來越成熟,成

12、為建立知識庫的首選。3、推理層: 雖然使用OWL語言可以較好的描述領域之間知識的關系,但是在描述一般形式的規(guī)則時,需要進行復雜的描述,如純粹使用OWL來描述本體之間的關系,將給知識檢索性能帶來一定的影響。而通過在語義層的基礎上,添加一個推理層,可以較好的解決該問題9 。推理層采用的推理機有如下類型 8 9 10:表3 推理機類型Table3 Kind of the Reasoners推理機類型特點Transitive reasoner傳遞推理是指基于具有傳遞特性的屬性進行的推理,這種推理比較簡單,也很容易實現RDFS rule reasoner基于RDFS約束的子集的推理實現OWL/OWL m

13、ini/OWL micro reasoners基于OWL/Full子集的不完全實現DAML micro reasoner基于DAML的微型推理機Generic rule reasoner泛化規(guī)則引擎是基于規(guī)則的,支持用戶的自定義本實驗性系統采用泛化規(guī)則方式實現推理,具體來說采用AllegroGraph知識庫系統自帶的RDF Prolog語言作為推理規(guī)則描述語言,來建立推理層。Prolog作為一種邏輯編程語,建立在邏輯學理論基礎之上,最初被運用于自然語言等研究領域?,F在已廣泛的應用在人工智能、專家系統、自然語言理解、智能知識庫研究中11 ?,F將部分推理規(guī)則描述如下:zyonto是在系統中定義的語

14、義層本體命名空間,以下分別用ZY、ZYFJ、ZYBZ定義在推理規(guī)則中中草藥,中藥方劑,中藥病癥簡稱:- (ZY ?x) (q ?x ! rdf:type !zyonto:zy)- (ZYFJ ?y) (q ?y ! rdf:type !zyonto:zyfj)- (ZYBZ ?z) (q ?z ! rdf:type !zyonto:zybz)以下定義推理規(guī)則中基本關系:定義關系:iscomponent:Prolog描述:(- (iscomponent ?x ?y) (ZY ?x)(ZYFJ ?y) (q ?x !zyonto: iscomponent ?y)關系說明:如果x是一種中草藥,y是一

15、種中藥方劑,且x的iscomponent值為y,那么x與y的關系為iscomponent;定義關系: usezy:Prolog描述:(- (usezy ?y ?x) (ZYFJ ?y)(ZY ?x) (q ?y !zyonto: usezy ?x)或者:(- (usezy ?y ?x) (iscomponent ?x ?y)關系說明:如果x與y的關系是iscomponent,那么y與x的關系為usezy;定義關系:cancure:Prolog描述:(- (cancure ?y ?z) (ZYFJ ?y)(ZYBZ ?z) (q ?y !zyonto: cancure ?z)關系說明:如果y是一

16、種中藥方劑,z是一種中醫(yī)病癥,且y的cancure值為z,那么y與z的關系為cancure;以上三種關系本身存在與語義層的定義中(即存在于OWL文件中),在推理層中重新定義,是為了給進一步復雜的關系推理提供基礎?,F在其基礎上定義復雜關系:定義關系:haseffect:Prolog描述:(- (haseffect ?x ?z) (iscomponent ?x ?y) (cancure ?y ?z)關系說明:如果中藥方劑y能治療病癥z,且中藥方劑y配方中包含中草藥x, 那么中草藥x可能對病癥z有療效??赡苡携熜б?guī)則:haseffect是在語義層基本定義的基礎上推理出來的,當語義層的基本屬性定義足夠

17、多時,可以利用這些屬性編寫出很多復雜的推理規(guī)則存儲在推理層,以供查詢層直接調用。這樣做的好處是:一方面可以簡化語義層的定義工作,避免本體文件變得龐大和不可讀;另一方面有利于查詢層的封裝與調用,否則每次查詢層進行檢索時,都要直接利用語義層定義的屬性進行推理,效率低下。4、查詢層: 查詢層是面向知識服務的核心應用,不同于傳統的信息檢索,基于本體的智能檢索系統中可對用戶的查詢關鍵詞經過一組推理操作,實現同義、上下位及平級擴展 ,形成語義豐富的擴展 概念集,再提交搜尋12。5、接口層: 本系統采用JSP開發(fā)了一個演示性用戶界面,用戶可以進行一些簡單的智能檢索,如:針對寒濕癥狀可能有療效的中草藥有哪些等

18、,在此不再贅述。4、 需要注意的問題1、本體與規(guī)則的結合:單純使用OWL來描述領域知識間的關系,其表達能力局限于描述邏輯,在描述一般形式的規(guī)則時,需要進行很復雜的描述,會給本體建設與知識檢索性能都帶來很大的影響9。建議在實際系統建設中,將推理層單獨獨立出來,使用高效的推理規(guī)則描述語言如:RDF Prolog等來對語義層基本關系重新描述,并通過對這些基本關系進行重新組合生成更復雜的關系。而不要將所有的關系試圖全部在語義層中進行描述。2、 采用專門的知識庫存儲系統:關系數據庫系統對交易數據和數據分類很有效,但是處理關聯數據(大多數的知識都屬這一類)時就有所欠缺。此外RDBMS對知識的開放式管理支持

19、有限,當新的知識添加或修改時,很有可能涉及到數據庫底層數據結構的修改,不適合于知識的管理。對知識庫底層知識的存儲與管理,建議使用專門的知識存儲與管理系統,如:AllegroGraph等6。5、 結語基于本體的智能檢索技術是目前一個比較熱門的研究熱點,國內外很多機構、學者對此進行了大量研究。其涉及的內容與技術較多,還沒有形成統一的模式與規(guī)范。本文在系統調研基于本體的智能檢索技術相關技術與方法的基礎上,結合基于本體的天然藥物知識推理系統的設計與應用項目研究,設計了一個簡單的智能檢索系統,并指出了在建設過程中應注意的一些問題。由于在中醫(yī)領域,目前尚未建立一套完整、系統的本體庫,本文中涉及到的中醫(yī)藥本體尚在進行當中,并不完善,因此該智能檢索系統推理規(guī)則有限,智能檢索應用也受到一定的限制。本文希望通過描述智能檢索系統建設全過程,對基于本體的智能檢索應用開發(fā)起到拋磚引玉的作用。 參考文獻1 楊建林. 網格環(huán)境下的信息檢索J. 情報理論與實踐 ,2007,(30卷3期):88-942 李潔,丁穎. 語義網關鍵技術概述J. 計算機工程與設計 ,2007,(28卷8期):1831-18363 田稷語義網與網絡信息和知識的表達J情報雜志,2003;(6)4 吳蘭成. 中國中醫(yī)藥主題詞表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論