基于本體的專題知識庫智能檢索系統(tǒng)研究_以張謇研究知識庫檢索系統(tǒng)實現(xiàn)為例_第1頁
基于本體的專題知識庫智能檢索系統(tǒng)研究_以張謇研究知識庫檢索系統(tǒng)實現(xiàn)為例_第2頁
基于本體的專題知識庫智能檢索系統(tǒng)研究_以張謇研究知識庫檢索系統(tǒng)實現(xiàn)為例_第3頁
基于本體的專題知識庫智能檢索系統(tǒng)研究_以張謇研究知識庫檢索系統(tǒng)實現(xiàn)為例_第4頁
基于本體的專題知識庫智能檢索系統(tǒng)研究_以張謇研究知識庫檢索系統(tǒng)實現(xiàn)為例_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、78基金項目Vol .52,No .4,April ,2008LIBRARYANDINFORMATIONSERVICE錢智勇南通大學圖書館南通226016摘要以基于本體的張謇研究知識庫智能檢索系統(tǒng)開發(fā)為例,探討基于本體的專題領域知識庫智能檢索系統(tǒng)的框架結(jié)構(gòu)、工作流程以及功能實現(xiàn)。系統(tǒng)采用語義Web 技術(shù)和智能Agent 技術(shù),使用RDF 模型對知識庫的Web 頁面元數(shù)據(jù)進行描述,然后利用本體建模語言對張謇研究領域知識進行建模,根據(jù)所得到的本體對元數(shù)據(jù)進行基于語義的查詢,為用戶提供智能檢索服務。關鍵詞本體知識檢索智能檢索知識庫分類號G250.6ResearchonIntelligentRetri

2、evalSystemofOntology-basedKnowledgeDatabaseTaking Zhang Jians Research on the Realization of knowledge Database Retrieval System as an ExampleQianZhiyongThe library of the Nantong University, Nantong 226016AbstractThispaperdiscussestheframework,workflowandfunctionrealizationofontology-basedintellige

3、ntknowledgeretrievalsysteminthethematicareabasedonthedevelopmentexampleofZhangJians Researchofontology-basedKnowledgedatabaseretrievalsystem.Adopting semanticWebandintelligentagenttechnologies,thesystemdescribeswebpagemetadataofknowledgedatabasewithRDFmodel,modelsthe knowledgeoftheZhangJians Researc

4、hthematicareainontologymodelinglanguage,andthenoffersintelligentretrievalservicestoinquirethe semanticmetadatabasedontheontology.Keywordsontologyknowledgeretrievalintelligentretrievalknowledgedatabase基于本體的專題知識庫智能檢索系統(tǒng)研究*以張謇研究知識庫檢索系統(tǒng)實現(xiàn)為例*本文系江蘇省教育廳社科基金資助項目“張謇研究本體知識庫組織與實現(xiàn)”(項目編號:05SJB870003研究成果之一。收稿日期:20

5、07-08-27修回日期:2007-10-18本文起止頁碼:78-80,141本文責任編輯:郭屹1引言從本體論的基本概念出發(fā),哲學上把本體論定義為”對世界上客觀事物所進行的系統(tǒng)描述”。將本體論引入信息科學,本體論是對概念化對象的一種表示和描述,在計算機領域是指定義元數(shù)據(jù)及其相關關系的“規(guī)范”1。由于本體具有良好的概念層次結(jié)構(gòu)和邏輯推理的支持,因而在信息檢索,特別是在基于知識的檢索中得到了廣泛的應用。知識檢索也稱語義檢索,是把信息檢索與人工智能技術(shù)、自然語言技術(shù)相結(jié)合的檢索,它從語義理解的角度分析信息對象與檢索者的檢索請求,是一種基于概念及其相關關系的檢索匹配機制2。知識庫是事實、規(guī)則和概念的集

6、合,從存儲知識的角度來看,以描述型方法來存儲和管理知識的機構(gòu)叫做知識庫。張謇是中國近代著名實業(yè)家、教育家,他是清末最后一位狀元,曾任民國政府實業(yè)總長,是一位探索強國之路的開路先鋒。他倡導實業(yè)救國的思想,在經(jīng)濟、教育、文化、城市建設、社會保障、地方自治等諸多領域創(chuàng)造了十多項全國第一,他創(chuàng)建了中國近代第一城南通(中國人自主規(guī)劃建設的第一座近代城市,研究張謇對于今天的城市經(jīng)濟、教育、文化協(xié)調(diào)發(fā)展,實現(xiàn)科學可持續(xù)發(fā)展具有重要意義。張謇研究知識庫對張謇研究知識沉淀(包括南通大學檔案館、圖書館和博物館的張謇研究原始資料進行數(shù)字化語義處理并在張謇研究領域?qū)<业闹笇逻M行概念分類標注,組織到知識庫中,形成張謇

7、研究領域概念集,組織存儲并實現(xiàn)Web 服務功能3。2基于本體論的張謇研究領域知識庫智能檢索系統(tǒng)功能需求實現(xiàn)對世界各地張謇研究領域用戶的查詢請求分析本地表達化,使得要查詢的概念不存在模糊不清的地方,具體表現(xiàn)在用戶向系統(tǒng)提出查詢請求后,系統(tǒng)能將查詢請求中基金項目圖書情報工作第52卷第4期2008年4月的本體取出來,然后進行基于本體的語義搜索。系統(tǒng)應能對用戶如何更好地利用已建成的張謇研究本體知識庫中的知識給予搜索提示,幫助用戶更好地使用本體進行查詢。系統(tǒng)應能找出查詢本體中隱含的語義,實現(xiàn)智能檢索,即系統(tǒng)能根據(jù)用戶的檢索條件,進行智能語義推理,可檢索出與檢索條件具有相同語義信息的知識。3基于本體論的領

8、域知識庫智能檢索系統(tǒng)結(jié)構(gòu)和工作流程3.1基于本體論的領域知識庫智能檢索系統(tǒng)結(jié)構(gòu)基于知識庫的語義Web環(huán)境下,知識庫的信息資源已進行了語義標注。在此環(huán)境下,本系統(tǒng)應完成的任務是:自動抽取關于領域知識內(nèi)容描述的元數(shù)據(jù),并將這些元數(shù)據(jù)進行存儲;對用戶提交的關鍵詞進行語義匹配和語義相關性擴展,形成符合特定Ontology語言的查詢語句;通過對數(shù)據(jù)庫中存儲的領域知識庫元數(shù)據(jù)信息的查詢,得到高效的基于語義的領域知識檢索結(jié)果。上述任務可劃分為元數(shù)據(jù)收集、數(shù)據(jù)預處理、元數(shù)據(jù)存儲、基于Ontology的知識推理和用戶查詢、控制調(diào)度等6個主要功能。本文將整個系統(tǒng)框架劃分為6個部分,每個部分的功能由一類Agent實

9、現(xiàn),這6類Agent通過協(xié)同工作,共同完成整個檢索任務。本系統(tǒng)的總體結(jié)構(gòu)如圖1所示4:領域知識內(nèi)容的元數(shù)據(jù)(包括知識庫存儲的描述內(nèi)容信息和帶描述信息的頁面WEB信息進行信息提取和過濾,把收集到的元數(shù)據(jù)經(jīng)過預處理Agent進行處理后交由存儲Agent;存儲Agent接收語義元數(shù)據(jù),將這些元數(shù)據(jù)以合適的方式存儲到數(shù)據(jù)庫中,數(shù)據(jù)庫既可以是傳統(tǒng)的關系數(shù)據(jù)庫,也可以是專用的X M L/R D F數(shù)據(jù)庫;利用描述領域知識的領域本體,由推理Agent對張謇研究用戶提交的查詢關鍵詞進行語義匹配和語義相關性擴展,將得到的基于張謇研究領域本體的查詢要求交由查詢Agent執(zhí)行;由查詢Agent接受推理Agent產(chǎn)生

10、的針對Ontology的查詢要求,對存儲元數(shù)據(jù)的數(shù)據(jù)庫采用基于知識的方式進行查詢,并將滿足用戶條件的結(jié)果返回給用戶5。領域用戶的查詢過程如下:提交檢索請求。界面Agent接收用戶提交的檢索請求,主動細化檢索請求,并把細化后的結(jié)果交給預處理Agent。規(guī)范化檢索信息。預處理Agent接收到檢索請求任務后,首先利用任務中關注領域、關鍵詞、摘要等信息,到所有用戶共有的知識庫中查找利用相同領域,類似關鍵詞作為搜索條件的搜索案例。若在知識庫中沒有檢索到所需案例,預處理Agent提交本體庫,借助于本體知識,從中找出出現(xiàn)該關鍵字的各個領域以及在該領域下的關鍵字的含義。預處理Agent把搜索到的或者是經(jīng)過本體

11、規(guī)范的信息提交給查詢界面,界面與用戶交互,把用戶根據(jù)自己意圖選擇的信息再次反饋給預處理Agent,預處理Agent再把信息提交給查詢Agent。為了保持系統(tǒng)的一致性與協(xié)調(diào)性,實現(xiàn)對知識庫的智能管理、控制和調(diào)度,控制調(diào)度Agent作為智能檢索系統(tǒng)的“司令部”,將在系統(tǒng)中起核心作用??刂普{(diào)度Agent的工作過程是:保存各Agent的名稱、通信地址、能力等狀態(tài)信息;接受檢索任務,在多Agent之間進行任務分配;協(xié)調(diào)整個系統(tǒng)的通信;接收檢索結(jié)果,將其反饋給預處理Agent;定期派遣信息收集Agent到遠端信息源上收集信息,更新本地信息庫和遠端信息在本地的索引庫。3.3基于本體論的領域知識庫智能檢索系統(tǒng)

12、功能實現(xiàn)系統(tǒng)采用了語義Web技術(shù)和智能Agent技術(shù),使用RDF 模型對知識庫的Web頁面元數(shù)據(jù)進行描述,然后利用Ontol-ogy建模語言對領域知識進行建模,根據(jù)所得到的Ontology對元數(shù)據(jù)進行基于語義的查詢,為用戶提供智能化的檢索服務。系統(tǒng)中除了多個Agent以外,還設置了領域知識庫、領域本體庫、本地信息庫、遠端信息在本地索引庫以及臨時文檔庫來存儲相關信息。領域知識庫除了存儲張謇研究數(shù)字化語義Web資源還存儲張謇研究領域用戶ID、mail等個人信息、搜索案例(用戶ID、搜索ID、屬于的領域、關鍵字、返回的數(shù)據(jù)等、用戶偏好等;領域本體庫存儲張謇研究領域集、張謇研究關鍵字集以及張謇研究本體

13、的相關知識等;本地信息庫和遠端信息在本地的索引庫主要存儲遠端搜索Agent帶回的,并經(jīng)過信息處理Agent處理過的搜索信息;臨時文檔庫存儲遠端搜索Agent從遠端數(shù)據(jù)源搜索到的相關信息。3.2基于本體論的領域知識庫智能檢索系統(tǒng)工作流程通過信息搜索Agent,對張謇研究知識庫中描述張謇研究圖1張謇研究領域知識庫智能檢索系統(tǒng)框架體系結(jié)構(gòu)7980基金項目Vol .52,No .4,April ,2008LIBRARYANDINFORMATIONSERVICE文件的鏈接,以供軟件Agent或應用程序讀取。信息收集Agent 按照設定的搜索策略訪問知識庫以及語義萬維網(wǎng)環(huán)境下的網(wǎng)頁,它不僅可以自動過濾知識

14、庫網(wǎng)頁內(nèi)容,采取某種策略來提取其中的元數(shù)據(jù)描述信息,還可以從一個知識庫頁面跨越到另一個頁面,自動沿著超文本的鏈接,遵循超文本傳輸協(xié)議(HTTP在知識庫頁面上進行“爬行”,確認知識庫頁面之間的鏈接是否有效,刪除已經(jīng)名存實亡的鏈接。RDF數(shù)據(jù)庫;關系數(shù)據(jù)庫。對于少量的數(shù)據(jù),XML/RDF文件形式的存儲是可行的,但是對于大量的事實數(shù)據(jù),考慮到可擴展性、查詢方式、效率等諸多因素,以RDF 數(shù)據(jù)庫或者關系數(shù)據(jù)庫來存儲RDF 事實數(shù)據(jù)是一種比較好的選擇。關系數(shù)據(jù)庫是目前數(shù)據(jù)庫應用的主流,用關系數(shù)據(jù)庫存儲RDF 數(shù)據(jù),可以有效地利用現(xiàn)有的數(shù)據(jù)庫資源。但是由于關系數(shù)據(jù)庫缺乏所必須的語義要求,所以必須首先把RD

15、F的數(shù)據(jù)模型轉(zhuǎn)化為關系模型,這就要求能夠?qū)DF 數(shù)據(jù)進行解析,根據(jù)RDF 模型的特點設計專門的數(shù)據(jù)庫模式,實現(xiàn)從RDF模型到數(shù)據(jù)庫模式的映射。在RDF模型中,聲明是對一個事實的基本描述,也是RDF 模型中的最小有效數(shù)據(jù)單元,所以存儲聲明的表是數(shù)據(jù)庫模式中最重要的部分,其結(jié)構(gòu)如表1所示:要有被檢索信息的元數(shù)據(jù)信息,也要具有對被檢索內(nèi)容的智能推理能力。系統(tǒng)中推理Agent 的核心是智能推理引擎,它能夠根據(jù)已有的特定領域的本體對用戶所輸入的關鍵詞進行基于語義的智能推理。推理包括語義匹配和語義相關性擴展,推理引擎應能夠根據(jù)領域本體中對各個概念的定義而推理出這個關鍵詞在查詢中的精確語義,并推理出與此詞

16、語義相關的詞語和概念。推理Agent 通過調(diào)用Jena 中的OntologyAPI,根據(jù)Ontology 對用戶輸入的關鍵詞進行基于語義的推理。推理分為兩種:關鍵詞的語義匹配和相關性擴展。語義匹配的作用是對用戶所輸入的關鍵詞進行語義的分析,推理Agent根據(jù)Ontology 可以判斷此關鍵詞的精確語義,從多個可能的語義選項中選擇出最符合用戶要求的那一種7。針對具有一詞多義的詞條,語義匹配提高了檢索結(jié)果的精確性。傳統(tǒng)的收集引擎只是根據(jù)單純的關鍵詞匹配來檢索結(jié)果,并不能區(qū)分同一詞條的不同含義,而在本文所提出的檢索框架中,Ontology 對同一個詞的幾個不同語義都進行了精確的定義,每一個語義都對應

17、于一個獨一無二的URI,因此如果推理Agent 參考了Ontology,就可以根據(jù)上下文來選擇出符合用戶要求的語義。相關性擴展的作用在于獲得與該詞相關的其他詞,因為在Ontology 中定義了眾多的與此詞條相關的其它概念,所以根據(jù)Ontology 中所定義的知識,還可以獲取更多的與此關鍵詞語義關聯(lián)的詞,例如,通過subclass 關系,推理Agent就能夠找到該概念的一個子概念,盡管該子概念不在關鍵詞列表中,推理Agent 根據(jù)Ontology也會把它找到并返回給用戶。推理Agent最后會將語義匹配和相關性擴展所得到的結(jié)果封裝起來ACLMessage對象的形式交給查詢Agent,由查詢Agen

18、t根據(jù)這些推理結(jié)果對存儲有描述知識庫Web 數(shù)據(jù)內(nèi)容的RDF 數(shù)據(jù)庫進行查詢。表1存儲三元組的RDFSatemens由于RDF是一種以XML語法為基礎的建模語言,所以從某種意義上可以說RDF數(shù)據(jù)是一種特殊的XML數(shù)據(jù)。實際上,XML文檔可以分成兩大類:以數(shù)據(jù)為中心或者以文檔為中心。以數(shù)據(jù)為中心的文檔有非常規(guī)則的結(jié)構(gòu),以文檔為中心的文檔具有不規(guī)則的結(jié)構(gòu),而且數(shù)據(jù)顆粒度也比較大。根據(jù)RDF數(shù)據(jù)模型的特點,RDF數(shù)據(jù)可以看作以數(shù)據(jù)為中心的XML文檔。基于RDF數(shù)據(jù)模型的特點,對于RDF數(shù)據(jù)的存儲最好由中間件(middleware來實現(xiàn)。中間件所需完成的XML 文檔與數(shù)據(jù)庫之間的轉(zhuǎn)換功能是通過文檔與數(shù)

19、據(jù)庫之間的映射來實現(xiàn)的,實現(xiàn)過程共分為3步:編寫一個映射文件、編寫過濾器和動作文件、編寫Java代碼。(下轉(zhuǎn)第141頁Colummname Type Comments Subject I d -r e f -Predicate I d -r e f -Object I d -r e f -Object_isliteralSmalllintFlagswhether“ob-ject”isinliteralor resourcet ableModel I d -r e f -i s r e i f i e dsmllintFlagswhetherthis statementisreified141評

20、論論壇圖書情報工作第52卷第4期2008年4月作者簡介劉景宇,女,1978年生,助理館員,發(fā)表論文13篇。更豐富、更生動、更有趣,更新更迅速,通過網(wǎng)絡閱讀更便捷等特點,更容易吸引讀者,久而久之,許多人逐漸將它當作了自己專業(yè)知識和信息的唯一來源,忽視了那些未在圖書館學個人博客中出現(xiàn)的信息、知識和研究領域。筆者將這種每天將大量時間和精力花費在閱讀博客上,將博客作為自己知識和信息的主要固定來源的現(xiàn)象稱為“博客依賴”。這種“博客依賴”現(xiàn)象在自我約束意識和自我控制能力相對較弱的廣大圖書館學本科生和研究生當中更容易產(chǎn)生。博客作為一種內(nèi)容和表達都非常具有個性化色彩的網(wǎng)絡交流方式,包含的知識和信息往往是零散的

21、、非正式的、不成熟的。對圖書館學這門學科進行全面了解和深入研究,必須花費大量時間對理論著作和學術(shù)論文進行系統(tǒng)全面地閱讀和研究。這種“博客依賴”現(xiàn)象容易造成博客關注者沒有堅實的圖書館學理論知識基礎,對圖書館學的學習、思考和研究往往受到圖書館學個人博客信息熱點的影響和牽制,容易導致自己的學術(shù)研究不全面不系統(tǒng)不深入,最終可能影響圖書館學的整體研究水平和學科體系,對學科的深入發(fā)展產(chǎn)生不利影響。4結(jié)語綜上所述,我國內(nèi)地圖書館學個人博客對圖書館學的影響有積極的,也有消極的。從總體上看,積極影響是占主要地位的。我們應該認清積極和消極兩方面的各種影響,對積極的要努力弘揚,對消極影響也可以采用一些相應措施來進行

22、克服、消除或淡化。總的來說,我國內(nèi)地圖書館學個人博客已經(jīng)成為圖書館學進行學術(shù)交流、促進學科發(fā)展的一個有利平臺,如果我們發(fā)揮好它的作用,將為圖書館學發(fā)展帶來新的生機與活力,成為我國圖書館學發(fā)展的又一次良機。參考文獻:25,38.30-31.80-84.6何江.Blog與高校本科教學相整合的設計與實踐學位論文.長春:東北師范大學,2006:19-21.7王敬穩(wěn),陳春英,曹彩英,等.“博客”現(xiàn)象及其對圖書館的啟示.情報雜志,2003(4:90-91.8老槐.博客中的精美圖書館照片.2006-12-27.http:/oldhuai.5284580.html.參考文獻:1付燕寧,金龍飛,王開鋒,等.基于本體的信息檢索系統(tǒng)的設計與實現(xiàn).計算機應用研究,2006(11:155-157.2聶卉,龍朝暉.語義推理技術(shù)在智能檢索系統(tǒng)中的應用研究.情報學報,2006(5:356-360.3錢智勇.基于本體的專題域知識庫系統(tǒng)設計與實現(xiàn)以張謇研究專題知識庫系統(tǒng)實現(xiàn)為例.情報理論與實踐,2006(4:476-479.4王平,朱艷輝,周詠梅.多Agent 中文Web 信息自動檢索系統(tǒng)研究.計算機工程與應用,2006(S1:88-91.5WilliamsAB.Theroleofmultiagentlearninginontology-basedknowledgemanagement.AAA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論