信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第1頁
信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第2頁
信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第3頁
信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第4頁
信息組織 第8章 語義網(wǎng)環(huán)境下的信息組織_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息組織第8章

語義網(wǎng)環(huán)境下的信息組織語義網(wǎng)環(huán)境下的信息組織語義網(wǎng)的目標是通過給萬維網(wǎng)上的文檔添加能夠被計算機所理解的語義信息,讓計算機能夠“理解”分布在網(wǎng)上的信息和知識,并在“理解”的前提下更好地處理、利用這些信息和知識。語義網(wǎng)技術(shù)可以引導(dǎo)人們進行語義層次上的信息分類、信息標引、信息整合等方式的信息組織,實現(xiàn)一個有序的信息空間。資源描述框架(ResourceDescriptionFramework,RDF)是語義網(wǎng)信息描述與表示的基礎(chǔ);本體是語義網(wǎng)中信息組織的核心體系。本章首先介紹語義網(wǎng)中的信息描述與表示格式RDF、語義網(wǎng)中的信息建模方式OWL本體、語義網(wǎng)知識組織系統(tǒng)表示語言SKOS,然后舉例說明在語義網(wǎng)環(huán)境下如何采用OWL本體對領(lǐng)域知識進行建模,如何采用RDF語言基于本體對信息進行語義描述,如何將描述好的信息在網(wǎng)絡(luò)上發(fā)布為可訪問的關(guān)聯(lián)數(shù)據(jù),如何基于關(guān)聯(lián)數(shù)據(jù)對分散、異構(gòu)的信息進行關(guān)聯(lián)和集成。Contents目錄01語義網(wǎng)概述02語義網(wǎng)信息描述和表示03語義網(wǎng)信息組織模式04基于語義網(wǎng)的知識組織系統(tǒng)05關(guān)聯(lián)數(shù)據(jù)06基于知識圖譜的信息組織方法1語義網(wǎng)概述1語義網(wǎng)概述Web非結(jié)構(gòu)化、非語義化的信息表示形式,只能供人類閱讀和理解,而計算機并不能“理解”Web的內(nèi)容,并在“理解”的前提下處理和利用這些信息。對于當前Web在信息表達、組織、檢索中存在的嚴重缺陷與不足,語義網(wǎng)應(yīng)運而生。011998年9月,Web的發(fā)明者TimBerners-Lee(蒂姆·伯納斯·李)在他的“Web設(shè)計筆記”中首次提出了語義網(wǎng)(SemanticWeb)的設(shè)想,即“一個在某種程度上類似全局數(shù)據(jù)庫的數(shù)據(jù)之網(wǎng)(WebofData)022001年5月,Berners-Lee及其合作者在ScientificAmerican雜志上發(fā)表了題為TheSemanticWeb(語義網(wǎng))的論文,系統(tǒng)論述了下一代萬維網(wǎng)架構(gòu)語義網(wǎng)的藍圖,這篇論文同時被認為是語義網(wǎng)誕生的標志。03Berners-Lee在綜合了語義網(wǎng)研究領(lǐng)域最新成果的基礎(chǔ)上,于2000年在XML大會上首次提出了語義網(wǎng)體系結(jié)構(gòu)對語義網(wǎng)的主要支撐技術(shù)及其依賴關(guān)系分層進行描述,為語義網(wǎng)的具體實現(xiàn)提供了理論和技術(shù)基石。042006年,Berners-Lee進一步提出了“關(guān)聯(lián)數(shù)據(jù)”的概念,即在網(wǎng)絡(luò)上發(fā)布、共享、連接各類數(shù)據(jù)、信息和知識的一種方式,是推薦的語義網(wǎng)最佳實踐。051語義網(wǎng)概述語義網(wǎng)的整個體系結(jié)構(gòu)分為七層:底層的

URI為語義網(wǎng)的資源提供了統(tǒng)一標識,Unicode則解決了語義網(wǎng)的跨語言問題;擴展標識符語言(eXtendedMarkupLanguage,XML)為語法層,提供了語義網(wǎng)的句法基礎(chǔ)和編碼方式;資源描述框架(RDF)為數(shù)據(jù)層,是語義網(wǎng)的基石;本體層(Ontology)則為語義網(wǎng)的資源描述提供了語義,是語義網(wǎng)的核心;邏輯層(Logic)

提供了公理和推理規(guī)則;證據(jù)層(Proof)用于提供認證機制;信任層(Trust)則是為了保證信息交換的安全而設(shè)計的,負責(zé)提供信任機制。其中,前四層已經(jīng)有了具體的實施標準與規(guī)范,RDF和OWL本體是構(gòu)建語義網(wǎng)的關(guān)鍵,后三層尚停留在概念層面,還沒有具體的實現(xiàn)技術(shù)。語義網(wǎng)體系架構(gòu)2語義網(wǎng)信息描述和表示2.1RDF

簡介語義網(wǎng)信息描述與表示的基礎(chǔ)是資源描述框架(RDF)。RDF是一種資源描述語言,用于

Web上的資源進行語義化和形式化的描述,是語義網(wǎng)技術(shù)體系的基石。RDF定義了一個簡單的數(shù)據(jù)模型,通過主體(Subject)、謂詞(Predicate)、客體(Object)的三元組結(jié)構(gòu)來描述資源。RDF是與語法無關(guān)的,可以建立在不同語法基礎(chǔ)上,如可以通過圖、三元組、自然語言文本、XML、JSON等方法對RDF數(shù)據(jù)進行序列化表示,其中最重要的是建立在XML語法上的RDF/XML表示格式。圖8-2是用RDF描述Web資源的一個實例,分別用圖、三元組、XML、自然語言來描述同一RDF數(shù)據(jù),這個RDF數(shù)據(jù)中包含兩個三元組。圖

8-2用

RDF描述

Web

資源的一個實例主體(Subject)謂詞(Predicate)客體(Object)資源(Resource)/Book/InformationOrganization屬性(Property)

dc:creator資源(Resource)/Person/YeJiyuan資源(Resource)/Book/InformationOrganization屬性(Property)

dc:title文本(Literal)"InformationOrganization"圖

8-2所示的

RDF

圖使用三元組表示2.1RDF簡介使用

RDF/XML語法表示為如下一段代碼。用自然語言表達是:

資源(圖書)“http:///Book/InformationOrganization

”的“dc:creator”屬性的值是“http:///Person/YeJiyuan”;資源“http://www./Book/InformationOrganization”的“dc:title”屬性的值是“InformationOrganization”。2.1RDF簡介資源泛指所有采用URI(UniformResourceIdentifier,統(tǒng)一資源標識符)標識的資源,URI具有兩個子集:URL(UniformResourceLocator,統(tǒng)一資源定位符)和URN(UniformResourceName,統(tǒng)一資源名稱)。屬性是一種特殊的資源,用來描述資源的某特定方面——通常是資源的元數(shù)據(jù),如作者、標題等。屬性可以是自定義的,也可以是通過類似XML中的命名空間機制來引用在其他方案中已定義的屬性。陳述(Statement)是由一個特定資源、資源的一個特定屬性及該屬性的屬性值組成的三元組,即由RDF三元組的主體、謂詞、客體共同組成的一個語句。一個陳述可以通過復(fù)合形成高階語句,如“'資源<>'的'dc:title'屬性的值是'南京大學(xué)信息管理學(xué)院主頁'”。如果把上述句子看作一個資源,就會有下面的復(fù)合語句:“葉繼元說'資源<>'的'dc:title'屬性的值是'南京大學(xué)信息管理學(xué)院主頁'”。為了表示這種高階語句,RDF使用了具體化(Reification)機制。相應(yīng)的RDF/XML代碼如下。2.2RDF

序列化表示格式目前,RDF有多種序列化格式,大致可分成

4種。XML類型:包括RDF/XML、RDF/XML-ABBREV和Trix三種格式,均采用XML編碼,是面向機器閱讀和處理的格式。N3(Notation3)類型:包括N3、Turtle、N-Triples、N-Quads和TriG格式,均采用純文本表示,具有良好的可讀性,是面向人類用戶的格式。JSON(JavaScriptObjectNotation)類型:包括RDF/JSON和JSON-LD,均采用JSON兼容的格式表示。嵌入式類型:包括Microformats、eRDF和RDFa,均采用XML標簽的形式將結(jié)構(gòu)化的RDF三元組數(shù)據(jù)嵌入XHTML網(wǎng)頁,目的是增強當前Web網(wǎng)頁對RDF數(shù)據(jù)的支持,其中RDFa是W3C推薦標準。以自然語言陳述“ThereisaPersonidentifiedbyhttp:///People/EM/contact#em,whosefullnameisEricMiller,whoseemailaddressisem@,andwhosetitleisDr.”為例,不同的RDF序列化格式表示如下。RDF/XML的格式表示如下:Turtle格式表示如下:N3格式表示如下:2.2RDF序列化表示格式2.3RDF評價RDF和XML是互為補充的,而不只是對某個特定類型數(shù)據(jù)的規(guī)范表示,XML和RDF的結(jié)合,不僅可以實現(xiàn)數(shù)據(jù)基于語義的描述,也充分發(fā)揮了XML與RDF的各自優(yōu)點,便于Web數(shù)據(jù)的檢索和相關(guān)知識的發(fā)現(xiàn)。3RDF是以一種建模的方式來描述數(shù)據(jù)語義的,這使得RDF可以不受具體語法表示的限制。但是RDF仍然需要一種合適的語法格式來實現(xiàn)RDF在Web上的應(yīng)用。2RDF希望以一種標準化、互操作的方式來規(guī)范XML的語義。XML文檔可以通過簡單的方式實現(xiàn)對RDF的引用。通過在XML中引用RDF,可以將XML的解析過程與解釋過程相結(jié)合。1RDF語義表達能力依然非常有限。RDF只提供了描述單個資源語義信息的能力,而沒有提供描述特點領(lǐng)域的語義能力。因為RDF無法描述領(lǐng)域知識,無法抽象領(lǐng)域模型,所以還需要RDFSchema或者OWL等進一步定義機器可理解的語義。4XML

只是一種語法規(guī)則,本身無法表示機器可理解的語義,為此

W3C

推薦以

RDF

標準來解決

XML

的語義局限。2.4RDF數(shù)據(jù)的存儲隨著萬維網(wǎng)上越來越多的RDF數(shù)據(jù)出現(xiàn),如何存儲RDF數(shù)據(jù)變得至關(guān)重要。RDF主要有以下5種存儲方式。①基于內(nèi)存的存儲:直接將RDF數(shù)據(jù)存儲在計算機內(nèi)存中,處理速度快,查詢效率高,但是存儲具有不可持久性,而且受內(nèi)存大小的限制。②基于文件的存儲:直接以RDF/XML文檔的形式存儲RDF數(shù)據(jù),方式簡單,容易實現(xiàn),但是查詢不便,尤其當文件比較大時,查詢效率低。③基于關(guān)系型數(shù)據(jù)庫的存儲:通過不同方式將RDF三元組中的實體資源和文字值映射到關(guān)系型數(shù)據(jù)表中,實現(xiàn)RDF數(shù)據(jù)的持久化存儲。利用成熟的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),不需重新開發(fā),易于實現(xiàn),但是關(guān)系型數(shù)據(jù)結(jié)構(gòu)與RDF三元組數(shù)據(jù)結(jié)構(gòu)差異頗大,查詢效率比較低,代表性系統(tǒng)有JenaSDB和Virtuoso。④原生RDF數(shù)據(jù)存儲系統(tǒng):專門針對RDF三元組結(jié)構(gòu)而開發(fā)的存儲器,查詢效率高,安裝靈活方便,可擴展性好,是當前的主流RDF存儲方式,代表性系統(tǒng)有4Store、AllegroGraph、JenaTDB等。⑤基于圖數(shù)據(jù)庫等各種NoSQL數(shù)據(jù)庫的存儲:近年來,隨著大數(shù)據(jù)的熱潮,一些新型NoSQL數(shù)據(jù)庫技術(shù)逐漸發(fā)展,其中包括圖數(shù)據(jù)庫(如Neo4j),RDF數(shù)據(jù)本身就是一種圖數(shù)據(jù),采用NoSQL存儲具有天然優(yōu)勢,未來具有良好的發(fā)展前景。2.5RDF查詢語言SPARQLSPARQL

主要包含兩部分:SPARQL

查詢語言和SPARQL

協(xié)議,前者定義了面向

RDF數(shù)據(jù)模型的查詢語言句法和語義,后者采用Web服務(wù)描述語言(WebServicesDescriptionLanguage,WSDL)2.0定義了將SPARQL查詢傳輸?shù)絊PARQL查詢處理服務(wù)并向查詢實體返回查詢結(jié)果的方法。SPARQL查詢是基于圖模式(GraphPattern)的匹配。一個基本圖模式是一組三元組模式(TriplePattern)的集合。三元組模式可看作主體和(或)賓體未知的RDF三元組,未知的主體或賓體采用變量表示(如?Person、?homePage)。一個基本圖模式中的三元組模式通過共有變量連接起來,構(gòu)成一個連通的有向圖。在匹配時,SPARQL查詢的基本圖模式匹配RDF圖中的一個子圖。圖為查詢“全名為EricMiller的人的主頁”的圖模式匹配。(a)待查詢的

RDF數(shù)據(jù)(b)

SPRARQL查詢的圖模式2.5RDF查詢語言SPARQLSPARQL查詢有如下4種形式。①SELECT:從RDF數(shù)據(jù)中查詢符合條件的特定信息,類似關(guān)系型數(shù)據(jù)庫的SQL查詢。②CONSTRUCT:為每個查詢結(jié)果輸出一個RDF圖,即將查詢結(jié)果直接構(gòu)建成RDF圖。③ASK:查詢RDF數(shù)據(jù)集中是否有與查詢模式相匹配的數(shù)據(jù),如果查詢的圖模式在數(shù)據(jù)集中有匹配,那么查詢將返回“yes”,否則返回“no”。④DESCRIBE:返回一個RDF圖,其中包含與查詢模式相匹配的節(jié)點的相關(guān)信息。在上述4種查詢中,SELECT查詢是最常用的查詢形式。SPARQL查詢在句法上與Turtle非常相似,唯一的區(qū)別是三元組模式中包含未知的變量。例如,查詢“全名為EricMiller的人的主頁”的SPARQLSELECT查詢語句如下。2.5RDF查詢語言SPARQL除了SPARQL查詢語言,SPARQL還包含一組協(xié)議。SPARQL協(xié)議定義了如何通過HTTP協(xié)議將一個SPARQL查詢及更新請求發(fā)送給一個SPARQL服務(wù),如何將這些請求映射為HTTPGET或POST操作,以及對應(yīng)這些請求的HTTP響應(yīng)。通過SPARQL協(xié)議,用戶可以在SPARQL查詢客戶端遠程執(zhí)行查詢,將查詢推送到SPARQL服務(wù)器執(zhí)行查詢并將查詢結(jié)果返回給查詢客戶端,如圖8-4所示。圖8-4通過SPARQL協(xié)議遠程執(zhí)行SPARQL查詢3語義網(wǎng)信息組織模式3.1本體簡介本體是語義網(wǎng)中信息組織的核心體系,但并不像哲學(xué)意義上那樣抽象和理論化,是實實在在的信息描述的語言工具。本體定義為“共享概念模型的明確的形式化規(guī)范說明”,這個定義的具體含義由4個概念組成。概念化(conceptualization):指將客觀世界中的一些現(xiàn)象抽象出來得到的模型,是客觀世界的抽象和簡化。明確(explicit):即明確定義所使用的概念及概念的約束。形式化(formal):即精確的邏輯表述,能夠被計算機讀取、理解和處理。共享(shared):指本體描述的概念應(yīng)該是某個領(lǐng)域公認的概念。3.1本體簡介根據(jù)

Perez等人對本體建模的研究,

本體可由以下

5部分構(gòu)成。①類(Class):也稱為概念,

一般用于描述領(lǐng)域內(nèi)具有相同屬性或行為的一類對象的概

念,

如“人”是一個類,“教師”和“工程師”是“人”的子類,也是一個類。類的這種層級

關(guān)系將本體中的概念組織成一個系統(tǒng)結(jié)構(gòu)。②關(guān)系(Relation):是指領(lǐng)域中類與類、實例與實例之間的聯(lián)系,

表示領(lǐng)域中概念或?qū)?/p>

例之間的交互作用,如

is-Child-of、a-Kind-of、IsA等關(guān)系。③實例(Instance):是指領(lǐng)域內(nèi)某一特定的對象,根據(jù)本體顆粒度的不同,

對實例的界

定也不同。

“張三”是“教師”的實例,

“李四”是“工程師”的實例,

他們也都是“人”的

實例,所以繼承了“人”的各種屬性。④函數(shù)(Function):一種特殊的關(guān)系。如

mother-of關(guān)系就是一個函數(shù),其中,mother-

of

(x,y)表示

y是

x

的母親,顯然

x可以唯一確定其母親

y。⑤公理(Axiom):領(lǐng)域內(nèi)一些常識性知識的描述,是永真事實的描述。在應(yīng)用本體的語

義關(guān)系來進行邏輯推理時,這些規(guī)則能夠發(fā)揮一定的作用。例如,

“人是動物”就是公理。3.2本體的類型根據(jù)不同的分類標準,可以將本體分成多種。常用的本體主要有以下幾種。①領(lǐng)域本體(DomainOntology):包含特定領(lǐng)域概念、術(shù)語及關(guān)系的本體,主要用于特定領(lǐng)域的應(yīng)用,如經(jīng)濟類本體、建筑本體等。②通用本體(GenericOntology):覆蓋了若干領(lǐng)域或者具有通用性,也被稱為核心本體或頂級本體。它包括的是關(guān)于世界的一般性知識和概念,如時間、空間等。因此,通用本體可以跨學(xué)科領(lǐng)域使用,比較有代表性的通用本體當數(shù)CYC。③應(yīng)用本體(ApplicationOntology):為某一特定的應(yīng)用而建立的本體。例如,在某個數(shù)字圖書館的建設(shè)過程中,可以建立該圖書館的數(shù)字資源的本體,應(yīng)用于該圖書館的信息表示與檢索中。④任務(wù)本體(TaskOntology):描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系。任務(wù)本體與解決問題的方法相關(guān),主要研究可共享的問題求解方法。這里的推理方法與領(lǐng)域無關(guān),任務(wù)本體主要涉及動態(tài)知識,而不是靜態(tài)知識,定義通用任務(wù)和推理活動,如診斷等。3.3本體的功能本體對領(lǐng)域知識進行了一種表述,統(tǒng)一了領(lǐng)域內(nèi)的術(shù)語和概念,便于人與機器、機器與機器之間的交流,從而增加知識共享、知識重用的程度。本體在信息組織方面的功能如下。①信息描述方面,本體是關(guān)于領(lǐng)域知識的共同理解和描述,這使得基于本體的信息資源組織建立在語義層面而非語法層面,是以信息或知識的內(nèi)容和本質(zhì)特征為依據(jù)進行的組織。②信息檢索方面,本體具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,因而在信息檢索特別是在基于知識的語義檢索中得到了廣泛應(yīng)用。本體通過概念之間的關(guān)系來表達概念語義,因此能實現(xiàn)基于本體的語義檢索,避免當前信息檢索因為字面檢索而造成的低效率問題。③語義網(wǎng)方面,本體面向計算機和網(wǎng)絡(luò)的特點及形式化的描述使其能夠更好地滿足網(wǎng)絡(luò)信息資源組織的需要,尤其是語義網(wǎng)信息組織的需要,所以它成為語義網(wǎng)體系框架中的一個主要層次。本體能夠準確地描述概念及概念之間的內(nèi)在關(guān)聯(lián),并能通過邏輯推理獲取概念之間蘊涵的關(guān)系,具有很強的表達概念語義和推理的能力,更適用于語義網(wǎng)環(huán)境中的信息組織和檢索。3.4本體與傳統(tǒng)受控詞表的比較本體與傳統(tǒng)受控詞表相比有許多相似之處,如繼承了分類表的等級關(guān)系、敘詞表的詞匯控制等。兩者之間的相似之處總結(jié)如下:①本體本質(zhì)上也是一種受控詞表。②都是概念及概念關(guān)系的集合。③都是人們?yōu)楸阌趯崿F(xiàn)人機或計算機之間的交流而制定的一致性標準,都能達到信息描述和提高信息檢索效率的目的。④都可以看作知識體系和結(jié)構(gòu)的表現(xiàn),都對詞匯或概念實施了語義上的控制。⑤都適用于某一專業(yè)領(lǐng)域范圍。3.4本體與傳統(tǒng)受控詞表的比較但本體也有許多不同于傳統(tǒng)受控詞表的地方,具有面向計算機交流的特點,主要區(qū)別如表所示。比較內(nèi)容本

體傳統(tǒng)受控詞表主題詞表分

表概念模型面向?qū)ο蟮恼J識世界的方法面向概念的信息表示與檢索方法面向?qū)W科的信息表示與檢索方法組成元素通常由類、屬性、實例組成,有時包

括函數(shù)和公理語詞及詞間關(guān)系類目及類目關(guān)系標識URI

唯一資源標識語詞類號或類目概念關(guān)系表達幾十種、上百種關(guān)系等同、等級、相關(guān)三種關(guān)系包含、并列、交替、相關(guān)等關(guān)系形式化程度較高較低較低層級體系存在,較為混亂,沒有統(tǒng)一標準有的存在,基本采用學(xué)科分類存在,存在學(xué)科分類適用對象機器為主,人為輔人為主,機器為輔人為主,機器為輔應(yīng)用提供語義檢索和知識發(fā)現(xiàn)信息內(nèi)容的主題表示與檢索信息內(nèi)容的分類表示與檢索3.5本體描述語言01RDF通過類、屬性和屬性值來描述資源,但是RDF本身并不能定義這些描述詞匯,因此需要一種定義應(yīng)用程序?qū)S玫念惡蛯傩缘姆椒?。RDFS

(ResourceDescriptionFrameworkSchema,資源描述框架模式)就是在RDF基礎(chǔ)上制定的RDF詞匯描述語言。02OIL、DAML、DAML+OIL雖然沒能成為最終的推薦標準,并最終不再使用,但需要看到它們對于網(wǎng)絡(luò)本體表示語言的重要貢獻,這主要表現(xiàn)在:第一,它們是第一批建立在XML、RDF(S)標準上的網(wǎng)絡(luò)本體表示語言,這與先前的低級網(wǎng)絡(luò)本體表示語言(如SHOE、XOL等)有著本質(zhì)的不同,體現(xiàn)了現(xiàn)行網(wǎng)絡(luò)構(gòu)架向語義網(wǎng)構(gòu)架發(fā)展的努力;第二,它們第一次將描述邏輯引入本體表示,成為賦予本體語言正規(guī)語義和推理支持的一種有效手段;第三,它們的開發(fā)為后來OWL的開發(fā)積累了寶貴的經(jīng)驗(許多OIL、DAML的開發(fā)人員進一步參與了OWL的開發(fā)),提供了堅實的基礎(chǔ),并且為后來OWL得到廣泛的認同和應(yīng)用做出了貢獻。03OWL(WebOntologyLanguage,網(wǎng)絡(luò)本體語言)是W3C在2004年制定的一種本體表示語言標準[3]。OWL語言比RDFS語言提供了更多建模語言,擁有清晰的、形式化的語義,能夠為客觀世界的描述提供更加豐富的知識表示和推理能力。3.5本體描述語言4、OWL22009年10月,W3C推出OWL新版本。OWL2與原有的OWL兼容,即所有OWL1本體依舊是有效的OWL2本體。OWL2添加了一些新特征,具體表現(xiàn)在以下5方面。①增加了句法糖,也就是一些句法擴展,使得OWL2在不擴展語言表達能力的情況下對用戶更加友好且容易使用,例如,提供了DisjointUnion和DisjointClases這兩種更加簡潔的快捷方式來聲明類不相交。②增加了對屬性的建模元語,例如,對屬性的額外約束、屬性的不相交性、屬性鏈(PropertyChain)和鍵(Key)等,以及增強的屬性表達能力,如屬性的自反性(Re?exive)、非自反性(Irre?exive)和非對稱性(Asymmetric)等。③擴展的數(shù)據(jù)類型,包括更多由OWL2提供的內(nèi)置數(shù)據(jù)類型,如rational(有理數(shù))、real(實數(shù))、boolean(布爾值)、dateTimeStamp(日期時間戳)等,也允許用戶在創(chuàng)建本體時自定義數(shù)據(jù)類型。④簡單的元建模能力,提供了雙關(guān)語(Punning)功能,即相同的名稱在某些限制下可用于不同類型的實體(如類、對象屬性、數(shù)據(jù)類型屬性、數(shù)據(jù)類型等)。⑤擴展的注釋能力,用戶可以給公理添加注釋,給注釋屬性添加定義域和值域信息,給注釋自身添加注釋。3.5本體描述語言4、OWL2OWL2有兩種為本體賦予語義的方式:直接語義(directsemantics)和基于RDF的語義(RDF-basedsemantics)[1]。直接語義以描述邏輯的方式直接將語義賦予本體結(jié)構(gòu);基于RDF的語義是RDFS語義的擴展,將OWL2本體看作RDF圖,直接給RDF圖賦予語義,從而間接地通過到RDF圖的映射給本體結(jié)構(gòu)賦予語義。采用直接語義的本體被稱為OWL2DL本體,采用基于RDF語義的本體被稱為OWL2Full本體。OWL2DL可看作OWL2Full的句法限制版,通過限制OWL2、RDF、RDFS建模元語的使用方式,獲得可計算性。出于不同用途和計算的復(fù)雜性,OWL2DL包含3種子語言。OWL2EL:具有較強的表達能力,主要用于需要超大規(guī)模本體的應(yīng)用或者為了保證性能可以犧牲表達力的應(yīng)用。OWL2QL:主要用于需要相對輕量級本體且具有大量實例數(shù)據(jù)的應(yīng)用,允許通過關(guān)系型查詢直接訪問數(shù)據(jù)。OWL2RL:在有限地犧牲表達能力的條件下極大地改善推理能力,主要用于需要大規(guī)模推理的應(yīng)用。3.5本體描述語言4、OWL2圖8-5OWL2各子語言之間的關(guān)系3.6本體的構(gòu)建1.本體構(gòu)建原則本體構(gòu)建的基本原則概括起來包括5項。①清晰(Clarity):本體必須有效地說明所定義術(shù)語的意思。定義應(yīng)該是客觀的、與背景獨立的。當定義可以用邏輯公理表達時,它應(yīng)該是形式化的。定義應(yīng)該盡可能完整。所有定義應(yīng)該用自然語言加以說明。②一致(Coherence):本體應(yīng)該是一致的,也就是說,它應(yīng)該支持與其定義相一致的推理,所定義的公理及用自然語言進行說明的文檔都應(yīng)該具有一致性。③可擴展性(Extendibility):本體應(yīng)該為可預(yù)料到的任務(wù)提供概念基礎(chǔ),應(yīng)該支持在已有的概念基礎(chǔ)上定義新的術(shù)語,以滿足特殊的需求,而不需修改已有的概念定義。④編碼偏好程度最?。∕inimalencodingbias):概念的描述不應(yīng)該依賴于某一種特殊的符號層的表示方法,因為實際的系統(tǒng)可能采用不同的知識表示方法。⑤本體約定最?。∕inimalontologicalcommitment):本體約定應(yīng)該最小,只要能夠滿足特定的知識共享需求即可。這可以通過定義約束最弱的公理及只定義通信所需的詞匯來保證。3.6本體的構(gòu)建2.本體開發(fā)工具目前,最流行的本體編輯工具是由美國斯坦福大學(xué)生物醫(yī)學(xué)研究中心和醫(yī)學(xué)院聯(lián)合開發(fā)的開源軟件Protege編輯器。除了Protege,還有其他本體編輯工具,如斯坦福大學(xué)知識系統(tǒng)實驗室的Ontolingua和OntopriseGmbh公司的商業(yè)軟件OntoStudio等。2011年12月,歐盟研究項目NeOn發(fā)布了免費的本體工具包NeOnToolkit2.5,基于商業(yè)軟件OntoStudio,但進行了擴展。3.本體構(gòu)建方法本體構(gòu)建方法研究主要是從知識工程的角度探討本體的構(gòu)建方法,也稱為本體工程。本體工程的主要特點是強調(diào)構(gòu)建本體時要按照一定的規(guī)范和標準。本體工程中比較有名的包括TOVE法、METHONTOLOGY法、骨架法(SkeletalMethodology)、KACTUS法、SENSUS法、DEF5法和七步法等,其中以骨架法和七步法應(yīng)用最為廣泛。3.6本體的構(gòu)建3.本體構(gòu)建方法(1)骨架法骨架法由MikeUschold和MichealGruninger提出,又稱為Enterprise法,專門用來創(chuàng)建企業(yè)建模過程中的本體。骨架法流程如圖8-6所示。圖8-6骨架法流程①確定本體應(yīng)用的目的和范圍:根據(jù)研究的領(lǐng)域或任務(wù),建立相應(yīng)的領(lǐng)域本體或任務(wù)本體,領(lǐng)域越大,所建本體越大,因此需限制研究的范圍。②本體分析:定義本體所有術(shù)語的意義及其之間的關(guān)系,需要領(lǐng)域?qū)<业膮⑴c。對該領(lǐng)域越了解,所建本體就越完善。③本體表示:以本體表示語言對本體進行描述。④本體評價:按照對本體表示的清晰性、一致性、完整性、可擴展性,對所建立的本體進行評價,如果符合要求就進入本體建立,否則返回第二步重新進行本體分析。⑤本體的建立:對所有本體按以上標準進行檢驗,符合要求的以文件形式存放,生成OWL、RDF等格式的本體文件。3.6本體的構(gòu)建3.本體構(gòu)建方法(2)七步法七步法由斯坦福大學(xué)醫(yī)學(xué)院開發(fā),主要用于領(lǐng)域本體的構(gòu)建。①確定本體的專業(yè)領(lǐng)域和范疇。領(lǐng)域知識往往十分龐大,本體不可能包括所有的概念,因此,在建立本體之前,必須先確定本體將覆蓋的專業(yè)領(lǐng)域、范圍和應(yīng)用目標等。②考查復(fù)用現(xiàn)有本體的可能性。共享和復(fù)用是本體的特點,建立本體的目的也是為了解決知識的共享和復(fù)用問題,因此,在設(shè)計和建立本體之前,應(yīng)該考慮是否有已經(jīng)建立好的本體供復(fù)用。③列出本體中的重要術(shù)語。領(lǐng)域本體是描述概念及概念與概念之間關(guān)系的,應(yīng)列舉出該領(lǐng)域中的所有概念及對該概念的詳細解釋。④定義類和類的等級體系。通常采用自頂向下法(Top-down)、自底向上法(Bottom-up)和綜合法。通過等級體系將領(lǐng)域概念進行分類組織,用于描述領(lǐng)域概念間的類屬關(guān)系,并將本體中的概念模塊化。⑤定義類的屬性。概念的分類層次結(jié)構(gòu)體現(xiàn)了分類概念之間的一種繼承關(guān)系,除了繼承關(guān)系,在我們構(gòu)建的領(lǐng)域本體中還可以根據(jù)需要定義其他的關(guān)系。針對每個概念,要列出它所有可能的屬性,每個屬性都有對應(yīng)的屬性值。⑥定義屬性的分面。屬性的分面可用來描述屬性值的類型、允許的取值、取值的個數(shù)(基數(shù)),以及屬性其他的一些特征。⑦創(chuàng)建實例。確定類的實例首先需要選取一個概念類,然后添加屬于該類的具體實例,最后為實例添加具體屬性值。3.7基于本體的信息組織實例1.本體構(gòu)建首先,參考斯坦福大學(xué)醫(yī)學(xué)院七步法本體構(gòu)建原則,基于DC元數(shù)據(jù)標準構(gòu)建一個書目元數(shù)據(jù)本體(命名空間前綴為co)。為了充分展示本體構(gòu)建的各方面,盡量給出類和屬性的各種設(shè)置,其中有些并不是完全必須的。①確定本體的專業(yè)領(lǐng)域和范疇該本體屬于圖書館領(lǐng)域,是描述文獻資源書目信息的一個基本模型,定義了文獻資源的核心屬性,文獻資源之間以及與其他資源(如知識組織資源、個人、組織機構(gòu)、地點)之間的相互關(guān)系。②考查復(fù)用現(xiàn)有本體的可能性在圖書館領(lǐng)域,DC元數(shù)據(jù)標準和DCTERMS元數(shù)據(jù)術(shù)語是描述書目信息的主要標準規(guī)范。書目信息中會涉及人物、組織機構(gòu)、時間、地點、概念等信息,可復(fù)用相關(guān)本體中的定義。③列出本體中的重要術(shù)語在書目本體中,最重要的術(shù)語是“文檔”,是圖書館中各類文獻資源的統(tǒng)稱,具體有圖書、論文、學(xué)位論文、圖像等,還有描述文獻書目信息的術(shù)語。3.7基于本體的信息組織實例1.本體構(gòu)建④定義類和類的等級體系該本體的核心類是“文檔(Document)”,表示承載信息的內(nèi)容載體,可以是紙質(zhì)印刷型,也可以是數(shù)字型。該類可包含多個子類,分別代表不同類型的文檔,如圖書(Book)、論文(Article)、圖像(Image)、學(xué)位論文(Thesis)等。每個子類還可擁有更低層級的子類,如論文還可進一步分為期刊論文(JournalArticle)和會議論文(ConferenceArticle)。除了文檔(Document),還有與之密切相關(guān)的其他類,包括代理(Agent)、時間(PeriodofTime)、地點(Place)、概念(Concept)。這些類直接復(fù)用自上面所說的相關(guān)本體。表8-2列出了書目元數(shù)據(jù)本體中的主要類及其子類。3.7基于本體的信息組織實例1.本體構(gòu)建⑤定義類的屬性文檔類(co:Document)的屬性全部復(fù)用自DC元數(shù)據(jù)標準中的15個核心元數(shù)據(jù)元素。其中,范圍(dc:coverage)元素被分解為兩個屬性:時間范圍(dcterms:temporal)和空間范圍(dcterms:spatial)。文檔類的所有屬性以及屬性的類型和值域如表8-3所示。代理類(foaf:Agent)的屬性則直接復(fù)用FOAF本體中定義的部分屬性,如表8-4所示。屬性分為數(shù)據(jù)類型屬性和對象屬性,后者就是類與類之間的關(guān)系。3.7基于本體的信息組織實例⑤定義類的屬性該本體中的主要類及相互間關(guān)系如圖8-7所示。1.本體構(gòu)建圖8-7書目元數(shù)據(jù)本體中的主要類及相互間關(guān)系3.7基于本體的信息組織實例1.本體構(gòu)建⑥定義屬性的分面首先,該本體中的一些屬性具有逆屬性。例如,文檔(co:Document)類中,其“關(guān)系(dc:relation)”屬性具有兩個子屬性:包含(dcterms:hasPart)和替代(dcterms:repalces),這兩個屬性均具有相應(yīng)的逆屬性“被包含(dcterms:isPartOf)”和“被替代(dcterms:isRepalcedOf)”。逆屬性的定義如下。3.7基于本體的信息組織實例1.本體構(gòu)建⑦為類和屬性添加注釋屬性(AnnotationProperties)除了數(shù)據(jù)屬性和對象屬性,該本體中還有另一種屬性,稱為注釋屬性。注釋屬性的作用是對本體中的類、屬性和個體(即實例)進行注釋說明。OWL本體中有5個預(yù)定義的注釋屬性可以直接使用,對本體中的類、屬性、個體提供注釋信息。書目元數(shù)據(jù)本體中co:Document類的注釋屬性如表8-5所示。3.7基于本體的信息組織實例2.基于本體的信息集成本體構(gòu)建的最后一步是實例構(gòu)建。基于構(gòu)建的書目元數(shù)據(jù)本體可以將不同類型、不同格式的書目信息轉(zhuǎn)換為統(tǒng)一的RDF數(shù)據(jù),也就是本體的實例,由此可以實現(xiàn)異質(zhì)書目信息的集成。下面以《信息資源管理理論》一書為例,將來自圖書館書目數(shù)據(jù)庫的MACR元數(shù)據(jù)和來自萬方數(shù)據(jù)庫的NoteFirst[1]兩種元數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的RDF格式的元數(shù)據(jù),來實現(xiàn)不同類型元數(shù)據(jù)的集成。該書的MACR元數(shù)據(jù)顯示如下:3.7基于本體的信息組織實例2.基于本體的信息集成該書的NoteFirst的元數(shù)據(jù)顯示如下:3.7基于本體的信息組織實例2.基于本體的信息集成針對同一本書的兩種不同格式的元數(shù)據(jù),基于書目元數(shù)據(jù)本體,可將這種元數(shù)據(jù)都轉(zhuǎn)換成相同的RDF格式表示,顯示如下:4基于語義網(wǎng)的知識組織系統(tǒng)4.1SKOS語言簡介SKOS(SimpleKnowledgeOrganizationSystem,簡單知識組織系統(tǒng))是在語義網(wǎng)框架下對知識組織系統(tǒng)進行語義化描述的一個模型,是W3C于2005年制定的一個推薦標準,旨在采用機器可讀可理解的RDF語言表示知識組織系統(tǒng),使之適應(yīng)網(wǎng)絡(luò)環(huán)境下信息資源組織的需要。在圖書館及相關(guān)領(lǐng)域,知識組織系統(tǒng)(KnowledgeOrganizationSystem,KOS)是指采用不同類型的語義關(guān)系進行組織和結(jié)構(gòu)化的概念體系,既包括在傳統(tǒng)紙質(zhì)和普通電子環(huán)境下產(chǎn)生和應(yīng)用的地名表、術(shù)語表、分類法、敘詞表、主題詞表等受控詞表,也包括在網(wǎng)絡(luò)環(huán)境下新出現(xiàn)的本體和語義網(wǎng)絡(luò)(SemanticNetwork),是對信息資源進行組織和整理的重要工具。SKOS可以視為RDFS和OWL在知識組織系統(tǒng)表示這一特定領(lǐng)域的一個應(yīng)用,用于在網(wǎng)絡(luò)環(huán)境下描述分類法、敘詞表、主題詞表、術(shù)語表等概念體系,能夠以一種機器可理解的方式表達詞表的結(jié)構(gòu)與概念,以供共享和重用。需要說明的是,SKOS并不是一種正式的知識表示語言,而只是提供一種輕量級的、直觀的語言用于開發(fā)和共享知識組織系統(tǒng)。4.1SKOS語言簡介1.SKOS建模元語(1)概念概念(skos:Concept)是SKOS最基本的建模元語,被定義為一個OWL類,用來聲明或定義某個資源是一個概念性(Conceptual)資源,即知識組織系統(tǒng)中的一個“概念”。圖8-8為定義“Love”是一個SKOS概念。相應(yīng)的RDF/XML代碼表示如下。4.1SKOS語言簡介1.SKOS建模元語(2)概念體系通常情況下,知識組織系統(tǒng)中的概念并非孤立的,而是與其他概念相聯(lián)系的,共同形成一個集合或一個體系。一個概念體系就是指具有語義關(guān)系的一系列概念的集合。概念體系的定義采用建模元語<skos:ConceptSchema>來實現(xiàn),被定義為一個類。相應(yīng)的RDF/XML代碼如下。4.1SKOS語言簡介1.SKOS建模元語(3)詞匯標簽詞匯標簽是用來為概念添加某種詞匯標簽,包括以下屬性:首選標簽(skos:preLabel)、可選標簽(skos:altLabel)和隱藏標簽(skos:hiddenLabel)。首選標簽是SKOS概念在給定語言下的首選詞匯標簽??蛇x標簽是SKOS概念在給定語言下可以選用的其他詞匯標簽。隱藏標簽是SKOS概念不可見的一種詞匯標簽。相應(yīng)的RDF/XML代碼如下。4.1SKOS語言簡介1.SKOS建模元語(4)注釋屬性注釋屬性為概念提供某些相關(guān)注釋,包括如下建模元語:注釋(skos:note)、定義(skos:definition)、范圍注釋(skos:scopeNote)、范例(skos:example)、歷史注釋(skos:historyNote)、編輯注釋(skos:editorialNote)和變更注釋(skos:changeNote)等。其中,skos:note是其他6個屬性的父屬性。(5)語義關(guān)系語義關(guān)系是指SKOS概念間的相互關(guān)系,主要包括相關(guān)關(guān)系和上下位關(guān)系,有如下建模元語:語義關(guān)系(skos:semanticRelation)、相關(guān)關(guān)系(skos:related)、上位傳遞關(guān)系(skos:broaderTranstive)、上位關(guān)系(skos:broader)、下位傳遞關(guān)系(skos:narrowerTranstive)和下位關(guān)系(skos:narrower),它們均是OWL對象屬性。4.1SKOS語言簡介1.SKOS建模元語(5)語義關(guān)系圖8-11為“Birds”“Animals”和“Ornithology”三個概念的語義關(guān)系,即“Animals”是“Birds”的下位概念,“Ornithology”是“Birds”的相關(guān)概念。相應(yīng)的RDF/XML代碼如下。4.1SKOS語言簡介1.SKOS建模元語(6)概念集合當知識組織系統(tǒng)中的一組概念在某些方面有相似性或相關(guān)性時,可能需要將其集合起來使用,形成概念集合。相關(guān)建模元語包括概念集合(skos:Collection)、有序概念集合(skos:OrderedCollection)、集合成員(skos:member)、集合成員列表(skos:memberList)。其中,<skos:Collection>和<skos:OrderedCollection>是OWL類,前者用來聲明一個一般概念集合,后者則用于聲明一個有序的概念集合,因此后者是前者的子類。(7)概念映射關(guān)系不同概念框架中的概念之間可能存在著內(nèi)在的關(guān)系,為了互操作性,需要在不同概念體系中的概念間建立映射,SKOS提供了相應(yīng)的建模元語,包括映射關(guān)系(skos:mappingRelation)、準確匹配(skos:exactMatch)、上位匹配(skos:broadMatch)、下位匹配(skos:narrowMatch)及相關(guān)匹配(skos:relatedMatch),其中后四者是前者的子屬性。4.1SKOS語言簡介2.SKOS評價SKOS是一套建立在RDFS語言基礎(chǔ)上的知識組織系統(tǒng)表示語言,簡練、實用且有良好的擴展性,是當前知識組織系統(tǒng)語義化表示的主流方式。SKOS的重要意義在于,為當前受控詞表的語義化表示和網(wǎng)絡(luò)化應(yīng)用提供了一套解決方案,這將大大促進受控詞表的編制與利用,有著廣闊的應(yīng)用前景。SKOS的主要問題在于,它能表示的語義關(guān)系還比較有限,遠少于受控詞表標準Z39.19中定義的數(shù)量——當然,這個問題可以通過新增詞匯來解決。另一個潛在問題是SKOS的推理機制還比較薄弱——雖然SKOS以表示受控詞表等輕量級知識組織系統(tǒng)為主要目標,但這種薄弱的推理能力可能在一定程度上影響SKOS的使用效果。4.2SKOS語言應(yīng)用實例1.AGROVOC詞表的SKOS表示AGROVOC是一個多語種農(nóng)業(yè)敘詞表,涵蓋了農(nóng)業(yè)、林業(yè)、漁業(yè)、食物安全及其他相關(guān)學(xué)科領(lǐng)域中的詞匯,可以說是目前農(nóng)業(yè)領(lǐng)域最有影響力的受控詞表。該詞表由聯(lián)合國糧食及農(nóng)業(yè)組織(Food&AgricultureOrganization,F(xiàn)AO)和歐洲共同體在20世紀80年代初開發(fā),主要作用是將信息標引標準化,從而使得信息檢索更加簡單且準確,從而為用戶提供最準確的信息資源。2010年,W3C正式推出SKOS語言后,F(xiàn)AO改用SKOS和SKOS-XL語言對AGROVOC詞表重新進行了語義化描述。圖8-12為AGROVOC詞表的SKOS模型。為了實現(xiàn)對傳統(tǒng)格式AGROVOC詞表的語義化轉(zhuǎn)換,F(xiàn)AO采用Java語言開發(fā)了一個基于Web的多語言本體概念構(gòu)建和維護工具,稱為AGROVOCConceptServerWorkbench,以幫助分布在全球各地的AGROVOC詞表的維護者們合作構(gòu)建農(nóng)業(yè)領(lǐng)域的多語言本體和詞匯系統(tǒng)。圖

8-12AGROVOC詞表的

SKOS模型4.2SKOS語言應(yīng)用實例2.LCSH詞表的SKOS表示LCSH(LibraryofCongressSubjectHeadings,美國國會主題標題表)是美國國會圖書館編制的一部大型綜合性標題表。LCSH是目前世界上規(guī)模最大、應(yīng)用最廣泛的標題表,在檢索語言的發(fā)展史上和當今圖書館主題編目工作中占有重要地位。早期的LCSH是以機器可處理的MARC形式存在的,后來轉(zhuǎn)為MARCXML編碼形式。表8-6為LCSH詞表中MARC字段與RDF屬性之間的映射關(guān)系。4.2SKOS語言應(yīng)用實例2.LCSH詞表的SKOS表示下面為采用SKOS語言描述的LCSH詞表中一個主題詞的RDF/XML代碼。4.2SKOS語言應(yīng)用實例3.《漢語主題詞表》的SKOS表示對于簡單的敘詞表,采用SKOS語言足以進行描述。但是對于《漢語主題詞表》這類比較復(fù)雜的敘詞表,常包含比較復(fù)雜的成分,如組配概念、族項、組面等,則需要對SKOS語言進行一定程度的擴展,新增某些特定詞匯(類或?qū)傩裕┎拍軌驅(qū)崿F(xiàn)無損語義化轉(zhuǎn)換。表8-7列出了《漢語主題詞表》中的詞匯屬性與SKOS屬性之間的映射關(guān)系,其中SKOSEX前綴表示定制擴展的詞匯。4.2SKOS語言應(yīng)用實例3.《漢語主題詞表》的SKOS表示基于表8-7中的映射關(guān)系,采用SKOS語言將該敘詞信息轉(zhuǎn)換為RDF數(shù)據(jù),其RDF/XML代碼如下。4.2SKOS語言應(yīng)用實例3.《漢語主題詞表》的SKOS表示圖8-13為《漢語主題詞表》中的一個敘詞實例“固定資產(chǎn)”。圖8-13《漢語主題詞表》中的一個敘詞實例5關(guān)聯(lián)數(shù)據(jù)5.1關(guān)聯(lián)數(shù)據(jù)簡介“關(guān)聯(lián)數(shù)據(jù)”是由萬維網(wǎng)的創(chuàng)始人TimBerners-Lee于1996年在他的“DesignIssuesfortheWorldWideWeb”筆記中首次提出的概念,是指通過可解引用的URI(DereferenceableURI)地址在Web上展示、共享、連接數(shù)據(jù)的一種方式。關(guān)聯(lián)數(shù)據(jù)的兩個基本宗旨是:采用RDF數(shù)據(jù)模型在Web上發(fā)布結(jié)構(gòu)化數(shù)據(jù),采用RDF鏈接連接來自不同數(shù)據(jù)源的數(shù)據(jù)。關(guān)聯(lián)數(shù)據(jù)必須遵循以下四個基本原則:使用URI標識符命名任何事物。URI標識符必須是HTTPURI地址,任何人都可以訪問這些名稱標識。訪問某個標識名稱時,采用RDF、SPARQL等標準提供有用的信息。

包含指向其他URI地址的鏈接,使人們可以發(fā)現(xiàn)更多的相關(guān)事物。5.1關(guān)聯(lián)數(shù)據(jù)簡介關(guān)聯(lián)數(shù)據(jù)自提出以來受到了計算機和信息領(lǐng)域的極大關(guān)注,許多個人和組織機構(gòu)采用關(guān)聯(lián)數(shù)據(jù)作為發(fā)布結(jié)構(gòu)化數(shù)據(jù)的一種途徑,從而構(gòu)成了一個稱為“關(guān)聯(lián)開放數(shù)據(jù)(LinkedOpenData,LOD)云”的全球開放數(shù)據(jù)空間。截至2021年5月,構(gòu)成LOD云的數(shù)據(jù)集已經(jīng)達到1301個,如圖8-14所示。整個關(guān)聯(lián)數(shù)據(jù)云以DBPedia(Wikipedia的RDF的版)為核心,囊括了地理、政府、媒體、生命科學(xué)、圖書館、用戶生成內(nèi)容等領(lǐng)域的數(shù)據(jù)以及部分跨領(lǐng)域數(shù)據(jù)。圖8-14關(guān)聯(lián)開放數(shù)據(jù)(LOD)云5.2關(guān)聯(lián)數(shù)據(jù)中資源的命名及訪問機制在關(guān)聯(lián)數(shù)據(jù)中,所有實體對象或抽象概念(如文獻資源、個人、組織機構(gòu)、地點、事件、術(shù)語等)都必須采用唯一的HTTPURI標識符進行命名,但是它們的URI地址不能被HTTP直接解引用。它們在Web架構(gòu)中被稱為非信息資源,以區(qū)別于傳統(tǒng)文檔Web中URI地址能夠被HTTP直接解引用的信息資源(如網(wǎng)頁、圖片或其他數(shù)字媒體格式等)。對于非信息資源,Web架構(gòu)提供了兩種方式來解決其在Web上的訪問問題:HashURI和303URI。對于一個非信息資源,303URI方式需要命名三個相關(guān)的URI地址:

①資源本身的URI地址;②資源元數(shù)據(jù)的RDF/XML表示;③資源元數(shù)據(jù)的HTML表示。但是,采用303重定向訪問的一個主要缺點是需要兩次HTTP請求才能獲取一個非信息資源的描述,因此會造成訪問延遲。5.3關(guān)聯(lián)數(shù)據(jù)發(fā)布方法目前,關(guān)聯(lián)數(shù)據(jù)的發(fā)布主要有以下5種方式。①以靜態(tài)RDF/XML文件發(fā)布關(guān)聯(lián)數(shù)據(jù):利用Web服務(wù)器(如ApacheHTTP服務(wù)器)的URL重寫功能和HTTP內(nèi)容協(xié)商機制將非信息資源(實體對象或抽象概念)的URL地址重定向到描述它的信息資源(如HTML或RDF/XML文檔)的URI地址,HTML或RDF/XML文檔采用離線的方式預(yù)先手工或自動創(chuàng)建。這種方式通常用于發(fā)布小型的RDF詞表,但是對于大數(shù)據(jù)量并不適用,因為需要預(yù)先生成大量的HTML或RDF/XML文檔。②采用服務(wù)器端腳本發(fā)布關(guān)聯(lián)數(shù)據(jù):通過服務(wù)器端腳本(如PHP)基于后臺的關(guān)系型數(shù)據(jù)動態(tài)地生成HTML或RDF/XML文檔(需通過ARC類庫),或者通過SPARQL終端直接從RDF存儲器中獲取RDF數(shù)據(jù),然后利用服務(wù)器端腳本或者腳本與Apache服務(wù)器的URL重寫功能相結(jié)合實現(xiàn)非信息資源URL地址到相應(yīng)的信息資源表示(HTML或RDF/XML文檔)的重定向。③以RDFa格式發(fā)布關(guān)聯(lián)數(shù)據(jù):采用RDFa格式將RDF三元組內(nèi)嵌在XHTML網(wǎng)頁中,然后利用Web服務(wù)器的重定向功能將非信息資源的URL地址重定向到描述它的XHTML網(wǎng)頁(針對HTML瀏覽器),或者重定向到從XHTML網(wǎng)頁中提取出的RDF/XML文檔(針對RDF瀏覽器)。5.3關(guān)聯(lián)數(shù)據(jù)發(fā)布方法④從RDF存儲器發(fā)布關(guān)聯(lián)數(shù)據(jù):用RDF三元組存儲器(如Jena、Sesame、AllegroGraph等)直接存儲RDF數(shù)據(jù),這些存儲器通常帶有一個SPARQL終端(如Jena的Fuseki),能夠支持基于Web的SPARQL查詢和結(jié)果顯示,但是無法在瀏覽器中訪問非信息資源的URI地址。此時可在RDF存儲器的SPARQL終端的前端放置一個關(guān)聯(lián)數(shù)據(jù)界面(如Pubby),將不可解引用的URI地址轉(zhuǎn)換為能夠被HTTP解引用的,實現(xiàn)關(guān)聯(lián)數(shù)據(jù)顯示。⑤從關(guān)系型數(shù)據(jù)庫發(fā)布關(guān)聯(lián)數(shù)據(jù):利用現(xiàn)成的工具將存儲在關(guān)系型數(shù)據(jù)庫中的關(guān)系型數(shù)據(jù)直接發(fā)布為關(guān)聯(lián)數(shù)據(jù)。最廣泛使用的工具是D2R服務(wù)器(將關(guān)系型數(shù)據(jù)庫發(fā)布在語義網(wǎng)上的工具)能夠幫助用戶在關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)和RDF術(shù)語間建立映射,對關(guān)系型數(shù)據(jù)生成一個關(guān)聯(lián)數(shù)據(jù)視圖,支持RDF瀏覽器對關(guān)系型數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化顯示和SPARQL終端對關(guān)系型數(shù)據(jù)的查詢。類似的工具包括小型的開源工具Triplify和商業(yè)軟件OpenLinkVirtuoso。⑥通過包裝已有的應(yīng)用或WebAPI發(fā)布關(guān)聯(lián)數(shù)據(jù):通過構(gòu)建關(guān)聯(lián)數(shù)據(jù)包裝器將目前已有的多個應(yīng)用或WebAPI包裝到一個語義網(wǎng)訪問界面中,使得原本需要用戶通過不同的應(yīng)用或API訪問的數(shù)據(jù)能夠通過這個統(tǒng)一的界面以關(guān)聯(lián)數(shù)據(jù)的形式進行訪問。包裝器的作用是將用戶對URI地址的請求轉(zhuǎn)換成對各應(yīng)用或API的查詢,然后將各自返回的查詢結(jié)果進行集成并轉(zhuǎn)換成RDF格式發(fā)送給用戶。5.4關(guān)聯(lián)數(shù)據(jù)的訪問對關(guān)聯(lián)數(shù)據(jù)的訪問有兩種途徑:一種是瀏覽方式,另一種是查詢方式。瀏覽方式是在Web瀏覽器中直接輸入某個實體或概念的URI標識符瀏覽其RDF元數(shù)據(jù)信息,還可沿著其中的RDF鏈接繼續(xù)訪問其他相關(guān)資源,如同在傳統(tǒng)文檔Web中沿著超鏈接訪問其他網(wǎng)頁,但不同的是:在關(guān)聯(lián)數(shù)據(jù)中顯示的是結(jié)構(gòu)化的RDF數(shù)據(jù)而非HTML文檔。這種訪問方式適合對關(guān)聯(lián)數(shù)據(jù)進行網(wǎng)絡(luò)狀發(fā)散式瀏覽,實現(xiàn)在不同數(shù)據(jù)集間的無縫跳轉(zhuǎn),但不適于查詢特定的內(nèi)容。下面以圖書《數(shù)字圖書館的知識組織系統(tǒng):從理論到實踐》的RDF書目元數(shù)據(jù)為例,說明關(guān)聯(lián)數(shù)據(jù)的瀏覽過程。采用RDF/XML格式的該書的書目數(shù)據(jù)如下。5.4關(guān)聯(lián)數(shù)據(jù)的訪問①在Web瀏覽器中輸入該圖書的URI標識符<http://hostname/webapp/book/004106310>,瀏覽器顯示RDF格式表示的圖書的書目元數(shù)據(jù),如圖8-15所示。圖8-15圖書的RDF元數(shù)據(jù)描述瀏覽方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問②點擊該圖書的作者(dcterms:creator)標識符<http://hostname/webapp/person/WangJun>,鏈接到作者的RDF元數(shù)據(jù),如圖8-16所示。圖8-16作者的RDF元數(shù)據(jù)描述瀏覽方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問③點擊圖書主題(dcterms:subject)“數(shù)字圖書館”的URI標識符<http://hostname/webapp/CT/concept/DigitalLibrary>,鏈接到《漢語主題詞表》對“數(shù)字圖書館”概念的RDF描述,如圖8-17所示。圖8-17《漢語主題詞表》對“數(shù)字圖書館”概念的RDF描述瀏覽方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問④點擊“數(shù)字圖書館”的上位概念(skos:broader)“/vocab/CCT_CT_v2.0/Library”,鏈接到《漢語主題詞表》對“圖書館”概念的RDF描述,如圖8-18所示。圖8-18《漢語主題詞表》對“圖書館”概念的RDF描述瀏覽方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問查詢方式是通過SPARQL查詢檢索關(guān)聯(lián)數(shù)據(jù)中的特定內(nèi)容。其檢索結(jié)果界面與通常的文獻書目數(shù)據(jù)庫(如中國知網(wǎng)、OPAC系統(tǒng))類似,不同的是:返回的檢索結(jié)果均是可以點擊訪問的,用戶可以沿著RDF鏈接繼續(xù)訪問其他相關(guān)資源,如文獻→出版地、文獻→主題→相關(guān)概念。這種訪問方式既適合對特定文獻資源進行檢索,又能夠基于檢索結(jié)果進行發(fā)散式瀏覽,是一種比較理想的圖書館關(guān)聯(lián)數(shù)據(jù)訪問方式。但普通用戶構(gòu)建SPARQL查詢的難度比較大,系統(tǒng)應(yīng)提供表單式查詢模板供用戶輸入查詢信息并自動生成SPARQL查詢。下面以從關(guān)聯(lián)數(shù)據(jù)化的書目數(shù)據(jù)集中查詢主題為“信息檢索”的圖書為例,顯示關(guān)聯(lián)數(shù)據(jù)的查詢過程。5.4關(guān)聯(lián)數(shù)據(jù)的訪問①在查詢界面中輸入SPARQL查詢,查詢主題(dcterms:subject)為“信息檢索(InformationRetrieval)”的圖書。查詢方式5.4關(guān)聯(lián)數(shù)據(jù)的訪問②檢索結(jié)果顯示所有符合該查詢條件的圖書URI標識符和題名(如圖8-19所示),這些標識符已經(jīng)被自動映射成HTTP可解引用的關(guān)聯(lián)數(shù)據(jù)的URI地址。查詢方式圖8-19書目關(guān)聯(lián)數(shù)據(jù)檢索結(jié)果顯示5.4關(guān)聯(lián)數(shù)據(jù)的訪問③點擊其中《網(wǎng)絡(luò)信息資源檢索與利用》圖書的鏈接,則以關(guān)聯(lián)數(shù)據(jù)形式顯示該圖書的RDF書目元數(shù)據(jù),如圖8-20所示。④點擊該書的出版地(core:placePublished)“南京”,跳轉(zhuǎn)到geoNames數(shù)據(jù)庫中的相應(yīng)頁面,該數(shù)據(jù)庫已經(jīng)全部發(fā)布為關(guān)聯(lián)數(shù)據(jù),點擊可顯示具體的RDF數(shù)據(jù),如圖8-21所示。查詢方式圖8-20一條檢索記錄的詳細RDF書目元數(shù)據(jù)圖8-21關(guān)聯(lián)的geoNames數(shù)據(jù)庫中有關(guān)“南京”的RDF描述5.5關(guān)聯(lián)數(shù)據(jù)應(yīng)用實例近年,語義網(wǎng)技術(shù)在圖書館學(xué)領(lǐng)域得到了全面而廣泛的應(yīng)用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論