版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于SOA架構(gòu)的術(shù)語注冊(cè)和服務(wù)系統(tǒng)設(shè)計(jì)與應(yīng)用
1引言術(shù)語表、分類表、敘詞表、本體等各種詞表(即知識(shí)組織系統(tǒng))①在信息資源描述、組織、管理、發(fā)現(xiàn)等方面的強(qiáng)大功能已得到圖書情報(bào)界和相關(guān)領(lǐng)域的廣泛認(rèn)可。為促進(jìn)對(duì)這些知識(shí)組織工具的有效利用,需要對(duì)它們進(jìn)行組織和管理。早期的做法是在機(jī)構(gòu)內(nèi)部創(chuàng)建和維護(hù)各種印刷版本的詞表列表以供用戶使用,如歐盟發(fā)布的ThesaurusGuide[1]。自1996年起國(guó)外陸續(xù)出現(xiàn)了一些以電子格式發(fā)布的在線詞表列表,如英屬哥倫比亞大學(xué)圖書情報(bào)學(xué)院的詞表索引[2]和HILTResourceList[3],遺憾的是這些列表中的大多數(shù)并沒有得到持久的擴(kuò)展和維護(hù)。20世紀(jì)90年代末網(wǎng)絡(luò)知識(shí)組織系統(tǒng)(NetworkedKnowledgeOrganizationSystems/Services,簡(jiǎn)稱NKOS)社區(qū)②開始了研制術(shù)語注冊(cè)的嘗試,知識(shí)組織資源的存儲(chǔ)、組織、管理和利用開始朝著有序化、規(guī)范化和網(wǎng)絡(luò)化的方向發(fā)展。術(shù)語注冊(cè)是指對(duì)各種詞表提供權(quán)威的、集中控制的存儲(chǔ),以促進(jìn)詞表的發(fā)現(xiàn)、重用、管理、標(biāo)準(zhǔn)化和互操作。一個(gè)術(shù)語注冊(cè)系統(tǒng)能夠列出、描述、識(shí)別并且指明在信息系統(tǒng)和信息服務(wù)中可用的詞表集合,并且提供圖形化界面和術(shù)語服務(wù)以供用戶訪問和使用詞表內(nèi)容(指詞表成員術(shù)語、概念及其相互關(guān)系)[4]。所謂術(shù)語服務(wù)是指對(duì)詞表元數(shù)據(jù)和詞表內(nèi)容進(jìn)行瀏覽、查詢、應(yīng)用的各種Web服務(wù)的統(tǒng)稱[5]。術(shù)語服務(wù)通過Web應(yīng)用程序接口(API)支持機(jī)器對(duì)詞表及其內(nèi)容的訪問和調(diào)用,是在網(wǎng)絡(luò)環(huán)境下對(duì)詞表進(jìn)行應(yīng)用的重要途徑。術(shù)語注冊(cè)和術(shù)語服務(wù)兩者相輔相成,前者是后者的前提和保證,后者是前者的目的和應(yīng)用。術(shù)語注冊(cè)和服務(wù)系統(tǒng)是各種知識(shí)組織系統(tǒng)共建共享的重要平臺(tái),是網(wǎng)絡(luò)知識(shí)組織系統(tǒng)(NKOS)由理論走向?qū)嶋H應(yīng)用的關(guān)鍵環(huán)節(jié),也是一個(gè)國(guó)家或領(lǐng)域內(nèi)重要的信息基礎(chǔ)設(shè)施。目前國(guó)外已經(jīng)構(gòu)建了不少術(shù)語注冊(cè)和服務(wù)系統(tǒng)或者開展了一些相關(guān)項(xiàng)目的研究,如OpenMetadataRegistry[6]、OCLC術(shù)語服務(wù)[7]、FAOVESTRegistry[8]等,與之相比,我國(guó)在這方面的研究和建設(shè)還比較滯后。國(guó)內(nèi)最早出現(xiàn)的關(guān)于術(shù)語服務(wù)的論文是2007年司莉等人對(duì)OCLC術(shù)語服務(wù)的介紹[9];2008年深圳大學(xué)曾新紅等人采用OWL語言對(duì)中文敘詞表進(jìn)行語義化表示并實(shí)現(xiàn)了對(duì)詞表內(nèi)容的檢索[10],雖然文中提到將來可能開發(fā)一套Web服務(wù)接口以實(shí)現(xiàn)機(jī)器對(duì)機(jī)器的術(shù)語服務(wù)信息交換,但還僅僅是一個(gè)展望;2008年中國(guó)科學(xué)技術(shù)信息研究所史新等人開發(fā)了一套基于Web服務(wù)的漢語科技詞系統(tǒng)[11],這是我國(guó)術(shù)語注冊(cè)和服務(wù)系統(tǒng)的最早雛形,但該系統(tǒng)只是針對(duì)單一的《漢語主題詞表》提供可供訪問的Web服務(wù)接口,沒有提供術(shù)語注冊(cè)功能,和真正的術(shù)語注冊(cè)和服務(wù)系統(tǒng)相比還有一定距離。因此,大力開展術(shù)語注冊(cè)和術(shù)語服務(wù)方面的研究,構(gòu)建適用于我國(guó)知識(shí)組織工具的術(shù)語注冊(cè)和服務(wù)系統(tǒng),是十分必要和迫切的。通過建立術(shù)語注冊(cè)和術(shù)語服務(wù)機(jī)制,可以加強(qiáng)對(duì)增長(zhǎng)迅速、類型多樣、內(nèi)容復(fù)雜、來源不同的各類詞表的維護(hù)和管理,并可直接通過網(wǎng)絡(luò)為編目、元數(shù)據(jù)創(chuàng)建、信息檢索、知識(shí)組織和管理等各類應(yīng)用提供方便、快捷、強(qiáng)大的術(shù)語支持,讓各類知識(shí)組織工具在網(wǎng)絡(luò)環(huán)境下發(fā)揮更大的效益和價(jià)值。鑒于以上目的,本文提出了一種基于SOA(Service-OrientedArchitecture)架構(gòu)構(gòu)建術(shù)語注冊(cè)和服務(wù)系統(tǒng)的解決方案,并詳細(xì)介紹實(shí)現(xiàn)該系統(tǒng)的關(guān)鍵技術(shù),討論術(shù)語服務(wù)的代表性應(yīng)用。文章的后序部分按以下結(jié)構(gòu)進(jìn)行組織:第二部分分析回顧國(guó)外的主要術(shù)語注冊(cè)和服務(wù)系統(tǒng)及相關(guān)研究項(xiàng)目;第三部分介紹詞表的表示形式和關(guān)聯(lián)數(shù)據(jù)化顯示;第四部分給出系統(tǒng)的架構(gòu)設(shè)計(jì);第五部分介紹術(shù)語服務(wù)的代表性應(yīng)用;第六部分是總結(jié)和展望。2研究綜述國(guó)外代表性的術(shù)語注冊(cè)系統(tǒng)有TaxonomyWarehouse[12]、LexaurusBank[13]、FAOVESTRegistry、OpenMetadataRegistry、OCLC術(shù)語服務(wù)等。TaxonomyWarehouse是由DowJonesFactiva③在2001年構(gòu)建的taxonomy注冊(cè)系統(tǒng),共收集了由288個(gè)出版商提供的670個(gè)taxonomies,是最早建立的術(shù)語注冊(cè)之一,但功能有限,只提供詞表的分類瀏覽和名稱檢索。LexaurusBank是英國(guó)VocabularyManagementGroup公司開發(fā)的一個(gè)詞表管理系統(tǒng),支持SKOS、Zthes、IMSVDEX④等格式的詞表的輸入、輸出以及分布式環(huán)境下詞表的在線創(chuàng)建、編輯和相互映射,能夠自動(dòng)跟蹤詞表的更新修改并對(duì)詞表進(jìn)行完全的版本控制,此外還提供REST模式的Web服務(wù)以支持機(jī)器對(duì)機(jī)器的詞表訪問。FAOVESTRegistry是聯(lián)合國(guó)糧農(nóng)組織建立的一個(gè)綜合性注冊(cè)系統(tǒng),詞表大類中存儲(chǔ)了90多個(gè)與農(nóng)業(yè)和農(nóng)業(yè)管理相關(guān)的詞表,提供基于詞表類型和領(lǐng)域的詞表瀏覽,此外還針對(duì)AGROVOC多語言農(nóng)業(yè)詞表提供了一組基于SOAP協(xié)議的術(shù)語服務(wù),實(shí)現(xiàn)對(duì)該詞表中術(shù)語及其關(guān)系的檢索。OpenMetadataRegistry是在美國(guó)自然科學(xué)數(shù)字圖書館研究項(xiàng)目中構(gòu)建的一個(gè)大型詞表和元數(shù)據(jù)注冊(cè)系統(tǒng)。是目前最強(qiáng)大的術(shù)語注冊(cè)系統(tǒng),不僅擁有基本的詞表元數(shù)據(jù)和詞表內(nèi)容檢索功能,還支持詞表的在線編輯和更新、詞表的版本控制、詞表更新的自動(dòng)通知等復(fù)雜功能,遺憾的是該系統(tǒng)目前主要是通過可視化圖形界面供人類用戶使用,還沒有提供支持機(jī)器訪問的術(shù)語服務(wù),開發(fā)者擬在后序工作中實(shí)現(xiàn)[14]。OCLC術(shù)語服務(wù)是OCLC開發(fā)的一個(gè)實(shí)驗(yàn)性術(shù)語服務(wù)系統(tǒng),目前存儲(chǔ)了包括LCSH在內(nèi)的六個(gè)詞表,支持HTML、MARCXML、Zthes和SKOS四種詞表表示格式,采用SRU檢索協(xié)議和CQL查詢語言實(shí)現(xiàn)了一組術(shù)語服務(wù)[15]。目前OCLC的術(shù)語服務(wù)已有了一些實(shí)驗(yàn)性的應(yīng)用,譬如美國(guó)印第安納大學(xué)的OPAC系統(tǒng)采用OCLC術(shù)語服務(wù)提供了一個(gè)查詢擴(kuò)展功能。除上述專門的術(shù)語注冊(cè)和服務(wù)系統(tǒng)外,在一些相關(guān)研究項(xiàng)目中也涉及了術(shù)語服務(wù)的研究和開發(fā),如HILT、STAR和ADL敘詞表協(xié)議。HILT(High-levelThesaurus)是英國(guó)JISC(聯(lián)合信息系統(tǒng)委員會(huì))和RSLP(研究支持圖書館計(jì)劃)共同資助的一個(gè)研究項(xiàng)目,采用SOAP協(xié)議和SRU/SRW協(xié)議實(shí)現(xiàn)了七個(gè)用于術(shù)語檢索的術(shù)語服務(wù),檢索結(jié)果以SKOS格式表示。STAR(SemanticTechnologiesforArchaeologicalResources)是英國(guó)AHRC(藝術(shù)與人文研究委員會(huì))的一個(gè)研究項(xiàng)目,采用SKOS為詞表的表示格式,以SKOSAPI為詞表內(nèi)容的查詢接口,開發(fā)了七個(gè)術(shù)語服務(wù),提供術(shù)語查找、相關(guān)概念獲取、概念擴(kuò)展等功能。美國(guó)亞歷山大數(shù)字圖書館項(xiàng)目中構(gòu)建的ADL敘詞表協(xié)議采用自定義的XML格式表示詞表,提供了五個(gè)術(shù)語服務(wù)實(shí)現(xiàn)詞表的查詢和瀏覽,但是不支持詞表的創(chuàng)建、維護(hù)、共享和相互映射等復(fù)雜操作[16]。通過對(duì)以上術(shù)語注冊(cè)和服務(wù)系統(tǒng)及相關(guān)研究項(xiàng)目的調(diào)研分析,筆者對(duì)目前術(shù)語注冊(cè)系統(tǒng)提供的基本功能概括如下:詞表的注冊(cè)和上載、詞表元數(shù)據(jù)的瀏覽和檢索、詞表內(nèi)容(即詞表成員術(shù)語及其關(guān)系)的瀏覽和檢索。有個(gè)別復(fù)雜的注冊(cè)系統(tǒng)還提供詞表的在線編輯修改、版本控制等高級(jí)功能。大部分術(shù)語注冊(cè)系統(tǒng)提供術(shù)語服務(wù),使計(jì)算機(jī)程序能夠通過Web服務(wù)API訪問和調(diào)用詞表內(nèi)容。3詞表的表示3.1詞表表示格式詞表的表示格式是整個(gè)術(shù)語注冊(cè)和服務(wù)系統(tǒng)的前提和基礎(chǔ),支持什么樣的詞表格式?jīng)Q定了整個(gè)系統(tǒng)需采用的存儲(chǔ)和檢索策略。目前術(shù)語注冊(cè)中采用的詞表表示格式主要是XML編碼格式,但也有極個(gè)別系統(tǒng)支持HTML等非XML編碼格式,如OCLC術(shù)語服務(wù)。XML格式又可進(jìn)一步細(xì)分為自定義XML格式和標(biāo)準(zhǔn)XML格式。自定義格式因不具有通用性,只在少數(shù)系統(tǒng)中出現(xiàn),如ADL敘詞表協(xié)議,大部分系統(tǒng)采用的是標(biāo)準(zhǔn)XML格式,主要有MARCXML、Zthes和SKOS三種。MARCXML是由美國(guó)國(guó)會(huì)圖書館制定的MARC21格式的一種XML表示方式,是最早期的詞表電子化表示格式。Zthes被稱作Z39.50詞表描述模型,是一個(gè)基于XML格式的詞表描述和傳輸規(guī)范。這兩種詞表表示格式都是在較早時(shí)期制定的,目前已經(jīng)不能適應(yīng)網(wǎng)絡(luò)環(huán)境下對(duì)詞表應(yīng)用的要求[17]。SKOS全稱是SimpleKnowledgeOrganizationSystem(簡(jiǎn)單知識(shí)組織系統(tǒng)),是由萬維網(wǎng)聯(lián)盟(W3C)于2005年發(fā)布的一套詞表語義化描述規(guī)范,采用RDF格式對(duì)詞表的結(jié)構(gòu)、內(nèi)容和映射關(guān)系進(jìn)行描述,可用于表示除本體外的幾乎所有其他受控詞表,是一種適用于網(wǎng)絡(luò)環(huán)境下詞表應(yīng)用的新的表示格式。SKOS標(biāo)準(zhǔn)包括三部分:用于描述詞表基本結(jié)構(gòu)和內(nèi)容的SKOSCore模型;用于描述不同詞表概念間映射的SKOSMapping;用于描述特定應(yīng)用的SKOS-XL。對(duì)于簡(jiǎn)單詞表,采用通用的SKOSCore模型足以進(jìn)行描述;但是對(duì)于某些復(fù)雜詞表,如《中國(guó)圖書館分類法》和《漢語主題詞表》,則還需要對(duì)SKOSCore模型進(jìn)行一定程度的擴(kuò)展,增加特定的類和屬性,才能夠?qū)崿F(xiàn)對(duì)復(fù)雜詞表的無損語義化描述。除了普通的受控詞表,還有一種特殊的詞表,即本體。本體可采用RDFS或者OWL語言進(jìn)行表示。RDFS是最簡(jiǎn)單的本體描述語言,缺乏精確的表達(dá)能力,一般用于描述簡(jiǎn)單的知識(shí)結(jié)構(gòu),如SKOSCore模型和DC元數(shù)據(jù)標(biāo)準(zhǔn)都是采用RDFS語言定義的。OWL是W3C制定的一種復(fù)雜的本體描述語言,具有強(qiáng)大的表達(dá)和推理能力,目前領(lǐng)域知識(shí)本體大都采用OWL語言進(jìn)行描述。通過對(duì)上述幾種詞表表示格式的分析和比較,筆者推薦采用語義化的詞表表示方式,因?yàn)檎Z義化的詞表表示能為機(jī)器讀取和理解,適于詞表在網(wǎng)絡(luò)環(huán)境下的應(yīng)用,而且也更容易實(shí)現(xiàn)不同詞表間的互操作。本文描述的系統(tǒng)是一個(gè)面向語義化詞表的術(shù)語注冊(cè)和服務(wù)系統(tǒng),所支持的詞表分為兩類:一類是采用SKOS語言表示的普通受控詞表,如術(shù)語表、敘詞表、分類法等;另一類是采用RDFS或者OWL語言表示的知識(shí)本體。3.2詞表內(nèi)容的關(guān)聯(lián)數(shù)據(jù)化關(guān)聯(lián)數(shù)據(jù)是由萬維網(wǎng)創(chuàng)始人蒂姆·伯納斯·李于1996年提出的一個(gè)概念,是指通過能夠被HTTP協(xié)議訪問的URI地址在Web上展示、共享、連接數(shù)據(jù)的一種方式。關(guān)聯(lián)數(shù)據(jù)的兩個(gè)基本宗旨是:①采用RDF數(shù)據(jù)模型在Web上發(fā)布結(jié)構(gòu)化數(shù)據(jù);②采用RDF鏈接連接來自不同數(shù)據(jù)源的數(shù)據(jù)[18]。作為一種在網(wǎng)絡(luò)上發(fā)布結(jié)構(gòu)化數(shù)據(jù)的方法,關(guān)聯(lián)數(shù)據(jù)也可用于展示詞表中的成員術(shù)語及其相互關(guān)系,譬如美國(guó)國(guó)會(huì)圖書館將MARCXML格式的LCSH(美國(guó)國(guó)會(huì)圖書館標(biāo)題表)轉(zhuǎn)換為SKOS格式后以關(guān)聯(lián)數(shù)據(jù)形式在Web上發(fā)布[19]。通過對(duì)詞表內(nèi)容的關(guān)聯(lián)數(shù)據(jù)化,能夠像訪問Web文檔一樣直接通過HTTP協(xié)議訪問詞表中的成員術(shù)語并沿著術(shù)語間的鏈接(即術(shù)語間的關(guān)系)在不同詞表(或概念體系)間穿行,使所有術(shù)語(或概念)構(gòu)成一張數(shù)據(jù)網(wǎng)。此外,相對(duì)于Web文檔之間的超鏈接,術(shù)語之間的RDF鏈接更能夠揭示術(shù)語間的語義關(guān)系,有益于人機(jī)理解語境信息。詞表內(nèi)容的關(guān)聯(lián)數(shù)據(jù)化顯示如圖1所示。圖1中,細(xì)箭頭指向的內(nèi)容以Web文檔的形式顯示,根據(jù)客戶端瀏覽器的不同,可以是HTML、RDF/XML或者N3/Text文檔;粗箭頭是RDF鏈接,沿著RDF鏈接可瀏覽同一詞表或不同詞表中的相關(guān)術(shù)語。本文所描述的術(shù)語注冊(cè)和服務(wù)系統(tǒng)支持詞表內(nèi)容數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化顯示。為了實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián),所有注冊(cè)詞表及其成員均需采用能夠被HTTP協(xié)議訪問的URI標(biāo)識(shí)符唯一命名。對(duì)于RDFS/OWL本體,因?yàn)槲臋n較小且所含成員數(shù)量較少,建議采用HashURI地址命名本體中的成員(即概念和屬性),如</onto.owl#Concept或property>。當(dāng)訪問某個(gè)成員的URI地址時(shí),HTTP協(xié)議通過自動(dòng)剝離“#”符號(hào)后的片段將對(duì)該地址的請(qǐng)求轉(zhuǎn)換為對(duì)整個(gè)本體文檔地址</exonto.owl>的請(qǐng)求,客戶端瀏覽器將顯示本體文檔的全部RDFS或OWL代碼。因?yàn)楸倔w文檔較小,此時(shí)瀏覽文檔中對(duì)該成員的描述非常方便。對(duì)RDFS/OWL本體中的成員術(shù)語的Web訪問方式如圖2(a)所示。圖1詞表內(nèi)容的關(guān)聯(lián)數(shù)據(jù)化示意圖對(duì)于SKOS詞表,因?yàn)槲臋n較大且所含成員數(shù)量較多,建議采用SlashURI地址命名SKOS詞表中的SKOS概念,如</thesaurus/Concept>。對(duì)于SlashURI地址的訪問需采用303重定向方式進(jìn)行,即HTTP協(xié)議自動(dòng)將SKOS概念的SlashURI地址重定向到描述該概念的Web文檔(如HTML、RDF/XML、N3/Text文檔)的URI地址,如</thesaurus/Concept.rdf或Concept.html或Concept.n3>,具體采用哪種表示形式由HTTP協(xié)議的內(nèi)容協(xié)商機(jī)制⑤根據(jù)客戶端瀏覽器的情況來確定。如果客戶端是普通的HTML瀏覽器,將發(fā)送Concept.html表示給客戶端;如果客戶端是支持RDF數(shù)據(jù)的RDF瀏覽器(如內(nèi)嵌在Firefox中的TabulatorRDF瀏覽器),將發(fā)送Concept.rdf給客戶端。采用303重定向方式的缺點(diǎn)是將不可避免地造成延時(shí),為了避免該弊端,一個(gè)解決的方法是在SKOS概念的URI地址之后添加一個(gè)Hash后綴,將SlashURI地址轉(zhuǎn)換為HashURI地址,如</thesaurus/Concept#this>。當(dāng)訪問SKOS概念的HashURI地址時(shí),HTTP協(xié)議自動(dòng)剝離“this”后綴,將對(duì)SKOS概念URI地址的請(qǐng)求轉(zhuǎn)換為對(duì)描述該概念的Web文檔的請(qǐng)求,即對(duì)地址</thesaurus/Concept>的請(qǐng)求。該URI地址有多種表示形式,內(nèi)容協(xié)商機(jī)制將選擇最適合的表示形式返回給客戶端瀏覽器。對(duì)SKOS詞表中的成員術(shù)語的Web訪問方式如圖2(b)所示。4系統(tǒng)架構(gòu)設(shè)計(jì)本文所描述的術(shù)語注冊(cè)和服務(wù)系統(tǒng)采用基于SOA的架構(gòu)模式。SOA(Service-OrientedArchitecture),即面向服務(wù)的架構(gòu),是一種構(gòu)造分布式系統(tǒng)的架構(gòu)方法和設(shè)計(jì)原則,是將異構(gòu)平臺(tái)上應(yīng)用程序的不同功能實(shí)體通過它們之間定義良好的接口和規(guī)范按照松耦合的方式整合在一起的一個(gè)組件模型[20]。采用基于SOA的架構(gòu)能夠提高系統(tǒng)各種功能組件的重用性,有利于系統(tǒng)集成,使系統(tǒng)的擴(kuò)展和更新更加容易,并且提高了系統(tǒng)的互操作性,有利于支持多線程并發(fā)的、組合的、更新頻繁的、實(shí)時(shí)的術(shù)語服務(wù)。但需要說明的是,采用基于SOA的體系結(jié)構(gòu)有時(shí)要以犧牲效率為代價(jià),因此需要根據(jù)合理的設(shè)計(jì)和劃分服務(wù),使系統(tǒng)的綜合性能達(dá)到最優(yōu)。圖2詞表內(nèi)容關(guān)聯(lián)數(shù)據(jù)化的Web訪問方式示意圖基于SOA的架構(gòu)體系由服務(wù)、組件和對(duì)象三種不同粒度的功能實(shí)體構(gòu)成,其核心是服務(wù)。服務(wù)是由一個(gè)或多個(gè)組件構(gòu)成的粗粒度實(shí)體,向外界提供統(tǒng)一的接口,能夠通過網(wǎng)絡(luò)來訪問,向服務(wù)請(qǐng)求者提供某種功能。組件是由多個(gè)對(duì)象構(gòu)成的較細(xì)粒度的實(shí)體,能夠提供獨(dú)立功能并且可以同其他組件交互,而對(duì)象則是封裝了狀態(tài)和操作的更細(xì)粒度的實(shí)體[21]。根據(jù)SOA體系架構(gòu)原則,整個(gè)術(shù)語注冊(cè)和服務(wù)系統(tǒng)的架構(gòu)從上至下分為四層(見圖3)。任務(wù)服務(wù)層:該層的功能邊界直接相關(guān)于特定的上層業(yè)務(wù)任務(wù)或流程。任務(wù)服務(wù)的復(fù)用潛力較小,主要作為一個(gè)服務(wù)組合中的控制器部分,負(fù)責(zé)組裝其他和過程更加無關(guān)的服務(wù)[21]。整個(gè)術(shù)語注冊(cè)和服務(wù)業(yè)務(wù)流程被劃分為六個(gè)任務(wù)服務(wù),每個(gè)任務(wù)服務(wù)組裝一系列粒度更小的工具服務(wù)或組件,完成一定的業(yè)務(wù)流程。工具服務(wù)層:介于任務(wù)服務(wù)和組件之間的中間層。每個(gè)工具服務(wù)致力于提供可復(fù)用的、橫切的工具功能,可以封裝多個(gè)組件,能夠被多個(gè)任務(wù)服務(wù)調(diào)用[21]。術(shù)語注冊(cè)和服務(wù)系統(tǒng)中的工具服務(wù)分為三大類:一類是對(duì)詞表內(nèi)容進(jìn)行操作的服務(wù);另一類是對(duì)詞表內(nèi)容進(jìn)行驗(yàn)證的服務(wù);第三類是對(duì)其他關(guān)系型數(shù)據(jù)進(jìn)行操作的服務(wù)。組件層:組件是指那些能夠在各種服務(wù)中被反復(fù)使用的功能實(shí)體,一般是指應(yīng)用程序的最小功能單元,也可看作是最小粒度的服務(wù)。在術(shù)語注冊(cè)和服務(wù)系統(tǒng)中所用到的關(guān)鍵組件包括RDF/OWL/SKOS數(shù)據(jù)操作組件和RDF/OWL/SKOS數(shù)據(jù)驗(yàn)證組件。圖3基于SOA的術(shù)語注冊(cè)和服務(wù)系統(tǒng)體系架構(gòu)示意圖數(shù)據(jù)層:該層是數(shù)據(jù)存儲(chǔ)層。術(shù)語注冊(cè)和服務(wù)系統(tǒng)中所涉及的數(shù)據(jù)主要有兩類:一類是詞表內(nèi)容數(shù)據(jù),即RDF數(shù)據(jù);另一類是關(guān)系型數(shù)據(jù),包括詞表元數(shù)據(jù)、用戶注冊(cè)數(shù)據(jù)、用戶評(píng)論數(shù)據(jù)等。術(shù)語注冊(cè)和服務(wù)系統(tǒng)是一個(gè)復(fù)雜的系統(tǒng),如果從無到有地進(jìn)行開發(fā)將是一項(xiàng)非常浩大的工程。采用基于SOA架構(gòu)體系的一大優(yōu)勢(shì)是可以利用已有的和新開發(fā)的工具或組件共同“搭建”一個(gè)新系統(tǒng)。目前已經(jīng)存在著許多現(xiàn)成處理RDF/OWL/SKOS數(shù)據(jù)的工具,這些工具在系統(tǒng)中可直接作為組件或工具服務(wù)進(jìn)行調(diào)用,從而減少系統(tǒng)開發(fā)的難度和復(fù)雜度,下文將對(duì)可選用的組件或服務(wù)進(jìn)行詳細(xì)介紹。整個(gè)術(shù)語注冊(cè)和服務(wù)系統(tǒng)采用Web服務(wù)的方式實(shí)現(xiàn)。Web服務(wù)技術(shù)由于具有良好的封裝性、松散的耦合性、協(xié)議規(guī)范的標(biāo)準(zhǔn)性以及高度的可集成性得到了業(yè)界廣泛支持而成為目前實(shí)現(xiàn)SOA架構(gòu)的理想方式,其好處是能夠?qū)崿F(xiàn)一個(gè)中立平臺(tái)來獲得服務(wù)并獲得良好的通用性。4.1任務(wù)服務(wù)層整個(gè)術(shù)語注冊(cè)和服務(wù)流程被劃分為六個(gè)任務(wù)服務(wù),其中詞表注冊(cè)和文檔上載、詞表維護(hù)、詞表文檔瀏覽和下載、詞表瀏覽和檢索是核心服務(wù)。每個(gè)任務(wù)服務(wù)的功能詳細(xì)描述如下:(1)用戶注冊(cè)和登錄服務(wù)●對(duì)新用戶提供注冊(cè)功能,驗(yàn)證并存儲(chǔ)用戶提交的注冊(cè)信息;●對(duì)注冊(cè)用戶提供登錄功能,驗(yàn)證登錄信息;●允許用戶對(duì)注冊(cè)信息進(jìn)行修改和更新。(2)詞表注冊(cè)和文檔上載服務(wù)●提供詞表元數(shù)據(jù)注冊(cè)功能,按照預(yù)定義的詞表元數(shù)據(jù)標(biāo)準(zhǔn)提供所要注冊(cè)的詞表的元數(shù)據(jù),并對(duì)提交的元數(shù)據(jù)進(jìn)行驗(yàn)證和存儲(chǔ);●提供詞表文檔上載功能,默認(rèn)支持RDF/XML序列化格式的詞表文檔的上載,并對(duì)上載的詞表文檔的格式和句法進(jìn)行驗(yàn)證;●擴(kuò)展支持其他序列化格式(如N3、N-Triple和Turtle)的詞表文檔的上載和驗(yàn)證。(3)詞表維護(hù)服務(wù)●修改和更新已注冊(cè)的詞表元數(shù)據(jù);●更新已上載的詞表文檔的版本和相應(yīng)的詞表元數(shù)據(jù);●刪除已注冊(cè)的詞表元數(shù)據(jù)及相應(yīng)的詞表文檔;●對(duì)同一詞表的不同版本進(jìn)行版本控制;●擴(kuò)展支持對(duì)詞表內(nèi)容的在線修改和更新;●擴(kuò)展支持詞表間的自動(dòng)映射和集成。(4)詞表文檔瀏覽和下載服務(wù)●允許用戶瀏覽并下載免費(fèi)的詞表文檔全文,默認(rèn)以RDF/XML序列化格式顯示;擴(kuò)展支持以其他序列化格式(如N3、N-Triple、Turtle)顯示和下載詞表文檔。(5)詞表瀏覽和檢索服務(wù)●瀏覽和檢索詞表的元數(shù)據(jù);●瀏覽和檢索詞表的內(nèi)容,即詞表成員術(shù)語、概念及相互間關(guān)系;●以Web圖形界面顯示瀏覽和查詢結(jié)果;●以Web服務(wù)的形式發(fā)布術(shù)語服務(wù),供機(jī)器通過HTTP協(xié)議訪問和調(diào)用;●支持以關(guān)聯(lián)數(shù)據(jù)的形式顯示詞表內(nèi)容的瀏覽和檢索結(jié)果。(6)系統(tǒng)管理服務(wù)●管理注冊(cè)用戶,對(duì)注冊(cè)賬戶進(jìn)行刪除、修改、禁止和激活等操作;●管理注冊(cè)詞表,對(duì)注冊(cè)詞表的元數(shù)據(jù)進(jìn)行刪除、修改、鎖定和解鎖等操作。4.2工具服務(wù)層和組件層本節(jié)主要對(duì)詞表內(nèi)容操作服務(wù)和詞表內(nèi)容驗(yàn)證服務(wù)及其構(gòu)成組件進(jìn)行介紹。關(guān)系型數(shù)據(jù)操作服務(wù)是通用服務(wù),主要是通過數(shù)據(jù)庫查詢語言SQL實(shí)現(xiàn)對(duì)關(guān)系型數(shù)據(jù)的增加、刪除、修改和查詢的操作,在此不作累述。(1)詞表內(nèi)容操作服務(wù)詞表內(nèi)容操作服務(wù)的功能是對(duì)詞表內(nèi)容進(jìn)行讀、寫和輸出操作。在術(shù)語注冊(cè)和服務(wù)中,使用的主要是讀操作和輸出操作,包括對(duì)詞表文檔的各種序列化格式(如RDF/XML、N3)進(jìn)行讀取和解析,對(duì)詞表成員(即術(shù)語、概念以及相互間關(guān)系)進(jìn)行瀏覽和檢索,以某種序列化格式將詞表內(nèi)容進(jìn)行輸出。如果系統(tǒng)還要支持對(duì)注冊(cè)詞表的內(nèi)容進(jìn)行在線編輯和修改,那么還需用到寫操作,即修改、添加、刪除詞表成員的操作。詞表內(nèi)容操作服務(wù)封裝了三個(gè)組件:RDF數(shù)據(jù)操作組件,SKOS數(shù)據(jù)操作組件和OWL數(shù)據(jù)操作組件。RDF數(shù)據(jù)操作組件的功能是讀取和解析RDF或RDFS文檔并對(duì)RDF數(shù)據(jù)進(jìn)行讀寫和輸出操作,需通過針對(duì)RDF數(shù)據(jù)的API來實(shí)現(xiàn)。雖然OWL數(shù)據(jù)和SKOS數(shù)據(jù)本質(zhì)上也是一種RDF數(shù)據(jù),在RDF數(shù)據(jù)層面也可采用RDF數(shù)據(jù)操作組件進(jìn)行操作,但是這兩種數(shù)據(jù)已經(jīng)各自有更高語義層面的API可供使用,因此RDF數(shù)據(jù)操作組件主要用于處理RDFS本體文檔。目前存在著多種開源RDFAPI,針對(duì)Java語言的比較多,比較著名的有Jena和Sesame。Jena是HP實(shí)驗(yàn)室開發(fā)的一個(gè)開源的語義網(wǎng)工具包,包含了支持RDF/RDFS/OWL的API、SPARQL查詢引擎、RDF/XML解析器、RDF數(shù)據(jù)持久化存儲(chǔ)等組件;Sesame是荷蘭Aduna公司在歐盟研究項(xiàng)目On-To-Knowledge中開發(fā)的一個(gè)面向RDF和RDFS的開源存儲(chǔ)、查詢和推理框架。OWL數(shù)據(jù)操作組件的功能是讀取和解析OWL文檔并對(duì)OWL數(shù)據(jù)進(jìn)行讀寫和輸出操作,需通過針對(duì)OWL數(shù)據(jù)的API來實(shí)現(xiàn)。比較著名的開源OWLAPI有三個(gè):Jena中所帶的OWLAPI,本體編輯工具Protege3.x版中所使用的OWLAPI,以及由英國(guó)曼徹斯特大學(xué)主要開發(fā)和維護(hù)的OWLAPI1.0、2.0和3.0。上述OWLAPI都是JavaAPI,各有優(yōu)缺點(diǎn),在使用時(shí)可根據(jù)實(shí)際情況進(jìn)行選擇。SKOS數(shù)據(jù)操作組件的功能是讀取和解析SKOS文檔并對(duì)SKOS數(shù)據(jù)進(jìn)行讀寫和輸出操作,需通過針對(duì)SKOS數(shù)據(jù)的API來實(shí)現(xiàn)。目前針對(duì)SKOSCore模型的SKOSAPI有兩個(gè):一個(gè)是由歐盟研究項(xiàng)目SWAD-Europe開發(fā)的JavaAPI,支持以Web服務(wù)的形式訪問SKOS表示的敘詞表,但是該API的功能有限,實(shí)用性不高;另一個(gè)是由JISC研究項(xiàng)目CO-ODE和歐盟研究項(xiàng)目Sealife聯(lián)合開發(fā)的JavaAPI,基于OWLAPI2.0實(shí)現(xiàn),基本上實(shí)現(xiàn)了對(duì)基于SKOSCore模型的SKOS數(shù)據(jù)的各種讀寫操作。此外,SKOS數(shù)據(jù)也是一種RDF數(shù)據(jù),也可采用RDF數(shù)據(jù)操作組件輸入和輸出SKOS詞表文檔,并通過RDF查詢語言SPARQL來查詢?cè)~表文檔中的特定內(nèi)容。這種方式更加自由靈活,不受SKOSAPI功能的限制,但是從理論上來說,SPARQL查詢的方式要比直接通過API解析SKOS文檔的方式要慢一些。而且如果術(shù)語注冊(cè)系統(tǒng)要支持詞表內(nèi)容在線編輯和修改等寫操作,仍需通過基于SKOSAPI的SKOS數(shù)據(jù)操作組件來實(shí)現(xiàn)。(2)詞表內(nèi)容驗(yàn)證服務(wù)詞表內(nèi)容驗(yàn)證服務(wù)的功能是對(duì)上載的詞表文檔的格式和句法進(jìn)行驗(yàn)證,以保證注冊(cè)詞表的正確性和權(quán)威性。上載的詞表文檔均是以某種序列化格式表示的RDF文檔,因此詞表文檔首先要遵循相應(yīng)序列化格式的RDF句法規(guī)則,譬如RDF/XML文檔需符合RDF/XML句法規(guī)則,N3文檔需符合N3的句法規(guī)則。除遵循RDF句法外,SKOS詞表還需遵循SKOS語言的規(guī)則,OWL本體還需遵循OWL語言的規(guī)則,因此還需分別對(duì)它們進(jìn)行SKOS驗(yàn)證和OWL驗(yàn)證。大多數(shù)SKOS驗(yàn)證器和OWL驗(yàn)證器中往往已包含了對(duì)RDF句法的驗(yàn)證,因此無需單獨(dú)進(jìn)行RDF驗(yàn)證。但是如果這些驗(yàn)證器中沒有包含該驗(yàn)證(如SKOS2005Validator),則需首先進(jìn)行RDF驗(yàn)證。對(duì)于RDFS本體,只需進(jìn)行RDF驗(yàn)證。詞表內(nèi)容驗(yàn)證服務(wù)封裝了三個(gè)組件:RDF驗(yàn)證器、OWL驗(yàn)證器和SKOS驗(yàn)證器。RDF驗(yàn)證器的功能是對(duì)提交的以某種序列化格式表示的詞表文檔進(jìn)行RDF句法驗(yàn)證。W3C提供了一個(gè)RDF驗(yàn)證服務(wù)⑥,能夠?qū)DF/XML文檔的句法進(jìn)行驗(yàn)證并且對(duì)文檔進(jìn)行解析,輸出RDF三元組和RDF圖形表示。但是這個(gè)驗(yàn)證服務(wù)目前還不支持N3等其他序列化格式。OWL驗(yàn)證器的功能是對(duì)提交的OWL本體的句法進(jìn)行驗(yàn)證,即驗(yàn)證OWL文件是否符合某種OWL子語言的句法規(guī)則。比較有名的OWL驗(yàn)證器是歐盟研究項(xiàng)目WonderWeb開發(fā)的WonderWebOWL-DLValidator⑦,它能夠驗(yàn)證OWL本體采用哪種子語言描述且是否符合該子語言的句法規(guī)則。OWL本體的驗(yàn)證還包括語義驗(yàn)證,即檢查OWL本體中描述的內(nèi)容是否具有一致性,可以采用推理機(jī)來進(jìn)行。因?yàn)镺WLFull子語言不支持邏輯推理,因此語義驗(yàn)證只能針對(duì)OWLLite和OWLFull本體。OWL語義驗(yàn)證的過程比較復(fù)雜,建議在術(shù)語注冊(cè)和服務(wù)系統(tǒng)中只對(duì)OWL文檔的句法進(jìn)行驗(yàn)證。SKOS驗(yàn)證器的功能是對(duì)提交的SKOS詞表進(jìn)行驗(yàn)證。目前W3C推薦了兩個(gè)SKOS驗(yàn)證器⑧:SKOS2005Validator和SKOS2009Validator。SKOS2005Validator是對(duì)SKOS詞表的完整性和兼容性進(jìn)行驗(yàn)證,目前還處于高度實(shí)驗(yàn)階段,并且不支持對(duì)RDF句法的驗(yàn)證,因此在使用該驗(yàn)證服務(wù)之前,需
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)生工程師工作總結(jié)
- 禮品包裝設(shè)計(jì)師的日常工作
- 2025版消防系統(tǒng)改造人工安裝費(fèi)用協(xié)議書3篇
- 關(guān)于公文處理工作規(guī)定的學(xué)習(xí)體會(huì)一、關(guān)于國(guó)家行政機(jī)關(guān)公文處理辦法
- 食品行業(yè)前臺(tái)工作總結(jié)
- 教研成果的學(xué)生產(chǎn)出評(píng)價(jià)
- 二零二五年度個(gè)人光伏發(fā)電貸款合同樣本3篇
- 二零二五年度新型建筑材料應(yīng)用個(gè)人房屋裝修合同模板
- 二零二五年度個(gè)人土地承包經(jīng)營(yíng)權(quán)租賃合同范本12篇
- 2025版鞋子行業(yè)市場(chǎng)趨勢(shì)分析與銷售預(yù)測(cè)合同3篇
- 2024-2025學(xué)年北京市豐臺(tái)區(qū)高三語文上學(xué)期期末試卷及答案解析
- 2021年全國(guó)高考物理真題試卷及解析(全國(guó)已卷)
- 建設(shè)用地土壤污染風(fēng)險(xiǎn)評(píng)估技術(shù)導(dǎo)則(HJ 25.3-2019代替HJ 25.3-2014)
- JJG 692-2010無創(chuàng)自動(dòng)測(cè)量血壓計(jì)
- 徐州市2023-2024學(xué)年八年級(jí)上學(xué)期期末地理試卷(含答案解析)
- 飲料對(duì)人體的危害1
- 數(shù)字經(jīng)濟(jì)學(xué)導(dǎo)論-全套課件
- 中考記敘文閱讀
- 產(chǎn)科溝通模板
- 2023-2024學(xué)年四川省成都市小學(xué)數(shù)學(xué)一年級(jí)下冊(cè)期末提升試題
- GB/T 21709.13-2013針灸技術(shù)操作規(guī)范第13部分:芒針
評(píng)論
0/150
提交評(píng)論