![面向?qū)W科領(lǐng)域的學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注框架研究_第1頁(yè)](http://file4.renrendoc.com/view/17e0739be447d27331223d35a148cc94/17e0739be447d27331223d35a148cc941.gif)
![面向?qū)W科領(lǐng)域的學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注框架研究_第2頁(yè)](http://file4.renrendoc.com/view/17e0739be447d27331223d35a148cc94/17e0739be447d27331223d35a148cc942.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、PAGE 19 -面向?qū)W科領(lǐng)域的學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注框架研究海量的學(xué)術(shù)文獻(xiàn)為科研工的研究帶來(lái)了困難。語(yǔ)義標(biāo)注是實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)的快速閱讀和知識(shí)的快速獲取的基礎(chǔ),因此,本文旨在構(gòu)建一個(gè)面向?qū)W科領(lǐng)域的學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注框架,以規(guī)范和豐富學(xué)術(shù)文獻(xiàn)的標(biāo)注體系。本文從三個(gè)方面進(jìn)行了研究:一是學(xué)術(shù)文獻(xiàn)標(biāo)注本體的構(gòu)建,二是學(xué)科領(lǐng)域本體的構(gòu)建,三是標(biāo)注本體與領(lǐng)域本體的關(guān)聯(lián)實(shí)例。本文從學(xué)術(shù)文獻(xiàn)內(nèi)容定位、概念關(guān)聯(lián)、方法流程標(biāo)注及引文標(biāo)注幾個(gè)方面給出了標(biāo)注的實(shí)例。1 引言20世紀(jì)80年代起,隨著互聯(lián)網(wǎng)及計(jì)算機(jī)軟硬件的發(fā)展,數(shù)字出版的基礎(chǔ)設(shè)施逐步發(fā)展成熟,數(shù)字學(xué)術(shù)出版物應(yīng)運(yùn)而生,而隨之帶來(lái)的是數(shù)字學(xué)術(shù)出版物在數(shù)量上呈現(xiàn)爆發(fā)式增
2、長(zhǎng)。2022年STM報(bào)告:科技及學(xué)術(shù)期刊出版概述指出:截至2022年,CrossRef數(shù)據(jù)庫(kù)包含超過(guò)7100萬(wàn)個(gè)DOI號(hào),Google學(xué)術(shù)索引了1億1.6億的學(xué)術(shù)資源(包括期刊文獻(xiàn)、書(shū)籍和灰色文獻(xiàn)),Web of Science數(shù)據(jù)庫(kù)中包含了約9000萬(wàn)條記錄;截至2022年9月,中國(guó)學(xué)術(shù)期刊(網(wǎng)絡(luò)版)共收錄接近5000萬(wàn)篇中文學(xué)術(shù)文獻(xiàn)。在這種背景下,學(xué)術(shù)交流產(chǎn)生了重大的變革。研究者可以從網(wǎng)絡(luò)文獻(xiàn)數(shù)據(jù)庫(kù)中獲取到大量的學(xué)術(shù)文獻(xiàn),這為研究者的研究工作提供了非常好的基礎(chǔ),但同時(shí)如此大體量的資源為學(xué)術(shù)工作的展開(kāi)也帶來(lái)了困難。首先,新概念的產(chǎn)生或者新涉足某一領(lǐng)域時(shí),研究者需要學(xué)習(xí)大量的已有知識(shí)才能跟上現(xiàn)
3、有的研究進(jìn)展。而且,研究者的時(shí)間是有限的,獲取到的文獻(xiàn)越多,分配到單篇學(xué)術(shù)文獻(xiàn)閱讀的時(shí)間則相應(yīng)減少,Tenopir等1的研究就證實(shí)了這一假設(shè)研,研究者閱讀文獻(xiàn)不再是閱讀全文,而是獲取感興趣的內(nèi)容進(jìn)行閱讀:研究者通過(guò)瀏覽許多文章的部分來(lái)尋找、評(píng)估和利用一系列的信息2,這種閱讀方式也被稱(chēng)作碎片化閱讀。因此,第一個(gè)問(wèn)題就是如何快速定位到文章的有用部分。另外,學(xué)術(shù)文獻(xiàn)中的知識(shí)元存在大量的關(guān)聯(lián)性,如引文關(guān)聯(lián)、相關(guān)概念等,如何組織這些相關(guān)的知識(shí)元是研究者面臨的第二個(gè)問(wèn)題。因此,Renear等3提出了“策略閱讀”的概念,采用學(xué)科本體來(lái)表示及鏈接科學(xué)數(shù)據(jù)可以提高研究者閱讀學(xué)術(shù)文獻(xiàn)的效率,即需要利用學(xué)科本體對(duì)學(xué)
4、術(shù)文獻(xiàn)中的相關(guān)內(nèi)容進(jìn)行語(yǔ)義標(biāo)注(Semantic Annotation)。語(yǔ)義標(biāo)注就是將本體或元數(shù)據(jù)中的概念與資源建立聯(lián)系的一個(gè)過(guò)程。其中,語(yǔ)義標(biāo)注的核心是學(xué)科領(lǐng)域本體,本體最廣泛的定義是“本體是概念模型的明確的規(guī)范說(shuō)明”4,它可以靈活地定義事物結(jié)構(gòu),以元數(shù)據(jù)的模式,提供概念受控詞表,每個(gè)概念都包括一個(gè)明確定義的機(jī)器可理解的語(yǔ)義,且概念與概念之間的關(guān)聯(lián)也顯式地進(jìn)行了定義,這樣的結(jié)構(gòu)能夠讓計(jì)算機(jī)進(jìn)行推理應(yīng)用。學(xué)術(shù)文獻(xiàn)的語(yǔ)義標(biāo)注就是借助領(lǐng)域本體,將學(xué)術(shù)文獻(xiàn)中的相關(guān)內(nèi)容與本體中的知識(shí)元(概念或關(guān)系)進(jìn)行鏈接,當(dāng)讀者需要獲取文獻(xiàn)中知識(shí)元對(duì)應(yīng)的描述時(shí),可以借助語(yǔ)義本體從對(duì)應(yīng)的知識(shí)庫(kù)中進(jìn)行獲取。例如,Te
5、xtpresso5就是一個(gè)與本體關(guān)聯(lián)的數(shù)據(jù)挖掘系統(tǒng),它所包含的學(xué)術(shù)文獻(xiàn)集依據(jù)本體中的術(shù)語(yǔ)分為了33個(gè)類(lèi)別,用戶輸入一個(gè)或多個(gè)標(biāo)記或關(guān)鍵詞集合就可以定位到學(xué)術(shù)文獻(xiàn)中特定的句子,并可獲取本體中詞對(duì)應(yīng)的含義,支持語(yǔ)義查詢。預(yù)先對(duì)學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)、內(nèi)容或引文信息進(jìn)行標(biāo)注后,讀者可以通過(guò)這些標(biāo)注信息快速定位到文章的部分內(nèi)容實(shí)現(xiàn)“策略閱讀”。目前,已有一些研究針對(duì)資源語(yǔ)義標(biāo)注框架提出了標(biāo)注本體的概念,標(biāo)注本體旨在針對(duì)學(xué)術(shù)文獻(xiàn)提出一個(gè)規(guī)范的本體框架,進(jìn)而采用標(biāo)注本體中的概念對(duì)學(xué)術(shù)文獻(xiàn)的內(nèi)容進(jìn)行標(biāo)注。目前已有的標(biāo)注本體有PAV6、PROV-O7以及AO8本體等。其中,PAV本體用于獲取數(shù)字科技資源的出處、以及版
6、本信息,用以區(qū)別資源被獲取、轉(zhuǎn)換以及消費(fèi)的過(guò)程;PROV-O是W3C小組制定的用于統(tǒng)一資源交換的本體;AO本體提供了用于標(biāo)注生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)的概念及關(guān)系。但是,現(xiàn)有的研究主要集中在標(biāo)注本體的制定上,而如何對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行標(biāo)注的研究比較少。為了實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)的語(yǔ)義標(biāo)注,首先需要明確學(xué)術(shù)文獻(xiàn)所包含的知識(shí)元類(lèi)型,在繼承已有標(biāo)注本體的基礎(chǔ)上構(gòu)建一個(gè)面向?qū)W術(shù)文獻(xiàn)標(biāo)注的標(biāo)注本體,除了包含學(xué)術(shù)文獻(xiàn)的一些標(biāo)準(zhǔn)元數(shù)據(jù)信息(、創(chuàng)建者、創(chuàng)建時(shí)間)以外,還包括了學(xué)術(shù)文獻(xiàn)中的主題、發(fā)現(xiàn)、方法論等;其次,需要構(gòu)建一個(gè)與某一學(xué)術(shù)領(lǐng)域相關(guān)專(zhuān)業(yè)術(shù)語(yǔ)的領(lǐng)域本體,包含該領(lǐng)域的概念及概念間的關(guān)聯(lián);最后,要將學(xué)術(shù)文獻(xiàn)中的內(nèi)容與本體中的
7、概念一一對(duì)應(yīng),從而可以通過(guò)標(biāo)注信息實(shí)現(xiàn)文獻(xiàn)的快速瀏覽,也可以通過(guò)URI對(duì)相應(yīng)概念做進(jìn)一步了解。因此,本文旨在構(gòu)建學(xué)科領(lǐng)域?qū)W術(shù)文獻(xiàn)語(yǔ)義標(biāo)注框架,提出適用于學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注的標(biāo)注本體,以及針對(duì)學(xué)術(shù)文獻(xiàn)具體內(nèi)容(如引文信息、內(nèi)容信息等)進(jìn)行語(yǔ)義標(biāo)注的方法。本文提出的學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注框架也是實(shí)現(xiàn)文獻(xiàn)語(yǔ)義檢索的基礎(chǔ),通過(guò)語(yǔ)義標(biāo)注,給予機(jī)器可以理解的語(yǔ)義,讓使用者更方便更有效地利用學(xué)術(shù)文獻(xiàn),另外,提出的學(xué)術(shù)文獻(xiàn)標(biāo)注本體,可以被其他標(biāo)注本體進(jìn)行繼承和擴(kuò)展,具有較高的實(shí)踐價(jià)值。2 相關(guān)研究2.1 學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注方法相關(guān)研究學(xué)術(shù)文獻(xiàn)標(biāo)注主要有兩種方法:一是社會(huì)標(biāo)注,研究者在學(xué)術(shù)文獻(xiàn)閱讀過(guò)程中使用輔助閱讀或管理
8、的軟件進(jìn)行標(biāo)注;二是采用機(jī)器自動(dòng)進(jìn)行學(xué)術(shù)文獻(xiàn)的標(biāo)注。社會(huì)標(biāo)注,即folksonomies,目前已有一些面向?qū)W術(shù)文獻(xiàn)的標(biāo)注軟件,如Utopia、Mendeley,這些軟件可以自動(dòng)獲取到文章的一些元數(shù)據(jù)信息,如題名、摘要、DOI、URL等,也可以獲取讀者的統(tǒng)計(jì)數(shù)據(jù)以及讀者對(duì)文章內(nèi)容的標(biāo)注。這類(lèi)軟件有利于資源的分類(lèi)和組織,標(biāo)簽可以提升檢索效率,也促進(jìn)了以同一興趣標(biāo)簽的社交網(wǎng)絡(luò)生成。但是社會(huì)標(biāo)注有一些缺陷,不同的表達(dá)、詞的歧義、不同粒度,都為標(biāo)簽的共享和重用帶來(lái)困難。機(jī)器學(xué)習(xí)方法進(jìn)行標(biāo)注可以減少人工標(biāo)注的成本。Boella等9提出了一種結(jié)合語(yǔ)言學(xué)及機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行語(yǔ)義標(biāo)注,語(yǔ)言學(xué)方法主要依賴(lài)于PO
9、S標(biāo)注以及句法分析,再將這些元素轉(zhuǎn)化為特征集,采用支持向量機(jī)來(lái)對(duì)文本進(jìn)行語(yǔ)義標(biāo)注。段宇鋒等10結(jié)合樸素貝葉斯和弱監(jiān)督學(xué)習(xí)方法Bootstrapping來(lái)迭代學(xué)習(xí)和標(biāo)注中文物種領(lǐng)域的文本。Vidal等11提出了一種基于圖的方法來(lái)對(duì)e-Learning領(lǐng)域的教學(xué)資源文檔進(jìn)行標(biāo)注,每個(gè)相關(guān)術(shù)語(yǔ)鏈接到本體中的子圖,這一擴(kuò)展過(guò)程中,排除與文檔主題不相關(guān)的信息,因而有一系列本體子圖標(biāo)注文檔,最后取這些本體子圖的交集作為文檔的語(yǔ)義標(biāo)注。2.2 學(xué)術(shù)文獻(xiàn)元數(shù)據(jù)或標(biāo)注本體相關(guān)研究目前,針對(duì)資源描述出現(xiàn)了一些元數(shù)據(jù)以及標(biāo)注本體。都柏林核心元數(shù)據(jù)適用于描述和管理數(shù)字資源及館藏資源,包括題名、創(chuàng)建者、主題及關(guān)鍵詞、說(shuō)
10、明、出版者等15個(gè)廣義元數(shù)據(jù)。PROV本體(PROV-O)是針對(duì)不同系統(tǒng)不同內(nèi)容生成的信息進(jìn)行表示、交換或集成的本體,由W3C小組開(kāi)發(fā)、管理和維護(hù)。PAV本體是用于獲取網(wǎng)絡(luò)資源的出處、以及版本信息的本體。標(biāo)注本體(AO)是與標(biāo)注相關(guān)的本體,包括評(píng)論、實(shí)體標(biāo)注(或語(yǔ)義標(biāo)注)、文本標(biāo)注(經(jīng)典標(biāo)記)、筆記等用于部分或全部電子文檔(文本、圖片、聲音、表格等)的標(biāo)注信息。SWAN12本體描述了艾滋海默癥領(lǐng)域的知識(shí),它作為一個(gè)知識(shí)支撐系統(tǒng)能夠有效地支持艾滋海默領(lǐng)域研究,并且它與SIOC本體進(jìn)行了本體對(duì)齊,為不同粒度級(jí)別的科學(xué)論述的表示提供了一個(gè)完整的模型。SPAR本體是用于描述出版領(lǐng)域的本體,它為語(yǔ)義出版
11、和引文提供了一套可以機(jī)讀的RDF元數(shù)據(jù)集,包括文檔的描述,文獻(xiàn)目錄識(shí)別,引文的類(lèi)型和相關(guān)內(nèi)容,書(shū)目引文,文檔的部分及狀態(tài),個(gè)體的角色及貢獻(xiàn),文獻(xiàn)計(jì)量學(xué)數(shù)據(jù)及工作流程。SPAR本體包括下述子本體:FaBiO是用于描述出版或者潛在出版實(shí)體的本體;CiTO是一種引文本體,用來(lái)描述引文的特性及類(lèi)型,并允許標(biāo)注者標(biāo)記引文鏈接和引用意圖;BiRO是用于描述書(shū)目記錄及參考文獻(xiàn)的本體;C4O是用于描述參考文獻(xiàn)引文的本體,如文本內(nèi)部參考文獻(xiàn)指針、文本被引用文獻(xiàn)引用的次數(shù)等;DoCO提供了文檔結(jié)構(gòu)元素的詞表,如段落、節(jié)或列表等;PSO是用于描述文件出版狀態(tài)或者出版過(guò)程中不同階段的出版實(shí)體的本體,如提交、審稿中、拒
12、稿、接收等;PRO是用于描述個(gè)體出版過(guò)程中(如、編輯、評(píng)審等)的角色的本體;PWO13是用于描述出版實(shí)體在出版過(guò)程中的步驟的本體,如文章在審稿中、印刷、發(fā)表等;DEO為文件中的修飾元素提供了一個(gè)結(jié)構(gòu)化的詞表,如引言、討論、致謝、參考文獻(xiàn)列表、附錄等;SCoRO是用于描述學(xué)術(shù)貢獻(xiàn)及角色的本體;FRAPO是用于描述研究項(xiàng)目信息的本體,如撥款申請(qǐng)、資助機(jī)構(gòu)、項(xiàng)目合等;BiDO是用于描述文獻(xiàn)數(shù)據(jù)中數(shù)字和分類(lèi)的模塊本體,如期刊影響因子、H-指數(shù)、研究類(lèi)型分類(lèi)等;Five*是描述網(wǎng)絡(luò)期刊文章中五種屬性的本體。對(duì)于描述學(xué)術(shù)資源的數(shù)據(jù)的規(guī)范,學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注本體可在繼承現(xiàn)有元數(shù)據(jù)和標(biāo)注本體的基礎(chǔ)上加以擴(kuò)展。2
13、.3 學(xué)術(shù)文獻(xiàn)內(nèi)容提取相關(guān)研究目前,一些研究針對(duì)學(xué)術(shù)文獻(xiàn)中的元數(shù)據(jù)元素、文獻(xiàn)結(jié)構(gòu)以及引文的提取提出了方案。Constantin等14設(shè)計(jì)了基于規(guī)則的系統(tǒng)PDFX,利用設(shè)計(jì)的規(guī)則和特征集進(jìn)行了元數(shù)據(jù)的抽取以及標(biāo)注文本片段。Kovriguina等15研究采用規(guī)則和模板匹配的方法從會(huì)議文獻(xiàn)中提取元數(shù)據(jù)。Tkaczyk等16主要采用啟發(fā)式規(guī)則及支持向量機(jī)方法實(shí)現(xiàn)了基本結(jié)構(gòu)抽取,采用支持向量機(jī)以及簡(jiǎn)單的規(guī)則進(jìn)行元數(shù)據(jù)抽取,采用支持向量機(jī)及條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)了引文抽取。Han等17研究了采用支持向量機(jī)進(jìn)行學(xué)術(shù)文獻(xiàn)元數(shù)據(jù)(包括題名、機(jī)構(gòu)、地址、致謝、版權(quán)、引文、Email、出版時(shí)間、摘要、引言、聯(lián)系方式、關(guān)
14、鍵詞、URL、程度、出版號(hào)、頁(yè)面范圍等)的抽取,該方法通過(guò)預(yù)測(cè)類(lèi)標(biāo)簽進(jìn)行迭代收斂來(lái)提升分類(lèi)效果,再通過(guò)查找每行的塊邊界來(lái)進(jìn)行元數(shù)據(jù)抽取。另一個(gè)采用支持向量機(jī)的學(xué)術(shù)文獻(xiàn)元數(shù)據(jù)抽取方法是等18提出的CRIS系統(tǒng)。引文內(nèi)容是學(xué)術(shù)文獻(xiàn)中引用的與之相關(guān)的資源。等19采用線性條件隨機(jī)場(chǎng)實(shí)現(xiàn)了參考文獻(xiàn)字符串的抽取。目前的研究主要是基于規(guī)則、模板和一些學(xué)習(xí)方法,但是這些方法主要是基于領(lǐng)域內(nèi)一些手工提取的特征,為了突破這一限制,An等20探索了采用序列標(biāo)注的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行引文元數(shù)據(jù)抽取。2.4 相關(guān)研究綜合述評(píng)目前,針對(duì)學(xué)術(shù)文獻(xiàn)或?qū)W術(shù)資源進(jìn)行語(yǔ)義標(biāo)注的研究主要還是基于人工標(biāo)注的方法,通過(guò)設(shè)計(jì)標(biāo)注軟件或網(wǎng)頁(yè)
15、,利用社會(huì)標(biāo)注方法來(lái)對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行標(biāo)注,這類(lèi)標(biāo)注方法目前僅對(duì)學(xué)術(shù)文獻(xiàn)的一些信息(如關(guān)鍵詞、信息、題名等)作淺層標(biāo)注,并未涉及針對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行語(yǔ)義標(biāo)注。相關(guān)研究主要集中在對(duì)標(biāo)注本體的設(shè)計(jì)、學(xué)術(shù)文獻(xiàn)中一些信息(包括關(guān)鍵詞、結(jié)構(gòu)信息等)進(jìn)行機(jī)器自動(dòng)抽取的研究。而如何實(shí)現(xiàn)對(duì)學(xué)術(shù)文獻(xiàn)的語(yǔ)義標(biāo)注,即如何將學(xué)術(shù)文獻(xiàn)中的內(nèi)容與領(lǐng)域本體進(jìn)行語(yǔ)義關(guān)聯(lián),目前的研究較少涉及,因此,本文提出了學(xué)術(shù)文獻(xiàn)的語(yǔ)義標(biāo)注框架。3 學(xué)科領(lǐng)域語(yǔ)義標(biāo)注框架整個(gè)學(xué)術(shù)文獻(xiàn)的標(biāo)注流程如圖1所示,本文提出一種適合手工標(biāo)注與機(jī)器自動(dòng)標(biāo)注的學(xué)科領(lǐng)域語(yǔ)義標(biāo)注框架。整個(gè)語(yǔ)義標(biāo)注流程如下:首先,計(jì)算機(jī)按照標(biāo)注本體或者元數(shù)據(jù)對(duì)文獻(xiàn)中對(duì)應(yīng)項(xiàng)進(jìn)行讀取并預(yù)處理
16、,抽取出對(duì)應(yīng)的信息,將計(jì)算機(jī)確定的條目(如期刊信息、題名等)抽取結(jié)果存入知識(shí)庫(kù);其次,針對(duì)標(biāo)注本體中的一些復(fù)雜項(xiàng)(如文獻(xiàn)主題、關(guān)鍵詞、研究問(wèn)題、解決方案等),計(jì)算機(jī)將領(lǐng)域本體中的概念或關(guān)系與對(duì)應(yīng)的抽取項(xiàng)進(jìn)行關(guān)聯(lián),并將抽取結(jié)果提交給專(zhuān)家(或用戶)選擇標(biāo)注;有文獻(xiàn)閱讀需要的用戶在閱讀文獻(xiàn)后,可以利用標(biāo)注工具對(duì)文獻(xiàn)中的某些標(biāo)注項(xiàng)進(jìn)行標(biāo)注,對(duì)計(jì)算機(jī)的抽取結(jié)果進(jìn)行篩選,最后標(biāo)注工具將用戶的標(biāo)注結(jié)果提交到知識(shí)庫(kù)。圖1 語(yǔ)義標(biāo)注流程圖其中,知識(shí)庫(kù)包括本體庫(kù)、標(biāo)注元數(shù)據(jù)以及文獻(xiàn)語(yǔ)義標(biāo)注后的知識(shí),知識(shí)庫(kù)可以輔助機(jī)器對(duì)文檔的自動(dòng)標(biāo)注與標(biāo)注人員的手工標(biāo)注。本體庫(kù)中包含標(biāo)注本體和學(xué)科領(lǐng)域本體,例如生物醫(yī)學(xué)領(lǐng)域已有較多
17、的本體,在本體標(biāo)注時(shí)可以借助已有本體進(jìn)行使用,然后其他一些領(lǐng)域并不具備這種條件,沒(méi)有已構(gòu)建好的本體,因此,需要采用本體自動(dòng)構(gòu)建技術(shù)對(duì)該領(lǐng)域進(jìn)行構(gòu)建。為了實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)的語(yǔ)義標(biāo)注,整個(gè)語(yǔ)義框架完成實(shí)現(xiàn)以下內(nèi)容:(1)面向?qū)W科領(lǐng)域的學(xué)術(shù)文獻(xiàn),從獲取目前已有的元數(shù)據(jù)和標(biāo)注本體出發(fā),整理學(xué)術(shù)文獻(xiàn)相關(guān)的概念和屬性,構(gòu)建標(biāo)注本體。(2)構(gòu)建學(xué)科領(lǐng)域本體,獲取學(xué)術(shù)領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ)及關(guān)系。(3)將學(xué)術(shù)文獻(xiàn)中標(biāo)注中的標(biāo)記與學(xué)科領(lǐng)域本體中的概念關(guān)聯(lián)。3.1 標(biāo)注本體設(shè)計(jì)3.1.1 標(biāo)注本體設(shè)計(jì)的目標(biāo)標(biāo)注本體是為了描述需要標(biāo)注的對(duì)象(即學(xué)術(shù)文獻(xiàn))中的元素、結(jié)構(gòu)等信息,包括學(xué)術(shù)文獻(xiàn)中的一些元數(shù)據(jù),如題名、等;學(xué)術(shù)文獻(xiàn)中的
18、一些科學(xué)論述,如陳述、假設(shè)等;學(xué)術(shù)文獻(xiàn)中的結(jié)構(gòu)元素,如章、節(jié)、段落等;學(xué)術(shù)文獻(xiàn)中的引文信息,如引用次數(shù),引用文獻(xiàn)等;某個(gè)領(lǐng)域的學(xué)術(shù)文獻(xiàn)中的概念(專(zhuān)業(yè)術(shù)語(yǔ))與關(guān)系。3.1.2 標(biāo)注本體中的元素本文的標(biāo)注本體繼承了一些已有的本體(SPAR本體、FOAF、OA等),并在此基礎(chǔ)上進(jìn)行了擴(kuò)展。標(biāo)注本體主要包含以下幾類(lèi)概念及屬性:(1)學(xué)術(shù)文獻(xiàn)相關(guān)的個(gè)體(Agent):包括學(xué)術(shù)文獻(xiàn)在撰寫(xiě)、出版過(guò)程、檢索利用中相關(guān)的人、機(jī)構(gòu)及軟件。(2)學(xué)術(shù)文獻(xiàn)相關(guān)的實(shí)體(Entity):不同種類(lèi)的學(xué)術(shù)文獻(xiàn),學(xué)術(shù)文獻(xiàn)中的科學(xué)論述以及學(xué)術(shù)文獻(xiàn)中的結(jié)構(gòu)部分,學(xué)術(shù)文獻(xiàn)參考文獻(xiàn)記錄及引文信息。(3)與學(xué)術(shù)文獻(xiàn)相關(guān)的活動(dòng)(Activ
19、ity):如撰寫(xiě)、修改、提交、印刷等活動(dòng),以及與這些活動(dòng)相關(guān)的時(shí)間節(jié)點(diǎn)或時(shí)間區(qū)間。圖2展示了學(xué)術(shù)文獻(xiàn)標(biāo)注本體的概念層級(jí)結(jié)構(gòu)。3.1.3 學(xué)術(shù)文獻(xiàn)相關(guān)的個(gè)體在學(xué)術(shù)文獻(xiàn)中,有一些個(gè)體作為參與者,如人、軟件、組織及機(jī)構(gòu)。針對(duì)這些元素,我們繼承了部分FOAF中的類(lèi),以一篇期刊文獻(xiàn)來(lái)舉例,可獲取文獻(xiàn)的,其在引用另一篇期刊文獻(xiàn)時(shí),被引的文獻(xiàn)中包含的姓名也可被獲取,這些都作為FOAF本體中Person類(lèi)的實(shí)例存在。3.1.4 學(xué)術(shù)文獻(xiàn)相關(guān)的實(shí)體1)學(xué)術(shù)文獻(xiàn)的種類(lèi)本文對(duì)學(xué)術(shù)文獻(xiàn)的種類(lèi)進(jìn)行了分類(lèi)并總結(jié),不同類(lèi)型的學(xué)術(shù)文獻(xiàn)的撰寫(xiě)規(guī)范、包含元素、結(jié)構(gòu)、內(nèi)容不一致,本文主要將學(xué)術(shù)文獻(xiàn)分為:書(shū)籍、文章、報(bào)告、會(huì)議文章等
20、13個(gè)大類(lèi),并在此基礎(chǔ)上又進(jìn)行細(xì)分,例如,文章又可以分為綜述類(lèi)文章、新聞?lì)愇恼?、雜志文章以及期刊文章。本文的學(xué)術(shù)文獻(xiàn)類(lèi)型繼承了Fabio本體中的一些概念,其概念層次關(guān)系如圖3所示。圖2 學(xué)術(shù)文獻(xiàn)標(biāo)注本體包含的概念圖3 學(xué)術(shù)文獻(xiàn)類(lèi)型的概念層次關(guān)系2)學(xué)術(shù)文獻(xiàn)的科學(xué)論述及結(jié)構(gòu)元素學(xué)術(shù)文獻(xiàn)的科學(xué)論述元素是指單篇學(xué)術(shù)文獻(xiàn)所提的觀點(diǎn),在國(guó)外稱(chēng)為scientific discourse,包括斷言、提出問(wèn)題、假設(shè)、支持的證據(jù)以及它們之間的論證關(guān)系,每個(gè)科學(xué)論述元素可以與學(xué)科領(lǐng)域本體或者社會(huì)標(biāo)注中的術(shù)語(yǔ)或者斷言進(jìn)行鏈接。斷言在學(xué)術(shù)文獻(xiàn)中通常指一些主觀性比較強(qiáng)的言論,例如對(duì)某個(gè)術(shù)語(yǔ)下的定義。提出問(wèn)題通常是一個(gè)研
21、究或者實(shí)驗(yàn)開(kāi)展的主題。學(xué)術(shù)文獻(xiàn)中的參考文獻(xiàn)及引文就為科學(xué)論述元素提供支持的證據(jù)。學(xué)術(shù)文獻(xiàn)中的結(jié)構(gòu)元素是組成學(xué)術(shù)文獻(xiàn)的部分,包括引言、背景、相關(guān)研究、方法、討論、數(shù)據(jù)等期刊學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu),也包括前言、后記、附錄等書(shū)籍修飾部分,以及章節(jié)、段落、句子等學(xué)術(shù)文獻(xiàn)粒度。為了本體的共享和重用,上述的元素繼承了doco本體、deo本體以及fabio本體,其主要概念層次關(guān)系如圖4所示。圖4 學(xué)術(shù)文獻(xiàn)中的科學(xué)論述及結(jié)構(gòu)元素圖3)學(xué)術(shù)文獻(xiàn)參考文獻(xiàn)及引文元素通常情況下,學(xué)術(shù)文獻(xiàn)中的參考文獻(xiàn)通常是與當(dāng)前文章相關(guān)的研究,或者為學(xué)術(shù)文獻(xiàn)中的論述提供證據(jù)。關(guān)于參考文獻(xiàn)及引文元素主要包括參考文獻(xiàn)集合描述、引用行為(其屬性包括
22、引用意圖及情感傾向)以及引文計(jì)量。關(guān)于參考文獻(xiàn)及引文的集合、記錄、列表等元素繼承自biro本體中的概念及屬性。根據(jù)學(xué)者引用文獻(xiàn)的意圖可以將引用行為分為:作為權(quán)威描述引用、作為數(shù)據(jù)源引用、作為證據(jù)引用、作為潛在方案引用、作為推薦閱讀引用、作為相關(guān)文章引用、作為原始文檔引用、作為信息源引用等幾類(lèi)。根據(jù)學(xué)者引用文獻(xiàn)時(shí)對(duì)文獻(xiàn)的情感傾向,可將引用行為分為:同意、不同意、認(rèn)為正確、批判、嘲諷、奚落、駁斥這幾類(lèi)。這些概念及屬性繼承自cito本體中的一些概念及屬性。關(guān)于引文計(jì)量的概念及屬性,如總被引次數(shù),主要繼承自c4o本體。3.1.5 學(xué)術(shù)文獻(xiàn)相關(guān)的活動(dòng)與學(xué)術(shù)文獻(xiàn)相關(guān)的活動(dòng)主要包括學(xué)術(shù)文獻(xiàn)創(chuàng)造、加工、修改、
23、使用過(guò)程中相關(guān)的活動(dòng),繼承PROV本體中的Activity類(lèi)。這些活動(dòng)主要有生產(chǎn)、提交、修改、接受、退回、出版、預(yù)印本發(fā)布、發(fā)行、撤回、勘誤等,主要繼承自Fabio本體。3.2 學(xué)科領(lǐng)域本體構(gòu)建為了將學(xué)術(shù)文獻(xiàn)中的專(zhuān)業(yè)術(shù)語(yǔ)與學(xué)科領(lǐng)域本體中的概念相關(guān)聯(lián),首先需要構(gòu)建學(xué)科領(lǐng)域本體,該領(lǐng)域本體中包含的概念是某一學(xué)科領(lǐng)域中的專(zhuān)業(yè)術(shù)語(yǔ),這些術(shù)語(yǔ)也可以是領(lǐng)域詞表中的術(shù)語(yǔ)轉(zhuǎn)化而來(lái),本節(jié)介紹一種學(xué)科領(lǐng)域本體半自動(dòng)構(gòu)建方法。(1)定義需要獲取學(xué)科的范疇,收集該學(xué)科領(lǐng)域相關(guān)的本體、詞表,考慮復(fù)用的可能。(2)獲取領(lǐng)域內(nèi)的術(shù)語(yǔ):首先確定領(lǐng)域內(nèi)術(shù)語(yǔ)的類(lèi)型,如任務(wù)、方法、工具、資源這幾個(gè)類(lèi)別。收集領(lǐng)域內(nèi)的語(yǔ)料,對(duì)語(yǔ)料進(jìn)行
24、文本轉(zhuǎn)化、去噪、分詞(英文語(yǔ)料包括詞根化)、詞性標(biāo)注等預(yù)處理。結(jié)合語(yǔ)言學(xué)、統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)方法自動(dòng)地從語(yǔ)料中抽取術(shù)語(yǔ),語(yǔ)言學(xué)方法需要按照領(lǐng)域內(nèi)術(shù)語(yǔ)的規(guī)律提煉出詞性模板,機(jī)器學(xué)習(xí)方法首先需要獲取用于抽取術(shù)語(yǔ)的特征。最后抽取出領(lǐng)域內(nèi)的術(shù)語(yǔ)。(3)獲取術(shù)語(yǔ)間的等級(jí)關(guān)系:首先定義一些等級(jí)關(guān)系的規(guī)則模板(例如,A是一種B,則A是B的子類(lèi)),從網(wǎng)頁(yè)或語(yǔ)料中獲取到等級(jí)關(guān)系概念對(duì),再利用基于圖的方法獲取等級(jí)關(guān)系圖模型,最后利用圖剪枝方法去除冗余的關(guān)系。(4)獲取術(shù)語(yǔ)間的非等級(jí)關(guān)系:針對(duì)領(lǐng)域內(nèi)的知識(shí),定義術(shù)語(yǔ)間非等級(jí)關(guān)系的類(lèi)型(如部分-整體關(guān)系);再到語(yǔ)料中獲取具有非等級(jí)關(guān)系的三元組,采用統(tǒng)計(jì)學(xué)方法判定非等級(jí)關(guān)
25、系三元組中概念對(duì)、動(dòng)詞與概念對(duì)之間的關(guān)聯(lián)程度,取閾值內(nèi)的非等級(jí)關(guān)系三元組;再提取特征,采用機(jī)器學(xué)習(xí)的方法判斷提取三元組的類(lèi)型。最后對(duì)生成的本體進(jìn)行評(píng)價(jià),或者重復(fù)上述過(guò)程。4 學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注實(shí)例學(xué)術(shù)文獻(xiàn)的語(yǔ)義標(biāo)注可以是手工標(biāo)注或是機(jī)器自動(dòng)標(biāo)注,無(wú)論是采用何種標(biāo)注方法,均是對(duì)學(xué)術(shù)文獻(xiàn)或者其中某一部分,添加解釋或者進(jìn)行語(yǔ)義鏈接。本節(jié)針對(duì)學(xué)術(shù)文獻(xiàn)中語(yǔ)義標(biāo)注的常見(jiàn)類(lèi)型進(jìn)行區(qū)分,并給出學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注的實(shí)例。根據(jù)OA本體21中的規(guī)定,標(biāo)注實(shí)例可以描述為類(lèi)oa:Annotation的成員(實(shí)例),包含標(biāo)注主體(oa:hasBody)以及標(biāo)注對(duì)象(oa:hasTarget)。針對(duì)標(biāo)注實(shí)例,可以添加相關(guān)描述,
26、如標(biāo)注者、創(chuàng)建時(shí)間等,標(biāo)注者是FOAF本體中Person類(lèi)的實(shí)例,如圖5左部分所示。同時(shí),可以對(duì)標(biāo)注動(dòng)機(jī)進(jìn)行描述,本文繼承了OA本體中的oa:motivatedBy,這些動(dòng)機(jī)有評(píng)論、描述、分類(lèi)、鏈接、標(biāo)注等。標(biāo)注對(duì)象是指學(xué)術(shù)文獻(xiàn)語(yǔ)義標(biāo)注實(shí)例中需要進(jìn)行標(biāo)注的對(duì)象,可以是整個(gè)學(xué)術(shù)文獻(xiàn)或其部分。學(xué)術(shù)文獻(xiàn)的部分可以是學(xué)術(shù)文獻(xiàn)中的論述元素、某個(gè)結(jié)構(gòu)部分甚至是一個(gè)句子、一個(gè)詞語(yǔ)。例如,圖5中右圖采用OA本體中的片段選擇器指示到PDF學(xué)術(shù)文獻(xiàn)中的部分片段;又如,文本類(lèi)型的文檔,可以定位到文本中的某個(gè)位置的字符中間的片段或者某個(gè)具體的詞,如圖6所示。圖5 學(xué)術(shù)文獻(xiàn)標(biāo)注本體標(biāo)注實(shí)例示意圖圖6 學(xué)術(shù)文獻(xiàn)標(biāo)注對(duì)象位
27、置選擇及詞定位示意圖標(biāo)注主體是標(biāo)注本身,可以是一個(gè)文本類(lèi)型的解釋?zhuān)鐖D5左部,還可以對(duì)標(biāo)注主體進(jìn)行描述,如文本方向、標(biāo)注目的、語(yǔ)言、標(biāo)注類(lèi)型、值等。除了針對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行解釋以外,還可將學(xué)術(shù)文獻(xiàn)的部分與領(lǐng)域本體或社會(huì)標(biāo)注中的概念或?qū)I(yè)術(shù)語(yǔ)進(jìn)行關(guān)聯(lián)。將文章的術(shù)語(yǔ)、論述元素、結(jié)構(gòu)片段或者全文鏈接到領(lǐng)域本體或者社會(huì)標(biāo)注中的一個(gè)術(shù)語(yǔ)或概念。例如,圖7左部分將學(xué)術(shù)文獻(xiàn)與領(lǐng)域本體中的一個(gè)主題詞術(shù)語(yǔ)進(jìn)行了關(guān)聯(lián),表明該術(shù)語(yǔ)是學(xué)術(shù)文獻(xiàn)的主題詞,右部分將學(xué)術(shù)文獻(xiàn)中的術(shù)語(yǔ)與領(lǐng)域本體中的一個(gè)概念進(jìn)行了關(guān)聯(lián)。對(duì)學(xué)術(shù)文獻(xiàn)的方法流程進(jìn)行語(yǔ)義標(biāo)注時(shí),本文將其作為流程類(lèi)的一個(gè)實(shí)例,繼承pwo本體中的相關(guān)概念及屬性,流程中所含的步驟單
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年環(huán)保技術(shù)項(xiàng)目研發(fā)合同
- 上海居民住房租賃合同細(xì)則
- 專(zhuān)利許可使用權(quán)轉(zhuǎn)讓合同
- 2025年借款合同范本:生活資金周轉(zhuǎn)專(zhuān)用
- 產(chǎn)權(quán)清楚的商業(yè)車(chē)位買(mǎi)賣(mài)合同
- 三方人才派遣合同模板
- 互聯(lián)網(wǎng)眾籌合作合同范本(修訂)
- 人體模特委托創(chuàng)作合同協(xié)議
- 中外合作研發(fā)合同模板
- 五險(xiǎn)一金勞動(dòng)合同范本
- 六年級(jí)數(shù)學(xué)上冊(cè)100道口算題(全冊(cè)完整版)
- 如愿三聲部合唱簡(jiǎn)譜
- 高三數(shù)學(xué)開(kāi)學(xué)第一課
- 水生野生動(dòng)物保護(hù)與管理
- 115個(gè)低風(fēng)險(xiǎn)組病種目錄
- 系統(tǒng)解剖學(xué)考試重點(diǎn)筆記
- 暖通空調(diào)基礎(chǔ)知識(shí)及識(shí)圖課件
- 防滲墻工程施工用表及填寫(xiě)要求講義
- 交通信號(hào)控制系統(tǒng)檢驗(yàn)批質(zhì)量驗(yàn)收記錄表
- 校園信息化設(shè)備管理檢查表
- 新版抗拔樁裂縫及強(qiáng)度驗(yàn)算計(jì)算表格(自動(dòng)版)
評(píng)論
0/150
提交評(píng)論