用于中文信息自動(dòng)分類的知識(shí)庫(kù)的構(gòu)建.doc_第1頁(yè)
用于中文信息自動(dòng)分類的知識(shí)庫(kù)的構(gòu)建.doc_第2頁(yè)
用于中文信息自動(dòng)分類的知識(shí)庫(kù)的構(gòu)建.doc_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

用于中文信息自動(dòng)分類的知識(shí)庫(kù)的構(gòu)建 1、前言 隨著計(jì)算機(jī)、網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,為了實(shí)現(xiàn)網(wǎng)絡(luò)信息處理的智能化、自動(dòng)化和精細(xì)化,以詞表、分類表、語(yǔ)言形式出現(xiàn)的各種情報(bào)檢索語(yǔ)言加快了與標(biāo)記語(yǔ)言、超文本技術(shù)和其他軟件技術(shù)的融合,出現(xiàn)了新一代的情報(bào)檢索語(yǔ)言與自然語(yǔ)言的結(jié)合體知識(shí)組織系統(tǒng)。 知識(shí)組織系統(tǒng)是指各種對(duì)人類知識(shí)結(jié)構(gòu)進(jìn)行表達(dá)和有組織闡述的語(yǔ)義工具,主要包括分類法、主題詞表、語(yǔ)義網(wǎng)絡(luò)、主題圖、知識(shí)本體等。分類法和主題詞表在信息資源的加工組織中發(fā)揮著重要的作用,而語(yǔ)義網(wǎng)絡(luò)、主題圖、知識(shí)本體則是針對(duì)第二代語(yǔ)義Web提出的知識(shí)組織系統(tǒng)。 本文所討論的中國(guó)圖書館分類法(以下簡(jiǎn)稱中圖法)知識(shí)庫(kù)也是一種知識(shí)組織系統(tǒng),或稱為用于自動(dòng)標(biāo)引和分類的專家系統(tǒng),它建立在中圖法的基礎(chǔ)上,通過(guò)機(jī)器統(tǒng)計(jì)歸納出眾多人工標(biāo)引記錄中所凝結(jié)的標(biāo)引經(jīng)驗(yàn),建立分類號(hào)、主題詞、關(guān)鍵詞之間的概念對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)對(duì)文獻(xiàn)的自動(dòng)標(biāo)引和自動(dòng)分類,進(jìn)而實(shí)現(xiàn)概念檢索。 2、中圖法知識(shí)庫(kù)構(gòu)建的原理 分類檢索語(yǔ)言、主題檢索語(yǔ)言和自然語(yǔ)言是3種不同的情報(bào)語(yǔ)言系統(tǒng),標(biāo)識(shí)和組織方式各不相同,但在本質(zhì)上是一樣的,都是一種主題概念標(biāo)識(shí)系統(tǒng),分類號(hào)、主題詞、關(guān)鍵詞都可用來(lái)表示某一文獻(xiàn)信息的主題概念。因此,這三者之間存在著隱含的概念對(duì)應(yīng)關(guān)系,即兼容關(guān)系。 國(guó)內(nèi)大多數(shù)圖書館、情報(bào)機(jī)構(gòu)和信息中心所擁有的文獻(xiàn)數(shù)據(jù)庫(kù)中存在著大量的人工標(biāo)引記錄,這些記錄中包含分類標(biāo)引和主題標(biāo)引(主題詞串或關(guān)鍵詞串)雙重?cái)?shù)據(jù)。我們可以通過(guò)對(duì)這些標(biāo)引數(shù)據(jù)的計(jì)算機(jī)處理,挖掘出分類號(hào)主題詞串關(guān)鍵詞串之間的概念對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)三者之間的兼容互換。在此基礎(chǔ)上,構(gòu)建一個(gè)自動(dòng)標(biāo)引和自動(dòng)分類用知識(shí)庫(kù),實(shí)現(xiàn)中文文獻(xiàn)的自然語(yǔ)言標(biāo)引、主題規(guī)范、自動(dòng)分類及概念檢索。 不管是分類檢索語(yǔ)言還是主題檢索語(yǔ)言,乃至任何知識(shí)組織系統(tǒng),都使用了分類方法。而中圖法是一個(gè)建立在知識(shí)分類基礎(chǔ)上、可用于信息組織的概念語(yǔ)義網(wǎng)絡(luò),因此,我們選擇中圖法作為本知識(shí)庫(kù)的主干體系。 (1)中圖法是我國(guó)自編的一部大型綜合性圖書分類法,可用于圖書資料、音像資料和其他類型信息的分類標(biāo)引和檢索。它在國(guó)內(nèi)有著最廣泛的影響和最眾多的用戶,是早已被大家公認(rèn)的“不是標(biāo)準(zhǔn)”的標(biāo)準(zhǔn)。 (2)中圖法自首次出版以來(lái),在30多年里經(jīng)過(guò)圖書情報(bào)領(lǐng)域和其他各專業(yè)領(lǐng)域?qū)<叶啻涡抻喐陌妫哂袕V泛的學(xué)科覆蓋面、完善的知識(shí)組織結(jié)構(gòu),在等級(jí)體系的基礎(chǔ)上加入了分面組配的功能,能夠適應(yīng)現(xiàn)代文獻(xiàn)信息分類自動(dòng)化的需求。中圖法已建成了用最詳細(xì)的元數(shù)據(jù)格式MARC描述的中圖法數(shù)據(jù)庫(kù),2000年出版了電子版,而且正在向網(wǎng)絡(luò)版發(fā)展。 (3)目前國(guó)內(nèi)幾大文獻(xiàn)數(shù)據(jù)庫(kù)的分類標(biāo)引均以中圖法為分類依據(jù),選擇中圖法作為知識(shí)庫(kù)的組織框架,可以直接利用這些現(xiàn)已達(dá)到數(shù)百萬(wàn)、上千萬(wàn)條的標(biāo)引記錄,從而免去類號(hào)轉(zhuǎn)換的麻煩。 (4)中圖法從90年代起,已經(jīng)實(shí)現(xiàn)了與國(guó)內(nèi)規(guī)模最大、用戶最多的敘詞表漢語(yǔ)主題詞表(以下簡(jiǎn)稱漢表)的兼容互換,研制并出版了國(guó)內(nèi)最大的分類主題一體化詞表中國(guó)分類主題詞表(簡(jiǎn)稱中分表)。近幾年還完成了中分表電子版的開發(fā),并在新版中大幅度地增加了入口詞,加快了檢索語(yǔ)言的自然語(yǔ)言化。這一切為分類檢索語(yǔ)言、主題檢索語(yǔ)言、自然語(yǔ)言三者在標(biāo)引、檢索中的互操作奠定了基礎(chǔ)。 (5)中圖法的網(wǎng)絡(luò)信息分類組織的可行性得到了大多數(shù)專家的認(rèn)同,它也正在采取分面化、增加自然語(yǔ)言接口、增加超文本鏈接等多種措施,以適應(yīng)網(wǎng)絡(luò)信息組織的發(fā)展需求。 總之,在構(gòu)建中文文獻(xiàn)自動(dòng)標(biāo)引和自動(dòng)分類系統(tǒng)用知識(shí)庫(kù)時(shí),選擇中圖法作為知識(shí)庫(kù)的主干,具有明顯的優(yōu)勢(shì)。 3、中圖法知識(shí)庫(kù)與中圖法體系的結(jié)構(gòu)比較 中圖法與其他的傳統(tǒng)分類法一樣,包括分類表(含附表)和類目索引兩大部分。隨著情報(bào)檢索語(yǔ)言向分類主題一體化方向發(fā)展,中圖法與漢表融為一體。1993年,中圖法編委會(huì)在中圖法與漢表對(duì)應(yīng)的基礎(chǔ)上編制出版了分類主題一體化詞表中分表,從而使中圖法的體系日臻完善。中圖法體系如圖1所示。 中圖法的結(jié)構(gòu) 中圖法體系在文獻(xiàn)手工標(biāo)引時(shí)代做出了卓著的貢獻(xiàn),但在應(yīng)用于網(wǎng)絡(luò)信息和自動(dòng)化時(shí)卻暴露出如下弊端: (1)無(wú)論是分類表還是對(duì)應(yīng)的主題詞表或分類主題一體化的中分表都屬于受控語(yǔ)言,自然語(yǔ)言人口少,用戶使用不便。 (2)中圖法及其系統(tǒng)產(chǎn)品的著眼點(diǎn)是便于圖書情報(bào)人員的標(biāo)引和檢索,而不是著眼于網(wǎng)絡(luò)時(shí)代的普通用戶的直接使用,因而過(guò)于強(qiáng)調(diào)詞匯控制,忽略了檢索語(yǔ)言與自然語(yǔ)言的結(jié)合。 (3)人工編制,定期修訂,更新慢,大量新詞、新主題、新類不能及時(shí)收錄。 (4)受印刷版的限制,分類表、詞表的規(guī)模偏小,類目和詞匯數(shù)量少, 難以滿足計(jì)算機(jī)自動(dòng)處理的需要。 由于現(xiàn)有中圖法體系存在著上述弊端,所以有必要引進(jìn)新的計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)對(duì)中圖法進(jìn)行技術(shù)改造,包括采用計(jì)算語(yǔ)言學(xué)的方法和計(jì)算機(jī)編表技術(shù),揭示分類檢索語(yǔ)言、主題檢索語(yǔ)言、自然語(yǔ)言之間的兼容互換關(guān)系,增加自然語(yǔ)言接口,擴(kuò)充詞表規(guī)模和加快增補(bǔ)更新,從而適應(yīng)網(wǎng)絡(luò)時(shí)代信息組織的發(fā)展。 我們開發(fā)的知識(shí)庫(kù)以中圖法為主干體系,包含若干個(gè)詞表和詞典,其中分類號(hào)關(guān)鍵詞串對(duì)應(yīng)表為主分類知識(shí)庫(kù),即知識(shí)庫(kù)的主體;抽詞詞典、停用詞表、同義詞表、義類詞典是主題標(biāo)引知識(shí)庫(kù);地名表、時(shí)代表、文獻(xiàn)類型表等為輔助分類知識(shí)庫(kù);另外還有采用中圖法知識(shí)庫(kù)標(biāo)引和檢索的文獻(xiàn)數(shù)據(jù)庫(kù)。圖2顯示了本知識(shí)庫(kù)的結(jié)構(gòu)。 中圖法知識(shí)庫(kù)的結(jié)構(gòu) 雖然都以中圖法分類體系為主干,揭示主題詞串與類號(hào)的對(duì)應(yīng)關(guān)系,均可實(shí)現(xiàn)文獻(xiàn)信息分類主題一體化標(biāo)引。但兩者相比,中圖法知識(shí)庫(kù)無(wú)論在內(nèi)容、數(shù)量還是結(jié)構(gòu)、功能上都優(yōu)于中圖法體系,更適合于文獻(xiàn)信息標(biāo)引的自動(dòng)化和信息檢索的智能化。 (1)中圖法體系只揭示了分類號(hào)與主題詞串的對(duì)應(yīng)關(guān)系, 而知識(shí)庫(kù)則揭示了分類號(hào)與主題詞串、分類號(hào)與關(guān)鍵詞串、主題詞與關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系;后者詞匯直接來(lái)源于文獻(xiàn),更新比前者快,便于用戶檢索。 (2)中圖法體系只揭示了分類表中羅列出的類目和主題詞串的對(duì)應(yīng)關(guān)系;而知識(shí)庫(kù)源于標(biāo)引記錄,包含了大量組合類目(仿分、復(fù)分時(shí)組配而成的類目),類目數(shù)明顯多于中圖法體系。 (3)在中圖法體系中一個(gè)類號(hào)最多對(duì)應(yīng)20個(gè)主題詞(串), 而中圖法知識(shí)庫(kù)中類目最多能對(duì)應(yīng)幾百個(gè)詞串,平均一個(gè)類目對(duì)應(yīng)1014個(gè)詞串,比中分表體系更能揭示類目的隱含概念;同時(shí),詞串?dāng)?shù)量大,便于自動(dòng)分類中的相符性比較。 (4)中圖法體系主要應(yīng)用在手工標(biāo)引和分類上;而知識(shí)庫(kù)的規(guī)模大、容量大、更新快、可擴(kuò)充性好,因而可以成功地應(yīng)用于自動(dòng)標(biāo)引和自動(dòng)分類。它不僅能保證較高的標(biāo)引質(zhì)量和分類正確性,而且在主題標(biāo)引時(shí)不僅給出主題詞還給出關(guān)鍵詞,另外,它的同義詞表、它的地名、時(shí)代、文獻(xiàn)類型等的多重標(biāo)引

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論