




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、信息檢索基本原理信息檢索基本原理 1 計算機檢索基本原理概述計算機檢索基本原理概述v1.1 計算機檢索概念計算機檢索概念 通過計算機進行的文獻信息檢索稱為計算機檢通過計算機進行的文獻信息檢索稱為計算機檢索。索。 隨著計算機技術(shù)、遠程通訊技術(shù)和信息存儲技隨著計算機技術(shù)、遠程通訊技術(shù)和信息存儲技術(shù)的飛速發(fā)展,術(shù)的飛速發(fā)展,信息檢索由手工檢索過渡到了計信息檢索由手工檢索過渡到了計算機信息檢索算機信息檢索。計算機檢索的成功應(yīng)用,為我們。計算機檢索的成功應(yīng)用,為我們更為及時、準(zhǔn)確、全面地繼承、利用和發(fā)展人類更為及時、準(zhǔn)確、全面地繼承、利用和發(fā)展人類的科研成果提供了先進的手段。的科研成果提供了先進的手段。
2、1 計算機檢索基本原理概述計算機檢索基本原理概述v1.2 計算機檢索發(fā)展計算機檢索發(fā)展v第一個階段:脫機檢索階段(第一個階段:脫機檢索階段(50年代至年代至60年代)年代) v脫機檢索:即批處理檢索脫機檢索:即批處理檢索 檢索要求檢索要求 檢索系統(tǒng)檢索系統(tǒng) 檢索結(jié)果檢索結(jié)果 檢索人員檢索人員檢索策略檢索策略成批檢索成批檢索用戶用戶 v缺點:缺點: 1. 地理上的障礙地理上的障礙:遠、不便于檢索結(jié)果的獲取遠、不便于檢索結(jié)果的獲取 2. 時間上的遲滯時間上的遲滯:定期檢索,不能及時獲取定期檢索,不能及時獲取 3. 封閉式的檢索封閉式的檢索:指檢索策略一經(jīng)輸入系統(tǒng)就不指檢索策略一經(jīng)輸入系統(tǒng)就不能更改
3、,更不能依據(jù)機檢應(yīng)答來修改檢索式能更改,更不能依據(jù)機檢應(yīng)答來修改檢索式1 計算機檢索基本原理概述計算機檢索基本原理概述v 第二個階段:聯(lián)機檢索階段第二個階段:聯(lián)機檢索階段 (Online Retrieval)()(60-80年代年代)v 終端設(shè)備終端設(shè)備 通訊網(wǎng)絡(luò)通訊網(wǎng)絡(luò) 檢索系統(tǒng)檢索系統(tǒng) 用戶用戶 檢索策略檢索策略人機對話人機對話 獲取信息獲取信息 v 三個時期:三個時期:60年代開發(fā)試驗;年代開發(fā)試驗;70年代末應(yīng)用階段;年代末應(yīng)用階段;80年代年代以后進入信息以后進入信息計算機計算機衛(wèi)星通信三維一體的新階段,即:衛(wèi)星通信三維一體的新階段,即:信息文獻不受地區(qū)、國家限制而真正實現(xiàn)全世界資源
4、共享信息文獻不受地區(qū)、國家限制而真正實現(xiàn)全世界資源共享為目的的國際聯(lián)機信息檢索階段為目的的國際聯(lián)機信息檢索階段。1 計算機檢索基本原理概述計算機檢索基本原理概述v 著名的國際聯(lián)機檢索系統(tǒng)有著名的國際聯(lián)機檢索系統(tǒng)有:美國的美國的DIALOG系統(tǒng)系統(tǒng);美國美國 Online Retrieval of Bibliographic Information Time-Share (ORBIT)系統(tǒng)系統(tǒng),文獻信息分時聯(lián)機檢索文獻信息分時聯(lián)機檢索; 1976年書目檢索服務(wù)社年書目檢索服務(wù)社(BRS) 的聯(lián)機檢的聯(lián)機檢索系統(tǒng)索系統(tǒng);”醫(yī)學(xué)文獻分析與檢索系統(tǒng)醫(yī)學(xué)文獻分析與檢索系統(tǒng)”MEDLARS系統(tǒng),還有系統(tǒng),
5、還有” 歐洲歐洲空間組織情報檢索服務(wù)中心空間組織情報檢索服務(wù)中心” 的的ESA/IRS系統(tǒng)、英國的系統(tǒng)、英國的BLAESE系統(tǒng)等。系統(tǒng)等。v 這些系統(tǒng)很快發(fā)展成為國際性情報檢索系統(tǒng),數(shù)據(jù)庫種類及其檢這些系統(tǒng)很快發(fā)展成為國際性情報檢索系統(tǒng),數(shù)據(jù)庫種類及其檢索存儲記錄都在迅速增加,如:美國的索存儲記錄都在迅速增加,如:美國的Dialog系統(tǒng)系統(tǒng),1984年就有年就有200多個數(shù)據(jù)庫,其中包括多個數(shù)據(jù)庫,其中包括美國的美國的醫(yī)學(xué)索引醫(yī)學(xué)索引、荷蘭、荷蘭醫(yī)學(xué)文醫(yī)學(xué)文摘摘、美國、美國生物學(xué)文摘生物學(xué)文摘、美國、美國化學(xué)文摘化學(xué)文摘等。等。v 如今此聯(lián)機檢索系統(tǒng)仍然是世界上最有影響的聯(lián)機檢索系統(tǒng)。如今此聯(lián)
6、機檢索系統(tǒng)仍然是世界上最有影響的聯(lián)機檢索系統(tǒng)。DIALOG系統(tǒng)v DIALOG學(xué)科覆蓋面廣,幾乎涉及全部學(xué)科范圍包括綜合性科學(xué)、自然科學(xué)、應(yīng)用科學(xué)和工藝學(xué),社會科學(xué)和人文科學(xué),時事報道和商業(yè)經(jīng)濟等。其數(shù)據(jù)來源于各種不同的圖書、報紙、雜志期刊、技術(shù)報告、會議論文、專著、專利、標(biāo)準(zhǔn)、報表、目錄、手冊等上的信息。其數(shù)據(jù)形式包括:文獻型?文獻的題錄和文摘;數(shù)值型-統(tǒng)計表、商業(yè)財政數(shù)據(jù)等;名錄字典型-手冊、指南、名錄等;全文型-論文、報告、新聞報道的全文等。 vDIALOG的一些著名數(shù)據(jù)庫列舉:的一些著名數(shù)據(jù)庫列舉:v DIALOG的近600個數(shù)據(jù)庫中,有許多極具代表性的和常用的數(shù)據(jù)庫,著名的數(shù)據(jù)庫如C
7、A(化學(xué)文摘)、INSPEC(英國科學(xué)文摘)、MEDLINE(醫(yī)學(xué)文獻數(shù)據(jù)庫)、MATHSCI(數(shù)學(xué)文獻數(shù)據(jù)庫)、BA(生物學(xué)文摘)、NTIS(美國政府報告)等都加入到DIALOG系統(tǒng)中;還有著名的幾大檢索數(shù)據(jù)庫,如SCI(科學(xué)引文索引)、EI(工程索引)、ISTP(科技會議錄索引)、SSCI(社會科學(xué)引文索引)、AHCI(藝術(shù)與人文科學(xué)引文索引)等也都可從DIALOG系統(tǒng)中檢索;再有世界著名的DERWENT專利數(shù)據(jù)庫以及美國專利、歐洲專利、日本專利等數(shù)據(jù)庫也都可在DIALOG中查詢。DIALOG更有一些全文數(shù)據(jù)庫,如IAC的計算機全文庫、紐約時報和華盛頓郵報等的全文庫等。1 計算機檢索基本原
8、理概述計算機檢索基本原理概述v第三階段:光盤檢索階段第三階段:光盤檢索階段 v1983年,出現(xiàn)了一種新的存儲器,年,出現(xiàn)了一種新的存儲器,CD-ROM光盤。光盤。光盤檢索具有儲量極大而體積微小,要求設(shè)備簡光盤檢索具有儲量極大而體積微小,要求設(shè)備簡單,可隨地安裝,使用方便、易于操作,檢索費單,可隨地安裝,使用方便、易于操作,檢索費用低(不需要昂貴的聯(lián)機檢索通訊費用),因可用低(不需要昂貴的聯(lián)機檢索通訊費用),因可隨時修改檢索策略而具有很高的查全率和查準(zhǔn)率隨時修改檢索策略而具有很高的查全率和查準(zhǔn)率等優(yōu)點。等優(yōu)點。 例:例:Chemical Abstracts Index光盤光盤(1987-1991
9、):由美國化學(xué)文摘社與美國劍橋光):由美國化學(xué)文摘社與美國劍橋光盤公司聯(lián)合研制,收錄盤公司聯(lián)合研制,收錄1987-1991年年化學(xué)文摘化學(xué)文摘的全部內(nèi)容的全部內(nèi)容。1 計算機檢索基本原理概述計算機檢索基本原理概述v科學(xué)引文索引科學(xué)引文索引(光盤光盤) SCI( Science Citation Index):由美國費城科學(xué)情報研究所編輯出版,):由美國費城科學(xué)情報研究所編輯出版,收錄收錄1961年以來有關(guān)生命科學(xué)、醫(yī)學(xué)、物理、化年以來有關(guān)生命科學(xué)、醫(yī)學(xué)、物理、化學(xué)、農(nóng)業(yè)、工程技術(shù)、行為科學(xué)等方面的文獻及學(xué)、農(nóng)業(yè)、工程技術(shù)、行為科學(xué)等方面的文獻及引文。引文。 v中國學(xué)術(shù)期刊全文光盤(中國學(xué)術(shù)期刊
10、全文光盤(CAJ):是由清華大學(xué)):是由清華大學(xué)開發(fā)研制,分題錄、文摘、全文三個層次的數(shù)據(jù)開發(fā)研制,分題錄、文摘、全文三個層次的數(shù)據(jù)庫,其中全文數(shù)據(jù)庫是國內(nèi)最常用的全文數(shù)據(jù)庫庫,其中全文數(shù)據(jù)庫是國內(nèi)最常用的全文數(shù)據(jù)庫。1 計算機檢索基本原理概述計算機檢索基本原理概述v第四階段:網(wǎng)絡(luò)化檢索階段第四階段:網(wǎng)絡(luò)化檢索階段 v 進入進入90年代,隨著衛(wèi)星通訊、公共數(shù)據(jù)通訊、年代,隨著衛(wèi)星通訊、公共數(shù)據(jù)通訊、光纜通訊技術(shù)以及信息高速公路事業(yè)在全世界的光纜通訊技術(shù)以及信息高速公路事業(yè)在全世界的迅猛發(fā)展,計算機情報檢索走向了全球大聯(lián)網(wǎng)。迅猛發(fā)展,計算機情報檢索走向了全球大聯(lián)網(wǎng)。 v 網(wǎng)上資源具有信息的時效性
11、、內(nèi)容的廣泛性、網(wǎng)上資源具有信息的時效性、內(nèi)容的廣泛性、訪問的快速性、搜索的網(wǎng)絡(luò)性和資源的動態(tài)性五訪問的快速性、搜索的網(wǎng)絡(luò)性和資源的動態(tài)性五大特點,那么要及時、準(zhǔn)確、有效地獲取與自身大特點,那么要及時、準(zhǔn)確、有效地獲取與自身需求相關(guān)的實用信息,對所有網(wǎng)絡(luò)用戶都非常具需求相關(guān)的實用信息,對所有網(wǎng)絡(luò)用戶都非常具有挑戰(zhàn)性。有挑戰(zhàn)性。1 計算機檢索基本原理概述計算機檢索基本原理概述v INTERNET就是這個時期的最杰出代表。它能夠就是這個時期的最杰出代表。它能夠跨越時空,進行實時信息檢索、資源共享的國際跨越時空,進行實時信息檢索、資源共享的國際性計算機網(wǎng)絡(luò)。性計算機網(wǎng)絡(luò)。 INTERNET飛速的發(fā)展
12、,已成飛速的發(fā)展,已成為人們進行為人們進行全球范圍的合作、信息交流與資源共全球范圍的合作、信息交流與資源共享的不可替代的通訊交流方式。享的不可替代的通訊交流方式。 v 隨著計算機技術(shù)的智能化、數(shù)據(jù)庫載體的高密隨著計算機技術(shù)的智能化、數(shù)據(jù)庫載體的高密度化和多媒體化、通訊技術(shù)的網(wǎng)絡(luò)化,度化和多媒體化、通訊技術(shù)的網(wǎng)絡(luò)化,計算機情計算機情報檢索將走向辦公室化、家庭化。報檢索將走向辦公室化、家庭化。 2 計算機檢索基本原理計算機檢索基本原理v 一般地說,計算機檢索包括:一般地說,計算機檢索包括:信息的存儲信息的存儲和和檢索檢索兩個部分,即對應(yīng)數(shù)據(jù)庫的建立和查找兩個部分。兩個部分,即對應(yīng)數(shù)據(jù)庫的建立和查找
13、兩個部分。v2.1 信息存儲信息存儲 就是文獻標(biāo)引人員對文獻內(nèi)容進行主題分析,就是文獻標(biāo)引人員對文獻內(nèi)容進行主題分析,即把文獻包含的信息內(nèi)容分析成若干能代表文獻即把文獻包含的信息內(nèi)容分析成若干能代表文獻主題的概念,并用詞表、分類表等規(guī)范化標(biāo)識的主題的概念,并用詞表、分類表等規(guī)范化標(biāo)識的情報檢索語言對情報檢索語言對文獻主題進行標(biāo)引文獻主題進行標(biāo)引、按所選數(shù)據(jù)、按所選數(shù)據(jù)庫結(jié)構(gòu)的索引結(jié)構(gòu)輸入到計算機進行存儲,同時庫結(jié)構(gòu)的索引結(jié)構(gòu)輸入到計算機進行存儲,同時把入選文獻中的其他特征標(biāo)識(標(biāo)題、著者、文把入選文獻中的其他特征標(biāo)識(標(biāo)題、著者、文摘、原文出處等)也一起輸入計算機,摘、原文出處等)也一起輸入計
14、算機,編制成一編制成一系列索引數(shù)據(jù)庫,系列索引數(shù)據(jù)庫,這便是信息的存儲。這便是信息的存儲。 2 計算機檢索基本原理計算機檢索基本原理v2.2 信息檢索信息檢索v1、檢索者對檢索課題進行、檢索者對檢索課題進行主題分析、主題分析、明確檢索范明確檢索范圍,形成能代表情報需求的若干主題概念。圍,形成能代表情報需求的若干主題概念。v2、把這些主題概念轉(zhuǎn)換成計算機、把這些主題概念轉(zhuǎn)換成計算機信息檢索語言,信息檢索語言,即用數(shù)據(jù)庫檢索工具書對各概念選詞和進行邏輯即用數(shù)據(jù)庫檢索工具書對各概念選詞和進行邏輯組配,編制成檢索提問式。組配,編制成檢索提問式。v3、用計算機檢索系統(tǒng)功能在文獻資料數(shù)據(jù)庫中將、用計算機檢
15、索系統(tǒng)功能在文獻資料數(shù)據(jù)庫中將信息需求主題概念和數(shù)據(jù)庫內(nèi)文獻主題概念標(biāo)識信息需求主題概念和數(shù)據(jù)庫內(nèi)文獻主題概念標(biāo)識進行進行匹配,匹配,找到命中文獻。找到命中文獻。v用圖表示如下:用圖表示如下:計算機檢索原理的示意圖計算機檢索原理的示意圖信息檢索的基本技術(shù)信息檢索的基本技術(shù)3 文獻信息數(shù)據(jù)庫的基本概念文獻信息數(shù)據(jù)庫的基本概念v3.1 數(shù)據(jù)庫的定義和類型數(shù)據(jù)庫的定義和類型v 一、數(shù)據(jù)庫定義:一、數(shù)據(jù)庫定義:根據(jù)根據(jù)ISO/DIS 5127號標(biāo)準(zhǔn)(文號標(biāo)準(zhǔn)(文獻與情報工作術(shù)語),數(shù)據(jù)庫(獻與情報工作術(shù)語),數(shù)據(jù)庫(database)的定)的定義為:義為:“至少由一種文檔組成,并能滿足某一特至少由一種
16、文檔組成,并能滿足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)集合。集合。”通俗地說,數(shù)據(jù)庫就是在計算機存儲設(shè)通俗地說,數(shù)據(jù)庫就是在計算機存儲設(shè)備上按一定方式存儲的相互關(guān)聯(lián)的數(shù)據(jù)集合,數(shù)備上按一定方式存儲的相互關(guān)聯(lián)的數(shù)據(jù)集合,數(shù)據(jù)庫是計算機技術(shù)與情報檢索技術(shù)相結(jié)合的產(chǎn)物,據(jù)庫是計算機技術(shù)與情報檢索技術(shù)相結(jié)合的產(chǎn)物,是現(xiàn)代重要的信息資源管理工具,是情報檢索系是現(xiàn)代重要的信息資源管理工具,是情報檢索系統(tǒng)的核心部分之一。統(tǒng)的核心部分之一。數(shù)據(jù)庫的質(zhì)量直接影響情報數(shù)據(jù)庫的質(zhì)量直接影響情報檢索系統(tǒng)的功能和效率檢索系統(tǒng)的功能和效率。3 文獻信息數(shù)據(jù)庫的基本概念
17、文獻信息數(shù)據(jù)庫的基本概念v二、數(shù)據(jù)庫類型二、數(shù)據(jù)庫類型 按照國際上通用的分類方法,常劃分為以下類型:按照國際上通用的分類方法,常劃分為以下類型: 1. 參考數(shù)據(jù)庫(參考數(shù)據(jù)庫(reference databases):指引用戶到指引用戶到另一信息源以獲得原文或其他細節(jié)的一類數(shù)據(jù)庫:另一信息源以獲得原文或其他細節(jié)的一類數(shù)據(jù)庫:包括書目數(shù)據(jù)庫和指南數(shù)據(jù)庫兩種。包括書目數(shù)據(jù)庫和指南數(shù)據(jù)庫兩種。 (1)書目數(shù)據(jù)庫(書目數(shù)據(jù)庫(bibliographic databases) 指存儲某個領(lǐng)指存儲某個領(lǐng)域的二次文獻(如文摘、題錄、目錄等書目數(shù)據(jù))的一域的二次文獻(如文摘、題錄、目錄等書目數(shù)據(jù))的一類數(shù)據(jù)庫
18、。例如,美國化學(xué)文摘數(shù)據(jù)庫類數(shù)據(jù)庫。例如,美國化學(xué)文摘數(shù)據(jù)庫CA Search、EI,中國機械工程文摘數(shù)據(jù)庫,各國生產(chǎn)發(fā)行的機讀目錄中國機械工程文摘數(shù)據(jù)庫,各國生產(chǎn)發(fā)行的機讀目錄(MARC)等,即屬于此類型。)等,即屬于此類型。3 文獻信息數(shù)據(jù)庫的基本概念文獻信息數(shù)據(jù)庫的基本概念v(2) 指南數(shù)據(jù)庫(指南數(shù)據(jù)庫(reference databases) 指存儲關(guān)于某些機構(gòu)、人物、出版物、項目、指存儲關(guān)于某些機構(gòu)、人物、出版物、項目、程序、活動等對象的簡要描述,指引用戶獲取更程序、活動等對象的簡要描述,指引用戶獲取更詳細的信息的一類數(shù)據(jù)庫。亦稱指示性數(shù)據(jù)庫。詳細的信息的一類數(shù)據(jù)庫。亦稱指示性數(shù)據(jù)
19、庫。例如,各種機構(gòu)名錄數(shù)據(jù)庫、人物傳記數(shù)據(jù)庫、例如,各種機構(gòu)名錄數(shù)據(jù)庫、人物傳記數(shù)據(jù)庫、產(chǎn)品數(shù)據(jù)庫、軟件數(shù)據(jù)庫、研究開發(fā)項目數(shù)據(jù)庫、產(chǎn)品數(shù)據(jù)庫、軟件數(shù)據(jù)庫、研究開發(fā)項目數(shù)據(jù)庫、基金數(shù)據(jù)庫等,均屬此類?;饠?shù)據(jù)庫等,均屬此類。v2. 源數(shù)據(jù)庫(源數(shù)據(jù)庫(source databases): 提供原始資料或具體數(shù)據(jù)的數(shù)據(jù)庫。它又可分提供原始資料或具體數(shù)據(jù)的數(shù)據(jù)庫。它又可分為以下幾種類型:為以下幾種類型:3 文獻信息數(shù)據(jù)庫的基本概念文獻信息數(shù)據(jù)庫的基本概念(1)數(shù)值數(shù)據(jù)庫)數(shù)值數(shù)據(jù)庫(numeric databases) 指專門提供指專門提供以數(shù)值方式表示的數(shù)據(jù)(或包括其統(tǒng)計處理表示法)以數(shù)值方式表
20、示的數(shù)據(jù)(或包括其統(tǒng)計處理表示法)的一種源數(shù)據(jù)庫,如各種統(tǒng)計數(shù)據(jù)庫、財務(wù)數(shù)據(jù)庫、的一種源數(shù)據(jù)庫,如各種統(tǒng)計數(shù)據(jù)庫、財務(wù)數(shù)據(jù)庫、科學(xué)技術(shù)數(shù)據(jù)庫等。科學(xué)技術(shù)數(shù)據(jù)庫等。(2)文本)文本-數(shù)值數(shù)據(jù)庫(數(shù)值數(shù)據(jù)庫(textual-numeric databases):同時提供文本信息和數(shù)值數(shù)據(jù)的一種:同時提供文本信息和數(shù)值數(shù)據(jù)的一種源數(shù)據(jù)庫,如某些公司信息庫、產(chǎn)品市場報告數(shù)據(jù)源數(shù)據(jù)庫,如某些公司信息庫、產(chǎn)品市場報告數(shù)據(jù)庫、毒物數(shù)據(jù)庫和物性數(shù)據(jù)庫等。庫、毒物數(shù)據(jù)庫和物性數(shù)據(jù)庫等。(3)全文數(shù)據(jù)庫()全文數(shù)據(jù)庫(full-text databases) 指存儲文指存儲文獻全文或其中主要部分的一種源數(shù)據(jù)庫,簡
21、稱全文獻全文或其中主要部分的一種源數(shù)據(jù)庫,簡稱全文庫,如法律法規(guī)全文庫、期刊全文庫等。庫,如法律法規(guī)全文庫、期刊全文庫等。3 文獻信息數(shù)據(jù)庫的基本概念文獻信息數(shù)據(jù)庫的基本概念(4)術(shù)語數(shù)據(jù)庫()術(shù)語數(shù)據(jù)庫(terminological bank) 指專門存儲名詞術(shù)語信息一種源數(shù)據(jù)庫,各種指專門存儲名詞術(shù)語信息一種源數(shù)據(jù)庫,各種電子化辭書也包括在內(nèi)。電子化辭書也包括在內(nèi)。(5)圖像數(shù)據(jù)庫()圖像數(shù)據(jù)庫(graphics databases) 指用來存儲各種圖像或圖形信息及有關(guān)文字說指用來存儲各種圖像或圖形信息及有關(guān)文字說明資料的一種源數(shù)據(jù)庫,主要應(yīng)用于建筑、設(shè)計、明資料的一種源數(shù)據(jù)庫,主要應(yīng)用于
22、建筑、設(shè)計、廣告、產(chǎn)品目錄、圖片或照片等資料類型的計算機廣告、產(chǎn)品目錄、圖片或照片等資料類型的計算機存儲與檢索。存儲與檢索。 除了上述幾種類型的數(shù)據(jù)庫以個,還有能同時除了上述幾種類型的數(shù)據(jù)庫以個,還有能同時存儲多種不同類型數(shù)據(jù)的數(shù)據(jù)庫混合型數(shù)據(jù)庫存儲多種不同類型數(shù)據(jù)的數(shù)據(jù)庫混合型數(shù)據(jù)庫(mixed databases)。)。3 文獻信息數(shù)據(jù)庫的基本概念文獻信息數(shù)據(jù)庫的基本概念2.3.2 數(shù)據(jù)庫的構(gòu)成數(shù)據(jù)庫的構(gòu)成 從使用觀點來看,數(shù)據(jù)庫主要由從使用觀點來看,數(shù)據(jù)庫主要由文檔、記錄、文檔、記錄、字段字段三個層次構(gòu)成。三個層次構(gòu)成。1、文檔:、文檔: 若干個邏輯記錄構(gòu)成的信息集合稱為文若干個邏輯記錄
23、構(gòu)成的信息集合稱為文檔(檔(file)。用戶選擇所需的聯(lián)機系統(tǒng)數(shù)據(jù)庫時,)。用戶選擇所需的聯(lián)機系統(tǒng)數(shù)據(jù)庫時,多數(shù)數(shù)據(jù)庫以單一的文檔編號出現(xiàn)。此時文檔多數(shù)數(shù)據(jù)庫以單一的文檔編號出現(xiàn)。此時文檔(file)的概念和數(shù)據(jù)庫()的概念和數(shù)據(jù)庫(database)相當(dāng)。但有)相當(dāng)。但有些數(shù)據(jù)庫因規(guī)模龐大,被分成若干個文檔。例如,些數(shù)據(jù)庫因規(guī)模龐大,被分成若干個文檔。例如,在在DAILOG系統(tǒng)中,系統(tǒng)中,CA Search數(shù)據(jù)庫被分成數(shù)據(jù)庫被分成308號號(1967-1971),),309號(號(1977-1981),),311號號(1982-1986)和)和312號(號(1986-)等文檔。)等文檔。3
24、文獻信息數(shù)據(jù)庫的基本概念文獻信息數(shù)據(jù)庫的基本概念2記錄記錄 記錄是由若干字段組成的文獻單元,是計算機檢記錄是由若干字段組成的文獻單元,是計算機檢索系統(tǒng)存儲文獻款目和標(biāo)引的信息載體。索系統(tǒng)存儲文獻款目和標(biāo)引的信息載體。 在全文數(shù)據(jù)庫中,一個記錄相當(dāng)于一篇完整的文在全文數(shù)據(jù)庫中,一個記錄相當(dāng)于一篇完整的文獻;在書目數(shù)據(jù)庫中,一個記錄相當(dāng)于一條文摘或題獻;在書目數(shù)據(jù)庫中,一個記錄相當(dāng)于一條文摘或題錄。比較典型的錄。比較典型的EI(COMPENDEX),),INSPEC,美,美國專利數(shù)據(jù)庫的記錄。國專利數(shù)據(jù)庫的記錄。3 文獻信息數(shù)據(jù)庫的基本概念文獻信息數(shù)據(jù)庫的基本概念3字段:字段: 是文獻著錄的是文獻
25、著錄的基本單元基本單元,它是對實體的具體屬它是對實體的具體屬性進行描述的結(jié)果。在書目數(shù)據(jù)庫中,記錄中含有性進行描述的結(jié)果。在書目數(shù)據(jù)庫中,記錄中含有題名、著者、出版年、主題詞、文摘等字段。題名、著者、出版年、主題詞、文摘等字段。 文獻數(shù)據(jù)庫字段分為文獻數(shù)據(jù)庫字段分為基本字段和輔助字段基本字段和輔助字段兩類。兩類?;咀侄魏洼o助字段在檢索策略的構(gòu)成方法上往往基本字段和輔助字段在檢索策略的構(gòu)成方法上往往有些區(qū)別。有些區(qū)別。 基本字段通常是默認的主題途徑檢索范圍,如基本字段通常是默認的主題途徑檢索范圍,如果需要查找專門的基本字段或者輔助字段,通常要果需要查找專門的基本字段或者輔助字段,通常要以某種方
26、法予以指定。常見的字段名稱和代碼(也以某種方法予以指定。常見的字段名稱和代碼(也稱段碼)如下表所示。稱段碼)如下表所示。文獻數(shù)據(jù)庫中常見的字段和段碼文獻數(shù)據(jù)庫中常見的字段和段碼4 計算機檢索策略的構(gòu)建與調(diào)整計算機檢索策略的構(gòu)建與調(diào)整檢索策略檢索策略 是為實現(xiàn)檢索目標(biāo)而制定的全盤計劃和方案是為實現(xiàn)檢索目標(biāo)而制定的全盤計劃和方案,是對整個檢索過程的謀劃和指導(dǎo)。是對整個檢索過程的謀劃和指導(dǎo)。 也可以說,所謂檢索策略,就是也可以說,所謂檢索策略,就是在分析情報提在分析情報提問實質(zhì)的基礎(chǔ)上,確定檢索途徑與檢索用詞,并明問實質(zhì)的基礎(chǔ)上,確定檢索途徑與檢索用詞,并明確各詞之間的邏輯關(guān)系與查找步驟的科學(xué)安排。
27、確各詞之間的邏輯關(guān)系與查找步驟的科學(xué)安排。4.1 計算機檢索策略的構(gòu)建計算機檢索策略的構(gòu)建1、布爾邏輯、布爾邏輯 規(guī)定檢索詞之間的邏輯關(guān)系的算符規(guī)定檢索詞之間的邏輯關(guān)系的算符,稱為布爾稱為布爾邏輯算符。布爾邏輯算符包括邏輯邏輯算符。布爾邏輯算符包括邏輯“或(或(OR)”、邏輯邏輯“與(與(AND)”和邏輯和邏輯“非(非(NOT)”。(1)、邏輯)、邏輯“或或”(OR)運算符)運算符 也可用也可用“+”代替,是用來組配具有同義或同族代替,是用來組配具有同義或同族概念的詞,如同義詞、相關(guān)詞等。其含義是,檢出概念的詞,如同義詞、相關(guān)詞等。其含義是,檢出的記錄中,至少含有兩個檢索詞中的一個。的記錄中,
28、至少含有兩個檢索詞中的一個。OR算算符的符的基本作用是擴大檢索范圍,增加命中文獻量,基本作用是擴大檢索范圍,增加命中文獻量,防止漏檢,提高檢索結(jié)果的查全率,防止漏檢,提高檢索結(jié)果的查全率,OR運算符還運算符還有一個去重的功能。有一個去重的功能。4.1 計算機檢索策略的構(gòu)建計算機檢索策略的構(gòu)建例如,如果以提問式例如,如果以提問式“SS PIPE TUBE”檢索檢索EI COMPENDEX (1998)文檔,所得結(jié)果為:)文檔,所得結(jié)果為: S1 1834 PIPE (管)(管) S2 2022 TUBE (電子管)(電子管) S3 3647 PIPE OR TUBE(2)邏輯邏輯與與(AND)運
29、算符)運算符 也可用也可用*代替,用來組配不同檢索概念。其代替,用來組配不同檢索概念。其含義是檢出的記錄必須同時含有所有的檢索詞。含義是檢出的記錄必須同時含有所有的檢索詞。AND算符的算符的基本作用是對檢索詞加以限定,逐步基本作用是對檢索詞加以限定,逐步縮小檢索范圍,減少命中文獻量,提高檢索結(jié)果的縮小檢索范圍,減少命中文獻量,提高檢索結(jié)果的查準(zhǔn)率。查準(zhǔn)率。在實際檢索中,不同概念組面之間以及同在實際檢索中,不同概念組面之間以及同一組面內(nèi)的不同含義的詞之間通常使用一組面內(nèi)的不同含義的詞之間通常使用AND算符。算符。4.1 計算機檢索策略的構(gòu)建計算機檢索策略的構(gòu)建例如:以提問式例如:以提問式SS C
30、OMMUNICATION AND SATELLITE檢索檢索EI COMPENDEX(1998)文檔,)文檔,所得結(jié)果為:所得結(jié)果為: S1 12940 COMMUNICATION(通訊)(通訊) S2 2173 SATELLITE(衛(wèi)星)(衛(wèi)星) S3 842 COMMUNICATION AND SATELLITE(3)邏輯邏輯非非(NOT)運算符)運算符 也可用也可用-代替,但在檢索時建議使用代替,但在檢索時建議使用NOT,以避免與詞間的分隔符以避免與詞間的分隔符-混淆,混淆,NOT算符是排除算符是排除含有某些詞的記錄的,即檢出的記錄中只能含有含有某些詞的記錄的,即檢出的記錄中只能含有NO
31、T算符前的檢索詞,但不能同時含有其后的詞。算符前的檢索詞,但不能同時含有其后的詞。4.1 計算機檢索策略的構(gòu)建計算機檢索策略的構(gòu)建NOT算符的算符的基本作用是縮小檢索范圍,但并不一基本作用是縮小檢索范圍,但并不一定能提高文獻命中的準(zhǔn)確性,往往只是起到減少文定能提高文獻命中的準(zhǔn)確性,往往只是起到減少文獻輸出量的作用。獻輸出量的作用。在聯(lián)機檢索中,可降低檢索費用。在聯(lián)機檢索中,可降低檢索費用。例如,以例如,以PATENT NOT GERMAN檢索檢索EI COMPENDEX(1998)文檔,所得結(jié)果為:)文檔,所得結(jié)果為: S1 110 PATENT (專利)(專利) S2 325 GERMAN(
32、德國)(德國) S3 108 PATENT NOT GERMAN4.1 計算機檢索策略的構(gòu)建計算機檢索策略的構(gòu)建2字段限制字段限制 字段限制也是調(diào)整檢索策略的一種重要的手段。字段限制也是調(diào)整檢索策略的一種重要的手段。多數(shù)檢索系統(tǒng)對不指定字段的檢索詞,通常在所有多數(shù)檢索系統(tǒng)對不指定字段的檢索詞,通常在所有基本字段中進行搜索,如果想指定在文獻的題目等基本字段中進行搜索,如果想指定在文獻的題目等字段中查找所希望的檢索詞,就需要使用字段限制。字段中查找所希望的檢索詞,就需要使用字段限制。 字段限制字段限制適用于在已有一定數(shù)量輸出記錄的基適用于在已有一定數(shù)量輸出記錄的基礎(chǔ)上,通過指定字段的方法礎(chǔ)上,通過
33、指定字段的方法 ,減少輸出篇數(shù),提,減少輸出篇數(shù),提高檢索結(jié)果的查準(zhǔn)率高檢索結(jié)果的查準(zhǔn)率。字段限制(字段限制(DIALOG聯(lián)機檢索系統(tǒng)為例)聯(lián)機檢索系統(tǒng)為例)(1) 基本字段限制基本字段限制 基本字段主要是指題目、敘詞、識別詞和文摘基本字段主要是指題目、敘詞、識別詞和文摘四個字段?;咀侄蜗拗频挠梅ㄊ窃谛枰付ǖ淖炙膫€字段?;咀侄蜗拗频挠梅ㄊ窃谛枰付ǖ淖侄蔚臋z索詞后加上后綴運算符段的檢索詞后加上后綴運算符“/”和段碼。和段碼。 例如,檢索策略例如,檢索策略“OPTICAL/TI AND FIBER/TI”的含義是指定在題目字段中查找含有的含義是指定在題目字段中查找含有“optical(光學(xué)
34、)(光學(xué))”和和“fiber(纖維)(纖維)”兩詞的所兩詞的所有記錄。有記錄。 字段限制(字段限制(DIALOG聯(lián)機檢索系統(tǒng)為例)聯(lián)機檢索系統(tǒng)為例)(2) 輔助字段限制輔助字段限制 除基本字段以外的可檢索字段都可稱為輔助字段。除基本字段以外的可檢索字段都可稱為輔助字段。輔助字段運算符的用法是在需要指定字段的檢索詞輔助字段運算符的用法是在需要指定字段的檢索詞(有有時檢索詞須放在雙引號內(nèi)時檢索詞須放在雙引號內(nèi))之前加上段碼和前綴運算符之前加上段碼和前綴運算符“=”。例如,。例如,AU=“Robert,S.”的含義是在作者字段的含義是在作者字段中查找含人名為中查找含人名為“Robert,S.”的所有
35、記錄。的所有記錄。 下面是其他常用的輔助字段限制及其實例:下面是其他常用的輔助字段限制及其實例: 指定刊物名稱指定刊物名稱 JN=APPLIED PHYSICS 指定語言字段指定語言字段 LA=ENGLISH 指定年份字段指定年份字段 PY=19994.1 計算機檢索策略的構(gòu)建計算機檢索策略的構(gòu)建3截詞算符截詞算符 截詞算符就是使計算機保留檢索詞中的相同詞截詞算符就是使計算機保留檢索詞中的相同詞干部分,允許檢索詞可有一定范圍的變化,這種功干部分,允許檢索詞可有一定范圍的變化,這種功能可減少輸入步驟,簡化檢索程序,擴大檢索范圍,能可減少輸入步驟,簡化檢索程序,擴大檢索范圍,提高查全率。不同的數(shù)據(jù)
36、庫有不同的截字符,提高查全率。不同的數(shù)據(jù)庫有不同的截字符,DIALOG系統(tǒng)用系統(tǒng)用“?”,ORBIT系統(tǒng)用系統(tǒng)用“+”,功能基,功能基本相同。本相同。 截詞有截詞有前方一致前方一致、后方一致后方一致、中間一致中間一致和和中間中間屏蔽屏蔽四種形式。前方一致,允許詞尾有所變化;后四種形式。前方一致,允許詞尾有所變化;后方一致,允許詞頭有所變化,中間一致,詞頭、詞方一致,允許詞頭有所變化,中間一致,詞頭、詞尾都可變化;中間屏蔽,允許詞中間的某些字母有尾都可變化;中間屏蔽,允許詞中間的某些字母有變化。變化。4.1 計算機檢索策略的構(gòu)建計算機檢索策略的構(gòu)建4范圍限制范圍限制 查找范圍算符的作用主要是用戶
37、利用輔助查找范圍算符的作用主要是用戶利用輔助索引時,對查找文獻的年限范圍進行限制。索引時,對查找文獻的年限范圍進行限制。等于:如在日期檢索項輸入等于:如在日期檢索項輸入“1990*”,則表示,則表示1990年發(fā)表的文獻年發(fā)表的文獻大于:輸入大于:輸入“1990*” 大于等于:大于等于:“=1990*”不等于:不等于:“1990*” 范圍:如在日期檢索項輸入范圍:如在日期檢索項輸入“1991*:1994*”,則表示查找則表示查找19911994年的文獻年的文獻其它:短語檢索、自然語言檢索其它:短語檢索、自然語言檢索(小節(jié)小節(jié))4.2 計算機檢索步驟和策略調(diào)整方法計算機檢索步驟和策略調(diào)整方法 1.
38、分析課題分析課題(1)一般的課題概念分析方法一般的課題概念分析方法: 分析主要概念,找出能代表這些概念的若干個分析主要概念,找出能代表這些概念的若干個詞或詞組,對新學(xué)科、交叉學(xué)科和邊緣學(xué)科的課題,詞或詞組,對新學(xué)科、交叉學(xué)科和邊緣學(xué)科的課題,要搞清楚這些概念關(guān)系。概念分析的結(jié)果應(yīng)以概念要搞清楚這些概念關(guān)系。概念分析的結(jié)果應(yīng)以概念組為單元的詞或詞組形式列出,以便下一步制訂檢組為單元的詞或詞組形式列出,以便下一步制訂檢索策略。索策略。 例如,例如,“聚乙烯的合成(聚乙烯的合成(synthesis of polyethylene)”這個課題可劃分為兩個概念,即這個課題可劃分為兩個概念,即“聚乙烯(聚
39、乙烯(polyethylene)”與與“合成合成(synthesis)”。4.2 計算機檢索步驟和策略調(diào)整方法計算機檢索步驟和策略調(diào)整方法 (2)隱含概念的分析隱含概念的分析: 課題所隱含的概念從專業(yè)角度作深入分析,才能課題所隱含的概念從專業(yè)角度作深入分析,才能提煉出能夠確切反映課題內(nèi)容的檢索概念。提煉出能夠確切反映課題內(nèi)容的檢索概念。 例如,例如,“垃圾的處理垃圾的處理”中的中的“處理處理”一詞隱含著一詞隱含著“回收回收”“”“再生再生”等具體的處理方法,再如,課題等具體的處理方法,再如,課題“大型機械電子滲漏儀大型機械電子滲漏儀”,其中,其中“電子電子”(electronic)一詞,在該專
40、業(yè)中往往是用一詞,在該專業(yè)中往往是用“傳感器傳感器”來表示,即用來表示,即用“sensor”、“transducer”或或“l(fā)oad-cell”等來表示。等來表示。類似的,諸如類似的,諸如“工藝工藝”、“分析分析”、“應(yīng)用應(yīng)用”,以及,以及諸如諸如“有機物有機物”、“無機物無機物”、“重金屬重金屬”、“輕金輕金屬屬”、“高分子材料高分子材料”等外延十分寬的概念,一般都等外延十分寬的概念,一般都應(yīng)轉(zhuǎn)換成具體的方法或材料、化合物來表示。應(yīng)轉(zhuǎn)換成具體的方法或材料、化合物來表示。4.2 計算機檢索步驟和策略調(diào)整方法計算機檢索步驟和策略調(diào)整方法 (3)核心概念的選限核心概念的選限: 有些檢索詞中已經(jīng)含有
41、的某些概念,在概念予以有些檢索詞中已經(jīng)含有的某些概念,在概念予以排除。例如,課題排除。例如,課題“玻璃纖維增強石膏制品玻璃纖維增強石膏制品”,從字從字面上看,這個課題可劃為三個概念:即面上看,這個課題可劃為三個概念:即“玻璃纖維玻璃纖維”、“增強增強”、“石膏制品石膏制品”。但石膏制品中加入玻璃纖。但石膏制品中加入玻璃纖維,其目的就是為了增強石膏制品,因此可將維,其目的就是為了增強石膏制品,因此可將“增強增強”這一概念排除之外。這一概念排除之外。 如果有些檢索概念已經(jīng)體現(xiàn)在數(shù)據(jù)庫中,這些概如果有些檢索概念已經(jīng)體現(xiàn)在數(shù)據(jù)庫中,這些概念也應(yīng)該予以排除。如陶瓷文摘數(shù)據(jù)庫(念也應(yīng)該予以排除。如陶瓷文摘數(shù)據(jù)庫(Ceramic Abstracts),),“陶瓷(陶瓷(ceramic)”這一概念一般可這一概念一般可以排除;而以排除;而COMPUTER一詞在計算機數(shù)據(jù)庫(一詞在計算機數(shù)據(jù)庫(The Computer Database)中一般也應(yīng)予以排除。)中一般也應(yīng)予以排除。 4.2 計算機檢索步驟和策略調(diào)整方法計算機檢索步驟和策略調(diào)整方法 另外有一些比較泛指、檢索意義不大的概念,另外有一些比較泛指、檢索意義不大的概念,例如,例如,“發(fā)展發(fā)展”,“趨勢趨勢”,“現(xiàn)狀現(xiàn)狀”等在不是專等在不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國硬度計市場競爭格局及投資戰(zhàn)略研究報告
- 2025-2030年中國男士護膚品行業(yè)競爭狀況及發(fā)展趨勢分析報告
- 2025-2030年中國電熱線市場運行狀況及前景趨勢分析報告
- 上海工程技術(shù)大學(xué)《預(yù)防口腔醫(yī)學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 沈陽藥科大學(xué)《工業(yè)網(wǎng)絡(luò)與組態(tài)技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 中南大學(xué)《電動汽車原理與設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 沈陽航空航天大學(xué)北方科技學(xué)院《初中道德與法治課程標(biāo)準(zhǔn)與教材》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧中醫(yī)藥大學(xué)杏林學(xué)院《電工儀表與測量》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣西金融職業(yè)技術(shù)學(xué)院《化工熱力學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年安全員《A證》考試題庫
- 2025至2030年中國電子護眼臺燈數(shù)據(jù)監(jiān)測研究報告
- 2025年浙江省溫州樂清市融媒體中心招聘4人歷年高頻重點提升(共500題)附帶答案詳解
- 2025夏季廣東廣州期貨交易所招聘高頻重點提升(共500題)附帶答案詳解
- 北京市豐臺區(qū)2024-2025學(xué)年高三上學(xué)期期末英語試題
- 2025上海市嘉定工業(yè)區(qū)農(nóng)村青年干部招聘22人歷年高頻重點提升(共500題)附帶答案詳解
- 《獸醫(yī)基礎(chǔ)》練習(xí)題及參考答案
- 2025年煤礦探放水證考試題庫
- 農(nóng)業(yè)機械設(shè)備運輸及調(diào)試方案
- 污水處理設(shè)備的故障處理指南考核試卷
- ps 課件教學(xué)課件
- 神經(jīng)外科患者早期康復(fù)護理
評論
0/150
提交評論