第三章 計算機檢索基礎知識_第1頁
第三章 計算機檢索基礎知識_第2頁
第三章 計算機檢索基礎知識_第3頁
第三章 計算機檢索基礎知識_第4頁
第三章 計算機檢索基礎知識_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章計算機檢索基礎知識中國民航大學圖書館主要內容一、計算機檢索概述二、信息存儲與數(shù)據(jù)庫結構三、檢索語言與檢索技術四、檢索的基本程序1.計算機檢索概述計算機檢索原理計算機檢索系統(tǒng)的組成計算機信息檢索的發(fā)展檢索系統(tǒng)的類型檢索原理廣義的文獻信息檢索,包括文獻信息存儲和文獻信息檢索兩個過程。在存儲信息時,信息著錄和標引人員首先對原始信息進行主題分析,把原始信息中包含的信息內容分析出來,形成若干能代表該原始信息主題的概念,并用檢索語言的語詞(即,標引標識,包括主題詞和分類號等)把這些概念標識出來,然后按照一定規(guī)則存入檢索工具或檢索系統(tǒng)。用戶檢索時,首先要對檢索課題進行主題內容分析,明確所涉及的學科范疇、檢索要求及檢索范圍,并形成若干代表檢索課題需要的概念,把這些概念轉換成檢索語言的語詞(即,檢索標識,包括主題詞和分類號等),然后從檢索工具或檢索系統(tǒng)中查找含有該檢索標識的信息,從而獲得所需的信息。什么是著錄?什么是標引?著錄是對信息的外表特征和內容特征加以簡單明確的描述標引是對信息的內容給出分類號和主題詞主題詞分類號主題詞分類號檢

圖信息檢索原理簡言之,信息檢索原理就是將檢索標識與存儲在檢索工具或檢索系統(tǒng)中的標引標引標識進行比較,兩者一致或者信息標引的標識包含著檢索標識,則含有該標識的信息就從檢索工具或系統(tǒng)輸出。計算機檢索是計算機代替人工檢索的匹配過程。計算機一方面接受檢索提問表達式,另一方面從數(shù)據(jù)庫中讀取信息記錄,然后在兩者之間進行匹配運算,如果比較的結果一致,那么這條信息就算命中,如果比較的結果不一致,則這條信息就不被輸出。計算機信息檢索特點速度快、效率高檢索范圍廣不受時空的限制數(shù)據(jù)更新頻率高輔助功能完善計算機信息檢索系統(tǒng)組成計算機(服務器和終端):是檢索系統(tǒng)的核心部分,包括軟件和硬件。通過一定的檢索軟件,它們能夠進行信息的存儲、處理、檢索以及整個系統(tǒng)的運行和管理。通訊網(wǎng)絡:通信網(wǎng)絡是聯(lián)系計算機系統(tǒng)和檢索終端設備的橋梁,起著傳遞信息的作用。檢索網(wǎng)絡所用的通信線路,一般是公用電話線或專用線,國際聯(lián)機檢索系統(tǒng)則是由通信衛(wèi)星和海底電纜構成的通信網(wǎng)絡。數(shù)據(jù)庫:是在計算機存儲設備上按一定方式存儲的相互關聯(lián)的數(shù)據(jù)集合。是檢索系統(tǒng)的信息源,也是用戶檢索的對象。計算機信息檢索的發(fā)展階段脫機批處理檢索階段(1954-1964)聯(lián)機檢索階段(1965-)光盤檢索階段(1980-)網(wǎng)絡化檢索階段(1995-)脫機檢索(off-lineretrieval)在利用計算機進行信息檢索的早期,人們只是用單臺計算機的輸入輸出裝置進行檢索,用磁帶作存儲介質,一般為連續(xù)的順序檢索方式。檢索部門把許多用戶的檢索提問匯總到一起,進行批量檢索,然后把檢索結果通知各個用戶,用戶不直接接觸計算機。聯(lián)機檢索(on-lineretrieval)60年代末,由于計算機軟硬件技術的不斷提高,出現(xiàn)了一臺主機帶多個終端的聯(lián)機信息檢索系統(tǒng)。聯(lián)機檢索是用戶利用終端設備,通過通信網(wǎng)絡或通信線路與檢索系統(tǒng)聯(lián)機,進行“人機對話”,從檢索中心的數(shù)據(jù)庫及時查找所需要的文獻信息過程。80年代,發(fā)達國家的一些計算機信息聯(lián)機檢索系統(tǒng),通過衛(wèi)星通信網(wǎng)絡和計算機專用終端,在世界范圍內提供聯(lián)機信息檢索服務,形成國際聯(lián)機檢索服務業(yè),聯(lián)機檢索服務是計算機檢索走向實用化、規(guī)模化、產(chǎn)業(yè)化的重要的標志。光盤數(shù)據(jù)庫檢索光盤

是80年代發(fā)展起來的激光存儲載體,繼紙張感光材料、磁性載體之后問世的又一種新型的信息存儲介質。能存儲數(shù)據(jù)、文字、圖形、圖像、聲音、動畫等各種信息。一張普通的光盤、信息存儲量約為550兆。按照光盤讀取數(shù)據(jù)的性能來劃分,有以下三種類型:只讀光盤(CD-ROM)

一次性寫入光盤(CD-WORM)

可擦寫光盤(CD-ERM)網(wǎng)絡化檢索(internationalon-lineretrieval)網(wǎng)絡信息檢索的特征

存取范圍覆蓋Internet上的幾乎所有資源

傳統(tǒng)檢索方法與全新檢索技術相結合

用戶界面友好且操作方便

具備良好的導航和編輯功能

網(wǎng)絡透明度高

國內計算機信息檢索發(fā)展階段1975年,從國外引進數(shù)據(jù)庫開展機檢服務;1980年,建立國際聯(lián)機終端開展檢索服務;20世紀80年代中后期,自建數(shù)據(jù)庫;90年代初,發(fā)展光盤檢索;90年代中期,Internet網(wǎng)絡化檢索階段。2.信息存儲與數(shù)據(jù)庫結構

信息源收集標引與著錄數(shù)據(jù)庫及其編排結構信息源收集1)確定入選信息的專業(yè)范圍。信息的專業(yè)性體現(xiàn)了數(shù)據(jù)庫的特色與權威性。2)確定信息的文獻類型。如期刊、會議記錄、學位論文、標準等。3)確定信息的載體。如縮微制品、光盤、磁帶、磁盤的信息。4)確定信息的加工深度。對于文獻數(shù)據(jù)庫而言,加工深度表現(xiàn)為三個層次:題錄、文摘、全文。5)確定信息的起始時間。收集的信息時間跨越范圍需要根據(jù)信息的特點合理選擇,回溯年限長,信息時效性就差,但歷史性就越強。標引與著錄標引:指對信息內容特征進行分析,賦予信息以檢索標識的過程。標引一般包括主題標引和分類標引。著錄:對信息外部特征(如文獻的篇名、著者、出處、出版時間等)進行分析、選擇與記錄的過程。

對信息內容特征進行標引和對信息外部特征進行著錄,形成一條信息題錄,并根據(jù)信息內容作出摘要,然后將上述檢索標識與著錄項目一并填入工作單,就完成了數(shù)據(jù)庫建設的“數(shù)據(jù)前處理”工作。數(shù)據(jù)庫及其編排結構數(shù)據(jù)庫的類型數(shù)據(jù)庫的構成數(shù)據(jù)庫的記錄格式數(shù)據(jù)庫的編排結構數(shù)據(jù)庫的類型按照信息處理層次劃分:書目數(shù)據(jù)庫(BibliographicDatabase)存儲對文獻信息進行加工后的書目數(shù)據(jù)。如:圖書館館藏目錄或聯(lián)機公共檢索目錄等。文摘數(shù)據(jù)庫(AbstractDatabase)存儲原文經(jīng)過濃縮后得到的文摘、索引等信息。

–主要提供各種文獻信息的提名、責任者、原文出處、主題詞及文摘,一般不提供全文。

–如WebofScience等。全文數(shù)據(jù)庫(FullTextDatabase)存儲的是原始文獻的全文,如雜志論文、報紙新聞、法院案例等。全文檢索可直接獲取原始資料,而不是書目檢索時的線索,提高了用戶的檢索效率。如,萬方數(shù)據(jù)庫、維普數(shù)據(jù)庫等全文數(shù)據(jù)庫。數(shù)據(jù)庫的構成記錄(Record)是構成數(shù)據(jù)庫的一個完整的信息單元,每條記錄描述了原始信息的外部和內部特征。書目數(shù)據(jù)庫中的一條記錄通常代表一篇文獻,其它類型數(shù)據(jù)庫中的記錄則是某種信息單元。字段(Field)

比記錄更小的單位是字段,是組成記錄的數(shù)據(jù)項目。

例如在書目數(shù)據(jù)庫CBMdisc中一條記錄代表某一篇文獻,在這條記錄中有中文題名(TI)、著者(AU)、出處(SO)、主題詞(MH)等字段。數(shù)據(jù)庫的編排結構數(shù)據(jù)庫的編排結構,就是計算機檢索系統(tǒng)中數(shù)據(jù)庫的每條記錄數(shù)據(jù)項的編排方式,有順排文檔和倒排文檔兩種。1)順排文檔以記錄為單位,按記錄的入藏順序號從小到大排列。2)倒排文檔是從順排文檔中抽取有檢索意義的檢索標識,如主題詞、著者姓名、篇名等,并按某種順序排列,同時在檢索標識后注明入藏順序號。順排文檔與倒排文檔配合使用示意圖檢索“反坦克導彈發(fā)展趨勢”方面的文獻檢索式:反坦克導彈and發(fā)展趨勢數(shù)據(jù)庫的結構若干個記錄構成的信息集合稱為文檔。大型的數(shù)據(jù)庫分割成若干文檔。記錄是構成數(shù)據(jù)庫的完整的信息單元,每條記錄描述了原始信息的外部特征和內部特征。組成記錄的數(shù)據(jù)項目檢索語言與檢索技術檢索語言

檢索語言就是為溝通文獻標引與文獻檢索而編制的人工語言,也是連接信息存儲和檢索兩個過程中標引人員與檢索人員雙方思路的渠道,是用于文獻標引和檢索提問的約定語言。檢索語言類型示意圖檢索技術1.布爾邏輯檢索2.位置運算檢索3.截詞檢索4.字段限定檢索布爾邏輯檢索(Booleansearching)

在檢索過程中用于表達詞與詞之間的邏輯關系的算符,稱為布爾邏輯運算符。算符有三種邏輯關系:邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)。

邏輯與(AND)AANDB:檢索詞A和檢索詞B同時出現(xiàn)在一條記錄中。其作用是縮小檢索范圍,提高查準率。例如:查有關“人口控制”的文獻,檢索式可寫成:

人口AND控制邏輯或(OR)例如:查有關計算機的資料,檢索式可寫成:

計算機OR電腦AORB:記錄中出現(xiàn)檢索詞A或檢索詞B或兩詞同時出現(xiàn)在一條記錄中。其作用是擴大檢索范圍,提高查全率。邏輯非(NOT)ANOTB:記錄必須包含檢索詞A但不能包含檢索詞B。即在含有A檢索詞的文獻中去除含有B檢索詞的文獻。其作用是縮小檢索范圍,提高查準率。例如:檢索有關能源方面的文獻信息,但不包括核能,檢索式為:

energyNOTnuclear運算順序布爾邏輯算符的運算次序:NOT>AND>OR()號里的部分運算優(yōu)先例如:(AORD)ANDB表示先執(zhí)行“AORD”的檢索,再與B進行AND運算。位置檢索使用位置算符是為了表達各個檢索詞之間的順序與相對位置關系。位置運算符有:(W)、(nW)、(N)、(nN)。

(W)是with的縮寫,(W)算符兩側的檢索詞之間不得有其他任何字或詞,而且順序不能顛倒,但允許有空格或一個標點符號。American()literature。(nW)表示兩側的檢索詞中間允許插入的詞最多只能有n個,且檢索詞位置不能顛倒。knowledge(1W)economy,會命中knowledgeeconomy或者knowledge-basedeconomy。

(N)是near的縮寫,(N)算符兩側的檢索詞必須相連,不得插入其他詞,但詞序可以顛倒。chemistry(N)physics,會命中chemistryphysics或者physicschemistry。

(nN)表示允許在此算符兩側的檢索詞之間最多插入n個詞,但詞序可以顛倒。注意:這是一種可以不依賴主題詞表而直接使用自由詞進行檢索的技術方法。不同的檢索系統(tǒng)其位置算符的表示方法不盡相同。截詞檢索

截詞檢索就是把檢索詞截斷,取其中的一部分,在加上截詞符號一起進行檢索。主要用于檢索詞的單復數(shù)、詞性的詞尾變化、詞根相同的一類詞,以及同一詞的拼法變異等。從本質上說,截詞算符是一種邏輯“或”的關系。

通用的截詞符有:?和*

?代表一個字母,叫做有限截斷;*代表兩個或兩個以上字母,叫做無限截斷。截詞檢索例如:child*,可查到child,children,childish,childhood等所有以child開頭的單詞。按截斷的位置不同,截詞檢索又分為左截斷、右截斷和中間截斷。字段限制限制符in對特定字段進行限制檢索,如年份限制檢索、語種限制檢索、文獻類型限制檢索等。如:EnglishinLA要求檢索的文獻為英文文獻。禁用詞(非關鍵詞)主要有:介詞、冠詞、連接詞、感嘆詞、某些形容詞或副詞以及不能反映文獻的實質內容,而且在一般文章中非常通用的某些詞。如:方法、問題、報告、研究、探討等。4.檢索的基本程序1.分析檢索課題2.選擇檢索系統(tǒng)及數(shù)據(jù)庫3.確定檢索詞4.構建檢索提問式5.上機檢索并調整檢索策略6.輸出檢索結果。1.分析檢索課題(1)弄清用戶信息需求的目的和意圖。(2)分析課題涉及的學科范圍、主題要求。(3)課題所需信息的內容及其特征。(4)課題所需信息的類型,包括文獻類型、出版類型、年代范圍、語種、著者、機構等。(5)課題對查新、查準、查全的指標要求。

2.選擇檢索系統(tǒng)和數(shù)據(jù)庫

在全面分析檢索課題的基礎上,根據(jù)用戶要求得到的信息類型、時間范圍、課題檢索經(jīng)費支持等因素綜合考慮后,選擇檢索系統(tǒng)和數(shù)據(jù)庫。

正確選擇數(shù)據(jù)庫,是保證檢索成功的基礎。選擇數(shù)據(jù)庫時必須從以下幾個方面考慮:(1)數(shù)據(jù)庫收錄的信息內容所涉及的學科范圍;(2)數(shù)據(jù)庫收錄的文獻類型、數(shù)量、時間范圍以及更新周期;(3)數(shù)據(jù)庫所提供的檢索途徑、檢索功能和服務方式。3.確定檢索詞

(1)先選用主題詞。(2)選用數(shù)據(jù)庫規(guī)定的代碼。(3)選用常用的專業(yè)術語。(4)選用同義詞與相關詞。4.構建檢索提問式

檢索提問式是計算機信息檢索中用來表達用戶檢索提問的邏輯表達式,由檢索詞和各種布爾邏輯算符、位置算符、截詞符以及系統(tǒng)規(guī)定的其他組配連接符號組成。

5.上機檢索并調整檢索策略

檢索時,應及時分析檢索結果是否與檢索要求一致,根據(jù)檢索結果對檢索提問式作相應的修改和調整,直至得到比較滿意的結果。(1)檢索結果信息量過多(2)檢索結果信息量過少檢索結果信息量過多

產(chǎn)生檢索結果信息量過多的原因可能有:主題詞本身的多義性導致誤檢;對所選的檢索詞的截詞截得太短等。在這種情況下,就要考慮縮小檢索范圍,提高檢索結果的查準率。調整檢索策略的方法主要有:

(1)減少同義詞與同族相關詞;

(2)增加限制概念,采用邏輯“與”連接檢索詞;

(3)使用字段限定,將檢索詞限定在某個或某些字段范圍;

(4)使用邏輯”非”算符,排除無關概念;

(5)調整位置算符,由松變嚴。檢索結果信息量過少

造成檢索結果信息量少的原因有:(1)選用了不規(guī)范的主題詞或某些產(chǎn)品的俗稱,商品名稱作為檢索詞;(2)同義詞、相關詞、近義詞沒有運用全;(3)上位概念或下位概念沒有完整運用。針對這種情況,就要考慮擴大檢索范圍,提高檢索結果的查全率。調整檢索策略的方法如下:

(1)選全同義詞與相關詞并用邏輯“或”將它們連接起來,增加網(wǎng)羅度;(2)減少邏輯“與”的運算,丟掉一些次要的或者太專指的概念;

(3)去除某些字段限制;(4)調整位置算符,由嚴變松。上位詞:白熾燈上位概念:電燈谷氨酸上位概念:氨基酸相關詞:(1)同一事物的學名、俗名、商品名

學名俗名商品名乙醇酒精NaCl鹽計算機電腦聚二甲基硅氧烷硅油(2)同一事物的簡稱、全稱、音譯和意譯簡稱全稱音譯意譯

wwwworldwidewebCADcomputeraideddesigninternet因特網(wǎng)互聯(lián)網(wǎng)

motor馬達電動機

laser鐳射激光器(3)同一事物名稱的反義詞污水處理與水凈化光潔度與粗糙度(4)同一事物名詞的單復數(shù)、不同詞性、英美語的不同形式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論