第六章信息檢索_第1頁
第六章信息檢索_第2頁
第六章信息檢索_第3頁
第六章信息檢索_第4頁
第六章信息檢索_第5頁
已閱讀5頁,還剩43頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六章信息檢索

信息組織是指按照一定的規(guī)則來描述信息資源或信息對象,以便于能被需要它們的人高效地利用。信息檢索則是指為了個人或他人的需要,去發(fā)現(xiàn)適當?shù)男畔①Y源或信息對象。信息組織和信息檢索是一對互逆過程。

6.1信息檢索的基本概念與原理6.1.1信息檢索的涵義根據(jù)特定的需求,運用某種檢索工具,按照一定的方法,從大量文獻中查出所需的資料或信息的過程。滿足信息用戶的信息需求而建立的,存貯經(jīng)過加工了的信息集合,擁有特定的存貯、檢索與傳送的技術(shù)裝備,提供一定存貯與檢索方法及檢索服務功能的一種相對獨立的服務實體(包括人和檢索工作單位),統(tǒng)稱為信息檢索系統(tǒng)(InformationRetrievalSystem,簡稱IRS)。信息檢索系統(tǒng)的三個基本要素:人、檢索工具(包括設備)和信息資料信息檢索系統(tǒng)的體系結(jié)構(gòu)

潛在的相關(guān)信息信息組織和檢索系統(tǒng)規(guī)范化的疑問式信息的組織概述的存貯比較/匹配索引(描述性的、受限制的)游戲規(guī)則=主題索引規(guī)則+辭典(包括詞匯表和索引語言)需求概述或疑問式信息或數(shù)據(jù)檢索流程組織流程存貯1:概述/搜索請求存貯2:信息的表示6.1.2信息檢索的類型與特性依檢索結(jié)果內(nèi)容

劃分依信息存儲與

檢索方式劃分手工檢索計算機檢索事實信息檢索文獻信息檢索數(shù)據(jù)信息檢索信息檢索類型手工檢索工具

主要指,如印刷版的《全國報刊索引》。計算機檢索系統(tǒng)主要指,如《中國期刊全文數(shù)據(jù)庫》數(shù)據(jù)信息和事實信息檢索是確定性的檢索,檢索結(jié)果可以直接利用。文獻信息檢索是一種相關(guān)性檢索,檢索結(jié)果是文獻信息的線索,一般通過二次信息來實現(xiàn)。

全文數(shù)據(jù)庫:是一次信息和二次信息的綜合體。在檢索結(jié)果中,有直接的全文鏈接。特性:信息檢索的相關(guān)性

相關(guān)性表明用戶是否認為一文獻與一提問吻合。信息檢索的不確定性

標引的不確定性是指不同標引員在給同一篇信息對象進行標引時會選用不同的標引詞,即標引詞選用的不一致性。檢索詞選用的不確定性是指候選檢索詞集不止一個,檢索過程具有試探性。信息檢索的邏輯性檢索語言、檢索策略(處理信息檢索提問的邏輯與查找步驟的科學安排)

6.1.3信息檢索的模型布爾邏輯檢索模型

(BooleanRetrievalModel,簡稱BRM)概率檢索模型

(ProbabilityRetrievalModel,簡稱PRM)向量空間檢索模型

(VectorRetrievalModel,簡稱VRM)模糊檢索模型

(FuzzyRetrievalModel,簡稱FRM)

6.2信息檢索的職能與程序6.2.1信息檢索語言的職能

信息檢索語言是根據(jù)信息檢索需要創(chuàng)制的一種人工語言,又稱檢索語言、信息存貯與檢索語言、文獻工作語言、索引語言、標引語言、信息檢索標識、標識系統(tǒng)等等。信息檢索語言:詞匯和語法信息檢索語言的職能:可以表示文獻內(nèi)容、數(shù)據(jù)或其他信息形式有專用概念表示用戶的信息提問能夠指示計算機執(zhí)行查詢與檢索6.2.2信息檢索策略信息檢索策略是針對檢索提問、運用檢索方法和技術(shù)而設計的信息檢索方案,其目的是要達到一定的檢準率和檢全率。常用信息檢索策略包括:分塊概念組配檢索策略、逐步組配檢索策略、對偶組配檢索策略、增長組配檢索策略等。

目前在以下三方面取得進展:(1)以檢全為目標的檢索策略的調(diào)節(jié)與控制;(2)以檢準為目標的檢索策略的調(diào)節(jié)與控制;(3)以最小投入為目標的檢索策略的調(diào)節(jié)與控制。

對特定系統(tǒng)、特定數(shù)據(jù)以及某一類型課題的檢索策略的研究具體表現(xiàn)在以下兩方面:(1)某一系統(tǒng)、某一數(shù)據(jù)庫檢索策略;

(2)某一類型課題檢索策略。6.2.3信息檢索效率的評價檢索效率是指全、準、快、便、省(檢全率、檢準率、檢索速度、檢索方便性、檢索成本與效益),最主要的是全和準。在評價信息檢索效率過程中,主要通過檢全率、檢準率、漏檢率和誤檢率四個評價指標進行評價,其中重點是檢全率和檢準率。

檢全率=檢出的相關(guān)文獻量/系統(tǒng)中的相關(guān)文獻總量檢準率=檢出的相關(guān)文獻量/檢出的文獻總量漏檢率=未檢出的相關(guān)文獻量/系統(tǒng)中的相關(guān)文獻總量誤檢率=檢出的非相關(guān)文獻量/檢出的文獻總量檢全率與檢準率的互逆相互曲線

1008040601008040202060檢

R檢準率%P6.2.4信息檢索的程序(1)分析檢索課題,明確信息需求明確信息檢索課題所涉及的領(lǐng)域和范圍;明確所需信息的內(nèi)容及其內(nèi)容特征;明確所需信息的類型,包括文獻媒體、出版類型、所需文獻量、年代范圍、涉及的語種、有關(guān)著者及機構(gòu)等;明確信息檢索課題對查新、查準和查全的指標要求。

(2)選擇檢索工具,了解檢索系統(tǒng)信息檢索工具是人們?yōu)榱顺浞帧蚀_、有效地利用已有的信息資源而加工編制的用來報道、揭示、存貯和查找信息資源的卡片、表冊、計算機信息系統(tǒng)和特定出版物。

(3)確定檢索途經(jīng),選定檢索方法

每一種信息檢索方法都有自己的特點,在實踐中可以根據(jù)信息檢索要求選擇使用或配合使用,以快速、準確地完成信息檢索任務,實現(xiàn)預期的目標。

(4)實施檢索策略,瀏覽初步結(jié)果在獲取信息線索時要仔細閱讀,判斷所檢出的信息是否符合檢索的要求,不僅看篇名,還要閱讀整個著錄格式,進行綜合分析。

(5)調(diào)整檢索策略,獲取所需信息判斷文獻的出版類型。根據(jù)文獻出處中已有的信息,判斷其出版類型。整理文獻出處。將文獻出處中有縮寫語、有音譯刊名的還原成全稱或原刊名。根據(jù)出版類型在圖書館或信息機構(gòu)查找館藏目錄或聯(lián)合目錄確定館藏,原則上說應該按“由近及遠”的順序逐步擴大查找館藏的范圍。盡可能多渠道、多方式地獲取原始信息。6.3信息檢索的發(fā)展歷程三個階段手工信息檢索階段機械信息檢索階段計算機信息檢索階段手工信息檢索階段

信息檢索起源于參考咨詢工作,參考咨詢工作產(chǎn)生的標志是1876年召開的美國圖書館協(xié)會第一屆大會。1883年,波士頓公共圖書館首次設置了專職參考館員和參考閱覽室;20世紀初,多數(shù)圖書館成立了參考咨詢部門,主要利用圖書館的書目工具來幫助讀者查找圖書、期刊或現(xiàn)成答案。逐漸發(fā)展到從多種文獻源中查找、分析、評價和重新組織信息;“索引”突破了以前的狹隘范疇,成為獨立的檢索工具;40年代進一步包括回答事實性咨詢,編制書目、文摘,進行專題文獻檢索,提供文獻代譯等?!靶畔z索”從此成為一項獨立的用戶服務工作,并逐漸從單純的經(jīng)驗工作向?qū)I(yè)化方向發(fā)展。

機械信息檢索兩種基本類型機電信息檢索系統(tǒng)光電信息檢索系統(tǒng)

機械信息檢索并沒有發(fā)展信息檢索語言,只是采用單一的方法對固定的存貯形式進行檢索,而且過分依賴于設備,檢索復雜,成本較高,檢索效率和質(zhì)量都不理想。

機械信息檢索階段

計算機信息檢索系統(tǒng)三個階段:1971年以前建立的信息檢索系統(tǒng),是傳統(tǒng)的批處理檢索方式。

1971年以后,產(chǎn)生并發(fā)展的聯(lián)機信息檢索系統(tǒng),如OCLC、Dialog在線數(shù)據(jù)庫聯(lián)機檢索系統(tǒng)。20世紀90年代以來,產(chǎn)生并發(fā)展的網(wǎng)絡信息檢索階段。

信息檢索技術(shù)兩個發(fā)展方向:傳統(tǒng)信息檢索向全文文本、多媒體、多載體等新型信息檢索的發(fā)展,在深度上提高管理和組織信息的能力;信息資源的網(wǎng)絡化和分布化,面向互聯(lián)網(wǎng)中海量的信息資源,在廣度上提高管理和組織的能力。6.3信息檢索的技術(shù)與方法從檢索手段看,信息檢索分為:手工信息檢索機械信息檢索計算機信息檢索6.3.1手工信息檢索的技術(shù)與方法

(1)手工信息檢索工具手工信息檢索工具主要是各種類型的工具書工具書是根據(jù)一定的需要,比較完備地匯集某一方面的資料,并按特定的方法加以編排,專供讀者查考檢索有關(guān)知識、資料、事實的書籍。據(jù)工具書的體例和功能,可分為檢索型工具書、參考性工具書、詞語性工具書、表譜性工具書、圖錄性工具書和邊緣性工具書6種類型。

(2)手工信息檢索工具的排檢技術(shù)

字順排檢技術(shù):將檢索工具的內(nèi)容按字、詞的一定順序或規(guī)律,有系統(tǒng)地組織排列起來的技術(shù)。分類排檢技術(shù):將信息素材按學科或事物性質(zhì)系統(tǒng)地加以排列。主題排檢技術(shù):以規(guī)范化的自然語言為標識符號來標引信息內(nèi)容的排檢技術(shù)。時序排檢技術(shù):按時間的順序組合信息素材的技術(shù),多用于編制年表、年譜等檢索工具。如:《國內(nèi)外大事記》地序排檢技術(shù):按一定時期的行政區(qū)域來排列信息素材的技術(shù)。如:《中國名勝詞典》

(3)手工信息檢索方法順查法:時間上,遠近查全率高費時費力倒查法:時間上,近遠查準率高漏檢率高抽查法:學科的興旺階段檢索效率高追溯法(引文法):

A.一次文獻參考文獻一次信息參考文獻……近遠

B.一次文獻引用該一次信息的文獻新的一次文獻……實際是由“遠近”越查文獻越新擴大信息源效率低檢全率低漏檢率高循環(huán)法:先利用檢索工具查出一批有用文獻,然后再利用這些文獻末尾所附參考文獻的線索進行追溯查找。

6.3.2機械信息檢索的技術(shù)與方法

機電信息檢索系統(tǒng)

繼手檢穿孔卡片之后,出現(xiàn)了機檢穿孔卡片和選卡機。這就形成了機電信息檢索系統(tǒng)。光電信息檢索系統(tǒng)

主要是以縮微膠卷(片)檢索方式出現(xiàn)的。縮微膠卷(片)的檢索方式大致可以分為兩種類型:①尋址檢索方式②編碼檢索方式6.3.3計算機信息檢索的技術(shù)與方法

(1)聯(lián)機信息檢索信息用戶利用終端設備,通過通訊網(wǎng)絡與世界各地的信息檢索系統(tǒng)聯(lián)機,進行人機對話,從檢索系統(tǒng)的數(shù)據(jù)庫中查找出用戶所需信息的全過程。優(yōu)點:①檢索速度快;②檢索范圍廣而全面;③檢索途徑多、質(zhì)量高;④檢索內(nèi)容新、實時性強;⑤檢索輔助功能完善、使用方便,檢索結(jié)果輸出方式靈活、實用。缺陷:①主機負擔重,一旦出現(xiàn)故障,則整個網(wǎng)絡都將癱瘓;②信息組織方式以線性為主,不夠靈活;③聯(lián)機檢索不像Internet是面向最終用戶的,操作也沒有后者方便。

聯(lián)機信息檢索系統(tǒng)的結(jié)構(gòu)

由檢索服務機構(gòu)(聯(lián)機存取中心)、國際通訊網(wǎng)絡及終端三部分構(gòu)成。終端設備用于輸入檢索程序、顯示檢索過程、控制打印檢索結(jié)果。通訊網(wǎng)絡用于實現(xiàn)遠程人機對話。

檢索服務機構(gòu)(聯(lián)機存取中心)是存儲和檢索信息的核心。由中央計算機、數(shù)據(jù)庫檢索與管理軟件、聯(lián)機數(shù)據(jù)庫以及相應的檢索服務體制組成。

聯(lián)機信息檢索的技術(shù)原理一個典型的計算機信息系統(tǒng),能完成數(shù)據(jù)收集、分析、加工處理、存儲、傳遞通信和檢索信息的全過程。聯(lián)機信息檢索的服務方式a定題信息提供(SDI)b專題回溯檢索(RS)c聯(lián)機訂購原文d電子郵件我國聯(lián)機存取服務始于1974年,比較有影響的聯(lián)機存取系統(tǒng)有:

(1)萬方數(shù)據(jù)資源系統(tǒng)

/(2)CNKI數(shù)據(jù)資源系統(tǒng)

(3)維普數(shù)據(jù)資訊系統(tǒng)

/(2)光盤信息檢索特點:光盤存貯容量大、耐用檢索成本低。一次購買可多次使用,節(jié)省了電訊費和聯(lián)機系統(tǒng)使用費。操作簡單,檢索效果好。用戶按提示或幫助功能使用檢索系統(tǒng)。運行速度快。單機檢索,不受線路影響。安全性能高。只讀光盤,一般局域網(wǎng)用戶使用。如果光盤數(shù)據(jù)庫量不夠多,則信息資源就顯得有限,購買大量光盤數(shù)據(jù)庫,又要受到經(jīng)費限制更新周期長。一般的光盤數(shù)據(jù)庫更新要1個月或更長,而網(wǎng)絡數(shù)據(jù)庫的更新周期一般是1周或更短。檢索時需不斷換盤。一個大型數(shù)據(jù)庫,一般都是幾張光盤,特別是全文數(shù)據(jù)庫,如中國學術(shù)期刊全文光盤數(shù)據(jù)庫,每年都有一百多張光盤,檢索時需要不斷更換光盤。光盤信息檢索方法光盤檢索系統(tǒng)的功能和指令與聯(lián)機檢索沒有很大區(qū)別,但更方便。功能鍵:Help(幫助)、Index(索引)、History(查閱歷史)、Display(顯示)、Print(打印)、SelectDatabase(選擇數(shù)據(jù)庫)、FormatWindow(格式窗)、Quit(退出)等檢索信息時可用單元詞、多元詞(短語)、數(shù)字及布爾運算符和位置運算符把幾個檢索術(shù)語組配成一個提問邏輯式。

用戶可以在任何時刻回顧其查找的歷史,重新使用或修改以前的任何提問。

屏幕幫助是光盤數(shù)據(jù)庫最常用也是重要的功能之一。(3)網(wǎng)絡信息檢索網(wǎng)絡信息檢索模式

廣義:從根本上解決有效利用網(wǎng)絡信息資源問題的關(guān)鍵

如何對網(wǎng)絡上的海量多態(tài)信息進行組織,如何對這些信息建立索引,如何對索引及時更新;如何設計檢索算法以使檢索提問在檢全、檢準、響應時間、檢索結(jié)果控制與顯示方面表現(xiàn)良好;如何為用戶設計一個簡單易用的友好界面

狹義:在現(xiàn)實世界中有效利用網(wǎng)絡資源的核心

只是以網(wǎng)絡(如互聯(lián)網(wǎng))為媒介,利用網(wǎng)上已提供的一些信息檢索工具,探索如何使用這些工具及如何綜合各工具,使它們揚長避短,最后能實現(xiàn)對信息提問的檢索查詢的一種方法與技術(shù)。特點:信息豐富,檢索空間拓寬信息資源的異構(gòu)式分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論