信息檢索基本知識及技巧_第1頁
信息檢索基本知識及技巧_第2頁
信息檢索基本知識及技巧_第3頁
信息檢索基本知識及技巧_第4頁
信息檢索基本知識及技巧_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、12022-2-8信息檢索基本知識及技巧 The principles and skills on information retrieval主 講 人 :施 亮Lecturer :caesar, shi22022-2-8目錄 outline信息檢索的定義、分類及其作用二 檢索語言三 檢索的效率、手段和方法32022-2-8信息檢索的定義、分類及其作用1.1 信息檢索的定義 信息檢索(Information Retrieval):,是指將信息按一定的方式組織和存儲起來,并根據信息用戶的需要找出有關的信息過程,所以它的全稱又叫“信息的存儲與檢索(Information Storage and R

2、etrieval),這是廣義的信息檢索。 狹義的信息檢索則僅指該過程的后半部分,即從信息集合中找出所需要的信息的過程,相當于人們通常所說的信息查尋(Information Search)。42022-2-81.2 信息檢索的手段(1)手工檢索 eg:美國工程索引(2)光盤檢索 eg:medline (3)網絡檢索 eg:springerlink52022-2-81.3 信息檢索的對象(1) 文獻檢索(Document Retrieval) : 是以文獻(包括題錄、文摘和全文) 為檢索對象的檢索??煞譃槿臋z索 和書目檢索兩種。(2) 事實檢索 (Fact Retrieval) :是以某一客觀事

3、實為檢索對象,查找某一事物 發(fā)生的時間、地點及過程的檢索。(3) 數據檢索(Data Retrieval) :是以數值或數據(包括數據、圖表、公式等) 為對象的檢索。62022-2-81.4 信息檢索的作用(1) 信息檢索是獲取知識的捷徑 eg:princeton的學生 約翰菲利普 利用圖書館公開資料設計原子彈。 (2) 信息檢索是科學研究的向導 eg:(美)阿波羅飛船的燃料箱的重復研究問題。 (3)信息檢索是終身教育的基礎 unesco:可以防止知識老化,不斷更新知識72022-2-8二 信息檢索的要素 (1)前提信息意識/信息素養(yǎng) information literacy新聞閱讀:武漢的士

4、起步價調為兩公里16元 12月1日起執(zhí)行 看到標題,能聯(lián)想到什么? 從信息認知、信息情感 和 信息行為 三個方面進行分析!82022-2-8(2)基礎信息源A、信息的載體: 印刷型 縮微型 機讀型 聲像型92022-2-8B、信息的內容和加工級次: 一次文獻 二次文獻 三次文獻102022-2-8C、信息的出版形式:圖書期刊會議資料學位論文專利標準報告百科全書、類書112022-2-8圖書的檢索途徑主要用到: 書名 作者 出版社 ISBN 關鍵詞 期刊的檢索途徑主要用到: 刊名 篇名 作者 關鍵詞 ISSN122022-2-8 會議論文的檢索途徑主要用到: 會議名稱 主辦單位 會議地點 關鍵詞

5、 作者 會議文章篇名 學位論文的檢索途徑主要用到: 作者 學位授予單位 導師姓名 關鍵詞 論文篇名132022-2-8 專利資料的檢索途徑主要用到: 關鍵詞 專利權人 發(fā)明人 國際專利分類號 公開號 標準資料的檢索途徑主要用到: 標準編號 標準名稱 發(fā)布單位 發(fā)布日期 關鍵詞142022-2-8 報告資料的檢索途徑主要用到: 報告號 關鍵詞 作者 報告單位 合同戶報告代碼 百科全書、類書資料的檢索途徑主要用到: 音 形 義152022-2-8(3)核心信息利用能力掌握各種信息源掌握檢索語言熟練使用檢索工具對檢索結果的評價,判斷162022-2-8附:期刊的指數計算(1)影響因素=該年引用該刊前

6、兩年文章的總次數當年該刊所發(fā)表文章的總數即年指標前兩年該刊所發(fā)表文章的總數=一特定年度對該刊當年發(fā)表文章的引用次數影響因素是一種期刊中論文的平均被引率特定年度的影響因素用于測度一種期刊被利用的速度,也是測度期刊重要性的依據即年指標172022-2-8自引率與被引率 自引率是指一種期刊中引用本刊的參考文獻對全部參考文獻之比;被自引率是一種期刊被本刊中文章引用的次數與該刊被引用的總次數之比。=自引率某刊自引的引文量該刊全部引文量被引率 =某刊自引的引文量某刊被引用的總次數182022-2-8二 檢索語言2.1 按表現形式劃分的檢索語言 外表特征語言 內容特征語言192022-2-8外表特征:就是文

7、獻上記明的、顯而易見的特征。 外表特征語言(書目引文語言)題名(書名、篇名)著者姓名文獻序號(如:ISBN、ISSN、專利號、報告號等)書目引文出版事項文獻類型202022-2-8 內容特征語言非句法語言句法語言等級制體系分類法標題詞關鍵詞敘 詞單元詞加標志的敘詞組面詞(如:組面分類法)短 語文獻全文的自然語言212022-2-82. 2 按應用功能劃分的檢索語言 分類語言 主題語言222022-2-82.21 分類語言 是用分類號和相應的分類款目名稱來表達信息內容的主題概念,并按學科體系的邏輯次序將信息資源系統(tǒng)地加以劃分和組織的語言。 分類語言能反映事物的從屬派生關系,便于按學科門類進行族檢

8、索。232022-2-8杜威十進分類法 Dewey Decimal Classification ,DC/DDC美國M.杜威編制的綜合性等級列舉式分類法。分為詳、簡兩種版本,詳本于1876年問世,取名為圖書館圖書小冊子排架及編目適用的分類法和主題索引,1951年的第15版改名杜威十進分類法000總論 100哲學 200宗教 300社會科學 400語言 500自然科學和數學 600技術(應用科學) 700藝術、美術和裝飾藝術 800文學 900地理、歷史及輔助學科 第一層展開層630農業(yè) 631農業(yè)經營 631.5作物栽培 242022-2-8通用十進制圖書分類法 Universal Decim

9、al Classification UDC十進制圖書分類法由兩位比利時書目專家(Paul Otlet、Henri la Fontaine)19世紀末在杜威十進制圖書分類法的基礎上繼續(xù)研發(fā)的分類方法。此種分類方法由數字和特殊符號組成,把涉及各種知識體系及學科的書籍予以分類。介于數字和符號無語言障礙的特性,該分類法在世界各地的圖書館中被廣泛應用。 總分類 0 總匯 1 哲學,心理學 2 宗教,神學 3 社會學,政治,經濟,法律,教育,人類學 4 暫無(由圖書館具體添加) 5 自然學科,數學 6 實用學科,醫(yī)學,科技,企業(yè)經濟學,計算機 7 藝術,手工藝品,音樂,競技,體育 8 語言學,文學 9 地

10、理,生物,歷史 252022-2-8附加 + :并列符(例:178.1+33 酒精主義者 和 國民經濟國民經濟) :關系符(例:178.1:33 酒精主義對國民經濟的影響) / :包含符(例:592/599 系統(tǒng)動物學,從592到599) = :語言符(例:=71 拉丁語) (0.) :書類符(例:(042)演講,講義) (.):地域符(例:(234.3) 阿爾卑司阿爾卑司) 262022-2-8美國國會圖書館圖書分類法 Library of Congress Classification 272022-2-8第一層282022-2-8末層292022-2-8中國圖書館圖書分類法Chinese

11、 Library Classification, CLC 中國圖書館分類法,簡稱中圖法。包括“馬列主義、毛澤東思想,哲學,社會科學,自然科學, 綜合性圖書五大部類,22個基本大類,具體如下:302022-2-8中國科學院圖書館圖書分類法簡稱科圖法。1958年由中國科學院圖書館編寫,1974年、1979年、1994年分別進行了修訂。分為25大類。中國科學院圖書館圖書分類法312022-2-8國際專利分類法 International Patent Classification , IPC 關于國際專利分類斯特拉斯堡協(xié)定與1975年10月7日生效,它為發(fā)明專利,包括出版的專利申請書、發(fā)明證書說明書

12、、實用新型說明書(一下簡稱為“專利文獻”)提供了一種共同的分類。 分類表示使各國專利文獻獲得統(tǒng)一分類的一種工具。它的基本目的是作為各專利局以及其他使用者在確定專利申請的新穎性、創(chuàng)造性(包括對技術先進性和實用價值作出評價)而進行的專利文獻檢索是的一種有效檢索工具。 322022-2-8332022-2-8342022-2-8352022-2-8362022-2-8372022-2-8382022-2-8392022-2-8402022-2-8412022-2-8422022-2-8432022-2-8442022-2-8技術主體的分析452022-2-82.22 主題語言 462022-2-84

13、72022-2-8 INSPEC 敘詞表舉例: Locomotive NT diesel-electric locomotive BT vehicles TT vehicles RT rail traffic railways traction CC B8520-n C3360D FC b8520-n c3360De DI January 19731、下位敘詞2、上位敘詞3、族首詞4、相關詞5、INSPEC數據庫 使用的分類號6、輸入到INSPEC 數據庫使用的 分類號7、該敘詞的啟用日期英國電氣工程學會(Institute of Electric Engineering 簡稱 IEE)下設的

14、國際物理和工程信息服務部(International Information Services for the Physics and Engineering Communities,簡稱 INSPEC )482022-2-8三 檢索的效率、手段和方法3.1 檢索效率評價492022-2-83.2 索引語言中改善查全率的措施(1)同義詞控制法 是指當一個概念具有多個同義詞的時候,為了保證標引與檢索的一致性,避免文獻的分散和漏檢,指引詞匯的使用者從其他的同義詞找到一個被專門選擇作為正式主題詞的詞的用法。 例如: 用符號 USE、SEE、Y (用) 從正式詞引見非正式的詞,則用 USE FOR、D

15、(代)502022-2-8(2)詞的關聯(lián)法索引詞的關聯(lián),最普通的形式是等級上的關聯(lián)。例如:A、由專指詞到較泛指的詞,使用符號 BT (broader term),或者 S (屬) B、由泛指詞到較專指的詞,使用符號 NT (narrower term),或者 F (分) C、由指向近義的詞,使用符號 RT (related term),或者 C (參),或 see also (參見) 512022-2-8漢語主題詞表詞的關聯(lián)舉列 交流發(fā)電機F 同步發(fā)電機 異步發(fā)電機S 發(fā)電機 交流換向電機D 交流整離子電機S 交流電機Z 電機C 調速電動機 異步電動機522022-2-8(3)字形的控制法 即

16、把具有同一詞根的字組合在一起。當然這不是提供標引的措施,而是提供檢索用的輔助手段。在計算機檢索中,是采用截詞實現的:例如: “反射”、“反射波”、“反射性”、“反射望遠鏡” 等。 都有 reflect,用 reflect 進行截詞檢索,就能檢索出與“反射”有關的 所有文獻。532022-2-8(4)聚類法 在對檢索詞進行統(tǒng)計的基礎上,將有關的索引次進行聚類,可以查出更多的文獻,從而改善查全性。例如:“枯萎” 是與 “莊稼”、“植物生長” 聯(lián)系在一起的,如果 “銹菌”也是常與 “植物生長”等詞聯(lián)系在一起的話,我們就可以推斷 “枯萎” 與 “銹菌” 之 間存在某種聯(lián)系。542022-2-83.3

17、索引語言中改善查準率的措施組 配即兩個或兩個以上概念的組合,有兩種組配形式,先組和后組。 先組式是指概念之間的組合是在詞表編制階段就已經定義好的,組配后的符合概念成為供標引的完整索引詞。 心理聲學(是心理學與聲學的組配) 蒸發(fā)冷卻(是蒸發(fā)與冷卻的組配) 后組式是指在檢索階段把兩個或兩個以上的有關索引詞進行組合。 “計算機” 與 “設計” 552022-2-8 先組式有助于提高索引詞的專指度,減少標引到每個詞的文獻數量,減少和避免假組配,從而有利于查準率。但是先組式的詞在數量上是有限的,不能適應各種角度和深度的符合概念檢索。 后組式便于各種角度和深度的檢索,有利于查準率的提高,但是可能出現假組配

18、,致使誤檢的增多。對于先組和后組式的評價562022-2-83.4 計算機檢索語言(1)布爾邏輯檢索功能邏輯或(OR、+)檢索項 A、B 若用 “邏輯或” 組配,則邏輯式為 “A OR B”,或者 “A + B”AB表示被檢索的文獻只要包含有其中的一個檢索項,或者同時含有這兩個檢索項,那么它就會被命中。572022-2-8邏輯與(AND、*)檢索項 A、B 若用 “邏輯與” 組配,則邏輯式為 “A AND B”,或者 “A * B”AB表示被檢索的文獻必須同時含有兩個檢索項才能被命中582022-2-8A邏輯非(NOT、)檢索項 A、B 若用 “邏輯與” 組配,則邏輯式為 “A NOT B”,或者 “A B”B表示被檢索的文獻在含有A檢索項而不含有B檢索項是才能被命中。592022-2-8(2)截詞符截詞符可以避免逐詞輸入帶來的麻煩,還可以擴大查全率,截詞可以 截前、截后、中間截斷。例如:?S Comput ?結果為: computable computation compute computer?S c

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論