信息檢索原理課件_第1頁
信息檢索原理課件_第2頁
信息檢索原理課件_第3頁
信息檢索原理課件_第4頁
信息檢索原理課件_第5頁
已閱讀5頁,還剩123頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1本章要點: 信息檢索的五個步驟 歸納課題主題,提取檢索概念的一般方法 課題的分類號和主題詞的確定方法 漢語詞語的切分方法 課題概念的擴展方法 文獻信息數(shù)據(jù)庫文檔、記錄、字段的概念 邏輯、截詞、優(yōu)先、位置算符和字段限制第章 信息檢索原理2第章 信息檢索原理2.1 信息檢索的定義和原理2.1.1 信息檢索的定義 “檢索”(Retrieval)一詞是一個外來詞,來源于英語“Information Retrieval”(信息檢索) “檢索就是查找”,這僅僅是一種狹義的解釋。從廣義的角度講,檢索包括“存貯”和“查找”兩個過程。沒有存貯就沒有查找,存貯是為了查找,但查找必須有存貯,兩者缺一不可。 31.

2、信息檢索的定義 狹義:是指根據(jù)特定課題的需要,運用科學的方法,在大量信息(文獻)集合中查獲所需信息(文獻)的過程。 是指從任何信息集合中查找所需信息的活動、過程與方法。 廣義:是指將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的需要找出有關(guān)信息的過程,其全稱是信息存儲與檢索。 廣義的信息檢索包括信息存貯和信息檢索兩個部分,兩者又往往合并稱為“信息存貯與檢索” 。4補充: 文獻檢索的含義:就是利用文獻信息檢索系統(tǒng),從一個特定的文獻集合中,查找特定用戶所需的特定時間、特定區(qū)域和特定主題的文獻的程序和方法。5 第章 信息檢索原理 2. 信息檢索的一般原理 信息檢索包括存儲和檢索兩個過程。 信息檢索

3、過程的實質(zhì)是將檢索提問標識與存儲在檢索系統(tǒng)(檢索工具)中的檢索標識(標引標識)進行比較,含有兩者一致或信息存儲的標識包含著檢索提問標識的信息就是檢索命中的信息。這就是信息檢索原理。 6信息處理人員檢索結(jié)果檢索 工具檢索課題用 戶原始信息信息分析、著錄和標引課 題 分 析檢索語言(主題詞/分類號)信息檢索原理示意圖:存貯過程 檢索過程存入檢索檢出7 3.信息檢索的類型 以檢索內(nèi)容區(qū)分: 根據(jù)檢索對象不同,信息檢索可分為文獻檢索、事實檢索和數(shù)據(jù)檢索三種類型。 (1) 文獻檢索(Document Retrieval) 是以文獻為檢索對象的信息檢索。也就是說文獻檢索是以圖書、期刊、資料、數(shù)據(jù)庫中的篇章

4、或全書刊為檢索對象的一種檢索。 如:檢索有關(guān)“花卉組織培養(yǎng)技術(shù)”的文獻。 文獻檢索是一種相關(guān)性檢索,檢索結(jié)果不直接回答用戶提出的技術(shù)問題,只是提供與之相關(guān)的文獻信息供用戶參考。 8 (2) 事實檢索(Fact Retrieval) 是以事實為檢索對象的一種檢索,查找某一事物發(fā)生的時間、地點及過程。 如檢索“日本松下電器公司近年來進行了那些新產(chǎn)品的開發(fā)研究”“IBM公司所在地、總裁是誰、下設哪些分公司、從事哪些業(yè)務”等等。 (3) 數(shù)據(jù)檢索(Date Retrieval) 是以數(shù)據(jù)為檢索對象的一種檢索,包括數(shù)值、圖表等。 查找科學技術(shù)參數(shù)、統(tǒng)計數(shù)字、財政信息數(shù)據(jù)、市場行情數(shù)據(jù)等都屬于數(shù)據(jù)檢索。

5、9 事實檢索和數(shù)據(jù)檢索都是確定性的檢索。檢索結(jié)果要直接回答用戶提出的技術(shù)問題,即直接提供用戶有關(guān)某一問題的確切的事實情況或具體的數(shù)據(jù),檢索結(jié)果一般是確定性的。 信息檢索三種類型的區(qū)別: 1.檢索對象不同 2.檢索結(jié)果不同 3.性質(zhì)不同 4.借助工具不同10第章 信息檢索原理 以檢索方式區(qū)分,信息檢索又可分為: (1) 手工檢索 手工檢索即是用人工來處理和查找所需信息的檢索方式。 (例如:利用各種文摘、索引、題錄等刊物) (2) 計算機檢索 計算機檢索是利用計算機和一定的通信設備查找所需信息的檢索方式。 (例如:利用各種文獻信息數(shù)據(jù)庫)11 2.1.2 檢索語言 1 檢索語言及其定義 檢索語言是

6、用來描述文獻的內(nèi)容特征、外表特征和表達情報提問的一種人工語言。 檢索語言主要有以代碼語言為特征的分類語言和以事物名稱術(shù)語為特征的主題語言兩大類。其中主題語言分為敘詞語言和關(guān)鍵詞語言。 文獻的內(nèi)容特征:是與文獻信息主題內(nèi)容密切相關(guān)的信息。 文獻的外部特征:是與文獻信息主題內(nèi)容沒有關(guān)系或關(guān)系不大的信息。 12檢索標識種類反映文獻外部特征檢索標識反映文獻內(nèi)容特征檢索標識著者 文獻序號篇名出版社分類號主題詞關(guān)鍵詞單元詞標題詞敘詞人工語言自然語言分類語言13第章 信息檢索原理 特性檢索: 從具體事物或主題出發(fā)所進行的文獻檢索。廣義地說,凡是狹窄范圍內(nèi)的檢索皆可視為特性檢索。 (指某人、某事物所特有的性質(zhì)

7、:如我們講一個民族的特性。) 族性檢索: 從學科、專業(yè)出發(fā)所進行的文獻檢索,是與特性檢索相對的、范圍較廣泛的檢索。 屬于體系分類法的各種檢索語言的功能,主要都是滿足族性檢索的要求。14 2.分類語言(1).分類語言的定義和特點 分類語言,也稱分類法或分類表。所謂分類法(具有族性檢索的特點)就是按照文獻信息的內(nèi)容、形式、體裁和讀者用途等, 根據(jù)科學學科之間的邏輯歸屬關(guān)系, 采用層次型或樹杈型結(jié)構(gòu), 列舉人類所有的知識類別, 并對每一種知識門類分別標以相對固定的分類號,從而形成的分類表。 因此,分類法通常是指一種從總到分、從一般到具體、層層劃分、逐級展開并具有某種符號代碼體系的知識體系表。 如:中

8、圖法的符號代碼體系是拼音字母加數(shù)字。15第章 信息檢索原理國內(nèi)通用分類法有: 中國圖書館圖書分類法(簡稱中圖法) 中國圖書資料分類法(簡稱資料法) 中國科學院圖書分類法(簡稱科圖法)國外通用的分類法有: 杜威十進分類法(DDC)、 國際十進分類法(簡稱UDC)、 美國國會圖書館圖書分類法(簡稱LCC)常見的專業(yè)分類法:物理學分類法等。16(2)中圖法和分類表:中圖法將人類知識分為馬列、哲學、社會科學、自然科學、綜合五大基本部類,22個大類。 大類類目設置情況如圖: 具體類號、類目展開情況如圖所示: 檢索標識即分類號,由拼音字母和數(shù)字組成 采用等級列舉表達從屬關(guān)系上位類目與下位類目的關(guān)系:上位類

9、目一定包含各個下位類目,下位類目一定帶有上位類目的屬性。分類號越長,表示的學科范圍越窄。 為了清楚醒目, 通常分類號的第三位數(shù)字后,隔以“ .” ,如F279.712,TQ032.42022/9/2417C社會科學總論D政治、法律E軍事 F經(jīng)濟 G文教、科學、體育 H語言、文字 J藝術(shù) I文學 K歷史、地理 自然科學總論 NRSTO數(shù)理化P天文學、地球科學Q生物科學 醫(yī)藥、衛(wèi)生農(nóng)業(yè)科學工業(yè)技術(shù)U交通運輸V航空、航天X環(huán)境科學Z綜合性圖書社會科學自然科學機械、儀表建筑科學 馬列主義、毛澤東思想A馬列B哲學哲學綜合TBTDTETFTGTHTJTLTKTMTNTPTQTSTUTV一般工業(yè)技術(shù) 礦業(yè)工

10、程石油冶金工業(yè)無線電電子學、電訊技術(shù)自動化技術(shù)化學工業(yè)輕工業(yè)、手工業(yè)金屬學武器工業(yè)動力工程原子能技術(shù)電工技術(shù)水利工程圖3 1 中 圖 法 展 開 圖18檢索語言分類法中圖法O 數(shù)理化 一級類目 O1 數(shù)學 二級類目 O3 力學 二級類目 O31 理論力學 三級類目 O311 運動學 四級類目 .1 質(zhì)點運動 五級類目 O4 物理學 二級類目19中國圖書館圖書分類法類號和類目示例 O1 數(shù)學 O11 古典數(shù)學 O12 初等數(shù)學 O13 高等數(shù)學 總論性著作入此;專論入以下有關(guān)類,例:微積分入O172 O15 代數(shù)、數(shù)論、組合理論 151 代數(shù)方程式論、線性代數(shù) .1 代數(shù)方程式論 .2 線性代數(shù)

11、參見O241. 6 .21 矩陣論 .26 線性代數(shù)的應用 152 群論 O3 力學 O31 理論力學 20第章 信息檢索原理 分類法途徑的特點: 它體現(xiàn)了學科的系統(tǒng)性,便于從學科或?qū)I(yè)的角度出發(fā)進行族性檢索,但缺乏進行多概念靈活組配的能力。21索書號又稱為排架號 反映了某種圖書在整個圖書組織中的排列次序和在書庫中的具體位置(架位)組成:分類號書次號 O651.21-44/L631 分類號:按學科分類圖書 書次號:同類書的排列 條碼號O651.21-44L631SDT0142052122 (3) 確定課題分類號的方法 分類途徑是按文獻信息所屬的學科類型來查找文獻的一種方法。 從分類途徑檢索(同

12、時它也是一種族性檢索)文獻的檢索步驟一般為: 分析待查課題的主題內(nèi)容,根據(jù)主題內(nèi)容在類目索引中找到相應的類目,在分類表中提取分類號。在相應的檢索工具中用該類號檢索所需的文獻,再根據(jù)所需要的文摘提供的出處查找原文。 從分類途徑的檢索步驟可見,確定課題的分類號是從分類途徑檢索文獻的關(guān)鍵。23第章 信息檢索原理 (3) 確定課題分類號的方法 1).單概念課題確定課題分類的一般方法 所謂單概念課題是指課題涉及主題概念只有一個。例如:“函數(shù)”、“齒輪”等都屬于單概念。 方法是: a.了解分類表的體系結(jié)構(gòu),重點掌握大類的分布,b.在相關(guān)的大類中,由大而小,逐步查找最接近于課題要求的分類號。C.注意表中用于

13、幫助確定分類號的類目注釋和類目指引。24 2).多概念課題的一般分類方法 涉及兩個或兩個以上概念的課題即為多概念課題。如:“計算機在機械工程方面的應用” 含“計算機”、“機械工程”兩個概念。 應注意以下幾點: a.并列概念課題。對于涉及同一研究對象的幾個方面或者涉及幾個并列研究對象的課題,凡是有主次者,應取其重點或主要研究對象歸類。如果涉及同一研究對象的幾個方面都需檢索時,應在涉及的幾個類中同時查 找。 b.應用性課題。研究一種理論、方法、工藝、材料、設備、產(chǎn)品等在某方面應用或?qū)δ撤矫嬗绊懙恼n題, 應在所應用或受影響的類目中查找。在多方面應用,則在該理論、方法、工藝等本身所屬的類目中查找。25

14、練習題:1.如果需要給“計算機在人口預測方面的應用”這個課題標引中圖法類號,應該歸入“TP39計算機的應用”,還是歸入“C923人口預測”?并請說明理由。2.切分課題“當前數(shù)理統(tǒng)計模型研究”和“當前烏魯木齊、石河子的流動人口的流動規(guī)律分析”的概念,并用布爾邏輯算符構(gòu)成檢索策略。3.針對課題“古代文學研究”和“古代歷史研究”,下面的布爾邏輯符的應用是否合理?應如何修正?1)古代文學 OR 古代詩歌2)歷史 AND (中國古代歷史 OR 世界古代歷史)26第章 信息檢索原理 3).上位類分類方法 這種歸類法也是一種常用的分類方法。它適應于欲查課題無現(xiàn)成類目或無符合要求的專指類目時,可以歸入它從中分

15、化出來的上位類。這種分類方法的關(guān)鍵是確定合適的上位類號。 3 敘詞語言(1)敘詞語言的定義和特點 敘詞語言是以規(guī)范化科學名詞為基礎(chǔ)的一種主題法檢索語言。所謂敘詞是從自然語言中優(yōu)選出來的經(jīng)過規(guī)范化的名詞術(shù)語。27 所謂規(guī)范化,是指對自然語言中的同義詞進行優(yōu)選,對詞的不同形式進行歸一。 對同義詞進行合并,即一個概念只用一個標題詞來表達,排除多詞一義的現(xiàn)象。例如:“玉米”又叫“苞米”、“苞谷”“玉蜀黍”、“玉茭”、“棒子”等, 對多義詞進行注釋,即一個標題詞只表達一個概念。排除一詞多義的現(xiàn)象。例如“茶”既可以表示一種樹木(植物),又可表示一種飲料. 28 敘詞語言其原理是:按主題集中文獻;用經(jīng)過規(guī)范

16、化的語詞來組配描述文獻主題;用參照系統(tǒng)間接顯示主題之間的相互關(guān)系;用字順序列直接提供主題檢索途徑. 敘詞和分類語言的異同點。 同:都對基本的事物有正式的、規(guī)范的表達形式; 異:主題詞可以自由組配,用以表達復雜的概念。 (2)敘詞表和漢語主題詞表 敘詞語言的體現(xiàn)形式是敘詞表。國內(nèi)常用的敘詞表主要有我國許多檢索刊物使用的漢語主題詞表。 敘詞表是敘詞的匯編,它是進行文獻主題標引和主題檢索的依據(jù),一般由一個主表和若干個索引組成。 29第章 信息檢索原理漢語主題詞表的卷冊劃分如下:第一卷 社會科學 第一分冊 主表(字順表) 第二分冊 索引第二卷 自然科學 第一至第四分冊 主表(字順表) 第五分冊 詞族索

17、引 第六分冊 范疇索引 第七分冊 英漢對照索引第三卷 附表30 漢語主題詞表的主表稱字順表,所有主題詞都按漢語拼音字順排列,每一個主題詞的著錄都構(gòu)成一條款目。漢語拼音 Wei sheng su B que fa bing款目主題詞 維生素B缺乏病英文譯名 Vitamin B deficiency參照項(代項) D 糙皮病 非敘詞參照項(分項) F 維生素B1缺乏病 下位敘詞參照項(屬項) S 維生素缺乏病 上位敘詞參照項(族首詞) Z 營養(yǎng)缺乏病 參照項(參項) C 多發(fā)性神經(jīng)炎 相關(guān)敘詞31第章 信息檢索原理 等同關(guān)系參照項: “用(Y)”就是從非正式主題詞指引到正式主題詞?!按―)”則是

18、從正式主題詞指引到非正式主題詞,也就是指明敘詞所代替的非敘詞。如 馬鈴薯(敘詞) D 土豆 土豆(非敘詞) Y 馬鈴薯32第章 信息檢索原理 等級關(guān)系參照項: “屬(S)”項是指明該詞的上位概念是什么;“分(F)”項則是指明下位概念有哪些詞,如 肥料(屬概念) F 氮肥、鉀肥 氮肥(分概念) S 肥料 鉀肥(分概念) S 肥料 敘詞法的特點: 使用的是規(guī)范化的單詞、詞組;概念組配; (3)確定課題敘詞的一般方法 分課題分析、查表選詞、試查定詞三步。33第章 信息檢索原理 4. 關(guān)鍵詞語言的定義和特點 所謂關(guān)鍵詞是指那些出現(xiàn)在文獻的標題、摘要以及正文中,對表征文獻主題內(nèi)容有實質(zhì)意義的詞語。 關(guān)鍵

19、詞是一種自然語言性質(zhì)的主題語言。34第章 信息檢索原理 關(guān)鍵詞索引的原理是: 它只將出現(xiàn)在文獻的標題(篇名、章節(jié)名)以至摘要、正文中,對表達文獻主題內(nèi)容具有實質(zhì)意義的關(guān)鍵詞排在檢索入口,同時提供文獻地址(即正文中文獻順序號)以滿足檢索者的檢索要求。 35第章 信息檢索原理 關(guān)鍵詞屬自然語言。如:“光學纖維傳感器”這個課題可分成“光學”、“纖維”、“傳感器”。 優(yōu)點:自然性 缺點:隨意性 關(guān)鍵詞語言的特點:非規(guī)范化語詞的自由標引;36第章 信息檢索原理 從課題出發(fā)確定關(guān)鍵詞的方法: 涉及: 分析提取課題主要概念和輔助概念 檢索概念的擴展方法 漢語課題概念的切分方法37 概念分析的結(jié)果應以概念組為

20、單元的詞或詞組形式列出,以便下一步制訂檢索策略。 實際檢索中,主要概念、輔助概念體現(xiàn)為主要檢索詞、輔助檢索詞。共同出現(xiàn)的還有禁用詞。 有些檢索詞中已經(jīng)含有的某些概念,在概念分析中應予以排除。 例如:課題“內(nèi)彈道高溫高壓高密度的氣體狀態(tài)方程”,如果把“內(nèi)彈道”,“高溫”,“高壓”,“高密度”,“氣體”,“狀態(tài)方程”六個概念全部組配起來,會造成大量漏檢。 本課題只須采用“內(nèi)彈道”和“狀態(tài)方程”這兩個主要概念即可。 38又如:課題“蕓豆天然食用色素的提取” 這個課題有五個概念:蕓豆、天然、食用、色素、提取。 只要把“蕓豆”與“色素”這兩個概念組面進行組配, 有關(guān)提取、制造、利用等方面的文獻都會檢索出

21、來。 391.如果需要給“計算機在人口預測方面的應用”這個課題標引中圖法類號,應該歸入“TP39計算機的應用”,還是歸入“C923人口預測”?并請說明理由。2.當“磁光盤”應用于計算機信息存儲時,可使用中圖法類號是: A.TP333.4光存儲器 B.TN946錄象系統(tǒng) C.TN912.2電聲技術(shù)與設備 D.G356.4情報載體 3.“計算機在機械設計中應用”這個課題的中圖法類號,應使用: A.TP339計算機技術(shù)的應用 B.TH122機械設計 C.TP3 計算機技術(shù) D.TH1 機械工程401、查找農(nóng)六師草地及飼草料資源調(diào)查與利用評價的文獻2、酸奶油脂分離機的研制 3、天府肉鵝與霍爾多巴吉鵝的

22、飼養(yǎng)與繁育4、甜菜氣吸式鋪膜播種機 5、固體堿催化棉籽油制備生物柴油的研究6、夾持式棉花精密穴(點)播輪7、巴州地區(qū)葡萄阿小葉蟬的研究8、滴灌專用復合液肥 41第章 信息檢索原理2.1.3 信息檢索系統(tǒng) 實現(xiàn)信息檢索的必備條件是信息檢索系統(tǒng)。 信息檢索系統(tǒng)是為滿足各式各樣的信息需求而建立的一整套文獻信息的收集、加工、存儲和檢索使用的完整系統(tǒng)。 這種系統(tǒng)可以是提供手工檢索使用的書目、索引等檢索書刊,也可以是計算機檢索使用的數(shù)據(jù)庫系統(tǒng)。421.信息檢索系統(tǒng)的類型 以報道文獻的內(nèi)容層次區(qū)分,信息檢索系統(tǒng)可分為目錄、題錄、文摘、全文四種類型。(1)目錄 (Bibliography) 是揭示和報道整本文

23、獻外表特征的檢索工具。 目錄以單位出版物(整本文獻)為基本的著錄對象,所謂單位出版物是指以文獻獨自的名稱作為一個完整的出版單位的出版物,如:一種圖書、一種期刊等,都是以文獻獨立名稱作為文獻單位的名稱。 43 目錄以文獻的“本”、“種”或“件”為報道單位。 它是系統(tǒng)積累和提供圖書、期刊和其它單行本的名稱、收藏單位和索取號等外表特征的工具。 目錄的著錄項目通常包括: 出版名稱、責任者(著者或編者或譯者)出版項(出版者、出版地、出版時間、版次等)和稽核項(頁數(shù)、開本、價格)。44目錄的條目著錄格式 例1:檢索結(jié)果:數(shù)控機床及應用/古文生編著.- 第二版(修訂版).- 北京: 電子工業(yè)出版社,2002

24、.04.- 208頁; 26cm.-中等職業(yè)學校電子信息類教材. ISBN7-5053-7272-6:18.00注明各項:書名;責任者(編著者); 版次(版本形式);出版地;出版者;出版時間;總頁數(shù);尺寸(開本);附注;國際標準書號;價格45 目錄按類型分: 有圖書、報刊、資料目錄。 按目錄種類分: 有分類、著者、書名、刊名目錄。 按編制單位劃分: 有國家書目、出版社與書店目錄、圖書館館藏目錄、聯(lián)合目錄。如:全國新書目等46(2)題錄: 是揭示和報導單篇文獻外表特征的檢索工具。 題錄是在目錄的基礎(chǔ)上發(fā)展起來的,它與目錄的主要不同點在于著錄的對象不同。目錄的著錄對象是單位出版物,而題錄的著錄對象

25、是單位出版物中的單篇文獻。 例如:一本名為超導材料論文集的圖書匯集了25篇研究論文。 目錄著錄的對象是超導材料論文集一書,而題錄著錄的對象則是書中的25篇論文,著錄的結(jié)果是目錄1條;題錄25條。 47 再如美國著名刊物自然,目錄著錄的對象就是自然這一刊物,而題錄著錄對象則是自然這一刊物中刊載的成千上萬篇論文。 題錄是以單篇文獻 為著錄對象。 題錄的著錄項目一般包括: 題錄號、文獻題目、作者及工作單位、出處(如期刊名稱、出版年、卷、期、頁次)、原文文種、主題詞、文中所附圖表數(shù)及參考文獻數(shù)等。48題錄的條目著錄格式 : 例1檢索結(jié)果:020713110 可視化信息的建模與實現(xiàn)/ 章麗 (華東師范大

26、學計算機科學系),李強/ 計算機工程. -2002,28(3).-92-93,236 注明各項:文獻順序號(年份+流水 號);文獻題名;第一責任者;第一責任者所在單位;其它責任者;刊名;出版年、卷(期)、起止頁49(3)文摘: 是以精練的語言把文獻信息的重要內(nèi)容、學術(shù)觀點、數(shù)據(jù)及結(jié)構(gòu)準確地摘錄下來,并按一定的著錄規(guī)則與排列方式編排起來,供讀者查閱使用的一種檢索工具。 文摘是系統(tǒng)揭示和報道單篇文獻的外表特征和內(nèi)容特征的檢索工具。 文摘的著錄對象可以是期刊中的單篇文章,或一種會議錄中的某個章節(jié)或某篇論文,還可以是一件專利、標準或一份科技報告。 文摘的著錄項目包括了題錄的所有項目和對文獻內(nèi)容所作的摘

27、要。50文摘的條目著錄格式:例1:TG526.1 950369利用變速切削提高機床切削系統(tǒng)穩(wěn)定性 刊/ 于駿(吉林工業(yè)大學)/機械工藝師.1994,15(2):7-9,34對利用變速切削技術(shù)來表6參11 (江靜波)注明各項:分類號;順序號;文獻題名;文獻類型;責任者(責任者所在單位);刊名;出版年,卷(期),起止頁;文獻摘要;表格數(shù)及參考文獻條數(shù);文摘員51例2:47030 02080997 MPI燃料供給方式的天然氣噴流可視化研究=Visualization of Natural Gas Jet Used in MPI System. 刊,中/許伯彥(山東建筑工程學院, 濟南250014),

28、張?zhí)m/ 內(nèi)燃機學報.2002,20(2).-99102 使用紋影照相法觀察定容裝置。圖10參2關(guān)鍵詞:天然氣;多點燃料噴射;可視化;山東省自然科學基金資助(Y2000F07) 注明各項:學科代碼(如著錄格式為TP319,則為分類號)文獻順序號文獻中文題名=外文題名文獻類型,原文語種第一責任者第一責任者所在單位及地址其他責任者刊名出版年、卷(期)、起止頁文獻摘要原文插圖及參考文獻數(shù)關(guān)鍵詞資助基金種類和編號52以下文后參考文獻的著錄格式有哪些錯誤:1袁慶壽 牛德林主編中國邊疆經(jīng)濟發(fā)展概 略,黑龍江人民出版社,1993年版 1 吳寶國、王龍等.北京大學學報J.2004, 40(5):7-92全國報刊

29、索引編輯部.高電化技術(shù)J.自 然科學出版社,2003【篇名】雙異構(gòu)法制備晶體甘露醇的研究【刊名】化學工程師, Chemical Engineer,2005年3期【作者】趙光輝; 王關(guān)斌; 賀東海; 李俊平 【機構(gòu)】山東福田藥業(yè)有限公司 山東禹城; 【關(guān)鍵詞】甘露醇; 山梨醇; 催化還原;異構(gòu)反應【中英文摘要】文中研究了以葡萄糖為原料,53 (4)全文 全文系統(tǒng)的主體內(nèi)容是文獻的全文。檢索過程中,全文系統(tǒng)通常先提供題錄和文摘信息,同時給出全文鏈接,供讀者選擇。 (5)索引 (index)。 索引是將文獻信息中的一些重要的、有檢索意義的知識單元(各種事物名稱及特征),如主題詞、分類號、著者姓名、題

30、名等,根據(jù)需要一一分析摘錄出來,并注明它們所在的地址(頁碼或文獻號),再按一定的順序編排組織起來的一種工具。54 索引是對一組信息集合的系統(tǒng)化的指引,通常依附于目錄、題錄、文摘等紙質(zhì)型檢索工具之后,是檢索工具的輔助性工具。 一般只起指引特定信息的內(nèi)容及其存儲地址的作用。因此,索引并不是一種獨立存在的檢索工具類型。 一種索引通常由一系列的索引款目(條目)和參照系統(tǒng)所組成。55 1) 索引款目(條目)的構(gòu)成 一條索引款目通常有三個著錄項:標目(或標識heading)、說明語和存儲地址。 A 標目(也稱標識) 標目是索引條目所指示的信息某方面的特征,例如著者姓名、主題詞等。 標目在索引款目中處于最明

31、顯的位置,一方面起著描述文獻外部特征和內(nèi)容特征的作用,另一方面決定款目在索引中的排列位置,提供檢索入口。56 例1:主題索引 冬蟲夏草 人工培養(yǎng) 蟲草菌絲 950384 說明:標目 說明語 存儲地址 (順序號或文摘號) 例2:著者索引 于駿 950384 950158 于永強 950433 于永新 950218 說明:標目 存儲地址 57 B 說明語 位于標目后面或下面,進一步指示所查文獻的特征,或解釋標目含義的詞或詞組。標目和說明語結(jié)合在一起,可以更具體更準確的表達所描述的內(nèi)容。C 存儲地址 位于標目和說明語后面,指明特定文獻信息在檢索工具正文(信息集合)中的地址。 在這三項中,標目和存儲地

32、址是必須的。58不同的標目系統(tǒng)構(gòu)成不同的索引: 標目的形式多種多樣,用不同形式的標目去描述文獻的特征并作為索引款目的標目,就構(gòu)成不同類型的索引。 文獻標識(標目)與索引類型的對應關(guān)系如下: (按照索引的對象可分為:)文獻標識分類號主題詞篇名著者報告號索引類型分類索引主題索引篇名索引著者索引報告號索引59第章 信息檢索原理 索引的類型 索引的類型很多,按使用范圍可分為: 通用索引(著者、主題、分類、題名索引等); 專用索引(文獻序號索引、分子式索引等)二類。 602)、索引的參照系統(tǒng) 包括各種參照、標目注釋等。 參照(指引檢索者從一個標目到另一個標目查閱的一種方法。) a “見”項參照(主要用于

33、控制同義詞之間的分散現(xiàn)象,它指引檢索者由非規(guī)范化的詞去查規(guī)范化的詞,起核對主題詞的作用。) 例: 引擎 見 發(fā)動機 土豆 見 馬鈴薯 b “參見”項參照 61 b “參見”項參照(用來指示標目之間的等級關(guān)系及相關(guān)關(guān)系。它指引檢索者由一個索引中所采用的標目去查另一個相關(guān)的標目,而這些相關(guān)標目在索引中是分散排列的。使用它可起到擴大檢索范圍的作用。) 例: 電子計算機 參見 人工智能 電線 參見 電纜 海洋學 參見 海洋生物學 海洋地質(zhì)學 海洋氣象學62 標目注釋(是對索引標目中的一種補充及附加說明,主要用于區(qū)分同形異義詞和說明標目的準確涵義) 例1 Mold(fungus)霉菌 Mold(form

34、s) 模具 疲勞(物理) 疲勞(生理) 例2: 哺乳動物 (專指陸上品種)632文獻信息數(shù)據(jù)庫的定義和構(gòu)成 定義:數(shù)據(jù)庫是指至少由一種文檔(file)組成,能滿足特定目的或特定功能數(shù)據(jù)處理系統(tǒng)需要的數(shù)據(jù)集合。 類型: 根據(jù)數(shù)據(jù)庫所含信息內(nèi)容的不同,文獻信息數(shù)據(jù)庫可分為文字型、數(shù)值型和多媒體型三類數(shù)據(jù)庫。 按數(shù)據(jù)庫的內(nèi)容性質(zhì)分,可分為有文獻型數(shù)據(jù)庫和非文獻型數(shù)據(jù)庫。64 (1)文獻型數(shù)據(jù)庫: 主要指的是以文獻形式存貯,如一次文獻或二次文獻??煞譃椋?a.全文數(shù)據(jù)庫: 是將文獻的全文存貯在數(shù)據(jù)庫中,用戶直接檢索出相關(guān)文獻的全文或其中某些段落。 b.書目數(shù)據(jù)庫: 存貯二次文獻(包括文摘、題錄、目錄、

35、索引)的數(shù)據(jù)庫叫書目數(shù)據(jù)庫,大多數(shù)文獻數(shù)據(jù)庫都屬于此類,檢索得到的結(jié)果是有關(guān)課題的二次文獻。 65 (2)非文獻型數(shù)據(jù)庫。又可分四類: 第一類是數(shù)據(jù)型數(shù)據(jù)庫,可直接查找有關(guān)各種數(shù)據(jù),如各種物理常數(shù)、科學實驗數(shù)據(jù)、化學分子式及價格、產(chǎn)量、元件參量等市場行情。 第二類是事實型數(shù)據(jù)庫,庫內(nèi)記錄各種有檢索和利用價值的事實,這種數(shù)據(jù)庫資料來自百科全書、人名錄、公司名錄等。 第三類是概念數(shù)據(jù)庫,庫內(nèi)存貯各種名詞術(shù)語或語言資料,一般來源于詞典等。 第四類是圖像、聲音等數(shù)據(jù)庫,庫內(nèi)存有某些圖像信息,如衛(wèi)星圖、云圖、工程設計圖等,一般為內(nèi)部使用。66第章 信息檢索原理 構(gòu)成: 從使用者觀點 觀察, 數(shù)據(jù)庫主要

36、由 “文檔記錄 字段” 三個層 次構(gòu)成。 文檔 記錄字段67 (1).文檔 文檔是文獻或數(shù)據(jù)記錄的集合。從數(shù)據(jù)庫的內(nèi)部結(jié)構(gòu)來看,文檔的概念是指數(shù)據(jù)庫內(nèi)容的組織形式。一般地說,一個數(shù)據(jù)庫至少包括一個順排文檔和一個倒排文檔。 a.順排文檔: 順排文檔是將數(shù)據(jù)庫的全部記錄按照記錄號的大小順序排列而成的文獻集合,它構(gòu)成了數(shù)據(jù)庫的主體內(nèi)容(是主文檔)。 按文獻的順序(如文摘號)排列。68數(shù)據(jù)庫順排文檔示意圖文獻號篇名作者主題詞語種001A篇名A作者A主題詞漢002B篇名B作者B主題詞俄003C篇名C作者C主題詞英 007K篇名K作者K主題詞漢008Q篇名Q作者Q主題詞漢009T篇名T作者T主題詞漢69

37、b、倒排文檔: 在倒排文檔中,以記錄的特征標識作為排列依據(jù),其后列出含有此標識的記錄號,或者說按照文獻的屬性列出具有同一屬性的所有記錄。 倒排文檔通常有好幾個。 主題詞索引詞典倒排文檔給出的是主題詞、含有這些詞的記錄個數(shù)以及與主題詞等對應的記錄號。 例如,有4個詞:計算機、情報檢索、 應用、系統(tǒng)設計。它們分別包含在文獻號為001、002、003的文獻中,其順序排列結(jié)構(gòu)如圖:70數(shù)據(jù)庫順排文檔與關(guān)鍵詞倒排檔比較示意圖文獻號檢索詞 001情報檢索、計算機 002計算機、應用、情報檢索、系統(tǒng)設計 003情報檢索、系統(tǒng)設計 鍵值 記錄數(shù) 文獻號 計算機 2 001 002 情報檢索 3 001 002

38、 003 應用 1 002 系統(tǒng)設計 2 002 003 構(gòu)成的倒排文檔如圖71 記錄號倒排文檔給出記錄號的地址及其索引詞在記錄中的字段和字段中的具體位置的標識符。72(2).記錄記錄是構(gòu)成文檔的基本單元。是有關(guān)文獻或數(shù)據(jù)的整體描述(是對某一實體的全部屬性進行描述的結(jié)果) 。在全文數(shù)據(jù)庫中,一個記錄相當于一篇完整的文獻;在書目數(shù)據(jù)庫中,一個記錄相當于一條文摘或題錄。記錄實例:作者:趙少慶 篇名:信息技術(shù)對公共行政的影響論綱 文章出處:國家行政管理學雜志,2005,12(5):45-47 內(nèi)容摘要:社會信息化是當代社會的一種大趨勢,它正推動著公共行政現(xiàn)代化的進程。信息技術(shù)的發(fā)展對諸如行政人員、行

39、政決策、行政組織、行政方法、政府管理模式等公共行政要素和過程產(chǎn)生著深遠的影響。73 (3).字段 字段是記錄的基本單元。它是對實體的具體屬性進行描述的結(jié)果。在書目數(shù)據(jù)庫中,記錄中含有題名、著者、出版年、主題詞、文摘等字段。 根據(jù)與文獻內(nèi)容相關(guān)與否,文獻數(shù)據(jù)庫的字段通常分為基本字段和輔助字段兩類。 基本字段:是與文獻內(nèi)容密切相關(guān)的字段輔助字段:是與文獻內(nèi)容基本無關(guān)的字段74文獻數(shù)據(jù)庫中常見的字段和段碼基 本 字 段輔 助 字 段中文段碼名稱英文段碼全稱英文段碼簡稱中文段碼名稱英文段碼全稱英文段碼簡稱題目TitleTI記錄號Document NoDN文摘AbstractAB作者 AuthorAU敘

40、詞DescriptorDE作者單位 Author AffiliationAF關(guān)鍵詞 KeywordKW期刊名稱 Serials TitleST出版年份Publishing yearPY出版國 CountryCO文獻性質(zhì)Treatment codeTR語種LanguageLA75字段和檢索詞 作者:趙少慶 篇名:信息技術(shù)對公共行政的影響論綱 文章出處:國家行政管理學雜志,2005,12(5):45-47 內(nèi)容摘要:社會信息化是當代社會的一種大趨勢,它正推動著公共行政現(xiàn)代化的進程。信息技術(shù)的發(fā)展對諸如行政人員、行政決策、行政組織、行政方法、政府管理模式等公共行政要素和過程產(chǎn)生著深遠的影響。 作者檢

41、索詞:趙少慶篇名檢索詞:信息技術(shù) 公共行政 影響中文刊名檢索詞:國家 行政 管理學文摘檢索詞:社會 信息化 公共行政 信息技術(shù) 行政人員 行政決策 行政組織 行政方法 政府管理模式 公共行政 要素 76 數(shù)據(jù)庫 / | 文檔1 文檔2 文檔3 / 順排文檔 倒排文檔(若干) / / | 記錄的集合 主題詞 作者 期刊名稱等倒排文檔 | | / 字段 特征標識詞 記錄數(shù) / 基本字段 輔助字段77第章 信息檢索原理2.1.4 檢索效果評價 檢索效果是指檢索結(jié)果的有效程度。 衡量檢索效果的評價指標有很多,其中最重要,也是最常用的是查全率和查準率 在檢索過程中,在檢索系統(tǒng)中參加檢索的全部文獻可分成“

42、有關(guān)”、“無關(guān)”、和“查出”、“未查出”四個量, 這四個量又可劃分為“用戶相關(guān)”和“系統(tǒng)相關(guān)”兩類。78第章 信息檢索原理 查全率(Recall Ratio)是指檢出的相關(guān)文獻數(shù)與庫內(nèi)相關(guān)文獻總數(shù)之比。又稱“檢全率”、“命中率”。 檢出的相關(guān)文獻量 查全率(R)= 100% 文獻庫內(nèi)相關(guān)文獻總量 查準率(Precision Ratio)是指檢出的相關(guān)文獻數(shù)與檢出的文獻總數(shù)之比。又稱“檢準率”、“相關(guān)率”。 檢出的相關(guān)文獻量 查準率(P)= 100% 檢出的文獻總量79R0P查全率R與查準率P的關(guān)系曲線CADBC.W.Cleverdon(英)進行Granfield試驗,得出查全率R與查準率P曲線

43、。RP之間存在著互逆關(guān)系: A點檢索詞數(shù)量多,泛指性強,查全率較高但查準率卻非常低 B點檢索詞專指性較強,查準率就高查全率因此降低 C,D兩點兩種極端的折衷。查全率一般在5070查準率一般在4050 無論怎樣調(diào)整檢索策略和改進系統(tǒng)效率,都無法使P和R同時接近100。80第章 信息檢索原理2.2 文獻信息檢索的基本步驟文獻檢索步驟 在科技文獻信息的檢索過程中,根據(jù)既定的課題,系統(tǒng)地查找所需求的文獻信息,其主要的程序為: 課題分析-確定檢索工具-選擇檢索途徑-閱覽二次文獻-獲取原始文獻。812.2.1.明確課題檢索目的 研究性課題有前沿探索研究性、調(diào)查研究性和面向應用研究性三類,各有不同特點和信息

44、需求。2.2.2.歸納課題主題,提取和擴展檢索概念 1.了解課題的背景知識 了解課題的背景知識,是進行課題檢索的基礎(chǔ)。課題的背景知識包括課題研究的對象及其所屬的學科和主要涉及內(nèi)容(包括研究方法、使用器材、主要研究單位和人員等)。82 第章 信息檢索原理 2.分析提取課題概念的方法 分析課題就是在課題背景知識的基礎(chǔ)上,分析出課題所涉及的主要概念和輔助概念,并找出能代表這些概念的若干個詞或詞組,進而分析概念之間的上、下、左、右關(guān)系。 主要概念(或稱核心概念),是指課題研究的主要對象。 輔助概念(又稱普通概念),其含義是指一些沒有專業(yè)意義的概念。 對于新學科、交叉學科和邊緣學科的課題,更要搞清楚這些

45、概念關(guān)系。83 在實際檢索中,主要概念、輔助概念體現(xiàn)為主要檢索詞、輔助檢索詞。共同出現(xiàn)的還有禁用詞。 主要檢索詞是指與課題所研究的對象、方法有關(guān)的特指性事物名詞。 輔助檢索詞是指泛指性名詞,它們只在檢索結(jié)果過多需要限制時使用。 禁用詞 概念分析的結(jié)果應以概念組為單元的詞或詞組形式列出,以便下一步制訂檢索策略。84 有些檢索詞中已經(jīng)含有的某些概念,在概念分析中應予以排除。 例如:課題“內(nèi)彈道高溫高壓高密度的氣體狀態(tài)方程”,如果把“內(nèi)彈道”,“高溫”,“高壓”,“高密度”,“氣體”,“狀態(tài)方程”六個概念全部組配起來,會造成大量漏檢。 本課題只須采用“內(nèi)彈道”和“狀態(tài)方程”這兩個主要概念即可。 85

46、第2章 信息檢索原理又如:課題“蕓豆天然食用色素的提取” 這個課題有五個概念:蕓豆、天然、食用、色素、提取。 只要把“蕓豆”與“色素”這兩個概念組面進行組配,有關(guān)提取、制造、利用等方面的文獻都會檢索出來。 如果有些檢索概念已經(jīng)體現(xiàn)在所使用的數(shù)據(jù)庫中,這些概念也應該予以排除。 如:“計算機”一詞在計算機數(shù)據(jù)庫中一般應予以排除。 86第章 信息檢索原理3.切分漢語詞語的方法 漢語詞語的切分是使用漢語信息數(shù)據(jù)庫過程中重要的一環(huán)。 檢索時,必須對漢語表示的課題名稱進行詞語切分,才能查出更多的文獻。 詞語切分的方法是去掉課題表述中的虛詞和泛指的詞語,然后按照概念單元分成不能再拆分的詞語。87第章 信息檢

47、索原理4.擴展概念的方法 目前的計算機信息檢索系統(tǒng)多數(shù)不具備智能擴展檢索(思考)功能,不會對所輸入檢索詞以及涉及的所有詞進行自動地、全面地檢索。因此,必須在概念分析的基礎(chǔ)上列出與概念有密切關(guān)系的詞語,從中作出選擇,以盡可能全地獲得相關(guān)文獻,達到較好檢索效果。 這就是檢索概念的擴展方法問題。 常用擴展檢索概念的方法有:基于同一概念、基于內(nèi)容分析和基于檢索結(jié)果三種。 884.擴展概念的方法(1).基于同一概念的檢索詞的擴展 從不同的角度考慮,同一事物有著不同的名稱,它們都可以作為檢索詞使用。如:同一事物的學名、俗名、商品名、代號、簡稱、全稱、音譯、意譯、反義詞、單復數(shù)、不同詞性、英美語的不同形式等

48、。89(2).基于內(nèi)容分析的概念擴展法1)上位概念擴展法,是分析檢索對象的學科歸屬。如:英語與外語,美術(shù)與藝術(shù),上海圖書館與公共圖書館,詞法與語法、專利與知識產(chǎn)權(quán)、繼承法與民法、唐詩與古詩等。2)下位概念擴展法,又稱概念分析的樹形展開法。如:英語外貿(mào) 應用文 英漢科技 翻譯 書信 函電 公文 化學 機械 通信 口譯 筆譯 903) 隱含概念擴展法 所謂隱含概念,是文獻或課題中,未用顯而易見的方式表達,因而需要認真進行“由表及里、由此及彼”的深入分析才能找出的概念。 隱含概念大致有以下幾種情況: a.隱含概念是顯見概念的更確切的表述。 有些課題的實質(zhì)性內(nèi)容往往很難從課題的名稱上反映出來,課題所隱

49、含的概念和相關(guān)的內(nèi)容需要從課題所屬的專業(yè)角度作深入分析,才能提煉出能夠確切反映課題內(nèi)容的檢索概念。91 第2章 信息檢索原理 例如:課題“小麥穗分化與氣候條件關(guān)系” 其顯性主題概念詞為“小麥、穗分化、氣候”。 “穗分化”一詞中又隱含著“分蘗、分育、春化”等概念,“氣候條件”一詞也隱含著“溫度、降水、光照”等概念。 b.隱含概念是顯見概念的上位概念或下位概念。 c.隱含概念是顯見概念的衍生概念。 92第章 信息檢索原理 對于多數(shù)課題,同時使用隱含概念及其上位概念、下位概念和衍生概念,可以提高檢索的查全率。 擴展概念時,簡單地增加限制詞擴展出來的檢索詞,并不一定能增加檢索所得。應以不同的表達方式擴

50、展下位詞。93第章 信息檢索原理 (3)基于檢索結(jié)果的概念擴展法 對初步檢索結(jié)果進行分析,往往能夠得到與課題相關(guān)的新的檢索概念,將這些概念經(jīng)過重新組合,就可以達到擴展檢索結(jié)果的目的。94第章 信息檢索原理 2.2.3. 選擇信息檢索系統(tǒng) 1.按照功能和層次選擇信息檢索系統(tǒng) 有目錄、題錄、文摘和全文四種不同類型。 2.按照出版地區(qū)不同選擇信息檢索系統(tǒng) (1)國內(nèi)信息檢索系統(tǒng) (2)國外信息檢索系統(tǒng) 選擇數(shù)據(jù)庫應遵循的原則:95 2.2.4 實施檢索 1 檢索途徑的選擇。檢索途徑是指通過文獻何種特征來進行檢索。常見的文獻檢索途徑主要有反映內(nèi)容特征的分類(通過族性角度)、主題(特性角度)兩個途徑和反

51、映外表特征的著者、號碼兩個途徑。 2 檢索策略的確定。 我們在著手檢索之前,應先制定檢索策略。所謂的檢索策略,就是在分析提問實質(zhì)的基礎(chǔ)上,提出的一個合理的檢索方案。也就是在檢索前制定的概念組配和執(zhí)行順序的方案。 在計算機檢索過程中,檢索策略具體表述為檢索式。96 檢索策略(檢索式)將各個檢索概念(一般為表達主題內(nèi)容的檢索詞)之間的邏輯關(guān)系、位置關(guān)系等用檢索系統(tǒng)規(guī)定的各種組配符也稱算符連接起來,成為機器可識別和執(zhí)行的命令形式。 如:切分課題“當前數(shù)理統(tǒng)計模型研究 ”的概念,并用運算符構(gòu)成檢索策略。 數(shù)理 統(tǒng)計 模型973 檢索方法的概念 一般常用的檢索方法有直接檢索法和間接檢索法兩種: 直接檢索

52、法即直接從報刊雜志中通過瀏覽的方法從中獲取所需信息的一種方法。 間接檢索法即通過檢索工具的指引進行查找,獲取所需信息的一種方法。 98 間接檢索法采用的方法通常有下列三種: A 追溯法: 是從已有的文獻后面所附的參考文獻入手,逐一追查原文,再從這些原文后面所列的參考文獻逐一追查,不斷擴大檢索的線索,從而獲得一批相關(guān)文獻信息的查找方法。 是利用文獻末尾所附的參考文獻,由一變十、由十變百地進行追溯查找。 此法在缺少檢索系統(tǒng)(工具)和檢索系統(tǒng)(工具)不全的情況下,可以說是一種比較好的檢索方法。99追溯法原始文獻100追溯法原始文獻所附的參考文獻101 B 常用法: 它是利用文摘、題錄、全文或相應的數(shù)

53、據(jù)庫等各種檢索系統(tǒng)(工具)查找文獻的方法,也稱工具法。由于這種方法是目前查找文獻中最常用的一種方法,所以叫常用法。 常用法又分為:順查法、倒查法、抽查法 順查法: 使用檢索工具由遠及近逐年地查閱。此法能保證查全率,但很費時。 例如,某項科研課題“生物能源的戰(zhàn)略地位及其發(fā)展前景”按照“順查法”應從何年查起呢?102 倒查法: 也可以叫逆查法。使用檢索工具由近及遠逐年查閱,直到查得所需文獻為止。此法會漏檢早期的重要文獻,而影響查全率。 如:“克隆技術(shù)的出現(xiàn)及應用” 抽查法: C 綜合法: 交錯使用追溯法和常用法兩種方法稱之為綜合法,也稱為循環(huán)法或交替法。 注意檢索策略的調(diào)整。用戶對每次檢索結(jié)果作出

54、判斷,并對檢索策略(檢索式)作出相應的修改和調(diào)整,直至得到比較滿意的結(jié)果。103104 第2章 信息檢索原理 2.3 數(shù)據(jù)庫檢索策略的構(gòu)建方法 2.3.1 檢索策略中常用的運算符 檢索策略,又稱提問邏輯,就是對多個檢索詞之間的相互關(guān)系和檢索順序做出的某種安排。 構(gòu)成檢索策略就是運用計算機情報檢索系統(tǒng)可以接受的方法,包括布爾邏輯算符、位置邏輯算符、截詞算符、詞組算符、優(yōu)先算符和字段算符等方法,表達課題檢索要求的過程。 105 第2章 信息檢索原理1布爾邏輯算符 (1) 或(OR)運算符 用“OR”或“+”連接檢索概念。A or B(或A+B)表示兩個概念的并列,即紀錄中凡單獨含有檢索項A或檢索項

55、B,或者同時含有、兩者均為命中記錄。 使用于具有基本相同或近似概念的同義詞、同族詞之間 106或(OR)運算符 用于擴展檢索范圍 S1 1834 公司 S2 2022 企業(yè) S3 3647 公司 OR 企業(yè) 檢索式;公司 OR 企業(yè) 企業(yè)公司 第2章 信息檢索原理107(2) 與(AND)運算符 用“AND”或“*”連接檢索概念。A and B(或A*B)表示兩個概念的交叉,即記錄中必須同時含有檢索項A和B。 用邏輯與組構(gòu)的檢索詞越多,檢索范圍越小,專指度越強,有助于提高查準率。 在運用是,應把出現(xiàn)頻率低的檢索詞置于“與”左端,可使否定的答案盡早出現(xiàn),中斷檢索,節(jié)省機時。 第2章 信息檢索原理

56、108 與(AND)運算符 用于限制檢索范圍 WTO 中國 S1 12940 WTO S2 2173 中國 S3 842 WTO AND 中國 檢索式:WTO AND 中國 WTO AND 中國 使用于需要組配不同概念的檢索詞之間 第2章 信息檢索原理109(3) 非(NOT)運算符 用“NOT”或“”連接檢索概念。 not B(或)表示兩個概念的排除,即凡含有檢索項而不含檢索項的記錄為命中記錄。邏輯非運算縮小了檢索范圍,提高了檢索的專指度。 邏輯非的缺點,即取消部分,往往會把切題的文獻給丟掉,故運用邏輯非運算時要慎重。 第2章 信息檢索原理110非(NOT)運算符 用于排除概念 S1 110

57、 專利 S2 325 德國 S3 108 專利 NOT 德國 檢索式:專利 NOT 德國 專利 NOT 德國 使用于需要從某個概念中剔除另一個概念的場合 patent German 第2章 信息檢索原理111邏輯算符AND(與)OR(或)NOT(非)檢索式或?qū)懗葾 AND B A*BA OR B A+BA NOT B A-B邏輯關(guān)系的說明數(shù)據(jù)庫中同時含有詞和詞的記錄被檢出(命中)數(shù)據(jù)庫中或含有詞或含有詞,或兩詞皆有的記錄被檢出數(shù)據(jù)庫中凡含詞而不含詞的記錄被檢出邏輯關(guān)系圖圖圖圖ABAB 第2章 信息檢索原理1122優(yōu)先算符( ) 如果歸納成一個模式,比如有 A、B、C、D四個檢索詞(其中A和B,

58、C和D分別為同義概念),檢索提問可以分成三組: ?S A OR B (集合號為S1) ?S C OR D (集合號為S2) ?S S1 AND S2 在實際檢索中,上述的三組檢索提問也可以歸并為一組。即,同一組檢索提問既含有OR算符,又含有AND算符,此時須使用優(yōu)先處理算符“( )”,將OR算符前后的詞放入括號中,計算機將優(yōu)先運算括號內(nèi)的算符。上例檢索提問可改為: ?S (A OR B) AND (C OR D) 第2章 信息檢索原理1133位置算符 又稱鄰接算符(adjacent operators),適用于兩個檢索詞以指定間隔距離或者指定的順序出現(xiàn)的場合,比如,類似于以詞組形式表達的概念;

59、彼此相鄰的兩個或兩個以上的詞;被禁用詞或特殊符號分隔的詞以及化學分子式等。位置算符是調(diào)整檢索策略的一種重要手段。 按照兩個檢索詞出現(xiàn)的順序和距離,可以有多種位置算符,而且對同一種位置算符,檢索系統(tǒng)不同,規(guī)定的位置算符也不同。 第2章 信息檢索原理114 例如,Compendex光盤數(shù)據(jù)庫使用的位置算符有: “(N)”(表示其兩側(cè)的檢索詞必須緊密相連,除開空格和標點符號外,不得插入其它詞或字母,兩詞的詞序可以顛倒) “(F)”(表示其兩側(cè)的檢索詞必須在同一字段(例如同在題目字段或文摘字段)中出現(xiàn),兩詞的詞序可以顛倒)第2章 信息檢索原理115 “(S)”(表示其兩側(cè)的檢索詞必須在同一句子中出現(xiàn),兩詞的詞序可以顛倒) (W)(表示其兩側(cè)的檢索詞必須緊密相連,除開空格和標點符號外,不得插入其它詞或字母,兩詞的詞序不可以顛倒)四種。第2章 信息檢索原理116 4字段限制 字段限制也是調(diào)整檢索策略的一種重要的手段。如果想指定在題目等字段中查找所希望的檢索詞,就需要使用字段限制。字段限制適用于在已有一定數(shù)量輸出記錄的基礎(chǔ)上,通過指定字段的方法,減少輸出篇數(shù),提高檢索結(jié)果的查準率的場合。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論