第二講:信息檢索技術(shù)_第1頁(yè)
第二講:信息檢索技術(shù)_第2頁(yè)
第二講:信息檢索技術(shù)_第3頁(yè)
第二講:信息檢索技術(shù)_第4頁(yè)
第二講:信息檢索技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)算機(jī)信息檢索的基本概念計(jì)算機(jī)信息檢索的基本概念二、基本信息檢索技術(shù)二、基本信息檢索技術(shù)三、進(jìn)階檢索技術(shù)三、進(jìn)階檢索技術(shù)四、檢索效果評(píng)價(jià)四、檢索效果評(píng)價(jià)五、信息檢索策略的制定和實(shí)施五、信息檢索策略的制定和實(shí)施一、計(jì)算機(jī)信息檢索的基本概念一、計(jì)算機(jī)信息檢索的基本概念1、計(jì)算機(jī)信息檢索的定義、計(jì)算機(jī)信息檢索的定義2、計(jì)算機(jī)信息檢索的原理、計(jì)算機(jī)信息檢索的原理3、計(jì)算機(jī)信息檢索類型、計(jì)算機(jī)信息檢索類型4、計(jì)算機(jī)信息檢索的發(fā)展、計(jì)算機(jī)信息檢索的發(fā)展5、計(jì)算機(jī)檢索系統(tǒng)構(gòu)成、計(jì)算機(jī)檢索系統(tǒng)構(gòu)成6、計(jì)算機(jī)信息檢索對(duì)象、計(jì)算機(jī)信息檢索對(duì)象計(jì)算機(jī)信息檢索簡(jiǎn)稱機(jī)檢計(jì)算機(jī)信息檢索簡(jiǎn)稱機(jī)檢狹義:指使用特定(或非特定的

2、)指令形成的檢索策略在狹義:指使用特定(或非特定的)指令形成的檢索策略在計(jì)算機(jī)檢索系統(tǒng)中檢索出需要的信息,并在檢索端上顯示計(jì)算機(jī)檢索系統(tǒng)中檢索出需要的信息,并在檢索端上顯示(或打?。┑倪^(guò)程(或打印)的過(guò)程廣義:包括計(jì)算機(jī)信息存儲(chǔ)和計(jì)算機(jī)信息檢索廣義:包括計(jì)算機(jī)信息存儲(chǔ)和計(jì)算機(jī)信息檢索2 2個(gè)方面?zhèn)€方面信息檢索經(jīng)歷了從信息檢索經(jīng)歷了從手工檢索手工檢索到到機(jī)械檢索機(jī)械檢索再到再到計(jì)算機(jī)化檢索計(jì)算機(jī)化檢索的發(fā)展過(guò)程。的發(fā)展過(guò)程。信息檢索的定義信息檢索的定義根據(jù)特定的需求、按照一定的方法查找根據(jù)特定的需求、按照一定的方法查找所需信息的過(guò)程。所需信息的過(guò)程。廣義:包括信息存貯、信息檢索廣義:包括信息存貯

3、、信息檢索狹義:信息的查找過(guò)程狹義:信息的查找過(guò)程2、信息檢索的原理、信息檢索的原理就是將特定的用戶信息需求與檢索系統(tǒng)就是將特定的用戶信息需求與檢索系統(tǒng)中的文獻(xiàn)線索進(jìn)行有無(wú)、異同及大小的中的文獻(xiàn)線索進(jìn)行有無(wú)、異同及大小的比較和匹配,選取兩者相符或部分相符比較和匹配,選取兩者相符或部分相符的文獻(xiàn)予以輸出。的文獻(xiàn)予以輸出。無(wú)論手工檢索還是計(jì)算機(jī)檢索,其基本無(wú)論手工檢索還是計(jì)算機(jī)檢索,其基本原理都是一樣的。原理都是一樣的。計(jì)算機(jī)信息檢索的原理計(jì)算機(jī)信息檢索的原理同信息檢索原理同信息檢索原理就是將特定的用戶信息需求與檢索系統(tǒng)就是將特定的用戶信息需求與檢索系統(tǒng)中的文獻(xiàn)線索進(jìn)行有無(wú)、異同及大小的中的文獻(xiàn)線

4、索進(jìn)行有無(wú)、異同及大小的比較與匹配,選取兩者相符或部分相符比較與匹配,選取兩者相符或部分相符的文獻(xiàn)予以輸出的文獻(xiàn)予以輸出3、信息檢索類型、信息檢索類型依檢索結(jié)果內(nèi)容檢索結(jié)果內(nèi)容劃分依信息存儲(chǔ)與信息存儲(chǔ)與檢索方式檢索方式劃分手工檢索手工檢索計(jì)算機(jī)檢索計(jì)算機(jī)檢索事實(shí)信息檢索事實(shí)信息檢索文獻(xiàn)信息檢索文獻(xiàn)信息檢索數(shù)據(jù)信息檢索數(shù)據(jù)信息檢索信信息息檢檢索索類類型型文獻(xiàn)線索檢索全文檢索文獻(xiàn)檢索文獻(xiàn)檢索(Literature Literature RetrievalRetrieval ):):以文獻(xiàn)以文獻(xiàn)為檢索對(duì)象的信息檢索為檢索對(duì)象的信息檢索數(shù)據(jù)信息檢索數(shù)據(jù)信息檢索(Data RetrievalData R

5、etrieval):電話號(hào)碼、):電話號(hào)碼、觀測(cè)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、參數(shù)、市場(chǎng)行情、圖表、觀測(cè)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、參數(shù)、市場(chǎng)行情、圖表、化學(xué)分子式等化學(xué)分子式等事實(shí)信息檢索事實(shí)信息檢索(Fact RetrievalFact Retrieval):事物(事事物(事件)的性質(zhì)、定義、原理以及發(fā)生的時(shí)間、地點(diǎn)、件)的性質(zhì)、定義、原理以及發(fā)生的時(shí)間、地點(diǎn)、過(guò)程等。過(guò)程等。3.1文獻(xiàn)信息檢索文獻(xiàn)信息檢索 凡是利用目錄、文摘或索引等二次凡是利用目錄、文摘或索引等二次信息查找某一課題、某一著者、某一地信息查找某一課題、某一著者、某一地域、某一機(jī)構(gòu)、某一事物的有關(guān)信息以域、某一機(jī)構(gòu)、某一事物的有關(guān)信息以及這些信息的出

6、處和收藏單位,都屬于及這些信息的出處和收藏單位,都屬于文獻(xiàn)信息檢索范疇,其檢索的結(jié)果就是文獻(xiàn)信息檢索范疇,其檢索的結(jié)果就是文獻(xiàn)信息。文獻(xiàn)信息。 例如,例如,“設(shè)計(jì)人行天橋的參考文獻(xiàn)有哪設(shè)計(jì)人行天橋的參考文獻(xiàn)有哪些?些?”3.2數(shù)據(jù)信息檢索數(shù)據(jù)信息檢索 凡是利用參考工具書、數(shù)據(jù)庫(kù)等檢凡是利用參考工具書、數(shù)據(jù)庫(kù)等檢索工具檢索包含在文獻(xiàn)中的某一數(shù)據(jù)、索工具檢索包含在文獻(xiàn)中的某一數(shù)據(jù)、參數(shù)、公式或化學(xué)分子式等,統(tǒng)稱為數(shù)參數(shù)、公式或化學(xué)分子式等,統(tǒng)稱為數(shù)據(jù)信息檢索。據(jù)信息檢索。 例如,例如,“某一新型載貨汽車的載重某一新型載貨汽車的載重量是多少,百公里油耗是多少?量是多少,百公里油耗是多少?” “今今日

7、人民幣對(duì)美元匯率日人民幣對(duì)美元匯率”3.3事實(shí)信息檢索事實(shí)信息檢索 凡是利用百科全書等檢索工具從存凡是利用百科全書等檢索工具從存儲(chǔ)事實(shí)的信息系統(tǒng)中查找出某一事實(shí)的儲(chǔ)事實(shí)的信息系統(tǒng)中查找出某一事實(shí)的具體答案的過(guò)程稱為事實(shí)信息檢索,其具體答案的過(guò)程稱為事實(shí)信息檢索,其檢索結(jié)果是基本事實(shí)。檢索結(jié)果是基本事實(shí)。 例如例如,“世界上最長(zhǎng)的斜拉橋是哪世界上最長(zhǎng)的斜拉橋是哪座,該橋位于什么地方,何時(shí)建成?座,該橋位于什么地方,何時(shí)建成?”手工信息檢索手工信息檢索:印刷型檢索工具:印刷型檢索工具 機(jī)械信息檢索機(jī)械信息檢索:是手工檢索向計(jì)算機(jī)信息檢索的:是手工檢索向計(jì)算機(jī)信息檢索的過(guò)渡階段過(guò)渡階段計(jì)算機(jī)信息檢索

8、計(jì)算機(jī)信息檢索 :目前,計(jì)算機(jī)信息檢索已成為目前,計(jì)算機(jī)信息檢索已成為用戶獲取信息的主要方式,我們所說(shuō)的現(xiàn)代信息用戶獲取信息的主要方式,我們所說(shuō)的現(xiàn)代信息檢索一般指計(jì)算機(jī)信息系檢索。檢索一般指計(jì)算機(jī)信息系檢索。計(jì)算機(jī)信息檢索可劃分為計(jì)算機(jī)信息檢索可劃分為脫機(jī)檢索脫機(jī)檢索、聯(lián)機(jī)檢索聯(lián)機(jī)檢索、光盤檢索光盤檢索和和網(wǎng)絡(luò)檢索網(wǎng)絡(luò)檢索4 4個(gè)階段。個(gè)階段。 4、信息檢索的發(fā)展:、信息檢索的發(fā)展:機(jī)檢與手檢比較 檢索原檢索原理理存儲(chǔ)方存儲(chǔ)方式式檢索途檢索途徑徑檢索策檢索策略略檢索效檢索效率率機(jī)檢匹配電子型較多檢索式較高手檢匹配印刷型較少腦海中較低5.計(jì)算機(jī)檢索系統(tǒng)的構(gòu)成計(jì)算機(jī)檢索系統(tǒng)的構(gòu)成聯(lián)機(jī)檢索中心:中

9、央計(jì)算機(jī)處理器、數(shù)聯(lián)機(jī)檢索中心:中央計(jì)算機(jī)處理器、數(shù)據(jù)庫(kù)、外設(shè)據(jù)庫(kù)、外設(shè)通信網(wǎng)絡(luò):橋梁通信網(wǎng)絡(luò):橋梁檢索終端:電傳終端、數(shù)傳終端、微機(jī)檢索終端:電傳終端、數(shù)傳終端、微機(jī)終端終端順排文檔與倒排文檔順排文檔與倒排文檔文獻(xiàn)型數(shù)據(jù)庫(kù)(書目數(shù)據(jù)庫(kù)、全文文獻(xiàn)型數(shù)據(jù)庫(kù)(書目數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù))和非文獻(xiàn)型數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù))和非文獻(xiàn)型數(shù)據(jù)庫(kù)基本索引字段和輔助索引字段基本索引字段和輔助索引字段6.計(jì)算機(jī)檢索的對(duì)象計(jì)算機(jī)檢索的對(duì)象數(shù)據(jù)數(shù)據(jù)庫(kù)庫(kù)AU=:作者字段:作者字段CS=:作者所在單位字段:作者所在單位字段SO=:文獻(xiàn)出處字段,包含期刊名稱、:文獻(xiàn)出處字段,包含期刊名稱、卷、期、頁(yè)等,也包含會(huì)議事項(xiàng)。卷、期、頁(yè)等,也

10、包含會(huì)議事項(xiàng)。CO=:期刊代碼字段:期刊代碼字段LA=:語(yǔ)種字段,表示原文語(yǔ)種:語(yǔ)種字段,表示原文語(yǔ)種DT=:文獻(xiàn)類型字段:文獻(xiàn)類型字段CC=:分類代碼字段:分類代碼字段/AB:文摘字段:文摘字段/TI:篇名字段:篇名字段/DE:敘詞字段,都是選自敘詞表、主:敘詞字段,都是選自敘詞表、主題詞表題詞表 中的詞中的詞/ID:自由標(biāo)引詞字段,非系統(tǒng)詞表中的:自由標(biāo)引詞字段,非系統(tǒng)詞表中的詞。詞。二、 基本檢索技術(shù)1、布爾邏輯、布爾邏輯2、檢域限制、檢域限制在進(jìn)行信息檢索時(shí),檢索項(xiàng)之間概念有在進(jìn)行信息檢索時(shí),檢索項(xiàng)之間概念有相交關(guān)系、同義關(guān)系或相關(guān)關(guān)系,這時(shí)相交關(guān)系、同義關(guān)系或相關(guān)關(guān)系,這時(shí)采用布爾邏

11、輯進(jìn)行檢索項(xiàng)之間的邏輯組采用布爾邏輯進(jìn)行檢索項(xiàng)之間的邏輯組配。即用配。即用“與與”(AND)、)、“或或”(OR)、)、“非非”(NOT)來(lái)表達(dá)。來(lái)表達(dá)。1、布爾邏輯、布爾邏輯(1)邏輯邏輯“與與”在計(jì)算機(jī)信息檢索時(shí)在計(jì)算機(jī)信息檢索時(shí), “與與” (and或或*)是表達(dá)是表達(dá)概念交叉概念交叉和和限定關(guān)系限定關(guān)系的一種組的一種組配,具有縮小檢索范圍和提高專指性配,具有縮小檢索范圍和提高專指性的功能。的功能。 實(shí)際操作中,表達(dá)式為:實(shí)際操作中,表達(dá)式為: A and B 或或 A* B例例: ?S computer and library ?S computer*librarycomputer a

12、nd librarycomputerlibrarycomputer and library(2)邏輯邏輯“或或”邏輯邏輯“或或”算符算符,表示主題概念之間表示主題概念之間的的同義、近義、相關(guān)或多個(gè)并列同義、近義、相關(guān)或多個(gè)并列的檢的檢索概念。具有擴(kuò)大檢索范圍,減少漏索概念。具有擴(kuò)大檢索范圍,減少漏檢的功能。檢的功能。A or B 或或 A + B例:例:aerocraft OR aircraft aerocraft+aircraft aerocraft OR aircraftaerocraft OR aircraftaerocraft OR aerocraft OR aircraftaircr

13、aftaerocraftaerocraftaircraftaircraft(3)邏輯邏輯“非非”邏輯邏輯“非非”算符算符,是具有是具有概念包含關(guān)系的一種組配的一種組配,可以從原檢索范圍中排除可以從原檢索范圍中排除某一內(nèi)容。具有縮小命中范圍,提高某一內(nèi)容。具有縮小命中范圍,提高查準(zhǔn)率,增強(qiáng)檢索的專指性,減少輸查準(zhǔn)率,增強(qiáng)檢索的專指性,減少輸出量的作用。出量的作用。A not B A B例:例:?S Car not automobileCar not AutomobileCarAutomobileCar not Automobile2、檢域限制、檢域限制限定檢索詞出現(xiàn)在數(shù)據(jù)庫(kù)記錄中某一字限定檢索詞

14、出現(xiàn)在數(shù)據(jù)庫(kù)記錄中某一字段范圍的一種檢索技術(shù)。段范圍的一種檢索技術(shù)。專業(yè)檢索界面,檢域限制用于對(duì)信息的專業(yè)檢索界面,檢域限制用于對(duì)信息的特定年代、特定類別、特定檢索點(diǎn)特定年代、特定類別、特定檢索點(diǎn)作限作限制。分前綴限制符和后綴限制符。制。分前綴限制符和后綴限制符。Au= 限查特定作者限查特定作者JN= 限查特定刊名限查特定刊名LA= 限查特定語(yǔ)種限查特定語(yǔ)種PN= 限查特定專利號(hào)限查特定專利號(hào)PY= 限查特定年代限查特定年代/TI 限在題目中查限在題目中查/AB 限在文摘中查限在文摘中查/DE 限在敘詞標(biāo)引中查限在敘詞標(biāo)引中查/ID 限在自由詞中查限在自由詞中查郎大地郎大地2012年前在南京航

15、空航天大學(xué)期年前在南京航空航天大學(xué)期間發(fā)表的文章間發(fā)表的文章檢索式:檢索式:作者作者=郎大地郎大地 and 單位單位=南京航空航天大南京航空航天大學(xué)學(xué) and 年年2012AU=郎大地郎大地 and CS=南京航空航天大學(xué)南京航空航天大學(xué) and PY20121、檢索錢偉長(zhǎng)在清華大學(xué)或上海大學(xué)時(shí)、檢索錢偉長(zhǎng)在清華大學(xué)或上海大學(xué)時(shí)發(fā)表的文章發(fā)表的文章檢索式:作者檢索式:作者=錢偉長(zhǎng)錢偉長(zhǎng) and (單位單位=清華大清華大學(xué)學(xué) or 單位單位=上海大學(xué)上海大學(xué))2、檢索錢偉長(zhǎng)、檢索錢偉長(zhǎng)1980年以前在清華大學(xué)期年以前在清華大學(xué)期間發(fā)表的題名或摘要中都包含間發(fā)表的題名或摘要中都包含“物理物理”的文

16、章的文章檢索式:作者檢索式:作者=錢偉長(zhǎng)錢偉長(zhǎng) and 單位單位=清華大清華大學(xué)學(xué) and (題名(題名=物理物理 or 摘要摘要=物理)物理) and 年年1980三、進(jìn)階檢索技術(shù) 1、位置邏輯、位置邏輯2、截詞檢索、截詞檢索如果檢索詞之間的鄰近位置和先后關(guān)系,如果檢索詞之間的鄰近位置和先后關(guān)系,只用邏輯組配算符而不按概念關(guān)系加以只用邏輯組配算符而不按概念關(guān)系加以限定,就容易使詞與詞之間的概念組配限定,就容易使詞與詞之間的概念組配產(chǎn)生歧義和誤差。產(chǎn)生歧義和誤差。如:天線反射器和反射器天線。位置算符可以表達(dá)并限定檢索詞在記錄位置算符可以表達(dá)并限定檢索詞在記錄中出現(xiàn)的位置關(guān)系。提高檢索的專指性中

17、出現(xiàn)的位置關(guān)系。提高檢索的專指性。1、位置邏輯、位置邏輯(P)或或( )withA(P/0)B A、B兩詞之間不容許插入其他詞或代碼兩詞之間不容許插入其他詞或代碼(標(biāo)點(diǎn)、連字符、空格除外),前后次序不(標(biāo)點(diǎn)、連字符、空格除外),前后次序不變。變。 例如例如: power (p/0) system或 “power system” flight( p/0)control 括括 flight control, flight-control等等 ( P/n )A(P/n)B A、B兩詞之間可插入最多兩詞之間可插入最多n個(gè)詞,個(gè)詞,前后次序不變前后次序不變 (n=19) n=1 時(shí)時(shí) A(P/1)B 例

18、如例如:flight(P/1)control 包括包括 flight control, flight intelligent control(N)算符算符 A(N/0)B A、B中間不能插詞,前后位置可中間不能插詞,前后位置可互換互換。例如:例如:flight(N/0)control 包括:包括: flight control , control flight(N/n)算符算符A(N/n)B A、B兩詞之間最多可插入兩詞之間最多可插入n個(gè)詞,前個(gè)詞,前后次序可顛倒后次序可顛倒N=1 時(shí)時(shí) A(1N)B例如例如: solar(1n)energy 包括 solar and energy , ene

19、rgy and solarSubfield (S)要求檢索詞出現(xiàn)在一個(gè)子字段(一個(gè)句要求檢索詞出現(xiàn)在一個(gè)子字段(一個(gè)句子)中子)中Solar (S) energyField (F)要求被連接的要求被連接的2個(gè)詞出現(xiàn)在一個(gè)字段中,詞個(gè)詞出現(xiàn)在一個(gè)字段中,詞序不限序不限例如:例如:Computer (F) control w常用的位置算符常用的位置算符算符 功能 表達(dá)式 檢索結(jié)果 P兩詞相鄰,按輸入時(shí)順序排列Education(P/0)school, 或Education school P/n同上,兩詞中間允許插入n個(gè)詞Education (P/1) school Education school

20、Education schoolsEducation and music schoolSchool of continued education N兩詞緊密相鄰,中間不能插入其他詞,順序可以顛倒 Education (N/0) school, Education schoolSchool educationN /n同上,兩詞中間可以插入n個(gè)詞 Education (N/1) school Education schoolSchool of educationEducation music school S兩個(gè)詞同在一個(gè)標(biāo)引字段中Education (S) school例如同時(shí)出現(xiàn)在一個(gè)子字段(

21、題名或文摘)中F兩個(gè)詞同在一個(gè)段落中 Education (F) school 同時(shí)出現(xiàn)在一個(gè)段落中主要位置算符檢索精確度排序:主要位置算符檢索精確度排序: P/0 P/N N/0 N/n S F 漸弱漸弱 括號(hào)中檢索詞括號(hào)中檢索詞 高高 (P),(N),(S),(L),(F) NOT AND OR 低低優(yōu)先級(jí)排序優(yōu)先級(jí)排序在檢索過(guò)程中,還常常會(huì)遇到相同詞干不同詞在檢索過(guò)程中,還常常會(huì)遇到相同詞干不同詞尾的詞義相近的詞,單復(fù)數(shù)詞,拼法不同的詞尾的詞義相近的詞,單復(fù)數(shù)詞,拼法不同的詞等等。如果將這些詞都輸進(jìn)系統(tǒng),勢(shì)必會(huì)增多等等。如果將這些詞都輸進(jìn)系統(tǒng),勢(shì)必會(huì)增多檢索手續(xù)和時(shí)間,增加檢索費(fèi)用。所以

22、,聯(lián)機(jī)檢索手續(xù)和時(shí)間,增加檢索費(fèi)用。所以,聯(lián)機(jī)系統(tǒng)提供了一種截詞符的使用。系統(tǒng)提供了一種截詞符的使用。利用截詞法,可以擴(kuò)大查找范圍,提高查全率,利用截詞法,可以擴(kuò)大查找范圍,提高查全率,節(jié)省檢索費(fèi)用。節(jié)省檢索費(fèi)用。2、截詞檢索、截詞檢索截詞檢索的方式截詞檢索的方式 按截詞位置可分為按截詞位置可分為前截詞、后截詞前截詞、后截詞、前前后截詞和中間截詞后截詞和中間截詞 截?cái)嘧址麛?shù)的不同,可分為截?cái)嘧址麛?shù)的不同,可分為有限截?cái)嘤邢藿財(cái)嗪秃蜔o(wú)限截?cái)酂o(wú)限截?cái)?(1)無(wú)限截詞無(wú)限截詞 在詞干后加在詞干后加“*”,表示其后可跟任意個(gè)字,表示其后可跟任意個(gè)字母。母。 例如:例如: computer* 包括:包括

23、:computer,computers, computery, computerization . 主詞干后無(wú)限個(gè)可變字符主詞干后無(wú)限個(gè)可變字符 左截詞,右截?cái)?中間截?cái)?“*” *statin* (2) 有限截詞有限截詞 $1,*1 computer$1 包括:包括:computer, computers. 0-1個(gè)變化字符個(gè)變化字符 computer $2 包括:包括:computer,computers,computered. 0-2個(gè)變化字符個(gè)變化字符(3)中間截詞中間截詞 通常用于解決英美拼法的差異通常用于解決英美拼法的差異,在詞在詞間加一個(gè)或幾個(gè)間加一個(gè)或幾個(gè)“?” 例如例如: w

24、om$1n 中間中間 有限有限截詞截詞 包括包括 woman,women fib$2board 包括:包括:fiberboard, fibreboard中間無(wú)限中間無(wú)限截詞截詞 *注意:檢索詞如為單詞,而且未指定檢索字檢索詞如為單詞,而且未指定檢索字段時(shí),系統(tǒng)將在基本索引的一切字段段時(shí),系統(tǒng)將在基本索引的一切字段中進(jìn)行檢索;中進(jìn)行檢索;使用字段檢索(檢域限制)對(duì)檢索出使用字段檢索(檢域限制)對(duì)檢索出的文獻(xiàn)數(shù)量和相關(guān)程度有極大影響。的文獻(xiàn)數(shù)量和相關(guān)程度有極大影響。禁用詞詞表:禁用詞詞表:AN FOR THE AND FROM TO BY OF WITH 等等 檢全率檢全率/查全率查全率:是檢索系

25、統(tǒng)在進(jìn)是檢索系統(tǒng)在進(jìn)行某一課題檢索時(shí),檢出的相關(guān)文獻(xiàn)量行某一課題檢索時(shí),檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫(kù)中相關(guān)文獻(xiàn)總量的比率;與系統(tǒng)文獻(xiàn)庫(kù)中相關(guān)文獻(xiàn)總量的比率; 檢準(zhǔn)率檢準(zhǔn)率/查準(zhǔn)率查準(zhǔn)率:是檢索系統(tǒng)在進(jìn)是檢索系統(tǒng)在進(jìn)行某一課題檢索時(shí),檢出的相關(guān)文獻(xiàn)與行某一課題檢索時(shí),檢出的相關(guān)文獻(xiàn)與檢出文獻(xiàn)總量的比率檢出文獻(xiàn)總量的比率; 檢索時(shí)間:指檢索過(guò)程所耗費(fèi)的時(shí)檢索時(shí)間:指檢索過(guò)程所耗費(fèi)的時(shí)間間; 檢索費(fèi)用檢索費(fèi)用。五、信息檢索效果評(píng)價(jià)五、信息檢索效果評(píng)價(jià)檢索效果評(píng)價(jià)的指標(biāo) 評(píng)價(jià)檢索效果的常用指標(biāo)有:評(píng)價(jià)檢索效果的常用指標(biāo)有:查全率(查全率(Recall ratioRecall ratio)用用R R表示

26、表示查準(zhǔn)率(查準(zhǔn)率(Precision ratioPrecision ratio)用用P P表示表示漏檢率(漏檢率(Omission ratioOmission ratio)用用O O表示表示誤檢率(誤檢率(Fall-out ratioFall-out ratio)用用F F表示表示 高查全率和查準(zhǔn)率是人們?cè)跈z索活動(dòng)中高查全率和查準(zhǔn)率是人們?cè)跈z索活動(dòng)中通常所追求的目標(biāo)。通常所追求的目標(biāo)。1、查全率、查全率查全率查全率:反映用戶在文獻(xiàn)檢索時(shí),檢出的相關(guān)文獻(xiàn):反映用戶在文獻(xiàn)檢索時(shí),檢出的相關(guān)文獻(xiàn)與數(shù)據(jù)庫(kù)中與自己研究課題相關(guān)文獻(xiàn)的數(shù)量比例。與數(shù)據(jù)庫(kù)中與自己研究課題相關(guān)文獻(xiàn)的數(shù)量比例。又稱又稱“檢全率

27、檢全率”、“命中率命中率” ” 查準(zhǔn)率查準(zhǔn)率: :是指檢出的相關(guān)文獻(xiàn)量與檢出的全部文是指檢出的相關(guān)文獻(xiàn)量與檢出的全部文獻(xiàn)總量的比率獻(xiàn)總量的比率, ,是衡量信息檢索系統(tǒng)精確度的尺是衡量信息檢索系統(tǒng)精確度的尺度度. .2、查、查 準(zhǔn)準(zhǔn) 率率查全率查全率R和查準(zhǔn)率和查準(zhǔn)率P兩者之間存在兩者之間存在互逆互逆關(guān)系關(guān)系 3、漏檢率、漏檢率漏檢率漏檢率就是漏檢的相關(guān)文獻(xiàn)量與檢索系就是漏檢的相關(guān)文獻(xiàn)量與檢索系統(tǒng)中相關(guān)文獻(xiàn)總量的比率,是衡量信息統(tǒng)中相關(guān)文獻(xiàn)總量的比率,是衡量信息檢索系統(tǒng)漏檢文獻(xiàn)的尺度,可用下式表檢索系統(tǒng)漏檢文獻(xiàn)的尺度,可用下式表示:示:漏檢率漏檢率漏檢相關(guān)文獻(xiàn)量漏檢相關(guān)文獻(xiàn)量 *100% 系統(tǒng)中

28、相關(guān)文獻(xiàn)總量系統(tǒng)中相關(guān)文獻(xiàn)總量誤檢率是指誤檢(檢不出相關(guān))文獻(xiàn)總量的比率,是衡量信息檢索系統(tǒng)誤檢文獻(xiàn)和程度的尺度??捎孟率奖硎荆赫`檢率誤檢文獻(xiàn)量 *100 檢出文獻(xiàn)總量4 4、誤檢率、誤檢率 5、提高查全率的主要方法(1) 準(zhǔn)確把握檢索對(duì)象及目的,選擇合適的數(shù)據(jù)庫(kù)。(2) 采用分類法或規(guī)范化詞檢索。(3)增加同義詞、近義詞(4) 減少邏輯“與”及邏輯“非”的使用。(5) 增加邏輯“或”及截詞檢索技術(shù)的使用。(6) 采用截詞符或通配符。(7) 字段限制不宜過(guò)多。 6、提高查準(zhǔn)率的主要方法(1) 準(zhǔn)確把握檢索對(duì)象及目的,選擇合適的數(shù)據(jù)庫(kù)。(2) 提高檢索詞或分類號(hào)的專指度。(3) 選擇邏輯“與”及

29、邏輯“非”的使用。(5) 減少或不采用邏輯“或”及截詞檢索技術(shù)的使用。(6) 限定檢索詞出現(xiàn)的字段。(7) 不選“全文檢索”.(8) 限定檢索對(duì)象的文獻(xiàn)類型、時(shí)間段、文種及其它特征。計(jì)算機(jī)信息檢索策略編寫u1 1、分析課題的檢索要求、分析課題的檢索要求u2 2、確定課題的檢索范圍(選擇檢索工具,了解檢索系、確定課題的檢索范圍(選擇檢索工具,了解檢索系統(tǒng))統(tǒng))u3 3、選定檢索詞,構(gòu)造檢索表達(dá)式、選定檢索詞,構(gòu)造檢索表達(dá)式u4 4、確定檢索途徑,選定檢索方法、確定檢索途徑,選定檢索方法u5 5、實(shí)施檢索策略,瀏覽初步檢索結(jié)果、實(shí)施檢索策略,瀏覽初步檢索結(jié)果u6 6、調(diào)整檢索策略,實(shí)施并輸出檢索結(jié)

30、果、調(diào)整檢索策略,實(shí)施并輸出檢索結(jié)果u7 7、索取原始文獻(xiàn)、索取原始文獻(xiàn) 步驟示意圖第一步第一步: :分析課題的檢索要求分析課題的檢索要求p明確檢索明確檢索目的目的p明確課題的明確課題的主題主題或主要內(nèi)容或主要內(nèi)容p課題涉及的課題涉及的學(xué)科學(xué)科范圍范圍p所需信息的數(shù)量、語(yǔ)種、年代范圍、所需信息的數(shù)量、語(yǔ)種、年代范圍、類型等具體指標(biāo)類型等具體指標(biāo)第二步第二步: :確定課題的檢索范圍確定課題的檢索范圍p檢索工具的取舍檢索工具的取舍p檢索工具的學(xué)科范圍檢索工具的學(xué)科范圍p檢索工具的覆蓋年限檢索工具的覆蓋年限p檢索工具的語(yǔ)種檢索工具的語(yǔ)種第三步第三步: :確定檢索詞,構(gòu)造檢索式確定檢索詞,構(gòu)造檢索式p

31、確定檢索詞確定檢索詞p1 1、檢索標(biāo)識(shí)必須反映課題內(nèi)容和信息需求;、檢索標(biāo)識(shí)必須反映課題內(nèi)容和信息需求;p2 2、檢索標(biāo)識(shí)和數(shù)據(jù)庫(kù)的標(biāo)引標(biāo)識(shí)應(yīng)相一致;、檢索標(biāo)識(shí)和數(shù)據(jù)庫(kù)的標(biāo)引標(biāo)識(shí)應(yīng)相一致;p3 3、所選檢索工具或系統(tǒng)具有敘詞表或主題詞表的,優(yōu)、所選檢索工具或系統(tǒng)具有敘詞表或主題詞表的,優(yōu)先選用敘詞或主題詞作為檢索詞;先選用敘詞或主題詞作為檢索詞;p4 4、要從詞表規(guī)定的專業(yè)范圍出發(fā),選用各學(xué)科內(nèi)具有、要從詞表規(guī)定的專業(yè)范圍出發(fā),選用各學(xué)科內(nèi)具有檢索價(jià)值的基本名詞或術(shù)語(yǔ);檢索價(jià)值的基本名詞或術(shù)語(yǔ);p5 5、如選擇的檢索詞無(wú)詞表可查,或在詞表中未反映時(shí)、如選擇的檢索詞無(wú)詞表可查,或在詞表中未反映時(shí)

32、,檢索詞為自由詞,這時(shí)還應(yīng)選取該詞的同義詞、近義,檢索詞為自由詞,這時(shí)還應(yīng)選取該詞的同義詞、近義詞、廣義詞、狹義詞、分子式、分類號(hào)、登記號(hào)、專利詞、廣義詞、狹義詞、分子式、分類號(hào)、登記號(hào)、專利號(hào)、化學(xué)物質(zhì)俗名、商品名等,使用多個(gè)詞試檢,以免號(hào)、化學(xué)物質(zhì)俗名、商品名等,使用多個(gè)詞試檢,以免漏檢。漏檢。p構(gòu)造檢索式構(gòu)造檢索式p 檢索式(檢索式(formulaformula、profileprofile、statementstatement)是檢索策略的邏輯表達(dá)式,是用來(lái)表達(dá)用戶檢是檢索策略的邏輯表達(dá)式,是用來(lái)表達(dá)用戶檢索提問(wèn)的,由基于檢索概念產(chǎn)生的檢索詞和各索提問(wèn)的,由基于檢索概念產(chǎn)生的檢索詞和各種組配算符構(gòu)成。檢索

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論