《第二章 信息檢索與利用》_第1頁(yè)
《第二章 信息檢索與利用》_第2頁(yè)
《第二章 信息檢索與利用》_第3頁(yè)
《第二章 信息檢索與利用》_第4頁(yè)
《第二章 信息檢索與利用》_第5頁(yè)
已閱讀5頁(yè),還剩89頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2章信息檢索基礎(chǔ)知識(shí)

北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社1/11/20231《第二章信息檢索教程》1信息檢索的基本概念1.1信息檢索的涵義從廣義上講,信息檢索包括兩個(gè)過(guò)程,一是信息存儲(chǔ)(informationstorage),即信息的標(biāo)引、加工和存儲(chǔ)過(guò)程:二是信息檢索(informationretrieval),即信息用戶的查找過(guò)程。從狹義上講,信息檢索僅指后一部分。信息檢索的本質(zhì)是一個(gè)匹配的過(guò)程即用戶的信息需求和信息存儲(chǔ)的信息集合進(jìn)行比較和選擇的過(guò)程1/11/20232《第二章信息檢索教程》信息存儲(chǔ)和檢索過(guò)程的基本原理

輸出一次信息信息特征檢索語(yǔ)言信息特征標(biāo)識(shí)檢索結(jié)果信息需求檢索提問(wèn)檢索提問(wèn)標(biāo)識(shí)分析標(biāo)引標(biāo)引輸入檢索信息檢索系統(tǒng)(工具)存儲(chǔ)過(guò)程檢索過(guò)程分析標(biāo)引是對(duì)信息的內(nèi)容進(jìn)行分析,并運(yùn)用一定的語(yǔ)言和方法,根據(jù)信息內(nèi)容的學(xué)科屬性等特征給予標(biāo)識(shí)(如主題詞,分類號(hào)),并因此作為信息組織、存貯和檢索依據(jù)的過(guò)程。1/11/20233《第二章信息檢索教程》信息特征:

(文獻(xiàn)特征)

外部特征:內(nèi)部特征:題名著者出處號(hào)碼分類主題1/11/20234《第二章信息檢索教程》

計(jì)算機(jī)信息檢索是對(duì)信息進(jìn)行收集、分類、標(biāo)引、著錄,并加以有序化組織,將信息儲(chǔ)存到計(jì)算機(jī)存儲(chǔ)信息系統(tǒng)中,編制出一個(gè)信息檢索系統(tǒng)或信息檢索工具以及從檢索系統(tǒng)或工具中檢索所需信息的過(guò)程。1.2計(jì)算機(jī)信息檢索1/11/20235《第二章信息檢索教程》用戶輸入檢索需求分析轉(zhuǎn)換處理需求數(shù)據(jù)庫(kù)檢索=概念詞的相關(guān)匹配運(yùn)算概念詞典控制詞表信息源篩選錄入分類、詞索引文檔預(yù)處理

計(jì)算機(jī)信息檢索的基本原理1/11/20236《第二章信息檢索教程》1.3信息檢索的類型按信息檢索的內(nèi)容劃分文獻(xiàn)檢索數(shù)據(jù)檢索事實(shí)檢索概念檢索按信息檢索的組織方式劃分全文本檢索多媒體檢索超文本檢索超文本檢索是對(duì)每個(gè)節(jié)點(diǎn)中儲(chǔ)存的信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)信息進(jìn)行的檢索。與傳統(tǒng)文本的線性順序不同,超文本檢索強(qiáng)調(diào)中心節(jié)點(diǎn)之間的語(yǔ)義聯(lián)結(jié)結(jié)構(gòu),靠系統(tǒng)提供的工具進(jìn)行圖示穿行和節(jié)點(diǎn)展示,提供瀏覽式查詢,可進(jìn)行跨庫(kù)檢索。

WWW1/11/20237《第二章信息檢索教程》 信息需求的類型一、準(zhǔn)確的信息

1、查找某概念的確切含義:如:“什么是ADSL?”如:“什么是會(huì)計(jì)信息系統(tǒng)?”2、查找某概念的背景知識(shí):如“誰(shuí)最先定義了信息素養(yǎng)?”如“奠定現(xiàn)代電子計(jì)算機(jī)理論基礎(chǔ)的代表人物是誰(shuí)?”3、查找某些事物的數(shù)值及量化指標(biāo):如“2005年國(guó)際無(wú)線傳輸?shù)南嚓P(guān)標(biāo)準(zhǔn)”如“2008年中國(guó)互聯(lián)網(wǎng)統(tǒng)計(jì)報(bào)告”1/11/20238《第二章信息檢索教程》二、全面的信息1、查找學(xué)科專業(yè)領(lǐng)域的新進(jìn)展:如“ERP的研究進(jìn)展”2、查找課題專業(yè)領(lǐng)域的相關(guān)研究文獻(xiàn):如“有關(guān)會(huì)計(jì)信息系統(tǒng)發(fā)展變遷的研究文獻(xiàn)”如“會(huì)計(jì)電算化環(huán)境下的審計(jì)工作研究”1/11/20239《第二章信息檢索教程》信息需求來(lái)源于課題需求,課題需求決定信息需求類型:

了解某一理論、方法、過(guò)程等具體的片斷的信息,以解決研究中的具體問(wèn)題,要求以“準(zhǔn)”為主。申請(qǐng)發(fā)明、申報(bào)成果獎(jiǎng)勵(lì)、鑒定科研成果以及立項(xiàng)查新時(shí),往往需要全面地收集某一主題范圍的文獻(xiàn)信息,這類課題具有普查追溯的特點(diǎn),應(yīng)著眼于“全”。1/11/202310《第二章信息檢索教程》對(duì)于做學(xué)位論文來(lái)說(shuō),做課題前應(yīng)充分了解一下本課題國(guó)內(nèi)外的研究現(xiàn)狀(即論文的綜述部分),這時(shí)應(yīng)對(duì)該課題進(jìn)行較全面的檢索,包括綜述性的文章,要求全;對(duì)于該課題的核心部分,即該課題所要解決的具體問(wèn)題,創(chuàng)新的地方,則需要準(zhǔn);對(duì)于技術(shù)細(xì)節(jié)越細(xì)越好,需要的也應(yīng)是準(zhǔn)。1/11/202311《第二章信息檢索教程》案例課目:“云南財(cái)經(jīng)大學(xué)本科生科研訓(xùn)練計(jì)劃(SRTP)”要求:云南財(cái)貿(mào)學(xué)院本科生科研訓(xùn)練計(jì)劃(SRTP)管理規(guī)定。擬研究的題目方向:會(huì)計(jì)電算化的理論或?qū)崉?wù)1/11/202312《第二章信息檢索教程》案例(續(xù))信息需求1:明確基本概念與定義、事實(shí)等如:會(huì)計(jì)電算化的定義是什么?

1/11/202313《第二章信息檢索教程》案例(續(xù))信息需求2:了解國(guó)內(nèi)外在該領(lǐng)域研究應(yīng)用的背景。如:會(huì)計(jì)電算化理論有哪些研究領(lǐng)域?目前的會(huì)計(jì)電算化軟件達(dá)到了什么水平?又存在什么問(wèn)題?

1/11/202314《第二章信息檢索教程》案例(續(xù))信息需求3:尋找研究的理論依據(jù),掌握權(quán)威和重要信息。如:會(huì)計(jì)電算化理論研究有哪些成果?關(guān)于會(huì)計(jì)電算化軟件的成本、安全性、可靠性、可擴(kuò)展性、適用性等。1/11/202315《第二章信息檢索教程》案例(續(xù))信息檢索:(過(guò)程略)經(jīng)檢索分析發(fā)現(xiàn),現(xiàn)有大量關(guān)于上述信息需求的各類文獻(xiàn)資料,對(duì)一個(gè)在讀的大二本科生,不論是理論研究還是軟件開(kāi)發(fā),都受到水平、能力、精力、時(shí)間等的限制,且最終結(jié)果很可能是勞而無(wú)功,更談不上創(chuàng)新。1/11/202316《第二章信息檢索教程》案例(續(xù))進(jìn)一步檢索分析:發(fā)現(xiàn)目前的會(huì)計(jì)電算化軟件主要運(yùn)行于Windows環(huán)境,少見(jiàn)基于Linux環(huán)境的會(huì)計(jì)電算化方面的文獻(xiàn)資料報(bào)道。最終擬定的題目:Linux在會(huì)計(jì)電算化中的應(yīng)用前景分析1/11/202317《第二章信息檢索教程》3檢索語(yǔ)言

檢索語(yǔ)言(retrievallanguage)是文獻(xiàn)信息標(biāo)引和檢索提問(wèn)而約定的人工語(yǔ)言。

檢索語(yǔ)言是為溝通文獻(xiàn)標(biāo)引與文獻(xiàn)檢索而編制的人工語(yǔ)言,也是連接信息存儲(chǔ)和檢索兩個(gè)過(guò)程中標(biāo)引人員與檢索人員雙方思路的渠道。

——在存儲(chǔ)的過(guò)程中用于標(biāo)引信息稱為標(biāo)引語(yǔ)言;

——用于編制索引就稱為索引語(yǔ)言;

——用于信息檢索則稱為檢索語(yǔ)言。1/11/202318《第二章信息檢索教程》3.1檢索語(yǔ)言的種類

分類語(yǔ)言(classificationlanguage)是用分類號(hào)表達(dá)各種概念的檢索標(biāo)識(shí),將各種概念按學(xué)科性質(zhì)進(jìn)行系統(tǒng)排列,反映科學(xué)知識(shí)分類體系的檢索語(yǔ)言。主題語(yǔ)言(subjectlanguage)是直接以表達(dá)文獻(xiàn)主題的語(yǔ)詞作為檢索標(biāo)識(shí),按字母順序編排并通過(guò)參照系統(tǒng)等方法提示詞間關(guān)系的檢索語(yǔ)言。代碼語(yǔ)言(codelanguage)是對(duì)事物的某一方面特征用某種代碼系統(tǒng)來(lái)加以標(biāo)引和排列的檢索語(yǔ)言。。自然語(yǔ)言是直接從原始信息中抽取出來(lái)的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語(yǔ)言。1/11/202319《第二章信息檢索教程》檢索語(yǔ)言的類型描述內(nèi)容特征語(yǔ)言描述外表特征語(yǔ)言主題語(yǔ)言分類語(yǔ)言責(zé)任者題名其他自然語(yǔ)言受控語(yǔ)言關(guān)鍵詞語(yǔ)言——(keyword)標(biāo)題詞語(yǔ)言——(heading)單元詞語(yǔ)言——(uniterm)敘詞語(yǔ)言——(descriptor)代碼語(yǔ)言1/11/202320《第二章信息檢索教程》分類語(yǔ)言

分類語(yǔ)言是按照一定體系由上至下,從總體到局部,由一般到具體,從低級(jí)到高級(jí),從簡(jiǎn)單到復(fù)雜的邏輯次序逐級(jí)展開(kāi)。主題分類語(yǔ)言

其特征是一個(gè)主題充當(dāng)一個(gè)類目,類目象主題詞表一樣按字順排列,而不是按邏輯順序排列。優(yōu)點(diǎn):以事物分類,能將相關(guān)的內(nèi)容全部集中在一起。對(duì)交叉學(xué)科的主題揭示非常有利。學(xué)科分類語(yǔ)言

學(xué)科分類語(yǔ)言是以知識(shí)分類為基本,按照學(xué)科性質(zhì)及從屬、層次關(guān)系來(lái)組織資源,類目排序以字順為標(biāo)準(zhǔn)。優(yōu)勢(shì):類目容量大,內(nèi)容針對(duì)性、學(xué)術(shù)性更強(qiáng),符合族性檢索的要求。圖書(shū)分類語(yǔ)言

目前采用的主要有杜威十進(jìn)分類法(DDC)、國(guó)際十進(jìn)分類法(UDC)、美國(guó)國(guó)會(huì)圖書(shū)館分類法(LCC)和中國(guó)圖書(shū)館圖書(shū)分類法(中圖法)

專利分類表1/11/202321《第二章信息檢索教程》中國(guó)圖書(shū)館圖書(shū)分類法基本部類:1、馬克思主義、列寧主義、毛澤東思想、鄧小平理論2、哲學(xué)3、社會(huì)科學(xué)4、自然科學(xué)5、綜合性圖書(shū)基本大類:(22個(gè))

A馬列主義毛澤東思想鄧小平理論N自然科學(xué)總論

B哲學(xué)

O數(shù)理化科學(xué)

C社會(huì)科學(xué)總論P(yáng)天文學(xué)、地理

D政治、法律Q生物科學(xué)

E軍事R醫(yī)學(xué)、衛(wèi)生

F經(jīng)濟(jì)S農(nóng)業(yè)科學(xué)

G文化、科學(xué)、教育、體育T工業(yè)技術(shù)

H語(yǔ)言、文字U交通運(yùn)輸

I文學(xué)V航空、航天

J藝術(shù)X環(huán)境科學(xué)

K歷史、地理Z綜合性圖書(shū)

1/11/202322《第二章信息檢索教程》中國(guó)圖書(shū)館圖書(shū)分類法F經(jīng)濟(jì)

F1世界各國(guó)經(jīng)濟(jì)概況、經(jīng)濟(jì)史、經(jīng)濟(jì)地理

F11世界經(jīng)濟(jì)、國(guó)際經(jīng)濟(jì)關(guān)系

F12中國(guó)經(jīng)濟(jì)

F13/17各國(guó)經(jīng)濟(jì)

F2經(jīng)濟(jì)計(jì)劃與管理

F20國(guó)民經(jīng)濟(jì)管理

F21經(jīng)濟(jì)計(jì)劃

F22經(jīng)濟(jì)計(jì)算、經(jīng)濟(jì)數(shù)學(xué)方法

F23會(huì)計(jì)

F239審計(jì)

F24勞動(dòng)經(jīng)濟(jì)

F25物資經(jīng)濟(jì)

1/11/202323《第二章信息檢索教程》F27企業(yè)經(jīng)濟(jì)

F29城市與市政經(jīng)濟(jì)

F3農(nóng)業(yè)經(jīng)濟(jì)

F4工業(yè)經(jīng)濟(jì)

F7貿(mào)易經(jīng)濟(jì)

F72中國(guó)國(guó)內(nèi)貿(mào)易經(jīng)濟(jì)

F73世界各國(guó)國(guó)內(nèi)貿(mào)易經(jīng)濟(jì)

F74國(guó)際貿(mào)易

F75各國(guó)對(duì)外貿(mào)易

F8財(cái)政、金融

F81財(cái)政、國(guó)家財(cái)政

F82貨幣

F83金融、銀行

F84保險(xiǎn)

1/11/202324《第二章信息檢索教程》中國(guó)圖書(shū)館圖書(shū)分類法

T工業(yè)技術(shù)

TB一般工業(yè)技術(shù)TL原子能技術(shù)

TD礦業(yè)工程TM電工技術(shù)

TE石油、天然氣工業(yè)TN無(wú)線電電子學(xué)、電訊技術(shù)

TF冶金工業(yè)TP自動(dòng)化技術(shù)、計(jì)算機(jī)

TG金屬學(xué)、金屬工藝TQ化學(xué)工業(yè)

TH機(jī)械、儀表TS輕工業(yè)、手工業(yè)

TJ武器工業(yè)TU建筑科學(xué)

TK動(dòng)力工程TV水利工程

1/11/202325《第二章信息檢索教程》圖書(shū)館的藏書(shū)都是按分類號(hào)排架的。分類號(hào)的排列采用由左至右逐位對(duì)比的方法進(jìn)行排列,先比較字母部分,再比較數(shù)字部分。

——字母部分按英文字母固有的次序排列。例:

B2中國(guó)哲學(xué)

B3世界哲學(xué)

E27各種武裝力量

E512蘇聯(lián)軍事

TM92電氣化、電能應(yīng)用

TU201建筑設(shè)計(jì)原理

——分類號(hào)中的阿拉伯?dāng)?shù)字依小數(shù)制排列。例:

B021辯證唯物主義的物質(zhì)論

B022辯證唯物主義的意識(shí)論

B022.2客觀規(guī)律性與主觀能動(dòng)性

D035.37交通公安管理

D035.4監(jiān)察、監(jiān)督分類號(hào)的排列次序

1/11/202326《第二章信息檢索教程》分類號(hào)的排列次序

(續(xù))

——數(shù)字之后如還有字母,則在前部類號(hào)相同的基礎(chǔ)上,再按字母順序排列。例:

TP312ALALGOL程序語(yǔ)言

TP312BABASIC程序語(yǔ)言

TP312COCOBOL程序語(yǔ)言

——總論復(fù)分號(hào)“-”要排在數(shù)字“0”的前面。例:

H-61,H0,…,H31-61,H310,…——總論復(fù)分號(hào)“-”要排在組配符號(hào)“:”的前面。例:

H31,H31-62,H31:F,H31:I,…,H319,H319.4,H319.4-44,H319.4:B,H319.4:C,…1/11/202327《第二章信息檢索教程》讀者實(shí)際利用圖書(shū)館時(shí),往往需要知道書(shū)刊的分類號(hào)和索書(shū)號(hào)(又稱索取號(hào))。索書(shū)號(hào)是圖書(shū)館賦予每一種館藏圖書(shū)的號(hào)碼,是讀者查找圖書(shū)非常必要的代碼信息。它的第一部分是分類號(hào),第二部分是書(shū)次號(hào)。索書(shū)號(hào)的兩部分之間有一個(gè)空格或一條斜線“/”。書(shū)次號(hào)或者是按照?qǐng)D書(shū)作者姓名所編排的著者號(hào)碼,或者是按照?qǐng)D書(shū)進(jìn)入館藏時(shí)間的先后所取用的順序號(hào)碼。

——不同的索書(shū)號(hào)確定排列先后順序的步驟是,先比較分類號(hào)碼;如分類號(hào)碼相同再比較著者號(hào)碼或順序號(hào)碼。分類號(hào)比較:先英文字母排,后阿拉伯?dāng)?shù)字按小數(shù)制排。分類號(hào)中“-”排在0之前,例如:先排F-43再排F0。分類號(hào)的數(shù)字排列比較采用對(duì)位比較法,字符序列以ASCII字符集為依據(jù)。比如:B11、B111、B112、B12,書(shū)次號(hào)的數(shù)字排列比較采用自然順序排列方法,即1,2,3,...,9,10,11,...,99,100,101,…。分類號(hào)和索書(shū)號(hào)1/11/202328《第二章信息檢索教程》重新排列以下索取號(hào)的順序TP3/1044

TP3-43/3060TP311.13/1713

TP311.13/9091

TP393/4027

TP393/7732

TP393-43/4723

1/11/202329《第二章信息檢索教程》主題語(yǔ)言

①關(guān)鍵詞語(yǔ)言是直接選用文獻(xiàn)中的自然語(yǔ)言作基本詞匯,并將那些能夠揭示文獻(xiàn)題名或主要意旨的關(guān)鍵性自然語(yǔ)詞作為關(guān)鍵詞進(jìn)行標(biāo)引的一種檢索語(yǔ)言。例如:“國(guó)際聯(lián)機(jī)檢索概論”中的“國(guó)際聯(lián)機(jī)檢索”、“國(guó)際聯(lián)機(jī)”、“聯(lián)機(jī)”、“檢索”都是能描述這篇文獻(xiàn)主題的關(guān)鍵詞,都可以作為檢索詞。②標(biāo)題詞語(yǔ)言是最早使用的一種主題語(yǔ)言,它以規(guī)范化的自然語(yǔ)義作為標(biāo)識(shí),來(lái)表達(dá)信息涉及的主題概念,并將全部標(biāo)識(shí)按字母順序排列。例如:一篇文章用“微型計(jì)算機(jī)”這個(gè)術(shù)語(yǔ)來(lái)敘述它的研究對(duì)象,另一篇文章用“微型電腦”來(lái)敘述,第三篇文章用“微機(jī)”來(lái)敘述,雖然都表示同一概念,這時(shí)就不能直接用“微型電腦”或“微機(jī)”來(lái)作標(biāo)題詞,這三篇文章都必須用“微型計(jì)算機(jī)”作標(biāo)題詞(實(shí)際上是“主標(biāo)題詞”,根據(jù)主題詞表決定)。1/11/202330《第二章信息檢索教程》主題語(yǔ)言

③單元詞語(yǔ)言是在標(biāo)題詞語(yǔ)言基礎(chǔ)上發(fā)展起來(lái)的一種規(guī)范化檢索語(yǔ)言。單元詞(uniterm)是一種最基本的、不能再分的詞匯單位,亦稱元詞。它也是從文獻(xiàn)內(nèi)容中抽出,并經(jīng)過(guò)規(guī)范化處理,代表一個(gè)獨(dú)立的概念。例如:“計(jì)算機(jī)”、“軟件”。④敘詞語(yǔ)言是以自然語(yǔ)言為基礎(chǔ),以概念組配為基本原理,并經(jīng)過(guò)規(guī)范化處理,表達(dá)主題的最小概念單元,作為信息存儲(chǔ)和檢索依據(jù)的一種檢索語(yǔ)言。只有經(jīng)過(guò)規(guī)范化處理,滿足一詞一義一型要求的詞才能稱為敘詞(descriptor)。例如:在敘詞語(yǔ)言的檢索系統(tǒng)中用“計(jì)算機(jī)”這個(gè)詞進(jìn)行檢索,即使題名字段沒(méi)有“計(jì)算機(jī)”這個(gè)詞(如有同義詞“電腦”)的文章,也可以被檢索出來(lái),不必進(jìn)行同義詞替換即可查全。1/11/202331《第二章信息檢索教程》主題語(yǔ)言主題語(yǔ)言(標(biāo)題詞、單元詞、敘詞)的規(guī)范化處理:①詞義規(guī)范:對(duì)同義詞(如計(jì)算機(jī)與電腦)、近義詞(如實(shí)驗(yàn)與試驗(yàn))、學(xué)名和俗名(如發(fā)動(dòng)機(jī)與馬達(dá))、不同譯名(激光與萊塞)、簡(jiǎn)稱與全稱(如中國(guó)與中華人民共和國(guó))、不同寫(xiě)法(如X射線與愛(ài)克斯射線)等進(jìn)行選擇;對(duì)多義詞、同形異義詞進(jìn)行限定說(shuō)明,如杜鵑既表示一種鳥(niǎo),也表示一種花,就須限定說(shuō)明為,杜鵑(動(dòng)物)、杜鵑(植物)。②詞類規(guī)范:即確定詞類的范圍。能用作敘詞的詞類一般要求控制在具有實(shí)質(zhì)意義的名詞或動(dòng)名詞的范圍之內(nèi)。③詞形規(guī)范:即對(duì)詞的繁簡(jiǎn)體、詞序、字母符號(hào)等的規(guī)定。1/11/202332《第二章信息檢索教程》代碼語(yǔ)言代碼語(yǔ)言是指對(duì)事物的某方面特征,用某種代碼系統(tǒng)來(lái)表示和排列事物概念,從而提供檢索的檢索語(yǔ)言。例如:根據(jù)化合物的分子式這種代碼語(yǔ)言,可以構(gòu)成分子式索引系統(tǒng),允許用用戶從分子式出發(fā),檢索相應(yīng)的化合物及其相關(guān)的信息。1/11/202333《第二章信息檢索教程》自然語(yǔ)言自然語(yǔ)言是直接從原始信息中抽取出來(lái)的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語(yǔ)言。抽取出來(lái)的詞包括自由詞、關(guān)鍵詞、事物名稱、科學(xué)術(shù)語(yǔ)、俗名、商品型號(hào)和縮寫(xiě)等,具有不用編制詞表,及時(shí)跟上事物發(fā)展,準(zhǔn)確表達(dá)事物新概念,選詞靈活方便,專指性強(qiáng),標(biāo)引和檢索速度快等優(yōu)點(diǎn)。例如:如有人輸入:howtocontroldriversofharddisk,檢索系統(tǒng)會(huì)自動(dòng)提取檢索詞,然后進(jìn)行過(guò)濾和檢索。

1/11/202334《第二章信息檢索教程》文獻(xiàn)內(nèi)容特征文獻(xiàn)外表特征分類語(yǔ)言代碼語(yǔ)言主題語(yǔ)言題名索引著者索引機(jī)構(gòu)索引刊名索引檢索語(yǔ)言檢索語(yǔ)言的分類1/11/202335《第二章信息檢索教程》1/11/202336檢索標(biāo)識(shí):著者姓名常用限制字段:au,作者,第一作者英文數(shù)據(jù)庫(kù)經(jīng)常對(duì)著者姓名的格式進(jìn)行規(guī)范化處理。著者姓名的轉(zhuǎn)換:姓全稱在前,名首字母在后

JasonSmithsmithjHenryM.Williamswilliams

hmClinton,JaffersonB.clinton

jb

劉國(guó)華liu

gh單名著者檢索應(yīng)使用精確匹配。著者檢索語(yǔ)言1/11/202336《第二章信息檢索教程》1/11/2023復(fù)旦大學(xué)圖書(shū)館文獻(xiàn)檢索教研室37著者檢索:WEBOFSCIENCE檢索顧玉東教授發(fā)表的文獻(xiàn),輸入:guyd1/11/202337《第二章信息檢索教程》題名檢索語(yǔ)言檢索標(biāo)識(shí):論文標(biāo)題常用限制字段:ti,題名,篇名檢索時(shí),抽取論文題名中的實(shí)義詞1/11/202338《第二章信息檢索教程》在信息存儲(chǔ)過(guò)程中分類號(hào):S511.103.4記錄號(hào):96017590著者:徐建龍等篇名:水道白葉枯病抗性基因Xa-21的初步利用刊名:浙江農(nóng)業(yè)學(xué)報(bào)信息出處:—96.8(2).—70—73主題詞:遺傳效應(yīng)育種白葉枯病水稻抗病性信息文獻(xiàn)通過(guò)標(biāo)引、著錄形成信息數(shù)據(jù)庫(kù)中的一條記錄。1/11/202339《第二章信息檢索教程》在信息檢索過(guò)程中檢索式:篇名=納米雷達(dá)并且第一作者=蔣立勇1/11/202340《第二章信息檢索教程》

3.3檢索方法及檢索途徑

3.3.1檢索方法

查找(Searching)就是實(shí)施檢索策略、搜尋所得文獻(xiàn)信息的過(guò)程。以下幾種方法,無(wú)論是計(jì)算機(jī)還是手工檢索,都是常用的方法。

“拉網(wǎng)法”

在不了解查詢某一專題信息的URL地址時(shí),可從提供信息總目的Web頁(yè)面開(kāi)始瀏覽,沿著專題鏈接層層查找,直至找到有關(guān)的內(nèi)容為止。然后用“書(shū)簽”保存這個(gè)頁(yè)面的URL,轉(zhuǎn)向另一個(gè)分支。這種方法可以迅速獲得較多的相關(guān)地址,然后進(jìn)行篩選。就使用引擎而言,國(guó)外專家也建議先用鏈接頁(yè)面多、響應(yīng)時(shí)間快的引擎。1/11/202341《第二章信息檢索教程》引文法(跟蹤法)

文獻(xiàn)之間的引證和被引證關(guān)系揭示了文獻(xiàn)之間存在的某種內(nèi)在聯(lián)系,引文法(也有稱為跟蹤法)就是利用文獻(xiàn)后所附的參考文獻(xiàn)、相關(guān)書(shū)目、推薦文章和引文注釋查找相關(guān)文獻(xiàn)的方法。這些材料指明了與用戶需求最密切的文獻(xiàn)線索,往往包含了相似的觀點(diǎn)、思路、方法,具有啟發(fā)意義。

1/11/202342《第二章信息檢索教程》

引文法又可分為兩種,一種是由遠(yuǎn)及近地搜尋,即找到一篇有價(jià)值的論文后進(jìn)一步查找該論文被哪些其它文獻(xiàn)引用過(guò),以便了解后人對(duì)該論文的評(píng)論、是否有人對(duì)此作過(guò)進(jìn)一步研究、實(shí)踐結(jié)果如何、最新的進(jìn)展怎樣等等。由遠(yuǎn)及近地追尋,越查資料越新,研究也就越深入,但這種查法主要依靠專門的引文索引,如《科學(xué)引文索引》、《社會(huì)科學(xué)引文索引》。1/11/202343《第二章信息檢索教程》

另一種較為普遍的查法是由近及遠(yuǎn)地追溯,這樣由一變十,由十變百地獲取更多相關(guān)文獻(xiàn),直到滿足要求為止。這種方法適合于歷史研究或?qū)Ρ尘百Y料的查詢,其缺點(diǎn)是越查材料越舊,追溯得到的文獻(xiàn)與現(xiàn)在的研究專題越來(lái)越疏遠(yuǎn)。因此,最好是選擇綜述、評(píng)論和質(zhì)量較高的專著作為起點(diǎn),它們所附的參考文獻(xiàn)篩選嚴(yán)格,有時(shí)還附有評(píng)論。1/11/202344《第二章信息檢索教程》復(fù)旦大學(xué)圖書(shū)館文獻(xiàn)檢索教研室【參考文獻(xiàn)】1.張嗣芳,汪晶瑩,柳秋云,等干擾素α2b短療程治療98例腎綜合癥出血熱[J]中華傳染病雜志,2000,18:572.楊為松,黃長(zhǎng)形.腎綜合癥出血熱研究的現(xiàn)狀與未來(lái)[J]中華傳染病雜志,1996,14:1913.王耀宗,徐偉,李莉,等W腎綜合癥出血熱抗病毒治療的實(shí)驗(yàn)研究[J]W中華傳染病雜志,1994,12:69引文回溯例:馮智霖,徐邦強(qiáng).干擾素α-1b治療腎綜合癥出血熱的臨床療效.中國(guó)臨床藥學(xué)雜志.2003,12(1):9-10參考文獻(xiàn)1/11/202345《第二章信息檢索教程》常規(guī)法

所謂常規(guī)法就是利用常規(guī)檢索工具查找有關(guān)文獻(xiàn)的方法,是信息時(shí)代應(yīng)掌握的最基本的信息查找方法?,F(xiàn)在對(duì)文獻(xiàn)的書(shū)目控制手段已日趨完善,各種印刷版、縮微版、光盤(pán)版和網(wǎng)絡(luò)版的檢索工具層出不窮,有很大的挑選余地。用戶應(yīng)根據(jù)自己的檢索知識(shí)和條件選用一種或幾種檢索工具。常規(guī)法可分為順查法、逆查法和抽查法。

1/11/202346《第二章信息檢索教程》3.3.2信息檢索的途徑所謂檢索途徑就是檢索時(shí)切入信息群體的路徑。檢索途徑有兩大類,一類是用信息的外部特征,如題名、責(zé)任者、某種序號(hào)、機(jī)構(gòu)名等作為檢索標(biāo)識(shí);另一類是用能夠描述信息內(nèi)容的分類號(hào)、關(guān)鍵詞、主題詞等作為檢索標(biāo)識(shí)。在數(shù)據(jù)庫(kù)中檢索時(shí),幾乎所有的字段都可以作為檢索的途徑。1/11/202347《第二章信息檢索教程》檢索語(yǔ)言與檢索途徑的關(guān)系

1/11/202348《第二章信息檢索教程》分類檢索

這種檢索是根據(jù)信息內(nèi)容的學(xué)科分類來(lái)進(jìn)行的。最大的優(yōu)點(diǎn)能保證信息的系統(tǒng)性,而且具有較好的族性檢索功能。分類檢索的要點(diǎn):1。對(duì)待檢課題的概念及學(xué)科間的各種關(guān)系清楚;2。正確掌握相關(guān)課題的分類名稱、分類號(hào),手工檢索中掌握工具的分類排檢。

1/11/202349《第二章信息檢索教程》分類檢索的步驟:1.分析待檢課題,確定其學(xué)科,并弄清學(xué)科間的

各種關(guān)系。2.查出待檢課題的分類號(hào)(工具簡(jiǎn)單時(shí)可以省略)3.選擇適當(dāng)?shù)臋z索工具4.進(jìn)入檢索系統(tǒng)后選擇分類號(hào)途徑,并在對(duì)話框內(nèi)

輸入分類號(hào),開(kāi)始檢索。5.對(duì)比題目,閱覽相關(guān)信息,選出所需信息,并下

載相關(guān)信息6.原文的索取1/11/202350《第二章信息檢索教程》復(fù)旦大學(xué)圖書(shū)館文獻(xiàn)檢索教研室分類列表分類檢索——瀏覽學(xué)科、專業(yè)信息1/11/202351《第二章信息檢索教程》詞匯檢索與分類號(hào)檢索相比,詞匯檢索具有直觀、靈活、專指性和適應(yīng)性好的特點(diǎn),同時(shí)檢索速度也比分類檢索快。

詞匯檢索的要點(diǎn):首先是要選好檢索詞,正確理解詞間關(guān)系,檢索中還要注意詞間關(guān)系的正確表達(dá)。常用的詞匯檢索有關(guān)鍵詞檢索和主題檢索。計(jì)算機(jī)檢索時(shí),選擇任意字段檢索時(shí),檢索項(xiàng)也可以是各種詞匯。1/11/202352《第二章信息檢索教程》

詞匯檢索的步驟:

a、分析課題,確定檢索詞及詞間關(guān)系

b、選擇適當(dāng)?shù)臋z索工具

c、選擇詞匯檢索途徑,在對(duì)話框內(nèi)輸入檢索詞

(注意詞間關(guān)系的表達(dá))

d、根據(jù)快捷顯示,選出有用信息并下載。

e、原文的索取1/11/202353《第二章信息檢索教程》責(zé)任者途徑:①姓前名后,名縮寫(xiě);②姓名中的“De”、“Von”、“Della”等前綴,與姓一起按字順排,如DeLeferore,AlfredVonKampf;③團(tuán)體機(jī)構(gòu)名稱名按名稱字順排。號(hào)碼途徑:號(hào)碼包括編號(hào)(number)、代碼(code)等,特定的號(hào)碼如:技術(shù)標(biāo)準(zhǔn)的標(biāo)準(zhǔn)號(hào),專利說(shuō)明書(shū)的專利號(hào),科技報(bào)告的報(bào)告號(hào),學(xué)會(huì)的會(huì)議論文連續(xù)號(hào),或合同號(hào)、任務(wù)號(hào)、國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)(ISBN)、國(guó)際標(biāo)準(zhǔn)刊號(hào)(ISSN),以及文獻(xiàn)收藏單位編的館藏號(hào)、索取號(hào)、排架號(hào)等,都可以此作為檢索點(diǎn)。1/11/202354《第二章信息檢索教程》其他檢索途徑1、題名檢索

包括書(shū)名、刊名、篇名和其他信息的標(biāo)

題等2、機(jī)構(gòu)3、來(lái)源4、其他特殊途徑1/11/202355《第二章信息檢索教程》4常用的檢索技術(shù)

檢索技術(shù)是指應(yīng)用于信息檢索過(guò)程的原理、技術(shù)、方法、策略的總稱,是檢索系統(tǒng)為了提高檢索效率,從概念相關(guān)性、位置相關(guān)性等方面對(duì)檢索提問(wèn)進(jìn)行組配、加權(quán)、擴(kuò)展、截詞、鄰近、限定的比較和運(yùn)算處理技術(shù)。

1/11/202356《第二章信息檢索教程》布爾檢索布爾檢索(booleanretrieval)是用布爾邏輯算符將檢索詞、短語(yǔ)或代碼進(jìn)行邏輯組配的一種技術(shù),也是目前最常用的一種檢索技術(shù)。1/11/202357《第二章信息檢索教程》邏輯“與”具有概念交叉或概念限定關(guān)系的組配,用“*”或“AND”算符表示(少數(shù)工具用“+”或空格表示)。

檢索詞A和檢索詞B用“與”組配,檢索式為:

AANDB,或者A*B它表示檢出同時(shí)含有A、B兩個(gè)檢索詞的記錄。

1/11/202358《第二章信息檢索教程》用運(yùn)算符號(hào):AND或*連接檢索詞例查“有關(guān)計(jì)算機(jī)在圖書(shū)館中的應(yīng)用”的文獻(xiàn),檢索式=計(jì)算機(jī)*圖書(shū)館例查“豬的飼養(yǎng)”檢索式=豬*飼養(yǎng)1/11/202359《第二章信息檢索教程》邏輯“或”邏輯“或”是一種具有概念并列關(guān)系的組配,用“+”或“OR”算符表示(也有用“|”或“/”表示)。檢索詞A和檢索詞B用“或”組配,檢索式為:

AORB,或者A+B它表示檢出所有含有A詞或者B詞的記錄。1/11/202360《第二章信息檢索教程》

例1查“蘋(píng)果或梨”方面的文獻(xiàn)

檢索式=蘋(píng)果+梨它在同義詞檢索中使用,能提高查全率。

例2查“計(jì)算機(jī)或機(jī)器人”方面的文獻(xiàn)

檢索式=計(jì)算機(jī)+機(jī)器人1/11/202361《第二章信息檢索教程》邏輯“非”

邏輯“非”是一種具有概念排除關(guān)系的組配,用“–”或“NOT”算符表示。檢索詞A和檢索詞B用“非”組配,檢索式為:

ANotB,或者A-B它表示檢出含有A詞,但同時(shí)不含B詞的記錄。

1/11/202362《第二章信息檢索教程》用運(yùn)算符號(hào)“NOT”或“—”連接兩檢索詞AANDNOTB

有的書(shū)上也稱為“與非”關(guān)系,即“邏輯乘”與“邏輯非”例1查“玉米但不是甜玉米”方面的文獻(xiàn)。

檢索式=玉米—甜玉米

例2查“不是鉻合金”方面的文獻(xiàn)。

檢索式=合金—鉻

1/11/202363《第二章信息檢索教程》

截詞檢索

截詞檢索(truncationretrieval)是指在檢索詞的適當(dāng)位置截?cái)?,用截?cái)嗟脑~的一個(gè)局部進(jìn)行的檢索。由于檢索詞與數(shù)據(jù)庫(kù)所存儲(chǔ)信息字符是部分一致性匹配,所以又稱部分一致檢索。由于西文的構(gòu)詞特性:?jiǎn)螐?fù)數(shù)形式不一致、英美拼寫(xiě)不一致、詞干+前綴、詞干+后綴。檢索時(shí),計(jì)算機(jī)會(huì)將所有含有相同部分標(biāo)識(shí)的記錄全部檢索出來(lái)。在西文檢索系統(tǒng)中,使用截詞符處理自由詞,對(duì)提高查全率的效果非常顯著。截詞符多采用通配符“?”、“$”、“*”等,因此,截詞檢索有時(shí)也稱為通配符(wildcard)檢索。1/11/202364《第二章信息檢索教程》截詞檢索的方式按截?cái)嗟奈恢脕?lái)分:前截?cái)?;中截?cái)?;后截?cái)喟唇財(cái)嗟淖址麛?shù)量來(lái)分:無(wú)限截?cái)?;有限截?cái)?/11/202365《第二章信息檢索教程》后截?cái)嘀薪財(cái)嗲敖財(cái)酂o(wú)限截?cái)嗳?economic???有限截?cái)嘟卦~檢索與截詞檢索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如:economic*如:wom?nwomanwomen一般僅允許有限截?cái)嗳??lish

sul*ur

sulfursulphur

無(wú)限截?cái)嘤邢藿財(cái)嗲昂蠼財(cái)嗳??computer?可檢出:computer、computers、computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers

1/11/202366《第二章信息檢索教程》鄰近檢索(proximityretrieval),又稱為“位置檢索”、“詞位檢索”、“全文檢索”。是一種可以不依賴敘詞表而直接使用自由詞進(jìn)行檢索的一種技術(shù),它以數(shù)據(jù)庫(kù)原始記錄中詞語(yǔ)的相對(duì)次序或者位置關(guān)系為對(duì)象進(jìn)行組配運(yùn)算。鄰近檢索

1/11/202367《第二章信息檢索教程》(W)與(nW)算符

(W)算符是“With”的縮寫(xiě),表示此算符兩側(cè)的檢索詞必須按此前后鄰接的順序排列,順序不可顛倒,而且檢索詞之間不允許有其他的詞或字母,但允許有空格或連字符號(hào)。例如:輸入gas(W)condensate可檢索出包含gascondensate和gas-condensate的記錄。(nW)算符是“nWords”的縮寫(xiě),表示此算符兩側(cè)的檢索詞之間允許插入n個(gè)實(shí)詞或虛詞,但兩個(gè)檢索詞的次序還是不能顛倒。例如:laser(1W)printer可檢索出包含“l(fā)aserprinter”、“l(fā)asercolorprinter”和“l(fā)aserandprinter”的記錄。1/11/202368《第二章信息檢索教程》(N)與(nN)算符

(N)算符是“Near”的縮寫(xiě),表示此算符兩側(cè)的檢索詞彼此必須相鄰接,但兩個(gè)檢索詞的前后關(guān)系可以顛倒,即查找兩個(gè)連在一起的單詞,但兩詞之間不能插入任何詞。例如:money(N)supply

可檢索出包含moneysupply和supplymoney兩個(gè)詞組的記錄。1/11/202369《第二章信息檢索教程》(nN)

算符是“nNear”的縮寫(xiě),表示此算符兩邊的檢索詞之間插入詞的最多數(shù)目是

n

個(gè),且兩個(gè)檢索詞的次序可以任意顛倒。例如:economic(2N)recovery

可以檢出包含economicrecovery、recoveryoftheeconomy、recoveryfromeconomictroubles的記錄。1/11/202370《第二章信息檢索教程》(S)算符

(S)算符是“Sub-field/Sentence”的縮寫(xiě),表示在此運(yùn)算符兩側(cè)的檢索詞只要出現(xiàn)在記錄的同一個(gè)子字段內(nèi)(例如在文摘中的一個(gè)句子就是一個(gè)子字段),此信息即被命中。要求被連接的檢索詞必須同時(shí)出現(xiàn)在記錄的同一句子(同一子字段)中,不限制它們?cè)诖俗幼侄沃械南鄬?duì)次序,中間插入詞的數(shù)量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中檢索出含有“highstrength和steel”形式的均為命中記錄。1/11/202371《第二章信息檢索教程》(F)算符

(F)

算符是“Field”的縮寫(xiě),表示在此運(yùn)算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在文獻(xiàn)記錄的同一字段內(nèi),如出現(xiàn)在篇名字段、文摘字段、敘詞字段、自由詞字段,但兩個(gè)詞的前后順序不限,夾在兩個(gè)詞之間的詞的個(gè)數(shù)也不限。要求被連接的檢索詞出現(xiàn)在統(tǒng)一的字段中,字段類型和詞序均不限。例如:environmental(F)impact/DE,TI表示這兩個(gè)詞必須同時(shí)出現(xiàn)在敘詞字段和篇名字段中。1/11/202372《第二章信息檢索教程》字段限定檢索

使用鄰近檢索,只能限制檢索詞之間的相對(duì)位置,不能完全確定檢索詞在數(shù)據(jù)庫(kù)記錄中出現(xiàn)的字段位置,特別在使用自由詞進(jìn)行全文檢索時(shí),需要用字段限制查找的范圍。使用截詞檢索,簡(jiǎn)化了布爾檢索中的邏輯“或”功能,但并沒(méi)有改善布爾檢索的性質(zhì)。字段限定檢索(fieldlimitingretrieval)是用于限定提問(wèn)關(guān)鍵詞在數(shù)據(jù)庫(kù)記錄中出現(xiàn)的區(qū)域,控制檢索結(jié)果的相關(guān)性,是提高檢索效果的一種有效檢索方法。1/11/202373《第二章信息檢索教程》字段代碼字段名

表示方法TITitleapple?intiABAbstractmachineinab

DEDescriptorsbuildingindeAUAuthorau=liuBNISBNbn=0-5635-0144-4CCCALClassification(分類號(hào))

cc=921CDConferenceDatecd=19960501CLConferenceLocation(會(huì)址)cl=hangzhouCTConferenceTitlect=roboticsandautomationCYConferenceYearcy=1996DTDocumentTypedt=bookLALanguagela=englishPYPublicationYearpy>=1990SNISSNsn=1060=9857SOSourcePublicationso=power1/11/202374《第二章信息檢索教程》

例如:(minicomputer/DE,TIORpersonalcomputer/ID,TI)ANDPY=2008ANDLA=English這個(gè)檢索式所表達(dá)的檢索要求是:查找2008年出版的關(guān)于微電腦或者個(gè)人電腦的英文文獻(xiàn),并要求“微電腦”一詞在命中文獻(xiàn)的敘詞字段、標(biāo)題字段出現(xiàn),“個(gè)人電腦”一詞在命中文獻(xiàn)的自由詞字段出現(xiàn)。在互聯(lián)網(wǎng)搜索引擎中,限定字段也是常用的語(yǔ)法。例如,“filetype:”表示在某種文件類型(如doc、pdf)中查找資料。詳細(xì)的介紹請(qǐng)參見(jiàn)搜索引擎部分。1/11/202375《第二章信息檢索教程》5信息檢索的基本步驟

分析檢索課題1.主題概念2.信息類型3.時(shí)間范圍4.檢索目的構(gòu)造檢索式(試驗(yàn)性檢索)1.簡(jiǎn)單提問(wèn)式2.上下文提問(wèn)式3.復(fù)合提問(wèn)式4.結(jié)構(gòu)性提問(wèn)式調(diào)整檢索策略(正式檢索)1,信息量過(guò)多時(shí)2.信息量太少時(shí)輸出檢索結(jié)果1.文摘2.全文選擇檢索系統(tǒng)1.學(xué)科范圍2.系統(tǒng)類型3.系統(tǒng)功能

確定檢索詞

1.切分2.刪除3.替補(bǔ)4.組合5.增加用戶評(píng)價(jià)

1/11/202376《第二章信息檢索教程》1分析檢索課題

例如:查找有關(guān)消防的文獻(xiàn)。所有的“消防”文獻(xiàn)?還是只需有關(guān)“消防事業(yè)”、“消防隊(duì)伍”、“消防設(shè)施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文獻(xiàn)?(主題分析和檢索目的)需要一般的文獻(xiàn)資料?還是比較專深的文獻(xiàn)?需要科技論文?還是專利、標(biāo)準(zhǔn)、數(shù)據(jù)等?(信息類型)需要新穎的信息?或者是與別人的研究進(jìn)行先進(jìn)性比較?還是系統(tǒng)的學(xué)科知識(shí)?(時(shí)間范圍)——需要系統(tǒng)地掌握某學(xué)科的知識(shí),可以選擇圖書(shū);——需要撰寫(xiě)研究項(xiàng)目的開(kāi)題報(bào)告、論文,開(kāi)展技術(shù)攻關(guān),可以選擇研究報(bào)告、科技論文、學(xué)位論文、會(huì)議文獻(xiàn)等;——需要進(jìn)行發(fā)明創(chuàng)造、工藝改革、新產(chǎn)品設(shè)計(jì)、引進(jìn)設(shè)備、簽訂合同,可以選擇專利說(shuō)明書(shū)、標(biāo)準(zhǔn)文獻(xiàn)、產(chǎn)品資料等。1/11/202377《第二章信息檢索教程》2選擇檢索系統(tǒng)

學(xué)科范圍。對(duì)于交叉學(xué)科、新興學(xué)科、應(yīng)用研究、綜合研究,不應(yīng)局限于某一學(xué)科范圍,可根據(jù)情況適當(dāng)擴(kuò)大檢索系統(tǒng)的學(xué)科范圍。例如,石油和礦業(yè)工程的力學(xué)計(jì)算方面的課題,也可以考慮數(shù)學(xué)、物理學(xué)、計(jì)算機(jī)信息科學(xué)、機(jī)械工程方面的數(shù)據(jù)庫(kù)。擴(kuò)大檢索系統(tǒng)的學(xué)科范圍有時(shí)會(huì)帶來(lái)意外的收獲。系統(tǒng)類型。首先,在不同的文獻(xiàn)類型系統(tǒng)中選擇。其次,要在文摘、索引系統(tǒng)和全文數(shù)據(jù)庫(kù)系統(tǒng)之間選擇。第三,在專業(yè)性數(shù)據(jù)庫(kù)中去查找。系統(tǒng)功能。一般說(shuō)來(lái),使用分類語(yǔ)言、主題語(yǔ)言的檢索系統(tǒng),要優(yōu)于使用自然語(yǔ)言的檢索系統(tǒng),專業(yè)檢索系統(tǒng)要優(yōu)于搜索引擎。檢索途徑、檢索方式(如分類瀏覽、簡(jiǎn)單檢索、高級(jí)檢索、專家檢索、自然語(yǔ)言檢索)多,收錄時(shí)間跨度長(zhǎng),來(lái)源語(yǔ)種、國(guó)別多,文本(數(shù)據(jù))質(zhì)量高,附加個(gè)性化服務(wù),檢索系統(tǒng)就更值得選擇。1/11/202378《第二章信息檢索教程》3確定檢索詞

1.切分切分是對(duì)課題的語(yǔ)句以自由詞為單位進(jìn)行拆分,轉(zhuǎn)換為檢索的最小單元。自由詞切分僅適用于自然語(yǔ)言檢索。例1:檢索“婦女吸煙與肺癌的關(guān)系研究”相關(guān)文獻(xiàn)。直接切分:婦女|吸煙|與|肺癌|的|關(guān)系|研究)注意,切分到詞為止,詞是語(yǔ)義切分的最小單元,當(dāng)詞切分后將失去原來(lái)的意思時(shí),不應(yīng)再切分,即必須注意保持意義的完整。如“中國(guó)科學(xué)院”、“電子郵件”不可再切分。1/11/202379《第二章信息檢索教程》確定檢索詞2.刪除刪除是對(duì)自然語(yǔ)言中不具有實(shí)質(zhì)性檢索意義的虛詞(如介詞、連詞、副詞等),或者使用頻率較低的詞,或者專指性太高、過(guò)分寬泛的詞,或者過(guò)分具體的限定詞、禁用詞,或者不能表達(dá)課題實(shí)質(zhì)的高頻詞,或者存在蘊(yùn)含關(guān)系可以合并的詞,一律予以刪除,使自然語(yǔ)言轉(zhuǎn)換成為關(guān)鍵詞和主題詞的集合。如上例中的“與”、“的”、“關(guān)系”、“研究”。例2:檢索“中國(guó)非常規(guī)天然氣工業(yè)的發(fā)展前景研究”方面的相關(guān)文獻(xiàn)。進(jìn)行拆分以后,工業(yè)、發(fā)展、前景、研究這四個(gè)自由詞具有一定的檢索意義,但是由于或者是意義過(guò)于寬泛、或者是不能表達(dá)課題實(shí)質(zhì)、或者是存在蘊(yùn)含關(guān)系的原因,沒(méi)有必要全部作為檢索詞,根據(jù)需要可以保留1-2個(gè)作為檢索詞。1/11/202380《第二章信息檢索教程》例:“中國(guó)改革開(kāi)放三十年的得與失””得“,”失“專指性太高,如用作檢索詞會(huì)漏檢如:“成就與失誤”、“回顧與展望”等的文獻(xiàn)。思考:檢索”高血壓病人的治療“方面的文獻(xiàn)如何確定檢索詞1/11/202381《第二章信息檢索教程》確定檢索詞3.替補(bǔ)替補(bǔ)就是在進(jìn)行切分、刪除后,對(duì)檢索詞進(jìn)行替換和補(bǔ)充?!肮弧睉?yīng)替換為:公共交通;“綠色包裝”中的“綠色”,應(yīng)替換為:環(huán)保、無(wú)污染;“煤氣中毒”應(yīng)替換為:一氧化碳中毒;“非典”應(yīng)考慮補(bǔ)充:SARS、非典型肺炎、傳染性非典型肺炎、嚴(yán)重急性呼吸綜合征(severeacuterespiratorysyndrome);“非常規(guī)天然氣”(nonconventionalnaturalgas)應(yīng)考慮補(bǔ)充:煤層氣、(天然氣)水合物、頁(yè)巖氣、深層氣、致密巖氣、水溶氣、沼氣,同時(shí)考慮將“氣”應(yīng)替換為:天然氣(naturalgas)、甲烷(methane)、CH4

、CH4;1/11/202382《第二章信息檢索教程》確定檢索詞4.組合

①概念相交組合。這個(gè)新概念是原來(lái)用以組合的兩個(gè)概念的下位概念,如曲柄連桿機(jī)構(gòu)*發(fā)動(dòng)機(jī)=汽車發(fā)動(dòng)機(jī)。②概念限定組合。這個(gè)新概念可用來(lái)表示這一事物的某一屬性或某一個(gè)方面。如電視機(jī)*數(shù)字化=數(shù)字電視機(jī)。以上兩種組配方式,所得到的新概念,都是原組概念的下位概念,縮小了檢索范圍,提高了概念的專指度,達(dá)到提高檢準(zhǔn)率的目的。③概念并列組合。具有概念并列關(guān)系的自由詞間的組配,其結(jié)果使概念檢索的范圍擴(kuò)大,如環(huán)境污染+環(huán)境保護(hù)=環(huán)境污染和環(huán)境保護(hù)。④概念刪除組合。是指兩個(gè)具有上下位關(guān)系的自由詞間的組合,其結(jié)果使概念檢索的范圍縮小,如信息處理-模擬信息處理=數(shù)字信息處理。1/11/202383《第二章信息檢索教程》確定檢索詞5.增加增加“限義詞”。有兩種方法:直接增加限義詞、挖掘隱含詞、提取潛在的檢索詞;把限義詞以邏輯的方式加入,可采用邏輯“與”或邏輯“非”的方法增加限義詞。分析隱含概念。挖掘潛在的主題詞還可以通過(guò)對(duì)上位詞、下位詞、同類詞關(guān)系的分析得到其它相關(guān)主題詞。如例1:“婦女吸煙與肺癌的關(guān)系研究”,切分、刪除后得:吸煙、肺癌兩個(gè)檢索詞,分析、補(bǔ)充上位詞可增加檢索詞:煙、癌癥、惡性腫瘤。例3:檢索“一種新的天線陣方向圖綜合方法”課題。切分:一種|新|的|天線陣|方向圖|綜合|方法;刪除后得:天線陣、方向圖;根據(jù)主題詞表分析,增加上位詞可得主題詞:互耦、偶極子、輸入阻抗等。1/11/202384《第二章信息檢索教程》確定檢索詞從上述四個(gè)實(shí)例可以看出,提取檢索詞首先是切分、刪除,其次是進(jìn)行替補(bǔ)、組合和增加。在提取檢索詞時(shí),若所選的數(shù)據(jù)庫(kù)具有規(guī)范化詞表時(shí),應(yīng)優(yōu)先選用該數(shù)據(jù)庫(kù)詞表中與檢索課題相關(guān)的規(guī)范化主題詞(檢索詞)。1/11/202385《第二章信息檢索教程》4構(gòu)造檢索式(試驗(yàn)性檢索)

所謂的檢索提問(wèn)式(query,searchformulation),是信息檢索中用來(lái)表達(dá)用戶檢索提問(wèn)的邏輯表達(dá)式,主要是使用各種布爾邏輯算符、位置算符、截詞符、限制算符以及系統(tǒng)規(guī)定的其他組配連接符號(hào)將檢索詞進(jìn)行組配,確定檢索詞之間的概念關(guān)系或位置關(guān)系。1/11/202386《第二章信息檢索教程》構(gòu)造檢索式(試驗(yàn)性檢索)簡(jiǎn)單提問(wèn)式——含一個(gè)檢索詞的提問(wèn)式;上下文提問(wèn)式——精確短語(yǔ)或近似精確短語(yǔ)的提問(wèn)式,也可稱為短語(yǔ)提問(wèn)式;復(fù)合提問(wèn)式——含有布爾算符和至少2個(gè)檢索詞的提問(wèn)式;結(jié)構(gòu)性提問(wèn)式——含有2個(gè)以上布爾算符和至少4個(gè)檢索詞的多層結(jié)構(gòu)組合的提問(wèn)式。例4:地震序列分析的工具和方法研究要完成本項(xiàng)檢索課題,必須使用結(jié)構(gòu)性提問(wèn)式:((((sequenceanalysis)WNTI)AND((method*ORtool*ORinstrument*)WN

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論