《網(wǎng)絡(luò)信息資源開(kāi)發(fā)與利用程》系列課件_第1頁(yè)
《網(wǎng)絡(luò)信息資源開(kāi)發(fā)與利用程》系列課件_第2頁(yè)
《網(wǎng)絡(luò)信息資源開(kāi)發(fā)與利用程》系列課件_第3頁(yè)
《網(wǎng)絡(luò)信息資源開(kāi)發(fā)與利用程》系列課件_第4頁(yè)
《網(wǎng)絡(luò)信息資源開(kāi)發(fā)與利用程》系列課件_第5頁(yè)
已閱讀5頁(yè),還剩79頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)信息資源開(kāi)發(fā)與利用 第2章 信息檢索基礎(chǔ)知識(shí)北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社8/4/20221第1頁(yè),共84頁(yè)。1 信息檢索的基本概念1.1 信息檢索的涵義從廣義上講,信息檢索包括兩個(gè)過(guò)程,一是信息存儲(chǔ)(information storage),即信息的標(biāo)引、加工和存

2、儲(chǔ)過(guò)程:二是信息檢索(information retrieval),即信息用戶(hù)的查找過(guò)程。從狹義上講,信息檢索僅指后一部分。信息檢索的本質(zhì)是一個(gè)匹配的過(guò)程即用戶(hù)的信息需求和信息存儲(chǔ)的信息集合進(jìn)行比較和選擇的過(guò)程8/4/2022第2頁(yè),共84頁(yè)。信息存儲(chǔ)和檢索過(guò)程的基本原理 輸出一次信息信息特征檢索語(yǔ)言信息特征標(biāo)識(shí)檢索結(jié)果信息需求檢索提問(wèn)檢索提問(wèn)標(biāo)識(shí)分析標(biāo)引標(biāo)引輸入檢索信息檢索系統(tǒng)(工具)存儲(chǔ)過(guò)程檢索過(guò)程分析8/4/2022第3頁(yè),共84頁(yè)。 計(jì)算機(jī)信息檢索是對(duì)信息進(jìn)行收集、分類(lèi)、標(biāo)引、著錄,并加以有序化組織,將信息儲(chǔ)存到計(jì)算機(jī)存儲(chǔ)信息系統(tǒng)中,編制出一個(gè)信息檢索系統(tǒng)或信息檢索工具以及從檢索系統(tǒng)或

3、工具中檢索所需信息的過(guò)程。1.2 計(jì)算機(jī)信息檢索8/4/2022第4頁(yè),共84頁(yè)。用戶(hù)輸入檢索需求分析轉(zhuǎn)換處理需求數(shù)據(jù)庫(kù)檢索=概念詞的相關(guān)匹配運(yùn)算概念詞典控制詞表信息源篩選錄入分類(lèi)、詞索引文檔預(yù)處理 計(jì)算機(jī)信息檢索的基本原理8/4/2022第5頁(yè),共84頁(yè)。1.3 信息檢索的類(lèi)型按信息檢索的內(nèi)容劃分文獻(xiàn)檢索 數(shù)據(jù)檢索事實(shí)檢索概念檢索按信息檢索的組織方式劃分全文本檢索多媒體檢索超文本檢索超文本檢索是對(duì)每個(gè)節(jié)點(diǎn)中儲(chǔ)存的信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)信息進(jìn)行的檢索。與傳統(tǒng)文本的線性順序不同,超文本檢索強(qiáng)調(diào)中心節(jié)點(diǎn)之間的語(yǔ)義聯(lián)結(jié)結(jié)構(gòu),靠系統(tǒng)提供的工具進(jìn)行圖示穿行和節(jié)點(diǎn)展示,提供瀏覽式查詢(xún),可進(jìn)行跨庫(kù)檢索。

4、WWW8/4/2022第6頁(yè),共84頁(yè)。2 檢索系統(tǒng) 檢索系統(tǒng)(retrieval system)是指根據(jù)特定的信息需求而建立起來(lái)的一種有關(guān)信息搜集、加工、存儲(chǔ)和檢索的程序化系統(tǒng),其主要目的是為人們提供信息服務(wù)。8/4/2022第7頁(yè),共84頁(yè)。2.1 檢索系統(tǒng)的功能模塊信息源選擇與采集子系統(tǒng)對(duì)通常的計(jì)算機(jī)檢索系統(tǒng)來(lái)說(shuō),信息選擇與采集主要由人工完成,但對(duì)于網(wǎng)絡(luò)信息檢索系統(tǒng)來(lái)說(shuō),則主要通過(guò)網(wǎng)絡(luò)搜索機(jī)器人Robot自動(dòng)進(jìn)行,并且可以定期更新。標(biāo)引子系統(tǒng)標(biāo)引處理的類(lèi)型:人工賦詞標(biāo)引、機(jī)器標(biāo)引、無(wú)標(biāo)引(或全標(biāo)引);標(biāo)引要求:不漏標(biāo)(全面)、不錯(cuò)標(biāo)(準(zhǔn)確)、不濫標(biāo)(簡(jiǎn)練)。建庫(kù)子系統(tǒng)工作流程主要包括數(shù)據(jù)

5、錄入、錯(cuò)誤檢查與處理、數(shù)據(jù)格式轉(zhuǎn)換、生成并定期更新各種文檔。8/4/2022第8頁(yè),共84頁(yè)。2.1 檢索系統(tǒng)的功能模塊詞表管理子系統(tǒng)主要功能:管理維護(hù)系統(tǒng)中已有詞表的結(jié)構(gòu)、詞匯,使它與標(biāo)引、建庫(kù)、檢索等多個(gè)子系統(tǒng)相連接;支持用戶(hù)的各種詞匯查詢(xún)操作;輸出各種形式的詞匯數(shù)據(jù)或詞表產(chǎn)品等。用戶(hù)接口子系統(tǒng)一般有5種界面風(fēng)格:命令/指令語(yǔ)言(command language)、菜單選擇(menu selection)、表格填充(form fill-in)、直接操縱(direct manipulation)、自然語(yǔ)言(natural language)。 提問(wèn)處理子系統(tǒng)檢索系統(tǒng)(數(shù)據(jù)庫(kù))的核心,負(fù)責(zé)處理

6、用戶(hù)輸入的檢索詞或提問(wèn)式,并將它們與數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)進(jìn)行匹配運(yùn)算,然后把運(yùn)算結(jié)果返回給用戶(hù)。 8/4/2022第9頁(yè),共84頁(yè)。2.2 文檔記錄字段 檢索系統(tǒng)的基本組織形式由三個(gè)層次構(gòu)成。文檔( file ):檢索系統(tǒng)至少包括一個(gè)順排文檔(sequential files)。有的還包括一個(gè)倒排文檔(inverted files)。記錄(record):文檔的基本單元,由若干字段組成的信息單元,是對(duì)某一信息實(shí)體的全部屬性進(jìn)行描述的結(jié)果。字段(field):是記錄的基本單元,它是對(duì)信息實(shí)體的具體屬性進(jìn)行描述的結(jié)果。 8/4/2022第10頁(yè),共84頁(yè)。2.2 文檔記錄字段 檢索系統(tǒng)的基本組織結(jié)構(gòu)

7、關(guān)系:數(shù)據(jù)庫(kù) database 文檔 file, archive 順排文檔 記錄Record 字段Field倒排文檔(索引index) 8/4/2022第11頁(yè),共84頁(yè)。3 檢索語(yǔ)言 檢索語(yǔ)言(retrieval language)是文獻(xiàn)信息標(biāo)引和檢索提問(wèn)而約定的人工語(yǔ)言。 檢索語(yǔ)言是為溝通文獻(xiàn)標(biāo)引與文獻(xiàn)檢索而編制的人工語(yǔ)言,也是連接信息存儲(chǔ)和檢索兩個(gè)過(guò)程中標(biāo)引人員與檢索人員雙方思路的渠道。 在存儲(chǔ)的過(guò)程中用于標(biāo)引信息稱(chēng)為標(biāo)引語(yǔ)言; 用于編制索引就稱(chēng)為索引語(yǔ)言; 用于信息檢索則稱(chēng)為檢索語(yǔ)言。8/4/2022第12頁(yè),共84頁(yè)。3.1 檢索語(yǔ)言的種類(lèi) 分類(lèi)語(yǔ)言(classification l

8、anguage)是用分類(lèi)號(hào)表達(dá)各種概念的檢索標(biāo)識(shí),將各種概念按學(xué)科性質(zhì)進(jìn)行系統(tǒng)排列,反映科學(xué)知識(shí)分類(lèi)體系的檢索語(yǔ)言。 主題分類(lèi)語(yǔ)言 其特征是一個(gè)主題充當(dāng)一個(gè)類(lèi)目,類(lèi)目象主題詞表一樣按字順排列,而不是按邏輯順序排列。 優(yōu)點(diǎn):以事物分類(lèi),能將相關(guān)的內(nèi)容全部集中在一起。對(duì)交叉學(xué)科的主題揭示非常有利。 科學(xué)分類(lèi)語(yǔ)言 學(xué)科分類(lèi)語(yǔ)言是以知識(shí)分類(lèi)為基本,按照學(xué)科性質(zhì)及從屬、層次關(guān)系來(lái)組織資源,類(lèi)目排序以字順為標(biāo)準(zhǔn)。 優(yōu)勢(shì):類(lèi)目容量大,內(nèi)容更有針對(duì)性,學(xué)術(shù)性更強(qiáng),符合科技工作者族性檢索的要求。 圖書(shū)分類(lèi)語(yǔ)言 目前采用的主要有杜威十進(jìn)分類(lèi)法(DDC)、國(guó)際十進(jìn)分類(lèi)法(UDC)、美國(guó)國(guó)會(huì)圖書(shū)館分類(lèi)法(LCC)和中

9、國(guó)圖書(shū)館圖書(shū)分類(lèi)法(中圖法)8/4/2022第13頁(yè),共84頁(yè)。主題語(yǔ)言(subject language)是直接以表達(dá)文獻(xiàn)主題的語(yǔ)詞作為檢索標(biāo)識(shí),按字順編排并通過(guò)參照系統(tǒng)等方法提示詞間關(guān)系的檢索語(yǔ)言。代碼語(yǔ)言(code language)是對(duì)事物的某一方面特征用某種代碼系統(tǒng)來(lái)加以標(biāo)引和排列的檢索語(yǔ)言。例如,根據(jù)化合物的分子式這種代碼語(yǔ)言,可以構(gòu)成分子式索引系統(tǒng),允許用戶(hù)從分子式出發(fā),檢索相應(yīng)的化合物及其相關(guān)的文獻(xiàn)信息。自然語(yǔ)言是直接從原始信息中抽取出來(lái)的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語(yǔ)言。8/4/2022第14頁(yè),共84頁(yè)。檢索語(yǔ)言的類(lèi)型描述內(nèi)容特征語(yǔ)言描述外表特征語(yǔ)言主題語(yǔ)言分

10、類(lèi)語(yǔ)言代碼語(yǔ)言責(zé)任者題名其他自然語(yǔ)言受控語(yǔ)言關(guān)鍵詞語(yǔ)言(keyword) 標(biāo)題詞語(yǔ)言(heading) 單元詞語(yǔ)言(uniterm) 敘詞語(yǔ)言(descriptor)8/4/2022第15頁(yè),共84頁(yè)。分類(lèi)語(yǔ)言分類(lèi)語(yǔ)言中最常見(jiàn)的是體系分類(lèi)語(yǔ)言,它按照學(xué)科體系由上至下,從總體到局部,由一般到具體,從低級(jí)到高級(jí),從簡(jiǎn)單到復(fù)雜 的邏輯次序逐級(jí)展開(kāi)。專(zhuān)利分類(lèi)表中國(guó)科學(xué)院圖書(shū)分類(lèi)法中國(guó)圖書(shū)館圖書(shū)分類(lèi)法杜威十進(jìn)分類(lèi)法 (國(guó)外)8/4/2022第16頁(yè),共84頁(yè)。中國(guó)圖書(shū)館圖書(shū)分類(lèi)法基本部類(lèi):1、馬克思主義、列寧主義、毛澤東思想、鄧小平理論2、哲學(xué)3、社會(huì)科學(xué)4、自然科學(xué)5、綜合性圖書(shū)基本大類(lèi): (22個(gè))

11、 A 馬列主義毛澤東思想鄧小平理論 N 自然科學(xué)總論 B 哲學(xué) O 數(shù)理化科學(xué) C 社會(huì)科學(xué)總論 P 天文學(xué)、地理 D 政治、法律 Q 生物科學(xué) E 軍事 R 醫(yī)學(xué)、衛(wèi)生 F 經(jīng)濟(jì) S 農(nóng)業(yè)科學(xué) G 文化、科學(xué)、教育、體育 T 工業(yè)技術(shù) H 語(yǔ)言、文字 U 交通運(yùn)輸 I 文學(xué) V 航空、航天 J 藝術(shù) X 環(huán)境科學(xué) K 歷史、地理 Z 綜合性圖書(shū) 8/4/2022第17頁(yè),共84頁(yè)。中國(guó)圖書(shū)館圖書(shū)分類(lèi)法F 經(jīng)濟(jì)F1 世界各國(guó)經(jīng)濟(jì)概況、經(jīng)濟(jì)史、經(jīng)濟(jì)地理F11 世界經(jīng)濟(jì)、國(guó)際經(jīng)濟(jì)關(guān)系F12 中國(guó)經(jīng)濟(jì)F13/17 各國(guó)經(jīng)濟(jì)F2 經(jīng)濟(jì)計(jì)劃與管理F20 國(guó)民經(jīng)濟(jì)管理F21 經(jīng)濟(jì)計(jì)劃F22 經(jīng)濟(jì)計(jì)算、經(jīng)濟(jì)

12、數(shù)學(xué)方法F23 會(huì)計(jì)F239 審計(jì)F24 勞動(dòng)經(jīng)濟(jì)F25 物資經(jīng)濟(jì)8/4/2022第18頁(yè),共84頁(yè)。F27 企業(yè)經(jīng)濟(jì)F29 城市與市政經(jīng)濟(jì)F3 農(nóng)業(yè)經(jīng)濟(jì)F4 工業(yè)經(jīng)濟(jì)F7 貿(mào)易經(jīng)濟(jì)F72 中國(guó)國(guó)內(nèi)貿(mào)易經(jīng)濟(jì)F73 世界各國(guó)國(guó)內(nèi)貿(mào)易經(jīng)濟(jì)F74 國(guó)際貿(mào)易F75 各國(guó)對(duì)外貿(mào)易F8 財(cái)政、金融F81 財(cái)政、國(guó)家財(cái)政F82 貨幣F83 金融、銀行F84 保險(xiǎn) 8/4/2022第19頁(yè),共84頁(yè)。中國(guó)圖書(shū)館圖書(shū)分類(lèi)法 T 工業(yè)技術(shù) TB 一般工業(yè)技術(shù) TL 原子能技術(shù) TD 礦業(yè)工程 TM 電工技術(shù) TE 石油、天然氣工業(yè) TN 無(wú)線電電子學(xué)、電訊技術(shù) TF 冶金工業(yè) TP 自動(dòng)化技術(shù)、計(jì)算機(jī) TG 金屬

13、學(xué)、金屬工藝 TQ 化學(xué)工業(yè) TH 機(jī)械、儀表 TS 輕工業(yè)、手工業(yè) TJ 武器工業(yè) TU 建筑科學(xué) TK 動(dòng)力工程 TV 水利工程8/4/2022第20頁(yè),共84頁(yè)。圖書(shū)館的藏書(shū)都是按分類(lèi)號(hào)排架的。分類(lèi)號(hào)的排列采用由左至右逐位對(duì)比的方法進(jìn)行排列,先比較字母部分,再比較數(shù)字部分。 字母部分按英文字母固有的次序排列。例: B2中國(guó)哲學(xué) B3世界哲學(xué) E27各種武裝力量 E512蘇聯(lián)軍事 TM92電氣化、電能應(yīng)用 TU201建筑設(shè)計(jì)原理 分類(lèi)號(hào)中的阿拉伯?dāng)?shù)字依小數(shù)制排列。例: B021辯證唯物主義的物質(zhì)論 B022辯證唯物主義的意識(shí)論 B022.2客觀規(guī)律性與主觀能動(dòng)性 D035.37交通公安管理

14、 D035.4監(jiān)察、監(jiān)督分類(lèi)號(hào)的排列次序 8/4/2022第21頁(yè),共84頁(yè)。分類(lèi)號(hào)的排列次序 (續(xù)) 數(shù)字之后如還有字母,則在前部類(lèi)號(hào)相同的基礎(chǔ)上,再按字母順序排列。例: TP312AL ALGOL程序語(yǔ)言 TP312BA BASIC程序語(yǔ)言 TP312CO COBOL程序語(yǔ)言 總論復(fù)分號(hào)“-”要排在數(shù)字“0”的前面。例: H-61,H0, H31-61,H310, 總論復(fù)分號(hào)“-”要排在組配符號(hào)“:” 的前面。例: H31,H31-62,H31:F,H31:I,H319, H319.4,H319.4-44, H319.4:B,H319.4:C,8/4/2022第22頁(yè),共84頁(yè)。讀者實(shí)際利

15、用圖書(shū)館時(shí),往往需要知道書(shū)刊的分類(lèi)號(hào)和索書(shū)號(hào)(又稱(chēng)索取號(hào))。索書(shū)號(hào)是圖書(shū)館賦予每一種館藏圖書(shū)的號(hào)碼,是讀者查找圖書(shū)非常必要的代碼信息。它的第一部分是分類(lèi)號(hào),第二部分是書(shū)次號(hào)。索書(shū)號(hào)的兩部分之間有一個(gè)空格或一條斜線“/”。書(shū)次號(hào)或者是按照?qǐng)D書(shū)作者姓名所編排的著者號(hào)碼,或者是按照?qǐng)D書(shū)進(jìn)入館藏時(shí)間的先后所取用的順序號(hào)碼。 不同的索書(shū)號(hào)確定排列先后順序的步驟是,先比較分類(lèi)號(hào)碼;如分類(lèi)號(hào)碼相同再比較著者號(hào)碼或順序號(hào)碼。分類(lèi)號(hào)比較:先英文字母排,后阿拉伯?dāng)?shù)字按小數(shù)制排。分類(lèi)號(hào)中“-”排在0之前,例如:先排F-43再排F0。分類(lèi)號(hào)的數(shù)字排列比較采用對(duì)位比較法,字符序列以ASCII字符集為依據(jù)。比如:B11、

16、B111、B112、B12,書(shū)次號(hào)的數(shù)字排列比較采用自然順序排列方法,即1,2,3,.,9,10,11,.,99,100,101,。分類(lèi)號(hào)和索書(shū)號(hào)8/4/2022第23頁(yè),共84頁(yè)。重新排列以下索取號(hào)的順序TP3/1044 TP3-43/3060 TP311.13/1713 TP311.13/9091 TP393/4027 TP393/7732 TP393-43/4723 8/4/2022第24頁(yè),共84頁(yè)。主題語(yǔ)言關(guān)鍵詞語(yǔ)言是直接選用文獻(xiàn)中的自然語(yǔ)言作基本詞匯,并將那些能夠揭示文獻(xiàn)題名或主要意旨的關(guān)鍵性自然語(yǔ)詞作為關(guān)鍵詞進(jìn)行標(biāo)引的一種檢索語(yǔ)言。 例如:“國(guó)際聯(lián)機(jī)檢索概論”中的“國(guó)際聯(lián)機(jī)檢索”

17、、“國(guó)際聯(lián)機(jī)”、“聯(lián)機(jī)”、“檢索”都是能描述這篇文獻(xiàn)主題的關(guān)鍵詞,都可以作為檢索詞。 標(biāo)題詞語(yǔ)言是最早使用的一種主題語(yǔ)言,它以規(guī)范化的自然語(yǔ)義作為標(biāo)識(shí),來(lái)表達(dá)信息涉及的主題概念,并將全部標(biāo)識(shí)按字母順序排列。 例如:一篇文章用“微型計(jì)算機(jī)”這個(gè)術(shù)語(yǔ)來(lái)敘述它的研究對(duì)象,另一篇文章用“微型電腦” 來(lái)敘述,第三篇文章用“微機(jī)” 來(lái)敘述,雖然都表示同一概念,這時(shí)就不能直接用“微型電腦”或“微機(jī)”來(lái)作標(biāo)題詞,這三篇文章都必須用“微型計(jì)算機(jī)”作標(biāo)題詞(實(shí)際上是“主標(biāo)題詞”,根據(jù)主題詞表決定)。8/4/2022第25頁(yè),共84頁(yè)。主題語(yǔ)言單元詞語(yǔ)言是在標(biāo)題詞語(yǔ)言基礎(chǔ)上發(fā)展起來(lái)的一種規(guī)范化檢索語(yǔ)言。單元詞(un

18、iterm)是一種最基本的、不能再分的詞匯單位,亦稱(chēng)元詞。它也是從文獻(xiàn)內(nèi)容中抽出,并經(jīng)過(guò)規(guī)范化處理,代表一個(gè)獨(dú)立的概念。 例如:“計(jì)算機(jī)”、“軟件”、“固相”、“相”。 敘詞語(yǔ)言是以自然語(yǔ)言為基礎(chǔ),以概念組配為基本原理,并經(jīng)過(guò)規(guī)范化處理,表達(dá)主題的最小概念單元,作為信息存儲(chǔ)和檢索依據(jù)的一種檢索語(yǔ)言。只有經(jīng)過(guò)規(guī)范化處理,滿(mǎn)足一詞一義一型要求的詞才能稱(chēng)為敘詞(descriptor)。 例如:在敘詞語(yǔ)言的檢索系統(tǒng)中用“計(jì)算機(jī)”這個(gè)詞進(jìn)行檢索,即使題名字段沒(méi)有“計(jì)算機(jī)”這個(gè)詞(如有同義詞“電腦”)的文章,也可以被檢索出來(lái),不必進(jìn)行同義詞替換即可查全。8/4/2022第26頁(yè),共84頁(yè)。主題語(yǔ)言 主題語(yǔ)

19、言(標(biāo)題詞、單元詞、敘詞)的規(guī)范化處理:詞義規(guī)范:對(duì)同義詞(如計(jì)算機(jī)與電腦)、近義詞(如實(shí)驗(yàn)與試驗(yàn))、學(xué)名和俗名(如發(fā)動(dòng)機(jī)與馬達(dá))、不同譯名(激光與萊塞)、簡(jiǎn)稱(chēng)與全稱(chēng)(如中國(guó)與中華人民共和國(guó))、不同寫(xiě)法(如X射線與愛(ài)克斯射線)等進(jìn)行選擇;對(duì)多義詞、同形異義詞進(jìn)行限定說(shuō)明,如杜鵑既表示一種鳥(niǎo),也表示一種花,就須限定說(shuō)明為,杜鵑(動(dòng)物)、杜鵑(植物)。詞類(lèi)規(guī)范:即確定詞類(lèi)的范圍。能用作敘詞的詞類(lèi)一般要求控制在具有實(shí)質(zhì)意義的名詞或動(dòng)名詞的范圍之內(nèi)。詞形規(guī)范:即對(duì)詞的繁簡(jiǎn)體、詞序、字母符號(hào)等的規(guī)定。8/4/2022第27頁(yè),共84頁(yè)。代碼語(yǔ)言代碼語(yǔ)言是指對(duì)事物的某方面特征,用某種代碼系統(tǒng)來(lái)表示和排列事

20、物概念,從而提供檢索的檢索語(yǔ)言。 例如:根據(jù)化合物的分子式這種代碼語(yǔ)言,可以構(gòu)成分子式索引系統(tǒng),允許用用戶(hù)從分子式出發(fā),檢索相應(yīng)的化合物及其相關(guān)的信息。8/4/2022第28頁(yè),共84頁(yè)。自然語(yǔ)言自然語(yǔ)言是直接從原始信息中抽取出來(lái)的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語(yǔ)言。抽取出來(lái)的詞包括自由詞、關(guān)鍵詞、事物名稱(chēng)、科學(xué)術(shù)語(yǔ)、俗名、商品型號(hào)和縮寫(xiě)等,具有不用編制詞表,及時(shí)跟上事物發(fā)展,準(zhǔn)確表達(dá)事物新概念,選詞靈活方便,專(zhuān)指性強(qiáng),標(biāo)引和檢索速度快等優(yōu)點(diǎn)。 例如:如有人輸入:how to control drivers of hard disk ,檢索系統(tǒng)會(huì)自動(dòng)提取檢索詞,然后進(jìn)行過(guò)濾和檢索

21、。 注意:Google和專(zhuān)業(yè)數(shù)據(jù)庫(kù)的檢索語(yǔ)言區(qū)別。8/4/2022第29頁(yè),共84頁(yè)。 4 檢索方法及檢索途徑 4.1 檢索方法查找(Searching)就是實(shí)施檢索策略、搜尋所得文獻(xiàn)信息的過(guò)程。以下幾種方法,無(wú)論是計(jì)算機(jī)還是手工檢索,都是常用的方法。 “拉網(wǎng)法” 在不了解查詢(xún)某一專(zhuān)題信息的URL地址時(shí),可從提供信息總目的Web 頁(yè)面開(kāi)始瀏覽,沿著專(zhuān)題鏈接層層查找,直至找到有關(guān)的內(nèi)容為止。然后用“書(shū)簽”保存這個(gè)頁(yè)面的URL,轉(zhuǎn)向另一個(gè)分支。這種方法可以迅速獲得較多的相關(guān)地址,然后進(jìn)行篩選。就使用引擎而言,國(guó)外專(zhuān)家也建議先用鏈接頁(yè)面多、響應(yīng)時(shí)間快的引擎。8/4/2022第30頁(yè),共84頁(yè)。 引文

22、法(跟蹤法) 文獻(xiàn)之間的引證和被引證關(guān)系揭示了文獻(xiàn)之間存在的某種內(nèi)在聯(lián)系,引文法(也有稱(chēng)為跟蹤法)就是利用文獻(xiàn)后所附的參考文獻(xiàn)、相關(guān)書(shū)目、推薦文章和引文注釋查找相關(guān)文獻(xiàn)的方法。這些材料指明了與用戶(hù)需求最密切的文獻(xiàn)線索,往往包含了相似的觀點(diǎn)、思路、方法,具有啟發(fā)意義。8/4/2022第31頁(yè),共84頁(yè)。 引文法又可分為兩種,一種是由遠(yuǎn)及近地搜尋,即找到一篇有價(jià)值的論文后進(jìn)一步查找該論文被哪些其它文獻(xiàn)引用過(guò),以便了解后人對(duì)該論文的評(píng)論、是否有人對(duì)此作過(guò)進(jìn)一步研究、實(shí)踐結(jié)果如何、最新的進(jìn)展怎樣等等。由遠(yuǎn)及近地追尋,越查資料越新,研究也就越深入,但這種查法主要依靠專(zhuān)門(mén)的引文索引,如 科學(xué)引文索引、社會(huì)

23、科學(xué)引文索引 。8/4/2022第32頁(yè),共84頁(yè)。 另一種較為普遍的查法是由近及遠(yuǎn)地追溯,這樣由一變十,由十變百地獲取更多相關(guān)文獻(xiàn),直到滿(mǎn)足要求為止。這種方法適合于歷史研究或?qū)Ρ尘百Y料的查詢(xún), 其缺點(diǎn)是越查材料越舊,追溯得到的文獻(xiàn)與現(xiàn)在的研究專(zhuān)題越來(lái)越疏遠(yuǎn)。因此,最好是選擇綜述、評(píng)論和質(zhì)量較高的專(zhuān)著作為起點(diǎn),它們所附的參考文獻(xiàn)篩選嚴(yán)格,有時(shí)還附有評(píng)論。8/4/2022第33頁(yè),共84頁(yè)。常規(guī)法 所謂常規(guī)法就是利用常規(guī)檢索工具查找有關(guān)文獻(xiàn)的方法,是信息時(shí)代應(yīng)掌握的最基本的信息查找方法?,F(xiàn)在對(duì)文獻(xiàn)的書(shū)目控制手段已日趨完善,各種印刷版、縮微版、光盤(pán)版和網(wǎng)絡(luò)版的檢索工具層出不窮,有很大的挑選余地。用

24、戶(hù)應(yīng)根據(jù)自己的檢索知識(shí)和條件選用一種或幾種檢索工具。常規(guī)法可分為順查法、逆查法和抽查法。 8/4/2022第34頁(yè),共84頁(yè)。排除、限定和合取法 這實(shí)際上是將信息加工的方法融入檢索中去。思維中使用排除這一概念,是指對(duì)查找對(duì)象的產(chǎn)生和存在的狀態(tài)在時(shí)間和空間上加以外在否定。把這一方法移植到檢索中,就是在時(shí)間或空間上極大地收縮檢索范圍。限定法是相對(duì)于排除法而言的,指對(duì)查找對(duì)象在時(shí)間和空間上加以?xún)?nèi)在的肯定。排除的結(jié)果必然是限定,反之亦然。8/4/2022第35頁(yè),共84頁(yè)。4.2 信息檢索的途徑 所謂檢索途徑就是檢索時(shí)切入信息群體的路徑。檢索途徑有兩大類(lèi),一類(lèi)是用信息的外部特征,如題名、責(zé)任者、某種序

25、號(hào)、機(jī)構(gòu)名等作為檢索標(biāo)識(shí);另一類(lèi)是用能夠描述信息內(nèi)容的分類(lèi)號(hào)、關(guān)鍵詞、主題詞等作為檢索標(biāo)識(shí)。在數(shù)據(jù)庫(kù)中檢索時(shí),幾乎所有的字段都可以作為檢索的途徑。8/4/2022第36頁(yè),共84頁(yè)。檢索語(yǔ)言與檢索途徑的關(guān)系 8/4/2022第37頁(yè),共84頁(yè)。分類(lèi)檢索 這種檢索是根據(jù)信息內(nèi)容的學(xué)科分類(lèi)來(lái)進(jìn)行的。最大的優(yōu)點(diǎn)能保證信息的系統(tǒng)性,而且具有較好的族性檢索功能。 分類(lèi)檢索的要點(diǎn):1。對(duì)待檢課題的概念及學(xué)科間的各種關(guān)系清楚;2。正確掌握相關(guān)課題的分類(lèi)名稱(chēng)、分類(lèi)號(hào),手工檢索中掌握工具的分類(lèi)排檢。 8/4/2022第38頁(yè),共84頁(yè)。分類(lèi)檢索的步驟:1。分析待檢課題,確定其學(xué)科,并弄 清學(xué)科間的各種關(guān)系。2。

26、查出待檢課題的分類(lèi)號(hào)(工具簡(jiǎn)單時(shí)可以 省略)3。選擇適當(dāng)?shù)臋z索工具 4。進(jìn)入檢索系統(tǒng)后選擇分類(lèi)號(hào)途徑,并在對(duì)話(huà)框內(nèi) 輸入分類(lèi)號(hào),開(kāi)始檢索。5。對(duì)比題目,閱覽相關(guān)信息,選出所需信息,并下載相關(guān)信息6。原文的索取8/4/2022第39頁(yè),共84頁(yè)。詞匯檢索 與分類(lèi)號(hào)檢索相比,詞匯檢索具有直觀、靈活、專(zhuān)指性和適應(yīng)性好的特點(diǎn),同時(shí)檢索速度也比分類(lèi)檢索快。 詞匯檢索的要點(diǎn):首先是要選好檢索詞,正確理解詞間關(guān)系,檢索中還要注意詞間關(guān)系的正確表達(dá)。常用的詞匯檢索有關(guān)鍵詞檢索和主題檢索。計(jì)算機(jī)檢索時(shí),選擇任意字段檢索時(shí),檢索項(xiàng)也可以是各種詞匯。8/4/2022第40頁(yè),共84頁(yè)。 詞匯檢索的步驟: a、 分析

27、課題,確定檢索詞及詞間關(guān)系 b、選擇適當(dāng)?shù)臋z索工具 c、選擇詞匯檢索途徑,在對(duì)話(huà)框內(nèi)輸入檢索詞 (注意詞間關(guān)系的表達(dá)) d、 根據(jù)快捷顯示,選出有用信息并下載。 e、 原文的索取8/4/2022第41頁(yè),共84頁(yè)。責(zé)任者途徑 :姓前名后,名縮寫(xiě); 姓名中的“De”、“Von”、“Della”等前綴,與姓一起按字順排,如De Leferore, Alfred Von Kampf; 團(tuán)體機(jī)構(gòu)名稱(chēng)名按名稱(chēng)字順排。號(hào)碼途徑:號(hào)碼包括編號(hào)(number)、代碼(code)等,特定的號(hào)碼如:技術(shù)標(biāo)準(zhǔn)的標(biāo)準(zhǔn)號(hào),專(zhuān)利說(shuō)明書(shū)的專(zhuān)利號(hào),科技報(bào)告的報(bào)告號(hào),學(xué)會(huì)的會(huì)議論文連續(xù)號(hào),或合同號(hào)、任務(wù)號(hào)、國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)(ISB

28、N)、國(guó)際標(biāo)準(zhǔn)刊號(hào)(ISSN),以及文獻(xiàn)收藏單位編的館藏號(hào)、索取號(hào)、排架號(hào)等,都可以此作為檢索點(diǎn)。 8/4/2022第42頁(yè),共84頁(yè)。其他檢索途徑1、題名檢索 包括書(shū)名、刊名、篇名和其他信息的標(biāo) 題等2、機(jī)構(gòu)3、來(lái)源4、其他特殊途徑8/4/2022第43頁(yè),共84頁(yè)。5 常用的檢索技術(shù) 檢索技術(shù)是指應(yīng)用于信息檢索過(guò)程的原理、技術(shù)、方法、策略的總稱(chēng),是檢索系統(tǒng)為了提高檢索效率,從概念相關(guān)性、位置相關(guān)性等方面對(duì)檢索提問(wèn)進(jìn)行組配、加權(quán)、擴(kuò)展、截詞、位置、限定的比較和運(yùn)算處理技術(shù)。 8/4/2022第44頁(yè),共84頁(yè)。5.1 布爾檢索 布爾檢索(boolean retrieval)是用布爾邏輯算符將

29、檢索詞、短語(yǔ)或代碼進(jìn)行邏輯組配的一種技術(shù),也是目前最常用的一種檢索技術(shù)。 8/4/2022第45頁(yè),共84頁(yè)。邏輯“與”具有概念交叉或概念限定關(guān)系的組配,用“*”或“AND”算符表示。檢索詞A和檢索詞B用“與”組配,檢索式為:A AND B,或者 A * B它表示檢出同時(shí)含有A、B兩個(gè)檢索詞的記錄。 8/4/2022第46頁(yè),共84頁(yè)。邏輯“或”邏輯“或”是一種具有概念并列關(guān)系的組配,用“+”或“OR”算符表示。檢索詞A和檢索詞B用“或”組配,檢索式為:A OR B,或者 AB它表示檢出所有含有A詞或者B詞的記錄。 8/4/2022第47頁(yè),共84頁(yè)。邏輯“非” 邏輯“非”是一種具有概念排除關(guān)

30、系的組配,用“”或“NOT”算符表示。檢索詞A和檢索詞B用“非”組配,檢索式為:A Not B,或者 A-B它表示檢出含有A詞,但同時(shí)不含B詞的記錄。 8/4/2022第48頁(yè),共84頁(yè)。 5.2 截詞檢索 截詞檢索(truncation retrieval)是指在檢索詞的適當(dāng)位置截?cái)啵媒財(cái)嗟脑~的一個(gè)局部進(jìn)行的檢索。由于檢索詞與數(shù)據(jù)庫(kù)所存儲(chǔ)信息字符是部分一致性匹配,所以又稱(chēng)部分一致檢索。 檢索時(shí),計(jì)算機(jī)會(huì)將所有含有相同部分標(biāo)識(shí)的記錄全部檢索出來(lái)。截詞符多采用通配符“?”、“$”、“*”等,因此,截詞檢索有時(shí)也稱(chēng)為通配符(wildcard)檢索。按截?cái)嗟奈恢脕?lái)分;按截?cái)嗟淖址麛?shù)量來(lái)分。8/4/

31、2022第49頁(yè),共84頁(yè)。后截?cái)嘀薪財(cái)嗲敖財(cái)酂o(wú)限截?cái)嗳? economic? ?有限截?cái)嘟卦~檢索與截詞檢索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如: economic*如:wom?nwomanwomen一般僅允許有限截?cái)嗳? ?lish sul*ur sulfur sulphur 無(wú)限截?cái)嘤邢藿財(cái)嗲昂蠼財(cái)嗳? ?computer?可檢出: computer、computers、 computerize、computerized、minicomputer、minicomputers、microc

32、omputer、microcomputers 8/4/2022第50頁(yè),共84頁(yè)。 位置檢索是一種可以不依賴(lài)敘詞表而直接使用自由詞進(jìn)行檢索的一種技術(shù),它以數(shù)據(jù)庫(kù)原始記錄中詞語(yǔ)的相對(duì)次序或者位置關(guān)系為對(duì)象進(jìn)行組配運(yùn)算。 5.3 位置檢索 8/4/2022第51頁(yè),共84頁(yè)。(W)與(nW)算符 (W)算符是“With”的縮寫(xiě),表示此算符兩側(cè)的檢索詞必須按此前后鄰接的順序排列,順序不可顛倒,而且檢索詞之間不允許有其他的詞或字母,但允許有空格或連字符號(hào)。例如:輸入gas(W)condensate可檢索出包含gas condensate 和gas-condensate的記錄。8/4/2022第52頁(yè),

33、共84頁(yè)。(nW)算符是“nWords”的縮寫(xiě),表示此算符兩側(cè)的檢索詞之間允許插入n個(gè)實(shí)詞或虛詞,但兩個(gè)檢索詞的次序還是不能顛倒。例如:laser(1W)printer可檢索出包含“l(fā)aser printer”、“l(fā)aser color printer”和“l(fā)aser and printer”的記錄。8/4/2022第53頁(yè),共84頁(yè)。(N)與(nN)算符 (N)算符是“Near”的縮寫(xiě),表示此算符兩側(cè)的檢索詞彼此必須相鄰接,但兩個(gè)檢索詞的前后關(guān)系可以顛倒, 即查找兩個(gè)連在一起的單詞,但兩詞之間不能插入任何詞。例如:money(N)supply可檢索出包含money supply和supply

34、 money兩個(gè)詞組的記錄。8/4/2022第54頁(yè),共84頁(yè)。(nN) 算符是“nNear”的縮寫(xiě),表示此算符兩邊的檢索詞之間插入詞的最多數(shù)目是 n 個(gè),且兩個(gè)檢索詞的次序可以任意顛倒。例如:economic(2N)recovery 可以檢出包含economic recovery、recovery of the economy 、recovery from economic troubles的記錄。8/4/2022第55頁(yè),共84頁(yè)。(S)算符 (S)算符是“Sub-field/Sentence”的縮寫(xiě),表示在此運(yùn)算符兩側(cè)的檢索詞只要出現(xiàn)在記錄的同一個(gè)子字段內(nèi)(例如在文摘中的一個(gè)句子就是一個(gè)

35、子字段),此信息即被命中。要求被連接的檢索詞必須同時(shí)出現(xiàn)在記錄的同一句子(同一子字段)中,不限制它們?cè)诖俗幼侄沃械南鄬?duì)次序,中間插入詞的數(shù)量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中檢索出含有“high strength 和steel”形式的均為命中記錄。 8/4/2022第56頁(yè),共84頁(yè)。(F)算符 (F) 算符是“Field”的縮寫(xiě),表示在此運(yùn)算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在文獻(xiàn)記錄的統(tǒng)一字段內(nèi),如出現(xiàn)在篇名字段、文摘字段、敘詞字段、自由詞字段,但兩個(gè)詞的前后順序不限,夾在兩個(gè)詞之間的詞的個(gè)數(shù)也不限。要求被連接的檢索詞出現(xiàn)在統(tǒng)一的字段中,字段類(lèi)型和

36、詞序均不限。例如:environmental(F) impact/DE,TI表示這兩個(gè)詞必須同時(shí)出現(xiàn)在敘詞字段和篇名字段中。8/4/2022第57頁(yè),共84頁(yè)。5.4 字段限定檢索 字段限定檢索(field limiting retrieval)是用于限定提問(wèn)關(guān)鍵詞在數(shù)據(jù)庫(kù)記錄中出現(xiàn)的區(qū)域,控制檢索結(jié)果的相關(guān)性,是提高檢索效果的一種有效檢索方法。(字段標(biāo)識(shí)符:TI 、AU、AB、SO、PY、LA、DE、TN、ID)8/4/2022第58頁(yè),共84頁(yè)。例如:(minicomputer/DE, TI OR personal computer/ID, TI)AND PY=2008 AND LA=En

37、glish這個(gè)檢索式所表達(dá)的檢索要求是:查找2008年出版的關(guān)于微電腦或者個(gè)人電腦的英文文獻(xiàn),并要求“微電腦”一詞在命中文獻(xiàn)的敘詞字段、標(biāo)題字段出現(xiàn),“個(gè)人電腦”一詞在命中文獻(xiàn)的自由詞字段出現(xiàn)。 8/4/2022第59頁(yè),共84頁(yè)。5.5 其他限定檢索(1)限定網(wǎng)站 【實(shí)例】 輸入“金庸 古龍 site:”搜索包含“金庸”和“古龍”的中文新浪網(wǎng)站頁(yè)面。 (2)限定網(wǎng)頁(yè)【實(shí)例】輸入“inurl:midi 滄海一聲笑”查找MIDI曲“滄海一聲笑”。 【實(shí)例】輸入“inurl ecurity windows2000 site:”查找微軟網(wǎng)站上關(guān)于windows2000的安全課題資料。8/4/2022

38、第60頁(yè),共84頁(yè)。(3)限定文件類(lèi)型filetype的用法:filetype:格式 關(guān)鍵詞 OR 關(guān)鍵詞 filetype:格式例如:服務(wù)器安全 filetype:docfiletype:doc 服務(wù)器安全 搜索包含“策劃方案”關(guān)鍵詞的Office 文件。關(guān)鍵詞:“策劃方案 filetype:doc OR filetype:ppt”。 8/4/2022第61頁(yè),共84頁(yè)。 5.6 加權(quán)檢索 這種檢索是對(duì)檢索詞之間的關(guān)系從量上加以限制。通過(guò)判定檢索詞或字符串在檢索中對(duì)信息命中與否的影響程度,根據(jù)權(quán)值的大小依序輸出結(jié)果。 5.7 字符串檢索(詞組檢索或短語(yǔ)檢索) 這種檢索將字符串當(dāng)作一個(gè)獨(dú)立的運(yùn)

39、算單元,進(jìn)行嚴(yán)格地匹配。 5.8 概念檢索 同時(shí)對(duì)同義詞、近義詞、廣義詞、狹義詞進(jìn)行檢索。 5.9 深入檢索(二次檢索) 指在檢索結(jié)果中作進(jìn)一步查詢(xún),以得到更精確的結(jié)果。 5.10 模糊檢索與精確匹配 5.11 自然語(yǔ)言檢索(Ask Jeeves)、實(shí)名檢索(3721) 5.12 組合檢索: 檢索項(xiàng)組合、檢索途徑組合、分次檢索結(jié)果組合等、8/4/2022第62頁(yè),共84頁(yè)。6 信息檢索的基本步驟 分析檢索課題1.主題概念 2.信息類(lèi)型 3.時(shí)間范圍 4.檢索目的 構(gòu)造檢索式(試驗(yàn)性檢索)1.簡(jiǎn)單提問(wèn)式2.上下文提問(wèn)式3.復(fù)合提問(wèn)式4.結(jié)構(gòu)性提問(wèn)式調(diào)整檢索策略(正式檢索)1,信息量過(guò)多時(shí) 2.信

40、息量太少時(shí) 輸出檢索結(jié)果1.文摘2.全文 選擇檢索系統(tǒng)1.學(xué)科范圍 2.系統(tǒng)類(lèi)型3.系統(tǒng)功能 確定檢索詞 1.切分2.刪除3.替補(bǔ)4.組合5.增加用戶(hù)評(píng)價(jià) 8/4/2022第63頁(yè),共84頁(yè)。1 分析檢索課題 例如:查找有關(guān)消防的文獻(xiàn)。所有的“消防”文獻(xiàn)?還是只需有關(guān)“消防事業(yè)”、“消防隊(duì)伍”、“消防設(shè)施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文獻(xiàn)?(主題分析和檢索目的)需要一般的文獻(xiàn)資料?還是比較專(zhuān)深的文獻(xiàn)?需要科技論文?還是專(zhuān)利、標(biāo)準(zhǔn)、數(shù)據(jù)等?(信息類(lèi))需要新穎的信息?或者是與別人的研究進(jìn)行先進(jìn)性比較?還是系統(tǒng)的學(xué)科知識(shí)?(時(shí)間范圍)。8/4/2022第64頁(yè),共84頁(yè)。

41、需要系統(tǒng)地掌握某學(xué)科的知識(shí),可以選擇 圖書(shū);需要撰寫(xiě)研究項(xiàng)目的開(kāi)題報(bào)告、論文,開(kāi) 展技術(shù)攻關(guān),可以選擇研究報(bào)告、科技論 文、學(xué)位論文、會(huì)議文獻(xiàn)等;需要進(jìn)行發(fā)明創(chuàng)造、工藝改革、新產(chǎn)品設(shè) 計(jì)、引進(jìn)設(shè)備、簽訂合同,可以選擇專(zhuān)利 說(shuō)明書(shū)、標(biāo)準(zhǔn)文獻(xiàn)、產(chǎn)品資料等8/4/2022第65頁(yè),共84頁(yè)。2 選擇檢索系統(tǒng) 學(xué)科范圍。對(duì)于交叉學(xué)科、新興學(xué)科、應(yīng)用研究、綜合研究,不應(yīng)局限于某一學(xué)科范圍,可根據(jù)情況適當(dāng)擴(kuò)大檢索系統(tǒng)的學(xué)科范圍。系統(tǒng)類(lèi)型。首先,在文摘、索引系統(tǒng)和全文數(shù)據(jù)庫(kù)系統(tǒng)之間選擇。其次,在專(zhuān)業(yè)性數(shù)據(jù)庫(kù)中去查找。第三,在不同的文獻(xiàn)類(lèi)型系統(tǒng)中選擇。系統(tǒng)功能。一般說(shuō)來(lái),使用分類(lèi)語(yǔ)言、主題語(yǔ)言的檢索系統(tǒng),要優(yōu)

42、于使用自然語(yǔ)言的檢索系統(tǒng),專(zhuān)業(yè)檢索系統(tǒng)要優(yōu)于搜索引擎。檢索途徑、檢索方式(如分類(lèi)瀏覽、簡(jiǎn)單檢索、高級(jí)檢索、專(zhuān)家檢索、自然語(yǔ)言檢索)多,收錄時(shí)間跨度長(zhǎng),來(lái)源語(yǔ)種、國(guó)別多,文本(數(shù)據(jù))質(zhì)量高,附加個(gè)性化服務(wù),檢索系統(tǒng)就更值得選擇。8/4/2022第66頁(yè),共84頁(yè)。3 確定檢索詞 1切分切分是對(duì)課題的語(yǔ)句以自由詞為單位進(jìn)行拆分,轉(zhuǎn)換為檢索的最小單元。自由詞切分僅適用于自然語(yǔ)言檢索。例1:檢索“婦女吸煙與肺癌的關(guān)系研究”相關(guān)文獻(xiàn)。直接切分:婦女|吸煙|與|肺癌|的|關(guān)系|研究)注意,當(dāng)詞切分后將失去原來(lái)的意思時(shí),不應(yīng)再切分,如“中國(guó)科學(xué)院”、“電子郵件”8/4/2022第67頁(yè),共84頁(yè)。確定檢索詞

43、2刪除刪除是對(duì)自然語(yǔ)言中不具有實(shí)質(zhì)性檢索意義的虛詞(如介詞、連詞、副詞等),或者使用頻率較低的詞,或者專(zhuān)指性太高、過(guò)分寬泛的詞,或者過(guò)分具體的限定詞、禁用詞,或者不能表達(dá)課題實(shí)質(zhì)的高頻詞,或者存在蘊(yùn)含關(guān)系可以合并的詞,一律予以刪除,使自然語(yǔ)言轉(zhuǎn)換成為關(guān)鍵詞和主題詞的集合。8/4/2022第68頁(yè),共84頁(yè)。例2:檢索“中國(guó)IT業(yè)的發(fā)展前景研究”方面的相關(guān)文獻(xiàn)。進(jìn)行拆分以后,發(fā)展、前景、研究這三個(gè)自由詞具有一定的檢索意義,但是由于或者是意義過(guò)于寬泛、或者是不能表達(dá)課題實(shí)質(zhì)、或者是存在蘊(yùn)含關(guān)系的原因,沒(méi)有必要全部作為檢索詞,根據(jù)需要可以保留1-2個(gè)作為檢索詞。8/4/2022第69頁(yè),共84頁(yè)。確

44、定檢索詞3替補(bǔ)替補(bǔ)就是在進(jìn)行切分、刪除后,對(duì)檢索詞進(jìn)行替換和補(bǔ)充?!肮弧睉?yīng)替換為:公共交通;“綠色包裝”中的“綠色”,應(yīng)替換為:環(huán)保、無(wú)污染、可降解;“煤氣中毒”應(yīng)替換為:一氧化碳中毒;“非典”應(yīng)考慮補(bǔ)充:SARS、非典型肺炎、傳染性非典型肺炎、嚴(yán)重急性呼吸綜合征(severe acute respiratory syndrome);8/4/2022第70頁(yè),共84頁(yè)。確定檢索詞4組合 概念相交組合。這個(gè)新概念是原來(lái)用以組合的兩個(gè)概念的下位概念,如曲柄連桿機(jī)構(gòu)*發(fā)動(dòng)機(jī)=汽車(chē)發(fā)動(dòng)機(jī)。 概念限定組合。這個(gè)新概念可用來(lái)表示這一事物的某一屬性或某一個(gè)方面。如電視機(jī)*數(shù)字化=數(shù)字電視機(jī)。 以上兩種組配

45、方式,所得到的新概念,都是原組和概念的下位概念,縮小了檢索范圍,提高了概念的專(zhuān)指度,達(dá)到提高檢準(zhǔn)率的目的。 8/4/2022第71頁(yè),共84頁(yè)。概念并列組合。具有概念并列關(guān)系的自由詞間的組配,其結(jié)果使概念檢索的范圍擴(kuò)大,如環(huán)境污染+環(huán)境保護(hù)=環(huán)境污染和環(huán)境保護(hù)。概念刪除組合。是指兩個(gè)具有上下位關(guān)系的自由詞間的組合,其結(jié)果使概念檢索的范圍縮小,如信息處理-模擬信息處理=數(shù)字信息處理。8/4/2022第72頁(yè),共84頁(yè)。確定檢索詞5增加增加“限義詞”。有兩種方法:直接增加限義詞、挖掘隱含詞、提取潛在的檢索詞;把限義詞以邏輯的方式加入,可采用邏輯“與”或邏輯“非”的方法增加限義詞。分析隱含概念。挖掘

46、潛在的主題詞還可以通過(guò)對(duì)上位詞、下位詞、同類(lèi)詞關(guān)系的分析得到其它相關(guān)主題詞。如例1:“婦女吸煙與肺癌的關(guān)系研究”,切分、刪除后得:吸煙、肺癌兩個(gè)檢索詞,分析、補(bǔ)充上位詞可增加檢索詞:煙、癌癥、惡性腫瘤。8/4/2022第73頁(yè),共84頁(yè)。確定檢索詞從上述實(shí)例可以看出,提取檢索詞首先是切分、刪除,其次是進(jìn)行替補(bǔ)、組合和增加。在提取檢索詞時(shí),若所選的數(shù)據(jù)庫(kù)具有規(guī)范化詞表時(shí),應(yīng)優(yōu)先選用該數(shù)據(jù)庫(kù)詞表中與檢索課題相關(guān)的規(guī)范化主題詞(檢索詞)。8/4/2022第74頁(yè),共84頁(yè)。4 構(gòu)造檢索式(試驗(yàn)性檢索) 所謂的檢索提問(wèn)式(query,search formulation),是信息檢索中用來(lái)表達(dá)用戶(hù)檢索提問(wèn)的邏輯表達(dá)式,主要是使用各種布爾邏輯算符、位置算符、截詞符、限制算符以及系統(tǒng)規(guī)定的其他組配連接符號(hào)將檢索詞進(jìn)行組配,確定檢索詞之間的概念關(guān)系或位置關(guān)系。 8/4/2022第75頁(yè),共84頁(yè)。構(gòu)造檢索式(試驗(yàn)性檢索)簡(jiǎn)單提問(wèn)式含一個(gè)檢索詞的提

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論