




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第2章信息檢索基礎知識
北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社北京交通大學出版社1/11/20231《第二章信息檢索教程》1信息檢索的基本概念1.1信息檢索的涵義從廣義上講,信息檢索包括兩個過程,一是信息存儲(informationstorage),即信息的標引、加工和存儲過程:二是信息檢索(informationretrieval),即信息用戶的查找過程。從狹義上講,信息檢索僅指后一部分。信息檢索的本質是一個匹配的過程即用戶的信息需求和信息存儲的信息集合進行比較和選擇的過程1/11/20232《第二章信息檢索教程》信息存儲和檢索過程的基本原理
輸出一次信息信息特征檢索語言信息特征標識檢索結果信息需求檢索提問檢索提問標識分析標引標引輸入檢索信息檢索系統(tǒng)(工具)存儲過程檢索過程分析標引是對信息的內容進行分析,并運用一定的語言和方法,根據信息內容的學科屬性等特征給予標識(如主題詞,分類號),并因此作為信息組織、存貯和檢索依據的過程。1/11/20233《第二章信息檢索教程》信息特征:
(文獻特征)
外部特征:內部特征:題名著者出處號碼分類主題1/11/20234《第二章信息檢索教程》
計算機信息檢索是對信息進行收集、分類、標引、著錄,并加以有序化組織,將信息儲存到計算機存儲信息系統(tǒng)中,編制出一個信息檢索系統(tǒng)或信息檢索工具以及從檢索系統(tǒng)或工具中檢索所需信息的過程。1.2計算機信息檢索1/11/20235《第二章信息檢索教程》用戶輸入檢索需求分析轉換處理需求數據庫檢索=概念詞的相關匹配運算概念詞典控制詞表信息源篩選錄入分類、詞索引文檔預處理
計算機信息檢索的基本原理1/11/20236《第二章信息檢索教程》1.3信息檢索的類型按信息檢索的內容劃分文獻檢索數據檢索事實檢索概念檢索按信息檢索的組織方式劃分全文本檢索多媒體檢索超文本檢索超文本檢索是對每個節(jié)點中儲存的信息以及信息鏈構成的網絡信息進行的檢索。與傳統(tǒng)文本的線性順序不同,超文本檢索強調中心節(jié)點之間的語義聯(lián)結結構,靠系統(tǒng)提供的工具進行圖示穿行和節(jié)點展示,提供瀏覽式查詢,可進行跨庫檢索。
WWW1/11/20237《第二章信息檢索教程》 信息需求的類型一、準確的信息
1、查找某概念的確切含義:如:“什么是ADSL?”如:“什么是會計信息系統(tǒng)?”2、查找某概念的背景知識:如“誰最先定義了信息素養(yǎng)?”如“奠定現代電子計算機理論基礎的代表人物是誰?”3、查找某些事物的數值及量化指標:如“2005年國際無線傳輸的相關標準”如“2008年中國互聯(lián)網統(tǒng)計報告”1/11/20238《第二章信息檢索教程》二、全面的信息1、查找學科專業(yè)領域的新進展:如“ERP的研究進展”2、查找課題專業(yè)領域的相關研究文獻:如“有關會計信息系統(tǒng)發(fā)展變遷的研究文獻”如“會計電算化環(huán)境下的審計工作研究”1/11/20239《第二章信息檢索教程》信息需求來源于課題需求,課題需求決定信息需求類型:
了解某一理論、方法、過程等具體的片斷的信息,以解決研究中的具體問題,要求以“準”為主。申請發(fā)明、申報成果獎勵、鑒定科研成果以及立項查新時,往往需要全面地收集某一主題范圍的文獻信息,這類課題具有普查追溯的特點,應著眼于“全”。1/11/202310《第二章信息檢索教程》對于做學位論文來說,做課題前應充分了解一下本課題國內外的研究現狀(即論文的綜述部分),這時應對該課題進行較全面的檢索,包括綜述性的文章,要求全;對于該課題的核心部分,即該課題所要解決的具體問題,創(chuàng)新的地方,則需要準;對于技術細節(jié)越細越好,需要的也應是準。1/11/202311《第二章信息檢索教程》案例課目:“云南財經大學本科生科研訓練計劃(SRTP)”要求:云南財貿學院本科生科研訓練計劃(SRTP)管理規(guī)定。擬研究的題目方向:會計電算化的理論或實務1/11/202312《第二章信息檢索教程》案例(續(xù))信息需求1:明確基本概念與定義、事實等如:會計電算化的定義是什么?
1/11/202313《第二章信息檢索教程》案例(續(xù))信息需求2:了解國內外在該領域研究應用的背景。如:會計電算化理論有哪些研究領域?目前的會計電算化軟件達到了什么水平?又存在什么問題?
1/11/202314《第二章信息檢索教程》案例(續(xù))信息需求3:尋找研究的理論依據,掌握權威和重要信息。如:會計電算化理論研究有哪些成果?關于會計電算化軟件的成本、安全性、可靠性、可擴展性、適用性等。1/11/202315《第二章信息檢索教程》案例(續(xù))信息檢索:(過程略)經檢索分析發(fā)現,現有大量關于上述信息需求的各類文獻資料,對一個在讀的大二本科生,不論是理論研究還是軟件開發(fā),都受到水平、能力、精力、時間等的限制,且最終結果很可能是勞而無功,更談不上創(chuàng)新。1/11/202316《第二章信息檢索教程》案例(續(xù))進一步檢索分析:發(fā)現目前的會計電算化軟件主要運行于Windows環(huán)境,少見基于Linux環(huán)境的會計電算化方面的文獻資料報道。最終擬定的題目:Linux在會計電算化中的應用前景分析1/11/202317《第二章信息檢索教程》3檢索語言
檢索語言(retrievallanguage)是文獻信息標引和檢索提問而約定的人工語言。
檢索語言是為溝通文獻標引與文獻檢索而編制的人工語言,也是連接信息存儲和檢索兩個過程中標引人員與檢索人員雙方思路的渠道。
——在存儲的過程中用于標引信息稱為標引語言;
——用于編制索引就稱為索引語言;
——用于信息檢索則稱為檢索語言。1/11/202318《第二章信息檢索教程》3.1檢索語言的種類
分類語言(classificationlanguage)是用分類號表達各種概念的檢索標識,將各種概念按學科性質進行系統(tǒng)排列,反映科學知識分類體系的檢索語言。主題語言(subjectlanguage)是直接以表達文獻主題的語詞作為檢索標識,按字母順序編排并通過參照系統(tǒng)等方法提示詞間關系的檢索語言。代碼語言(codelanguage)是對事物的某一方面特征用某種代碼系統(tǒng)來加以標引和排列的檢索語言。。自然語言是直接從原始信息中抽取出來的未經規(guī)范化處理,用以揭示信息主題概念的檢索語言。1/11/202319《第二章信息檢索教程》檢索語言的類型描述內容特征語言描述外表特征語言主題語言分類語言責任者題名其他自然語言受控語言關鍵詞語言——(keyword)標題詞語言——(heading)單元詞語言——(uniterm)敘詞語言——(descriptor)代碼語言1/11/202320《第二章信息檢索教程》分類語言
分類語言是按照一定體系由上至下,從總體到局部,由一般到具體,從低級到高級,從簡單到復雜的邏輯次序逐級展開。主題分類語言
其特征是一個主題充當一個類目,類目象主題詞表一樣按字順排列,而不是按邏輯順序排列。優(yōu)點:以事物分類,能將相關的內容全部集中在一起。對交叉學科的主題揭示非常有利。學科分類語言
學科分類語言是以知識分類為基本,按照學科性質及從屬、層次關系來組織資源,類目排序以字順為標準。優(yōu)勢:類目容量大,內容針對性、學術性更強,符合族性檢索的要求。圖書分類語言
目前采用的主要有杜威十進分類法(DDC)、國際十進分類法(UDC)、美國國會圖書館分類法(LCC)和中國圖書館圖書分類法(中圖法)
專利分類表1/11/202321《第二章信息檢索教程》中國圖書館圖書分類法基本部類:1、馬克思主義、列寧主義、毛澤東思想、鄧小平理論2、哲學3、社會科學4、自然科學5、綜合性圖書基本大類:(22個)
A馬列主義毛澤東思想鄧小平理論N自然科學總論
B哲學
O數理化科學
C社會科學總論P天文學、地理
D政治、法律Q生物科學
E軍事R醫(yī)學、衛(wèi)生
F經濟S農業(yè)科學
G文化、科學、教育、體育T工業(yè)技術
H語言、文字U交通運輸
I文學V航空、航天
J藝術X環(huán)境科學
K歷史、地理Z綜合性圖書
1/11/202322《第二章信息檢索教程》中國圖書館圖書分類法F經濟
F1世界各國經濟概況、經濟史、經濟地理
F11世界經濟、國際經濟關系
F12中國經濟
F13/17各國經濟
F2經濟計劃與管理
F20國民經濟管理
F21經濟計劃
F22經濟計算、經濟數學方法
F23會計
F239審計
F24勞動經濟
F25物資經濟
1/11/202323《第二章信息檢索教程》F27企業(yè)經濟
F29城市與市政經濟
F3農業(yè)經濟
F4工業(yè)經濟
F7貿易經濟
F72中國國內貿易經濟
F73世界各國國內貿易經濟
F74國際貿易
F75各國對外貿易
F8財政、金融
F81財政、國家財政
F82貨幣
F83金融、銀行
F84保險
1/11/202324《第二章信息檢索教程》中國圖書館圖書分類法
T工業(yè)技術
TB一般工業(yè)技術TL原子能技術
TD礦業(yè)工程TM電工技術
TE石油、天然氣工業(yè)TN無線電電子學、電訊技術
TF冶金工業(yè)TP自動化技術、計算機
TG金屬學、金屬工藝TQ化學工業(yè)
TH機械、儀表TS輕工業(yè)、手工業(yè)
TJ武器工業(yè)TU建筑科學
TK動力工程TV水利工程
1/11/202325《第二章信息檢索教程》圖書館的藏書都是按分類號排架的。分類號的排列采用由左至右逐位對比的方法進行排列,先比較字母部分,再比較數字部分。
——字母部分按英文字母固有的次序排列。例:
B2中國哲學
B3世界哲學
E27各種武裝力量
E512蘇聯(lián)軍事
TM92電氣化、電能應用
TU201建筑設計原理
——分類號中的阿拉伯數字依小數制排列。例:
B021辯證唯物主義的物質論
B022辯證唯物主義的意識論
B022.2客觀規(guī)律性與主觀能動性
D035.37交通公安管理
D035.4監(jiān)察、監(jiān)督分類號的排列次序
1/11/202326《第二章信息檢索教程》分類號的排列次序
(續(xù))
——數字之后如還有字母,則在前部類號相同的基礎上,再按字母順序排列。例:
TP312ALALGOL程序語言
TP312BABASIC程序語言
TP312COCOBOL程序語言
——總論復分號“-”要排在數字“0”的前面。例:
H-61,H0,…,H31-61,H310,…——總論復分號“-”要排在組配符號“:”的前面。例:
H31,H31-62,H31:F,H31:I,…,H319,H319.4,H319.4-44,H319.4:B,H319.4:C,…1/11/202327《第二章信息檢索教程》讀者實際利用圖書館時,往往需要知道書刊的分類號和索書號(又稱索取號)。索書號是圖書館賦予每一種館藏圖書的號碼,是讀者查找圖書非常必要的代碼信息。它的第一部分是分類號,第二部分是書次號。索書號的兩部分之間有一個空格或一條斜線“/”。書次號或者是按照圖書作者姓名所編排的著者號碼,或者是按照圖書進入館藏時間的先后所取用的順序號碼。
——不同的索書號確定排列先后順序的步驟是,先比較分類號碼;如分類號碼相同再比較著者號碼或順序號碼。分類號比較:先英文字母排,后阿拉伯數字按小數制排。分類號中“-”排在0之前,例如:先排F-43再排F0。分類號的數字排列比較采用對位比較法,字符序列以ASCII字符集為依據。比如:B11、B111、B112、B12,書次號的數字排列比較采用自然順序排列方法,即1,2,3,...,9,10,11,...,99,100,101,…。分類號和索書號1/11/202328《第二章信息檢索教程》重新排列以下索取號的順序TP3/1044
TP3-43/3060TP311.13/1713
TP311.13/9091
TP393/4027
TP393/7732
TP393-43/4723
1/11/202329《第二章信息檢索教程》主題語言
①關鍵詞語言是直接選用文獻中的自然語言作基本詞匯,并將那些能夠揭示文獻題名或主要意旨的關鍵性自然語詞作為關鍵詞進行標引的一種檢索語言。例如:“國際聯(lián)機檢索概論”中的“國際聯(lián)機檢索”、“國際聯(lián)機”、“聯(lián)機”、“檢索”都是能描述這篇文獻主題的關鍵詞,都可以作為檢索詞。②標題詞語言是最早使用的一種主題語言,它以規(guī)范化的自然語義作為標識,來表達信息涉及的主題概念,并將全部標識按字母順序排列。例如:一篇文章用“微型計算機”這個術語來敘述它的研究對象,另一篇文章用“微型電腦”來敘述,第三篇文章用“微機”來敘述,雖然都表示同一概念,這時就不能直接用“微型電腦”或“微機”來作標題詞,這三篇文章都必須用“微型計算機”作標題詞(實際上是“主標題詞”,根據主題詞表決定)。1/11/202330《第二章信息檢索教程》主題語言
③單元詞語言是在標題詞語言基礎上發(fā)展起來的一種規(guī)范化檢索語言。單元詞(uniterm)是一種最基本的、不能再分的詞匯單位,亦稱元詞。它也是從文獻內容中抽出,并經過規(guī)范化處理,代表一個獨立的概念。例如:“計算機”、“軟件”。④敘詞語言是以自然語言為基礎,以概念組配為基本原理,并經過規(guī)范化處理,表達主題的最小概念單元,作為信息存儲和檢索依據的一種檢索語言。只有經過規(guī)范化處理,滿足一詞一義一型要求的詞才能稱為敘詞(descriptor)。例如:在敘詞語言的檢索系統(tǒng)中用“計算機”這個詞進行檢索,即使題名字段沒有“計算機”這個詞(如有同義詞“電腦”)的文章,也可以被檢索出來,不必進行同義詞替換即可查全。1/11/202331《第二章信息檢索教程》主題語言主題語言(標題詞、單元詞、敘詞)的規(guī)范化處理:①詞義規(guī)范:對同義詞(如計算機與電腦)、近義詞(如實驗與試驗)、學名和俗名(如發(fā)動機與馬達)、不同譯名(激光與萊塞)、簡稱與全稱(如中國與中華人民共和國)、不同寫法(如X射線與愛克斯射線)等進行選擇;對多義詞、同形異義詞進行限定說明,如杜鵑既表示一種鳥,也表示一種花,就須限定說明為,杜鵑(動物)、杜鵑(植物)。②詞類規(guī)范:即確定詞類的范圍。能用作敘詞的詞類一般要求控制在具有實質意義的名詞或動名詞的范圍之內。③詞形規(guī)范:即對詞的繁簡體、詞序、字母符號等的規(guī)定。1/11/202332《第二章信息檢索教程》代碼語言代碼語言是指對事物的某方面特征,用某種代碼系統(tǒng)來表示和排列事物概念,從而提供檢索的檢索語言。例如:根據化合物的分子式這種代碼語言,可以構成分子式索引系統(tǒng),允許用用戶從分子式出發(fā),檢索相應的化合物及其相關的信息。1/11/202333《第二章信息檢索教程》自然語言自然語言是直接從原始信息中抽取出來的未經規(guī)范化處理,用以揭示信息主題概念的檢索語言。抽取出來的詞包括自由詞、關鍵詞、事物名稱、科學術語、俗名、商品型號和縮寫等,具有不用編制詞表,及時跟上事物發(fā)展,準確表達事物新概念,選詞靈活方便,專指性強,標引和檢索速度快等優(yōu)點。例如:如有人輸入:howtocontroldriversofharddisk,檢索系統(tǒng)會自動提取檢索詞,然后進行過濾和檢索。
1/11/202334《第二章信息檢索教程》文獻內容特征文獻外表特征分類語言代碼語言主題語言題名索引著者索引機構索引刊名索引檢索語言檢索語言的分類1/11/202335《第二章信息檢索教程》1/11/202336檢索標識:著者姓名常用限制字段:au,作者,第一作者英文數據庫經常對著者姓名的格式進行規(guī)范化處理。著者姓名的轉換:姓全稱在前,名首字母在后
JasonSmithsmithjHenryM.Williamswilliams
hmClinton,JaffersonB.clinton
jb
劉國華liu
gh單名著者檢索應使用精確匹配。著者檢索語言1/11/202336《第二章信息檢索教程》1/11/2023復旦大學圖書館文獻檢索教研室37著者檢索:WEBOFSCIENCE檢索顧玉東教授發(fā)表的文獻,輸入:guyd1/11/202337《第二章信息檢索教程》題名檢索語言檢索標識:論文標題常用限制字段:ti,題名,篇名檢索時,抽取論文題名中的實義詞1/11/202338《第二章信息檢索教程》在信息存儲過程中分類號:S511.103.4記錄號:96017590著者:徐建龍等篇名:水道白葉枯病抗性基因Xa-21的初步利用刊名:浙江農業(yè)學報信息出處:—96.8(2).—70—73主題詞:遺傳效應育種白葉枯病水稻抗病性信息文獻通過標引、著錄形成信息數據庫中的一條記錄。1/11/202339《第二章信息檢索教程》在信息檢索過程中檢索式:篇名=納米雷達并且第一作者=蔣立勇1/11/202340《第二章信息檢索教程》
3.3檢索方法及檢索途徑
3.3.1檢索方法
查找(Searching)就是實施檢索策略、搜尋所得文獻信息的過程。以下幾種方法,無論是計算機還是手工檢索,都是常用的方法。
“拉網法”
在不了解查詢某一專題信息的URL地址時,可從提供信息總目的Web頁面開始瀏覽,沿著專題鏈接層層查找,直至找到有關的內容為止。然后用“書簽”保存這個頁面的URL,轉向另一個分支。這種方法可以迅速獲得較多的相關地址,然后進行篩選。就使用引擎而言,國外專家也建議先用鏈接頁面多、響應時間快的引擎。1/11/202341《第二章信息檢索教程》引文法(跟蹤法)
文獻之間的引證和被引證關系揭示了文獻之間存在的某種內在聯(lián)系,引文法(也有稱為跟蹤法)就是利用文獻后所附的參考文獻、相關書目、推薦文章和引文注釋查找相關文獻的方法。這些材料指明了與用戶需求最密切的文獻線索,往往包含了相似的觀點、思路、方法,具有啟發(fā)意義。
1/11/202342《第二章信息檢索教程》
引文法又可分為兩種,一種是由遠及近地搜尋,即找到一篇有價值的論文后進一步查找該論文被哪些其它文獻引用過,以便了解后人對該論文的評論、是否有人對此作過進一步研究、實踐結果如何、最新的進展怎樣等等。由遠及近地追尋,越查資料越新,研究也就越深入,但這種查法主要依靠專門的引文索引,如《科學引文索引》、《社會科學引文索引》。1/11/202343《第二章信息檢索教程》
另一種較為普遍的查法是由近及遠地追溯,這樣由一變十,由十變百地獲取更多相關文獻,直到滿足要求為止。這種方法適合于歷史研究或對背景資料的查詢,其缺點是越查材料越舊,追溯得到的文獻與現在的研究專題越來越疏遠。因此,最好是選擇綜述、評論和質量較高的專著作為起點,它們所附的參考文獻篩選嚴格,有時還附有評論。1/11/202344《第二章信息檢索教程》復旦大學圖書館文獻檢索教研室【參考文獻】1.張嗣芳,汪晶瑩,柳秋云,等干擾素α2b短療程治療98例腎綜合癥出血熱[J]中華傳染病雜志,2000,18:572.楊為松,黃長形.腎綜合癥出血熱研究的現狀與未來[J]中華傳染病雜志,1996,14:1913.王耀宗,徐偉,李莉,等W腎綜合癥出血熱抗病毒治療的實驗研究[J]W中華傳染病雜志,1994,12:69引文回溯例:馮智霖,徐邦強.干擾素α-1b治療腎綜合癥出血熱的臨床療效.中國臨床藥學雜志.2003,12(1):9-10參考文獻1/11/202345《第二章信息檢索教程》常規(guī)法
所謂常規(guī)法就是利用常規(guī)檢索工具查找有關文獻的方法,是信息時代應掌握的最基本的信息查找方法?,F在對文獻的書目控制手段已日趨完善,各種印刷版、縮微版、光盤版和網絡版的檢索工具層出不窮,有很大的挑選余地。用戶應根據自己的檢索知識和條件選用一種或幾種檢索工具。常規(guī)法可分為順查法、逆查法和抽查法。
1/11/202346《第二章信息檢索教程》3.3.2信息檢索的途徑所謂檢索途徑就是檢索時切入信息群體的路徑。檢索途徑有兩大類,一類是用信息的外部特征,如題名、責任者、某種序號、機構名等作為檢索標識;另一類是用能夠描述信息內容的分類號、關鍵詞、主題詞等作為檢索標識。在數據庫中檢索時,幾乎所有的字段都可以作為檢索的途徑。1/11/202347《第二章信息檢索教程》檢索語言與檢索途徑的關系
1/11/202348《第二章信息檢索教程》分類檢索
這種檢索是根據信息內容的學科分類來進行的。最大的優(yōu)點能保證信息的系統(tǒng)性,而且具有較好的族性檢索功能。分類檢索的要點:1。對待檢課題的概念及學科間的各種關系清楚;2。正確掌握相關課題的分類名稱、分類號,手工檢索中掌握工具的分類排檢。
1/11/202349《第二章信息檢索教程》分類檢索的步驟:1.分析待檢課題,確定其學科,并弄清學科間的
各種關系。2.查出待檢課題的分類號(工具簡單時可以省略)3.選擇適當的檢索工具4.進入檢索系統(tǒng)后選擇分類號途徑,并在對話框內
輸入分類號,開始檢索。5.對比題目,閱覽相關信息,選出所需信息,并下
載相關信息6.原文的索取1/11/202350《第二章信息檢索教程》復旦大學圖書館文獻檢索教研室分類列表分類檢索——瀏覽學科、專業(yè)信息1/11/202351《第二章信息檢索教程》詞匯檢索與分類號檢索相比,詞匯檢索具有直觀、靈活、專指性和適應性好的特點,同時檢索速度也比分類檢索快。
詞匯檢索的要點:首先是要選好檢索詞,正確理解詞間關系,檢索中還要注意詞間關系的正確表達。常用的詞匯檢索有關鍵詞檢索和主題檢索。計算機檢索時,選擇任意字段檢索時,檢索項也可以是各種詞匯。1/11/202352《第二章信息檢索教程》
詞匯檢索的步驟:
a、分析課題,確定檢索詞及詞間關系
b、選擇適當的檢索工具
c、選擇詞匯檢索途徑,在對話框內輸入檢索詞
(注意詞間關系的表達)
d、根據快捷顯示,選出有用信息并下載。
e、原文的索取1/11/202353《第二章信息檢索教程》責任者途徑:①姓前名后,名縮寫;②姓名中的“De”、“Von”、“Della”等前綴,與姓一起按字順排,如DeLeferore,AlfredVonKampf;③團體機構名稱名按名稱字順排。號碼途徑:號碼包括編號(number)、代碼(code)等,特定的號碼如:技術標準的標準號,專利說明書的專利號,科技報告的報告號,學會的會議論文連續(xù)號,或合同號、任務號、國際標準書號(ISBN)、國際標準刊號(ISSN),以及文獻收藏單位編的館藏號、索取號、排架號等,都可以此作為檢索點。1/11/202354《第二章信息檢索教程》其他檢索途徑1、題名檢索
包括書名、刊名、篇名和其他信息的標
題等2、機構3、來源4、其他特殊途徑1/11/202355《第二章信息檢索教程》4常用的檢索技術
檢索技術是指應用于信息檢索過程的原理、技術、方法、策略的總稱,是檢索系統(tǒng)為了提高檢索效率,從概念相關性、位置相關性等方面對檢索提問進行組配、加權、擴展、截詞、鄰近、限定的比較和運算處理技術。
1/11/202356《第二章信息檢索教程》布爾檢索布爾檢索(booleanretrieval)是用布爾邏輯算符將檢索詞、短語或代碼進行邏輯組配的一種技術,也是目前最常用的一種檢索技術。1/11/202357《第二章信息檢索教程》邏輯“與”具有概念交叉或概念限定關系的組配,用“*”或“AND”算符表示(少數工具用“+”或空格表示)。
檢索詞A和檢索詞B用“與”組配,檢索式為:
AANDB,或者A*B它表示檢出同時含有A、B兩個檢索詞的記錄。
1/11/202358《第二章信息檢索教程》用運算符號:AND或*連接檢索詞例查“有關計算機在圖書館中的應用”的文獻,檢索式=計算機*圖書館例查“豬的飼養(yǎng)”檢索式=豬*飼養(yǎng)1/11/202359《第二章信息檢索教程》邏輯“或”邏輯“或”是一種具有概念并列關系的組配,用“+”或“OR”算符表示(也有用“|”或“/”表示)。檢索詞A和檢索詞B用“或”組配,檢索式為:
AORB,或者A+B它表示檢出所有含有A詞或者B詞的記錄。1/11/202360《第二章信息檢索教程》
例1查“蘋果或梨”方面的文獻
檢索式=蘋果+梨它在同義詞檢索中使用,能提高查全率。
例2查“計算機或機器人”方面的文獻
檢索式=計算機+機器人1/11/202361《第二章信息檢索教程》邏輯“非”
邏輯“非”是一種具有概念排除關系的組配,用“–”或“NOT”算符表示。檢索詞A和檢索詞B用“非”組配,檢索式為:
ANotB,或者A-B它表示檢出含有A詞,但同時不含B詞的記錄。
1/11/202362《第二章信息檢索教程》用運算符號“NOT”或“—”連接兩檢索詞AANDNOTB
有的書上也稱為“與非”關系,即“邏輯乘”與“邏輯非”例1查“玉米但不是甜玉米”方面的文獻。
檢索式=玉米—甜玉米
例2查“不是鉻合金”方面的文獻。
檢索式=合金—鉻
1/11/202363《第二章信息檢索教程》
截詞檢索
截詞檢索(truncationretrieval)是指在檢索詞的適當位置截斷,用截斷的詞的一個局部進行的檢索。由于檢索詞與數據庫所存儲信息字符是部分一致性匹配,所以又稱部分一致檢索。由于西文的構詞特性:單復數形式不一致、英美拼寫不一致、詞干+前綴、詞干+后綴。檢索時,計算機會將所有含有相同部分標識的記錄全部檢索出來。在西文檢索系統(tǒng)中,使用截詞符處理自由詞,對提高查全率的效果非常顯著。截詞符多采用通配符“?”、“$”、“*”等,因此,截詞檢索有時也稱為通配符(wildcard)檢索。1/11/202364《第二章信息檢索教程》截詞檢索的方式按截斷的位置來分:前截斷;中截斷;后截斷按截斷的字符數量來分:無限截斷;有限截斷1/11/202365《第二章信息檢索教程》后截斷中截斷前截斷無限截斷如:economic???有限截斷截詞檢索與截詞檢索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如:economic*如:wom?nwomanwomen一般僅允許有限截斷如:?lish
sul*ur
sulfursulphur
無限截斷有限截斷前后截斷如:?computer?可檢出:computer、computers、computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers
1/11/202366《第二章信息檢索教程》鄰近檢索(proximityretrieval),又稱為“位置檢索”、“詞位檢索”、“全文檢索”。是一種可以不依賴敘詞表而直接使用自由詞進行檢索的一種技術,它以數據庫原始記錄中詞語的相對次序或者位置關系為對象進行組配運算。鄰近檢索
1/11/202367《第二章信息檢索教程》(W)與(nW)算符
(W)算符是“With”的縮寫,表示此算符兩側的檢索詞必須按此前后鄰接的順序排列,順序不可顛倒,而且檢索詞之間不允許有其他的詞或字母,但允許有空格或連字符號。例如:輸入gas(W)condensate可檢索出包含gascondensate和gas-condensate的記錄。(nW)算符是“nWords”的縮寫,表示此算符兩側的檢索詞之間允許插入n個實詞或虛詞,但兩個檢索詞的次序還是不能顛倒。例如:laser(1W)printer可檢索出包含“l(fā)aserprinter”、“l(fā)asercolorprinter”和“l(fā)aserandprinter”的記錄。1/11/202368《第二章信息檢索教程》(N)與(nN)算符
(N)算符是“Near”的縮寫,表示此算符兩側的檢索詞彼此必須相鄰接,但兩個檢索詞的前后關系可以顛倒,即查找兩個連在一起的單詞,但兩詞之間不能插入任何詞。例如:money(N)supply
可檢索出包含moneysupply和supplymoney兩個詞組的記錄。1/11/202369《第二章信息檢索教程》(nN)
算符是“nNear”的縮寫,表示此算符兩邊的檢索詞之間插入詞的最多數目是
n
個,且兩個檢索詞的次序可以任意顛倒。例如:economic(2N)recovery
可以檢出包含economicrecovery、recoveryoftheeconomy、recoveryfromeconomictroubles的記錄。1/11/202370《第二章信息檢索教程》(S)算符
(S)算符是“Sub-field/Sentence”的縮寫,表示在此運算符兩側的檢索詞只要出現在記錄的同一個子字段內(例如在文摘中的一個句子就是一個子字段),此信息即被命中。要求被連接的檢索詞必須同時出現在記錄的同一句子(同一子字段)中,不限制它們在此子字段中的相對次序,中間插入詞的數量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中檢索出含有“highstrength和steel”形式的均為命中記錄。1/11/202371《第二章信息檢索教程》(F)算符
(F)
算符是“Field”的縮寫,表示在此運算符兩側的檢索詞必須同時出現在文獻記錄的同一字段內,如出現在篇名字段、文摘字段、敘詞字段、自由詞字段,但兩個詞的前后順序不限,夾在兩個詞之間的詞的個數也不限。要求被連接的檢索詞出現在統(tǒng)一的字段中,字段類型和詞序均不限。例如:environmental(F)impact/DE,TI表示這兩個詞必須同時出現在敘詞字段和篇名字段中。1/11/202372《第二章信息檢索教程》字段限定檢索
使用鄰近檢索,只能限制檢索詞之間的相對位置,不能完全確定檢索詞在數據庫記錄中出現的字段位置,特別在使用自由詞進行全文檢索時,需要用字段限制查找的范圍。使用截詞檢索,簡化了布爾檢索中的邏輯“或”功能,但并沒有改善布爾檢索的性質。字段限定檢索(fieldlimitingretrieval)是用于限定提問關鍵詞在數據庫記錄中出現的區(qū)域,控制檢索結果的相關性,是提高檢索效果的一種有效檢索方法。1/11/202373《第二章信息檢索教程》字段代碼字段名
表示方法TITitleapple?intiABAbstractmachineinab
DEDescriptorsbuildingindeAUAuthorau=liuBNISBNbn=0-5635-0144-4CCCALClassification(分類號)
cc=921CDConferenceDatecd=19960501CLConferenceLocation(會址)cl=hangzhouCTConferenceTitlect=roboticsandautomationCYConferenceYearcy=1996DTDocumentTypedt=bookLALanguagela=englishPYPublicationYearpy>=1990SNISSNsn=1060=9857SOSourcePublicationso=power1/11/202374《第二章信息檢索教程》
例如:(minicomputer/DE,TIORpersonalcomputer/ID,TI)ANDPY=2008ANDLA=English這個檢索式所表達的檢索要求是:查找2008年出版的關于微電腦或者個人電腦的英文文獻,并要求“微電腦”一詞在命中文獻的敘詞字段、標題字段出現,“個人電腦”一詞在命中文獻的自由詞字段出現。在互聯(lián)網搜索引擎中,限定字段也是常用的語法。例如,“filetype:”表示在某種文件類型(如doc、pdf)中查找資料。詳細的介紹請參見搜索引擎部分。1/11/202375《第二章信息檢索教程》5信息檢索的基本步驟
分析檢索課題1.主題概念2.信息類型3.時間范圍4.檢索目的構造檢索式(試驗性檢索)1.簡單提問式2.上下文提問式3.復合提問式4.結構性提問式調整檢索策略(正式檢索)1,信息量過多時2.信息量太少時輸出檢索結果1.文摘2.全文選擇檢索系統(tǒng)1.學科范圍2.系統(tǒng)類型3.系統(tǒng)功能
確定檢索詞
1.切分2.刪除3.替補4.組合5.增加用戶評價
1/11/202376《第二章信息檢索教程》1分析檢索課題
例如:查找有關消防的文獻。所有的“消防”文獻?還是只需有關“消防事業(yè)”、“消防隊伍”、“消防設施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文獻?(主題分析和檢索目的)需要一般的文獻資料?還是比較專深的文獻?需要科技論文?還是專利、標準、數據等?(信息類型)需要新穎的信息?或者是與別人的研究進行先進性比較?還是系統(tǒng)的學科知識?(時間范圍)——需要系統(tǒng)地掌握某學科的知識,可以選擇圖書;——需要撰寫研究項目的開題報告、論文,開展技術攻關,可以選擇研究報告、科技論文、學位論文、會議文獻等;——需要進行發(fā)明創(chuàng)造、工藝改革、新產品設計、引進設備、簽訂合同,可以選擇專利說明書、標準文獻、產品資料等。1/11/202377《第二章信息檢索教程》2選擇檢索系統(tǒng)
學科范圍。對于交叉學科、新興學科、應用研究、綜合研究,不應局限于某一學科范圍,可根據情況適當擴大檢索系統(tǒng)的學科范圍。例如,石油和礦業(yè)工程的力學計算方面的課題,也可以考慮數學、物理學、計算機信息科學、機械工程方面的數據庫。擴大檢索系統(tǒng)的學科范圍有時會帶來意外的收獲。系統(tǒng)類型。首先,在不同的文獻類型系統(tǒng)中選擇。其次,要在文摘、索引系統(tǒng)和全文數據庫系統(tǒng)之間選擇。第三,在專業(yè)性數據庫中去查找。系統(tǒng)功能。一般說來,使用分類語言、主題語言的檢索系統(tǒng),要優(yōu)于使用自然語言的檢索系統(tǒng),專業(yè)檢索系統(tǒng)要優(yōu)于搜索引擎。檢索途徑、檢索方式(如分類瀏覽、簡單檢索、高級檢索、專家檢索、自然語言檢索)多,收錄時間跨度長,來源語種、國別多,文本(數據)質量高,附加個性化服務,檢索系統(tǒng)就更值得選擇。1/11/202378《第二章信息檢索教程》3確定檢索詞
1.切分切分是對課題的語句以自由詞為單位進行拆分,轉換為檢索的最小單元。自由詞切分僅適用于自然語言檢索。例1:檢索“婦女吸煙與肺癌的關系研究”相關文獻。直接切分:婦女|吸煙|與|肺癌|的|關系|研究)注意,切分到詞為止,詞是語義切分的最小單元,當詞切分后將失去原來的意思時,不應再切分,即必須注意保持意義的完整。如“中國科學院”、“電子郵件”不可再切分。1/11/202379《第二章信息檢索教程》確定檢索詞2.刪除刪除是對自然語言中不具有實質性檢索意義的虛詞(如介詞、連詞、副詞等),或者使用頻率較低的詞,或者專指性太高、過分寬泛的詞,或者過分具體的限定詞、禁用詞,或者不能表達課題實質的高頻詞,或者存在蘊含關系可以合并的詞,一律予以刪除,使自然語言轉換成為關鍵詞和主題詞的集合。如上例中的“與”、“的”、“關系”、“研究”。例2:檢索“中國非常規(guī)天然氣工業(yè)的發(fā)展前景研究”方面的相關文獻。進行拆分以后,工業(yè)、發(fā)展、前景、研究這四個自由詞具有一定的檢索意義,但是由于或者是意義過于寬泛、或者是不能表達課題實質、或者是存在蘊含關系的原因,沒有必要全部作為檢索詞,根據需要可以保留1-2個作為檢索詞。1/11/202380《第二章信息檢索教程》例:“中國改革開放三十年的得與失””得“,”失“專指性太高,如用作檢索詞會漏檢如:“成就與失誤”、“回顧與展望”等的文獻。思考:檢索”高血壓病人的治療“方面的文獻如何確定檢索詞1/11/202381《第二章信息檢索教程》確定檢索詞3.替補替補就是在進行切分、刪除后,對檢索詞進行替換和補充?!肮弧睉鎿Q為:公共交通;“綠色包裝”中的“綠色”,應替換為:環(huán)保、無污染;“煤氣中毒”應替換為:一氧化碳中毒;“非典”應考慮補充:SARS、非典型肺炎、傳染性非典型肺炎、嚴重急性呼吸綜合征(severeacuterespiratorysyndrome);“非常規(guī)天然氣”(nonconventionalnaturalgas)應考慮補充:煤層氣、(天然氣)水合物、頁巖氣、深層氣、致密巖氣、水溶氣、沼氣,同時考慮將“氣”應替換為:天然氣(naturalgas)、甲烷(methane)、CH4
、CH4;1/11/202382《第二章信息檢索教程》確定檢索詞4.組合
①概念相交組合。這個新概念是原來用以組合的兩個概念的下位概念,如曲柄連桿機構*發(fā)動機=汽車發(fā)動機。②概念限定組合。這個新概念可用來表示這一事物的某一屬性或某一個方面。如電視機*數字化=數字電視機。以上兩種組配方式,所得到的新概念,都是原組概念的下位概念,縮小了檢索范圍,提高了概念的專指度,達到提高檢準率的目的。③概念并列組合。具有概念并列關系的自由詞間的組配,其結果使概念檢索的范圍擴大,如環(huán)境污染+環(huán)境保護=環(huán)境污染和環(huán)境保護。④概念刪除組合。是指兩個具有上下位關系的自由詞間的組合,其結果使概念檢索的范圍縮小,如信息處理-模擬信息處理=數字信息處理。1/11/202383《第二章信息檢索教程》確定檢索詞5.增加增加“限義詞”。有兩種方法:直接增加限義詞、挖掘隱含詞、提取潛在的檢索詞;把限義詞以邏輯的方式加入,可采用邏輯“與”或邏輯“非”的方法增加限義詞。分析隱含概念。挖掘潛在的主題詞還可以通過對上位詞、下位詞、同類詞關系的分析得到其它相關主題詞。如例1:“婦女吸煙與肺癌的關系研究”,切分、刪除后得:吸煙、肺癌兩個檢索詞,分析、補充上位詞可增加檢索詞:煙、癌癥、惡性腫瘤。例3:檢索“一種新的天線陣方向圖綜合方法”課題。切分:一種|新|的|天線陣|方向圖|綜合|方法;刪除后得:天線陣、方向圖;根據主題詞表分析,增加上位詞可得主題詞:互耦、偶極子、輸入阻抗等。1/11/202384《第二章信息檢索教程》確定檢索詞從上述四個實例可以看出,提取檢索詞首先是切分、刪除,其次是進行替補、組合和增加。在提取檢索詞時,若所選的數據庫具有規(guī)范化詞表時,應優(yōu)先選用該數據庫詞表中與檢索課題相關的規(guī)范化主題詞(檢索詞)。1/11/202385《第二章信息檢索教程》4構造檢索式(試驗性檢索)
所謂的檢索提問式(query,searchformulation),是信息檢索中用來表達用戶檢索提問的邏輯表達式,主要是使用各種布爾邏輯算符、位置算符、截詞符、限制算符以及系統(tǒng)規(guī)定的其他組配連接符號將檢索詞進行組配,確定檢索詞之間的概念關系或位置關系。1/11/202386《第二章信息檢索教程》構造檢索式(試驗性檢索)簡單提問式——含一個檢索詞的提問式;上下文提問式——精確短語或近似精確短語的提問式,也可稱為短語提問式;復合提問式——含有布爾算符和至少2個檢索詞的提問式;結構性提問式——含有2個以上布爾算符和至少4個檢索詞的多層結構組合的提問式。例4:地震序列分析的工具和方法研究要完成本項檢索課題,必須使用結構性提問式:((((sequenceanalysis)WNTI)AND((method*ORtool*ORinstrument*)WN
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高價電纜出售合同范本
- 在農村種地合同范本
- 弱電發(fā)包合同范本
- 托管學生租賃合同范本
- 房產買賣解約合同范本
- 企業(yè)文化揭秘培訓課件
- 2025年采礦區(qū)計量磅房管理合同
- 2025勞動合同案例分析
- 2025實驗室租賃合同范本
- 2025深圳租房合同模板
- (完整版)自考00600高級英語重點上冊
- 湖南邵陽農商行招聘真題2024
- DL∕T 2528-2022 電力儲能基本術語
- 《曼陀羅繪畫療愈-初三減壓》PPT
- 中英文驗貨報告模板
- 關于加強施工現場安全防護用具檢測的要求
- 幼兒園螞蟻教學認識螞蟻螞蟻分類(課堂PPT)
- C35P10計算書
- 小學數學專題講座:“小學數學計算能力的培養(yǎng).ppt“
- 佛教開靈奠食科儀
- 土釘墻支護計算計算書(共10頁)
評論
0/150
提交評論