文獻檢索與利用2_第1頁
文獻檢索與利用2_第2頁
文獻檢索與利用2_第3頁
文獻檢索與利用2_第4頁
文獻檢索與利用2_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息存儲與檢索劉佳其次章網(wǎng)絡(luò)信息檢索的方法與技術(shù)第一節(jié)網(wǎng)絡(luò)信息檢索的基本方法信息檢索方法的分類1.干脆法不利用檢索系統(tǒng)(工具),干脆通過原文或文獻指引來獲得相關(guān)信息的方法。閱讀法:干脆通過閱讀、查閱文獻原文來獲得所需信息的方法。追溯法:利用已知文獻的某種指引來獲得所需信息的方法。2.工具法是最常用的方法,利用各種檢索系統(tǒng)(工具)來檢索信息。順查法:依據(jù)時間依次由遠及近地查找信息的方法。倒查法:依據(jù)時間依次由近及遠地逐年查找所需信息。抽查法:依據(jù)檢索需求的特點和學(xué)科發(fā)展的實際狀況,抽取這一段時間的文獻進行檢索。3.綜合法綜合利用上述各種方法來查找信息的方法。第一節(jié)網(wǎng)絡(luò)信息檢索的基本方法

布爾邏輯檢索(booleanlogicsearching)布爾邏輯檢索是多個檢索項(可以是單詞、詞組或檢索式)之間通過運用布爾邏輯算符來精確的表達檢索提問的檢索技術(shù)。(1)邏輯“與”—AND或*同時含有兩個檢索詞才能被命中用于交叉概念或限定關(guān)系概念之間的組配,可以縮小檢索范圍,提高檢準率。(2)邏輯“或”—OR或+,或|表示只要含有其中一個檢索詞或同時含有這兩個檢索詞的文獻都將被命中。用于并列關(guān)系的概念組配,相當于增加了檢索詞主題的同義詞或近義詞,有助于擴大檢索范圍,提高查全率。(3)邏輯“非”–NOT或-表示被檢索文獻在含有檢索詞A而不含有檢索詞B時才能被命中。用于排斥與選擇關(guān)系的組配,能夠縮小命中文獻的范圍,增加檢索的精確性。例:北京除冬季外汽車和可吸入顆粒物造成的空氣污染狀況”這一主題的檢索。北京*空氣污染*(汽車+可吸入顆粒物)-冬季鄰近檢索(proximitysearch)又稱為位置限制檢索,是用一些特定的算符(位置算符)來表達檢索詞與檢索詞之間的依次和詞間距的檢索。(1)(W)在此算符兩側(cè)的檢索詞必需按此前后的依次排列,依次不能顛倒,兩個檢索詞之間不許有其他的詞或字母,但允許有空格或標點符號。例:information(W)retrievalInformationretrieval,information-retrieval(2)(nW)在此算符兩側(cè)的檢索詞之間最多不超過n個(最大數(shù)量)實詞或虛詞(非用詞),兩個檢索詞的詞序不許顛倒。例1:electronic(1W)resourceselectronicresources,electronicinformationresourses例2:JilinMedical

University,Jilin

Agricultural

University,JilinTechnology

UniversityJilin(1W)University(3)(N)在此算符兩側(cè)的檢索詞必需緊密相連,但詞序可顛倒。例:information(N)retrievalinformationretrieval,retrievalinformation(4)(nN)表示兩個詞位置可以顛倒,兩個詞間插入詞的最多數(shù)目是n個。

例:informationretrieval,retrievalinformationretrievalofinformation,retrievaloflawinformation,retrievalofChineselawinformationinformation(3N)retrieval(5)(F)表示在此運算符兩側(cè)的檢索詞必需同時出現(xiàn)在文獻記錄的同一字段內(nèi)。兩個詞的前后依次不限,夾在兩個詞之間的詞的個數(shù)也不限。(6)(S)表示在此運算符兩側(cè)的檢索詞只要出現(xiàn)在文獻記錄的同一子字段或同一段內(nèi),此文獻即被命中,兩個詞詞序不限,兩個詞中間可間隔若干個詞。(7)NOTNOT與鄰接運算符組合運用,而產(chǎn)生相反的含義。NOTW表示其后的詞不能緊跟其前的詞NOTN表示兩個詞不能相鄰NOTS表示其后的詞不應(yīng)出現(xiàn)在同一子字段中NOTF表示兩個詞不應(yīng)出現(xiàn)在同一字段中短語檢索(phrasesearch)用“”表示,檢索出與“”內(nèi)形式完全相同的短語,以提高檢索的精度和精確度,也稱為“精確檢索”(exactsearch)。GeorgeW.WashingtonGeorgeW.BushspokeatWashingtonD.C.abouthumanrights“GeorgeW.Washington”截詞檢索(truncation/wildcats)用截詞符號加在檢索詞的前后或中間,以檢索一組概念相關(guān)或同一詞根的詞,即在檢索標識中保留相同的部分,用相應(yīng)的截詞符代替可變更部分??梢詳U大檢索范圍,提高查全率,主要用于西文數(shù)據(jù)庫檢索,中文數(shù)據(jù)庫通常不運用。?代表0至1個字符*代表0至多個字符(1)前截詞(詞首截詞)截詞符在檢索詞的開頭。例:*ologybiology,geology,physiology,sociology(2)中間截詞wom?n(3)后截詞(詞尾截詞)①詞尾的有限截詞?!埃俊睅讉€問號連在一起時,問號的個數(shù)代表可變更的字符數(shù)的上限。②詞尾的無限截詞?!?”允許有0至隨意個字符的變更。例:cat*cat,cats,catalog,catalogue,categoryeconom*economy,economic,economics,economical,economist,economize等字段限制檢索(fieldlimiting)

在信息檢索過程中,為提高查全率或查準率,檢索范圍限制在特定的字段中,即字段限制檢索?;舅饕侄危╞asicindexfields)

一篇記錄中主要用來表達文獻內(nèi)容特征的字段。如篇名、文摘、主題詞、關(guān)鍵詞基本索引字段的限定由“/”與一個基本索引字段代碼組成,又稱后綴限定。

字段名字段代碼中譯名AbstractAB文摘DescriptorDE敘詞(主題詞)KeywordKW關(guān)鍵詞TitleTI題名常用基本索引字段及代碼表例:地震/TI幫助索引字段(additionalindexfields)表達文獻外部特征的字段。如著者、機構(gòu)名稱、語種、刊名、來源、出版年。幫助檢索字段由幫助字段代碼和“=”組成,一般將幫助索引字段代碼置于檢索詞前,稱為前綴。字段名字段代碼中譯名AuthorAffiliationAA著者單位Author,InventorAU著者,發(fā)明者ConferenceTitleCT會議名稱JournalNameJN刊名PublisherPU出版者PublicationYearPY出版年常用幫助索引字段及其代碼表例:PY=2000例1:檢索“吉林高校”姓名是“王力”的作者的文獻。AU=王力AND(AA=吉林高校)例2:檢索“2010年”出版的關(guān)于“人壽保險”的資料。人壽(N)保險ANDPY=2010例3:檢索主題內(nèi)容是情報的2000年的文獻。情報/DEANDPY=2000文獻書目型數(shù)據(jù)庫記錄的字段:存取號、篇(題)名、文摘、敘詞、自由詞、著者、著者機構(gòu)、刊名、出版年、語種、分類號網(wǎng)絡(luò)檢索工具的字段:標題(title)、圖像(image)、文本(text)、主機名(host)、域名(domain)、鏈接(link)、統(tǒng)一資源地址(URL)、新聞組(newsgroup)、電子郵件(E-mail)Title(ti):JilinUniversityurl:govLink:admissionANDsite:Py>=2010La=englishAU=WangliAND(AA=JilinUniv.)Title:JilinUniversityurl:gov括號檢索(parentheses)用于變更運算的先后次序,括號內(nèi)的運算優(yōu)先進行。自然語言檢索(naturallanguagesearch)干脆接受自然語言中的字、詞、句進行提問式檢索,又稱為“智能檢索”(intelligentsearch)。多語種檢索(multilingualsearch)供應(yīng)多種語言的檢索環(huán)境供用戶選擇,系統(tǒng)按用戶選定的語種進行檢索并反饋結(jié)果。模糊檢索(fuzzysearch)又稱概念檢索,是指運用某一檢索詞進行檢索時,能同時對該詞的同義詞、近義詞、上位詞、下位詞進行檢索,以達到擴大檢索范圍、避開漏檢索的目的。區(qū)分大小寫的檢索(casesensitive)china--china,China,CHINAChina--China加權(quán)檢索(termweighting)音形一樣檢索(phoneticsearch)詞根檢索(stemming)思索題查找2010年發(fā)表的題名中含有信息檢索系統(tǒng)評價的英文論文其次節(jié)信息檢索的主要技術(shù)一.全文檢索技術(shù)全文檢索必需具有一個全文數(shù)據(jù)庫,全文數(shù)據(jù)庫是將一個完整的信息源的全部內(nèi)容轉(zhuǎn)化為計算機可識別、處理的信息單元而形成的數(shù)據(jù)集合。特點:信息量大,基本上是未經(jīng)加工的、詳盡的、客觀的原始信息;信息檢索的靈敏性和適應(yīng)性;檢索語言的自然性;數(shù)據(jù)相對穩(wěn)定。問題:查準率低。全文檢索系統(tǒng)在檢索過程中可能對同一頁面重復(fù)檢索,即同一檢索詞檢出的多條檢索結(jié)果可能是同一個地址,影響查準率;只要檢索詞出現(xiàn)在文本中就能被檢出,導(dǎo)致查準率不高。二.多媒體信息檢索技術(shù)音頻信息檢索語音檢索:以語音為中心的檢索音樂檢索:以音樂為中心的檢索音頻檢索:以波形聲音為對象

視頻信息檢索基于關(guān)鍵幀檢索基于鏡頭和視頻對象的時間特征檢索三.超文本及超媒體檢索技術(shù)即把有關(guān)的信息或資源通過超鏈接聯(lián)系起來,檢索時可以借助超鏈接實現(xiàn)相關(guān)信息的閱讀。特點:不但留意所要管理的信息,而且更留意信息之間關(guān)系的建立與表示。缺陷:信息以超文本方式鏈接,導(dǎo)致檢索過程含有極大的盲目性和偶然性,簡潔偏離檢索目標。四.智能信息檢索技術(shù)智能檢索技術(shù)就是接受人工智能進行信息檢索的技術(shù)??梢阅M人腦的思維方式,分析用戶以自然語言表達的檢索懇求,自動形成檢索策略進行智能、快速、高效的信息檢索。特點:在檢索過程中引入了資源對象的語義處理??梢暬畔z索技術(shù)是將信息資源、用戶提問、信息檢索模型、檢索過程以及檢索結(jié)果中各種不行見的內(nèi)部語義關(guān)系轉(zhuǎn)換成圖形,顯示在一個二維、三維或多維的可視化空間中,幫助用戶理解檢索結(jié)果、把握檢索方向,以提高信息檢索的效率與性能。

跨語言檢索技術(shù)允許用戶運用其熟悉的某一種語言來構(gòu)造檢索式,以此檢索出另外一種或幾種語言表達的信息,即跨越語言限制進行檢索的技術(shù)。技術(shù)實現(xiàn)的核心問題:翻譯文本聚類技術(shù)依據(jù)學(xué)問之間的相像性,即它們在對應(yīng)的特征空間的親疏遠近來確定其類別,即是聚類。聚類過程:特征選擇文本表示聚類處理第三節(jié)信息檢索的技巧檢索策略(retrievalstrategy)是為實現(xiàn)檢索目標而制訂的全盤支配或方案,是就一個問題檢索一個或多個數(shù)據(jù)庫所輸入的全部檢索式的集合。信息檢索流程(一)分析信息需求精確了解所要查詢的目的和要求,確定檢索問題的關(guān)鍵詞及涉及的學(xué)科或主題范圍、地域范圍、語種范圍、資源的時間范圍、須要的信息類型、查詢方式、資源的性質(zhì)等。(二)選擇合適的檢索工具檢索問題對須要運用的檢索工具具有干脆影響,檢索工具的選擇正確與否對檢索效率起著特殊重要的作用。檢索工具的類型、收錄范圍、檢索問題的類型、檢索問題的具體要求、數(shù)據(jù)庫的檢索功能。數(shù)據(jù)庫的選擇:4CContent(數(shù)據(jù)庫的內(nèi)容)、Coverage(數(shù)據(jù)庫收錄資源的范圍)、Currency(數(shù)據(jù)庫內(nèi)容的新穎 性、更新的頻率)、Cost(數(shù)據(jù)庫的費用)(三)確定檢索點與檢索詞檢索點對應(yīng)數(shù)據(jù)庫中的字段,其基本構(gòu)成單位是檢索詞。檢索詞是用戶或檢索人員檢索時輸入的字、詞、字符或短語。包括關(guān)鍵詞和各種符號。關(guān)鍵詞是出現(xiàn)在文獻的標題、關(guān)鍵詞、摘要或正文中,對表達文獻主題內(nèi)容具有實質(zhì)意義的語詞。(四)正確構(gòu)造檢索式檢索式是檢索策略的具體體現(xiàn),是要求檢索系統(tǒng)執(zhí)行的檢索語句。有效的信息檢索要充分利用搜尋工具支持的檢索運算、允許運用的檢索標識、各種限定。建議運用高級查詢和進階檢索。積木型檢索式

例1:(1)informationANDr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論