信息檢索-第一章課件_第1頁
信息檢索-第一章課件_第2頁
信息檢索-第一章課件_第3頁
信息檢索-第一章課件_第4頁
信息檢索-第一章課件_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

INFORMATIONRETRIEVAL信息檢索

主講人:朱末霞信息檢索-第一章第一節(jié)信息檢索及其類型第二節(jié)檢索語言第三節(jié)檢索技術(shù)第一章信息檢索基礎(chǔ)知識(shí)信息檢索-第一章第一節(jié)信息檢索及其類型一、信息檢索的必要性二、信息檢索的概念三、信息檢索的類型信息檢索-第一章一、信息(文獻(xiàn))檢索必要性

科技人員必備的基本技能

知識(shí)更新的手段能力的培養(yǎng)一個(gè)科研人員的時(shí)間分配表查資料50%寫報(bào)告10%實(shí)驗(yàn)研究30%計(jì)劃思考10%信息檢索-第一章二、信息檢索概念

信息檢索:是指將信息(主要指文獻(xiàn)信息)按一定的方式組織和存儲(chǔ)起來,并根據(jù)用戶的需要找出相關(guān)信息的過程。信息檢索存儲(chǔ)檢索存儲(chǔ):是對(duì)信息進(jìn)行著錄、標(biāo)引、整序,編制檢索工具和建立檢索系統(tǒng)的過程。檢索:是指面向信息需求而進(jìn)行高度選擇性的查找過程。信息檢索-第一章原始文獻(xiàn)加工整理數(shù)據(jù)庫提問檢索輸出存儲(chǔ)檢索信息檢索-第一章三、信息檢索的類型(一)按檢索對(duì)象和目的劃分1、數(shù)據(jù)檢索

是以數(shù)據(jù)為檢索對(duì)象,檢索的結(jié)果是經(jīng)過測(cè)試、評(píng)價(jià)過的各種數(shù)據(jù)、可直接用于分析和研究。2、事實(shí)檢索

是以具體事項(xiàng)為檢索對(duì)象,檢索結(jié)果是有關(guān)某一事物的具體答案。LOGO信息檢索-第一章3、書目檢索以標(biāo)題、作者、來源出處、專利號(hào)等為檢索對(duì)象,檢索結(jié)果是與課題相關(guān)的一系列書目信息線索,用戶通過這些線索決定取舍和進(jìn)一步獲得的手段。4、全文信息檢索是以論文、著作、報(bào)告或?qū)@f明書的全文為檢索對(duì)象,檢索結(jié)果是與課題相關(guān)的論文或?qū)@f明書的全文文本。信息檢索-第一章(二)按信息檢索手段劃分1、傳統(tǒng)信息檢索

就是手工信息檢索,是利用各種印刷型檢索工具查找文獻(xiàn)的一種方法。2、現(xiàn)代信息檢索

現(xiàn)代信息檢索即計(jì)算機(jī)信息檢索,是指利用計(jì)算機(jī)和網(wǎng)絡(luò)來處理和查找文獻(xiàn)信息的檢索方式信息檢索-第一章

1、直接檢索

就是指利用一次文獻(xiàn)進(jìn)行檢索,這是以前比較常用的一種查找方法。所花時(shí)間多和精力大,檢出文獻(xiàn)少。2、間接檢索就是指利用各種檢索工具獲得文獻(xiàn)線索,再根據(jù)線索去查找原始文獻(xiàn)的方法。(三)按是否使用檢索工具劃分信息檢索-第一章第二節(jié)信息檢索語言一、檢索語言的含義及作用二、檢索語言的類型信息檢索-第一章一、檢索語言的含義及作用檢索語言:是一種受控語言,它依據(jù)一定的規(guī)則對(duì)自然語言進(jìn)行規(guī)范,將其編制成表,供信息標(biāo)引以及檢索時(shí)使用。

作用:

1、保證不同標(biāo)引人員表達(dá)信息概念的一致性

2、保證檢索提問與文獻(xiàn)標(biāo)引的一致性

3、保證文獻(xiàn)存儲(chǔ)的集中化與系統(tǒng)化

4、為檢索系統(tǒng)提供多種檢索途徑信息檢索-第一章二、檢索語言的類型檢索語言的類型表述文獻(xiàn)外表特征的語言表述文獻(xiàn)內(nèi)容特征的語言題名責(zé)任者號(hào)碼文獻(xiàn)類型分類語言主題語言標(biāo)題詞語言敘詞語言單元詞語言關(guān)鍵詞語言引文語言信息檢索-第一章1、分類語言用分類號(hào)和相應(yīng)的分類款目名稱來表達(dá)信息內(nèi)容的主題概念,并按學(xué)科體系的邏輯次序?qū)⑿畔①Y源系統(tǒng)地加以劃分和組織的語言。

中國圖書館圖書分類法

國際十進(jìn)分類法杜威十進(jìn)位分類法

IPC國際專利分類法

新編管理信息系統(tǒng)/杜棟編著C931.6/7.1102信息檢索-第一章2、主題語言以名詞性術(shù)語作為概念標(biāo)識(shí),按字母順序編排的檢索語言。主題詞匯通過參照系統(tǒng)靈活揭示詞匯之間的關(guān)系。主題語言按照主題性質(zhì)的不同,又分為標(biāo)題詞語言、敘詞語言、單元詞語言、關(guān)鍵詞語言和引文語言。信息檢索-第一章主題詞語義參照系統(tǒng)參照項(xiàng)含義簡(jiǎn)稱符號(hào)英文簡(jiǎn)稱英文全稱用項(xiàng)同義詞(正式主題詞)用YUSEUse代項(xiàng)同義詞(非正式主題詞)代DUFUsedFor分項(xiàng)狹義詞分FNTNarrowerTerm屬項(xiàng)廣義詞屬SBTBroaderTerm族項(xiàng)族首詞族ZTTTopTerm參項(xiàng)相關(guān)詞參CRTRelatedTerm

Zábōgānr?o

雜波干擾[56MB]NoisejammingY噪聲干擾非正式款目主題詞漢語拼音范疇分類號(hào)英譯名關(guān)系詞參照符號(hào)

Zàoshēnggānr?o

噪聲干擾[56MB]NoisejammingD雜波干擾

F瞄準(zhǔn)式干擾掃頻干擾阻塞式干擾

S通信干擾有源干擾

Z電子對(duì)抗*

C連續(xù)波干擾脈沖干擾調(diào)制干擾漢語拼音范疇分類號(hào)英譯名參照符號(hào)關(guān)系詞正式主題詞Diànz?duìkàng

電子對(duì)抗*

·通信對(duì)抗

··通信干擾

···脈沖干擾

···欺騙性干擾

···載波干擾

···噪聲干擾

····掃頻干擾

····阻塞式干擾

··通信抗干擾信息檢索-第一章標(biāo)題詞語言

是從文獻(xiàn)的題目和內(nèi)容中抽出來,經(jīng)過規(guī)范化處理的主題語言。敘詞語言

是以表達(dá)文獻(xiàn)主題內(nèi)容的概念單元為基礎(chǔ),經(jīng)過規(guī)范化處理,可以進(jìn)行邏輯組配的一種主題語言。單元詞語言

從信息內(nèi)容特征中抽取出來的,經(jīng)過規(guī)范化處理且只表達(dá)唯一獨(dú)立概念的最基本的,不能再分的單元詞語。信息檢索-第一章關(guān)鍵詞語言直接從文獻(xiàn)信息的標(biāo)題、摘要或內(nèi)容本身抽取出來的用于揭示信息主題內(nèi)容的自由詞。引文語言

就是利用文獻(xiàn)信息之間的相互引證關(guān)系作為文獻(xiàn)內(nèi)容主題標(biāo)識(shí),并以此標(biāo)引和檢索文獻(xiàn)而建立的檢索語言。信息檢索-第一章第三節(jié)檢索技術(shù)一、概念檢索二、布爾邏輯運(yùn)算符組配檢索三、截詞檢索四、字段限制檢索五、位置運(yùn)算符六、檢索策略與效果信息檢索-第一章一、概念檢索檢索標(biāo)識(shí)是具體的檢索詞或詞組,每個(gè)檢索詞表達(dá)一個(gè)概念,具體檢索時(shí),將檢索詞與數(shù)據(jù)庫中的文獻(xiàn)特征標(biāo)識(shí)進(jìn)行類比,兩者相同,則該記錄為命中文獻(xiàn)。信息檢索-第一章二、布爾邏輯算符組配檢索布爾邏輯組配運(yùn)算是采用布爾代數(shù)中的邏輯“與”、邏輯“或”、邏輯“非”等算符,將檢索提問式轉(zhuǎn)換成邏輯表達(dá)式,限定檢索詞在記錄中必須存在的條件或不能出現(xiàn)的條件。凡符合布爾邏輯所規(guī)定條件的文獻(xiàn),既為命中文獻(xiàn)。信息檢索-第一章

布爾邏輯運(yùn)算符————————————1、邏輯“或”2、邏輯“與”3、邏輯“非”信息檢索-第一章

1、邏輯“或”—————————————————AB用符號(hào)“or”或“+”表示,其邏輯表達(dá)式為:

AorB或A+B

其意義為檢索記錄中凡含有檢索詞A或檢索詞B,或同時(shí)含有檢索詞A和B的,均為命中文獻(xiàn)。信息檢索-第一章

2、邏輯“與”————————————————AB用符號(hào)“and”或“*”表示,其邏輯表達(dá)式為:

A*B或AandB

其意義為檢索記錄中必須同時(shí)含有檢索詞A和B的文獻(xiàn),才算命中文獻(xiàn)。信息檢索-第一章

3、邏輯“非”

————————————————AB用符號(hào)“not”或“-”,其邏輯表達(dá)式為:

AnotB或A-B

其意義為檢索記錄中含有檢索詞A,但不能含有檢索詞B的文獻(xiàn),才算命中文獻(xiàn)。信息檢索-第一章布爾運(yùn)算符優(yōu)先級(jí)比較有括號(hào)時(shí):括號(hào)內(nèi)的先執(zhí)行;無括號(hào)時(shí):NOT>AND>OR例:檢索“唐宋詩”的有關(guān)信息。關(guān)鍵詞:唐、宋、詩;檢索表達(dá)式:(唐+宋)*詩;(唐*詩)+(宋*詩);錯(cuò)誤表達(dá)式:唐+宋*詩;唐*宋*詩;唐+宋+詩;唐*宋+詩;作業(yè):查找有關(guān)鯉魚或草魚生病的治療,但不包括“出血病”方面的文獻(xiàn)信息檢索-第一章三、截詞檢索

截詞檢索

又稱詞干檢索、模糊檢索。主要應(yīng)用于西文數(shù)字資源的檢索,檢索系統(tǒng)不同,截詞符也不同,一般用“?”、“*”、“#”等表示。

1、后截詞

將截詞符放在詞根后面,前方一致,最常用的截詞方式。主要用在詞的單復(fù)數(shù)、年代、作者、查同根詞等情況。如:comput*將檢索出computer、computing、computerized、computerization等結(jié)果

2、前截詞

將截詞符放在詞根的前面,后方一致。多見于復(fù)合詞較多的文獻(xiàn)檢索。如:*physics就可檢索到physics、biophysics、geophysicschemicophysics等詞的結(jié)果。

信息檢索-第一章

3、中間截詞將截詞符置于檢索詞中間,詞的前后方一致。該方式能解決英美拼法不同單詞的書寫或有些詞在某個(gè)元音位置上出現(xiàn)的單復(fù)數(shù)的不同拼寫。如:organi?ation可檢索organisation、organization;defen?e可檢出defence和defense的結(jié)果;h?hai(可代替hehai,hohai)

截詞檢索在不同的計(jì)算機(jī)檢索系統(tǒng)中規(guī)定不同,請(qǐng)使用時(shí)注意。信息檢索-第一章四、字段限制檢索

為了縮小檢索范圍,可利用字段代碼來限制檢索詞出現(xiàn)的字段,以提高檢索速度和命中率。如:riceinti(表示只在題目字段中查找文獻(xiàn))

riceinab(只在文摘中查找)

AU=Smith,J.C(查作者為Smith,J.C的文章)PY=1998(只查1998年的文章)LA=Chinese(只查語種為中文的文獻(xiàn))信息檢索-第一章五、位置運(yùn)算符(W)算符(W)是with(word)的縮寫,表示此算符兩側(cè)的檢索詞必須按此前后順序相鄰排列,詞序不可變,且兩詞之間不許有其他的詞或字母,但允許有一空格或標(biāo)點(diǎn)符號(hào)。如biological(W)control相當(dāng)于檢索Biologicalcontrol;CD(W)ROM相當(dāng)于檢索CDROM或CD-ROM。

(nW)算符

(nW)是nwords的縮寫,表示此算符兩側(cè)的檢索詞之間允許插入最多n個(gè)詞,且詞序不可變。如wear(1W)material相當(dāng)于檢索wearmaterials、wearofmaterials等信息檢索-第一章(N)算符(N)是near的縮寫,表示此算符兩側(cè)的檢索詞必須緊密相連,詞序可變,詞間不允許插入其他詞或字母,但允許有一空格或標(biāo)點(diǎn)符號(hào)。如:information(N)retrieval可檢出:informationretrieval和retrievalinformation。(nN)算符

(nN)表示兩詞間可插入最多n個(gè)詞,詞序可變。如檢索式environment(2N)protection就可檢索出包含“environmentprotection”、“environmentoftheprotection”、“environmentofwaterprotection”、“protectionofforestenvironment”。五、位置運(yùn)算符信息檢索-第一章1、檢索策略檢索策略是指為實(shí)現(xiàn)檢索目標(biāo)制定的全盤計(jì)劃和方案,是在分析檢索信息需求的基礎(chǔ)上,選擇適當(dāng)?shù)臄?shù)據(jù)庫并確定檢索途徑和檢索詞,確定各詞之間的邏輯關(guān)系與檢索步驟的一種計(jì)劃或思路,以制定出檢索表達(dá)式并在檢索過程中修改和完善檢索表達(dá)式。

LOGO六、檢索策略和檢索效果信息檢索-第一章2、信息檢索效果評(píng)價(jià)檢索效果(retrievaleffectiveness)是指檢索系統(tǒng)檢索的有效程度,它反映檢索系統(tǒng)的能力,也涉及實(shí)施檢索的人所能發(fā)揮檢索系統(tǒng)的最大能力包括6個(gè)方面:收錄范圍、查全率、查準(zhǔn)率、響應(yīng)時(shí)間、用戶負(fù)擔(dān)及輸出形式。其中兩個(gè)主要的衡量指標(biāo)是查全率(Recallratio)和查準(zhǔn)率(precisionratio),分別用R和P大寫字母表示。信息檢索-第一章

查全率指的是檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫中相關(guān)文獻(xiàn)總量的比率,它反映該系統(tǒng)文獻(xiàn)庫中實(shí)有的相關(guān)文獻(xiàn)量在多大程度上被檢索出來。

檢出相關(guān)文獻(xiàn)量查全率=×100%

文獻(xiàn)庫內(nèi)相關(guān)文獻(xiàn)總量查準(zhǔn)率指的是檢出的相關(guān)文獻(xiàn)量與檢出文獻(xiàn)總量的比率,是衡量信息檢索系統(tǒng)檢出文獻(xiàn)準(zhǔn)確度的尺度。

檢出的相關(guān)文獻(xiàn)篇數(shù)查準(zhǔn)率=×100%

檢出的全部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論