網(wǎng)絡(luò)信息資源檢索4_第1頁(yè)
網(wǎng)絡(luò)信息資源檢索4_第2頁(yè)
網(wǎng)絡(luò)信息資源檢索4_第3頁(yè)
網(wǎng)絡(luò)信息資源檢索4_第4頁(yè)
網(wǎng)絡(luò)信息資源檢索4_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章Internet信息檢索

1

網(wǎng)絡(luò)信息檢索的一般方法

2網(wǎng)絡(luò)信息檢索工具

3相關(guān)網(wǎng)絡(luò)信息檢索技術(shù)

4搜索引擎及其原理1網(wǎng)絡(luò)信息檢索的一般方法1.1瀏覽

1.2通過(guò)網(wǎng)絡(luò)資源指南來(lái)查找信息

1.3利用搜索引擎進(jìn)行信息檢索

1.1瀏覽

(1)偶然發(fā)現(xiàn)。這是在因特網(wǎng)上發(fā)現(xiàn)、檢索信息的原始方法。即在日常的網(wǎng)絡(luò)閱讀、漫游過(guò)程中,意外發(fā)現(xiàn)一些有用信息。這種方式的目的性不是很強(qiáng),其不可預(yù)見性、偶然性使檢索過(guò)程具有某種探索寶藏的意味,也許會(huì)充滿樂(lè)趣,但也可能一無(wú)所獲。(2)順“鏈”而行。指用戶在閱讀超文本文檔時(shí),利用文檔中的鏈接從一網(wǎng)頁(yè)轉(zhuǎn)向另一相關(guān)網(wǎng)頁(yè)。有些類似于傳統(tǒng)文獻(xiàn)檢索中的“追溯檢索”,即根據(jù)文獻(xiàn)后所附的參考文獻(xiàn)目錄去追溯相關(guān)文獻(xiàn),一輪一輪地不斷擴(kuò)大檢索范圍。這種方式可以在很短的時(shí)間內(nèi)獲得大量相關(guān)信息,但也有可能在“順鏈而行”中偏離了檢索目標(biāo),或迷失于網(wǎng)絡(luò)信息空間中,而且找到合適的檢索起點(diǎn)也并不容易。1.2通過(guò)網(wǎng)絡(luò)資源指南來(lái)查找信息為了對(duì)因特網(wǎng)這個(gè)無(wú)序的信息世界加以組織、管理,使大量有價(jià)值的信息納入一個(gè)有序的組織體系,專業(yè)人員做了許多努力和開發(fā),比如基于專業(yè)人員對(duì)網(wǎng)絡(luò)信息資源的產(chǎn)生、傳遞與利用機(jī)制的廣泛了解和對(duì)網(wǎng)絡(luò)信息資源分布狀況的熟悉,以及對(duì)各種網(wǎng)絡(luò)信息資源的采集、組織、評(píng)價(jià)、過(guò)濾、控制、檢索等手段的全面把握而開發(fā)可供瀏覽和檢索的網(wǎng)絡(luò)資源主題指南。1.3利用搜索引擎進(jìn)行信息檢索這是一種較為常規(guī)的、普遍的網(wǎng)絡(luò)信息檢索方式。搜索引擎是提供給用戶進(jìn)行關(guān)鍵詞、詞組或自然語(yǔ)言檢索的工具。用戶提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫(kù)中進(jìn)行檢索,并將檢索結(jié)果提供給用戶。它一般支持布爾檢索、詞組檢索、截詞檢索、字段檢索等功能。2網(wǎng)絡(luò)信息檢索工具

網(wǎng)絡(luò)信息檢索工具是指在因特網(wǎng)上提供信息檢索服務(wù)的計(jì)算機(jī)系統(tǒng),其檢索的對(duì)象是存在于因特網(wǎng)信息空間中各種類型的網(wǎng)絡(luò)信息資源。近來(lái)較為流行的Web檢索工具如Yahoo、百度、Google等。網(wǎng)絡(luò)信息檢索工具一般是由自動(dòng)索引程序、數(shù)據(jù)庫(kù)和檢索代理軟件組成的。自動(dòng)索引程序現(xiàn)在大多數(shù)網(wǎng)絡(luò)檢索工具都是采用一種稱為Robot(又稱為:Spider,Worms,Wanders等)的網(wǎng)絡(luò)自動(dòng)跟蹤索引程序。它實(shí)際上是一個(gè)在網(wǎng)絡(luò)上檢索文件且自動(dòng)跟蹤該文件的超文本結(jié)構(gòu)并循環(huán)檢索被參照的所有文件的軟件。不同的自動(dòng)索引軟件所采用的標(biāo)引、搜索策略不同,自動(dòng)索引軟件搜尋、標(biāo)引網(wǎng)頁(yè)的方式對(duì)信息檢索的質(zhì)量有直接影響。數(shù)據(jù)庫(kù)自動(dòng)索引程序?qū)⒉杉蜆?biāo)引的信息匯集成數(shù)據(jù)庫(kù),作為該網(wǎng)絡(luò)檢索工具提供檢索服務(wù)的基礎(chǔ)。不同網(wǎng)絡(luò)檢索工具的數(shù)據(jù)庫(kù)收錄范圍不一樣,有的收錄Web及圖像、有的收錄WEB、FTP、Flash、新聞組等資源類型。不同網(wǎng)絡(luò)檢索工具的標(biāo)引方式也不同,有的索引軟件標(biāo)引主頁(yè)全文,有些則只標(biāo)引主頁(yè)的地址、標(biāo)題、責(zé)任者、特定的段落和關(guān)鍵詞。檢索代理軟件當(dāng)用戶提出查詢要求時(shí),由檢索軟件負(fù)責(zé)代理用戶在數(shù)據(jù)庫(kù)中進(jìn)行檢索。不同網(wǎng)絡(luò)檢索工具所采用的檢索機(jī)制、算法有所不同,布爾邏輯檢索是較普遍采用的一種機(jī)制。即按照檢索項(xiàng)間的邏輯關(guān)系使用布爾邏輯符AND,OR,NOT等來(lái)組合檢索項(xiàng),形成檢索式來(lái)提交查詢。除了布爾檢索外,許多網(wǎng)絡(luò)檢索工具還提供了一些其他的檢索機(jī)制如:截詞檢索、概念檢索、模糊檢索、詞組檢索、字段檢索、位置檢索等。3相關(guān)網(wǎng)絡(luò)信息檢索技術(shù)涉及到網(wǎng)絡(luò)信息檢索的技術(shù)概念比較多,在這里介紹一些應(yīng)用比較廣的概念。分類檢索、關(guān)鍵詞檢索、布爾邏輯檢索、詞組檢索、加/減號(hào)檢索、截詞檢索、字段檢索、自然語(yǔ)言檢索、位置檢索、多語(yǔ)種檢索、區(qū)分大小寫的檢索、過(guò)濾檢索、多媒體檢索。分類檢索分類檢索多用于目錄搜索引擎。用戶無(wú)需輸入任何文字,只要根據(jù)目錄搜索引擎提供的主題分類目錄,層層點(diǎn)擊進(jìn)入,便會(huì)查找到用戶所需的網(wǎng)絡(luò)信息資源。關(guān)鍵詞檢索用戶只需在搜索引擎的提問(wèn)框中輸入合適的提問(wèn)關(guān)鍵詞,按回車鍵之后,搜索引擎便會(huì)將與該提問(wèn)關(guān)鍵詞匹配的結(jié)果反饋于你。大多數(shù)的搜索引擎是以模糊檢索原理實(shí)現(xiàn)關(guān)鍵詞檢索功能。布爾邏輯檢索布爾邏輯檢索一般指“與”、“或”、“非”三種運(yùn)算:邏輯“與”的布爾運(yùn)算符為“AND”、“and”,有時(shí)也可用“&”符號(hào)表示。(交集)邏輯“或”的布爾運(yùn)算符為“OR”、“or”,有時(shí)也可用“|”符號(hào)表示。(并集)邏輯“非”的布爾運(yùn)算符為“NOT”、“not”,有時(shí)也可用“!”符號(hào)表示。(差集)詞組檢索詞組檢索也稱為短語(yǔ)檢索,或字符串檢索。它是將一個(gè)詞組或短語(yǔ)用雙引號(hào)“”括起作為一個(gè)獨(dú)立運(yùn)算單元,進(jìn)行嚴(yán)格匹配,以提高檢索準(zhǔn)確度的一種方法。加/減號(hào)檢索加/減號(hào)檢索是搜索引擎支持的常規(guī)功能,即在檢索詞前置“+”/“-”號(hào),其作用相當(dāng)于布爾邏輯“與”/“非”運(yùn)算。截詞檢索在搜索引擎中,截詞檢索多為前方一致檢索。截詞符多采用通配符“*”,可以用它代表多個(gè)字符。因此,截詞檢索有時(shí)也稱為通配符檢索。舉例:wom*n,可代表woman、women等。字段檢索字段檢索是一種用于限定提問(wèn)關(guān)鍵詞在數(shù)據(jù)庫(kù)記錄中出現(xiàn)的區(qū)域,控制檢索結(jié)果的相關(guān)性,提高檢索效果的檢索方法,多以字段限定方式實(shí)現(xiàn)。搜索引擎常用的字段有:Title/t、Subject、Text、host(主機(jī))、URL/u、domain(域名)、link(鏈接)等。自然語(yǔ)言檢索自然語(yǔ)言檢索就是一種直接采用自然語(yǔ)言中的字、詞甚至整個(gè)句子作為提問(wèn)式進(jìn)行檢索的方法。位置檢索位置檢索是指允許指定兩個(gè)單詞之間的詞序和詞距的檢索。詞序指單詞之間前后順序,詞距指二個(gè)單詞之間間隔單詞數(shù)。其操作符多為“near/n”,n為數(shù)值,意為檢索單詞間距最大不超過(guò)幾個(gè)單詞。舉例:informationnear/5retrieval多語(yǔ)種檢索即提供多語(yǔ)種的檢索環(huán)境供檢索者選擇,系統(tǒng)按指定的語(yǔ)種進(jìn)行檢索并輸出檢索結(jié)果。目前,有的搜索引擎提供多達(dá)30個(gè)自然語(yǔ)種的檢索選擇。此功能尤其適合于不同國(guó)家的檢索者檢索不同語(yǔ)種的網(wǎng)絡(luò)資源。區(qū)分大小寫的檢索它主要是針對(duì)檢索詞中含有人名、地名等專有名詞的。在區(qū)分大小寫的情況下,大寫檢索詞能被當(dāng)作專有名詞看待。而在不區(qū)分大小寫的情況下,則無(wú)法區(qū)分該檢索詞是指專有名詞還是普通詞,從而在一定程度上會(huì)影響檢索結(jié)果的準(zhǔn)確性。過(guò)濾檢索在檢索中自動(dòng)將一些網(wǎng)站信息過(guò)濾去掉,比如一些內(nèi)容不健康的黃色網(wǎng)站信息,影響國(guó)家安全的政治反動(dòng)網(wǎng)站信息等,這種檢索服務(wù)技術(shù)可以避免未成年人上網(wǎng)時(shí)受到不健康影響。多媒體檢索多媒體檢索包括基于描述的多媒體檢索和基于內(nèi)容的多媒體檢索?;诿枋龅亩嗝襟w檢索就是用一個(gè)關(guān)鍵詞來(lái)描述所要查找的圖片或是音樂(lè),比如可以用“劉德華”這個(gè)詞來(lái)查找他的寫真圖片,也可以在MP3搜索引擎中查找他的相關(guān)音樂(lè)。基于內(nèi)容的多媒體檢索就是用一些視覺特征來(lái)查找多媒體信息,這些視覺特征包括顏色、形狀、紋理等。(有待實(shí)現(xiàn),涉及采集設(shè)備、算法等)4搜索引擎及其原理搜索引擎(searchengine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)?!練v史】

互聯(lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類目錄查詢非常流行。網(wǎng)站分類目錄由人工整理維護(hù),精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡(jiǎn)要描述,分類放置到不同目錄下。用戶查詢時(shí),通過(guò)一層層的點(diǎn)擊來(lái)查找自己想找的網(wǎng)站。有人把這種基于目錄的檢索服務(wù)網(wǎng)站稱為搜索引擎,但從嚴(yán)格意義上講,它并不是搜索引擎。從用戶角度看,搜索引擎提供一個(gè)包含搜索框的頁(yè)面,在搜索框輸入詞語(yǔ),通過(guò)瀏覽器提交給搜索引擎后,搜索引擎就會(huì)返回跟用戶輸入的內(nèi)容相關(guān)的信息列表?!窘M成】搜索引擎一般由四個(gè)部分組成:①搜索器:其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息;②索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表;③檢索器:其功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢索文檔,進(jìn)行相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息;④用戶接口:其作用是接納用戶查詢、顯示查詢結(jié)果、提供個(gè)性化查詢項(xiàng)?!局阉饕婢W(wǎng)址】1、百度http:///

2、維基百科http://

3、雅虎http:///

4、Googlehttp:///

5、網(wǎng)易有道http:///

6、北京大學(xué)天網(wǎng)中英文搜索引擎http:///

7、搜狐http:///dir/

8、新浪網(wǎng)http:///

9、TOM搜索引擎http:///

10、21CN.COM/

11、搜一下http://

12、飛客BT搜索引擎http:///

13、Souyohttp:///

14、雅虎易搜http:///

15、麥布搜索引擎http:///

16、中華搜索http:///

17、酷億

18、搜搜http:///

19、易搜查http://

20、北京搜索http:///

21、比比貓http:///

【工作原理】

1、抓取網(wǎng)頁(yè)

每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序(spider)。Spider順著網(wǎng)頁(yè)中的超鏈接,連續(xù)地抓取網(wǎng)頁(yè)。被抓取的網(wǎng)頁(yè)被稱之為網(wǎng)頁(yè)快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。

2、處理

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論