


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
搜索引擎的工作原理與挑戰(zhàn)分析
1根據(jù)搜索引擎提取數(shù)據(jù)的方法,可將搜索引擎系統(tǒng)可以分為三大類:1.1目錄式搜索引擎:是一種網(wǎng)站級搜索引擎。目錄式搜索引擎由分類專家將網(wǎng)絡信息按照主題分成若干個大類,每個大類再分為若干個小類,依次細分,一般的搜索引擎分類體系有五六層,有的甚至十幾層。先由程序自動搜集信息,然后由編輯員查看信息,人工形成信息摘要,提供目錄瀏覽服務和直接檢索服務。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的準確度是相當高的,缺點是需要人工介入、維護量大、信息量少、信息更新不夠及時。Yahoo就是這類搜索引擎的代表。12機器人搜索引擎:Robot(機器人)一詞大家并不陌生,ComputerRobot是指某個能以人類無法達到的速度不斷重復執(zhí)行某項任務的自動程序。由于專門用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡間爬來爬去,因此,搜索引擎的Robot程序被稱為spider程序。搜索引擎主動派出稱為蜘蛛(Spider)的機器人程序定期搜索(比如Google一般是28天),對一定IP地址范圍內的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。該類搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。Google、北大天網(wǎng)、百度(Baidu)就是這類搜索引擎的代表。2搜索引擎的性能指標搜索引擎的目標就是在非常短的時間內搜索的信息全面并且準確。傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)——召回率和精度同樣也可以衡量一個搜索引擎的性能。召回率是檢索出的相關文檔數(shù)和文檔庫中所有的相關文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查全率;精度是檢索出的相關文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎)的查準率。對于一個檢索系統(tǒng)來講,召回率和精度不可能兩全其美:召回率高時,精度低;精度高時,召回率低。因為沒有一個搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁,所以召回率很難計算。對于網(wǎng)民來說,互聯(lián)網(wǎng)上的信息不是不夠,而是“過?!?,如何精確查找到信息是大家所關心的問題。因此,目前的搜索引擎系統(tǒng)都非常關心精度。3搜索引擎面臨的挑戰(zhàn)目前搜索引擎是網(wǎng)絡上被使用頻率最高的服務項目之一。隨著Internet的強勢發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾日益突出。國際數(shù)據(jù)公司(IDC)曾公布的一份報告表明,被大肆宣傳為“使用簡便易用,搜索結果豐富”的搜索引擎技術正在被信息更集中的局域網(wǎng)取代,因為大多數(shù)搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長的視頻、音頻等多媒體信息的檢索,現(xiàn)在仍然是無法突破的難題。搜索引擎越來越不能滿足挑剔的網(wǎng)民們的各種信息需求,這表現(xiàn)在以下幾個方面:收集的網(wǎng)頁數(shù)量和其數(shù)據(jù)庫的更新速度存在著不可調和的矛盾。用戶經常無法打開查詢的結果。網(wǎng)絡信息時刻變動,實時搜索幾乎不可能。就是剛剛瀏覽過的網(wǎng)頁,也隨時都有更新、過期、刪除的可能。網(wǎng)絡信息收集與整理是搜索引擎工作的重要一部分。搜索引擎需要定期不斷地訪問網(wǎng)絡資源。目前網(wǎng)絡帶寬不足,網(wǎng)絡速度不夠理想,遍歷如此龐雜的網(wǎng)絡時間花費是非常龐大的,這就是不能實時搜索的原因。對多媒體內容的處理尚不成熟。迄今為止,搜索對象主要是文本?;谡Z義的多媒體搜索技術還不成熟,比如搜索圖片時還只能通過周圍相關的文字進行判斷,而無法根據(jù)圖片本身的信息提供檢索。多媒體技術的發(fā)展,對搜索引擎提出了更多的要求。人們期望引擎不僅能挑出自己需要的文章,還能挑出自己所關心的圖片、電影、音樂等。搜索引擎的“智能”有待提高。一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自動排序軟件Spiders蜘蛛程序,只能接受這種格式的網(wǎng)頁。這意味著,在企業(yè)內部的局域網(wǎng)上,任何沒有使用HTML格式的信息將無法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應用軟件的數(shù)據(jù)庫的信息會長期的“沉沒”在信息的海底中。智能搜索引擎具有跨平臺工作和處理多種混合文檔結構的能力。譬如既能處理HTML(HyperTextMarkupLanguage,超文本標志語言),又能處理SGML(StandardforGeneralMarkupLanguage,通用標志語言標準)和XML(ExtendedMarkedLanguage,擴展標志語言)文檔以及其他類型的文檔,譬如Word、WPS等。智能搜索引擎應該可以支持多語言搜索。搜索引擎應更好地支持動態(tài)網(wǎng)頁,許多蜘蛛軟件不敢去碰動態(tài)網(wǎng)頁,怕被變化無窮的動態(tài)系統(tǒng)黑洞吸進去出不來。然而,網(wǎng)站使用動態(tài)網(wǎng)頁生成工具乃是大事所趨,解決動態(tài)網(wǎng)頁查找的問題已經迫在眉睫。如何解決這些難題已成為第三代搜索引擎探索的方向。一個好的搜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司儀式活動策劃方案
- 公司黨團工作策劃方案
- 公司公眾號積分活動方案
- 公司內部f感恩節(jié)p活動方案
- 公司友誼賽活動策劃方案
- 公司員工周年策劃方案
- 公司周年慶郵政活動方案
- 2025至2030年中國顆粒白土行業(yè)市場調查研究及投資策略研究報告
- 2025至2030年中國降血脂用藥行業(yè)發(fā)展現(xiàn)狀及發(fā)展趨勢預測報告
- 2025至2030年中國閘機行業(yè)市場行情監(jiān)測及發(fā)展趨向研判報告
- 零星工程維修投標方案技術標
- 三超一疲勞安全教育
- 《自動控制原理》說課
- 醫(yī)療器械(耗材)項目投標服務投標方案(技術方案)
- 鄉(xiāng)村醫(yī)生從業(yè)管理條例全面解讀
- 2024年中國石油集團招聘筆試參考題庫含答案解析
- 神經科患者的心理支持與護理
- 智慧樓宇智能化管理系統(tǒng)需求規(guī)格說明書
- 幼兒園中班數(shù)學《小魚有多長》
- 過程控制系統(tǒng)及儀表智慧樹知到課后章節(jié)答案2023年下青島大學
- 中國共產主義青年團團員發(fā)展過程紀實簿
評論
0/150
提交評論