搜索引擎的特點與評價標準_第1頁
搜索引擎的特點與評價標準_第2頁
搜索引擎的特點與評價標準_第3頁
搜索引擎的特點與評價標準_第4頁
搜索引擎的特點與評價標準_第5頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、搜索引擎的特點與評價標準一、 搜索引擎的分類搜索引擎按其工作方式主要分為三種,分別是全文搜索引擎、目錄索引類搜索引擎和元搜索引擎。全文搜索引擎是名副其實的搜索引擎,國外具有代表性的有Google、Fast/AllTheWeb、AltaVista 、Inktomi 、Teoma、WiseNut 等,百度( Baidu)目前所做的應該屬于全文搜索引擎。由于它們都是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序?qū)⒔Y果返回給用戶。雖然百度擁有自己的檢索程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結果直接從自身的數(shù)據(jù)庫中調(diào)用,但它們所能提供的

2、信息絕大程度上由它所搜索的網(wǎng)站決定的。評價標準及其局限性在搜索引擎的發(fā)展初期,人們對它的要求較低,只要它能把互連網(wǎng)上相關的網(wǎng)站搜出來,搜到的網(wǎng)站盡量多一點,無關的網(wǎng)站能少一點就能滿足。所以那時候,人們評測搜索引擎的方法是用幾個關鍵詞,測試對比它們的搜索速度、搜索數(shù)量和無關網(wǎng)站的多少。簡單說就是全、快、準。而那時的搜索引擎技術大家差別不大,所以這樣的評測方法是可行的。 此后,獨特的搜索引擎技術此起彼伏,層出不窮,到現(xiàn)在明顯處于戰(zhàn)國時代。但是,人們的評測方法卻沒多大變化,現(xiàn)在常見的評測還是簡單的用幾個關鍵詞比較搜索速度、搜索結果數(shù)量和各自介紹的搜索準確性。搜索引擎的評價標準與目前搜索引擎的發(fā)展狀況

3、并非完全吻合。下面,我們就目前常用的評價指標進行分別介紹。第一,搜索引擎的查全率。既然是搜索引擎,當然比較搜索的范圍就應該首當其沖。但是,由于收錄網(wǎng)頁的數(shù)量都是各搜索引擎自己宣布的,未可全信,而同一個關鍵詞的搜索結果卻是顯而易見的,所以一般的評測都以這個為準。但以這個為準仍有很多不足之處,因為多數(shù)象樣一點的搜索引擎都可以找出一批關鍵詞來證明它的搜索結果是最全的。因為網(wǎng)頁索引數(shù)量雖然有大小,但robot 和 spider 程序不同,索引范圍和索引標準也不盡相同,在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。還有一點,搜索引擎是可以針對特定的關鍵詞進行結果優(yōu)化的,評測的公正性誰來保證?

4、如果其中某個被評測搜索引擎事先知道所用的關鍵詞,那么只要輕松優(yōu)化一下,冠軍就非它莫屬了。第二,搜索的速度。如果搜索引擎索引的網(wǎng)頁雖多,但是搜索一次要五、六秒或更長,那么仍然沒有優(yōu)勢可言。當然了速度的問題首先還是在關鍵詞,單關鍵詞搜索快的不一定多關鍵詞搜索快。然后是訪問量的問題,對一個日訪問量一億以上的搜索引擎和一個日訪問量幾萬的搜索引擎做同樣的測試本身已是不公平。還有網(wǎng)頁索引數(shù)量的問題,一個搜索引擎索引了10 億的網(wǎng)頁,另一個搜索引擎索引了一千萬的網(wǎng)頁,讓它們對同一個關鍵詞在各自的數(shù)據(jù)庫里搜索比搜索速度,這樣的結果如何讓人信服?而且,除了事先優(yōu)化的問題外,有的搜索引擎本就具有記憶搜索結果加速調(diào)

5、用的能力,一個關鍵詞哪怕第一詞搜索花了10 秒,第二次搜索也許就2 秒了,第三次,第四次,到你去測試的時候已經(jīng)永遠是0.0001 秒了。這樣,如果你選常見詞測試,它快得驚人,如果來個偏僻詞,也許老半天出不來,到底該選什么關鍵詞?常用和偏僻各占多少?實難度量。第三,查準率。這個相當重要,搜到的東西即使又多又快,但你想要的那條結果不知道要翻多少頁才能找到,那這搜索結果幾乎沒有意義?因為, 1000 條后的記錄幾乎沒人看,當然了查準率的關鍵還是在于要搜什么和選擇什么關鍵詞,評測人可以隨意定奪的,然后影響到評測結果的可靠性。第四,死鏈接和網(wǎng)頁的更新速度。普通搜索引擎總有些搜索結果是點不進去的,少到百分

6、之一二,多到百分之八九,這個也常被用作評測條件之一。但是象Google 使用了網(wǎng)頁快照功能,幾乎不存在死鏈接問題,就算搜索結果中的那個網(wǎng)站已關閉,你還是可以看到Google 自己儲存的網(wǎng)頁。這種死鏈接無法計算?第五,用戶負擔。首先是搜索界面,一個只有搜索框的純粹搜索引擎界面跟一個帶有廣告和大量網(wǎng)頁內(nèi)容的門戶相比,它們帶給用戶的搜索負擔是高下立判的。其次是搜索結果描述,搜索結果網(wǎng)頁的文字描述是長還是短,網(wǎng)頁文字描述采用索引帶關鍵詞的部分還是索引網(wǎng)頁的開始幾行還是索引網(wǎng)頁的主要內(nèi)容,關鍵詞是否高亮顯示又采用什么顏色,是否顯示網(wǎng)頁地址,還有搜索結果頁面的布局,這些對于用戶的搜索負擔區(qū)別大大的有。再者

7、就是對用戶操作步驟的影響,是否可以用鼠標啟動搜索,搜索結果每頁顯示數(shù)量是否只有10 條,翻頁的便捷與否,搜索框是兩個還是一個,放在上邊還是下邊,一次搜索后關鍵詞是否還在搜索框中顯示,這些每一條都會影響搜索效率。第六,重復信息返回的過濾。 返回結果應該盡可能不出現(xiàn)重復、類似的結果。第七,搜索服務的系統(tǒng)穩(wěn)定性。綜上所述,如何評價一個搜索引擎的優(yōu)劣目前仍然沒有發(fā)現(xiàn)客觀、準確地方法。未來的發(fā)展趨勢毋庸置疑,搜索引擎已成為一個新的研究、開發(fā)領域。因為它要用到信息檢索、人工智能、計算機網(wǎng)絡、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領域的理論和技術,所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有

8、大量的用戶,有很好的經(jīng)濟價值,所以引起了世界各國計算機科學界和信息產(chǎn)業(yè)界的高度關注,目前的研究、開發(fā)十分活躍,并出現(xiàn)了很多值得注意的動向。首先,十分注意提高信息查詢結果的精度,提高檢索的有效性。用戶在搜索引擎上進行信息查詢時,并不十分關注返回結果的多少,而是看結果是否和自己的需求吻合。對于一個查詢,傳統(tǒng)的搜索引擎動輒返回幾十萬、幾百萬篇文檔,用戶不得不在結果中篩選。解決查詢結果過多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過各種方法獲得用戶沒有在查詢語句中表達出來的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關度反饋機制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(及其相關的程度)

9、,哪些不相關,通過多次交互逐步求精。二是用正文分類(Text Categorization)技術將結果分類,使用可視化技術顯示分類結構,用戶可以只瀏覽自己感興趣的類別。三是進行站點類聚或內(nèi)容類聚,減少信息的總量。其次,基于智能代理的信息過濾和個性化服務。信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機制。它使用自動獲得的領域模型(如Web知識、信息處理、與用戶興趣相關的信息資源、領域組織結構)用戶模型(如用戶背景、興趣、行為、風格)知識進行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾) ,并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理具有不斷學習、適應信息和用戶興趣動態(tài)變化的能力,從

10、而提供個性化的服務。智能代理可以在用戶端進行,也可以在服務器端運行。第三,采用分布式體系結構提高系統(tǒng)規(guī)模和性能。 搜索引擎的實現(xiàn)可以采用集中式體系結構和分布式體系結構,兩種方法各有千秋。但當系統(tǒng)規(guī)模到達一定程度(如網(wǎng)頁數(shù)達到億級)時,必然要采用某種分布式方法,以提高系統(tǒng)性能。搜索引擎的各個組成部分,除了用戶接口之外,都可以進行分布:搜索器可以在多臺機器上相互合作、相互分工進行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度;索引器可以將索引分布在不同的機器上,以減小索引對機器的要求;檢索器可以在不同的機器上進行文檔的并行檢索,以提高檢索的速度和性能。第四,重視交叉語言檢索的研究和開發(fā)。交叉語言信息檢索是指用戶用母語提交查詢,搜索引擎在多種語言的數(shù)據(jù)庫中進行信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論