下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、搜索引擎的特點(diǎn)與評(píng)價(jià)標(biāo)準(zhǔn)一、搜索引擎的分類搜索引擎按其工作方式主要分為三種,分別是全文搜索引擎、目錄索引類搜索引擎和元搜索引擎。全文搜索引擎是名副其實(shí)的搜索引擎,國(guó)外具有代表性的有Google、Fast/AllTheWeb、AltaVistaInktomi、TeomaWiseNut等,百度(Baidu)目前所做的應(yīng)該屬于全文搜索引擎。由于它們都是通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)而建立的數(shù)據(jù)庫(kù)中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。雖然百度擁有自己的檢索程序,并自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,但它們所能提供的信息絕大程度上
2、由它所搜索的網(wǎng)站決定的。評(píng)價(jià)標(biāo)準(zhǔn)及其局限性在搜索引擎的發(fā)展初期,人們對(duì)它的要求較低,只要它能把互連網(wǎng)上相關(guān)的網(wǎng)站搜出來(lái),搜到的網(wǎng)站盡量多一點(diǎn),無(wú)關(guān)的網(wǎng)站能少一點(diǎn)就能滿足。所以那時(shí)候,人們?cè)u(píng)測(cè)搜索引擎的方法是用幾個(gè)關(guān)鍵詞,測(cè)試對(duì)比它們的搜索速度、搜索數(shù)量和無(wú)關(guān)網(wǎng)站的多少。簡(jiǎn)單說(shuō)就是全、快、準(zhǔn)。而那時(shí)的搜索引擎技術(shù)大家差別不大,所以這樣的評(píng)測(cè)方法是可行的。此后,獨(dú)特的搜索引擎技術(shù)此起彼伏,層出不窮,到現(xiàn)在明顯處于戰(zhàn)國(guó)時(shí)代。但是,人們的評(píng)測(cè)方法卻沒(méi)多大變化,現(xiàn)在常見(jiàn)的評(píng)測(cè)還是簡(jiǎn)單的用幾個(gè)關(guān)鍵詞比較搜索速度、搜索結(jié)果數(shù)量和各自介紹的搜索準(zhǔn)確性。搜索引擎的評(píng)價(jià)標(biāo)準(zhǔn)與目前搜索引擎的發(fā)展?fàn)顩r并非完全吻合。下
3、面,我們就目前常用的評(píng)價(jià)指標(biāo)進(jìn)行分別介紹。第一,搜索引擎的查全率。既然是搜索引擎,當(dāng)然比較搜索的范圍就應(yīng)該首當(dāng)其沖。但是,由于收錄網(wǎng)頁(yè)的數(shù)量都是各搜索引擎自己宣布的,未可全信,而同一個(gè)關(guān)鍵詞的搜索結(jié)果卻是顯而易見(jiàn)的,所以一般的評(píng)測(cè)都以這個(gè)為準(zhǔn)。但以這個(gè)為準(zhǔn)仍有很多不足之處,因?yàn)槎鄶?shù)象樣一點(diǎn)的搜索引擎都可以找出一批關(guān)鍵詞來(lái)證明它的搜索結(jié)果是最全的。因?yàn)榫W(wǎng)頁(yè)索引數(shù)量雖然有大小,但robot和spider程序不同,索引范圍和索引標(biāo)準(zhǔn)也不盡相同,在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。還有一點(diǎn),搜索引擎是可以針對(duì)特定的關(guān)鍵詞進(jìn)行結(jié)果優(yōu)化的,評(píng)測(cè)的公正性誰(shuí)來(lái)保證?如果其中某個(gè)被評(píng)測(cè)搜索
4、引擎事先知道所用的關(guān)鍵詞,那么只要輕松優(yōu)化一下,冠軍就非它莫屬了。第二,搜索的速度。如果搜索引擎索引的網(wǎng)頁(yè)雖多,但是搜索一次要五、六秒或更長(zhǎng),那么仍然沒(méi)有優(yōu)勢(shì)可言。當(dāng)然了速度的問(wèn)題首先還是在關(guān)鍵詞,單關(guān)鍵詞搜索快的不一定多關(guān)鍵詞搜索快。然后是訪問(wèn)量的問(wèn)題,對(duì)一個(gè)日訪問(wèn)量一億以上的搜索引擎和一個(gè)日訪問(wèn)量幾萬(wàn)的搜索引擎做同樣的測(cè)試本身已是不公平。還有網(wǎng)頁(yè)索引數(shù)量的問(wèn)題,一個(gè)搜索引擎索引了10億的網(wǎng)頁(yè),另一個(gè)搜索引擎索引了一千萬(wàn)的網(wǎng)頁(yè),讓它們對(duì)同一個(gè)關(guān)鍵詞在各自的數(shù)據(jù)庫(kù)里搜索比搜索速度,這樣的結(jié)果如何讓人信服?而且,除了事先優(yōu)化的問(wèn)題外,有的搜索引擎本就具有記憶搜索結(jié)果加速調(diào)用的能力,一個(gè)關(guān)鍵詞哪怕
5、第一詞搜索花了10秒,第二次搜索也許就2秒了,第三次,第四次,到你去測(cè)試的時(shí)候已經(jīng)永遠(yuǎn)是0.0001秒了。這樣,如果你選常見(jiàn)詞測(cè)試,它快得驚人,如果來(lái)個(gè)偏僻詞,也許老半天出不來(lái),到底該選什么關(guān)鍵詞?常用和偏僻各占多少?實(shí)難度量。第三,查準(zhǔn)率。這個(gè)相當(dāng)重要,搜到的東西即使又多又快,但你想要的那條結(jié)果不知道要翻多少頁(yè)才能找到,那這搜索結(jié)果幾乎沒(méi)有意義?因?yàn)椋?000條后的記錄幾乎沒(méi)人看,當(dāng)然了查準(zhǔn)率的關(guān)鍵還是在于要搜什么和選擇什么關(guān)鍵詞,評(píng)測(cè)人可以隨意定奪的,然后影響到評(píng)測(cè)結(jié)果的可靠性。第四,死鏈接和網(wǎng)頁(yè)的更新速度。普通搜索引擎總有些搜索結(jié)果是點(diǎn)不進(jìn)去的,少到百分之一二,多到百分之八九,這個(gè)也常被
6、用作評(píng)測(cè)條件之一。但是象Google使用了網(wǎng)頁(yè)快照功能,幾乎不存在死鏈接問(wèn)題,就算搜索結(jié)果中的那個(gè)網(wǎng)站已關(guān)閉,你還是可以看到Google自己儲(chǔ)存的網(wǎng)頁(yè)。這種死鏈接無(wú)法計(jì)算?第五,用戶負(fù)擔(dān)。首先是搜索界面,一個(gè)只有搜索框的純粹搜索引擎界面跟一個(gè)帶有廣告和大量網(wǎng)頁(yè)內(nèi)容的門(mén)戶相比,它們帶給用戶的搜索負(fù)擔(dān)是高下立判的。其次是搜索結(jié)果描述,搜索結(jié)果網(wǎng)頁(yè)的文字描述是長(zhǎng)還是短,網(wǎng)頁(yè)文字描述采用索引帶關(guān)鍵詞的部分還是索引網(wǎng)頁(yè)的開(kāi)始幾行還是索引網(wǎng)頁(yè)的主要內(nèi)容,關(guān)鍵詞是否高亮顯示又采用什么顏色,是否顯示網(wǎng)頁(yè)地址,還有搜索結(jié)果頁(yè)面的布局,這些對(duì)于用戶的搜索負(fù)擔(dān)區(qū)別大大的有。再者就是對(duì)用戶操作步驟的影響,是否可以用鼠
7、標(biāo)啟動(dòng)搜索,搜索結(jié)果每頁(yè)顯示數(shù)量是否只有10條,翻頁(yè)的便捷與否,搜索框是兩個(gè)還是一個(gè),放在上邊還是下邊,一次搜索后關(guān)鍵詞是否還在搜索框中顯示,這些每一條都會(huì)影響搜索效率。第六,重復(fù)信息返回的過(guò)濾。返回結(jié)果應(yīng)該盡可能不出現(xiàn)重復(fù)、類似的結(jié)果。第七,搜索服務(wù)的系統(tǒng)穩(wěn)定性。綜上所述,如何評(píng)價(jià)一個(gè)搜索引擎的優(yōu)劣目前仍然沒(méi)有發(fā)現(xiàn)客觀、準(zhǔn)確地方法。未來(lái)的發(fā)展趨勢(shì)毋庸置疑,搜索引擎已成為一個(gè)新的研究、開(kāi)發(fā)領(lǐng)域。因?yàn)樗玫叫畔z索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書(shū)館、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所以引起了世
8、界各國(guó)計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開(kāi)發(fā)十分活躍,并出現(xiàn)了很多值得注意的動(dòng)向。首先,十分注意提高信息查詢結(jié)果的精度,提高檢索的有效性。用戶在搜索引擎上進(jìn)行信息查詢時(shí),并不十分關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對(duì)于一個(gè)查詢,傳統(tǒng)的搜索引擎動(dòng)輒返回幾十萬(wàn)、幾百萬(wàn)篇文檔,用戶不得不在結(jié)果中篩選。解決查詢結(jié)果過(guò)多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過(guò)各種方法獲得用戶沒(méi)有在查詢語(yǔ)句中表達(dá)出來(lái)的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關(guān)度反饋機(jī)制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)(及其相關(guān)的程度),哪些不相關(guān),通過(guò)多次交互逐步求精。二是用正
9、文分類(TextCategorization)技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。其次,基于智能代理的信息過(guò)濾和個(gè)性化服務(wù)。信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機(jī)制。它使用自動(dòng)獲得的領(lǐng)域模型(如Web知識(shí)、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu))、用戶模型(如用戶背景、興趣、行為、風(fēng)格)知識(shí)進(jìn)行信息搜集、索引、過(guò)濾(包括興趣過(guò)濾和不良信息過(guò)濾),并自動(dòng)地將用戶感興趣的、對(duì)用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動(dòng)態(tài)變化的能力,從而提供個(gè)性化的服務(wù)。智能代理可以在用戶端進(jìn)行,
10、也可以在服務(wù)器端運(yùn)行。第三,采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能。搜索引擎的實(shí)現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu),兩種方法各有千秋。但當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度(如網(wǎng)頁(yè)數(shù)達(dá)到億級(jí))時(shí),必然要采用某種分布式方法,以提高系統(tǒng)性能。搜索引擎的各個(gè)組成部分,除了用戶接口之外,都可以進(jìn)行分布:搜索器可以在多臺(tái)機(jī)器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度;索引器可以將索引分布在不同的機(jī)器上,以減小索引對(duì)機(jī)器的要求;檢索器可以在不同的機(jī)器上進(jìn)行文檔的并行檢索,以提高檢索的速度和性能。第四,重視交叉語(yǔ)言檢索的研究和開(kāi)發(fā)。交叉語(yǔ)言信息檢索是指用戶用母語(yǔ)提交查詢,搜索引擎在多種語(yǔ)言的數(shù)據(jù)庫(kù)中進(jìn)行信息檢
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度合資企業(yè)風(fēng)險(xiǎn)防控合同2篇
- 5《七律·長(zhǎng)征》教學(xué)實(shí)錄-2024-2025學(xué)年統(tǒng)編版語(yǔ)文六年級(jí)上冊(cè)
- 第六單元習(xí)作:《我想對(duì)您說(shuō)》教學(xué)實(shí)錄-2024-2025學(xué)年五年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版
- 全國(guó)泰山版初中信息技術(shù)九年級(jí)上冊(cè)第一章第三節(jié)《設(shè)計(jì)加法器》教學(xué)實(shí)錄
- 2024年度智能家居產(chǎn)品分銷經(jīng)紀(jì)聘用合同3篇
- 2024版房產(chǎn)抵押擔(dān)保債務(wù)重組合同3篇
- 14《母雞》第2課時(shí)教學(xué)實(shí)錄-2023-2024學(xué)年四年級(jí)下冊(cè)語(yǔ)文統(tǒng)編版
- 房屋租賃居間合同
- 職工宿舍空調(diào)安裝承攬合同
- 2024版俄語(yǔ)體育賽事解說(shuō)與翻譯合同2篇
- 學(xué)生勸返復(fù)學(xué)實(shí)施方案
- 收割機(jī)購(gòu)銷合同
- 醫(yī)務(wù)人員醫(yī)德醫(yī)風(fēng)誠(chéng)信 檔 案(模板)
- 膿毒癥休克中西醫(yī)詳解
- 小兔子乖乖ppt課件.ppt
- 常壓矩形容器設(shè)計(jì)計(jì)算軟件
- 交流變換為直流的穩(wěn)定電源設(shè)計(jì)方案
- PR6C系列數(shù)控液壓板料折彎?rùn)C(jī) 使用說(shuō)明書(shū)
- 鋼結(jié)構(gòu)工程環(huán)境保護(hù)和文明施工措施
- 物業(yè)管理業(yè)主意見(jiàn)征詢表
- 管道定額價(jià)目表
評(píng)論
0/150
提交評(píng)論