

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、南昌航空大學(xué)自考本科畢業(yè)論文南昌航空大學(xué)Nanchang Hangkong University畢業(yè)論文題目 _搜索引擎原理及發(fā)展趨勢(shì)_ 學(xué)院 _江西工業(yè)工程職業(yè)學(xué)校 _ 專(zhuān)業(yè) _計(jì)算機(jī)網(wǎng)絡(luò)_姓名 周文飛_學(xué)號(hào) 036811100078 指導(dǎo)老師 李國(guó)忠_職稱(chēng)_ _2012_年_5_月_5_ 日_目 錄第一章 搜索引擎的概述 31.1 搜索引擎 31.2 搜索引擎的發(fā)展史 3第二章 搜索引擎基本常識(shí) 92.1 搜索引擎工作原理 92.2 搜索引擎分類(lèi) 92.3 全文搜索引擎 10第三章 使用搜索引擎 的一些基本規(guī)則和技巧 123.1 搜索引擎的一些基本規(guī)則 123.2 搜索引擎的一些基本技巧
2、12第四章 搜索引擎的評(píng)測(cè) 164.1搜 索 引 擎缺陷 164.2搜索速度 16第五章 搜索引擎的未來(lái)發(fā)展動(dòng)向及趨勢(shì) 185.1搜索引擎的未來(lái)發(fā)展動(dòng)向 185.2搜索引擎趨勢(shì) 19結(jié)束語(yǔ) 23致 謝 24參考文獻(xiàn) 25第 一 章 搜 索 引 擎 的 概 述1.1 搜 索 引 擎搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù),將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門(mén)戶(hù)搜索引擎與免費(fèi)鏈接列表等。百度和谷歌等是搜索引擎的代表。搜索引擎是指根據(jù)一定的策略、運(yùn)用特
3、定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù),將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門(mén)戶(hù)搜索引擎與免費(fèi)鏈接列表等。百度和谷歌等是搜索引擎的代表。1.2 搜 索 引 擎 的 發(fā) 展 史互聯(lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類(lèi)目錄查詢(xún)非常流行。網(wǎng)站分類(lèi)目錄由人工整理維護(hù),精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡(jiǎn)要描述,分類(lèi)放置到不同目錄下。用戶(hù)查詢(xún)時(shí),通過(guò)一層層的點(diǎn)擊來(lái)查找自己想找的網(wǎng)站。也有人把這種基于目錄的檢索服務(wù)網(wǎng)站稱(chēng)為搜索引擎,但從嚴(yán)格意義上講,它并不是搜索引擎。 1990年,加拿大麥吉爾大學(xué)(U
4、niversity of McGill)計(jì)算機(jī)學(xué)院的師生開(kāi)發(fā)出Archie。當(dāng)時(shí),萬(wàn)維網(wǎng)(World Wide Web)還沒(méi)有出現(xiàn),人們通過(guò)FTP來(lái)共享交流資源。Archie能定期搜集并分析FTP服務(wù)器上的文件名信息,提供查找分別在各個(gè)FTP主機(jī)中的文件。用戶(hù)必須輸入精確的文件名進(jìn)行搜索,Archie告訴用戶(hù)哪個(gè)FTP服務(wù)器能下載該文件。雖然Archie搜集的信息資源不是網(wǎng)頁(yè)(HTML文件),但和搜索引擎的基本工作方式是一樣的:自動(dòng)搜集信息資源、建立索引、提供檢索服務(wù)。所以,Archie被公認(rèn)為現(xiàn)代搜索引擎的鼻祖。 起源所有搜索引擎的祖先,是1990年由Montreal的McGill Univ
5、ersity三名學(xué)生(Alan Emtage、Peter Deutsch、Bill Wheelan)發(fā)明的Archie(Archie FAQ)。Alan Emtage等想到了開(kāi)發(fā)一個(gè)可以用文件名查找文件的系統(tǒng),于是便有了Archie。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶(hù)必須輸入精確的文件名搜索,然后Archie會(huì)告訴用戶(hù)哪一個(gè)FTP地址可以下載該文件。 由于Archie深受歡迎,受其啟發(fā),Nevada System Computing Services大學(xué)于1993年開(kāi)發(fā)了一個(gè)Gopher(Go
6、pher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后來(lái)另一個(gè)Gopher搜索工具。 發(fā) 展(1)Excite 的歷史可以上溯到1993年2月,6個(gè)Stanford University(斯坦福大學(xué))大學(xué)生的想法是分析字詞關(guān)系,以對(duì)互聯(lián)網(wǎng)上的大量信息作更有效的檢索。到1993年中,這已是一個(gè)完全投資項(xiàng)目,他們還發(fā)布了一個(gè)供webmasters在自己網(wǎng)站上使用的搜索軟件版本,后來(lái)被叫做Excite for Web Servers。 注:Excite后來(lái)曾以概念搜索聞名,2002年5月,被Infospace收購(gòu)的Excite停止自己的搜索引擎,改用元搜索引擎 D
7、ogpile 發(fā) 展(2)1994年4月,斯坦福大學(xué)的兩名博士生,美籍華人楊致遠(yuǎn)和David Filo共同創(chuàng)辦了Yahoo!。隨著訪(fǎng)問(wèn)量和收錄鏈接數(shù)的增長(zhǎng),Yahoo目錄開(kāi)始支持簡(jiǎn)單的數(shù)據(jù)庫(kù)搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。Yahoo!中收錄的網(wǎng)站,因?yàn)槎几接泻?jiǎn)介信息,所以搜索效率明顯提高。 注:Yahoo以后陸續(xù)有 Altavista、Inktomi、Google提供搜索引擎服務(wù) Yahoo!幾乎成為20世紀(jì)90年代的因特網(wǎng)的代名詞。 發(fā) 展(3)1995年,一種新的搜索引擎形式出現(xiàn)了元搜索引擎(Meta Search Engi
8、ne)。用戶(hù)只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢(xún)結(jié)果,集中起來(lái)處理后再返回給用戶(hù)。 第一個(gè)元搜索引擎,是Washington大學(xué)碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上非常好聽(tīng),但搜索效果始終不理想,所以沒(méi)有哪個(gè)元搜索引擎有過(guò)強(qiáng)勢(shì)地位。 發(fā) 展(4)智能檢索的產(chǎn)生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進(jìn)一步還可在知識(shí)層面或者說(shuō)概念層面上輔助查詢(xún),通過(guò)主題詞典、上下位詞典、相關(guān)同級(jí)詞典檢索處理形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),給予用戶(hù)智能知識(shí)提
9、示,最終幫助用戶(hù)獲得最佳的檢索效果。 例: (1)查詢(xún)“計(jì)算機(jī)”,與“電腦”相關(guān)的信息也能檢索出來(lái); (2)可以進(jìn)一步縮小查詢(xún)范圍至“微機(jī)”、“服務(wù)器”或擴(kuò)大查詢(xún)至“信息技術(shù)”或查詢(xún)相關(guān)的“電子技術(shù)”、“軟件”、“計(jì)算機(jī)應(yīng)用”等范疇; (3)還包括歧義信息和檢索處理,如“蘋(píng)果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國(guó)”的區(qū)分,將通過(guò)歧義知識(shí)描述庫(kù)、全文索引、用戶(hù)檢索上下文分析以及用戶(hù)相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶(hù)最需要的信息。 發(fā) 展(5)個(gè)性化趨勢(shì)是搜索引擎的一個(gè)未來(lái)發(fā)展的重要特征和必然趨勢(shì)之一。一種方式通過(guò)搜索引擎的社區(qū)化產(chǎn)品(即對(duì)注冊(cè)用戶(hù)提供服務(wù))的方式來(lái)
10、組織個(gè)人信息,然后在搜索引擎基礎(chǔ)信息庫(kù)的檢索中引入個(gè)人因素進(jìn)行分析,獲得針對(duì)個(gè)人不同的搜索結(jié)果。自2004年10月yahoo推出myweb測(cè)試版,到11月a9推出個(gè)性化功能,到2005年Googlesearchhistory基本上都沿著一條路子走,分析特定用戶(hù)的搜索需求限定的范圍,然后按照用戶(hù)需求范圍擴(kuò)展到互聯(lián)網(wǎng)上其他的同類(lèi)網(wǎng)站給出最相關(guān)的結(jié)果。另外一種是針對(duì)大眾化的,Google個(gè)性化搜索引擎,或者yahooMindSet,或者我們都知道的前臺(tái)聚類(lèi)的vivisimo。但是無(wú)論其中的哪一種實(shí)現(xiàn)方式,即Google的主動(dòng)選擇搜索范圍,還是yahoo,vivisimo的在結(jié)果中重新組織自己需要的信
11、息,都是一種實(shí)驗(yàn)或者創(chuàng)想,短期內(nèi)無(wú)法成為主流的搜索引擎應(yīng)用產(chǎn)品。 發(fā) 展(6)網(wǎng)格技術(shù)(great global grid):由于沒(méi)有統(tǒng)一的信息組織標(biāo)準(zhǔn)對(duì)網(wǎng)絡(luò)信息資源進(jìn)行加工處理,難以對(duì)無(wú)序的網(wǎng)絡(luò)信息資源進(jìn)行檢索、交接和共享乃至深層次的開(kāi)發(fā)利用,形成信息孤島。網(wǎng)格技術(shù)就是要消除信息孤島實(shí)現(xiàn)互聯(lián)網(wǎng)上所有資源的全面連通。 國(guó)全球信息網(wǎng)格(Global Information Grid) Robot(機(jī)器人)一詞對(duì)編程者有特殊的意義。Computer Robot是指某個(gè)能以人類(lèi)無(wú)法達(dá)到的速度不斷重復(fù)執(zhí)行某項(xiàng)任務(wù)的自動(dòng)程序。由于專(zhuān)門(mén)用于檢索信息的Robot程序像蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來(lái)爬去
12、,因此,搜索引擎的Robot程序被稱(chēng)為spider程序。 1993年Matthew Gray開(kāi)發(fā)了 World Wide Web Wanderer,這是第一個(gè)利用HTML網(wǎng)頁(yè)之間的鏈接關(guān)系來(lái)檢測(cè)萬(wàn)維網(wǎng)規(guī)模的“機(jī)器人(Robot)”程序。開(kāi)始,它僅僅用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來(lái)也能夠捕獲網(wǎng)址(URL)。 1994年4月,斯坦福大學(xué)(Stanford University)的兩名博士生,美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo。隨著訪(fǎng)問(wèn)量和收錄鏈接數(shù)的增長(zhǎng),Yahoo目錄開(kāi)始支持簡(jiǎn)單的數(shù)據(jù)庫(kù)搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜
13、索引擎,事實(shí)上只是一個(gè)可搜索的目錄。雅虎于2002年12月23日收購(gòu)inktomi,2003年7月14日收購(gòu)包括Fast和Altavista在內(nèi)的Overture,2003年11月,Yahoo全資收購(gòu)3721公司。 1994年初,華盛頓大學(xué)(University of Washington )的學(xué)生Brian Pinkerton開(kāi)始了他的小項(xiàng)目WebCrawler。1994年4月20日,WebCrawler正式亮相時(shí)僅包含來(lái)自6000個(gè)服務(wù)器的內(nèi)容。WebCrawler是互聯(lián)網(wǎng)上第一個(gè)支持搜索文件全部文字的全文搜索引擎,在它之前,用戶(hù)只能通過(guò)URL和摘要搜索,摘要一般來(lái)自人工評(píng)論或程序自動(dòng)取正
14、文的前100個(gè)字。 1994年7月,卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University) 的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中,創(chuàng)建了Lycos。除了相關(guān)性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個(gè)在搜索結(jié)果中使用了網(wǎng)頁(yè)自動(dòng)摘要,而最大的優(yōu)勢(shì)還是它遠(yuǎn)勝過(guò)其它搜索引擎的數(shù)據(jù)量。 1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一樣成為搜索引擎的重要代表。 1995年,一種新的搜索引擎形式出現(xiàn)了元搜索引擎(A Meta Search Engine Roundup
15、)。用戶(hù)只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理,提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢(xún)結(jié)果,集中起來(lái)處理后再返回給用戶(hù)。第一個(gè)元搜索引擎,是Washington大學(xué)碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。 1995年12月,DEC的正式發(fā)布AltaVista。AltaVista是第一個(gè)支持自然語(yǔ)言搜索的搜索引擎,第一個(gè)實(shí)現(xiàn)高級(jí)搜索語(yǔ)法的搜索引擎(如AND、 OR、 NOT等)。用戶(hù)可以用AltaVista搜索新聞組(Newsgroups)的內(nèi)容并從互聯(lián)網(wǎng)上獲得文章,還可以搜索圖片名稱(chēng)中的文字、搜索Titl
16、es、搜索Java applets、搜索ActiveX objects。AltaVista也聲稱(chēng)是第一個(gè)支持用戶(hù)自己向網(wǎng)頁(yè)索引庫(kù)提交或刪除URL的搜索引擎,并能在24小時(shí)內(nèi)上線(xiàn)。AltaVista最有趣的新功能之一,是搜索有鏈接指向某個(gè)URL的所有網(wǎng)站。在面向用戶(hù)的界面上,AltaVista也作了大量革新。它在搜索框區(qū)域下放了“tips”以幫助用戶(hù)更好的表達(dá)搜索式,這些小tip經(jīng)常更新,這樣,在搜索過(guò)幾次以后,用戶(hù)會(huì)看到很多他們可能從來(lái)不知道的的有趣功能。這系列功能,逐漸被其它搜索引擎廣泛采用。1997年,AltaVista發(fā)布了一個(gè)圖形演示系統(tǒng)LiveTopics,幫助用戶(hù)從成千上萬(wàn)的搜索結(jié)
17、果中找到想要的。 1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier創(chuàng)立了Inktomi,1996年5月20日,Inktomi公司成立,強(qiáng)大的HotBot出現(xiàn)在世人面前。聲稱(chēng)每天能抓取索引1千萬(wàn)頁(yè)以上,所以有遠(yuǎn)超過(guò)其它搜索引擎的新內(nèi)容。HotBot也大量運(yùn)用cookie儲(chǔ)存用戶(hù)的個(gè)人搜索喜好設(shè)置。 1997年8月,Northernlight搜索引擎正式現(xiàn)身。它曾是擁有最大數(shù)據(jù)庫(kù)的搜索引擎之一,它沒(méi)有Stop Words,它有出色的Current News、7100多出版物組成的Special Collection、良好的高級(jí)搜索語(yǔ)法,第一個(gè)支持對(duì)搜
18、索結(jié)果進(jìn)行簡(jiǎn)單的自動(dòng)分類(lèi)。 1998年10月之前,Google只是斯坦福大學(xué)(Stanford University)的一個(gè)小項(xiàng)目BackRub。1995年博士生Larry Page開(kāi)始學(xué)習(xí)搜索引擎設(shè)計(jì),于1997年9月15日注冊(cè)了域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開(kāi)始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認(rèn)作自己的生日。Google以網(wǎng)頁(yè)級(jí)別(Pagerank)為基礎(chǔ),判斷網(wǎng)頁(yè)的重要性,使得搜索結(jié)果的相關(guān)性大大增強(qiáng)
19、。Google公司的奇客(Geek)文化氛圍、不作惡(Dont be evil)的理念,為Google贏得了極高的口碑和品牌美譽(yù)。2006年4月,Google宣布其中文名稱(chēng)“谷歌”,這是Google第一個(gè)在非英語(yǔ)國(guó)家起的名字。 Fast(Alltheweb)公司創(chuàng)立于1997年,是挪威科技大學(xué)(NTNU)學(xué)術(shù)研究的副產(chǎn)品。1999年5月,發(fā)布了自己的搜索引擎AllTheWeb。Fast創(chuàng)立的目標(biāo)是做世界上最大和最快的搜索引擎,幾年來(lái)庶幾近之。Fast(Alltheweb)的網(wǎng)頁(yè)搜索可利用ODP自動(dòng)分類(lèi),支持Flash和pdf搜索,支持多語(yǔ)言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP
20、搜索,擁有極其強(qiáng)大的高級(jí)搜索功能。(2003年2月25日,F(xiàn)ast的互聯(lián)網(wǎng)搜索部門(mén)被Overture收購(gòu))。 1996年8月,sohu公司成立,制作中文網(wǎng)站分類(lèi)目錄,曾有“出門(mén)找地圖,上網(wǎng)找搜狐”的美譽(yù)。隨著互聯(lián)網(wǎng)網(wǎng)站的急劇增加,這種人工編輯的分類(lèi)目錄已經(jīng)不適應(yīng)。sohu于2004年8月創(chuàng)建獨(dú)立域名的搜索網(wǎng)站“搜狗”,自稱(chēng)“第三代搜索引擎”。 Openfind 創(chuàng)立于1998年1月,其技術(shù)源自臺(tái)灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)的GAIS實(shí)驗(yàn)室。Openfind起先只做中文搜索引擎,鼎盛時(shí)期同時(shí)為三大著名門(mén)戶(hù)新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市場(chǎng)逐漸被Baidu和Google瓜分。2002
21、年6月,Openfind重新發(fā)布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計(jì)抓取網(wǎng)頁(yè)35億,開(kāi)始進(jìn)入英文搜索領(lǐng)域。 2000年1月,兩位北大校友,超鏈分析專(zhuān)利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士后)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布百度搜索引擎Beta版(此前Baidu只為其它門(mén)戶(hù)網(wǎng)站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發(fā)布Baidu搜索引擎,專(zhuān)注于中文搜索。 Baidu搜索引擎的其它特色包括:百度快照、網(wǎng)頁(yè)預(yù)覽/預(yù)覽全部網(wǎng)頁(yè)、相關(guān)搜索詞、
22、錯(cuò)別字糾正提示、mp3搜索、Flash搜索。2002年3月閃電計(jì)劃(Blitzen Project)開(kāi)始后,技術(shù)升級(jí)明顯加快。后推出貼吧、知道、地圖、國(guó)學(xué)、百科、文檔、視頻、博客等一系列產(chǎn)品,深受網(wǎng)民歡迎。2005年8月5日在納斯達(dá)克上市,發(fā)行價(jià)為USD 27.00,代號(hào)為BIDU。開(kāi)盤(pán)價(jià)USD 66.00,以USD 122.54收盤(pán),漲幅353.85%,創(chuàng)下了5年以來(lái)美國(guó)股市上市新股當(dāng)日漲幅最高紀(jì)錄。 2003年12月23日,原慧聰搜索正式獨(dú)立運(yùn)做,成立了中國(guó)搜索。2004年2月,中國(guó)搜索發(fā)布桌面搜索引擎網(wǎng)絡(luò)豬1.0,2006年3月中搜將網(wǎng)絡(luò)豬更名為IG(Internet Gateway)
23、。 2005年6月,新浪正式推出自主研發(fā)的搜索引擎“愛(ài)問(wèn)”。2007年起,新浪愛(ài)問(wèn)使用google搜索引擎。 2007年7月1日 全面采用網(wǎng)易自主研發(fā)的有道搜索技術(shù),并且合并了原來(lái)的綜合搜索和網(wǎng)頁(yè)搜索。有道網(wǎng)頁(yè)搜索、圖片搜索和博客搜索為網(wǎng)易搜索提供服務(wù)。其中網(wǎng)頁(yè)搜索使用了其自主研發(fā)的自然語(yǔ)言處理、分布式存儲(chǔ)及計(jì)算技術(shù);圖片搜索首創(chuàng)根據(jù)拍攝相機(jī)品牌、型號(hào),甚至季節(jié)等高級(jí)搜索功能;博客搜索相比同類(lèi)產(chǎn)品具有抓取全面、更新及時(shí)的優(yōu)勢(shì),提供“文章預(yù)覽”,“博客檔案”等創(chuàng)新功能?;ヂ?lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類(lèi)目錄查詢(xún)非常流行。網(wǎng)站分類(lèi)目錄由人工整理維護(hù),精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡(jiǎn)要描述,分類(lèi)放置
24、到不同目錄下。用戶(hù)查詢(xún)時(shí),通過(guò)一層層的點(diǎn)擊來(lái)查找自己想找的網(wǎng)站。也有人把這種基于目錄的檢索服務(wù)網(wǎng)站稱(chēng)為搜索引擎,但從嚴(yán)格意義上講,它并不是搜索引擎。 1990年,加拿大麥吉爾大學(xué)(University of McGill)計(jì)算機(jī)學(xué)院的師生開(kāi)發(fā)出Archie。當(dāng)時(shí),萬(wàn)維網(wǎng)(World Wide Web)還沒(méi)有出現(xiàn),人們通過(guò)FTP來(lái)共享交流資源。Archie能定期搜集并分析FTP服務(wù)器上的文件名信息,提供查找分別在各個(gè)FTP主機(jī)中的文件。用戶(hù)必須輸入精確的文件名進(jìn)行搜索,Archie告訴用戶(hù)哪個(gè)FTP服務(wù)器能下載該文件。雖然Archie搜集的信息資源不是網(wǎng)頁(yè)(HTML文件),但和搜索引擎的基本工作
25、方式是一樣的:自動(dòng)搜集信息資源、建立索引、提供檢索服務(wù)。所以,Archie被公認(rèn)為現(xiàn)代搜索引擎的鼻祖。 起源所有搜索引擎的祖先,是1990年由Montreal的McGill University三名學(xué)生(Alan Emtage、Peter Deutsch、Bill Wheelan)發(fā)明的Archie(Archie FAQ)。Alan Emtage等想到了開(kāi)發(fā)一個(gè)可以用文件名查找文件的系統(tǒng),于是便有了Archie。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶(hù)必須輸入精確的文件名搜索,然后Archie會(huì)告訴
26、用戶(hù)哪一個(gè)FTP地址可以下載該文件。 由于Archie深受歡迎,受其啟發(fā),Nevada System Computing Services大學(xué)于1993年開(kāi)發(fā)了一個(gè)Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后來(lái)另一個(gè)Gopher搜索工具。 第 二 章 搜 索 引 擎 基 本 常 識(shí) 2.1 搜 索 引 擎 工 作 原 理搜索引擎的原理,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)建立索引數(shù)據(jù)庫(kù)在索引數(shù)據(jù)庫(kù)中搜索排序。 從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè) 。利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪(fǎng)問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其
27、它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。 建立索引數(shù)據(jù)庫(kù) 由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類(lèi)型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。 在索引數(shù)據(jù)庫(kù)中搜索排序 當(dāng)用戶(hù)輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。
28、最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶(hù)。 搜索引擎的Spider一般要定期重新訪(fǎng)問(wèn)所有網(wǎng)頁(yè)(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對(duì)不同重要性的網(wǎng)頁(yè)有不同的更新頻率),更新網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù),以反映出網(wǎng)頁(yè)內(nèi)容的更新情況,增加新的網(wǎng)頁(yè)信息,去除死鏈接,并根據(jù)網(wǎng)頁(yè)內(nèi)容和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁(yè)的具體內(nèi)容和變化情況就會(huì)反映到用戶(hù)查詢(xún)的結(jié)果中。 互聯(lián)網(wǎng)雖然只有一個(gè),但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁(yè)各不相同,排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫(kù)儲(chǔ)存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁(yè)索引,數(shù)據(jù)量達(dá)到幾千G甚至幾萬(wàn)G。但即使最大的搜索引擎
29、建立超過(guò)二十億網(wǎng)頁(yè)的索引數(shù)據(jù)庫(kù),也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁(yè)的不到30%,不同搜索引擎之間的網(wǎng)頁(yè)數(shù)據(jù)重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因?yàn)樗鼈兡芊謩e搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜索引擎無(wú)法抓取索引的,也是我們無(wú)法用搜索引擎搜索到的。 你心里應(yīng)該有這個(gè)概念:搜索引擎只能搜到它網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)里儲(chǔ)存的內(nèi)容。你也應(yīng)該有這個(gè)概念:如果搜索引擎的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)里應(yīng)該有而你沒(méi)有搜出來(lái),那是你的能力問(wèn)題,學(xué)習(xí)搜索技巧可以大幅度提高你的搜索能力。2.2搜 索 引 擎 的 分 類(lèi)搜索引擎按其工作機(jī)制可分為3種:全文搜索、分類(lèi)目錄搜索和元搜索。全文搜索與分類(lèi)目錄搜索最大的不
30、同在于信息獲取的方式,全文搜索引擎使用網(wǎng)絡(luò)機(jī)器人(Spider)或網(wǎng)絡(luò)蜘蛛(crawlers)來(lái)抓取并分析網(wǎng)頁(yè)。分類(lèi)目錄搜索使用人工抓取和整理內(nèi)容。全文搜索引擎抓取網(wǎng)頁(yè)數(shù)量大,但缺乏準(zhǔn)確性。分類(lèi)目錄提供的內(nèi)容有限,但內(nèi)容質(zhì)量較好,可信度高。全文搜索引擎的代表網(wǎng)站是Google、百度等,分類(lèi)目錄的代表網(wǎng)站是DMOZ等ODP(Open Directory Project)網(wǎng)站。元搜索是整合了多個(gè)搜索引擎的搜索結(jié)果,在一個(gè)界面提供給用戶(hù),嚴(yán)格意義上說(shuō)不算是搜索引擎,如圖20.2所示。圖20.2 元搜索引擎界面2.3 全 文 搜 索 引 擎1.全文搜索引擎的工作原理全文搜索引擎主要利用網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)
31、蜘蛛按IP段檢查各個(gè)網(wǎng)際上的主機(jī),如果發(fā)現(xiàn)有新的網(wǎng)站就開(kāi)始抓取網(wǎng)站內(nèi)容,被抓取的網(wǎng)頁(yè)存放在搜索引擎的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中,搜索引擎通過(guò)特殊的分析機(jī)制,提取網(wǎng)頁(yè)的有效信息和文本段存放于索引數(shù)據(jù)庫(kù)中,同時(shí)提取頁(yè)面鏈接存入搜索引擎的鏈接數(shù)據(jù)庫(kù)中。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛會(huì)不定期地檢查鏈接數(shù)據(jù)庫(kù)中的鏈接,如果發(fā)現(xiàn)新內(nèi)容便重新抓取網(wǎng)頁(yè)內(nèi)容,如發(fā)現(xiàn)鏈接失效,就刪除失效鏈接,同時(shí)更新檢索數(shù)據(jù)庫(kù)。鏈接數(shù)據(jù)庫(kù)會(huì)判斷網(wǎng)頁(yè)的外部鏈接等信息,通過(guò)特定算法形成網(wǎng)頁(yè)排名,并發(fā)送給索引數(shù)據(jù)庫(kù)。用戶(hù)無(wú)論通過(guò)計(jì)算機(jī)、手機(jī)或PDA等任意一個(gè)可訪(fǎng)問(wèn)互聯(lián)網(wǎng)的終端,只要進(jìn)入搜索引擎,輸入要查詢(xún)的關(guān)鍵字,搜索引擎將自動(dòng)從索引數(shù)據(jù)庫(kù)中提取有效信息,按
32、網(wǎng)頁(yè)排名優(yōu)先級(jí)將搜索結(jié)果反饋第三章 使用搜索引擎的一些基本規(guī)則和技巧3.1 搜索引擎的一些基本規(guī)則互聯(lián)網(wǎng)在快速發(fā)展中,搜索引擎的種類(lèi)在不斷增多,其搜索功能也在不斷強(qiáng)大。在信息爆炸時(shí)代,學(xué)會(huì)用好任何一種搜索引擎都會(huì)為你的網(wǎng)上遨游節(jié)省很多時(shí)間,及時(shí)找到你想要的為你帶來(lái)無(wú)窮樂(lè)趣。下面以中文最大的搜索引擎“百度”為例,介紹幾種常見(jiàn)的搜索技巧。為什么百度搜索引擎采用“百度”這個(gè)名字百度的名字就是來(lái)源于“眾里尋他千百度,驀然回首,那人卻在燈火闌珊處” 百度(B,Inc)于1999年底成立于美國(guó)硅谷,它的創(chuàng)建者是資深信息檢索技術(shù)專(zhuān)家、超鏈分析專(zhuān)利的唯一持有人百度總裁李彥宏,及其好友在硅谷有多年商界成功經(jīng)驗(yàn)的
33、百度執(zhí)行副總裁徐勇博士。 百度是目前全球最優(yōu)秀的中文信息檢索與傳遞技術(shù)供應(yīng)商。中國(guó)所有提供搜索引擎的門(mén)戶(hù)網(wǎng)站中,超過(guò)80%以上都由百度提供搜索引擎技術(shù)支持,現(xiàn)有客戶(hù)包括新浪、騰訊、263、21cn、上海熱線(xiàn)、廣州視窗、新華網(wǎng)、北方時(shí)空、西部時(shí)空、重慶熱線(xiàn)、吉林信息港、大慶信息港、東方熱線(xiàn)、湖南信息港、南陽(yáng)信息港、順德信息網(wǎng)。 百度搜索引擎由四部分組成:蜘蛛程序、監(jiān)控程序、索引數(shù)據(jù)庫(kù)、檢索程序。 門(mén)戶(hù)網(wǎng)站只需將用戶(hù)查詢(xún)內(nèi)容和一些相關(guān)參數(shù)傳遞到百度搜索引擎服務(wù)器上,后臺(tái)程序就會(huì)自動(dòng)工作并將最終結(jié)果返回給網(wǎng)站。 百度搜索引擎使用了高性能的“網(wǎng)絡(luò)蜘蛛”程序自動(dòng)的在互聯(lián)網(wǎng)中搜索信息,可定制、高擴(kuò)展性的調(diào)
34、度算法使得搜索器能在極短的時(shí)間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息。百度在中國(guó)各地和美國(guó)均設(shè)有服務(wù)器,搜索范圍涵蓋了中國(guó)大陸、香港、臺(tái)灣、澳門(mén)、新加坡等華語(yǔ)地區(qū)以及北美、歐洲的部分站點(diǎn)。百度搜索引擎擁有目前世界上最大的中文信息庫(kù),總量超過(guò)6億頁(yè)以上,并且還在以每天幾十萬(wàn)頁(yè)的速度快速增長(zhǎng)。3.2 搜索引擎的一些基本技巧百度產(chǎn)品網(wǎng)頁(yè)搜索高級(jí)搜索 1. 減除無(wú)關(guān)資料:要搜尋關(guān)于“武俠小說(shuō)”,但不含“古龍”的資料,可使用如下查詢(xún):“武俠小說(shuō) - 古龍”。 2. 并行搜索:要查詢(xún)圖片或?qū)懻嫦嚓P(guān)資料,無(wú)須分兩次查詢(xún),只要輸入“圖片 | 寫(xiě)真”搜索即可。百度會(huì)提供跟|前后任一關(guān)鍵詞相關(guān)的網(wǎng)站和資料。 3. 相關(guān)檢索
35、:如果您無(wú)法確定輸入什么關(guān)鍵詞才能找到滿(mǎn)意的資料,可以請(qǐng)先輸入一個(gè)簡(jiǎn)單詞語(yǔ)搜索,百度會(huì)在搜索結(jié)果頁(yè)面的底部為您提供“相關(guān)搜索”做參考,這些“相關(guān)搜索”是基于其它用戶(hù)使用的關(guān)鍵詞而為您制作的。 4. 百度快照:當(dāng)某個(gè)搜索結(jié)果中的某個(gè)網(wǎng)站不能打開(kāi)時(shí),百度快照能為您很好的解決這個(gè)問(wèn)題。 百度快照功能在百度的服務(wù)器上保存了幾乎所有網(wǎng)站的大部分頁(yè)面,使您在不能鏈接所需網(wǎng)站時(shí),百度為您救急,并且通過(guò)百度快照能夠提高您的搜索效率。 因?yàn)椋?百度快照的服務(wù)穩(wěn)定,下載速度極快,您不會(huì)再受死鏈接或網(wǎng)絡(luò)堵塞的影響; 在快照中,您的關(guān)鍵詞均已用不同顏色在網(wǎng)頁(yè)中標(biāo)明,一目了然; 點(diǎn)擊快照中的關(guān)鍵詞,還可以直接跳到它在文
36、中首次出現(xiàn)的位置,使您瀏覽網(wǎng)頁(yè)更方便。 5. 在指定網(wǎng)站內(nèi)搜索 搜索“葡萄酒 site:” 則可僅在網(wǎng)站內(nèi)搜索和“葡萄酒”相關(guān)的信息; 搜索“旅游 site:”則表示在域名以“”結(jié)尾的網(wǎng)站內(nèi)搜索和“旅游”相關(guān)的信息。 注意:關(guān)鍵詞與“site:”之間須留一空格隔開(kāi);site后的冒號(hào):可以是半角:也可以是全角:,百度搜索引擎會(huì)自動(dòng)辨認(rèn)。site:后不能有http:/前綴或/后綴,網(wǎng)站頻道只局限于頻道名.域名方式,不能是域名/頻道名方式。 6. 在標(biāo)題中搜索 搜索“intitle:南瓜餅”將搜索網(wǎng)頁(yè)標(biāo)題中含有“南瓜餅”的網(wǎng)頁(yè); 搜索“intitle:葡萄酒”將搜索網(wǎng)頁(yè)標(biāo)題中含有“葡萄酒”的網(wǎng)頁(yè)。
37、7. 在url中搜索 搜索“inurl:mp3”將搜索網(wǎng)頁(yè)網(wǎng)址中含有“mp3”的網(wǎng)頁(yè); 搜索“inurl:wine tour”將搜索網(wǎng)頁(yè)網(wǎng)址中含有“wine”和“tour”的網(wǎng)頁(yè)。 8. 高級(jí)搜索框:百度高級(jí)搜索功能可以使您更輕松地自己定義要搜索的網(wǎng)頁(yè)的時(shí)間、地區(qū),語(yǔ)言、關(guān)鍵詞出現(xiàn)的位置、以及關(guān)鍵詞之間的邏輯關(guān)系等。高級(jí)搜索功能將使百度搜索引擎功能更完善,使用百度搜索引擎查找信息也將更加準(zhǔn)確、快捷。 9. 個(gè)性設(shè)置:您可以在個(gè)性設(shè)置中,定制您喜歡的搜索結(jié)果樣式:搜索結(jié)果10條、20條還是50條結(jié)果?喜歡在新窗口打開(kāi)網(wǎng)頁(yè)還是在同一窗口打開(kāi)?是否在百度網(wǎng)頁(yè)搜索結(jié)果中顯示相關(guān)的新聞?完成設(shè)置后,您再
38、次進(jìn)入百度進(jìn)行搜索時(shí),百度會(huì)按照您所設(shè)置偏好為您提供個(gè)性化百度搜索。 10.多文檔查詢(xún):除一般網(wǎng)頁(yè)外,您現(xiàn)在在百度還可以搜索PDF、DOC、XLS、PPT、RTF等文檔文件。雖然這些文件不象 HTML 文件那樣多,但這些文件通常會(huì)包含一些別處沒(méi)有的重要資料,如研究報(bào)告、論文等。 如果某個(gè)搜索結(jié)果是文檔文件而不是網(wǎng)頁(yè),它的標(biāo)題前面會(huì)出現(xiàn)以藍(lán)色字體標(biāo)明的如 【PDF】。單擊 【PDF】 右側(cè)的標(biāo)題鏈接就可以通過(guò)啟動(dòng)相關(guān)程序訪(fǎng)問(wèn)這個(gè)文檔。如果您的計(jì)算機(jī)沒(méi)有安裝相應(yīng)軟件,可以通過(guò)訪(fǎng)問(wèn)下面的html瀏覽專(zhuān)業(yè)文檔的文本內(nèi)容。 如果您只想查找某個(gè)特定類(lèi)型文件中的資料,而不要一般網(wǎng)頁(yè),只需在搜索關(guān)鍵詞后邊加上
39、 “filetype: 文檔類(lèi)型”即可。百度支持的文檔類(lèi)型包括pdf,doc,xls,ppt,rtf,all。其中的“all”表示搜索百度所有支持的文檔類(lèi)型。 例: “可行性 報(bào)告 filetype:pdf” 在所有的pdf文件中搜索有關(guān)可行性報(bào)告的資料 “讀后感 filetype:doc” 在所有word的doc文件中搜索有關(guān)讀后感的資料 “統(tǒng)計(jì)表 filetype:xls” 在所有excel 的xls文件中搜索有關(guān)統(tǒng)計(jì)表的資料 “經(jīng)濟(jì)學(xué) filetype:ppt” 在所有ppt文件中搜索有關(guān)經(jīng)濟(jì)學(xué)的資料 “教案 filetype:rtf” 在rtf文檔中搜索有關(guān)教材的資料 “史記 file
40、type:all” 在所有pdf、doc、xls、ppt、rtf文檔中搜索有關(guān)史記的資料 同時(shí)filetype:語(yǔ)法還可以和其他語(yǔ)法混合使用如: “intitle:論文 filetype:pdf” 表示在所有PDF文件中搜索標(biāo)題中含有論文的資料。 “site: filetype:doc”表示搜索所有(北京大學(xué)網(wǎng)站)中的word文件。 11. 計(jì)算器功能 百度為您提供的常用計(jì)算器功能全面貼近用戶(hù)使用習(xí)慣,無(wú)論多么復(fù)雜的混合計(jì)算公式和度量衡換算,只需一次輸入便可準(zhǔn)確獲得計(jì)算結(jié)果。 點(diǎn)擊這里獲得更多計(jì)算器幫助信息: 12股票查詢(xún) 最權(quán)威的信息,最直觀的行情,最便捷的操作股票行情一觸即發(fā)!百度提供的股
41、票價(jià)格和股市行情來(lái)自和訊財(cái)經(jīng),貼近股民的查詢(xún)方式使您瞬間掌握實(shí)時(shí)的大盤(pán)股票信息。 例如:查詢(xún)青島啤酒的股票行情,您可以進(jìn)行如下操作: 您可以在百度搜索框內(nèi),直接輸入股票代碼“600600”,即可得到該支股票的價(jià)格和成交股數(shù)信息。 您也可以輸入“STOCK: 股票代碼 (或股票簡(jiǎn)稱(chēng)、股票拼音簡(jiǎn)寫(xiě))”,便可以得到該支股票的價(jià)格和成交股數(shù)信息 13詞典查詢(xún) 百度在線(xiàn)詞典不僅支持強(qiáng)大的英漢、漢英單詞互譯功能,更提供常見(jiàn)中文成語(yǔ)的智能翻譯。常用釋義、語(yǔ)法、句法一覽無(wú)余! 只需在百度搜索框中輸入您查詢(xún)的詞語(yǔ),百度詞典就會(huì)自動(dòng)辨別您的需求并在搜索結(jié)果頁(yè)面的搜索框的上面出現(xiàn)詞典的鏈接,你只需點(diǎn)擊即可得到該詞語(yǔ)
42、的翻譯結(jié)果。 14. 列車(chē)航班查詢(xún):百度提供列車(chē)/航班時(shí)刻查詢(xún),搜索列車(chē)車(chē)次/航班號(hào),即可查詢(xún)?cè)摿熊?chē)/航班時(shí)刻了,如:“T109”、“CA1107”更多百度搜索技巧,請(qǐng)看百度幫助:搜索引擎框里的文字(搜索記錄)如何清除?1 自定義刪除(即想刪除哪條歷史記錄就刪除哪條) 在百度搜索網(wǎng)頁(yè)里的搜索欄中,點(diǎn)擊鼠標(biāo)左鍵兩次,會(huì)出現(xiàn)以前搜索過(guò)的歷史記錄。然后用鼠標(biāo)指向你想要?jiǎng)h除的歷史記錄(注意:是指向,不要點(diǎn)擊),這時(shí)這條歷史記錄會(huì)深色顯示,再點(diǎn)擊DEL鍵,就可以刪除這一條歷史記錄了。這種方法你可以隨心所欲,想刪哪條都可以。 2 完全刪除法 在桌面用鼠標(biāo)右鍵點(diǎn)擊IE圖標(biāo),再點(diǎn)屬性。選上面的“內(nèi)容”按鈕。再
43、點(diǎn)下面的“自動(dòng)完成”按鈕。然后點(diǎn)擊“清除表單”,就可以把以前的所有歷史記錄刪掉。如果想以后也把錄用的內(nèi)容不留歷史記錄,則把“表單”前面的勾去掉。 3 用修復(fù)工具,比如上網(wǎng)助手 搜索引擎的概念 搜索引擎是指以一定的策略搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù)的系統(tǒng)。從使用者的角度看,搜索引擎提供一個(gè)包含搜索框的頁(yè)面,在搜索框輸入詞語(yǔ),通過(guò)瀏覽器提交給搜索引擎后,搜索引擎就會(huì)返回跟用戶(hù)輸入的內(nèi)容相關(guān)的信息列表?;ヂ?lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類(lèi)目錄查詢(xún)非常流行。網(wǎng)站分類(lèi)目錄由人工整理維護(hù),精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡(jiǎn)要描述,分類(lèi)放置到不同目錄下。用戶(hù)查詢(xún)時(shí),通過(guò)一層層的
44、點(diǎn)擊來(lái)查找自己想找的網(wǎng)站。也有人把這種基于目錄的檢索服務(wù)網(wǎng)站成為搜索引擎,但從嚴(yán)格意義上,它并不是搜索引擎。 搜索引擎的工作原理 可以分為三個(gè)部分 1、抓取網(wǎng)頁(yè)每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序(spider)。Spider順著網(wǎng)頁(yè)中的超鏈接,連續(xù)地抓取網(wǎng)頁(yè)。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。 2、處理網(wǎng)頁(yè)搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁(yè)、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度。 3、提供檢索服務(wù)用戶(hù)輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配
45、該關(guān)鍵詞的網(wǎng)頁(yè);為了用戶(hù)便于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。第 四 章 搜 索 引 擎 的 評(píng) 測(cè)4.1 搜 索 引 擎缺陷們先分析一下幾個(gè)重要評(píng)測(cè)要素的能力缺陷:一:查全率 既然是搜索引擎,首先比搜索范圍是天經(jīng)地義的事,如果這條不及格,后邊的評(píng)測(cè)好象也不用參加了。由于收錄網(wǎng)頁(yè)的數(shù)量都是各搜索引擎自己宣布的,未可全信,而同一個(gè)關(guān)鍵詞的搜索結(jié)果卻是顯而易見(jiàn)的,所以一般的評(píng)測(cè)都以這個(gè)為準(zhǔn)。 但以這個(gè)為準(zhǔn)還是有很多毛病,多數(shù)象樣一點(diǎn)的搜索引擎我都可以找出一批關(guān)鍵詞來(lái)證明它的搜索結(jié)果是最全的。因?yàn)榫W(wǎng)頁(yè)索引數(shù)量雖然有大小,但robot和spider程序不同,索引范圍
46、和索引標(biāo)準(zhǔn)也不盡相同,在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。 有的搜索引擎支持“的,about,了,of,啊,么”等虛詞助詞搜索,有的不支持,這又如何來(lái)比?哪次評(píng)測(cè)提到過(guò)? 關(guān)鍵詞除了內(nèi)容難選擇,在長(zhǎng)短上也不好定。有的搜索引擎完全不支持單個(gè)漢字搜索,怎么算它?一般都只比較單關(guān)鍵詞搜索,而多關(guān)鍵詞的搜索呢?長(zhǎng)句的搜索呢?甚至有搜索引擎能支持任意文章或片段作為關(guān)鍵詞,這樣比較出來(lái)的結(jié)果跟單關(guān)鍵詞搜索出來(lái)的可是不一樣的,更別提沒(méi)法比的功能了。象excite這樣語(yǔ)義搜索的引擎,還有支持模糊搜索的引擎,別的搜索引擎搜索結(jié)果極少甚至為零的關(guān)鍵詞它們可以搜出一大堆結(jié)果,這又如何比較? 最
47、后一點(diǎn),搜索引擎是可以針對(duì)特定的關(guān)鍵詞進(jìn)行結(jié)果優(yōu)化的,評(píng)測(cè)的公正性誰(shuí)來(lái)保證?如果其中某個(gè)被評(píng)測(cè)搜索引擎事先知道所用的關(guān)鍵詞,那么只要輕松優(yōu)化一下,冠軍就非它莫屬了。 4.2搜索速度二:搜索速度 比完了查全率,就該比搜索速度了,如果有搜索引擎索引的網(wǎng)頁(yè)雖多,但是搜索一次要五、六秒或更長(zhǎng),直接請(qǐng)它出局吧,沒(méi)有比下去的意義了。 速度的問(wèn)題首先還是在關(guān)鍵詞,單關(guān)鍵詞搜索快的不一定多關(guān)鍵詞搜索快。然后是訪(fǎng)問(wèn)量的問(wèn)題,對(duì)一個(gè)日訪(fǎng)問(wèn)量一億以上的搜索引擎和一個(gè)日訪(fǎng)問(wèn)量幾萬(wàn)的搜索引擎作同樣的測(cè)試本身已是不公平。 還有網(wǎng)頁(yè)索引數(shù)量的問(wèn)題,一個(gè)搜索引擎索引了10億的網(wǎng)頁(yè),另一個(gè)搜索引擎索引了一千萬(wàn)的網(wǎng)頁(yè),讓它們對(duì)同
48、一個(gè)關(guān)鍵詞在各自的數(shù)據(jù)庫(kù)里搜索比搜索速度,這樣的結(jié)果如何讓人信服? 除了事先優(yōu)化的問(wèn)題外,有的搜索引擎本就具有記憶搜索結(jié)果加速調(diào)用的能力,一個(gè)關(guān)鍵詞哪怕第一詞搜索花了10秒,第二次搜索也許就2秒了,第三次,第四次,到你去測(cè)試的時(shí)候已經(jīng)永遠(yuǎn)是0.0001秒了。這樣,如果你選常見(jiàn)詞測(cè)試,它快得驚人,如果來(lái)個(gè)偏僻詞,也許老半天出不來(lái),到底該選什么關(guān)鍵詞?常用和偏僻各占多少?這真是一筆糊涂帳。 搜索引擎不是放在實(shí)驗(yàn)室的本地機(jī)上測(cè)試用的,而是給普通網(wǎng)友用的,所以這搜索時(shí)間應(yīng)該還包括搜索界面和搜索結(jié)果的傳輸過(guò)程在內(nèi)。一個(gè)搜索引擎搜索時(shí)間花了0.0001秒,但是傳輸結(jié)果網(wǎng)頁(yè)花了3秒,另一個(gè)搜索花了0.5秒,
49、但是傳輸網(wǎng)頁(yè)結(jié)果花了一秒,你說(shuō)哪個(gè)搜索引擎算快?真正用的時(shí)候,你選那個(gè)3.0001秒以后看到搜索結(jié)果的還是1.5秒以后看到搜索結(jié)果的? 三:查準(zhǔn)率 這個(gè)相當(dāng)重要,搜到的東西即使又多又快,但你想要的那條結(jié)果不知道要翻多少頁(yè)才能找到,那這搜索結(jié)果要來(lái)何用?這樣的搜索引擎只有在查稀罕東西時(shí)才有用,但是要查稀罕東西應(yīng)該去元搜索引擎呀,干嗎要用它?查準(zhǔn)率的評(píng)價(jià)標(biāo)準(zhǔn)很難定,得看你查什么,你要查一個(gè)特定的網(wǎng)站和找一群相似網(wǎng)站根本就是兩回事。查準(zhǔn)率的關(guān)鍵還是在于要搜什么和選擇什么關(guān)鍵詞,評(píng)測(cè)人可以隨意定奪的,然后影響到評(píng)測(cè)結(jié)果的可靠性。 四:死鏈接普通搜索引擎總有些搜索結(jié)果是點(diǎn)不進(jìn)去的,少到百分之一二,多到百
50、分之八九,這個(gè)也常被用作評(píng)測(cè)條件之一。但是象google使用了網(wǎng)頁(yè)快照功能,幾乎不存在死鏈接問(wèn)題,就算搜索結(jié)果中的那個(gè)網(wǎng)站已關(guān)閉,你還是可以看到google自己儲(chǔ)存的網(wǎng)頁(yè)。這種死鏈接怎么計(jì)算? 五:用戶(hù)負(fù)擔(dān)還沒(méi)見(jiàn)過(guò)國(guó)內(nèi)搜索引擎評(píng)測(cè)有誰(shuí)用過(guò)這一項(xiàng),但它是評(píng)價(jià)搜索引擎優(yōu)劣的重要因素,包括很多方面。搜索引擎是給人用的,一定要讓人用得舒服方便快捷,任何妨礙和延遲用戶(hù)到達(dá)最終搜索結(jié)果的都算用戶(hù)負(fù)擔(dān)。 首先是搜索界面,一個(gè)只有搜索框的純粹搜索引擎界面跟一個(gè)帶有廣告和大量網(wǎng)頁(yè)內(nèi)容的門(mén)戶(hù)相比,它們帶給用戶(hù)的搜索負(fù)擔(dān)是高下立判的。 其次是搜索結(jié)果描述,搜索結(jié)果網(wǎng)頁(yè)的文字描述是長(zhǎng)還是短,網(wǎng)頁(yè)文字描述采用索引帶關(guān)鍵
51、詞的部分還是索引網(wǎng)頁(yè)的開(kāi)始幾行還是索引網(wǎng)頁(yè)的主要內(nèi)容,關(guān)鍵詞是否高亮顯示又采用什么顏色,是否顯示網(wǎng)頁(yè)地址,還有搜索結(jié)果頁(yè)面的布局,這些對(duì)于用戶(hù)的搜索負(fù)擔(dān)區(qū)別大大的有。 再者就是對(duì)用戶(hù)操作步驟的影響,是否可以用鼠標(biāo)啟動(dòng)搜索,搜索結(jié)果每頁(yè)顯示數(shù)量是否只有10條,翻頁(yè)的便捷與否,搜索框是兩個(gè)還是一個(gè),放在上邊還是下邊,一次搜索后關(guān)鍵詞是否還在搜索框中顯示,這些每一條都會(huì)影響搜索效率。 六:其它還有 是否支持本目錄下搜索, internet索引數(shù)據(jù)庫(kù)更新時(shí)間長(zhǎng)短, 搜索引擎的穩(wěn)定性, 對(duì)高級(jí)搜索的支持能力強(qiáng)弱等也應(yīng)該加以評(píng)測(cè)。 一個(gè)人想得不一定周到,可能還有其它重要評(píng)測(cè)要素沒(méi)被我提及,網(wǎng)友若想到,望告
52、知??吹竭@里,大家對(duì)目前常用搜索引擎評(píng)測(cè)方法的局限性一定有所了解了,當(dāng)然最可笑的是,不知是無(wú)知還是貓膩還是選擇標(biāo)準(zhǔn)比較特別,有的中文搜索引擎評(píng)測(cè)今年才做竟然沒(méi)有包括google ,就好象排一長(zhǎng)串小提琴名人卻漏了帕格尼尼,呵呵。 評(píng)測(cè)搜索引擎實(shí)在是件很難的事。第五章 搜索引擎的未來(lái)發(fā)展動(dòng)向及趨勢(shì)5.1 搜索引擎的未來(lái)發(fā)展動(dòng)向我們回顧一下2007年搜索引擎發(fā)展的狀況。首先從全球市場(chǎng)來(lái)看搜索引擎市場(chǎng)規(guī)模持續(xù)快速增長(zhǎng),2007年以17.3高速增長(zhǎng)實(shí)現(xiàn)了28.5億美元的規(guī)模。市場(chǎng)結(jié)構(gòu)來(lái)看Google繼續(xù)領(lǐng)跑全球市場(chǎng),其市場(chǎng)份額有所增長(zhǎng)。搜索引擎巨頭們競(jìng)爭(zhēng)逐漸轉(zhuǎn)向并購(gòu)和擴(kuò)張。在中國(guó)市場(chǎng)結(jié)構(gòu)上可以看到百度、
53、Google和雅虎依然占據(jù)前三甲,可以看到競(jìng)爭(zhēng)格局繼續(xù)提升,百度所占的份額較往年有所增長(zhǎng)。在互聯(lián)網(wǎng)不斷走向成熟的今天, Google,百度在納斯達(dá)克的神話(huà),使得越來(lái)越多的人將目光投向了搜索引擎行業(yè)。同時(shí)在信息大爆炸的時(shí)代里,人們對(duì)網(wǎng)絡(luò)信息的處理也越來(lái)越借重于許許多多的各種各樣的搜索引擎。在這里,我僅僅是將幾個(gè)我們較為常用的搜索引擎加以粗略的比較,希望對(duì)大家的選擇和使用有所幫助。 一、Google 競(jìng)爭(zhēng)優(yōu)勢(shì):首先要講述的就是世界搜索引擎的老大google了。Google 依據(jù)網(wǎng)絡(luò)自身結(jié)構(gòu),清理混沌信息,縝密組織資源。Google 的搜索服務(wù)絕不僅僅是簡(jiǎn)單的信息目錄。而且Google 目錄中收錄了
54、 10 億多個(gè)網(wǎng)址,這在同類(lèi)搜索引擎中是首屈一指的。Google采用的是算法致勝的搜索模式。銷(xiāo)售渠道方面,Google奉行代理制,這符合Google偏好技術(shù)型公司的原則,截止目前,Google在中國(guó)已經(jīng)發(fā)展了7家渠道商。市場(chǎng)定位:google依托強(qiáng)大的國(guó)際背景和技術(shù)實(shí)力,定位于高端客戶(hù)。他們期待更有效率的搜索,希望能在簡(jiǎn)短的時(shí)間里就能找出自己想要的信息,但也不希望其他沒(méi)用的信息來(lái)擾亂他們的界面。二、百度 競(jìng)爭(zhēng)優(yōu)勢(shì):作為中文搜索引擎的老大,百度也有其及為獨(dú)到的一面。其基于字詞結(jié)合的信息處理方式,就相當(dāng)巧妙解決了中文信息的理解問(wèn)題,極大地提高了搜索的準(zhǔn)確性和查全率。百度還支持主流的中文編碼標(biāo)準(zhǔn)。百度競(jìng)價(jià)排名是指客戶(hù)可以購(gòu)買(mǎi)百度某一關(guān)鍵詞的搜索結(jié)果排名,比如汽車(chē),只要出得起錢(qián),企業(yè)就可以任意改變百度搜索的排名順序。市場(chǎng)定位:百度的市場(chǎng)定位是低端用戶(hù),采取的是一種低成本大覆蓋的模式。事實(shí)上,百度為用戶(hù)提供的產(chǎn)品并不是特別有效和精確,但對(duì)習(xí)慣于免費(fèi)使用網(wǎng)絡(luò)資源的中國(guó)用戶(hù)而
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 節(jié)水技術(shù)的推廣與應(yīng)用計(jì)劃
- 確保企業(yè)形象的管理措施計(jì)劃
- 進(jìn)口醫(yī)療器械使用與管理計(jì)劃
- 增強(qiáng)社區(qū)兒童保護(hù)意識(shí)的個(gè)人方案計(jì)劃
- 健身教練技能提升計(jì)劃
- 班主任對(duì)學(xué)生品德培養(yǎng)的貢獻(xiàn)計(jì)劃
- 榮格游戲治療
- 《貴州恒睿礦業(yè)有限公司福泉市龍昌鎮(zhèn)順意煤礦(兼并重組)礦產(chǎn)資源綠色開(kāi)發(fā)利用方案(三合一)》評(píng)審意見(jiàn)
- 檔案基本知識(shí)培訓(xùn)課件
- 第八章 走進(jìn)國(guó)家第一節(jié)日本(第1課時(shí))教學(xué)設(shè)計(jì)2023-2024學(xué)年下學(xué)期七年級(jí)地理下冊(cè)同步課堂系列(湘教版)
- 2024年湖南科技職業(yè)學(xué)院高職單招語(yǔ)文歷年參考題庫(kù)含答案解析
- 《性病防治知識(shí)講座》課件
- 定額〔2025〕2號(hào)文-關(guān)于發(fā)布2020版電網(wǎng)技術(shù)改造及檢修工程概預(yù)算定額2024年下半年價(jià)格
- 2024年河南省中職對(duì)口升學(xué)高考語(yǔ)文試題真題(原卷版)
- 卵巢囊腫護(hù)理病例討論
- 《無(wú)線(xiàn)局域網(wǎng)組建》課件-0無(wú)線(xiàn)課程概述
- 拉薩市2025屆高三第一次聯(lián)考(一模)語(yǔ)文試卷(含答案解析)
- 危險(xiǎn)品運(yùn)輸行業(yè)可行性分析報(bào)告
- 2024解析:第八章牛頓第一定律、二力平衡-講核心(解析版)
- 《勞動(dòng)法與勞動(dòng)關(guān)系》課件
- 2025陜西延長(zhǎng)石油(集團(tuán))有限責(zé)任公司招聘(1881人)筆試備考題庫(kù)及答案解析
評(píng)論
0/150
提交評(píng)論