網(wǎng)絡(luò)搜索引擎_第1頁
網(wǎng)絡(luò)搜索引擎_第2頁
網(wǎng)絡(luò)搜索引擎_第3頁
網(wǎng)絡(luò)搜索引擎_第4頁
網(wǎng)絡(luò)搜索引擎_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

網(wǎng)絡(luò)搜索引擎萬維網(wǎng)中的特殊站點01互聯(lián)網(wǎng)工作原理任務(wù)元標記目錄03020405搜集方法引擎組成建立索引發(fā)展趨勢目錄070608基本信息互聯(lián)網(wǎng)搜索引擎是萬維網(wǎng)中的特殊站點,專門用來幫助人們查找存儲在其他站點上的信息。搜索引擎有能力告訴你文件或文檔存儲在何處。互聯(lián)網(wǎng)互聯(lián)網(wǎng)網(wǎng)絡(luò)搜索引擎好消息是,網(wǎng)上有無數(shù)網(wǎng)頁提供主題極為多樣的信息。壞消息是,這些網(wǎng)頁大都是由制作者隨便命名的,而且?guī)缀跞即鎯υ诓恢蚊姆?wù)器上。當(dāng)你需要了解特定主題時,您怎么知道應(yīng)當(dāng)閱讀哪些網(wǎng)頁呢?像大多數(shù)人一樣,您要使用互聯(lián)網(wǎng)搜索引擎。任務(wù)搜索引擎關(guān)鍵字任務(wù)關(guān)鍵字基于關(guān)鍵字來搜索互聯(lián)網(wǎng)——或其中的一部分。生成一份索引,保存所搜尋的詞語,以及相應(yīng)地址。允許用戶在索引中查找詞語或詞語組合。早期搜索引擎的索引僅包括數(shù)十萬個的網(wǎng)頁或文檔,每天受理的查詢可能只有一兩千次。如今,頂級搜索引擎的索引列表涵蓋數(shù)億個網(wǎng)頁,每天響應(yīng)數(shù)千萬次查詢。在本文中,我們將會講解這些基本任務(wù)是如何完成,以及互聯(lián)網(wǎng)搜索引擎是如何整合信息以幫助我們在網(wǎng)上找到所需內(nèi)容。搜索引擎大多數(shù)人談及互聯(lián)網(wǎng)搜索引擎時,實際上指的是萬維網(wǎng)搜索引擎。在萬維網(wǎng)成為互聯(lián)網(wǎng)最引人注目的部分之前,早就有搜索引擎幫助人們查找網(wǎng)上信息了。如“gopher”和“Archie”等程序可以生成索引,存儲在接入互聯(lián)網(wǎng)的各個服務(wù)器上的文件信息,極大縮短了查找程序和文檔的時間。上世紀八十年代末,要想從互聯(lián)網(wǎng)上獲得有價值的信息,就必須知道如何使用gopher、Archie、Veronica以及其它類似程序。大多數(shù)互聯(lián)網(wǎng)用戶只限于搜索萬維網(wǎng),所以本文只討論面向網(wǎng)頁內(nèi)容的搜索引擎。工作原理步驟原理爬尋方式谷歌實例運行原理訪問記錄其他實例010302040506工作原理步驟原理Baidu搜索引擎在有能力告訴你文件或文檔存儲在何處之前,必須先找到它們。為了在現(xiàn)有的數(shù)億網(wǎng)頁中找到信息,搜索引擎使用了一種特殊的軟件機器人,稱之為蜘蛛程序,以此生成在網(wǎng)站上查詢到的詞語列表。蜘蛛程序建立詞語列表的過程被稱為爬網(wǎng)。(將互聯(lián)網(wǎng)的一部分稱為網(wǎng)絡(luò)有些缺點——大量工具以蜘蛛命名就是其一。)為了建立并維護一份有用的詞語列表,搜索引擎的蜘蛛程序需要游歷大量網(wǎng)頁。爬尋方式通常起點是那些訪問量很大的服務(wù)器和熱門網(wǎng)頁。蜘蛛程序從一個很受歡迎的網(wǎng)站開始,檢索網(wǎng)頁上的詞語并追蹤在該網(wǎng)站上找到的每個鏈接。這樣,蜘蛛程序迅速開始了旅行,爬遍網(wǎng)上絕大多數(shù)經(jīng)常訪問的網(wǎng)站。谷歌實例谷歌起始Google的前身是一個學(xué)術(shù)搜索引擎。在介紹該系統(tǒng)開發(fā)過程的論文中,google創(chuàng)始人塞吉·布林(SergeyBrin)和勞倫斯·佩奇(LawrencePage)舉例說明了他們的蜘蛛程序工作得有多快。他們最初開發(fā)的系統(tǒng)使用多個蜘蛛程序——通常是三個。每個蜘蛛程序可以同時打開300個鏈接。最多可以同時使用四個蜘蛛程序,此時該系統(tǒng)每秒可以游歷100多個網(wǎng)頁,生成大約600KB的數(shù)據(jù)。運行原理要保證一切都快速運行,意味著必須開發(fā)一套系統(tǒng)來為蜘蛛程序提供必要信息。早期Google系統(tǒng)有一個專門為蜘蛛程序提供鏈接信息的服務(wù)器。為了盡可能減少延時,Google沒有依靠互聯(lián)網(wǎng)服務(wù)提供商提供的域名服務(wù)器(DNS)來將服務(wù)器名翻譯為網(wǎng)址,而是準備了自己的域名服務(wù)器。訪問記錄當(dāng)Google的蜘蛛程序訪問一個HTML網(wǎng)頁時,它會記錄以下兩種信息:網(wǎng)頁中的詞語詞語所在位置出現(xiàn)在標題、副標題、元標記以及其他相對重要的位置的詞語,會被記錄下來,這些詞語往往是日后用戶搜索時經(jīng)常使用的。Google蜘蛛程序的設(shè)計旨在檢索網(wǎng)頁中的每一個重要單詞(對于英文來說,還要濾掉冠詞a、an和the等)。其他蜘蛛程序采用不同的方法。這些方法通常是為了盡量加快蜘蛛程序的速度,或使用戶可以更有效地進行搜索,或二者兼而有之。例如,有些蜘蛛程序會追蹤標題、副標題和鏈接中的詞語,以及網(wǎng)頁中最常用的100個詞和文章前20行中的每一個詞。據(jù)說Lycos就是使用這種方法爬網(wǎng)的。其他實例Google如比AltaVista,則反其道而行之,檢索網(wǎng)頁中的每一個字,包括a、an、the以及其他“不重要”的詞。人們完善這種方法的干勁從未減弱,而另一些系統(tǒng)則通過其它方法與之抗衡。比如**網(wǎng)頁的不可見部分,即元標記。元標記引起問題定義元標記定義元標記允許網(wǎng)頁所有者來設(shè)定檢索網(wǎng)頁的關(guān)鍵字或概念。這很有用,特別是在網(wǎng)頁中的詞語有多個含義的時候——元標記可以引導(dǎo)搜索引擎在這些詞的幾種可能含義中選擇正確的一項。引起問題過分依賴元標記有一個危險:粗心或不負責(zé)任的網(wǎng)頁所有者會添加一些對應(yīng)熱門話題的元標記,但是與網(wǎng)頁實際內(nèi)容沒有任何關(guān)系。為了防止此種事情發(fā)生,蜘蛛程序會比對元標記和網(wǎng)頁內(nèi)容,剔除那些與網(wǎng)頁詞語不符的元標記。上述方法均基于一個假設(shè),也就是網(wǎng)頁所有者希望自己的網(wǎng)頁被納入搜索引擎的搜索列表。但有些情況下,網(wǎng)頁所有者并不希望它們出現(xiàn)在主流搜索引擎中,或是不希望蜘蛛程序訪問網(wǎng)頁。比如,假設(shè)有一款網(wǎng)頁游戲,每當(dāng)部分頁面被顯示或者新鏈接被點擊時,游戲就會生成新的動態(tài)頁面。如果網(wǎng)絡(luò)蜘蛛程序進入網(wǎng)頁,繼而開始追蹤所有新網(wǎng)頁的鏈接,游戲很可能將這些操作錯認為是由一名操作速度極快的玩家執(zhí)行的,從而失去控制。為了避免此類情況,人們制定了一套拒絕蜘蛛?yún)f(xié)議。該協(xié)議如果嵌入網(wǎng)頁開頭的元標記部分,就會告訴蜘蛛程序遠離該頁面——既不要檢索網(wǎng)頁上的詞語,也不要試圖追蹤網(wǎng)頁上的鏈接。搜集方法信息組合索引方法搜集方法索引方法Yahoo在最簡單的情況下,搜索引擎只需存儲詞語和詞語所在地址。實際上,這樣做會限制搜索引擎的用途,因為這種方式無法區(qū)別詞語在網(wǎng)頁中是被重點使用,還是略一提及,也無法區(qū)別詞語是使用一次還是多次,或該網(wǎng)頁上是否含有其它包括該關(guān)鍵字的網(wǎng)頁的鏈接。換句話說,這樣做將無法建立排名表,無法把最有用的網(wǎng)頁放在查詢結(jié)果列表的頂端。為了獲得更多有用信息,大多數(shù)搜索引擎存儲的信息不僅僅是詞語和網(wǎng)址,還可能存儲著該字在網(wǎng)頁中出現(xiàn)的次數(shù)。搜索引擎可能會為每個詞條指定一個權(quán)重,按照詞語出現(xiàn)在文檔開頭、網(wǎng)頁副標題、鏈接、元標記或標題的順序,權(quán)重依次增大。各商業(yè)搜索引擎指定索引中詞語權(quán)重的公式有所不同。這從一個側(cè)面解釋了為什么使用不同搜索引擎來搜索相同關(guān)鍵字,卻會產(chǎn)生不同的搜索結(jié)果列表,網(wǎng)頁排列順序也有所不同。信息組合如果忽略搜索引擎存儲的額外信息的準確組合,將這些數(shù)據(jù)進行編碼可以節(jié)省存儲空間。比如,最初的Google論文描述了使用兩個字節(jié)(每個字節(jié)8比特)來存儲權(quán)重信息——單詞是不是大寫、字號大小、位置以及其他用來為數(shù)據(jù)確定級別的信息。每個因素大概占據(jù)兩字節(jié)中的兩三個比特(8比特=1字節(jié))。因此,大量信息便能以一種壓縮率極高的方式存儲下來。信息被壓縮之后,就可以建立索引了。建立索引NOT布爾運算建立索引布爾運算ANDAND(與)——以“AND”相連的若干搜索項必須全部出現(xiàn)在網(wǎng)頁或文檔中。有些搜索引擎使用運算符號“+”來代替“AND”。OR(或)——以“OR”相連的搜索項必須至少有一項出現(xiàn)在網(wǎng)頁或文檔中。NOTNOT(非)——“NOT”之后的搜索項不能出現(xiàn)在網(wǎng)頁或文檔中。有些搜索引擎使用運算符號“-”來代替“NOT”。FOLLOWEDBY(跟隨)——某一搜索項必須緊隨另一搜索項。NEAR(臨近)——某一搜索項和另一搜索項的距離必須小于特定詞數(shù)。引號——引號內(nèi)的詞語應(yīng)被看作一個完整短語,出現(xiàn)在網(wǎng)頁或文檔中。引擎組成搜索器索引器檢索器用戶接口robots12345引擎組成搜索器其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息;索引器其功能是理解搜索器所搜索到的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;檢索器其功能是根據(jù)用戶的查詢在索引庫中快速檢索文檔,進行相關(guān)度評價,對將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息;用戶接口其作用是接納用戶查詢、顯示查詢結(jié)果、提供個性化查詢項。robotsrobots協(xié)議(也稱為爬蟲協(xié)議、爬蟲規(guī)則、機器人協(xié)議等)也就是robots.txt,網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協(xié)議是網(wǎng)站國際互聯(lián)網(wǎng)界通行的道德規(guī)范,其目的是保護網(wǎng)站數(shù)據(jù)和敏感信息、確保用戶個人信息和隱私不被侵犯。因其不是命令,故需要搜索引擎自覺遵守。一些病毒如malware(馬威爾病毒)經(jīng)常通過忽略robots協(xié)議的方式,獲取網(wǎng)站后臺數(shù)據(jù)和個人信息。發(fā)展趨勢智能搜索自然搜索發(fā)展趨勢自然搜索人們的日常交流是使用自然語言而非關(guān)鍵(字)詞,因為關(guān)鍵(字)詞表達的意思和意圖不完整不準確,反映在搜索結(jié)果上的缺陷是返回信息過多?;谧匀徽Z言搜索,符合人們的語言習(xí)慣,像人與人之間的交流一樣輕松、直接、方便,這無疑給用戶提供了巨大的便利。智能搜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論