網(wǎng)絡(luò)搜索引擎

上傳人：文*** IP屬地：廣東上傳時間：2023-05-18 格式：PPTX 頁數(shù)：42 大?。?84.43KB 積分：11.88 舉報 版權(quán)申訴

已閱讀5頁，還剩37頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

網(wǎng)絡(luò)搜索引擎萬維網(wǎng)中的特殊站點01互聯(lián)網(wǎng)工作原理任務(wù)元標記目錄03020405搜集方法引擎組成建立索引發(fā)展趨勢目錄070608基本信息互聯(lián)網(wǎng)搜索引擎是萬維網(wǎng)中的特殊站點，專門用來幫助人們查找存儲在其他站點上的信息。搜索引擎有能力告訴你文件或文檔存儲在何處。互聯(lián)網(wǎng)互聯(lián)網(wǎng)網(wǎng)絡(luò)搜索引擎好消息是，網(wǎng)上有無數(shù)網(wǎng)頁提供主題極為多樣的信息。壞消息是，這些網(wǎng)頁大都是由制作者隨便命名的，而且?guī)缀跞即鎯υ诓恢蚊姆?wù)器上。當(dāng)你需要了解特定主題時，您怎么知道應(yīng)當(dāng)閱讀哪些網(wǎng)頁呢？像大多數(shù)人一樣，您要使用互聯(lián)網(wǎng)搜索引擎。任務(wù)搜索引擎關(guān)鍵字任務(wù)關(guān)鍵字基于關(guān)鍵字來搜索互聯(lián)網(wǎng)——或其中的一部分。生成一份索引，保存所搜尋的詞語，以及相應(yīng)地址。允許用戶在索引中查找詞語或詞語組合。早期搜索引擎的索引僅包括數(shù)十萬個的網(wǎng)頁或文檔，每天受理的查詢可能只有一兩千次。如今，頂級搜索引擎的索引列表涵蓋數(shù)億個網(wǎng)頁，每天響應(yīng)數(shù)千萬次查詢。在本文中，我們將會講解這些基本任務(wù)是如何完成，以及互聯(lián)網(wǎng)搜索引擎是如何整合信息以幫助我們在網(wǎng)上找到所需內(nèi)容。搜索引擎大多數(shù)人談及互聯(lián)網(wǎng)搜索引擎時，實際上指的是萬維網(wǎng)搜索引擎。在萬維網(wǎng)成為互聯(lián)網(wǎng)最引人注目的部分之前，早就有搜索引擎幫助人們查找網(wǎng)上信息了。如“gopher”和“Archie”等程序可以生成索引，存儲在接入互聯(lián)網(wǎng)的各個服務(wù)器上的文件信息，極大縮短了查找程序和文檔的時間。上世紀八十年代末，要想從互聯(lián)網(wǎng)上獲得有價值的信息，就必須知道如何使用gopher、Archie、Veronica以及其它類似程序。大多數(shù)互聯(lián)網(wǎng)用戶只限于搜索萬維網(wǎng)，所以本文只討論面向網(wǎng)頁內(nèi)容的搜索引擎。工作原理步驟原理爬尋方式谷歌實例運行原理訪問記錄其他實例010302040506工作原理步驟原理Baidu搜索引擎在有能力告訴你文件或文檔存儲在何處之前，必須先找到它們。為了在現(xiàn)有的數(shù)億網(wǎng)頁中找到信息，搜索引擎使用了一種特殊的軟件機器人，稱之為蜘蛛程序，以此生成在網(wǎng)站上查詢到的詞語列表。蜘蛛程序建立詞語列表的過程被稱為爬網(wǎng)。（將互聯(lián)網(wǎng)的一部分稱為網(wǎng)絡(luò)有些缺點——大量工具以蜘蛛命名就是其一。）為了建立并維護一份有用的詞語列表，搜索引擎的蜘蛛程序需要游歷大量網(wǎng)頁。爬尋方式通常起點是那些訪問量很大的服務(wù)器和熱門網(wǎng)頁。蜘蛛程序從一個很受歡迎的網(wǎng)站開始，檢索網(wǎng)頁上的詞語并追蹤在該網(wǎng)站上找到的每個鏈接。這樣，蜘蛛程序迅速開始了旅行，爬遍網(wǎng)上絕大多數(shù)經(jīng)常訪問的網(wǎng)站。谷歌實例谷歌起始Google的前身是一個學(xué)術(shù)搜索引擎。在介紹該系統(tǒng)開發(fā)過程的論文中，google創(chuàng)始人塞吉·布林（SergeyBrin）和勞倫斯·佩奇（LawrencePage）舉例說明了他們的蜘蛛程序工作得有多快。他們最初開發(fā)的系統(tǒng)使用多個蜘蛛程序——通常是三個。每個蜘蛛程序可以同時打開300個鏈接。最多可以同時使用四個蜘蛛程序，此時該系統(tǒng)每秒可以游歷100多個網(wǎng)頁，生成大約600KB的數(shù)據(jù)。運行原理要保證一切都快速運行，意味著必須開發(fā)一套系統(tǒng)來為蜘蛛程序提供必要信息。早期Google系統(tǒng)有一個專門為蜘蛛程序提供鏈接信息的服務(wù)器。為了盡可能減少延時，Google沒有依靠互聯(lián)網(wǎng)服務(wù)提供商提供的域名服務(wù)器(DNS)來將服務(wù)器名翻譯為網(wǎng)址，而是準備了自己的域名服務(wù)器。訪問記錄當(dāng)Google的蜘蛛程序訪問一個HTML網(wǎng)頁時，它會記錄以下兩種信息：網(wǎng)頁中的詞語詞語所在位置出現(xiàn)在標題、副標題、元標記以及其他相對重要的位置的詞語，會被記錄下來，這些詞語往往是日后用戶搜索時經(jīng)常使用的。Google蜘蛛程序的設(shè)計旨在檢索網(wǎng)頁中的每一個重要單詞（對于英文來說，還要濾掉冠詞a、an和the等）。其他蜘蛛程序采用不同的方法。這些方法通常是為了盡量加快蜘蛛程序的速度，或使用戶可以更有效地進行搜索，或二者兼而有之。例如，有些蜘蛛程序會追蹤標題、副標題和鏈接中的詞語，以及網(wǎng)頁中最常用的100個詞和文章前20行中的每一個詞。據(jù)說Lycos就是使用這種方法爬網(wǎng)的。其他實例Google如比AltaVista，則反其道而行之，檢索網(wǎng)頁中的每一個字，包括a、an、the以及其他“不重要”的詞。人們完善這種方法的干勁從未減弱，而另一些系統(tǒng)則通過其它方法與之抗衡。比如**網(wǎng)頁的不可見部分，即元標記。元標記引起問題定義元標記定義元標記允許網(wǎng)頁所有者來設(shè)定檢索網(wǎng)頁的關(guān)鍵字或概念。這很有用，特別是在網(wǎng)頁中的詞語有多個含義的時候——元標記可以引導(dǎo)搜索引擎在這些詞的幾種可能含義中選擇正確的一項。引起問題過分依賴元標記有一個危險：粗心或不負責(zé)任的網(wǎng)頁所有者會添加一些對應(yīng)熱門話題的元標記，但是與網(wǎng)頁實際內(nèi)容沒有任何關(guān)系。為了防止此種事情發(fā)生，蜘蛛程序會比對元標記和網(wǎng)頁內(nèi)容，剔除那些與網(wǎng)頁詞語不符的元標記。上述方法均基于一個假設(shè)，也就是網(wǎng)頁所有者希望自己的網(wǎng)頁被納入搜索引擎的搜索列表。但有些情況下，網(wǎng)頁所有者并不希望它們出現(xiàn)在主流搜索引擎中，或是不希望蜘蛛程序訪問網(wǎng)頁。比如，假設(shè)有一款網(wǎng)頁游戲，每當(dāng)部分頁面被顯示或者新鏈接被點擊時，游戲就會生成新的動態(tài)頁面。如果網(wǎng)絡(luò)蜘蛛程序進入網(wǎng)頁，繼而開始追蹤所有新網(wǎng)頁的鏈接，游戲很可能將這些操作錯認為是由一名操作速度極快的玩家執(zhí)行的，從而失去控制。為了避免此類情況，人們制定了一套拒絕蜘蛛?yún)f(xié)議。該協(xié)議如果嵌入網(wǎng)頁開頭的元標記部分，就會告訴蜘蛛程序遠離該頁面——既不要檢索網(wǎng)頁上的詞語，也不要試圖追蹤網(wǎng)頁上的鏈接。搜集方法信息組合索引方法搜集方法索引方法Yahoo在最簡單的情況下，搜索引擎只需存儲詞語和詞語所在地址。實際上，這樣做會限制搜索引擎的用途，因為這種方式無法區(qū)別詞語在網(wǎng)頁中是被重點使用，還是略一提及，也無法區(qū)別詞語是使用一次還是多次，或該網(wǎng)頁上是否含有其它包括該關(guān)鍵字的網(wǎng)頁的鏈接。換句話說，這樣做將無法建立排名表，無法把最有用的網(wǎng)頁放在查詢結(jié)果列表的頂端。為了獲得更多有用信息，大多數(shù)搜索引擎存儲的信息不僅僅是詞語和網(wǎng)址，還可能存儲著該字在網(wǎng)頁中出現(xiàn)的次數(shù)。搜索引擎可能會為每個詞條指定一個權(quán)重，按照詞語出現(xiàn)在文檔開頭、網(wǎng)頁副標題、鏈接、元標記或標題的順序，權(quán)重依次增大。各商業(yè)搜索引擎指定索引中詞語權(quán)重的公式有所不同。這從一個側(cè)面解釋了為什么使用不同搜索引擎來搜索相同關(guān)鍵字，卻會產(chǎn)生不同的搜索結(jié)果列表，網(wǎng)頁排列順序也有所不同。信息組合如果忽略搜索引擎存儲的額外信息的準確組合，將這些數(shù)據(jù)進行編碼可以節(jié)省存儲空間。比如，最初的Google論文描述了使用兩個字節(jié)（每個字節(jié)8比特）來存儲權(quán)重信息——單詞是不是大寫、字號大小、位置以及其他用來為數(shù)據(jù)確定級別的信息。每個因素大概占據(jù)兩字節(jié)中的兩三個比特（8比特=1字節(jié)）。因此，大量信息便能以一種壓縮率極高的方式存儲下來。信息被壓縮之后，就可以建立索引了。建立索引NOT布爾運算建立索引布爾運算ANDAND（與）——以“AND”相連的若干搜索項必須全部出現(xiàn)在網(wǎng)頁或文檔中。有些搜索引擎使用運算符號“+”來代替“AND”。OR（或）——以“OR”相連的搜索項必須至少有一項出現(xiàn)在網(wǎng)頁或文檔中。NOTNOT（非）——“NOT”之后的搜索項不能出現(xiàn)在網(wǎng)頁或文檔中。有些搜索引擎使用運算符號“-”來代替“NOT”。FOLLOWEDBY（跟隨）——某一搜索項必須緊隨另一搜索項。NEAR（臨近）——某一搜索項和另一搜索項的距離必須小于特定詞數(shù)。引號——引號內(nèi)的詞語應(yīng)被看作一個完整短語，出現(xiàn)在網(wǎng)頁或文檔中。引擎組成搜索器索引器檢索器用戶接口robots12345引擎組成搜索器其功能是在互聯(lián)網(wǎng)中漫游，發(fā)現(xiàn)和搜集信息；索引器其功能是理解搜索器所搜索到的信息，從中抽取出索引項，用于表示文檔以及生成文檔庫的索引表；檢索器其功能是根據(jù)用戶的查詢在索引庫中快速檢索文檔，進行相關(guān)度評價，對將要輸出的結(jié)果排序，并能按用戶的查詢需求合理反饋信息；用戶接口其作用是接納用戶查詢、顯示查詢結(jié)果、提供個性化查詢項。robotsrobots協(xié)議（也稱為爬蟲協(xié)議、爬蟲規(guī)則、機器人協(xié)議等）也就是robots.txt，網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。Robots協(xié)議是網(wǎng)站國際互聯(lián)網(wǎng)界通行的道德規(guī)范，其目的是保護網(wǎng)站數(shù)據(jù)和敏感信息、確保用戶個人信息和隱私不被侵犯。因其不是命令，故需要搜索引擎自覺遵守。一些病毒如malware（馬威爾病毒）經(jīng)常通過忽略robots協(xié)議的方式，獲取網(wǎng)站后臺數(shù)據(jù)和個人信息。發(fā)展趨勢智能搜索自然搜索發(fā)展趨勢自然搜索人們的日常交流是使用自然語言而非關(guān)鍵（字）詞，因為關(guān)鍵（字）詞表達的意思和意圖不完整不準確，反映在搜索結(jié)果上的缺陷是返回信息過多?；谧匀徽Z言搜索，符合人們的語言習(xí)慣,像人與人之間的交流一樣輕松、直接、方便，這無疑給用戶提供了巨大的便利。智能搜

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

網(wǎng)絡(luò)搜索引擎

文檔簡介

溫馨提示

最新文檔

評論

網(wǎng)絡(luò)搜索引擎

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔