Seo必須理解的搜索引擎收錄網站原理

上傳人：心*** IP屬地：湖北上傳時間：2023-02-01 格式：DOCX 頁數(shù)：3 大小：19.89KB 積分：12 舉報 版權申訴

全文預覽已結束

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

Seo必須理解的搜索引擎收錄網站原理

搜索引擎爬蟲，蜘蛛，機器人是什么?-搜索引擎收錄原理搜索引擎為了能夠讓自己的數(shù)據(jù)庫足夠的強大，足夠的全面，不分晝夜的在網絡上尋找新的，更可靠的信息，但是隨著網絡時代到來，網絡信息爆炸式的整張，人工根本不可能完成這樣的任務，因此，搜索引擎擁有者開發(fā)出來一套程序，用來不分晝夜的抓去信息，然后整理，分類信息，最后將這些信息索引到自己的數(shù)據(jù)庫中。這種不分晝夜抓取網站信息的程序的名字很多，比如：蜘蛛，爬蟲，機器人，探測器。一般搜索引擎可以同時派出N多個爬蟲程序，它們通過URL一個頁面一個頁面的抓去網站的標題，描述，圖片，網站內容等，然后把抓去回來的信息放在專用的倉庫中，等待索引。但是網站的設計者，并不能保證自己設計的網站是天衣無縫的，都會有很多問題：比如說網頁中出現(xiàn)死鏈接，網頁內容過多等，都導致爬蟲程序無法正確的抓取完整個頁面的內容，或許爬蟲只抓去了這個頁面的頭部，在抓去身子的時候發(fā)現(xiàn)自己存儲信息的地方不夠了，不得不離開。所以我們在設計網站的時候都應該注意這些問題，建議各位網站設計者能夠把網頁設計的容易讓爬蟲接受。Google的兩個爬蟲程序原理介紹下面我們以搜索引擎中做的最好的google為例，分析搜索引擎是如何抓取信息，如何處理信息。Google爬蟲程序擁有2種：刷新爬蟲，和深度探測爬蟲，刷新爬蟲部分晝夜的將抓取來的信息放在一個特定的數(shù)據(jù)庫中，由于刷新爬蟲個和主要索引程序一起提供搜索結果，有的時候您會發(fā)現(xiàn)，你的頁面更新突然出現(xiàn)在搜索結果頁面，但是過了一會又突然消失了，這是因為刷新爬蟲在不停的抓去信息，不停的重寫，給我的感覺是刷新爬蟲的存儲機制影響比較像數(shù)據(jù)結構中的棧，先進后出，后就進先出，消失的這段時間各位seo不要著急，還是那個樣子不停的更新1月后就會慢慢出現(xiàn)在搜索結果中，不過現(xiàn)在可能等待時間沒有那么長。如果你的頁面已經在搜索引擎的索引中出現(xiàn)，刷新爬蟲一旦發(fā)現(xiàn)你的更新，爬蟲程序會很快的將您的更新顯示出來，但是還是不夠穩(wěn)定，要一直等到深度爬蟲更新主要索引，您的頁面才能夠足夠的穩(wěn)定。下面我們用簡單的流程介紹下搜索引擎收錄過程：刷新爬蟲程序》發(fā)現(xiàn)信息》抓取信息》放在專用數(shù)據(jù)庫》等待索引整理》索引整理(深度爬蟲訪問主要索引)》索引完成，某關鍵詞的排名都已經計算好》等待用戶搜索》奉上結果。搜索引擎提供的結果有幾種?搜索結果提供的搜索結果有二種，建議各位seoer都應該做上，本人正在學習中，希望能得到高手指點一二。三種搜索結果1內容索引結果2特別索引結果，前者是對網頁的關鍵詞，標題，描述，鏈接源頭文字等文字形式的索引和壓縮。后者包

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Seo必須理解的搜索引擎收錄網站原理

文檔簡介

溫馨提示

最新文檔

評論

Seo必須理解的搜索引擎收錄網站原理

文檔簡介

溫馨提示

最新文檔

評論

相關文檔