搜索引擎原理_第1頁
搜索引擎原理_第2頁
搜索引擎原理_第3頁
搜索引擎原理_第4頁
搜索引擎原理_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

搜索引擎三大要素講師:steven2012-1-6讓數(shù)字營銷連接商業(yè)夢想搜索引擎三大要素爬行和抓取搜索引擎蜘蛛通過跟蹤鏈接訪問網(wǎng)頁,獲得頁面HTML代碼存入數(shù)據(jù)庫。預處理索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用排名用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面搜索引擎的工作過程大體上可以分成三個階段爬行和抓取

爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集的任務。

什么是蜘蛛?如何跟蹤鏈接?什么樣的頁面才能吸引蛛蛛?爬行時的復制內(nèi)容檢測什么是文件存儲?什么是蜘蛛蜘蛛1、

是一組運行在計算機的程序,在搜索引擎中負責抓取時新的且公共可訪問的WEB網(wǎng)頁,圖片和文檔等資源,這種抓取的過程為通過下載一個網(wǎng)頁,分析其中的鏈接,繼而漫游到其他鏈接指向的網(wǎng)頁,循環(huán)往復。2、蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。搜索引擎為了提高爬行和抓取速度,都使用多個蜘蛛并發(fā)分布爬行。

3、蜘蛛訪問任何一個網(wǎng)站時,都會先訪問網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。主流蜘蛛列舉Baiduspider+(+/search/spider.htm)百度蜘蛛Mozilla/5.0(compatible;Yahoo!SlurpChina;/help.html)雅虎中國蜘蛛Mozilla/5.0(compatible;Yahoo!Slurp/3.0;/help/us/ysearch/slurp)英文雅虎蜘蛛Mozilla/5.0(compatible;Googlebot/2.1;+/bot.html)Google蜘蛛msnbot/1.1(+/msnbot.htm)微軟Bing蜘蛛·Sogou+web+robot+(+/docs/help/webmasters.htm#07)搜狗蜘蛛Sosospider+(+/webspider.htm)搜搜蜘蛛蜘蛛抓取-谷歌管理員工具跟蹤鏈接

為了抓取網(wǎng)上盡量多的頁面,搜索引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,這也就是搜索引擎蜘蛛這個名稱的由來。整個互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成的。從理論上說,蜘蛛從任何一個頁面出發(fā),順著鏈接都可以爬行到網(wǎng)上的所有頁面。當然,由于網(wǎng)站及頁面鏈接結(jié)構(gòu)異常復雜,蜘蛛需要采取一定的爬行策略才能遍歷網(wǎng)上所有頁面。爬行策略

最簡單的爬行遍歷策略分為兩種:一是深度優(yōu)先二是廣度優(yōu)先

深度優(yōu)先遍歷策略如上圖所示,蜘蛛跟蹤鏈接,從A頁面爬行到A1,A2,A3,A4,到A4頁面后,已經(jīng)沒有其他鏈接可以跟蹤就返回A頁面,順著頁面上的另一個鏈接,爬行到B1,B2,B3,B4。在深度優(yōu)先策略中,蜘蛛一直爬到無法再向前,才返回爬另一條線。深度優(yōu)先策略,如封建帝位的繼承。不能深入的情況下才考慮其他分支的策略深度優(yōu)先策略

圖:廣度優(yōu)先策略如上圖所示,蜘蛛從A頁面順著鏈接爬行到A1,B1,C1頁面,直到A頁面上的所有鏈接都爬行完,然后再從A1頁面發(fā)現(xiàn)的下一層鏈接,爬行到A2,A3,A4頁面廣度優(yōu)先策略,類似長幼有序的規(guī)則。廣度優(yōu)先策略

在實際工作中,蜘蛛的帶寬資源、時間都不是無限的,也不可能爬完所有頁面。實際上最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。深度優(yōu)先和廣度優(yōu)先通常是混合使用的,這樣既可以照顧到盡量多的網(wǎng)站(廣度優(yōu)先),也能照顧到一部分網(wǎng)站的內(nèi)頁(深度優(yōu)先)。爬行策略

吸引蜘蛛網(wǎng)站和頁面權(quán)重質(zhì)量高、資格老的網(wǎng)站被認為權(quán)重比較高。頁面更新度如果蜘蛛第二次爬行發(fā)現(xiàn)頁面與第一次收錄的完全一樣,說明頁面沒有更新,蜘蛛也就沒有必要經(jīng)常抓取。導入鏈接要被蜘蛛抓取就必須有導入鏈接進入頁面,否則蜘蛛根本沒有機會知道頁面的存在。與首頁點擊距離一般來說網(wǎng)站上權(quán)重最高的是首頁,離首頁點擊距離越近,頁面權(quán)重越高,被蜘蛛爬行的機會也越大。哪些頁面被認為比較重要呢?有幾方面影響因素:爬行時的復制內(nèi)容檢測

蜘蛛在爬行和抓取文件時會進行一定程度的復制內(nèi)容檢測。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時,很可能不再繼續(xù)爬行。這也就是為什么有的站長在日志文件中發(fā)現(xiàn)了蜘蛛,但頁面從來沒有被真正收錄過。文件存儲搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。每個URL都有一個獨特的文件編號。預處理之分析系統(tǒng)一、提取文字1.搜索引擎預處理首先要做的就是從HTML文件中去除標簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。2.除了可見文字,搜索引擎也會提取出一些特殊的包含文字信息的代碼,如Meta標簽中的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。特殊文件處理除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們在搜索結(jié)果中也經(jīng)常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。雖然搜索引擎在識別圖片及從Flash中提取文字內(nèi)容方面有些進步,不過距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標還很遠。對圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容。分詞技術(shù)中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統(tǒng)計?;谠~典匹配的方法是指,將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞?;诮y(tǒng)計的分詞方法指的是分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,幾個字相鄰出現(xiàn)越多,就越可能形成一個單詞。基于統(tǒng)計的方法的優(yōu)勢是對新出現(xiàn)的詞反應更快速,也有利于消除歧義?;谠~典匹配和基于統(tǒng)計的分詞方法各有優(yōu)劣,實際使用中的分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識別生詞、新詞,消除歧義。中文分詞“2011年時尚女裝搭配”將被分詞為“2011年”和“時尚”“女裝”“搭配”四個詞。搜索引擎優(yōu)化分詞去停止詞無論英文中文,頁面內(nèi)容中都會有一些出現(xiàn)頻率很高,卻對內(nèi)容沒有任何影響的詞,如“的”,“地”,“得”之類的助詞,“啊”,“哈”,“呀”之類的感嘆詞,“從而”,“以”,“卻”之類的介詞。英文常見的停止詞,如”the”、”of”。這些詞被稱為停止詞,因為它們對頁面主要意思沒什么影響。消除噪聲搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標簽對頁面分塊,區(qū)分出頁頭、導航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復出現(xiàn)的區(qū)塊往往屬于噪聲,對頁面主題只能起到分散作用。對頁面進行消噪后,剩下的才是頁面主體內(nèi)容。網(wǎng)頁去重同一篇文章經(jīng)常會重復出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復性的內(nèi)容。用戶搜索時,如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗就太差了,雖然都是內(nèi)容相關(guān)的。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內(nèi)容,這個過程就稱為“去重”。PageRank計算PR是PageRank的縮寫。GooglePR理論是所有基于鏈接的搜索引擎理論中最有名的。PR用于表示頁面重要性的概念。用最簡單的話說就是,反向鏈接越多的頁面就是最越重要的頁面,因此PR值也越高.鏈接就像民主投票一樣,A頁面鏈接到B頁面,就意味著A頁面對B頁面投了一票,使得B頁面的重要性提高。1、認可度越高的網(wǎng)頁越重要,即反向鏈接越多的網(wǎng)頁越重要2、反向鏈接的源網(wǎng)頁質(zhì)量越高,被這些高質(zhì)量網(wǎng)頁的鏈接指向的網(wǎng)頁越重要3、鏈接數(shù)越少的網(wǎng)頁越重要

舉例

A→B,A輸給B,認可了B的厲害。

贏得次數(shù)多,贏得對手質(zhì)量高且輸?shù)纳俚倪x手排名高是自然的。預處理之索引系統(tǒng)正向索引頁面轉(zhuǎn)換為一個關(guān)鍵詞組成的集合,同時記錄每一個關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標題標簽、黑體、H標簽、錨文字等)、位置(如頁面第一段文字等)。這樣,每一個頁面都可以記錄為一串關(guān)鍵詞集合,其中每個關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。倒排索引正向索引還不能直接用于排名,需把文件對應到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射在倒排索引中關(guān)鍵詞是主鍵,每個關(guān)鍵詞都對應著一系列文件,這些文件中都出現(xiàn)了這個關(guān)鍵詞。這樣當用戶搜索某個關(guān)鍵詞時,排序程序在倒排索引中定位到這個關(guān)鍵詞,就可以馬上找出所有包含這個關(guān)鍵詞的文件。查詢系統(tǒng)—排名一、搜索詞處理(1)中文分詞。與頁面索引時一樣,搜索詞也必須進行中文分詞,將查詢字符串轉(zhuǎn)換為以詞為基礎的關(guān)鍵詞組合。分詞原理與頁面分詞相同。(2)去停止詞。和索引時一樣,搜索引擎也需要把搜索詞中的停止詞去掉,最大限度地提高排名相關(guān)性及效率。(3)指令處理。如加號、減號等,搜索引擎都需要做出識別和相應處理

(4)拼寫錯誤矯正。文件匹配倒排索引快速匹配文件假設用戶搜索“關(guān)鍵詞2關(guān)鍵詞7”,排名程序只要在倒排索引中找到“關(guān)鍵詞2”和“關(guān)鍵詞7”這兩個詞,就能找到分別含有這兩個詞的所有頁面。經(jīng)過簡單計算就能找出既包含“關(guān)鍵詞2”,也包含“關(guān)鍵詞7”的所有頁面:文件1和文件6。相關(guān)性計算

相關(guān)性計算選出初始子集后,對子集中的頁面計算關(guān)鍵詞相關(guān)性。影響相關(guān)性的主要因素包括幾方面:關(guān)鍵詞常用程度詞頻及密度關(guān)鍵詞位置及形式關(guān)鍵詞距離鏈接分析及頁面權(quán)重相關(guān)性計算關(guān)鍵詞常用程度越常用的詞對搜索詞的意義貢獻越小,越不常用的詞對意義貢獻越大。舉個例子,假設用戶輸入的搜索詞是“我們冥王星”?!拔覀儭边@個詞常用程度非常高,在很多頁面上會出現(xiàn),它對“我們dki”這個搜索詞的辨識程度和意義相關(guān)度貢獻就很小。那些包含“dki”這個詞的頁面,對“我們dki”這個搜索詞會更為相關(guān)。相關(guān)性計算詞頻及密度一般認為在沒有關(guān)鍵詞堆積的情況下,搜索詞在頁面中出現(xiàn)的次數(shù)多,密度比較高,說明頁面與搜索詞越相關(guān)。關(guān)鍵詞位置及形式像在索引部分中提到的,頁面關(guān)鍵詞出現(xiàn)的格式和位置都被記錄在索引庫中。關(guān)鍵詞出現(xiàn)在比較重要位置,如標題標簽、黑體、H1等,說明頁面與關(guān)鍵詞越相關(guān)。這一部分就是頁面SEO所要解決的。相關(guān)性計算關(guān)鍵詞距離切分后的關(guān)鍵詞完整匹配出現(xiàn),說明與搜索詞最相關(guān)。比如搜索“減肥方法”時,頁面上連續(xù)完整出現(xiàn)“減肥方法”四個字是最相關(guān)的。如果“減肥”和“方法”兩個詞沒有連續(xù)匹配出現(xiàn),出現(xiàn)的距離近一些,也被搜索引擎認為相關(guān)性稍微大一些。鏈接分析及頁面權(quán)重除了頁面本身的因素,頁面之間的鏈接和權(quán)重關(guān)系也影響關(guān)鍵詞的相關(guān)性,其中最重要的是錨文字。頁面有越多以搜索詞為錨文字的導入鏈接,說明頁面的相關(guān)性越強。鏈接分析還包括了鏈接源頁面本身的主題,錨文字周圍的文字等。排名過濾及調(diào)整計算相關(guān)性后,大體排名就已經(jīng)確定了。之后搜索引擎可能還有一些過濾算法,對排名進行輕微調(diào)整,其中最主要的過濾就是施加懲罰。一些有作弊嫌疑的頁面,雖然按照正常的權(quán)重和相關(guān)性計算排到前面,但搜索引擎的懲罰算法卻可能在最后一步把這些頁面調(diào)到后面去。典型的例子是百度的11位,Google的負6、負30、負950等算法。排名顯示所有排名確定后,排名程序調(diào)用原始頁面的標題標簽、描述標簽、快照日期等數(shù)據(jù)顯示在頁面上。有時搜索引擎需要動態(tài)生成頁面摘要,而不是調(diào)用頁面本身的描述標簽。標題、描述字數(shù)限制百度標題顯示最多不超多30個中文字符,谷歌顯示65個英文字符,中文32個字符。超出字數(shù)限制將無法顯示,以省略號代替百度描述顯示最多不超多77個中文字符,谷歌顯示165個英文字符,超出字數(shù)限制將無法顯示,以省略號代替網(wǎng)頁快照網(wǎng)頁快照,即是“網(wǎng)頁緩存”每個未被禁止搜索的網(wǎng)頁,在百度上都會自動生成臨時緩存頁面,稱為“百度快照”。當您遇到網(wǎng)站服務器暫時故障或網(wǎng)絡傳輸堵塞時,可以通過“快照”快速瀏覽頁面文本內(nèi)容。百度快照只會臨時緩存

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論