搜索引擎的原理_第1頁
搜索引擎的原理_第2頁
搜索引擎的原理_第3頁
搜索引擎的原理_第4頁
搜索引擎的原理_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

搜索引擎的原理簡述搜索引擎的服務(wù)步驟一、搜索引擎巡視網(wǎng)絡(luò),抓取頁面,建立排序,理解抓取頁面內(nèi)容意思。二、外部環(huán)境:用戶發(fā)起檢索請求,提交給搜索引擎。三、搜索引擎接受請求,分析關(guān)鍵詞,了解用戶搜索意圖。根據(jù)關(guān)鍵詞尋找匹配內(nèi)容,推薦出來并排名展現(xiàn)。搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個詞(即關(guān)鍵詞)進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當用戶查找某個關(guān)鍵詞的時候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復雜的算法進行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列1、派出Spider,按照相關(guān)的策略把網(wǎng)頁抓回搜索引擎服務(wù)器。2、對抓回來的網(wǎng)頁進行連接抽離、內(nèi)容處理、消除噪音、提取該網(wǎng)頁的主題文本內(nèi)容。3、對網(wǎng)頁的內(nèi)容進行中文分詞,去除停止詞。4、分詞后判斷網(wǎng)頁內(nèi)容是否有,刪除重復也,對剩余頁面進行倒排索引,等待檢索。5、對用戶查詢的關(guān)鍵詞進行分詞處理,并且根據(jù)用戶的地理位置和歷史搜索特征結(jié)合判斷用戶需求。這樣方便地域性搜索結(jié)果和個性化搜索結(jié)果能展示用戶最需要的內(nèi)容。6、查找緩存中是否有該關(guān)鍵詞的查詢結(jié)果,如果有,確定用戶真實需求,微調(diào)之后展示給用戶。7、如果緩存沒有信息,那么在索引庫中進行調(diào)取,并且將關(guān)鍵詞和對應的搜索結(jié)果加入到緩存中去。8、網(wǎng)頁排名是根據(jù)用戶的搜索詞和搜索需求,對索引庫中的網(wǎng)頁進行相關(guān)性、重要性(鏈接權(quán)重分析)和用戶體驗的高低進行分析得到的。爬行和抓取搜索引擎派出一個能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序,這個程序通常稱之為蜘蛛(Spider)。搜索引擎從已知的數(shù)據(jù)庫出發(fā),就像正常用戶的瀏覽器一樣訪問這些網(wǎng)頁并抓取文件。搜索引擎通過這些爬蟲去爬互聯(lián)網(wǎng)上的外鏈,從這個網(wǎng)站爬到另一個網(wǎng)站,去跟蹤網(wǎng)頁中的鏈接,訪問更多的網(wǎng)頁,這個過程就叫爬行。這些新的網(wǎng)址會被存入數(shù)據(jù)庫等待搜索。所以跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛(Spider)發(fā)現(xiàn)新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。建立索引蜘蛛抓取的頁面文件分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫,這個過程即是索引(index).在索引數(shù)據(jù)庫中,網(wǎng)頁文字內(nèi)容,關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應記錄。搜索詞處理用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯誤或錯別字等情況。搜索詞的處理必須十分快速。排序?qū)λ阉髟~處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫中找出所有包含搜索詞的網(wǎng)頁,并且根據(jù)排名算法計算出哪些網(wǎng)頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法與人相比,這就是為什么網(wǎng)站要進行搜索引擎優(yōu)化。沒有SEO的幫助,搜索引擎常常并不能正確的返回最相關(guān)、最權(quán)威、最有用的信息。搜索引擎抓取詳解Spider他是搜索引擎最開始的一個功能模塊,同時,只有它抓取回來的頁面或者地址才可以被索引并參與進排名里面。只要被Spider抓取的URL地址都可能會參與排名,但是參與排名的網(wǎng)頁不一定被抓取了內(nèi)容。例如現(xiàn)在的天貓商城,只會被抓去地址,但是正文內(nèi)容不會抓取。(他是搜索引擎用來抓取網(wǎng)站頁面的一個程序。他抓取頁面需要有一個入口,這個入口一般先期可以由我們?nèi)斯ぬ峤?。例如搜索引擎提交我們的網(wǎng)站。)Spider的抓取及分類Spider想要抓取到網(wǎng)頁,首先要解決時發(fā)現(xiàn)網(wǎng)頁的入口,沒有入口他就無法進入網(wǎng)站,更是無從抓取網(wǎng)頁了。因此這里就涉及到抓取的策略性問題,這個也是我們后續(xù)SEO要解決的第一步。那么抓取的策略是什么呢?其次是,網(wǎng)頁內(nèi)容是有時效性的,有一些網(wǎng)頁內(nèi)容不存在實時的更新,依然有著重要的意義,有一些需呀實時更新,那么對于這些信息,Spider采用什么樣的再次抓取和更新策略呢?作為大型的搜索引擎,Spider不可能只有一個,為了節(jié)省資源,保證效率,要保證多個Spider同時作業(yè)而且工作不重復,這樣就會有多個Spider分區(qū)域同時作業(yè),這樣分布式抓取策略又是什么樣的呢?Spider的分類批量型:特點:具有明顯的抓取范圍和目標,時間設(shè)定,抓取數(shù)量有限,或者當達到目標就會停止,這樣的例子一般是我們的站長和優(yōu)化人員使用的采集工具中的采集程序。增量型:可以成為搜索引擎的網(wǎng)站或者程序,他們使用的都是增量型,他們的特點是沒有固定目標、范圍和時間限制,會無休止的抓取,直到把所有的網(wǎng)站數(shù)據(jù)抓取為止,他們一般不僅僅抓取盡可能全面的頁面,同時還要對已經(jīng)抓取的頁面再次抓取和更新。因為網(wǎng)絡(luò)在變化,信息也在變化。百度、google主要用的就是這種。垂直型:特點:只對特定的內(nèi)容或者行業(yè)進行抓取,他具有增量型的部分特點,但是對于抓取范圍有限制。一般一淘網(wǎng),優(yōu)酷下搜庫,百度和google下的垂直搜索使用的就是垂直型的。Spider抓取1、盡可能多的抓取頁面2、避免重復的頁面抓取因此在實際的抓取過程中,Spider會建立兩個列表組,一個是已經(jīng)抓取的URL列表,一個是等待抓取的URL列表。每抓取一個新頁面的時候,提取出來的頁面鏈接,都會去和已經(jīng)抓取的URL列表中的鏈接去一一比對,如果發(fā)現(xiàn)該鏈接已經(jīng)抓取過,就會直接丟棄,如果發(fā)現(xiàn)該鏈接還沒有抓取,就會把它放在等待抓取的列表末尾排隊等候。Spider眼中的網(wǎng)頁分類

1已經(jīng)抓取頁面等待抓取頁面可以抓取頁面暗網(wǎng)頁面Spider的抓取特點Spider對于常規(guī)網(wǎng)頁的抓取,是從一個入口開始抓取的時候,就會獲取這個網(wǎng)頁上的所有導出鏈接,因此當Spider隨機抓取其中的一個鏈接的時候,同樣又會收集到很多新的鏈接。此時Spider面臨一個抓取方式的選擇。1、沿著一條鏈接一層一層的抓取下去,直到這個鏈接的盡頭,然后返回按照這樣的辦法繼續(xù)抓取另一個鏈接。這就叫深度優(yōu)化抓取。2、先把入口處的鏈接全部抓取一遍,把新發(fā)現(xiàn)的URL一次入庫排列,對同一層級的頁面進行一次橫向抓取,然后再進入下一層,這叫做廣度優(yōu)先抓取。深度抓取和廣度抓取理論上,Spider不管采用深度還是廣度優(yōu)先策略,只要時間足夠,都可以把互聯(lián)網(wǎng)上的內(nèi)容統(tǒng)統(tǒng)抓取一遍,但是很不幸,搜索引擎的Spider時間也非常寶貴,單一方法的抓取時很奢侈的,所以一般搜索引擎都是采用兩種方式相結(jié)合的方式進行的。這就涉及到一個有限選擇的問題。一般情況下,

Spider可以在域名級別的網(wǎng)頁使用廣度的優(yōu)先抓取策略,這樣可以盡可能抓取更多的網(wǎng)站。在網(wǎng)站內(nèi)部頁面級別一般會根據(jù)網(wǎng)站權(quán)重綜合使用廣度和深度優(yōu)先抓取,也就是說網(wǎng)站權(quán)重,直接影響到抓取量的大小。剛上線的網(wǎng)站一般被抓去只有一個首頁。從抓取的特點上可以看出,對于重要網(wǎng)站優(yōu)先抓取,重要的網(wǎng)站和網(wǎng)站內(nèi)的重要頁面是優(yōu)先抓取的。大站鏈接也是優(yōu)先抓取的。重要頁面和大站的優(yōu)先抓取詳解1、如何界定頁面的重要性,除了受到自己的主站質(zhì)量和權(quán)重之外,就要看看導入鏈接的數(shù)量和質(zhì)量了。如果界定為重要頁面,一般的抓取策略就會隨之改變,等待抓取的排序依據(jù)就會是:頁面獲得已抓取頁面鏈接的多少和鏈接權(quán)重的高低??倸w就是數(shù)量和質(zhì)量。2、大站一般是有穩(wěn)定服務(wù)器,良好網(wǎng)站結(jié)構(gòu),優(yōu)秀的用戶體驗,及時的咨詢內(nèi)容,權(quán)威的相關(guān)資料,豐富的內(nèi)容類別和龐大的網(wǎng)頁數(shù)量等特征。一般這樣站點信息會被搜索引擎重點關(guān)注和抓取收錄。Spider的抓取認識Spider不會爬,不是根據(jù)鏈接爬到另一個網(wǎng)頁來進行抓取的。他是首先抓取一個網(wǎng)頁,提取出來所有URL,同時記錄和計算URL形式,他的位置,錨文本,當前頁面的所賦予的權(quán)重等信息,然后將這些地址合并抓取到列表中,并且根據(jù)每個URL的值來進行抓取排序,spider就是不斷根據(jù)這個url排序的變化來抓取內(nèi)容頁面的。Spider的訪問時單次訪問,每次訪問一個頁面就會把頁面信息抓取回來,不是說一個小蜘蛛,到網(wǎng)站沿著鏈接爬行大量頁面之后再返回。Spider的再次抓取更新策略Spider抓取一次網(wǎng)頁,被分析索引并且參與排名后,并不是就不會被重新訪問了,因為搜索引擎抓取的信息存儲在自己的服務(wù)器上,就需要和所訪問的網(wǎng)站保持信息的更新同步,因此Spider會根據(jù)一定策略對已抓取網(wǎng)頁進行再次訪問。因為資源有限,Spider只會有針對性的訪問網(wǎng)站。一般來說:用戶體驗,歷史更新頻率,網(wǎng)頁類型和網(wǎng)頁權(quán)重,直接影響了再次訪問抓取的頻率。1、何為用戶體驗因為用戶一般瀏覽自己搜索內(nèi)容的前三頁結(jié)果,第四頁以后都會很少瀏覽,所以搜素引擎會收集所有用戶的搜索請求,統(tǒng)計所有搜索結(jié)果中,用戶可能看到的網(wǎng)頁,進行再次的優(yōu)先抓取和更新。理論上網(wǎng)頁被搜索的次數(shù)越多,再次被抓取的頻率就會越高。歷史更新頻率網(wǎng)站頁面的主體內(nèi)容部分穩(wěn)定的更新頻率,也會帶來搜索的穩(wěn)定關(guān)注。但是更新的區(qū)域主要是內(nèi)容區(qū)域,不是周圍的廣告和導航和推薦模塊。網(wǎng)頁類型一個網(wǎng)站有不同的網(wǎng)頁類型,有著不同的更新頻率,Spider的關(guān)注和抓取的頻率也會有所不同。同一個站點內(nèi):分為:首頁、欄目頁、專題頁和內(nèi)容頁,一般情況下,首頁和欄目頁都是Spider經(jīng)常關(guān)顧的頁面。根據(jù)專題頁面的時效性和特點,Spider可能會在一段時間內(nèi)進行頻繁抓取,時效性過后就會降低頻率,內(nèi)容頁可能在第一次抓取之后就基本不會再來網(wǎng)頁權(quán)重值除了上述的因素,網(wǎng)頁權(quán)重也會影響到網(wǎng)頁的再次抓取的頻率。因此在SEO工作中,有時候為了提高某一網(wǎng)站的抓取頻率,一般會重點為該頁面的鏈接提高權(quán)重,加大該網(wǎng)頁的更新頻率。在用戶體驗方面我們可以用標題和描述吸引點擊,不僅可以提升排名,也可以間接增加頁面被Spider抓取的頻率。Spider的優(yōu)缺點1,Spider不能很好的讀取JS、Ajax和flash中的內(nèi)容。2,Spider是直接訪問網(wǎng)站的。3,Spider不會主動注冊登錄,不會分析和抓取robots中已經(jīng)屏蔽的內(nèi)容。4,Spider對于多個動態(tài)參數(shù)的網(wǎng)站抓取,可能會陷入死循環(huán)。5,Spider對于列表中前幾頁的新內(nèi)容抓取可能不好。6,Spider暫時還不能判斷文章是不是原創(chuàng)的。搜索引擎的內(nèi)容處理、中文分詞和索引內(nèi)容處理1,判斷頁面類型,是普通網(wǎng)頁還是各種格式的文件。2,提取網(wǎng)頁的文本信息。搜索引擎對于網(wǎng)頁的索引還是以文本為主,還會提取下網(wǎng)頁的Title、Kewords、Description.3,去除頁面噪音,去除廣告、導航、鏈接、圖片、登陸框、網(wǎng)站版權(quán)信息等內(nèi)容。只提取該網(wǎng)頁的主體內(nèi)容。甚至與頁面不相干的鏈接文本也會被保留索引。4、去除內(nèi)容中的停止詞,對正文內(nèi)容的處理,搜索引擎去除諸如:得、的、啊、地、呀、卻之類的停止詞。經(jīng)過這些處理之后,抓取的內(nèi)容就比較干凈了,這樣搜索引擎就會對有價值的內(nèi)容進行排序了。中文分詞分詞是中文才有的技術(shù),因為中文單一的字是沒辦法表達一個完整的意思的。計算機沒辦法詞把中文分為單個字來理解,所以需要引入分詞技術(shù)。例如:我是一個學生,就會被切分為:我|是|一個|學生。1,基于詞典匹配2,基于統(tǒng)計索引搜索引擎使用的是倒排索引,就是以關(guān)鍵詞為核心,進行內(nèi)容匹配。倒排索引中不僅僅記錄了相應關(guān)鍵詞文件的ID,還會記錄關(guān)鍵詞頻率,每個關(guān)鍵詞對應的文件頻率,以及關(guān)鍵詞出現(xiàn)在文件中的位置等信息。這些信息會在排名過程中分別進行加權(quán)處理,應用到最終的排名中去。網(wǎng)頁去重原理去重就是搜索引擎對于不同站點上的大量的重復信息進行去除,屏蔽處理。搜索引擎一般會對已經(jīng)抓取的重復頁面進行歸類處理。比如:判斷某個網(wǎng)站是否包含大量的重復頁面,判斷是否為完全采集站點,如果判定會予以處罰處理。用戶搜索需求分析搜索詞分析用戶提交搜索請求之后,搜索引擎會判斷搜索詞的類型:普通文本搜索、普通文本帶有高級指令搜索還是純粹的高級指令搜索。純粹高級指令搜索:例如:site:,inurl:和intitle:site:,inurl:要求搜索引擎之匹配網(wǎng)頁地址Intitle:要求只匹配網(wǎng)頁title。如果是純文本搜索,搜索引擎先對搜索詞進行分詞,確定搜索意圖,然后進行內(nèi)容匹配。搜索詞分析其實就用來明確搜索意圖的。搜索意圖分析搜索意圖分析是為了明確用戶的目的,為精準匹配相關(guān)信息提供核心依據(jù)。但是當用戶搜索一些比較寬泛的關(guān)鍵詞時候就需要分析用戶的搜索意圖,來進行需求判斷,例如搜索范冰冰嗎,就會使用整合搜索,提供關(guān)于范冰冰的所有新,只是根據(jù)歷史統(tǒng)計中的用戶關(guān)注重點比例,來進行相應的排名調(diào)整如果搜索的是通用詞匯時候,例如搜索KFC,在南京和北京,就會分別顯示的是當?shù)匦畔橹?。因為會判斷大致的IP所處地址。如果用戶反復搜索一個寬泛的關(guān)鍵詞,搜索引擎會使用cookie記錄的信息,優(yōu)先顯示用戶頻繁點擊的頁面。如果對于同一關(guān)鍵詞搜索出來結(jié)果的同一網(wǎng)頁,搜索點擊人數(shù)比例過大,也會影響到常規(guī)網(wǎng)頁的排序,因此網(wǎng)頁點擊量,會影響排名。搜索引擎對搜索詞,用戶屬性,歷史記錄分析確定用戶需求,從索引庫中檢索與搜索詞最相關(guān)最重要的頁面,進行排序后,再引入用戶搜索意圖對排序結(jié)果進行調(diào)整。相關(guān)性計算相關(guān)性指的是:內(nèi)容和關(guān)鍵詞的相關(guān)程度。現(xiàn)在的搜索引擎其實沒有真正解決相關(guān)性計算的問題,只有通過關(guān)鍵詞分詞匹配,關(guān)鍵詞在內(nèi)容中的頻率密度,關(guān)鍵詞字體位置和頁面外鏈等外表特征來進行內(nèi)容相關(guān)度計算。因為搜索引擎還沒辦法真正理解搜索詞和文章所表達的含義。為了更加精確,搜索引擎判斷相關(guān)性關(guān)鍵詞匹配和語義分析雙結(jié)合進行判斷。關(guān)鍵詞匹配搜索引擎對搜索詞在索引庫中的檢索過程如下:1,采用分詞,把用戶提交的搜索詞分為詞1和詞22,同時使用1、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論