![seo搜索引擎工作原理簡介ppt_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/16/244ced62-6e95-4bb4-b7ff-b0cee5d3451e/244ced62-6e95-4bb4-b7ff-b0cee5d3451e1.gif)
![seo搜索引擎工作原理簡介ppt_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/16/244ced62-6e95-4bb4-b7ff-b0cee5d3451e/244ced62-6e95-4bb4-b7ff-b0cee5d3451e2.gif)
![seo搜索引擎工作原理簡介ppt_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/16/244ced62-6e95-4bb4-b7ff-b0cee5d3451e/244ced62-6e95-4bb4-b7ff-b0cee5d3451e3.gif)
![seo搜索引擎工作原理簡介ppt_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/16/244ced62-6e95-4bb4-b7ff-b0cee5d3451e/244ced62-6e95-4bb4-b7ff-b0cee5d3451e4.gif)
![seo搜索引擎工作原理簡介ppt_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/16/244ced62-6e95-4bb4-b7ff-b0cee5d3451e/244ced62-6e95-4bb4-b7ff-b0cee5d3451e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第三節(jié):搜索引擎工作原理簡介搜索引擎工作過程n 搜索引擎的工作過程大體上可以分為三個(gè)階段:搜索引擎的工作過程大體上可以分為三個(gè)階段: 一:爬行和抓取一:爬行和抓取-搜索引擎蜘蛛通過跟蹤鏈接訪問網(wǎng)頁,獲得頁面HTML代碼存入數(shù)據(jù)庫。 二:預(yù)處理二:預(yù)處理-索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取,中文分詞,索引等處理,以備排名程序調(diào)用。 三:排名三:排名-用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。第一步:爬行和抓取n 爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集的任務(wù)。爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集的任務(wù)。n 1、蜘蛛、蜘蛛 定義:搜索
2、引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也稱為機(jī)器人(bot)。 爬行方式:多個(gè)蜘蛛并發(fā)分布爬行。 爬行抓取規(guī)則:蜘蛛訪問任何一個(gè)網(wǎng)站時(shí),都會先訪問網(wǎng)站根目錄下的robots.txt。 蜘蛛身份:每一個(gè)搜索引擎的蜘蛛名稱也不同,如下: Baiduspider+ 百度蜘蛛 Sogou+web+robot+ 搜狗蜘蛛 Sosospider+ 搜搜蜘蛛第一步:爬行和抓取n 2、跟蹤鏈接、跟蹤鏈接 整個(gè)互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成的,蜘蛛抓取頁面的唯一途徑是通過跟蹤互聯(lián)網(wǎng)上的鏈接進(jìn)行。 爬行策略-1、深度優(yōu)先;2、廣度優(yōu)先 爬行和抓取n 3、吸引蜘蛛、吸引蜘蛛 問:為何要吸引蜘蛛
3、? 答:單從理論上來說蜘蛛可以爬行和抓取互聯(lián)網(wǎng)上所有頁面,但是實(shí)際上不能,也不會這么做,在這種前提下,蜘蛛所要做的就是盡量抓取重要頁面。 所以,我們SEO人員要想讓自己的更多頁面被收錄,就要想方設(shè)法吸引蜘蛛來抓取。n 被搜索引擎認(rèn)為符合重要頁面的幾個(gè)因素: 1、網(wǎng)站和頁面權(quán)重 2、頁面更新度 3、導(dǎo)入鏈接 4、與首頁點(diǎn)擊距離第一步:爬行和抓取n 4、地址庫、地址庫 為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會建立一個(gè)地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面。 地址庫中URL的來源: 1、人工錄入的種子網(wǎng)站 2、蜘蛛抓取后從HTML中解析出新的鏈接URL,與地址庫中的數(shù)據(jù)進(jìn)行對比,
4、如果是地址庫中沒有的網(wǎng)址,就存入待訪問地址庫。 3、站長通過搜索引擎網(wǎng)站提交入口提交進(jìn)來的網(wǎng)址。 蜘蛛會按照重要性從待訪問地址庫中提取URL,訪問并抓取頁面,然后把這個(gè)URL從待訪問地址庫中刪除,放進(jìn)已訪問地址庫中。 備注備注:搜索引擎所收錄的大部分頁面是蜘蛛自己根據(jù)跟蹤鏈接得到的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁面。第一步:爬行和抓取n 5、文件存儲、文件存儲 搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)域用戶瀏覽器得到的HTML是完全一樣的,每個(gè)URL都有一個(gè)獨(dú)特的文件編號。n 6、爬行時(shí)的復(fù)制內(nèi)容檢測、爬行時(shí)的復(fù)制內(nèi)容檢測 通常刪除復(fù)制內(nèi)容是在預(yù)處理步驟中執(zhí)行的,但是現(xiàn)在蜘
5、蛛在爬行和抓取文件時(shí),也會進(jìn)行一定程度的復(fù)制內(nèi)容檢測,遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時(shí),很可能不再繼續(xù)爬行。 實(shí)踐情況:有的站長在自己網(wǎng)站日志中發(fā)現(xiàn)了蜘蛛,但是頁面從來沒有被真正的收錄過的原因。第二步:預(yù)處理n 在一些SEO材料中,“預(yù)處理”也被簡稱為“索引”,因?yàn)樗饕穷A(yù)處理最主要的步驟。n 搜索引擎預(yù)處理工作內(nèi)容:搜索引擎預(yù)處理工作內(nèi)容: 1、提取文字除去HTML代碼后,剩下的用于排名的文字只是這一行:新浪首頁備注:備注:除了可見文字,搜索引擎也會提取出一些特殊的包含文字信息的代碼,如:META標(biāo)簽中的文字,圖片替代文字,F(xiàn)lash文件中的替代文字,鏈接錨文字等。第二步:預(yù)處理n
6、2、中文分詞、中文分詞-分詞是中文搜索引擎特有的步驟 分詞意義:分詞意義:搜索引擎存儲和處理頁面及用戶搜索都是以詞為基礎(chǔ)的。 分詞如:“減肥方法”將被分詞為“減肥”和“方法”兩個(gè)詞 中文分詞方法基本上有兩種:中文分詞方法基本上有兩種: 1、基于詞典匹配-將待分析的一段漢字與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個(gè)單詞。 2、基于統(tǒng)計(jì)-指的是分析大量文字樣本,計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率,幾個(gè)字相鄰出現(xiàn)越多,就越可能形成一個(gè)單詞。 第二步:預(yù)處理n 3、去停止詞、去停止詞 停止詞停止詞-無論是英文還是中文,頁面內(nèi)容中都會出現(xiàn)頻率很高
7、,卻對內(nèi)容沒有任何影響的詞,如“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞,“從而”、“以”、“卻”之類的副詞或介詞,這些詞被稱為停止詞。 因?yàn)檫@些停止詞對頁面的主要意思沒什么影響,所以搜索引擎索引頁面之前會去掉停止詞,使索引數(shù)據(jù)主題更為突出,減少無謂的計(jì)算量。第二步:預(yù)處理n 4、消除噪聲、消除噪聲 定義定義:除了停止詞以外,對頁面主題沒有什么貢獻(xiàn)的因素被稱為頁面噪聲。 比如比如:博客頁面的“文章分類”、“歷史存檔”等。 消噪的基本方法:消噪的基本方法: 根據(jù)HTML標(biāo)簽對頁面分塊,區(qū)分出頁頭,導(dǎo)航,正文,頁腳,關(guān)高等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊旺旺屬于噪聲。對頁
8、面進(jìn)行消噪后,剩下的才是頁面主題內(nèi)容。 第二步:預(yù)處理n 5、去重、去重 搜索引擎在進(jìn)行索引前還需要識別和刪除重復(fù)內(nèi)容,這個(gè)過程就稱為“去重” 去重的意義-提升用戶體驗(yàn)(搜索引擎不喜歡重復(fù)性內(nèi)容) 去重方法: “去重”的基本方法是對頁面特征關(guān)鍵詞計(jì)算指紋,也就是說從頁面主題內(nèi)容中選取最有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率最高的關(guān)鍵詞),然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。 百度2013年針對原創(chuàng)內(nèi)容的判定和保護(hù)-“星火計(jì)劃” 拓展閱讀:http:/ 6、正向索引、正向索引 正向索引也可以簡稱為索引 搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵詞形成詞表結(jié)構(gòu)存儲進(jìn)索引庫。 簡化的索引詞表形式如下圖: 文件文件ID內(nèi)
9、容內(nèi)容文件1關(guān)鍵詞1、關(guān)鍵詞2、關(guān)鍵詞7、關(guān)鍵詞10、文件2關(guān)鍵詞1、關(guān)鍵詞7、關(guān)鍵詞30、文件3關(guān)鍵詞2、關(guān)鍵詞70、關(guān)鍵詞305,、文件4關(guān)鍵詞2、關(guān)鍵詞7、關(guān)鍵詞10,、文件N關(guān)鍵詞7,關(guān)鍵詞50,關(guān)鍵詞90,、第二步:預(yù)處理n 7、倒排索引、倒排索引 正向索引還不能用于排名,最終用于排名的是倒排索引。所以搜索引擎會將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引,把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞的文件的映射,如下圖: 關(guān)鍵詞關(guān)鍵詞文文 件件關(guān)鍵詞1文件1、文件2、文件15、文件58,、關(guān)鍵詞2文件1,文件3,文件6,文件m、關(guān)鍵詞3文件5,文件700,文件805,、關(guān)鍵詞4文件1,文件2,文件6
10、,,、文件N文件80,文件90,文件100,、第二步:預(yù)處理n 8、鏈接關(guān)系計(jì)算、鏈接關(guān)系計(jì)算 鏈接關(guān)系計(jì)算也是預(yù)處理中很重要的一部分。 搜索引擎在抓取頁面內(nèi)容后,必須事前計(jì)算出: 頁面上有哪些鏈接指向哪些其他頁面 每個(gè)頁面有哪些導(dǎo)入鏈接 鏈接使用了什么錨文字 這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重。第二步:預(yù)處理n 9、特殊文件處理、特殊文件處理 搜索引擎除了可以抓取HTML文件外,通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如:PDF、WORDS、WPS、PPT、TXT等文件。 目前搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。第三步:排名n 一
11、:搜索詞處理一:搜索詞處理 1、中文分詞 2、去停止詞 3、指令處理(搜索引擎的默認(rèn)處理方式是在關(guān)鍵詞之間使用“與”邏輯) 如:用戶搜索“減肥方法”,程序分詞為“減肥”和“方法”兩個(gè)詞,搜索引擎排序時(shí)默認(rèn)為,用戶尋找的是既包含“減肥”,也包含“方法”的頁面。 只包含“減肥”不包含“方法”的頁面或者只包含“方法”不包含“減肥”的頁面被認(rèn)為是不符合搜索條件的。 實(shí)際上我們還是會看到只包含一部分關(guān)鍵詞的搜索結(jié)果。第三步:排名4、拼寫錯誤矯正 第三步:排名5、整合搜索觸發(fā) 第三步:排名n 二:文件匹配二:文件匹配 關(guān)鍵詞關(guān)鍵詞文文 件件關(guān)鍵詞1文件1、文件2、文件15、文件、關(guān)鍵詞2文件1、文件3、文件6、文件、關(guān)鍵詞3文件5、文件40、文件700、文件、關(guān)鍵詞4文件1、文件2、文件6、文件、關(guān)鍵詞X文件20、文件50、文件800、文件、第三步:排名n 三:初始子集選擇三:初始子集選擇第三步:排名n 四:相關(guān)性計(jì)算四:相關(guān)性計(jì)算 相關(guān)性計(jì)算是排名過程中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年特種功能焊接材料合作協(xié)議書
- 2025年P(guān)P改性新材料合作協(xié)議書
- 2025年玻璃纖維仿形織物合作協(xié)議書
- 2025年水質(zhì)監(jiān)測系統(tǒng)合作協(xié)議書
- 八年級英語下冊 Unit 3 單元綜合測試卷(人教版 2025年春)
- 2024-2025學(xué)年河北省石家莊市高新區(qū)四年級(上)期末數(shù)學(xué)試卷
- 三年級作文詩歌:乒乓球賽
- 2025年個(gè)體工商戶雇傭合同(2篇)
- 2025年人才培訓(xùn)勞動合同樣本(2篇)
- 2025年中學(xué)高三年級下學(xué)期班級工作總結(jié)(三篇)
- 2025年初級社會工作者綜合能力全國考試題庫(含答案)
- 小型餐飲店退股協(xié)議書
- 第九講 全面依法治國PPT習(xí)概論2023優(yōu)化版教學(xué)課件
- 兩淮礦區(qū)地面定向多分支水平井鉆進(jìn)作業(yè)技術(shù)規(guī)程
- vc約起來史上最全180個(gè)知名投資人聯(lián)系方式
- 中國酒文化英文介紹
- 社會穩(wěn)定風(fēng)險(xiǎn)評估報(bào)告風(fēng)險(xiǎn)評估參考
- GB/T 14343-2008化學(xué)纖維長絲線密度試驗(yàn)方法
- 制冷操作證培訓(xùn)教材-制冷與空調(diào)設(shè)備運(yùn)行操作作業(yè)培課件
- 市級臨床重點(diǎn)專科申報(bào)書
- 中交與機(jī)械竣工區(qū)別
評論
0/150
提交評論