SEO實戰(zhàn)密碼第二講了解搜索引擎_第1頁
SEO實戰(zhàn)密碼第二講了解搜索引擎_第2頁
SEO實戰(zhàn)密碼第二講了解搜索引擎_第3頁
SEO實戰(zhàn)密碼第二講了解搜索引擎_第4頁
SEO實戰(zhàn)密碼第二講了解搜索引擎_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二講了解搜索引擎了解搜索引擎1搜索頁面結(jié)果google、百度、搜搜雅虎、新浪、搜狐InfoSpace、Dogpile、搜星google學術(shù)、百度音樂、搜酷視頻等等1搜索頁面結(jié)果自然搜索結(jié)果廣告1

.1經(jīng)典搜索結(jié)果列表目錄說明鏈接、時間、快照1

.2整合搜索結(jié)果涵蓋了垂直搜索結(jié)果1.3縮進列表1.4全站鏈接1.5迷你全站鏈接1.6One-box1.7富摘要

2工作原理簡介2.1爬行和抓取蜘蛛通過跟蹤鏈接訪問網(wǎng)頁,獲得HTML代碼存入數(shù)據(jù)庫,完成數(shù)據(jù)收集的任務蜘蛛?yún)f(xié)議:robots.txt,是否允許搜索引擎抓取文件或目錄1.Google爬蟲名稱

1)Googlebot:網(wǎng)站索引和新聞索引中抓取網(wǎng)頁

2)Googlebot-Mobile:移動索引抓取網(wǎng)頁

3)Googlebot-Image:圖片索引抓取網(wǎng)頁

4)Mediapartners-Google:抓取AdSense,在AdSense廣告情況下,Google才會使用此漫游器來抓取您的網(wǎng)站。

5)Adsbot-Google:抓取AdWords目標網(wǎng)頁的質(zhì)量,在GoogleAdWords為你的網(wǎng)站做廣告的情況下,Google才會使用此漫游器。

2.百度(Baidu)爬蟲:Baiduspider3.雅虎(Yahoo)爬蟲:YahooSlurp4.有道(Yodao)蜘蛛:YodaoBot5.搜狗(sogou)蜘蛛:sogouspider6.MSN蜘蛛名稱:Msnbot跟蹤鏈接深度優(yōu)先和廣度優(yōu)先混合使用吸引蜘蛛地址庫建立地址庫:為了防止重復爬行和抓取網(wǎng)址,會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面,以及已經(jīng)被抓取的頁面文件存儲和內(nèi)容檢測文件存儲:搜索引擎抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫,每個Url有個唯一的文件編號復制內(nèi)容檢測:權(quán)重低的網(wǎng)頁是否存在大量抄襲內(nèi)容,如果有就可能不再抓取內(nèi)容。2.2預處理預處理:索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用中文分詞中文分詞方法基于詞典匹配:正向匹配和逆向匹配;最大匹配和最小匹配;正向最大匹配和逆向最大匹配基于統(tǒng)計:分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率。該方法反響快速,有利于消除歧義。搜索引擎頁面分詞取決于詞庫的規(guī)模、準確性和分詞算法、而非取決于頁面中文分詞去停止詞:除去“的、得、地”等詞消除噪音:通過區(qū)分頁頭、導航、正文、頁腳、廣告等,排除與頁面內(nèi)容不相關(guān)的信息去重:識別和刪除具有相同內(nèi)容頁面中權(quán)重較低的頁面。特殊文件處理:PDF、Word、WPS、TXT、PPT等,圖片、視頻等的處理?正向索引記錄每個關(guān)鍵詞在頁面出現(xiàn)的頻率、次數(shù)、格式、位置等倒排索引2.3排名用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引數(shù)據(jù)庫,計算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。搜索詞處理中文分詞去停止詞指令處理:多個關(guān)鍵詞時,默認的處理方法是在關(guān)鍵詞之間使用“與邏輯”拼寫錯誤矯正文件匹配初始子集的選擇搜索結(jié)果并非完全包括所有頁面信息相關(guān)性計算對初始子集中頁面計算關(guān)鍵詞相關(guān)性,影響因素包含:關(guān)鍵詞常用程度:戴爾電腦,我們冥王星詞頻及密度:通常認為搜索詞在頁面出現(xiàn)的次數(shù)越多,密度越高關(guān)鍵詞位置及形式:標簽、標題、正文、黑體等關(guān)鍵詞距離:搜索關(guān)鍵詞中分詞間在頁面中出現(xiàn)的距離鏈接分析及頁面權(quán)重:錨文字、外部鏈接等排名過濾及調(diào)整在排名大體確定后,進行一些過濾算法,如百度11位、google的負6對有作弊嫌疑的網(wǎng)頁加以懲罰,往后調(diào)整。排名顯示搜索緩存2/8定律,長尾理論,為了節(jié)約資源,搜索引擎會把最常見的搜索詞存入緩存,便于用戶搜索時直接搜索,縮短時間。查詢及點擊日志搜索用戶地址、搜索關(guān)鍵詞、搜索時間、點擊頁面等信息3鏈接原理李彥宏超鏈分析專利HITS算法TrustRank算法GooglePRHilltop算法李彥宏超鏈分析專利1997“超鏈文件檢索系統(tǒng)方法”專利申請鏈接詞庫:鏈接錨文字,及其鏈接指向:///netacgi/nph-Parser?patentnumber=5,920,859一個用于檢索查詢相關(guān)的文件與索引文件的超鏈接指向那些按照文件的搜索引擎。

遍歷的索引數(shù)據(jù)庫,發(fā)現(xiàn)超文本信息,包括文檔的超鏈接指向的地址和每個超鏈接的錨文本。

該信息存儲在一個倒排索引文件,它也可用于計算各指向一個特定的文檔的超鏈接文件鏈接載體。

當輸入一個查詢,搜索引擎發(fā)現(xiàn)因在其錨文本的查詢字詞的文件所有文件載體。

也是一個查詢向量計算,點查詢的載體,每個文件鏈接向量積的計算方法。

產(chǎn)品的點與特定文件的總結(jié),以確定每個文件的相關(guān)性排名。李彥宏超鏈分析專利建立一個鏈接詞庫,記錄鏈接錨文字的一些相關(guān)信息,如錨文字中包含哪些關(guān)鍵詞,發(fā)出鏈接的頁面索引,包含特定錨文字的鏈接總數(shù),包含特定關(guān)鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關(guān)鍵詞原型,也包含同一個詞干的其他衍生關(guān)鍵詞。根據(jù)這些鏈接數(shù)據(jù),尤其是錨文字,計算出基于鏈接的文件相關(guān)性。在用戶搜索時,將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用,得到更準確的排名。李彥宏超鏈分析專利要判斷哪個頁面最具權(quán)威性,不能光看頁面自己怎么說,還要看其它頁面怎么評價。當一個關(guān)鍵詞被搜索的時候,含有以關(guān)鍵詞為鏈接文字的反向鏈接數(shù)目最多的那個文件或網(wǎng)頁,將被作為最相關(guān)的結(jié)果排在前面HITS算法1997,JonKleinber,Hyperlink-InducedTopicSearch,“超鏈誘導主題搜索”:///netacgi/nph-Parser?patentnumber=6,112,202HITS算法會提煉出兩種比較重要的頁面,也就是樞紐頁面和權(quán)威頁面。樞紐頁面本身可能沒有多少導入鏈接,但是有很多導出鏈接指向權(quán)威頁面。典型的樞紐頁面就是如雅虎目錄、開放目錄或好123這樣的網(wǎng)站目錄。這種高質(zhì)量的網(wǎng)站目錄作用就在于指向其他權(quán)威網(wǎng)站,所以稱為樞紐。權(quán)威頁面通常是提供真正相關(guān)內(nèi)容的頁面。權(quán)威頁面本身可能導出鏈接不多,但是有很多來自樞紐頁面的導入鏈接。而權(quán)威頁面有很多導入鏈接,其中包含很多來自樞紐頁面的鏈接。HITS算法樞紐值〔HubScores〕、權(quán)威值〔AuthorityScores〕樞紐值:頁面上所有導出鏈接指向頁面的權(quán)威值之和。權(quán)威值:所有導入鏈接所在頁面的樞紐值之和。缺點:查詢時間長TrustRank算法2004,斯坦福大學和雅虎聯(lián)合研究,2006年專利根本假設:好的網(wǎng)站很少會鏈接到壞的網(wǎng)站如果能挑選出可以百分百信任的網(wǎng)站,這些網(wǎng)站的TrustRank評為最高,這些trustRank最高的網(wǎng)站所連接的網(wǎng)站信任指數(shù)稍微降低,但也會很高。與此類似,第二層別信任的網(wǎng)站鏈接出去的第三層網(wǎng)站,信任度繼續(xù)下降。離第一層網(wǎng)站點擊距離越近,信任指數(shù)越高,反之亦反。挑選種子網(wǎng)站,設定TrustRank值,挑選種子網(wǎng)站有兩種方式:一種是選擇導出鏈接最多的網(wǎng)站;另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站。兩種計算TrustRank隨鏈接關(guān)系減少的公式:一是隨鏈接次數(shù)衰減;二是設置一個最低TrustRank值門檻。TrustRank算法影響網(wǎng)站TrustRank的因數(shù)1.域名注冊時間在五年或五年以上;2.網(wǎng)站托管在專用效勞器上;3.網(wǎng)站加載時間快;4.網(wǎng)站內(nèi)容是原創(chuàng)的;5.訪客在每個網(wǎng)頁的停留時間超過90秒;6.網(wǎng)站被多個國際IP段引用;7.網(wǎng)站在其所屬行業(yè)中擁有權(quán)威性GooglePRPageRank,網(wǎng)頁排名,又稱網(wǎng)頁級別,Google的創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學創(chuàng)造了這項技術(shù)。反向鏈接越多的頁面就越重要。PageRank通過網(wǎng)絡浩瀚的超鏈接關(guān)系來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源〔甚至來源的來源,即鏈接到A頁面的頁面〕和投票目標的等級來決定新的等級。簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。GooglePR根本思想:如果網(wǎng)頁T存在一個指向網(wǎng)頁A的連接,那么說明T的所有者認為A比較重要,從而把T的一局部重要性得分賦予A。這個重要性得分值為:PR〔T〕/C(T)其中PR〔T〕為T的PageRank值,C(T)為T的出鏈數(shù),那么A的PageRank值為一系列類似于T的頁面重要性得分值的累加。PR〔A〕=〔1-d〕+d〔PR〔t1〕/C〔t1〕+…+PR〔tn〕/C〔tn〕〕A代表頁面APR〔A〕那么代表頁面A的PR值d為阻尼指數(shù)。通常認為d=0.85t1…tn代表鏈接向頁面A的頁面t1到tnC代表頁面上的到外鏈接數(shù)目。C〔t1〕即為頁面t1上的到外鏈接數(shù)目優(yōu)點:是一個與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。缺乏:人們的查詢具有主題特征,PageRank忽略了主題相關(guān)性,導致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很嚴重的對新網(wǎng)頁的歧視。GooglePRPR意義和重要性網(wǎng)站收錄深度和總頁面數(shù):蜘蛛爬行深度和廣度的重要因素之一更新頻率:蜘蛛訪問和更新的頻繁程度重復內(nèi)容判定排名初始子集的選擇GooglePR影響GooglePR值的因素Hilltop算法可以簡單理解為與主題相關(guān)的PR值。HillTop算法集PageRank,HITs、相關(guān)性算法大成于一身,由康柏系統(tǒng)研究中心的KrishnaBharat和多倫多大學的GeorgeA.Mihaila在2001年提出并申請了專利,后授權(quán)于Google,2003年12月Google算法更新,其成為Google核心排名算法之一。傳統(tǒng)PR值與特定關(guān)鍵詞或主題沒有關(guān)聯(lián),只計算鏈接關(guān)系。這就有可能出現(xiàn)某種漏洞。如大學網(wǎng)站上出現(xiàn)售貨信息。Hilltop算法就嘗試矯正這種可能出現(xiàn)的疏漏。Hilltop算法同樣是計算鏈接關(guān)系,不過它更關(guān)注來自主題相關(guān)頁面的鏈接權(quán)重。在Hilltop算法中把這種主題相關(guān)頁面稱為專家文件。Hilltop算法主要包括兩個步驟:專家頁面搜索和目標頁面排序。用戶搜索關(guān)鍵詞后,Google先按正常排名算法找到一系列相關(guān)頁面并排名,然后計算這些頁面有多少來自專家文件的、與主題相關(guān)的鏈接,來自專家文件的鏈接越多,頁面的排名分值越高。優(yōu)點:相關(guān)性強,結(jié)果準確。缺乏:專家頁面的搜索和確定對算法起關(guān)鍵作用,專家頁面的質(zhì)量決定了算法的準確性,而專家頁面的質(zhì)量和公平性難以保證;忽略了大量非專家頁面的影響,不能反響整個Internet的民意;當沒有足夠的專家頁面存在時,返回空,所以Hilltop適合對于查詢排序進行求精。Hilltop算法提示SEOer,建設外部鏈接時更應該關(guān)注主題相關(guān)的網(wǎng)站Hilltop算法HillTop算法的指導思想和PageRank的是一致的,都是通過網(wǎng)頁被鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重。與PageRank的不同之處:僅考慮專家頁面的鏈接。HillTop認為只計算來自具有相同主題的相關(guān)文檔鏈接對于搜索者的價值會更大:即主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計算的奉獻比主題不相關(guān)的鏈接價值要更高。如果網(wǎng)站是介紹“服裝”的,有10個鏈接都是從“服裝”相關(guān)的網(wǎng)站鏈接過來,那這10個鏈接比另外10個從“電器”相關(guān)網(wǎng)站鏈接過來的奉獻要大。英文搜索結(jié)果頁面中文搜索結(jié)果頁面4用戶瀏覽和點擊搜索結(jié)果整合搜索及個人化搜索用戶對搜索引擎返回的10個結(jié)果的瀏覽和點擊存在很大差異。研究方法:視線跟蹤〔eye-tracking〕,用特殊設備跟蹤用戶目光在結(jié)果頁面上的瀏覽及點擊數(shù)據(jù)。Enquiro中文頁面和英文頁面的差異4用戶瀏覽和點擊搜索結(jié)果英文搜索結(jié)果頁面%ofclick%time56.3628.4313.4525.089.8214.7248.74.736.023.274.010.353.012.913.881.468.012.652.34

英文搜索結(jié)果頁面冪律分布?Why?中文搜索結(jié)果頁面

中文搜索結(jié)果頁面中文用戶無論是在Google和百度上都花了更長時間找到想要的結(jié)果。語言差異?中文搜索比英文搜索結(jié)果準確度低?

整合搜索及個人化搜索整合搜索,圖片作用

整合搜索及個人化搜索個人化搜索:更關(guān)注熟悉的網(wǎng)站5高級搜索指令5.1雙引號5.2減號5.3星號5.4inurl5.5inanchor5.6intitle5.7allintitle5.8allinurl5.9filetype5.10site5.11link5.12linkdomain5.13related5.14總和使用高級搜索指令5.1雙引號完全匹配搜索5.2減號搜索不包含減號后面的詞5.3inurl命令用inurl搜索命令可以幫你搜索到在URL當中出現(xiàn)你搜索的關(guān)鍵詞,很有針對性。

使用格式:inurl:〔+你需要搜索的內(nèi)容〕5.4filetype命令在搜索引擎里面用filetype命令是可以幫助搜到相關(guān)的文檔

使用格式:filetype:+文件格式+搜索內(nèi)容

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論