深入探討PageRank(一):PageRank算法原理入門_第1頁
深入探討PageRank(一):PageRank算法原理入門_第2頁
深入探討PageRank(一):PageRank算法原理入門_第3頁
深入探討PageRank(一):PageRank算法原理入門_第4頁
深入探討PageRank(一):PageRank算法原理入門_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

深入探討PageRank(一):PageRank算法原理入門深入探討PageRank(一):PageRank算法原理入門一、PageRank簡介大名鼎鼎的PageRank算法是Google排名運算法則(排名公式)的一個非常重要的組成部分,其用于衡量一個網(wǎng)站好壞的標(biāo)準(zhǔn)。在揉合了諸如Title、Keywords標(biāo)識等所有其它因素之后,Google利用PageRank來調(diào)整網(wǎng)頁的排名,使得“等級/重要性”的網(wǎng)頁會相對排在前面。簡單來說,Google通過下述幾個步驟來實現(xiàn)網(wǎng)頁在其搜索結(jié)果頁面中排名:(1)找到所有與搜索關(guān)鍵詞匹配的網(wǎng)頁(2)根據(jù)頁面因素如標(biāo)題、關(guān)鍵詞密度等排列等級(3)計算導(dǎo)入鏈接的錨文本中關(guān)鍵詞(4)通過PageRank得分調(diào)整網(wǎng)站排名結(jié)果事實上,真正的網(wǎng)站的排名過程并非這么簡單,我們會在后面進行詳細(xì)深入闡述。PageRank于2001年9月被授予美國專利,專利人是Google創(chuàng)始人之一的拉里.佩奇(LarryPage)。所以,PageRank里面的Page并不是指網(wǎng)頁,而是指佩奇~PageRank對于網(wǎng)頁重要性的級別分為1~10級,10級為滿級。PR值越高說明該網(wǎng)頁越受歡迎,也即越重要。一個PR值為1的網(wǎng)站表明該網(wǎng)站不具備流行度,而PR值為7~10的網(wǎng)站則表明該網(wǎng)站是非常受歡迎的,或者說極其重要。一般PR值達(dá)到4,就算是一相當(dāng)不錯的網(wǎng)站了。Google把自己網(wǎng)站的PR值設(shè)置為10~類似里氏震級,PageRank級別并不是線性增長的,而是按照一種指數(shù)刻度,打個比方PageRank4比PageRank3雖然只是高了一級,但卻在影響力上高上6~7倍,因此,一個PageRank5的網(wǎng)頁和一個PageRank8的網(wǎng)頁之間差距會比你可能認(rèn)為的要大的多。在討論之前,先介紹兩個概念:導(dǎo)入鏈接,又稱逆向鏈接,是指鏈至你網(wǎng)站的站點,也就是我們一般所說的外部鏈接。而當(dāng)你鏈至另外一個站點,那么這個站點就是你的導(dǎo)出鏈接,即你向其他網(wǎng)站提供本站的鏈接。PageRank的思路很簡單,打個比方:如何判斷一篇論文的價值,即被其他論文引述的次數(shù)越多就越重要,如果被權(quán)威的論文引用,那么該論文也很重要。PageRank就是借鑒于這一思路,根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量來衡量這個網(wǎng)站的價值,相當(dāng)于每個到該頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這個就是所謂的鏈接流行度衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。搜索引擎網(wǎng)站排名算法中各排名因子的重要性取決于它們所提供信息的質(zhì)量。但如果排名因子具有易操縱性,則往往會被一些網(wǎng)站管理員利用來實現(xiàn)不良競爭。例如初引入的排名因子之一關(guān)鍵詞元標(biāo)識(MetaKeywords),是由于理論上它可以很好地概括反映一個頁面的內(nèi)容,但后來卻由于一些網(wǎng)站管理員的惡意操縱而不得不黯然退出。PageRank最初推出時針對的只是鏈接的數(shù)量,PageRank值較高的頁面排名往往要比PageRank值較低的頁面高,這導(dǎo)致了人們對于鏈接引用的著魔。在過去幾年間,整個SEO社區(qū)人們忙于爭奪、交換甚至銷售鏈接,它是人們關(guān)注的焦點,所以被一些網(wǎng)站管理員鉆了空子,利用鏈接工廠和訪問簿大量低劣外部鏈接輕而易舉地達(dá)到了自己的目的。Google意識到這個問題之后,便在系統(tǒng)中融合了對鏈接質(zhì)量分析,開始放棄某些類型的鏈接,并對發(fā)現(xiàn)作弊的站點進行封殺,從而不但有效地打擊了這種作法,而且保證了結(jié)果的和精準(zhǔn)度。比如,被人們廣泛接受的一條規(guī)定,來自缺乏內(nèi)容的“l(fā)inkfarm”(鏈接工廠)網(wǎng)站的鏈接將不會提供頁面的PageRank,從PageRank較高的頁面得到的鏈接但是內(nèi)容不相差,比如說某個流行音樂網(wǎng)站鏈接到一個汽車網(wǎng)站就不會提供頁面的PageRank。Google選擇降低了對PageRank的更新頻率,以便不鼓勵人們不斷地對其進行監(jiān)測。PageRank一般一年更新4次,所以剛上線不久的新網(wǎng)站是不可能獲得PR值的。你的網(wǎng)站很有可能在相當(dāng)長的時間內(nèi)是看不到PR值的變化的,特別是一些新的網(wǎng)站。PR值暫時沒有,這不是什么不好的事情,耐心等待就好~那么,我們?nèi)绾沃酪粋€網(wǎng)頁的PageRank值呢?可以從上下載安裝Google工具欄,這樣就能顯示所瀏覽網(wǎng)頁的PageRank值了。若不能顯示,可檢查所安裝版本號,需將老版本完全卸載,重啟機器后安裝最新版本即可為你的網(wǎng)站獲得外部的鏈接是一件好事,但是無視其他SEO領(lǐng)域的工作而進行急迫的鏈接建設(shè)就是在浪費時間,要時刻保持一個整體思路并記住以下幾點:(1)Google的排名算法并不是完全基于外部鏈接的。(2)高PageRank并不能保證Google的高排名。(3)PageRank值更新的比較慢,今天看到的PageRank的值可能是三個月前的值。一般來說,網(wǎng)站排名因素包括網(wǎng)頁的標(biāo)題(METATITLE),網(wǎng)頁正文中的關(guān)鍵詞密度,錨文本(也叫鏈接文本,指鏈接或超鏈的文本內(nèi)容)和PageRank所決定的。請記?。簡慰縋ageRank是無法使你獲得比較理想的網(wǎng)站排名的。PageRank只是網(wǎng)站排名算法中的一個乘積因子,若你網(wǎng)站的其它排名因子的得分是0,就算你的PageRank值是1個億都木有用,最后得分還是0。但這并不是說PageRank就毫無價值,而是在什么情況下PageRank能夠完全發(fā)揮其功力。如果在Google上進行廣泛搜索,看起來好象有幾千個結(jié)果,但實際顯示最多前1000項結(jié)果。例如對“carrental”,顯示搜索結(jié)果為5,110,000,但實際顯示結(jié)果只有826個。而且用時只有0.81秒。試想一下,0.84秒的時間就可以計算這五百萬搜索結(jié)果的每個排名因子得分,然后給出最終我們所看到的網(wǎng)站排名結(jié)果嗎?答案就在于:搜索引擎選取與查詢條件最相關(guān)的那些網(wǎng)頁形成一個子集來加快搜索的速度。例如:假設(shè)子集中包含2000個元素,搜索引擎所做的就是使用排名因子中的兩到三個因素對整個數(shù)據(jù)庫進行查詢,找到針對這兩三個排名因子得分較高的前2000個網(wǎng)頁。(請記住,雖然可能有五百多萬搜索結(jié)果,但最終實際顯示的1000項搜索結(jié)果卻是從這個2000頁的子集中提煉出來的。)然后搜索引擎再把所有排名因子整合進這2000項搜索結(jié)果組成的子集中并進行相應(yīng)的網(wǎng)站排名。由于按相性進行排序,子集中越靠后的搜索結(jié)果(不是指網(wǎng)頁)相關(guān)性(質(zhì)量)也就越低,所以搜索引擎只向用戶顯示與查詢條件最相關(guān)的前1000項搜索結(jié)果。請注意,在搜索引擎生成這2000項網(wǎng)頁的子集中我們強調(diào)了“相關(guān)性”這個詞。即搜索引擎找尋的是與查詢條件有共同主題的網(wǎng)頁。如果這時候我們把PageRank考慮進去,就很可能得到一些PageRank很高但主題只是略微相關(guān)的一些搜索結(jié)果。顯然這有違搜索引擎為用戶提供最為相關(guān)和精準(zhǔn)的搜索結(jié)果的原則。一旦理解了為什么會如此,就說明了為什么你應(yīng)當(dāng)首先努力在“頁面”因子和錨文本上下足工夫,最后才是PageRank。所以關(guān)鍵在于:你必須首先在頁面因素和/或錨文本上下足工夫,使這些排名因子能夠獲得足夠的得分,從而使你的網(wǎng)站能夠按目標(biāo)關(guān)鍵詞躋身于這2,000項搜索結(jié)果的子集中,否則PageRank再高也與事無補。因此,我們不鼓勵刻意地去追求PageRank,因為決定排名的因素可以有上百種。盡管如此,PageRank還是一個用來了解Google對你的網(wǎng)站頁面如何評價的相當(dāng)好的指標(biāo),建議網(wǎng)站設(shè)計者要充分認(rèn)識PageRank在Google判斷網(wǎng)站質(zhì)量的重要作用,從設(shè)計前的考慮到后期網(wǎng)站更新都要給予PageRank足夠的分析,很好的利用。我們要將PageRank看作一種業(yè)余愛好而不是一種信仰。二、PageRank原理通過對由超過50000萬個變量和20億個詞匯組成的方程進行計算,PageRank能夠?qū)W(wǎng)頁的重要性做出客觀評價。PageRank并不計算直接鏈接的數(shù)量,而是將從網(wǎng)頁A指向網(wǎng)頁B的鏈接解釋為由網(wǎng)頁A對網(wǎng)頁B所投的一票。這樣,PageRank會根據(jù)網(wǎng)頁B所收到的投票數(shù)量來評估該網(wǎng)頁的重要性。此外,PageRank還會評估每個投票網(wǎng)頁的重要性,因為某些重要網(wǎng)頁的投票被認(rèn)為具有較高的價值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價值。這就是PageRank的核心思想,當(dāng)然PageRank算法的實際實現(xiàn)上要復(fù)雜很多。但是問題又來了,計算其他網(wǎng)頁PageRank的值需要用到網(wǎng)頁本身的PageRank值,而其他網(wǎng)頁的PageRank值反過來又影響本網(wǎng)頁的PageRank的值,這不就成了一個先有雞還是先有蛋的問題了嗎?Google的兩個創(chuàng)始人拉里.佩奇(LarryPage)和謝耳蓋.布林(SergeyBrin)把這個問題變成一個二維矩陣相乘的問題,并且用迭代的方法解決了這個問題。他們先假定所有網(wǎng)頁的排名是相同的,并且根據(jù)這個初始值,算出各個網(wǎng)頁的第一次迭代的排名,然后再根據(jù)第一次迭代排名算出第二次的排名。他們兩人從理論上證明了不論初始值如何選取,這種算法都將能夠保證了網(wǎng)頁排名的估計值能夠收斂到它們就有的真實值。值得一提的是,這種算法的執(zhí)行是完全沒有任何人工干預(yù)的。理論問題解決了,但在實際的應(yīng)用中,互聯(lián)網(wǎng)上網(wǎng)頁的數(shù)量是巨大的,上面提到的二維矩陣從理論上講有網(wǎng)頁數(shù)目平方之多個元素。如果我們假定有10億個網(wǎng)頁,那么這個矩陣就要有100億億個元素。這樣大的矩陣相乘,計算量是非常之大。怎么辦?怎么辦?Larry和Sergey兩利用稀疏矩陣計算的技巧,大大簡化了計算量,并實現(xiàn)了這個網(wǎng)頁排名算法。今天Google的工程師把這個算法移植移植到并行的計算機中,進一步縮短了計算的時間,使得網(wǎng)頁的周期比以前短了許多。網(wǎng)頁排名的高明之處在于它把整個互聯(lián)網(wǎng)當(dāng)作了一個整體對等。它無意識中符合了系統(tǒng)論的觀點。相比之下,之前的信息檢索大多把每一個網(wǎng)頁當(dāng)作獨立的個體對等,很多人當(dāng)初只注意了網(wǎng)頁的內(nèi)容和查詢語句的相差性,忽略了網(wǎng)頁之間的關(guān)聯(lián)。今天,Google搜索引擎比最初復(fù)雜、完善了許多。但是網(wǎng)頁的排名在Google所有算法中依然是到頭重要的。在學(xué)術(shù)界,這個算法被公認(rèn)為是文獻檢索中最大的貢獻之一,并且被很多大學(xué)引入了信息檢索課程的教程。在計算網(wǎng)站排名時,PageRank會將網(wǎng)站的外部鏈接數(shù)考慮進去。并不能說一個網(wǎng)站的外部鏈接數(shù)越多其PR值就越高,如果這樣的話,一個網(wǎng)站盡可能地獲得最多的外部鏈接就OK了,這種想法是錯誤的。Google對一個網(wǎng)站上的外部鏈接數(shù)的重視程度并不意味著你因此可以不求策略與任何網(wǎng)站建立連接。這是因為Google并不是簡單地由計算網(wǎng)站的外部鏈接數(shù)來決定其等級的。Google的PageRank系統(tǒng)不單考慮一個網(wǎng)站的外部鏈接數(shù)量,也會考慮其質(zhì)量,這個問題看來很復(fù)雜。首先來解釋一下阻尼系數(shù):當(dāng)你投票或鏈接到另外一個站點時所獲得的實際PR分值。阻尼系數(shù)一般是0.85。當(dāng)然比起你網(wǎng)站的實際PR值,它就顯得微不足道了。具體的PR值計算公式為:PR(A)=(1-d)+d(PR(t1)/C(t1)+…+PR(tn)/C(tn))其中,PR(A)表示從一個外部鏈接站點t1上,依據(jù)PageRank系統(tǒng)給你的網(wǎng)站所增加的PR值。PR(t1)表示該外部鏈接網(wǎng)站本身的PR值,C(t1)表示該外部鏈接站點所擁有的外部鏈接數(shù)量。大家要謹(jǐn)記:一個網(wǎng)站的投票權(quán)值只有該網(wǎng)站PR值的0.85倍。必須要注意的一點是:PageRank不單考慮一個網(wǎng)站的外部鏈接質(zhì)量,還需要考慮其數(shù)量。打個比方:對于網(wǎng)站X而言,網(wǎng)站Y是它唯一的一個外部鏈接,那么Google就相信網(wǎng)站X將網(wǎng)站Y視為它最好的一個外部鏈接,從而給網(wǎng)站Y更多的分值??墒?,如果網(wǎng)站X上已經(jīng)存在了49個外部鏈接,那么Google就相信網(wǎng)站X只是將網(wǎng)站Y視為它第50個好網(wǎng)站。因而一個網(wǎng)站上外部鏈接的數(shù)量越多,它所能夠提供的PR值則會越低。如果一個PR值大于等于6的外部鏈接站點,可顯著提升你的PR值。但如果這個外部鏈接站點已經(jīng)有100個其它的外部鏈接時,那么你能夠得到的PR值就幾乎為0了。同樣,如果一個外部鏈接站點PR值為2,但你卻是它唯一一個外部鏈接,那么你所能夠獲得的PR值要遠(yuǎn)遠(yuǎn)大于那個PR值為6,外部鏈接數(shù)為100的網(wǎng)站。影響GooglePageRank的幾個重要因素:(1)與PR高的網(wǎng)站做鏈接(2)內(nèi)容質(zhì)量高的網(wǎng)站鏈接(3)加入搜索引擎分類目錄(4)加入免費開源目錄(5)你的鏈接出現(xiàn)在流量大、知名度高、頻繁更新的重要網(wǎng)站上(6)Google對PDF格式的文件比較看重(7)域名和Title標(biāo)題出現(xiàn)關(guān)鍵詞與Meta標(biāo)簽等(8)反向鏈接數(shù)量和反向鏈接等級(9)Google抓取你網(wǎng)站的頁面數(shù)量(10)導(dǎo)出鏈接數(shù)量PageRank和其他排名因子之間存在不同:網(wǎng)頁Title標(biāo)識僅能被列出一次;正文中出現(xiàn)的關(guān)鍵詞連續(xù)的重復(fù)只會降低關(guān)鍵詞的重要性,重要的是接近度;錨文本加權(quán)值極高,但存在上限,超過上限的錨文本信息將被忽略或降低權(quán)值;PageRank潛質(zhì)無窮,沒有上限的限制,但需要大量工作。除了PageRank外,其它排名因子都存在一個闕值,也叫臨界值或差值。即當(dāng)增長到一定值時,因子的重要性反而開始慢慢降低,則該值就是非PageRank因子的闕值。設(shè)闕值為1000,如果網(wǎng)頁A和B是我們對某一查詢條件的其中兩個查詢結(jié)果,且A的總分?jǐn)?shù)(包括頁面因子得分和PageRank得分)是900,B是500,則顯然A會排在B的前面。但由于A和B的分?jǐn)?shù)均低于我們上面假設(shè)的非PageRank因子闕值,因而在不改變PageRank的情況下,我們可以通過對B頁進行精心的頁面優(yōu)化使頁面因子分?jǐn)?shù)得到提高來使其排名超過A。但如果A的總得分升至1100分,則B若還只是一味優(yōu)化頁面因子是遠(yuǎn)遠(yuǎn)不夠的。在這種情況下,提升PageRank就成為首要任務(wù)了。一般說來,Google的查詢結(jié)果頁中既可能包含一些分?jǐn)?shù)超過闕值的網(wǎng)頁,也可能包含一些分?jǐn)?shù)低于闕值的網(wǎng)頁。所以為了提高競爭能力,必須在闕值范圍內(nèi)盡可能提高頁面的搜索引擎排名得分,否則會降低頁面的競爭力?!绊撁嬉蜃印笔墙咏瓦_(dá)到闕值最迅捷的方式,它與PageRank的結(jié)合使用才是提升網(wǎng)站排名得分的最佳優(yōu)化策略。闕值解釋了搜索引擎商所遵循的原則和不同的實施途徑,同時亦闡述了為什么會產(chǎn)生關(guān)于PageRank的一些誤解。我們可以把這兩種策略當(dāng)成兩個人A和B。A認(rèn)為“PageRank”并不重要。他們已有數(shù)年網(wǎng)頁優(yōu)化經(jīng)驗并知道如何完美地利用“頁面因素”來達(dá)到優(yōu)化的目的。他們亦理解基本的錨文本,但對PageRank得分毫不在意。結(jié)果如何呢?由于最大化地使用了“頁面因子”,從而使A迅速達(dá)到“非PageRank因子的闕值”。所以通過精心選擇關(guān)鍵詞可使他們獲得較好的網(wǎng)站排名。而且只要網(wǎng)站內(nèi)容比較好,隨著時間推移總會有排名高的站點鏈接,涓涓細(xì)流匯成河。A最后亦得到了PageRank得分,并籍此鞏固了排名。B認(rèn)為“PageRank”十分重要。他掌握了很多關(guān)于提升PageRank得分的信息,并為提高該得分下足了工夫。結(jié)果又如何呢?B的做法和A相反,但A在非PageRank因子上下工夫,結(jié)果卻得到了PageRank得分。而B在PageRank因子上下工夫,結(jié)果卻得到非PageRank因子得分。究其原因,就是由于提高PageRank得分需要外部鏈接,鏈接又具有錨文本,從而通過精心挑選外部鏈接的錨文本,B自發(fā)提高了其非PageRank因子的得分,從而贏得了較高的PageRank得分。雖然這只是兩個極端,但我們可以利用它們來推知這兩種途徑各自的優(yōu)缺點:A:忽略PageRank

網(wǎng)站排名在短期內(nèi)就可得到提升,自我生成鏈接節(jié)省了工作量,需投入大量工作維持網(wǎng)站排名,對新競爭者的應(yīng)變速度較慢。B:忽略頁面排名因子,可獲得可靠網(wǎng)站排名,并可在需要時輕松修改頁面因素使排名迅速提升,極可能從非搜索類引擎來源上獲得更高訪問量,網(wǎng)站排名提升較慢,操作難度較大,容易為SPAM過濾程序所制。事實上,我們前面說過,最終排名得分=所有非PageRank因子實際得分x實際PageRank得分。亦即二者相輔相成,再加上隨著網(wǎng)上營銷方式的發(fā)展壯大,關(guān)鍵詞的競爭也變的愈來愈激烈,這種情況下只靠非PageRank因子得到好排名顯然是不可能的。而且非PageRank因子存在著闕值的局限性。同時,對于競爭性極高的關(guān)鍵詞,還存在著PageRank下限的問題。也就是說,除非網(wǎng)站的PageRank得分超過這個下限標(biāo)準(zhǔn),否則網(wǎng)站排名很難上去。PageRank的下限由關(guān)鍵詞的競爭度所決定。競爭性一般的關(guān)鍵詞PageRank下限也不高,而對競爭較為激烈的關(guān)鍵詞來說,它所要求的PageRank下限相應(yīng)就要高。而PageRank得分的提升又非常有難,這時候非PageRank因子就變的非常重要了。

綜上所述:我們需要充分發(fā)揮各排名因子的優(yōu)勢來贏取理想的綜合排名得分。同時關(guān)鍵詞(競爭度適宜)的精心選擇亦變的非常重要,它可以節(jié)省大量的支出。三、總結(jié)關(guān)于PageRank,最權(quán)威的發(fā)言人自然還是Google。雖然Google不會也不可能提供相關(guān)的技術(shù)信息,但我們亦可從中窺得一斑:Chris:PageRank的命名是基于“Page”,還是和某個創(chuàng)始人有關(guān)?Google:PageRank是以Google的聯(lián)合創(chuàng)始人兼總裁LarryPage的名字命名的。Chris:Goog

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論