微營銷之互聯(lián)網(wǎng)面價值p_第1頁
微營銷之互聯(lián)網(wǎng)面價值p_第2頁
微營銷之互聯(lián)網(wǎng)面價值p_第3頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、淺談互聯(lián)網(wǎng)頁面價值 搜索引擎每天處理著數(shù)以億計的查詢請求,每個查詢請求都代表了一個用 戶對于某種資源的特定需求。多數(shù)時候,通過查詢返回的網(wǎng)頁結(jié)果,這些 需 求被滿足了, 我們可以認(rèn)為結(jié)果中的某些頁面對特定用戶的特定需求產(chǎn) 生了價值。那么對于搜索引擎而言,頁面的價值是指什么,我們?yōu)槭裁匆?研究頁面價值, 技術(shù) 上怎樣判斷頁面的價值呢 ?本文將逐一回答這些問題。一、什么是頁面價值。前面我們說了,某個頁面滿足了某一用戶的特定需求,就體現(xiàn)了這個頁面 對用戶的價值。 那么對搜索引擎而言, 價值體現(xiàn)在哪些方面呢 ?一個簡單的 推論, 所 有可能會對用戶產(chǎn)生價值的頁面都是對搜索引擎有價值的, 將這 些頁面建

2、入搜索引擎的索引中能夠滿足最終檢索到它們用戶的需求,我們 稱這種價值為檢索價值。只要是能解決某個用戶信息需求的,并且是可以 通過某些正常檢索需求到達(dá)的,那么就是有檢索價值的。 小學(xué)生張三喜歡在 qzone 上寫日記,寫他前天吃了什么,今天玩了什么。 這些內(nèi)容,是有價值的。它們對張三的家長、同學(xué)、老師,以及其他小學(xué) 生,和對小學(xué)生日記感興趣的人來說,都是有價值的。對于這個信息體來 說,“張三”這個名字是檢索的“ key ”。有一些信息單元,只有“瀏覽”價值,而沒有到達(dá)該信息的檢索途徑,那 么該資源可能是有價值的,但檢索價值就很低。比如一張百度大廈附近的 地圖,從瀏 覽角度,是有價值的 ; 但是如

3、果沒有任何周邊文字說明 ( 或者 link 的 anchor text) ,只有一張光禿禿的地圖,就沒有檢索價值。當(dāng)然, 如果圖片的內(nèi)容識別技術(shù),有朝一日能自動識別出這個是“百度大廈附近地圖”,或者能夠自動分析 出地圖內(nèi)的各種大廈、街道、餐館等的名稱, 那么這張圖一樣變得有檢索價值了。所以一個頁面是否有檢索價值,應(yīng)該 取決于兩點:1) 是否能解決某個特定的需求 ( 價值)2) 是否可以通過某個常規(guī)的搜索方式獲得該信息 ( 檢索) 那么,沒有檢索價值的頁面,是否對搜索引擎就沒有價值了呢 ?仔細(xì)想想, 答案是否定的。索引只是搜索引擎的一個環(huán)節(jié),對于其他環(huán)節(jié)而言,沒有 檢索價值 的頁面有可能對我們更

4、好的收錄那些檢索價值高的頁面有幫助。 比如對負(fù)責(zé)抓取互聯(lián)網(wǎng)資源的 spider 而言, 有一些頁面, 本身沒有檢索價 值,但通過這些頁面 的抓取和分析, 能夠更快的幫助我們掌握這一類頁面 沒有檢索價值這一重要信息,從而節(jié)省更多的流量進行更加有效的抓取。 考慮到這種價值可以算作一種“間接的”檢索價值,最終還是立足于索引 價值的,在本文中就不再展開論述,我們只關(guān)注“檢索價值”這一根本問 題。下文中提到的“頁面價值”特指頁面的“檢索價值” 。二、為什么要研究頁面價值 首先,互聯(lián)網(wǎng)上的頁面是無窮盡的,而搜索引擎的硬件資源是有限的,想 用有限的資源去覆蓋無窮盡的互聯(lián)網(wǎng),我們就需要對頁面價值做出判斷, 不

5、收錄那些無檢索價值的頁面,少收錄那些檢索價值低的頁面。這是頁面 價值在收錄控制方面的應(yīng)用。第二,搜索引擎 spider 的抓取能力是有限的,出于訪問友好性的考慮,對 于一個網(wǎng)站或一個 IP 抓取速率需要有一個抓取速率的上限。在這一限制 下, 抓取或頁面更新就需要有一個先后順序, 而這一排序的主要參考依據(jù)就是頁面價值,或者說對頁面價值的預(yù)測( 未抓取時 ) 。這是頁面價值在spider 調(diào)度方面 的應(yīng)用。 第三,對于某些頁面,頁面內(nèi)容發(fā)生變化,導(dǎo)致它的檢索價值從有到無, 典型的就是變?yōu)椤八梨湣?,或者“被黑”。對于這些頁面,好的搜索引擎會 在第一時 間將其排除出索引, 或在檢索時對其進行屏蔽,

6、以保證返回給用 戶的結(jié)果是更多檢索價值高的“好頁面” 。對于另一些頁面,它不僅具有很 高的檢索價值,而且有很 強的“時效性”,能夠第一時間讓用戶檢索到這 些頁面對搜索體驗有很大的提升。對搜索引擎而言,越快的收錄和索引頁 面意味著越多的額外資源開銷, 以多快的速 度收錄和以多短的周期更新索 引,需要通過頁面價值的分析來指導(dǎo)。這兩方面是頁面價值在死鏈率和時 效性兩大搜索引擎指標(biāo)提升上的應(yīng)用。 最后,普遍意義上的頁面價值高低對搜索引擎返回給用戶的結(jié)果排序上也 存在著指導(dǎo)意義。理想情況下搜索引擎的結(jié)果是按照與查詢請求的相關(guān)性 進行排序的,在相關(guān)性大體相當(dāng)?shù)那闆r下,用戶更傾向與瀏覽普遍意義上 頁面價值高

7、的網(wǎng)頁。這是頁面價值在 ranking 方面的應(yīng)用。 可以說,頁面檢索價值的研究是搜索引擎中的一項較為基礎(chǔ)的工作,對頁 面價值的認(rèn)識和判斷的準(zhǔn)確程度直接影響著搜索引擎的覆蓋率、死鏈率、 時效性等幾大主要指標(biāo)。三、如何判斷頁面價值 前文中提到過一個小學(xué)生張三 qzone 日記的例子。我們認(rèn)為這個頁面是有 價值的,對張三的同學(xué),朋友,家人都有價值。與此類似的,百度CEO李彥宏 在 i 貼吧上發(fā)表一條十幾個字的 i 貼,也是有價值的, 對李彥宏的上 千萬粉絲都有價值。雖然李彥宏的 i 貼長度可能遠(yuǎn)小于張三的日記,但就 這兩個頁面的價值來 說,我們都會有一個共同的認(rèn)識, 即從普遍意義上講, 李彥宏的

8、i 貼價值遠(yuǎn)大于張三的日記。 ( 當(dāng)然,對于張三的媽媽來說很可能 這個價值的關(guān)系是相反的 ) 再舉個例子,搜索某個人的手機號碼,搜索引擎返回了一個結(jié)果,是這個 人在某個論壇上的一個回復(fù)。雖然這個手機號碼關(guān)心的人不多,但因為資 源是絕對稀缺的,對于關(guān)心這個手機號碼的查詢需求,這個頁面是完全不 可替代的,因此具有極高的價值。 另外,頁面檢索價值,還受到頁面質(zhì)量的影響。相似的頁面,對于滿足用 戶需求來說,往往會有很大差異,比如資源下載速度,頁面的布局,廣告 的多寡。這類差異,姑且稱之為頁面質(zhì)量。 最后,有些頁面具有明顯的公眾話題性質(zhì),且這些資源往往在剛剛產(chǎn)生時 有非常高的關(guān)注度,隨著時間的推移熱度顯

9、著下降,有著“新聞”的特征。 典型的像各種“門”事件,地震、火災(zāi)等大型的自然災(zāi)害。我們認(rèn)為這類 資源具有“時效性”特征。 所以,一個頁面的檢索價值,大致受以下四個要素的影響: 感興趣的受眾群大小 該頁面的稀缺程度 (可替代性 ) 該頁面的質(zhì)量高低 該頁面的時效性特征強弱 這四種要素,簡稱受眾,稀缺,質(zhì)量和時效性。1. 受眾受眾群體的大小,即代表了用戶檢索需求的大小。評價受眾的大小主要依 據(jù)信息發(fā)布源的受眾和信息內(nèi)容本身受眾兩大方面。具體因素包括且不限 于:網(wǎng)站忠實用戶群大小 一般來說,擁有自己忠實用戶群的知名網(wǎng)站,他們的成功,在于他們的內(nèi) 容和服務(wù),比別人更能吸引和滿足用戶。從這個角度來說,我

10、們可以推論, 擁有更多 忠實用戶群的網(wǎng)站上的內(nèi)容, 會比忠實用戶群較少的網(wǎng)站上的內(nèi) 容,有更多的既有和潛在受眾群。這樣的話,忠實用戶群大小,就可以變 成對站點內(nèi)資源檢索價值的 一種衡量指標(biāo)。 忠實用戶群的好處在于, 它是 變動的。如果一個網(wǎng)站變差了,那么用戶就會用腳投票。超鏈有過期問題, 作弊問題,而虛假用戶群作弊很難。一般所 謂的網(wǎng)站知名度,會和忠實用 戶群數(shù)量密切相關(guān)。資源分布規(guī)律 我們再考慮一個網(wǎng)站內(nèi)部的資源分布所體現(xiàn)的受眾群大小問題。比如新浪 新聞首頁的那些推介內(nèi)容。 新浪編輯為什么要推這些內(nèi)容 ?因為他們認(rèn)為這 些是用戶 最感興趣的。 那么從索引價值角度而言, 相當(dāng)于有一個龐大的編

11、輯團隊,已經(jīng)對這些內(nèi)容打上了“符合大眾口味”的標(biāo)簽。搜索引擎只需 要樂享其成就行了。這樣的 話,資源相對于某些結(jié)構(gòu)性關(guān)鍵頁面 ( 首頁、 頻道頁等 )的鏈接深度,也可以成為衡量一個資源受眾群大小的指標(biāo)了。 訪問熱門度我們再從訪問熱門度角度來考慮受眾群大小問題。 這個是最直接的, 當(dāng)然, 它需要第三方的工具來獲取關(guān)鍵數(shù)據(jù)。通過這個途徑,獲取的不應(yīng)僅僅是 需要入庫的頁面,還有用戶訪問一個網(wǎng)站的訪問模式。超鏈 超鏈某種程度上也是受眾群大小的反映。某個資源的質(zhì)量越高,接觸的受 眾群越大,那么獲得正常鏈接的數(shù)量往往也越大。內(nèi)容特征A:我寫博客:“傳言郭德綱要上春晚了?!盉:我寫博客:“我今天吃早飯了?!?/p>

12、同樣的來源,前者的受眾必然高于后者。即:當(dāng)在發(fā)布源相同的情況下, 具有公眾屬性的內(nèi)容分值會更高。2. 稀缺 稀缺主要是描述頁面在互聯(lián)網(wǎng)中的獨特性。說到稀缺往往會想到重復(fù),稀 缺是否等同于無重復(fù),我們應(yīng)該怎樣解讀這一概念呢 ?可以看一個例子: 某人發(fā)表了一篇針對某新聞事件的原創(chuàng)博客,隨后被新浪轉(zhuǎn)載到了新聞頻 道。從描述的內(nèi)容上講,這是一種重復(fù)。但這種重復(fù)僅僅是主體內(nèi)容上的 重復(fù),一方 面它的轉(zhuǎn)載帶來了訪問速度、穩(wěn)定性等方面的增益,并且之后 的檢索用戶還有可能用“新聞事件 +新浪”來檢索此新聞。這可以被稱之為 站點增益。另一方面,它在 轉(zhuǎn)載過程中可能會改變頁面的標(biāo)題,而且依托 其受眾,在轉(zhuǎn)載頁面上

13、,還有可能出現(xiàn)更多的有價值評論和回復(fù)等,還有 可能存在指向其它相關(guān)事件的新聞鏈接。 這些 可以被稱之為內(nèi)容增益。 因 此即使主題內(nèi)容沒有任何變化,新浪的這次轉(zhuǎn)載也是有價值的,其稀缺度 也是較高的。同樣,反過來說,如果轉(zhuǎn)載的網(wǎng)站相當(dāng)不知名,則其無法帶來站點名 / 穩(wěn)定 性/速度的增益。更有甚者,轉(zhuǎn)載之后在頁面上加入大量廣告妨礙閱讀,或 者只轉(zhuǎn)載了內(nèi)容中不完整的一部分,這樣的轉(zhuǎn)載,或者說采集,就是純重 復(fù)的,與采集源相比,就是沒有檢索價值的了。綜上所述,對于主體內(nèi)容重復(fù)的頁面,我們應(yīng)該評價其是否存在站點增益 和內(nèi)容增益,只有對于大量完全無增益的重復(fù)頁面,我們才應(yīng)該認(rèn)為其稀 缺度較低。3. 質(zhì)量 頁

14、面的質(zhì)量是它對需求的滿足程度的一種體現(xiàn)。判斷頁面質(zhì)量的高低,應(yīng) 該是從最基礎(chǔ)的需求依次遞進的。首先,不能是死鏈、網(wǎng)站要有一定的穩(wěn)定性、訪問速度要令人滿意。 其次,主體內(nèi)容是否完整、版式和字體是否易讀、各類廣告會不會太多。 最后,信息是否豐富、延伸出的次級需求是否滿足。典型的低質(zhì)量頁面存在以下一些特征:主需求無效 /未滿足(過期分類廣告 /軟件下載頁面,下載鏈接無效等 ) 死鏈虛假信息 /詐騙等空頁面站點不穩(wěn)定影響主需求的權(quán)限問題 (下載/ 瀏覽需要注冊會員 /積分等)信息不完整 (轉(zhuǎn)載不全等 )瀏覽體驗差 (廣告/字體/頁面布局等 )典型的高質(zhì)量頁面存在以下一些特征:訪問速度快 (頁面加載快

15、/ 資源下載速度快 ) 頁面整潔干凈,主體內(nèi)容在顯著位置。 頁面信息完整。頁面元素豐富 ( 文字、圖片、評論、相關(guān)推薦等 )4. 時效性“時效性”是頁面價值的一個屬性,它一般體現(xiàn)在兩個方面:一是頁面所 描述的事物本身有著較強的公眾話題性,容易被傳播。這其實是受眾的一 個體現(xiàn)。 二 是頁面所描述的事物僅在第一時間有較高熱度, 隨著時間推移 熱度顯著下降。這是一種“新聞”性。對于具有上述兩種屬性的頁面,如 果搜索引擎 spider 發(fā)現(xiàn) 頁面的時間正處于該事物的“爆發(fā)期”或“爆發(fā) 期”之前,我們認(rèn)為該頁面具有時效性。需要說明的是,搜索引擎的廣義“時效性”是指對所有有價值新資源的及 時收錄提供檢索,

16、而所有的有價值新資源中,有一大部分其收錄速度的提 升對用戶的 搜索體驗改善意義是不大的,比如介紹如何瘦身的知識性文 章,張三的日記。頁面價值中的“時效性”指得是一種突發(fā)時效性,也就 是所有有價值頁面中最需要及時 收錄的那些。 對頁面時效性的判斷是為了 指導(dǎo)我們將搜索引擎有限的資源投入到最關(guān)鍵的地方, 產(chǎn)生最好的性價比。 判斷頁面的時效性價值,主要通過下面一些途徑:頁面本身受眾是否有短時間的突增,比如超鏈爆發(fā)。賈君鵬的帖子就是一 個典型的例子。描述相同事物的互聯(lián)網(wǎng)頁面是否有段時間的突增。賈君鵬事件短時間內(nèi)爆 發(fā)出大量相關(guān)討論、報道,和這一事件相關(guān)的所有內(nèi)容都具有了時效性屬性。根據(jù)一個集合內(nèi)的頁面是否具有上述兩種特征, 推測該集合的時效性價值。 比如魔獸世界吧經(jīng)常爆出一些熱門帖子,公眾話題,我們推測出自魔獸世 界吧的帖子其時效性“潛在價值”比較高。四、 頁面價值的研究重點 前文已經(jīng)介紹了頁面價值的含義,研究的意義與價值判斷的方法。最后我 們再看一下,從技術(shù)角度上,這一方向的研究中的重點方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論