搜索引擎的信息覆蓋率_第1頁
搜索引擎的信息覆蓋率_第2頁
搜索引擎的信息覆蓋率_第3頁
搜索引擎的信息覆蓋率_第4頁
搜索引擎的信息覆蓋率_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、搜索引擎的信息覆蓋率評測模型研究孟濤 09808049指導教師:李曉明教授2002年6月1引言互聯(lián)網(wǎng)信息資源數(shù)量的指數(shù)級增長、網(wǎng)絡信息博物館對網(wǎng)頁資源的要求需要一套有效的辦法評測搜集系統(tǒng)的搜集性能,本文的工作由此展開234網(wǎng)頁搜集的不完全性WWW有向圖結(jié)構(gòu)結(jié)構(gòu)本身所致(入度為0或不存在路徑)優(yōu)先排序、搜集系統(tǒng)資源所限導致不斷出現(xiàn)的新網(wǎng)頁無法搜集5三類重要的信息覆蓋率數(shù)量覆蓋率質(zhì)量覆蓋率可視信息覆蓋率6模型建立覆蓋率=搜集網(wǎng)頁數(shù)/實際WWW網(wǎng)頁數(shù)覆蓋率=樣本覆蓋數(shù)/樣本容量模型圖示7數(shù)量覆蓋率:隨機IP法8模型修正與誤差分析結(jié)果:5.72%缺點:無法區(qū)別該IP地址的網(wǎng)站大小,存在大量的無效IP地

2、址改進方法:利用鏈接關(guān)系作鏈接擴展,減小上述的不利影響修正結(jié)果:23.5%9數(shù)量覆蓋率:廣度優(yōu)先法10試驗結(jié)果與誤差分析局部角度,利用網(wǎng)頁間鏈接關(guān)系結(jié)果:選取5組樣本求覆蓋率均值41.6%誤差修正:大約10%的網(wǎng)頁無法通過鏈接到達,對結(jié)果乘以90%處理得37.4%11誤差修正原理12網(wǎng)頁重要性評價因素網(wǎng)頁URL屬性:域名長短,目錄深度網(wǎng)頁作為有向圖的節(jié)點:鏈接表示著認可度的傳遞,通常入度越大越重要網(wǎng)頁本身的內(nèi)容:與查詢用戶寬主題查詢詞的匹配程度13兩類重要的權(quán)值算法之一:PageRank學術(shù)論文引用統(tǒng)計原理在WWW上的擴展PR(A)= 14兩類重要的權(quán)值算法之二:HITS(Hyperlink-

3、Induced Topic Search )權(quán)威型權(quán)值目錄型權(quán)值A(p)= H(p)=15質(zhì)量覆蓋率:廣度優(yōu)先法PageRank算法需要與WWW相近的鏈接結(jié)構(gòu),采用廣度優(yōu)先遍歷取樣初始樣本對得到的數(shù)十萬網(wǎng)頁用PageRank算法計算權(quán)值,得到前面約5%的網(wǎng)頁作為重要網(wǎng)頁樣本選取5組樣本,計算均值得到結(jié)果為47%對其中的兩組樣本,改變重要性標準(百分比),分析覆蓋率的變化情況(5%平緩)16圖示17質(zhì)量覆蓋率:主題查詢法遞交若干查詢詞給搜索引擎,返回的結(jié)果集,進行鏈接擴展(目的)用HITS算法分別計算目錄型權(quán)值和權(quán)威型權(quán)值在前列的網(wǎng)頁集合作為樣本八組查詢詞得樣本均值:42.9%和53%18模型修

4、正與誤差分析缺點:對所有的鏈接一視同仁改進方法:考察導向詞與查詢詞的匹配度,實現(xiàn)擴展HITS算法修正結(jié)果:46.2%和50.3%19兩類質(zhì)量覆蓋率評測方法評價兩種評測方法的結(jié)果很好的吻合它們分別從客觀與主觀的角度著手證明此評測模型是有效的得到WebInfoMall有效信息覆蓋率數(shù)據(jù)20我的主要工作(1)實現(xiàn)通過HTTP1.0協(xié)議抓取網(wǎng)頁實現(xiàn)從網(wǎng)頁中提取所有的URL鏈接實現(xiàn)隨機IP產(chǎn)生器,IP掃描器實現(xiàn)反向域名兩級解析(DNS、DB)21我的主要工作(2)實現(xiàn)PageRank算法實現(xiàn)HITS算法旨在改進天網(wǎng)系統(tǒng)的網(wǎng)頁權(quán)值排序問題22我的主要工作(3)實現(xiàn)多播程序?qū)ebinfomall服務器群驗證URL是否已被覆蓋實現(xiàn)“多生產(chǎn)者多消費者”的多進程運行模型進行巨量Web信息處理23總結(jié)提出了質(zhì)量覆蓋率概念,建立了一個有效的網(wǎng)絡信息質(zhì)量覆蓋率評測模型依據(jù)該模型,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論