網(wǎng)絡(luò)爬蟲文檔

上傳人：C*** IP屬地：廣東上傳時間：2023-04-13 格式：DOCX 頁數(shù)：9 大?。?0.87KB 積分：2.4 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版，下載可任意編輯——網(wǎng)絡(luò)爬蟲文檔網(wǎng)絡(luò)爬蟲文檔

一、

爬蟲基本知識

1、傳統(tǒng)爬蟲

從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定中止條件。

2、聚焦爬蟲

聚焦爬蟲的工作流程較為繁雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保存有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它將根據(jù)一定的探尋策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL，并重復(fù)上述過程，直到達(dá)到系統(tǒng)的某一條件時中止。

3、傳統(tǒng)爬蟲的局限性

(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用探尋引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。

(2)通用探尋引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率，有限的探尋引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。

(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片、數(shù)據(jù)庫、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用探尋引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力，不能很好地發(fā)現(xiàn)和獲取。

(4)通用探尋引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語義信息提出的查詢。

4、聚焦爬蟲解決的三個主要問題(1)對抓取目標(biāo)的描述或定義；

①基于目標(biāo)網(wǎng)頁特征

基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。具體的方

法根據(jù)種子樣本的獲取方式可以分為：（1）預(yù)先給定的初始抓取種子樣本；（2）預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本，如Yahoo!分類結(jié)構(gòu)等；（3）通過用戶行為確定的抓取目標(biāo)樣例。其中，網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征，也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征，等等。

②基于目標(biāo)數(shù)據(jù)模式

基于目標(biāo)數(shù)據(jù)模式的爬蟲針對的是網(wǎng)頁上的數(shù)據(jù)，所抓取的數(shù)據(jù)一般要符合一定的模式，或者可以轉(zhuǎn)化或映射為目標(biāo)數(shù)據(jù)模式。

③基于領(lǐng)域概念

另一種描述方式是建立目標(biāo)領(lǐng)域的本體或詞典，用于從語義角度分析不同特征在某一主題中的重要程度。

(2)網(wǎng)頁或數(shù)據(jù)的分析與過濾；

①基于網(wǎng)絡(luò)拓?fù)?/p>

基于網(wǎng)頁之間的鏈接，通過已知的網(wǎng)頁或數(shù)據(jù)，來對與其有直接或間接鏈接關(guān)系的對象（可以是網(wǎng)頁或網(wǎng)站等）作出評價的算法。又分為網(wǎng)頁粒度、網(wǎng)站粒度和網(wǎng)頁塊粒度這三種。（均與pagerankHITS算法有關(guān)）PageRank

基本思想：假使網(wǎng)頁T存在一個指向網(wǎng)頁A的鏈接，則說明T的所有者認(rèn)為A比較重要，從而把T的一部分重要性得分賦予A。這個重要性得分值：PR(T)/C(T)

其中PR(T)為T的PageRank值，C(T)為T的出鏈數(shù)，則A的PageRank值為一系列類似于T德頁面重要性得分值的累加。

優(yōu)點(diǎn)：是一個與查詢無關(guān)的靜態(tài)算法，所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得；有效減少在線查詢時的計(jì)算量，極大降低了查詢相應(yīng)時間。

不足：人們的查詢具有主體特征，PageRank忽略了主題相關(guān)性，導(dǎo)致結(jié)果的相關(guān)性和主題性降低；另外，PageRank有很嚴(yán)重的對新網(wǎng)頁的歧視。HITS

一個網(wǎng)頁重要性的分析的算法，根據(jù)一個網(wǎng)頁的入度（指向此網(wǎng)頁的超鏈接）

和出度（此后網(wǎng)頁指向別的網(wǎng)頁）來衡量網(wǎng)頁的重要性。其最直觀的意義是假使一個網(wǎng)頁的重要性很高，則他所指向的網(wǎng)頁的重要性也高。一個重要的網(wǎng)頁被另一個網(wǎng)頁所指，則說明指向它的網(wǎng)頁重要性也會高。指向別的網(wǎng)頁定義為Hub值,被指向定義為Authority值。

尋常HITS算法是作用在一定范圍的，譬如一個以程序開發(fā)為主題網(wǎng)頁，指向另一個以程序開發(fā)為主題的網(wǎng)頁，則另一個網(wǎng)頁的重要性就可能比較高，但是指向另一個購物類的網(wǎng)頁則不一定。

在限定范圍之后根據(jù)網(wǎng)頁的出度和入度建立一個矩陣，通過矩陣的迭代運(yùn)算和定義收斂的閾值不斷對兩個向量Authority和Hub值進(jìn)行更新直至收斂。

②基于網(wǎng)頁內(nèi)容

基于網(wǎng)頁內(nèi)容的分析算法指的是利用網(wǎng)頁內(nèi)容（文本、數(shù)據(jù)等資源）特征進(jìn)行的網(wǎng)頁評價。網(wǎng)頁的內(nèi)容從原來的以超文本為主，發(fā)展到后來動態(tài)頁面（或稱為HiddenWeb）數(shù)據(jù)為主，后者的數(shù)據(jù)量約為直接可見頁面數(shù)據(jù)（PIW，PubliclyIndexableWeb）的400~500倍。另一方面，多媒體數(shù)據(jù)、WebService等各種網(wǎng)絡(luò)資源形式也日益豐富。因此，基于網(wǎng)頁內(nèi)容的分析算法也從原來的較為單純的文本檢索方法，發(fā)展為涵蓋網(wǎng)頁數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法的綜合應(yīng)用。本節(jié)根據(jù)網(wǎng)頁數(shù)據(jù)形式的不同，將基于網(wǎng)頁內(nèi)容的分析算法，歸納以下三類：第一種針對以文本和超鏈接為主的無結(jié)構(gòu)或結(jié)構(gòu)很簡單的網(wǎng)頁；其次種針對從結(jié)構(gòu)化的數(shù)據(jù)源（如RDBMS）動態(tài)生成的頁面，其數(shù)據(jù)不能直接批量訪問；第三種針對的數(shù)據(jù)界于第一和其次類數(shù)據(jù)之間，具有較好的結(jié)構(gòu)，顯示遵循一定模式或風(fēng)格，且可以直接訪問。

③基于用戶訪問行為(3)對URL的探尋策略。

①廣度優(yōu)先探尋策略

廣度優(yōu)先探尋策略是指在抓取過程中，在完成當(dāng)前層次的探尋后，才進(jìn)行下一層次的探尋。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁，一般使用廣度優(yōu)先探尋方法。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先探尋與網(wǎng)頁過濾技術(shù)結(jié)合使用，先用廣度優(yōu)先策略抓取網(wǎng)頁，再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點(diǎn)在于，隨著抓取網(wǎng)頁的增多，大量的無關(guān)網(wǎng)頁將被下載并過濾，算法的效率將變低。

②最正確優(yōu)先探尋策略

最正確優(yōu)先探尋策略依照一定的網(wǎng)頁分析算法，預(yù)計(jì)候選URL與目標(biāo)網(wǎng)頁的相像度，或與主題的相關(guān)性，并選取評價最好的一個或幾個URL進(jìn)行抓取。它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)計(jì)為“有用〞的網(wǎng)頁。存在的一個問題是，在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略，由于最正確優(yōu)先策略是一種局部最優(yōu)探尋算法。

③深度優(yōu)先探尋策略

度優(yōu)先探尋時一種在開發(fā)爬蟲早期使用較多的方法。它的目的是要達(dá)到被探尋結(jié)構(gòu)的葉結(jié)點(diǎn)（即那些不包含任何超鏈的HTML文件）。在一個HTML文件中，當(dāng)一個超鏈被選擇后，被鏈接的HTML文件將執(zhí)行深度優(yōu)先探尋，即在探尋其余的超鏈結(jié)果之前必需完整地探尋單獨(dú)的一條鏈。深度優(yōu)先探尋沿著HTML文件上的超鏈走到不能再深入為止，然后返回到某一個HTML文件，再繼續(xù)選擇該HTML文件中的其他超鏈。當(dāng)不再有其他超鏈可選擇時，說明探尋已經(jīng)終止。爬行策略①選擇策略

就現(xiàn)在網(wǎng)絡(luò)資源的大小而言，即使很大的探尋引擎也只能獲取網(wǎng)絡(luò)上可得到資源的一小部分。由勞倫斯河蓋爾斯共同做的一項(xiàng)研究指出，沒有一個探尋引擎抓取的內(nèi)容達(dá)到網(wǎng)絡(luò)的16%(勞倫斯河蓋爾斯，2023)。網(wǎng)絡(luò)爬蟲尋常僅僅下載網(wǎng)頁內(nèi)容的一部分，但是大家都還是猛烈要求下載的部分包括最多的相關(guān)頁面，而不僅僅是一個隨機(jī)的簡單的站點(diǎn)。

這就要求一個公共標(biāo)準(zhǔn)來區(qū)分網(wǎng)頁的重要程度，一個頁面的重要程度與他自身的質(zhì)量有關(guān)，與依照鏈接數(shù)、訪問數(shù)得出的受歡迎程度有關(guān)，甚至與他本身的網(wǎng)址（后來出現(xiàn)的把探尋放在一個頂級域名或者一個固定頁面上的垂直探尋）有關(guān)。設(shè)計(jì)一個好的探尋策略還有額外的困難，它必需在不完全信息下工作，由于整個頁面的集合在抓取時是未知的。

Cho等人（Choetal，1998）做了第一份抓取策略的研究。他們的數(shù)據(jù)是斯坦福大學(xué)網(wǎng)站中的18萬個頁面，使用不同的策略分別模仿抓取。排序的方法使用了廣度優(yōu)先，后鏈計(jì)數(shù)，和部分pagerank算法。計(jì)算顯示，假使你想要優(yōu)先下載pagerank高的頁面，那么，部分PageRank策略是比較好的，其次是廣度優(yōu)先和后鏈計(jì)數(shù)。并且，這樣的結(jié)

果僅僅是針對一個站點(diǎn)的。

Najork和Wiener(NajorkandWiener,2023)采用實(shí)際的爬蟲，對3.28億個網(wǎng)頁，采用廣度優(yōu)先研究。他們發(fā)現(xiàn)廣度優(yōu)先會較早的抓到PageRank高的頁面（但是他們沒有采用其他策略進(jìn)行研究）。給出的解釋是：“最重要的頁面會有好多的主機(jī)連接到他們，并且那些鏈接會較早的發(fā)現(xiàn)，而不用考慮從哪一個主機(jī)開始。〞

Abiteboul(Abiteboul等人,2023)，設(shè)計(jì)了一種基于OPIC（在線頁面重要指數(shù)）的抓取戰(zhàn)略。在OPIC中，每一個頁面都有一個相等的初始權(quán)值，并把這些權(quán)值平均分給它所指向的頁面。這種算法與Pagerank相像，但是他的速度很快，并且可以一次完成。OPIC的程序首先抓取獲取權(quán)值最大的頁面，試驗(yàn)在10萬個冪指分布的模擬頁面中進(jìn)行。并且，試驗(yàn)沒有和其它策略進(jìn)行比較，也沒有在真正的WEB頁面測試。

Boldi等人(Boldietal.,2023)的模擬檢索試驗(yàn)進(jìn)行在從.it網(wǎng)絡(luò)上取下的4000萬個頁面和從webbase得到的1億個頁面上，測試廣度優(yōu)先和深度優(yōu)先，隨機(jī)序列和有序序列。比較的基礎(chǔ)是真實(shí)頁面pageRank值和計(jì)算出來的pageRank值的接近程度。令人詫異的是，一些計(jì)算pageRank很快的頁面（特別明顯的是廣度優(yōu)先策略和有序序列）僅僅可以達(dá)到很小的接近程度。

Baeza-Yates等人(Baeza-Yatesetal.,2023)在從.gr域名和.cl域名子網(wǎng)站上獲取的300萬個頁面上模擬試驗(yàn)，比較若干個抓取策略。結(jié)果顯示OPIC策略和站點(diǎn)隊(duì)列長度，都比廣度優(yōu)先要好；并且假使可行的話，使用之前的爬行抓取結(jié)果來指導(dǎo)這次抓取，總是十分有效的。

Daneshpajouh等人(Daneshpajouhetal.,2023)設(shè)計(jì)了一個用于尋覓好種子的社區(qū)。它們從來自不同社區(qū)的高PageRank頁面開始檢索的方法，迭代次數(shù)明顯小于使用隨機(jī)種子的檢索。使用這種方式，可以從以前抓取頁面之中找到好的種子，使用這些種子是十分有效的。②重新訪問策略

網(wǎng)絡(luò)具有動態(tài)性很強(qiáng)的特性。抓取網(wǎng)絡(luò)上的一小部分內(nèi)容可能會花費(fèi)真的很

人人文庫> 全部分類> 教育資料 > 中學(xué)教育

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

網(wǎng)絡(luò)爬蟲文檔

文檔簡介

溫馨提示

最新文檔

評論

網(wǎng)絡(luò)爬蟲文檔

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔