




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
本文格式為Word版,下載可任意編輯——網(wǎng)絡(luò)爬蟲文檔網(wǎng)絡(luò)爬蟲文檔
一、
爬蟲基本知識
1、傳統(tǒng)爬蟲
從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定中止條件。
2、聚焦爬蟲
聚焦爬蟲的工作流程較為繁雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保存有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的探尋策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時中止。
3、傳統(tǒng)爬蟲的局限性
(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用探尋引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。
(2)通用探尋引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的探尋引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。
(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用探尋引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。
(4)通用探尋引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。
4、聚焦爬蟲解決的三個主要問題(1)對抓取目標(biāo)的描述或定義;
①基于目標(biāo)網(wǎng)頁特征
基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為網(wǎng)站或網(wǎng)頁。具體的方
法根據(jù)種子樣本的獲取方式可以分為:(1)預(yù)先給定的初始抓取種子樣本;(2)預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;(3)通過用戶行為確定的抓取目標(biāo)樣例。其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征,等等。
②基于目標(biāo)數(shù)據(jù)模式
基于目標(biāo)數(shù)據(jù)模式的爬蟲針對的是網(wǎng)頁上的數(shù)據(jù),所抓取的數(shù)據(jù)一般要符合一定的模式,或者可以轉(zhuǎn)化或映射為目標(biāo)數(shù)據(jù)模式。
③基于領(lǐng)域概念
另一種描述方式是建立目標(biāo)領(lǐng)域的本體或詞典,用于從語義角度分析不同特征在某一主題中的重要程度。
(2)網(wǎng)頁或數(shù)據(jù)的分析與過濾;
①基于網(wǎng)絡(luò)拓?fù)?/p>
基于網(wǎng)頁之間的鏈接,通過已知的網(wǎng)頁或數(shù)據(jù),來對與其有直接或間接鏈接關(guān)系的對象(可以是網(wǎng)頁或網(wǎng)站等)作出評價的算法。又分為網(wǎng)頁粒度、網(wǎng)站粒度和網(wǎng)頁塊粒度這三種。(均與pagerankHITS算法有關(guān))PageRank
基本思想:假使網(wǎng)頁T存在一個指向網(wǎng)頁A的鏈接,則說明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。這個重要性得分值:PR(T)/C(T)
其中PR(T)為T的PageRank值,C(T)為T的出鏈數(shù),則A的PageRank值為一系列類似于T德頁面重要性得分值的累加。
優(yōu)點(diǎn):是一個與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得;有效減少在線查詢時的計(jì)算量,極大降低了查詢相應(yīng)時間。
不足:人們的查詢具有主體特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很嚴(yán)重的對新網(wǎng)頁的歧視。HITS
一個網(wǎng)頁重要性的分析的算法,根據(jù)一個網(wǎng)頁的入度(指向此網(wǎng)頁的超鏈接)
和出度(此后網(wǎng)頁指向別的網(wǎng)頁)來衡量網(wǎng)頁的重要性。其最直觀的意義是假使一個網(wǎng)頁的重要性很高,則他所指向的網(wǎng)頁的重要性也高。一個重要的網(wǎng)頁被另一個網(wǎng)頁所指,則說明指向它的網(wǎng)頁重要性也會高。指向別的網(wǎng)頁定義為Hub值,被指向定義為Authority值。
尋常HITS算法是作用在一定范圍的,譬如一個以程序開發(fā)為主題網(wǎng)頁,指向另一個以程序開發(fā)為主題的網(wǎng)頁,則另一個網(wǎng)頁的重要性就可能比較高,但是指向另一個購物類的網(wǎng)頁則不一定。
在限定范圍之后根據(jù)網(wǎng)頁的出度和入度建立一個矩陣,通過矩陣的迭代運(yùn)算和定義收斂的閾值不斷對兩個向量Authority和Hub值進(jìn)行更新直至收斂。
②基于網(wǎng)頁內(nèi)容
基于網(wǎng)頁內(nèi)容的分析算法指的是利用網(wǎng)頁內(nèi)容(文本、數(shù)據(jù)等資源)特征進(jìn)行的網(wǎng)頁評價。網(wǎng)頁的內(nèi)容從原來的以超文本為主,發(fā)展到后來動態(tài)頁面(或稱為HiddenWeb)數(shù)據(jù)為主,后者的數(shù)據(jù)量約為直接可見頁面數(shù)據(jù)(PIW,PubliclyIndexableWeb)的400~500倍。另一方面,多媒體數(shù)據(jù)、WebService等各種網(wǎng)絡(luò)資源形式也日益豐富。因此,基于網(wǎng)頁內(nèi)容的分析算法也從原來的較為單純的文本檢索方法,發(fā)展為涵蓋網(wǎng)頁數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法的綜合應(yīng)用。本節(jié)根據(jù)網(wǎng)頁數(shù)據(jù)形式的不同,將基于網(wǎng)頁內(nèi)容的分析算法,歸納以下三類:第一種針對以文本和超鏈接為主的無結(jié)構(gòu)或結(jié)構(gòu)很簡單的網(wǎng)頁;其次種針對從結(jié)構(gòu)化的數(shù)據(jù)源(如RDBMS)動態(tài)生成的頁面,其數(shù)據(jù)不能直接批量訪問;第三種針對的數(shù)據(jù)界于第一和其次類數(shù)據(jù)之間,具有較好的結(jié)構(gòu),顯示遵循一定模式或風(fēng)格,且可以直接訪問。
③基于用戶訪問行為(3)對URL的探尋策略。
①廣度優(yōu)先探尋策略
廣度優(yōu)先探尋策略是指在抓取過程中,在完成當(dāng)前層次的探尋后,才進(jìn)行下一層次的探尋。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先探尋方法。其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先探尋與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點(diǎn)在于,隨著抓取網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。
②最正確優(yōu)先探尋策略
最正確優(yōu)先探尋策略依照一定的網(wǎng)頁分析算法,預(yù)計(jì)候選URL與目標(biāo)網(wǎng)頁的相像度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進(jìn)行抓取。它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)計(jì)為“有用〞的網(wǎng)頁。存在的一個問題是,在爬蟲抓取路徑上的很多相關(guān)網(wǎng)頁可能被忽略,由于最正確優(yōu)先策略是一種局部最優(yōu)探尋算法。
③深度優(yōu)先探尋策略
度優(yōu)先探尋時一種在開發(fā)爬蟲早期使用較多的方法。它的目的是要達(dá)到被探尋結(jié)構(gòu)的葉結(jié)點(diǎn)(即那些不包含任何超鏈的HTML文件)。在一個HTML文件中,當(dāng)一個超鏈被選擇后,被鏈接的HTML文件將執(zhí)行深度優(yōu)先探尋,即在探尋其余的超鏈結(jié)果之前必需完整地探尋單獨(dú)的一條鏈。深度優(yōu)先探尋沿著HTML文件上的超鏈走到不能再深入為止,然后返回到某一個HTML文件,再繼續(xù)選擇該HTML文件中的其他超鏈。當(dāng)不再有其他超鏈可選擇時,說明探尋已經(jīng)終止。爬行策略①選擇策略
就現(xiàn)在網(wǎng)絡(luò)資源的大小而言,即使很大的探尋引擎也只能獲取網(wǎng)絡(luò)上可得到資源的一小部分。由勞倫斯河蓋爾斯共同做的一項(xiàng)研究指出,沒有一個探尋引擎抓取的內(nèi)容達(dá)到網(wǎng)絡(luò)的16%(勞倫斯河蓋爾斯,2023)。網(wǎng)絡(luò)爬蟲尋常僅僅下載網(wǎng)頁內(nèi)容的一部分,但是大家都還是猛烈要求下載的部分包括最多的相關(guān)頁面,而不僅僅是一個隨機(jī)的簡單的站點(diǎn)。
這就要求一個公共標(biāo)準(zhǔn)來區(qū)分網(wǎng)頁的重要程度,一個頁面的重要程度與他自身的質(zhì)量有關(guān),與依照鏈接數(shù)、訪問數(shù)得出的受歡迎程度有關(guān),甚至與他本身的網(wǎng)址(后來出現(xiàn)的把探尋放在一個頂級域名或者一個固定頁面上的垂直探尋)有關(guān)。設(shè)計(jì)一個好的探尋策略還有額外的困難,它必需在不完全信息下工作,由于整個頁面的集合在抓取時是未知的。
Cho等人(Choetal,1998)做了第一份抓取策略的研究。他們的數(shù)據(jù)是斯坦福大學(xué)網(wǎng)站中的18萬個頁面,使用不同的策略分別模仿抓取。排序的方法使用了廣度優(yōu)先,后鏈計(jì)數(shù),和部分pagerank算法。計(jì)算顯示,假使你想要優(yōu)先下載pagerank高的頁面,那么,部分PageRank策略是比較好的,其次是廣度優(yōu)先和后鏈計(jì)數(shù)。并且,這樣的結(jié)
果僅僅是針對一個站點(diǎn)的。
Najork和Wiener(NajorkandWiener,2023)采用實(shí)際的爬蟲,對3.28億個網(wǎng)頁,采用廣度優(yōu)先研究。他們發(fā)現(xiàn)廣度優(yōu)先會較早的抓到PageRank高的頁面(但是他們沒有采用其他策略進(jìn)行研究)。給出的解釋是:“最重要的頁面會有好多的主機(jī)連接到他們,并且那些鏈接會較早的發(fā)現(xiàn),而不用考慮從哪一個主機(jī)開始。〞
Abiteboul(Abiteboul等人,2023),設(shè)計(jì)了一種基于OPIC(在線頁面重要指數(shù))的抓取戰(zhàn)略。在OPIC中,每一個頁面都有一個相等的初始權(quán)值,并把這些權(quán)值平均分給它所指向的頁面。這種算法與Pagerank相像,但是他的速度很快,并且可以一次完成。OPIC的程序首先抓取獲取權(quán)值最大的頁面,試驗(yàn)在10萬個冪指分布的模擬頁面中進(jìn)行。并且,試驗(yàn)沒有和其它策略進(jìn)行比較,也沒有在真正的WEB頁面測試。
Boldi等人(Boldietal.,2023)的模擬檢索試驗(yàn)進(jìn)行在從.it網(wǎng)絡(luò)上取下的4000萬個頁面和從webbase得到的1億個頁面上,測試廣度優(yōu)先和深度優(yōu)先,隨機(jī)序列和有序序列。比較的基礎(chǔ)是真實(shí)頁面pageRank值和計(jì)算出來的pageRank值的接近程度。令人詫異的是,一些計(jì)算pageRank很快的頁面(特別明顯的是廣度優(yōu)先策略和有序序列)僅僅可以達(dá)到很小的接近程度。
Baeza-Yates等人(Baeza-Yatesetal.,2023)在從.gr域名和.cl域名子網(wǎng)站上獲取的300萬個頁面上模擬試驗(yàn),比較若干個抓取策略。結(jié)果顯示OPIC策略和站點(diǎn)隊(duì)列長度,都比廣度優(yōu)先要好;并且假使可行的話,使用之前的爬行抓取結(jié)果來指導(dǎo)這次抓取,總是十分有效的。
Daneshpajouh等人(Daneshpajouhetal.,2023)設(shè)計(jì)了一個用于尋覓好種子的社區(qū)。它們從來自不同社區(qū)的高PageRank頁面開始檢索的方法,迭代次數(shù)明顯小于使用隨機(jī)種子的檢索。使用這種方式,可以從以前抓取頁面之中找到好的種子,使用這些種子是十分有效的。②重新訪問策略
網(wǎng)絡(luò)具有動態(tài)性很強(qiáng)的特性。抓取網(wǎng)絡(luò)上的一小部分內(nèi)容可能會花費(fèi)真的很
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年證件打印一體機(jī)項(xiàng)目合作計(jì)劃書
- 2025年中石化:石油腦項(xiàng)目合作計(jì)劃書
- 吧臺設(shè)備轉(zhuǎn)讓合同范例
- 影片拍攝投標(biāo)合同范本
- 農(nóng)業(yè)技能培訓(xùn)合同范本
- 司機(jī)水泥合同范例
- 合同范例新版正版
- 單位綠化施工合同范例
- LED戶外顯示屏廣告位租賃合同范本
- 個人購房合同范本簡易
- 煤礦安全質(zhì)量標(biāo)準(zhǔn)化培訓(xùn)課件
- 2024解析:第十七章歐姆定律-基礎(chǔ)練(解析版)
- 【MOOC】電工電子學(xué)-浙江大學(xué) 中國大學(xué)慕課MOOC答案
- 新教材 人教版高中化學(xué)選擇性必修2全冊各章節(jié)學(xué)案(知識點(diǎn)考點(diǎn)精講及配套習(xí)題)
- (一模)長春市2025屆高三質(zhì)量監(jiān)測(一)生物試卷(含答案)
- DB35T 1036-2023 10kV及以下電力用戶業(yè)擴(kuò)工程技術(shù)規(guī)范
- 《現(xiàn)代家政導(dǎo)論》電子教案 1.1模塊一項(xiàng)目一家政與家政學(xué)認(rèn)知
- 《人工智能通識教程》(第2版)教學(xué)大綱
- 科研倫理與學(xué)術(shù)規(guī)范-期末考試答案
- 中國移動自智網(wǎng)絡(luò)白皮書(2024) 強(qiáng)化自智網(wǎng)絡(luò)價值引領(lǐng)加速邁進(jìn)L4級新階段
- 2025屆高三聽力技巧指導(dǎo)-預(yù)讀、預(yù)測
評論
0/150
提交評論