




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、2.4.92.4.9抓取提速策略抓取提速策略提速基本采用下面幾種方法:提速基本采用下面幾種方法: (1 1)提高抓取單個(gè)網(wǎng)頁的速度)提高抓取單個(gè)網(wǎng)頁的速度 (2 2)盡可能減少不必要的抓取任務(wù))盡可能減少不必要的抓取任務(wù) (3 3)增加同時(shí)工作的爬蟲數(shù)量)增加同時(shí)工作的爬蟲數(shù)量事實(shí)證明,受到萬維網(wǎng)發(fā)展水平限制事實(shí)證明,受到萬維網(wǎng)發(fā)展水平限制:第(第(1)種方法基本不可行,單個(gè)頁面抓取速)種方法基本不可行,單個(gè)頁面抓取速度受到下載帶寬的限制,在現(xiàn)有技術(shù)條件下很度受到下載帶寬的限制,在現(xiàn)有技術(shù)條件下很難任意提高;難任意提高; 第(第(2)種方法難度很大,由于需要和萬維網(wǎng))種方法難度很大,由于需要和
2、萬維網(wǎng)的變化保持緊密同步,所以冗余的抓取總是不的變化保持緊密同步,所以冗余的抓取總是不可避免的,減少不必要的抓取會(huì)導(dǎo)致網(wǎng)頁重訪可避免的,減少不必要的抓取會(huì)導(dǎo)致網(wǎng)頁重訪不及時(shí),這樣就不能快速同步目標(biāo)網(wǎng)頁的變化;不及時(shí),這樣就不能快速同步目標(biāo)網(wǎng)頁的變化; 第(第(3)種方法通過增加爬蟲數(shù)量提高總體抓)種方法通過增加爬蟲數(shù)量提高總體抓取速度是可行的,目前廣泛使用的是這種方法。取速度是可行的,目前廣泛使用的是這種方法。 多爬蟲合作抓取是目前主流搜索引擎抓取策多爬蟲合作抓取是目前主流搜索引擎抓取策略之一。在多個(gè)爬蟲抓取的情況下,如何將略之一。在多個(gè)爬蟲抓取的情況下,如何將工作量分解成為主要的問題,即要解
3、決一個(gè)工作量分解成為主要的問題,即要解決一個(gè)網(wǎng)頁交給那個(gè)爬蟲抓???如果分工不明,很網(wǎng)頁交給那個(gè)爬蟲抓取?如果分工不明,很可能多個(gè)爬蟲抓取了相同的頁,從而引入額可能多個(gè)爬蟲抓取了相同的頁,從而引入額外的開銷。通常采用以下兩種方法來進(jìn)行抓外的開銷。通常采用以下兩種方法來進(jìn)行抓取任務(wù)的分解:取任務(wù)的分解:(1 1)通過)通過webweb主機(jī)的主機(jī)的IPIP地址來分解,使某個(gè)地址來分解,使某個(gè)爬蟲僅抓取某個(gè)地址段的網(wǎng)頁爬蟲僅抓取某個(gè)地址段的網(wǎng)頁(2 2)通過網(wǎng)頁的域名來分解,使某個(gè)爬蟲緊)通過網(wǎng)頁的域名來分解,使某個(gè)爬蟲緊抓取某個(gè)域名段的網(wǎng)頁抓取某個(gè)域名段的網(wǎng)頁如何選擇這兩種方案?如何選擇這兩種方案?
4、萬維網(wǎng)在網(wǎng)絡(luò)基礎(chǔ)設(shè)施中按照萬維網(wǎng)在網(wǎng)絡(luò)基礎(chǔ)設(shè)施中按照IPIP地址來確定主機(jī)位地址來確定主機(jī)位置,置,IPIP地址為點(diǎn)分十進(jìn)制數(shù),難于記憶。由此采用地址為點(diǎn)分十進(jìn)制數(shù),難于記憶。由此采用了域名對(duì)了域名對(duì)IPIP地址進(jìn)行一次映射,由于域名對(duì)人友好地址進(jìn)行一次映射,由于域名對(duì)人友好,于是出現(xiàn)了一些問題,即存在多個(gè)域名對(duì)應(yīng)同樣,于是出現(xiàn)了一些問題,即存在多個(gè)域名對(duì)應(yīng)同樣的的IPIP的情況,對(duì)于中小網(wǎng)站來說,通常采用這種方的情況,對(duì)于中小網(wǎng)站來說,通常采用這種方法提供不同的法提供不同的WebWeb服務(wù)。這主要出于經(jīng)濟(jì)的考慮,服務(wù)。這主要出于經(jīng)濟(jì)的考慮,因?yàn)榭梢灾慌渲靡慌_(tái)服務(wù)器。而對(duì)于大型網(wǎng)站,如因?yàn)榭梢?/p>
5、只配置一臺(tái)服務(wù)器。而對(duì)于大型網(wǎng)站,如新浪和搜狐這些門戶網(wǎng)站通常采用負(fù)載均衡的新浪和搜狐這些門戶網(wǎng)站通常采用負(fù)載均衡的IPIP組組技術(shù),同樣的域名對(duì)應(yīng)于多個(gè)技術(shù),同樣的域名對(duì)應(yīng)于多個(gè)IPIP地址,一方面提高地址,一方面提高系統(tǒng)健壯性,一方面做到了負(fù)載均衡。系統(tǒng)健壯性,一方面做到了負(fù)載均衡。鑒于多域名對(duì)應(yīng)相同的鑒于多域名對(duì)應(yīng)相同的IP和同域名對(duì)應(yīng)多和同域名對(duì)應(yīng)多IP的情的情況,通常的做法是按照域名分解任務(wù)。即只要保況,通常的做法是按照域名分解任務(wù)。即只要保證不重復(fù)抓取大型網(wǎng)站的網(wǎng)頁,小型網(wǎng)站即便重證不重復(fù)抓取大型網(wǎng)站的網(wǎng)頁,小型網(wǎng)站即便重復(fù)抓取也可以接受的策略分配任務(wù)。這種分配方復(fù)抓取也可以接受的
6、策略分配任務(wù)。這種分配方法將不同的域名分配給不同的爬蟲抓取,某一個(gè)法將不同的域名分配給不同的爬蟲抓取,某一個(gè)爬蟲只抓取固定一個(gè)域名集合下的網(wǎng)頁。爬蟲只抓取固定一個(gè)域名集合下的網(wǎng)頁。例如:例如:會(huì)固定交給會(huì)固定交給spider1抓取,抓取,會(huì)固定交給會(huì)固定交給spider2抓取,抓取, 會(huì)固定交給會(huì)固定交給spider3抓取等。抓取等。這兩種方案的主要區(qū)別可以通過下面兩個(gè)例子進(jìn)一步理解。這兩種方案的主要區(qū)別可以通過下面兩個(gè)例子進(jìn)一步理解。 假定假定和和是兩是兩個(gè)域名不同,但個(gè)域名不同,但I(xiàn)P相同的網(wǎng)站,假定為相同的網(wǎng)站,假定為10.10.67.208。有這樣。有這樣的兩個(gè)網(wǎng)頁,即的兩個(gè)網(wǎng)頁,即h
7、ttp:/ 首先假定有.N個(gè)爬蟲可以并行工作,并且定義一個(gè)可以提取URL域名的函數(shù),具體過程為: 對(duì)于任意的URL,利用。domain函數(shù)提取URL的域名;用MD5簽名函數(shù)簽名域名.MD5(domain(URL);將MD5簽名值對(duì)n取模運(yùn)算,intspider_no=MD5( domain(URL)%n;該URL分配給編號(hào)為spider_no的爬蟲進(jìn)行抓取。由于模運(yùn)算可以實(shí)現(xiàn)將一個(gè)全集分成多個(gè)等價(jià)類,所以等價(jià)類的并集等于全集,且一個(gè)等價(jià)類中的元素必然不屬于另一個(gè)等價(jià)類中。這種策略的好處在于每個(gè)爬蟲的任務(wù)量盡可能地均勻分配,同一個(gè)域名必然只由一個(gè)爬蟲抓取,所有爬蟲的工作量組合就是全部的抓取任務(wù)。
8、在介紹了爬蟲和調(diào)查員之后,已經(jīng)能夠完整地理解搜索引擎下載系統(tǒng)的體系結(jié)構(gòu),(如圖2-15)。(1)調(diào)度員通過更新規(guī)則向URL請(qǐng)求一個(gè)URL取任務(wù)。(2)調(diào)度員計(jì)算出該URL,然后分配給編號(hào)為0的爬蟲抓取。(3)爬蟲0實(shí)際抓取的網(wǎng)頁存放在Page庫中。(4)爬蟲0在抓取的網(wǎng)頁中提取其他鏈接后反饋給調(diào)度員。(5)調(diào)度員判斷網(wǎng)頁類型,并設(shè)定初始更新時(shí)間等后存放在URL庫中,繼續(xù)轉(zhuǎn)(1),周而復(fù)始。而在實(shí)際應(yīng)用中,多采用多爬蟲多調(diào)度員的體系結(jié)構(gòu),如圖2-16。抓取的封閉性越強(qiáng),對(duì)外的通信開銷越小。如圖,假如爬蟲1從這個(gè)種子站點(diǎn)開始抓取,由于總是抓取的網(wǎng)頁,而這些網(wǎng)頁總是應(yīng)該歸屬爬蟲1抓取,一次不需要和其他爬蟲通信(不需要經(jīng)過總調(diào)度);反過來,如果抓取的封閉性差,表示可能抓到各種各
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文藝演出場地租賃免責(zé)協(xié)議
- 建筑工程大包合同
- 場站防爆燈安裝施工合同(3篇)
- 家裝工程設(shè)計(jì)及施工承包合同
- 電子商務(wù)產(chǎn)業(yè)園合作協(xié)議
- 電能行業(yè)智能電網(wǎng)建設(shè)與管理方案
- 居間買賣協(xié)議合同
- 物業(yè)收費(fèi)管理合同
- 環(huán)境監(jiān)測(cè)評(píng)估咨詢服務(wù)合同
- 房子抵押還款協(xié)議書
- 懷念戰(zhàn)友混聲四部合唱簡譜
- 城市軌道交通通信信號(hào)系統(tǒng)-綜合練習(xí)題含答案
- 安全生產(chǎn)投訴與舉報(bào)處理培訓(xùn)
- 2024年湖南鐵道職業(yè)技術(shù)學(xué)院單招職業(yè)技能測(cè)試題庫及答案解析word版
- 新《安全生產(chǎn)法》全面解讀“三管三必須”
- 印刷包裝行業(yè)復(fù)工安全培訓(xùn)課件
- 蜜蜂的社會(huì)結(jié)構(gòu)和功能
- 電氣八大管理制度
- 財(cái)政投資評(píng)審項(xiàng)目造價(jià)咨詢服務(wù)方案審計(jì)技術(shù)方案
- 中國電信應(yīng)急管理整體解決方案
- 公務(wù)員年度考核登記表(電子版)
評(píng)論
0/150
提交評(píng)論