常用爬蟲框架以及優(yōu)劣分析精選

上傳人：伐*** IP屬地：寧夏上傳時間：2022-01-06 格式：DOCX 頁數(shù)：12 大?。?0.41KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、常用爬蟲框架以及優(yōu)劣分析精選目前市場上爬蟲框架有無數(shù)，不同語言不同類型的爬蟲框架都有，然而在開發(fā)預(yù)研的時候?qū)τ谔暨x那種?框架對于無數(shù)開發(fā)者來說尤為頭疼；?本篇主要總結(jié)一下市場上主流的開發(fā)語言中有哪些主流的爬蟲框架，以及爬蟲框架的優(yōu)劣；希翼在對你在挑選合適爬蟲框架中有所協(xié)助。nutch 是一個開源java 實現(xiàn)的搜尋引擎。它提供了我們運(yùn)行自己的搜尋引擎所需的所有工具。包括全文搜尋和web爬蟲。?nutch 致力于讓每個人能很簡單, 同時花費(fèi)很少就可以配置世界一流的web搜尋引擎. 為了完成這一雄偉的目標(biāo), nutch必需能夠做到:?* 每個月取幾十億網(wǎng)頁?* 為這些網(wǎng)頁維護(hù)一個索引?* 對索引文

2、件舉行每秒上千次的搜尋對索引文件舉行每秒上千次的搜尋提供高質(zhì)量的搜尋結(jié)果容易來說nutch支持分布式，可以通過配置網(wǎng)站地址、規(guī)章、以及采集的深度(通用爬蟲或全網(wǎng)爬蟲)對網(wǎng)站舉行采集，并提供了全文檢索功能，可以對采集下來的海量數(shù)據(jù)舉行全文檢索；如果您想完成對站點全部內(nèi)容舉行采集，且不在乎采集和解析精度(不對特定頁面特定字段內(nèi)容采集)的需求，建議你用法apache nutch,如果您想對站點的指定內(nèi)容板塊指定字段采集，建議您用法垂直爬蟲較為靈便。webmgaic(推舉)地址:webmagic是一個容易靈便的java爬蟲框架?；趙ebmagic，你可以迅速開發(fā)出一個高效、易維護(hù)的爬蟲。?特性：?容

3、易的api，可迅速上手?模塊化的結(jié)構(gòu)，可輕松擴(kuò)展?提供多線程和分布式支持heritrix地址:heritrix 是一個由 java 開發(fā)的、開源的網(wǎng)絡(luò)爬蟲，用戶可以用法它來從網(wǎng)上抓取想要的資源。其最精彩之處在于它良好的可擴(kuò)展性，便利用戶實現(xiàn)自己的抓取規(guī)律。webcollector地址:webcollector是一個無須配置、便于二次開發(fā)的java爬蟲框架（內(nèi)核），它提供精簡的的api，只需少量代碼即可實現(xiàn)一個功能強(qiáng)大的爬蟲。webcollector-hadoop是webcollector的hadoop版本，支持分布式爬取。crawler4j地址:crawler4j是一款基于java的輕量級單機(jī)

4、開源爬蟲框架，最大的一個特點就是容易。另外也支持多線程、支持代理、可以過濾重復(fù)url?基本上從加載jar到工程里面通過修改示例的代碼就可以容易的實現(xiàn)一個爬蟲的所有功能，而這一切動作加起來都不需要超過半個小時。spiderman地址:spiderman 是一個java開源web數(shù)據(jù)抽取工具。它能夠收集指定的web頁面并從這些頁面中提取實用的數(shù)據(jù)。 spiderman主要是運(yùn)用了像xpath、正則、表達(dá)式引擎等這些技術(shù)來實現(xiàn)數(shù)據(jù)抽取。seimicrawler地址:一個靈敏的，自立部署的，支持分布式的java爬蟲框架?seimicrawler是一個強(qiáng)大的，高效靈敏的，支持分布式的爬蟲開發(fā)框架，希翼

5、能在最大程度上降低新手開發(fā)一個可用性高且性能不差的爬蟲系統(tǒng)的門檻，以及提升開發(fā)爬蟲系統(tǒng)的開發(fā)效率。在seimicrawler的世界里，絕大多數(shù)人只需關(guān)懷去寫抓取的業(yè)務(wù)規(guī)律就夠了，其余的seimi幫你搞定。設(shè)計思想上seimicrawler受python的爬蟲框架scrapy啟發(fā)很大，同時融合了java語言本身特點與spring的特性，并希翼在國內(nèi)更便利且普遍的用法更有效率的xpath解析html，所以seimicrawler默認(rèn)的html解析器是jsoupxpath,默認(rèn)解析提取html數(shù)據(jù)工作均用法xpath來完成（固然，數(shù)據(jù)處理亦可以自行挑選其他解析器）。jsoup地址:jsoup 是一款

6、java 的html解析器，可挺直解析某個url地址、html文本內(nèi)容。它提供了一套十分省力的api，可通過dom，css以及類似于jquery的操作辦法來取出和操作數(shù)據(jù)。scrapy (推舉)地址:scrapy，python開發(fā)的一個迅速、高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。?scrapy吸引人的地方在于它是一個框架，任何人都可以按照需求便利的修改。它也提供了多種類型爬蟲的基類，如basespider、sitemap爬蟲等，最新版本又提供了web2.0爬蟲的支持。?scrap，是碎片的意思，

7、這個python的爬蟲框架叫scrapy。crawley地址:高速爬取對應(yīng)網(wǎng)站的內(nèi)容，支持關(guān)系和非關(guān)系數(shù)據(jù)庫，數(shù)據(jù)可以導(dǎo)出為json、xml等portia地址:portia 是一個用 python 編寫無需任何編程學(xué)問，就能可視爬取網(wǎng)站數(shù)據(jù)的開源工具。無需下載或安裝任何東西，由于，portia 是運(yùn)行在您的 web 掃瞄器中。?portia 是 scrapyhub 開源的一款可視化爬蟲規(guī)章編寫工具。portia 提供了可視化的 web 頁面，只需通過容易點擊，標(biāo)注頁面上需提取的相應(yīng)數(shù)據(jù)，無需任何編程學(xué)問即可完成爬取規(guī)章的開發(fā)。這些規(guī)章還可在 scrapy 中用法，用于抓取頁面。pyspider

8、地址:pyspider：一個國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的webui。采納python語言編寫，分布式架構(gòu)，支持多種數(shù)據(jù)庫后端，強(qiáng)大的webui支持腳本編輯器，任務(wù)監(jiān)視器，項目管理器以及結(jié)果查看器。grab地址:網(wǎng)絡(luò)爬蟲框架(基于pycurl/multicur)。cola地址:一個分布式爬蟲框架。項目整體設(shè)計有點糟，模塊間耦合度較高，不過值得借鑒。phpspider地址:phpspider是一個爬蟲開發(fā)框架。用法本框架，你不用了解爬蟲的底層技術(shù)實現(xiàn)，爬蟲被網(wǎng)站屏蔽、有些網(wǎng)站需要登錄或驗證碼識別才干爬取等問題。容易幾行php代碼，就可以創(chuàng)建自己的爬蟲，利用框架封裝的多進(jìn)程worker類

9、庫，代碼更簡潔，執(zhí)行效率更高速度更快。beanbun地址:beanbun 是用 php 編寫的多進(jìn)程網(wǎng)絡(luò)爬蟲框架，具有良好的開放性、高可擴(kuò)展性。?支持守護(hù)進(jìn)程與一般兩種模式（守護(hù)進(jìn)程模式只支持 linux 服務(wù)器）?默認(rèn)用法 guzzle 舉行爬取?支持分布式?支持內(nèi)存、redis 等多種隊列方式?支持自定義uri過濾?支持廣度優(yōu)先和深度優(yōu)先兩種爬取方式?遵循 psr-4 標(biāo)準(zhǔn)?爬取網(wǎng)頁分為多步，每步均支持自定義動作（如添加代理、修改 user-agent 等）?靈便的擴(kuò)展機(jī)制，可便利的為框架制作插件：自定義隊列、自定義爬取方式phpcrawl地址:phpcrawl是一個php開源的web檢索

10、蜘蛛(爬蟲)類庫。phpcrawl抓取工具 spider 的網(wǎng)站，并提供一切有關(guān)網(wǎng)頁，鏈接，文件等信息。?phpcrawl povides可以挑選性的指定的爬蟲的行為，比如喜愛網(wǎng)址、內(nèi)容類型，過濾器、 cookie的處理等方式。dotnetspider地址:dotnetspider這是國人開源的一個跨平臺、高性能、輕量級的爬蟲軟件，采納 c 開發(fā)。目前是.net開源爬蟲最為優(yōu)秀的爬蟲之一。nwebcrawler地址:nwebcrawler是一款開源的c網(wǎng)絡(luò)爬蟲程序更多nwebcrawlersmartspider地址:smartspider爬蟲引擎內(nèi)核版，全新的設(shè)計理念，真正的極簡版本。abot

11、地址:abot是一個開源的.net爬蟲，速度快，易于用法和擴(kuò)展。xnet地址:這個一個俄國牛人寫的開源工具，為啥說他強(qiáng)悍了，由于他將全部http協(xié)議的底層都實現(xiàn)了一遍，這有啥益處？只要你是寫爬蟲的，都會碰到一個讓人抓狂的問題，就是明明知道自己http哀求頭跟掃瞄器千篇一律了，為啥還會獵取不到自己想要的數(shù)據(jù)。這時你假如用法httpwebreaquest，你只能調(diào)試到getrespone，底層的字節(jié)流是調(diào)試不到了。所以必需得有個更深化的底層組件，便利自己調(diào)試。anglesharp地址:解析html利器anglesharp介紹解析html利器anglesharp介紹anglesharp是基于.net

12、（c）開發(fā)的特地為解析xhtml源碼的dll組件。htmlagilitypack地址:htmlagilitypack 是 .net 下的一個 html 解析類庫。支持用 xpath 來解析 html 。命名空間： htmlagilitypackcsquery地址:csquery 犀利的html代碼分析庫，像jq一樣用c處理htmlopen-source-search-engine地址:基于c/c+開發(fā)的網(wǎng)絡(luò)爬蟲和搜尋引擎.cobweb地址:十分靈便，易于擴(kuò)展的網(wǎng)絡(luò)爬蟲，可以單點部署用法.upton地址:一個易于上手的爬蟲框架集合，支持css挑選器.wombat地址:基于ruby自然的支持dsl

13、的網(wǎng)絡(luò)爬蟲，易于提取網(wǎng)頁正文數(shù)據(jù).spidr地址:全站數(shù)據(jù)采集，支持無限的網(wǎng)站鏈接地址采集.larbin地址:larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛，由法國的衰老人sébastien ailleret自立開發(fā)，用c+語言實現(xiàn)。larbin目的是能夠跟蹤頁面的url舉行擴(kuò)展的抓取，最后為搜尋引擎提供廣泛的數(shù)據(jù)來源。 larbin只是一個爬蟲，也就是說larbin只抓取網(wǎng)頁，至于如何parse的事情則由用戶自己完成。另外，如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。?larbin最初的設(shè)計也是依據(jù)設(shè)計容易但是高度可配置性的原則，因此我們可以看到，一個容易的larbin的爬蟲可以天天獵取500萬的網(wǎng)頁，實在是十分高效。?利用larbin，我們可以輕易的獵取/確定單個網(wǎng)站的全部聯(lián)結(jié)，甚至可以鏡像一個網(wǎng)站；也可以用它建立url 列表群，例如針對全部的網(wǎng)頁舉行 url re

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

常用爬蟲框架以及優(yōu)劣分析精選

文檔簡介

溫馨提示

最新文檔

評論

常用爬蟲框架以及優(yōu)劣分析精選

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔