下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、開源搜索引擎的比較Nutch簡介:Nutch是一個用java實現(xiàn)的基于Lucene的開源搜索引擎框架,主要包括爬蟲 和查詢兩部分組成。Nutch所使用的數(shù)據(jù)文件主要有以下三種:1)是webDb,保 存網(wǎng)頁鏈接結(jié)構(gòu)信息,只在爬蟲工作中使用。2)是segment,存儲網(wǎng)頁內(nèi)容及其 索引,以產(chǎn)生的時間來命名。segment文件內(nèi)容包括CrawlDatum、Content、 ParseData、ParseText四個部分,其中CrawlDatum保存抓取的基本信息,content 保存html腳本,ParseData和ParseText這兩個部分是對原內(nèi)容的解析結(jié)果。3) 是index,即索引文件,它
2、把各個segment的信息進(jìn)行了整合。爬蟲的搜索策略是 采用廣度優(yōu)先方式抓取網(wǎng)頁,且只獲取并保存可索引的內(nèi)容。Nutch0.7 需要 java1.4 以上的版本,nutch1.0 需要 java1.6。特點:1、遵循robots.txt,當(dāng)爬蟲訪問一個站點時,會首先檢查該站點根目錄下是否 存在robots.txt,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的 范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保 護(hù)的頁面。2、采用基于Hadoop的分布式處理模型,支持分布式的實現(xiàn)。3、Nutch可以修剪內(nèi)容,或者對內(nèi)容格式進(jìn)行轉(zhuǎn)換。4、Nutch使用插件機(jī)制,可以很
3、好的被用戶定制和集成。5、Nutch采用了多線程技術(shù)。6、將爬取和建索引整合在了一起,爬取內(nèi)容的存儲方式是其自己定義的 segment,不便于對爬取的內(nèi)容進(jìn)行再次處理,需要進(jìn)行一定的修改。7、因為加入了對頁面分析,建索引等功能其效率與heritrix相比要相對較低。Heritrix簡介:Heritrix是一個用Java實現(xiàn)的基于整個web的可擴(kuò)展的開源爬蟲框架。Heritrix主要由三大部件:范圍部件,邊界部件,處理器鏈組成。范圍部件主要 按照規(guī)則決定將哪個URI入隊;邊界部件跟蹤哪個預(yù)定的URI將被收集,和已經(jīng)被 收集的URI,選擇下一個URI,剔除已經(jīng)處理過的URI;處理器鏈包含若干處理器
4、 獲取URI,分析結(jié)果,將它們傳回給邊界部件。采用廣度優(yōu)先算法進(jìn)行爬取。heritrix用來獲取完整的、精確的、站點內(nèi)容的深度復(fù)制。包括獲取圖像以 及其他非文本內(nèi)容。抓取并存儲相關(guān)的內(nèi)容。對內(nèi)容來者不拒,不對頁面進(jìn)行內(nèi) 容上的修改。重新爬行對相同的URL不針對先前的進(jìn)行替換。特點:1、各個部件都具有較高的可擴(kuò)展的,通過對各個部件的修改可以實現(xiàn)自己的抓 取邏輯。2、可以進(jìn)行多種的配置,包括可設(shè)置輸出日志,歸檔文件和臨時文件的位置; 可設(shè)置下載的最大字節(jié),最大數(shù)量的下載文檔,和最大的下載時間;可設(shè)置 工作線程數(shù)量;可設(shè)置所利用的帶寬的上界;可在設(shè)置之后一定時間重新選 擇;包含一些可設(shè)置的過濾機(jī)制,
5、表達(dá)方式,URI路徑深度選擇等等。3、采用多線程技術(shù)。4、保存的內(nèi)容是原始的內(nèi)容,采用鏡像方式存儲,即按照斜杠所劃分出的層次 結(jié)構(gòu)進(jìn)行存儲,同時也會爬取圖片等信息。5、同樣也遵守robots.txt規(guī)范。6、在硬件和系統(tǒng)失敗時,恢復(fù)能力很差。WebSPHINX簡介:WebSPHINX是一個Java類包和Web爬蟲的交互式開發(fā)環(huán)境。WebSPHINX由 兩部分組成:爬蟲工作平臺和WebSPHINX類包。爬蟲工作臺提供接口實現(xiàn)對爬 蟲的配置;類包則提供對爬蟲進(jìn)行擴(kuò)展需要的一些支持。其工作原理為從一個基點網(wǎng)站出發(fā),遍歷其中的所有有用信息,同時抽去其 中的鏈接信息放入隊列,以待有空閑蠕蟲(worm)時
6、,從隊列中讀取,發(fā)出request 請求,繼續(xù)進(jìn)行信息抽取和鏈接入隊列的工作。特點:1、保存網(wǎng)頁的原始內(nèi)容。2、采用多線程技術(shù)。3、采用廣度優(yōu)先遍歷算法進(jìn)行爬取。4、支持HTML解析,URL過濾,頁面配置,模式匹配等等。5、適用于爬取小規(guī)模的網(wǎng)頁,例如爬取單一的個人站點。Weblech簡介:WebLech是一個用Java實現(xiàn)的功能強(qiáng)大的Web站點下載與鏡像工具。它支 持按功能需求來下載web站點并能夠盡可能模仿標(biāo)準(zhǔn) Web瀏覽器的行為。 WebLech有一個功能控制臺并采用多線程操作。特點:1、支持多線程技術(shù)。2、可維持網(wǎng)頁的鏈接信息,可配置性較強(qiáng),配置較為靈活,可設(shè)置需獲取的網(wǎng) 頁文件的類型
7、、起始地址、抓取策略等14項內(nèi)容。3、采用廣度優(yōu)先遍歷算法爬取網(wǎng)頁。4、保存網(wǎng)頁的原始內(nèi)容。Jspider簡介:JSpider是一個完全用Java實現(xiàn)的可配置和定制的Web Spider引擎.你可以利 用它來檢查網(wǎng)站的錯誤(內(nèi)在的服務(wù)器錯誤等),網(wǎng)站內(nèi)外部鏈接檢查,分析網(wǎng)站的 結(jié)構(gòu)(可創(chuàng)建一個網(wǎng)站地圖),下載整個Web站點,你還可以寫一個JSpider插件來 擴(kuò)展你所需要的功能。Jspider主要由規(guī)則、插件和事件過濾器三部分組成,規(guī)則決定獲取和處理什 么資源;插件可以根據(jù)配置疊加和替換功能模塊;事件過濾器選擇處理什么事件 或則獨(dú)立的插件。特點:1、擴(kuò)展性較強(qiáng),容易實現(xiàn)對爬蟲功能的擴(kuò)展。2、目
8、前只支持下載HTML,不支持下載動態(tài)網(wǎng)頁。3、保存原始網(wǎng)頁內(nèi)容。Spindle簡介:spindle是一個構(gòu)建在Lucene工具包之上的Web索引和搜索工具.它包括一 個用于創(chuàng)建索引的HTTPspider和一個用于搜索這些索引的搜索類。spindle項目 提供了一組JSP標(biāo)簽庫使得那些基于JSP的站點不需要開發(fā)任何Java類就能夠增 加搜索功能。該項目長期沒有更新且功能不完善。Jobo簡介:JoBo是一個用于下載整個Web站點的簡單工具。它本質(zhì)是一個WebSpider。 與其它下載工具相比較它的主要優(yōu)勢是能夠自動填充form(如:自動登錄)和使用 cookies來處理session。JoBo還有靈活的下載規(guī)則(如:通過網(wǎng)頁的URL,大小, MIME類型等)來限制下載。Snoics-reptile簡介:snoics-reptile是用純Java開發(fā)的,用來進(jìn)行網(wǎng)站鏡像抓取的工具,可以使用 配制文件中提供的URL入口,把這個網(wǎng)站所有的能用瀏覽器通過GET的方式獲 取到的資源全部抓取到本地,包括網(wǎng)頁和各種類型的文件,如:圖片、flash、 mp3、zip、rar、exe等文件??梢詫⒄麄€網(wǎng)站完整地下傳至硬盤內(nèi),并能保持原 有的網(wǎng)站結(jié)構(gòu)精確不變。只需要把抓取下來的網(wǎng)站放到web服務(wù)器(如:Apache) 中,就可以實現(xiàn)完整的網(wǎng)站鏡
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度住宅小區(qū)電動車停車位租賃協(xié)議4篇
- 未來家居創(chuàng)新材料與設(shè)計的美學(xué)融合
- 2025年度綠色建筑領(lǐng)域民營中小企業(yè)技術(shù)服務(wù)合同4篇
- 個人房產(chǎn)作為貸款抵押品協(xié)議2024一
- 二零二五版煤礦安全生產(chǎn)風(fēng)險評價與管控服務(wù)合同4篇
- 2025年度專業(yè)市場攤位租賃及品牌入駐管理合同4篇
- 二零二四女方不忠婚姻解除協(xié)議及財產(chǎn)分割、子女撫養(yǎng)協(xié)議6篇
- 2025年度廠房電氣火災(zāi)預(yù)防與應(yīng)急處理服務(wù)合同4篇
- 二零二五版商鋪產(chǎn)權(quán)過戶代理合同3篇
- 2025年度廠房拆遷補(bǔ)償與綠色建筑推廣實施合同3篇
- (二統(tǒng))大理州2025屆高中畢業(yè)生第二次復(fù)習(xí)統(tǒng)一檢測 物理試卷(含答案)
- 口腔執(zhí)業(yè)醫(yī)師定期考核試題(資料)帶答案
- 2024人教版高中英語語境記單詞【語境記單詞】新人教版 選擇性必修第2冊
- 能源管理總結(jié)報告
- 充電樁巡查記錄表
- 阻燃材料的阻燃機(jī)理建模
- CJT 511-2017 鑄鐵檢查井蓋
- 配電工作組配電網(wǎng)集中型饋線自動化技術(shù)規(guī)范編制說明
- 2024高考物理全國乙卷押題含解析
- 介入科圍手術(shù)期護(hù)理
- 青光眼術(shù)后護(hù)理課件
評論
0/150
提交評論