




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、河北師范大學(xué)軟件學(xué)院網(wǎng)絡(luò)爬蟲(chóng)1. 實(shí)驗(yàn)?zāi)繕?biāo)1. 熟悉網(wǎng)絡(luò)爬蟲(chóng)的相關(guān)概念及實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)的相關(guān)流程。2. 了解WebCollector框架的基本原理。3. 熟練掌握在Eclipse項(xiàng)目中配置使用WebCollector爬蟲(chóng)。2. 前提條件1 正確安裝和配置Java開(kāi)發(fā)環(huán)境。2 了解網(wǎng)絡(luò)爬蟲(chóng)的相關(guān)知識(shí)3 進(jìn)入WebCollector官方網(wǎng)站下載所需jar包。3. 實(shí)驗(yàn)任務(wù)及完成標(biāo)準(zhǔn)本次實(shí)驗(yàn)通過(guò)WebCollector框架實(shí)現(xiàn)一個(gè)簡(jiǎn)單的聚焦網(wǎng)絡(luò)爬蟲(chóng)。用戶可根據(jù)自己的需求定制網(wǎng)絡(luò)爬蟲(chóng),設(shè)定待爬取的網(wǎng)址、爬取網(wǎng)頁(yè)的數(shù)量、爬取網(wǎng)頁(yè)的內(nèi)容等。通過(guò)對(duì)該實(shí)例的詳細(xì)介紹來(lái)探討網(wǎng)絡(luò)爬蟲(chóng)的原理及在實(shí)際生活中的應(yīng)用。在此
2、實(shí)例的基礎(chǔ)上,學(xué)生需要獨(dú)立完成更為復(fù)雜的聚焦網(wǎng)絡(luò)爬蟲(chóng),來(lái)爬取更有意義的內(nèi)容。具體要求見(jiàn)“4 擴(kuò)展內(nèi)容”。3.1 建立應(yīng)用程序項(xiàng)目打開(kāi)eclipse,創(chuàng)建本次實(shí)驗(yàn)項(xiàng)目htmlCrawler(【File】->【New】->【Java Project】)如圖1所示。圖1 創(chuàng)建工程3.2 在Eclipse項(xiàng)目中配置使用WebCollector爬蟲(chóng)1 選中 htmlCrawler 右鍵,選中【New】->【Folder】,輸入文件名稱“l(fā)ib”,如下圖2所示。圖2 創(chuàng)建文件夾2解壓縮 webcollector-2.26-bin.zip,拷貝所有的Jar包 ,放到lib目錄中,如圖3所示
3、。圖3 目錄結(jié)構(gòu)圖3將文件夾lib中的所有jar包添加到build path中,如圖4、圖5、圖6所示。圖4 圖5 圖6依次選中jar包,導(dǎo)入到工程中。4 如果想看WebCollector的源碼,可以為Jar包關(guān)聯(lián)源碼(可選),如圖6、圖7所示。圖6圖73.3 現(xiàn)在可以編寫(xiě)WebCollector爬蟲(chóng)的代碼了新建一個(gè)類Crawler.java,繼承自BreadthCrawler。重寫(xiě)visit方法,來(lái)實(shí)現(xiàn)滿足自己需求的爬蟲(chóng)即可。如圖8、圖9所示。圖8圖93.4 抓取河北師大軟件學(xué)院網(wǎng)站首頁(yè)的源代碼package htmlCrawler;import java.io.IOException;im
4、port .hfut.dmic.webcollector.model.CrawlDatums;import .hfut.dmic.webcollector.model.Page;import .hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;import .hfut.dmic.webcollector.util.FileUtils;public class Crawler extends BreadthCrawler public Crawler(String crawlPath, bo
5、olean autoParse) super(crawlPath, autoParse);/ TODO Auto-generated constructor stubOverridepublic void visit(Page page, CrawlDatums next) / TODO Auto-generated method stubtry System.out.println("正在提?。?quot;+page.getUrl();/將爬取的內(nèi)容寫(xiě)到test.html頁(yè)FileUtils.writeFileWithParent("downloads/test.html
6、", page.getContent(); catch (IOException e) / TODO Auto-generated catch blocke.printStackTrace(); public static void main(String args) /創(chuàng)建爬蟲(chóng)對(duì)象 Crawler crawler = new Crawler("html_crawler",true); crawler.addSeed(" try /啟動(dòng) 爬蟲(chóng)crawler.start(1); catch (Exception e) / TODO Auto-generat
7、ed catch blocke.printStackTrace(); 控制臺(tái)輸出結(jié)果:2016-02-25 14:23:06 INFO .hfut.dmic.webcollector.crawler.Crawler - start depth 12016-02-25 14:23:06 INFO .hfut.dmic.webcollector.fetcher.Fetcher - open generator:.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator2016-02-25 14:23:06
8、INFO .hfut.dmic.webcollector.fetcher.Fetcher - init segmentWriter:.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager2016-02-25 14:23:07 INFO .hfut.dmic.webcollector.fetcher.Fetcher - -activeThreads=1, spinWaiting=0, fetchQueue.size=02016-02-25 14:23:07 INFO .hfut.dmic.
9、webcollector.fetcher.Fetcher - fetch URL: 正在提?。?016-02-25 14:23:08 INFO .hfut.dmic.webcollector.fetcher.Fetcher - -activeThreads=0, spinWaiting=0, fetchQueue.size=02016-02-25 14:23:08 INFO .hfut.dmic.webcollector.fetcher.Fetcher - clear all activeThread2016-02-25 14:23:08 INFO .hfu
10、t.dmic.webcollector.fetcher.Fetcher - close generator:.hfut.dmic.webcollector.plugin.berkeley.BerkeleyGenerator2016-02-25 14:23:08 INFO .hfut.dmic.webcollector.fetcher.Fetcher - close segmentwriter:.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager2016-02-25 14:23:08 INFO cn
11、.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager - start merge2016-02-25 14:23:08 INFO .hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager - merge fetch database2016-02-25 14:23:08 INFO .hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager - merge link database2016
12、-02-25 14:23:08 INFO .hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager - end merge2016-02-25 14:23:08 INFO .hfut.dmic.webcollector.crawler.Crawler - depth 1 finish: TOTAL urls:1TOTAL time:2 seconds爬取結(jié)果如圖10所示。圖104 擴(kuò)展內(nèi)容4.1 在本實(shí)驗(yàn)的基礎(chǔ)上,進(jìn)行相關(guān)的設(shè)置:(1)爬取的深度;設(shè)置開(kāi)啟的線程數(shù);(2)設(shè)置爬取url的上限;(3)通過(guò)正則表達(dá)式
13、設(shè)置爬取哪些網(wǎng)頁(yè),不爬取哪些網(wǎng)頁(yè)等(eg./*不要爬取jpg|png|gif*/ ,代碼:crawler.addRegex("-.*.(jpg|png|gif).*");)。(4)實(shí)現(xiàn)代碼由學(xué)生自己完成4.2 實(shí)現(xiàn)自己的網(wǎng)絡(luò)爬蟲(chóng),抓取“新浪新聞”(1)需要抓取信息包括:網(wǎng)址,標(biāo)題,時(shí)間,網(wǎng)頁(yè)內(nèi)容等。(2)將抓取的數(shù)據(jù)寫(xiě)到文本文件或excel表中。(3)抓取代碼由學(xué)生自己完成。提示:將數(shù)據(jù)寫(xiě)到excel表中,需要導(dǎo)入poi-3.14-beta1-20151223.jar包,部分代碼如下:/創(chuàng)建一個(gè)EXCEL Workbook wb = new HSSFWorkbook();.
14、/創(chuàng)建一個(gè)SHEET sheet1 = wb.createSheet("數(shù)據(jù)解析"); String title = "url","標(biāo)題","評(píng)論","時(shí)間","內(nèi)容","本地相對(duì)路徑" int i=0; /創(chuàng)建一行 Row row = sheet1.createRow(short)0); /填充標(biāo)題 for (String s:title) Cell cell = row.createCell(i); cell.setCellValue(s); i+;
15、/下面是填充數(shù)據(jù)的部分代碼AtomicInteger id=new AtomicInteger(0);Row row = sheet1.createRow(short)id.incrementAndGet(); row.createCell(0).setCellValue(url); row.createCell(1).setCellValue(title); row.createCell(2).setCellValue(comment);row.createCell(3).setCellValue(time);row.createCell(4).setCellValue(contents);row.createCell(5).setCellValue(path);4.3 改進(jìn)4.2中自己的網(wǎng)絡(luò)爬蟲(chóng),將抓取的數(shù)據(jù)直接寫(xiě)到數(shù)據(jù)庫(kù)中。實(shí)現(xiàn)代碼由學(xué)生自己完成。提示:使用J
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 乳品廢棄物處理技術(shù)智能化發(fā)展研究考核試卷
- 農(nóng)機(jī)租賃市場(chǎng)拓展策略與區(qū)域差異化發(fā)展考核試卷
- 糖業(yè)市場(chǎng)環(huán)境政策對(duì)行業(yè)影響評(píng)估考核試卷
- 2024年事業(yè)單位考試山西省運(yùn)城市《公共基礎(chǔ)知識(shí)》考前沖刺試題含解析
- 基本醫(yī)療保險(xiǎn)醫(yī)療機(jī)構(gòu)制劑支付管理辦法
- 企業(yè)新員工個(gè)人工作總結(jié)10篇
- 化工裝置儀表自動(dòng)控制理論知識(shí)
- 楚雄幼兒園手工活動(dòng)方案
- 桌球獎(jiǎng)品活動(dòng)方案
- 欣賞與設(shè)計(jì)活動(dòng)方案
- 2024年江西省公安廳招聘警務(wù)輔助人員考試真題
- 2025年湖北省普通高中學(xué)業(yè)水平合格性考試模擬(三)歷史試題(含答案)
- 2025年高考全國(guó)二卷數(shù)學(xué)高考真題解析 含參考答案
- 2025年普通高等學(xué)校招生全國(guó)統(tǒng)一考試數(shù)學(xué)試題(全國(guó)一卷)(有解析)
- 2025年日歷表全年(打印版)完整清新每月一張
- 2023年建設(shè)銀行紀(jì)檢監(jiān)察條線考試真題模擬匯編(共858題)
- GB/T 4744-2013紡織品防水性能的檢測(cè)和評(píng)價(jià)靜水壓法
- 2021年包頭職業(yè)技術(shù)學(xué)院教師招聘試題及答案解析
- DBJ50∕T-342-2019 工程建設(shè)對(duì)既有建(構(gòu))筑物安全影響評(píng)估標(biāo)準(zhǔn)
- [論文]黃土隧道洞身開(kāi)挖、支護(hù)施工技術(shù)
- 廈門職稱改革領(lǐng)導(dǎo)小組
評(píng)論
0/150
提交評(píng)論