




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、微信采集實(shí)例頁(yè)面分析2 微信采集源為搜狗搜索中微信搜索 如下圖:微信采集實(shí)例頁(yè)面分析3 我們用火狐瀏覽器的firebug來查看網(wǎng)頁(yè)結(jié)構(gòu):微信采集實(shí)例頁(yè)面分析4通過對(duì)網(wǎng)頁(yè)源碼分析,得到我們需要的內(nèi)容: 標(biāo)題 摘要 標(biāo)題 摘要 針對(duì)網(wǎng)頁(yè)結(jié)構(gòu) ,利用jsoup來獲取相關(guān)元素:Int i=10; for (int i = 0; i len; i+) String titleCssQuery = div.txt-box h4 a#sogou_vr_11002601_title_ + i; String summaryCssQuery = div.txt-box p#sogou_vr_11002601_s
2、ummary_ + i;/標(biāo)題選擇 Element titleElement = document.select(titleCssQuery).first(); String href = ; String titleText = ; if(titleElement != null) titleText = titleElement.text();/標(biāo)題標(biāo)題 href = titleElement.attr(“href”);/url /摘要選擇 Element summaryElement = document.select(summaryCssQuery).first(); String s
3、ummaryText = ; if(summaryElement != null)/摘要摘要 summaryText = summaryElement.text(); 微信采集實(shí)例代碼5 實(shí)例中抓取 “微信”中包含醫(yī)院關(guān)鍵詞的文章,抓取新聞列表的標(biāo)題、url以及正文信息。采集完成后將信息錄入數(shù)據(jù)庫(kù)采集代碼片段: 入口url為 http:/ List search(String url) List webpages = new ArrayList(); try Document document = Jsoup.connect(url).get(); String cssQuery = html
4、 body div.mun resnum#scd_num; LOG.debug(total cssQuery: + cssQuery); Element totalElement = document.select(cssQuery).first(); String totalText = totalElement.text(); int total = Integer.parseInt(totalText.replace(, ).replace(個(gè)個(gè), ); LOG.info(搜索結(jié)果數(shù): + total); int len = 10;/這里我們只采集十條這里我們只采集十條微信采集實(shí)例代碼6
5、for (int i = 0; i len; i+) String titleCssQuery = div.txt-box h4 a#sogou_vr_11002601_title_ + i; String summaryCssQuery = div.txt-box p#sogou_vr_11002601_summary_ + i; Element titleElement = document.select(titleCssQuery).first(); String href = ; String titleText = ; if(titleElement != null) titleTe
6、xt = titleElement.text();/標(biāo)題 href = titleElement.attr(“href”);/標(biāo)題url Element summaryElement = document.select(summaryCssQuery).first(); String summaryText = ; if(summaryElement != null) summaryText = summaryElement.text(); /摘要 微信采集實(shí)例代碼7LOG.debug(summaryText); if (titleText != null & !.equals(tit
7、leText.trim() & summaryText != null & !.equals(summaryText.trim() Webpage webpage = new Webpage(); webpage.setTitle(titleText); webpage.setUrl(href); webpage.setSummary(summaryText); if (href != null) String content = Tools.getHTMLContent(href);/獲取正文獲取正文 webpage.setContent(content); else LOG
8、.info(頁(yè)面正確提取失敗); webpages.add(webpage); else LOG.error(獲取搜索結(jié)果列表項(xiàng)出錯(cuò): + titleText + - + summaryText); catch (IOException ex) LOG.error(搜索出錯(cuò),ex); return webpages;微信采集實(shí)例入庫(kù)8采集入庫(kù) List webpages = searcher.search(url);/采集 if (webpages != null) for (Webpage webpage : webpages) LOG.info(標(biāo)題: + webpage.getTitle(); LOG.info(URL: + webpage.getUrl(); LOG.info(摘要: + webpage.getSummary(); LOG.info(正文: + webpage.getContent(); /入庫(kù) DBUtil db=new DBUtil();/創(chuàng)建實(shí)例創(chuàng)建實(shí)例 db.insert(UUID.randomUUID().toString(), webpage.getTitle(), webpage.getSummary(),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司股權(quán)授權(quán)合同范本
- 光纖面板采購(gòu)合同范本
- 商場(chǎng)門店售賣合同范本
- 中華美德頌的演講稿
- 中專生學(xué)期個(gè)人總結(jié)
- 個(gè)人賣房委托書
- 分公司注銷合同范本
- 下半年會(huì)計(jì)工作總結(jié)
- 不起訴合同范本
- 代評(píng)職稱合同范本
- 2025-2030年(全新版)中國(guó)軟冰淇淋市場(chǎng)發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025新人教版英語(yǔ)七年級(jí)下單詞默寫表(小學(xué)部分)
- 2025江蘇蘇州高新區(qū)獅山商務(wù)創(chuàng)新區(qū)下屬國(guó)企業(yè)招聘9人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《蒙牛集團(tuán)實(shí)施財(cái)務(wù)共享過程中存在的問題及優(yōu)化建議探析》8800字(論文)
- 科研方法講座模板
- 投資學(xué)基礎(chǔ)(第二版)教案全套 李博
- 專職安全員述職報(bào)告
- 【MOOC】斷層影像解剖學(xué)-山東大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 同等學(xué)力人員申請(qǐng)碩士學(xué)位英語(yǔ)試卷與參考答案(2024年)
- 警民懇談會(huì)民警發(fā)言稿
- 2024年3月30日事業(yè)單位聯(lián)考C類《職業(yè)能力傾向測(cè)驗(yàn)》試題
評(píng)論
0/150
提交評(píng)論