網絡爬蟲原理與實戰(zhàn)課件_第1頁
網絡爬蟲原理與實戰(zhàn)課件_第2頁
網絡爬蟲原理與實戰(zhàn)課件_第3頁
網絡爬蟲原理與實戰(zhàn)課件_第4頁
網絡爬蟲原理與實戰(zhàn)課件_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

網絡爬蟲原理與實戰(zhàn)

網絡爬蟲原理與實戰(zhàn)

123133美女圖片抓取實例如何解析HTML網絡爬蟲基本原理23133美女圖片抓取實例如何解析HTML網絡爬蟲基本原理23網絡爬蟲基本原理

請求資源HttpPost/Get

解析HTMLJsoup獲取資源圖片.下個資源下載資源HttpClient3網絡爬蟲基本原理請求資源HttpPost/Get解34Java中的JQuery=JSoupgetElementById(Stringid)用id獲得元素getElementsByTag(Stringtag)用標簽獲得元素getElementsByClass(StringclassName)用class獲得元素getElementsByAttribute(Stringkey)用屬性獲得元素

用下面方法獲得元素的數(shù)據(jù):attr(Stringkey)獲得元素的數(shù)據(jù)attr(Stringkey,Stringvalue)t設置元素數(shù)據(jù)attributes()獲得所以屬性id(),className()classNames()獲得idclass得值text()獲得文本值text(Stringvalue)設置文本值html()獲取htmlhtml(Stringvalue)設置htmlouterHtml()獲得內部html

tagname操作tagns|tagns或tag#id用id獲得元素.class用class獲得元素[attribute]屬性獲得元素[^attr]:以attr開頭的屬性[attr=value]屬性值為value[attr^=value],[attr$=value],[attr*=value][attr~=regex]正則*:所以的標簽選擇組合el#idel和id定位el.classe1和class定位el[attr]e1和屬性定位ancestorchildancestor下面的childJsoup官方網站/相關學習資/topic/1010581/topic/1010582/neverend06/blog/item/1e9acb25114cf3144d088df2.html4Java中的JQuery=JSoupgetEleme45簡單的測試另存?zhèn)€簡單的HTML做測試Fileinput=newFile("/example.html");Documentdoc=Jsoup.parse(input,"UTF-8");//取得class=big的img對象Elementselements=doc.select("img[class=big]");//取得class=big的img對象elements=doc.getElementsByClass("big");//取得ID=img001的對象Elementelement=doc.getElementById("img001");5簡單的測試另存?zhèn)€簡單的HTML做測試56讓我們來抓取一個帖子中的幾張圖片/thread-35975-1-1.html1.發(fā)送請求返回帖子HTML2.分析帖子HTML中的圖片鏈接3.通過HttpClient取得圖片輸出流4.保存輸出流為圖片6讓我們來抓取一個帖子中的幾張圖片http://bbs.we67/forum-3-1.html1.發(fā)送請求返回論壇HTML2.分析論壇HTML中的每個帖子3.取得帖子鏈接,發(fā)送請求返回帖子HTML5.分析帖子HTML中有哪些圖片.6.取得圖片鏈接,通過HttpClient取得圖片輸出流7.保存輸出流為圖片7/forum-3-78如何提升抓取速度1.多線程并發(fā)下載圖片,你帶寬夠嗎?2.分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論