網絡數據采集技術概述_第1頁
網絡數據采集技術概述_第2頁
網絡數據采集技術概述_第3頁
網絡數據采集技術概述_第4頁
網絡數據采集技術概述_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄爬蟲技術數據采集流程網頁分析動態(tài)頁面抓取可視化爬蟲爬蟲框架案例反爬技術反爬技術及解決方案第一頁,共11頁。前言robots.txt:

Robots協(xié)議被稱為爬蟲協(xié)議,或機器人協(xié)議。是國際互聯網界通行的道德規(guī)范。User-agent:用于描述搜索引擎robot的名字;Disallow:禁止robot訪問該網站的目錄或文件;Allow:允許robot訪問該網站的目錄或文件;sitemap.xml/txt/html/..:

Sitemaps協(xié)議使網站能夠告知搜索引擎網站中可供抓取的網址。自動生成:更方便地了解一個網站的內容、布局、架構。主動提交:向百度、Google、雅虎、和微軟等提交,被搜索引擎收錄。第二頁,共11頁。數據采集流程需求分析:業(yè)務類型/方向決定抓取策略和抓取頻率。(干什么用)抓取內容:具體需要什么數據/字段。(怎么用)數據來源:數據來源于具體網站或其他。抓取方式:獲取數據的方式、網頁結構分析、API等。代碼實現:自定義或開源爬蟲框架。數據清洗:根據業(yè)務具體情況轉換數據格式、類型,進行數據計算等。數據清洗分為入庫前點清洗和入庫后點清洗。數據存儲:寫文件或入庫方式,遠程數據入庫,數據加密等。爬蟲任務分發(fā):分布式爬蟲、多線程爬蟲。反爬策略、日志管理、監(jiān)控報警等。第三頁,共11頁。網頁分析數據抓取方式網頁移動網頁移動客戶端API網頁解析正則XpathBeautifulSoupJson格式解析網頁編碼第四頁,共11頁。動態(tài)頁面抓取JS渲染頁面WebkitRender類Ajax請求IframeSelenium庫重定向Status_codeHtml

meta的refreshjs第五頁,共11頁??梢暬老xImport.ioPortia八爪魚集搜客造數BBD第六頁,共11頁。爬蟲框架Scrapy框架:第七頁,共11頁。案例1:58同城-簡歷中心url:E7%AE%80%E5%8E%86%E4%B8%AD%E5%BF%83第八頁,共11頁。案例2:阿里巴巴-搜索url:httpcee4baeec7f8.htmlSet-Cookie_csrf第九頁,共11頁。反爬技術User_agent判斷來源根據IP訪問頻率判斷,封鎖IP或者賬號驗證碼識別Pillow庫Tesseract庫Numpy機器學習根據實際成本制定策略頻繁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論