《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲(chóng)_第1頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲(chóng)_第2頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲(chóng)_第3頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲(chóng)_第4頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-網(wǎng)絡(luò)爬蟲(chóng)_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

網(wǎng)絡(luò)爬蟲(chóng)Contents素養(yǎng)目標(biāo)熟悉國(guó)內(nèi)比較常用的網(wǎng)絡(luò)爬蟲(chóng)工具技能目標(biāo)能夠根據(jù)需要使用網(wǎng)絡(luò)爬蟲(chóng)工具對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集知識(shí)目標(biāo)了解網(wǎng)絡(luò)爬蟲(chóng)的概念、原理、分類及應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)的概念網(wǎng)絡(luò)爬蟲(chóng)(又稱網(wǎng)絡(luò)蜘蛛)提取信息訪問(wèn)網(wǎng)站瀏覽網(wǎng)頁(yè)時(shí)的行為模擬人類是一種自動(dòng)地在互聯(lián)網(wǎng)上收集信息的程序。網(wǎng)絡(luò)爬蟲(chóng)的基本原理工作原理解析網(wǎng)頁(yè)代碼,找到鏈接。繼續(xù)訪問(wèn)其他網(wǎng)頁(yè)。網(wǎng)頁(yè)上的信息被提取并存儲(chǔ)在數(shù)據(jù)庫(kù)中供后續(xù)使用。網(wǎng)絡(luò)爬蟲(chóng)的工作原理預(yù)先設(shè)定一個(gè)或若干初始網(wǎng)頁(yè)的URL,將初始URL加入待爬取的URL列表。1從待爬取的URL列表中逐個(gè)讀取URL,并將URL加入已爬取的URL列表中,然后下載網(wǎng)頁(yè)。2解析已下載的網(wǎng)頁(yè),提取所需的數(shù)據(jù)和新的URL,并存儲(chǔ)提取的數(shù)據(jù)。3將新的URL與已提取的URL列表進(jìn)行比對(duì),檢查該網(wǎng)頁(yè)是否已爬取,如果網(wǎng)頁(yè)沒(méi)有被爬取,則將新的URL放入待爬取URL列表的末尾,等待讀取。4如此往復(fù),直到待爬取URL列表為空或者滿足設(shè)定的停止條件,最后達(dá)到遍歷網(wǎng)頁(yè)的目的。5網(wǎng)絡(luò)爬蟲(chóng)的類型通用網(wǎng)絡(luò)爬蟲(chóng)聚焦網(wǎng)絡(luò)爬蟲(chóng)增量式網(wǎng)絡(luò)爬蟲(chóng)深層頁(yè)面爬蟲(chóng)按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)劃分:WWW.通用網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)的類型又稱全網(wǎng)爬蟲(chóng),是根據(jù)網(wǎng)絡(luò)爬蟲(chóng)的基本原理實(shí)現(xiàn)的。初始設(shè)定的URL擴(kuò)充到全網(wǎng)主要應(yīng)用于門戶網(wǎng)站、搜索引擎和大型網(wǎng)絡(luò)服務(wù)提供商的數(shù)據(jù)采集。聚焦網(wǎng)絡(luò)爬蟲(chóng)目標(biāo)是與預(yù)先定義好的主題相關(guān)的網(wǎng)頁(yè)。爬取目標(biāo)極大節(jié)省硬件和網(wǎng)絡(luò)資源主要應(yīng)用于對(duì)特定領(lǐng)域信息有需求的場(chǎng)景。只爬取與主題相關(guān)的網(wǎng)頁(yè)爬取目標(biāo)增量式網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)的類型有更新的已下載網(wǎng)頁(yè)爬取目標(biāo)新產(chǎn)生的網(wǎng)頁(yè)+深層頁(yè)面爬蟲(chóng)爬取目標(biāo)不能通過(guò)靜態(tài)鏈接獲取隱藏在搜索表單后只有用戶提交一些關(guān)鍵詞才能獲得的網(wǎng)頁(yè)如用戶注冊(cè)后才可顯示的內(nèi)容。爬蟲(chóng)程序監(jiān)測(cè)網(wǎng)站數(shù)據(jù)更新的情況,然后在需要的時(shí)候只爬取發(fā)生更新或新產(chǎn)生的網(wǎng)頁(yè)。網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用爬蟲(chóng)程序每天連續(xù)地爬取相關(guān)網(wǎng)站。百度爬蟲(chóng)Baiduspider谷歌爬蟲(chóng)Googlebot每個(gè)獨(dú)立的搜索引擎都有自己的爬蟲(chóng)程序1網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用企業(yè)用戶在采集和分析數(shù)據(jù)時(shí)也時(shí)常會(huì)借助網(wǎng)絡(luò)爬蟲(chóng)2以確定爬取產(chǎn)品的用戶信息目標(biāo)客戶群體以制定爬取同類產(chǎn)品的銷售信息營(yíng)銷策略普通用戶也可以根據(jù)自己關(guān)注的主題采集所需要的數(shù)據(jù)3例如:WWW.通過(guò)爬蟲(chóng)程序保存下來(lái)實(shí)現(xiàn)可見(jiàn)即可得。網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用企業(yè)用戶在采集和分析數(shù)據(jù)時(shí)也時(shí)常會(huì)借助網(wǎng)絡(luò)爬蟲(chóng)2以確定分析產(chǎn)品的用戶信息目標(biāo)客戶群體以制定分析同類產(chǎn)品的銷售信息營(yíng)銷策略普通用戶也可以根據(jù)自己關(guān)注的主題采集所需要的數(shù)據(jù)3例如:例如:爬取網(wǎng)站上的圖片學(xué)術(shù)網(wǎng)站的論文團(tuán)購(gòu)網(wǎng)站的價(jià)格及點(diǎn)評(píng)各種電商平臺(tái)的商品信息招聘網(wǎng)站的招聘信息網(wǎng)絡(luò)爬蟲(chóng)工具的工作流程瀏覽器提交請(qǐng)求下載網(wǎng)頁(yè)代碼解析成頁(yè)面模擬瀏覽器發(fā)送請(qǐng)求(獲取網(wǎng)頁(yè)代碼)提取有用的數(shù)據(jù)存放于數(shù)據(jù)庫(kù)或文件中爬蟲(chóng)一般是使用第二種方式。用戶獲取網(wǎng)絡(luò)數(shù)據(jù)有兩種方式:第一種:第二種:網(wǎng)絡(luò)爬蟲(chóng)工具的工作流程爬取流程如下圖所示:發(fā)送請(qǐng)求獲取響應(yīng)內(nèi)容解析內(nèi)容保存數(shù)據(jù)網(wǎng)絡(luò)爬蟲(chóng)工具的工作流程爬取網(wǎng)頁(yè)解析網(wǎng)頁(yè)存儲(chǔ)數(shù)據(jù)分為三個(gè)步驟:網(wǎng)絡(luò)爬蟲(chóng)工具的工作流程爬取網(wǎng)頁(yè)解析網(wǎng)頁(yè)存儲(chǔ)數(shù)據(jù)分為三個(gè)步驟:即獲取網(wǎng)頁(yè)的源代碼,源代碼里包含了網(wǎng)頁(yè)的有用信息。網(wǎng)絡(luò)爬蟲(chóng)工具的工作流程爬取網(wǎng)頁(yè)解析網(wǎng)頁(yè)存儲(chǔ)數(shù)據(jù)分為三個(gè)步驟:指根據(jù)網(wǎng)頁(yè)結(jié)構(gòu),分析網(wǎng)頁(yè)源代碼,從中提取想要的數(shù)據(jù)。最常用的方法是正則表達(dá)式。變得雜亂的數(shù)據(jù)條理清晰網(wǎng)絡(luò)爬蟲(chóng)工具的工作流程爬取網(wǎng)頁(yè)解析網(wǎng)頁(yè)存儲(chǔ)數(shù)據(jù)分為三個(gè)步驟:保存數(shù)據(jù)的方式有很多種。也可以保存到數(shù)據(jù)庫(kù)中,如MySQL和MongoDB等??梢院?jiǎn)單保存到JSON或CSV文件八爪魚(yú)采集器常用的網(wǎng)絡(luò)爬蟲(chóng)工具是由深圳視界信息技術(shù)有限公司自主研發(fā)的。一款集網(wǎng)頁(yè)數(shù)據(jù)采集、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)及API服務(wù)等于一體的數(shù)據(jù)服務(wù)平臺(tái)。數(shù)據(jù)爬蟲(chóng)數(shù)據(jù)優(yōu)化數(shù)據(jù)挖掘數(shù)據(jù)存儲(chǔ)數(shù)據(jù)備份后羿采集器常用的網(wǎng)絡(luò)爬蟲(chóng)工具是由前谷歌搜索技術(shù)團(tuán)隊(duì)基于人工智能技術(shù)研發(fā)的新一代網(wǎng)頁(yè)采集軟件。特點(diǎn)功能強(qiáng)大,操作簡(jiǎn)單。適合行業(yè)用戶群:無(wú)編程基礎(chǔ)者運(yùn)營(yíng)銷售金融新聞電商數(shù)據(jù)分析政府機(jī)關(guān)學(xué)術(shù)研究法律法規(guī)網(wǎng)絡(luò)爬蟲(chóng)目前還處于早期的蠻荒階段處于建設(shè)之中“允許哪些行為”如果抓取數(shù)據(jù)的行為用于個(gè)人使用通常不存在問(wèn)題如果數(shù)據(jù)用來(lái)轉(zhuǎn)載需要注意原創(chuàng)作品的版權(quán)問(wèn)題爬取數(shù)據(jù)時(shí)需要注意:應(yīng)當(dāng)約束自己的抓取行為。盡量不要高強(qiáng)度、高頻率的下載數(shù)據(jù)。從目前的實(shí)踐來(lái)看:法律法規(guī)很多網(wǎng)站都會(huì)定義robots.txt文件讓爬蟲(chóng)了解爬取該網(wǎng)站時(shí),存在哪些限制,下面的地址列出一些知名網(wǎng)站的robots.txt訪問(wèn)地址:/robots.txt(淘寶)/robots.txt (京東)/robots.txt

(亞馬遜)法律法規(guī)例如通過(guò)訪問(wèn)京東的robots.txt內(nèi)容,可以看出標(biāo)識(shí)了哪些地址允許訪問(wèn),哪些不允許,以及所允許的爬蟲(chóng)類別。很多網(wǎng)站都會(huì)定義robots.txt文件robots.txt文件沒(méi)有實(shí)際的約束力,可以選擇不遵守。Robots協(xié)議只是一種建議但可能存在一定的法律風(fēng)險(xiǎn)思政意識(shí)提升爬取數(shù)據(jù)的過(guò)程中,遵守法律法規(guī)和網(wǎng)站的使用協(xié)議,尊重網(wǎng)站的版權(quán)和隱私,不進(jìn)行違法違規(guī)的爬取行為。防爬蟲(chóng)應(yīng)對(duì)策略并發(fā)發(fā)送上百個(gè)重復(fù)的請(qǐng)求響應(yīng)啊,又是剛剛那個(gè)家伙客戶端服務(wù)器很多網(wǎng)絡(luò)爬蟲(chóng)對(duì)網(wǎng)頁(yè)的爬取能力很差,現(xiàn)在的網(wǎng)站會(huì)采取一些防爬蟲(chóng)措施來(lái)阻止爬蟲(chóng)的不當(dāng)爬取行為。防爬蟲(chóng)應(yīng)對(duì)策略偽裝成瀏覽器發(fā)送請(qǐng)求響應(yīng)對(duì)于采取了防爬蟲(chóng)措施的網(wǎng)站,爬蟲(chóng)程序需要采取相應(yīng)的應(yīng)對(duì)策略,才能成功地爬取到網(wǎng)站上的數(shù)據(jù)??蛻舳朔?wù)器用戶代理啊,原來(lái)這個(gè)家伙是瀏覽器呀!防爬蟲(chóng)應(yīng)對(duì)策略User-agent表示用戶代理,是HTTP協(xié)議中的一個(gè)字段。作用描述發(fā)出HTTP請(qǐng)求的終端信息。每個(gè)正規(guī)的爬蟲(chóng)都有固定的User-agent,字段設(shè)為知名的用戶代理成功偽裝偽裝User-agent防爬蟲(chóng)應(yīng)對(duì)策略同時(shí)用多個(gè)代理IP,可以降低單個(gè)IP地址的訪問(wèn)量,極有可能逃過(guò)一劫。用戶代理IP發(fā)送請(qǐng)求轉(zhuǎn)發(fā)請(qǐng)求視為爬蟲(chóng)的IP網(wǎng)站使用代理IP防爬蟲(chóng)應(yīng)對(duì)策略為了彌補(bǔ)這個(gè)缺點(diǎn),可以基于這個(gè)思想適時(shí)調(diào)整具體的操作。降低訪問(wèn)頻率沒(méi)有找到既免費(fèi)又穩(wěn)定的代理IP降低訪問(wèn)網(wǎng)站的頻率防止被認(rèn)出爬蟲(chóng)的身份會(huì)差很多爬取效率例如,每抓取一個(gè)頁(yè)面就休息若干秒,或者限制每天抓取的頁(yè)面數(shù)量。防爬蟲(chóng)應(yīng)對(duì)策略需要采取相應(yīng)的技術(shù)識(shí)別驗(yàn)證碼驗(yàn)證碼限制訪問(wèn)IP網(wǎng)站(不登陸就能訪問(wèn))訪問(wèn)檢測(cè)訪問(wèn)量有異常正確輸入驗(yàn)證碼才能繼續(xù)爬取網(wǎng)站提出

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論