第1講:爬蟲(chóng)Python趣學(xué)概述_第1頁(yè)
第1講:爬蟲(chóng)Python趣學(xué)概述_第2頁(yè)
第1講:爬蟲(chóng)Python趣學(xué)概述_第3頁(yè)
第1講:爬蟲(chóng)Python趣學(xué)概述_第4頁(yè)
第1講:爬蟲(chóng)Python趣學(xué)概述_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

趣學(xué)Python爬蟲(chóng)我與爬蟲(chóng)有個(gè)約會(huì)本課目錄INDEX什么是爬蟲(chóng)?爬蟲(chóng)的數(shù)據(jù)延伸合理使用爬蟲(chóng)爬蟲(chóng)的分類(lèi)爬蟲(chóng)的業(yè)務(wù)場(chǎng)景關(guān)于反爬的說(shuō)明爬蟲(chóng)的基本原理Show一個(gè)小案例什么是爬蟲(chóng)?爬蟲(chóng)是一種大批量獲取數(shù)據(jù)的方法通俗易懂的說(shuō)-爬蟲(chóng)就是一個(gè)“機(jī)器/程序”,這臺(tái)“機(jī)器”根據(jù)目標(biāo)/關(guān)鍵字模擬人的行為去各個(gè)網(wǎng)站/頁(yè)面提取數(shù)據(jù),然后把數(shù)據(jù)拉回來(lái)。這是個(gè)信息爆炸的時(shí)代,也是個(gè)數(shù)據(jù)封鎖的時(shí)代,各大網(wǎng)站和應(yīng)用(你懂的那些)他們會(huì)根據(jù)你的上網(wǎng)行為,用算法推薦你能看到哪些信息,但是這些信息真的是我們想看的嗎?我們?cè)趺凑莆罩鲃?dòng)權(quán)?批量爬取圖片 批量爬取關(guān)健文字 批量爬取視頻批量爬取購(gòu)物網(wǎng)站價(jià)格 批量爬取某商品評(píng)論批量爬取某地房?jī)r(jià)…………爬蟲(chóng)能做什么?

我的數(shù)據(jù)我做主爬蟲(chóng)的數(shù)據(jù)延伸爬蟲(chóng)課一向的重點(diǎn)是在爬這個(gè)層面上,那么本講與大家探討一下數(shù)據(jù)層的東西舉個(gè)簡(jiǎn)單的例子業(yè)務(wù)需求:老板讓我爬取某個(gè)商品在全國(guó)各個(gè)省份的平均價(jià)格?STEP1

如何去爬?STEP2

如何讓數(shù)據(jù)有價(jià)值?鎖定有效關(guān)鍵字鎖定關(guān)鍵信息源(網(wǎng)站)爬取方式數(shù)據(jù)預(yù)處理(可用)原始數(shù)據(jù)與公司數(shù)據(jù)比對(duì)比對(duì)后的結(jié)論無(wú)序數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)作為參考比對(duì)(分析)結(jié)論(輔助決策)合理使用爬蟲(chóng)關(guān)于爬蟲(chóng)使用倡議爬蟲(chóng)的破壞力:過(guò)度使用爬蟲(chóng)輕則導(dǎo)致服務(wù)器下線,重則可以導(dǎo)致網(wǎng)站徹底宕機(jī);通過(guò)爬蟲(chóng)獲取的敏感數(shù)據(jù)、個(gè)人數(shù)據(jù)、版權(quán)數(shù)據(jù)進(jìn)行銷(xiāo)售屬于嚴(yán)重違法,且爬蟲(chóng)工程師連帶責(zé)任;爬蟲(chóng)的合法性:在法律允許的范圍內(nèi)進(jìn)行注意使用中的法律風(fēng)險(xiǎn)(以爬蟲(chóng)名義實(shí)施黑客行為)爬蟲(chóng)的非正常使用如同黑客行為。且行且珍惜!出問(wèn)題的從不是爬蟲(chóng),

是背后的“我們”,善用爬蟲(chóng)讓他成為價(jià)值工具,

不要讓他成為作案工具爬蟲(chóng)的分類(lèi)通用爬蟲(chóng):抓取互聯(lián)網(wǎng)整個(gè)頁(yè)面數(shù)據(jù),通常是搜索引擎使用,保證各個(gè)網(wǎng)站在搜索引擎上有一定的露出。聚焦爬蟲(chóng):聚焦爬蟲(chóng)是通用爬蟲(chóng)的升級(jí)版本,抓取特定的內(nèi)容,或者說(shuō)基于某個(gè)關(guān)鍵字或規(guī)則抓取內(nèi)容。增量爬蟲(chóng):基于聚焦爬蟲(chóng)的規(guī)則,

檢測(cè)是否有新的數(shù)據(jù)更新,如果有則進(jìn)行抓取。爬蟲(chóng)的業(yè)務(wù)場(chǎng)景暢銷(xiāo)書(shū)排行分析驗(yàn)證碼破解用戶(hù)拓展關(guān)系分析模擬登陸系統(tǒng)文件下載助手開(kāi)發(fā)音樂(lè)網(wǎng)站批量下載城市旅游數(shù)據(jù)分析購(gòu)物網(wǎng)站數(shù)據(jù)挖掘分析電商信息數(shù)據(jù)分析論壇發(fā)帖、問(wèn)答推廣、效果回訪爬取微信公眾號(hào),進(jìn)行數(shù)據(jù)分析頭條自動(dòng)發(fā)文章,賺點(diǎn)廣告費(fèi)新聞數(shù)據(jù)分析個(gè)人信息檢索系統(tǒng)特定信息收集系統(tǒng)自動(dòng)填寫(xiě)調(diào)查問(wèn)卷爬蟲(chóng)分析熱度排行爬蟲(chóng)進(jìn)行股票分析爬取網(wǎng)站定向數(shù)據(jù)視頻網(wǎng)站視頻批量下載購(gòu)物網(wǎng)站比價(jià)系統(tǒng)文章批量下載飛機(jī)票比價(jià)系統(tǒng)招聘公司爬取招聘信息爬取房產(chǎn)網(wǎng)站做房產(chǎn)分析財(cái)務(wù)報(bào)表下載排行分析不看不知道一看嚇一跳總有一款適合你數(shù)據(jù)出處:/爬蟲(chóng)的業(yè)務(wù)場(chǎng)景為現(xiàn)有應(yīng)用提供數(shù)據(jù)數(shù)據(jù)作為分析基礎(chǔ)個(gè)人便利目的關(guān)于反爬的說(shuō)明爬蟲(chóng)和網(wǎng)站之間一直就在一個(gè)對(duì)立面上,是一個(gè)明刀明槍的對(duì)抗。網(wǎng)站知道爬蟲(chóng)有什么爬取方法,那么網(wǎng)站會(huì)采取更新的反爬機(jī)制,有了機(jī)制爬蟲(chóng)會(huì)再次升級(jí)自己,直到能繞過(guò)去這個(gè)機(jī)制。這是一個(gè)永不休止的“斗爭(zhēng)”所以說(shuō),爬蟲(chóng)就是網(wǎng)站的一個(gè)逆向工程舉一個(gè)例子,

好比戰(zhàn)爭(zhēng)中交戰(zhàn)的雙方,一方加密自己的作戰(zhàn)指令,另一方想方設(shè)法破解對(duì)方的加密信息。關(guān)于反爬機(jī)制通過(guò)相應(yīng)的安全機(jī)制、策略或者用通俗的說(shuō)法叫門(mén)檻限制機(jī)器(爬蟲(chóng)、非人)直接獲取數(shù)據(jù)關(guān)于反反爬機(jī)制爬蟲(chóng)制定相關(guān)的策略破解/穿透/繞過(guò)去網(wǎng)站的反爬機(jī)制,反反爬機(jī)制的核心就是讓你的爬蟲(chóng)更像人robots.txt

協(xié)議Robots協(xié)議是一個(gè)防君子不防小人的協(xié)議,

規(guī)定本網(wǎng)站哪些數(shù)據(jù)可以被爬取,哪些不可以爬取,這不是一個(gè)技術(shù)手段,而是一個(gè)聲明,但是具有法律效應(yīng)。

https:///robots.txt

大家可以嘗試一下知乎的robots協(xié)議爬蟲(chóng)的基本原理爬蟲(chóng)其實(shí)就是WEB(網(wǎng)站)的逆向工程瀏覽器輸入

網(wǎng)址()回車(chē)(向服務(wù)器發(fā)起請(qǐng)求)服務(wù)器接到請(qǐng)求返回代碼(前端代碼)瀏覽器接收代碼瀏覽器解析代碼展示出頁(yè)面發(fā)起請(qǐng)求返回代碼瀏覽器解析網(wǎng)站服務(wù)器靜態(tài)模式爬蟲(chóng)的基本原理爬蟲(chóng)其實(shí)就是WEB(網(wǎng)站)的逆向工程JS加載內(nèi)容動(dòng)態(tài)模式瀏覽器輸入

網(wǎng)址()回車(chē)(向服務(wù)器發(fā)起請(qǐng)求)服務(wù)器接到請(qǐng)求返回部分前端和Javascript代碼Javascript再次發(fā)起請(qǐng)求加載頁(yè)面的實(shí)際內(nèi)容實(shí)際上能看到這個(gè)頁(yè)面,

除了用戶(hù)錄入回車(chē)一次請(qǐng)求,那么頁(yè)面還向服務(wù)器發(fā)送了一次請(qǐng)求,

又一次加載了具體內(nèi)容,比如課程列表等。用戶(hù)請(qǐng)求得到基礎(chǔ)頁(yè)面和js代碼js代碼Show一個(gè)小案例我想隨時(shí)查看中國(guó)任

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論