《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作_第1頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作_第2頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作_第3頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作_第4頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Scrapy框架的基本操作Contents知識(shí)目標(biāo)技能目標(biāo)素養(yǎng)目標(biāo)掌握Scrapy框架的基本操作和標(biāo)準(zhǔn)流程提高我們的數(shù)據(jù)采集和處理能力培養(yǎng)良好的信息素養(yǎng)和道德意識(shí)Scrapy框架操作步驟Scrapy爬蟲的流程大致分為以下四個(gè)步驟創(chuàng)建一個(gè)新的爬蟲項(xiàng)目明確想要抓取的目標(biāo)制作爬蟲開(kāi)始爬取網(wǎng)頁(yè)存儲(chǔ)爬取內(nèi)容(一般通過(guò)管道進(jìn)行)新建項(xiàng)目明確目標(biāo)創(chuàng)建spider存儲(chǔ)數(shù)據(jù)新建項(xiàng)目命令格式如下:scrapystartproject項(xiàng)目名稱在終端使用命令創(chuàng)建Scrapy項(xiàng)目示例新建項(xiàng)目新建一個(gè)Scrapy項(xiàng)目項(xiàng)目目錄結(jié)構(gòu)如下:創(chuàng)建Spider創(chuàng)建Spider分為以下三個(gè)步驟:提取數(shù)據(jù)運(yùn)行spider創(chuàng)建spider創(chuàng)建爬蟲創(chuàng)建爬蟲的命令格式如下:scrapygenspider爬蟲名稱"爬取域"創(chuàng)建Spider創(chuàng)建Spider示例創(chuàng)建Spider文件內(nèi)容如下所示:新創(chuàng)建的爬蟲文件baidu.py創(chuàng)建Spider新創(chuàng)建的爬蟲文件baidu.py文件內(nèi)容如下所示:創(chuàng)建Spider/board?platform=pc&sa=pcindex_entry以百度熱搜榜為示例,該頁(yè)面的內(nèi)容如下圖所示抓取內(nèi)容就是頁(yè)面中熱搜榜的數(shù)據(jù)定義起始URLclassBaiduSpider(scrapy.Spider):name='baidu'allowed_domains=['']

start_urls=['/board?platform=pc&sa=pcindex_entry']創(chuàng)建Spiderdefparse(self,response):withopen("hotlist.html","w",encoding="utf-8")asfile: file.write(response.text)處理響應(yīng)對(duì)象創(chuàng)建Spider定義parse方法,對(duì)響應(yīng)對(duì)象進(jìn)行處理運(yùn)行Spider命令格式為:運(yùn)行爬蟲scrapycrawl爬蟲名稱示例運(yùn)行SpiderScrapy框架的基本操作實(shí)操案例定義起始URLclassBaiduSpider(scrapy.Spider):name='baidu'allowed_domains=['']

start_urls=['/board?platform=pc&sa=pcindex_entry']創(chuàng)建Spider本講小結(jié)創(chuàng)建scrapy項(xiàng)目1scrapystartprojectmySpider生成spider2cdmySpiderscrapygenspiderbaidu“”本講小結(jié)定義start_urls,定義parse()方法3運(yùn)行spider4scrapycrawlbaidu本講小結(jié)創(chuàng)建scrapy項(xiàng)目1scrapystartprojectmySpider生成spider2cdmySpiderscrapygenspiderbaidu“”定義start_urls,定義parse()方法3運(yùn)行spider4scrapycrawlbaidu課后作業(yè)1創(chuàng)建第一個(gè)Scrapy項(xiàng)目2抓取熱點(diǎn)新聞3熟悉Scrapy框架的基本操作Scrapy框架操作步驟Scrapy爬蟲的流程大致分為以下四個(gè)步驟創(chuàng)建一個(gè)新的爬蟲項(xiàng)目明確想要抓取的目標(biāo)制作爬蟲開(kāi)始爬取網(wǎng)頁(yè)存儲(chǔ)爬取內(nèi)容(一般通過(guò)管道進(jìn)行)新建項(xiàng)目明確目標(biāo)創(chuàng)建spider存儲(chǔ)數(shù)據(jù)Scrapy框架操作步驟Scrapy爬蟲的流程大致分為以下四個(gè)步驟創(chuàng)建一個(gè)新的爬蟲項(xiàng)目明確想要抓取的目標(biāo)制作爬蟲開(kāi)始爬取網(wǎng)頁(yè)存儲(chǔ)爬取內(nèi)容(一般通過(guò)管道進(jìn)行)新建項(xiàng)目明確目標(biāo)創(chuàng)建spider存儲(chǔ)數(shù)據(jù)制作Spider定義一個(gè)容器保存要爬取的詞條數(shù)據(jù)Scrapy提供了Item類用來(lái)表示實(shí)體數(shù)據(jù)制作SpiderItem對(duì)象類似于詞典(dictionary-like)的API用于聲明可用字段的簡(jiǎn)單語(yǔ)法簡(jiǎn)單的容器,保存了爬取到得數(shù)據(jù)提供了:制作Spideritem.py文件未修改前如下:修改后:制作Spideritem.py文件未修改前如下:修改后:制作Spider提取數(shù)據(jù)觀察源碼,定位目標(biāo)數(shù)據(jù)。制作Spider提取數(shù)據(jù)修改后的baidu.py內(nèi)容如下:(這里希望在講解每一行的時(shí)候有一條紅色下劃線指向該行)返回結(jié)果后就退出循環(huán)return返回的是生成器yield制作Spider提取數(shù)據(jù)修改后的baidu.py內(nèi)容如下:返回結(jié)果后就退出循環(huán)return返回的是生成器yield制作Spider提取數(shù)據(jù)修改后的baidu.py內(nèi)容如下:(這里希望在講解每一行的時(shí)候有一條紅色下劃線指向該行)解析技術(shù)框架本身提供了一套機(jī)制來(lái)幫助用戶獲取信息Selectors制作Spider運(yùn)行爬蟲輸入“scrapycrawlbaidu”存儲(chǔ)數(shù)據(jù)目前只在控制臺(tái)看到輸出結(jié)果存儲(chǔ)數(shù)據(jù)目前只在控制臺(tái)看到輸出結(jié)果存儲(chǔ)數(shù)據(jù)-o選項(xiàng)可以輸出指定格式的文件:scrapycrawlbaidu-ohotlist.csv存儲(chǔ)數(shù)據(jù)以下命令對(duì)應(yīng)多種輸出格式scrapycrawlbaidu-ohotlist.csvscrapycrawlbaidu-ohotlist.jsonscrapycrawlbaidu-ohotlist.xmlscrapycrawlbaidu-ohotlist.picklescrapycrawlbaidu-ohotlist.mar

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論