緩存和離線運行_第1頁
緩存和離線運行_第2頁
緩存和離線運行_第3頁
緩存和離線運行_第4頁
緩存和離線運行_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

緩存和離線運行HTTP緩存和脫機工作緩存和離線運行案例HTTP緩存和脫機工作/01當Scrapy的HttpCacheMiddleware中間件(默認關(guān)閉)提供了一個低級的HTTP請求響應(yīng)緩存。如果打開的話,緩存會存儲每次請求和對應(yīng)的響應(yīng)。通過設(shè)定HTTPCACHE_POLICY為scrapy.contrib.httpcache.RFC2616Policy,我們可以使用一個更為復(fù)雜的、按照RFC2616遵循網(wǎng)站提示的緩存策略。打開這項功能,設(shè)定HTTPCACHE_ENABLED為True,HTTPCACHE_DIR指向一個磁盤路徑??梢詾榫彺嫖募付〝?shù)據(jù)庫后端,通過設(shè)定HTTPCACHE_STORAGE為scrapy.contrib.httpcache.DbmCacheStorage,還可以選擇調(diào)整HTTPCACHE_DBM_MODULE。還有其它微調(diào)緩存的設(shè)置,但按照默認設(shè)置就可以了。HTTP緩存和脫機工作緩存和離線運行案例/02首先我們在程序中運行以下代碼:$scrapycrawlfast-sLOG_LEVEL=INFO-sCLOSESPIDER_ITEMCOUNT=5000一分鐘之后才結(jié)束。如果當時無法聯(lián)網(wǎng),就無法進行任何抓取。用下面的代碼再次進行抓?。?scrapycrawlfast-sLOG_LEVEL=INFO-sCLOSESPIDER_ITEMCOUNT=5000-sHTTPCACHE_ENABLED=1INFO:Enableddownloadermiddlewares:...*HttpCacheMiddleware*緩存和離線運行案例 此時看到啟用了HttpCacheMiddleware,如果查看當前目錄,會發(fā)現(xiàn)一個隱藏文件夾,如下圖所示:緩存和離線運行案例當再次運行不能聯(lián)網(wǎng)的爬蟲時,抓取稍少的文件,就會發(fā)現(xiàn)運行變快了:$scrapycrawlfast-sLOG_LEVEL=INFO-sCLOSESPIDER_ITEMCOUNT=4500-sHTTPCACHE_ENABLED=1抓取稍少的文件,是因為使用CLOSESPIDER_ITEMCOUNT結(jié)束爬蟲時,爬蟲實際上會多抓取幾頁,我們不想抓取不在緩存中的內(nèi)容。清理緩存的話,只需刪除緩存目錄:$

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論