版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Python程序設(shè)計與應用爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)房曉東主講教師爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)怎么準確高效率地保存250本書的詳細信息呢?使用網(wǎng)絡(luò)爬蟲爬取豆瓣讀書Top250網(wǎng)站單個頁面數(shù)據(jù)爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)Python學習目標什么是requests模塊requests模塊爬取網(wǎng)頁requests模塊爬取百度網(wǎng)站首頁和爬取豆瓣讀書Top250網(wǎng)站單個頁面數(shù)據(jù)Python學習目標網(wǎng)頁內(nèi)容爬取不完整或未獲取響應內(nèi)容的原因HTTP消息格式解決網(wǎng)頁內(nèi)容爬取不完整問題爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)爬取網(wǎng)頁數(shù)據(jù)requests爬取網(wǎng)頁信息的第三方模塊方便向網(wǎng)站發(fā)送HTTP請求響應結(jié)果requests模塊在使用之前要先安裝爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)函數(shù)功能說明requests.request()構(gòu)造一個請求,支撐以下各方法的基礎(chǔ)方法equests.get()獲取HTML網(wǎng)頁的主要方法,對應于HTTP的GET請求方式requests.post()向HTML網(wǎng)頁提交POST請求的方法,對應于HTTP的POST請求方式如何模擬瀏覽器向網(wǎng)站發(fā)送HTTP請求,獲取響應呢?requests模塊提供很多發(fā)送HTTP請求的函數(shù)requests模塊還提供了Response類對象用于動態(tài)地響應客戶端的請求、控制發(fā)送給用戶的信息,并動態(tài)地生成響應,包括狀態(tài)碼、網(wǎng)頁的內(nèi)容。爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)屬性說明Status_codeHTTP請求的返回狀態(tài),200表示連接成功,404表示失敗textHTTP響應內(nèi)容的字符串形式,即URL對應的頁面內(nèi)容encoding從HTTP請求頭中猜測的響應內(nèi)容編碼方式apparent_encoding從內(nèi)容中分析出的響應編碼的方式(備選編碼方式)contentHTTP響應內(nèi)容的二進制形式Response類的常用屬性運行結(jié)果可以看到響應狀態(tài)碼為200,表示已成功處理請求,但在響應內(nèi)容中的中文內(nèi)容是亂碼,這是為什么呢?爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)造成中文亂碼的原因獲取內(nèi)容的編碼方式和實際編碼方式不匹配PyCharm【Ctrl+F】快捷鍵搜索欄導入requests豆瓣讀書Top250網(wǎng)站首頁網(wǎng)址保存到url發(fā)送GET請求爬取豆瓣讀書Top250網(wǎng)站首頁HTTP狀態(tài)碼418是一個非標準的HTTP狀態(tài)碼Python爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)程序運行結(jié)果中可看到響應狀態(tài)碼為418,為什么響應內(nèi)容為空呢?服務器返回418狀態(tài)碼時,服務器認為這是一個爬蟲的請求修改請求頭信息添加代理IP延長請求間隔時間完整爬取網(wǎng)頁內(nèi)容網(wǎng)站反爬蟲策略設(shè)置驗證碼限制IP訪問頻率爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)網(wǎng)頁內(nèi)容爬取不完整或未獲取響應內(nèi)容是因為網(wǎng)站反爬蟲策略導致的。請求信息HTTP請求消息與HTTP響應消息的格式由請求行、請求頭、空行和請求參數(shù)四部分組成爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)瀏覽器會向服務器發(fā)起HTTP請求,也會接收服務器返回的HTTP響應。請求信息響應消息HTTP請求消息與HTTP響應消息的格式由請求行、請求頭、空行和請求參數(shù)四部分組成爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)瀏覽器會向服務器發(fā)起HTTP請求,也會接收服務器返回的HTTP響應。由狀態(tài)行、響應報頭、空行和響應正文組成GoogleChrome瀏覽器【F12】開發(fā)者工具“網(wǎng)絡(luò)”面板服務器headers中的User-Agent判斷訪問者通過什么工具發(fā)送請求Python允許用戶修改User-Agent來模擬瀏覽器訪問,通過攜帶請求頭發(fā)送請求的方法,解決網(wǎng)頁爬取不完整問題。語法格式:headers參數(shù)接收字典形式的請求頭。請求頭字段名作為key,字段對應的值作為value。爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)了解了什么是requests模塊能使用requests模塊爬取百度網(wǎng)站首頁和爬取豆瓣讀書Top250網(wǎng)站單個頁面數(shù)據(jù)爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)如何使用requests模塊爬取網(wǎng)頁爬取豆瓣讀書Top250網(wǎng)站數(shù)據(jù)課程小結(jié)了解網(wǎng)頁內(nèi)容爬取不完整或未獲取響應內(nèi)容的原因HTTP消息格式解決網(wǎng)頁內(nèi)容爬取不完整問題,解決爬取豆瓣讀書Top250
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 采購材質(zhì)合同范本
- 蘇科版數(shù)學七年級上冊2.4《絕對值與相反數(shù)》聽評課記錄2
- 蘇科版數(shù)學八年級下冊10.4《分式的乘除》聽評課記錄1
- 酒泉強夯地基處理施工方案
- 基坑拉槽基開挖施工方案
- 樹木種植與地理教學
- 蘇科版數(shù)學七年級下冊12.2.1《證明》聽評課記錄
- 蘇科版數(shù)學七年級上冊6.3.1《余角 補角 對頂角》聽評課記錄
- 蘇科版數(shù)學七年級上冊4.3《用一元二次方程解決問題》聽評課記錄3
- 湘教版地理七年級下冊7.5《北極地區(qū)和南極地區(qū)》(第1課時)聽課評課記錄
- 2025年酒店總經(jīng)理崗位職責與薪酬協(xié)議
- 綠色能源項目融資計劃書范文
- 大樹扶正施工方案
- 《人工智能發(fā)展史》課件
- 小學一年級數(shù)學20以內(nèi)的口算題(可直接打印A4)
- 自動化設(shè)備技術(shù)合作協(xié)議書范文
- 經(jīng)編工藝基本樣布的分析
- 中醫(yī)針灸穴位現(xiàn)代研究
- 完整版陸河客家請神書
- 國家電網(wǎng)公司畢業(yè)生應聘申請表
- 通用5軸焊錫機系統(tǒng)(V11)
評論
0/150
提交評論