版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
requests庫技術(shù)應(yīng)用案例——動態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)采集本章學(xué)習(xí)目標(biāo)分析業(yè)務(wù)網(wǎng)站A,B,C和D的網(wǎng)頁結(jié)構(gòu)和內(nèi)容使用requests庫編寫爬蟲代碼獲取指定的靜態(tài)和動態(tài)數(shù)據(jù)使用BeautifulSoup實現(xiàn)數(shù)據(jù)的解析使用pymysql庫和pandas實現(xiàn)數(shù)據(jù)的持久化4.3業(yè)務(wù)網(wǎng)站A靜態(tài)數(shù)據(jù)進入網(wǎng)址:/notebook_index/subcate16_0_list_1_0_99_2_0_1.html
我們可以觀察到網(wǎng)頁主頁顯示的主要的內(nèi)容,有筆記本電腦型號、價格、配置、評價分?jǐn)?shù)等,本次任務(wù)案例,我們將要獲取該頁的所有筆記本電腦信息。圖4.3-1網(wǎng)址主頁
判斷此數(shù)據(jù)是靜態(tài)數(shù)據(jù)還是動態(tài)數(shù)據(jù)。如圖4.3-2所示,由此可知,我們想要獲取的內(nèi)容被標(biāo)簽直接包含在內(nèi),為靜態(tài)數(shù)據(jù),所以可以編寫爬蟲獲取網(wǎng)頁標(biāo)簽內(nèi)容即可圖4.3-2標(biāo)簽檢查數(shù)據(jù)類型天問一號成功登陸火星,對于靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)整體把控和分析要求極高。充分體現(xiàn)勞模精神:勞模精神,是指“愛崗敬業(yè)、爭創(chuàng)一流、艱苦奮斗、勇于創(chuàng)新、淡泊名利、甘于奉獻”的勞動模范的精神。
使用python編寫爬蟲獲取網(wǎng)頁靜態(tài)數(shù)據(jù),有針對性地獲得在網(wǎng)頁中的筆記本電腦型號、價格、配置、評價分?jǐn)?shù)。具體步驟如下。在python中導(dǎo)入requests庫和bs4庫中的BeautifulSoup,并且定義一個空列表new_list,用于存儲爬取下來的靜態(tài)數(shù)據(jù),并自定義第一個列表,這個列表將作為對應(yīng)數(shù)據(jù)的字段名和后續(xù)數(shù)據(jù)的存儲。importrequestsfrombs4importBeautifulSoupnew_list=[['電腦型號','價格','配置','評分']]構(gòu)造爬蟲代碼請求該URL的Headers頭部信息。在“開發(fā)者工具”的Network欄目下的Headers中得到該默認(rèn)URL的Headers頭部信息。其目的是為了向業(yè)務(wù)網(wǎng)站A網(wǎng)址的后臺服務(wù)器隱藏爬蟲代碼的真實身份,讓爬蟲代碼帶著這些請求信息偽裝成瀏覽器正常訪問該網(wǎng)站服務(wù)器的狀態(tài)而不被服務(wù)器的反爬措施發(fā)現(xiàn)。headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/74.0.3729.108Safari/537.36'}3)定義變量complete_url用于指定的URL網(wǎng)址complete_url="/notebook_index/subcate16_0_list_1_0_99_2_0_1.html"4)使用requests庫的get()方法獲得網(wǎng)址的Response對象,并設(shè)置headers參數(shù),并定義變量req進行保存。req=requests.get(url=complete_url,headers=headers)5)使用encoding方法,設(shè)置req變量的編碼方式。req.encoding='GBK'6)使用BeautifulSoup庫解析HTML文檔的代碼。req.txt是一個包含HTML內(nèi)容的字符串,features定義了解析器為’html.parser’,用于將HTML轉(zhuǎn)換為Python對象,定義變量soup進行保存。soup=BeautifulSoup(req.text,features="html.parser")7)定位數(shù)據(jù)圖4.3-3包含數(shù)據(jù)的標(biāo)簽結(jié)構(gòu)8)獲取數(shù)據(jù)圖4.3-4數(shù)據(jù)存儲的標(biāo)簽dd第一步:在網(wǎng)頁結(jié)構(gòu)中,通過分析,我們可以發(fā)現(xiàn),我們獲取的數(shù)據(jù)都統(tǒng)一存儲在一個ID名叫J_PicMode的標(biāo)簽中,所以我們只需要找到并保存這個標(biāo)簽就可以實現(xiàn)靜態(tài)數(shù)據(jù)的爬取。第二步:聲明及定義4個空列表,用于分別保存筆記本電腦型號、價格、配置、評價分?jǐn)?shù)的數(shù)據(jù)。使用for循環(huán)方式將select()方法獲得的數(shù)據(jù)遍歷提取,并使用append()方法追加到4個空列表中,同時使用zip()方法將數(shù)組中的數(shù)據(jù)整合在一起,完成靜態(tài)數(shù)據(jù)爬取。運行測試,由以上代碼可知,列表a,b,c,d中的數(shù)據(jù)被整合在new_list中保存的就是我們從網(wǎng)頁爬取的靜態(tài)數(shù)據(jù),我們打印出來觀察是否正確圖4.3-5運行測試1)導(dǎo)入Pandas庫importpandasaspd2)把列表new_list轉(zhuǎn)換為pandas的數(shù)據(jù)結(jié)構(gòu)DataFrame類型,由dataframe保存。dataframe=pd.DataFrame(new_
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度知識產(chǎn)權(quán)許可與實施合同2篇
- 二零二五年度個人住宅購買房屋改造升級合同3篇
- 二零二五年度城市快遞電動車輛采購合同3篇
- 二零二五年度化肥行業(yè)人才培養(yǎng)與交流合作協(xié)議3篇
- 揭秘自然意象
- 二零二五年度二手房買賣合同中房產(chǎn)抵押權(quán)及他項權(quán)利處理協(xié)議3篇
- 二零二五年度城市排水設(shè)施改造工程招標(biāo)合同樣本2篇
- 2025年度煙草行業(yè)產(chǎn)品質(zhì)量監(jiān)督檢驗合同3篇
- 追夢研究路模板
- 自動測氡儀項目融資渠道探索
- 2025年新疆兗礦集團公司招聘筆試參考題庫含答案解析
- 2025年安徽交控集團招聘筆試參考題庫含答案解析
- 促進臨床合理用藥持續(xù)改進措施
- 精神科護理崗位競聘
- 廣西北海市2023-2024學(xué)年八年級(上)期末數(shù)學(xué)試卷
- 非急救轉(zhuǎn)運合同范例
- 車輛使用安全培訓(xùn)
- 肺結(jié)核的護理個案
- 陜西省漢中市2024-2025學(xué)年高一上學(xué)期12月第二次月考地理試題(含答案)
- AutoCAD2024簡明教程資料
- 《中國傳統(tǒng)文化》課件模板(六套)
評論
0/150
提交評論