Python網(wǎng)絡(luò)爬蟲項(xiàng)目式教程 課后習(xí)題及答案 錢游 項(xiàng)目四_第1頁
Python網(wǎng)絡(luò)爬蟲項(xiàng)目式教程 課后習(xí)題及答案 錢游 項(xiàng)目四_第2頁
Python網(wǎng)絡(luò)爬蟲項(xiàng)目式教程 課后習(xí)題及答案 錢游 項(xiàng)目四_第3頁
Python網(wǎng)絡(luò)爬蟲項(xiàng)目式教程 課后習(xí)題及答案 錢游 項(xiàng)目四_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

復(fù)習(xí)題一、單項(xiàng)選擇題1、下面有關(guān)Requests庫說法不正確的是(D)A、Requests是Python的一個HTTP請求庫B、在Windows下安裝可以使用命令“pipinstallrequests”C、在Linux下安裝可以使用命令“sudopipinstallrequests”D、Requests庫的GET請求不能攜帶參數(shù)(D)2、假定響應(yīng)對象為r,關(guān)于Requests庫通過以下方法獲取響應(yīng)內(nèi)容不正確的是(D)A、r.status_code表示響應(yīng)轉(zhuǎn)態(tài)碼B、r.raw表示原始響應(yīng)體,使用r.raw.read()讀取C、r.text表示字符串方式的響應(yīng)體,會自動根據(jù)響應(yīng)頭部的字符編碼進(jìn)行解碼。D、r.url表示獲取網(wǎng)頁中的所有網(wǎng)址二、判斷題1、通用網(wǎng)絡(luò)爬蟲常用串行工作方式。(錯)2、需要登錄的網(wǎng)站一般通過GET請求就可以實(shí)現(xiàn)登錄。(錯)3、代理中間件的可用代理列表一定要寫在setting.py中。(錯)4、所有的異步加載都會向后臺發(fā)送請求。(錯)5、requests中g(shù)et請求方法的使用為requests.get(url).(對)三、編程題1、使用requests請求框架和BeautifulSoup解析框架,爬取以下Url變量所指定的網(wǎng)頁,獲取其網(wǎng)頁的標(biāo)題和新聞內(nèi)容。Url=/zwxx_176/bmdt/202104/t20210406_9072956.html”參考代碼:#1.利用requests.get(url)獲取網(wǎng)頁頁面的html文件

importrequests

newsurl='/zwxx_176/bmdt/202104/t20210406_9072956.html'

res=requests.get(newsurl)

res.encoding='utf_8'

print(res)

#2.利用BeautifulSoup的HTML解析器,生成結(jié)構(gòu)樹

frombs4importBeautifulSoup

soup=BeautifulSoup(res.text,'html.parser')

#3.找出特定標(biāo)簽的html元素

print(soup.p)#標(biāo)簽名,返回第一個

#打印網(wǎng)頁的頭部區(qū)域

print("打印網(wǎng)頁的頭部區(qū)域start")

print(soup.head)

print("打印網(wǎng)頁的頭部區(qū)域end")

#4.獲取網(wǎng)頁的標(biāo)題、新聞內(nèi)容

print("新聞的標(biāo)題是:")

title=soup.select('.tit')[0].text#返回的是是一個列表對象,使用小標(biāo)0進(jìn)行獲取,然后獲取文字內(nèi)容,使用了".text"方法

print(title)

print("新聞的內(nèi)容是:")

content=soup.select('.view')[0].text

print(content)2、使用Xpath實(shí)現(xiàn)圖書信息的爬取,網(wǎng)址為:/。要求:(1)爬取的圖書的字段有:書名、價格和評分。(2)使用XPath將所有頁的圖書信息全部爬取下來。(3)將數(shù)據(jù)保存于文件中(推薦使用csv文件)。參考代碼:importrequests

fromlxmlimporthtml

importcsv

base_url='/catalogue/'

pages=[base_url+str(i)+'.html'foriinrange(2,52)]

books=[]

forpageinpages:

page_source=requests.get(page).content.decode()

selector=html.fromstring(page_source)

titles=selector.xpath('//*[@id="default"]/div/div/div/div/section/div[2]/ol/li/article/h3/a/text()')

prices=selector.xpath('//*[@id="default"]/div/div/div/div/section/div[2]/ol/li/article/div[2]/p[1]/text()')

prices=[e[1:]foreinprices]

rating=selector.xpath('//*[@id="default"]/div/div/div/div/section/div[2]/ol/li/article/p/@class')

rating=[e.split('')[1]foreinrating]

foriinrange(len(prices)):

books.append((titles[i],prices[i],rating[i]))

print(books)

withopen("books.csv","w+")asf:

writer=csv.writer(f)

writer.writerow(('book_name','price','rating'))

writer.writerows(books)

print("處理完成")3、使用requests_html模塊請求網(wǎng)頁,請求的url地址如下,將指定網(wǎng)頁中中的所有超練級打印輸出到控制臺。參考代碼:URL=”/html/gndy/oumei/index.html”fromrequests_htmlimportHTMLSession

headers={

'user-agent':'Mozilla/5.0(WindowsNT6.1;WOW64)'

}

session=HTMLSession()

resp=session.get('/html/gndy/oumei/index.html')

resp.encoding="utf-8"

link=re

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論