《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)_第1頁
《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)_第2頁
《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)_第3頁
《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)_第4頁
《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Python程序設(shè)計(jì)與應(yīng)用使用BeautifulSoup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)書名作者出版社出版時(shí)間價(jià)格評(píng)分評(píng)價(jià)人數(shù)評(píng)論房曉東主講教師使用BeautifulSoup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)使用網(wǎng)頁解析器從網(wǎng)頁中解析提取出所需數(shù)據(jù)使用BeautifulSoup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)Python學(xué)習(xí)目標(biāo)解析網(wǎng)頁技術(shù)解析工具的性能比較Beautiful

Soup4庫bs4庫中對(duì)象的種類Python學(xué)習(xí)目標(biāo)使用bs4解析網(wǎng)頁數(shù)據(jù)的一般流程常用的查找方法select()方法使用bs4解析豆瓣讀書Top250網(wǎng)頁數(shù)據(jù)解析網(wǎng)頁技術(shù)技術(shù)正則表達(dá)式XPathBeautifulSoupJSONPath解析網(wǎng)頁技術(shù)文本正則表達(dá)式是基于文本的特征來匹配或查找指定數(shù)據(jù),它可以處理任何格式的字符串文檔。解析網(wǎng)頁技術(shù)正則表達(dá)式HTML/XML

XPath和BeautifulSoup是基于HTML/XML文檔的層次結(jié)構(gòu)來確定到達(dá)指定節(jié)點(diǎn)的路徑,適合處理層級(jí)比較明顯的數(shù)據(jù)。解析網(wǎng)頁技術(shù)正則表達(dá)式XPathBeautifulSoupJSON解析網(wǎng)頁技術(shù)JSONPathJSONPath專門用于JSON文檔的數(shù)據(jù)解析。解析網(wǎng)頁技術(shù)json模塊BeautifulSoupPythonre模塊lxml模塊支持正則表達(dá)式支持XPath語法JSONPath語法BeautifulSoup4解析工具的性能比較正則表達(dá)式XPathBeautifulSoup使用BeautifulSoup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)實(shí)際開發(fā)中應(yīng)該如何選擇呢?解析工具的性能比較根據(jù)具體情況選擇合適的技術(shù)爬取工具速度使用難度安裝難度re最快困難無(內(nèi)置)lxml快簡(jiǎn)單一般beautifulsoup4慢最簡(jiǎn)單簡(jiǎn)單Beautiful

Soup4庫Beautiful

Soup4庫(也稱BeautifulSoup或bs4)是一個(gè)用于解析和處理HTML、XML頁面并提取數(shù)據(jù)的第三方庫。建立的Web頁面一般比較復(fù)雜Beautiful

Soup4庫缺點(diǎn)根據(jù)HTML和XML語法建立解析樹,進(jìn)而高效解析其中的內(nèi)容,為用戶提供需要的數(shù)據(jù)優(yōu)勢(shì)包含大量用于頁面格式的元素直接解析非常復(fù)雜bs4庫中對(duì)象的種類對(duì)象歸納bs4庫中對(duì)象的種類TagNavigableStringBeautifulSoupbs4庫將復(fù)雜的HTML文檔轉(zhuǎn)換成樹形結(jié)構(gòu)。CommentHTML中的標(biāo)簽標(biāo)簽中的文本對(duì)象特殊的NavigableString對(duì)象,如果HTML標(biāo)簽中有注釋,則可過濾注釋符號(hào)并保留注釋文本整個(gè)HTML文本對(duì)象,可作為Tag對(duì)象使用bs4解析網(wǎng)頁數(shù)據(jù)的一般流程通過BeautifulSoup對(duì)象的操作方法根據(jù)DOM樹進(jìn)行各種節(jié)點(diǎn)的搜索。如可按照按節(jié)點(diǎn)名稱、節(jié)點(diǎn)屬性值、節(jié)點(diǎn)文本進(jìn)行搜索。利用DOM樹結(jié)構(gòu)標(biāo)簽的特性,進(jìn)行節(jié)點(diǎn)信息提取。搜索節(jié)點(diǎn)節(jié)點(diǎn)信息提取使用bs4解析網(wǎng)頁數(shù)據(jù)的一般流程流程根據(jù)HTML或者文件創(chuàng)建BeautifulSoup對(duì)象。創(chuàng)建BeautifulSoup對(duì)象常用的查找方法查找方法find_all()find()常用的查找方法搜索出所有滿足要求的節(jié)點(diǎn)搜索出第一個(gè)滿足要求的節(jié)點(diǎn),只要獲得了一個(gè)節(jié)點(diǎn),就可以訪問節(jié)點(diǎn)名稱、屬性和文本語法格式:常用的查找方法參數(shù)說明:name:表示要查找的標(biāo)簽名。attrs:表示標(biāo)簽的屬性約束,采用josn格式。recursive:表示遞歸。text:表示查找文本,**kwargs:表示其他鍵值參數(shù)。select()方法select()方法標(biāo)簽名查類名查找id查找select()方法子標(biāo)簽查找組合查找select()方法屬性查找使用bs4解析豆瓣讀書Top250網(wǎng)頁數(shù)據(jù)課程小結(jié)解析網(wǎng)頁技術(shù)解析工具的性能比較Beautiful

Soup4庫bs4庫中對(duì)象的種類使用bs4解析網(wǎng)頁數(shù)據(jù)的一般流程常用的查找方法select()方法使用bs4解析豆瓣讀書T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論