版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Python程序設(shè)計(jì)與應(yīng)用使用BeautifulSoup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)書名作者出版社出版時(shí)間價(jià)格評(píng)分評(píng)價(jià)人數(shù)評(píng)論房曉東主講教師使用BeautifulSoup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)使用網(wǎng)頁解析器從網(wǎng)頁中解析提取出所需數(shù)據(jù)使用BeautifulSoup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)Python學(xué)習(xí)目標(biāo)解析網(wǎng)頁技術(shù)解析工具的性能比較Beautiful
Soup4庫bs4庫中對(duì)象的種類Python學(xué)習(xí)目標(biāo)使用bs4解析網(wǎng)頁數(shù)據(jù)的一般流程常用的查找方法select()方法使用bs4解析豆瓣讀書Top250網(wǎng)頁數(shù)據(jù)解析網(wǎng)頁技術(shù)技術(shù)正則表達(dá)式XPathBeautifulSoupJSONPath解析網(wǎng)頁技術(shù)文本正則表達(dá)式是基于文本的特征來匹配或查找指定數(shù)據(jù),它可以處理任何格式的字符串文檔。解析網(wǎng)頁技術(shù)正則表達(dá)式HTML/XML
XPath和BeautifulSoup是基于HTML/XML文檔的層次結(jié)構(gòu)來確定到達(dá)指定節(jié)點(diǎn)的路徑,適合處理層級(jí)比較明顯的數(shù)據(jù)。解析網(wǎng)頁技術(shù)正則表達(dá)式XPathBeautifulSoupJSON解析網(wǎng)頁技術(shù)JSONPathJSONPath專門用于JSON文檔的數(shù)據(jù)解析。解析網(wǎng)頁技術(shù)json模塊BeautifulSoupPythonre模塊lxml模塊支持正則表達(dá)式支持XPath語法JSONPath語法BeautifulSoup4解析工具的性能比較正則表達(dá)式XPathBeautifulSoup使用BeautifulSoup4解析豆瓣讀書Top250網(wǎng)站數(shù)據(jù)實(shí)際開發(fā)中應(yīng)該如何選擇呢?解析工具的性能比較根據(jù)具體情況選擇合適的技術(shù)爬取工具速度使用難度安裝難度re最快困難無(內(nèi)置)lxml快簡(jiǎn)單一般beautifulsoup4慢最簡(jiǎn)單簡(jiǎn)單Beautiful
Soup4庫Beautiful
Soup4庫(也稱BeautifulSoup或bs4)是一個(gè)用于解析和處理HTML、XML頁面并提取數(shù)據(jù)的第三方庫。建立的Web頁面一般比較復(fù)雜Beautiful
Soup4庫缺點(diǎn)根據(jù)HTML和XML語法建立解析樹,進(jìn)而高效解析其中的內(nèi)容,為用戶提供需要的數(shù)據(jù)優(yōu)勢(shì)包含大量用于頁面格式的元素直接解析非常復(fù)雜bs4庫中對(duì)象的種類對(duì)象歸納bs4庫中對(duì)象的種類TagNavigableStringBeautifulSoupbs4庫將復(fù)雜的HTML文檔轉(zhuǎn)換成樹形結(jié)構(gòu)。CommentHTML中的標(biāo)簽標(biāo)簽中的文本對(duì)象特殊的NavigableString對(duì)象,如果HTML標(biāo)簽中有注釋,則可過濾注釋符號(hào)并保留注釋文本整個(gè)HTML文本對(duì)象,可作為Tag對(duì)象使用bs4解析網(wǎng)頁數(shù)據(jù)的一般流程通過BeautifulSoup對(duì)象的操作方法根據(jù)DOM樹進(jìn)行各種節(jié)點(diǎn)的搜索。如可按照按節(jié)點(diǎn)名稱、節(jié)點(diǎn)屬性值、節(jié)點(diǎn)文本進(jìn)行搜索。利用DOM樹結(jié)構(gòu)標(biāo)簽的特性,進(jìn)行節(jié)點(diǎn)信息提取。搜索節(jié)點(diǎn)節(jié)點(diǎn)信息提取使用bs4解析網(wǎng)頁數(shù)據(jù)的一般流程流程根據(jù)HTML或者文件創(chuàng)建BeautifulSoup對(duì)象。創(chuàng)建BeautifulSoup對(duì)象常用的查找方法查找方法find_all()find()常用的查找方法搜索出所有滿足要求的節(jié)點(diǎn)搜索出第一個(gè)滿足要求的節(jié)點(diǎn),只要獲得了一個(gè)節(jié)點(diǎn),就可以訪問節(jié)點(diǎn)名稱、屬性和文本語法格式:常用的查找方法參數(shù)說明:name:表示要查找的標(biāo)簽名。attrs:表示標(biāo)簽的屬性約束,采用josn格式。recursive:表示遞歸。text:表示查找文本,**kwargs:表示其他鍵值參數(shù)。select()方法select()方法標(biāo)簽名查類名查找id查找select()方法子標(biāo)簽查找組合查找select()方法屬性查找使用bs4解析豆瓣讀書Top250網(wǎng)頁數(shù)據(jù)課程小結(jié)解析網(wǎng)頁技術(shù)解析工具的性能比較Beautiful
Soup4庫bs4庫中對(duì)象的種類使用bs4解析網(wǎng)頁數(shù)據(jù)的一般流程常用的查找方法select()方法使用bs4解析豆瓣讀書T
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025四川建筑安全員《B證》考試題庫及答案
- 二零二五年度先進(jìn)KN95口罩機(jī)居間合作協(xié)議文本
- 2024年航天飛行器推進(jìn)技術(shù)研發(fā)合同
- 2025江西建筑安全員-C證考試(專職安全員)題庫附答案
- 在線生活中的算法(說課稿)2024-2025學(xué)年六年級(jí)上冊(cè)信息技術(shù)浙教版001
- 二零二五年度企業(yè)電腦采購與數(shù)據(jù)安全協(xié)議3篇
- 2024年高速公路施工車輛租賃合同
- 2025年度挖掘機(jī)、裝載機(jī)施工合作協(xié)議3篇
- 二零二五年度冷鏈?zhǔn)称钒徇\(yùn)及配送服務(wù)合同2篇
- 醫(yī)療器械生產(chǎn)質(zhì)量保證協(xié)議
- 安徽省合肥市蜀山區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期地理期末模擬練習(xí)(含答案)
- 新建設(shè)項(xiàng)目施工人員安全教育培訓(xùn)課件
- 品質(zhì)總監(jiān)轉(zhuǎn)正述職報(bào)告
- 2024年游艇俱樂部會(huì)員專屬活動(dòng)策劃與執(zhí)行合同3篇
- 廣東省廣州市番禺區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期末英語試題
- 《項(xiàng)目管理培訓(xùn)課程》課件
- 2024年企業(yè)團(tuán)購:銷售合作協(xié)議3篇
- 2024-2025學(xué)年八年級(jí)語文上學(xué)期期末真題復(fù)習(xí) 專題06 文言文閱讀
- 制藥課程設(shè)計(jì)三廢處理
- 2024-2025學(xué)年上學(xué)期廣州初中英語九年級(jí)期末試卷
- 惠州學(xué)院《大學(xué)物理》2021-2022學(xué)年第一學(xué)期期末試卷
評(píng)論
0/150
提交評(píng)論