版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
BeautifulSoupContents知識目標(biāo)掌握BeautifulSoup使用方法技能目標(biāo)提高數(shù)據(jù)采集和處理能力素養(yǎng)目標(biāo)培養(yǎng)良好的信息素養(yǎng)和道德意識BeautifulSoup開發(fā)BeautifulSoup4版本,簡稱為bs4bs4是一個Python庫,功能:OR中提取數(shù)據(jù)從節(jié)省大量工作時間提高開發(fā)項目效率可以通過轉(zhuǎn)換器實現(xiàn)慣用的文檔導(dǎo)航和查找方式bs4安裝、使用安裝bs4庫:運行命令pipinstallbs4導(dǎo)入bs4庫:通過語句frombs4importBeautifulSoupbs4安裝、使用運行命令pipinstallbs4安裝bs4庫:導(dǎo)入bs4庫:通過語句frombs4importBeautifulSoupbs4安裝、使用使用bs4的一般流程:創(chuàng)建BeautifulSoup對象:根據(jù)要解析的或
,創(chuàng)建一個BeautifulSoup對象。調(diào)用BeautifulSoup的構(gòu)造函數(shù)創(chuàng)建對象bs4安裝、使用使用bs4的一般流程:搜索和遍歷文檔樹:使用BeautifulSoup提供的方法來搜索和遍歷文檔樹。使用find()或find_all()方法搜索滿足特定條件的節(jié)點并使用點操作符和CSS選擇器來訪問節(jié)點的屬性和文本。例如bs4安裝、使用使用bs4的一般流程:提取和操作數(shù)據(jù):一旦找到了所需的節(jié)點,可以訪問:節(jié)點的名稱節(jié)點的屬性節(jié)點的文本并根據(jù)需要進(jìn)行進(jìn)一步的數(shù)據(jù)提取和處理。bs4安裝、使用通過一個字符串或者類文件對象可以創(chuàng)建BeautifulSoup類的對象例如,根據(jù)字符串html_doc創(chuàng)建一個BeautifulSoup對象:示例:frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,'lxml')print(soup)運行結(jié)果:<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b></p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>and<aclass="sister"href="/wangwu"id="link3">wangwu</a>;andtheylivedatthebottomofawell.</p><pclass="story">...</p></body></html>創(chuàng)建BeautifulSoup實例時共傳入兩個參數(shù)。第一個參數(shù)表示包含被解析HTML文檔的字符串,第二個參數(shù)表示使用lxml解析器進(jìn)行解析。BeautifulSoup常見的解析器BeautifulSoup支持Python標(biāo)準(zhǔn)庫中的HTML解析器以及一些第三方的解析器,常見的解析器如下表所示:解析器使用方法優(yōu)勢劣勢Python標(biāo)準(zhǔn)庫BeautifulSoup(markup,“html.parser”)Python的內(nèi)置標(biāo)準(zhǔn)庫執(zhí)行速度適中文檔容錯能力強Python2.7.3or3.2.2前的版本中文檔容錯能力差lxmlHTML解析器BeautifulSoup(markup,“l(fā)xml”)速度快文檔容錯能力強需要安裝C語言庫lxmlXML解析器BeautifulSoup(markup,[“l(fā)xml”,“xml”])BeautifulSoup(markup,“xml”)速度快唯一支持XML的解析器需要安裝C語言庫html5libBeautifulSoup(markup,“html5lib”)最好的容錯性以瀏覽器的方式解析文檔生成HTML5格式的文檔速度慢BeautifulSoup常見的解析器BeautifulSoup對象會根據(jù)當(dāng)前系統(tǒng)安裝的庫自動選擇解析器,選擇順序為:lxml如果沒有指定解析器創(chuàng)建BeautifulSoup對象時:html5libPython標(biāo)準(zhǔn)庫>>通過操作方法進(jìn)行解讀搜索bs4庫內(nèi)置了一些查找方法,其中常用的兩個方法功能如下:find()方法findall()方法用于查找符合查詢條件的第一個標(biāo)簽節(jié)點。查找所有符合查詢條件的標(biāo)簽節(jié)點,并返回一個列表。兩個方法用到的參數(shù)是一樣的,以find_all()方法為例:find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過一些查找方法獲取文本或者標(biāo)簽屬性通過操作方法進(jìn)行解讀搜索為了能獲得這些有用的網(wǎng)頁信息,可以通過一些查找方法獲取文本或者標(biāo)簽屬性。bs4庫內(nèi)置了一些查找方法,其中常用的兩個方法功能如下:find()方法findall()方法用于查找符合查詢條件的第一個標(biāo)簽節(jié)點。查找所有符合查詢條件的標(biāo)簽節(jié)點,并返回一個列表。兩個方法用到的參數(shù)是一樣的,以find_all()方法為例:find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過操作方法進(jìn)行解讀搜索示例1:soup.find_all('b')運行結(jié)果:[<b>TheDormouse'sstory</b>]示例2:fortaginsoup.find_all(pile("^b")):print()運行結(jié)果:bodybname參數(shù):查找所有名字為name的標(biāo)簽,字符串會被自動忽略掉。具體示例如下:示例3:soup.find_all(["a","b"])運行結(jié)果:[<b>TheDormouse'sstory</b>,<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]傳入字符串傳入列表傳入正則通過操作方法進(jìn)行解讀搜索示例1:soup.find_all(id='link2')運行結(jié)果:[<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>]示例2:soup.find_all(href=pile("lisi"),id='link1')運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>]keyword參數(shù):若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名,則會把該參數(shù)當(dāng)作指定名稱的標(biāo)簽中的屬性來搜索。傳入屬性標(biāo)簽傳入多個屬性通過操作方法進(jìn)行解讀搜索keyword參數(shù):若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名,則會把該參數(shù)當(dāng)作指定名稱的標(biāo)簽中的屬性來搜索。傳入class標(biāo)簽示例3:soup.find_all("a",class_="sister")運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]通過操作方法進(jìn)行解讀搜索text參數(shù):跟name參數(shù)的可選值一樣,也可以接受字符串、正則表達(dá)式和列表等。soup.find_all(text="zhangsan")運行結(jié)果:[u'zhangsan']soup.find_all(text=["zhangsan","lisi","wangwu"])運行結(jié)果:[u'lisi',u'wangwu',u'zhangsan']find_all()方法返回的是標(biāo)簽的文本內(nèi)容,而不是標(biāo)簽對象本身。通過操作方法進(jìn)行解讀搜索limit參數(shù):限制返回結(jié)果的數(shù)量,其效果跟SQL語句中的limit關(guān)鍵字所產(chǎn)生的效果類似。soup.find_all("a",limit=2)運行結(jié)果:[<aclass="sister"href="/elsie"id="link1">lisi</a>,<aclass="sister"href="/lacie"id="link2">zhangsan</a>]一旦搜索到結(jié)果的數(shù)量達(dá)到了limit的限制時,就會停止搜索。通過操作方法進(jìn)行解讀搜索recursive參數(shù):如果只想搜索當(dāng)前節(jié)點的直接子節(jié)點,那么就可以使用參數(shù)recursive=False。soup.html.find_all("title")運行結(jié)果:[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運行結(jié)果:[]recursive=False通過操作方法進(jìn)行解讀搜索recursive參數(shù):如果只想搜索當(dāng)前節(jié)點的直接子節(jié)點,就可以使用參數(shù)recursive=False。soup.html.find_all("title")運行結(jié)果:[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運行結(jié)果:[]通過操作方法進(jìn)行解讀搜索示例1:通過標(biāo)簽查找:soup.select("title")運行結(jié)果:[<title>TheDormouse'sstory</title>]示例2:通過類名查找:soup.select(".sister")運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]select()方法,會將CSS選擇器搜索到的結(jié)果放到列表中。通過操作方法進(jìn)行解讀搜索BeautifulSoup類中提供了一個select()方法,該方法會將CSS選擇器搜索到的結(jié)果放到列表中。示例3:通過id名查找:soup.select('#link1')運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>]示例4:通過組合查找:soup.select("p#link1")soup.select('head>title')運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>][<title>TheDormouse'sstory</title>]通過操作方法進(jìn)行解讀搜索以上查找方法都會返回一個列表。遍歷這個列表,可以調(diào)用get_text()方法來獲取節(jié)點的內(nèi)容。forele
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年出租車公司股權(quán)投資入股合同樣本4篇
- 二零二五版創(chuàng)業(yè)貸款合同之延期還款及創(chuàng)業(yè)指導(dǎo)服務(wù)范本3篇
- 2025年度車輛抵押借款合同模板(含車輛評估)4篇
- 二零二五版滅火器生產(chǎn)許可證轉(zhuǎn)讓及許可合同4篇
- 2025年度模特經(jīng)紀(jì)公司代理合同4篇
- 二零二四年度專業(yè)醫(yī)療設(shè)備租賃合同示范文本3篇
- 個性化軟件買賣合同(2024年版)版B版
- 2025年度特殊用途場地借用與安全保障合同2篇
- 2025年餐飲服務(wù)食堂檔口承包合作合同樣本3篇
- 二零二五版文化藝術(shù)交流活動組織者與志愿者勞務(wù)合同3篇
- 2025水利云播五大員考試題庫(含答案)
- 中藥飲片驗收培訓(xùn)
- DB34T 1831-2013 油菜收獲與秸稈粉碎機械化聯(lián)合作業(yè)技術(shù)規(guī)范
- 創(chuàng)傷處理理論知識考核試題及答案
- 稅前工資反算表模板
- 2019級水電站動力設(shè)備專業(yè)三年制人才培養(yǎng)方案
- 肝素誘導(dǎo)的血小板減少癥培訓(xùn)課件
- 抖音認(rèn)證承諾函
- 高等數(shù)學(xué)(第二版)
- 四合一體系基礎(chǔ)知識培訓(xùn)課件
- ICD-9-CM-3手術(shù)與操作國家臨床版亞目表
評論
0/150
提交評論