版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
川教版(2019)九年級(jí)上冊(cè)第三單元我的課外讀物—網(wǎng)絡(luò)爬蟲(chóng)第1節(jié)爬取網(wǎng)絡(luò)信息課堂導(dǎo)入同學(xué)們:隨著信息技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)上涌現(xiàn)出了大量的信息,網(wǎng)絡(luò)爬蟲(chóng)可以有效地篩選并提取我們需要的信息。本單元我們將通過(guò)完成“我的課外讀物”項(xiàng)目,掌握Python網(wǎng)絡(luò)爬蟲(chóng)的編寫(xiě)技術(shù),學(xué)會(huì)處理和保存信息的方法。學(xué)習(xí)目標(biāo)1.分析任務(wù)要達(dá)到的目標(biāo)。2.學(xué)會(huì)將任務(wù)分解成小任務(wù)并梳理出方法和步驟。3.學(xué)會(huì)在Python中使用requests模塊訪問(wèn)網(wǎng)絡(luò),獲取信息。目錄一、明確任務(wù)二、實(shí)現(xiàn)方法三、Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)明確任務(wù)一、明確任務(wù)明確任務(wù)網(wǎng)上有很多書(shū)目介紹的網(wǎng)站,我們以“京東商城”為例,網(wǎng)址是“/chanpin/459613.html”。我們可以用python程序把這個(gè)網(wǎng)頁(yè)的信息獲取下來(lái),對(duì)信息進(jìn)行篩選和整理,并且保存下來(lái),還可以進(jìn)行簡(jiǎn)單的處理,最后得到我們想要的信息。我們按以下步驟來(lái)進(jìn)行:1.搜索滿足要求的網(wǎng)站;2.編寫(xiě)程序從網(wǎng)頁(yè)獲取信息;3.篩選出所需信息;4.將信息轉(zhuǎn)化成表格的格式;5.保存信息;6.使用/分析信息。上面的過(guò)程可以概括為獲取信息、處理信息、保存信息、使用/分析信息等步驟。明確任務(wù)用Python編寫(xiě)爬蟲(chóng)程序訪問(wèn)網(wǎng)頁(yè)獲取網(wǎng)頁(yè)內(nèi)容篩選出所需信息調(diào)整所需信息格式保存需要的信息分析信息()信息()信息()信息()信息獲取處理保存使用/分析實(shí)現(xiàn)方法二、實(shí)現(xiàn)方法“我的課外讀物”項(xiàng)目用Python爬蟲(chóng)編程實(shí)現(xiàn)所需知識(shí)和方法。所屬步驟流程說(shuō)明所需知識(shí)、方法獲取信息訪問(wèn)網(wǎng)頁(yè)、獲取網(wǎng)頁(yè)內(nèi)容requests模塊的使用方法處理信息篩選信息、整理信息使用BeautifulSoup模塊調(diào)用lxml解析器清除不需要的html內(nèi)容保存信息保存信息至文件文件保存、寫(xiě)操作使用/分析信息根據(jù)需求使用、分析信息用Excel排序,或使用pandas模塊排序?qū)崿F(xiàn)方法實(shí)現(xiàn)方法上表中的知識(shí)與方法,是我們編寫(xiě)爬蟲(chóng)程序的基礎(chǔ),表中列舉的requests和BeautifulSoup模塊需要提前安裝。安裝方法如下:打開(kāi)cmd命令提示符,輸入pipinstallrequests,按回車(chē)鍵開(kāi)始下載安裝。打開(kāi)cmd命令提示符,輸入pipinstallbeautifulsoup4,按回車(chē)鍵開(kāi)始下載安裝。只要掌握了這些知識(shí),就可以編寫(xiě)出符合我們需求的爬蟲(chóng)程序。Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)三、Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)編寫(xiě)程序,讓程序訪問(wèn)網(wǎng)絡(luò)并獲取我們需要的信息,這樣的程序,我們把它叫做“網(wǎng)絡(luò)爬蟲(chóng)”。首先,請(qǐng)從瀏覽器中打開(kāi)“京東商城”的網(wǎng)頁(yè),頁(yè)面上有很多書(shū),每本書(shū)有書(shū)籍名、內(nèi)容簡(jiǎn)介、好評(píng)數(shù)、作者、價(jià)格等信息,如下圖所示:Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)P(yáng)ython爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)在頁(yè)面上點(diǎn)擊右鍵,選擇“查看頁(yè)面源代碼”,這些源代碼就是一些純文本。有如<html>…</html>,<head>…</head>,<spanclass=“title”>…<lspan>,<divclass=“price”>…<ldiv>這些文本,它們叫Html標(biāo)簽,用來(lái)控制頁(yè)面文本或者圖片在網(wǎng)頁(yè)中的顯示,如下圖所示:Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)我們使用requests模塊的get函數(shù),可以獲取這個(gè)頁(yè)面的源代碼。將上面代碼保存為文件“我的課外讀物.py”,然后執(zhí)行。執(zhí)行結(jié)果如下圖所示:Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)通過(guò)上面代碼中的五條語(yǔ)句獲取到網(wǎng)頁(yè)的源代碼。但是我們不需要全部的內(nèi)容,只需要書(shū)籍名稱(chēng)及它的好評(píng)數(shù)和價(jià)格、作者、內(nèi)容簡(jiǎn)介等信息。仔細(xì)觀察源代碼,發(fā)現(xiàn)書(shū)籍名稱(chēng)代碼中有一些相同的代碼:<spanclass=“title”>…</span>。這就是Html標(biāo)簽,書(shū)籍名稱(chēng)不同,但標(biāo)簽中的class=“title”卻是相同的,我們使用class=“title”做關(guān)鍵字來(lái)查找書(shū)籍名。再找找好評(píng)數(shù)、價(jià)格和內(nèi)容簡(jiǎn)介的標(biāo)簽與關(guān)鍵字,統(tǒng)一大小寫(xiě)、規(guī)范填寫(xiě)。如下表所示:查找內(nèi)容起始標(biāo)簽結(jié)束標(biāo)簽關(guān)鍵字書(shū)籍名<span></span>class="title"內(nèi)容簡(jiǎn)介好評(píng)數(shù)價(jià)格<em></em>class="curr"<div></div>class="p-commit"<strong></strong>class="p-price"Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)根據(jù)代碼特征就可以從全部源代碼中提取出我們需要的信息。這需要對(duì)txt文件中的“字符串”進(jìn)行操作。七年級(jí)上學(xué)期我們了解到通過(guò)input函數(shù)獲取到的數(shù)據(jù)默認(rèn)是字符串類(lèi)型,前面獲取的頁(yè)面源代碼“resTxt”也是一個(gè)字符串。下面我們來(lái)進(jìn)一步了解字符串。字符串:在Python中,字符串通常都放在單引號(hào)或者雙引號(hào)之間,如果字符串較長(zhǎng),甚至有分段,我們還可以使用三個(gè)單引號(hào)或者三個(gè)雙引號(hào),來(lái)將這種長(zhǎng)字符串“包括”在其中。Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)練習(xí):請(qǐng)同學(xué)們運(yùn)行下面的代碼,觀察運(yùn)行結(jié)果,總結(jié)定義字符串的方式。stra='我是字符串a(chǎn)’strb=“我是字符串b”print(stra)print(strb)strc="Let’sgo!"strd=’’’歡歡說(shuō):“Let’sgo!”’’’stre=”””樂(lè)樂(lè)說(shuō):’Let’sgo!”””print(strc)print(strd)print(stre)Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)從上面的代碼中運(yùn)行結(jié)果可以看出,定文字符串有4種不同的方式,請(qǐng)同學(xué)們填寫(xiě)在下表中。定義字符串符號(hào)應(yīng)用范圍單引號(hào)只有字符或文字雙引號(hào)三個(gè)單引號(hào)三個(gè)雙引號(hào)只有字符或文字字符串較長(zhǎng),甚至有分段字符串較長(zhǎng),甚至有分段Python爬蟲(chóng)訪問(wèn)網(wǎng)頁(yè)拓展閱讀:網(wǎng)絡(luò)爬蟲(chóng),又被稱(chēng)為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人等。它的本質(zhì),是一種按照一定的規(guī)則,自動(dòng)爬取網(wǎng)絡(luò)信息的程序或腳本。網(wǎng)絡(luò)爬蟲(chóng)幫助搜索引擎從互聯(lián)網(wǎng)上讀取網(wǎng)頁(yè),是搜索引擎最重要也是最基礎(chǔ)的組成部分。網(wǎng)絡(luò)爬蟲(chóng)能快速、高效地幫助我們獲取到有用的信息,特別是當(dāng)我們需要從網(wǎng)絡(luò)上大規(guī)模的獲取某類(lèi)信息時(shí),網(wǎng)絡(luò)爬蟲(chóng)將會(huì)使我們的工作事半功倍。所以,理解網(wǎng)絡(luò)爬蟲(chóng)的基本原理,甚至能夠自己編寫(xiě)爬蟲(chóng)。是我們生活在信息時(shí)代應(yīng)該具備的技能。網(wǎng)絡(luò)爬蟲(chóng)及其作用課堂小結(jié)爬取網(wǎng)絡(luò)信息明確任務(wù)步驟:1.獲取信息2.處理信息3.保存信息4.使用/分
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)人房屋抵押民間借貸借款協(xié)議文本3篇
- 2025年度平板車(chē)租賃運(yùn)輸合同風(fēng)險(xiǎn)評(píng)估與控制
- 個(gè)人租房合同標(biāo)準(zhǔn)版可打印
- 二零二五年度處理男子外遇妻子懷孕離婚撫養(yǎng)權(quán)糾紛調(diào)解合同
- 二零二五年度智慧家居項(xiàng)目報(bào)建代理與智能家居合同2篇
- 2025年度鐵礦石進(jìn)出口關(guān)稅及稅費(fèi)繳納合同規(guī)范
- 二零二五版礦產(chǎn)資源租賃居間代理合同3篇
- 二零二五年度企事業(yè)單位廉潔從業(yè)監(jiān)督員聘任合同
- 2025阿里巴巴智能物流機(jī)器人研發(fā)及銷(xiāo)售合同3篇
- 重慶文化藝術(shù)職業(yè)學(xué)院《應(yīng)用文寫(xiě)作》2023-2024學(xué)年第一學(xué)期期末試卷
- 《大學(xué)生職業(yè)發(fā)展與就業(yè)指導(dǎo)》課程標(biāo)準(zhǔn)
- 第23課《出師表》課件(共56張)
- GB/T 3953-2024電工圓銅線
- 發(fā)電機(jī)停電故障應(yīng)急預(yù)案
- 接電的施工方案
- 常用藥物作用及副作用課件
- 幼兒阿拉伯?dāng)?shù)字描紅(0-100)打印版
- 社會(huì)組織等級(jí)評(píng)估報(bào)告模板
- GB/T 12173-2008礦用一般型電氣設(shè)備
- 新媒體研究方法教學(xué)ppt課件(完整版)
- 2020新版?zhèn)€人征信報(bào)告模板
評(píng)論
0/150
提交評(píng)論