《Python網(wǎng)絡(luò)爬蟲技術(shù)案例教程》（林忠會(huì)）第1章.Python網(wǎng)絡(luò)爬蟲

上傳人：萍*** IP屬地：湖北上傳時(shí)間：2023-09-04 格式：PPTX 頁(yè)數(shù)：68 大小：2.35MB 積分：20 舉報(bào) 版權(quán)申訴

《Python網(wǎng)絡(luò)爬蟲技術(shù)案例教程》（林忠會(huì)）第1章.Python網(wǎng)絡(luò)爬蟲_第2頁(yè)

《Python網(wǎng)絡(luò)爬蟲技術(shù)案例教程》（林忠會(huì)）第1章.Python網(wǎng)絡(luò)爬蟲_第3頁(yè)

《Python網(wǎng)絡(luò)爬蟲技術(shù)案例教程》（林忠會(huì)）第1章.Python網(wǎng)絡(luò)爬蟲_第4頁(yè)

《Python網(wǎng)絡(luò)爬蟲技術(shù)案例教程》（林忠會(huì)）第1章.Python網(wǎng)絡(luò)爬蟲_第5頁(yè)

已閱讀5頁(yè)，還剩63頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲Python網(wǎng)絡(luò)爬蟲技術(shù)案例教程PythonWangluoPachongJishuAnliJiaocheng作業(yè)布置單擊此處獲取APP掃碼作業(yè)布置方法作業(yè)布置宣傳片，歡迎播放了解單擊此處獲取微信掃碼作業(yè)布置方法使用說(shuō)明文檔本課作業(yè)布置二維碼老師掃描此碼，即可進(jìn)行線上作業(yè)布置COMMITTEDCOMMITTEDCOMMITTECOMMITTECONTENTS目錄COMMITTED第1章網(wǎng)絡(luò)爬蟲入門

第2章爬蟲基礎(chǔ)第3章網(wǎng)頁(yè)解析基礎(chǔ)第4章爬取動(dòng)態(tài)加載數(shù)據(jù)第5章反爬蟲策略第6章模擬登錄和處理驗(yàn)證碼

第7章爬取App和PC客戶端第8章爬蟲框架Scrapy第9章分布式爬蟲第10章項(xiàng)目實(shí)戰(zhàn).Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲掃碼下載文旌課堂APP掃碼簽到（202X.XX.XXXX:XX至202X.XX.XXXX:XX）簽到方式教師通過(guò)“文旌課堂APP”生成簽到二維碼，并設(shè)置簽到時(shí)間，學(xué)生通過(guò)“文旌課堂APP”掃描“簽到二維碼”進(jìn)行簽到。簽到.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲第1章

網(wǎng)絡(luò)爬蟲入門本章導(dǎo)讀在當(dāng)今這個(gè)數(shù)據(jù)大爆炸的信息時(shí)代，用戶與網(wǎng)絡(luò)的溝通本質(zhì)上是數(shù)據(jù)的交換，這導(dǎo)致了互聯(lián)網(wǎng)信息數(shù)據(jù)量的爆發(fā)式增長(zhǎng)。海量的互聯(lián)網(wǎng)數(shù)據(jù)蘊(yùn)含著巨大的價(jià)值，用戶如何自動(dòng)高效地從互聯(lián)網(wǎng)中獲取感興趣的信息并有效地應(yīng)用是一個(gè)亟待解決的問(wèn)題。在這樣的環(huán)境和需求的影響下，網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生，它為互聯(lián)網(wǎng)數(shù)據(jù)的采集提供了新的方法。本章從網(wǎng)絡(luò)爬蟲概述入手，介紹網(wǎng)絡(luò)爬蟲的相關(guān)基礎(chǔ)知識(shí)，包括網(wǎng)絡(luò)爬蟲的原理、分類和應(yīng)用，網(wǎng)絡(luò)爬蟲工作流程，網(wǎng)絡(luò)爬蟲協(xié)議，以及搭建Python開發(fā)環(huán)境等內(nèi)容。學(xué)習(xí)目標(biāo)理解網(wǎng)絡(luò)爬蟲的原理、分類和應(yīng)用。掌握網(wǎng)絡(luò)爬蟲的工作流程。了解網(wǎng)絡(luò)爬蟲協(xié)議。能在Windows系統(tǒng)中搭建Python開發(fā)環(huán)境。1.1網(wǎng)絡(luò)爬蟲概述1.2網(wǎng)絡(luò)爬蟲工作流程1.3網(wǎng)絡(luò)爬蟲協(xié)議第1章網(wǎng)絡(luò)爬蟲入門1.4搭建Python開發(fā)環(huán)境.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲1.1網(wǎng)絡(luò)爬蟲概述SectionTitle1.1網(wǎng)絡(luò)爬蟲概述1.1.1網(wǎng)絡(luò)爬蟲原理網(wǎng)絡(luò)爬蟲又稱為“網(wǎng)絡(luò)蜘蛛”，是一個(gè)用來(lái)實(shí)現(xiàn)自動(dòng)采集網(wǎng)絡(luò)數(shù)據(jù)的程序。如果將互聯(lián)網(wǎng)比作一張蜘蛛網(wǎng)，互聯(lián)網(wǎng)上的一個(gè)個(gè)網(wǎng)頁(yè)比作蜘蛛網(wǎng)上的一個(gè)個(gè)節(jié)點(diǎn)，那么網(wǎng)頁(yè)與網(wǎng)頁(yè)之間的鏈接關(guān)系可以比作節(jié)點(diǎn)間的連線，而網(wǎng)絡(luò)爬蟲就可以比作在網(wǎng)上爬來(lái)爬去的蜘蛛。蜘蛛爬到一個(gè)節(jié)點(diǎn)相當(dāng)于訪問(wèn)了該網(wǎng)頁(yè)，提取了信息，然后順著節(jié)點(diǎn)間的連線繼續(xù)爬行到下一個(gè)節(jié)點(diǎn)，這樣周而復(fù)始，蜘蛛就可以爬遍整個(gè)網(wǎng)絡(luò)的所有節(jié)點(diǎn)，抓取數(shù)據(jù)。1.1網(wǎng)絡(luò)爬蟲概述總的來(lái)說(shuō)，網(wǎng)絡(luò)爬蟲的基本原理可用圖1-1描述。圖1-1網(wǎng)絡(luò)爬蟲基本原理1.1網(wǎng)絡(luò)爬蟲概述（1）預(yù)先設(shè)定一個(gè)或若干個(gè)初始網(wǎng)頁(yè)的URL，將初始URL加入待爬取URL列表中。（2）從待爬取列表中逐個(gè)讀取URL，并將URL加入已爬取URL列表中，然后下載網(wǎng)頁(yè)。（3）解析已下載的網(wǎng)頁(yè)，提取所需的數(shù)據(jù)和新的URL，并存儲(chǔ)提取的數(shù)據(jù)。（4）將新的URL與已爬取的URL列表進(jìn)行比對(duì)，檢查該網(wǎng)頁(yè)是否已爬取，如果網(wǎng)頁(yè)沒有被爬取，則將新的URL放入待爬取URL列表的末尾，等待讀取。（5）如此往復(fù)，直到待爬取URL列表為空或者滿足設(shè)定的終止條件，最終達(dá)到遍歷網(wǎng)頁(yè)的目的。1.1網(wǎng)絡(luò)爬蟲概述統(tǒng)一資源定位符（UniformResourceLocator,URL）是對(duì)可以從互聯(lián)網(wǎng)上得到的資源位置和訪問(wèn)方法的一種簡(jiǎn)潔表示，是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。1.1網(wǎng)絡(luò)爬蟲概述1.1.2網(wǎng)絡(luò)爬蟲分類網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和工作原理的不同，大致可以分為四類：系統(tǒng)結(jié)構(gòu)和工作原理的不同通用網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲深層網(wǎng)絡(luò)爬蟲1.1網(wǎng)絡(luò)爬蟲概述（1）通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲，是根據(jù)網(wǎng)絡(luò)爬蟲的基本原理實(shí)現(xiàn)的，它所爬取的目標(biāo)會(huì)從初始設(shè)定的URL擴(kuò)充到全網(wǎng)。通用網(wǎng)絡(luò)爬蟲主要應(yīng)用于門戶網(wǎng)站、搜索引擎和大型網(wǎng)絡(luò)服務(wù)提供商的數(shù)據(jù)采集。1.1網(wǎng)絡(luò)爬蟲概述（2）聚焦網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是與預(yù)先定義好的主題相關(guān)的網(wǎng)頁(yè)。與通用網(wǎng)絡(luò)爬蟲相比，聚焦網(wǎng)絡(luò)爬蟲只選擇爬取與主題相關(guān)的網(wǎng)頁(yè)，極大地節(jié)省了硬件和網(wǎng)絡(luò)資源，它主要應(yīng)用于對(duì)特定領(lǐng)域信息有需求的場(chǎng)景。聚焦網(wǎng)絡(luò)爬蟲在通用網(wǎng)絡(luò)爬蟲的基礎(chǔ)上，需要對(duì)提取的新URL進(jìn)行過(guò)濾處理，過(guò)濾掉與目標(biāo)主題無(wú)關(guān)的網(wǎng)頁(yè)，且根據(jù)一定的相關(guān)性搜索策略，確定待爬取URL列表的讀取順序。1.1網(wǎng)絡(luò)爬蟲概述（3）增量式網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是有更新的已下載網(wǎng)頁(yè)和新產(chǎn)生的網(wǎng)頁(yè)。爬蟲程序監(jiān)測(cè)網(wǎng)站數(shù)據(jù)更新的情況，然后在需要的時(shí)候只爬取發(fā)生更新或新產(chǎn)生的網(wǎng)頁(yè)。這樣，可有效減少數(shù)據(jù)下載量，及時(shí)更新已爬取的網(wǎng)頁(yè)，但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。增量式網(wǎng)絡(luò)爬蟲主要應(yīng)用于網(wǎng)頁(yè)內(nèi)容會(huì)時(shí)常更新的網(wǎng)站，或者不斷有新網(wǎng)頁(yè)出現(xiàn)的網(wǎng)站。1.1網(wǎng)絡(luò)爬蟲概述（4）深層網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是不能通過(guò)靜態(tài)鏈接獲取的，隱藏在搜索表單后的，只有用戶提交一些關(guān)鍵詞才能獲得的網(wǎng)頁(yè)，如用戶注冊(cè)后才可顯示內(nèi)容的網(wǎng)頁(yè)。1.1網(wǎng)絡(luò)爬蟲概述1.1.3網(wǎng)絡(luò)爬蟲應(yīng)用每個(gè)獨(dú)立的搜索引擎都有自己的爬蟲程序，爬蟲程序每天連續(xù)地爬取相關(guān)網(wǎng)站，提取信息保存到索引數(shù)據(jù)庫(kù)中，如Google爬蟲Googlebot、百度爬蟲Baiduspider、必應(yīng)爬蟲Bingbot

等。此外，有些搜索引擎對(duì)應(yīng)不同的業(yè)務(wù)還有不同的爬蟲，如百度圖片爬蟲Baiduspider-image、百度新聞爬蟲Baiduspider-news等。搜索引擎在用戶輸入搜索信息后并不是直接搜索整個(gè)互聯(lián)網(wǎng)，而是對(duì)預(yù)先建立好的索引數(shù)據(jù)庫(kù)進(jìn)行檢索。1.1網(wǎng)絡(luò)爬蟲概述企業(yè)用戶在采集和分析數(shù)據(jù)時(shí)也時(shí)常會(huì)借助網(wǎng)絡(luò)爬蟲。例如，爬取產(chǎn)品的用戶信息進(jìn)行分析，以確定目標(biāo)客戶群體；爬取同類產(chǎn)品的銷售信息進(jìn)行分析，以制定營(yíng)銷策略等。當(dāng)然，普通用戶也可以根據(jù)自己關(guān)注的主題采集所需要的數(shù)據(jù)，把瀏覽網(wǎng)站或App時(shí)所見到的數(shù)據(jù)都通過(guò)爬蟲程序保存下來(lái)，實(shí)現(xiàn)可見即可得。例如，爬取網(wǎng)站上的圖片、學(xué)術(shù)網(wǎng)站的論文、團(tuán)購(gòu)網(wǎng)站的價(jià)格及點(diǎn)評(píng)、各種電商平臺(tái)的商品信息、招聘網(wǎng)站的招聘信息等數(shù)據(jù)。1.1網(wǎng)絡(luò)爬蟲概述（4）深層網(wǎng)絡(luò)爬蟲爬取的目標(biāo)是不能通過(guò)靜態(tài)鏈接獲取的，隱藏在搜索表單后的，只有用戶提交一些關(guān)鍵詞才能獲得的網(wǎng)頁(yè)，如用戶注冊(cè)后才可顯示內(nèi)容的網(wǎng)頁(yè)。1.2網(wǎng)絡(luò)爬蟲工作流程.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲SectionTitle1.2網(wǎng)絡(luò)爬蟲工作流程網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)化的程序，它的工作流程非常簡(jiǎn)單。爬蟲程序首先發(fā)送請(qǐng)求，獲取網(wǎng)頁(yè)響應(yīng)的內(nèi)容，然后解析網(wǎng)頁(yè)內(nèi)容，最后將提取的數(shù)據(jù)存儲(chǔ)到文件或數(shù)據(jù)庫(kù)中?？偨Y(jié)起來(lái)，其工作流程可以分為爬取網(wǎng)頁(yè)、解析網(wǎng)頁(yè)和存儲(chǔ)數(shù)據(jù)三個(gè)步驟，如圖1-2所示。圖1-2網(wǎng)絡(luò)爬蟲工作流程1.2網(wǎng)絡(luò)爬蟲工作流程1.2.1爬取網(wǎng)頁(yè)爬蟲程序首先要做的工作是爬取網(wǎng)頁(yè)，即獲取網(wǎng)頁(yè)的源代碼。源代碼里包含了網(wǎng)頁(yè)的有用信息，所以只要把源代碼爬取下來(lái)，就可以從中提取想要的信息。爬蟲程序向網(wǎng)站的服務(wù)器發(fā)送一個(gè)HTTP請(qǐng)求，服務(wù)器返回給爬蟲程序包含所需數(shù)據(jù)的HTTP響應(yīng)（即網(wǎng)頁(yè)源代碼）。Python提供了許多與網(wǎng)絡(luò)爬蟲相關(guān)的庫(kù)，其中，在爬取網(wǎng)頁(yè)方面有urllib、requests、selenium庫(kù)等。1.2網(wǎng)絡(luò)爬蟲工作流程1.2.2解析網(wǎng)頁(yè)爬取網(wǎng)頁(yè)后，接下來(lái)就是解析網(wǎng)頁(yè)了。解析網(wǎng)頁(yè)是用戶根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)，分析網(wǎng)頁(yè)源代碼，從中提取想要的數(shù)據(jù)。它可以使雜亂的數(shù)據(jù)變得條理清晰，以便用戶后續(xù)處理和分析。解析網(wǎng)頁(yè)萬(wàn)能的方法是正則表達(dá)式，但是構(gòu)造正則表達(dá)式比較復(fù)雜且容易出錯(cuò)，所以Python根據(jù)網(wǎng)頁(yè)節(jié)點(diǎn)屬性、CSS選擇器及XPath語(yǔ)法提供了網(wǎng)頁(yè)的解析庫(kù)，如beautifulsoup4、lxml庫(kù)等。使用這些庫(kù)，用戶可以高效快速地解析網(wǎng)頁(yè)。1.2網(wǎng)絡(luò)爬蟲工作流程1.2.3存儲(chǔ)數(shù)據(jù)解析網(wǎng)頁(yè)提取數(shù)據(jù)后，一般要將提取到的數(shù)據(jù)保存起來(lái)以便后續(xù)使用。保存數(shù)據(jù)的方式有很多種，可以將其簡(jiǎn)單保存到JSON或CSV文件中，也可以保存到數(shù)據(jù)庫(kù)中，如MySQL和MongoDB等。1.3網(wǎng)絡(luò)爬蟲協(xié)議.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲SectionTitle1.3網(wǎng)絡(luò)爬蟲協(xié)議1.3.1網(wǎng)絡(luò)爬蟲合法性雖然互聯(lián)網(wǎng)世界已經(jīng)通過(guò)自己的規(guī)則建立了一定的道德規(guī)范（Robots協(xié)議），但法律部分還在建立和完善中。從目前的情況來(lái)看，如果抓取的數(shù)據(jù)用于個(gè)人使用或科學(xué)研究，那么基本上是不違法的；但如果數(shù)據(jù)用于其他用途，尤其是轉(zhuǎn)載或商業(yè)用途，那么根據(jù)爬取網(wǎng)站數(shù)據(jù)的不同情況有不同的后果，嚴(yán)重的將會(huì)引起民事糾紛甚至觸犯法律。因此，用戶在爬取數(shù)據(jù)時(shí)應(yīng)避免以下幾個(gè)方面的問(wèn)題。1.3網(wǎng)絡(luò)爬蟲協(xié)議應(yīng)避免以下幾個(gè)方面的問(wèn)題（1）侵犯著作權(quán)。（2）侵犯商業(yè)秘密。（3）侵犯?jìng)€(gè)人隱私。（4）構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。（5）侵入計(jì)算機(jī)系統(tǒng)，構(gòu)成刑事犯罪。1.3網(wǎng)絡(luò)爬蟲協(xié)議百度與大眾點(diǎn)評(píng)不正當(dāng)競(jìng)爭(zhēng)糾紛案是百度公司因使用技術(shù)手段抓取并使用大眾點(diǎn)評(píng)內(nèi)容而被認(rèn)定為構(gòu)成不正當(dāng)競(jìng)爭(zhēng)的案例。本案在2016年被列為“影響中國(guó)互聯(lián)網(wǎng)法制進(jìn)程十大案例”之一。大眾點(diǎn)評(píng)是上海漢濤信息咨詢有限公司（下稱“漢濤公司”）向網(wǎng)絡(luò)用戶提供商戶基本信息及點(diǎn)評(píng)信息的生活服務(wù)App。北京百度網(wǎng)訊科技有限公司（下稱“百度公司”）使用技術(shù)手段在大眾點(diǎn)評(píng)等App上抓取了商戶的基本信息及點(diǎn)評(píng)信息，用戶使用其運(yùn)營(yíng)的百度地圖App查詢位置時(shí)，無(wú)須跳轉(zhuǎn)至大眾點(diǎn)評(píng)界面，就可直接在百度地圖界面獲取商戶的基本信息和點(diǎn)評(píng)信息。漢濤公司以百度公司等相關(guān)主體構(gòu)成不正當(dāng)競(jìng)爭(zhēng)向法院起訴。在本案審理過(guò)程中，法院將《反不正當(dāng)競(jìng)爭(zhēng)法》第二條作為主要裁判依據(jù)，并最終認(rèn)定百度公司構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。1.3網(wǎng)絡(luò)爬蟲協(xié)議1.3.2Robots協(xié)議Robots協(xié)議（又稱“爬蟲協(xié)議”）的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”（Robotsexclusionprotocol）。網(wǎng)站管理者可以通過(guò)它來(lái)表達(dá)是否希望爬蟲程序自動(dòng)獲取網(wǎng)站信息的意愿。管理者可以在網(wǎng)站根目錄下放置一個(gè)robots.txt文件，并在文件中列出哪些鏈接不允許爬蟲程序獲取。當(dāng)爬蟲程序訪問(wèn)一個(gè)網(wǎng)站時(shí)，它會(huì)首先檢查該網(wǎng)站根目錄下是否存在robots.txt文件，如果存在，爬蟲程序就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)范圍；如果不存在，爬蟲程序就能夠訪問(wèn)網(wǎng)站上所有沒被保護(hù)的網(wǎng)頁(yè)。1.3網(wǎng)絡(luò)爬蟲協(xié)議robots.txt文件遵循一定的格式，下面以知乎的robots.txt文件為例進(jìn)行介紹。訪問(wèn)/robots.txt，可以查看完整代碼（這里僅截取部分代碼進(jìn)行分析），如圖1-3所示。圖1-3知乎的robots.txt文件部分代碼1.3網(wǎng)絡(luò)爬蟲協(xié)議“User-agent:Googlebot-Image”表示這部分代碼針對(duì)谷歌圖片爬蟲，禁止或允許谷歌圖片爬蟲爬取某些文件；如果代碼為“User-agent:*”，則表示針對(duì)所有搜索引擎的爬蟲程序?！癉isallow:/appview/”表示禁止爬取網(wǎng)站根目錄的appview文件夾下的文件。1.3網(wǎng)絡(luò)爬蟲協(xié)議“Disallow:/*?guide*”表示禁止爬取網(wǎng)站中所有包含guide的網(wǎng)址。“Allow:/search-special”表示允許爬取網(wǎng)站根目錄下所有以search-special開頭的文件夾和文件。1.3網(wǎng)絡(luò)爬蟲協(xié)議當(dāng)然，如果要禁止爬蟲程序爬取網(wǎng)站中的所有內(nèi)容，可以用更簡(jiǎn)單的方法。例如，淘寶網(wǎng)不允許百度的爬蟲程序訪問(wèn)其網(wǎng)站下所有的目錄，其robots.txt文件內(nèi)容如圖1-4所示。圖1-4淘寶網(wǎng)的robots.txt文件1.3網(wǎng)絡(luò)爬蟲協(xié)議在百度里搜索淘寶就會(huì)顯示“由于該網(wǎng)站的robots.txt文件存在限制指令（限制搜索引擎抓?。?，系統(tǒng)無(wú)法提供該頁(yè)面的內(nèi)容描述”，如圖1-5所示。圖1-5百度搜索淘寶官網(wǎng)的顯示情況1.4搭建Python開發(fā)環(huán)境.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲.Python網(wǎng)絡(luò)爬蟲SectionTitle1.4搭建Python開發(fā)環(huán)境學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲首先需要搭建Python開發(fā)環(huán)境，一般情況下，用戶可以直接下載并安裝Python，也可以通過(guò)Anaconda安裝Python。本節(jié)介紹安裝Anaconda和PyCharm編輯器，來(lái)搭建Python開發(fā)環(huán)境的方法，從而開始網(wǎng)絡(luò)爬蟲的開發(fā)之旅。

搭建Python開發(fā)環(huán)境1.4搭建Python開發(fā)環(huán)境Anaconda是一個(gè)開源的Python發(fā)行版本，它包含了Conda、Python等超過(guò)180個(gè)科學(xué)包及其依賴項(xiàng)。PyCharm是一款非常優(yōu)秀的Python編輯器，帶有一整套可以幫助用戶在使用Python語(yǔ)言開發(fā)時(shí)提高效率的工具，如調(diào)試、語(yǔ)法高亮、Project管理、代碼跳轉(zhuǎn)、智能提示、自動(dòng)完成、單元測(cè)試、版本控制等。1.4搭建Python開發(fā)環(huán)境1.4.1安裝Anaconda1．下載步驟一：訪問(wèn)/，在打開的Anaconda主頁(yè)中選擇“Products”→“IndividualEdition”選項(xiàng)，如圖1-6所示。圖1-6Anaconda主頁(yè)

訪問(wèn)/，1.4搭建Python開發(fā)環(huán)境步驟二：打開下載頁(yè)面，向下拖動(dòng)滾動(dòng)條，直到出現(xiàn)Anaconda安裝版本信息，選擇“Windows”→“Python3.7”→“64-BitGraphicalInstaller”選項(xiàng)，下載安裝軟件，如圖1-7所示。圖1-7下載Anaconda1.4搭建Python開發(fā)環(huán)境2．安裝步驟一：雙擊下載好的Anaconda3-2020.02-Windows-x86_64.exe文件，在打開的對(duì)話框中單擊“Next”按鈕，如圖1-8所示。圖1-8歡迎安裝

1.4搭建Python開發(fā)環(huán)境步驟二：顯示“LicenseAgreement”界面，單擊“IAgree”按鈕，如圖1-9所示。圖1-9同意安裝許可1.4搭建Python開發(fā)環(huán)境步驟三：顯示“SelectInstallationType”界面，在“Installfor”列表中勾選“JustMe”單選鈕，單擊“Next”按鈕，如圖1-10所示。如果系統(tǒng)創(chuàng)建了多個(gè)用戶而且都使用Anaconda，則勾選“AllUsers”單選鈕。圖1-10選擇用戶1.4搭建Python開發(fā)環(huán)境步驟四：顯示“ChooseInstallLocation”界面，直接使用默認(rèn)路徑，單擊“Next”按鈕，如圖1-11所示。

圖1-11設(shè)置安裝路徑1.4搭建Python開發(fā)環(huán)境步驟五：顯示“AdvancedInstallationOptions”界面。在“AdvancedOptions”列表中勾選“AddAnaconda3tomyPATHenvironmentvariable”和“RegisterAnaconda3asmydefaultPython3.7”復(fù)選框，單擊“Install”按鈕，如圖1-12所示。圖1-12設(shè)置系統(tǒng)環(huán)境1.4搭建Python開發(fā)環(huán)境步驟六：安裝完成后單擊“Next”按鈕，最后單擊“Finish”按鈕，完成Anaconda3的安裝。勾選“AddAnaconda3tomyPATHenvironmentvariable”表示把Anaconda3加入環(huán)境變量；勾選“RegisterAnaconda3asmydefaultPython3.7”表示將Anaconda3注冊(cè)為默認(rèn)安裝的Python3.7。1.4搭建Python開發(fā)環(huán)境3．驗(yàn)證步驟一：?jiǎn)螕簟伴_始”按鈕，選擇“Anaconda3”→“AnacondaPrompt”選項(xiàng)，如圖1-13所示。圖1-13啟動(dòng)AnacondaPrompt

1.4搭建Python開發(fā)環(huán)境步驟二：?jiǎn)螕簟伴_始”按鈕，選擇“Anaconda3”→“AnacondaPrompt”選項(xiàng)，如圖1-13所示。

圖1-14Anaconda庫(kù)名和版本號(hào)列表

1.4搭建Python開發(fā)環(huán)境1.4.2安裝PyCharm1．下載訪問(wèn)/pycharm/download/#section=windows，在打開的下載頁(yè)面中單擊“Community”下的“Download”按鈕，下載社區(qū)版，如圖1-15所示。圖1-15下載PyCharm1.4搭建Python開發(fā)環(huán)境2．安裝步驟一：解壓下載好的安裝包，雙擊pycharm-community-2020.1.1.exe文件，運(yùn)行安裝程序。步驟二：根據(jù)安裝提示進(jìn)行安裝即可。1.4搭建Python開發(fā)環(huán)境在“InstallationOptions”對(duì)話框中勾選所有復(fù)選框，如圖1-16所示。圖1-16設(shè)置安裝選項(xiàng)1.4搭建Python開發(fā)環(huán)境3．使用步驟一：?jiǎn)?dòng)PyCharm，打開“ImportPyCharmSettings”對(duì)話框，勾選“Donotimportsettings”單選鈕，單擊“OK”按鈕，如圖1-17所示。圖1-17PyCharm導(dǎo)入設(shè)置1.4搭建Python開發(fā)環(huán)境步驟二：

打開“CustomizePyCharm”對(duì)話框，勾選“Light”單選鈕，單擊“SkipRemainingandSetDefaults”按鈕，如圖1-18所示。圖1-18設(shè)置用戶界面主題1.4搭建Python開發(fā)環(huán)境步驟1和步驟2中的對(duì)話框只在PyCharm首次使用時(shí)會(huì)顯示，進(jìn)行配置后，再次使用時(shí)就不需要再進(jìn)行配置了。1.4搭建Python開發(fā)環(huán)境步驟三：打開“WelcometoPyCharm”對(duì)話框，選擇“CreateNewProject”選項(xiàng)，如圖1-19所示。圖1-19創(chuàng)建新項(xiàng)目1.4搭建Python開發(fā)環(huán)境步驟四：打開“NewProject”對(duì)話框，在“Location”編輯框中設(shè)置項(xiàng)目保存的路徑，并將項(xiàng)目命名為“Test”；在“Newenvironmentusing”下拉列表中選擇默認(rèn)的“Virtualenv”選項(xiàng)；在“Baseinterpreter”中選擇Anaconda安裝目錄下的python.exe，單擊“Create”按鈕，如圖1-20所示。圖1-20配置新項(xiàng)目環(huán)境1.4搭建Python開發(fā)環(huán)境Virtualenv是一個(gè)虛擬環(huán)境管理器，它可以創(chuàng)建多個(gè)虛擬環(huán)境，為不同項(xiàng)目提供獨(dú)立的Python運(yùn)行環(huán)境，以解決不同項(xiàng)目間多版本的沖突問(wèn)題。在不繼承全局安裝包的情況下，在Virtualenv環(huán)境中安裝所需要的包時(shí)，會(huì)自動(dòng)安裝到該虛擬環(huán)境下，不會(huì)對(duì)其他項(xiàng)目環(huán)境有任何影響。1.4搭建Python開發(fā)環(huán)境步驟五：

打開“PyCharm”窗口。右擊項(xiàng)目名“Test”，在彈出的快捷菜單中選擇“New”→“PythonFile”選項(xiàng)，新建一個(gè)Python文件，如圖1-21所示。圖1-21新建Python文件1.4搭建Python開發(fā)環(huán)境步驟六：打開“NewPythonfile”對(duì)話框，將文件命名為“HelloWorld”，雙擊“Pythonfil

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《Python網(wǎng)絡(luò)爬蟲技術(shù)案例教程》（林忠會(huì)）第1章.Python網(wǎng)絡(luò)爬蟲

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《Python網(wǎng)絡(luò)爬蟲技術(shù)案例教程》（林忠會(huì)） 第1章.Python網(wǎng)絡(luò)爬蟲

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《Python網(wǎng)絡(luò)爬蟲技術(shù)案例教程》（林忠會(huì)）第1章.Python網(wǎng)絡(luò)爬蟲