版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGE課程教案課程名稱:數(shù)據(jù)采集與預(yù)處理課程學(xué)時(shí):22個(gè)學(xué)時(shí)授課班級(jí):任課教師:教師職稱:教師所在單位:學(xué)時(shí)分配課堂講授實(shí)驗(yàn)或上機(jī)實(shí)習(xí)實(shí)訓(xùn)自學(xué)指導(dǎo)其它166000使用教材名稱主編出版社出版時(shí)間參考書(shū)目Python3網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)實(shí)戰(zhàn)第2版(圖靈出品)崔慶才人民郵電出版社2021.11.01Python數(shù)據(jù)處理JacquelineKazil人民郵電出版社2017考核方式項(xiàng)目作品考核成績(jī)?cè)u(píng)定方法平時(shí)成績(jī)×50%+考試成績(jī)×50%課程目標(biāo)課程目標(biāo)1:能通過(guò)Python進(jìn)行基本的數(shù)據(jù)采集任務(wù)(1)通過(guò)課堂和教材的學(xué)習(xí),能夠了解目前常用的數(shù)據(jù)采集工具以及常用方法。(2)能利用Python和爬蟲(chóng)庫(kù)來(lái)進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)采集工作,并且能基本使用Scrapy。課程目標(biāo)2:能通過(guò)Python進(jìn)行基本的數(shù)據(jù)清洗和預(yù)處理操作(1)通過(guò)課堂和教材的學(xué)習(xí),能夠了解目前常用的數(shù)據(jù)預(yù)處理工具以及常用方法。(2)能利用Python和相關(guān)數(shù)據(jù)科學(xué)庫(kù)來(lái)對(duì)源數(shù)據(jù)進(jìn)行一系列的預(yù)處理操作。課程目標(biāo)3:能運(yùn)用Python進(jìn)行數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理相結(jié)合的基礎(chǔ)項(xiàng)目編寫(xiě)。教學(xué)重點(diǎn)難點(diǎn)怎樣教導(dǎo)學(xué)生將Python基本爬蟲(chóng)結(jié)合到爬蟲(chóng)框架上,如何將數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理進(jìn)行銜接。主要教學(xué)方法案例教學(xué)基于項(xiàng)目的學(xué)習(xí)問(wèn)題導(dǎo)向?qū)W習(xí)挑戰(zhàn)性學(xué)習(xí)體驗(yàn)式學(xué)習(xí)模擬、游戲式學(xué)習(xí)基于工作室的學(xué)習(xí)情景式學(xué)習(xí)備注無(wú)第1頁(yè)周次第1周,第1次課章節(jié)名稱數(shù)據(jù)采集與預(yù)處理概述課程類型理論課(√)實(shí)驗(yàn)課()其它()教學(xué)時(shí)數(shù)2教學(xué)目標(biāo)及基本要求1.了解數(shù)據(jù)采集的工具與爬蟲(chóng)原理;2.了解爬蟲(chóng)的分類與基本流程3.了解數(shù)據(jù)預(yù)處理的目的與意義;4.了解數(shù)據(jù)預(yù)處理的流程與工具;5.了解數(shù)據(jù)采集與預(yù)處理的常用三方庫(kù)有哪些。教學(xué)重點(diǎn)、難點(diǎn)重點(diǎn):給學(xué)生先搭成一個(gè)有關(guān)數(shù)據(jù)采集和預(yù)處理體系框架,方便理解和后期的深入學(xué)習(xí)難點(diǎn):講解有關(guān)工具的原理概念,概念通?;逎y懂授課方式講授閱讀討論示范操作練習(xí)概念問(wèn)題翻轉(zhuǎn)課堂合作學(xué)習(xí)分解教學(xué)混合式學(xué)習(xí)同伴式教學(xué)協(xié)作團(tuán)隊(duì)學(xué)習(xí)教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)一、課程導(dǎo)入:(20分鐘)1、組織教學(xué):包括考勤檢查等上課前準(zhǔn)備2、課堂導(dǎo)入:教師自我介紹,本門(mén)課程學(xué)習(xí)背景、課程教學(xué)目標(biāo)、課程考核方式、教學(xué)內(nèi)容安排、本門(mén)課程參考書(shū)目等二、教授數(shù)據(jù)采集與預(yù)處理基礎(chǔ)知識(shí)(60分鐘)(一)、數(shù)據(jù)采集簡(jiǎn)介:1、數(shù)據(jù)采集工具:ApacheFlume、Fluentd、Logstash、三大數(shù)據(jù)收集工具對(duì)比、Splunk。2、爬蟲(chóng)的原理與分類:通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、DeepWeb爬蟲(chóng)。3、網(wǎng)絡(luò)爬蟲(chóng)核心流程:Request、Response請(qǐng)求與響應(yīng)的結(jié)構(gòu)和方式。4、爬蟲(chóng)的應(yīng)用場(chǎng)景:介紹基本的爬蟲(chóng)應(yīng)用案例。(二)、數(shù)據(jù)預(yù)處理簡(jiǎn)介1、數(shù)據(jù)預(yù)處理的目的與意義:數(shù)據(jù)預(yù)處理作為數(shù)據(jù)分析流程中工作量最大的一環(huán),也是必不可少的。要使挖掘算法挖掘出有效的知識(shí),必須為其提供干凈,準(zhǔn)確,簡(jiǎn)潔的數(shù)據(jù),數(shù)據(jù)的完整性好,冗余性小,屬性的相關(guān)性小等,雜亂、重復(fù)、不完整的數(shù)據(jù)會(huì)嚴(yán)重影響到數(shù)據(jù)挖掘算法的執(zhí)行效率。2、數(shù)據(jù)預(yù)處理的流程:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約。3、數(shù)據(jù)預(yù)處理的工具介紹:ETL工具Kettle(三)、Python數(shù)據(jù)采集與預(yù)處理常用庫(kù)1、請(qǐng)求庫(kù):用于實(shí)現(xiàn)HTTP請(qǐng)求操作。2、解析庫(kù):用于從網(wǎng)頁(yè)中提取信息。3、數(shù)據(jù)存儲(chǔ)庫(kù):這些庫(kù)用于在Python中通過(guò)代碼調(diào)用,來(lái)和本地?cái)?shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)交互。4、處理庫(kù):這些庫(kù)在Python中根據(jù)數(shù)據(jù)分析的需求,用來(lái)對(duì)數(shù)據(jù)進(jìn)行一系列處理操作,如數(shù)組運(yùn)算,以DataFrame形式來(lái)批量處理數(shù)據(jù),或是將現(xiàn)有數(shù)據(jù)進(jìn)行繪圖操作。教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)三、對(duì)本次課做出總結(jié)(6分鐘)本次課的教學(xué)完成了………(根據(jù)實(shí)際情況填寫(xiě))四、答疑(4分鐘)詢問(wèn)學(xué)生是否有疑問(wèn)討論、思考題、作業(yè)及課后參考資料教學(xué)后記
周次第2周,第1次課章節(jié)名稱數(shù)據(jù)采集與存儲(chǔ)課程類型理論課(√)實(shí)驗(yàn)課()其它()教學(xué)時(shí)數(shù)2教學(xué)目標(biāo)及基本要求1.掌握J(rèn)SON、CSV基礎(chǔ)數(shù)據(jù)的定義格式2.了解爬蟲(chóng)的基本流程3.了解什么是HTTP4.掌握網(wǎng)頁(yè)的基本元素5.掌握并熟練使用urllib庫(kù)6.掌握并熟練使用requests庫(kù)7.掌握并熟練使用正則表達(dá)式提取數(shù)據(jù)8.了解什么是代理網(wǎng)絡(luò)9.掌握并熟練使用解析庫(kù)BeautifulSoup、XPath解析網(wǎng)頁(yè)10.掌握并熟練JSON、CSV格式的讀取、存儲(chǔ)及數(shù)據(jù)在MySQL數(shù)據(jù)庫(kù)的操作教學(xué)重點(diǎn)、難點(diǎn)重點(diǎn):對(duì)網(wǎng)絡(luò)數(shù)據(jù)傳輸,網(wǎng)頁(yè)格式交互和三方庫(kù)的教學(xué)講解難點(diǎn):如何理解和使用個(gè)正則表達(dá)式,如何對(duì)網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化解析。授課方式講授閱讀討論示范操作練習(xí)概念問(wèn)題翻轉(zhuǎn)課堂合作學(xué)習(xí)分解教學(xué)混合式學(xué)習(xí)同伴式教學(xué)協(xié)作團(tuán)隊(duì)學(xué)習(xí)教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)一、課程導(dǎo)入(5分鐘)1、組織教學(xué):包括考勤檢查等上課前準(zhǔn)備2、課堂導(dǎo)入:在第1節(jié)課中,簡(jiǎn)單介紹了數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理的過(guò)程,接下來(lái)就需要實(shí)際操作如何進(jìn)行數(shù)據(jù)的采集和存儲(chǔ)。在本章節(jié)中,將主要講解常用的數(shù)據(jù)類型以及數(shù)據(jù)的采集與數(shù)據(jù)的存儲(chǔ)。二、講解數(shù)據(jù)采集與存儲(chǔ)的基礎(chǔ)知識(shí)(75分鐘)(一)數(shù)據(jù)類型與操縱1、數(shù)據(jù)類型介紹(1)、在爬蟲(chóng)中,當(dāng)解析出網(wǎng)頁(yè)信息后,下一步就需要將爬取的信息以數(shù)據(jù)的形式保存,以便后續(xù)對(duì)數(shù)據(jù)的分析與操作。在使用過(guò)程中,常用的數(shù)據(jù)類型有TXT、JSON、CSV、XML等。2、JSON格式數(shù)據(jù)(1)對(duì)象:對(duì)象在JavaScript中是使用花括號(hào){}包裹起來(lái)的內(nèi)容,數(shù)據(jù)結(jié)構(gòu)為{key1:value1,key2:value2,...}的鍵值對(duì)結(jié)構(gòu)。(2)數(shù)組:數(shù)組在JavaScript中是方括號(hào)[]包裹起來(lái)的內(nèi)容,數(shù)據(jù)結(jié)構(gòu)為[“java”,“javascript”,“vb”,...]的索引結(jié)構(gòu)。。3、CSV格式數(shù)據(jù)(1)逗號(hào)分隔值(Comma-SeparatedValues,CSV),有時(shí)也稱為字符分隔值,因?yàn)榉指糇址部梢圆皇嵌禾?hào),其文件以純文本形式存儲(chǔ)表格數(shù)據(jù)(數(shù)字和文本)。(二)、網(wǎng)頁(yè)抓?。号老x(chóng)基礎(chǔ)1、爬蟲(chóng)基本流程介紹(1)通用網(wǎng)絡(luò)爬蟲(chóng)(2)聚焦網(wǎng)絡(luò)爬蟲(chóng)2、HTTP基本原理(1)什么是HTTP。(2)相互之間的通信(3)HTTP工作過(guò)程3、網(wǎng)頁(yè)基礎(chǔ)(1)HTML標(biāo)題(2)HTML段落(3)HTML鏈接(4)HTML圖像(5)HTML元素(6)HTML表格(7)HTML布局(8)HTML框架4、使用urllib庫(kù)(1)request模塊(2)error模塊(3)parse模塊(4)robotts協(xié)議5、使用requests庫(kù)請(qǐng)求網(wǎng)站(1)requests庫(kù)的安裝(2)測(cè)試requests庫(kù)是否安裝成功(3)requests庫(kù)的主要方法(4)requests庫(kù)的異常處理6、正則表達(dá)式提取數(shù)據(jù)(1)正則表達(dá)式的基本使用理論(2)re模塊來(lái)實(shí)現(xiàn)Python正則表達(dá)式7、代理的使用(1)基本原理(2)代理的作用(3)代理分類8、使用Cookie登錄討論、思考題、作業(yè)及課后參考資料教學(xué)后記
周次第3周,第1次課章節(jié)名稱數(shù)據(jù)采集進(jìn)階課程類型理論課(√)實(shí)驗(yàn)課()其它()教學(xué)時(shí)數(shù)2教學(xué)目標(biāo)及基本要求 1.理解Ajax數(shù)據(jù)爬取的原理 2.掌握使用Selenium爬取數(shù)據(jù)的方法 3.了解常用的爬蟲(chóng)框架 4.掌握Scrapy框架的安裝與基本使用 5.了解并掌握Scrapy框架的主要組件和使用方式教學(xué)重點(diǎn)、難點(diǎn)重點(diǎn):動(dòng)態(tài)渲染數(shù)據(jù)的爬取,Scrapy框架的使用難點(diǎn):Scrapy各個(gè)組件之間的協(xié)調(diào),ajax數(shù)據(jù)的原理授課方式講授閱讀討論示范操作練習(xí)概念問(wèn)題翻轉(zhuǎn)課堂合作學(xué)習(xí)分解教學(xué)混合式學(xué)習(xí)同伴式教學(xué)協(xié)作團(tuán)隊(duì)學(xué)習(xí)教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)一、課程導(dǎo)入(5分鐘)1、組織教學(xué):包括考勤檢查等上課前準(zhǔn)備2、課堂導(dǎo)入:前面已經(jīng)學(xué)習(xí)了數(shù)據(jù)采集和預(yù)處理的基礎(chǔ)知識(shí),能夠爬取到一些靜態(tài)的網(wǎng)頁(yè)數(shù)據(jù)信息。但是,隨著前后端的分離,越來(lái)越多的網(wǎng)站使用了異步顯示數(shù)據(jù)的方式,原來(lái)的方法就不足以滿足現(xiàn)在的需求。所以,本章將學(xué)習(xí)Ajax(異步)數(shù)據(jù)的爬取,使用Selenium抓取動(dòng)態(tài)頁(yè)面,同時(shí)了解爬蟲(chóng)框架,并掌握Scrapy爬蟲(chóng)框架。(80分鐘)(一)Ajax數(shù)據(jù)爬取1、什么是Ajax2、為什么要學(xué)習(xí)Ajax爬取3、怎樣進(jìn)行Ajax數(shù)據(jù)的爬?。?)打開(kāi)瀏覽器的檢查功能。(2)找到數(shù)據(jù)的真實(shí)地址,單擊頁(yè)面中的Network選項(xiàng),然后刷新網(wǎng)頁(yè)。(3)知道數(shù)據(jù)存放的真實(shí)地址后,就可以用request請(qǐng)求這個(gè)地址來(lái)獲取數(shù)據(jù)了。(4)綜上所述,爬取豆瓣電影排行這種用AJAX加載的網(wǎng)頁(yè)時(shí),從網(wǎng)頁(yè)源代碼中是找不到想要的數(shù)據(jù)的。(二)、使用Selenium抓取動(dòng)態(tài)渲染頁(yè)面1、Selenium的基本介紹與安裝方法Selenium是一個(gè)自動(dòng)化測(cè)試工具,利用它可以模擬人類操作瀏覽器來(lái)執(zhí)行一些特定的動(dòng)作,如對(duì)頁(yè)面點(diǎn)擊、下拉、填充數(shù)據(jù)等操作,同時(shí)還可以獲取瀏覽器當(dāng)前呈現(xiàn)的頁(yè)面的源代碼,做到可見(jiàn)即可爬。下面介紹與Selenium一起使用的工具以及它們的安裝。2、Selenium的簡(jiǎn)單使用(1)隱式等待(2)顯式等待3、Selenium的應(yīng)用實(shí)例4、Selenium的高級(jí)操作(三)、爬蟲(chóng)框架介紹1、爬蟲(chóng)框架介紹(1)Scrapy(2)PySpider(3)Crawley(4)Portia(5)Grab(6)Cola(7)Newspaper2、爬蟲(chóng)框架機(jī)制通用爬蟲(chóng)框架定義了編寫(xiě)一個(gè)網(wǎng)絡(luò)爬蟲(chóng)最基本的過(guò)程。一個(gè)通用的爬蟲(chóng)框架通常包含待抓取的URL列表、已抓取的URL列表、URL下載器、URL解析器、數(shù)據(jù)庫(kù)等幾個(gè)模塊。根據(jù)任務(wù)的需求,還可以加入監(jiān)控模塊、定時(shí)啟動(dòng)模塊等。教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)(四)Scrapy爬蟲(chóng)框架(對(duì)代碼的講解為主,可進(jìn)行適當(dāng)演示)1、Scrapy的簡(jiǎn)介與安裝2、Scrapy的基本使用3、創(chuàng)建Scrapy項(xiàng)目4、編寫(xiě)Spider5、編寫(xiě)ItemPipeline6、設(shè)置Settings模塊三、課堂總結(jié)與答疑(5分鐘)討論、思考題、作業(yè)及課后參考資料討論:1、如何更高效的獲取動(dòng)態(tài)渲染頁(yè)面信息作業(yè):1、教學(xué)后記
周次第4周,第1次課章節(jié)名稱數(shù)據(jù)清洗課程類型理論課(√)實(shí)驗(yàn)課()其它()教學(xué)時(shí)數(shù)2教學(xué)目標(biāo)及基本要求 1.掌握數(shù)據(jù)清洗的定義 2.理解數(shù)據(jù)清洗的作用 3.掌握處理缺失值的相關(guān)函數(shù) 4.理解處理缺失值的幾種方式 5.理解處理異常數(shù)據(jù)的方法 6.掌握數(shù)據(jù)轉(zhuǎn)換中出現(xiàn)的函數(shù) 7.理解數(shù)據(jù)轉(zhuǎn)換的作用 8.了解數(shù)據(jù)轉(zhuǎn)換的幾種方法教學(xué)重點(diǎn)、難點(diǎn)重點(diǎn):講解數(shù)據(jù)預(yù)處理各流程的要點(diǎn)和特點(diǎn),互相之間的上下承接難點(diǎn):如何處理缺失值核對(duì)缺失值不同情景下的填充,數(shù)據(jù)轉(zhuǎn)換的方法授課方式講授閱讀討論示范操作練習(xí)概念問(wèn)題翻轉(zhuǎn)課堂合作學(xué)習(xí)分解教學(xué)混合式學(xué)習(xí)同伴式教學(xué)協(xié)作團(tuán)隊(duì)學(xué)習(xí)教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)一、課程導(dǎo)入(5分鐘)1、組織教學(xué):包括考勤檢查等上課前準(zhǔn)備2、課堂導(dǎo)入:本節(jié)課主要是介紹在數(shù)據(jù)預(yù)處理階段中數(shù)據(jù)清洗部分的知識(shí)概念,首先本章對(duì)數(shù)據(jù)清洗的基本概念進(jìn)行了簡(jiǎn)要介紹,提出了相關(guān)技術(shù),然后將相關(guān)技術(shù)分為缺失數(shù)據(jù)處理、異常值和重復(fù)值、數(shù)據(jù)轉(zhuǎn)換三個(gè)板塊通過(guò)實(shí)例分析進(jìn)行了介紹,讓讀者能夠很好的理解到數(shù)據(jù)清洗在數(shù)據(jù)的預(yù)處理過(guò)程中的作用,并對(duì)數(shù)據(jù)清洗有一個(gè)整體的把握。二、數(shù)據(jù)清洗(80分鐘)(一)、數(shù)據(jù)清洗概述1、缺失數(shù)據(jù)的處理(1)、估值填充(2)、整列刪除(3)、變量刪除(4)、特殊值填充2、異常值和重復(fù)值處理3、數(shù)據(jù)轉(zhuǎn)換(1)、數(shù)據(jù)類型轉(zhuǎn)換(2)、函數(shù)或映射轉(zhuǎn)換(3)、重命名軸索引(4)、連續(xù)數(shù)據(jù)離散化(5)、啞變量處理(6)、數(shù)據(jù)標(biāo)準(zhǔn)化(二)、缺失數(shù)據(jù)處理1、數(shù)據(jù)缺失原因(1)、信息暫時(shí)無(wú)法獲?。?)、信息被遺漏(3)、有些對(duì)象的某個(gè)或某些屬性是不可用的(4)、有些信息(被認(rèn)為)是不重要的(5)、獲取這些信息的代價(jià)太大(6)、系統(tǒng)實(shí)時(shí)性能要求較高2、缺失值的主要處理方法(1)、刪除元組(2)、數(shù)據(jù)補(bǔ)齊(3)、不處理(三)、異常值和重復(fù)值處理1、刪除重復(fù)值(1)建立一個(gè)DataFrame數(shù)據(jù)(2)直接使用drop_duplicates()函數(shù),此時(shí)會(huì)刪除完全重復(fù)的行(3)使用drop_duplicates()函數(shù),并使其按指定的一列進(jìn)行去重,對(duì)于重復(fù)項(xiàng),保留第一次出現(xiàn)的值。教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)(4)嘗試對(duì)多列進(jìn)行重復(fù)判定并刪除重復(fù)項(xiàng)。2、檢測(cè)異常值(1)簡(jiǎn)單描述統(tǒng)計(jì)分析方法(2)3?partial原則方法(3)Z-score方法3、過(guò)濾異常值(對(duì)書(shū)中代碼例子講解)(四)、數(shù)據(jù)轉(zhuǎn)換1、數(shù)據(jù)類型轉(zhuǎn)換2、用函數(shù)或映射進(jìn)行數(shù)據(jù)轉(zhuǎn)換3、重命名軸索引4、連續(xù)數(shù)據(jù)離散化5、啞變量處理類別型數(shù)據(jù)6、數(shù)據(jù)標(biāo)準(zhǔn)化三、課堂總結(jié)與答疑(5分鐘)討論、思考題、作業(yè)及課后參考資料討論:作業(yè):教學(xué)后記
周次第5周,第1次課章節(jié)名稱數(shù)據(jù)規(guī)整與分組聚合課程類型理論課(√)實(shí)驗(yàn)課()其它()教學(xué)時(shí)數(shù)2教學(xué)目標(biāo)及基本要求 1.掌握數(shù)據(jù)規(guī)整的方法 2.掌握數(shù)據(jù)分組機(jī)制 3.掌握groupby中聚合函數(shù)對(duì)數(shù)據(jù)進(jìn)行聚合方法 4.理解并掌握各類聚合函數(shù)的使用 5.了解數(shù)據(jù)規(guī)整與分組聚合的目的和意義教學(xué)重點(diǎn)、難點(diǎn)重點(diǎn):分組聚合機(jī)制的講解難點(diǎn):不同條件下的分組,不同聚合函數(shù)的使用特點(diǎn)授課方式講授閱讀討論示范操作練習(xí)概念問(wèn)題翻轉(zhuǎn)課堂合作學(xué)習(xí)分解教學(xué)混合式學(xué)習(xí)同伴式教學(xué)協(xié)作團(tuán)隊(duì)學(xué)習(xí)教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)一、課程導(dǎo)入(5分鐘)1、組織教學(xué):包括考勤檢查等上課前準(zhǔn)備2、課堂導(dǎo)入:在對(duì)數(shù)據(jù)的研究中,首先要定義好數(shù)據(jù)分析的目標(biāo)問(wèn)題,然后明確數(shù)據(jù)采集對(duì)象,之后經(jīng)過(guò)數(shù)據(jù)的采集以及數(shù)據(jù)的預(yù)處理,得到了初步的數(shù)據(jù)結(jié)果,接下來(lái)在進(jìn)行數(shù)據(jù)探索分析之前,需要審查自己數(shù)據(jù)是否滿足數(shù)據(jù)處理應(yīng)用的要求,通常都需要對(duì)數(shù)據(jù)進(jìn)行規(guī)整化,包括對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化,合并,重塑。完成了數(shù)據(jù)規(guī)整后,再對(duì)數(shù)據(jù)進(jìn)行分組聚合,通過(guò)分組聚合處理后的數(shù)據(jù)將更便于進(jìn)行研究分析。本章首先介紹數(shù)據(jù)規(guī)整的方法,處理好數(shù)據(jù)后再對(duì)數(shù)據(jù)進(jìn)行分組聚合。二、數(shù)據(jù)規(guī)整與分組聚合(75分鐘)(一)、數(shù)據(jù)規(guī)整1、數(shù)據(jù)聯(lián)合與合并(1)數(shù)據(jù)庫(kù)風(fēng)格的DataFrame連接(2)根據(jù)索引合并(3)沿軸向連接2、分層索引3、數(shù)據(jù)重塑(二)、數(shù)據(jù)分組1、創(chuàng)建數(shù)據(jù)分組2、運(yùn)用GroupBy機(jī)制分組(三)、數(shù)據(jù)聚合1、groupby中預(yù)置的聚合方法2、aggregate()函數(shù)與transform()函數(shù)(1)使用多個(gè)函數(shù)(2)對(duì)特定列使用特定的聚合函數(shù)(3)使用自定義的函數(shù)(4)重命名結(jié)果的列名3、使用apply()函數(shù)(1)標(biāo)量情況(2)Series情況(3)DataFrame情況討論、思考題、作業(yè)及課后參考資料討論二、作業(yè)教學(xué)后記
周次第6周,第1、2次課章節(jié)名稱豆瓣電影排行榜數(shù)據(jù)爬取與預(yù)處理課程類型理論課(√)實(shí)驗(yàn)課(√)其它()教學(xué)時(shí)數(shù)4教學(xué)目標(biāo)及基本要求 1.掌握網(wǎng)頁(yè)結(jié)構(gòu)分析方法 2.掌握對(duì)網(wǎng)絡(luò)文本數(shù)據(jù)的爬取操作 3.理解網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求與相應(yīng)原理 4.掌握對(duì)網(wǎng)絡(luò)采集數(shù)據(jù)的預(yù)處理方法 5.掌握對(duì)文本數(shù)據(jù)可視化的流程教學(xué)重點(diǎn)、難點(diǎn)重點(diǎn):網(wǎng)絡(luò)爬蟲(chóng)的基本流程講解,正則表達(dá)式的運(yùn)用,文本數(shù)據(jù)可視化難點(diǎn):正則的運(yùn)用,文本數(shù)據(jù)的分詞授課方式講授閱讀討論示范操作練習(xí)概念問(wèn)題翻轉(zhuǎn)課堂合作學(xué)習(xí)分解教學(xué)混合式學(xué)習(xí)同伴式教學(xué)協(xié)作團(tuán)隊(duì)學(xué)習(xí)教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)一、課程導(dǎo)入(5分鐘)1、組織教學(xué):包括考勤檢查等上課前準(zhǔn)備2、課堂導(dǎo)入:利用爬蟲(chóng)來(lái)進(jìn)行文本數(shù)據(jù)的快速收集是Python爬蟲(chóng)的一大優(yōu)勢(shì)。在本章中,利用Urllib庫(kù)和正則表達(dá)式來(lái)爬取電影排行榜信息,同時(shí)結(jié)合BeautifulSoup庫(kù)對(duì)爬取到的網(wǎng)頁(yè)內(nèi)容進(jìn)行解析提取。二、豆瓣電影排行榜數(shù)據(jù)爬取與預(yù)處理(85分鐘)(一)、豆瓣電影榜數(shù)據(jù)采集目標(biāo)1、采集目標(biāo)2、準(zhǔn)備工作(二)、豆瓣網(wǎng)頁(yè)結(jié)構(gòu)分析1、宏觀整體頁(yè)面分析2、微觀具體信息爬?。ㄈ?、創(chuàng)建爬蟲(chóng)1、準(zhǔn)備URL2、請(qǐng)求與響應(yīng)3、提取數(shù)據(jù)4、保存數(shù)據(jù)(四)、數(shù)據(jù)預(yù)處理(1)導(dǎo)入數(shù)據(jù)預(yù)處理與分析所需包(2)讀取數(shù)據(jù)(3)數(shù)據(jù)探索(4)數(shù)據(jù)缺失值檢測(cè)(5)數(shù)據(jù)重復(fù)值檢測(cè)(6)異常值檢測(cè)和屬性規(guī)約(7)數(shù)據(jù)排序與分組聚合①使用柱狀圖來(lái)展示影片依據(jù)評(píng)價(jià)人數(shù)來(lái)進(jìn)行排名的一個(gè)狀況,以評(píng)價(jià)人數(shù)來(lái)展現(xiàn)不同影片熱度的高低。②使用柱狀圖來(lái)對(duì)各分?jǐn)?shù)電影數(shù)量進(jìn)行統(tǒng)計(jì),首先要做的依然是對(duì)原數(shù)據(jù)data的處理工作,將各分?jǐn)?shù)進(jìn)行分組,統(tǒng)計(jì)同一個(gè)分?jǐn)?shù)下面有多少部電影。(四)、數(shù)據(jù)可視化1、各電影評(píng)價(jià)人數(shù)可視化2、各分?jǐn)?shù)電影數(shù)量可視化三、課程總結(jié)和答疑(25分鐘)四、實(shí)驗(yàn)課(90分鐘)討論、思考題、作業(yè)及課后參考資料課后作業(yè):參考資料:教學(xué)后記周次第7周,第1、2次課章節(jié)名稱Scrapy與Selenium采集股市每日點(diǎn)評(píng)數(shù)據(jù)并可視化課程類型理論課(√)實(shí)驗(yàn)課(√)其它()教學(xué)時(shí)數(shù)4教學(xué)目標(biāo)及基本要求 1.掌握Scrapy框架爬取數(shù)據(jù)的邏輯和流程 2.掌握Scrapy框架組件使用方式 3.掌握Scrapy框架與Selenium擴(kuò)展的結(jié)合使用 4.掌握數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)庫(kù)的基本方式 5.掌握詞云圖的繪制方式教學(xué)重點(diǎn)、難點(diǎn)重點(diǎn):Scrapy框架的使用講解,詞云圖的繪制難點(diǎn):Scrapy集合Selenium的使用,和詞云圖的不同繪制方式授課方式講授閱讀討論示范操作練習(xí)概念問(wèn)題翻轉(zhuǎn)課堂合作學(xué)習(xí)分解教學(xué)混合式學(xué)習(xí)同伴式教學(xué)協(xié)作團(tuán)隊(duì)學(xué)習(xí)教學(xué)基本內(nèi)容與教學(xué)設(shè)計(jì)(含時(shí)間分配)一、課程導(dǎo)入(5分鐘)1、組織教學(xué):包括考勤檢查等上課前準(zhǔn)備2、課堂導(dǎo)入:Scrapy作為一款爬蟲(chóng)框架,其功能強(qiáng)大,爬取效率高,擴(kuò)展性強(qiáng),能夠和多個(gè)擴(kuò)展組件結(jié)合使用,且能有效地應(yīng)對(duì)反爬網(wǎng)站,而Selenium能夠有效地爬取類似Ajax請(qǐng)求后動(dòng)態(tài)渲染的網(wǎng)頁(yè)信息。在本章中,利用Scrapy框架結(jié)合Selenium來(lái)爬取股市每日點(diǎn)評(píng)數(shù)據(jù)頁(yè)面信息,重點(diǎn)收集和爬取日期、一句話概述和首頁(yè)點(diǎn)評(píng)文本信息。二、Scrapy與Selenium采集股市每日點(diǎn)評(píng)數(shù)據(jù)并可視化(85分鐘)(一)、采集目標(biāo)和準(zhǔn)備工作1、采集目標(biāo)2、準(zhǔn)備工作(二)、大盤(pán)每日點(diǎn)評(píng)網(wǎng)頁(yè)結(jié)構(gòu)分析(三)、使用Scrapy與Selenium爬取信息1、編寫(xiě)item.py與spider.py(1)編寫(xiě)item.py(2)編寫(xiě)spider.py2、編寫(xiě)middlewares.py3、編寫(xiě)pipelines.py4、設(shè)置settings.py(1)日志等級(jí)(2)是否遵守robots協(xié)議(3)數(shù)據(jù)庫(kù)全局參數(shù)變量(4)下載中間件設(shè)置(5)項(xiàng)目管道設(shè)置5、運(yùn)行結(jié)果(四)、數(shù)據(jù)預(yù)處理與可視化1、數(shù)據(jù)預(yù)處理(1)導(dǎo)入所需庫(kù)(2
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度能源設(shè)備抵押權(quán)人環(huán)保責(zé)任合同3篇
- ci語(yǔ)言課程設(shè)計(jì)
- 無(wú)奮斗不青春演講稿范文(5篇)
- 高考作文名師點(diǎn)評(píng)全國(guó)Ⅱ卷
- 春節(jié)日記合集九篇
- 甲苯管殼換熱器課程設(shè)計(jì)
- 教育培訓(xùn)電視廣告語(yǔ)大全
- 搞笑主持詞開(kāi)場(chǎng)白范文
- 2024年度新能源項(xiàng)目碳排放權(quán)轉(zhuǎn)讓協(xié)議范本3篇
- 教研組微能力點(diǎn)研修計(jì)劃范文(14篇)
- 2023-2024學(xué)年貴州省貴陽(yáng)外國(guó)語(yǔ)實(shí)驗(yàn)中學(xué)八年級(jí)(上)期末數(shù)學(xué)試卷(含答案)
- 2025版國(guó)家開(kāi)放大學(xué)專本科《計(jì)算機(jī)應(yīng)用基礎(chǔ)》一平臺(tái)在線形考任務(wù) (形考作業(yè)一至三)試題及答案
- 古代漢語(yǔ)專題-003-國(guó)開(kāi)機(jī)考復(fù)習(xí)資料
- 【MOOC】信號(hào)與系統(tǒng)-西北工業(yè)大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 《半導(dǎo)體的基本知識(shí)》教學(xué)設(shè)計(jì)
- 江蘇省南通市2024屆高三上學(xué)期第一次調(diào)研測(cè)試(一模)生物 含答案
- 科研團(tuán)隊(duì)協(xié)作管理制度
- 拓展訓(xùn)練融入初中體育教學(xué)的創(chuàng)新策略與實(shí)施路徑
- 2024年氫工藝作業(yè)考試題庫(kù)及答案(700題)
- 學(xué)校中層干部管理提升培訓(xùn)
- 服裝設(shè)計(jì)基礎(chǔ)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
評(píng)論
0/150
提交評(píng)論