《網(wǎng)絡(luò)爬蟲技術(shù)與應(yīng)用》課程教學(xué)大綱_第1頁
《網(wǎng)絡(luò)爬蟲技術(shù)與應(yīng)用》課程教學(xué)大綱_第2頁
《網(wǎng)絡(luò)爬蟲技術(shù)與應(yīng)用》課程教學(xué)大綱_第3頁
《網(wǎng)絡(luò)爬蟲技術(shù)與應(yīng)用》課程教學(xué)大綱_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《網(wǎng)絡(luò)爬蟲技術(shù)與應(yīng)用》課程教學(xué)大綱一、課程基本信息課程編號:12188課程名稱:網(wǎng)絡(luò)爬蟲技術(shù)與應(yīng)用英文名稱:WebcrawlertechnologyandApplication課程類型:專業(yè)課課程要求:選修學(xué)時/學(xué)分:48/3(講課學(xué)時:32實驗學(xué)時:16)先修課程:Python語言程序設(shè)計、面向?qū)ο蟪绦蛟O(shè)計(Java)、云計算與大數(shù)據(jù)后繼課程:大數(shù)據(jù)項目綜合實踐適用專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)二、課程描述《網(wǎng)絡(luò)爬蟲技術(shù)與應(yīng)用》是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的選修課,主要講授網(wǎng)絡(luò)爬蟲技術(shù)的原理、開發(fā)方法和開發(fā)工具,包括Python爬蟲程序的編寫、Java的Jsoup等開源框架、互聯(lián)網(wǎng)數(shù)據(jù)抓取實戰(zhàn)等。通過本課程的學(xué)習(xí),使學(xué)生能夠了解網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用領(lǐng)域,了解Python爬蟲程序和Java爬蟲程序的基本原理、技術(shù)和流程,以及基于第三方數(shù)據(jù)聚合平臺的使用,掌握主流的爬蟲程序技術(shù),并能夠應(yīng)用其對互聯(lián)網(wǎng)數(shù)據(jù)的搜索和采集,為今后大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)采集和大數(shù)據(jù)開發(fā)打下堅實的理論和技術(shù)基礎(chǔ)。三、課程教學(xué)目標(biāo)1.了解網(wǎng)絡(luò)爬蟲技術(shù)的基本概念、方法和技術(shù),并能夠運用到復(fù)雜的綜合數(shù)據(jù)采集中,解決數(shù)據(jù)的采集和解析問題。(支持畢業(yè)能力要求3)2.熟悉網(wǎng)絡(luò)爬蟲技術(shù)的開發(fā)流程,掌握主流的Python和Java兩大語言的爬蟲技術(shù),綜合運用數(shù)據(jù)獲取、HTML內(nèi)容解析、數(shù)據(jù)存儲等技術(shù),進行數(shù)據(jù)采集和分析,進而分析綜合得到結(jié)論。(支持畢業(yè)能力要求5)3.能夠正確選擇和恰當(dāng)使用網(wǎng)絡(luò)爬蟲技術(shù),滿足特定需求,并在設(shè)計中培養(yǎng)學(xué)生的創(chuàng)新態(tài)度和意識。(支持畢業(yè)能力要求3、5)四、教學(xué)內(nèi)容、安排及與教學(xué)目標(biāo)的對應(yīng)關(guān)系單元教學(xué)內(nèi)容單元教學(xué)目標(biāo)學(xué)時教學(xué)方式對應(yīng)課程教學(xué)目標(biāo)1一、Python爬蟲入門1.1什么是網(wǎng)絡(luò)爬蟲1.2網(wǎng)絡(luò)爬蟲的目的1.3網(wǎng)絡(luò)爬蟲技術(shù)解決的實際問題(1)了解本課程研究的對象、內(nèi)容,明確本課程的地位;(2)能夠闡述網(wǎng)絡(luò)爬蟲技術(shù)的概念、目標(biāo)和作用。4講授12二、Python爬蟲基礎(chǔ)2.1Python爬蟲開發(fā)環(huán)境配置2.2Urllib庫的基本使用2.3URLError異常處理(1)了解Python爬蟲工作原理,能夠針對數(shù)據(jù)采集進行合理的分析與評價;(2)能夠根據(jù)具體需求,配置Python爬蟲開發(fā)環(huán)境。4講授23三、Python爬蟲進階3.1Urllib庫的高級用法3.2Cookie的使用3.3正則表達式的使用(1)了解Urllib庫的高級用法,核心API調(diào)用,針對實際問題,能夠調(diào)用合理的API類庫;(2)能夠借助Urllib庫發(fā)出請求響應(yīng),設(shè)置Cookie模擬登陸。4講授24四、Python爬蟲數(shù)據(jù)采集示例4.1采集貓眼電影信息4.2采集淘寶商品圖片4.3采集百度貼吧帖子(1)了解數(shù)據(jù)采集以及分析的實現(xiàn);(2)能夠進行單頁面和多頁面的數(shù)據(jù)采集;(3)能夠?qū)z索的結(jié)果進行過濾;(4)理解Python爬蟲數(shù)據(jù)的指導(dǎo)思路和原則,針對實際問題,給出合理有效的解決方案。4講授25實驗1:Python爬蟲程序進行互聯(lián)網(wǎng)數(shù)據(jù)采集借助Python爬蟲程序?qū)崿F(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的信息采集,數(shù)據(jù)解析以及數(shù)據(jù)存儲,將解析的結(jié)果顯示在web網(wǎng)頁中。8實驗2、36五、基于Scrapy框架的大數(shù)據(jù)采集5.1Scrapy框架運行平臺及相關(guān)輔助工具5.2基于Scrapy框架的爬蟲程序5.3Scrapy模擬登陸(1)了解于Scrapy框架的大數(shù)據(jù)采集特點;(2)了解如何安裝部署Scrapy框架環(huán)境,實現(xiàn)基于Scrapy框架的爬蟲程序。4講授27六、第三方數(shù)據(jù)集合平臺使用6.1阿凡達數(shù)據(jù)平臺使用6.2阿凡達數(shù)據(jù)平臺接口API6.3基于阿凡達數(shù)據(jù)平臺的數(shù)據(jù)解析(1)熟悉阿凡達數(shù)據(jù)平臺使用;(2)了解阿凡達數(shù)據(jù)各個數(shù)據(jù)接口的API調(diào)用。4講授28七、基于Java的爬蟲程序7.1搭建Java開發(fā)環(huán)境7.2HttpClient請求和響應(yīng)7.3Jsoup類庫的使用(1)了解HttpClient請求和響應(yīng)的基本原理;(2)了解通過Jsoup類庫對html內(nèi)容進行解析和過濾。4講授29八、基于Java的爬蟲程序進階8.1RSS新聞數(shù)據(jù)爬取8.2多線程爬蟲程序8.3采集數(shù)據(jù)的存儲(1)熟悉RSS規(guī)范;(2)了解基于多線程機制的爬蟲程序開發(fā);(3)了解數(shù)據(jù)采集的存儲機制。4講授210實驗2:基于Java的互聯(lián)網(wǎng)商品信息采集(1)基于CentOS搭建Java爬蟲服務(wù)器;(2)掌握利用Java實現(xiàn)的互聯(lián)網(wǎng)商品信息采集。8實驗2、3五、其他教學(xué)環(huán)節(jié)(課外教學(xué)環(huán)節(jié)、要求、目標(biāo))1.實驗(課外16學(xué)時)(1)Python爬蟲技術(shù)的熟練使用。(6學(xué)時)(2)基于Scrapy框架開發(fā)爬蟲程序。(6學(xué)時)(3)爬蟲服務(wù)器在CentOS平臺下的搭建。(2學(xué)時)(4)Java爬蟲技術(shù)的實現(xiàn)。(2學(xué)時)2.大作業(yè)(課外8學(xué)時)基于網(wǎng)絡(luò)爬蟲技術(shù),完成一個不同于課內(nèi)實驗的某一類型的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計開發(fā),熟悉網(wǎng)絡(luò)爬蟲的開發(fā)流程,掌握網(wǎng)絡(luò)爬蟲的設(shè)計方法,并撰寫開發(fā)文檔。六、教學(xué)方法本課程采用課堂教學(xué)、實驗教學(xué)并重的教學(xué)組織方式,結(jié)合課內(nèi)作業(yè)、課外實驗、基于網(wǎng)絡(luò)爬蟲技術(shù)的項目設(shè)計與開發(fā)大作業(yè)等教學(xué)手段和形式完成課程教學(xué)任務(wù)。基于案例開展課堂教學(xué),通過講授、提問、討論、演示等教學(xué)方法和手段讓學(xué)生理解網(wǎng)絡(luò)爬蟲技術(shù)的基本概念和理論。在課內(nèi)外實驗環(huán)節(jié),通過演示性、設(shè)計性、綜合性實驗使學(xué)生掌握網(wǎng)絡(luò)爬蟲技術(shù)的開發(fā)技術(shù)。在大作業(yè)教學(xué)環(huán)節(jié),通過實際項目的開發(fā),使學(xué)生掌握網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計和實現(xiàn)方法,并在設(shè)計中充分發(fā)揮學(xué)生的主觀能動性,培養(yǎng)學(xué)生的自主學(xué)習(xí)能力和創(chuàng)新能力。七、學(xué)習(xí)評量最終成績由平時作業(yè)成績、平時實驗成績、期末成績和大作業(yè)成績等組合而成。各部分考核內(nèi)容、所占比例如下:平時作業(yè)成績:10%。主要考核重要知識點的復(fù)習(xí)、理解和掌握程度。平時實驗成績:30%。主要考核學(xué)生的課內(nèi)實踐項目的完成情況。大作業(yè)成績:10%。主要考核課外大作業(yè)的完成情況。要求學(xué)生演示、講解所完成的網(wǎng)絡(luò)爬蟲系統(tǒng),提交軟件設(shè)計文檔,綜合演示、答辯、軟件文檔評定大作業(yè)成績。期末考試成績:50%。主要考核應(yīng)用基本概念和方法分析和解決問題的能力和程度。書面考試形式。題型為選擇題、填空題、問答題、分析題、綜合設(shè)計題等。八、教學(xué)資源1.教材[1]

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論