《數(shù)據(jù)采集與預(yù)處理》教學(xué)大綱_第1頁
《數(shù)據(jù)采集與預(yù)處理》教學(xué)大綱_第2頁
《數(shù)據(jù)采集與預(yù)處理》教學(xué)大綱_第3頁
《數(shù)據(jù)采集與預(yù)處理》教學(xué)大綱_第4頁
《數(shù)據(jù)采集與預(yù)處理》教學(xué)大綱_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)采集與預(yù)處理》教學(xué)大綱適用范圍:202X版本科人才培養(yǎng)方案課程代碼:08140501課程性質(zhì):專業(yè)必修課學(xué)分:4學(xué)分學(xué)時(shí):64學(xué)時(shí)(理論48學(xué)時(shí),實(shí)驗(yàn)16學(xué)時(shí))先修課程:Python程序設(shè)計(jì)、Web前端開發(fā)技術(shù)后續(xù)課程:數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)可視化適用專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)(專升本)開課單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院一、課程說明《數(shù)據(jù)采集與預(yù)處理》是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)必修的一門專業(yè)必修課。本課程主要傳授數(shù)據(jù)采集技術(shù)的相關(guān)方法,著重講解通過大數(shù)據(jù)采集、數(shù)據(jù)解析以及數(shù)據(jù)預(yù)處理的相關(guān)方法和應(yīng)用,為學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)等有關(guān)課程及以后從事技術(shù)工作打下必要的基礎(chǔ)。本課程注重方法的應(yīng)用學(xué)習(xí),強(qiáng)調(diào)培養(yǎng)解決問題的能力,兼顧新技術(shù)及其發(fā)展方向的介紹,培養(yǎng)“有足夠理論基礎(chǔ)、動(dòng)手能力強(qiáng)”的高素質(zhì)應(yīng)用型人才。。二、課程目標(biāo)通過本課程的學(xué)習(xí),使學(xué)生達(dá)到如下目標(biāo):課程目標(biāo)1:了解數(shù)據(jù)采集的相關(guān)方法,了解web相關(guān)技術(shù),掌握網(wǎng)絡(luò)爬蟲的相關(guān)方法,并使用網(wǎng)絡(luò)爬蟲技術(shù)獲取相關(guān)數(shù)據(jù)并進(jìn)行數(shù)據(jù)解析;掌握數(shù)據(jù)預(yù)處理的相關(guān)方法。課程目標(biāo)2:綜合運(yùn)用數(shù)據(jù)采集的方法和數(shù)據(jù)預(yù)處理的方法,完成相關(guān)數(shù)據(jù)的采集的綜合工程項(xiàng)目,為之后的數(shù)據(jù)挖掘等后續(xù)工作做準(zhǔn)備。在課程教學(xué)中把理想信念教育與科學(xué)精神的培養(yǎng)結(jié)合起來,提高學(xué)生用馬克思主義的世界觀和方法論認(rèn)識(shí)、分析和解決問題的能力。課程目標(biāo)3:理解網(wǎng)絡(luò)爬蟲、數(shù)據(jù)安全有關(guān)的國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)、法律法規(guī)以及相關(guān)知識(shí)產(chǎn)權(quán)、行業(yè)政策。三、課程目標(biāo)與畢業(yè)要求《數(shù)據(jù)采集與預(yù)處理》課程教學(xué)目標(biāo)對(duì)數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)畢業(yè)要求的支撐見表1。表1課程教學(xué)目標(biāo)與畢業(yè)要求關(guān)系畢業(yè)要求指標(biāo)點(diǎn)課程目標(biāo)支撐強(qiáng)度3.設(shè)計(jì)/開發(fā)解決方案3.1理解數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)領(lǐng)域工程項(xiàng)目設(shè)計(jì)方法與開發(fā)技術(shù)及其對(duì)社會(huì)、健康、安全、法律、文化以及環(huán)境方面的影響。課程目標(biāo)2:綜合運(yùn)用數(shù)據(jù)采集的方法和數(shù)據(jù)預(yù)處理的方法,完成相關(guān)數(shù)據(jù)的采集的綜合工程項(xiàng)目,為之后的數(shù)據(jù)挖掘等后續(xù)工作做準(zhǔn)備。在課程教學(xué)中把理想信念教育與科學(xué)精神的培養(yǎng)結(jié)合起來,提高學(xué)生用馬克思主義的世界觀和方法論認(rèn)識(shí)、分析和解決問題的能力。H5.使用現(xiàn)代工具5.1了解信息領(lǐng)域主要資料來源及獲取方法,熟悉數(shù)學(xué)、程序設(shè)計(jì)等數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)領(lǐng)域現(xiàn)代工程工具。課程目標(biāo)1:了解數(shù)據(jù)采集的相關(guān)方法,了解web相關(guān)技術(shù),掌握網(wǎng)絡(luò)爬蟲的相關(guān)方法,并使用網(wǎng)絡(luò)爬蟲技術(shù)獲取相關(guān)數(shù)據(jù)并進(jìn)行數(shù)據(jù)解析;掌握數(shù)據(jù)預(yù)處理的相關(guān)方法。H8.職業(yè)規(guī)范8.2具有社會(huì)責(zé)任感,理解數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)領(lǐng)域的相關(guān)職業(yè)道德和規(guī)范,并且在工程實(shí)踐中自覺遵守,履行職責(zé)。課程目標(biāo)3:理解網(wǎng)絡(luò)爬蟲、數(shù)據(jù)安全有關(guān)的國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)、法律法規(guī)以及相關(guān)知識(shí)產(chǎn)權(quán)、行業(yè)政策。M注:表中“H(高)、M(中)”表示課程與相關(guān)畢業(yè)要求的關(guān)聯(lián)度。四、教學(xué)內(nèi)容、基本要求與學(xué)時(shí)分配1.理論部分理論部分的教學(xué)內(nèi)容、基本要求與學(xué)時(shí)分配見表2。表2教學(xué)內(nèi)容、基本要求與學(xué)時(shí)分配教學(xué)內(nèi)容教學(xué)要求,教學(xué)重點(diǎn)難點(diǎn)理論學(xué)時(shí)實(shí)驗(yàn)學(xué)時(shí)對(duì)應(yīng)的課程目標(biāo)1.數(shù)據(jù)采集技術(shù)的基本方法1.1爬蟲的基礎(chǔ)知識(shí)1.2爬蟲庫的基本使用1.3數(shù)據(jù)的存儲(chǔ)教學(xué)要求:熟悉爬蟲基礎(chǔ)知識(shí);掌握爬蟲庫的基本使用;理解網(wǎng)站robot協(xié)議的規(guī)則;掌握數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)。重點(diǎn):掌握爬蟲庫的基本使用;掌握數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)。難點(diǎn):掌握爬蟲庫的基本使用;掌握數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)。1241、2、32.數(shù)據(jù)解析2.1靜態(tài)頁面的數(shù)據(jù)解析2.1動(dòng)態(tài)頁面數(shù)據(jù)解析教學(xué)要求:掌握靜態(tài)頁面BS庫、lxml庫和正則表達(dá)式的使用方法;掌握selenium的用法;掌握動(dòng)態(tài)頁面JSON數(shù)據(jù)的處理。重點(diǎn):掌握靜態(tài)頁面BS庫、lxml庫和正則表達(dá)式的使用方法;掌握動(dòng)態(tài)頁面JSON數(shù)據(jù)的處理。難點(diǎn):掌握靜態(tài)頁面BS庫、lxml庫和正則表達(dá)式的使用方法;掌握動(dòng)態(tài)頁面JSON數(shù)據(jù)的處理。1241、23.爬蟲框架技術(shù)3.1爬蟲框架技術(shù)介紹3.2抓取框架應(yīng)用教學(xué)要求:熟悉爬蟲框架的原理;掌握爬蟲框架技術(shù)的應(yīng)用。重點(diǎn):熟悉爬蟲框架的原理;掌握爬蟲框架技術(shù)的應(yīng)用。難點(diǎn):熟悉爬蟲框架的原理;掌握爬蟲框架技術(shù)的應(yīng)用。1241、2、34.數(shù)據(jù)預(yù)處理4.1文本分析4.2使用Python的庫進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等預(yù)處理操作教學(xué)要求:掌握使用Python的第三方庫進(jìn)行數(shù)據(jù)文本分析、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化等的預(yù)處理操作。重點(diǎn):文本分析,使用Python的庫進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等預(yù)處理操作。難點(diǎn):文本分析,使用Python的庫進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等預(yù)處理操作。1241、2、3合計(jì)48162.實(shí)驗(yàn)部分實(shí)驗(yàn)部分的教學(xué)內(nèi)容、基本要求與學(xué)時(shí)分配見表3。表3實(shí)驗(yàn)項(xiàng)目、實(shí)驗(yàn)內(nèi)容與學(xué)時(shí)實(shí)驗(yàn)項(xiàng)目實(shí)驗(yàn)內(nèi)容和要求實(shí)驗(yàn)學(xué)時(shí)對(duì)應(yīng)的課程目標(biāo)1.網(wǎng)頁數(shù)據(jù)的采集與存儲(chǔ)實(shí)驗(yàn)內(nèi)容:使用爬蟲庫獲取網(wǎng)站數(shù)據(jù)。存儲(chǔ)獲取數(shù)據(jù)。實(shí)驗(yàn)要求:掌握爬蟲庫的相關(guān)方法獲取網(wǎng)站數(shù)據(jù);對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。41、32.數(shù)據(jù)解析應(yīng)用實(shí)驗(yàn)內(nèi)容:使用解析庫(BeautifulSoup,xpath、正則表達(dá)式等)對(duì)獲取網(wǎng)站數(shù)據(jù)進(jìn)行解析;動(dòng)態(tài)網(wǎng)頁中JSON數(shù)據(jù)處理。實(shí)驗(yàn)要求:掌握數(shù)據(jù)解析庫的相關(guān)方法進(jìn)行數(shù)據(jù)解析,將解析后的數(shù)據(jù)進(jìn)行存儲(chǔ)。41、23.爬蟲框架應(yīng)用實(shí)驗(yàn)內(nèi)容:使用Scrapy框架完成網(wǎng)站數(shù)據(jù)爬取、解析和存儲(chǔ)。實(shí)驗(yàn)要求:熟悉Scrapy框架的工作原理、安裝和應(yīng)用。41、2、34.數(shù)據(jù)預(yù)處理技術(shù)應(yīng)用實(shí)驗(yàn)內(nèi)容:利用Python的相關(guān)技術(shù)進(jìn)行數(shù)據(jù)的文本分析,并進(jìn)行數(shù)據(jù)預(yù)處理。實(shí)驗(yàn)要求:熟悉數(shù)據(jù)預(yù)處理的相關(guān)庫,并完成相關(guān)的預(yù)處理操作。41、2、3合計(jì)16五、教學(xué)方法及手段本課程以課堂講授為主,課下在線學(xué)習(xí)為輔教學(xué)方式。課上講授采用啟發(fā)式、討論式教學(xué)、案例教學(xué)、隨堂測(cè)驗(yàn)等,開發(fā)學(xué)生的潛能,培養(yǎng)學(xué)生思考問題、分析問題和解決問題的能力;以“少而精”為原則,精選教學(xué)內(nèi)容,精講多練。課下可通過“學(xué)習(xí)通”、“雨課堂”等在線工具,發(fā)布課程精講視頻、課件和單元測(cè)試、參考數(shù)據(jù)等資料,使學(xué)生課下通過線上自學(xué)的形式,預(yù)習(xí)、復(fù)習(xí)以及鞏固課程內(nèi)容。實(shí)驗(yàn)教學(xué)著重講授如何用科學(xué)的手段來完成理論的驗(yàn)證;如何組織實(shí)驗(yàn)、處理數(shù)據(jù)和分析實(shí)驗(yàn)結(jié)果;在實(shí)驗(yàn)前要求學(xué)生應(yīng)復(fù)習(xí)和掌握與本實(shí)驗(yàn)有關(guān)的教學(xué)內(nèi)容,思考實(shí)驗(yàn)內(nèi)容的思路和方案設(shè)計(jì)等。在實(shí)驗(yàn)中要嚴(yán)格遵守實(shí)驗(yàn)紀(jì)律,按照要求完成實(shí)驗(yàn)內(nèi)容;每完成一項(xiàng)實(shí)驗(yàn),要認(rèn)真完成一份實(shí)驗(yàn)報(bào)告。六、課程資源1.推薦教材(1)周勇,楊倩.數(shù)據(jù)采集與預(yù)處理[M].西安:西安電子科技大學(xué)出版社,2022.(2)米洪,張鴿.數(shù)據(jù)采集與預(yù)處理[M].北京:人民郵電出版社,2021.(3)林子雨.數(shù)據(jù)采集與預(yù)處理[M].北京:人民郵電出版社,2022.2.參考書(1)周林娥等.互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)與應(yīng)用[M].北京:清華大學(xué)出版社,2021.(2)葛繼科等.大數(shù)據(jù)采集、預(yù)處理與可視化[M].北京:人民郵電出版社,2022.(3)唐世偉等.大數(shù)據(jù)采集與預(yù)處理技術(shù)[M].北京:清華大學(xué)出版社,2022.3.期刊(1)張偉等.融合時(shí)空行為與社交關(guān)系的用戶軌跡識(shí)別模型[J].計(jì)算機(jī)學(xué)報(bào),2021,44(11):2173-2188.(2)趙方騁.大數(shù)據(jù)背景Python在網(wǎng)絡(luò)爬蟲框架中的應(yīng)用[J].電子技術(shù)與軟件工程,2022(19):13-16.(3)譚作文,張連福.機(jī)器學(xué)習(xí)隱私保護(hù)研究綜述[J].軟件學(xué)報(bào),2020,31(07):2127-2156.(4)劉浩.網(wǎng)絡(luò)“爬蟲”行為刑事規(guī)制的困境與轉(zhuǎn)向——以實(shí)證案例分析為視角[J].西安電子科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2022,32(02):52-65.(5)KaurSawroop,SinghAman,GeethaGetal.IHWC:intelligenthiddenwebcrawlerforharvestingdatainurbandomains[J].Complex&IntelligentSystems,2022,9(01):1113-1113.4.網(wǎng)絡(luò)資源(1)嵩天.Python網(wǎng)絡(luò)爬蟲與信息提取-北京理工大學(xué)(精品課)[R/OL]./video/BV1mF411h7fv/?share_source=copy_web.(2)廈門大學(xué).大數(shù)據(jù)實(shí)驗(yàn)室/.七、課程考核對(duì)課程目標(biāo)的支撐課程成績由過程性考核成績和期末考核成績兩部分構(gòu)成,具體考核/評(píng)價(jià)細(xì)則及對(duì)課程目標(biāo)的支撐關(guān)系見表4。表4課程考核對(duì)課程目標(biāo)的支撐考核環(huán)節(jié)占比考核/評(píng)價(jià)細(xì)則課程目標(biāo)123過程性考核課堂表現(xiàn)10(1)根據(jù)課堂出勤情況和課堂回答問題、課堂測(cè)試情況進(jìn)行考核,滿分100分。(2)以平時(shí)考核成績乘以其在總評(píng)成績中所占的比例計(jì)入課程總評(píng)成績?!獭獭?22實(shí)驗(yàn)10(1)根據(jù)每個(gè)實(shí)驗(yàn)的實(shí)驗(yàn)操作完成情況和實(shí)驗(yàn)報(bào)告質(zhì)量單獨(dú)評(píng)分,滿分100分;(2)每次實(shí)驗(yàn)單獨(dú)評(píng)分,取各次實(shí)驗(yàn)成績的平均值作為此環(huán)節(jié)的最終成績。(3)以實(shí)驗(yàn)成績乘以其在總評(píng)成績中所占的比例計(jì)入課程總評(píng)成績?!獭獭?22在線學(xué)習(xí)10(1)要求學(xué)生通過在線自主學(xué)習(xí)教學(xué)內(nèi)容,主要考核學(xué)生各章節(jié)知識(shí)點(diǎn)的理解和掌握程度,滿分100分;(2)每次章節(jié)測(cè)驗(yàn)單獨(dú)評(píng)分,取各次成績的平均值作為此環(huán)節(jié)的最終成績。(3)以作業(yè)成績乘以其在總評(píng)成績中所占的比例計(jì)入課程總評(píng)成績?!獭獭?22階段測(cè)驗(yàn)10(1)主要階段性考核學(xué)生對(duì)本階段知識(shí)的掌握程度,滿分100分。(2)每次測(cè)試單獨(dú)評(píng)分,取各次成績的平均值作為此環(huán)節(jié)的最終成績。(3)以階段測(cè)試成績乘以其在總評(píng)成績中所占的比例計(jì)入課程總評(píng)成績?!獭獭?22期末考核60(1)上機(jī)考試成績100分,以上機(jī)考試成績乘以其在總評(píng)成績中所占的比例計(jì)入課程總評(píng)成績。(2)主要考核基本爬蟲庫靜態(tài)網(wǎng)頁內(nèi)容、內(nèi)容的解析、動(dòng)態(tài)網(wǎng)頁內(nèi)容的爬取以及數(shù)據(jù)預(yù)處理的應(yīng)用等內(nèi)容。(3)考試題型為:程序設(shè)計(jì)題目等?!獭獭?02010合計(jì):100分542818八、考核與成績?cè)u(píng)定1.考核方式及成績?cè)u(píng)定考核方式:本課程主要以課堂表現(xiàn)、實(shí)驗(yàn)、在線學(xué)習(xí)、階段測(cè)驗(yàn)、期末上機(jī)考試等方式對(duì)學(xué)生進(jìn)行考核評(píng)價(jià)??己嘶疽螅嚎己丝偝煽冇善谀┥蠙C(jī)考試成績和過程性考核成績組成。其中:期末上機(jī)考試成績?yōu)?00分(權(quán)重60%),試題類型為簡答題、程序題、計(jì)算題和分析題等類型,試卷中基本知識(shí)、基本理論、基本技能的試題分值不超過50%,綜合應(yīng)用題、分析題不低于50%;課堂表現(xiàn)、實(shí)驗(yàn)、在線學(xué)習(xí)等過程性考核成績?yōu)?00分(權(quán)重40%);過程性考核和考試試題分值分配應(yīng)與教學(xué)大綱各章節(jié)的學(xué)時(shí)基本成比例。2.過程性考核成績的標(biāo)準(zhǔn)過程性考核方式重點(diǎn)考核內(nèi)容、評(píng)價(jià)標(biāo)準(zhǔn)、所占比重見表5。表5過程性考核方式評(píng)價(jià)標(biāo)準(zhǔn)考核方式所占比重(%)100>x≥9090>x≥8080>x≥7070>x≥60x<60課堂表現(xiàn)25積極參與教學(xué)活動(dòng),踴躍回答問題,準(zhǔn)確率大于90%。認(rèn)真參與教學(xué)活動(dòng),回答問題準(zhǔn)確率大于80%。偶爾參與教學(xué)活動(dòng),回答問題準(zhǔn)確率大于70%。上課不認(rèn)真,偶爾參與教學(xué)活動(dòng),回答準(zhǔn)確率大于60%.。上課不認(rèn)真,不參與教學(xué)活動(dòng)。實(shí)驗(yàn)25實(shí)驗(yàn)預(yù)習(xí)認(rèn)真,能夠熟練掌握方法與步驟,實(shí)驗(yàn)操作過程熟練、規(guī)范,遵規(guī)守紀(jì)、團(tuán)結(jié)協(xié)作,實(shí)驗(yàn)結(jié)果詳實(shí)、結(jié)論清晰、討論合理實(shí)驗(yàn)前有預(yù)習(xí),能夠掌握方法與步驟,實(shí)驗(yàn)操作過程正確、規(guī)范,遵規(guī)守紀(jì)、團(tuán)結(jié)協(xié)作,實(shí)驗(yàn)結(jié)果正確、討論適當(dāng)實(shí)驗(yàn)前有預(yù)習(xí),基本能夠掌握方法與步驟,實(shí)驗(yàn)操作過程基本正確、無協(xié)作,實(shí)驗(yàn)結(jié)果基本正確,討論一般實(shí)驗(yàn)前有預(yù)習(xí),不能掌握方法與步驟,實(shí)驗(yàn)操作過程基本正確,無協(xié)作,實(shí)驗(yàn)結(jié)果基本正確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論