《數(shù)據(jù)采集與清洗》課程教學大綱_第1頁
《數(shù)據(jù)采集與清洗》課程教學大綱_第2頁
《數(shù)據(jù)采集與清洗》課程教學大綱_第3頁
《數(shù)據(jù)采集與清洗》課程教學大綱_第4頁
《數(shù)據(jù)采集與清洗》課程教學大綱_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)采集與清洗課程教學大綱一、課程基本信息課程編號:12162課程名稱:數(shù)據(jù)采集與清洗英文名稱:Data Collection and Cleaning課程類型:專業(yè)課課程要求:必修學時/學分:32/2 (講課學時:24 實驗學時:8)先修課程:程序設計語言、數(shù)據(jù)結構與算法、數(shù)據(jù)庫系統(tǒng)原理后續(xù)課程:Python數(shù)據(jù)分析與應用、數(shù)據(jù)分析與挖掘實踐適用專業(yè):數(shù)據(jù)科學與大數(shù)據(jù)技術二、課程描述數(shù)據(jù)采集、清洗是大數(shù)據(jù)分析的重要步驟,旨在引導學生掌握數(shù)據(jù)獲取的方法和工具,發(fā)現(xiàn)并糾正數(shù)據(jù)中可能存在的錯誤和不一致,選用適當?shù)姆椒ㄟM行清理,建立有效、一致、可靠的數(shù)據(jù)源。通過對基本概念和方法的深刻理解,掌握解決實

2、際問題的抽象方法;通過大數(shù)據(jù)采集和清洗流程的分解,掌握解決問題的工作步驟;通過案例,建立分析數(shù)據(jù)采集、清洗的實際問題和給出解決方案的能力;通過將應用場景與數(shù)據(jù)采集、清洗常用軟件工具的結合,訓練基本操作技術并形成利用理論結合現(xiàn)代化工具解決數(shù)據(jù)科學領域中工程問題的能力。 通過課程學習,使學生能夠應用數(shù)據(jù)采集和清洗的基本原理和方法、常用工具軟件獲得并存儲有效、可靠的批量數(shù)據(jù),解釋實驗中的現(xiàn)象和數(shù)據(jù),并通過信息綜合得到合理有效的結論。課程教學目標1. 能對大數(shù)據(jù)處理中的數(shù)據(jù)采集、清洗基本問題進行分析,運用數(shù)據(jù)采集和清洗的基本技術和方法制定解決方案。(支持畢業(yè)能力要求2)2. 能綜合運用先修課程的理論和

3、邏輯思維,結合該課程的方法和技術對數(shù)據(jù)采集和清洗階段中的復雜問題、現(xiàn)象和數(shù)據(jù)進行綜合分析、解釋,根據(jù)數(shù)據(jù)不同給出相應的數(shù)據(jù)清洗方法,并論證方法的適用性和有效性。(支持畢業(yè)能力要求2)3. 能夠針對大數(shù)據(jù)領域中的具體應用問題選擇與使用恰當?shù)臄?shù)據(jù)采集工具,對大數(shù)據(jù)工程問題進行模擬和實現(xiàn)。(支持畢業(yè)能力要求5) 4. 能夠針對大數(shù)據(jù)領域中的具體應用問題選擇與使用恰當?shù)臄?shù)據(jù)清洗工具,對大數(shù)據(jù)工程問題進行模擬和實現(xiàn)。(支持畢業(yè)能力要求5)四、教學內容、安排及與教學目標的對應關系單元教學內容單元教學目標學時教學方式對應課程教學目標1一、技術概述1.1 大數(shù)據(jù)采集技術1.2 數(shù)據(jù)預處理技術1.3數(shù)據(jù)清洗概述

4、1.3.1 數(shù)據(jù)清洗簡介 1.3.2 數(shù)據(jù)標準化 1.3.3 數(shù)據(jù)倉庫簡介 (1)能正確闡述大數(shù)據(jù)處理的一般流程;(2)能準確說明數(shù)據(jù)采集、清洗的概念;(3) 理解數(shù)據(jù)預處理工作的意義。2講授12二、數(shù)據(jù)采集基礎2.1 傳統(tǒng)數(shù)據(jù)采集技術2.1.1 數(shù)據(jù)采集概述2.1.2 數(shù)據(jù)采集系統(tǒng)架構2.1.3 數(shù)據(jù)采集關鍵技術2.2 大數(shù)據(jù)采集基礎2.2.1 數(shù)據(jù)的發(fā)展2.2.2 大數(shù)據(jù)來源2.2.3 大數(shù)據(jù)采集技術(1)能闡述數(shù)據(jù)采集的系統(tǒng)架構;(2)能闡述數(shù)據(jù)采集的關鍵技術;(3)了解大數(shù)據(jù)采集技術的發(fā)展狀況。2講授13三、大數(shù)據(jù)采集架構3.1 概述3.2 Chukwa數(shù)據(jù)采集3.3 Flume數(shù)據(jù)采

5、集3.4 Scribe數(shù)據(jù)采集3.5 Kafka數(shù)據(jù)采集(1)了解大數(shù)據(jù)采集的主流平臺,并能闡述之間的差異。2講授自學1、34四、大數(shù)據(jù)遷移技術4.1 數(shù)據(jù)遷移概念4.2 數(shù)據(jù)遷移相關技術4.2.1 基于主機的遷移方式4.2.2 基于存儲的遷移方式4.2.3 備份恢復的方式4.2.4 基于主機邏輯卷的數(shù)據(jù)遷移4.2.5 基于數(shù)據(jù)庫的遷移技術4.2.6 服務器虛擬化的遷移4.2.7 其他數(shù)據(jù)遷移技術4.3 數(shù)據(jù)遷移工具4.3.1 Apache Sqoop4.3.2 ETL4.4 Kettle數(shù)據(jù)遷移實例(1)能解釋數(shù)據(jù)遷移的概念;(2)能說明針對不同應用場景所采用的遷移技術;(3)能說明主流數(shù)據(jù)

6、遷移工具的基本功能和特點。2講授1、35五、數(shù)據(jù)預處理技術5.1 數(shù)據(jù)的描述5.1.1 數(shù)據(jù)對象與屬性類型5.1.2 數(shù)據(jù)的統(tǒng)計描述5.1.3 數(shù)據(jù)相似性和相異性的度量方法5.2 數(shù)據(jù)預處理概述5.2.1 數(shù)據(jù)質量5.2.2 數(shù)據(jù)預處理的主要任務5.3 數(shù)據(jù)清洗5.4 數(shù)據(jù)集成5.5 數(shù)據(jù)歸約5.6 數(shù)據(jù)變換(1) 能描述數(shù)據(jù)的屬性特征;(2)能闡述數(shù)據(jù)預處理的目標和任務;(3)能對數(shù)據(jù)預處理各階段的主要方法和技術進行清晰的描述。2講授26六、數(shù)據(jù)格式與編碼6.1 文件文本格式6.1.1 常見文本格式6.1.2 xls及xlsx文件格式 6.1.3 JSON文本格式 6.1.4 HTML和XM

7、L文本格式 6.2 數(shù)據(jù)編碼 6.3 數(shù)據(jù)轉換 6.3.1 電子表格轉換 6.3.2 RDBMS數(shù)據(jù)轉換 (1) 能正確說明Windows和UNIX系統(tǒng)數(shù)據(jù)常規(guī)格式;(2)了解數(shù)據(jù)編碼和格式間相互轉換的基本方法。2講授17七、數(shù)據(jù)清洗基本技術方法7.1 ETL入門 7.1.1 ETL解決方案 7.1.2 ETL基本構成 7.1.3 ETL技術選型 7.2 技術路線 7.2.1 文本清洗路線 7.2.2 RDBMS清洗路線 7.2.3 Web內容清洗路線 7.3 ETL工具 7.3.1 ETL功能 7.3.2 開源ETL工具 7.4 ETL子系統(tǒng)(1) 能理解ETL的概念;(2)能掌握文本、關系

8、數(shù)據(jù)庫、Web數(shù)據(jù)清洗的基本技術路線法;(3)了解開源ETL工具的功能和工作過程。2講授自學1、48八、數(shù)據(jù)清洗常用工具及基本操作 8.1 Microsoft Excel數(shù)據(jù)清洗基本操作 8.2 Kettle簡介及基本操作 8.3 OpenRefine簡介及基本操作 8.4 DataWrangler簡介及基本操作8.5 Hawk簡介及基本操作(1) 能掌握主流數(shù)據(jù)清洗工具的使用及其適用場景,重點掌握Kettle的使用;(2) 能選擇適當數(shù)據(jù)清洗工具對具體問題中的數(shù)據(jù)進行清洗。2講授自學48.6 上機練習與實訓 使用數(shù)據(jù)清洗工具進行數(shù)據(jù)清洗練習使用數(shù)據(jù)清洗工具對具體問題中的數(shù)據(jù)進行清洗。4實驗1

9、、49九、數(shù)據(jù)抽取9.1 文本文件抽取 9.1.1 制表符文本抽取9.1.2 CSV文件抽取 9.2 Web數(shù)據(jù)抽取 9.2.1 HTML文件抽取 9.2.2 JSON數(shù)據(jù)抽取9.2.3 XML數(shù)據(jù)抽取 9.3 數(shù)據(jù)庫數(shù)據(jù)抽取 9.3.1 數(shù)據(jù)導入導出 9.3.2 ETL工具抽取(1)掌握實現(xiàn)文本文件、Web數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)抽取的基本知識;(2) 掌握借助Kettle實現(xiàn)文本文件抽取、網頁文件抽取、數(shù)據(jù)庫數(shù)據(jù)抽取及增量抽取等。2講授1、49.4 上機練習與實訓 增量數(shù)據(jù)抽取熟練使用Kettle工具和時間戳等方法對數(shù)據(jù)庫數(shù)據(jù)進行增量抽取。4實驗1、410十、數(shù)據(jù)轉換與加載10.1 數(shù)據(jù)清洗轉換

10、10.2 數(shù)據(jù)質量評估 10.3 數(shù)據(jù)加載 (1)掌握數(shù)據(jù)清洗的具體方法;(2)掌握數(shù)據(jù)轉換過程中的數(shù)據(jù)校驗、錯誤處理;(3)掌握數(shù)據(jù)加載和批量加載技術。2講授111十一、Web數(shù)據(jù)采集實例11.1 網頁結構 11.2 網絡爬蟲概述11.2.1 網絡爬蟲的概念11.2.2 網絡爬蟲的抓取策略11.2.3 網頁更新策略11.3 常用網絡爬蟲方法11.4 網絡爬蟲工具11.5 Python爬蟲技術11.5.1 Python概述11.5.2 Python爬蟲基礎11.5.3 Python安裝11.5.4 Python爬蟲實例11.6 行為日志采集 11.7 文本數(shù)據(jù)處理(1) 了解網頁爬蟲技術采集W

11、eb數(shù)據(jù)的方法;(2) 了解行為日志分析方法。2講授自學2、3、412十二、RDBMS數(shù)據(jù)清洗實例 12.1 準備工作12.1.1 準備待清洗的數(shù)據(jù)集 12.1.2 搭建操作環(huán)境 12.1.3 數(shù)據(jù)導入MySQL12.2 數(shù)據(jù)庫數(shù)據(jù)清洗 12.2.1 缺失值清洗12.2.2 格式內容清洗12.2.3 邏輯錯誤清洗 12.2.4 非需求數(shù)據(jù)清洗 12.3 數(shù)據(jù)脫敏處理 (1)掌握關系型數(shù)據(jù)庫數(shù)據(jù)清洗方法;(2)掌握敏感數(shù)據(jù)脫敏處理方法。2講授2、3、4五、其他教學環(huán)節(jié)(課外教學環(huán)節(jié)、要求、目標)1. 自學數(shù)據(jù)清洗工具和Web數(shù)據(jù)采集實例單元要在授課前自學授課內容,達到能運用實例解釋基本概念的要求

12、。2. 運用在數(shù)據(jù)預處理單元學習后,自行收集資料,閱讀文獻,分別針對某個有實際工程背景的應用問題設計解決方案,綜合運用數(shù)據(jù)采集框架、數(shù)據(jù)遷移技術,設計解決方案(可運用論證、分析、解釋、實驗或程序得到結果),并撰寫小論文進行總結。六、教學方法本課程以課堂教學為主,結合自學、撰寫小論文(或軟件設計)及實驗等教學手段和形式完成課程教學任務。1. 在課堂教學中,通過講授使學生迅速掌握核心內容。2. 采取教師現(xiàn)場演示、學生借助手機查詢、瀏覽等方式,了解理論的應用背景或示例,提升學生的學習興趣。3. 在單元學習結束時,利用提示、啟發(fā)、指定等方式,指導學生運用所學知識解決實際問題,培養(yǎng)學生初步運用基本知識分

13、析問題和解決問題的能力,激發(fā)學生的創(chuàng)新思維。4. 對于綜合性強的實驗內容,通過教師的前期指導、學生課前自學完成相關內容,進行總結分析形成文字性報告以培養(yǎng)學生的自主學習和問題總結能力。5. 大部分單元采用CAI作為輔助教學工具,但仍以板書為主。七、學習評量學習成績由平時成績(含作業(yè)成績、討論與報告、測驗)和期末考試成績組成。各部分所占比例和評價內容、方法如下:1. 平時成績(40%)(1)作業(yè)成績:10%。主要考核對課堂學習的知識點的復習、理解和掌握程度;以內容的邏輯性和工作量為評價標準。(2)實驗成績:30%。1)上機操作。按照實驗任務上機完成;對任務完成的數(shù)量和質量評分,共20分,分4次,每次5分。2) 實驗報告。應用所學內容解決計算機相關領域的問題;以論文的應用案例正確性、方案有效性為標準評分,共10分。2. 期末考試成績(60%)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論