《大數(shù)據(jù)技術(shù)導論》教學大綱_第1頁
《大數(shù)據(jù)技術(shù)導論》教學大綱_第2頁
《大數(shù)據(jù)技術(shù)導論》教學大綱_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)技術(shù)導論Introduction of Big Data Technology一、課程基本情況課程類別:專業(yè)任選課課程學分:2學分課程總學時:32學時,其中講課:32學時課程性質(zhì):選修開課學期:第6學期先修課程:數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)庫原理,面向?qū)ο驤ava程序設(shè)計適用專業(yè):信息工程教材:自編開課單位:電子與信息工程學院,信息工程系二、課程性質(zhì)、教學目標和任務(wù)大數(shù)據(jù)技術(shù)導論課程從大數(shù)據(jù)的發(fā)展與現(xiàn)狀入手,面向本科生主要介紹了大數(shù)據(jù)開發(fā)的相關(guān)技術(shù),并討論了大數(shù)據(jù)技術(shù)的具體應(yīng)用。重點介紹了工業(yè)界流行的SPARK大數(shù)據(jù)開發(fā)平臺,討論了SPARK大數(shù)據(jù)平臺的基本結(jié)構(gòu)和基本原理。在此基礎(chǔ)上,全面剖析如何使用

2、SPARK進行大數(shù)據(jù)開發(fā),并配以應(yīng)用實例。通過教學使學生全面了解當前大數(shù)據(jù)技術(shù)動態(tài)和發(fā)展趨勢,并可針對自己面臨的大數(shù)據(jù)問題找到可行的解決方案。三、教學內(nèi)容和要求1、大數(shù)據(jù)技術(shù)概述(2學時)(1)掌握大數(shù)據(jù)的定義及特征(2)理解大數(shù)據(jù)結(jié)構(gòu)類型(3)了解大數(shù)據(jù)發(fā)展史和大數(shù)據(jù)在各領(lǐng)域的廣泛應(yīng)用(4)初步了解大數(shù)據(jù)技術(shù)架構(gòu)重點:大數(shù)據(jù)的定義和特征、大數(shù)據(jù)結(jié)構(gòu)特征和大數(shù)據(jù)應(yīng)用難點:大數(shù)據(jù)技術(shù)架構(gòu)2、SPARK大數(shù)據(jù)平臺基礎(chǔ)(6學時)(1)理解RDD的概念和RDD在SPARK平臺中的重要作用(2)理解RDD的變換和行為,了解延后計算的概念(3)掌握SPARK中常見的變換和行為(4)掌握RDD的類型轉(zhuǎn)換方法

3、(5)理解RDD的持久化重點:理解RDD的概念與作用,掌握SPARK中RDD常見的變換和行為難點:理解RDD的變換和行為,理解延后計算的作用和RDD的持久化3、Scala語言基礎(chǔ)(4學時)(1)掌握Scala語言的基本語法(2)理解Scala語言的函數(shù)式編程風格(3)掌握Scala語言的開發(fā)環(huán)境與調(diào)試方法重點:Scala語言的基本語法,Scala語言的開發(fā)環(huán)境難點:理解Scala語言的函數(shù)式編程風格4、SPARK編程基礎(chǔ)(4學時)(1)理解SPARK中的鍵/值對(2)掌握鍵/值對的基本變換,如聚集、分組、聯(lián)合、排序等(3)掌握鍵值對的數(shù)據(jù)分割,并理解哪些操作會影響數(shù)據(jù)分割重點:理解鍵/值對在S

4、PARK中的作用,掌握鍵/值對的基本變換難點:理解鍵/值對的數(shù)據(jù)分割5、SPARK數(shù)據(jù)的持久化(4學時)(1)了解基本的數(shù)據(jù)格式,文本文件、JSON格式等(2)理解序列文件和對象文件(3)掌握SPARK對Hadoop HDFS的支持(4)了解SPARK對于NoSQL的支持,彈性檢索等概念重點:掌握序列文件的讀寫,掌握HDFS的讀寫難點:理解SPARK數(shù)據(jù)持久化的概念6、SPARK機器學習庫MLib的使用(6學時)(1)理解SPARK相對于Map-Reduce適宜于機器學習的優(yōu)勢(2)掌握MLib中常見機器學習算法的使用,如K-Means,ALS等(3)掌握MLib解決典型的數(shù)據(jù)分析問題,如推薦

5、系統(tǒng)、圖像分類等重點:掌握MLib中典型機器學習算法的使用難點:如何應(yīng)用MLib解決真實的數(shù)據(jù)分析問題7、SPARK在集群上的部署(4學時)(1)理解SPARK的運行體系結(jié)構(gòu)(2)了解SPARK如何在集群中啟動一個任務(wù)重點:SPARK的運行體系結(jié)構(gòu)難點:掌握SPARK啟動任務(wù)的具體流程8、數(shù)據(jù)科學與數(shù)據(jù)科學家(2學時)(1)理解數(shù)據(jù)科學、數(shù)據(jù)科學家的概念和定義(2)了解數(shù)據(jù)分析生命周期模型(3)掌握企業(yè)創(chuàng)新分析方面的范例重點:數(shù)據(jù)科學、數(shù)據(jù)科學家的概念和定義難點:數(shù)據(jù)分析生命周期模型四、課程考核1、作業(yè)等:作業(yè):4次;2、考核方式:開卷考試3、總評成績計算方式:(平時成績、實驗成績、期中考試成績和期末考試成績等綜合計算)五、參考書目1、學習Spark(影印版)東南大學出版社;Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia,2015年8月1日,第1版;2、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論