下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)教學(xué)大綱學(xué) 時(shí):60代 碼:適用專業(yè):制 定:審 核:批 準(zhǔn):一、課程的地位、性質(zhì)和任務(wù)大數(shù)據(jù)技術(shù)的發(fā)展,已被列為國(guó)家重大發(fā)展戰(zhàn)略。而在過去的幾年里,無論是聚焦大數(shù)據(jù)發(fā)展 的促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要,還是“十三五”規(guī)劃中都深刻體現(xiàn)了政府對(duì)大數(shù)據(jù)產(chǎn)業(yè)和應(yīng)用 發(fā)展的重視。目前國(guó)內(nèi)大數(shù)據(jù)發(fā)展還處于加速期、轉(zhuǎn)型期,數(shù)據(jù)與傳統(tǒng)產(chǎn)業(yè)的融合還處于起步階段, 各行業(yè)對(duì)大數(shù)據(jù)分析和挖掘的應(yīng)用還不理想。但隨著市場(chǎng)競(jìng)爭(zhēng)的加劇,各行業(yè)對(duì)大數(shù)據(jù)技術(shù)研究的 熱情越來越高,在未來幾年,各領(lǐng)域的數(shù)據(jù)分析都將大規(guī)模應(yīng)用。本課程在注重大數(shù)據(jù)時(shí)代應(yīng)用環(huán)境前提下,考慮大數(shù)據(jù)處理分析需求多樣復(fù)雜的基本情況,從 初學(xué)者
2、角度出發(fā),以輕量級(jí)理論、豐富的實(shí)例對(duì)比性地介紹大數(shù)據(jù)常用計(jì)算模式的各種系統(tǒng)和工具。 考慮到當(dāng)前大數(shù)據(jù)發(fā)展處于起步并逐步趕超先進(jìn)的階段,其應(yīng)用領(lǐng)域豐富廣泛,在教學(xué)過程中應(yīng)注 重掌握大數(shù)據(jù)分析的實(shí)踐操作。本課程通過豐富簡(jiǎn)單易上手的實(shí)例,讓學(xué)生能夠切實(shí)體會(huì)和掌握各 種類型工具的特點(diǎn)和應(yīng)用。二、課程教學(xué)基本要求1 , 了解大數(shù)據(jù)的發(fā)展和基本概念,理解并掌握大數(shù)據(jù)的特征及主要技術(shù)層面。2 .掌握Scrapy環(huán)境的搭建,了解網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的過程,熟悉爬蟲項(xiàng)目的創(chuàng)建。3 .深刻了解hadoop的基礎(chǔ)理論,理解并掌握Hadoop單機(jī)及集群環(huán)境的部署方法。4 .掌握HDFS勺基本才既念和 HDFS hadoo
3、p中的作用,理解并識(shí)記 HDFS的使用,了解 HDFS的 JAVA API接口及數(shù)據(jù)流原理;讓學(xué)生明白Map過程與Reduce過程這兩個(gè)獨(dú)立部分各自的原理及合作途徑,知道如何獨(dú)立編寫滿足自己需求的MapReduce程序。5 .理解HBase中涉及的基本概念,掌握 HBase的簡(jiǎn)單應(yīng)用;讓學(xué)生了解數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)概念, 熟悉Hive與HDFS MapReduce直接的關(guān)心。6 .熟悉Spark和RDD的基本概念,熟悉 spark接口的使用,解決實(shí)戰(zhàn)時(shí)的步驟及思路。7 .明白Hadoop和Storm之間的差別,掌握對(duì) Storm的使用。理解 Apex的工作過程并能簡(jiǎn)單應(yīng) 用。8 , 了解Druid的
4、基本概念、應(yīng)用場(chǎng)景以及集群架構(gòu),掌握批量數(shù)據(jù)加載、流數(shù)據(jù)加載的操作。 了解Flink的重要概念和基本架構(gòu),掌握 Flink簡(jiǎn)單的使用實(shí)例。9 .理解日asticsearch的基本架構(gòu),掌握 日asticsearch 的一些入門操作。了解并基本掌握怎樣利用所學(xué)的工具對(duì)目標(biāo)實(shí)例進(jìn)行數(shù)據(jù)分析。三、課程的內(nèi)容了解大數(shù)據(jù)的產(chǎn)生和發(fā)展,識(shí)記大數(shù)據(jù)的特征、數(shù)據(jù)類型和系統(tǒng),大數(shù)據(jù)的計(jì)算模式和技術(shù)層 面間的關(guān)聯(lián)。2 .數(shù)據(jù)獲取識(shí)記基本概念,識(shí)記各功能應(yīng)怎樣用Scrapy爬蟲實(shí)現(xiàn),了解采集目標(biāo)數(shù)據(jù)項(xiàng)定義,領(lǐng)會(huì)并掌握爬蟲運(yùn)行和數(shù)據(jù)存儲(chǔ)技術(shù)。3 . Hadoop 基礎(chǔ)領(lǐng)會(huì) Hadoop 的主要特點(diǎn),識(shí)記 Hadoop
5、 HDFS Hadoop MapReduce Hadoop YARN的原理,了解 其生態(tài)系統(tǒng)中重要組成的原理,熟悉Hadoop的配置。4 . HDFS本應(yīng)用熟悉HDF例需的API接口,了解數(shù)據(jù)流的工作過程,能簡(jiǎn)單操作HDFS勺接口。5 . MapReduce應(yīng)用開發(fā)了解所需的開發(fā)環(huán)境eclipse ,領(lǐng)會(huì)Map過程與Reduce過程的工作原理,了解使用 mapreduce解決實(shí)際問題時(shí)的步驟和思路,識(shí)記MapReduce代碼的不同功能。6 .分布式數(shù)據(jù)庫(kù) HBase識(shí)記HBase的基本概念,熟悉安裝HBase集群的步驟,了解 HBaseAPI的基本步驟。7 .數(shù)據(jù)倉(cāng)庫(kù)工具Hive領(lǐng)會(huì)Hive的
6、作用,掌握 Hive接口的使用,會(huì)利用 Hive解決實(shí)戰(zhàn)問題。8 .開源集群計(jì)算環(huán)境 Spark了解Spark的基本思想,熟悉 Spark所需的環(huán)境及 API等,熟悉Spark實(shí)戰(zhàn)的完整工作過程, 領(lǐng)會(huì)其所需的代碼。9 .流實(shí)時(shí)處理系統(tǒng) Storm識(shí)記Storm相關(guān)概念,掌握 Storm環(huán)境的安裝配置,了解 Storm的基本使用10 .企業(yè)級(jí)、大數(shù)據(jù)流處理Apex識(shí)記Apex的基本概念,掌握 Apex的環(huán)境配置過程,理解常見組件的原理和特點(diǎn),會(huì)簡(jiǎn)單的應(yīng) 用Apex解決問題。11 .事件流OLAP之Druid了解Druid的概念及其應(yīng)用場(chǎng)所,掌握 Druid單機(jī)環(huán)境的安裝方法和步驟,并能利用Dr
7、uid進(jìn)行加載流數(shù)據(jù)處理數(shù)據(jù)查詢等。12 .事件數(shù)據(jù)流引擎 Flink識(shí)記Flink的基本概念,明白 Flink的基本架構(gòu),能夠安裝Flink的單機(jī)和集群環(huán)境。13 .分布式文件搜索日asticsearch了解日asticsearch 包含重要部分的基本概念,掌握 日asticsearch 重要的安裝過程,掌握簡(jiǎn) 單的操作。14 .實(shí)例電商數(shù)據(jù)分析能夠通過已經(jīng)學(xué)習(xí)了解過的環(huán)境和工具等,有條理有步驟的對(duì)實(shí)例進(jìn)行數(shù)據(jù)挖掘、數(shù)據(jù)處理和 數(shù)據(jù)分析等,進(jìn)而得出相關(guān)的結(jié)論。四、課程的重點(diǎn)、難點(diǎn)1 .大數(shù)據(jù)概述重點(diǎn):大數(shù)據(jù)的概念和特征。難點(diǎn):大數(shù)據(jù)的計(jì)算模式和技術(shù)層面間的關(guān)聯(lián)。2 .數(shù)據(jù)獲取重點(diǎn):Scrap
8、y環(huán)境的搭建。難點(diǎn):網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的過程。3 . Hadoop 基礎(chǔ)重點(diǎn):Hadoop的基礎(chǔ)理論及安裝。難點(diǎn):Hadoop單機(jī)及集群環(huán)境的部署方法。4 . HDFS本應(yīng)用重點(diǎn):掌握HDFS勺兩種使用方法。5 . MapReduce應(yīng)用開發(fā)重點(diǎn):明白 Map過程與Reduce過程的原理。難點(diǎn):獨(dú)立編寫滿足自己需求的MapReduce程序。6 .分布式數(shù)據(jù)庫(kù) HBase重點(diǎn):HBase所包含的3個(gè)重要組件的工作方式。難點(diǎn):如何通過 HBase shell和HBase API訪問HBase7 .數(shù)據(jù)倉(cāng)庫(kù)工具Hive重點(diǎn):熟悉簡(jiǎn)單的 Hive命令。8 .開源集群計(jì)算環(huán)境 Spark重點(diǎn):理解Spar
9、k的工作機(jī)制。難點(diǎn):解決實(shí)戰(zhàn)時(shí)的步驟及思路。9 .流實(shí)時(shí)處理系統(tǒng) Storm重點(diǎn):Storm的實(shí)時(shí)處理。難點(diǎn):利用Storm的特點(diǎn)對(duì)數(shù)據(jù)進(jìn)行合適的處理。10 .企業(yè)級(jí)、大數(shù)據(jù)流處理Apex重點(diǎn):Apex的流處理功能。11 .事件流OLAP之Druid重點(diǎn):使用Druid進(jìn)行加載和查詢數(shù)據(jù)。12 .事件數(shù)據(jù)流引擎 Flink重點(diǎn):明白Flink的基本架構(gòu)。難點(diǎn):Flink系統(tǒng)中進(jìn)程間處理信息的原理。13 .分布式文件搜索日asticsearch重點(diǎn):Elasticsearch的基本架構(gòu)。14 .實(shí)例電商數(shù)據(jù)分析難點(diǎn):怎樣利用所學(xué)的工具對(duì)目標(biāo)實(shí)例進(jìn)行數(shù)據(jù)分析。五、課時(shí)分配表序號(hào)課程內(nèi)容總學(xué)時(shí)講課實(shí)
10、驗(yàn)習(xí)題課機(jī)動(dòng)1大數(shù)據(jù)概述2222數(shù)據(jù)獲取4223Hadoop基礎(chǔ)424MapReduce 應(yīng)發(fā)426分體式數(shù)據(jù)庫(kù)HBase4227數(shù)據(jù)倉(cāng)庫(kù)工具Hive4228開源集群計(jì)算環(huán)境 Spark8449流實(shí)時(shí)處理系統(tǒng)Storm42210企業(yè)級(jí)、大數(shù)據(jù)流處理 Apex42211事件流 OLAR> Druid42212事件數(shù)據(jù)流引擎Flink42213分布式文件搜索Elasticsearch42214實(shí)例電商數(shù)據(jù)分析422合計(jì)603228六、實(shí)驗(yàn)項(xiàng)目及基本要求實(shí)驗(yàn)一通過爬蟲獲取數(shù)據(jù)要求:能安裝爬蟲所需環(huán)境,創(chuàng)建簡(jiǎn)單的爬蟲項(xiàng)目。成功完成爬蟲核心實(shí)現(xiàn)。實(shí)驗(yàn)二Hadoop安裝與配置要求:Hadoop單機(jī)和
11、集群模式的配置。實(shí)驗(yàn)三 實(shí)戰(zhàn)HDFS勺接口要求:能自主操作 Java和命令行接口。實(shí)驗(yàn)四編寫簡(jiǎn)單的Mapreduce程序要求:完成 MapReduce所需環(huán)境的配置,完成 Mapreduce應(yīng)用實(shí)例實(shí)驗(yàn)五分布式數(shù)據(jù)庫(kù)HBase要求:安裝 HBase集群模式,能簡(jiǎn)單使用 HBase shell和Hbase API。實(shí)驗(yàn)六Hive的使用要求:會(huì)進(jìn)彳T簡(jiǎn)單的 Hive命令使用,熟悉 Hive的復(fù)雜語句。實(shí)驗(yàn)七Spark簡(jiǎn)單編程與聚類實(shí)戰(zhàn)要求:了解Spark簡(jiǎn)單的RDDJ建,了解各個(gè)實(shí)戰(zhàn)的編程實(shí)現(xiàn)及解決過程。實(shí)驗(yàn)八Storm安裝與配置要求:了解Storm的概念及原理,了解 Storm的安裝和基本使用。
12、實(shí)驗(yàn)九Spark的使用和配置要求:掌握 Apex的使用,了解 Apex的基本配置。實(shí)驗(yàn)十Druid環(huán)境配置要求:了解 Druid的概念和使用,理解 Druid的作用。實(shí)驗(yàn)十事件數(shù)據(jù)流引擎Flink的使用要求:了解Flink的概念和部署過程,理解 Flink的使用。七、考核辦法1 .考試采用統(tǒng)一命題,閉卷考試,考試時(shí)間為120分鐘。2 .本大綱各部分所規(guī)定基本要求、知識(shí)點(diǎn)及知識(shí)點(diǎn)下的知識(shí)細(xì)目,都屬于考核的內(nèi)容??荚嚸?題覆蓋到各部分,并適當(dāng)突出重點(diǎn)部分,加大重點(diǎn)內(nèi)容的覆蓋密度。3 .不同能力層次要求的分?jǐn)?shù)比例大致為:識(shí)記占 20%領(lǐng)會(huì)占30%簡(jiǎn)單應(yīng)用占30%綜合應(yīng) 用占20%4 .題的難度可分為易、較易、較難和難四個(gè)等級(jí)。試卷中不同難度試題的分?jǐn)?shù)比例一般為2:3:3:25 .試題主要題型有:填空、單項(xiàng)選擇、多選、簡(jiǎn)答、及綜合應(yīng)用等。八、使用說明在本課程學(xué)習(xí)中,應(yīng)從“了解”、“識(shí)記”、“領(lǐng)會(huì)”、“簡(jiǎn)單應(yīng)用”、“綜合應(yīng)用”五個(gè)能力層次去 把握:1 . 了解:要求概念的基本掌握,是最基本要求。2 .識(shí)記:要求能夠識(shí)別和記憶本課程有關(guān)知識(shí)點(diǎn)的主要內(nèi)容,并能夠做出正確的表達(dá)、選擇和 判斷。3 .領(lǐng)會(huì):在識(shí)記的基礎(chǔ)上,要求能夠
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版教育信用借款合同范本助力學(xué)子圓夢(mèng)3篇
- 2024年甲乙雙方關(guān)于文化旅游項(xiàng)目投資與合作協(xié)議
- 2025版航空航天發(fā)動(dòng)機(jī)研發(fā)中心建筑工程一切險(xiǎn)及知識(shí)產(chǎn)權(quán)保護(hù)合同3篇
- 2025版跨境電商業(yè)務(wù)培訓(xùn)與市場(chǎng)拓展代理服務(wù)合同模板3篇
- 2024年高品質(zhì)豬場(chǎng)租賃服務(wù)合同書2篇
- 2025版科技創(chuàng)新型企業(yè)勞動(dòng)合同全解析百問百答3篇
- 二零二五年企業(yè)簽約落戶保障與服務(wù)協(xié)議3篇
- 課題申報(bào)書:大學(xué)生“社恐”現(xiàn)象的心理機(jī)制與應(yīng)對(duì)策略研究
- 2024影像資源數(shù)字化與版權(quán)管理服務(wù)合同3篇
- 2024年礦產(chǎn)資源國(guó)際貿(mào)易與合作合同
- DPP4抑制劑比較篇PPT課件
- 中藥飲片購(gòu)進(jìn)驗(yàn)收記錄表格模板
- TCM遠(yuǎn)紅外發(fā)展初析
- 滑坡穩(wěn)定性計(jì)算及滑坡推力計(jì)算
- 繼教脈圖分析 0
- 房地產(chǎn)開發(fā)企業(yè)土地增值稅清算政策與實(shí)務(wù)操作(成都市)解讀
- 房地產(chǎn)估計(jì)第九章假設(shè)開發(fā)法練習(xí)題參考答案
- [爆笑小品校園劇本7人]爆笑小品校園劇本
- 第五章 逆向選擇
- 高速鐵路電氣化系統(tǒng)概論P(yáng)PT優(yōu)秀課件
- 農(nóng)村祠堂上梁說辭
評(píng)論
0/150
提交評(píng)論