Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ) -教學大綱、授課計劃、習題答案(張軍第2版)及 期末測試題_第1頁
Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ) -教學大綱、授課計劃、習題答案(張軍第2版)及 期末測試題_第2頁
Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ) -教學大綱、授課計劃、習題答案(張軍第2版)及 期末測試題_第3頁
Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ) -教學大綱、授課計劃、習題答案(張軍第2版)及 期末測試題_第4頁
Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ) -教學大綱、授課計劃、習題答案(張軍第2版)及 期末測試題_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2

版)》教學大綱

課程名稱:Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)

課程類別:必修

適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)

總學時:64學時(其中理論28學時,實驗36學時)

總學分:4.0學分

一、課程的性質(zhì)

隨著時代的發(fā)展,大數(shù)據(jù)已經(jīng)成為一個耳熟能詳?shù)脑~匯。與此同時,針對大數(shù)據(jù)處理的新

技術(shù)也在不斷的開發(fā)和運用中,逐漸成為數(shù)據(jù)處理挖掘行業(yè)廣泛使用的主流技術(shù)之一。Hadoop

分布式集群系統(tǒng)架構(gòu),具有高可用性、高容錯性和高擴展性等優(yōu)點,由于它提供了一個開放式

的平臺,用戶可以在不了解底層實現(xiàn)細節(jié)的情形下,開發(fā)適合自身應用的分布式程序。經(jīng)過多

年的發(fā)展,目前Hadoop已經(jīng)成長為一個全棧式的大數(shù)據(jù)技術(shù)生態(tài)圈,包括了Hive、HBase、

Spark等一系列組件,成為應用最廣泛、最具有代表性的大數(shù)據(jù)技術(shù)之一。因此,學習Hadoop

技術(shù)是從事大數(shù)據(jù)行業(yè)工作所必不可少的一步。為了滿足企業(yè)的大數(shù)據(jù)人才需求,幫助學者掌

握相關(guān)技術(shù)知識解決實際的業(yè)務(wù)需求,特開設(shè)Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)課程。

二、課程的任務(wù)

通過本課程的學習,使學生掌握Hadoop、Hive和HBase集群的安裝配置,能夠根據(jù)具體

需求編寫MapReduce程序解決實際業(yè)務(wù)問題,使用Hive、HBase進行數(shù)據(jù)存儲、查詢余分析,

最后詳細拆解并學習電影網(wǎng)站用戶影評分析案例,將理論與實踐相結(jié)合,為將來從事數(shù)據(jù)分析

挖掘研究、工作奠定基礎(chǔ)。

三、課程學時分配

序號教學內(nèi)容理論學時實驗學時其它

1第1章Hadoop介紹20

2第2章Hadoop集群的搭建及配置26

3第3章Hadoop基礎(chǔ)操作33

4第4章MapReduce入門編程44

5第5章MapReduce進階編程57

6第6章Hive數(shù)據(jù)倉庫45

7第7章HBase分布式數(shù)據(jù)庫45

第8章項目案例:電影網(wǎng)站用戶影

846

評分析

總計2836

四、教學內(nèi)容及學時安排

1.理論教學

章節(jié)名稱主要內(nèi)容教學目標學時

1.什么是Hadoop1.了解Hadoop框架及其

2.了解Hadoop的發(fā)展歷史發(fā)展歷史、特點。

3.了解Hadoop的特點2.了解Hadoop核心組

4.了解分布式文件系統(tǒng)一一HDFS件。

1Hadoop介紹2

5.了解分布式計算框架---M叩Reduce3.了解Hadoop生態(tài)系

6,了解集群資源管理器——YARN統(tǒng)。

7.了解Hadoop生態(tài)系統(tǒng)4.了解Hadoop應用場

8.了解Hadoop應用場景景。

1.創(chuàng)建Linux虛擬機

2.設(shè)置固定IP地址

1.掌握虛擬機的安裝及

3.遠程連接虛擬機

配置方法。

4.配置本地YUM源及安裝常用軟件

2.掌握在Linux下JDK

Hadoop集群5.在Linux下安裝Java

的安裝方法。

2的搭建及配6.修改配置文件2

3.掌握Hadoop完全分布

置7.克隆虛擬機

式集群環(huán)境的搭建過程。

8.配置SSH免密碼登錄

4.掌握Hadoop集群的監(jiān)

9.配置時間同步服務(wù)

控方法。

10.啟動和關(guān)閉Hadoop集群

11.監(jiān)控Hadoop集群

1.了解Hadoop安全模

式。

2.掌握查看、解除與開啟

1.了解Hadoop安全模式Hadoop安全模式的操

2.查看、解除與開啟Hadoop安全模式作。

3.查詢集群的存儲系統(tǒng)信息3.掌握查看Hadoop集群

4.查詢集群的計算資源信息存儲系統(tǒng)和計算資源信

Hadoop基礎(chǔ)5.了解HDFS息的方法。

33

操作6.HDFS的基本操作4.了解HDFS分布式文

7.了解Hadoop官方的示例程序包件系統(tǒng)。

8.提交MapReduce任務(wù)給集群運行5.掌握HDFS的基本操

9,查詢MapReduce任務(wù)作。

10.中斷MapReduce任務(wù)6.掌握提交MapReduce

任務(wù)的基本操作。

7.掌握多個MapReduce

任務(wù)的管理方法。

1.掌握在Windows下安

裝Java和IntelliJIDEA

1.在Windows下安裝Java

的方法。

2,下載與安裝IntelliJIDEA

2.掌握在IntelliJIDEA中

3.創(chuàng)建MapReduce工程

創(chuàng)建MapReduce工程和

4.配置MapReduce環(huán)境

配置MapReduce環(huán)境的

5.了解MtipReduce工作原理及核心組

方法。

3.熟悉MapReduce的工

6.了解MapReduce實現(xiàn)詞頻統(tǒng)計的執(zhí)

作原理及執(zhí)行流程。

MapReduce行流程

44.了解Hadoop官方示例4

入門編程7.讀懂官方提供的WordCount源碼

中的WordCount源碼。

8.分析思路與處理邏輯

5.了解MapReduce編程

9.編寫核心模塊代碼

的基本思路。

10.統(tǒng)計網(wǎng)站每日的訪問次數(shù)

6.熟悉map()方法與

11.分析思路與處理邏輯

reduce()方法的處理邏

12.編寫核心模塊代碼

輯。

13.將網(wǎng)站每日訪問次數(shù)根據(jù)訪問次數(shù)

7.掌握編寫基礎(chǔ)的

進行升序排序

M叩Reduce程序處理簡

單任務(wù)的方法。

1.設(shè)置MapReduce輸入格式

2.設(shè)置MapReduce輸出格式1.掌握MapReduce輸入

3.篩選日志文件并生成序列化文件和輸出格式的設(shè)置方法。

4.使用FileSystemAPI管理文件夾2.掌握HadoopJavaAPI

5.使用FileSystemAPI操作文件的使用方法。

6.使用FileSystemAPI讀/寫數(shù)據(jù)3.掌握自定義鍵值類型

7.使用HadoopJavaAPI讀取序列化文的方法。

件4.了解Combiner的工作

MapReduce8.自定義鍵值類型原理。

55

進階編程9.初步探索Combiner5.掌握Combiner、

10.淺析PartitionerPartitioner和自定義計數(shù)

11.自定義計數(shù)器器的使用方法。

12.優(yōu)化日志文件統(tǒng)計程序6,熟悉MapReduce參數(shù)

13.傳遞參數(shù)傳遞流程。

14.使用Hadoop輔助類ToolRunner7.掌握使用IntelliJIDEA

15.自動打包并提交MapReduce任務(wù)自動打包并提交

16.在IntelliJIDEA中打包并提交MapReduce任務(wù)的方法。

MapReduce程序

1.什么是Hive

2.了解Hive與傳統(tǒng)數(shù)據(jù)庫的對比

3.了解Hive系統(tǒng)架構(gòu)

4.了解Hive數(shù)據(jù)模型1.了解Hive的概念及

5.了解Hive執(zhí)行流程Hive與傳統(tǒng)數(shù)據(jù)庫的對

6.設(shè)置內(nèi)嵌模式比。

7.設(shè)置直連數(shù)據(jù)庫模式2.了解Hive系統(tǒng)架構(gòu)、

8.設(shè)置遠程模式數(shù)據(jù)模型和執(zhí)行流程。

Hive數(shù)據(jù)倉9.了解Hive數(shù)據(jù)定義語言的基本語法3.熟悉3種訪問Hive的

64

庫10.創(chuàng)建表基本操作方式及配置過程。

11.修改表基本操作4.掌握Hive中數(shù)據(jù)庫與

12.了解Hive數(shù)據(jù)操作語言的基本語法表的創(chuàng)建、修改操作方

13.向數(shù)據(jù)表中裝載文件法。

14.查詢數(shù)據(jù)5.掌握Hive表數(shù)據(jù)增刪

15.插入數(shù)據(jù)查改的操作方法。

16.刪除表中數(shù)據(jù)

17.分析基本思路

18.掉話率Top20基站統(tǒng)計

1.了解分布式數(shù)據(jù)庫

HBaseo

1.什么是HBase

2.熟悉HBase的系統(tǒng)架

2.了解HBase系統(tǒng)架構(gòu)

構(gòu)、數(shù)據(jù)模型和讀/寫流

3.了解HBase數(shù)據(jù)模型

程。

4.了解HBase讀/寫流程

3.了解ZooKeeper的概

5.了解并安裝ZooKeeper

念、集群角色及選舉機

6.安裝及配置HBase集群

HBase分布制。

77.修改與刪除表4

式數(shù)據(jù)庫4.掌握ZooKeeper集群

8.查詢表數(shù)據(jù)

的安裝部署方法。

9.創(chuàng)建Java項目

5.掌握HBase的安裝部

10.實現(xiàn)表的創(chuàng)建

署方法。

11.向表中插入數(shù)據(jù)

6.掌握HBase常用的

12.設(shè)計表并分析查詢需求

Shell命令。

13.查詢分析通話記錄數(shù)據(jù)

7.掌握HBaseJavaAPI

的使用方法。

1.了解數(shù)據(jù)字段

2.統(tǒng)計分析需求描述1.掌握根據(jù)業(yè)務(wù)場景設(shè)

3.創(chuàng)建并配置工程項目計map()方法和reduce()

4.計算評分次數(shù)最多的10部電影及評方法的計算邏輯。

項目案例:電分次數(shù)并分析2.掌握編寫MapReduce

8影網(wǎng)站用戶5.計算不同性別評分最高的10部電影程序解決常見的數(shù)據(jù)處4

影評分析及評分并分析理問題。

6.計算指定電影各年齡段的平均影評3.掌握編寫MapReduce

并分析程序?qū)崿F(xiàn)電影網(wǎng)站用戶

7.計算影評庫中各種類型電影中評分影評分析的方法。

最高的5部電影并分析

學時合計28

2.實驗教學

序號實驗項目名稱實驗要求學時

1.創(chuàng)建Linux虛擬機

安裝及配置虛2.設(shè)置固定IP地址

13

擬機3.遠程連接虛擬機

4.配置本地YUM源及安裝常用軟件

1.在Linux下安裝Java

2.修改配置文件

3.克隆虛擬機

搭建Hadoop完

24.配置SSH免密碼登錄3

全分布式集群

5.配置時間同步服務(wù)

6.啟動和關(guān)閉Hadoop集群

7.監(jiān)控Hadoop集群

1.查看、解除與開啟Hadoop安全模式

2.查詢集群的存儲系統(tǒng)信息

3.查詢集群的計算資源信息

Hadoop基礎(chǔ)操

34.HDFS的基本操作3

5.提交MapReduce任務(wù)給集群運行

6.查詢MapReduce任務(wù)

8.中斷MapReduce任務(wù)

1.在Windows下安裝Java

2.下載與安裝IntelliJIDEA

3.創(chuàng)建MapReduce工程

MapReduce入4.配置MapReduce環(huán)境

44

門編程5.編寫核心模塊代碼

6.統(tǒng)計網(wǎng)站每日的訪問次數(shù)

7.編寫核心模塊代碼

8.將網(wǎng)站每日訪問次數(shù)根據(jù)訪問次數(shù)進行升序排序

1.篩選日志文件并生成序列化文件

2.使用FileSystemAPI管理文件夾

3.使用FileSystemAPI操作文件

4.使用FileSystemAPI讀/寫數(shù)據(jù)

5.使用HadoopJavaAPI讀取序列化文件

6.自定義鍵值類型

MapReduce進7.初步探索Combiner

57

階編程8.淺析Partitioner

9.自定義計數(shù)器

10.優(yōu)化日志文件統(tǒng)計程序

11.傳遞參數(shù)

12.使用Hadoop輔助類ToolRunner

13.自動打包并提交MapReduce任務(wù)

14.在IntelliJIDEA中打包并提交MapReduce程序

1.設(shè)置內(nèi)嵌模式

安裝與配置

62.設(shè)置直連數(shù)據(jù)庫模式2

Hive

3.設(shè)置遠程模式

1.創(chuàng)建表基本操作

2.修改表基本操作

3.向數(shù)據(jù)表中裝載文件

Hive的基礎(chǔ)操

74.查詢數(shù)據(jù)3

5.插入數(shù)據(jù)

6.刪除表中數(shù)據(jù)

7.掉話率Top20基站統(tǒng)計

安裝與配置1.了解并安裝ZooKeeper

82

HBase集群2.安裝及配置HBase集群

1.修改與刪除表

2.查詢表數(shù)據(jù)

HBase的基礎(chǔ)操3.創(chuàng)建Java項目

93

作4.實現(xiàn)表的創(chuàng)建

5.向表中插入數(shù)據(jù)

6.查詢分析通話記錄數(shù)據(jù)

1.了解數(shù)據(jù)字段

2.統(tǒng)計分析需求描述

3.創(chuàng)建并配置工程項目

項目案例:電影

4.計算評分次數(shù)最多的10部電影及評分次數(shù)并分析

10網(wǎng)站用戶影評6

5.計算不同性別評分最高的10部電影及評分并分析

分析

6.計算指定電影各年齡段的平均影評并分析

7.計算影評庫中各種類型電影中評分最高的5部電影并

分析

學時合計36

五、考核方式

突出學生解決實際問題的能力,加強過程性考核。課程考核的成績構(gòu)成=平時作業(yè)(10%)

+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應包括基本概念、

組件安裝流程、開發(fā)環(huán)境搭建流程、MapReduce編程、Hive與HBase的數(shù)據(jù)存儲與查詢操作、

案例分析實現(xiàn)流程等部分,題型可采用選擇題、判斷題、簡答題、應用題等方式。

六、教材與參考資料

1.教材

張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)[M].北京:人民郵電出版

社.2021.

2.參考資料

[1|余明輝,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)[M].北京:人民郵電出版社.2018.

[2]張良均,樊哲,位文超,劉名軍.Hadoop與大數(shù)據(jù)挖掘[M].北京:機械工業(yè)出版

社.2015.

[3]張良均,樊哲,趙云龍,李成華.Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[MJ.北京:機械工

業(yè)出版社.2015.

學院

課程教學進度計劃表

(20~20學年第二學期)

課程名稱Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)

授課學時64

主講(責任)教師

參與教學教師

授課班級/人數(shù)

專業(yè)(教研室)

填表時間

(教研室)主任

教務(wù)處編印

年月

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

七、課程教學目的

通過本課程的學習,使學生掌握Hadoop、Hive和HBase集群的安裝配置,能夠根據(jù)具

體需求編寫MapReduce程序解決實際業(yè)務(wù)問題,使用Hive、HBase進行數(shù)據(jù)存儲、查詢余

分析,最后詳細拆解并學習電影網(wǎng)站用戶影評分析案例,將理論與實踐相結(jié)合,為將來從事

數(shù)據(jù)分析挖掘研究、工作奠定基礎(chǔ)。

八、教學方法及手段

本課程將采用理論與實踐相結(jié)合的教學方法。在理論上,按照解決實際任務(wù)的工作流程

路線,通過任務(wù)引入,緊扣任務(wù)需求逐步展開介紹相關(guān)的理論知識點。在實踐上,充分地利

用現(xiàn)有的硬件資源,發(fā)揮學生主觀能動性,指導學生搭建Hadoop、Hive、HBase分布式集

群,掌握MapReduce編程與運行實現(xiàn),并使用Hive、HBase進行數(shù)據(jù)存儲、查詢與分析,

著重于學生解決問題時思路的啟發(fā)與解決方案制定。最后結(jié)合一個案例實戰(zhàn),引導學生將所

學知識與企業(yè)需求相結(jié)合,將知識活學活用。

要求學生自己動手分析實例,學習基本理論和方法,結(jié)合已有的知識,適當組織一些討

論,充分調(diào)動學生的主觀能動性,以達到本課程的教學目的。

九、課程考核方法

突出學生解決實際問題的能力,加強過程性考核。課程考核的成績構(gòu)成=平時作業(yè)

(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應包

括基本概念、組件安裝流程、開發(fā)環(huán)境搭建流程、MapReduce編程、Hive與HBase的數(shù)據(jù)

存儲與查詢操作、案例分析實現(xiàn)流程等部分,題型可采用選擇題、判斷題、簡答題、應用題

等方式。

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

《Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)》教學日歷

周次學時授課內(nèi)容作業(yè)要求備注

第1章Hadoop介紹第1章課后習

14

第2章Hadoop集群的搭建及配置(1)題

第2章課后習

24第2章Hadoop集群的搭建及配置(2)

第2章Hadoop集群的搭建及配置(3)

34第2章實訓

第3章Hadoop基礎(chǔ)操作(1)

第3章課后習

44第3章Hadoop基礎(chǔ)操作(2)題

第3章實訓

第4章課后習

54第4章MapReduce入門編程(1)

64第4章MapReduce入門編程(2)第4章實訓

第5章課后習

74第5章MapReduce進階編程(1)

84第5章MapReduce進階編程(2)第5章實訓1

84第5章MapReduce進階編程(3)第5章實訓2

第6章課后習

1()4第6章Hive數(shù)據(jù)倉庫(1)

114第6章Hive數(shù)據(jù)倉庫(2)第6章實訓1

第6章Hive數(shù)據(jù)倉庫(3)

124第6章實訓2

第7章HBase分布式數(shù)據(jù)庫(1)

第7章課后習

134第7章HBase分布式數(shù)據(jù)庫(2)

第7章HBase分布式數(shù)據(jù)庫(3)

144第7章實訓

第8章項目案例:電影網(wǎng)站用戶影評分析(1)

154第8章項目案例:電影網(wǎng)站用戶影評分析(2)

164第8章項目案例:電影網(wǎng)站用戶影評分析(3)

注:教材:張軍,張良均.Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)[M].北京:

人民郵電出版社.2021.

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

第一部分Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2

版)(微課版)■習題答案

第一章

一、選擇題

1、B

2、B

3、C

4、B

5、A

第二章

一、選擇題

1、D

2、B

3、B

4、C

5、A

6、A

7、D

8、A

9、A

10、A

第二早

一、選擇題

1、D

2、B

3、C

4、A

5、D

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

6、D

7、A

8、B

第四章

一、選擇題

1、D

2、C

3、D

4、A

5^A

6、B

7、D

8、C

9、D

10、B

第五章

一、選擇題

1、D

2、A

3、B

4、A

5、D

6、C

7、D

8、D

9、A

10、D

第六章

1、選擇題

1、C

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

2、C

3、D

4、C

5、A

6、C

7、A

8、A

9、B

10、A

第七章

1、選擇題

1、A

2、C

3、B

4、C

5、C

6、A

7、D

8、D

9、C

10、D

打造數(shù)據(jù)智能職業(yè)敕11領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

Hadoop大數(shù)據(jù)期末測試題

01單選題

1、下面哪個程序負責HDFS數(shù)據(jù)存儲?

a)NameNode

b)Jobtracker

c)Datanode

d)secondaryNameNode

e)tasktracker

答案Cdatanode

2、HDfS中的block默認保存幾份?

a)3份

b)2份

c)1份

d)不確定

答案A默認3份

3、Hadoop作者?

a)MartinFowler

b)KentBeck

c)Dougcutting

答案CDougcutting

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

4、下列哪個程序通常與NameNode在一個節(jié)點啟動?

a)SecondaryNameNode

b)DataNodeb)DataNode

c)TaskTracker

d)Jobtracker

答案:D

此題分析:

hadoop的集群是基于master/slave模式,namenode和

jobtracker屬于master,datanode和tasktracker屬于slave,

master只有一個,而slave有多個SecondaryNameNode內(nèi)存需求

和NameNode在一個數(shù)量級上,所以通常secondary,NameNode

(運行在單獨的物理機器上)和NameNode運行在不同的機器上。

JobTracker和TaskTracker,JobTracker對應于NameNode,

TaskTracker對應于DataNode,DataNode和NameNode是針對數(shù)

據(jù)存放來而言的,JobTracker和TaskTracker是對于MapReduce

執(zhí)行而言的,mapreduce中幾個主要概念,mapreduce整體上可以

分為這么幾條執(zhí)行線索:obclient,JobTracker與TaskTracker。

JobClient會在用戶端通過JobClient類將應用已經(jīng)配置參數(shù)打包

成jar文件存儲到hdfs,并把路徑提交到Jobtracker,然后由

JobTracker創(chuàng)建每一個Task(即MapTask和ReduceTask)并將

它們分發(fā)到各個TaskTracker服務(wù)中去執(zhí)行。JobTracker是一個

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

master服務(wù),軟件啟動之后JobTracker接收Job,負責調(diào)度Job的

每一個子任務(wù)task運行于TaskTracker上,并監(jiān)控它們,如果發(fā)現(xiàn)

有失敗的task就重新運行它。一般情況應該把JobTracker部署在單

獨的機器上。TaskTracker是運行在多個節(jié)點上的slaver服務(wù)。

TaskTracker主動與JobTracker通信,接收作業(yè),并負責直接執(zhí)行

每一個任務(wù)。TaskTracker都需要運行在HDFS的DataNode上。

5、下列哪項通常是集群的最主要瓶頸:

a)CPU

b)網(wǎng)絡(luò)

c)磁盤10

d)內(nèi)存

答案:C磁盤

此題解析:

首先集群的目的是為了節(jié)省成本,用廉價的pc機,取代小型機

及大型機。小型機和大型機有什么特點?

1.cpu處理能力強

2.內(nèi)存夠大。所以集群的瓶頸不可能是a和d

3.網(wǎng)絡(luò)是一種稀缺資源,但是并不是瓶頸。

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

4.由于大數(shù)據(jù)面臨海量數(shù)據(jù),讀寫數(shù)據(jù)都需要i。,然后還要冗余

數(shù)據(jù),hadoop

一般備3份數(shù)據(jù),所以10就會打折扣。

6、HDFS默認BlockSize

a)32MB

b)64MB

c)128MB

答案:B

7、關(guān)于SecondaryNameNode哪項是正確的?

a)它是NameNode的熱備

b)它對內(nèi)存沒有要求

c)它的目的是幫助NameNode合并編輯日志,減少NameNode

啟動時間

d)SecondaryNameNode應與NameNode部署到一個節(jié)點。

答案:C

02多選題

1、下列哪項可以作為集群的管理?

a)Puppet

b)Pdsh

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

c)ClouderaManager

d)Zookeeper

答案:ABD

2、配置機架感知的下面哪項正確:

a)如果一個機架出問題,不會影響數(shù)據(jù)讀寫

b)寫入數(shù)據(jù)的時候會寫到不同機架的DataNode中

c)MapReduce會根據(jù)機架獲取離自己比較近的網(wǎng)絡(luò)數(shù)據(jù)

答案:ABC

3、Client端上傳文件的時候下列哪項正確?

a)數(shù)據(jù)經(jīng)過NameNode傳遞給DataNode

b)Client端將文件切分為Block,依次上傳

c)Client只上傳數(shù)據(jù)到一臺DataNode,然后由NameNode負責

Block復制工作答案:B

此題分析:

lient向NameNode發(fā)起文件寫入的請求。

NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它

所管理部分DataNode的信息。Client將文件劃分為多個Block,根

據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊中。

4、下列哪個是Hadoop運行的模式:

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

a)單機版

b)偽分布式

c)分布式

答案:ABC

5、Cloudera提供哪幾種安裝CDH的方法?

a)Clouderamanager

b)Tarball

c)Yum

d)Rpm

答案:ABCD

03判斷題

1、Ganglia不僅可以進行監(jiān)控,也可以進行告警。

正確

此題分析:此題的目的是考Ganglia的了解。嚴格意義上來講是

正確。ganglia作為一款最常用的Unux環(huán)境中的監(jiān)控軟件,它擅長

的的是從節(jié)點中按照用戶的需求以較低的代價采集數(shù)據(jù)。但是ganglia

在預警以及發(fā)生事件后通知用戶上并不擅長。最新的ganglia已經(jīng)有

了部分這方面的功能。但是更擅長做警告的還有Nagios。Nagios,就

是一款精于預警、通知的軟件。通過將Ganglia和Nagios組合起

打造數(shù)據(jù)智能職業(yè)教育領(lǐng)軍企業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論