大數(shù)據(jù)核心技術(shù)A卷_第1頁
大數(shù)據(jù)核心技術(shù)A卷_第2頁
大數(shù)據(jù)核心技術(shù)A卷_第3頁
大數(shù)據(jù)核心技術(shù)A卷_第4頁
大數(shù)據(jù)核心技術(shù)A卷_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、嶺南師范學(xué)院2015年2016學(xué)年度第二學(xué)期期末考試試題A卷(考試時(shí)間:120分鐘)考試科目:大數(shù)據(jù)核心技術(shù)題號(hào)一二三四五總分總評(píng)分人復(fù)查人分值3016202410得分得分 評(píng)卷人 一、單項(xiàng)選擇題(每小題2分,共30分) 請(qǐng)把答案寫在下表中,寫在試題后無效。得分評(píng)卷人題號(hào)12345678答案題號(hào)9101112131415答案1.下面哪個(gè)程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。A. NameNode B. Jobtracker(C )C. Datanode D. secondaryNameNodeHDFS中的block 默認(rèn)保存幾個(gè)備份。(A )A. 3份B. 2 份C. 1份D. 不確定HDFS1.0 默認(rèn)

2、 Block Size 大小是多少。(B )A. 32MBB. 64MBC. 128MB D. 256MB任課教師簽名:命題教師簽名:系主任簽名:主管院長(zhǎng)簽名:4.下面哪個(gè)進(jìn)程負(fù)責(zé) MapReduce任務(wù)調(diào)度。(B )A. NameNodeB. JobtrackerC. TaskTrackerD. secondaryNameNodeHadoop1.0默認(rèn)的調(diào)度器策略是哪個(gè)。(A )A.先進(jìn)先出調(diào)度器B.計(jì)算能力調(diào)度器C.公平調(diào)度器D.優(yōu)先級(jí)調(diào)度器Client端上傳文件的時(shí)候下列哪項(xiàng)正確?( B )A.數(shù)據(jù)經(jīng)過NameNode傳遞給DataNodeClient端將文件切分為Block ,依次上傳

3、Client只上傳數(shù)據(jù)到一臺(tái)DataNode,然后由NameNode負(fù)責(zé)Block復(fù)制工作D.以上都不正確.在實(shí)驗(yàn)集群的master節(jié)點(diǎn)使用jps命令查看進(jìn)程時(shí),終端出現(xiàn)以下哪項(xiàng)能說明Hadoop主節(jié)點(diǎn)啟動(dòng)成功?( D )Namenode, Datanode, TaskTrackerNamenode, Datanode, secondaryNameNodeNamenode, Datanode, HMasterNamenode, JobTracker, secondaryNameNode.若不針對(duì) MapReduce編程模型中的 key和value值進(jìn)行特別設(shè)置,下列哪一項(xiàng)是MapReduce適

4、宜的運(yùn)算。(D )A. MaxB. MinC. Count D. Average第2頁,共16頁第1頁,共16頁精選文庫得分評(píng)卷人端每次讀寫請(qǐng)求,它都會(huì)從磁盤中讀(錯(cuò))MapReduce編程模型,鍵值對(duì)key, value的key必須實(shí)現(xiàn)哪個(gè)接口 ?( A )A. WritableComparable B. ComparableC. Writable D. LongWritable以下哪一項(xiàng)屬于非結(jié)構(gòu)化數(shù)據(jù)。(C)A.企業(yè)ERPR據(jù)B.財(cái)務(wù)系統(tǒng)數(shù)據(jù)C.視頻監(jiān)控?cái)?shù)據(jù)D.日志數(shù)據(jù) TOC o 1-5 h z HBase數(shù)據(jù)庫的BlockCache緩存的數(shù)據(jù)塊中,哪一項(xiàng)不一定能提高效率。(D )A.

5、 - ROOT-!B. .META. 表C. HFile index D.普通的數(shù)據(jù)塊HBase是分布式列式存儲(chǔ)系統(tǒng),記錄按什么集中存放。(A )A.列族B.列C.行D.不確定HBase的Region組成中,必須要有以下哪一項(xiàng)。(B )A. StoreFile B. MemStoreC. HFileD. MetaStore客戶端首次查詢HBaseS據(jù)庫時(shí),首先需要從哪個(gè)表開始查找。(B )A. .META.B.- ROOT-C.用戶表D.信息表15、設(shè)計(jì)分布式數(shù)據(jù)倉庫hive的數(shù)據(jù)表時(shí),為取樣更高效,一般可以對(duì)表中的連續(xù)字段進(jìn)行什么操作。(A )A.分桶B.分區(qū)C.索引D.分表二、判斷題(每題

6、2分,共16分)請(qǐng)?jiān)谙卤碇刑顚?,或者X,寫在試題后無效題號(hào)12345678答案1. Hadoop支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。(hbase支持,hadoop不支持)(錯(cuò))NameNode負(fù)責(zé)管理元數(shù)據(jù)信息 metadata , client取或會(huì)寫入metadata信息并反饋給client 端。(內(nèi)存中讀?。㎝apReduce 的 input split一定是一個(gè) block 。 (默認(rèn)是)MapReduce適于PB級(jí)別以上的海量數(shù)據(jù) 在線處理。(離線)鏈?zhǔn)組apReduce算中,對(duì)任意一個(gè) MapReducd乍業(yè),Map和Reduce階段可以有無限個(gè)Mapper, ! Reducer 只能有一個(gè)。(

7、對(duì))MapReduce計(jì)算過程中,相同的key默認(rèn)會(huì)被發(fā)送到同一個(gè)reduce task處理。( 對(duì))HBase對(duì)于空(NULL的列,不需要占用存儲(chǔ)空間。(沒有則空不存儲(chǔ))( 對(duì))HBase可以有列,可以沒有列族(column family )。 (有列族)(錯(cuò))三、簡(jiǎn)答題(每小題5分,共20分)得分評(píng)卷人1.簡(jiǎn)述大數(shù)據(jù)技術(shù)的特點(diǎn)。答:Volume (大體量):即可從數(shù)百 TB到數(shù)十?dāng)?shù)百PR甚至EB規(guī)模。Variety (多樣性):即大數(shù)據(jù)包括各種格式和形態(tài)的數(shù)據(jù)。Velocity (時(shí)效性):即很多大數(shù)據(jù)需要在一定的時(shí)間限度下得到及時(shí)處理。Veracity (準(zhǔn)確性):即處理的結(jié)果要保證一定

8、的準(zhǔn)確性。Value (大價(jià)值):即大數(shù)據(jù)包含很多深度的價(jià)值,大數(shù)據(jù)分析挖掘和利用帶來巨大的商業(yè) 價(jià)值。精選文庫.啟動(dòng)Hadoop系統(tǒng),當(dāng)使用bin/start-all.sh命令啟動(dòng)時(shí),請(qǐng)給出集群各進(jìn)程啟動(dòng)順序。答:?jiǎn)?dòng)順序:namenode - datanode - secondarynamenode - resourcemanager - nodemanage r.簡(jiǎn)述HBase的主要技術(shù)特點(diǎn)。答:(1)列式存儲(chǔ)(2)表數(shù)據(jù)是稀疏的多維映射表(3)讀寫的嚴(yán)格一致性(4)提供很高的數(shù)據(jù)讀寫速度(5)良好的線性可擴(kuò)展性(6)提供海量數(shù)據(jù)(7)數(shù)據(jù)會(huì)自動(dòng)分片(8)對(duì)于數(shù)據(jù)故障,hbase是有自動(dòng)

9、的失效檢測(cè)和恢復(fù)能力(9)提供了方便的與HDF辭口 MAPREDU畫的能力。. Hive數(shù)據(jù)倉庫中,創(chuàng)建了以下外部表,請(qǐng)給出對(duì)應(yīng)的HQLS詢語句CREATE EXTERNAL TABLEogou_ext (ts STRING, uid STRING , keyword STRING, rank INT, order INT, url STRING, year INT, month INT, day INT, hour INT )COMMENT This is the sogou search data of extend data ROW FORMAT DELIMITED FIELDS TER

10、MINATED BY t STORED AS TEXTFILELOCATION /sogou_ext/20160508;(1)給出獨(dú)立uid總數(shù)的HQ印句答:select count( distinct UID ) from sogou_ext;(2)對(duì)于keyword,給出其頻度最高的20個(gè)詞的HQL語句答:select keyword from sogou_ext group by keyword order by order desc limit 20;得分 評(píng)卷人 四、設(shè)計(jì)題(每小題8分,共24分)1. 100萬個(gè)字符串,其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉,保留沒有重復(fù)的字

11、符串。請(qǐng)結(jié)合MapReduce程模型給出設(shè)計(jì)思路或核心代碼。P228PublicstaticclassProjectionMapextendsMapper精選文庫wordl doc2#10Private int clo;Project void setup(Context context) throws IOException,InterruptedExceptionCol=context.getConfiguration().getInt(“col ” ,0);Public void map(LongWritable offset,Text line,Context context)Rela

12、tionA record=new RelationA (line.toString();Context.write(newText(record.getCol(col),NullWritable.get();REDUCE實(shí)現(xiàn)代碼:PublicstaticclassProjectionRediceextendsReducerPublic void reduce(Text key,Iterable value,Context context)throwsIOException,InterruptedExceptionContext.write(key,NullWritable.get();2.倒排

13、索引設(shè)計(jì)。有一個(gè)文檔庫,包含有大量的文檔,現(xiàn)需要使用MapReduce編程技術(shù)對(duì)文檔內(nèi)容建立一個(gè)倒 排索引庫。要求Reduce最后輸出鍵值對(duì)為#.詞,文件名#偏移量,,并且前后輸出的相同的key 所對(duì)應(yīng)的文件名是字典序的。如word1 doc1#200word2 doc2#10假設(shè)在map階段已經(jīng)獲取了當(dāng)前split分片的文件名是String filename。請(qǐng)按要求給出設(shè)計(jì)思 路或核心代碼。Map()String filename=fileSplit.getPath().getName();String temp=new String();String line=value.toStrin

14、g().toLowerCase();StringTokenizer iter=new StringTokenizer(line);For(;itr.hasMoreTokens();)Temp=iter.nextToken();If(!stopwords contains(temp)Text word=new Text();Word.set(temp+ # +fileName);Context.write(word,new IntWritable(1);ReducerPrivate IntWritable result=new IntWritable();Public void reduce(T

15、ext ,key,Iterable values,Context context) throwsIOException,InterruptedExceptionInt sum=0;For(InWritable val:values)Sum+=val.get();Result.set(sum);精選文庫Context.write(key,result);)3.請(qǐng)?jiān)谙旅娉绦虻南聞澗€中補(bǔ)充完整程序(共 8處)。public class WordCount public static class TokenizerMapper extends得分 評(píng)卷人Mapper private final sta

16、tic IntWritable one = new IntWritable(1);private Text word = new Text();public void map(LongWritable key, Text value, Context context)StringTokenizer itr = new StringTokenizer(value.toString();while (itr.hasMoreTokens() word.set(itr.nextToken();context.write(word, one);)public static class IntSumRed

17、ucer extendsReducer private IntWritable result = new IntWritable();public void reduce( Texy key, Iterable values,)public static void main(String口 args) throws Exception 略)五、開放題(每小題10分,共10分)1.談?wù)剬?duì)Hadoop系統(tǒng)的組成及其基本工作原理的理解Hadoop生態(tài)系統(tǒng)AmbariProvisioningj Managing and Mouitoring Hadoop ClustersContext context

18、) int sum = 0;for (IntWritable val : values) sum += val.get();)result.set(sum);context.write(key, result);YARN Map Reduce v2DistiibuTed Processing Framewoik J - HDFSHado op Distributed File SystemI.MapReduce并行計(jì)算框架3.GSrtL 一二三-00精選文庫MapReduc拼行計(jì)算框架是一個(gè)并行化程序執(zhí)行系統(tǒng)。它提供了一個(gè)包含Map和Reduce兩階段的并行處理模型和過程,提供一個(gè)并行化編程模

19、型和接口,讓程序員可以方便快速地編寫出大數(shù) 據(jù)并行處理程序。MapReduc以鍵值對(duì)數(shù)據(jù)輸入方式來處理數(shù)據(jù),并能自動(dòng)完成數(shù)據(jù)的劃分和調(diào) 度管理。在程序執(zhí)行時(shí),MapReduc拼行計(jì)算框架將負(fù)責(zé)調(diào)度和分配計(jì)算資源,劃分和輸入輸出 數(shù)據(jù),調(diào)度程序的執(zhí)行,監(jiān)控程序的執(zhí)行狀態(tài), 并負(fù)責(zé)程序執(zhí)行時(shí)各計(jì)算節(jié)點(diǎn)的同步以及中間結(jié) 果的收集整理。MapReduce1架提供了一組完整的供程序員開發(fā) MapReduc函用程序的編程接口。.數(shù)據(jù)序列化系統(tǒng)AvroAvro是一個(gè)數(shù)據(jù)序列化系統(tǒng),用于將數(shù)據(jù)結(jié)構(gòu)或數(shù)據(jù)對(duì)象轉(zhuǎn)換成便于數(shù)據(jù)存儲(chǔ)和網(wǎng)絡(luò)傳輸?shù)母?式。Avro提供了豐富的數(shù)據(jù)結(jié)構(gòu)類型,快速可壓縮的二進(jìn)制數(shù)據(jù)格式,存儲(chǔ)

20、持久性數(shù)據(jù)的文件 集,遠(yuǎn)程調(diào)用RPCffi簡(jiǎn)單動(dòng)態(tài)語言集成等功能。.分布式文件系統(tǒng)HDFSHDFS(Hadoop Distributed File System)是一個(gè)類似于 Google GFS的開源的分布式文件系統(tǒng)。它提供了一個(gè)可擴(kuò)展、高可靠、高可用的大規(guī)模數(shù)據(jù)分布式存儲(chǔ)管理系統(tǒng),基于物理上分布在各 個(gè)數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的本地Linux系統(tǒng)的文件系統(tǒng),為上層應(yīng)用程序提供了一個(gè)邏輯上成為整體的大 規(guī)模數(shù)據(jù)存儲(chǔ)文件系統(tǒng)。與 GF酸似,HDF派用多副本(默認(rèn)為3個(gè)副本)數(shù)據(jù)冗余存儲(chǔ)機(jī)制, 并提供了有效的數(shù)據(jù)出錯(cuò)檢測(cè)和數(shù)據(jù)恢復(fù)機(jī)制,大大提高了數(shù)據(jù)存儲(chǔ)的可靠性。.分布式數(shù)據(jù)庫管理系統(tǒng)HBase為了克服HD

21、FS以管理結(jié)構(gòu)化/半結(jié)構(gòu)化海量數(shù)據(jù)的缺點(diǎn),Hadoop提供了一個(gè)大規(guī)模分布式數(shù) 據(jù)庫管理和查詢系統(tǒng)HBase HBase是一個(gè)建立在HDFS上的分布式數(shù)據(jù)庫,它是一個(gè)分布式可 擴(kuò)展的NoSQ眼據(jù)庫,提供了對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化甚至非結(jié)構(gòu)化大數(shù)據(jù)的實(shí)時(shí)讀寫和隨機(jī)訪問能 力。HBase提供了一個(gè)基于行、列和時(shí)間戳的三維數(shù)據(jù)管理模型,HBase中每張表的記錄數(shù)(行數(shù))可以多達(dá)幾十億條甚至更多,每條記錄可以擁有多達(dá)上百萬的字段。.公共服務(wù)模塊CommonCommo是一套為整個(gè)Hadoop系統(tǒng)提供底層支撐服務(wù)和常用工具的類庫和 API編程接口,這些底 層服務(wù)包括Hadoop抽象文件系統(tǒng)FileSystem、

22、遠(yuǎn)程過程調(diào)用RPC系統(tǒng)配置工具Configuration 以及序列化機(jī)制。在0.20及以前的版本中,Commo包含HDFS MapReduce其他公共的項(xiàng)目?jī)?nèi) 容;從0.21版本開始,HDFSffi MapReduce分離為獨(dú)立的子項(xiàng)目,其余部分內(nèi)容構(gòu)成 Hadoop Commo n.分布式協(xié)調(diào)服務(wù)框架ZookeeperZookeeper是一個(gè)分布式協(xié)調(diào)服務(wù)框架,主要用于解決分布式環(huán)境中的一致性問題。Zookeeper主要用于提供分布式應(yīng)用中經(jīng)常需要的系統(tǒng)可靠性維護(hù)、數(shù)據(jù)狀態(tài)同步、統(tǒng)一命名服務(wù)、分布式應(yīng)用配置項(xiàng)管理等功能。Zookeeper可用來在分布式環(huán)境下維護(hù)系統(tǒng)運(yùn)行管理中的一些數(shù)據(jù)量不

23、大的重要狀態(tài)數(shù)據(jù),并提供監(jiān)測(cè)數(shù)據(jù)狀態(tài)變化的機(jī)制,以此配合其他Hadoop子系統(tǒng)(如HBaseHam咻)或者用戶開發(fā)的應(yīng)用系統(tǒng),解決分布式環(huán)境下系統(tǒng)可靠性管理和數(shù)據(jù)狀態(tài)維護(hù)等問題。分布式數(shù)據(jù)倉庫處理工具HiveHive是一個(gè)建立在Hadoop之上的數(shù)據(jù)倉庫,用于管理存儲(chǔ)于 HDFSlE HBase中的結(jié)構(gòu)化/半結(jié)構(gòu) 化數(shù)據(jù)。它最早由Facebook開發(fā)并用于處理并分析大量的用戶及日志數(shù)據(jù),2008年Facebook將其貢獻(xiàn)給Apache成為Hadoop開源項(xiàng)目。為了便于熟悉 SQL的傳統(tǒng)數(shù)據(jù)庫使用者使用 Hadoop 系統(tǒng)進(jìn)行數(shù)據(jù)查詢分析,Hive允許直接用類似SQL的HiveQL查詢語言作為編

24、程接口編寫數(shù)據(jù)查 詢分析程序,并提供數(shù)據(jù)倉庫所需要的數(shù)據(jù)抽取轉(zhuǎn)換、存儲(chǔ)管理和查詢分析功能,而 HiveQL語 句在底層實(shí)現(xiàn)時(shí)被轉(zhuǎn)換為相應(yīng)的 MapReduce序加以執(zhí)行。數(shù)據(jù)流處理工具PigPig是一個(gè)用來處理大規(guī)模數(shù)據(jù)集的平臺(tái),由 Yahoo!貢獻(xiàn)給Apache成為開源項(xiàng)目。它簡(jiǎn)化了使 用Hadoop進(jìn)行數(shù)據(jù)分析處理的難度,提供一個(gè)面向領(lǐng)域的高層抽象語言 Pig Latin ,通過該語 言,程序員可以將復(fù)雜的數(shù)據(jù)分析任務(wù)實(shí)現(xiàn)為 Pig操作上的數(shù)據(jù)流腳本,這些腳本最終執(zhí)行時(shí)將精選文庫被系統(tǒng)自動(dòng)轉(zhuǎn)換為 MapReduceE務(wù)鏈,在 Hadoop上力口以執(zhí)行。Yahoo!有大量的MapReducd

25、乍業(yè) 是通過Pig實(shí)現(xiàn)的。鍵值對(duì)數(shù)據(jù)庫系統(tǒng)CassandraCassandra是一套分布式的K-V型的數(shù)據(jù)庫系統(tǒng),最初由Facebook開發(fā),用于存儲(chǔ)郵箱等比較 簡(jiǎn)單的格式化數(shù)據(jù),后 Facebook將Cassandra貢獻(xiàn)出來成為 Hadoop開源項(xiàng)目。Cassandra以 Amazon有的完全分布式 Dynamo基礎(chǔ),結(jié)合了 Google BigTable 基于列族(Column Family ) 的數(shù)據(jù)模型,提供了一套高度可擴(kuò)展、最終一致、分布式的結(jié)構(gòu)化鍵值存儲(chǔ)系統(tǒng)。它結(jié)合了 Dynamo 的分布技術(shù)和Google的Bigtable數(shù)據(jù)模型,更好地滿足了海量數(shù)據(jù)存儲(chǔ)的需求。同時(shí),Cass

26、andra.數(shù)據(jù)分析挖掘工具庫MahoutMahout來源于Apache Lucene子項(xiàng)目,其主要目標(biāo)是創(chuàng)建并提供經(jīng)典的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘并 行化算法類庫,以便減輕需要使用這些算法進(jìn)行數(shù)據(jù)分析挖掘的程序員的編程負(fù)擔(dān),不需要自己再去實(shí)現(xiàn)這些算法。Mahout現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎、頻繁項(xiàng)集挖掘等廣泛使用 的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法。止匕外,它還提供了包含數(shù)據(jù)輸入輸出工具,以及與其他數(shù)據(jù)存儲(chǔ)管 理系統(tǒng)進(jìn)行數(shù)據(jù)集成的工具和構(gòu)架。.關(guān)系數(shù)據(jù)交換工具Sqoop變更垂直擴(kuò)展為水平擴(kuò)展,相比其他典型的鍵值數(shù)據(jù)存儲(chǔ)模型,Cassandra提供了更為豐富的功Sqoop是SQL-to-Hadoop的縮寫,是一個(gè)在關(guān)系數(shù)據(jù)庫與 Hadoop平臺(tái)間進(jìn)行快速批

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論