大數(shù)據(jù)學(xué)試題庫及答案2021_第1頁
大數(shù)據(jù)學(xué)試題庫及答案2021_第2頁
大數(shù)據(jù)學(xué)試題庫及答案2021_第3頁
大數(shù)據(jù)學(xué)試題庫及答案2021_第4頁
大數(shù)據(jù)學(xué)試題庫及答案2021_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、7、下列關(guān)于數(shù)據(jù)重組的說法中,錯(cuò)誤的是(A)。(單大數(shù)據(jù)學(xué)試題庫及答案2021試題11、當(dāng)前大數(shù)據(jù)技術(shù)的基礎(chǔ)是由(C)首先提出的。(單選題,本題2分)A:微軟B:百度C:谷歌D:阿里巴巴2、大數(shù)據(jù)的起源是(C ) O(單選題,本題2分)A:金融B:電信C:互聯(lián)網(wǎng)D:公共管理3、根據(jù)不同的業(yè)務(wù)需求來建立數(shù)據(jù)模型,抽取最有意義的向量,決定選取哪種方法的數(shù)據(jù)分析角色人員是(C)。(單 選題,本題2分)A:數(shù)據(jù)管理人員B:數(shù)據(jù)分析員C:研究科學(xué)家D:軟件4、開發(fā)工程師(D )反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價(jià)值越高。(單選題,本題2分)A:規(guī)模B:活性C:關(guān)聯(lián)度D:顆粒度 5、數(shù)據(jù)清洗的方法不包括

2、(D) o (單選題,本題2分)A:缺失值處理B:噪聲數(shù)據(jù)清除C: 一致性檢查D:重復(fù)數(shù)據(jù)記錄處理6、智能健康手環(huán)的應(yīng)用開發(fā),體現(xiàn)了( D)的數(shù)據(jù)采集技術(shù)的應(yīng)用。(單選題,本題2分)A:統(tǒng)計(jì)報(bào)表B:網(wǎng)絡(luò)爬蟲C: API接口 D:傳感器選題,本題2分)A:數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B:數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C:數(shù)據(jù)重組實(shí)現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D:數(shù)據(jù)重組有利于實(shí)現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新8、智慧城市的構(gòu)建,不包含(C) o (單選題,本題2分)A:數(shù)字城市B:物聯(lián)網(wǎng)C:聯(lián)網(wǎng)監(jiān)控D:云計(jì)算9、A:數(shù)據(jù)規(guī)模大B:數(shù)據(jù)類型多樣C:數(shù)據(jù)處理速度快D:大數(shù)據(jù)的最顯著特征是(A) 0

3、(單選題,本題2分)數(shù)據(jù)價(jià)值密度高10、美國海軍軍官英里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的地點(diǎn)。這體現(xiàn) 了大數(shù)據(jù)分析理念中的(B ) 0 (單選題,本題2分)A:在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B:在分析方法上更注重相關(guān)分析而不是因果分析C:在分析效果上更追究效率而不是絕對精確D:在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù) 11、下列關(guān)于舍恩伯格對大數(shù)據(jù)特點(diǎn)的說法中,錯(cuò)誤的是(D )。(單選題,本題2分)A:數(shù)據(jù)規(guī)模大B:數(shù)據(jù)類型多樣C:數(shù)據(jù)處理速度快D:數(shù)據(jù)價(jià)值密度高12、當(dāng)前社會(huì)中,最為突出的大數(shù)據(jù)環(huán)境是(A )。(單選題,本題2分)A:互聯(lián)網(wǎng)B

4、:物聯(lián)網(wǎng)C:綜合國力D:自然資源(單(單13、在數(shù)據(jù)生命周期管理實(shí)踐中,(B)是執(zhí)行方法。選題,本題2分)A:數(shù)據(jù)存儲(chǔ)和備份規(guī)范B:數(shù)據(jù)管理和維護(hù)C:數(shù)據(jù)價(jià)值發(fā)覺和利用D:數(shù)據(jù)應(yīng)用開發(fā)和管理 14、下列關(guān)于網(wǎng)絡(luò)用戶行為的說法中,錯(cuò)誤的是(C)o選題,本題2分)A:網(wǎng)絡(luò)公司能夠捕捉到用戶在其網(wǎng)站上的所有行為B:用戶離散的交互痕跡能夠?yàn)槠髽I(yè)提升服務(wù)質(zhì)量提供參考C:數(shù)字軌跡用完即自動(dòng)刪除.D:用戶的隱私安全很難得以規(guī)范保護(hù)15、下列關(guān)于計(jì)算機(jī)存儲(chǔ)容量單位的說法中,錯(cuò)誤的是(C) o(單選題,本題2分)A: 1KB1MB datanode - secondarynamenode- resourcema

5、nager - nodemanager3.簡述HBase的主要技術(shù)特點(diǎn)。答:(1)列式存儲(chǔ)表數(shù)據(jù)是稀疏的多維映射表讀寫的嚴(yán)格一致性提供很高的數(shù)據(jù)讀寫速度良好的線性可擴(kuò)展性提供海量數(shù)據(jù)數(shù)據(jù)會(huì)自動(dòng)分片對于數(shù)據(jù)故障,hbase是有自動(dòng)的失效檢測和恢復(fù)能力。提供了方便的與HDFS和MAPREDUCE集成的能力。4. Hive數(shù)據(jù)倉庫中,創(chuàng)建了以下外部表,請給出對應(yīng)的HQL查詢語句CREATEEXTERNAL TABLE sogou.ext (tsSTRING,uid STR I NG,keyword STRING,rankI NT,order I NT,url STRING,yearI NT,mont

6、h I NT,day I NT,hour 1 NTCOMMENT Thisis the sogou search data of extend dataROW FORMATDELIMI TEDFIELDSTERMINATED BY tSTORED ASTEXTFILELOCATI ON/sogou_ext/20160508;(1)給出獨(dú)立uid總數(shù)的HQL語句答:seIect count(distinet UID) from sogou_ext;(2)對于keyword,給出其頻度最高的20個(gè)詞的HQL語句答:seIect keyword from sogou_ext group by key

7、word order by orderdesc Iimit 20;得分評卷人四、設(shè)計(jì)題(每小題8分,共24分)1. 100萬個(gè)字符串,其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉,保留沒有重復(fù)的字符串。請結(jié)合MapReduce編程 模型給出設(shè)計(jì)思路或核心代碼OP228Public static classProject i onMapextendsMapperPrivate int clo;Project void setup (Context context) throwsIOException, Inter ruptedExcept ion (Co I =context. getConf

8、 i gurat i on (). get I nt ( col” , 0);Pub Iic void map(LongWr itab Ie offset,Text Iine,Context context)(Re I at i onArecord=newRe I at i onA(line. toStr ing ();Context, wr ite(newText (record. getCoI (col),NulIWritabIe get ();REDUCE端實(shí)現(xiàn)代碼:Pub IicstaticclassProjectionRediceextendsReducerPub Iic void

9、reduce (Text key,lterable vaIue9 Contextcontext)throwsIOException, InterruptedExcept ion(Context, wr i te (key, Nu I IWr i tab I e. get ();2.倒排索引設(shè)計(jì)。有一個(gè)文檔庫,包含有大量的文檔,現(xiàn)需要使用MapReduce編程 技術(shù)對文檔內(nèi)容建立一個(gè)倒排索引庫。要求Reduce最后輸出鍵 值對為單詞,文件名#偏移量,并且前后輸出的相同的key所 對應(yīng)的文件名是字典序的。如wordl doc1#200wordl doc2#10 word2 doc2#10假設(shè)在ma

10、p階段已經(jīng)獲取了當(dāng)前split分片的文件名是String f i I ename o請按要求給出設(shè)計(jì)思路或核心代碼。Map () (Str i ng f i I ename=f i I eSp I i t. get Path (). getName ();String temp=new String();Str i ng I i ne=va I ue. toStr i ng (). toLowerCase ();Str ingTokenizer iter=new Str ingTokenizer (Iine);For (;itr. hasMoreTokens 0;)(Temp=iter. ne

11、xtToken ();If (!stopwordscontains(temp) Text word=new Text ();Word, set (temp+w +f i I eName);Context, wr ite(word, new IntWr itable(1);Reducer (Pr i vate IntWritable resuIt=newIntWr i tab Ie 0;Pub Ii c void reduce(Text, key, I terab IevaIues,Context context) throwsIOException,Inter ruptedExcept ion

12、(I nt sum=0;For (InWritable val:values) (Sum+=vaI. get ();Resu 11. set (sum);Context, wr ite (key,resu11);3.請?jiān)谙旅娉绦虻南聞澗€中補(bǔ)充完整程序(共8處) pub Ii c class WordCount (pub Iicstaticclass TokenizerMapper extendsMapperObjectTextTextIntWr itableonepr ivate final stat ic IntWr itab IenewIntWr itable(1);private Tex

13、t word = new Text();pub Iic voidmap (LongWr itab Iekey,TextvaIue,Context context)newStr ingTokenizer itr=Str i ngTokeni zer (va I ue. toStr i ng ();while (itr. hasMoreTokens () word, set (itr. next Token ();context, write(word, one);pub Ii c stat i c class IntSumReducer extendsReducer (private IntWr

14、itable result = newIntWritable0;pub Iic void reduce( Texy key, Iterab Ie values9 Context context) (int sum = 0;for (IntWritable val : vaIues) (sum += vaL get ();result, set (sum);context, wr ite (key, resuIt);pub Ii c static void main(String args) throws Except i on得分評卷人五、開放題(每小題10分,共10分)1-談?wù)剬adoop

15、系統(tǒng)的組成及其基本工作原理的理解。1. MapReduce并行計(jì)算框架MapReduce并行計(jì)算框架是一個(gè)并行化程序執(zhí)行系統(tǒng)。它提供了 一個(gè)包含Map和Reduce兩階段的并行處理模型和過程,提供一 個(gè)并行化編程模型和接口,讓程序員可以方便快速地編寫出大數(shù) 據(jù)并行處理程序。MapReduce以鍵值對數(shù)據(jù)輸入方式來處理數(shù) 據(jù),并能自動(dòng)完成數(shù)據(jù)的劃分和調(diào)度管理。在程序執(zhí)行時(shí),MapReduce并行計(jì)算框架將負(fù)責(zé)調(diào)度和分配計(jì)算資源,劃分和輸入輸出數(shù)據(jù),調(diào)度程序的執(zhí)行,監(jiān)控程序的執(zhí)行狀態(tài),并負(fù)責(zé)程 序執(zhí)行時(shí)各計(jì)算節(jié)點(diǎn)的同步以及中間結(jié)果的收集整理。MapReduce框架提供了一組完整的供程序員開發(fā)Map

16、Reduce應(yīng)用程序的編程接口。2.分布式文件系統(tǒng)HDFSHDFS ( Hadoop Distributed Fi le System )是一個(gè) 類似于GoogIeGFS的開源的分布式文件系統(tǒng)。它提供了一個(gè)可擴(kuò)展、高可靠、高可用的大規(guī)模數(shù)據(jù)分布式存儲(chǔ)管理系統(tǒng),基于物理上分 布在各個(gè)數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的本地Linux系統(tǒng)的文件系統(tǒng),為上層應(yīng) 用程序提供了 一個(gè)邏輯上成為整體的大規(guī)模數(shù)據(jù)存儲(chǔ)文件系統(tǒng)。 與GFS類似,HDFS采用多副本(默認(rèn)為3個(gè)副本)數(shù)據(jù)冗余存 儲(chǔ)機(jī)制,并提供了有效的數(shù)據(jù)出錯(cuò)檢測和數(shù)據(jù)恢復(fù)機(jī)制,大大提 高了數(shù)據(jù)存儲(chǔ)的可靠性。.3.分布式數(shù)據(jù)庫管理系統(tǒng)HBase為了克服HDFS難以管理結(jié)

17、構(gòu)化/半結(jié)構(gòu)化海量數(shù)據(jù)的缺點(diǎn),Hadoop提供了 一個(gè)大規(guī)模分布式數(shù)據(jù)庫管理和查詢系統(tǒng)HBaseoHBase是一個(gè)建立在HDFS之上的分布式數(shù)據(jù)庫,它是一個(gè)分布12!式可擴(kuò)展的NoSQL數(shù)據(jù)庫,提供了對結(jié)構(gòu)化、半結(jié)構(gòu)化甚至非結(jié) 構(gòu)化大數(shù)據(jù)的實(shí)時(shí)讀寫和隨機(jī)訪問能力0 HBase提供了一個(gè)基于行、列和時(shí)間戳的三維數(shù)據(jù)管理模型,HBase中每張表的記錄數(shù)(行數(shù))可以多達(dá)幾十億條甚至更多,每條記錄可以擁有多達(dá)上 百萬的字段。4.公共服務(wù)模塊CommonCommon是一套為整個(gè)Hadoop系統(tǒng)提供底層支撐服務(wù)和常用工具的類庫和API編程接口,這些底層服務(wù)包括Hadoop抽象文件系統(tǒng)F i I eSyst

18、em、遠(yuǎn)程過程調(diào)用RPC、系統(tǒng)配置工具Conf i gurat ion以及序列化機(jī)制。在0. 20及以前的版本中,Corrmon包含HDFS、MapReduce和其他公共的項(xiàng)目內(nèi)容;從0. 21版本開始,HDFS和MapReduce被分離為獨(dú)立的子項(xiàng)目,其余部分內(nèi)容構(gòu)成HadoopGornnon o5.數(shù)據(jù)序列化系統(tǒng)AvroAvro是一個(gè)數(shù)據(jù)序列化系統(tǒng),用于將數(shù)據(jù)結(jié)構(gòu)或數(shù)據(jù)對象轉(zhuǎn)換成便于數(shù)據(jù)存儲(chǔ)和網(wǎng)絡(luò)傳輸?shù)母袷健vro提供了豐富的數(shù)據(jù)結(jié) 構(gòu)類型,快速可壓縮的二進(jìn)制數(shù)據(jù)格式,存儲(chǔ)持久性數(shù)據(jù)的文件 集,遠(yuǎn)程調(diào)用RPC和簡單動(dòng)態(tài)語言集成等功能。6.分布式協(xié)調(diào)服務(wù)框架ZookeeperZookeep

19、er是一個(gè)分布式協(xié)調(diào)服務(wù)框架,主要用于解決分布式環(huán) 境中的一致性問題。Zookeeper主要用于提供分布式應(yīng)用中經(jīng)常 需要的系統(tǒng)可靠性維護(hù)、數(shù)據(jù)狀態(tài)同步、統(tǒng)一命名服務(wù)、分布式 應(yīng)用配置項(xiàng)管理等功能。Zookeeper可用來在分布式環(huán)境下維護(hù) 系統(tǒng)運(yùn)行管理中的一些數(shù)據(jù)量不大的重要狀態(tài)數(shù)據(jù),并提供監(jiān)測 數(shù)據(jù)狀態(tài)變化的機(jī)制,以此配合其他Hadoop子系統(tǒng)(如HBase、Hama等)或者用戶開發(fā)的應(yīng)用系統(tǒng),解決分布式環(huán)境下系統(tǒng)可靠性管理和數(shù)據(jù)狀態(tài)維護(hù)等問;7.分布式數(shù)據(jù)倉庫處理工具HiveHive是一個(gè)建立在Hadoop之上的數(shù)據(jù)倉庫,用于管理存儲(chǔ)于 HDFS或HBase中的結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)。它最

20、早由Facebook 開發(fā)并用于處理并分析大量的用戶及日志數(shù)據(jù),2008年 Facebook將其貢獻(xiàn)給Apache成為Hadoop開源項(xiàng)目。為了便于 熟悉SQL的傳統(tǒng)數(shù)據(jù)庫使用者使用Hadoop系統(tǒng)進(jìn)行數(shù)據(jù)査詢分 析,Hive允許直接用類似SQL的HiveQL查詢語言作為編程接口 編寫數(shù)據(jù)查詢分析程序,并提供數(shù)據(jù)倉庫所需要的數(shù)據(jù)抽取轉(zhuǎn) 換、存儲(chǔ)管理和查詢分析功能,而HiveQL語句在底層實(shí)現(xiàn)時(shí)被 轉(zhuǎn)換為相應(yīng)的MapReduce程序加以執(zhí)行。8.數(shù)據(jù)流處理工具PigPig是一個(gè)用來處理大規(guī)模數(shù)據(jù)集的平臺(tái),由Yahoo!貢獻(xiàn)給Apache成為開源項(xiàng)目。它簡化了使用Hadoop進(jìn)行數(shù)據(jù)分析處理的難度

21、,提供一個(gè)面向領(lǐng)域的高層抽象語言Pig Latin,通過該語言,程序員可以將復(fù)雜的數(shù)據(jù)分析任務(wù)實(shí)現(xiàn)為Pig操作上的數(shù) 據(jù)流腳本,這些腳本最終執(zhí)行時(shí)將被系統(tǒng)自動(dòng)轉(zhuǎn)換為MapReduce任務(wù)鏈,在Hadoop上加以執(zhí)行。Yahoo!有大量的MapReduce作 業(yè)是通過Pig實(shí)現(xiàn)的。9.鍵值對數(shù)據(jù)庫系統(tǒng)CassandraCassandra是一套分布式的K-V型的數(shù)據(jù)庫系統(tǒng),最初由 Facebook開發(fā),用于存儲(chǔ)郵箱等比較簡單的格式化數(shù)據(jù),后 Facebook將Cassandra貢獻(xiàn)出來成為Hadoop開源項(xiàng)目。Cassandra以Amazon專有的完全分布式Dynamo為基礎(chǔ),結(jié)合了 GoogIe

22、 BigTable基于列族(Column Fami ly)的數(shù)據(jù)模型,提 供了一套高度可擴(kuò)展、最終一致、分布式的結(jié)構(gòu)化鍵值存儲(chǔ)系統(tǒng)。 它結(jié)合了 Dynamo的分布技術(shù)和GoogIe的BigtabIe數(shù)據(jù)模型, 更好地滿足了海量數(shù)據(jù)存儲(chǔ)的需求。同時(shí),Cassandra變更垂直 擴(kuò)展為水平擴(kuò)展,相比其他典型的鍵值數(shù)據(jù)存儲(chǔ)模型,Cassandra 提供了更為豐富的功能。.10.日志數(shù)據(jù)處理系統(tǒng)ChukwaChukwa是一個(gè)由Yahoo!貢獻(xiàn)的開源的數(shù)據(jù)收集系統(tǒng),主要用于 日志的收集和數(shù)據(jù)的監(jiān)控,并與MapReduce協(xié)同處理數(shù)據(jù)。Chukwa是一個(gè)基于Hadoop的大規(guī)模集群監(jiān)控系統(tǒng),繼承了Hadoop系統(tǒng)的可靠性,具有良好的適應(yīng)性和擴(kuò)展性。它使用HDFS 來存儲(chǔ)數(shù)據(jù),使用MapReduce來處理數(shù)據(jù),同時(shí)還提供靈活強(qiáng)大 的輔助工具用以分析、顯示、監(jiān)視數(shù)據(jù)結(jié)果。11.科學(xué)計(jì)算基礎(chǔ)工具庫HamaHama是一個(gè)基于BSP并行計(jì)算模型(Bulk Synchronous Parallel,大同步并行模型)的計(jì)算框架,主要提供一套支撐框 架和工具,支持大規(guī)??茖W(xué)計(jì)算或者具有復(fù)雜數(shù)據(jù)關(guān)聯(lián)性的困計(jì) 算。Hama類似GoogIe公司開發(fā)的Pregel, Google利用Pregel來實(shí)現(xiàn)圖遍歷(BFS)、最短路徑(SSSP)、PageRank等計(jì)算。Ha

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論