《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)_第1頁(yè)
《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)_第2頁(yè)
《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)_第3頁(yè)
《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)_第4頁(yè)
《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

77/77第一章大數(shù)據(jù)概述單選題第一次信息化浪潮主要解決什么問(wèn)題?B信息傳輸信息處理信息爆炸信息轉(zhuǎn)換下面哪個(gè)選項(xiàng)屬于大數(shù)據(jù)技術(shù)的“數(shù)據(jù)存儲(chǔ)和管理”技術(shù)層面的功能?A利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)等實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理利用分布式并行編程模型和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理和分析構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時(shí)處理分析在大數(shù)據(jù)的計(jì)算模式中,流計(jì)算解決的是什么問(wèn)題?D針對(duì)大規(guī)模數(shù)據(jù)的批量處理針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢(xún)分析針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算大數(shù)據(jù)產(chǎn)業(yè)指什么?A一切與支撐大數(shù)據(jù)組織管理和價(jià)值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟(jì)活動(dòng)的集合提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)提供數(shù)據(jù)分享平臺(tái)、數(shù)據(jù)分析平臺(tái)、數(shù)據(jù)租售平臺(tái)等服務(wù)的企業(yè)提供分布式計(jì)算、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析等服務(wù)的各類(lèi)企業(yè)下列哪一個(gè)不屬于大數(shù)據(jù)產(chǎn)業(yè)的產(chǎn)業(yè)鏈環(huán)節(jié)?A數(shù)據(jù)循環(huán)層數(shù)據(jù)源層數(shù)據(jù)分析層數(shù)據(jù)應(yīng)用層下列哪一個(gè)不屬于第三次信息化浪潮中新興的技術(shù)?A互聯(lián)網(wǎng)云計(jì)算大數(shù)據(jù)物聯(lián)網(wǎng)云計(jì)算平臺(tái)層(PaaS)指的是什么?A操作系統(tǒng)和圍繞特定應(yīng)用的必需的服務(wù)將基礎(chǔ)設(shè)施(計(jì)算資源和存儲(chǔ))作為服務(wù)出租從一個(gè)集中的系統(tǒng)部署軟件,使之在一臺(tái)本地計(jì)算機(jī)上(或從云中遠(yuǎn)程地)運(yùn)行的一個(gè)模型提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢(xún)、規(guī)劃和系統(tǒng)集成服務(wù)下面關(guān)于云計(jì)算數(shù)據(jù)中心的描述正確的是:A數(shù)據(jù)中心是云計(jì)算的重要載體,為各種平臺(tái)和應(yīng)用提供運(yùn)行支撐環(huán)境數(shù)據(jù)中心就是放在企業(yè)內(nèi)部的一臺(tái)中心服務(wù)器每個(gè)企業(yè)都需要建設(shè)一個(gè)云計(jì)算數(shù)據(jù)中心數(shù)據(jù)中心不需要網(wǎng)絡(luò)帶寬的支撐下列哪個(gè)不屬于物聯(lián)網(wǎng)的應(yīng)用?D智能物流智能安防環(huán)保監(jiān)測(cè)數(shù)據(jù)清洗下列哪項(xiàng)不屬于大數(shù)據(jù)的發(fā)展歷程?D成熟期萌芽期大規(guī)模應(yīng)用期迷茫期多選題第三次信息化浪潮的標(biāo)志是哪些技術(shù)的興起?BCD個(gè)人計(jì)算機(jī)物聯(lián)網(wǎng)云計(jì)算大數(shù)據(jù)信息科技為大數(shù)據(jù)時(shí)代提供哪些技術(shù)支撐?ABC存儲(chǔ)設(shè)備容量不斷增加網(wǎng)絡(luò)帶寬不斷增加CPU處理能力大幅提升數(shù)據(jù)量不斷增大大數(shù)據(jù)具有哪些特點(diǎn)?ABCD數(shù)據(jù)的“大量化”數(shù)據(jù)的“快速化”數(shù)據(jù)的“多樣化”數(shù)據(jù)的“價(jià)值密度比較低”下面哪個(gè)屬于大數(shù)據(jù)的應(yīng)用領(lǐng)域?ABCD智能醫(yī)療研發(fā)監(jiān)控身體情況實(shí)時(shí)掌握交通狀況金融交易大數(shù)據(jù)的兩個(gè)核心技術(shù)是什么?AC分布式存儲(chǔ)分布式應(yīng)用分布式處理集中式存儲(chǔ)云計(jì)算關(guān)鍵技術(shù)包括什么?ABCD分布式存儲(chǔ)虛擬化分布式計(jì)算多租戶(hù)云計(jì)算的服務(wù)模式和類(lèi)型主要包括哪三類(lèi)?ABC軟件即服務(wù)(SaaS)平臺(tái)即服務(wù)(PaaS)基礎(chǔ)設(shè)施即服務(wù)(IaaS)數(shù)據(jù)采集即服務(wù)(DaaS)物聯(lián)網(wǎng)主要由下列哪些部分組成的?ABCD應(yīng)用層處理層感知層網(wǎng)絡(luò)層物聯(lián)網(wǎng)的關(guān)鍵技術(shù)包括哪些?ABC識(shí)別和感知技術(shù)網(wǎng)絡(luò)與通信技術(shù)數(shù)據(jù)挖掘與融合技術(shù)信息處理一體化技術(shù)大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響有哪些?ABC(A)大數(shù)據(jù)成為一種新的決策方式(B)大數(shù)據(jù)應(yīng)用促進(jìn)信息技術(shù)與各行業(yè)的深度融合(C)大數(shù)據(jù)開(kāi)發(fā)推動(dòng)新技術(shù)和新應(yīng)用的不斷涌現(xiàn)(D)大數(shù)據(jù)對(duì)社會(huì)發(fā)展沒(méi)有產(chǎn)生積極影響第二章大數(shù)據(jù)處理架構(gòu)Hadoop單選題下列哪個(gè)不屬于Hadoop的特性?A成本高高可靠性高容錯(cuò)性運(yùn)行在Linux平臺(tái)上Hadoop框架中最核心的設(shè)計(jì)是什么?A為海量數(shù)據(jù)提供存儲(chǔ)的HDFS和對(duì)數(shù)據(jù)進(jìn)行計(jì)算的MapReduce提供整個(gè)HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務(wù)Hadoop不僅可以運(yùn)行在企業(yè)內(nèi)部的集群中,也可以運(yùn)行在云計(jì)算環(huán)境中Hadoop被視為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)在一個(gè)基本的Hadoop集群中,DataNode主要負(fù)責(zé)什么?D負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)存儲(chǔ)被拆分的數(shù)據(jù)塊Hadoop最初是由誰(shuí)創(chuàng)建的?BLuceneDougCuttingApacheMapReduce下列哪一個(gè)不屬于Hadoop的大數(shù)據(jù)層的功能?C數(shù)據(jù)挖掘離線(xiàn)分析實(shí)時(shí)計(jì)算BI分析在一個(gè)基本的Hadoop集群中,SecondaryNameNode主要負(fù)責(zé)什么?A幫助NameNode收集文件系統(tǒng)運(yùn)行的狀態(tài)信息負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)下面哪一項(xiàng)不是Hadoop的特性?B可擴(kuò)展性高只支持少數(shù)幾種編程語(yǔ)言成本低能在linux上運(yùn)行在Hadoop項(xiàng)目結(jié)構(gòu)中,HDFS指的是什么?A分布式文件系統(tǒng)分布式并行編程模型資源管理和調(diào)度器Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)在Hadoop項(xiàng)目結(jié)構(gòu)中,MapReduce指的是什么?A分布式并行編程模型流計(jì)算框架Hadoop上的工作流管理系統(tǒng)提供分布式協(xié)調(diào)一致性服務(wù)10、下面哪個(gè)不是Hadoop1.0的組件:(C)HDFSMapReduceYARNNameNode和DataNode多選題Hadoop的特性包括哪些?ABCD高可擴(kuò)展性支持多種編程語(yǔ)言成本低運(yùn)行在Linux平臺(tái)上下面哪個(gè)是Hadoop2.0的組件?ADResourceManagerJobTrackerTaskTrackerNodeManager一個(gè)基本的Hadoop集群中的節(jié)點(diǎn)主要包括什么?ABCDDataNode:存儲(chǔ)被拆分的數(shù)據(jù)塊JobTracker:協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)TaskTracker:負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)SecondaryNameNode:幫助NameNode收集文件系統(tǒng)運(yùn)行的狀態(tài)信息下列關(guān)于Hadoop的描述,哪些是正確的?ABCD為用戶(hù)提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)具有很好的跨平臺(tái)特性可以部署在廉價(jià)的計(jì)算機(jī)集群中曾經(jīng)被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開(kāi)源軟件Hadoop集群的整體性能主要受到什么因素影響?ABCDCPU性能內(nèi)存網(wǎng)絡(luò)存儲(chǔ)容量下列關(guān)于Hadoop的描述,哪些是錯(cuò)誤的?AB只能支持一種編程語(yǔ)言具有較差的跨平臺(tái)特性可以部署在廉價(jià)的計(jì)算機(jī)集群中曾經(jīng)被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開(kāi)源軟件下列哪一項(xiàng)不屬于Hadoop的特性?AB較低可擴(kuò)展性只支持java語(yǔ)言成本低運(yùn)行在Linux平臺(tái)上第三章分布式文件系統(tǒng)HDFS單選題分布式文件系統(tǒng)指的是什么?A把文件分布存儲(chǔ)到多個(gè)計(jì)算機(jī)節(jié)點(diǎn)上,成千上萬(wàn)的計(jì)算機(jī)節(jié)點(diǎn)構(gòu)成計(jì)算機(jī)集群用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)傳遞一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)下面哪一項(xiàng)不屬于計(jì)算機(jī)集群中的節(jié)點(diǎn)?B主節(jié)點(diǎn)(MasterNode)源節(jié)點(diǎn)(SourceNode)名稱(chēng)結(jié)點(diǎn)(NameNode)從節(jié)點(diǎn)(SlaveNode)在HDFS中,默認(rèn)一個(gè)塊多大?A64MB32KB128KB16KB下列哪一項(xiàng)不屬于HDFS采用抽象的塊概念帶來(lái)的好處?C簡(jiǎn)化系統(tǒng)設(shè)計(jì)支持大規(guī)模文件存儲(chǔ)強(qiáng)大的跨平臺(tái)兼容性適合數(shù)據(jù)備份在HDFS中,NameNode的主要功能是什么?D維護(hù)了blockid到datanode本地文件的映射關(guān)系存儲(chǔ)文件內(nèi)容文件內(nèi)存保存在磁盤(pán)中存儲(chǔ)元數(shù)據(jù)下面對(duì)FsImage的描述,哪個(gè)是錯(cuò)誤的?DFsImage文件沒(méi)有記錄每個(gè)塊存儲(chǔ)在哪個(gè)數(shù)據(jù)節(jié)點(diǎn)FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式FsImage用于維護(hù)文件系統(tǒng)樹(shù)以及文件樹(shù)中所有的文件和文件夾的元數(shù)據(jù)FsImage文件記錄了每個(gè)塊具體被存儲(chǔ)在哪個(gè)數(shù)據(jù)節(jié)點(diǎn)下面對(duì)SecondaryNameNode第二名稱(chēng)節(jié)點(diǎn)的描述,哪個(gè)是錯(cuò)誤的?ASecondaryNameNode一般是并行運(yùn)行在多臺(tái)機(jī)器上它是用來(lái)保存名稱(chēng)節(jié)點(diǎn)中對(duì)HDFS元數(shù)據(jù)信息的備份,并減少名稱(chēng)節(jié)點(diǎn)重啟的時(shí)間SecondaryNameNode通過(guò)HTTPGET方式從NameNode上獲取到FsImage和EditLog文件,并下載到本地的相應(yīng)目錄下SecondaryNameNode是HDFS架構(gòu)中的一個(gè)組成部分HDFS采用了什么模型?B分層模型主從結(jié)構(gòu)模型管道-過(guò)濾器模型點(diǎn)對(duì)點(diǎn)模型在Hadoop項(xiàng)目結(jié)構(gòu)中,HDFS指的是什么?A分布式文件系統(tǒng)流數(shù)據(jù)讀寫(xiě)資源管理和調(diào)度器Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)下列關(guān)于HDFS的描述,哪個(gè)不正確?DHDFS還采用了相應(yīng)的數(shù)據(jù)存放、數(shù)據(jù)讀取和數(shù)據(jù)復(fù)制策略,來(lái)提升系統(tǒng)整體讀寫(xiě)響應(yīng)性能HDFS采用了主從(Master/Slave)結(jié)構(gòu)模型HDFS采用了冗余數(shù)據(jù)存儲(chǔ),增強(qiáng)了數(shù)據(jù)可靠性HDFS采用塊的概念,使得系統(tǒng)的設(shè)計(jì)變得更加復(fù)雜多選題HDFS要實(shí)現(xiàn)以下哪幾個(gè)目標(biāo)?ABC兼容廉價(jià)的硬件設(shè)備流數(shù)據(jù)讀寫(xiě)大數(shù)據(jù)集復(fù)雜的文件模型HDFS特殊的設(shè)計(jì),在實(shí)現(xiàn)優(yōu)良特性的同時(shí),也使得自身具有一些應(yīng)用局限性,主要包括以下哪幾個(gè)方面?BCD較差的跨平臺(tái)兼容性無(wú)法高效存儲(chǔ)大量小文件不支持多用戶(hù)寫(xiě)入及任意修改文件不適合低延遲數(shù)據(jù)訪問(wèn)HDFS采用抽象的塊概念可以帶來(lái)以下哪幾個(gè)明顯的好處?ACD支持大規(guī)模文件存儲(chǔ)支持小規(guī)模文件存儲(chǔ)適合數(shù)據(jù)備份簡(jiǎn)化系統(tǒng)設(shè)計(jì)在HDFS中,名稱(chēng)節(jié)點(diǎn)(NameNode)主要保存了哪些核心的數(shù)據(jù)結(jié)構(gòu)?ADFsImageDN8BlockEditLog數(shù)據(jù)節(jié)點(diǎn)(DataNode)的主要功能包括哪些?ABC負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和讀取根據(jù)客戶(hù)端或者是名稱(chēng)節(jié)點(diǎn)的調(diào)度來(lái)進(jìn)行數(shù)據(jù)的存儲(chǔ)和檢索向名稱(chēng)節(jié)點(diǎn)定期發(fā)送自己所存儲(chǔ)的塊的列表用來(lái)保存名稱(chēng)節(jié)點(diǎn)中對(duì)HDFS元數(shù)據(jù)信息的備份,并減少名稱(chēng)節(jié)點(diǎn)重啟的時(shí)間HDFS的命名空間包含什么?BCD磁盤(pán)文件塊目錄下列對(duì)于客服端的描述,哪些是正確的?ABCD客戶(hù)端是用戶(hù)操作HDFS最常用的方式,HDFS在部署時(shí)都提供了客戶(hù)端HDFS客戶(hù)端是一個(gè)庫(kù),暴露了HDFS文件系統(tǒng)接口嚴(yán)格來(lái)說(shuō),客戶(hù)端并不算是HDFS的一部分客戶(hù)端可以支持打開(kāi)、讀取、寫(xiě)入等常見(jiàn)的操作HDFS只設(shè)置唯一一個(gè)名稱(chēng)節(jié)點(diǎn),這樣做雖然大大簡(jiǎn)化了系統(tǒng)設(shè)計(jì),但也帶來(lái)了哪些明顯的局限性?ABCD命名空間的限制性能的瓶頸隔離問(wèn)題集群的可用性HDFS數(shù)據(jù)塊多副本存儲(chǔ)具備以下哪些優(yōu)點(diǎn)?ABC加快數(shù)據(jù)傳輸速度容易檢查數(shù)據(jù)錯(cuò)誤保證數(shù)據(jù)可靠性適合多平臺(tái)上運(yùn)行HDFS具有較高的容錯(cuò)性,設(shè)計(jì)了哪些相應(yīng)的機(jī)制檢測(cè)數(shù)據(jù)錯(cuò)誤和進(jìn)行自動(dòng)恢復(fù)?BCD數(shù)據(jù)源太大數(shù)據(jù)節(jié)點(diǎn)出錯(cuò)數(shù)據(jù)出錯(cuò)名稱(chēng)節(jié)點(diǎn)出錯(cuò)第四章分布式數(shù)據(jù)庫(kù)HBase單選題下列關(guān)于BigTable的描述,哪個(gè)是錯(cuò)誤的?A爬蟲(chóng)持續(xù)不斷地抓取新頁(yè)面,這些頁(yè)面每隔一段時(shí)間地存儲(chǔ)到BigTable里BigTable是一個(gè)分布式存儲(chǔ)系統(tǒng)BigTable起初用于解決典型的互聯(lián)網(wǎng)搜索問(wèn)題網(wǎng)絡(luò)搜索應(yīng)用查詢(xún)建立好的索引,從BigTable得到網(wǎng)頁(yè)下列選項(xiàng)中,關(guān)于HBase和BigTable的底層技術(shù)對(duì)應(yīng)關(guān)系,哪個(gè)是錯(cuò)誤的?BGFS與HDFS相對(duì)應(yīng)GFS與Zookeeper相對(duì)應(yīng)MapReduce與HadoopMapReduce相對(duì)應(yīng)Chubby與Zookeeper相對(duì)應(yīng)在HBase中,關(guān)于數(shù)據(jù)操作的描述,下列哪一項(xiàng)是錯(cuò)誤的?CHBase采用了更加簡(jiǎn)單的數(shù)據(jù)模型,它把數(shù)據(jù)存儲(chǔ)為未經(jīng)解釋的字符串HBase操作不存在復(fù)雜的表與表之間的關(guān)系HBase不支持修改操作HBase在設(shè)計(jì)上就避免了復(fù)雜的表和表之間的關(guān)系在HBase訪問(wèn)接口中,Pig主要用在哪個(gè)場(chǎng)合?D適合HadoopMapReduce作業(yè)并行批處理HBase表數(shù)據(jù)適合HBase管理使用適合其他異構(gòu)系統(tǒng)在線(xiàn)訪問(wèn)HBase表數(shù)據(jù)適合做數(shù)據(jù)統(tǒng)計(jì)HBase中需要根據(jù)某些因素來(lái)確定一個(gè)單元格,這些因素可以視為一個(gè)“四維坐標(biāo)”,下面哪個(gè)不屬于“四維坐標(biāo)”?B行鍵關(guān)鍵字列族時(shí)間戳關(guān)于HBase的三層結(jié)構(gòu)中各層次的名稱(chēng)和作用的說(shuō)法,哪個(gè)是錯(cuò)誤的?AZookeeper文件記錄了用戶(hù)數(shù)據(jù)表的Region位置信息-ROOT-表記錄了.META.表的Region位置信息.META.表保存了HBase中所有用戶(hù)數(shù)據(jù)表的Region位置信息Zookeeper文件記錄了-ROOT-表的位置信息下面關(guān)于主服務(wù)器Master主要負(fù)責(zé)表和Region的管理工作的描述,哪個(gè)是錯(cuò)誤的?D在Region分裂或合并后,負(fù)責(zé)重新調(diào)整Region的分布對(duì)發(fā)生故障失效的Region服務(wù)器上的Region進(jìn)行遷移管理用戶(hù)對(duì)表的增加、刪除、修改、查詢(xún)等操作不支持不同Region服務(wù)器之間的負(fù)載均衡HBase只有一個(gè)針對(duì)行健的索引,如果要訪問(wèn)HBase表中的行,下面哪種方式是不可行的?B通過(guò)單個(gè)行健訪問(wèn)通過(guò)時(shí)間戳訪問(wèn)通過(guò)一個(gè)行健的區(qū)間來(lái)訪問(wèn)全表掃描下面關(guān)于Region的說(shuō)法,哪個(gè)是錯(cuò)誤的?C同一個(gè)Region不會(huì)被分拆到多個(gè)Region服務(wù)器為了加快訪問(wèn)速度,.META.表的全部Region都會(huì)被保存在內(nèi)存中一個(gè)-ROOT-表可以有多個(gè)Region為了加速尋址,客戶(hù)端會(huì)緩存位置信息,同時(shí),需要解決緩存失效問(wèn)題多選題關(guān)系數(shù)據(jù)庫(kù)已經(jīng)流行很多年,并且Hadoop已經(jīng)有了HDFS和MapReduce,為什么需要HBase?ABCDHadoop可以很好地解決大規(guī)模數(shù)據(jù)的離線(xiàn)批量處理問(wèn)題,但是,受限于HadoopMapReduce編程框架的高延遲數(shù)據(jù)處理機(jī)制,使得Hadoop無(wú)法滿(mǎn)足大規(guī)模數(shù)據(jù)實(shí)時(shí)處理應(yīng)用的需求上HDFS面向批量訪問(wèn)模式,不是隨機(jī)訪問(wèn)模式傳統(tǒng)的通用關(guān)系型數(shù)據(jù)庫(kù)無(wú)法應(yīng)對(duì)在數(shù)據(jù)規(guī)模劇增時(shí)導(dǎo)致的系統(tǒng)擴(kuò)展性和性能問(wèn)題傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)在數(shù)據(jù)結(jié)構(gòu)變化時(shí)一般需要停機(jī)維護(hù);空列浪費(fèi)存儲(chǔ)空間HBase與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)的區(qū)別主要體現(xiàn)在以下哪幾個(gè)方面?ABCD數(shù)據(jù)類(lèi)型數(shù)據(jù)操作存儲(chǔ)模式數(shù)據(jù)維護(hù)HBase訪問(wèn)接口類(lèi)型包括哪些?ABCDNativeJavaAPIHBaseShellThriftGatewayRESTGateway下列關(guān)于數(shù)據(jù)模型的描述,哪些是正確的?ABCDHBase采用表來(lái)組織數(shù)據(jù),表由行和列組成,列劃分為若干個(gè)列族每個(gè)HBase表都由若干行組成,每個(gè)行由行鍵(rowkey)來(lái)標(biāo)識(shí)列族里的數(shù)據(jù)通過(guò)列限定符(或列)來(lái)定位每個(gè)單元格都保存著同一份數(shù)據(jù)的多個(gè)版本,這些版本采用時(shí)間戳進(jìn)行索引HBase的實(shí)現(xiàn)包括哪三個(gè)主要的功能組件?ABC庫(kù)函數(shù):鏈接到每個(gè)客戶(hù)端一個(gè)Master主服務(wù)器許多個(gè)Region服務(wù)器廉價(jià)的計(jì)算機(jī)集群HBase的三層結(jié)構(gòu)中,三層指的是哪三層?ABCZookeeper文件-ROOT-表.META.表數(shù)據(jù)類(lèi)型以下哪些軟件可以對(duì)HBase進(jìn)行性能監(jiān)視?ABCDMaster-status(自帶)GangliaOpenTSDBAmbariZookeeper是一個(gè)很好的集群管理工具,被大量用于分布式計(jì)算,它主要提供什么服務(wù)?ABC配置維護(hù)域名服務(wù)分布式同步負(fù)載均衡服務(wù)下列關(guān)于Region服務(wù)器工作原理的描述,哪些是正確的?ABCD每個(gè)Region服務(wù)器都有一個(gè)自己的HLog文件每次刷寫(xiě)都生成一個(gè)新的StoreFile,數(shù)量太多,影響查找速度合并操作比較耗費(fèi)資源,只有數(shù)量達(dá)到一個(gè)閾值才啟動(dòng)合并Store是Region服務(wù)器的核心下列關(guān)于HLog工作原理的描述,哪些是正確的?ABCD分布式環(huán)境必須要考慮系統(tǒng)出錯(cuò)。HBase采用HLog保證HBase系統(tǒng)為每個(gè)Region服務(wù)器配置了一個(gè)HLog文件Zookeeper會(huì)實(shí)時(shí)監(jiān)測(cè)每個(gè)Region服務(wù)器的狀態(tài)Master首先會(huì)處理該故障Region服務(wù)器上面遺留的HLog文件第五章NoSQL數(shù)據(jù)庫(kù)單選題下列哪個(gè)不屬于NoSQL數(shù)據(jù)庫(kù)的特點(diǎn)?D靈活的可擴(kuò)展性靈活的數(shù)據(jù)模型與云計(jì)算緊密融合數(shù)據(jù)存儲(chǔ)規(guī)模有限下面關(guān)于NoSQL和關(guān)系數(shù)據(jù)庫(kù)的簡(jiǎn)單比較,哪個(gè)是錯(cuò)誤的?BRDBMS有關(guān)系代數(shù)理論作為基礎(chǔ),NoSQL沒(méi)有統(tǒng)一的理論基礎(chǔ)NoSQL很難實(shí)現(xiàn)橫向擴(kuò)展,RDBMS可以很容易通過(guò)添加更多設(shè)備來(lái)支持更大規(guī)模的數(shù)據(jù)RDBMS需要定義數(shù)據(jù)庫(kù)模式,嚴(yán)格遵守?cái)?shù)據(jù)定義,NoSQL一般不存在數(shù)據(jù)庫(kù)模式,可以自由靈活定義并存儲(chǔ)各種不同類(lèi)型的數(shù)據(jù)RDBMS借助于索引機(jī)制可以實(shí)現(xiàn)快速查詢(xún),很多NoSQL數(shù)據(jù)庫(kù)沒(méi)有面向復(fù)雜查詢(xún)的索引下列哪一項(xiàng)不屬于NoSQL的四大類(lèi)型?D文檔數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù)列族數(shù)據(jù)庫(kù)時(shí)間戳數(shù)據(jù)庫(kù)下列關(guān)于鍵值數(shù)據(jù)庫(kù)的描述,哪一項(xiàng)是錯(cuò)誤的?D擴(kuò)展性好,靈活性好大量寫(xiě)操作時(shí)性能高無(wú)法存儲(chǔ)結(jié)構(gòu)化信息條件查詢(xún)效率高下列關(guān)于列族數(shù)據(jù)庫(kù)的描述,哪一項(xiàng)是錯(cuò)誤的?A查找速度慢,可擴(kuò)展性差功能較少,大都不支持強(qiáng)事務(wù)一致性容易進(jìn)行分布式擴(kuò)展復(fù)雜性低下列哪一項(xiàng)不屬于數(shù)據(jù)庫(kù)事務(wù)具有ACID四性?A間斷性原子性一致性持久性下面關(guān)于MongoDB說(shuō)法,哪一項(xiàng)是正確的?D具有較差的水平可擴(kuò)展性設(shè)置個(gè)別屬性的索引來(lái)實(shí)現(xiàn)更快的排序提供了一個(gè)面向文檔存儲(chǔ),操作復(fù)雜可以實(shí)現(xiàn)替換完成的文檔(數(shù)據(jù))或者一些指定的數(shù)據(jù)字段下列關(guān)于NoSQL與關(guān)系數(shù)據(jù)庫(kù)的比較,哪個(gè)說(shuō)法是錯(cuò)誤的?D在一致性方面,RDBMS強(qiáng)于NoSQL在數(shù)據(jù)完整性方面,RDBMS容易實(shí)現(xiàn)在擴(kuò)展性方面,NoSQL比較好在可用性方面,NoSQL優(yōu)于RDBMS關(guān)于文檔數(shù)據(jù)庫(kù)的說(shuō)法,下列哪一項(xiàng)是錯(cuò)誤的?A數(shù)據(jù)是規(guī)則的性能好(高并發(fā))缺乏統(tǒng)一的查詢(xún)語(yǔ)法復(fù)雜性低多選題關(guān)系數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿(mǎn)足Web2.0的需求,主要表現(xiàn)在以下幾個(gè)方面?ABC無(wú)法滿(mǎn)足海量數(shù)據(jù)的管理需求無(wú)法滿(mǎn)足數(shù)據(jù)高并發(fā)的需求無(wú)法滿(mǎn)足高可擴(kuò)展性和高可用性的需求使用難度高下列關(guān)于MySQL集群的描述,哪些是正確的?ABCD復(fù)雜性:部署、管理、配置很復(fù)雜數(shù)據(jù)庫(kù)復(fù)制:MySQL主備之間一般采用復(fù)制方式,很多時(shí)候是異步復(fù)制擴(kuò)容問(wèn)題:如果系統(tǒng)壓力過(guò)大需要增加新的機(jī)器,這個(gè)過(guò)程涉及數(shù)據(jù)重新劃分動(dòng)態(tài)數(shù)據(jù)遷移問(wèn)題:如果某個(gè)數(shù)據(jù)庫(kù)組壓力過(guò)大,需要將其中部分?jǐn)?shù)據(jù)遷移出去關(guān)系數(shù)據(jù)庫(kù)引以為傲的兩個(gè)關(guān)鍵特性(完善的事務(wù)機(jī)制和高效的查詢(xún)機(jī)制),到了Web2.0時(shí)代卻成了雞肋,主要表現(xiàn)在以下哪幾個(gè)方面?ACDWeb2.0網(wǎng)站系統(tǒng)通常不要求嚴(yán)格的數(shù)據(jù)庫(kù)事務(wù)Web2.0網(wǎng)站系統(tǒng)基本上不用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù)Web2.0并不要求嚴(yán)格的讀寫(xiě)實(shí)時(shí)性Web2.0通常不包含大量復(fù)雜的SQL查詢(xún)下面關(guān)于NoSQL與關(guān)系數(shù)據(jù)庫(kù)的比較,哪些是正確的?ABCD關(guān)系數(shù)據(jù)庫(kù)以完善的關(guān)系代數(shù)理論作為基礎(chǔ),有嚴(yán)格的標(biāo)準(zhǔn)關(guān)系數(shù)據(jù)庫(kù)可擴(kuò)展性較差,無(wú)法較好支持海量數(shù)據(jù)存儲(chǔ)NoSQL可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ)NoSQL數(shù)據(jù)庫(kù)缺乏數(shù)學(xué)理論基礎(chǔ),復(fù)雜查詢(xún)性能不高下列關(guān)于文檔數(shù)據(jù)庫(kù)的描述,哪些是正確的?AD性能好(高并發(fā)),靈活性高具備統(tǒng)一的查詢(xún)語(yǔ)法文檔數(shù)據(jù)庫(kù)支持文檔間的事務(wù)復(fù)雜性低,數(shù)據(jù)結(jié)構(gòu)靈活下列關(guān)于圖數(shù)據(jù)庫(kù)的描述,哪些是正確的?ABCD專(zhuān)門(mén)用于處理具有高度相互關(guān)聯(lián)關(guān)系的數(shù)據(jù)比較適合于社交網(wǎng)絡(luò)、模式識(shí)別、依賴(lài)分析、推薦系統(tǒng)以及路徑尋找等問(wèn)題靈活性高,支持復(fù)雜的圖算法復(fù)雜性高,只能支持一定的數(shù)據(jù)規(guī)模NoSQL的三大基石?ABCCAP最終一致性BASEDN8關(guān)于NoSQL的三大基石之一的CAP,下列哪些說(shuō)法是正確的?ACD一致性,是指任何一個(gè)讀操作總是能夠讀到之前完成的寫(xiě)操作的結(jié)果量一個(gè)分布式系統(tǒng)可以同時(shí)滿(mǎn)足一致性、可用性和分區(qū)容忍性這三個(gè)需求可用性,是指快速獲取數(shù)據(jù)分區(qū)容忍性,是指當(dāng)出現(xiàn)網(wǎng)絡(luò)分區(qū)的情況時(shí)(即系統(tǒng)中的一部分節(jié)點(diǎn)無(wú)法和其他節(jié)點(diǎn)進(jìn)行通信),分離的系統(tǒng)也能夠正常運(yùn)行當(dāng)處理CAP的問(wèn)題時(shí),可以有哪幾個(gè)明顯的選擇?ABCCA:也就是強(qiáng)調(diào)一致性(C)和可用性(A),放棄分區(qū)容忍性(P)CP:也就是強(qiáng)調(diào)一致性(C)和分區(qū)容忍性(P),放棄可用性(A)AP:也就是強(qiáng)調(diào)可用性(A)和分區(qū)容忍性(P),放棄一致性(C)CAP:也就是同時(shí)兼顧可用性(A)、分區(qū)容忍性(P)和一致性(C),當(dāng)時(shí)系統(tǒng)性能會(huì)下降很多數(shù)據(jù)庫(kù)事務(wù)具有ACID四性,下面哪幾項(xiàng)屬于四性?ABD原子性持久性間斷性一致性第六章云數(shù)據(jù)庫(kù)單選題下列哪個(gè)不屬于云計(jì)算的優(yōu)勢(shì)?D按需服務(wù)隨時(shí)服務(wù)通用性?xún)r(jià)格不菲下列關(guān)于云數(shù)據(jù)庫(kù)的描述,哪個(gè)是錯(cuò)誤的?C云數(shù)據(jù)庫(kù)是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫(kù)云數(shù)據(jù)庫(kù)是在云計(jì)算的大背景下發(fā)展起來(lái)的一種新興的共享基礎(chǔ)架構(gòu)的方法云數(shù)據(jù)庫(kù)價(jià)格不菲,維護(hù)費(fèi)用極其昂貴云數(shù)據(jù)庫(kù)具有高可擴(kuò)展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點(diǎn)下列哪一個(gè)不屬于云數(shù)據(jù)庫(kù)產(chǎn)品?A本地安裝MySQL阿里云RDSOracleCloud百度云數(shù)據(jù)庫(kù)UMP系統(tǒng)是構(gòu)建在一個(gè)大的集群之上的,下列哪一項(xiàng)不屬于系統(tǒng)向用戶(hù)提供的功能?D讀寫(xiě)分離分庫(kù)分表數(shù)據(jù)安全資源合并下列關(guān)于UMP系統(tǒng)功能的說(shuō)法,哪個(gè)是錯(cuò)誤的?D充分利用主從庫(kù)實(shí)現(xiàn)用戶(hù)讀寫(xiě)操作的分離,實(shí)現(xiàn)負(fù)載均衡UMP系統(tǒng)實(shí)現(xiàn)了對(duì)于用戶(hù)透明的讀寫(xiě)分離功能UMP采用的兩種資源隔離方式(用Cgroup限制MySQL進(jìn)程資源和在Proxy服務(wù)器端限制QPS)UMP系統(tǒng)只設(shè)計(jì)了一種機(jī)制來(lái)保證數(shù)據(jù)安全下列關(guān)于阿里云RDS的說(shuō)法,哪個(gè)是錯(cuò)誤的?DRDS是阿里云提供的關(guān)系型數(shù)據(jù)庫(kù)服務(wù)RDS由專(zhuān)業(yè)數(shù)據(jù)庫(kù)管理團(tuán)隊(duì)維護(hù)RDS具有安全穩(wěn)定、數(shù)據(jù)可靠、自動(dòng)備份RDS實(shí)例,是用戶(hù)購(gòu)買(mǎi)RDS服務(wù)的基本單位,在實(shí)例中,用戶(hù)只能創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)下面哪一項(xiàng)不是云數(shù)據(jù)庫(kù)的特性?B動(dòng)態(tài)可擴(kuò)展高成本易用性大規(guī)模并行處理下列哪個(gè)不是UMP系統(tǒng)中的角色?DController服務(wù)器Proxy服務(wù)器愚公系統(tǒng)阿斯隆服務(wù)器關(guān)于UMP系統(tǒng)架構(gòu)依賴(lài)的開(kāi)源組件Mnesia,說(shuō)法錯(cuò)誤的是哪一項(xiàng)?BMnesia是一個(gè)分布式數(shù)據(jù)庫(kù)管理系統(tǒng)Mnesia的數(shù)據(jù)庫(kù)模式(schema)只能在未運(yùn)行前靜態(tài)重配置Mnesia的這些特性,使其在開(kāi)發(fā)云數(shù)據(jù)庫(kù)時(shí)被用來(lái)提供分布式數(shù)據(jù)庫(kù)服務(wù)Mnesia支持事務(wù),支持透明的數(shù)據(jù)分片關(guān)于UMP系統(tǒng)架構(gòu)的Controller服務(wù)器,說(shuō)法錯(cuò)誤的是哪一項(xiàng)?CController服務(wù)器向UMP集群提供各種管理服務(wù)Controller服務(wù)器上運(yùn)行了一組Mnesia分布式數(shù)據(jù)庫(kù)服務(wù)當(dāng)其它服務(wù)器組件需要獲取用戶(hù)數(shù)據(jù)時(shí),不可以向Controller服務(wù)器發(fā)送請(qǐng)求獲取數(shù)據(jù)為了避免單點(diǎn)故障,保證系統(tǒng)的高可用性,UMP系統(tǒng)中部署了多臺(tái)Controller服務(wù)器多選題云數(shù)據(jù)庫(kù)具有以下哪些特性?ABCD動(dòng)態(tài)可擴(kuò)展高可用性免維護(hù)安全下列關(guān)于云數(shù)據(jù)庫(kù)的描述,哪些是正確的?ABCDAmazon是云數(shù)據(jù)庫(kù)市場(chǎng)的先行者GoogleCloudSQL是谷歌公司推出的基于MySQL的云數(shù)據(jù)庫(kù)從數(shù)據(jù)模型的角度來(lái)說(shuō),云數(shù)據(jù)庫(kù)并非一種全新的數(shù)據(jù)庫(kù)技術(shù)云數(shù)據(jù)庫(kù)并沒(méi)有專(zhuān)屬于自己的數(shù)據(jù)模型UMP系統(tǒng)架構(gòu)設(shè)計(jì)遵循了以下哪些原則?ABCD保持單一的系統(tǒng)對(duì)外入口,并且為系統(tǒng)內(nèi)部維護(hù)單一的資源池消除單點(diǎn)故障,保證服務(wù)的高可用性保證系統(tǒng)具有良好的可伸縮,能夠動(dòng)態(tài)地增加、刪減計(jì)算與存儲(chǔ)節(jié)點(diǎn)保證分配給用戶(hù)的資源也是彈性可伸縮的UMP系統(tǒng)架構(gòu)依賴(lài)的哪些開(kāi)源組件?ABCDMnesiaLVSRabbitMQZooKeeper下列關(guān)于UMP系統(tǒng)架構(gòu)的描述,哪些是正確的?ACD信息統(tǒng)計(jì)服務(wù)器定期將采集到的用戶(hù)的連接數(shù)Web控制臺(tái)無(wú)法向用戶(hù)提供系統(tǒng)管理界面LVS(LinuxVirtualServer)即Linux虛擬服務(wù)器UMP系統(tǒng)借助于LVS來(lái)實(shí)現(xiàn)集群內(nèi)部的負(fù)載均衡為什么說(shuō)云數(shù)據(jù)庫(kù)是個(gè)性化數(shù)據(jù)存儲(chǔ)需求的理想選擇?ABCD云數(shù)據(jù)庫(kù)可以滿(mǎn)足大企業(yè)的海量數(shù)據(jù)存儲(chǔ)需求云數(shù)據(jù)庫(kù)可以滿(mǎn)足中小企業(yè)的低成本數(shù)據(jù)存儲(chǔ)需求云數(shù)據(jù)庫(kù)可以滿(mǎn)足企業(yè)動(dòng)態(tài)變化的數(shù)據(jù)存儲(chǔ)需求前期零投入、后期免維護(hù)的數(shù)據(jù)庫(kù)服務(wù),可以很好滿(mǎn)足它們的需求下列關(guān)于云數(shù)據(jù)庫(kù)與其他數(shù)據(jù)庫(kù)的關(guān)系,哪些是正確的?ABD從數(shù)據(jù)模型的角度來(lái)說(shuō),云數(shù)據(jù)庫(kù)并非一種全新的數(shù)據(jù)庫(kù)技術(shù)云數(shù)據(jù)庫(kù)并沒(méi)有專(zhuān)屬于自己的數(shù)據(jù)模型,云數(shù)據(jù)庫(kù)所采用的數(shù)據(jù)模型可以是關(guān)系數(shù)據(jù)庫(kù)所使用的關(guān)系模型同一個(gè)公司只能提供采用不同數(shù)據(jù)模型的單個(gè)云數(shù)據(jù)庫(kù)服務(wù)許多公司在開(kāi)發(fā)云數(shù)據(jù)庫(kù)時(shí),后端數(shù)據(jù)庫(kù)都是直接使用現(xiàn)有的各種關(guān)系數(shù)據(jù)庫(kù)或NoSQL數(shù)據(jù)庫(kù)產(chǎn)品以下哪些是Amazon的云數(shù)據(jù)庫(kù)產(chǎn)品?ABCAmazonRDS:云中的關(guān)系數(shù)據(jù)庫(kù)AmazonSimpleDB:云中的鍵值數(shù)據(jù)庫(kù)AmazonDynamoDB:云中的數(shù)據(jù)倉(cāng)庫(kù)AmazonElastiCache:云中的分布式內(nèi)存緩存Microsoft的云數(shù)據(jù)庫(kù)產(chǎn)品SQLAzure具有以下哪些特性?ABCD屬于關(guān)系型數(shù)據(jù)庫(kù):支持使用TSQL來(lái)管理、創(chuàng)建和操作云數(shù)據(jù)庫(kù)支持存儲(chǔ)過(guò)程:它的數(shù)據(jù)類(lèi)型、存儲(chǔ)過(guò)程和傳統(tǒng)的SQLServer具有很大的相似性支持大量數(shù)據(jù)類(lèi)型支持云中的事務(wù):支持局部事務(wù),但是不支持分布式事務(wù)

第七章MapReduce單選題下列傳統(tǒng)并行計(jì)算框架,說(shuō)法錯(cuò)誤的是哪一項(xiàng)?B刀片服務(wù)器、高速網(wǎng)、SAN,價(jià)格貴,擴(kuò)展性差上共享式(共享內(nèi)存/共享存儲(chǔ)),容錯(cuò)性好編程難度高實(shí)時(shí)、細(xì)粒度計(jì)算、計(jì)算密集型下列關(guān)于MapReduce模型的描述,錯(cuò)誤的是哪一項(xiàng)?DMapReduce采用“分而治之”策略MapReduce設(shè)計(jì)的一個(gè)理念就是“計(jì)算向數(shù)據(jù)靠攏”MapReduce框架采用了Master/Slave架構(gòu)MapReduce應(yīng)用程序只能用Java來(lái)寫(xiě)MapReduce1.0的體系結(jié)構(gòu)中,JobTracker是主要任務(wù)是什么?A負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度,監(jiān)控所有TaskTracker與Job的健康狀況使用“slot”等量劃分本節(jié)點(diǎn)上的資源量(CPU、內(nèi)存等)會(huì)周期性地通過(guò)“心跳”將本節(jié)點(diǎn)上資源的使用情況和任務(wù)的運(yùn)行進(jìn)度匯報(bào)給TaskTracker會(huì)跟蹤任務(wù)的執(zhí)行進(jìn)度、資源使用量等信息,并將這些信息告訴任務(wù)(Task)下列關(guān)于MapReduce工作流程,哪個(gè)描述是正確的?A所有的數(shù)據(jù)交換都是通過(guò)MapReduce框架自身去實(shí)現(xiàn)的不同的Map任務(wù)之間會(huì)進(jìn)行通信不同的Reduce任務(wù)之間可以發(fā)生信息交換用戶(hù)可以顯式地從一臺(tái)機(jī)器向另一臺(tái)機(jī)器發(fā)送消息下列關(guān)于MapReduce的說(shuō)法,哪個(gè)描述是錯(cuò)誤的?DMapReduce具有廣泛的應(yīng)用,比如關(guān)系代數(shù)運(yùn)算、分組與聚合運(yùn)算等MapReduce將復(fù)雜的、運(yùn)行于大規(guī)模集群上的并行計(jì)算過(guò)程高度地抽象到了兩個(gè)函數(shù)編程人員在不會(huì)分布式并行編程的情況下,也可以很容易將自己的程序運(yùn)行在分布式系統(tǒng)上,完成海量數(shù)據(jù)集的計(jì)算不同的Map任務(wù)之間可以進(jìn)行通信下列關(guān)于Map和Reduce函數(shù)的描述,哪個(gè)是錯(cuò)誤的?CMap將小數(shù)據(jù)集進(jìn)一步解析成一批<key,value>對(duì),輸入Map函數(shù)中進(jìn)行處理Map每一個(gè)輸入的<k1,v1>會(huì)輸出一批<k2,v2>。<k2,v2>是計(jì)算的中間結(jié)果Reduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于不同k2的valueReduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于同一個(gè)k2的value下面哪一項(xiàng)不是MapReduce體系結(jié)構(gòu)主要部分?AClientJobTrackerTaskTracker以及TaskJob關(guān)于MapReduce1.0的體系結(jié)構(gòu)的描述,下列說(shuō)法錯(cuò)誤的是?ATask分為MapTask和ReduceTask兩種,分別由JobTracker和TaskTracker啟動(dòng)slot分為Mapslot和Reduceslot兩種,分別供MapTask和ReduceTask使用TaskTracker使用“slot”等量劃分本節(jié)點(diǎn)上的資源量(CPU、內(nèi)存等)TaskTracker會(huì)周期性接收J(rèn)obTracker發(fā)送過(guò)來(lái)的命令并執(zhí)行相應(yīng)的操作(如啟動(dòng)新任務(wù)、殺死任務(wù)等)下列說(shuō)法錯(cuò)誤的是?CHadoopMapReduce是MapReduce的開(kāi)源實(shí)現(xiàn),后者比前者使用門(mén)檻低很多MapReduce采用非共享式架構(gòu),容錯(cuò)性好MapReduce主要用于批處理、實(shí)時(shí)、計(jì)算密集型應(yīng)用MapReduce采用“分而治之”策略多選題MapReduce相較于傳統(tǒng)的并行計(jì)算框架有什么優(yōu)勢(shì)?ABCD非共享式,容錯(cuò)性好普通PC機(jī),便宜,擴(kuò)展性好編程簡(jiǎn)單,只要告訴MapReduce做什么即可批處理、非實(shí)時(shí)、數(shù)據(jù)密集型MapReduce體系結(jié)構(gòu)主要由以下那幾個(gè)部分構(gòu)成?ABCDClientJobTrackerTaskTrackerTask下列關(guān)于MapReduce的體系結(jié)構(gòu)的描述,說(shuō)法正確的有?ABD用戶(hù)編寫(xiě)的MapReduce程序通過(guò)Client提交到JobTracker端JobTracker負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度TaskTracker監(jiān)控所有TaskTracker與Job的健康狀況TaskTracker使用“slot”等量劃分本節(jié)點(diǎn)上的資源量(CPU、內(nèi)存等)MapReduce的作業(yè)主要包括什么?AB從磁盤(pán)或從網(wǎng)絡(luò)讀取數(shù)據(jù),即IO密集工作計(jì)算數(shù)據(jù),即CPU密集工作針對(duì)不同的工作節(jié)點(diǎn)選擇合適硬件類(lèi)型負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)對(duì)于MapReduce而言,其處理單位是split。split是一個(gè)邏輯概念,它包含哪些元數(shù)據(jù)信息?AB數(shù)據(jù)起始位置數(shù)據(jù)長(zhǎng)度數(shù)據(jù)所在節(jié)點(diǎn)數(shù)據(jù)大小下列關(guān)于Map端的Shuffle的描述,哪些是正確的?BCMapReduce默認(rèn)為每個(gè)Map任務(wù)分配1000MB緩存多個(gè)溢寫(xiě)文件歸并成一個(gè)或多個(gè)大文件,文件中的鍵值對(duì)是排序的當(dāng)數(shù)據(jù)很少時(shí),不需要溢寫(xiě)到磁盤(pán),直接在緩存中歸并,然后輸出給Reduce每個(gè)Map任務(wù)分配多個(gè)緩存,使得任務(wù)運(yùn)行更有效率MapReduce的具體應(yīng)用包括哪些?ABCD關(guān)系代數(shù)運(yùn)算(選擇、投影、并、交、差、連接)分組與聚合運(yùn)算矩陣-向量乘法矩陣乘法MapReduce執(zhí)行的全過(guò)程包括以下哪幾個(gè)主要階段?ABCD從分布式文件系統(tǒng)讀入數(shù)據(jù)執(zhí)行Map任務(wù)輸出中間結(jié)果通過(guò)Shuffle階段把中間結(jié)果分區(qū)排序整理后發(fā)送給Reduce任務(wù)執(zhí)行Reduce任務(wù)得到最終結(jié)果并寫(xiě)入分布式文件系統(tǒng)下列說(shuō)法正確的是?ABCDMapReduce體系結(jié)構(gòu)主要由四個(gè)部分組成,分別是:Client、JobTracker、TaskTracker以及TaskTask分為MapTask和ReduceTask兩種,均由TaskTracker啟動(dòng)在MapReduce工作流程中,所有的數(shù)據(jù)交換都是通過(guò)MapReduce框架自身去實(shí)現(xiàn)的在MapReduce工作流程中,用戶(hù)不能顯式地從一臺(tái)機(jī)器向另一臺(tái)機(jī)器發(fā)送消息第八章Hadoop再探討單選題Hadoop1.0的核心組件(僅指MapReduce和HDFS,不包括Hadoop生態(tài)系統(tǒng)內(nèi)的Pig、Hive、HBase等其他組件),下列哪項(xiàng)是它的不足?B抽象層次高表達(dá)能力有限,抽象層次低,需人工編碼價(jià)格昂貴可維護(hù)性低下面哪個(gè)選項(xiàng)不屬于Hadoop1.0的問(wèn)題?D單一名稱(chēng)節(jié)點(diǎn),存在單點(diǎn)失效問(wèn)題單一命名空間,無(wú)法實(shí)現(xiàn)資源隔離資源管理效率低很難上手下列哪項(xiàng)是Hadoop生態(tài)系統(tǒng)中Spark的功能?D處理大規(guī)模數(shù)據(jù)的腳本語(yǔ)言工作流和協(xié)作服務(wù)引擎,協(xié)調(diào)Hadoop上運(yùn)行的不同任務(wù)不支持DAG作業(yè)的計(jì)算框架基于內(nèi)存的分布式并行編程框架,具有較高的實(shí)時(shí)性,并且較好支持迭代計(jì)算在Hadoop生態(tài)系統(tǒng)中,Kafka主要解決Hadoop中存在哪些的問(wèn)題?AHadoop生態(tài)系統(tǒng)中各個(gè)組件和其他產(chǎn)品之間缺乏統(tǒng)一的、高效的數(shù)據(jù)交換中介不同的MapReduce任務(wù)之間存在重復(fù)操作,降低了效率延遲高,而且不適合執(zhí)行迭代計(jì)算抽象層次低,需要手工編寫(xiě)大量代碼下列哪一個(gè)不屬于HDFS1.0中存在的問(wèn)題?A無(wú)法水平擴(kuò)展單點(diǎn)故障問(wèn)題單一命名空間系統(tǒng)整體性能受限于單個(gè)名稱(chēng)節(jié)點(diǎn)的吞吐量關(guān)于HDFSFederation的設(shè)計(jì)的描述,哪個(gè)是錯(cuò)誤的?A屬于不同命名空間的塊可以構(gòu)成同一個(gè)“塊池”HDFSFederation中,所有名稱(chēng)節(jié)點(diǎn)會(huì)共享底層的數(shù)據(jù)節(jié)點(diǎn)存儲(chǔ)資源,數(shù)據(jù)節(jié)點(diǎn)向所有名稱(chēng)節(jié)點(diǎn)匯報(bào)設(shè)計(jì)了多個(gè)相互獨(dú)立的名稱(chēng)節(jié)點(diǎn)HDFS的命名服務(wù)能夠水平擴(kuò)展下列關(guān)于MapReduce1.0的描述,錯(cuò)誤的是?BJobTracker“大包大攬”導(dǎo)致任務(wù)過(guò)重不存在單點(diǎn)故障容易出現(xiàn)內(nèi)存溢出(分配資源只考慮MapReduce任務(wù)數(shù),不考慮CPU、內(nèi)存)

資源劃分不合理(強(qiáng)制劃分為slot,包括Mapslot和Reduceslot)下列哪個(gè)不屬于YARN體系結(jié)構(gòu)中ResourceManager的功能?D處理客戶(hù)端請(qǐng)求監(jiān)控NodeManager資源分配與調(diào)度處理來(lái)自ApplicationMaster的命令下列哪個(gè)不屬于YARN體系結(jié)構(gòu)中ApplicationMaster的功能?D任務(wù)調(diào)度、監(jiān)控與容錯(cuò)為應(yīng)用程序申請(qǐng)資源將申請(qǐng)的資源分配給內(nèi)部任務(wù)處理來(lái)自ResourceManger的命令多選題下列選項(xiàng)中,哪些屬于Hadoop1.0的核心組件的不足之處?ABCD實(shí)時(shí)性差(適合批處理,不支持實(shí)時(shí)交互式)資源浪費(fèi)(Map和Reduce分兩階段執(zhí)行)執(zhí)行迭代操作效率低難以看到程序整體邏輯Hadoop的優(yōu)化與發(fā)展主要體現(xiàn)在哪幾個(gè)方面?ABCHadoop自身核心組件MapReduce的架構(gòu)設(shè)計(jì)改進(jìn)Hadoop自身核心組件HDFS的架構(gòu)設(shè)計(jì)改進(jìn)Hadoop生態(tài)系統(tǒng)其它組件的不斷豐富Hadoop生態(tài)系統(tǒng)減少不必要的組件,整合系統(tǒng)下列哪些屬于Hadoop2.0相對(duì)于Hadoop1.0的改進(jìn)?ABCD設(shè)計(jì)了HDFSHA提供名稱(chēng)節(jié)點(diǎn)熱備機(jī)制設(shè)計(jì)了HDFSFederation,管理多個(gè)命名空間設(shè)計(jì)了新的資源管理框架YARN下面哪個(gè)屬于不斷完善的Hadoop生態(tài)系統(tǒng)中的組件?ABCPigTezKafkaDN8HDFS1.0主要存在哪些問(wèn)題?ACD單點(diǎn)故障問(wèn)題不可以水平擴(kuò)展單個(gè)名稱(chēng)節(jié)點(diǎn)難以提供不同程序之間的隔離性系統(tǒng)整體性能受限于單個(gè)名稱(chēng)節(jié)點(diǎn)的吞吐量HDFSFederation相對(duì)于HDFS1.0的優(yōu)勢(shì)主要體現(xiàn)在哪里?BCD能夠解決單點(diǎn)故障問(wèn)題HDFS集群擴(kuò)展性性能更高效良好的隔離性JobTracker主要包括哪三大功能?ABC資源管理任務(wù)調(diào)度任務(wù)監(jiān)控?cái)?shù)據(jù)即服務(wù)YARN體系結(jié)構(gòu)主要包括哪三部分?ABDResourceManagerNodeManagerDataManagerApplicationMaster在YARN體系結(jié)構(gòu)中,ApplicationMaster主要功能包括哪些?ABC當(dāng)用戶(hù)作業(yè)提交時(shí),ApplicationMaster與ResourceManager協(xié)商獲取資源,ResourceManager會(huì)以容器的形式為ApplicationMaster分配資源把獲得的資源進(jìn)一步分配給內(nèi)部的各個(gè)任務(wù)(Map任務(wù)或Reduce任務(wù)),實(shí)現(xiàn)資源的“二次分配”定時(shí)向ResourceManager發(fā)送“心跳”消息,報(bào)告資源的使用情況和應(yīng)用的進(jìn)度信息向ResourceManager匯報(bào)作業(yè)的資源使用情況和每個(gè)容器的運(yùn)行狀態(tài)第九章數(shù)據(jù)倉(cāng)庫(kù)Hive單選題1.下列有關(guān)Hive和Impala的對(duì)比錯(cuò)誤的是:(D)AHive與Impala使用相同的元數(shù)據(jù)BHive與Impala中對(duì)SQL的解釋處理比較相似,都是通過(guò)詞法分析生成執(zhí)行計(jì)劃CHive適合于長(zhǎng)時(shí)間的批處理查詢(xún)分析,而Impala適合于實(shí)時(shí)交互式SQL查詢(xún)DHive在內(nèi)存不足以存儲(chǔ)所有數(shù)據(jù)時(shí),會(huì)使用外存,而Impala也是如此2.下列關(guān)于Hive基本操作命令的解釋錯(cuò)誤的是:(C)Acreatedatabaseuserdb;//創(chuàng)建數(shù)據(jù)庫(kù)userdbBcreatetableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在,創(chuàng)建表usr,含三個(gè)屬性id,name,ageCloaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目錄’/usr/local/data’下的數(shù)據(jù)文件中的數(shù)據(jù)以追加的方式裝載進(jìn)usr表Dinsertoverwritetablestudentselect*fromuserwhereage>10;//向表usr1中插入來(lái)自u(píng)sr表的age大于10的數(shù)據(jù)并覆蓋student表中原有數(shù)據(jù)3.下面哪個(gè)不可能是Hive的執(zhí)行引擎:(C)A.MapReduceB.TezC.StormD.Spark4.下面描述錯(cuò)誤的是:(C)A.Hive的功能十分強(qiáng)大,可以支持采用SQL方式查詢(xún)Hadoop平臺(tái)上的數(shù)據(jù)B.在實(shí)際應(yīng)用中,Hive也暴露出不穩(wěn)定的問(wèn)題,在極少數(shù)情況下,甚至?xí)霈F(xiàn)端口不響應(yīng)或者進(jìn)程丟失的問(wèn)題C.在HiveHA中,在Hadoop集群上構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù)是由單個(gè)Hive實(shí)例進(jìn)行管理的D.在HiveHA中,客戶(hù)端的查詢(xún)請(qǐng)求首先訪問(wèn)HAProxy,由HAProxy對(duì)訪問(wèn)請(qǐng)求進(jìn)行轉(zhuǎn)發(fā)5.以下哪個(gè)不是數(shù)據(jù)倉(cāng)庫(kù)的特性:(C)A.面向主題的B.集成的C.動(dòng)態(tài)變化的D.反映歷史變化的6.下面關(guān)于Hive的描述錯(cuò)誤的是:(D)A.Hive是一個(gè)構(gòu)建在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)工具B.Hive是由Facebook公司開(kāi)發(fā)的C.Hive在某種程度上可以看作是用戶(hù)編程接口,其本身并不存儲(chǔ)和處理數(shù)據(jù)D.Hive定義了簡(jiǎn)單的類(lèi)似SQL的查詢(xún)語(yǔ)言——HiveQL,它與大部分SQL語(yǔ)法無(wú)法兼容7.下面關(guān)于Hive的描述錯(cuò)誤的是:(D)A.HBase與Hive的功能是互補(bǔ)的,它實(shí)現(xiàn)了Hive不能提供的功能B.當(dāng)采用MapReduce作為執(zhí)行引擎時(shí),用HiveQL語(yǔ)句編寫(xiě)的處理邏輯,最終都要轉(zhuǎn)化為MapReduce任務(wù)來(lái)運(yùn)行C.Hive一般用于處理靜態(tài)數(shù)據(jù),主要是BI報(bào)表數(shù)據(jù)D.Hive主要是用于滿(mǎn)足實(shí)時(shí)數(shù)據(jù)流的處理需求8.關(guān)于Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的對(duì)比分析,下面描述錯(cuò)誤的是:(B)A.Hive一般依賴(lài)于分布式文件系統(tǒng)HDFS,而傳統(tǒng)數(shù)據(jù)庫(kù)則依賴(lài)于本地文件系統(tǒng)B.傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)可以針對(duì)多個(gè)列構(gòu)建復(fù)雜的索引,Hive不支持索引C.Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)都支持分區(qū)D.傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)很難實(shí)現(xiàn)橫向擴(kuò)展,Hive具有很好的水平擴(kuò)展性9.以下哪個(gè)不是Hive的用戶(hù)接口模塊:(A)A.PMIB.HWI(HiveWebInterface)C.JDBC/ODBCD.ThriftServer多選題1.下列說(shuō)法正確的是:(BCD)A數(shù)據(jù)倉(cāng)庫(kù)Hive不需要借助于HDFS就可以完成數(shù)據(jù)的存儲(chǔ)BImpala和Hive、HDFS、HBase等工具可以統(tǒng)一部署在一個(gè)Hadoop平臺(tái)上CHive本身不存儲(chǔ)和處理數(shù)據(jù),依賴(lài)HDFS存儲(chǔ)數(shù)據(jù),依賴(lài)MapReduce處理數(shù)據(jù)DHiveQL語(yǔ)法與傳統(tǒng)的SQL語(yǔ)法很相似2.Impala主要由哪幾個(gè)部分組成:(ABC)AImpaladBStateStoreCCLIDHive3.以下屬于Hive的基本數(shù)據(jù)類(lèi)型是:(ABCD)ATINYINTBFLOATCSTRINGDBINARY4.數(shù)據(jù)倉(cāng)庫(kù)Hive的執(zhí)行引擎可以是:(ABD)A.TezB.MapReduceC.PigD.Spark5.以下哪些是數(shù)據(jù)倉(cāng)庫(kù)的特性:(ABCD)A.面向主題的(SubjectOriented)B.集成的(Integrated)C.相對(duì)穩(wěn)定的(Non-Volatile)D.反映歷史變化6.傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)面臨哪些挑戰(zhàn):(ABD)A.無(wú)法滿(mǎn)足快速增長(zhǎng)的海量數(shù)據(jù)存儲(chǔ)需求B.無(wú)法有效處理不同類(lèi)型的數(shù)據(jù)C.具有很強(qiáng)的擴(kuò)展性D.計(jì)算和處理能力不足7.Hadoop生態(tài)系統(tǒng)中Hive與其他部分的關(guān)系的描述正確的是:(ABCD)A.HDFS作為高可靠的底層存儲(chǔ),用來(lái)存儲(chǔ)Hive的海量數(shù)據(jù)B.MapReduce對(duì)這些海量數(shù)據(jù)進(jìn)行批處理,實(shí)現(xiàn)Hive的高性能計(jì)算C.當(dāng)采用MapRedue作為Hive的執(zhí)行引擎時(shí),用HiveQL語(yǔ)句編寫(xiě)的處理邏輯,最終都要轉(zhuǎn)化為MapReduce任務(wù)來(lái)運(yùn)行D.HBase與Hive的功能是互補(bǔ)的,它實(shí)現(xiàn)了Hive不能提供的功能8.關(guān)于Hive與傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的對(duì)比分析,下面描述正確的是:(ABD)A.在數(shù)據(jù)存儲(chǔ)方面,Hive一般依賴(lài)于分布式文件系統(tǒng)HDFS,而傳統(tǒng)數(shù)據(jù)庫(kù)則依賴(lài)于本地文件系統(tǒng)B.在索引方面,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)可以針對(duì)多個(gè)列構(gòu)建復(fù)雜的索引,大幅度提升數(shù)據(jù)查詢(xún)性能,而Hive不像傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)那樣有鍵的概念,它只能提供有限的索引功能C.在分區(qū)方面,傳統(tǒng)的數(shù)據(jù)庫(kù)提供分區(qū)功能來(lái)改善大型表以及具有各種訪問(wèn)模式的表的可伸縮性、可管理性,以及提高數(shù)據(jù)庫(kù)效率;Hive不支持分區(qū)功能D.在執(zhí)行引擎方面,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)依賴(lài)自身的執(zhí)行引擎,而Hive則依賴(lài)于MapReduce、Tez和Spark等執(zhí)行引擎9.Hive主要由哪三個(gè)模塊組成:(ABD)A.用戶(hù)接口模塊B.用戶(hù)查詢(xún)模塊C.驅(qū)動(dòng)模塊D.元數(shù)據(jù)存儲(chǔ)模塊10.當(dāng)采用MapReduce作為Hive的執(zhí)行引擎時(shí),下面描述正確的是:(ABC)A.當(dāng)用戶(hù)向Hive輸入一段命令或查詢(xún)(即HiveQL語(yǔ)句)時(shí),Hive需要與Hadoop交互工作來(lái)完成該操作B.命令或查詢(xún)首先進(jìn)入到驅(qū)動(dòng)模塊,由驅(qū)動(dòng)模塊中的編譯器進(jìn)行解析編譯,并由優(yōu)化器對(duì)該操作進(jìn)行優(yōu)化計(jì)算,然后交給執(zhí)行器去執(zhí)行C.執(zhí)行器通常的任務(wù)是啟動(dòng)一個(gè)或多個(gè)MapReduce任務(wù),有時(shí)也不需要啟動(dòng)MapReduce任務(wù)D.執(zhí)行器通常的任務(wù)一定會(huì)包含Map和Reduce操作第十章Spark單選題下列關(guān)于Spark的描述,錯(cuò)誤的是哪一項(xiàng)?D(A)Spark最初由美國(guó)加州伯克利大學(xué)(UCBerkeley)的AMP實(shí)驗(yàn)室于2009年開(kāi)發(fā)(B)Spark在2014年打破了Hadoop保持的基準(zhǔn)排序紀(jì)錄.(C)Spark用十分之一的計(jì)算資源,獲得了比Hadoop快3倍的速度(D)Spark運(yùn)行模式單一2、下列關(guān)于Spark的描述,錯(cuò)誤的是哪一項(xiàng)?C(A)使用DAG執(zhí)行引擎以支持循環(huán)數(shù)據(jù)流與內(nèi)存計(jì)算析(B)可運(yùn)行于獨(dú)立的集群模式中,可運(yùn)行于Hadoop中,也可運(yùn)行于AmazonEC2等云環(huán)境中(C)支持使用Scala、Java、Python和R語(yǔ)言進(jìn)行編程,但是不可以通過(guò)SparkShell進(jìn)行交互式編程(D)可運(yùn)行于獨(dú)立的集群模式中,可運(yùn)行于Hadoop中,也可運(yùn)行于AmazonEC2等云環(huán)境中3、下列關(guān)于Scala特性的描述,錯(cuò)誤的是哪一項(xiàng)?A(A)Scala語(yǔ)法復(fù)雜,但是能提供優(yōu)雅的API計(jì)算(B)Scala具備強(qiáng)大的并發(fā)性,支持函數(shù)式編程,可以更好地支持分布式系統(tǒng)(C)Scala兼容Java,運(yùn)行速度快,且能融合到Hadoop生態(tài)圈中(D)Scala是Spark的主要編程語(yǔ)言下列說(shuō)法哪項(xiàng)有誤?C(A)相對(duì)于Spark來(lái)說(shuō),使用Hadoop進(jìn)行迭代計(jì)算非常耗資源(B)Spark將數(shù)據(jù)載入內(nèi)存后,之后的迭代計(jì)算都可以直接使用內(nèi)存中的中間結(jié)果作運(yùn)算,避免了從磁盤(pán)中頻繁讀取數(shù)據(jù)(C)Hadoop的設(shè)計(jì)遵循“一個(gè)軟件棧滿(mǎn)足不同應(yīng)用場(chǎng)景”的理念(D)Spark可以部署在資源管理器YARN之上,提供一站式的大數(shù)據(jù)解決方案5、在Spark生態(tài)系統(tǒng)組件的應(yīng)用場(chǎng)景中,下列哪項(xiàng)說(shuō)法是錯(cuò)誤的?C(A)Spark應(yīng)用在復(fù)雜的批量數(shù)據(jù)處理(B)SparkSQL是基于歷史數(shù)據(jù)的交互式查詢(xún)(C)SparkStreaming是基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘(D)GraphX是圖結(jié)構(gòu)數(shù)據(jù)的處理6、下列說(shuō)法錯(cuò)誤的是?A(A)RDD(ResillientDistributedDataset)是運(yùn)行在工作節(jié)點(diǎn)(WorkerNode)的一個(gè)進(jìn)程,負(fù)責(zé)運(yùn)行Task(B)Application是用戶(hù)編寫(xiě)的Spark應(yīng)用程序(C)一個(gè)Job包含多個(gè)RDD及作用于相應(yīng)RDD上的各種操作(D)DirectedAcyclicGraph反映RDD之間的依賴(lài)關(guān)系7、下列關(guān)于RDD說(shuō)法,描述有誤的是?C(A)一個(gè)RDD就是一個(gè)分布式對(duì)象集合,本質(zhì)上是一個(gè)只讀的分區(qū)記錄集合(B)每個(gè)RDD可分成多個(gè)分區(qū),每個(gè)分區(qū)就是一個(gè)數(shù)據(jù)集片段(C)RDD是可以直接修改的(D)RDD提供了一種高度受限的共享內(nèi)存模型8、Spark生態(tài)系統(tǒng)組件SparkStreaming的應(yīng)用場(chǎng)景是?D(A)基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘(B)圖結(jié)構(gòu)數(shù)據(jù)的處理(C)基于歷史數(shù)據(jù)的交互式查詢(xún)(D)基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理9、Spark生態(tài)系統(tǒng)組件MLlib的應(yīng)用場(chǎng)景是?D(A)圖結(jié)構(gòu)數(shù)據(jù)的處理(B)基于歷史數(shù)據(jù)的交互式查詢(xún)(C)復(fù)雜的批量數(shù)據(jù)處理(D)基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘多選題Spark具有以下哪幾個(gè)主要特點(diǎn)?ABC(A)運(yùn)行速度快(B)容易使用(C)通用性(D)運(yùn)行模式單一2、Scala具有以下哪幾個(gè)主要特點(diǎn)?ABCD(A)Scala的優(yōu)勢(shì)是提供了REPL(Read-Eval-PrintLoop,交互式解釋器),提高程序開(kāi)發(fā)效率(B)Scala兼容Java,運(yùn)行速度快,且能融合到Hadoop生態(tài)圈中(C)Scala具備強(qiáng)大的并發(fā)性,支持函數(shù)式編程(D)Scala可以更好地支持分布式系統(tǒng)3、下列哪些選項(xiàng)屬于Hadoop的缺點(diǎn)?ABCD(A)表達(dá)能力有限(B)磁盤(pán)IO開(kāi)銷(xiāo)大(C)延遲高(D)在前一個(gè)任務(wù)執(zhí)行完成之前,其他任務(wù)就無(wú)法開(kāi)始,難以勝任復(fù)雜、多階段的計(jì)算任務(wù)下列說(shuō)法中,哪些選項(xiàng)描述正確?AB(A)Spark在借鑒HadoopMapReduce優(yōu)點(diǎn)的同時(shí),很好地解決了MapReduce所面臨的問(wèn)題(B)Spark的計(jì)算模式也屬于MapReduce,但不局限于Map和Reduce操作(C)HadoopMapReduce編程模型比Spark更靈活(D)HadoopMapReduce提供了內(nèi)存計(jì)算,可將中間結(jié)果放到內(nèi)存中,對(duì)于迭代運(yùn)算效率更高5、在實(shí)際應(yīng)用中,大數(shù)據(jù)處理主要包括以下哪三個(gè)類(lèi)型?ABD(A)復(fù)雜的批量數(shù)據(jù)處理:通常時(shí)間跨度在數(shù)十分鐘到數(shù)小時(shí)之間(B)基于歷史數(shù)據(jù)的交互式查詢(xún):通常時(shí)間跨度在數(shù)十秒到數(shù)分鐘之間(C)基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理:通常時(shí)間跨度在數(shù)十秒到數(shù)分鐘之間(D)基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理:通常時(shí)間跨度在數(shù)百毫秒到數(shù)秒之間6、在實(shí)際應(yīng)用中,當(dāng)采用多種計(jì)算架構(gòu)來(lái)滿(mǎn)足不同應(yīng)用場(chǎng)景需求時(shí),大數(shù)據(jù)處理難免會(huì)帶來(lái)哪些問(wèn)題?ABCD(A)不同場(chǎng)景之間輸入輸出數(shù)據(jù)無(wú)法做到無(wú)縫共享,通常需要進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換(B)不同的軟件需要不同的開(kāi)發(fā)和維護(hù)團(tuán)隊(duì)(C)需要較高的使用成本(D)比較難以對(duì)同一個(gè)集群中的各個(gè)系統(tǒng)進(jìn)行統(tǒng)一的資源協(xié)調(diào)和分配7、與HadoopMapReduce計(jì)算框架相比,Spark所采用的Executor具有哪些優(yōu)點(diǎn)?AB(A)利用多線(xiàn)程來(lái)執(zhí)行具體的任務(wù),減少任務(wù)的啟動(dòng)開(kāi)銷(xiāo)(B)Executor中有一個(gè)BlockManager存儲(chǔ)模塊,有效減少I(mǎi)O開(kāi)銷(xiāo)(C)提供了一種高度受限的共享內(nèi)存模型(D)不同場(chǎng)景之間輸入輸出數(shù)據(jù)能做到無(wú)縫共享8、Spark運(yùn)行架構(gòu)具有以下哪些特點(diǎn)?ABCD(A)每個(gè)Application都有自己專(zhuān)屬的Executor進(jìn)程,并且該進(jìn)程在Application運(yùn)行期間一直駐留(B)Executor進(jìn)程以多線(xiàn)程的方式運(yùn)行Task(C)Spark運(yùn)行過(guò)程與資源管理器無(wú)關(guān),只要能夠獲取Executor進(jìn)程并保持通信即可(D)Task采用了數(shù)據(jù)本地性和推測(cè)執(zhí)行等優(yōu)化機(jī)制9、Spark采用RDD以后能夠?qū)崿F(xiàn)高效計(jì)算的原因主要在于?ABC(A)高效的容錯(cuò)性(B)中間結(jié)果持久化到內(nèi)存,數(shù)據(jù)在內(nèi)存中的多個(gè)(C)存放的數(shù)據(jù)可以是Java對(duì)象,避免了不必要的對(duì)象序列化和反序列化(D)采用數(shù)據(jù)復(fù)制實(shí)現(xiàn)容錯(cuò)10、Spark支持哪三種不同類(lèi)型的部署方式?ABC(A)Standalone(類(lèi)似于MapReduce1.0,slot為資源分配單位)(B)SparkonMesos(和Spark有血緣關(guān)系,更好支持Mesos)(C)SparkonYARN(D)SparkonHDFS第十一章流計(jì)算單選題下列關(guān)于流計(jì)算的說(shuō)法,哪項(xiàng)是錯(cuò)誤的?D實(shí)時(shí)獲取來(lái)自不同數(shù)據(jù)源的海量數(shù)據(jù),經(jīng)過(guò)實(shí)時(shí)分析處理,獲得有價(jià)值的信息流計(jì)算秉承一個(gè)基本理念,即數(shù)據(jù)的價(jià)值隨著時(shí)間的流逝而降低對(duì)于一個(gè)流計(jì)算系統(tǒng)來(lái)說(shuō),它應(yīng)該支持TB級(jí)甚至是PB級(jí)的數(shù)據(jù)規(guī)模流計(jì)算只需要保證較低的延遲時(shí)間,即只達(dá)到秒級(jí)別即可處理一切問(wèn)題下列關(guān)于數(shù)據(jù)處理流程,說(shuō)法有誤的是?D在傳統(tǒng)的數(shù)據(jù)處理流程中,存儲(chǔ)的數(shù)據(jù)是舊的在傳統(tǒng)的數(shù)據(jù)處理流程中,需要用戶(hù)主動(dòng)發(fā)出查詢(xún)來(lái)獲取結(jié)果傳統(tǒng)的數(shù)據(jù)處理流程,需要先采集數(shù)據(jù)并存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)等數(shù)據(jù)管理系統(tǒng)中流計(jì)算的處理流程一般包含三個(gè)階段:數(shù)據(jù)實(shí)時(shí)采集、數(shù)據(jù)批量計(jì)算、實(shí)時(shí)查詢(xún)服務(wù)下列哪項(xiàng)不屬于流計(jì)算的處理流程的三個(gè)階段?B數(shù)據(jù)實(shí)時(shí)采集數(shù)據(jù)批量采集數(shù)據(jù)實(shí)時(shí)計(jì)算實(shí)時(shí)查詢(xún)服務(wù)下列哪一項(xiàng)不屬于Storm的特點(diǎn)?B支持各種編程語(yǔ)言:Storm支持使用各種編程語(yǔ)言來(lái)定義任務(wù)容錯(cuò)性:Storm需要人工進(jìn)行故障節(jié)點(diǎn)的重啟、任務(wù)的重新分配可擴(kuò)展性:Storm的并行特性使其可以運(yùn)行在分布式集群中免費(fèi)、開(kāi)源:Storm是一款開(kāi)源框架,可以免費(fèi)使用下列關(guān)于Storm設(shè)計(jì)思想,描述有誤的是?AStorm將Streams的狀態(tài)轉(zhuǎn)換過(guò)程抽象為SpoutStorm認(rèn)為每個(gè)Stream都有一個(gè)源頭,并把這個(gè)源頭抽象為SpoutStorm將Spouts和Bolts組成的網(wǎng)絡(luò)抽象成TopologyTopology里面的每個(gè)處理組件(Spout或Bolt)都包含處理邏輯,而組件之間的連接則表示數(shù)據(jù)流動(dòng)的方向下列關(guān)于Storm和Hadoop架構(gòu)組件功能對(duì)應(yīng)關(guān)系,哪個(gè)是錯(cuò)誤的?CHadoopJob對(duì)應(yīng)StormTopologyHadoopTaskTracker對(duì)應(yīng)StormSupervisorHadoopJobTracker對(duì)應(yīng)StormSpoutHadoopReduce對(duì)應(yīng)StormBolt下列哪個(gè)說(shuō)法是錯(cuò)誤的?B從編程的靈活性來(lái)講,Storm是比較理想的選擇,它使用ApacheThrift,可以用任何編程語(yǔ)言來(lái)編寫(xiě)拓?fù)浣Y(jié)構(gòu)(Topology)SparkStreaming可以實(shí)現(xiàn)毫秒級(jí)的流計(jì)算SparkStreaming無(wú)法實(shí)現(xiàn)毫秒級(jí)的流計(jì)算在Spark上可以統(tǒng)一部署SparkSQL,SparkStreaming、MLlib,GraphX等組件,提供便捷的一體化編程模型下列關(guān)于Storm的描述,有誤的是?AStorm將流數(shù)據(jù)Stream描述成一個(gè)有限的Tuple序列Storm保證每個(gè)消息都能完整處理Storm認(rèn)為每個(gè)Stream都有一個(gè)源頭,并把這個(gè)源頭抽象為SpoutBolt可以執(zhí)行過(guò)濾、函數(shù)操作、Join、操作數(shù)據(jù)庫(kù)等任何操作下列哪個(gè)關(guān)于StreamGroupings的描述,有誤的是?AFieldsGrouping:廣播發(fā)送,每一個(gè)Task都會(huì)收到所有的TupleGlobalGrouping:全局分組,所有的Tuple都發(fā)送到同一個(gè)Task中NonGrouping:不分組,和ShuffleGrouping類(lèi)似,當(dāng)前Task的執(zhí)行會(huì)和它的被訂閱者在同一個(gè)線(xiàn)程中執(zhí)行DirectGrouping:直接分組,直接指定由某個(gè)Task來(lái)執(zhí)行Tuple的處理多選題流數(shù)據(jù)具有以下哪些特征?ABC數(shù)據(jù)快速持續(xù)到達(dá),潛在大小也許是無(wú)窮無(wú)盡的數(shù)據(jù)來(lái)源眾多,格式復(fù)雜注重?cái)?shù)據(jù)的整體價(jià)值,不過(guò)分關(guān)注個(gè)別數(shù)據(jù)系統(tǒng)可以控制將要處理的新到達(dá)的數(shù)據(jù)元素的順序下列關(guān)于批量計(jì)算和實(shí)時(shí)計(jì)算的說(shuō)法,正確的有?ACD批量計(jì)算:充裕時(shí)間處理靜態(tài)數(shù)據(jù),如Hadoop靜態(tài)數(shù)據(jù)不適合采用批量計(jì)算,因?yàn)樗贿m合用傳統(tǒng)的關(guān)系模型建模流數(shù)據(jù)必須采用實(shí)時(shí)計(jì)算流數(shù)據(jù)的響應(yīng)時(shí)間一般為秒級(jí),甚至需要毫秒級(jí)對(duì)于一個(gè)流計(jì)算系統(tǒng)來(lái)說(shuō),它應(yīng)達(dá)到以下哪些需求?ABCD高性能:處理大數(shù)據(jù)的基本要求,如每秒處理幾十萬(wàn)條數(shù)據(jù)實(shí)時(shí)性:保證較低的延遲時(shí)間,達(dá)到秒級(jí)別,甚至是毫秒級(jí)別分布式:支持大數(shù)據(jù)的基本架構(gòu),必須能夠平滑擴(kuò)展可靠性:能可靠地處理流數(shù)據(jù)下列關(guān)于流計(jì)算與Hadoop的說(shuō)法,正確的有?ABCDHadoop擅長(zhǎng)批處理,不適合流計(jì)算MapReduce是專(zhuān)門(mén)面向靜態(tài)數(shù)據(jù)的批量處理的Hadoop設(shè)計(jì)的初衷是面向大規(guī)模數(shù)據(jù)的批量處理MapReduce不適合用于處理持續(xù)到達(dá)的動(dòng)態(tài)數(shù)據(jù)下列關(guān)于流處理系統(tǒng)與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)的描述,正確的有?ABC流處理系統(tǒng)處理的是實(shí)時(shí)的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預(yù)先存儲(chǔ)好的靜態(tài)數(shù)據(jù)用戶(hù)通過(guò)流處理系統(tǒng)獲取的是實(shí)時(shí)結(jié)果,而通過(guò)傳統(tǒng)的數(shù)據(jù)處理系統(tǒng),獲取的是過(guò)去某一時(shí)刻的結(jié)果流處理系統(tǒng)無(wú)需用戶(hù)主動(dòng)發(fā)出查詢(xún),實(shí)時(shí)查詢(xún)服務(wù)可以主動(dòng)將結(jié)果推送給用戶(hù)傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)系統(tǒng)無(wú)需用戶(hù)主動(dòng)發(fā)出查詢(xún),批量查詢(xún)服務(wù)可以主動(dòng)將結(jié)果推送給用戶(hù)Storm具有以下哪些特點(diǎn)?ABCD整合性:Storm可方便地與隊(duì)列系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行整合簡(jiǎn)易的API:Storm的API在使用上即簡(jiǎn)單又方便容錯(cuò)性:Storm可自動(dòng)進(jìn)行故障節(jié)點(diǎn)的重啟、任務(wù)的重新分配可擴(kuò)展性:Storm的并行特性使其可以運(yùn)行在分布式集群中目前,Storm中的StreamGroupings有如下哪幾種方式?ABCAllGrouping:廣播發(fā)送,每一個(gè)Task都會(huì)收到所有的TupleGlobalGrouping:全局分組,所有的Tuple都發(fā)送到同一個(gè)Task中FieldsGrouping:按照字段分組,保證相同字段的Tuple分配到同一個(gè)Task中DirectGrouping:隨機(jī)分組,隨機(jī)分發(fā)Stream中的Tuple,保證每個(gè)Bolt的Task接收Tuple數(shù)量大致一致下列關(guān)于Storm框架,描述正確的有?ABCDworker:每個(gè)worker進(jìn)程都屬于一個(gè)特定的Topologyexecutor:executor是產(chǎn)生于worker進(jìn)程內(nèi)部的線(xiàn)程task:實(shí)際的數(shù)據(jù)處理由task完成在Topology的生命周期中,每個(gè)組件的task數(shù)目是不會(huì)發(fā)生變化的,而executor的數(shù)目卻不一定下列關(guān)于SparkStreaming與Storm的描述,哪些是正確的的?ABDSparkStreaming無(wú)法實(shí)現(xiàn)毫秒級(jí)的流計(jì)算Storm可以實(shí)現(xiàn)毫秒級(jí)響應(yīng)件Storm無(wú)法用于實(shí)時(shí)計(jì)算SparkStreaming采用的小批量處理的方式使得它可以同時(shí)兼容批量和實(shí)時(shí)數(shù)據(jù)處理的邏輯和算法第十二章Flink單選題1.下面描述錯(cuò)誤的是:(D)A.Storm雖然可以做到低延遲,但是無(wú)法實(shí)現(xiàn)高吞吐,也不能在故障發(fā)生時(shí)準(zhǔn)確地處理計(jì)算狀態(tài)B.SparkStreaming通過(guò)采用微批處理方法實(shí)現(xiàn)了高吞吐和容錯(cuò)性,但是犧牲了低延遲和實(shí)時(shí)處理能力C.Flink實(shí)現(xiàn)了GoogleDataflow流計(jì)算模型,是一種兼具高吞吐、低延遲和高性能的實(shí)時(shí)流計(jì)算框架,并且同時(shí)支持批處理和流處理D.SparkStreaming可以實(shí)現(xiàn)毫秒級(jí)響應(yīng),而Flink只能實(shí)現(xiàn)秒級(jí)響應(yīng)2.以下哪個(gè)不屬于事件驅(qū)動(dòng)型應(yīng)用?DA.反欺詐B.異常檢測(cè)C.基于規(guī)則的報(bào)警D.消費(fèi)者技術(shù)中的實(shí)時(shí)數(shù)據(jù)即席分析3.以下哪個(gè)不屬于數(shù)據(jù)分析應(yīng)用?AA.基于規(guī)則的報(bào)警B.移動(dòng)應(yīng)用中的產(chǎn)品更新及實(shí)驗(yàn)評(píng)估分析C.消費(fèi)者技術(shù)中的實(shí)時(shí)數(shù)據(jù)即席分析D.大規(guī)模圖分析4.以下哪個(gè)屬于數(shù)據(jù)流水線(xiàn)應(yīng)用?BA.基于規(guī)則的報(bào)警B.實(shí)時(shí)查詢(xún)索引構(gòu)建C.移動(dòng)應(yīng)用中的產(chǎn)品更新及實(shí)驗(yàn)評(píng)估分析D.費(fèi)者技術(shù)中的實(shí)時(shí)數(shù)據(jù)即席分析多選題1.企業(yè)數(shù)據(jù)架構(gòu)的典型形式包括:(ABC)A.傳統(tǒng)數(shù)據(jù)處理架構(gòu)B.大數(shù)據(jù)Lambda架構(gòu)C.流處理架構(gòu)D.循環(huán)處理架構(gòu)2.Flink的優(yōu)勢(shì)包括:(ABCD)A.同時(shí)支持高吞吐、低延遲、高性能B.同時(shí)支持流處理和批處理C.支持有狀態(tài)計(jì)算D.具有獨(dú)立的內(nèi)存管理3.Flink常見(jiàn)的應(yīng)用場(chǎng)景包括:(ABC)A.事件驅(qū)動(dòng)型應(yīng)用B.?dāng)?shù)據(jù)分析應(yīng)用C.?dāng)?shù)據(jù)流水線(xiàn)應(yīng)用D.正反饋應(yīng)用4.Flink核心組件棧包括:(ACD)A.物理部署層B.算法庫(kù)層C.Runtime核心層D.API&Libraries層5.Flink系統(tǒng)主要由兩個(gè)組件組成:(AD)A.JobManagerB.JobTrackderC.TaskTrackerD.TaskManager6.Flink編程模型包括哪幾層:(ABCD)A.SQLB.TableAPIC.DataStreamAPI/DataSetAPID.有狀態(tài)數(shù)據(jù)流處理第十三章圖計(jì)算單選題下列關(guān)于圖結(jié)構(gòu)數(shù)據(jù)的描述,錯(cuò)誤的是?A(A)許多非圖結(jié)構(gòu)的大數(shù)據(jù),通常會(huì)被轉(zhuǎn)換為關(guān)系模型后進(jìn)行分析(B)許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn)(C)圖數(shù)據(jù)結(jié)構(gòu)很好地表達(dá)了數(shù)據(jù)之間的關(guān)聯(lián)性(D)關(guān)聯(lián)性計(jì)算是大數(shù)據(jù)計(jì)算的核心在Pregel計(jì)算模型中,圖中的每個(gè)頂點(diǎn)會(huì)對(duì)應(yīng)一個(gè)計(jì)算單元,下列哪一項(xiàng)不屬于計(jì)算單元的成員變量?D頂點(diǎn)值(Vertexvalue):頂點(diǎn)對(duì)應(yīng)的PR值出射邊(Outedge):只需要表示一條邊,可以不取值消息(Message):傳遞的消息入射邊(Iutedge):只需要表示一條邊,可以不取值采用MapReduce實(shí)現(xiàn)PageRank的計(jì)算過(guò)程包括三個(gè)階段,下列哪一項(xiàng)是錯(cuò)的?D(A)第一階段:解析網(wǎng)頁(yè)(B)第二階段:PageRank分配(C)第三階段:收斂階段(D)第一階段:收集網(wǎng)頁(yè)下列關(guān)于PageRank算法在MapReduce中的實(shí)現(xiàn)的描述,錯(cuò)誤的是?A解析網(wǎng)頁(yè)的任務(wù)就是分析一個(gè)頁(yè)面的鏈接數(shù),但是不賦初值PageRank分配就是多次迭代計(jì)算頁(yè)面的PageRank值收斂階段的任務(wù)就是由一個(gè)非并行組件決定是否達(dá)到收斂一般判斷是否收斂的條件是所有網(wǎng)頁(yè)的PageRank值不再變化,或者運(yùn)行30次以后我們就認(rèn)為已經(jīng)收斂了下列哪個(gè)不屬于PageRank算法在Pregel和MapReduce中實(shí)現(xiàn)方式的區(qū)別?DPregel將PageRank處理對(duì)象看成是連通圖,而MapReduce則將其看成是鍵值對(duì)Pregel將計(jì)算細(xì)化到頂點(diǎn),同時(shí)在頂點(diǎn)內(nèi)控制循環(huán)迭代次數(shù)MapReduce將計(jì)算批量化處理,按任務(wù)進(jìn)行循環(huán)迭代控制圖算法如果用Pregel實(shí)現(xiàn),需要一系列的Pregel的調(diào)用下列哪項(xiàng)不屬于在Vetex類(lèi)中的值類(lèi)型參數(shù)?A(A)頂點(diǎn)的出度(B)頂點(diǎn)(C)邊(D)消息在每個(gè)超步中,Worker調(diào)用頂點(diǎn)上的Compute()函數(shù),下列哪個(gè)參數(shù)是不需要傳遞?D(A)該頂點(diǎn)的當(dāng)前值(B)一個(gè)接收到的消息的迭代器(C)一個(gè)出射邊的迭代器(D)一個(gè)入射邊的迭代器下列哪一項(xiàng)不屬于每個(gè)超步的組件?A(A)全局計(jì)算(B)局部計(jì)算(C)通訊(D)柵欄同步在一個(gè)Worker中,它所管轄的分區(qū)的狀態(tài)信息是保存在內(nèi)存中的,下列哪一項(xiàng)不屬于分區(qū)的狀態(tài)信息?D頂點(diǎn)的當(dāng)前值消息隊(duì)列標(biāo)志位一個(gè)接收到的消息的迭代器多選題很多傳統(tǒng)的圖計(jì)算算法都存在以下哪些典型問(wèn)題?ABC常常表現(xiàn)出比較差的內(nèi)存訪問(wèn)局部性針對(duì)單個(gè)頂點(diǎn)的處理工作過(guò)少計(jì)算過(guò)程中伴隨著并行度的改變計(jì)算過(guò)程簡(jiǎn)易針對(duì)大型圖(比如社交網(wǎng)絡(luò)和網(wǎng)絡(luò)圖)的計(jì)算問(wèn)題,哪些說(shuō)法是正確的?ABCD為特定的圖應(yīng)用定制相應(yīng)的分布式實(shí)現(xiàn):通用性不好基于現(xiàn)有的分布式計(jì)算平臺(tái)進(jìn)行圖計(jì)算:在性能和易用性方面往往無(wú)法達(dá)到最優(yōu)使用單機(jī)的圖算法庫(kù),但是,在可以解決的問(wèn)題的規(guī)模方面具有很大的局限性使用已有的并行圖計(jì)算系統(tǒng),但是,對(duì)大規(guī)模分布式系統(tǒng)非常重要的一些方面(比如容錯(cuò)),無(wú)法提供較好的支持針對(duì)大型圖的計(jì)算,目前通用的圖計(jì)算軟件主要哪些?AB基于遍歷算法的、實(shí)時(shí)的圖數(shù)據(jù)庫(kù),如Neo4j、OrientDB、DEX和InfiniteGraph以圖頂點(diǎn)為中心的、基于消息傳遞批處理的并行引擎,如GoldenOrb、Giraph、Pregel和Hama基于遍歷算法的、實(shí)時(shí)的圖數(shù)據(jù)庫(kù),如GoldenOrb、Giraph、Pregel和Hama以圖頂點(diǎn)為中心的、基于消息傳遞批處理的并行引擎,如Neo4j、OrientDB、DEX和InfiniteGraph一次BSP(BulkSynchronousParallelComputingModel,又稱(chēng)“大同步”模型)計(jì)算過(guò)程包括一系列全局超步(所謂的超步就是計(jì)算中的一次迭代),每個(gè)超步主要包括哪些組件?ABC局部計(jì)算:每個(gè)參與的處理器都有自身的計(jì)算任務(wù)通訊:處理器群相互交換數(shù)據(jù)柵欄同步:當(dāng)一個(gè)處理器遇到“路障”(或柵欄),會(huì)等到其他所有處理器完成它們的計(jì)算步驟基于現(xiàn)有的分布式計(jì)算平臺(tái)進(jìn)行圖計(jì)算下列說(shuō)法正確的是?ABCD在Pregel執(zhí)行計(jì)算過(guò)程時(shí),在每個(gè)超步中都會(huì)并行調(diào)用每個(gè)頂點(diǎn)上定義的Compute()函數(shù)頂點(diǎn)之間的通訊是借助于消息傳遞機(jī)制來(lái)實(shí)現(xiàn)的在默認(rèn)情況下,Pregel計(jì)算框架并不會(huì)開(kāi)啟Combiner功能通常只對(duì)那些滿(mǎn)足交換律和結(jié)合律的操作才可以去開(kāi)啟Combiner功能在Pregel計(jì)算框架中,圖的保存格式多種多樣,具體包括哪些?ABC文本文件關(guān)系數(shù)據(jù)庫(kù)鍵值數(shù)據(jù)庫(kù)語(yǔ)音文件下列對(duì)于Pregel的執(zhí)行過(guò)程,哪些是正確的?ABCD選擇集群中的多臺(tái)機(jī)器執(zhí)行圖計(jì)算任務(wù),每臺(tái)機(jī)器上運(yùn)行用戶(hù)程序的一個(gè)副本Master把一個(gè)圖分成多個(gè)分區(qū),并把分區(qū)分配到多個(gè)WorkerMaster會(huì)把用戶(hù)輸入劃分成多個(gè)部分,通常是基于文件邊界進(jìn)行劃分Master向每個(gè)Worker發(fā)送指令,Worker收到指令后,開(kāi)始運(yùn)行一個(gè)超步在一個(gè)Worker中,它所管轄的分區(qū)的狀態(tài)信息是保存在內(nèi)存中的,分區(qū)中的頂點(diǎn)的狀態(tài)信息包括?ABCD頂點(diǎn)的當(dāng)前值以該頂點(diǎn)為起點(diǎn)的出射邊列表,每條出射邊包含了目標(biāo)頂點(diǎn)ID和邊的值消息隊(duì)列,包含了所有接收到的、發(fā)送給該頂點(diǎn)的消息標(biāo)志位,用來(lái)標(biāo)記頂點(diǎn)是否處于活躍狀態(tài)在每個(gè)超步中,Worker會(huì)對(duì)自己所管轄的分區(qū)中的每個(gè)頂點(diǎn)進(jìn)行遍歷,并調(diào)用頂點(diǎn)上的Compute()函數(shù),在調(diào)用時(shí),會(huì)把以下哪些參數(shù)傳遞進(jìn)去?ABC該頂點(diǎn)的當(dāng)前值一個(gè)接收到的消息的迭代器一個(gè)出射邊的迭代器標(biāo)志位,用來(lái)標(biāo)記頂點(diǎn)是否處于活躍狀態(tài)下列說(shuō)法正確的有?ABCD在Pregel中,為了獲得更好的性能,“標(biāo)志位”和輸入消息隊(duì)列是分開(kāi)保存的在超步S中,當(dāng)一個(gè)Worker在進(jìn)行頂點(diǎn)處理時(shí),用于當(dāng)前超步的消息會(huì)被處理需要兩個(gè)消息隊(duì)列用于存放作用于當(dāng)前超步S的消息和作用于下一個(gè)超步S+1的消息每個(gè)Worker上都保存了一個(gè)或多個(gè)分區(qū)的狀態(tài)信息,當(dāng)一個(gè)Worker發(fā)生故障時(shí),它所負(fù)責(zé)維護(hù)的分區(qū)的當(dāng)前狀態(tài)信息就會(huì)丟失第十四章數(shù)據(jù)可視化一、單選題1、 下列關(guān)于數(shù)據(jù)可視化的描述,哪個(gè)是錯(cuò)誤的?(D)A.數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B.利用數(shù)據(jù)分析和開(kāi)發(fā)工具發(fā)現(xiàn)其中未知信息的處理過(guò)程C.數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫(kù)中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元素表示D.將數(shù)據(jù)的各個(gè)屬性值以一維數(shù)據(jù)的形式表示2、 下列哪個(gè)不屬于可視化工具?(D)A.GoogleChartAPIB.D3C.Visual.lyD.Spark3、 下列說(shuō)法錯(cuò)誤的是?(B)A.大數(shù)據(jù)魔鏡是一款優(yōu)秀的國(guó)產(chǎn)數(shù)據(jù)分析軟件,可以讓用戶(hù)真正理解探索分析數(shù)據(jù)B.Tableau是桌面系統(tǒng)中最簡(jiǎn)單的商業(yè)智能工具軟件,是一個(gè)用于網(wǎng)頁(yè)作圖、生成互動(dòng)圖形的JavaScript函數(shù)庫(kù)C.GoogleFusionTables讓一般使用者也可以輕松制作出專(zhuān)業(yè)的統(tǒng)計(jì)地圖D.ModestMaps是一個(gè)小型、可擴(kuò)展、交互式的免費(fèi)庫(kù),提供了一套查看衛(wèi)星地圖的API4、下面關(guān)于Timetoast的描述,哪個(gè)是錯(cuò)誤的?(D)A.Timetoast是在線(xiàn)創(chuàng)作基于時(shí)間軸事件記載服務(wù)的網(wǎng)站B.提供個(gè)性化的時(shí)間線(xiàn)服務(wù)C.Timetoast基于flash平臺(tái),可以在類(lèi)似flash時(shí)間軸上任意加入事件D.Timetoast是一個(gè)提供復(fù)雜統(tǒng)計(jì)圖表的工具5、 下列關(guān)于可視化工具中高級(jí)分析工具的說(shuō)法,錯(cuò)誤的是?(B)A.R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開(kāi)放的軟件B.Weka主要用于社交圖譜數(shù)據(jù)可視化分析,可以生成非常酷炫的可視化圖形C.Gephi主要用于社交圖譜數(shù)據(jù)可視化分析,可以生成非常酷炫的可視化圖形D.R通常用于大數(shù)據(jù)集的統(tǒng)計(jì)與分析二、多選題1、 在大數(shù)據(jù)時(shí)代,可視化技術(shù)可以支持實(shí)現(xiàn)哪些目標(biāo)?(ABCD)A.觀測(cè)、跟蹤數(shù)據(jù)B.分析數(shù)據(jù)C.輔助理解數(shù)據(jù)D.增強(qiáng)數(shù)據(jù)吸引力2、 信息圖表是信息、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論