《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)

上傳人：1*** IP屬地：湖南上傳時(shí)間：2024-05-15 格式：DOCX 頁(yè)數(shù)：65 大小：75.92KB 積分：6 舉報(bào) 版權(quán)申訴

《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)_第2頁(yè)

《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)_第3頁(yè)

《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)_第4頁(yè)

《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)_第5頁(yè)

已閱讀5頁(yè)，還剩60頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

77/77第一章大數(shù)據(jù)概述單選題第一次信息化浪潮主要解決什么問(wèn)題？B信息傳輸信息處理信息爆炸信息轉(zhuǎn)換下面哪個(gè)選項(xiàng)屬于大數(shù)據(jù)技術(shù)的“數(shù)據(jù)存儲(chǔ)和管理”技術(shù)層面的功能？A利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)等實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理利用分布式并行編程模型和計(jì)算框架，結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法，實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理和分析構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系，有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入，進(jìn)行實(shí)時(shí)處理分析在大數(shù)據(jù)的計(jì)算模式中，流計(jì)算解決的是什么問(wèn)題？D針對(duì)大規(guī)模數(shù)據(jù)的批量處理針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢(xún)分析針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算大數(shù)據(jù)產(chǎn)業(yè)指什么？A一切與支撐大數(shù)據(jù)組織管理和價(jià)值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟(jì)活動(dòng)的集合提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)提供數(shù)據(jù)分享平臺(tái)、數(shù)據(jù)分析平臺(tái)、數(shù)據(jù)租售平臺(tái)等服務(wù)的企業(yè)提供分布式計(jì)算、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析等服務(wù)的各類(lèi)企業(yè)下列哪一個(gè)不屬于大數(shù)據(jù)產(chǎn)業(yè)的產(chǎn)業(yè)鏈環(huán)節(jié)？A數(shù)據(jù)循環(huán)層數(shù)據(jù)源層數(shù)據(jù)分析層數(shù)據(jù)應(yīng)用層下列哪一個(gè)不屬于第三次信息化浪潮中新興的技術(shù)？A互聯(lián)網(wǎng)云計(jì)算大數(shù)據(jù)物聯(lián)網(wǎng)云計(jì)算平臺(tái)層（PaaS）指的是什么？A操作系統(tǒng)和圍繞特定應(yīng)用的必需的服務(wù)將基礎(chǔ)設(shè)施(計(jì)算資源和存儲(chǔ))作為服務(wù)出租從一個(gè)集中的系統(tǒng)部署軟件，使之在一臺(tái)本地計(jì)算機(jī)上(或從云中遠(yuǎn)程地)運(yùn)行的一個(gè)模型提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢(xún)、規(guī)劃和系統(tǒng)集成服務(wù)下面關(guān)于云計(jì)算數(shù)據(jù)中心的描述正確的是：A數(shù)據(jù)中心是云計(jì)算的重要載體，為各種平臺(tái)和應(yīng)用提供運(yùn)行支撐環(huán)境數(shù)據(jù)中心就是放在企業(yè)內(nèi)部的一臺(tái)中心服務(wù)器每個(gè)企業(yè)都需要建設(shè)一個(gè)云計(jì)算數(shù)據(jù)中心數(shù)據(jù)中心不需要網(wǎng)絡(luò)帶寬的支撐下列哪個(gè)不屬于物聯(lián)網(wǎng)的應(yīng)用？D智能物流智能安防環(huán)保監(jiān)測(cè)數(shù)據(jù)清洗下列哪項(xiàng)不屬于大數(shù)據(jù)的發(fā)展歷程？D成熟期萌芽期大規(guī)模應(yīng)用期迷茫期多選題第三次信息化浪潮的標(biāo)志是哪些技術(shù)的興起？BCD個(gè)人計(jì)算機(jī)物聯(lián)網(wǎng)云計(jì)算大數(shù)據(jù)信息科技為大數(shù)據(jù)時(shí)代提供哪些技術(shù)支撐？ABC存儲(chǔ)設(shè)備容量不斷增加網(wǎng)絡(luò)帶寬不斷增加CPU處理能力大幅提升數(shù)據(jù)量不斷增大大數(shù)據(jù)具有哪些特點(diǎn)？ABCD數(shù)據(jù)的“大量化”數(shù)據(jù)的“快速化”數(shù)據(jù)的“多樣化”數(shù)據(jù)的“價(jià)值密度比較低”下面哪個(gè)屬于大數(shù)據(jù)的應(yīng)用領(lǐng)域？ABCD智能醫(yī)療研發(fā)監(jiān)控身體情況實(shí)時(shí)掌握交通狀況金融交易大數(shù)據(jù)的兩個(gè)核心技術(shù)是什么？AC分布式存儲(chǔ)分布式應(yīng)用分布式處理集中式存儲(chǔ)云計(jì)算關(guān)鍵技術(shù)包括什么？ABCD分布式存儲(chǔ)虛擬化分布式計(jì)算多租戶(hù)云計(jì)算的服務(wù)模式和類(lèi)型主要包括哪三類(lèi)？ABC軟件即服務(wù)（SaaS）平臺(tái)即服務(wù)（PaaS）基礎(chǔ)設(shè)施即服務(wù)（IaaS）數(shù)據(jù)采集即服務(wù)（DaaS）物聯(lián)網(wǎng)主要由下列哪些部分組成的？ABCD應(yīng)用層處理層感知層網(wǎng)絡(luò)層物聯(lián)網(wǎng)的關(guān)鍵技術(shù)包括哪些？ABC識(shí)別和感知技術(shù)網(wǎng)絡(luò)與通信技術(shù)數(shù)據(jù)挖掘與融合技術(shù)信息處理一體化技術(shù)大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響有哪些？ABC（A）大數(shù)據(jù)成為一種新的決策方式（B）大數(shù)據(jù)應(yīng)用促進(jìn)信息技術(shù)與各行業(yè)的深度融合（C）大數(shù)據(jù)開(kāi)發(fā)推動(dòng)新技術(shù)和新應(yīng)用的不斷涌現(xiàn)（D）大數(shù)據(jù)對(duì)社會(huì)發(fā)展沒(méi)有產(chǎn)生積極影響第二章大數(shù)據(jù)處理架構(gòu)Hadoop單選題下列哪個(gè)不屬于Hadoop的特性？A成本高高可靠性高容錯(cuò)性運(yùn)行在Linux平臺(tái)上Hadoop框架中最核心的設(shè)計(jì)是什么？A為海量數(shù)據(jù)提供存儲(chǔ)的HDFS和對(duì)數(shù)據(jù)進(jìn)行計(jì)算的MapReduce提供整個(gè)HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務(wù)Hadoop不僅可以運(yùn)行在企業(yè)內(nèi)部的集群中，也可以運(yùn)行在云計(jì)算環(huán)境中Hadoop被視為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)在一個(gè)基本的Hadoop集群中，DataNode主要負(fù)責(zé)什么？D負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)存儲(chǔ)被拆分的數(shù)據(jù)塊Hadoop最初是由誰(shuí)創(chuàng)建的？BLuceneDougCuttingApacheMapReduce下列哪一個(gè)不屬于Hadoop的大數(shù)據(jù)層的功能？C數(shù)據(jù)挖掘離線(xiàn)分析實(shí)時(shí)計(jì)算BI分析在一個(gè)基本的Hadoop集群中，SecondaryNameNode主要負(fù)責(zé)什么？A幫助NameNode收集文件系統(tǒng)運(yùn)行的狀態(tài)信息負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)下面哪一項(xiàng)不是Hadoop的特性？B可擴(kuò)展性高只支持少數(shù)幾種編程語(yǔ)言成本低能在linux上運(yùn)行在Hadoop項(xiàng)目結(jié)構(gòu)中，HDFS指的是什么？A分布式文件系統(tǒng)分布式并行編程模型資源管理和調(diào)度器Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)在Hadoop項(xiàng)目結(jié)構(gòu)中，MapReduce指的是什么？A分布式并行編程模型流計(jì)算框架Hadoop上的工作流管理系統(tǒng)提供分布式協(xié)調(diào)一致性服務(wù)10、下面哪個(gè)不是Hadoop1.0的組件：（C）HDFSMapReduceYARNNameNode和DataNode多選題Hadoop的特性包括哪些？ABCD高可擴(kuò)展性支持多種編程語(yǔ)言成本低運(yùn)行在Linux平臺(tái)上下面哪個(gè)是Hadoop2.0的組件？ADResourceManagerJobTrackerTaskTrackerNodeManager一個(gè)基本的Hadoop集群中的節(jié)點(diǎn)主要包括什么？ABCDDataNode：存儲(chǔ)被拆分的數(shù)據(jù)塊JobTracker：協(xié)調(diào)數(shù)據(jù)計(jì)算任務(wù)TaskTracker：負(fù)責(zé)執(zhí)行由JobTracker指派的任務(wù)SecondaryNameNode：幫助NameNode收集文件系統(tǒng)運(yùn)行的狀態(tài)信息下列關(guān)于Hadoop的描述，哪些是正確的？ABCD為用戶(hù)提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)具有很好的跨平臺(tái)特性可以部署在廉價(jià)的計(jì)算機(jī)集群中曾經(jīng)被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開(kāi)源軟件Hadoop集群的整體性能主要受到什么因素影響？ABCDCPU性能內(nèi)存網(wǎng)絡(luò)存儲(chǔ)容量下列關(guān)于Hadoop的描述，哪些是錯(cuò)誤的？AB只能支持一種編程語(yǔ)言具有較差的跨平臺(tái)特性可以部署在廉價(jià)的計(jì)算機(jī)集群中曾經(jīng)被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開(kāi)源軟件下列哪一項(xiàng)不屬于Hadoop的特性？AB較低可擴(kuò)展性只支持java語(yǔ)言成本低運(yùn)行在Linux平臺(tái)上第三章分布式文件系統(tǒng)HDFS單選題分布式文件系統(tǒng)指的是什么？A把文件分布存儲(chǔ)到多個(gè)計(jì)算機(jī)節(jié)點(diǎn)上，成千上萬(wàn)的計(jì)算機(jī)節(jié)點(diǎn)構(gòu)成計(jì)算機(jī)集群用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)傳遞一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)下面哪一項(xiàng)不屬于計(jì)算機(jī)集群中的節(jié)點(diǎn)？B主節(jié)點(diǎn)(MasterNode)源節(jié)點(diǎn)（SourceNode）名稱(chēng)結(jié)點(diǎn)(NameNode)從節(jié)點(diǎn)（SlaveNode）在HDFS中，默認(rèn)一個(gè)塊多大？A64MB32KB128KB16KB下列哪一項(xiàng)不屬于HDFS采用抽象的塊概念帶來(lái)的好處？C簡(jiǎn)化系統(tǒng)設(shè)計(jì)支持大規(guī)模文件存儲(chǔ)強(qiáng)大的跨平臺(tái)兼容性適合數(shù)據(jù)備份在HDFS中，NameNode的主要功能是什么？D維護(hù)了blockid到datanode本地文件的映射關(guān)系存儲(chǔ)文件內(nèi)容文件內(nèi)存保存在磁盤(pán)中存儲(chǔ)元數(shù)據(jù)下面對(duì)FsImage的描述，哪個(gè)是錯(cuò)誤的？DFsImage文件沒(méi)有記錄每個(gè)塊存儲(chǔ)在哪個(gè)數(shù)據(jù)節(jié)點(diǎn)FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式FsImage用于維護(hù)文件系統(tǒng)樹(shù)以及文件樹(shù)中所有的文件和文件夾的元數(shù)據(jù)FsImage文件記錄了每個(gè)塊具體被存儲(chǔ)在哪個(gè)數(shù)據(jù)節(jié)點(diǎn)下面對(duì)SecondaryNameNode第二名稱(chēng)節(jié)點(diǎn)的描述，哪個(gè)是錯(cuò)誤的？ASecondaryNameNode一般是并行運(yùn)行在多臺(tái)機(jī)器上它是用來(lái)保存名稱(chēng)節(jié)點(diǎn)中對(duì)HDFS元數(shù)據(jù)信息的備份，并減少名稱(chēng)節(jié)點(diǎn)重啟的時(shí)間SecondaryNameNode通過(guò)HTTPGET方式從NameNode上獲取到FsImage和EditLog文件，并下載到本地的相應(yīng)目錄下SecondaryNameNode是HDFS架構(gòu)中的一個(gè)組成部分HDFS采用了什么模型？B分層模型主從結(jié)構(gòu)模型管道-過(guò)濾器模型點(diǎn)對(duì)點(diǎn)模型在Hadoop項(xiàng)目結(jié)構(gòu)中，HDFS指的是什么？A分布式文件系統(tǒng)流數(shù)據(jù)讀寫(xiě)資源管理和調(diào)度器Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)下列關(guān)于HDFS的描述，哪個(gè)不正確？DHDFS還采用了相應(yīng)的數(shù)據(jù)存放、數(shù)據(jù)讀取和數(shù)據(jù)復(fù)制策略，來(lái)提升系統(tǒng)整體讀寫(xiě)響應(yīng)性能HDFS采用了主從（Master/Slave）結(jié)構(gòu)模型HDFS采用了冗余數(shù)據(jù)存儲(chǔ)，增強(qiáng)了數(shù)據(jù)可靠性HDFS采用塊的概念，使得系統(tǒng)的設(shè)計(jì)變得更加復(fù)雜多選題HDFS要實(shí)現(xiàn)以下哪幾個(gè)目標(biāo)？ABC兼容廉價(jià)的硬件設(shè)備流數(shù)據(jù)讀寫(xiě)大數(shù)據(jù)集復(fù)雜的文件模型HDFS特殊的設(shè)計(jì)，在實(shí)現(xiàn)優(yōu)良特性的同時(shí)，也使得自身具有一些應(yīng)用局限性，主要包括以下哪幾個(gè)方面？BCD較差的跨平臺(tái)兼容性無(wú)法高效存儲(chǔ)大量小文件不支持多用戶(hù)寫(xiě)入及任意修改文件不適合低延遲數(shù)據(jù)訪問(wèn)HDFS采用抽象的塊概念可以帶來(lái)以下哪幾個(gè)明顯的好處？ACD支持大規(guī)模文件存儲(chǔ)支持小規(guī)模文件存儲(chǔ)適合數(shù)據(jù)備份簡(jiǎn)化系統(tǒng)設(shè)計(jì)在HDFS中，名稱(chēng)節(jié)點(diǎn)（NameNode）主要保存了哪些核心的數(shù)據(jù)結(jié)構(gòu)？ADFsImageDN8BlockEditLog數(shù)據(jù)節(jié)點(diǎn)（DataNode）的主要功能包括哪些？ABC負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和讀取根據(jù)客戶(hù)端或者是名稱(chēng)節(jié)點(diǎn)的調(diào)度來(lái)進(jìn)行數(shù)據(jù)的存儲(chǔ)和檢索向名稱(chēng)節(jié)點(diǎn)定期發(fā)送自己所存儲(chǔ)的塊的列表用來(lái)保存名稱(chēng)節(jié)點(diǎn)中對(duì)HDFS元數(shù)據(jù)信息的備份，并減少名稱(chēng)節(jié)點(diǎn)重啟的時(shí)間HDFS的命名空間包含什么？BCD磁盤(pán)文件塊目錄下列對(duì)于客服端的描述，哪些是正確的？ABCD客戶(hù)端是用戶(hù)操作HDFS最常用的方式，HDFS在部署時(shí)都提供了客戶(hù)端HDFS客戶(hù)端是一個(gè)庫(kù)，暴露了HDFS文件系統(tǒng)接口嚴(yán)格來(lái)說(shuō)，客戶(hù)端并不算是HDFS的一部分客戶(hù)端可以支持打開(kāi)、讀取、寫(xiě)入等常見(jiàn)的操作HDFS只設(shè)置唯一一個(gè)名稱(chēng)節(jié)點(diǎn)，這樣做雖然大大簡(jiǎn)化了系統(tǒng)設(shè)計(jì)，但也帶來(lái)了哪些明顯的局限性？ABCD命名空間的限制性能的瓶頸隔離問(wèn)題集群的可用性HDFS數(shù)據(jù)塊多副本存儲(chǔ)具備以下哪些優(yōu)點(diǎn)？ABC加快數(shù)據(jù)傳輸速度容易檢查數(shù)據(jù)錯(cuò)誤保證數(shù)據(jù)可靠性適合多平臺(tái)上運(yùn)行HDFS具有較高的容錯(cuò)性，設(shè)計(jì)了哪些相應(yīng)的機(jī)制檢測(cè)數(shù)據(jù)錯(cuò)誤和進(jìn)行自動(dòng)恢復(fù)？BCD數(shù)據(jù)源太大數(shù)據(jù)節(jié)點(diǎn)出錯(cuò)數(shù)據(jù)出錯(cuò)名稱(chēng)節(jié)點(diǎn)出錯(cuò)第四章分布式數(shù)據(jù)庫(kù)HBase單選題下列關(guān)于BigTable的描述，哪個(gè)是錯(cuò)誤的？A爬蟲(chóng)持續(xù)不斷地抓取新頁(yè)面，這些頁(yè)面每隔一段時(shí)間地存儲(chǔ)到BigTable里BigTable是一個(gè)分布式存儲(chǔ)系統(tǒng)BigTable起初用于解決典型的互聯(lián)網(wǎng)搜索問(wèn)題網(wǎng)絡(luò)搜索應(yīng)用查詢(xún)建立好的索引，從BigTable得到網(wǎng)頁(yè)下列選項(xiàng)中，關(guān)于HBase和BigTable的底層技術(shù)對(duì)應(yīng)關(guān)系，哪個(gè)是錯(cuò)誤的？BGFS與HDFS相對(duì)應(yīng)GFS與Zookeeper相對(duì)應(yīng)MapReduce與HadoopMapReduce相對(duì)應(yīng)Chubby與Zookeeper相對(duì)應(yīng)在HBase中，關(guān)于數(shù)據(jù)操作的描述，下列哪一項(xiàng)是錯(cuò)誤的？CHBase采用了更加簡(jiǎn)單的數(shù)據(jù)模型，它把數(shù)據(jù)存儲(chǔ)為未經(jīng)解釋的字符串HBase操作不存在復(fù)雜的表與表之間的關(guān)系HBase不支持修改操作HBase在設(shè)計(jì)上就避免了復(fù)雜的表和表之間的關(guān)系在HBase訪問(wèn)接口中，Pig主要用在哪個(gè)場(chǎng)合？D適合HadoopMapReduce作業(yè)并行批處理HBase表數(shù)據(jù)適合HBase管理使用適合其他異構(gòu)系統(tǒng)在線(xiàn)訪問(wèn)HBase表數(shù)據(jù)適合做數(shù)據(jù)統(tǒng)計(jì)HBase中需要根據(jù)某些因素來(lái)確定一個(gè)單元格，這些因素可以視為一個(gè)“四維坐標(biāo)”，下面哪個(gè)不屬于“四維坐標(biāo)”？B行鍵關(guān)鍵字列族時(shí)間戳關(guān)于HBase的三層結(jié)構(gòu)中各層次的名稱(chēng)和作用的說(shuō)法，哪個(gè)是錯(cuò)誤的？AZookeeper文件記錄了用戶(hù)數(shù)據(jù)表的Region位置信息-ROOT-表記錄了.META.表的Region位置信息.META.表保存了HBase中所有用戶(hù)數(shù)據(jù)表的Region位置信息Zookeeper文件記錄了-ROOT-表的位置信息下面關(guān)于主服務(wù)器Master主要負(fù)責(zé)表和Region的管理工作的描述，哪個(gè)是錯(cuò)誤的？D在Region分裂或合并后，負(fù)責(zé)重新調(diào)整Region的分布對(duì)發(fā)生故障失效的Region服務(wù)器上的Region進(jìn)行遷移管理用戶(hù)對(duì)表的增加、刪除、修改、查詢(xún)等操作不支持不同Region服務(wù)器之間的負(fù)載均衡HBase只有一個(gè)針對(duì)行健的索引，如果要訪問(wèn)HBase表中的行，下面哪種方式是不可行的？B通過(guò)單個(gè)行健訪問(wèn)通過(guò)時(shí)間戳訪問(wèn)通過(guò)一個(gè)行健的區(qū)間來(lái)訪問(wèn)全表掃描下面關(guān)于Region的說(shuō)法，哪個(gè)是錯(cuò)誤的？C同一個(gè)Region不會(huì)被分拆到多個(gè)Region服務(wù)器為了加快訪問(wèn)速度，.META.表的全部Region都會(huì)被保存在內(nèi)存中一個(gè)-ROOT-表可以有多個(gè)Region為了加速尋址，客戶(hù)端會(huì)緩存位置信息，同時(shí)，需要解決緩存失效問(wèn)題多選題關(guān)系數(shù)據(jù)庫(kù)已經(jīng)流行很多年，并且Hadoop已經(jīng)有了HDFS和MapReduce，為什么需要HBase？ABCDHadoop可以很好地解決大規(guī)模數(shù)據(jù)的離線(xiàn)批量處理問(wèn)題，但是，受限于HadoopMapReduce編程框架的高延遲數(shù)據(jù)處理機(jī)制，使得Hadoop無(wú)法滿(mǎn)足大規(guī)模數(shù)據(jù)實(shí)時(shí)處理應(yīng)用的需求上HDFS面向批量訪問(wèn)模式，不是隨機(jī)訪問(wèn)模式傳統(tǒng)的通用關(guān)系型數(shù)據(jù)庫(kù)無(wú)法應(yīng)對(duì)在數(shù)據(jù)規(guī)模劇增時(shí)導(dǎo)致的系統(tǒng)擴(kuò)展性和性能問(wèn)題傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)在數(shù)據(jù)結(jié)構(gòu)變化時(shí)一般需要停機(jī)維護(hù)；空列浪費(fèi)存儲(chǔ)空間HBase與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)的區(qū)別主要體現(xiàn)在以下哪幾個(gè)方面？ABCD數(shù)據(jù)類(lèi)型數(shù)據(jù)操作存儲(chǔ)模式數(shù)據(jù)維護(hù)HBase訪問(wèn)接口類(lèi)型包括哪些？ABCDNativeJavaAPIHBaseShellThriftGatewayRESTGateway下列關(guān)于數(shù)據(jù)模型的描述，哪些是正確的？ABCDHBase采用表來(lái)組織數(shù)據(jù)，表由行和列組成，列劃分為若干個(gè)列族每個(gè)HBase表都由若干行組成，每個(gè)行由行鍵（rowkey）來(lái)標(biāo)識(shí)列族里的數(shù)據(jù)通過(guò)列限定符（或列）來(lái)定位每個(gè)單元格都保存著同一份數(shù)據(jù)的多個(gè)版本，這些版本采用時(shí)間戳進(jìn)行索引HBase的實(shí)現(xiàn)包括哪三個(gè)主要的功能組件？ABC庫(kù)函數(shù)：鏈接到每個(gè)客戶(hù)端一個(gè)Master主服務(wù)器許多個(gè)Region服務(wù)器廉價(jià)的計(jì)算機(jī)集群HBase的三層結(jié)構(gòu)中，三層指的是哪三層？ABCZookeeper文件-ROOT-表.META.表數(shù)據(jù)類(lèi)型以下哪些軟件可以對(duì)HBase進(jìn)行性能監(jiān)視？ABCDMaster-status(自帶)GangliaOpenTSDBAmbariZookeeper是一個(gè)很好的集群管理工具，被大量用于分布式計(jì)算，它主要提供什么服務(wù)？ABC配置維護(hù)域名服務(wù)分布式同步負(fù)載均衡服務(wù)下列關(guān)于Region服務(wù)器工作原理的描述，哪些是正確的？ABCD每個(gè)Region服務(wù)器都有一個(gè)自己的HLog文件每次刷寫(xiě)都生成一個(gè)新的StoreFile，數(shù)量太多，影響查找速度合并操作比較耗費(fèi)資源，只有數(shù)量達(dá)到一個(gè)閾值才啟動(dòng)合并Store是Region服務(wù)器的核心下列關(guān)于HLog工作原理的描述，哪些是正確的？ABCD分布式環(huán)境必須要考慮系統(tǒng)出錯(cuò)。HBase采用HLog保證HBase系統(tǒng)為每個(gè)Region服務(wù)器配置了一個(gè)HLog文件Zookeeper會(huì)實(shí)時(shí)監(jiān)測(cè)每個(gè)Region服務(wù)器的狀態(tài)Master首先會(huì)處理該故障Region服務(wù)器上面遺留的HLog文件第五章NoSQL數(shù)據(jù)庫(kù)單選題下列哪個(gè)不屬于NoSQL數(shù)據(jù)庫(kù)的特點(diǎn)？D靈活的可擴(kuò)展性靈活的數(shù)據(jù)模型與云計(jì)算緊密融合數(shù)據(jù)存儲(chǔ)規(guī)模有限下面關(guān)于NoSQL和關(guān)系數(shù)據(jù)庫(kù)的簡(jiǎn)單比較，哪個(gè)是錯(cuò)誤的？BRDBMS有關(guān)系代數(shù)理論作為基礎(chǔ)，NoSQL沒(méi)有統(tǒng)一的理論基礎(chǔ)NoSQL很難實(shí)現(xiàn)橫向擴(kuò)展，RDBMS可以很容易通過(guò)添加更多設(shè)備來(lái)支持更大規(guī)模的數(shù)據(jù)RDBMS需要定義數(shù)據(jù)庫(kù)模式，嚴(yán)格遵守?cái)?shù)據(jù)定義，NoSQL一般不存在數(shù)據(jù)庫(kù)模式，可以自由靈活定義并存儲(chǔ)各種不同類(lèi)型的數(shù)據(jù)RDBMS借助于索引機(jī)制可以實(shí)現(xiàn)快速查詢(xún)，很多NoSQL數(shù)據(jù)庫(kù)沒(méi)有面向復(fù)雜查詢(xún)的索引下列哪一項(xiàng)不屬于NoSQL的四大類(lèi)型？D文檔數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù)列族數(shù)據(jù)庫(kù)時(shí)間戳數(shù)據(jù)庫(kù)下列關(guān)于鍵值數(shù)據(jù)庫(kù)的描述，哪一項(xiàng)是錯(cuò)誤的？D擴(kuò)展性好，靈活性好大量寫(xiě)操作時(shí)性能高無(wú)法存儲(chǔ)結(jié)構(gòu)化信息條件查詢(xún)效率高下列關(guān)于列族數(shù)據(jù)庫(kù)的描述，哪一項(xiàng)是錯(cuò)誤的？A查找速度慢，可擴(kuò)展性差功能較少，大都不支持強(qiáng)事務(wù)一致性容易進(jìn)行分布式擴(kuò)展復(fù)雜性低下列哪一項(xiàng)不屬于數(shù)據(jù)庫(kù)事務(wù)具有ACID四性？A間斷性原子性一致性持久性下面關(guān)于MongoDB說(shuō)法，哪一項(xiàng)是正確的？D具有較差的水平可擴(kuò)展性設(shè)置個(gè)別屬性的索引來(lái)實(shí)現(xiàn)更快的排序提供了一個(gè)面向文檔存儲(chǔ)，操作復(fù)雜可以實(shí)現(xiàn)替換完成的文檔（數(shù)據(jù)）或者一些指定的數(shù)據(jù)字段下列關(guān)于NoSQL與關(guān)系數(shù)據(jù)庫(kù)的比較，哪個(gè)說(shuō)法是錯(cuò)誤的？D在一致性方面，RDBMS強(qiáng)于NoSQL在數(shù)據(jù)完整性方面，RDBMS容易實(shí)現(xiàn)在擴(kuò)展性方面，NoSQL比較好在可用性方面，NoSQL優(yōu)于RDBMS關(guān)于文檔數(shù)據(jù)庫(kù)的說(shuō)法，下列哪一項(xiàng)是錯(cuò)誤的？A數(shù)據(jù)是規(guī)則的性能好（高并發(fā)）缺乏統(tǒng)一的查詢(xún)語(yǔ)法復(fù)雜性低多選題關(guān)系數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿(mǎn)足Web2.0的需求，主要表現(xiàn)在以下幾個(gè)方面？ABC無(wú)法滿(mǎn)足海量數(shù)據(jù)的管理需求無(wú)法滿(mǎn)足數(shù)據(jù)高并發(fā)的需求無(wú)法滿(mǎn)足高可擴(kuò)展性和高可用性的需求使用難度高下列關(guān)于MySQL集群的描述，哪些是正確的？ABCD復(fù)雜性：部署、管理、配置很復(fù)雜數(shù)據(jù)庫(kù)復(fù)制：MySQL主備之間一般采用復(fù)制方式，很多時(shí)候是異步復(fù)制擴(kuò)容問(wèn)題：如果系統(tǒng)壓力過(guò)大需要增加新的機(jī)器，這個(gè)過(guò)程涉及數(shù)據(jù)重新劃分動(dòng)態(tài)數(shù)據(jù)遷移問(wèn)題：如果某個(gè)數(shù)據(jù)庫(kù)組壓力過(guò)大，需要將其中部分?jǐn)?shù)據(jù)遷移出去關(guān)系數(shù)據(jù)庫(kù)引以為傲的兩個(gè)關(guān)鍵特性（完善的事務(wù)機(jī)制和高效的查詢(xún)機(jī)制），到了Web2.0時(shí)代卻成了雞肋，主要表現(xiàn)在以下哪幾個(gè)方面？ACDWeb2.0網(wǎng)站系統(tǒng)通常不要求嚴(yán)格的數(shù)據(jù)庫(kù)事務(wù)Web2.0網(wǎng)站系統(tǒng)基本上不用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù)Web2.0并不要求嚴(yán)格的讀寫(xiě)實(shí)時(shí)性Web2.0通常不包含大量復(fù)雜的SQL查詢(xún)下面關(guān)于NoSQL與關(guān)系數(shù)據(jù)庫(kù)的比較，哪些是正確的？ABCD關(guān)系數(shù)據(jù)庫(kù)以完善的關(guān)系代數(shù)理論作為基礎(chǔ)，有嚴(yán)格的標(biāo)準(zhǔn)關(guān)系數(shù)據(jù)庫(kù)可擴(kuò)展性較差，無(wú)法較好支持海量數(shù)據(jù)存儲(chǔ)NoSQL可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ)NoSQL數(shù)據(jù)庫(kù)缺乏數(shù)學(xué)理論基礎(chǔ)，復(fù)雜查詢(xún)性能不高下列關(guān)于文檔數(shù)據(jù)庫(kù)的描述，哪些是正確的？AD性能好（高并發(fā)），靈活性高具備統(tǒng)一的查詢(xún)語(yǔ)法文檔數(shù)據(jù)庫(kù)支持文檔間的事務(wù)復(fù)雜性低，數(shù)據(jù)結(jié)構(gòu)靈活下列關(guān)于圖數(shù)據(jù)庫(kù)的描述，哪些是正確的？ABCD專(zhuān)門(mén)用于處理具有高度相互關(guān)聯(lián)關(guān)系的數(shù)據(jù)比較適合于社交網(wǎng)絡(luò)、模式識(shí)別、依賴(lài)分析、推薦系統(tǒng)以及路徑尋找等問(wèn)題靈活性高，支持復(fù)雜的圖算法復(fù)雜性高，只能支持一定的數(shù)據(jù)規(guī)模NoSQL的三大基石？ABCCAP最終一致性BASEDN8關(guān)于NoSQL的三大基石之一的CAP，下列哪些說(shuō)法是正確的？ACD一致性，是指任何一個(gè)讀操作總是能夠讀到之前完成的寫(xiě)操作的結(jié)果量一個(gè)分布式系統(tǒng)可以同時(shí)滿(mǎn)足一致性、可用性和分區(qū)容忍性這三個(gè)需求可用性，是指快速獲取數(shù)據(jù)分區(qū)容忍性，是指當(dāng)出現(xiàn)網(wǎng)絡(luò)分區(qū)的情況時(shí)（即系統(tǒng)中的一部分節(jié)點(diǎn)無(wú)法和其他節(jié)點(diǎn)進(jìn)行通信），分離的系統(tǒng)也能夠正常運(yùn)行當(dāng)處理CAP的問(wèn)題時(shí)，可以有哪幾個(gè)明顯的選擇？ABCCA：也就是強(qiáng)調(diào)一致性（C）和可用性（A），放棄分區(qū)容忍性（P）CP：也就是強(qiáng)調(diào)一致性（C）和分區(qū)容忍性（P），放棄可用性（A）AP：也就是強(qiáng)調(diào)可用性（A）和分區(qū)容忍性（P），放棄一致性（C）CAP：也就是同時(shí)兼顧可用性（A）、分區(qū)容忍性（P）和一致性（C），當(dāng)時(shí)系統(tǒng)性能會(huì)下降很多數(shù)據(jù)庫(kù)事務(wù)具有ACID四性，下面哪幾項(xiàng)屬于四性？ABD原子性持久性間斷性一致性第六章云數(shù)據(jù)庫(kù)單選題下列哪個(gè)不屬于云計(jì)算的優(yōu)勢(shì)？D按需服務(wù)隨時(shí)服務(wù)通用性?xún)r(jià)格不菲下列關(guān)于云數(shù)據(jù)庫(kù)的描述，哪個(gè)是錯(cuò)誤的？C云數(shù)據(jù)庫(kù)是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫(kù)云數(shù)據(jù)庫(kù)是在云計(jì)算的大背景下發(fā)展起來(lái)的一種新興的共享基礎(chǔ)架構(gòu)的方法云數(shù)據(jù)庫(kù)價(jià)格不菲，維護(hù)費(fèi)用極其昂貴云數(shù)據(jù)庫(kù)具有高可擴(kuò)展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點(diǎn)下列哪一個(gè)不屬于云數(shù)據(jù)庫(kù)產(chǎn)品？A本地安裝MySQL阿里云RDSOracleCloud百度云數(shù)據(jù)庫(kù)UMP系統(tǒng)是構(gòu)建在一個(gè)大的集群之上的，下列哪一項(xiàng)不屬于系統(tǒng)向用戶(hù)提供的功能？D讀寫(xiě)分離分庫(kù)分表數(shù)據(jù)安全資源合并下列關(guān)于UMP系統(tǒng)功能的說(shuō)法，哪個(gè)是錯(cuò)誤的？D充分利用主從庫(kù)實(shí)現(xiàn)用戶(hù)讀寫(xiě)操作的分離，實(shí)現(xiàn)負(fù)載均衡UMP系統(tǒng)實(shí)現(xiàn)了對(duì)于用戶(hù)透明的讀寫(xiě)分離功能UMP采用的兩種資源隔離方式（用Cgroup限制MySQL進(jìn)程資源和在Proxy服務(wù)器端限制QPS）UMP系統(tǒng)只設(shè)計(jì)了一種機(jī)制來(lái)保證數(shù)據(jù)安全下列關(guān)于阿里云RDS的說(shuō)法，哪個(gè)是錯(cuò)誤的？DRDS是阿里云提供的關(guān)系型數(shù)據(jù)庫(kù)服務(wù)RDS由專(zhuān)業(yè)數(shù)據(jù)庫(kù)管理團(tuán)隊(duì)維護(hù)RDS具有安全穩(wěn)定、數(shù)據(jù)可靠、自動(dòng)備份RDS實(shí)例，是用戶(hù)購(gòu)買(mǎi)RDS服務(wù)的基本單位，在實(shí)例中，用戶(hù)只能創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)下面哪一項(xiàng)不是云數(shù)據(jù)庫(kù)的特性？B動(dòng)態(tài)可擴(kuò)展高成本易用性大規(guī)模并行處理下列哪個(gè)不是UMP系統(tǒng)中的角色？DController服務(wù)器Proxy服務(wù)器愚公系統(tǒng)阿斯隆服務(wù)器關(guān)于UMP系統(tǒng)架構(gòu)依賴(lài)的開(kāi)源組件Mnesia，說(shuō)法錯(cuò)誤的是哪一項(xiàng)？BMnesia是一個(gè)分布式數(shù)據(jù)庫(kù)管理系統(tǒng)Mnesia的數(shù)據(jù)庫(kù)模式(schema)只能在未運(yùn)行前靜態(tài)重配置Mnesia的這些特性，使其在開(kāi)發(fā)云數(shù)據(jù)庫(kù)時(shí)被用來(lái)提供分布式數(shù)據(jù)庫(kù)服務(wù)Mnesia支持事務(wù)，支持透明的數(shù)據(jù)分片關(guān)于UMP系統(tǒng)架構(gòu)的Controller服務(wù)器，說(shuō)法錯(cuò)誤的是哪一項(xiàng)？CController服務(wù)器向UMP集群提供各種管理服務(wù)Controller服務(wù)器上運(yùn)行了一組Mnesia分布式數(shù)據(jù)庫(kù)服務(wù)當(dāng)其它服務(wù)器組件需要獲取用戶(hù)數(shù)據(jù)時(shí)，不可以向Controller服務(wù)器發(fā)送請(qǐng)求獲取數(shù)據(jù)為了避免單點(diǎn)故障，保證系統(tǒng)的高可用性，UMP系統(tǒng)中部署了多臺(tái)Controller服務(wù)器多選題云數(shù)據(jù)庫(kù)具有以下哪些特性？ABCD動(dòng)態(tài)可擴(kuò)展高可用性免維護(hù)安全下列關(guān)于云數(shù)據(jù)庫(kù)的描述，哪些是正確的？ABCDAmazon是云數(shù)據(jù)庫(kù)市場(chǎng)的先行者GoogleCloudSQL是谷歌公司推出的基于MySQL的云數(shù)據(jù)庫(kù)從數(shù)據(jù)模型的角度來(lái)說(shuō)，云數(shù)據(jù)庫(kù)并非一種全新的數(shù)據(jù)庫(kù)技術(shù)云數(shù)據(jù)庫(kù)并沒(méi)有專(zhuān)屬于自己的數(shù)據(jù)模型UMP系統(tǒng)架構(gòu)設(shè)計(jì)遵循了以下哪些原則？ABCD保持單一的系統(tǒng)對(duì)外入口，并且為系統(tǒng)內(nèi)部維護(hù)單一的資源池消除單點(diǎn)故障，保證服務(wù)的高可用性保證系統(tǒng)具有良好的可伸縮，能夠動(dòng)態(tài)地增加、刪減計(jì)算與存儲(chǔ)節(jié)點(diǎn)保證分配給用戶(hù)的資源也是彈性可伸縮的UMP系統(tǒng)架構(gòu)依賴(lài)的哪些開(kāi)源組件？ABCDMnesiaLVSRabbitMQZooKeeper下列關(guān)于UMP系統(tǒng)架構(gòu)的描述，哪些是正確的？ACD信息統(tǒng)計(jì)服務(wù)器定期將采集到的用戶(hù)的連接數(shù)Web控制臺(tái)無(wú)法向用戶(hù)提供系統(tǒng)管理界面LVS(LinuxVirtualServer)即Linux虛擬服務(wù)器UMP系統(tǒng)借助于LVS來(lái)實(shí)現(xiàn)集群內(nèi)部的負(fù)載均衡為什么說(shuō)云數(shù)據(jù)庫(kù)是個(gè)性化數(shù)據(jù)存儲(chǔ)需求的理想選擇？ABCD云數(shù)據(jù)庫(kù)可以滿(mǎn)足大企業(yè)的海量數(shù)據(jù)存儲(chǔ)需求云數(shù)據(jù)庫(kù)可以滿(mǎn)足中小企業(yè)的低成本數(shù)據(jù)存儲(chǔ)需求云數(shù)據(jù)庫(kù)可以滿(mǎn)足企業(yè)動(dòng)態(tài)變化的數(shù)據(jù)存儲(chǔ)需求前期零投入、后期免維護(hù)的數(shù)據(jù)庫(kù)服務(wù)，可以很好滿(mǎn)足它們的需求下列關(guān)于云數(shù)據(jù)庫(kù)與其他數(shù)據(jù)庫(kù)的關(guān)系，哪些是正確的？ABD從數(shù)據(jù)模型的角度來(lái)說(shuō)，云數(shù)據(jù)庫(kù)并非一種全新的數(shù)據(jù)庫(kù)技術(shù)云數(shù)據(jù)庫(kù)并沒(méi)有專(zhuān)屬于自己的數(shù)據(jù)模型，云數(shù)據(jù)庫(kù)所采用的數(shù)據(jù)模型可以是關(guān)系數(shù)據(jù)庫(kù)所使用的關(guān)系模型同一個(gè)公司只能提供采用不同數(shù)據(jù)模型的單個(gè)云數(shù)據(jù)庫(kù)服務(wù)許多公司在開(kāi)發(fā)云數(shù)據(jù)庫(kù)時(shí)，后端數(shù)據(jù)庫(kù)都是直接使用現(xiàn)有的各種關(guān)系數(shù)據(jù)庫(kù)或NoSQL數(shù)據(jù)庫(kù)產(chǎn)品以下哪些是Amazon的云數(shù)據(jù)庫(kù)產(chǎn)品？ABCAmazonRDS：云中的關(guān)系數(shù)據(jù)庫(kù)AmazonSimpleDB：云中的鍵值數(shù)據(jù)庫(kù)AmazonDynamoDB：云中的數(shù)據(jù)倉(cāng)庫(kù)AmazonElastiCache：云中的分布式內(nèi)存緩存Microsoft的云數(shù)據(jù)庫(kù)產(chǎn)品SQLAzure具有以下哪些特性？ABCD屬于關(guān)系型數(shù)據(jù)庫(kù)：支持使用TSQL來(lái)管理、創(chuàng)建和操作云數(shù)據(jù)庫(kù)支持存儲(chǔ)過(guò)程：它的數(shù)據(jù)類(lèi)型、存儲(chǔ)過(guò)程和傳統(tǒng)的SQLServer具有很大的相似性支持大量數(shù)據(jù)類(lèi)型支持云中的事務(wù)：支持局部事務(wù)，但是不支持分布式事務(wù)

第七章MapReduce單選題下列傳統(tǒng)并行計(jì)算框架，說(shuō)法錯(cuò)誤的是哪一項(xiàng)？B刀片服務(wù)器、高速網(wǎng)、SAN，價(jià)格貴，擴(kuò)展性差上共享式(共享內(nèi)存/共享存儲(chǔ))，容錯(cuò)性好編程難度高實(shí)時(shí)、細(xì)粒度計(jì)算、計(jì)算密集型下列關(guān)于MapReduce模型的描述，錯(cuò)誤的是哪一項(xiàng)？DMapReduce采用“分而治之”策略MapReduce設(shè)計(jì)的一個(gè)理念就是“計(jì)算向數(shù)據(jù)靠攏”MapReduce框架采用了Master/Slave架構(gòu)MapReduce應(yīng)用程序只能用Java來(lái)寫(xiě)MapReduce1.0的體系結(jié)構(gòu)中，JobTracker是主要任務(wù)是什么？A負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度，監(jiān)控所有TaskTracker與Job的健康狀況使用“slot”等量劃分本節(jié)點(diǎn)上的資源量（CPU、內(nèi)存等）會(huì)周期性地通過(guò)“心跳”將本節(jié)點(diǎn)上資源的使用情況和任務(wù)的運(yùn)行進(jìn)度匯報(bào)給TaskTracker會(huì)跟蹤任務(wù)的執(zhí)行進(jìn)度、資源使用量等信息，并將這些信息告訴任務(wù)（Task）下列關(guān)于MapReduce工作流程，哪個(gè)描述是正確的？A所有的數(shù)據(jù)交換都是通過(guò)MapReduce框架自身去實(shí)現(xiàn)的不同的Map任務(wù)之間會(huì)進(jìn)行通信不同的Reduce任務(wù)之間可以發(fā)生信息交換用戶(hù)可以顯式地從一臺(tái)機(jī)器向另一臺(tái)機(jī)器發(fā)送消息下列關(guān)于MapReduce的說(shuō)法，哪個(gè)描述是錯(cuò)誤的？DMapReduce具有廣泛的應(yīng)用，比如關(guān)系代數(shù)運(yùn)算、分組與聚合運(yùn)算等MapReduce將復(fù)雜的、運(yùn)行于大規(guī)模集群上的并行計(jì)算過(guò)程高度地抽象到了兩個(gè)函數(shù)編程人員在不會(huì)分布式并行編程的情況下，也可以很容易將自己的程序運(yùn)行在分布式系統(tǒng)上，完成海量數(shù)據(jù)集的計(jì)算不同的Map任務(wù)之間可以進(jìn)行通信下列關(guān)于Map和Reduce函數(shù)的描述，哪個(gè)是錯(cuò)誤的？CMap將小數(shù)據(jù)集進(jìn)一步解析成一批<key,value>對(duì)，輸入Map函數(shù)中進(jìn)行處理Map每一個(gè)輸入的<k1,v1>會(huì)輸出一批<k2,v2>。<k2,v2>是計(jì)算的中間結(jié)果Reduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于不同k2的valueReduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于同一個(gè)k2的value下面哪一項(xiàng)不是MapReduce體系結(jié)構(gòu)主要部分？AClientJobTrackerTaskTracker以及TaskJob關(guān)于MapReduce1.0的體系結(jié)構(gòu)的描述，下列說(shuō)法錯(cuò)誤的是？ATask分為MapTask和ReduceTask兩種，分別由JobTracker和TaskTracker啟動(dòng)slot分為Mapslot和Reduceslot兩種，分別供MapTask和ReduceTask使用TaskTracker使用“slot”等量劃分本節(jié)點(diǎn)上的資源量（CPU、內(nèi)存等）TaskTracker會(huì)周期性接收J(rèn)obTracker發(fā)送過(guò)來(lái)的命令并執(zhí)行相應(yīng)的操作（如啟動(dòng)新任務(wù)、殺死任務(wù)等）下列說(shuō)法錯(cuò)誤的是？CHadoopMapReduce是MapReduce的開(kāi)源實(shí)現(xiàn)，后者比前者使用門(mén)檻低很多MapReduce采用非共享式架構(gòu)，容錯(cuò)性好MapReduce主要用于批處理、實(shí)時(shí)、計(jì)算密集型應(yīng)用MapReduce采用“分而治之”策略多選題MapReduce相較于傳統(tǒng)的并行計(jì)算框架有什么優(yōu)勢(shì)？ABCD非共享式，容錯(cuò)性好普通PC機(jī)，便宜，擴(kuò)展性好編程簡(jiǎn)單，只要告訴MapReduce做什么即可批處理、非實(shí)時(shí)、數(shù)據(jù)密集型MapReduce體系結(jié)構(gòu)主要由以下那幾個(gè)部分構(gòu)成？ABCDClientJobTrackerTaskTrackerTask下列關(guān)于MapReduce的體系結(jié)構(gòu)的描述，說(shuō)法正確的有？ABD用戶(hù)編寫(xiě)的MapReduce程序通過(guò)Client提交到JobTracker端JobTracker負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度TaskTracker監(jiān)控所有TaskTracker與Job的健康狀況TaskTracker使用“slot”等量劃分本節(jié)點(diǎn)上的資源量（CPU、內(nèi)存等）MapReduce的作業(yè)主要包括什么？AB從磁盤(pán)或從網(wǎng)絡(luò)讀取數(shù)據(jù)，即IO密集工作計(jì)算數(shù)據(jù)，即CPU密集工作針對(duì)不同的工作節(jié)點(diǎn)選擇合適硬件類(lèi)型負(fù)責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲(chǔ)對(duì)于MapReduce而言，其處理單位是split。split是一個(gè)邏輯概念，它包含哪些元數(shù)據(jù)信息？AB數(shù)據(jù)起始位置數(shù)據(jù)長(zhǎng)度數(shù)據(jù)所在節(jié)點(diǎn)數(shù)據(jù)大小下列關(guān)于Map端的Shuffle的描述，哪些是正確的？BCMapReduce默認(rèn)為每個(gè)Map任務(wù)分配1000MB緩存多個(gè)溢寫(xiě)文件歸并成一個(gè)或多個(gè)大文件，文件中的鍵值對(duì)是排序的當(dāng)數(shù)據(jù)很少時(shí)，不需要溢寫(xiě)到磁盤(pán)，直接在緩存中歸并，然后輸出給Reduce每個(gè)Map任務(wù)分配多個(gè)緩存，使得任務(wù)運(yùn)行更有效率MapReduce的具體應(yīng)用包括哪些？ABCD關(guān)系代數(shù)運(yùn)算（選擇、投影、并、交、差、連接）分組與聚合運(yùn)算矩陣-向量乘法矩陣乘法MapReduce執(zhí)行的全過(guò)程包括以下哪幾個(gè)主要階段？ABCD從分布式文件系統(tǒng)讀入數(shù)據(jù)執(zhí)行Map任務(wù)輸出中間結(jié)果通過(guò)Shuffle階段把中間結(jié)果分區(qū)排序整理后發(fā)送給Reduce任務(wù)執(zhí)行Reduce任務(wù)得到最終結(jié)果并寫(xiě)入分布式文件系統(tǒng)下列說(shuō)法正確的是？ABCDMapReduce體系結(jié)構(gòu)主要由四個(gè)部分組成，分別是：Client、JobTracker、TaskTracker以及TaskTask分為MapTask和ReduceTask兩種，均由TaskTracker啟動(dòng)在MapReduce工作流程中，所有的數(shù)據(jù)交換都是通過(guò)MapReduce框架自身去實(shí)現(xiàn)的在MapReduce工作流程中，用戶(hù)不能顯式地從一臺(tái)機(jī)器向另一臺(tái)機(jī)器發(fā)送消息第八章Hadoop再探討單選題Hadoop1.0的核心組件（僅指MapReduce和HDFS，不包括Hadoop生態(tài)系統(tǒng)內(nèi)的Pig、Hive、HBase等其他組件），下列哪項(xiàng)是它的不足？B抽象層次高表達(dá)能力有限，抽象層次低，需人工編碼價(jià)格昂貴可維護(hù)性低下面哪個(gè)選項(xiàng)不屬于Hadoop1.0的問(wèn)題？D單一名稱(chēng)節(jié)點(diǎn)，存在單點(diǎn)失效問(wèn)題單一命名空間，無(wú)法實(shí)現(xiàn)資源隔離資源管理效率低很難上手下列哪項(xiàng)是Hadoop生態(tài)系統(tǒng)中Spark的功能？D處理大規(guī)模數(shù)據(jù)的腳本語(yǔ)言工作流和協(xié)作服務(wù)引擎，協(xié)調(diào)Hadoop上運(yùn)行的不同任務(wù)不支持DAG作業(yè)的計(jì)算框架基于內(nèi)存的分布式并行編程框架，具有較高的實(shí)時(shí)性，并且較好支持迭代計(jì)算在Hadoop生態(tài)系統(tǒng)中，Kafka主要解決Hadoop中存在哪些的問(wèn)題？AHadoop生態(tài)系統(tǒng)中各個(gè)組件和其他產(chǎn)品之間缺乏統(tǒng)一的、高效的數(shù)據(jù)交換中介不同的MapReduce任務(wù)之間存在重復(fù)操作，降低了效率延遲高，而且不適合執(zhí)行迭代計(jì)算抽象層次低，需要手工編寫(xiě)大量代碼下列哪一個(gè)不屬于HDFS1.0中存在的問(wèn)題？A無(wú)法水平擴(kuò)展單點(diǎn)故障問(wèn)題單一命名空間系統(tǒng)整體性能受限于單個(gè)名稱(chēng)節(jié)點(diǎn)的吞吐量關(guān)于HDFSFederation的設(shè)計(jì)的描述，哪個(gè)是錯(cuò)誤的？A屬于不同命名空間的塊可以構(gòu)成同一個(gè)“塊池”HDFSFederation中，所有名稱(chēng)節(jié)點(diǎn)會(huì)共享底層的數(shù)據(jù)節(jié)點(diǎn)存儲(chǔ)資源，數(shù)據(jù)節(jié)點(diǎn)向所有名稱(chēng)節(jié)點(diǎn)匯報(bào)設(shè)計(jì)了多個(gè)相互獨(dú)立的名稱(chēng)節(jié)點(diǎn)HDFS的命名服務(wù)能夠水平擴(kuò)展下列關(guān)于MapReduce1.0的描述，錯(cuò)誤的是？BJobTracker“大包大攬”導(dǎo)致任務(wù)過(guò)重不存在單點(diǎn)故障容易出現(xiàn)內(nèi)存溢出（分配資源只考慮MapReduce任務(wù)數(shù)，不考慮CPU、內(nèi)存）

資源劃分不合理（強(qiáng)制劃分為slot，包括Mapslot和Reduceslot）下列哪個(gè)不屬于YARN體系結(jié)構(gòu)中ResourceManager的功能？D處理客戶(hù)端請(qǐng)求監(jiān)控NodeManager資源分配與調(diào)度處理來(lái)自ApplicationMaster的命令下列哪個(gè)不屬于YARN體系結(jié)構(gòu)中ApplicationMaster的功能？D任務(wù)調(diào)度、監(jiān)控與容錯(cuò)為應(yīng)用程序申請(qǐng)資源將申請(qǐng)的資源分配給內(nèi)部任務(wù)處理來(lái)自ResourceManger的命令多選題下列選項(xiàng)中，哪些屬于Hadoop1.0的核心組件的不足之處？ABCD實(shí)時(shí)性差（適合批處理，不支持實(shí)時(shí)交互式）資源浪費(fèi)（Map和Reduce分兩階段執(zhí)行）執(zhí)行迭代操作效率低難以看到程序整體邏輯Hadoop的優(yōu)化與發(fā)展主要體現(xiàn)在哪幾個(gè)方面？ABCHadoop自身核心組件MapReduce的架構(gòu)設(shè)計(jì)改進(jìn)Hadoop自身核心組件HDFS的架構(gòu)設(shè)計(jì)改進(jìn)Hadoop生態(tài)系統(tǒng)其它組件的不斷豐富Hadoop生態(tài)系統(tǒng)減少不必要的組件，整合系統(tǒng)下列哪些屬于Hadoop2.0相對(duì)于Hadoop1.0的改進(jìn)？ABCD設(shè)計(jì)了HDFSHA提供名稱(chēng)節(jié)點(diǎn)熱備機(jī)制設(shè)計(jì)了HDFSFederation，管理多個(gè)命名空間設(shè)計(jì)了新的資源管理框架YARN下面哪個(gè)屬于不斷完善的Hadoop生態(tài)系統(tǒng)中的組件？ABCPigTezKafkaDN8HDFS1.0主要存在哪些問(wèn)題？ACD單點(diǎn)故障問(wèn)題不可以水平擴(kuò)展單個(gè)名稱(chēng)節(jié)點(diǎn)難以提供不同程序之間的隔離性系統(tǒng)整體性能受限于單個(gè)名稱(chēng)節(jié)點(diǎn)的吞吐量HDFSFederation相對(duì)于HDFS1.0的優(yōu)勢(shì)主要體現(xiàn)在哪里？BCD能夠解決單點(diǎn)故障問(wèn)題HDFS集群擴(kuò)展性性能更高效良好的隔離性JobTracker主要包括哪三大功能？ABC資源管理任務(wù)調(diào)度任務(wù)監(jiān)控?cái)?shù)據(jù)即服務(wù)YARN體系結(jié)構(gòu)主要包括哪三部分？ABDResourceManagerNodeManagerDataManagerApplicationMaster在YARN體系結(jié)構(gòu)中，ApplicationMaster主要功能包括哪些？ABC當(dāng)用戶(hù)作業(yè)提交時(shí)，ApplicationMaster與ResourceManager協(xié)商獲取資源，ResourceManager會(huì)以容器的形式為ApplicationMaster分配資源把獲得的資源進(jìn)一步分配給內(nèi)部的各個(gè)任務(wù)（Map任務(wù)或Reduce任務(wù)），實(shí)現(xiàn)資源的“二次分配”定時(shí)向ResourceManager發(fā)送“心跳”消息，報(bào)告資源的使用情況和應(yīng)用的進(jìn)度信息向ResourceManager匯報(bào)作業(yè)的資源使用情況和每個(gè)容器的運(yùn)行狀態(tài)第九章數(shù)據(jù)倉(cāng)庫(kù)Hive單選題1.下列有關(guān)Hive和Impala的對(duì)比錯(cuò)誤的是:(D)AHive與Impala使用相同的元數(shù)據(jù)BHive與Impala中對(duì)SQL的解釋處理比較相似，都是通過(guò)詞法分析生成執(zhí)行計(jì)劃CHive適合于長(zhǎng)時(shí)間的批處理查詢(xún)分析，而Impala適合于實(shí)時(shí)交互式SQL查詢(xún)DHive在內(nèi)存不足以存儲(chǔ)所有數(shù)據(jù)時(shí)，會(huì)使用外存，而Impala也是如此2.下列關(guān)于Hive基本操作命令的解釋錯(cuò)誤的是:(C)Acreatedatabaseuserdb;//創(chuàng)建數(shù)據(jù)庫(kù)userdbBcreatetableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在，創(chuàng)建表usr，含三個(gè)屬性id,name,ageCloaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目錄’/usr/local/data’下的數(shù)據(jù)文件中的數(shù)據(jù)以追加的方式裝載進(jìn)usr表Dinsertoverwritetablestudentselect*fromuserwhereage>10;//向表usr1中插入來(lái)自u(píng)sr表的age大于10的數(shù)據(jù)并覆蓋student表中原有數(shù)據(jù)3.下面哪個(gè)不可能是Hive的執(zhí)行引擎：（C）A．MapReduceB.TezC.StormD.Spark4.下面描述錯(cuò)誤的是：（C）A．Hive的功能十分強(qiáng)大，可以支持采用SQL方式查詢(xún)Hadoop平臺(tái)上的數(shù)據(jù)B．在實(shí)際應(yīng)用中，Hive也暴露出不穩(wěn)定的問(wèn)題，在極少數(shù)情況下，甚至?xí)霈F(xiàn)端口不響應(yīng)或者進(jìn)程丟失的問(wèn)題C．在HiveHA中，在Hadoop集群上構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù)是由單個(gè)Hive實(shí)例進(jìn)行管理的D．在HiveHA中，客戶(hù)端的查詢(xún)請(qǐng)求首先訪問(wèn)HAProxy，由HAProxy對(duì)訪問(wèn)請(qǐng)求進(jìn)行轉(zhuǎn)發(fā)5.以下哪個(gè)不是數(shù)據(jù)倉(cāng)庫(kù)的特性：（C）A．面向主題的B．集成的C．動(dòng)態(tài)變化的D．反映歷史變化的6.下面關(guān)于Hive的描述錯(cuò)誤的是：（D）A．Hive是一個(gè)構(gòu)建在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)工具B．Hive是由Facebook公司開(kāi)發(fā)的C．Hive在某種程度上可以看作是用戶(hù)編程接口，其本身并不存儲(chǔ)和處理數(shù)據(jù)D．Hive定義了簡(jiǎn)單的類(lèi)似SQL的查詢(xún)語(yǔ)言——HiveQL，它與大部分SQL語(yǔ)法無(wú)法兼容7.下面關(guān)于Hive的描述錯(cuò)誤的是：（D）A．HBase與Hive的功能是互補(bǔ)的，它實(shí)現(xiàn)了Hive不能提供的功能B．當(dāng)采用MapReduce作為執(zhí)行引擎時(shí)，用HiveQL語(yǔ)句編寫(xiě)的處理邏輯，最終都要轉(zhuǎn)化為MapReduce任務(wù)來(lái)運(yùn)行C．Hive一般用于處理靜態(tài)數(shù)據(jù)，主要是BI報(bào)表數(shù)據(jù)D．Hive主要是用于滿(mǎn)足實(shí)時(shí)數(shù)據(jù)流的處理需求8.關(guān)于Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的對(duì)比分析，下面描述錯(cuò)誤的是：（B）A．Hive一般依賴(lài)于分布式文件系統(tǒng)HDFS，而傳統(tǒng)數(shù)據(jù)庫(kù)則依賴(lài)于本地文件系統(tǒng)B．傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)可以針對(duì)多個(gè)列構(gòu)建復(fù)雜的索引，Hive不支持索引C．Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)都支持分區(qū)D.傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)很難實(shí)現(xiàn)橫向擴(kuò)展，Hive具有很好的水平擴(kuò)展性9.以下哪個(gè)不是Hive的用戶(hù)接口模塊：（A）A．PMIB．HWI（HiveWebInterface）C．JDBC/ODBCD.ThriftServer多選題1.下列說(shuō)法正確的是：（BCD）A數(shù)據(jù)倉(cāng)庫(kù)Hive不需要借助于HDFS就可以完成數(shù)據(jù)的存儲(chǔ)BImpala和Hive、HDFS、HBase等工具可以統(tǒng)一部署在一個(gè)Hadoop平臺(tái)上CHive本身不存儲(chǔ)和處理數(shù)據(jù)，依賴(lài)HDFS存儲(chǔ)數(shù)據(jù)，依賴(lài)MapReduce處理數(shù)據(jù)DHiveQL語(yǔ)法與傳統(tǒng)的SQL語(yǔ)法很相似2.Impala主要由哪幾個(gè)部分組成:(ABC)AImpaladBStateStoreCCLIDHive3.以下屬于Hive的基本數(shù)據(jù)類(lèi)型是:(ABCD)ATINYINTBFLOATCSTRINGDBINARY4.數(shù)據(jù)倉(cāng)庫(kù)Hive的執(zhí)行引擎可以是：（ABD）A.TezB.MapReduceC.PigD.Spark5.以下哪些是數(shù)據(jù)倉(cāng)庫(kù)的特性：（ABCD）A．面向主題的（SubjectOriented）B．集成的（Integrated）C．相對(duì)穩(wěn)定的（Non-Volatile）D．反映歷史變化6.傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)面臨哪些挑戰(zhàn)：（ABD）A．無(wú)法滿(mǎn)足快速增長(zhǎng)的海量數(shù)據(jù)存儲(chǔ)需求B．無(wú)法有效處理不同類(lèi)型的數(shù)據(jù)C.具有很強(qiáng)的擴(kuò)展性D.計(jì)算和處理能力不足7.Hadoop生態(tài)系統(tǒng)中Hive與其他部分的關(guān)系的描述正確的是：（ABCD）A．HDFS作為高可靠的底層存儲(chǔ)，用來(lái)存儲(chǔ)Hive的海量數(shù)據(jù)B.MapReduce對(duì)這些海量數(shù)據(jù)進(jìn)行批處理，實(shí)現(xiàn)Hive的高性能計(jì)算C．當(dāng)采用MapRedue作為Hive的執(zhí)行引擎時(shí)，用HiveQL語(yǔ)句編寫(xiě)的處理邏輯，最終都要轉(zhuǎn)化為MapReduce任務(wù)來(lái)運(yùn)行D．HBase與Hive的功能是互補(bǔ)的，它實(shí)現(xiàn)了Hive不能提供的功能8.關(guān)于Hive與傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的對(duì)比分析，下面描述正確的是：（ABD）A．在數(shù)據(jù)存儲(chǔ)方面，Hive一般依賴(lài)于分布式文件系統(tǒng)HDFS，而傳統(tǒng)數(shù)據(jù)庫(kù)則依賴(lài)于本地文件系統(tǒng)B．在索引方面，傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)可以針對(duì)多個(gè)列構(gòu)建復(fù)雜的索引，大幅度提升數(shù)據(jù)查詢(xún)性能，而Hive不像傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)那樣有鍵的概念，它只能提供有限的索引功能C．在分區(qū)方面，傳統(tǒng)的數(shù)據(jù)庫(kù)提供分區(qū)功能來(lái)改善大型表以及具有各種訪問(wèn)模式的表的可伸縮性、可管理性，以及提高數(shù)據(jù)庫(kù)效率；Hive不支持分區(qū)功能D．在執(zhí)行引擎方面，傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)依賴(lài)自身的執(zhí)行引擎，而Hive則依賴(lài)于MapReduce、Tez和Spark等執(zhí)行引擎9.Hive主要由哪三個(gè)模塊組成：（ABD）A．用戶(hù)接口模塊B．用戶(hù)查詢(xún)模塊C．驅(qū)動(dòng)模塊D．元數(shù)據(jù)存儲(chǔ)模塊10.當(dāng)采用MapReduce作為Hive的執(zhí)行引擎時(shí)，下面描述正確的是：（ABC）A．當(dāng)用戶(hù)向Hive輸入一段命令或查詢(xún)（即HiveQL語(yǔ)句）時(shí)，Hive需要與Hadoop交互工作來(lái)完成該操作B．命令或查詢(xún)首先進(jìn)入到驅(qū)動(dòng)模塊，由驅(qū)動(dòng)模塊中的編譯器進(jìn)行解析編譯，并由優(yōu)化器對(duì)該操作進(jìn)行優(yōu)化計(jì)算，然后交給執(zhí)行器去執(zhí)行C．執(zhí)行器通常的任務(wù)是啟動(dòng)一個(gè)或多個(gè)MapReduce任務(wù)，有時(shí)也不需要啟動(dòng)MapReduce任務(wù)D.執(zhí)行器通常的任務(wù)一定會(huì)包含Map和Reduce操作第十章Spark單選題下列關(guān)于Spark的描述，錯(cuò)誤的是哪一項(xiàng)？D(A)Spark最初由美國(guó)加州伯克利大學(xué)（UCBerkeley）的AMP實(shí)驗(yàn)室于2009年開(kāi)發(fā)(B)Spark在2014年打破了Hadoop保持的基準(zhǔn)排序紀(jì)錄.(C)Spark用十分之一的計(jì)算資源，獲得了比Hadoop快3倍的速度(D)Spark運(yùn)行模式單一2、下列關(guān)于Spark的描述，錯(cuò)誤的是哪一項(xiàng)？C(A)使用DAG執(zhí)行引擎以支持循環(huán)數(shù)據(jù)流與內(nèi)存計(jì)算析(B)可運(yùn)行于獨(dú)立的集群模式中，可運(yùn)行于Hadoop中，也可運(yùn)行于AmazonEC2等云環(huán)境中(C)支持使用Scala、Java、Python和R語(yǔ)言進(jìn)行編程，但是不可以通過(guò)SparkShell進(jìn)行交互式編程(D)可運(yùn)行于獨(dú)立的集群模式中，可運(yùn)行于Hadoop中，也可運(yùn)行于AmazonEC2等云環(huán)境中3、下列關(guān)于Scala特性的描述，錯(cuò)誤的是哪一項(xiàng)？A(A)Scala語(yǔ)法復(fù)雜，但是能提供優(yōu)雅的API計(jì)算(B)Scala具備強(qiáng)大的并發(fā)性，支持函數(shù)式編程，可以更好地支持分布式系統(tǒng)(C)Scala兼容Java，運(yùn)行速度快，且能融合到Hadoop生態(tài)圈中(D)Scala是Spark的主要編程語(yǔ)言下列說(shuō)法哪項(xiàng)有誤？C(A)相對(duì)于Spark來(lái)說(shuō)，使用Hadoop進(jìn)行迭代計(jì)算非常耗資源(B)Spark將數(shù)據(jù)載入內(nèi)存后，之后的迭代計(jì)算都可以直接使用內(nèi)存中的中間結(jié)果作運(yùn)算，避免了從磁盤(pán)中頻繁讀取數(shù)據(jù)(C)Hadoop的設(shè)計(jì)遵循“一個(gè)軟件棧滿(mǎn)足不同應(yīng)用場(chǎng)景”的理念(D)Spark可以部署在資源管理器YARN之上，提供一站式的大數(shù)據(jù)解決方案5、在Spark生態(tài)系統(tǒng)組件的應(yīng)用場(chǎng)景中，下列哪項(xiàng)說(shuō)法是錯(cuò)誤的？C(A)Spark應(yīng)用在復(fù)雜的批量數(shù)據(jù)處理(B)SparkSQL是基于歷史數(shù)據(jù)的交互式查詢(xún)(C)SparkStreaming是基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘(D)GraphX是圖結(jié)構(gòu)數(shù)據(jù)的處理6、下列說(shuō)法錯(cuò)誤的是？A(A)RDD（ResillientDistributedDataset）是運(yùn)行在工作節(jié)點(diǎn)（WorkerNode）的一個(gè)進(jìn)程，負(fù)責(zé)運(yùn)行Task(B)Application是用戶(hù)編寫(xiě)的Spark應(yīng)用程序(C)一個(gè)Job包含多個(gè)RDD及作用于相應(yīng)RDD上的各種操作(D)DirectedAcyclicGraph反映RDD之間的依賴(lài)關(guān)系7、下列關(guān)于RDD說(shuō)法，描述有誤的是？C(A)一個(gè)RDD就是一個(gè)分布式對(duì)象集合，本質(zhì)上是一個(gè)只讀的分區(qū)記錄集合(B)每個(gè)RDD可分成多個(gè)分區(qū)，每個(gè)分區(qū)就是一個(gè)數(shù)據(jù)集片段(C)RDD是可以直接修改的(D)RDD提供了一種高度受限的共享內(nèi)存模型8、Spark生態(tài)系統(tǒng)組件SparkStreaming的應(yīng)用場(chǎng)景是？D(A)基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘(B)圖結(jié)構(gòu)數(shù)據(jù)的處理(C)基于歷史數(shù)據(jù)的交互式查詢(xún)(D)基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理9、Spark生態(tài)系統(tǒng)組件MLlib的應(yīng)用場(chǎng)景是？D(A)圖結(jié)構(gòu)數(shù)據(jù)的處理(B)基于歷史數(shù)據(jù)的交互式查詢(xún)(C)復(fù)雜的批量數(shù)據(jù)處理(D)基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘多選題Spark具有以下哪幾個(gè)主要特點(diǎn)？ABC(A)運(yùn)行速度快(B)容易使用(C)通用性(D)運(yùn)行模式單一2、Scala具有以下哪幾個(gè)主要特點(diǎn)？ABCD(A)Scala的優(yōu)勢(shì)是提供了REPL（Read-Eval-PrintLoop，交互式解釋器），提高程序開(kāi)發(fā)效率(B)Scala兼容Java，運(yùn)行速度快，且能融合到Hadoop生態(tài)圈中(C)Scala具備強(qiáng)大的并發(fā)性，支持函數(shù)式編程(D)Scala可以更好地支持分布式系統(tǒng)3、下列哪些選項(xiàng)屬于Hadoop的缺點(diǎn)？ABCD(A)表達(dá)能力有限(B)磁盤(pán)IO開(kāi)銷(xiāo)大(C)延遲高(D)在前一個(gè)任務(wù)執(zhí)行完成之前，其他任務(wù)就無(wú)法開(kāi)始，難以勝任復(fù)雜、多階段的計(jì)算任務(wù)下列說(shuō)法中，哪些選項(xiàng)描述正確？AB(A)Spark在借鑒HadoopMapReduce優(yōu)點(diǎn)的同時(shí)，很好地解決了MapReduce所面臨的問(wèn)題(B)Spark的計(jì)算模式也屬于MapReduce，但不局限于Map和Reduce操作(C)HadoopMapReduce編程模型比Spark更靈活(D)HadoopMapReduce提供了內(nèi)存計(jì)算，可將中間結(jié)果放到內(nèi)存中，對(duì)于迭代運(yùn)算效率更高5、在實(shí)際應(yīng)用中，大數(shù)據(jù)處理主要包括以下哪三個(gè)類(lèi)型？ABD(A)復(fù)雜的批量數(shù)據(jù)處理：通常時(shí)間跨度在數(shù)十分鐘到數(shù)小時(shí)之間(B)基于歷史數(shù)據(jù)的交互式查詢(xún)：通常時(shí)間跨度在數(shù)十秒到數(shù)分鐘之間(C)基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理：通常時(shí)間跨度在數(shù)十秒到數(shù)分鐘之間(D)基于實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)處理：通常時(shí)間跨度在數(shù)百毫秒到數(shù)秒之間6、在實(shí)際應(yīng)用中，當(dāng)采用多種計(jì)算架構(gòu)來(lái)滿(mǎn)足不同應(yīng)用場(chǎng)景需求時(shí)，大數(shù)據(jù)處理難免會(huì)帶來(lái)哪些問(wèn)題？ABCD(A)不同場(chǎng)景之間輸入輸出數(shù)據(jù)無(wú)法做到無(wú)縫共享，通常需要進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換(B)不同的軟件需要不同的開(kāi)發(fā)和維護(hù)團(tuán)隊(duì)(C)需要較高的使用成本(D)比較難以對(duì)同一個(gè)集群中的各個(gè)系統(tǒng)進(jìn)行統(tǒng)一的資源協(xié)調(diào)和分配7、與HadoopMapReduce計(jì)算框架相比，Spark所采用的Executor具有哪些優(yōu)點(diǎn)？AB(A)利用多線(xiàn)程來(lái)執(zhí)行具體的任務(wù)，減少任務(wù)的啟動(dòng)開(kāi)銷(xiāo)(B)Executor中有一個(gè)BlockManager存儲(chǔ)模塊，有效減少I(mǎi)O開(kāi)銷(xiāo)(C)提供了一種高度受限的共享內(nèi)存模型(D)不同場(chǎng)景之間輸入輸出數(shù)據(jù)能做到無(wú)縫共享8、Spark運(yùn)行架構(gòu)具有以下哪些特點(diǎn)？ABCD(A)每個(gè)Application都有自己專(zhuān)屬的Executor進(jìn)程，并且該進(jìn)程在Application運(yùn)行期間一直駐留(B)Executor進(jìn)程以多線(xiàn)程的方式運(yùn)行Task(C)Spark運(yùn)行過(guò)程與資源管理器無(wú)關(guān)，只要能夠獲取Executor進(jìn)程并保持通信即可(D)Task采用了數(shù)據(jù)本地性和推測(cè)執(zhí)行等優(yōu)化機(jī)制9、Spark采用RDD以后能夠?qū)崿F(xiàn)高效計(jì)算的原因主要在于？ABC(A)高效的容錯(cuò)性(B)中間結(jié)果持久化到內(nèi)存，數(shù)據(jù)在內(nèi)存中的多個(gè)(C)存放的數(shù)據(jù)可以是Java對(duì)象，避免了不必要的對(duì)象序列化和反序列化(D)采用數(shù)據(jù)復(fù)制實(shí)現(xiàn)容錯(cuò)10、Spark支持哪三種不同類(lèi)型的部署方式？ABC(A)Standalone（類(lèi)似于MapReduce1.0，slot為資源分配單位）(B)SparkonMesos（和Spark有血緣關(guān)系，更好支持Mesos）(C)SparkonYARN(D)SparkonHDFS第十一章流計(jì)算單選題下列關(guān)于流計(jì)算的說(shuō)法，哪項(xiàng)是錯(cuò)誤的？D實(shí)時(shí)獲取來(lái)自不同數(shù)據(jù)源的海量數(shù)據(jù)，經(jīng)過(guò)實(shí)時(shí)分析處理，獲得有價(jià)值的信息流計(jì)算秉承一個(gè)基本理念，即數(shù)據(jù)的價(jià)值隨著時(shí)間的流逝而降低對(duì)于一個(gè)流計(jì)算系統(tǒng)來(lái)說(shuō)，它應(yīng)該支持TB級(jí)甚至是PB級(jí)的數(shù)據(jù)規(guī)模流計(jì)算只需要保證較低的延遲時(shí)間，即只達(dá)到秒級(jí)別即可處理一切問(wèn)題下列關(guān)于數(shù)據(jù)處理流程，說(shuō)法有誤的是？D在傳統(tǒng)的數(shù)據(jù)處理流程中，存儲(chǔ)的數(shù)據(jù)是舊的在傳統(tǒng)的數(shù)據(jù)處理流程中，需要用戶(hù)主動(dòng)發(fā)出查詢(xún)來(lái)獲取結(jié)果傳統(tǒng)的數(shù)據(jù)處理流程，需要先采集數(shù)據(jù)并存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)等數(shù)據(jù)管理系統(tǒng)中流計(jì)算的處理流程一般包含三個(gè)階段：數(shù)據(jù)實(shí)時(shí)采集、數(shù)據(jù)批量計(jì)算、實(shí)時(shí)查詢(xún)服務(wù)下列哪項(xiàng)不屬于流計(jì)算的處理流程的三個(gè)階段？B數(shù)據(jù)實(shí)時(shí)采集數(shù)據(jù)批量采集數(shù)據(jù)實(shí)時(shí)計(jì)算實(shí)時(shí)查詢(xún)服務(wù)下列哪一項(xiàng)不屬于Storm的特點(diǎn)？B支持各種編程語(yǔ)言：Storm支持使用各種編程語(yǔ)言來(lái)定義任務(wù)容錯(cuò)性：Storm需要人工進(jìn)行故障節(jié)點(diǎn)的重啟、任務(wù)的重新分配可擴(kuò)展性：Storm的并行特性使其可以運(yùn)行在分布式集群中免費(fèi)、開(kāi)源：Storm是一款開(kāi)源框架，可以免費(fèi)使用下列關(guān)于Storm設(shè)計(jì)思想，描述有誤的是？AStorm將Streams的狀態(tài)轉(zhuǎn)換過(guò)程抽象為SpoutStorm認(rèn)為每個(gè)Stream都有一個(gè)源頭，并把這個(gè)源頭抽象為SpoutStorm將Spouts和Bolts組成的網(wǎng)絡(luò)抽象成TopologyTopology里面的每個(gè)處理組件（Spout或Bolt）都包含處理邏輯，而組件之間的連接則表示數(shù)據(jù)流動(dòng)的方向下列關(guān)于Storm和Hadoop架構(gòu)組件功能對(duì)應(yīng)關(guān)系，哪個(gè)是錯(cuò)誤的？CHadoopJob對(duì)應(yīng)StormTopologyHadoopTaskTracker對(duì)應(yīng)StormSupervisorHadoopJobTracker對(duì)應(yīng)StormSpoutHadoopReduce對(duì)應(yīng)StormBolt下列哪個(gè)說(shuō)法是錯(cuò)誤的？B從編程的靈活性來(lái)講，Storm是比較理想的選擇，它使用ApacheThrift，可以用任何編程語(yǔ)言來(lái)編寫(xiě)拓?fù)浣Y(jié)構(gòu)（Topology）SparkStreaming可以實(shí)現(xiàn)毫秒級(jí)的流計(jì)算SparkStreaming無(wú)法實(shí)現(xiàn)毫秒級(jí)的流計(jì)算在Spark上可以統(tǒng)一部署SparkSQL，SparkStreaming、MLlib，GraphX等組件，提供便捷的一體化編程模型下列關(guān)于Storm的描述，有誤的是？AStorm將流數(shù)據(jù)Stream描述成一個(gè)有限的Tuple序列Storm保證每個(gè)消息都能完整處理Storm認(rèn)為每個(gè)Stream都有一個(gè)源頭，并把這個(gè)源頭抽象為SpoutBolt可以執(zhí)行過(guò)濾、函數(shù)操作、Join、操作數(shù)據(jù)庫(kù)等任何操作下列哪個(gè)關(guān)于StreamGroupings的描述，有誤的是？AFieldsGrouping：廣播發(fā)送，每一個(gè)Task都會(huì)收到所有的TupleGlobalGrouping：全局分組，所有的Tuple都發(fā)送到同一個(gè)Task中NonGrouping：不分組，和ShuffleGrouping類(lèi)似，當(dāng)前Task的執(zhí)行會(huì)和它的被訂閱者在同一個(gè)線(xiàn)程中執(zhí)行DirectGrouping：直接分組，直接指定由某個(gè)Task來(lái)執(zhí)行Tuple的處理多選題流數(shù)據(jù)具有以下哪些特征？ABC數(shù)據(jù)快速持續(xù)到達(dá)，潛在大小也許是無(wú)窮無(wú)盡的數(shù)據(jù)來(lái)源眾多，格式復(fù)雜注重?cái)?shù)據(jù)的整體價(jià)值，不過(guò)分關(guān)注個(gè)別數(shù)據(jù)系統(tǒng)可以控制將要處理的新到達(dá)的數(shù)據(jù)元素的順序下列關(guān)于批量計(jì)算和實(shí)時(shí)計(jì)算的說(shuō)法，正確的有？ACD批量計(jì)算：充裕時(shí)間處理靜態(tài)數(shù)據(jù)，如Hadoop靜態(tài)數(shù)據(jù)不適合采用批量計(jì)算，因?yàn)樗贿m合用傳統(tǒng)的關(guān)系模型建模流數(shù)據(jù)必須采用實(shí)時(shí)計(jì)算流數(shù)據(jù)的響應(yīng)時(shí)間一般為秒級(jí)，甚至需要毫秒級(jí)對(duì)于一個(gè)流計(jì)算系統(tǒng)來(lái)說(shuō)，它應(yīng)達(dá)到以下哪些需求？ABCD高性能：處理大數(shù)據(jù)的基本要求，如每秒處理幾十萬(wàn)條數(shù)據(jù)實(shí)時(shí)性：保證較低的延遲時(shí)間，達(dá)到秒級(jí)別，甚至是毫秒級(jí)別分布式：支持大數(shù)據(jù)的基本架構(gòu)，必須能夠平滑擴(kuò)展可靠性：能可靠地處理流數(shù)據(jù)下列關(guān)于流計(jì)算與Hadoop的說(shuō)法，正確的有？ABCDHadoop擅長(zhǎng)批處理，不適合流計(jì)算MapReduce是專(zhuān)門(mén)面向靜態(tài)數(shù)據(jù)的批量處理的Hadoop設(shè)計(jì)的初衷是面向大規(guī)模數(shù)據(jù)的批量處理MapReduce不適合用于處理持續(xù)到達(dá)的動(dòng)態(tài)數(shù)據(jù)下列關(guān)于流處理系統(tǒng)與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)的描述，正確的有？ABC流處理系統(tǒng)處理的是實(shí)時(shí)的數(shù)據(jù)，而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預(yù)先存儲(chǔ)好的靜態(tài)數(shù)據(jù)用戶(hù)通過(guò)流處理系統(tǒng)獲取的是實(shí)時(shí)結(jié)果，而通過(guò)傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)，獲取的是過(guò)去某一時(shí)刻的結(jié)果流處理系統(tǒng)無(wú)需用戶(hù)主動(dòng)發(fā)出查詢(xún)，實(shí)時(shí)查詢(xún)服務(wù)可以主動(dòng)將結(jié)果推送給用戶(hù)傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)系統(tǒng)無(wú)需用戶(hù)主動(dòng)發(fā)出查詢(xún)，批量查詢(xún)服務(wù)可以主動(dòng)將結(jié)果推送給用戶(hù)Storm具有以下哪些特點(diǎn)？ABCD整合性：Storm可方便地與隊(duì)列系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行整合簡(jiǎn)易的API：Storm的API在使用上即簡(jiǎn)單又方便容錯(cuò)性：Storm可自動(dòng)進(jìn)行故障節(jié)點(diǎn)的重啟、任務(wù)的重新分配可擴(kuò)展性：Storm的并行特性使其可以運(yùn)行在分布式集群中目前，Storm中的StreamGroupings有如下哪幾種方式？ABCAllGrouping：廣播發(fā)送，每一個(gè)Task都會(huì)收到所有的TupleGlobalGrouping：全局分組，所有的Tuple都發(fā)送到同一個(gè)Task中FieldsGrouping：按照字段分組，保證相同字段的Tuple分配到同一個(gè)Task中DirectGrouping：隨機(jī)分組，隨機(jī)分發(fā)Stream中的Tuple，保證每個(gè)Bolt的Task接收Tuple數(shù)量大致一致下列關(guān)于Storm框架，描述正確的有？ABCDworker:每個(gè)worker進(jìn)程都屬于一個(gè)特定的Topologyexecutor：executor是產(chǎn)生于worker進(jìn)程內(nèi)部的線(xiàn)程task:實(shí)際的數(shù)據(jù)處理由task完成在Topology的生命周期中，每個(gè)組件的task數(shù)目是不會(huì)發(fā)生變化的，而executor的數(shù)目卻不一定下列關(guān)于SparkStreaming與Storm的描述，哪些是正確的的？ABDSparkStreaming無(wú)法實(shí)現(xiàn)毫秒級(jí)的流計(jì)算Storm可以實(shí)現(xiàn)毫秒級(jí)響應(yīng)件Storm無(wú)法用于實(shí)時(shí)計(jì)算SparkStreaming采用的小批量處理的方式使得它可以同時(shí)兼容批量和實(shí)時(shí)數(shù)據(jù)處理的邏輯和算法第十二章Flink單選題1.下面描述錯(cuò)誤的是：（D）A．Storm雖然可以做到低延遲，但是無(wú)法實(shí)現(xiàn)高吞吐，也不能在故障發(fā)生時(shí)準(zhǔn)確地處理計(jì)算狀態(tài)B．SparkStreaming通過(guò)采用微批處理方法實(shí)現(xiàn)了高吞吐和容錯(cuò)性，但是犧牲了低延遲和實(shí)時(shí)處理能力C．Flink實(shí)現(xiàn)了GoogleDataflow流計(jì)算模型，是一種兼具高吞吐、低延遲和高性能的實(shí)時(shí)流計(jì)算框架，并且同時(shí)支持批處理和流處理D．SparkStreaming可以實(shí)現(xiàn)毫秒級(jí)響應(yīng)，而Flink只能實(shí)現(xiàn)秒級(jí)響應(yīng)2.以下哪個(gè)不屬于事件驅(qū)動(dòng)型應(yīng)用？DA.反欺詐B.異常檢測(cè)C.基于規(guī)則的報(bào)警D.消費(fèi)者技術(shù)中的實(shí)時(shí)數(shù)據(jù)即席分析3.以下哪個(gè)不屬于數(shù)據(jù)分析應(yīng)用？AA．基于規(guī)則的報(bào)警B．移動(dòng)應(yīng)用中的產(chǎn)品更新及實(shí)驗(yàn)評(píng)估分析C.消費(fèi)者技術(shù)中的實(shí)時(shí)數(shù)據(jù)即席分析D.大規(guī)模圖分析4.以下哪個(gè)屬于數(shù)據(jù)流水線(xiàn)應(yīng)用？BA．基于規(guī)則的報(bào)警B．實(shí)時(shí)查詢(xún)索引構(gòu)建C．移動(dòng)應(yīng)用中的產(chǎn)品更新及實(shí)驗(yàn)評(píng)估分析D．費(fèi)者技術(shù)中的實(shí)時(shí)數(shù)據(jù)即席分析多選題1.企業(yè)數(shù)據(jù)架構(gòu)的典型形式包括：（ABC）A．傳統(tǒng)數(shù)據(jù)處理架構(gòu)B．大數(shù)據(jù)Lambda架構(gòu)C．流處理架構(gòu)D．循環(huán)處理架構(gòu)2.Flink的優(yōu)勢(shì)包括：（ABCD）A．同時(shí)支持高吞吐、低延遲、高性能B．同時(shí)支持流處理和批處理C．支持有狀態(tài)計(jì)算D．具有獨(dú)立的內(nèi)存管理3.Flink常見(jiàn)的應(yīng)用場(chǎng)景包括：（ABC）A．事件驅(qū)動(dòng)型應(yīng)用B．?dāng)?shù)據(jù)分析應(yīng)用C．?dāng)?shù)據(jù)流水線(xiàn)應(yīng)用D．正反饋應(yīng)用4.Flink核心組件棧包括：（ACD）A．物理部署層B．算法庫(kù)層C．Runtime核心層D．API&Libraries層5.Flink系統(tǒng)主要由兩個(gè)組件組成：（AD）A.JobManagerB.JobTrackderC.TaskTrackerD.TaskManager6.Flink編程模型包括哪幾層：（ABCD）A.SQLB.TableAPIC.DataStreamAPI/DataSetAPID.有狀態(tài)數(shù)據(jù)流處理第十三章圖計(jì)算單選題下列關(guān)于圖結(jié)構(gòu)數(shù)據(jù)的描述，錯(cuò)誤的是？A(A)許多非圖結(jié)構(gòu)的大數(shù)據(jù)，通常會(huì)被轉(zhuǎn)換為關(guān)系模型后進(jìn)行分析(B)許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn)(C)圖數(shù)據(jù)結(jié)構(gòu)很好地表達(dá)了數(shù)據(jù)之間的關(guān)聯(lián)性(D)關(guān)聯(lián)性計(jì)算是大數(shù)據(jù)計(jì)算的核心在Pregel計(jì)算模型中，圖中的每個(gè)頂點(diǎn)會(huì)對(duì)應(yīng)一個(gè)計(jì)算單元，下列哪一項(xiàng)不屬于計(jì)算單元的成員變量？D頂點(diǎn)值（Vertexvalue）：頂點(diǎn)對(duì)應(yīng)的PR值出射邊（Outedge）：只需要表示一條邊，可以不取值消息（Message）：傳遞的消息入射邊（Iutedge）：只需要表示一條邊，可以不取值采用MapReduce實(shí)現(xiàn)PageRank的計(jì)算過(guò)程包括三個(gè)階段，下列哪一項(xiàng)是錯(cuò)的？D(A)第一階段：解析網(wǎng)頁(yè)(B)第二階段：PageRank分配(C)第三階段：收斂階段(D)第一階段：收集網(wǎng)頁(yè)下列關(guān)于PageRank算法在MapReduce中的實(shí)現(xiàn)的描述，錯(cuò)誤的是？A解析網(wǎng)頁(yè)的任務(wù)就是分析一個(gè)頁(yè)面的鏈接數(shù)，但是不賦初值PageRank分配就是多次迭代計(jì)算頁(yè)面的PageRank值收斂階段的任務(wù)就是由一個(gè)非并行組件決定是否達(dá)到收斂一般判斷是否收斂的條件是所有網(wǎng)頁(yè)的PageRank值不再變化，或者運(yùn)行30次以后我們就認(rèn)為已經(jīng)收斂了下列哪個(gè)不屬于PageRank算法在Pregel和MapReduce中實(shí)現(xiàn)方式的區(qū)別？DPregel將PageRank處理對(duì)象看成是連通圖，而MapReduce則將其看成是鍵值對(duì)Pregel將計(jì)算細(xì)化到頂點(diǎn)，同時(shí)在頂點(diǎn)內(nèi)控制循環(huán)迭代次數(shù)MapReduce將計(jì)算批量化處理，按任務(wù)進(jìn)行循環(huán)迭代控制圖算法如果用Pregel實(shí)現(xiàn)，需要一系列的Pregel的調(diào)用下列哪項(xiàng)不屬于在Vetex類(lèi)中的值類(lèi)型參數(shù)？A(A)頂點(diǎn)的出度(B)頂點(diǎn)(C)邊(D)消息在每個(gè)超步中，Worker調(diào)用頂點(diǎn)上的Compute()函數(shù)，下列哪個(gè)參數(shù)是不需要傳遞？D(A)該頂點(diǎn)的當(dāng)前值(B)一個(gè)接收到的消息的迭代器(C)一個(gè)出射邊的迭代器(D)一個(gè)入射邊的迭代器下列哪一項(xiàng)不屬于每個(gè)超步的組件？A(A)全局計(jì)算(B)局部計(jì)算(C)通訊(D)柵欄同步在一個(gè)Worker中，它所管轄的分區(qū)的狀態(tài)信息是保存在內(nèi)存中的，下列哪一項(xiàng)不屬于分區(qū)的狀態(tài)信息？D頂點(diǎn)的當(dāng)前值消息隊(duì)列標(biāo)志位一個(gè)接收到的消息的迭代器多選題很多傳統(tǒng)的圖計(jì)算算法都存在以下哪些典型問(wèn)題？ABC常常表現(xiàn)出比較差的內(nèi)存訪問(wèn)局部性針對(duì)單個(gè)頂點(diǎn)的處理工作過(guò)少計(jì)算過(guò)程中伴隨著并行度的改變計(jì)算過(guò)程簡(jiǎn)易針對(duì)大型圖（比如社交網(wǎng)絡(luò)和網(wǎng)絡(luò)圖）的計(jì)算問(wèn)題，哪些說(shuō)法是正確的？ABCD為特定的圖應(yīng)用定制相應(yīng)的分布式實(shí)現(xiàn)：通用性不好基于現(xiàn)有的分布式計(jì)算平臺(tái)進(jìn)行圖計(jì)算：在性能和易用性方面往往無(wú)法達(dá)到最優(yōu)使用單機(jī)的圖算法庫(kù)，但是，在可以解決的問(wèn)題的規(guī)模方面具有很大的局限性使用已有的并行圖計(jì)算系統(tǒng)，但是，對(duì)大規(guī)模分布式系統(tǒng)非常重要的一些方面（比如容錯(cuò)），無(wú)法提供較好的支持針對(duì)大型圖的計(jì)算，目前通用的圖計(jì)算軟件主要哪些？AB基于遍歷算法的、實(shí)時(shí)的圖數(shù)據(jù)庫(kù)，如Neo4j、OrientDB、DEX和InfiniteGraph以圖頂點(diǎn)為中心的、基于消息傳遞批處理的并行引擎，如GoldenOrb、Giraph、Pregel和Hama基于遍歷算法的、實(shí)時(shí)的圖數(shù)據(jù)庫(kù)，如GoldenOrb、Giraph、Pregel和Hama以圖頂點(diǎn)為中心的、基于消息傳遞批處理的并行引擎，如Neo4j、OrientDB、DEX和InfiniteGraph一次BSP(BulkSynchronousParallelComputingModel，又稱(chēng)“大同步”模型)計(jì)算過(guò)程包括一系列全局超步（所謂的超步就是計(jì)算中的一次迭代），每個(gè)超步主要包括哪些組件？ABC局部計(jì)算：每個(gè)參與的處理器都有自身的計(jì)算任務(wù)通訊：處理器群相互交換數(shù)據(jù)柵欄同步：當(dāng)一個(gè)處理器遇到“路障”（或柵欄），會(huì)等到其他所有處理器完成它們的計(jì)算步驟基于現(xiàn)有的分布式計(jì)算平臺(tái)進(jìn)行圖計(jì)算下列說(shuō)法正確的是？ABCD在Pregel執(zhí)行計(jì)算過(guò)程時(shí)，在每個(gè)超步中都會(huì)并行調(diào)用每個(gè)頂點(diǎn)上定義的Compute()函數(shù)頂點(diǎn)之間的通訊是借助于消息傳遞機(jī)制來(lái)實(shí)現(xiàn)的在默認(rèn)情況下，Pregel計(jì)算框架并不會(huì)開(kāi)啟Combiner功能通常只對(duì)那些滿(mǎn)足交換律和結(jié)合律的操作才可以去開(kāi)啟Combiner功能在Pregel計(jì)算框架中，圖的保存格式多種多樣，具體包括哪些？ABC文本文件關(guān)系數(shù)據(jù)庫(kù)鍵值數(shù)據(jù)庫(kù)語(yǔ)音文件下列對(duì)于Pregel的執(zhí)行過(guò)程，哪些是正確的？ABCD選擇集群中的多臺(tái)機(jī)器執(zhí)行圖計(jì)算任務(wù)，每臺(tái)機(jī)器上運(yùn)行用戶(hù)程序的一個(gè)副本Master把一個(gè)圖分成多個(gè)分區(qū)，并把分區(qū)分配到多個(gè)WorkerMaster會(huì)把用戶(hù)輸入劃分成多個(gè)部分，通常是基于文件邊界進(jìn)行劃分Master向每個(gè)Worker發(fā)送指令，Worker收到指令后，開(kāi)始運(yùn)行一個(gè)超步在一個(gè)Worker中，它所管轄的分區(qū)的狀態(tài)信息是保存在內(nèi)存中的，分區(qū)中的頂點(diǎn)的狀態(tài)信息包括？ABCD頂點(diǎn)的當(dāng)前值以該頂點(diǎn)為起點(diǎn)的出射邊列表，每條出射邊包含了目標(biāo)頂點(diǎn)ID和邊的值消息隊(duì)列，包含了所有接收到的、發(fā)送給該頂點(diǎn)的消息標(biāo)志位，用來(lái)標(biāo)記頂點(diǎn)是否處于活躍狀態(tài)在每個(gè)超步中，Worker會(huì)對(duì)自己所管轄的分區(qū)中的每個(gè)頂點(diǎn)進(jìn)行遍歷，并調(diào)用頂點(diǎn)上的Compute()函數(shù)，在調(diào)用時(shí)，會(huì)把以下哪些參數(shù)傳遞進(jìn)去？ABC該頂點(diǎn)的當(dāng)前值一個(gè)接收到的消息的迭代器一個(gè)出射邊的迭代器標(biāo)志位，用來(lái)標(biāo)記頂點(diǎn)是否處于活躍狀態(tài)下列說(shuō)法正確的有？ABCD在Pregel中，為了獲得更好的性能，“標(biāo)志位”和輸入消息隊(duì)列是分開(kāi)保存的在超步S中，當(dāng)一個(gè)Worker在進(jìn)行頂點(diǎn)處理時(shí)，用于當(dāng)前超步的消息會(huì)被處理需要兩個(gè)消息隊(duì)列用于存放作用于當(dāng)前超步S的消息和作用于下一個(gè)超步S+1的消息每個(gè)Worker上都保存了一個(gè)或多個(gè)分區(qū)的狀態(tài)信息，當(dāng)一個(gè)Worker發(fā)生故障時(shí)，它所負(fù)責(zé)維護(hù)的分區(qū)的當(dāng)前狀態(tài)信息就會(huì)丟失第十四章數(shù)據(jù)可視化一、單選題1、下列關(guān)于數(shù)據(jù)可視化的描述，哪個(gè)是錯(cuò)誤的？(D)A.數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B.利用數(shù)據(jù)分析和開(kāi)發(fā)工具發(fā)現(xiàn)其中未知信息的處理過(guò)程C.數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫(kù)中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元素表示D.將數(shù)據(jù)的各個(gè)屬性值以一維數(shù)據(jù)的形式表示2、下列哪個(gè)不屬于可視化工具？(D)A.GoogleChartAPIB.D3C.Visual.lyD.Spark3、下列說(shuō)法錯(cuò)誤的是？(B)A.大數(shù)據(jù)魔鏡是一款優(yōu)秀的國(guó)產(chǎn)數(shù)據(jù)分析軟件，可以讓用戶(hù)真正理解探索分析數(shù)據(jù)B.Tableau是桌面系統(tǒng)中最簡(jiǎn)單的商業(yè)智能工具軟件，是一個(gè)用于網(wǎng)頁(yè)作圖、生成互動(dòng)圖形的JavaScript函數(shù)庫(kù)C.GoogleFusionTables讓一般使用者也可以輕松制作出專(zhuān)業(yè)的統(tǒng)計(jì)地圖D.ModestMaps是一個(gè)小型、可擴(kuò)展、交互式的免費(fèi)庫(kù)，提供了一套查看衛(wèi)星地圖的API4、下面關(guān)于Timetoast的描述，哪個(gè)是錯(cuò)誤的？(D)A.Timetoast是在線(xiàn)創(chuàng)作基于時(shí)間軸事件記載服務(wù)的網(wǎng)站B.提供個(gè)性化的時(shí)間線(xiàn)服務(wù)C.Timetoast基于flash平臺(tái)，可以在類(lèi)似flash時(shí)間軸上任意加入事件D.Timetoast是一個(gè)提供復(fù)雜統(tǒng)計(jì)圖表的工具5、下列關(guān)于可視化工具中高級(jí)分析工具的說(shuō)法，錯(cuò)誤的是？(B)A.R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開(kāi)放的軟件B.Weka主要用于社交圖譜數(shù)據(jù)可視化分析，可以生成非常酷炫的可視化圖形C.Gephi主要用于社交圖譜數(shù)據(jù)可視化分析，可以生成非常酷炫的可視化圖形D.R通常用于大數(shù)據(jù)集的統(tǒng)計(jì)與分析二、多選題1、在大數(shù)據(jù)時(shí)代，可視化技術(shù)可以支持實(shí)現(xiàn)哪些目標(biāo)？（ABCD）A.觀測(cè)、跟蹤數(shù)據(jù)B.分析數(shù)據(jù)C.輔助理解數(shù)據(jù)D.增強(qiáng)數(shù)據(jù)吸引力2、信息圖表是信息、

人人文庫(kù)> 全部分類(lèi)> 應(yīng)用文書(shū) > 辦公表格

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第3版)》期末復(fù)習(xí)題庫(kù)(含答案)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔