《大數(shù)據(jù)技術(shù)導(dǎo)論》期末考試復(fù)習(xí)題庫（含答案）

上傳人：r*** IP屬地：山東上傳時間：2024-12-21 格式：DOCX 頁數(shù)：84 大小：93.21KB 積分：15 舉報 版權(quán)申訴

《大數(shù)據(jù)技術(shù)導(dǎo)論》期末考試復(fù)習(xí)題庫（含答案）_第2頁

《大數(shù)據(jù)技術(shù)導(dǎo)論》期末考試復(fù)習(xí)題庫（含答案）_第3頁

《大數(shù)據(jù)技術(shù)導(dǎo)論》期末考試復(fù)習(xí)題庫（含答案）_第4頁

《大數(shù)據(jù)技術(shù)導(dǎo)論》期末考試復(fù)習(xí)題庫（含答案）_第5頁

已閱讀5頁，還剩79頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

PAGEPAGE1《大數(shù)據(jù)技術(shù)導(dǎo)論》期末考試復(fù)習(xí)題庫（含答案）一、單選題1.下面關(guān)于Region的說法，哪個是錯誤的？A、同一個Region不會被分拆到多個Region服務(wù)器B、為了加快訪問速度，.META.表的全部Region都會被保存在內(nèi)存中C、一個-ROOT-表可以有多個RegionD、為了加速尋址，客戶端會緩存位置信息，同時，需要解決緩存失效問題答案：C2.以下哪個不屬于事件驅(qū)動型應(yīng)用？A、反欺詐B、異常檢測C、基于規(guī)則的報警D、消費者技術(shù)中的實時數(shù)據(jù)即席分析答案：D3.下面哪一項不是云數(shù)據(jù)庫的特性？A、動態(tài)可擴展B、高成本C、易用性D、大規(guī)模并行處理答案：B4.在Hadoop項目結(jié)構(gòu)中，MapReduce指的是什么？A、分布式并行編程模型B、流計算框架C、Hadoop上的工作流管理系統(tǒng)D、提供分布式協(xié)調(diào)一致性服務(wù)答案：A5.HBase中需要根據(jù)某些因素來確定一個單元格，這些因素可以視為一個“四維坐標(biāo)”，下面哪個不屬于“四維坐標(biāo)”？A、行鍵B、關(guān)鍵字C、列族D、時間戳答案：B6.在HBase中，關(guān)于數(shù)據(jù)操作的描述，下列哪一項是錯誤的？A、HBase采用了更加簡單的數(shù)據(jù)模型，它把數(shù)據(jù)存儲為未經(jīng)解釋的字符串B、HBase操作不存在復(fù)雜的表與表之間的關(guān)系C、HBase不支持修改操作D、HBase在設(shè)計上就避免了復(fù)雜的表和表之間的關(guān)系答案：C7.關(guān)于文檔數(shù)據(jù)庫的說法，下列哪一項是錯誤的？A、數(shù)據(jù)是規(guī)則的B、性能好（高并發(fā)）C、缺乏統(tǒng)一的查詢語法D、復(fù)雜性低答案：A8.下列哪一個不屬于HDFS1.0中存在的問題？A、無法水平擴展B、單點故障問題C、單一命名空間D、系統(tǒng)整體性能受限于單個名稱節(jié)點的吞吐量答案：A9.下面關(guān)于NoSQL和關(guān)系數(shù)據(jù)庫的簡單比較，哪個是錯誤的？A、RDBMS有關(guān)系代數(shù)理論作為基礎(chǔ)，NoSQL沒有統(tǒng)一的理論基礎(chǔ)B、NoSQL很難實現(xiàn)橫向擴展，RDBMS可以很容易通過添加更多設(shè)備來支持更大規(guī)模的數(shù)據(jù)C、RDBMS需要定義數(shù)據(jù)庫模式，嚴格遵守數(shù)據(jù)定義，NoSQL一般不存在數(shù)據(jù)庫模式，可以自由靈活定義并存儲各種不同類型的數(shù)據(jù)D、RDBMS借助于索引機制可以實現(xiàn)快速查詢，很多NoSQL數(shù)據(jù)庫沒有面向復(fù)雜查詢的索引答案：B10.以下哪個不屬于數(shù)據(jù)分析應(yīng)用？A、基于規(guī)則的報警B、移動應(yīng)用中的產(chǎn)品更新及實驗評估分析C、消費者技術(shù)中的實時數(shù)據(jù)即席分析D、大規(guī)模圖分析答案：A11.下列關(guān)于云數(shù)據(jù)庫的描述，哪個是錯誤的？A、云數(shù)據(jù)庫是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫B、云數(shù)據(jù)庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法C、云數(shù)據(jù)庫價格不菲，維護費用極其昂貴D、云數(shù)據(jù)庫具有高可擴展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點答案：C12.下列關(guān)于MapReduce工作流程，哪個描述是正確的？A、所有的數(shù)據(jù)交換都是通過MapReduce框架自身去實現(xiàn)的B、不同的Map任務(wù)之間會進行通信C、不同的Reduce任務(wù)之間可以發(fā)生信息交換D、用戶可以顯式地從一臺機器向另一臺機器發(fā)送消息答案：A13.下列哪項不屬于大數(shù)據(jù)的發(fā)展歷程？A、成熟期B、萌芽期C、大規(guī)模應(yīng)用期D、迷茫期答案：D14.下列哪一項不屬于Storm的特點？A、支持各種編程語言：Storm支持使用各種編程語言來定義任務(wù)B、容錯性：Storm需要人工進行故障節(jié)點的重啟、任務(wù)的重新分配C、可擴展性：Storm的并行特性使其可以運行在分布式集群中D、免費、開源：Storm是一款開源框架，可以免費使用答案：B15.以下哪個不是數(shù)據(jù)倉庫的特性：()在HiveHA中，在Hadoop集群上構(gòu)建的數(shù)據(jù)倉庫是由單個Hive實例進行管理的A、面向主題的B、集成的C、動態(tài)變化的D、反映歷史變化的答案：C16.下列關(guān)于PageRank算法在MapReduce中的實現(xiàn)的描述，錯誤的是？A、解析網(wǎng)頁的任務(wù)就是分析一個頁面的鏈接數(shù)，但是不賦初值B、PageRank分配就是多次迭代計算頁面的PageRank值C、收斂階段的任務(wù)就是由一個非并行組件決定是否達到收斂D、一般判斷是否收斂的條件是所有網(wǎng)頁的PageRank值不再變化，或者運行30次以后我們就認為已經(jīng)收斂了答案：A17.下列關(guān)于RDD說法，描述有誤的是？A、一個RDD就是一個分布式對象集合，本質(zhì)上是一個只讀的分區(qū)記錄集合B、每個RDD可分成多個分區(qū)，每個分區(qū)就是一個數(shù)據(jù)集片段C、RDD是可以直接修改的D、RDD提供了一種高度受限的共享內(nèi)存模型答案：C18.在大數(shù)據(jù)的計算模式中，流計算解決的是什么問題？A、針對大規(guī)模數(shù)據(jù)的批量處理B、針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理C、大規(guī)模數(shù)據(jù)的存儲管理和查詢分析D、針對流數(shù)據(jù)的實時計算答案：D19.在HBase訪問接口中，Pig主要用在哪個場合？A、適合HadoopMapReduce作業(yè)并行批處理HBase表數(shù)據(jù)B、適合HBase管理使用C、適合其他異構(gòu)系統(tǒng)在線訪問HBase表數(shù)據(jù)D、適合做數(shù)據(jù)統(tǒng)計答案：D20.下面關(guān)于Timetoast的描述，哪個是錯誤的？()A、Timetoast是在線創(chuàng)作基于時間軸事件記載服務(wù)的網(wǎng)站B、提供個性化的時間線服務(wù)C、Timetoast基于flash平臺，可以在類似flash時間軸上任意加入事件D、Timetoast是一個提供復(fù)雜統(tǒng)計圖表的工具答案：D21.關(guān)于HBase的三層結(jié)構(gòu)中各層次的名稱和作用的說法，哪個是錯誤的？A、Zookeeper文件記錄了用戶數(shù)據(jù)表的Region位置信息B、-ROOT-表記錄了.META.表的Region位置信息C、META.表保存了HBase中所有用戶數(shù)據(jù)表的Region位置信息D、Zookeeper文件記錄了-ROOT-表的位置信息答案：A22.下列關(guān)于阿里云RDS的說法，哪個是錯誤的？A、RDS是阿里云提供的關(guān)系型數(shù)據(jù)庫服務(wù)B、RDS由專業(yè)數(shù)據(jù)庫管理團隊維護C、RDS具有安全穩(wěn)定、數(shù)據(jù)可靠、自動備份D、RDS實例，是用戶購買RDS服務(wù)的基本單位，在實例中，用戶只能創(chuàng)建一個數(shù)據(jù)庫答案：D23.下面哪個選項屬于大數(shù)據(jù)技術(shù)的“數(shù)據(jù)存儲和管理”技術(shù)層面的功能？A、利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫等實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理B、利用分布式并行編程模型和計算框架，結(jié)合機器學(xué)習(xí)和數(shù)據(jù)挖掘算法，實現(xiàn)對海量數(shù)據(jù)的處理和分析C、構(gòu)建隱私數(shù)據(jù)保護體系和數(shù)據(jù)安全體系，有效保護個人隱私和數(shù)據(jù)安全D、把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入，進行實時處理分析答案：A24.大數(shù)據(jù)產(chǎn)業(yè)指什么？A、一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟活動的集合B、提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)C、提供數(shù)據(jù)分享平臺、數(shù)據(jù)分析平臺、數(shù)據(jù)租售平臺等服務(wù)的企業(yè)D、提供分布式計算、數(shù)據(jù)挖掘、統(tǒng)計分析等服務(wù)的各類企業(yè)答案：A25.下面關(guān)于Hive的描述錯誤的是：()A、Hive是一個構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫工具B、Hive是由Facebook公司開發(fā)的C、Hive在某種程度上可以看作是用戶編程接口，其本身并不存儲和處理數(shù)據(jù)D、Hive定義了簡單的類似SQL的查詢語言——HiveQL，它與大部分SQL語法無法兼容答案：D26.下列關(guān)于圖結(jié)構(gòu)數(shù)據(jù)的描述，錯誤的是？A、許多非圖結(jié)構(gòu)的大數(shù)據(jù)，通常會被轉(zhuǎn)換為關(guān)系模型后進行分析B、許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn)C、圖數(shù)據(jù)結(jié)構(gòu)很好地表達了數(shù)據(jù)之間的關(guān)聯(lián)性D、關(guān)聯(lián)性計算是大數(shù)據(jù)計算的核心答案：A27.下面關(guān)于主服務(wù)器Master主要負責(zé)表和Region的管理工作的描述，哪個是錯誤的？A、在Region分裂或合并后，負責(zé)重新調(diào)整Region的分布B、對發(fā)生故障失效的Region服務(wù)器上的Region進行遷移C、管理用戶對表的增加、刪除、修改、查詢等操作D、不支持不同Region服務(wù)器之間的負載均衡答案：D28.下列哪個不屬于云計算的優(yōu)勢？A、按需服務(wù)B、隨時服務(wù)C、通用性D、價格不菲答案：D29.下列說法哪項有誤？A、相對于Spark來說，使用Hadoop進行迭代計算非常耗資源B、Spark將數(shù)據(jù)載入內(nèi)存后，之后的迭代計算都可以直接使用內(nèi)存中的中間結(jié)果作運算，避免了從磁盤中頻繁讀取數(shù)據(jù)C、Hadoop的設(shè)計遵循“一個軟件棧滿足不同應(yīng)用場景”的理念D、Spark可以部署在資源管理器YARN之上，提供一站式的大數(shù)據(jù)解決方案答案：C30.在Hadoop項目結(jié)構(gòu)中，HDFS指的是什么？A、分布式文件系統(tǒng)B、分布式并行編程模型C、資源管理和調(diào)度器D、Hadoop上的數(shù)據(jù)倉庫答案：A31.下列關(guān)于Storm和Hadoop架構(gòu)組件功能對應(yīng)關(guān)系，哪個是錯誤的？A、HadoopJob對應(yīng)StormTopologyB、HadoopTaskTracker對應(yīng)StormSupervisorC、HadoopJobTracker對應(yīng)StormSpoutD、HadoopReduce對應(yīng)StormBolt答案：C32.下列關(guān)于Storm的描述，有誤的是？A、Storm將流數(shù)據(jù)Stream描述成一個有限的Tuple序列B、Storm保證每個消息都能完整處理C、Storm認為每個Stream都有一個源頭，并把這個源頭抽象為SpoutD、Bolt可以執(zhí)行過濾、函數(shù)操作、Join、操作數(shù)據(jù)庫等任何操作答案：A33.下面關(guān)于UserCF算法和ItemCF算法的對比，哪個是錯誤的？A、UserCF算法的推薦更偏向社會化：適合應(yīng)用于新聞推薦、微博話題推薦等應(yīng)用場景，其推薦結(jié)果在新穎性方面有一定的優(yōu)勢B、ItemCF算法的推薦更偏向于個性化C、ItemCF隨著用戶數(shù)目的增大，用戶相似度計算復(fù)雜度越來越高D、UserCF推薦結(jié)果相關(guān)性較弱，難以對推薦結(jié)果作出解釋，容易受大眾影響而推薦熱門物品答案：C34.下列關(guān)于HDFS的描述，哪個不正確？A、HDFS還采用了相應(yīng)的數(shù)據(jù)存放、數(shù)據(jù)讀取和數(shù)據(jù)復(fù)制策略，來提升系統(tǒng)整體讀寫響應(yīng)性能B、HDFS采用了主從（Master/Slave）結(jié)構(gòu)模型C、HDFS采用了冗余數(shù)據(jù)存儲，增強了數(shù)據(jù)可靠性D、HDFS采用塊的概念，使得系統(tǒng)的設(shè)計變得更加復(fù)雜答案：D35.關(guān)于UMP系統(tǒng)架構(gòu)依賴的開源組件Mnesia，說法錯誤的是哪一項？A、Mnesia是一個分布式數(shù)據(jù)庫管理系統(tǒng)B、Mnesia的數(shù)據(jù)庫模式(schema)只能在未運行前靜態(tài)重配置C、Mnesia的這些特性，使其在開發(fā)云數(shù)據(jù)庫時被用來提供分布式數(shù)據(jù)庫服務(wù)D、Mnesia支持事務(wù)，支持透明的數(shù)據(jù)分片答案：B36.下列關(guān)于Hive基本操作命令的解釋錯誤的是:()A、createdatabaseuserdb;//創(chuàng)建數(shù)據(jù)庫userdbB、createtableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在，創(chuàng)建表usr，含三個屬性id,name,ageC、loaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目錄’/usr/local/data’下的數(shù)據(jù)文件中的數(shù)據(jù)以追加的方式裝載進usr表D、insertoverwritetablestudentselect?fromuserwhereage>10;//向表usr1中插入來自usr表的age大于10的數(shù)據(jù)并覆蓋student表中原有數(shù)據(jù)答案：C37.下列哪個不屬于可視化工具？()A、GoogleChartAPIB、D3C、Visual.lyD、Spark答案：D38.下列說法錯誤的是？()A、大數(shù)據(jù)魔鏡是一款優(yōu)秀的國產(chǎn)數(shù)據(jù)分析軟件，可以讓用戶真正理解探索分析數(shù)據(jù)B、Tableau是桌面系統(tǒng)中最簡單的商業(yè)智能工具軟件，是一個用于網(wǎng)頁作圖、生成互動圖形的JavaScript函數(shù)庫C、GoogleFusionTables讓一般使用者也可以輕松制作出專業(yè)的統(tǒng)計地圖D、ModestMaps是一個小型、可擴展、交互式的免費庫，提供了一套查看衛(wèi)星地圖的API答案：B39.HBase只有一個針對行健的索引，如果要訪問HBase表中的行，下面哪種方式是不可行的？A、通過單個行健訪問B、通過時間戳訪問C、通過一個行健的區(qū)間來訪問D、全表掃描答案：B40.在Pregel計算模型中，圖中的每個頂點會對應(yīng)一個計算單元，下列哪一項不屬于計算單元的成員變量？A、頂點值（Vertexvalue）：頂點對應(yīng)的PR值B、出射邊（Outedge）：只需要表示一條邊，可以不取值C、消息（Message）：傳遞的消息D、入射邊（Iutedge）：只需要表示一條邊，可以不取值答案：D41.Spark生態(tài)系統(tǒng)組件MLlib的應(yīng)用場景是？A、圖結(jié)構(gòu)數(shù)據(jù)的處理B、基于歷史數(shù)據(jù)的交互式查詢C、復(fù)雜的批量數(shù)據(jù)處理D、基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘答案：D42.Spark生態(tài)系統(tǒng)組件SparkStreaming的應(yīng)用場景是？A、基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘B、圖結(jié)構(gòu)數(shù)據(jù)的處理C、基于歷史數(shù)據(jù)的交互式查詢D、基于實時數(shù)據(jù)流的數(shù)據(jù)處理答案：D43.下列關(guān)于MapReduce模型的描述，錯誤的是哪一項？A、MapReduce采用“分而治之”策略B、MapReduce設(shè)計的一個理念就是“計算向數(shù)據(jù)靠攏”C、MapReduce框架采用了Master/Slave架構(gòu)D、MapReduce應(yīng)用程序只能用Java來寫答案：D44.下列關(guān)于流計算的說法，哪項是錯誤的？A、實時獲取來自不同數(shù)據(jù)源的海量數(shù)據(jù)，經(jīng)過實時分析處理，獲得有價值的信息B、流計算秉承一個基本理念，即數(shù)據(jù)的價值隨著時間的流逝而降低C、對于一個流計算系統(tǒng)來說，它應(yīng)該支持TB級甚至是PB級的數(shù)據(jù)規(guī)模D、流計算只需要保證較低的延遲時間，即只達到秒級別即可處理一切問題答案：D45.Hadoop最初是由誰創(chuàng)建的？A、LuceneB、DougCuttingC、ApacheD、MapReduce答案：B46.下列哪一個不屬于Hadoop的大數(shù)據(jù)層的功能？A、數(shù)據(jù)挖掘B、離線分析C、實時計算D、BI分析答案：C47.下列關(guān)于BigTable的描述，哪個是錯誤的？A、爬蟲持續(xù)不斷地抓取新頁面，這些頁面每隔一段時間地存儲到BigTable里B、igTable是一個分布式存儲系統(tǒng)C、BigTable起初用于解決典型的互聯(lián)網(wǎng)搜索問題D、網(wǎng)絡(luò)搜索應(yīng)用查詢建立好的索引，從BigTable得到網(wǎng)頁答案：A48.下列哪個說法是錯誤的？A、從編程的靈活性來講，Storm是比較理想的選擇，它使用ApacheThrift，可以用任何編程語言來編寫拓撲結(jié)構(gòu)（Topology）B、SparkStreaming可以實現(xiàn)毫秒級的流計算C、SparkStreaming無法實現(xiàn)毫秒級的流計算D、在Spark上可以統(tǒng)一部署SparkSQL，SparkStreaming、MLlib，GraphX等組件，提供便捷的一體化編程模型答案：B49.下列哪一項不屬于HDFS采用抽象的塊概念帶來的好處？A、簡化系統(tǒng)設(shè)計B、支持大規(guī)模文件存儲C、強大的跨平臺兼容性D、適合數(shù)據(jù)備份答案：C50.Hadoop框架中最核心的設(shè)計是什么？A、為海量數(shù)據(jù)提供存儲的HDFS和對數(shù)據(jù)進行計算的MapReduceB、提供整個HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務(wù)C、Hadoop不僅可以運行在企業(yè)內(nèi)部的集群中，也可以運行在云計算環(huán)境中D、Hadoop被視為事實上的大數(shù)據(jù)處理標(biāo)準(zhǔn)答案：A51.下列關(guān)于可視化工具中高級分析工具的說法，錯誤的是？()A、R是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件B、Weka主要用于社交圖譜數(shù)據(jù)可視化分析，可以生成非?？犰诺目梢暬瘓D形C、Gephi主要用于社交圖譜數(shù)據(jù)可視化分析，可以生成非常酷炫的可視化圖形D、R通常用于大數(shù)據(jù)集的統(tǒng)計與分析答案：B52.下列哪個關(guān)于StreamGroupings的描述，有誤的是？A、FieldsGrouping：廣播發(fā)送，每一個Task都會收到所有的TupleB、GlobalGrouping：全局分組，所有的Tuple都發(fā)送到同一個Task中C、NonGrouping：不分組，和ShuffleGrouping類似，當(dāng)前Task的執(zhí)行會和它的被訂閱者在同一個線程中執(zhí)行D、irectGrouping：直接分組，直接指定由某個Task來執(zhí)行Tuple的處理答案：A53.在一個基本的Hadoop集群中，DataNode主要負責(zé)什么？A、負責(zé)執(zhí)行由JobTracker指派的任務(wù)B、協(xié)調(diào)數(shù)據(jù)計算任務(wù)C、負責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲D、存儲被拆分的數(shù)據(jù)塊答案：D54.下面哪一項不是MapReduce體系結(jié)構(gòu)主要部分？A、ClientB、JobTrackerC、TaskTracker以及TaskD、Job答案：A55.下列傳統(tǒng)并行計算框架，說法錯誤的是哪一項？A、刀片服務(wù)器、高速網(wǎng)、SAN，價格貴，擴展性差上B、共享式(共享內(nèi)存/共享存儲)，容錯性好C、編程難度高D、實時、細粒度計算、計算密集型答案：B56.在Hadoop項目結(jié)構(gòu)中，HDFS指的是什么？A、分布式文件系統(tǒng)B、流數(shù)據(jù)讀寫C、資源管理和調(diào)度器D、Hadoop上的數(shù)據(jù)倉庫答案：A57.以下哪個屬于數(shù)據(jù)流水線應(yīng)用？A、基于規(guī)則的報警B、實時查詢索引構(gòu)建C、移動應(yīng)用中的產(chǎn)品更新及實驗評估分析D、費者技術(shù)中的實時數(shù)據(jù)即席分析答案：B58.在一個基本的Hadoop集群中，SecondaryNameNode主要負責(zé)什么？A、幫助NameNode收集文件系統(tǒng)運行的狀態(tài)信息B、負責(zé)執(zhí)行由JobTracker指派的任務(wù)C、協(xié)調(diào)數(shù)據(jù)計算任務(wù)D、負責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲答案：A59.第一次信息化浪潮主要解決什么問題？A、信息傳輸B、信息處理C、信息爆炸D、信息轉(zhuǎn)換答案：B60.Hadoop1.0的核心組件（僅指MapReduce和HDFS，不包括Hadoop生態(tài)系統(tǒng)內(nèi)的Pig、Hive、HBase等其他組件），下列哪項是它的不足？A、抽象層次高B、表達能力有限，抽象層次低，需人工編碼C、價格昂貴D、可維護性低答案：B61.下列關(guān)于Spark的描述，錯誤的是哪一項？A、Spark最初由美國加州伯克利大學(xué)（UCBerkeley）的實驗室于2009年開發(fā)B、Spark在2014年打破了Hadoop保持的基準(zhǔn)排序紀錄.C、Spark用十分之一的計算資源，獲得了比Hadoop快3倍的速度D、Spark運行模式單一答案：D62.在每個超步中，Worker調(diào)用頂點上的Compute()函數(shù)，下列哪個參數(shù)是不需要傳遞？A、該頂點的當(dāng)前值B、一個接收到的消息的迭代器C、一個出射邊的迭代器D、一個入射邊的迭代器答案：D63.關(guān)于MapReduce1.0的體系結(jié)構(gòu)的描述，下列說法錯誤的是？A、Task分為MapTask和ReduceTask兩種，分別由JobTracker和TaskTracker啟動B、slot分為Mapslot和Reduceslot兩種，分別供MapTask和ReduceTask使用C、TaskTracker使用“slot”等量劃分本節(jié)點上的資源量（CPU、內(nèi)存等）D、TaskTracker會周期性接收JobTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作（如啟動新任務(wù)、殺死任務(wù)等）答案：A64.關(guān)于Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫的對比分析，下面描述錯誤的是：()A、Hive一般依賴于分布式文件系統(tǒng)HDFS，而傳統(tǒng)數(shù)據(jù)庫則依賴于本地文件系統(tǒng)B、傳統(tǒng)的關(guān)系數(shù)據(jù)庫可以針對多個列構(gòu)建復(fù)雜的索引，Hive不支持索引C、Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫都支持分區(qū)D、傳統(tǒng)關(guān)系數(shù)據(jù)庫很難實現(xiàn)橫向擴展，Hive具有很好的水平擴展性答案：B65.下列哪一項不屬于NoSQL的四大類型？A、文檔數(shù)據(jù)庫B、圖數(shù)據(jù)庫C、列族數(shù)據(jù)庫D、時間戳數(shù)據(jù)庫答案：D66.下面哪一項不屬于計算機集群中的節(jié)點？A、主節(jié)點(MasterNode)B、源節(jié)點（SourceNode）C、名稱結(jié)點(NameNode)D、從節(jié)點（SlaveNode）答案：B67.下列關(guān)于協(xié)同過濾的說法，哪一項是錯誤的？A、協(xié)同過濾可分為基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾B、UserCF算法符合人們對于“趣味相投”的認知，即興趣相似的用戶往往有相同的物品喜好C、實現(xiàn)UserCF算法的關(guān)鍵步驟是計算物品與物品之間的相似度D、基于物品的協(xié)同過濾算法（簡稱ItemCF算法）是目前業(yè)界應(yīng)用最多的算法答案：C68.在一個Worker中，它所管轄的分區(qū)的狀態(tài)信息是保存在內(nèi)存中的，下列哪一項不屬于分區(qū)的狀態(tài)信息？A、頂點的當(dāng)前值B、消息隊列C、標(biāo)志位D、一個接收到的消息的迭代器答案：D69.下列哪個說法是錯誤的？A、無論是亞馬遜還是Netflix，其推薦系統(tǒng)的基礎(chǔ)都是ItemCF算法B、ItemCF算法是給目標(biāo)用戶推薦那些和他們之前喜歡的物品相似的物品C、ItemCF算法主要通過分析用戶的行為記錄來計算物品之間的相似度D、實現(xiàn)UserCF算法的關(guān)鍵步驟是計算物品與物品之間的相似度答案：D70.下列選項中，關(guān)于HBase和BigTable的底層技術(shù)對應(yīng)關(guān)系，哪個是錯誤的？A、GFS與HDFS相對應(yīng)B、GFS與Zookeeper相對應(yīng)C、MapReduce與HadoopMapReduce相對應(yīng)D、Chubby與Zookeeper相對應(yīng)答案：B71.下列哪一個不屬于大數(shù)據(jù)產(chǎn)業(yè)的產(chǎn)業(yè)鏈環(huán)節(jié)？A、數(shù)據(jù)循環(huán)層B、數(shù)據(jù)源層C、數(shù)據(jù)分析層D、數(shù)據(jù)應(yīng)用層答案：A72.下列哪一項不屬于完整推薦系統(tǒng)的三個模塊之一？A、用戶建模模塊B、推薦對象建模模塊C、推薦算法模塊D、數(shù)據(jù)采集模塊答案：D73.下列哪個不屬于物聯(lián)網(wǎng)的應(yīng)用？A、智能物流B、智能安防C、環(huán)保監(jiān)測D、數(shù)據(jù)清洗答案：D74.下列哪個不是UMP系統(tǒng)中的角色？A、Controller服務(wù)器B、Proxy服務(wù)器C、愚公系統(tǒng)D、阿斯隆服務(wù)器答案：D75.下列關(guān)于Scala特性的描述，錯誤的是哪一項？A、Scala語法復(fù)雜，但是能提供優(yōu)雅的API計算B、Scala具備強大的并發(fā)性，支持函數(shù)式編程，可以更好地支持分布式系統(tǒng)C、Scala兼容Java，運行速度快，且能融合到Hadoop生態(tài)圈中D、Scala是Spark的主要編程語言答案：A76.在Hadoop生態(tài)系統(tǒng)中，Kafka主要解決Hadoop中存在哪些的問題？A、Hadoop生態(tài)系統(tǒng)中各個組件和其他產(chǎn)品之間缺乏統(tǒng)一的、高效的數(shù)據(jù)交換中介B、不同的MapReduce任務(wù)之間存在重復(fù)操作，降低了效率C、延遲高，而且不適合執(zhí)行迭代計算D、抽象層次低，需要手工編寫大量代碼答案：A77.下列哪項不屬于在Vetex類中的值類型參數(shù)？A、頂點的出度B、頂點C、邊D、消息答案：A78.下面對FsImage的描述，哪個是錯誤的？A、FsImage文件沒有記錄每個塊存儲在哪個數(shù)據(jù)節(jié)點B、FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式C、FsImage用于維護文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)D、FsImage文件記錄了每個塊具體被存儲在哪個數(shù)據(jù)節(jié)點答案：D79.關(guān)于HDFSFederation的設(shè)計的描述，哪個是錯誤的？A、屬于不同命名空間的塊可以構(gòu)成同一個“塊池”B、HDFSFederation中，所有名稱節(jié)點會共享底層的數(shù)據(jù)節(jié)點存儲資源，數(shù)據(jù)節(jié)點向所有名稱節(jié)點匯報C、設(shè)計了多個相互獨立的名稱節(jié)點D、HDFS的命名服務(wù)能夠水平擴展答案：A80.下列關(guān)于MapReduce1.0的描述，錯誤的是？A、JobTracker“大包大攬”導(dǎo)致任務(wù)過重B、不存在單點故障C、容易出現(xiàn)內(nèi)存溢出（分配資源只考慮MapReduce任務(wù)數(shù)，不考慮CPU、內(nèi)存）D、資源劃分不合理（強制劃分為slot，包括Mapslot和Reduceslot）答案：B81.下面哪個不是Hadoop1.0的組件：()A、HDFSB、MapReduceC、YARND、NameNode和DataNode答案：C82.下列關(guān)于NoSQL與關(guān)系數(shù)據(jù)庫的比較，哪個說法是錯誤的？A、在一致性方面，RDBMS強于NoSQLB、在數(shù)據(jù)完整性方面，RDBMS容易實現(xiàn)C、在擴展性方面，NoSQL比較好D、在可用性方面，NoSQL優(yōu)于RDBMS答案：D83.下列關(guān)于MapReduce的說法，哪個描述是錯誤的？A、MapReduce具有廣泛的應(yīng)用，比如關(guān)系代數(shù)運算、分組與聚合運算等B、MapReduce將復(fù)雜的、運行于大規(guī)模集群上的并行計算過程高度地抽象到了兩個函數(shù)C、編程人員在不會分布式并行編程的情況下，也可以很容易將自己的程序運行在分布式系統(tǒng)上，完成海量數(shù)據(jù)集的計算D、不同的Map任務(wù)之間可以進行通信答案：D84.下列哪個不屬于NoSQL數(shù)據(jù)庫的特點？A、靈活的可擴展性B、靈活的數(shù)據(jù)模型C、與云計算緊密融合D、數(shù)據(jù)存儲規(guī)模有限答案：D85.UMP系統(tǒng)是構(gòu)建在一個大的集群之上的，下列哪一項不屬于系統(tǒng)向用戶提供的功能？A、讀寫分離B、分庫分表C、數(shù)據(jù)安全D、資源合并答案：D86.下列說法錯誤的是？A、UserCF算法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品B、ItemCF算法推薦的是那些和目標(biāo)用戶之前喜歡的物品類似的其他物品C、UserCF算法的推薦更偏向個性化D、UserCF隨著用戶數(shù)目的增大，用戶相似度計算復(fù)雜度越來越高答案：C87.下列哪一項不屬于推薦算法？A、基于物品和商家的聯(lián)合協(xié)同推薦B、基于統(tǒng)計的推薦C、專家推薦D、基于內(nèi)容的推薦答案：A88.在Spark生態(tài)系統(tǒng)組件的應(yīng)用場景中，下列哪項說法是錯誤的？A、Spark應(yīng)用在復(fù)雜的批量數(shù)據(jù)處理B、SparkSQL是基于歷史數(shù)據(jù)的交互式查詢C、SparkStreaming是基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘D、GraphX是圖結(jié)構(gòu)數(shù)據(jù)的處理答案：C89.關(guān)于UMP系統(tǒng)架構(gòu)的Controller服務(wù)器，說法錯誤的是哪一項？A、Controller服務(wù)器向UMP集群提供各種管理服務(wù)B、Controller服務(wù)器上運行了一組Mnesia分布式數(shù)據(jù)庫服務(wù)C、當(dāng)其它服務(wù)器組件需要獲取用戶數(shù)據(jù)時，不可以向Controller服務(wù)器發(fā)送請求獲取數(shù)據(jù)D、為了避免單點故障，保證系統(tǒng)的高可用性，UMP系統(tǒng)中部署了多臺Controller服務(wù)器答案：C90.下列哪個不屬于Hadoop的特性？A、成本高B、高可靠性C、高容錯性D、運行在Linux平臺上答案：A91.下列哪個不屬于PageRank算法在Pregel和MapReduce中實現(xiàn)方式的區(qū)別？A、Pregel將PageRank處理對象看成是連通圖，而MapReduce則將其看成是鍵值對B、Pregel將計算細化到頂點，同時在頂點內(nèi)控制循環(huán)迭代次數(shù)C、MapReduce將計算批量化處理，按任務(wù)進行循環(huán)迭代控制D、圖算法如果用Pregel實現(xiàn)，需要一系列的Pregel的調(diào)用答案：D92.下列哪一項不屬于數(shù)據(jù)庫事務(wù)具有ACID四性？A、間斷性B、原子性C、一致性D、持久性答案：A93.MapReduce1.0的體系結(jié)構(gòu)中，JobTracker是主要任務(wù)是什么？A、負責(zé)資源監(jiān)控和作業(yè)調(diào)度，監(jiān)控所有TaskTracker與Job的健康狀況B、使用“slot”等量劃分本節(jié)點上的資源量（CPU、內(nèi)存等）C、會周期性地通過“心跳”將本節(jié)點上資源的使用情況和任務(wù)的運行進度匯報給TaskTrackerD、會跟蹤任務(wù)的執(zhí)行進度、資源使用量等信息，并將這些信息告訴任務(wù)（Task）答案：A94.下列描述有誤的是？A、專家推薦：人工推薦，由資深的專業(yè)人士來進行物品的篩選和推薦，需要較多的人力成本性B、基于統(tǒng)計的推薦：通過機器學(xué)習(xí)的方法去描述內(nèi)容的特征，并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容C、協(xié)同過濾推薦：應(yīng)用最早和最為成功的推薦方法之一D、混合推薦：結(jié)合多種推薦算法來提升推薦效果答案：B95.下列關(guān)于推薦系統(tǒng)的描述，哪一項是錯誤的？A、推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用B、推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具C、推薦系統(tǒng)可以創(chuàng)造全新的商業(yè)和經(jīng)濟模式，幫助實現(xiàn)長尾商品的銷售D、推薦系統(tǒng)分為基于物品的協(xié)同過濾和基于商家的協(xié)同過濾答案：D96.下列關(guān)于UMP系統(tǒng)功能的說法，哪個是錯誤的？A、充分利用主從庫實現(xiàn)用戶讀寫操作的分離，實現(xiàn)負載均衡B、UMP系統(tǒng)實現(xiàn)了對于用戶透明的讀寫分離功能C、UMP采用的兩種資源隔離方式（用Cgroup限制MySQL進程資源和在Proxy服務(wù)器端限制QPS）D、UMP系統(tǒng)只設(shè)計了一種機制來保證數(shù)據(jù)安全答案：D97.下列關(guān)于鍵值數(shù)據(jù)庫的描述，哪一項是錯誤的？A、擴展性好，靈活性好B、大量寫操作時性能高C、無法存儲結(jié)構(gòu)化信息D、條件查詢效率高答案：D98.下面哪個選項不屬于Hadoop1.0的問題？A、單一名稱節(jié)點，存在單點失效問題B、單一命名空間，無法實現(xiàn)資源隔離C、資源管理效率低D、很難上手答案：D99.下列哪一個不屬于云數(shù)據(jù)庫產(chǎn)品？A、本地安裝MySQLB、阿里云RDSC、OracleCloudD、百度云數(shù)據(jù)庫答案：A100.下面描述錯誤的是：()A、Storm雖然可以做到低延遲，但是無法實現(xiàn)高吞吐，也不能在故障發(fā)生時準(zhǔn)確地處理計算狀態(tài)B、SparkStreaming通過采用微批處理方法實現(xiàn)了高吞吐和容錯性，但是犧牲了低延遲和實時處理能力C、Flink實現(xiàn)了GoogleDataflow流計算模型，是一種兼具高吞吐、低延遲和高性能的實時流計算框架，并且同時支持批處理和流處理D、SparkStreaming可以實現(xiàn)毫秒級響應(yīng)，而Flink只能實現(xiàn)秒級響應(yīng)答案：D101.下列哪項是Hadoop生態(tài)系統(tǒng)中Spark的功能？A、處理大規(guī)模數(shù)據(jù)的腳本語言B、工作流和協(xié)作服務(wù)引擎，協(xié)調(diào)Hadoop上運行的不同任務(wù)C、不支持DAG作業(yè)的計算框架D、基于內(nèi)存的分布式并行編程框架，具有較高的實時性，并且較好支持迭代計算答案：D102.下面描述錯誤的是：()A、Hive的功能十分強大，可以支持采用SQL方式查詢Hadoop平臺上的數(shù)據(jù)B、在實際應(yīng)用中，Hive也暴露出不穩(wěn)定的問題，在極少數(shù)情況下，甚至?xí)霈F(xiàn)端口不響應(yīng)或者進程丟失的問題C、在HiveHA中，在Hadoop集群上構(gòu)建的數(shù)據(jù)倉庫是由單個Hive實例進行管理的D、在HiveHA中，客戶端的查詢請求首先訪問HAProxy，由HAProxy對訪問請求進行轉(zhuǎn)發(fā)答案：C103.下面哪一項不是Hadoop的特性？A、可擴展性高B、只支持少數(shù)幾種編程語言C、成本低D、能在linux上運行答案：B104.在HDFS中，NameNode的主要功能是什么？A、維護了blockid到datanode本地文件的映射關(guān)系B、存儲文件內(nèi)容C、文件內(nèi)存保存在磁盤中D、存儲元數(shù)據(jù)答案：D105.以下哪個不是Hive的用戶接口模塊：()A、PMIB、HWI（HiveWebInterface）C、JDBC/ODBCD、ThriftServer答案：A106.下列關(guān)于列族數(shù)據(jù)庫的描述，哪一項是錯誤的？A、查找速度慢，可擴展性差B、功能較少，大都不支持強事務(wù)一致性C、容易進行分布式擴展D、復(fù)雜性低答案：A107.下列哪項不屬于流計算的處理流程的三個階段？A、數(shù)據(jù)實時采集B、數(shù)據(jù)批量采集C、數(shù)據(jù)實時計算D、實時查詢服務(wù)答案：B108.下列說法錯誤的是？A、RDD（ResillientDistributedDataset）是運行在工作節(jié)點（WorkerNode）的一個進程，負責(zé)運行TaskB、Application是用戶編寫的Spark應(yīng)用程序C、一個Job包含多個RDD及作用于相應(yīng)RDD上的各種操作D、irectedAcyclicGraph反映RDD之間的依賴關(guān)系答案：A109.下列說法錯誤的是？A、HadoopMapReduce是MapReduce的開源實現(xiàn)，后者比前者使用門檻低很多B、MapReduce采用非共享式架構(gòu)，容錯性好C、MapReduce主要用于批處理、實時、計算密集型應(yīng)用D、MapReduce采用“分而治之”策略答案：C110.HDFS采用了什么模型？A、分層模型B、主從結(jié)構(gòu)模型C、管道-過濾器模型D、點對點模型答案：B111.下列哪個不屬于YARN體系結(jié)構(gòu)中ApplicationMaster的功能？A、任務(wù)調(diào)度、監(jiān)控與容錯B、為應(yīng)用程序申請資源C、將申請的資源分配給內(nèi)部任務(wù)D、處理來自ResourceManger的命令答案：D112.采用MapReduce實現(xiàn)PageRank的計算過程包括三個階段，下列哪一項是錯的？A、第一階段：解析網(wǎng)頁B、第二階段：PageRank分配C、第三階段：收斂階段D、第一階段：收集網(wǎng)頁答案：D113.下列關(guān)于Storm設(shè)計思想，描述有誤的是？A、Storm將Streams的狀態(tài)轉(zhuǎn)換過程抽象為SpoutB、Storm認為每個Stream都有一個源頭，并把這個源頭抽象為SpoutC、Storm將Spouts和Bolts組成的網(wǎng)絡(luò)抽象成TopologyD、Topology里面的每個處理組件（Spout或Bolt）都包含處理邏輯，而組件之間的連接則表示數(shù)據(jù)流動的方向答案：A114.下列關(guān)于Spark的描述，錯誤的是哪一項？A、使用DAG執(zhí)行引擎以支持循環(huán)數(shù)據(jù)流與內(nèi)存計算析B、可運行于獨立的集群模式中，可運行于Hadoop中，也可運行于AmazonEC2等云環(huán)境中C、支持使用Scala、Java、Python和R語言進行編程，但是不可以通過SparkShell進行交互式編程D、可運行于獨立的集群模式中，可運行于Hadoop中，也可運行于AmazonEC2等云環(huán)境中答案：C115.下列關(guān)于數(shù)據(jù)可視化的描述，哪個是錯誤的？()A、數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B、利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程C、數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示D、將數(shù)據(jù)的各個屬性值以一維數(shù)據(jù)的形式表示答案：D116.下列哪個不屬于YARN體系結(jié)構(gòu)中ResourceManager的功能？A、處理客戶端請求B、監(jiān)控NodeManagerC、資源分配與調(diào)度D、處理來自ApplicationMaster的命令答案：D117.下列哪一項說法是錯誤的？A、UserCF算法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品B、ItemCF算法推薦的是那些和目標(biāo)用戶之前喜歡的物品類似的其他物品C、ItemCF算法的推薦更偏向社會化，而UserCF算法的推薦更偏向于個性化D、ItemCF算法傾向于推薦與用戶已購買商品相似的商品，往往會出現(xiàn)多樣性不足、推薦新穎度較低的問題答案：C118.下列哪一個不屬于第三次信息化浪潮中新興的技術(shù)？A、互聯(lián)網(wǎng)B、云計算C、大數(shù)據(jù)D、物聯(lián)網(wǎng)答案：A119.下列關(guān)于Map和Reduce函數(shù)的描述，哪個是錯誤的？A、Map將小數(shù)據(jù)集進一步解析成一批<key,value>對，輸入Map函數(shù)中進行處理B、Map每一個輸入的<k1,v1>會輸出一批<k2,v2>。<k2,v2>是計算的中間結(jié)果C、Reduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于不同k2的valueD、Reduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于同一個k2的value答案：C120.在HDFS中，默認一個塊多大？A、64MBB、32KBC、128KBD、16KB答案：A121.分布式文件系統(tǒng)指的是什么？A、把文件分布存儲到多個計算機節(jié)點上，成千上萬的計算機節(jié)點構(gòu)成計算機集群B、用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進行數(shù)據(jù)傳遞C、一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)D、一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，可以處理消費者規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)答案：A122.下面對SecondaryNameNode第二名稱節(jié)點的描述，哪個是錯誤的？A、SecondaryNameNode一般是并行運行在多臺機器上B、它是用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份，并減少名稱節(jié)點重啟的時間C、SecondaryNameNode通過HTTPGET方式從NameNode上獲取到FsImage和EditLog文件，并下載到本地的相應(yīng)目錄下D、SecondaryNameNode是HDFS架構(gòu)中的一個組成部分答案：A123.下面哪個不可能是Hive的執(zhí)行引擎：()A、MapReduceB、TezC、StormD、Spark答案：C124.云計算平臺層（PaaS）指的是什么？A、操作系統(tǒng)和圍繞特定應(yīng)用的必需的服務(wù)B、將基礎(chǔ)設(shè)施(計算資源和存儲)作為服務(wù)出租C、從一個集中的系統(tǒng)部署軟件，使之在一臺本地計算機上(或從云中遠程地)運行的一個模型D、提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務(wù)答案：A125.下列哪一項不屬于每個超步的組件？A、全局計算B、局部計算C、通訊D、柵欄同步答案：A126.下面關(guān)于MongoDB說法，哪一項是正確的？A、具有較差的水平可擴展性B、設(shè)置個別屬性的索引來實現(xiàn)更快的排序C、提供了一個面向文檔存儲，操作復(fù)雜D、可以實現(xiàn)替換完成的文檔（數(shù)據(jù)）或者一些指定的數(shù)據(jù)字段答案：D多選題1.在HDFS中，名稱節(jié)點（NameNode）主要保存了哪些核心的數(shù)據(jù)結(jié)構(gòu)？A、FsImageB、DN8C、BlockD、EditLog答案：AD2.關(guān)于Hive與傳統(tǒng)關(guān)系數(shù)據(jù)庫的對比分析，下面描述正確的是：()A、在數(shù)據(jù)存儲方面，Hive一般依賴于分布式文件系統(tǒng)HDFS，而傳統(tǒng)數(shù)據(jù)庫則依賴于本地文件系統(tǒng)B、在索引方面，傳統(tǒng)的關(guān)系數(shù)據(jù)庫可以針對多個列構(gòu)建復(fù)雜的索引，大幅度提升數(shù)據(jù)查詢性能，而Hive不像傳統(tǒng)的關(guān)系型數(shù)據(jù)庫那樣有鍵的概念，它只能提供有限的索引功能C、在分區(qū)方面，傳統(tǒng)的數(shù)據(jù)庫提供分區(qū)功能來改善大型表以及具有各種訪問模式的表的可伸縮性、可管理性，以及提高數(shù)據(jù)庫效率；Hive不支持分區(qū)功能D、在執(zhí)行引擎方面，傳統(tǒng)的關(guān)系數(shù)據(jù)庫依賴自身的執(zhí)行引擎，而Hive則依賴于MapReduce、Tez和Spark等執(zhí)行引擎答案：ABD3.下列對于Pregel的執(zhí)行過程，哪些是正確的？A、選擇集群中的多臺機器執(zhí)行圖計算任務(wù)，每臺機器上運行用戶程序的一個副本B、Master把一個圖分成多個分區(qū)，并把分區(qū)分配到多個WorkerC、Master會把用戶輸入劃分成多個部分，通常是基于文件邊界進行劃分D、Master向每個Worker發(fā)送指令，Worker收到指令后，開始運行一個超步答案：ABCD4.在實際應(yīng)用中，當(dāng)采用多種計算架構(gòu)來滿足不同應(yīng)用場景需求時，大數(shù)據(jù)處理難免會帶來哪些問題？A、不同場景之間輸入輸出數(shù)據(jù)無法做到無縫共享，通常需要進行數(shù)據(jù)格式的轉(zhuǎn)換B、不同的軟件需要不同的開發(fā)和維護團隊C、需要較高的使用成本D、比較難以對同一個集群中的各個系統(tǒng)進行統(tǒng)一的資源協(xié)調(diào)和分配答案：ABCD5.下列關(guān)于推薦系統(tǒng)的描述，哪些是正確的？A、用戶建模模塊：對用戶進行建模，根據(jù)用戶行為數(shù)據(jù)和用戶屬性數(shù)據(jù)來分析用戶的興趣和需求B、推薦對象建模模塊：根據(jù)對象數(shù)據(jù)對推薦對象進行建模C、推薦算法模塊：基于用戶特征和物品特征，采用推薦算法計算得到用戶可能感興趣的對象D、推薦算法模塊：根據(jù)推薦場景對推薦結(jié)果進行一定調(diào)整，將推薦結(jié)果最終展示給用戶答案：ABCD6.下列說法正確的有？A、在Pregel中，為了獲得更好的性能，“標(biāo)志位”和輸入消息隊列是分開保存的B、在超步S中，當(dāng)一個Worker在進行頂點處理時，用于當(dāng)前超步的消息會被處理C、需要兩個消息隊列用于存放作用于當(dāng)前超步S的消息和作用于下一個超步S+1的消息D、每個Worker上都保存了一個或多個分區(qū)的狀態(tài)信息，當(dāng)一個Worker發(fā)生故障時，它所負責(zé)維護的分區(qū)的當(dāng)前狀態(tài)信息就會丟失答案：ABCD7.Hadoop的優(yōu)化與發(fā)展主要體現(xiàn)在哪幾個方面？A、Hadoop自身核心組件MapReduce的架構(gòu)設(shè)計改進B、Hadoop自身核心組件HDFS的架構(gòu)設(shè)計改進C、Hadoop生態(tài)系統(tǒng)其它組件的不斷豐富D、Hadoop生態(tài)系統(tǒng)減少不必要的組件，整合系統(tǒng)答案：ABC8.下列關(guān)于Map端的Shuffle的描述，哪些是正確的？A、MapReduce默認為每個Map任務(wù)分配1000MB緩存B、多個溢寫文件歸并成一個或多個大文件，文件中的鍵值對是排序的C、當(dāng)數(shù)據(jù)很少時，不需要溢寫到磁盤，直接在緩存中歸并，然后輸出給ReduceD、每個Map任務(wù)分配多個緩存，使得任務(wù)運行更有效率答案：BC9.下列關(guān)于批量計算和實時計算的說法，正確的有？A、批量計算：充裕時間處理靜態(tài)數(shù)據(jù)，如HadoopB、靜態(tài)數(shù)據(jù)不適合采用批量計算，因為它不適合用傳統(tǒng)的關(guān)系模型建模C、流數(shù)據(jù)必須采用實時計算D、流數(shù)據(jù)的響應(yīng)時間一般為秒級，甚至需要毫秒級答案：ACD10.下列哪些屬于Hadoop2.0相對于Hadoop1.0的改進？A、設(shè)計了HDFSHAB、提供名稱節(jié)點熱備機制C、設(shè)計了HDFSFederation，管理多個命名空間D、設(shè)計了新的資源管理框架YARN答案：ABCD11.流數(shù)據(jù)具有以下哪些特征？A、數(shù)據(jù)來源眾多，格式復(fù)雜B、注重數(shù)據(jù)的整體價值，不過分關(guān)注個別數(shù)據(jù)C、系統(tǒng)可以控制將要處理的新到達的數(shù)據(jù)元素的順序D、數(shù)據(jù)快速持續(xù)到達，潛在大小也許是無窮無盡的答案：ABC12.HBase的三層結(jié)構(gòu)中，三層指的是哪三層？A、Zookeeper文件B、-ROOT-表C、META.表D、數(shù)據(jù)類型答案：ABC13.UMP系統(tǒng)架構(gòu)依賴的哪些開源組件？A、MnesiaB、LVSC、RabbitMQD、ZooKeeper答案：ABCD14.下列哪些選項屬于Hadoop的缺點？A、表達能力有限B、磁盤IO開銷大C、延遲高D、在前一個任務(wù)執(zhí)行完成之前，其他任務(wù)就無法開始，難以勝任復(fù)雜、多階段的計算任務(wù)答案：ABCD15.為什么說云數(shù)據(jù)庫是個性化數(shù)據(jù)存儲需求的理想選擇？A、云數(shù)據(jù)庫可以滿足大企業(yè)的海量數(shù)據(jù)存儲需求B、云數(shù)據(jù)庫可以滿足中小企業(yè)的低成本數(shù)據(jù)存儲需求C、云數(shù)據(jù)庫可以滿足企業(yè)動態(tài)變化的數(shù)據(jù)存儲需求D、前期零投入、后期免維護的數(shù)據(jù)庫服務(wù)，可以很好滿足它們的需求答案：ABCD16.以下哪些是數(shù)據(jù)倉庫的特性：()A、面向主題的（SubjectOriented）B、集成的（Integrated）C、相對穩(wěn)定的（Non-Volatile）D、反映歷史變化答案：ABCD17.下面哪個屬于大數(shù)據(jù)的應(yīng)用領(lǐng)域？A、智能醫(yī)療研發(fā)B、監(jiān)控身體情況C、實時掌握交通狀況D、金融交易答案：ABCD18.下列對于客服端的描述，哪些是正確的？A、客戶端是用戶操作HDFS最常用的方式，HDFS在部署時都提供了客戶端B、HDFS客戶端是一個庫，暴露了HDFS文件系統(tǒng)接口C、嚴格來說，客戶端并不算是HDFS的一部分D、客戶端可以支持打開、讀取、寫入等常見的操作答案：ABCD19.下列關(guān)于推薦系統(tǒng)集群的描述，哪些是正確的？A、為了讓用戶從海量信息中高效地獲得自己所需的信息，推薦系統(tǒng)應(yīng)運而生B、推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用C、推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具D、推薦系統(tǒng)是利用大數(shù)據(jù)調(diào)整線下門店布局、控制店內(nèi)人流量答案：ABC20.目前，Storm中的StreamGroupings有如下哪幾種方式？A、llGrouping：廣播發(fā)送，每一個Task都會收到所有的TupleB、GlobalGrouping：全局分組，所有的Tuple都發(fā)送到同一個Task中C、FieldsGrouping：按照字段分組，保證相同字段的Tuple分配到同一個Task中D、irectGrouping：隨機分組，隨機分發(fā)Stream中的Tuple，保證每個Bolt的Task接收Tuple數(shù)量大致一致答案：ABC21.下列關(guān)于文檔數(shù)據(jù)庫的描述，哪些是正確的？A、性能好（高并發(fā)），靈活性高B、具備統(tǒng)一的查詢語法C、文檔數(shù)據(jù)庫支持文檔間的事務(wù)D、復(fù)雜性低，數(shù)據(jù)結(jié)構(gòu)靈活答案：AD22.Spark具有以下哪幾個主要特點？A、運行速度快B、容易使用C、通用性D、運行模式單一答案：ABC23.UMP系統(tǒng)架構(gòu)設(shè)計遵循了以下哪些原則？A、保持單一的系統(tǒng)對外入口，并且為系統(tǒng)內(nèi)部維護單一的資源池B、消除單點故障，保證服務(wù)的高可用性C、保證系統(tǒng)具有良好的可伸縮，能夠動態(tài)地增加、刪減計算與存儲節(jié)點D、保證分配給用戶的資源也是彈性可伸縮的答案：ABCD24.下列關(guān)于Storm框架，描述正確的有？A、worker:每個worker進程都屬于一個特定的TopologyB、executor：executor是產(chǎn)生于worker進程內(nèi)部的線程C、task:實際的數(shù)據(jù)處理由task完成D、在Topology的生命周期中，每個組件的task數(shù)目是不會發(fā)生變化的，而executor的數(shù)目卻不一定答案：ABCD25.HBase與傳統(tǒng)的關(guān)系數(shù)據(jù)庫的區(qū)別主要體現(xiàn)在以下哪幾個方面？A、數(shù)據(jù)類型B、數(shù)據(jù)操作C、存儲模式D、數(shù)據(jù)維護答案：ABCD26.下列關(guān)于UMP系統(tǒng)架構(gòu)的描述，哪些是正確的？A、信息統(tǒng)計服務(wù)器定期將采集到的用戶的連接數(shù)B、Web控制臺無法向用戶提供系統(tǒng)管理界面C、LVS(LinuxVirtualServer)即Linux虛擬服務(wù)器D、UMP系統(tǒng)借助于LVS來實現(xiàn)集群內(nèi)部的負載均衡答案：ACD27.企業(yè)數(shù)據(jù)架構(gòu)的典型形式包括：()A、傳統(tǒng)數(shù)據(jù)處理架構(gòu)B、大數(shù)據(jù)Lambda架構(gòu)C、流處理架構(gòu)D、循環(huán)處理架構(gòu)答案：ABC28.云計算關(guān)鍵技術(shù)包括什么？A、分布式存儲B、虛擬化C、分布式計算D、多租戶答案：ABCD29.Flink系統(tǒng)主要由兩個組件組成：()A、JobManagerB、JobTrackderC、TaskTrackerD、TaskManager答案：AD30.Hadoop集群的整體性能主要受到什么因素影響？A、CPU性能B、內(nèi)存C、網(wǎng)絡(luò)D、存儲容量答案：ABCD31.下列關(guān)于Hadoop的描述，哪些是正確的？A、為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎(chǔ)架構(gòu)B、具有很好的跨平臺特性C、可以部署在廉價的計算機集群中D、曾經(jīng)被公認為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件答案：ABCD32.下列選項中，哪些屬于Hadoop1.0的核心組件的不足之處？A、實時性差（適合批處理，不支持實時交互式）B、資源浪費（Map和Reduce分兩階段執(zhí)行）C、執(zhí)行迭代操作效率低D、難以看到程序整體邏輯答案：ABCD33.在YARN體系結(jié)構(gòu)中，ApplicationMaster主要功能包括哪些？A、當(dāng)用戶作業(yè)提交時，ApplicationMaster與ResourceManager協(xié)商獲取資源，ResourceManager會以容器的形式為ApplicationMaster分配資源B、把獲得的資源進一步分配給內(nèi)部的各個任務(wù)（Map任務(wù)或Reduce任務(wù)），實現(xiàn)資源的“二次分配”C、定時向ResourceManager發(fā)送“心跳”消息，報告資源的使用情況和應(yīng)用的進度信息D、向ResourceManager匯報作業(yè)的資源使用情況和每個容器的運行狀態(tài)據(jù)概述答案：ABC34.實現(xiàn)UserCF算法的關(guān)鍵步驟是計算用戶與用戶之間的興趣相似度，下列哪些是屬于計算相似度的算法？A、泊松相關(guān)系數(shù)B、余弦相似度C、調(diào)整余弦相似度D、調(diào)整正弦相似度答案：ABC35.HDFS1.0主要存在哪些問題？A、單點故障問題B、不可以水平擴展C、單個名稱節(jié)點難以提供不同程序之間的隔離性D、系統(tǒng)整體性能受限于單個名稱節(jié)點的吞吐量答案：ACD36.在每個超步中，Worker會對自己所管轄的分區(qū)中的每個頂點進行遍歷，并調(diào)用頂點上的Compute()函數(shù)，在調(diào)用時，會把以下哪些參數(shù)傳遞進去？A、該頂點的當(dāng)前值B、一個接收到的消息的迭代器C、一個出射邊的迭代器D、標(biāo)志位，用來標(biāo)記頂點是否處于活躍狀態(tài)答案：ABC37.Scala具有以下哪幾個主要特點？A、Scala的優(yōu)勢是提供了REPL（Read-Eval-PrintLoop，交互式解釋器），提高程序開發(fā)效率B、Scala兼容Java，運行速度快，且能融合到Hadoop生態(tài)圈中C、Scala具備強大的并發(fā)性，支持函數(shù)式編程D、Scala可以更好地支持分布式系統(tǒng)答案：ABCD38.下列說法中，哪些選項描述正確？A、Spark在借鑒HadoopMapReduce優(yōu)點的同時，很好地解決了MapReduce所面臨的問題B、Spark的計算模式也屬于MapReduce，但不局限于Map和Reduce操作C、HadoopMapReduce編程模型比Spark更靈活D、HadoopMapReduce提供了內(nèi)存計算，可將中間結(jié)果放到內(nèi)存中，對于迭代運算效率更高答案：AB39.以下哪些是Amazon的云數(shù)據(jù)庫產(chǎn)品？A、mazonRDS：云中的關(guān)系數(shù)據(jù)庫B、AmazonSimpleDB：云中的鍵值數(shù)據(jù)庫C、AmazonDynamoDB：云中的數(shù)據(jù)倉庫D、AmazonElastiCache：云中的分布式內(nèi)存緩存答案：ABC40.與HadoopMapReduce計算框架相比，Spark所采用的Executor具有哪些優(yōu)點？A、利用多線程來執(zhí)行具體的任務(wù)，減少任務(wù)的啟動開銷B、Executor中有一個BlockManager存儲模塊，有效減少IO開銷C、提供了一種高度受限的共享內(nèi)存模型D、不同場景之間輸入輸出數(shù)據(jù)能做到無縫共享答案：AB41.Flink的優(yōu)勢包括：()A、同時支持高吞吐、低延遲、高性能B、同時支持流處理和批處理C、支持有狀態(tài)計算D、具有獨立的內(nèi)存管理答案：ABCD42.Impala主要由哪幾個部分組成:()A、ImpaladB、StateStoreC、LID、Hive答案：ABC43.對于一個流計算系統(tǒng)來說，它應(yīng)達到以下哪些需求？A、高性能：處理大數(shù)據(jù)的基本要求，如每秒處理幾十萬條數(shù)據(jù)B、實時性：保證較低的延遲時間，達到秒級別，甚至是毫秒級別C、分布式：支持大數(shù)據(jù)的基本架構(gòu)，必須能夠平滑擴展D、可靠性：能可靠地處理流數(shù)據(jù)答案：ABCD44.在大數(shù)據(jù)時代，可視化技術(shù)可以支持實現(xiàn)哪些目標(biāo)？()A、觀測、跟蹤數(shù)據(jù)B、分析數(shù)據(jù)C、輔助理解數(shù)據(jù)D、增強數(shù)據(jù)吸引力答案：ABCD45.下列說法中，哪些是正確的？A、ModestMaps是一個小型、可擴展、交互式的免費庫B、Leaflet是一個小型化的地圖框架，通過小型化和輕量化來滿足移動網(wǎng)頁的需要C、GoogleFusionTables讓一般使用者也可以輕松制作出專業(yè)的統(tǒng)計地圖D、大數(shù)據(jù)魔鏡是一款優(yōu)秀的國產(chǎn)數(shù)據(jù)分析軟件，它豐富的數(shù)據(jù)公式和算法可以讓用戶真正理解探索分析數(shù)據(jù)答案：ABCD46.數(shù)據(jù)庫事務(wù)具有ACID四性，下面哪幾項屬于四性？A、原子性B、持久性C、間斷性D、一致性答案：ABD47.在實際應(yīng)用中，大數(shù)據(jù)處理主要包括以下哪三個類型？A、復(fù)雜的批量數(shù)據(jù)處理：通常時間跨度在數(shù)十分鐘到數(shù)小時之間B、基于歷史數(shù)據(jù)的交互式查詢：通常時間跨度在數(shù)十秒到數(shù)分鐘之間C、基于實時數(shù)據(jù)流的數(shù)據(jù)處理：通常時間跨度在數(shù)十秒到數(shù)分鐘之間D、基于實時數(shù)據(jù)流的數(shù)據(jù)處理：通常時間跨度在數(shù)百毫秒到數(shù)秒之間答案：ABD48.云計算的服務(wù)模式和類型主要包括哪三類？A、軟件即服務(wù)（SaaS）B、平臺即服務(wù)（PaaS）C、基礎(chǔ)設(shè)施即服務(wù)（IaaS）D、數(shù)據(jù)采集即服務(wù)（DaaS）答案：ABC49.HBase訪問接口類型包括哪些？A、NativeJavaAPIB、HBaseShellC、ThriftGatewayD、RESTGateway答案：ABCD50.Storm具有以下哪些特點？A、整合性：Storm可方便地與隊列系統(tǒng)和數(shù)據(jù)庫系統(tǒng)進行整合B、簡易的API：Storm的API在使用上即簡單又方便C、容錯性：Storm可自動進行故障節(jié)點的重啟、任務(wù)的重新分配D、可擴展性：Storm的并行特性使其可以運行在分布式集群中答案：ABCD51.關(guān)系數(shù)據(jù)庫已經(jīng)無法滿足Web2.0的需求，主要表現(xiàn)在以下幾個方面？A、無法滿足海量數(shù)據(jù)的管理需求B、無法滿足數(shù)據(jù)高并發(fā)的需求C、無法滿足高可擴展性和高可用性的需求D、使用難度高答案：ABC52.下列關(guān)于流處理系統(tǒng)與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)的描述，正確的有？A、流處理系統(tǒng)處理的是實時的數(shù)據(jù)，而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預(yù)先存儲好的靜態(tài)數(shù)據(jù)B、用戶通過流處理系統(tǒng)獲取的是實時結(jié)果，而通過傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)，獲取的是過去某一時刻的結(jié)果C、流處理系統(tǒng)無需用戶主動發(fā)出查詢，實時查詢服務(wù)可以主動將結(jié)果推送給用戶D、傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)系統(tǒng)無需用戶主動發(fā)出查詢，批量查詢服務(wù)可以主動將結(jié)果推送給用戶答案：ABC53.數(shù)據(jù)倉庫Hive的執(zhí)行引擎可以是：()A、TezB、MapReduceC、PigD、Spark答案：ABD54.傳統(tǒng)數(shù)據(jù)倉庫面臨哪些挑戰(zhàn)：()A、無法滿足快速增長的海量數(shù)據(jù)存儲需求B、無法有效處理不同類型的數(shù)據(jù)C、具有很強的擴展性D、計算和處理能力不足答案：ABD55.下列關(guān)于數(shù)據(jù)可視化的描述，正確的有？A、數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B、數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示C、利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程D、將數(shù)據(jù)的各個屬性值以一維數(shù)據(jù)的形式表示答案：ABC56.下列關(guān)于云數(shù)據(jù)庫與其他數(shù)據(jù)庫的關(guān)系，哪些是正確的？A、從數(shù)據(jù)模型的角度來說，云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù)B、云數(shù)據(jù)庫并沒有專屬于自己的數(shù)據(jù)模型，云數(shù)據(jù)庫所采用的數(shù)據(jù)模型可以是關(guān)系數(shù)據(jù)庫所使用的關(guān)系模型C、同一個公司只能提供采用不同數(shù)據(jù)模型的單個云數(shù)據(jù)庫服務(wù)D、許多公司在開發(fā)云數(shù)據(jù)庫時，后端數(shù)據(jù)庫都是直接使用現(xiàn)有的各種關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫產(chǎn)品答案：ABD57.下列關(guān)于協(xié)同過濾算法的描述，哪些是正確的？A、基于物品的協(xié)同過濾算法（簡稱ItemCF算法）是目前業(yè)界應(yīng)用最多的算法B、ItemCF算法是給目標(biāo)用戶推薦那些和他們之前喜歡的物品相似的物品C、ItemCF算法通過建立用戶到物品倒排表（每個用戶喜歡的物品的列表）來計算物品相似度D、UserCF算法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品答案：ABCD58.當(dāng)處理CAP的問題時，可以有哪幾個明顯的選擇？A、CA：也就是強調(diào)一致性（C）和可用性（A），放棄分區(qū)容忍性（P）B、CP：也就是強調(diào)一致性（C）和分區(qū)容忍性（P），放棄可用性（A）C、AP：也就是強調(diào)可用性（A）和分區(qū)容忍性（P），放棄一致性（C）D、CAP：也就是同時兼顧可用性（A）、分區(qū)容忍性（P）和一致性（C），當(dāng)時系統(tǒng)性能會下降很多答案：ABC59.大數(shù)據(jù)的兩個核心技術(shù)是什么？A、分布式存儲B、分布式應(yīng)用C、分布式處理D、集中式存儲答案：AC60.推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系，根據(jù)推薦算法的不同，推薦方法包括以下哪幾類？A、專家推薦：人工推薦，由資深的專業(yè)人士來進行物品的篩選和推薦，需要較多的人力成本B、基于統(tǒng)計的推薦：基于統(tǒng)計信息的推薦（如熱門推薦），易于實現(xiàn)，但對用戶個性化偏好的描述能力較弱C、基于內(nèi)容的推薦：通過機器學(xué)習(xí)的方法去描述內(nèi)容的特征，并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容D、混合推薦：結(jié)合多種推薦算法來提升推薦效果答案：ABCD61.HDFS特殊的設(shè)計，在實現(xiàn)優(yōu)良特性的同時，也使得自身具有一些應(yīng)用局限性，主要包括以下哪幾個方面？A、較差的跨平臺兼容性B、無法高效存儲大量小文件C、不支持多用戶寫入及任意修改文件D、不適合低延遲數(shù)據(jù)訪問答案：BCD62.下列關(guān)于Hadoop的描述，哪些是錯誤的？A、只能支持一種編程語言B、具有較差的跨平臺特性C、可以部署在廉價的計算機集群中D、曾經(jīng)被公認為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件答案：AB63.當(dāng)采用MapReduce作為Hive的執(zhí)行引擎時，下面描述正確的是：()A、當(dāng)用戶向Hive輸入一段命令或查詢（即HiveQL語句）時，Hive需要與Hadoop交互工作來完成該操作B、命令或查詢首先進入到驅(qū)動模塊，由驅(qū)動模塊中的編譯器進行解析編譯，并由優(yōu)化器對該操作進行優(yōu)化計算，然后交給執(zhí)行器去執(zhí)行C、執(zhí)行器通常的任務(wù)是啟動一個或多個MapReduce任務(wù)，有時也不需要啟動MapReduce任務(wù)D、執(zhí)行器通常的任務(wù)一定會包含Map和Reduce操作答案：ABC64.Hadoop生態(tài)系統(tǒng)中Hive與其他部分的關(guān)系的描述正確的是：()A、HDFS作為高可靠的底層存儲，用來存儲Hive的海量數(shù)據(jù)B、MapReduce對這些海量數(shù)據(jù)進行批處理，實現(xiàn)Hive的高性能計算C、當(dāng)采用MapRedue作為Hive的執(zhí)行引擎時，用HiveQL語句編寫的處理邏輯，最終都要轉(zhuǎn)化為MapReduce任務(wù)來運行D、HBase與Hive的功能是互補的，它實現(xiàn)了Hive不能提供的功能答案：ABCD65.Flink編程模型包括哪幾層：()A、SQLB、TableAPIC、DataStreamAPI/DataSetAPID、有狀態(tài)數(shù)據(jù)流處理答案：ABCD66.第三次信息化浪潮的標(biāo)志是哪些技術(shù)的興起？A、個人計算機B、物聯(lián)網(wǎng)C、云計算D、大數(shù)據(jù)答案：BCD67.下列關(guān)于流計算與Hadoop的說法，正確的有？A、Hadoop擅長批處理，不適合流計算B、MapReduce是專門面向靜態(tài)數(shù)據(jù)的批量處理的C、Hadoop設(shè)計的初衷是面向大規(guī)模數(shù)據(jù)的批量處理D、MapReduce不適合用于處理持續(xù)到達的動態(tài)數(shù)據(jù)答案：ABCD68.Spark運行架構(gòu)具有以下哪些特點？A、每個Application都有自己專屬的Executor進程，并且該進程在Application運行期間一直駐留B、Executor進程以多線程的方式運行TaskC、Spark運行過程與資源管理器無關(guān)，只要能夠獲取Executor進程并保持通信即可D、Task采用了數(shù)據(jù)本地性和推測執(zhí)行等優(yōu)化機制答案：ABCD69.MapReduce體系結(jié)構(gòu)主要由以下那幾個部分構(gòu)成？A、ClientB、JobTrackerC、TaskTrackerD、Task答案：ABCD70.下列說法正確的是？A、MapReduce體系結(jié)構(gòu)主要由四個部分組成，分別是：Client、JobTracker、TaskTracker以及TaskB、Task分為MapTask和ReduceTask兩種，均由TaskTracker啟動C、在MapReduce工作流程中，所有的數(shù)據(jù)交換都是通過MapReduce框架自身去實現(xiàn)的D、在MapReduce工作流程中，用戶不能顯式地從一臺機器向另一臺機器發(fā)送消息答案：ABCD71.下列關(guān)于MySQL集群的描述，哪些是正確的？A、復(fù)雜性：部署、管理、配置很復(fù)雜B、數(shù)據(jù)庫復(fù)制：MySQL主備之間一般采用復(fù)制方式，很多時候是異步復(fù)制C、擴容問題：如果系統(tǒng)壓力過大需要增加新的機器，這個過程涉及數(shù)據(jù)重新劃分D、動態(tài)數(shù)據(jù)遷移問題：如果某個數(shù)據(jù)庫組壓力過大，需要將其中部分數(shù)據(jù)遷移出去答案：ABCD72.下列關(guān)于云數(shù)據(jù)庫的描述，哪些是正確的？A、mazon是云數(shù)據(jù)庫市場的先行者B、GoogleCloudSQL是谷歌公司推出的基于MySQL的云數(shù)據(jù)庫C、從數(shù)據(jù)模型的角度來說，云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù)D、云數(shù)據(jù)庫并沒有專屬于自己的數(shù)據(jù)模型答案：ABCD73.下列關(guān)于Region服務(wù)器工作原理的描述，哪些是正確的？A、每個Region服務(wù)器都有一個自己的HLog文件B、每次刷寫都生成一個新的StoreFile，數(shù)量太多，影響查找速度C、合并操作比較耗費資源，只有數(shù)量達到一個閾值才啟動合并D、Store是Region服務(wù)器的核心答案：ABCD74.大數(shù)據(jù)具有哪些特點？A、數(shù)據(jù)的“大量化”B、數(shù)據(jù)的“快速化”C、數(shù)據(jù)的“多樣化”D、數(shù)據(jù)的“價值密度比較低”答案：ABCD75.Microsoft的云數(shù)據(jù)庫產(chǎn)品SQLAzure具有以下哪些特性？A、屬于關(guān)系型數(shù)據(jù)庫：支持使用TSQL來管理、創(chuàng)建和操作云數(shù)據(jù)庫B、支持存儲過程：它的數(shù)據(jù)類型、存儲過程和傳統(tǒng)的SQLServer具有很大的相似性C、支持大量數(shù)據(jù)類型D、支持云中的事務(wù)：支持局部事務(wù)，但是不支持分布式事務(wù)答案：ABCD76.Hadoop的特性包括哪些？A、高可擴展性B、支持多種編程語言C、成本低D、運行在Linux平臺上答案：ABCD77.Spark支持哪三種不同類型的部署方式？A、Standalone（類似于MapReduce1.0，slot為資源分配單位）B、SparkonMesos（和Spark有血緣關(guān)系，更好支持Mesos）C、SparkonYARND、SparkonHDFS答案：ABC78.一個基本的Hadoop集群中的節(jié)點主要包括什么？A、DataNode：存儲被拆分的數(shù)據(jù)塊B、JobTracker：協(xié)調(diào)數(shù)據(jù)計算任務(wù)C、TaskTracker：負責(zé)執(zhí)行由JobTracker指派的任務(wù)D、SecondaryNameNode：幫助NameNode收集文件系統(tǒng)運行的狀態(tài)信息答案：ABCD79.JobTracker主要包括哪三大功能？A、資源管理B、任務(wù)調(diào)度C、任務(wù)監(jiān)控D、數(shù)據(jù)即服務(wù)答案：ABC80.MapReduce的作業(yè)主要包括什么？A、從磁盤或從網(wǎng)絡(luò)讀取數(shù)據(jù)，即IO密集工作B、計算數(shù)據(jù)，即CPU密集工作C、針對不同的工作節(jié)點選擇合適硬件類型D、負責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲答案：AB81.下列哪一項不屬于Hadoop的特性？A、較低可擴展性B、只支持java語言C、成本低D、運行在Linux平臺上答案：AB82.Spark采用RDD以后能夠?qū)崿F(xiàn)高效計算的原因主要在于？A、高效的容錯性B、中間結(jié)果持久化到內(nèi)存，數(shù)據(jù)在內(nèi)存中的多個C、存放的數(shù)據(jù)可以是Java對象，避免了不必要的對象序列化和反序列化D、采用數(shù)據(jù)復(fù)制實現(xiàn)容錯答案：ABC83.YARN體系結(jié)構(gòu)主要包括哪三部分？A、ResourceManagerB、NodeManagerC、DataManagerD、ApplicationMaster答案：ABD84.下面哪個屬于不斷完善的Hadoop生態(tài)系統(tǒng)中的組件？A、PigB、TezC、KafkaD、N8答案：ABC85.數(shù)據(jù)節(jié)點（DataNode）的主要功能包括哪些？A、負責(zé)數(shù)據(jù)的存儲和讀取B、根據(jù)客戶端或者是名稱節(jié)點的調(diào)度來進行數(shù)據(jù)的存儲和檢索C、向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表D、用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份，并減少名稱節(jié)點重啟的時間答案：ABC86.HDFS數(shù)據(jù)塊多副本存儲具備以下哪些優(yōu)點？A、加快數(shù)據(jù)傳輸速度B、容易檢查數(shù)據(jù)錯誤C、保證數(shù)據(jù)可靠性D、適合多平臺上運行答案：ABC87.以下屬于Hive的基本數(shù)據(jù)類型是:()A、TINYINTB、FLOATC、STRINGD、BINARY答案：ABCD88.Hive主要由哪三個模塊組成：()A、用戶接口模塊B、用戶查詢模塊C、驅(qū)動模塊D、元數(shù)據(jù)存儲模塊答案：ABD89.Flink核心組件棧包括：()A、物理部署層B、算法庫層C、Runtime核心層D、API&Libraries層答案：ACD90.Zookeeper是一個很好的集群管理工具，被大量用于分布式計算，它主要提供什么服務(wù)？A、配置維護B、域名服務(wù)C、分布式同步D、負載均衡服務(wù)答案：ABC91.Flink常見的應(yīng)用場景包括：()A、事件驅(qū)動型應(yīng)用B、數(shù)據(jù)分析應(yīng)用C、數(shù)據(jù)流水線應(yīng)用D、正反饋應(yīng)用答案：ABC92.HBase的實現(xiàn)包括哪三個主要的功能組件？A、庫函數(shù)：鏈接到每個客戶端B、一個Master主服務(wù)器C、許多個Region服務(wù)器D、廉價的計算機集群答案：ABC93.針對大型圖的計算，目前通用的圖計算軟件主要哪些？A、基于遍歷算法的、實時的圖數(shù)據(jù)庫，如Neo4j、OrientDB、DEX和InfiniteGraphB、以圖頂點為中心的、基于消息傳遞批處理的并行引擎，如GoldenOrb、Giraph、Pregel和HamaC、基于遍歷算法的、實時的圖數(shù)據(jù)庫，如GoldenOrb、Giraph、Pregel和HamaD、以圖頂點為中心的、基于消息傳遞批處理的并行引擎，如Neo4j、OrientDB、DEX和InfiniteGraph答案：AB94.針對大型圖（比如社交網(wǎng)絡(luò)和網(wǎng)絡(luò)圖）的計算問題，哪些說法是正確的？A、為特定的圖應(yīng)用定制相應(yīng)的分布式實現(xiàn)：通用性不好B、基于現(xiàn)有的分布式計算平臺進行圖計算：在性能和易用性方面往往無法達到最優(yōu)C、使用單機的圖算法庫，但是，在可以解決的問題的規(guī)模方面具有很大的局限性D、使用已有的并行圖計算系統(tǒng)，但是，對大規(guī)模分布式系統(tǒng)非常重要的一些方面（比如容錯），無法提供較好的支持答案：ABCD95.MapReduce的具體應(yīng)用包括哪些？A、關(guān)系代數(shù)運算（選擇、投影、并、交、差、連接）B、分組與聚合運算C、矩陣-向量乘法D、矩陣乘法答案：ABCD96.HDFS只設(shè)置唯一一個名稱節(jié)點，這樣做雖然大大簡化了系統(tǒng)設(shè)計，但也帶來了哪些明顯的局限性？A、命名空間的限制B、性能的瓶頸C、隔離問題D、集群的可用性答案：ABCD97.下列關(guān)于數(shù)據(jù)模型的描述，哪些是正確的？A、HBase采用表來組織數(shù)據(jù)，表由行和列組成，列劃分為若干個列族B、每個HBase表都由若干行組成，每個行由行鍵（rowkey）來標(biāo)識C、列族里的數(shù)據(jù)通過列限定符（或列）來定位D、每個單元格都保存著同一份數(shù)據(jù)的多個版本，這些版本采用時間戳進行索引答案：ABCD98.協(xié)同過濾可分為哪幾種過濾方式？A、基于用戶的協(xié)同過濾B、基于物品的協(xié)同過濾C、基于用戶和物品的聯(lián)合

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《大數(shù)據(jù)技術(shù)導(dǎo)論》期末考試復(fù)習(xí)題庫（含答案）

文檔簡介

溫馨提示

最新文檔

評論

《大數(shù)據(jù)技術(shù)導(dǎo)論》期末考試復(fù)習(xí)題庫（含答案）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔