版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
PAGEPAGE1《大數(shù)據(jù)技術(shù)導(dǎo)論》期末考試復(fù)習(xí)題庫(含答案)一、單選題1.下面關(guān)于Region的說法,哪個是錯誤的?A、同一個Region不會被分拆到多個Region服務(wù)器B、為了加快訪問速度,.META.表的全部Region都會被保存在內(nèi)存中C、一個-ROOT-表可以有多個RegionD、為了加速尋址,客戶端會緩存位置信息,同時,需要解決緩存失效問題答案:C2.以下哪個不屬于事件驅(qū)動型應(yīng)用?A、反欺詐B、異常檢測C、基于規(guī)則的報警D、消費者技術(shù)中的實時數(shù)據(jù)即席分析答案:D3.下面哪一項不是云數(shù)據(jù)庫的特性?A、動態(tài)可擴展B、高成本C、易用性D、大規(guī)模并行處理答案:B4.在Hadoop項目結(jié)構(gòu)中,MapReduce指的是什么?A、分布式并行編程模型B、流計算框架C、Hadoop上的工作流管理系統(tǒng)D、提供分布式協(xié)調(diào)一致性服務(wù)答案:A5.HBase中需要根據(jù)某些因素來確定一個單元格,這些因素可以視為一個“四維坐標(biāo)”,下面哪個不屬于“四維坐標(biāo)”?A、行鍵B、關(guān)鍵字C、列族D、時間戳答案:B6.在HBase中,關(guān)于數(shù)據(jù)操作的描述,下列哪一項是錯誤的?A、HBase采用了更加簡單的數(shù)據(jù)模型,它把數(shù)據(jù)存儲為未經(jīng)解釋的字符串B、HBase操作不存在復(fù)雜的表與表之間的關(guān)系C、HBase不支持修改操作D、HBase在設(shè)計上就避免了復(fù)雜的表和表之間的關(guān)系答案:C7.關(guān)于文檔數(shù)據(jù)庫的說法,下列哪一項是錯誤的?A、數(shù)據(jù)是規(guī)則的B、性能好(高并發(fā))C、缺乏統(tǒng)一的查詢語法D、復(fù)雜性低答案:A8.下列哪一個不屬于HDFS1.0中存在的問題?A、無法水平擴展B、單點故障問題C、單一命名空間D、系統(tǒng)整體性能受限于單個名稱節(jié)點的吞吐量答案:A9.下面關(guān)于NoSQL和關(guān)系數(shù)據(jù)庫的簡單比較,哪個是錯誤的?A、RDBMS有關(guān)系代數(shù)理論作為基礎(chǔ),NoSQL沒有統(tǒng)一的理論基礎(chǔ)B、NoSQL很難實現(xiàn)橫向擴展,RDBMS可以很容易通過添加更多設(shè)備來支持更大規(guī)模的數(shù)據(jù)C、RDBMS需要定義數(shù)據(jù)庫模式,嚴格遵守數(shù)據(jù)定義,NoSQL一般不存在數(shù)據(jù)庫模式,可以自由靈活定義并存儲各種不同類型的數(shù)據(jù)D、RDBMS借助于索引機制可以實現(xiàn)快速查詢,很多NoSQL數(shù)據(jù)庫沒有面向復(fù)雜查詢的索引答案:B10.以下哪個不屬于數(shù)據(jù)分析應(yīng)用?A、基于規(guī)則的報警B、移動應(yīng)用中的產(chǎn)品更新及實驗評估分析C、消費者技術(shù)中的實時數(shù)據(jù)即席分析D、大規(guī)模圖分析答案:A11.下列關(guān)于云數(shù)據(jù)庫的描述,哪個是錯誤的?A、云數(shù)據(jù)庫是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫B、云數(shù)據(jù)庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法C、云數(shù)據(jù)庫價格不菲,維護費用極其昂貴D、云數(shù)據(jù)庫具有高可擴展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點答案:C12.下列關(guān)于MapReduce工作流程,哪個描述是正確的?A、所有的數(shù)據(jù)交換都是通過MapReduce框架自身去實現(xiàn)的B、不同的Map任務(wù)之間會進行通信C、不同的Reduce任務(wù)之間可以發(fā)生信息交換D、用戶可以顯式地從一臺機器向另一臺機器發(fā)送消息答案:A13.下列哪項不屬于大數(shù)據(jù)的發(fā)展歷程?A、成熟期B、萌芽期C、大規(guī)模應(yīng)用期D、迷茫期答案:D14.下列哪一項不屬于Storm的特點?A、支持各種編程語言:Storm支持使用各種編程語言來定義任務(wù)B、容錯性:Storm需要人工進行故障節(jié)點的重啟、任務(wù)的重新分配C、可擴展性:Storm的并行特性使其可以運行在分布式集群中D、免費、開源:Storm是一款開源框架,可以免費使用答案:B15.以下哪個不是數(shù)據(jù)倉庫的特性:()在HiveHA中,在Hadoop集群上構(gòu)建的數(shù)據(jù)倉庫是由單個Hive實例進行管理的A、面向主題的B、集成的C、動態(tài)變化的D、反映歷史變化的答案:C16.下列關(guān)于PageRank算法在MapReduce中的實現(xiàn)的描述,錯誤的是?A、解析網(wǎng)頁的任務(wù)就是分析一個頁面的鏈接數(shù),但是不賦初值B、PageRank分配就是多次迭代計算頁面的PageRank值C、收斂階段的任務(wù)就是由一個非并行組件決定是否達到收斂D、一般判斷是否收斂的條件是所有網(wǎng)頁的PageRank值不再變化,或者運行30次以后我們就認為已經(jīng)收斂了答案:A17.下列關(guān)于RDD說法,描述有誤的是?A、一個RDD就是一個分布式對象集合,本質(zhì)上是一個只讀的分區(qū)記錄集合B、每個RDD可分成多個分區(qū),每個分區(qū)就是一個數(shù)據(jù)集片段C、RDD是可以直接修改的D、RDD提供了一種高度受限的共享內(nèi)存模型答案:C18.在大數(shù)據(jù)的計算模式中,流計算解決的是什么問題?A、針對大規(guī)模數(shù)據(jù)的批量處理B、針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理C、大規(guī)模數(shù)據(jù)的存儲管理和查詢分析D、針對流數(shù)據(jù)的實時計算答案:D19.在HBase訪問接口中,Pig主要用在哪個場合?A、適合HadoopMapReduce作業(yè)并行批處理HBase表數(shù)據(jù)B、適合HBase管理使用C、適合其他異構(gòu)系統(tǒng)在線訪問HBase表數(shù)據(jù)D、適合做數(shù)據(jù)統(tǒng)計答案:D20.下面關(guān)于Timetoast的描述,哪個是錯誤的?()A、Timetoast是在線創(chuàng)作基于時間軸事件記載服務(wù)的網(wǎng)站B、提供個性化的時間線服務(wù)C、Timetoast基于flash平臺,可以在類似flash時間軸上任意加入事件D、Timetoast是一個提供復(fù)雜統(tǒng)計圖表的工具答案:D21.關(guān)于HBase的三層結(jié)構(gòu)中各層次的名稱和作用的說法,哪個是錯誤的?A、Zookeeper文件記錄了用戶數(shù)據(jù)表的Region位置信息B、-ROOT-表記錄了.META.表的Region位置信息C、META.表保存了HBase中所有用戶數(shù)據(jù)表的Region位置信息D、Zookeeper文件記錄了-ROOT-表的位置信息答案:A22.下列關(guān)于阿里云RDS的說法,哪個是錯誤的?A、RDS是阿里云提供的關(guān)系型數(shù)據(jù)庫服務(wù)B、RDS由專業(yè)數(shù)據(jù)庫管理團隊維護C、RDS具有安全穩(wěn)定、數(shù)據(jù)可靠、自動備份D、RDS實例,是用戶購買RDS服務(wù)的基本單位,在實例中,用戶只能創(chuàng)建一個數(shù)據(jù)庫答案:D23.下面哪個選項屬于大數(shù)據(jù)技術(shù)的“數(shù)據(jù)存儲和管理”技術(shù)層面的功能?A、利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫等實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理B、利用分布式并行編程模型和計算框架,結(jié)合機器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實現(xiàn)對海量數(shù)據(jù)的處理和分析C、構(gòu)建隱私數(shù)據(jù)保護體系和數(shù)據(jù)安全體系,有效保護個人隱私和數(shù)據(jù)安全D、把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入,進行實時處理分析答案:A24.大數(shù)據(jù)產(chǎn)業(yè)指什么?A、一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟活動的集合B、提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)C、提供數(shù)據(jù)分享平臺、數(shù)據(jù)分析平臺、數(shù)據(jù)租售平臺等服務(wù)的企業(yè)D、提供分布式計算、數(shù)據(jù)挖掘、統(tǒng)計分析等服務(wù)的各類企業(yè)答案:A25.下面關(guān)于Hive的描述錯誤的是:()A、Hive是一個構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫工具B、Hive是由Facebook公司開發(fā)的C、Hive在某種程度上可以看作是用戶編程接口,其本身并不存儲和處理數(shù)據(jù)D、Hive定義了簡單的類似SQL的查詢語言——HiveQL,它與大部分SQL語法無法兼容答案:D26.下列關(guān)于圖結(jié)構(gòu)數(shù)據(jù)的描述,錯誤的是?A、許多非圖結(jié)構(gòu)的大數(shù)據(jù),通常會被轉(zhuǎn)換為關(guān)系模型后進行分析B、許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn)C、圖數(shù)據(jù)結(jié)構(gòu)很好地表達了數(shù)據(jù)之間的關(guān)聯(lián)性D、關(guān)聯(lián)性計算是大數(shù)據(jù)計算的核心答案:A27.下面關(guān)于主服務(wù)器Master主要負責(zé)表和Region的管理工作的描述,哪個是錯誤的?A、在Region分裂或合并后,負責(zé)重新調(diào)整Region的分布B、對發(fā)生故障失效的Region服務(wù)器上的Region進行遷移C、管理用戶對表的增加、刪除、修改、查詢等操作D、不支持不同Region服務(wù)器之間的負載均衡答案:D28.下列哪個不屬于云計算的優(yōu)勢?A、按需服務(wù)B、隨時服務(wù)C、通用性D、價格不菲答案:D29.下列說法哪項有誤?A、相對于Spark來說,使用Hadoop進行迭代計算非常耗資源B、Spark將數(shù)據(jù)載入內(nèi)存后,之后的迭代計算都可以直接使用內(nèi)存中的中間結(jié)果作運算,避免了從磁盤中頻繁讀取數(shù)據(jù)C、Hadoop的設(shè)計遵循“一個軟件棧滿足不同應(yīng)用場景”的理念D、Spark可以部署在資源管理器YARN之上,提供一站式的大數(shù)據(jù)解決方案答案:C30.在Hadoop項目結(jié)構(gòu)中,HDFS指的是什么?A、分布式文件系統(tǒng)B、分布式并行編程模型C、資源管理和調(diào)度器D、Hadoop上的數(shù)據(jù)倉庫答案:A31.下列關(guān)于Storm和Hadoop架構(gòu)組件功能對應(yīng)關(guān)系,哪個是錯誤的?A、HadoopJob對應(yīng)StormTopologyB、HadoopTaskTracker對應(yīng)StormSupervisorC、HadoopJobTracker對應(yīng)StormSpoutD、HadoopReduce對應(yīng)StormBolt答案:C32.下列關(guān)于Storm的描述,有誤的是?A、Storm將流數(shù)據(jù)Stream描述成一個有限的Tuple序列B、Storm保證每個消息都能完整處理C、Storm認為每個Stream都有一個源頭,并把這個源頭抽象為SpoutD、Bolt可以執(zhí)行過濾、函數(shù)操作、Join、操作數(shù)據(jù)庫等任何操作答案:A33.下面關(guān)于UserCF算法和ItemCF算法的對比,哪個是錯誤的?A、UserCF算法的推薦更偏向社會化:適合應(yīng)用于新聞推薦、微博話題推薦等應(yīng)用場景,其推薦結(jié)果在新穎性方面有一定的優(yōu)勢B、ItemCF算法的推薦更偏向于個性化C、ItemCF隨著用戶數(shù)目的增大,用戶相似度計算復(fù)雜度越來越高D、UserCF推薦結(jié)果相關(guān)性較弱,難以對推薦結(jié)果作出解釋,容易受大眾影響而推薦熱門物品答案:C34.下列關(guān)于HDFS的描述,哪個不正確?A、HDFS還采用了相應(yīng)的數(shù)據(jù)存放、數(shù)據(jù)讀取和數(shù)據(jù)復(fù)制策略,來提升系統(tǒng)整體讀寫響應(yīng)性能B、HDFS采用了主從(Master/Slave)結(jié)構(gòu)模型C、HDFS采用了冗余數(shù)據(jù)存儲,增強了數(shù)據(jù)可靠性D、HDFS采用塊的概念,使得系統(tǒng)的設(shè)計變得更加復(fù)雜答案:D35.關(guān)于UMP系統(tǒng)架構(gòu)依賴的開源組件Mnesia,說法錯誤的是哪一項?A、Mnesia是一個分布式數(shù)據(jù)庫管理系統(tǒng)B、Mnesia的數(shù)據(jù)庫模式(schema)只能在未運行前靜態(tài)重配置C、Mnesia的這些特性,使其在開發(fā)云數(shù)據(jù)庫時被用來提供分布式數(shù)據(jù)庫服務(wù)D、Mnesia支持事務(wù),支持透明的數(shù)據(jù)分片答案:B36.下列關(guān)于Hive基本操作命令的解釋錯誤的是:()A、createdatabaseuserdb;//創(chuàng)建數(shù)據(jù)庫userdbB、createtableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在,創(chuàng)建表usr,含三個屬性id,name,ageC、loaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目錄’/usr/local/data’下的數(shù)據(jù)文件中的數(shù)據(jù)以追加的方式裝載進usr表D、insertoverwritetablestudentselect?fromuserwhereage>10;//向表usr1中插入來自usr表的age大于10的數(shù)據(jù)并覆蓋student表中原有數(shù)據(jù)答案:C37.下列哪個不屬于可視化工具?()A、GoogleChartAPIB、D3C、Visual.lyD、Spark答案:D38.下列說法錯誤的是?()A、大數(shù)據(jù)魔鏡是一款優(yōu)秀的國產(chǎn)數(shù)據(jù)分析軟件,可以讓用戶真正理解探索分析數(shù)據(jù)B、Tableau是桌面系統(tǒng)中最簡單的商業(yè)智能工具軟件,是一個用于網(wǎng)頁作圖、生成互動圖形的JavaScript函數(shù)庫C、GoogleFusionTables讓一般使用者也可以輕松制作出專業(yè)的統(tǒng)計地圖D、ModestMaps是一個小型、可擴展、交互式的免費庫,提供了一套查看衛(wèi)星地圖的API答案:B39.HBase只有一個針對行健的索引,如果要訪問HBase表中的行,下面哪種方式是不可行的?A、通過單個行健訪問B、通過時間戳訪問C、通過一個行健的區(qū)間來訪問D、全表掃描答案:B40.在Pregel計算模型中,圖中的每個頂點會對應(yīng)一個計算單元,下列哪一項不屬于計算單元的成員變量?A、頂點值(Vertexvalue):頂點對應(yīng)的PR值B、出射邊(Outedge):只需要表示一條邊,可以不取值C、消息(Message):傳遞的消息D、入射邊(Iutedge):只需要表示一條邊,可以不取值答案:D41.Spark生態(tài)系統(tǒng)組件MLlib的應(yīng)用場景是?A、圖結(jié)構(gòu)數(shù)據(jù)的處理B、基于歷史數(shù)據(jù)的交互式查詢C、復(fù)雜的批量數(shù)據(jù)處理D、基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘答案:D42.Spark生態(tài)系統(tǒng)組件SparkStreaming的應(yīng)用場景是?A、基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘B、圖結(jié)構(gòu)數(shù)據(jù)的處理C、基于歷史數(shù)據(jù)的交互式查詢D、基于實時數(shù)據(jù)流的數(shù)據(jù)處理答案:D43.下列關(guān)于MapReduce模型的描述,錯誤的是哪一項?A、MapReduce采用“分而治之”策略B、MapReduce設(shè)計的一個理念就是“計算向數(shù)據(jù)靠攏”C、MapReduce框架采用了Master/Slave架構(gòu)D、MapReduce應(yīng)用程序只能用Java來寫答案:D44.下列關(guān)于流計算的說法,哪項是錯誤的?A、實時獲取來自不同數(shù)據(jù)源的海量數(shù)據(jù),經(jīng)過實時分析處理,獲得有價值的信息B、流計算秉承一個基本理念,即數(shù)據(jù)的價值隨著時間的流逝而降低C、對于一個流計算系統(tǒng)來說,它應(yīng)該支持TB級甚至是PB級的數(shù)據(jù)規(guī)模D、流計算只需要保證較低的延遲時間,即只達到秒級別即可處理一切問題答案:D45.Hadoop最初是由誰創(chuàng)建的?A、LuceneB、DougCuttingC、ApacheD、MapReduce答案:B46.下列哪一個不屬于Hadoop的大數(shù)據(jù)層的功能?A、數(shù)據(jù)挖掘B、離線分析C、實時計算D、BI分析答案:C47.下列關(guān)于BigTable的描述,哪個是錯誤的?A、爬蟲持續(xù)不斷地抓取新頁面,這些頁面每隔一段時間地存儲到BigTable里B、igTable是一個分布式存儲系統(tǒng)C、BigTable起初用于解決典型的互聯(lián)網(wǎng)搜索問題D、網(wǎng)絡(luò)搜索應(yīng)用查詢建立好的索引,從BigTable得到網(wǎng)頁答案:A48.下列哪個說法是錯誤的?A、從編程的靈活性來講,Storm是比較理想的選擇,它使用ApacheThrift,可以用任何編程語言來編寫拓撲結(jié)構(gòu)(Topology)B、SparkStreaming可以實現(xiàn)毫秒級的流計算C、SparkStreaming無法實現(xiàn)毫秒級的流計算D、在Spark上可以統(tǒng)一部署SparkSQL,SparkStreaming、MLlib,GraphX等組件,提供便捷的一體化編程模型答案:B49.下列哪一項不屬于HDFS采用抽象的塊概念帶來的好處?A、簡化系統(tǒng)設(shè)計B、支持大規(guī)模文件存儲C、強大的跨平臺兼容性D、適合數(shù)據(jù)備份答案:C50.Hadoop框架中最核心的設(shè)計是什么?A、為海量數(shù)據(jù)提供存儲的HDFS和對數(shù)據(jù)進行計算的MapReduceB、提供整個HDFS文件系統(tǒng)的NameSpace(命名空間)管理、塊管理等所有服務(wù)C、Hadoop不僅可以運行在企業(yè)內(nèi)部的集群中,也可以運行在云計算環(huán)境中D、Hadoop被視為事實上的大數(shù)據(jù)處理標(biāo)準(zhǔn)答案:A51.下列關(guān)于可視化工具中高級分析工具的說法,錯誤的是?()A、R是屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件B、Weka主要用于社交圖譜數(shù)據(jù)可視化分析,可以生成非??犰诺目梢暬瘓D形C、Gephi主要用于社交圖譜數(shù)據(jù)可視化分析,可以生成非常酷炫的可視化圖形D、R通常用于大數(shù)據(jù)集的統(tǒng)計與分析答案:B52.下列哪個關(guān)于StreamGroupings的描述,有誤的是?A、FieldsGrouping:廣播發(fā)送,每一個Task都會收到所有的TupleB、GlobalGrouping:全局分組,所有的Tuple都發(fā)送到同一個Task中C、NonGrouping:不分組,和ShuffleGrouping類似,當(dāng)前Task的執(zhí)行會和它的被訂閱者在同一個線程中執(zhí)行D、irectGrouping:直接分組,直接指定由某個Task來執(zhí)行Tuple的處理答案:A53.在一個基本的Hadoop集群中,DataNode主要負責(zé)什么?A、負責(zé)執(zhí)行由JobTracker指派的任務(wù)B、協(xié)調(diào)數(shù)據(jù)計算任務(wù)C、負責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲D、存儲被拆分的數(shù)據(jù)塊答案:D54.下面哪一項不是MapReduce體系結(jié)構(gòu)主要部分?A、ClientB、JobTrackerC、TaskTracker以及TaskD、Job答案:A55.下列傳統(tǒng)并行計算框架,說法錯誤的是哪一項?A、刀片服務(wù)器、高速網(wǎng)、SAN,價格貴,擴展性差上B、共享式(共享內(nèi)存/共享存儲),容錯性好C、編程難度高D、實時、細粒度計算、計算密集型答案:B56.在Hadoop項目結(jié)構(gòu)中,HDFS指的是什么?A、分布式文件系統(tǒng)B、流數(shù)據(jù)讀寫C、資源管理和調(diào)度器D、Hadoop上的數(shù)據(jù)倉庫答案:A57.以下哪個屬于數(shù)據(jù)流水線應(yīng)用?A、基于規(guī)則的報警B、實時查詢索引構(gòu)建C、移動應(yīng)用中的產(chǎn)品更新及實驗評估分析D、費者技術(shù)中的實時數(shù)據(jù)即席分析答案:B58.在一個基本的Hadoop集群中,SecondaryNameNode主要負責(zé)什么?A、幫助NameNode收集文件系統(tǒng)運行的狀態(tài)信息B、負責(zé)執(zhí)行由JobTracker指派的任務(wù)C、協(xié)調(diào)數(shù)據(jù)計算任務(wù)D、負責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲答案:A59.第一次信息化浪潮主要解決什么問題?A、信息傳輸B、信息處理C、信息爆炸D、信息轉(zhuǎn)換答案:B60.Hadoop1.0的核心組件(僅指MapReduce和HDFS,不包括Hadoop生態(tài)系統(tǒng)內(nèi)的Pig、Hive、HBase等其他組件),下列哪項是它的不足?A、抽象層次高B、表達能力有限,抽象層次低,需人工編碼C、價格昂貴D、可維護性低答案:B61.下列關(guān)于Spark的描述,錯誤的是哪一項?A、Spark最初由美國加州伯克利大學(xué)(UCBerkeley)的實驗室于2009年開發(fā)B、Spark在2014年打破了Hadoop保持的基準(zhǔn)排序紀錄.C、Spark用十分之一的計算資源,獲得了比Hadoop快3倍的速度D、Spark運行模式單一答案:D62.在每個超步中,Worker調(diào)用頂點上的Compute()函數(shù),下列哪個參數(shù)是不需要傳遞?A、該頂點的當(dāng)前值B、一個接收到的消息的迭代器C、一個出射邊的迭代器D、一個入射邊的迭代器答案:D63.關(guān)于MapReduce1.0的體系結(jié)構(gòu)的描述,下列說法錯誤的是?A、Task分為MapTask和ReduceTask兩種,分別由JobTracker和TaskTracker啟動B、slot分為Mapslot和Reduceslot兩種,分別供MapTask和ReduceTask使用C、TaskTracker使用“slot”等量劃分本節(jié)點上的資源量(CPU、內(nèi)存等)D、TaskTracker會周期性接收JobTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作(如啟動新任務(wù)、殺死任務(wù)等)答案:A64.關(guān)于Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫的對比分析,下面描述錯誤的是:()A、Hive一般依賴于分布式文件系統(tǒng)HDFS,而傳統(tǒng)數(shù)據(jù)庫則依賴于本地文件系統(tǒng)B、傳統(tǒng)的關(guān)系數(shù)據(jù)庫可以針對多個列構(gòu)建復(fù)雜的索引,Hive不支持索引C、Hive和傳統(tǒng)關(guān)系數(shù)據(jù)庫都支持分區(qū)D、傳統(tǒng)關(guān)系數(shù)據(jù)庫很難實現(xiàn)橫向擴展,Hive具有很好的水平擴展性答案:B65.下列哪一項不屬于NoSQL的四大類型?A、文檔數(shù)據(jù)庫B、圖數(shù)據(jù)庫C、列族數(shù)據(jù)庫D、時間戳數(shù)據(jù)庫答案:D66.下面哪一項不屬于計算機集群中的節(jié)點?A、主節(jié)點(MasterNode)B、源節(jié)點(SourceNode)C、名稱結(jié)點(NameNode)D、從節(jié)點(SlaveNode)答案:B67.下列關(guān)于協(xié)同過濾的說法,哪一項是錯誤的?A、協(xié)同過濾可分為基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾B、UserCF算法符合人們對于“趣味相投”的認知,即興趣相似的用戶往往有相同的物品喜好C、實現(xiàn)UserCF算法的關(guān)鍵步驟是計算物品與物品之間的相似度D、基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用最多的算法答案:C68.在一個Worker中,它所管轄的分區(qū)的狀態(tài)信息是保存在內(nèi)存中的,下列哪一項不屬于分區(qū)的狀態(tài)信息?A、頂點的當(dāng)前值B、消息隊列C、標(biāo)志位D、一個接收到的消息的迭代器答案:D69.下列哪個說法是錯誤的?A、無論是亞馬遜還是Netflix,其推薦系統(tǒng)的基礎(chǔ)都是ItemCF算法B、ItemCF算法是給目標(biāo)用戶推薦那些和他們之前喜歡的物品相似的物品C、ItemCF算法主要通過分析用戶的行為記錄來計算物品之間的相似度D、實現(xiàn)UserCF算法的關(guān)鍵步驟是計算物品與物品之間的相似度答案:D70.下列選項中,關(guān)于HBase和BigTable的底層技術(shù)對應(yīng)關(guān)系,哪個是錯誤的?A、GFS與HDFS相對應(yīng)B、GFS與Zookeeper相對應(yīng)C、MapReduce與HadoopMapReduce相對應(yīng)D、Chubby與Zookeeper相對應(yīng)答案:B71.下列哪一個不屬于大數(shù)據(jù)產(chǎn)業(yè)的產(chǎn)業(yè)鏈環(huán)節(jié)?A、數(shù)據(jù)循環(huán)層B、數(shù)據(jù)源層C、數(shù)據(jù)分析層D、數(shù)據(jù)應(yīng)用層答案:A72.下列哪一項不屬于完整推薦系統(tǒng)的三個模塊之一?A、用戶建模模塊B、推薦對象建模模塊C、推薦算法模塊D、數(shù)據(jù)采集模塊答案:D73.下列哪個不屬于物聯(lián)網(wǎng)的應(yīng)用?A、智能物流B、智能安防C、環(huán)保監(jiān)測D、數(shù)據(jù)清洗答案:D74.下列哪個不是UMP系統(tǒng)中的角色?A、Controller服務(wù)器B、Proxy服務(wù)器C、愚公系統(tǒng)D、阿斯隆服務(wù)器答案:D75.下列關(guān)于Scala特性的描述,錯誤的是哪一項?A、Scala語法復(fù)雜,但是能提供優(yōu)雅的API計算B、Scala具備強大的并發(fā)性,支持函數(shù)式編程,可以更好地支持分布式系統(tǒng)C、Scala兼容Java,運行速度快,且能融合到Hadoop生態(tài)圈中D、Scala是Spark的主要編程語言答案:A76.在Hadoop生態(tài)系統(tǒng)中,Kafka主要解決Hadoop中存在哪些的問題?A、Hadoop生態(tài)系統(tǒng)中各個組件和其他產(chǎn)品之間缺乏統(tǒng)一的、高效的數(shù)據(jù)交換中介B、不同的MapReduce任務(wù)之間存在重復(fù)操作,降低了效率C、延遲高,而且不適合執(zhí)行迭代計算D、抽象層次低,需要手工編寫大量代碼答案:A77.下列哪項不屬于在Vetex類中的值類型參數(shù)?A、頂點的出度B、頂點C、邊D、消息答案:A78.下面對FsImage的描述,哪個是錯誤的?A、FsImage文件沒有記錄每個塊存儲在哪個數(shù)據(jù)節(jié)點B、FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式C、FsImage用于維護文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)D、FsImage文件記錄了每個塊具體被存儲在哪個數(shù)據(jù)節(jié)點答案:D79.關(guān)于HDFSFederation的設(shè)計的描述,哪個是錯誤的?A、屬于不同命名空間的塊可以構(gòu)成同一個“塊池”B、HDFSFederation中,所有名稱節(jié)點會共享底層的數(shù)據(jù)節(jié)點存儲資源,數(shù)據(jù)節(jié)點向所有名稱節(jié)點匯報C、設(shè)計了多個相互獨立的名稱節(jié)點D、HDFS的命名服務(wù)能夠水平擴展答案:A80.下列關(guān)于MapReduce1.0的描述,錯誤的是?A、JobTracker“大包大攬”導(dǎo)致任務(wù)過重B、不存在單點故障C、容易出現(xiàn)內(nèi)存溢出(分配資源只考慮MapReduce任務(wù)數(shù),不考慮CPU、內(nèi)存)D、資源劃分不合理(強制劃分為slot,包括Mapslot和Reduceslot)答案:B81.下面哪個不是Hadoop1.0的組件:()A、HDFSB、MapReduceC、YARND、NameNode和DataNode答案:C82.下列關(guān)于NoSQL與關(guān)系數(shù)據(jù)庫的比較,哪個說法是錯誤的?A、在一致性方面,RDBMS強于NoSQLB、在數(shù)據(jù)完整性方面,RDBMS容易實現(xiàn)C、在擴展性方面,NoSQL比較好D、在可用性方面,NoSQL優(yōu)于RDBMS答案:D83.下列關(guān)于MapReduce的說法,哪個描述是錯誤的?A、MapReduce具有廣泛的應(yīng)用,比如關(guān)系代數(shù)運算、分組與聚合運算等B、MapReduce將復(fù)雜的、運行于大規(guī)模集群上的并行計算過程高度地抽象到了兩個函數(shù)C、編程人員在不會分布式并行編程的情況下,也可以很容易將自己的程序運行在分布式系統(tǒng)上,完成海量數(shù)據(jù)集的計算D、不同的Map任務(wù)之間可以進行通信答案:D84.下列哪個不屬于NoSQL數(shù)據(jù)庫的特點?A、靈活的可擴展性B、靈活的數(shù)據(jù)模型C、與云計算緊密融合D、數(shù)據(jù)存儲規(guī)模有限答案:D85.UMP系統(tǒng)是構(gòu)建在一個大的集群之上的,下列哪一項不屬于系統(tǒng)向用戶提供的功能?A、讀寫分離B、分庫分表C、數(shù)據(jù)安全D、資源合并答案:D86.下列說法錯誤的是?A、UserCF算法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品B、ItemCF算法推薦的是那些和目標(biāo)用戶之前喜歡的物品類似的其他物品C、UserCF算法的推薦更偏向個性化D、UserCF隨著用戶數(shù)目的增大,用戶相似度計算復(fù)雜度越來越高答案:C87.下列哪一項不屬于推薦算法?A、基于物品和商家的聯(lián)合協(xié)同推薦B、基于統(tǒng)計的推薦C、專家推薦D、基于內(nèi)容的推薦答案:A88.在Spark生態(tài)系統(tǒng)組件的應(yīng)用場景中,下列哪項說法是錯誤的?A、Spark應(yīng)用在復(fù)雜的批量數(shù)據(jù)處理B、SparkSQL是基于歷史數(shù)據(jù)的交互式查詢C、SparkStreaming是基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘D、GraphX是圖結(jié)構(gòu)數(shù)據(jù)的處理答案:C89.關(guān)于UMP系統(tǒng)架構(gòu)的Controller服務(wù)器,說法錯誤的是哪一項?A、Controller服務(wù)器向UMP集群提供各種管理服務(wù)B、Controller服務(wù)器上運行了一組Mnesia分布式數(shù)據(jù)庫服務(wù)C、當(dāng)其它服務(wù)器組件需要獲取用戶數(shù)據(jù)時,不可以向Controller服務(wù)器發(fā)送請求獲取數(shù)據(jù)D、為了避免單點故障,保證系統(tǒng)的高可用性,UMP系統(tǒng)中部署了多臺Controller服務(wù)器答案:C90.下列哪個不屬于Hadoop的特性?A、成本高B、高可靠性C、高容錯性D、運行在Linux平臺上答案:A91.下列哪個不屬于PageRank算法在Pregel和MapReduce中實現(xiàn)方式的區(qū)別?A、Pregel將PageRank處理對象看成是連通圖,而MapReduce則將其看成是鍵值對B、Pregel將計算細化到頂點,同時在頂點內(nèi)控制循環(huán)迭代次數(shù)C、MapReduce將計算批量化處理,按任務(wù)進行循環(huán)迭代控制D、圖算法如果用Pregel實現(xiàn),需要一系列的Pregel的調(diào)用答案:D92.下列哪一項不屬于數(shù)據(jù)庫事務(wù)具有ACID四性?A、間斷性B、原子性C、一致性D、持久性答案:A93.MapReduce1.0的體系結(jié)構(gòu)中,JobTracker是主要任務(wù)是什么?A、負責(zé)資源監(jiān)控和作業(yè)調(diào)度,監(jiān)控所有TaskTracker與Job的健康狀況B、使用“slot”等量劃分本節(jié)點上的資源量(CPU、內(nèi)存等)C、會周期性地通過“心跳”將本節(jié)點上資源的使用情況和任務(wù)的運行進度匯報給TaskTrackerD、會跟蹤任務(wù)的執(zhí)行進度、資源使用量等信息,并將這些信息告訴任務(wù)(Task)答案:A94.下列描述有誤的是?A、專家推薦:人工推薦,由資深的專業(yè)人士來進行物品的篩選和推薦,需要較多的人力成本性B、基于統(tǒng)計的推薦:通過機器學(xué)習(xí)的方法去描述內(nèi)容的特征,并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容C、協(xié)同過濾推薦:應(yīng)用最早和最為成功的推薦方法之一D、混合推薦:結(jié)合多種推薦算法來提升推薦效果答案:B95.下列關(guān)于推薦系統(tǒng)的描述,哪一項是錯誤的?A、推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用B、推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具C、推薦系統(tǒng)可以創(chuàng)造全新的商業(yè)和經(jīng)濟模式,幫助實現(xiàn)長尾商品的銷售D、推薦系統(tǒng)分為基于物品的協(xié)同過濾和基于商家的協(xié)同過濾答案:D96.下列關(guān)于UMP系統(tǒng)功能的說法,哪個是錯誤的?A、充分利用主從庫實現(xiàn)用戶讀寫操作的分離,實現(xiàn)負載均衡B、UMP系統(tǒng)實現(xiàn)了對于用戶透明的讀寫分離功能C、UMP采用的兩種資源隔離方式(用Cgroup限制MySQL進程資源和在Proxy服務(wù)器端限制QPS)D、UMP系統(tǒng)只設(shè)計了一種機制來保證數(shù)據(jù)安全答案:D97.下列關(guān)于鍵值數(shù)據(jù)庫的描述,哪一項是錯誤的?A、擴展性好,靈活性好B、大量寫操作時性能高C、無法存儲結(jié)構(gòu)化信息D、條件查詢效率高答案:D98.下面哪個選項不屬于Hadoop1.0的問題?A、單一名稱節(jié)點,存在單點失效問題B、單一命名空間,無法實現(xiàn)資源隔離C、資源管理效率低D、很難上手答案:D99.下列哪一個不屬于云數(shù)據(jù)庫產(chǎn)品?A、本地安裝MySQLB、阿里云RDSC、OracleCloudD、百度云數(shù)據(jù)庫答案:A100.下面描述錯誤的是:()A、Storm雖然可以做到低延遲,但是無法實現(xiàn)高吞吐,也不能在故障發(fā)生時準(zhǔn)確地處理計算狀態(tài)B、SparkStreaming通過采用微批處理方法實現(xiàn)了高吞吐和容錯性,但是犧牲了低延遲和實時處理能力C、Flink實現(xiàn)了GoogleDataflow流計算模型,是一種兼具高吞吐、低延遲和高性能的實時流計算框架,并且同時支持批處理和流處理D、SparkStreaming可以實現(xiàn)毫秒級響應(yīng),而Flink只能實現(xiàn)秒級響應(yīng)答案:D101.下列哪項是Hadoop生態(tài)系統(tǒng)中Spark的功能?A、處理大規(guī)模數(shù)據(jù)的腳本語言B、工作流和協(xié)作服務(wù)引擎,協(xié)調(diào)Hadoop上運行的不同任務(wù)C、不支持DAG作業(yè)的計算框架D、基于內(nèi)存的分布式并行編程框架,具有較高的實時性,并且較好支持迭代計算答案:D102.下面描述錯誤的是:()A、Hive的功能十分強大,可以支持采用SQL方式查詢Hadoop平臺上的數(shù)據(jù)B、在實際應(yīng)用中,Hive也暴露出不穩(wěn)定的問題,在極少數(shù)情況下,甚至?xí)霈F(xiàn)端口不響應(yīng)或者進程丟失的問題C、在HiveHA中,在Hadoop集群上構(gòu)建的數(shù)據(jù)倉庫是由單個Hive實例進行管理的D、在HiveHA中,客戶端的查詢請求首先訪問HAProxy,由HAProxy對訪問請求進行轉(zhuǎn)發(fā)答案:C103.下面哪一項不是Hadoop的特性?A、可擴展性高B、只支持少數(shù)幾種編程語言C、成本低D、能在linux上運行答案:B104.在HDFS中,NameNode的主要功能是什么?A、維護了blockid到datanode本地文件的映射關(guān)系B、存儲文件內(nèi)容C、文件內(nèi)存保存在磁盤中D、存儲元數(shù)據(jù)答案:D105.以下哪個不是Hive的用戶接口模塊:()A、PMIB、HWI(HiveWebInterface)C、JDBC/ODBCD、ThriftServer答案:A106.下列關(guān)于列族數(shù)據(jù)庫的描述,哪一項是錯誤的?A、查找速度慢,可擴展性差B、功能較少,大都不支持強事務(wù)一致性C、容易進行分布式擴展D、復(fù)雜性低答案:A107.下列哪項不屬于流計算的處理流程的三個階段?A、數(shù)據(jù)實時采集B、數(shù)據(jù)批量采集C、數(shù)據(jù)實時計算D、實時查詢服務(wù)答案:B108.下列說法錯誤的是?A、RDD(ResillientDistributedDataset)是運行在工作節(jié)點(WorkerNode)的一個進程,負責(zé)運行TaskB、Application是用戶編寫的Spark應(yīng)用程序C、一個Job包含多個RDD及作用于相應(yīng)RDD上的各種操作D、irectedAcyclicGraph反映RDD之間的依賴關(guān)系答案:A109.下列說法錯誤的是?A、HadoopMapReduce是MapReduce的開源實現(xiàn),后者比前者使用門檻低很多B、MapReduce采用非共享式架構(gòu),容錯性好C、MapReduce主要用于批處理、實時、計算密集型應(yīng)用D、MapReduce采用“分而治之”策略答案:C110.HDFS采用了什么模型?A、分層模型B、主從結(jié)構(gòu)模型C、管道-過濾器模型D、點對點模型答案:B111.下列哪個不屬于YARN體系結(jié)構(gòu)中ApplicationMaster的功能?A、任務(wù)調(diào)度、監(jiān)控與容錯B、為應(yīng)用程序申請資源C、將申請的資源分配給內(nèi)部任務(wù)D、處理來自ResourceManger的命令答案:D112.采用MapReduce實現(xiàn)PageRank的計算過程包括三個階段,下列哪一項是錯的?A、第一階段:解析網(wǎng)頁B、第二階段:PageRank分配C、第三階段:收斂階段D、第一階段:收集網(wǎng)頁答案:D113.下列關(guān)于Storm設(shè)計思想,描述有誤的是?A、Storm將Streams的狀態(tài)轉(zhuǎn)換過程抽象為SpoutB、Storm認為每個Stream都有一個源頭,并把這個源頭抽象為SpoutC、Storm將Spouts和Bolts組成的網(wǎng)絡(luò)抽象成TopologyD、Topology里面的每個處理組件(Spout或Bolt)都包含處理邏輯,而組件之間的連接則表示數(shù)據(jù)流動的方向答案:A114.下列關(guān)于Spark的描述,錯誤的是哪一項?A、使用DAG執(zhí)行引擎以支持循環(huán)數(shù)據(jù)流與內(nèi)存計算析B、可運行于獨立的集群模式中,可運行于Hadoop中,也可運行于AmazonEC2等云環(huán)境中C、支持使用Scala、Java、Python和R語言進行編程,但是不可以通過SparkShell進行交互式編程D、可運行于獨立的集群模式中,可運行于Hadoop中,也可運行于AmazonEC2等云環(huán)境中答案:C115.下列關(guān)于數(shù)據(jù)可視化的描述,哪個是錯誤的?()A、數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B、利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程C、數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示D、將數(shù)據(jù)的各個屬性值以一維數(shù)據(jù)的形式表示答案:D116.下列哪個不屬于YARN體系結(jié)構(gòu)中ResourceManager的功能?A、處理客戶端請求B、監(jiān)控NodeManagerC、資源分配與調(diào)度D、處理來自ApplicationMaster的命令答案:D117.下列哪一項說法是錯誤的?A、UserCF算法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品B、ItemCF算法推薦的是那些和目標(biāo)用戶之前喜歡的物品類似的其他物品C、ItemCF算法的推薦更偏向社會化,而UserCF算法的推薦更偏向于個性化D、ItemCF算法傾向于推薦與用戶已購買商品相似的商品,往往會出現(xiàn)多樣性不足、推薦新穎度較低的問題答案:C118.下列哪一個不屬于第三次信息化浪潮中新興的技術(shù)?A、互聯(lián)網(wǎng)B、云計算C、大數(shù)據(jù)D、物聯(lián)網(wǎng)答案:A119.下列關(guān)于Map和Reduce函數(shù)的描述,哪個是錯誤的?A、Map將小數(shù)據(jù)集進一步解析成一批<key,value>對,輸入Map函數(shù)中進行處理B、Map每一個輸入的<k1,v1>會輸出一批<k2,v2>。<k2,v2>是計算的中間結(jié)果C、Reduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于不同k2的valueD、Reduce輸入的中間結(jié)果<k2,List(v2)>中的List(v2)表示是一批屬于同一個k2的value答案:C120.在HDFS中,默認一個塊多大?A、64MBB、32KBC、128KBD、16KB答案:A121.分布式文件系統(tǒng)指的是什么?A、把文件分布存儲到多個計算機節(jié)點上,成千上萬的計算機節(jié)點構(gòu)成計算機集群B、用于在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進行數(shù)據(jù)傳遞C、一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)D、一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以處理消費者規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)答案:A122.下面對SecondaryNameNode第二名稱節(jié)點的描述,哪個是錯誤的?A、SecondaryNameNode一般是并行運行在多臺機器上B、它是用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份,并減少名稱節(jié)點重啟的時間C、SecondaryNameNode通過HTTPGET方式從NameNode上獲取到FsImage和EditLog文件,并下載到本地的相應(yīng)目錄下D、SecondaryNameNode是HDFS架構(gòu)中的一個組成部分答案:A123.下面哪個不可能是Hive的執(zhí)行引擎:()A、MapReduceB、TezC、StormD、Spark答案:C124.云計算平臺層(PaaS)指的是什么?A、操作系統(tǒng)和圍繞特定應(yīng)用的必需的服務(wù)B、將基礎(chǔ)設(shè)施(計算資源和存儲)作為服務(wù)出租C、從一個集中的系統(tǒng)部署軟件,使之在一臺本地計算機上(或從云中遠程地)運行的一個模型D、提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務(wù)答案:A125.下列哪一項不屬于每個超步的組件?A、全局計算B、局部計算C、通訊D、柵欄同步答案:A126.下面關(guān)于MongoDB說法,哪一項是正確的?A、具有較差的水平可擴展性B、設(shè)置個別屬性的索引來實現(xiàn)更快的排序C、提供了一個面向文檔存儲,操作復(fù)雜D、可以實現(xiàn)替換完成的文檔(數(shù)據(jù))或者一些指定的數(shù)據(jù)字段答案:D多選題1.在HDFS中,名稱節(jié)點(NameNode)主要保存了哪些核心的數(shù)據(jù)結(jié)構(gòu)?A、FsImageB、DN8C、BlockD、EditLog答案:AD2.關(guān)于Hive與傳統(tǒng)關(guān)系數(shù)據(jù)庫的對比分析,下面描述正確的是:()A、在數(shù)據(jù)存儲方面,Hive一般依賴于分布式文件系統(tǒng)HDFS,而傳統(tǒng)數(shù)據(jù)庫則依賴于本地文件系統(tǒng)B、在索引方面,傳統(tǒng)的關(guān)系數(shù)據(jù)庫可以針對多個列構(gòu)建復(fù)雜的索引,大幅度提升數(shù)據(jù)查詢性能,而Hive不像傳統(tǒng)的關(guān)系型數(shù)據(jù)庫那樣有鍵的概念,它只能提供有限的索引功能C、在分區(qū)方面,傳統(tǒng)的數(shù)據(jù)庫提供分區(qū)功能來改善大型表以及具有各種訪問模式的表的可伸縮性、可管理性,以及提高數(shù)據(jù)庫效率;Hive不支持分區(qū)功能D、在執(zhí)行引擎方面,傳統(tǒng)的關(guān)系數(shù)據(jù)庫依賴自身的執(zhí)行引擎,而Hive則依賴于MapReduce、Tez和Spark等執(zhí)行引擎答案:ABD3.下列對于Pregel的執(zhí)行過程,哪些是正確的?A、選擇集群中的多臺機器執(zhí)行圖計算任務(wù),每臺機器上運行用戶程序的一個副本B、Master把一個圖分成多個分區(qū),并把分區(qū)分配到多個WorkerC、Master會把用戶輸入劃分成多個部分,通常是基于文件邊界進行劃分D、Master向每個Worker發(fā)送指令,Worker收到指令后,開始運行一個超步答案:ABCD4.在實際應(yīng)用中,當(dāng)采用多種計算架構(gòu)來滿足不同應(yīng)用場景需求時,大數(shù)據(jù)處理難免會帶來哪些問題?A、不同場景之間輸入輸出數(shù)據(jù)無法做到無縫共享,通常需要進行數(shù)據(jù)格式的轉(zhuǎn)換B、不同的軟件需要不同的開發(fā)和維護團隊C、需要較高的使用成本D、比較難以對同一個集群中的各個系統(tǒng)進行統(tǒng)一的資源協(xié)調(diào)和分配答案:ABCD5.下列關(guān)于推薦系統(tǒng)的描述,哪些是正確的?A、用戶建模模塊:對用戶進行建模,根據(jù)用戶行為數(shù)據(jù)和用戶屬性數(shù)據(jù)來分析用戶的興趣和需求B、推薦對象建模模塊:根據(jù)對象數(shù)據(jù)對推薦對象進行建模C、推薦算法模塊:基于用戶特征和物品特征,采用推薦算法計算得到用戶可能感興趣的對象D、推薦算法模塊:根據(jù)推薦場景對推薦結(jié)果進行一定調(diào)整,將推薦結(jié)果最終展示給用戶答案:ABCD6.下列說法正確的有?A、在Pregel中,為了獲得更好的性能,“標(biāo)志位”和輸入消息隊列是分開保存的B、在超步S中,當(dāng)一個Worker在進行頂點處理時,用于當(dāng)前超步的消息會被處理C、需要兩個消息隊列用于存放作用于當(dāng)前超步S的消息和作用于下一個超步S+1的消息D、每個Worker上都保存了一個或多個分區(qū)的狀態(tài)信息,當(dāng)一個Worker發(fā)生故障時,它所負責(zé)維護的分區(qū)的當(dāng)前狀態(tài)信息就會丟失答案:ABCD7.Hadoop的優(yōu)化與發(fā)展主要體現(xiàn)在哪幾個方面?A、Hadoop自身核心組件MapReduce的架構(gòu)設(shè)計改進B、Hadoop自身核心組件HDFS的架構(gòu)設(shè)計改進C、Hadoop生態(tài)系統(tǒng)其它組件的不斷豐富D、Hadoop生態(tài)系統(tǒng)減少不必要的組件,整合系統(tǒng)答案:ABC8.下列關(guān)于Map端的Shuffle的描述,哪些是正確的?A、MapReduce默認為每個Map任務(wù)分配1000MB緩存B、多個溢寫文件歸并成一個或多個大文件,文件中的鍵值對是排序的C、當(dāng)數(shù)據(jù)很少時,不需要溢寫到磁盤,直接在緩存中歸并,然后輸出給ReduceD、每個Map任務(wù)分配多個緩存,使得任務(wù)運行更有效率答案:BC9.下列關(guān)于批量計算和實時計算的說法,正確的有?A、批量計算:充裕時間處理靜態(tài)數(shù)據(jù),如HadoopB、靜態(tài)數(shù)據(jù)不適合采用批量計算,因為它不適合用傳統(tǒng)的關(guān)系模型建模C、流數(shù)據(jù)必須采用實時計算D、流數(shù)據(jù)的響應(yīng)時間一般為秒級,甚至需要毫秒級答案:ACD10.下列哪些屬于Hadoop2.0相對于Hadoop1.0的改進?A、設(shè)計了HDFSHAB、提供名稱節(jié)點熱備機制C、設(shè)計了HDFSFederation,管理多個命名空間D、設(shè)計了新的資源管理框架YARN答案:ABCD11.流數(shù)據(jù)具有以下哪些特征?A、數(shù)據(jù)來源眾多,格式復(fù)雜B、注重數(shù)據(jù)的整體價值,不過分關(guān)注個別數(shù)據(jù)C、系統(tǒng)可以控制將要處理的新到達的數(shù)據(jù)元素的順序D、數(shù)據(jù)快速持續(xù)到達,潛在大小也許是無窮無盡的答案:ABC12.HBase的三層結(jié)構(gòu)中,三層指的是哪三層?A、Zookeeper文件B、-ROOT-表C、META.表D、數(shù)據(jù)類型答案:ABC13.UMP系統(tǒng)架構(gòu)依賴的哪些開源組件?A、MnesiaB、LVSC、RabbitMQD、ZooKeeper答案:ABCD14.下列哪些選項屬于Hadoop的缺點?A、表達能力有限B、磁盤IO開銷大C、延遲高D、在前一個任務(wù)執(zhí)行完成之前,其他任務(wù)就無法開始,難以勝任復(fù)雜、多階段的計算任務(wù)答案:ABCD15.為什么說云數(shù)據(jù)庫是個性化數(shù)據(jù)存儲需求的理想選擇?A、云數(shù)據(jù)庫可以滿足大企業(yè)的海量數(shù)據(jù)存儲需求B、云數(shù)據(jù)庫可以滿足中小企業(yè)的低成本數(shù)據(jù)存儲需求C、云數(shù)據(jù)庫可以滿足企業(yè)動態(tài)變化的數(shù)據(jù)存儲需求D、前期零投入、后期免維護的數(shù)據(jù)庫服務(wù),可以很好滿足它們的需求答案:ABCD16.以下哪些是數(shù)據(jù)倉庫的特性:()A、面向主題的(SubjectOriented)B、集成的(Integrated)C、相對穩(wěn)定的(Non-Volatile)D、反映歷史變化答案:ABCD17.下面哪個屬于大數(shù)據(jù)的應(yīng)用領(lǐng)域?A、智能醫(yī)療研發(fā)B、監(jiān)控身體情況C、實時掌握交通狀況D、金融交易答案:ABCD18.下列對于客服端的描述,哪些是正確的?A、客戶端是用戶操作HDFS最常用的方式,HDFS在部署時都提供了客戶端B、HDFS客戶端是一個庫,暴露了HDFS文件系統(tǒng)接口C、嚴格來說,客戶端并不算是HDFS的一部分D、客戶端可以支持打開、讀取、寫入等常見的操作答案:ABCD19.下列關(guān)于推薦系統(tǒng)集群的描述,哪些是正確的?A、為了讓用戶從海量信息中高效地獲得自己所需的信息,推薦系統(tǒng)應(yīng)運而生B、推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用C、推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具D、推薦系統(tǒng)是利用大數(shù)據(jù)調(diào)整線下門店布局、控制店內(nèi)人流量答案:ABC20.目前,Storm中的StreamGroupings有如下哪幾種方式?A、llGrouping:廣播發(fā)送,每一個Task都會收到所有的TupleB、GlobalGrouping:全局分組,所有的Tuple都發(fā)送到同一個Task中C、FieldsGrouping:按照字段分組,保證相同字段的Tuple分配到同一個Task中D、irectGrouping:隨機分組,隨機分發(fā)Stream中的Tuple,保證每個Bolt的Task接收Tuple數(shù)量大致一致答案:ABC21.下列關(guān)于文檔數(shù)據(jù)庫的描述,哪些是正確的?A、性能好(高并發(fā)),靈活性高B、具備統(tǒng)一的查詢語法C、文檔數(shù)據(jù)庫支持文檔間的事務(wù)D、復(fù)雜性低,數(shù)據(jù)結(jié)構(gòu)靈活答案:AD22.Spark具有以下哪幾個主要特點?A、運行速度快B、容易使用C、通用性D、運行模式單一答案:ABC23.UMP系統(tǒng)架構(gòu)設(shè)計遵循了以下哪些原則?A、保持單一的系統(tǒng)對外入口,并且為系統(tǒng)內(nèi)部維護單一的資源池B、消除單點故障,保證服務(wù)的高可用性C、保證系統(tǒng)具有良好的可伸縮,能夠動態(tài)地增加、刪減計算與存儲節(jié)點D、保證分配給用戶的資源也是彈性可伸縮的答案:ABCD24.下列關(guān)于Storm框架,描述正確的有?A、worker:每個worker進程都屬于一個特定的TopologyB、executor:executor是產(chǎn)生于worker進程內(nèi)部的線程C、task:實際的數(shù)據(jù)處理由task完成D、在Topology的生命周期中,每個組件的task數(shù)目是不會發(fā)生變化的,而executor的數(shù)目卻不一定答案:ABCD25.HBase與傳統(tǒng)的關(guān)系數(shù)據(jù)庫的區(qū)別主要體現(xiàn)在以下哪幾個方面?A、數(shù)據(jù)類型B、數(shù)據(jù)操作C、存儲模式D、數(shù)據(jù)維護答案:ABCD26.下列關(guān)于UMP系統(tǒng)架構(gòu)的描述,哪些是正確的?A、信息統(tǒng)計服務(wù)器定期將采集到的用戶的連接數(shù)B、Web控制臺無法向用戶提供系統(tǒng)管理界面C、LVS(LinuxVirtualServer)即Linux虛擬服務(wù)器D、UMP系統(tǒng)借助于LVS來實現(xiàn)集群內(nèi)部的負載均衡答案:ACD27.企業(yè)數(shù)據(jù)架構(gòu)的典型形式包括:()A、傳統(tǒng)數(shù)據(jù)處理架構(gòu)B、大數(shù)據(jù)Lambda架構(gòu)C、流處理架構(gòu)D、循環(huán)處理架構(gòu)答案:ABC28.云計算關(guān)鍵技術(shù)包括什么?A、分布式存儲B、虛擬化C、分布式計算D、多租戶答案:ABCD29.Flink系統(tǒng)主要由兩個組件組成:()A、JobManagerB、JobTrackderC、TaskTrackerD、TaskManager答案:AD30.Hadoop集群的整體性能主要受到什么因素影響?A、CPU性能B、內(nèi)存C、網(wǎng)絡(luò)D、存儲容量答案:ABCD31.下列關(guān)于Hadoop的描述,哪些是正確的?A、為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎(chǔ)架構(gòu)B、具有很好的跨平臺特性C、可以部署在廉價的計算機集群中D、曾經(jīng)被公認為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件答案:ABCD32.下列選項中,哪些屬于Hadoop1.0的核心組件的不足之處?A、實時性差(適合批處理,不支持實時交互式)B、資源浪費(Map和Reduce分兩階段執(zhí)行)C、執(zhí)行迭代操作效率低D、難以看到程序整體邏輯答案:ABCD33.在YARN體系結(jié)構(gòu)中,ApplicationMaster主要功能包括哪些?A、當(dāng)用戶作業(yè)提交時,ApplicationMaster與ResourceManager協(xié)商獲取資源,ResourceManager會以容器的形式為ApplicationMaster分配資源B、把獲得的資源進一步分配給內(nèi)部的各個任務(wù)(Map任務(wù)或Reduce任務(wù)),實現(xiàn)資源的“二次分配”C、定時向ResourceManager發(fā)送“心跳”消息,報告資源的使用情況和應(yīng)用的進度信息D、向ResourceManager匯報作業(yè)的資源使用情況和每個容器的運行狀態(tài)據(jù)概述答案:ABC34.實現(xiàn)UserCF算法的關(guān)鍵步驟是計算用戶與用戶之間的興趣相似度,下列哪些是屬于計算相似度的算法?A、泊松相關(guān)系數(shù)B、余弦相似度C、調(diào)整余弦相似度D、調(diào)整正弦相似度答案:ABC35.HDFS1.0主要存在哪些問題?A、單點故障問題B、不可以水平擴展C、單個名稱節(jié)點難以提供不同程序之間的隔離性D、系統(tǒng)整體性能受限于單個名稱節(jié)點的吞吐量答案:ACD36.在每個超步中,Worker會對自己所管轄的分區(qū)中的每個頂點進行遍歷,并調(diào)用頂點上的Compute()函數(shù),在調(diào)用時,會把以下哪些參數(shù)傳遞進去?A、該頂點的當(dāng)前值B、一個接收到的消息的迭代器C、一個出射邊的迭代器D、標(biāo)志位,用來標(biāo)記頂點是否處于活躍狀態(tài)答案:ABC37.Scala具有以下哪幾個主要特點?A、Scala的優(yōu)勢是提供了REPL(Read-Eval-PrintLoop,交互式解釋器),提高程序開發(fā)效率B、Scala兼容Java,運行速度快,且能融合到Hadoop生態(tài)圈中C、Scala具備強大的并發(fā)性,支持函數(shù)式編程D、Scala可以更好地支持分布式系統(tǒng)答案:ABCD38.下列說法中,哪些選項描述正確?A、Spark在借鑒HadoopMapReduce優(yōu)點的同時,很好地解決了MapReduce所面臨的問題B、Spark的計算模式也屬于MapReduce,但不局限于Map和Reduce操作C、HadoopMapReduce編程模型比Spark更靈活D、HadoopMapReduce提供了內(nèi)存計算,可將中間結(jié)果放到內(nèi)存中,對于迭代運算效率更高答案:AB39.以下哪些是Amazon的云數(shù)據(jù)庫產(chǎn)品?A、mazonRDS:云中的關(guān)系數(shù)據(jù)庫B、AmazonSimpleDB:云中的鍵值數(shù)據(jù)庫C、AmazonDynamoDB:云中的數(shù)據(jù)倉庫D、AmazonElastiCache:云中的分布式內(nèi)存緩存答案:ABC40.與HadoopMapReduce計算框架相比,Spark所采用的Executor具有哪些優(yōu)點?A、利用多線程來執(zhí)行具體的任務(wù),減少任務(wù)的啟動開銷B、Executor中有一個BlockManager存儲模塊,有效減少IO開銷C、提供了一種高度受限的共享內(nèi)存模型D、不同場景之間輸入輸出數(shù)據(jù)能做到無縫共享答案:AB41.Flink的優(yōu)勢包括:()A、同時支持高吞吐、低延遲、高性能B、同時支持流處理和批處理C、支持有狀態(tài)計算D、具有獨立的內(nèi)存管理答案:ABCD42.Impala主要由哪幾個部分組成:()A、ImpaladB、StateStoreC、LID、Hive答案:ABC43.對于一個流計算系統(tǒng)來說,它應(yīng)達到以下哪些需求?A、高性能:處理大數(shù)據(jù)的基本要求,如每秒處理幾十萬條數(shù)據(jù)B、實時性:保證較低的延遲時間,達到秒級別,甚至是毫秒級別C、分布式:支持大數(shù)據(jù)的基本架構(gòu),必須能夠平滑擴展D、可靠性:能可靠地處理流數(shù)據(jù)答案:ABCD44.在大數(shù)據(jù)時代,可視化技術(shù)可以支持實現(xiàn)哪些目標(biāo)?()A、觀測、跟蹤數(shù)據(jù)B、分析數(shù)據(jù)C、輔助理解數(shù)據(jù)D、增強數(shù)據(jù)吸引力答案:ABCD45.下列說法中,哪些是正確的?A、ModestMaps是一個小型、可擴展、交互式的免費庫B、Leaflet是一個小型化的地圖框架,通過小型化和輕量化來滿足移動網(wǎng)頁的需要C、GoogleFusionTables讓一般使用者也可以輕松制作出專業(yè)的統(tǒng)計地圖D、大數(shù)據(jù)魔鏡是一款優(yōu)秀的國產(chǎn)數(shù)據(jù)分析軟件,它豐富的數(shù)據(jù)公式和算法可以讓用戶真正理解探索分析數(shù)據(jù)答案:ABCD46.數(shù)據(jù)庫事務(wù)具有ACID四性,下面哪幾項屬于四性?A、原子性B、持久性C、間斷性D、一致性答案:ABD47.在實際應(yīng)用中,大數(shù)據(jù)處理主要包括以下哪三個類型?A、復(fù)雜的批量數(shù)據(jù)處理:通常時間跨度在數(shù)十分鐘到數(shù)小時之間B、基于歷史數(shù)據(jù)的交互式查詢:通常時間跨度在數(shù)十秒到數(shù)分鐘之間C、基于實時數(shù)據(jù)流的數(shù)據(jù)處理:通常時間跨度在數(shù)十秒到數(shù)分鐘之間D、基于實時數(shù)據(jù)流的數(shù)據(jù)處理:通常時間跨度在數(shù)百毫秒到數(shù)秒之間答案:ABD48.云計算的服務(wù)模式和類型主要包括哪三類?A、軟件即服務(wù)(SaaS)B、平臺即服務(wù)(PaaS)C、基礎(chǔ)設(shè)施即服務(wù)(IaaS)D、數(shù)據(jù)采集即服務(wù)(DaaS)答案:ABC49.HBase訪問接口類型包括哪些?A、NativeJavaAPIB、HBaseShellC、ThriftGatewayD、RESTGateway答案:ABCD50.Storm具有以下哪些特點?A、整合性:Storm可方便地與隊列系統(tǒng)和數(shù)據(jù)庫系統(tǒng)進行整合B、簡易的API:Storm的API在使用上即簡單又方便C、容錯性:Storm可自動進行故障節(jié)點的重啟、任務(wù)的重新分配D、可擴展性:Storm的并行特性使其可以運行在分布式集群中答案:ABCD51.關(guān)系數(shù)據(jù)庫已經(jīng)無法滿足Web2.0的需求,主要表現(xiàn)在以下幾個方面?A、無法滿足海量數(shù)據(jù)的管理需求B、無法滿足數(shù)據(jù)高并發(fā)的需求C、無法滿足高可擴展性和高可用性的需求D、使用難度高答案:ABC52.下列關(guān)于流處理系統(tǒng)與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)的描述,正確的有?A、流處理系統(tǒng)處理的是實時的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預(yù)先存儲好的靜態(tài)數(shù)據(jù)B、用戶通過流處理系統(tǒng)獲取的是實時結(jié)果,而通過傳統(tǒng)的數(shù)據(jù)處理系統(tǒng),獲取的是過去某一時刻的結(jié)果C、流處理系統(tǒng)無需用戶主動發(fā)出查詢,實時查詢服務(wù)可以主動將結(jié)果推送給用戶D、傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)系統(tǒng)無需用戶主動發(fā)出查詢,批量查詢服務(wù)可以主動將結(jié)果推送給用戶答案:ABC53.數(shù)據(jù)倉庫Hive的執(zhí)行引擎可以是:()A、TezB、MapReduceC、PigD、Spark答案:ABD54.傳統(tǒng)數(shù)據(jù)倉庫面臨哪些挑戰(zhàn):()A、無法滿足快速增長的海量數(shù)據(jù)存儲需求B、無法有效處理不同類型的數(shù)據(jù)C、具有很強的擴展性D、計算和處理能力不足答案:ABD55.下列關(guān)于數(shù)據(jù)可視化的描述,正確的有?A、數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示B、數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示C、利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程D、將數(shù)據(jù)的各個屬性值以一維數(shù)據(jù)的形式表示答案:ABC56.下列關(guān)于云數(shù)據(jù)庫與其他數(shù)據(jù)庫的關(guān)系,哪些是正確的?A、從數(shù)據(jù)模型的角度來說,云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù)B、云數(shù)據(jù)庫并沒有專屬于自己的數(shù)據(jù)模型,云數(shù)據(jù)庫所采用的數(shù)據(jù)模型可以是關(guān)系數(shù)據(jù)庫所使用的關(guān)系模型C、同一個公司只能提供采用不同數(shù)據(jù)模型的單個云數(shù)據(jù)庫服務(wù)D、許多公司在開發(fā)云數(shù)據(jù)庫時,后端數(shù)據(jù)庫都是直接使用現(xiàn)有的各種關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫產(chǎn)品答案:ABD57.下列關(guān)于協(xié)同過濾算法的描述,哪些是正確的?A、基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用最多的算法B、ItemCF算法是給目標(biāo)用戶推薦那些和他們之前喜歡的物品相似的物品C、ItemCF算法通過建立用戶到物品倒排表(每個用戶喜歡的物品的列表)來計算物品相似度D、UserCF算法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品答案:ABCD58.當(dāng)處理CAP的問題時,可以有哪幾個明顯的選擇?A、CA:也就是強調(diào)一致性(C)和可用性(A),放棄分區(qū)容忍性(P)B、CP:也就是強調(diào)一致性(C)和分區(qū)容忍性(P),放棄可用性(A)C、AP:也就是強調(diào)可用性(A)和分區(qū)容忍性(P),放棄一致性(C)D、CAP:也就是同時兼顧可用性(A)、分區(qū)容忍性(P)和一致性(C),當(dāng)時系統(tǒng)性能會下降很多答案:ABC59.大數(shù)據(jù)的兩個核心技術(shù)是什么?A、分布式存儲B、分布式應(yīng)用C、分布式處理D、集中式存儲答案:AC60.推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系,根據(jù)推薦算法的不同,推薦方法包括以下哪幾類?A、專家推薦:人工推薦,由資深的專業(yè)人士來進行物品的篩選和推薦,需要較多的人力成本B、基于統(tǒng)計的推薦:基于統(tǒng)計信息的推薦(如熱門推薦),易于實現(xiàn),但對用戶個性化偏好的描述能力較弱C、基于內(nèi)容的推薦:通過機器學(xué)習(xí)的方法去描述內(nèi)容的特征,并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容D、混合推薦:結(jié)合多種推薦算法來提升推薦效果答案:ABCD61.HDFS特殊的設(shè)計,在實現(xiàn)優(yōu)良特性的同時,也使得自身具有一些應(yīng)用局限性,主要包括以下哪幾個方面?A、較差的跨平臺兼容性B、無法高效存儲大量小文件C、不支持多用戶寫入及任意修改文件D、不適合低延遲數(shù)據(jù)訪問答案:BCD62.下列關(guān)于Hadoop的描述,哪些是錯誤的?A、只能支持一種編程語言B、具有較差的跨平臺特性C、可以部署在廉價的計算機集群中D、曾經(jīng)被公認為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件答案:AB63.當(dāng)采用MapReduce作為Hive的執(zhí)行引擎時,下面描述正確的是:()A、當(dāng)用戶向Hive輸入一段命令或查詢(即HiveQL語句)時,Hive需要與Hadoop交互工作來完成該操作B、命令或查詢首先進入到驅(qū)動模塊,由驅(qū)動模塊中的編譯器進行解析編譯,并由優(yōu)化器對該操作進行優(yōu)化計算,然后交給執(zhí)行器去執(zhí)行C、執(zhí)行器通常的任務(wù)是啟動一個或多個MapReduce任務(wù),有時也不需要啟動MapReduce任務(wù)D、執(zhí)行器通常的任務(wù)一定會包含Map和Reduce操作答案:ABC64.Hadoop生態(tài)系統(tǒng)中Hive與其他部分的關(guān)系的描述正確的是:()A、HDFS作為高可靠的底層存儲,用來存儲Hive的海量數(shù)據(jù)B、MapReduce對這些海量數(shù)據(jù)進行批處理,實現(xiàn)Hive的高性能計算C、當(dāng)采用MapRedue作為Hive的執(zhí)行引擎時,用HiveQL語句編寫的處理邏輯,最終都要轉(zhuǎn)化為MapReduce任務(wù)來運行D、HBase與Hive的功能是互補的,它實現(xiàn)了Hive不能提供的功能答案:ABCD65.Flink編程模型包括哪幾層:()A、SQLB、TableAPIC、DataStreamAPI/DataSetAPID、有狀態(tài)數(shù)據(jù)流處理答案:ABCD66.第三次信息化浪潮的標(biāo)志是哪些技術(shù)的興起?A、個人計算機B、物聯(lián)網(wǎng)C、云計算D、大數(shù)據(jù)答案:BCD67.下列關(guān)于流計算與Hadoop的說法,正確的有?A、Hadoop擅長批處理,不適合流計算B、MapReduce是專門面向靜態(tài)數(shù)據(jù)的批量處理的C、Hadoop設(shè)計的初衷是面向大規(guī)模數(shù)據(jù)的批量處理D、MapReduce不適合用于處理持續(xù)到達的動態(tài)數(shù)據(jù)答案:ABCD68.Spark運行架構(gòu)具有以下哪些特點?A、每個Application都有自己專屬的Executor進程,并且該進程在Application運行期間一直駐留B、Executor進程以多線程的方式運行TaskC、Spark運行過程與資源管理器無關(guān),只要能夠獲取Executor進程并保持通信即可D、Task采用了數(shù)據(jù)本地性和推測執(zhí)行等優(yōu)化機制答案:ABCD69.MapReduce體系結(jié)構(gòu)主要由以下那幾個部分構(gòu)成?A、ClientB、JobTrackerC、TaskTrackerD、Task答案:ABCD70.下列說法正確的是?A、MapReduce體系結(jié)構(gòu)主要由四個部分組成,分別是:Client、JobTracker、TaskTracker以及TaskB、Task分為MapTask和ReduceTask兩種,均由TaskTracker啟動C、在MapReduce工作流程中,所有的數(shù)據(jù)交換都是通過MapReduce框架自身去實現(xiàn)的D、在MapReduce工作流程中,用戶不能顯式地從一臺機器向另一臺機器發(fā)送消息答案:ABCD71.下列關(guān)于MySQL集群的描述,哪些是正確的?A、復(fù)雜性:部署、管理、配置很復(fù)雜B、數(shù)據(jù)庫復(fù)制:MySQL主備之間一般采用復(fù)制方式,很多時候是異步復(fù)制C、擴容問題:如果系統(tǒng)壓力過大需要增加新的機器,這個過程涉及數(shù)據(jù)重新劃分D、動態(tài)數(shù)據(jù)遷移問題:如果某個數(shù)據(jù)庫組壓力過大,需要將其中部分數(shù)據(jù)遷移出去答案:ABCD72.下列關(guān)于云數(shù)據(jù)庫的描述,哪些是正確的?A、mazon是云數(shù)據(jù)庫市場的先行者B、GoogleCloudSQL是谷歌公司推出的基于MySQL的云數(shù)據(jù)庫C、從數(shù)據(jù)模型的角度來說,云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù)D、云數(shù)據(jù)庫并沒有專屬于自己的數(shù)據(jù)模型答案:ABCD73.下列關(guān)于Region服務(wù)器工作原理的描述,哪些是正確的?A、每個Region服務(wù)器都有一個自己的HLog文件B、每次刷寫都生成一個新的StoreFile,數(shù)量太多,影響查找速度C、合并操作比較耗費資源,只有數(shù)量達到一個閾值才啟動合并D、Store是Region服務(wù)器的核心答案:ABCD74.大數(shù)據(jù)具有哪些特點?A、數(shù)據(jù)的“大量化”B、數(shù)據(jù)的“快速化”C、數(shù)據(jù)的“多樣化”D、數(shù)據(jù)的“價值密度比較低”答案:ABCD75.Microsoft的云數(shù)據(jù)庫產(chǎn)品SQLAzure具有以下哪些特性?A、屬于關(guān)系型數(shù)據(jù)庫:支持使用TSQL來管理、創(chuàng)建和操作云數(shù)據(jù)庫B、支持存儲過程:它的數(shù)據(jù)類型、存儲過程和傳統(tǒng)的SQLServer具有很大的相似性C、支持大量數(shù)據(jù)類型D、支持云中的事務(wù):支持局部事務(wù),但是不支持分布式事務(wù)答案:ABCD76.Hadoop的特性包括哪些?A、高可擴展性B、支持多種編程語言C、成本低D、運行在Linux平臺上答案:ABCD77.Spark支持哪三種不同類型的部署方式?A、Standalone(類似于MapReduce1.0,slot為資源分配單位)B、SparkonMesos(和Spark有血緣關(guān)系,更好支持Mesos)C、SparkonYARND、SparkonHDFS答案:ABC78.一個基本的Hadoop集群中的節(jié)點主要包括什么?A、DataNode:存儲被拆分的數(shù)據(jù)塊B、JobTracker:協(xié)調(diào)數(shù)據(jù)計算任務(wù)C、TaskTracker:負責(zé)執(zhí)行由JobTracker指派的任務(wù)D、SecondaryNameNode:幫助NameNode收集文件系統(tǒng)運行的狀態(tài)信息答案:ABCD79.JobTracker主要包括哪三大功能?A、資源管理B、任務(wù)調(diào)度C、任務(wù)監(jiān)控D、數(shù)據(jù)即服務(wù)答案:ABC80.MapReduce的作業(yè)主要包括什么?A、從磁盤或從網(wǎng)絡(luò)讀取數(shù)據(jù),即IO密集工作B、計算數(shù)據(jù),即CPU密集工作C、針對不同的工作節(jié)點選擇合適硬件類型D、負責(zé)協(xié)調(diào)集群中的數(shù)據(jù)存儲答案:AB81.下列哪一項不屬于Hadoop的特性?A、較低可擴展性B、只支持java語言C、成本低D、運行在Linux平臺上答案:AB82.Spark采用RDD以后能夠?qū)崿F(xiàn)高效計算的原因主要在于?A、高效的容錯性B、中間結(jié)果持久化到內(nèi)存,數(shù)據(jù)在內(nèi)存中的多個C、存放的數(shù)據(jù)可以是Java對象,避免了不必要的對象序列化和反序列化D、采用數(shù)據(jù)復(fù)制實現(xiàn)容錯答案:ABC83.YARN體系結(jié)構(gòu)主要包括哪三部分?A、ResourceManagerB、NodeManagerC、DataManagerD、ApplicationMaster答案:ABD84.下面哪個屬于不斷完善的Hadoop生態(tài)系統(tǒng)中的組件?A、PigB、TezC、KafkaD、N8答案:ABC85.數(shù)據(jù)節(jié)點(DataNode)的主要功能包括哪些?A、負責(zé)數(shù)據(jù)的存儲和讀取B、根據(jù)客戶端或者是名稱節(jié)點的調(diào)度來進行數(shù)據(jù)的存儲和檢索C、向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表D、用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份,并減少名稱節(jié)點重啟的時間答案:ABC86.HDFS數(shù)據(jù)塊多副本存儲具備以下哪些優(yōu)點?A、加快數(shù)據(jù)傳輸速度B、容易檢查數(shù)據(jù)錯誤C、保證數(shù)據(jù)可靠性D、適合多平臺上運行答案:ABC87.以下屬于Hive的基本數(shù)據(jù)類型是:()A、TINYINTB、FLOATC、STRINGD、BINARY答案:ABCD88.Hive主要由哪三個模塊組成:()A、用戶接口模塊B、用戶查詢模塊C、驅(qū)動模塊D、元數(shù)據(jù)存儲模塊答案:ABD89.Flink核心組件棧包括:()A、物理部署層B、算法庫層C、Runtime核心層D、API&Libraries層答案:ACD90.Zookeeper是一個很好的集群管理工具,被大量用于分布式計算,它主要提供什么服務(wù)?A、配置維護B、域名服務(wù)C、分布式同步D、負載均衡服務(wù)答案:ABC91.Flink常見的應(yīng)用場景包括:()A、事件驅(qū)動型應(yīng)用B、數(shù)據(jù)分析應(yīng)用C、數(shù)據(jù)流水線應(yīng)用D、正反饋應(yīng)用答案:ABC92.HBase的實現(xiàn)包括哪三個主要的功能組件?A、庫函數(shù):鏈接到每個客戶端B、一個Master主服務(wù)器C、許多個Region服務(wù)器D、廉價的計算機集群答案:ABC93.針對大型圖的計算,目前通用的圖計算軟件主要哪些?A、基于遍歷算法的、實時的圖數(shù)據(jù)庫,如Neo4j、OrientDB、DEX和InfiniteGraphB、以圖頂點為中心的、基于消息傳遞批處理的并行引擎,如GoldenOrb、Giraph、Pregel和HamaC、基于遍歷算法的、實時的圖數(shù)據(jù)庫,如GoldenOrb、Giraph、Pregel和HamaD、以圖頂點為中心的、基于消息傳遞批處理的并行引擎,如Neo4j、OrientDB、DEX和InfiniteGraph答案:AB94.針對大型圖(比如社交網(wǎng)絡(luò)和網(wǎng)絡(luò)圖)的計算問題,哪些說法是正確的?A、為特定的圖應(yīng)用定制相應(yīng)的分布式實現(xiàn):通用性不好B、基于現(xiàn)有的分布式計算平臺進行圖計算:在性能和易用性方面往往無法達到最優(yōu)C、使用單機的圖算法庫,但是,在可以解決的問題的規(guī)模方面具有很大的局限性D、使用已有的并行圖計算系統(tǒng),但是,對大規(guī)模分布式系統(tǒng)非常重要的一些方面(比如容錯),無法提供較好的支持答案:ABCD95.MapReduce的具體應(yīng)用包括哪些?A、關(guān)系代數(shù)運算(選擇、投影、并、交、差、連接)B、分組與聚合運算C、矩陣-向量乘法D、矩陣乘法答案:ABCD96.HDFS只設(shè)置唯一一個名稱節(jié)點,這樣做雖然大大簡化了系統(tǒng)設(shè)計,但也帶來了哪些明顯的局限性?A、命名空間的限制B、性能的瓶頸C、隔離問題D、集群的可用性答案:ABCD97.下列關(guān)于數(shù)據(jù)模型的描述,哪些是正確的?A、HBase采用表來組織數(shù)據(jù),表由行和列組成,列劃分為若干個列族B、每個HBase表都由若干行組成,每個行由行鍵(rowkey)來標(biāo)識C、列族里的數(shù)據(jù)通過列限定符(或列)來定位D、每個單元格都保存著同一份數(shù)據(jù)的多個版本,這些版本采用時間戳進行索引答案:ABCD98.協(xié)同過濾可分為哪幾種過濾方式?A、基于用戶的協(xié)同過濾B、基于物品的協(xié)同過濾C、基于用戶和物品的聯(lián)合
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 無人機租賃合同
- 企業(yè)品牌策劃推廣協(xié)議
- 金融服務(wù)咨詢協(xié)議
- 知識產(chǎn)權(quán)盡職調(diào)查專項法律服務(wù)合同
- 建筑工程機械施工合同協(xié)議2025年
- 2025年度XX小區(qū)門衛(wèi)保安勞動合同范本修訂版8篇
- 展會合作協(xié)議展覽合作合同2025年
- 2025年度水利水電工程養(yǎng)護與管理施工合同3篇
- 2025年度新能源車輛買賣合同3篇
- 2025年度水下考古人工挖孔樁施工承包合同2篇
- 2024至2030年中國消費級無人機行業(yè)市場預(yù)測與投資規(guī)劃分析報告
- 小學(xué)生衛(wèi)生知識健康教育精課件
- CJ/T 158-2002 城市污水處理廠管道和設(shè)備色標(biāo)
- NB-T35009-2013抽水蓄能電站選點規(guī)劃編制規(guī)范
- 曳引驅(qū)動電梯調(diào)試作業(yè)指導(dǎo)書
- 基礎(chǔ)會計課程思政教案設(shè)計
- 經(jīng)皮肝穿刺膽道引流(PTCD)導(dǎo)管的護理要點
- 國家開放大學(xué)《心理學(xué)》形考任務(wù)1-4參考答案
- 2024年社會工作者《社會工作實務(wù)(中級)》考試真題必考題
- FZ∕T 74001-2020 紡織品 針織運動護具
- MOOC 作物育種學(xué)-四川農(nóng)業(yè)大學(xué) 中國大學(xué)慕課答案
評論
0/150
提交評論