大數(shù)據(jù)處理期末考試題庫(kù)_第1頁(yè)
大數(shù)據(jù)處理期末考試題庫(kù)_第2頁(yè)
大數(shù)據(jù)處理期末考試題庫(kù)_第3頁(yè)
大數(shù)據(jù)處理期末考試題庫(kù)_第4頁(yè)
大數(shù)據(jù)處理期末考試題庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第第頁(yè)大數(shù)據(jù)期末考試題庫(kù)Spark選擇題Spark的四大組件下面哪個(gè)不是(D)A.SparkStreamingBMlibCGraphxDSparkR下面哪個(gè)端口不是spark自帶服務(wù)的端口(C)A.8080B.4040C.8090D.18080spark1.4版本的最大變化(B)AsparksqlRelease版本B引入SparkRCDataFrameD支持動(dòng)態(tài)資源分配SparkJob默認(rèn)的調(diào)度模式(A)AFIFOBFAIRC無(wú)D運(yùn)行時(shí)指定哪個(gè)不是本地模式運(yùn)行的個(gè)條件(D)Aspark.localExecution.enabled=trueB顯式指定本地運(yùn)行CfinalStage無(wú)父StageDpartition默認(rèn)值下面哪個(gè)不是RDD的特點(diǎn)(C)A.可分區(qū)B可序列化C可修改D可持久化關(guān)于廣播變量,下面哪個(gè)是錯(cuò)誤的(D)A任何函數(shù)調(diào)用B是只讀的C存儲(chǔ)在各個(gè)節(jié)點(diǎn)D存儲(chǔ)在磁盤或HDFS關(guān)于累加器,下面哪個(gè)是錯(cuò)誤的(D)A支持加法B支持?jǐn)?shù)值類型C可并行D不支持自定義類型Spark支持的分布式部署方式中哪個(gè)是錯(cuò)誤的(D)AstandaloneBsparkonmesosCsparkonYARNDSparkonlocalStage的Task的數(shù)量由什么決定(A)APartitionBJobCStageDTaskScheduler下面哪個(gè)操作是窄依賴(B)AjoinBfilterCgroupDsort下面哪個(gè)操作肯定是寬依賴(C)AmapBflatMapCreduceByKeyDsamplespark的master和worker通過(guò)什么方式進(jìn)行通信的?(D)AhttpBnioCnettyDAkka默認(rèn)的存儲(chǔ)級(jí)別(A)AMEMORY_ONLYBMEMORY_ONLY_SERCMEMORY_AND_DISKDMEMORY_AND_DISK_SERspark.deploy.recoveryMode不支持那種(D)A.ZooKeeperB.FileSystemDNONEDHadoop下列哪個(gè)不是RDD的緩存方法(C)Apersist()BCache()CMemory()Task運(yùn)行在下來(lái)哪里個(gè)選項(xiàng)中Executor上的工作單元(C)ADriverprogramB.sparkmasterC.workernodeDClustermanagerhive的元數(shù)據(jù)存儲(chǔ)在derby和MySQL中有什么區(qū)別(B)A.沒(méi)區(qū)別B.多會(huì)話C.支持網(wǎng)絡(luò)環(huán)境D數(shù)據(jù)庫(kù)的區(qū)別DataFrame和RDD最大的區(qū)別(B)A.科學(xué)統(tǒng)計(jì)支持B.多了schemaC.存儲(chǔ)方式不一樣D.外部數(shù)據(jù)源支持Master的ElectedLeader事件后做了哪些操作(D)A.通知driverB.通知workerC.注冊(cè)applicationD.直接ALIVE(Spark)Spark是什么()?正確答案:A,C,DA.Spark是基于內(nèi)存計(jì)算的框架B.Spark是基于磁盤計(jì)算的框架C.Spark是一種基于RDD計(jì)算框架D.Spark是一種并行計(jì)算框架spark的數(shù)據(jù),可以存儲(chǔ)在哪些地方?正確答案:A,B,C,DA.HDFSB.CassandraC.HbaseD.S3大數(shù)據(jù)處理主要的三種場(chǎng)景為()正確答案:A,B,CA.批處理B.交互處理C.流式計(jì)算D.事務(wù)處理以下對(duì)SparkCore描述正確的有?正確答案:A,B,C,DA.引入了RDDB.移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)C.使用線程池來(lái)減少task啟動(dòng)開(kāi)銷D.使用akka作為通訊框架以下對(duì)SparkSQL的描述正確的有?正確答案:A,B,CA.SparkSQL運(yùn)行開(kāi)發(fā)人員之間處理RDDB.SparkSQL可以直接查詢hive中的數(shù)據(jù)C.SparkSQL運(yùn)行開(kāi)發(fā)人員之間使用SQL進(jìn)行復(fù)制的數(shù)據(jù)分析D.SparkSQL的性能上,和Hive類似。以下哪些是Spark的組件?正確答案:A,B,CA.MLBase/MLlibB.GraphXC.SparkRD.MatlabSpark的運(yùn)行模式有哪些?正確答案:A,B,C,DA.localB.StandaloneC.onYarnoronmesosD.onCloudspark運(yùn)行模式中,onyarn這種模式,可以應(yīng)用于生產(chǎn)環(huán)境中。正確答案:AA.正確B.錯(cuò)誤spark運(yùn)行模式中,local這種模式,可以應(yīng)用于生產(chǎn)環(huán)境中。正確答案:BA.正確B.錯(cuò)誤Spark使用的資源管理器有哪些?正確答案:A,B,C,DA.MesosB.standaloneC.yarnD.cloudspark都有哪些組件?正確答案:A,B,C,DA.SparkSQLB.SparkStreamingC.MLlibD.GraphXSpark是2009年誕生于伯克利大學(xué)AMPLab的基于內(nèi)存計(jì)算框架正確答案:AA.正確B.錯(cuò)誤下列對(duì)spark描述正確的有?正確答案:A,B,C,DA.spark是基于內(nèi)存計(jì)算的B.spark處理大量數(shù)據(jù)的一個(gè)快速通用的引擎C.spark由AMPlab實(shí)驗(yàn)室開(kāi)發(fā)D.spark目前是apache的頂級(jí)項(xiàng)目spark是由java語(yǔ)言開(kāi)發(fā)正確答案:BA.正確B.錯(cuò)誤Spark的容錯(cuò)機(jī)制是()。正確答案:A,DA.checkpointB.persistC.cacheD.lineageSpark與Hadoop的區(qū)別()。正確答案:A,CA.Spark是基于內(nèi)存計(jì)算框架,而Hadoop基于硬盤計(jì)算框架B.Spark是基于硬盤計(jì)算框架,而Hadoop基于內(nèi)存計(jì)算框架C.Spark是一站式計(jì)算框架,而Hadoop只適合離線處理計(jì)算框架D.Spark只適合離線處理計(jì)算框架,而Hadoop是一站式計(jì)算框架spark基本特點(diǎn)有哪些?正確答案:A,B,C,DA.EaseofuseB.GeneralityC.RunseverywhereD.Speed可以使用哪些語(yǔ)言來(lái)編寫spark應(yīng)用程序?正確答案:A,B,C,DA.javaB.scalaC.pythonD.Rspark和hadoop對(duì)比,說(shuō)法正確的是?正確答案:A,B,CA.Hadoop中間結(jié)果會(huì)存儲(chǔ)在磁盤上B.spark中間結(jié)果會(huì)存儲(chǔ)在內(nèi)存中C.Spark相對(duì)于hadoop提供了更多的操作D.Spark已經(jīng)完全取代hadoopSpark常見(jiàn)組件描述錯(cuò)誤的是()。正確答案:BA.SparkCore:是以內(nèi)存使用RDD的計(jì)算實(shí)現(xiàn)有向無(wú)環(huán)圖的分布式并行計(jì)算框架B.SparkStreaming:是一個(gè)對(duì)實(shí)時(shí)數(shù)據(jù)流進(jìn)行低吞吐量、高容錯(cuò)性處理的流式處理框架C.SparkSQL:是一個(gè)可以直接通過(guò)sql語(yǔ)句處理RDD,來(lái)進(jìn)行查詢與計(jì)算D.SparkMLBase:是專注于機(jī)器學(xué)習(xí)方面E.SparkGraphX:是專注于圖計(jì)算方面F.SparkR:是一種使用R語(yǔ)言開(kāi)發(fā),且能實(shí)現(xiàn)并行處理的計(jì)算框架大數(shù)據(jù)期末題目匯總選擇題下面哪個(gè)程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。(C)A.NameNodeB.JobtrackerC.DatanodeD.secondaryNameNodeHDFS中的block默認(rèn)保存幾個(gè)備份。(A)A.3份B.2份C.1份D.不確定HDFS1.0默認(rèn)BlockSize大小是多少。(B)A.32MBB.64MBC.128MBD.256MB下面哪個(gè)進(jìn)程負(fù)責(zé)MapReduce任務(wù)調(diào)度。(B)A.NameNodeB.JobtrackerC.TaskTrackerD.secondaryNameNodeHadoop1.0默認(rèn)的調(diào)度器策略是哪個(gè)。(A)A.先進(jìn)先出調(diào)度器B.計(jì)算能力調(diào)度器C.公平調(diào)度器D.優(yōu)先級(jí)調(diào)度器Client端上傳文件的時(shí)候下列哪項(xiàng)正確?(B)A.數(shù)據(jù)經(jīng)過(guò)NameNode傳遞給DataNodeB.Client端將文件切分為Block,依次上傳C.Client只上傳數(shù)據(jù)到一臺(tái)DataNode,然后由NameNode負(fù)責(zé)Block復(fù)制工作D.以上都不正確在實(shí)驗(yàn)集群的master節(jié)點(diǎn)使用jps命令查看進(jìn)程時(shí),終端出現(xiàn)以下哪項(xiàng)能說(shuō)明Hadoop主節(jié)點(diǎn)啟動(dòng)成功?(D)A.Namenode,Datanode,TaskTrackerB.Namenode,Datanode,secondaryNameNodeC.Namenode,Datanode,HMasterD.Namenode,JobTracker,secondaryNameNode若不針對(duì)MapReduce編程模型中的key和value值進(jìn)行特別設(shè)置,下列哪一項(xiàng)是MapReduce不適宜的運(yùn)算。(D)A.MaxB.MinC.CountD.AverageMapReduce編程模型,鍵值對(duì)<key,value>的key必須實(shí)現(xiàn)哪個(gè)接口?(A)A.WritableComparableB.ComparableC.WritableD.LongWritable以下哪一項(xiàng)屬于非結(jié)構(gòu)化數(shù)據(jù)。(C)A.企業(yè)ERP數(shù)據(jù)B.財(cái)務(wù)系統(tǒng)數(shù)據(jù)C.視頻監(jiān)控?cái)?shù)據(jù)D.日志數(shù)據(jù)HBase數(shù)據(jù)庫(kù)的BlockCache緩存的數(shù)據(jù)塊中,哪一項(xiàng)不一定能提高效率。(D)A.–ROOT-表B..META.表C.HFileindexD.普通的數(shù)據(jù)塊HBase是分布式列式存儲(chǔ)系統(tǒng),記錄按什么集中存放。(A)A.列族B.列C.行D.不確定HBase的Region組成中,必須要有以下哪一項(xiàng)。(B)A.StoreFileB.MemStoreC.HFileD.MetaStore客戶端首次查詢HBase數(shù)據(jù)庫(kù)時(shí),首先需要從哪個(gè)表開(kāi)始查找。(B)A..META.B.–ROOT-C.用戶表D.信息表15、設(shè)計(jì)分布式數(shù)據(jù)倉(cāng)庫(kù)hive的數(shù)據(jù)表時(shí),為取樣更高效,一般可以對(duì)表中的連續(xù)字段進(jìn)行什么操作。(A)A.分桶B.分區(qū)C.索引D.分表填空題大數(shù)據(jù)的特點(diǎn):Volume(數(shù)據(jù)容量)、Variety(數(shù)據(jù)類型)、Viscosity(價(jià)值密度)、Velocity(速度)、Veracity(真實(shí)性)大數(shù)據(jù)的性質(zhì):非結(jié)構(gòu)性、不完備性、時(shí)效性、安全性、可靠性大數(shù)據(jù)處理的全過(guò)程:數(shù)據(jù)采集與記錄-->數(shù)據(jù)抽取、清洗、標(biāo)記-->數(shù)據(jù)集成、轉(zhuǎn)換、簡(jiǎn)約-->數(shù)據(jù)分析與建模-->數(shù)據(jù)解釋大數(shù)據(jù)的關(guān)鍵技術(shù):流處理、并行化、摘要索引、可視化科學(xué)研究范式:第一范式(科學(xué)實(shí)驗(yàn))、第二范式(科學(xué)理論)、第三范式(系統(tǒng)模擬)、第四范式(數(shù)據(jù)密集型計(jì)算)CAP理論:Consistency(一致性)、Availability(可用性)、PartitionTolerance(分區(qū)容錯(cuò)性)。一個(gè)分布式系統(tǒng)不可能同時(shí)滿足一致性、可用性、分區(qū)容錯(cuò)性三個(gè)系統(tǒng)需求,最多只能同時(shí)滿足兩個(gè)。HDFS目標(biāo):兼容廉價(jià)的硬件設(shè)備、流數(shù)據(jù)讀寫、大數(shù)據(jù)集、簡(jiǎn)單的文件模型、強(qiáng)大的跨平臺(tái)兼容性流式數(shù)據(jù)的特征:實(shí)時(shí)性、易失性、突發(fā)性、無(wú)序性、無(wú)限性、準(zhǔn)確性Storm特征:編程簡(jiǎn)單、支持多語(yǔ)言、作業(yè)級(jí)容錯(cuò)、水平擴(kuò)展、底層使用Zero消息隊(duì)列,快搜索引擎的工作過(guò)程:爬行->抓取存儲(chǔ)->預(yù)處理->排名搜索引擎的評(píng)價(jià)指標(biāo):查全率、查準(zhǔn)率、響應(yīng)時(shí)間、覆蓋范圍、用戶方便性數(shù)據(jù)分析的目的:對(duì)雜亂無(wú)章的數(shù)據(jù)進(jìn)行集中、萃取、提煉,進(jìn)而找出所研究對(duì)象的內(nèi)在規(guī)律,發(fā)現(xiàn)其價(jià)值。Hadoop的三種安裝模式:?jiǎn)螜C(jī)偽分布式完全分布式y(tǒng)arn配置后的web監(jiān)控的默認(rèn)端口是8088HDFSweb界面的默認(rèn)端口為50070目前得到廣泛應(yīng)用的分布式文件系統(tǒng)主要包括GFS和HDFS。HDFS采用“一次寫入,多次讀取”的簡(jiǎn)單文件模型。HDFS采用了主從結(jié)構(gòu)模型。Hase3個(gè)主要功能組件:庫(kù)函數(shù),Master主服務(wù)器,Region服務(wù)器MapReduce模型的核心是Map函數(shù)和Reduce函數(shù)。YARN的目標(biāo)就是實(shí)現(xiàn)“一個(gè)集群,多個(gè)框架”。判斷題Hadoop支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。(hbase支持,hadoop不支持)(錯(cuò))NameNode負(fù)責(zé)管理元數(shù)據(jù)信息metadata,client端每次讀寫請(qǐng)求,它都會(huì)從磁盤中讀取或會(huì)寫入metadata信息并反饋給client端。(內(nèi)存中讀?。ㄥe(cuò))MapReduce的inputsplit一定是一個(gè)block。(默認(rèn)是)(錯(cuò))MapReduce適于PB級(jí)別以上的海量數(shù)據(jù)在線處理。(離線)(錯(cuò))鏈?zhǔn)組apReduce計(jì)算中,對(duì)任意一個(gè)MapReduce作業(yè),Map和Reduce階段可以有無(wú)限個(gè)Mapper,但Reducer只能有一個(gè)。(對(duì))MapReduce計(jì)算過(guò)程中,相同的key默認(rèn)會(huì)被發(fā)送到同一個(gè)reducetask處理。(對(duì))HBase對(duì)于空(NULL)的列,不需要占用存儲(chǔ)空間。(沒(méi)有則空不存儲(chǔ))(對(duì))HBase可以有列,可以沒(méi)有列族(columnfamily)。(有列族)(錯(cuò))簡(jiǎn)答題簡(jiǎn)述大數(shù)據(jù)技術(shù)的特點(diǎn)。Volume(大體量):即可從數(shù)百TB到數(shù)十?dāng)?shù)百PB、甚至EB規(guī)模。Variety(多樣性):即大數(shù)據(jù)包括各種格式和形態(tài)的數(shù)據(jù)。Velocity(時(shí)效性):即很多大數(shù)據(jù)需要在一定的時(shí)間限度下得到及時(shí)處理。Veracity(準(zhǔn)確性):即處理的結(jié)果要保證一定的準(zhǔn)確性。Value(大價(jià)值):即大數(shù)據(jù)包含很多深度的價(jià)值,大數(shù)據(jù)分析挖掘和利用帶來(lái)巨大的商業(yè)價(jià)值。啟動(dòng)Hadoop系統(tǒng),當(dāng)使用bin/start-all.sh命令啟動(dòng)時(shí),請(qǐng)給出集群各進(jìn)程啟動(dòng)順序。答:?jiǎn)?dòng)順序:namenode–>datanode->secondarynamenode->resourcemanager->nodemanager簡(jiǎn)述HBase的主要技術(shù)特點(diǎn)。(1)列式存儲(chǔ)(2)表數(shù)據(jù)是稀疏的多維映射表(3)讀寫的嚴(yán)格一致性(4)提供很高的數(shù)據(jù)讀寫速度(5)良好的線性可擴(kuò)展性(6)提供海量數(shù)據(jù)(7)數(shù)據(jù)會(huì)自動(dòng)分片(8)對(duì)于數(shù)據(jù)故障,hbase是有自動(dòng)的失效檢測(cè)和恢復(fù)能力。(9)提供了方便的與HDFS和MAPREDUCE集成的能力??茖W(xué)研究第一范式、第二范式、第三范式、第四范式。第一范式(科學(xué)實(shí)驗(yàn))、第二范式(科學(xué)理論)、第三范式(系統(tǒng)模擬)、第四范式(數(shù)據(jù)密集型計(jì)算)第一范式:經(jīng)驗(yàn)范式,以觀察和實(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論