版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGEPAGE1《大數(shù)據(jù)應(yīng)用技術(shù)》理論考試題庫(kù)(帶答案)一、單選題1.HBase表的Rowkey設(shè)計(jì)是一個(gè)很重要的開發(fā)設(shè)計(jì)環(huán)節(jié)假設(shè)存在如下場(chǎng)景,最頻繁的查詢場(chǎng)景是基于手機(jī)號(hào)查詢每個(gè)月.每半年的歷史通話記錄,以下哪個(gè)Rowkey設(shè)計(jì)是最優(yōu)的?()A、姓名+手機(jī)號(hào)B、日期+手機(jī)號(hào)C、手機(jī)號(hào)+日期D、手機(jī)號(hào)+姓名答案:C2.IBM大數(shù)據(jù)平臺(tái)和應(yīng)用程序框架,()以經(jīng)濟(jì)高效的方式分析PB級(jí)的結(jié)構(gòu)化和非結(jié)構(gòu)化信息流計(jì)算A、AB、HadoopC、數(shù)據(jù)倉(cāng)庫(kù)D、語(yǔ)境搜索答案:B3.若不針對(duì)MapReduce編程模型中的key和value值進(jìn)行特別設(shè)置,()是MapReduce不適宜的運(yùn)。A、MaxB、MinC、CountD、Average答案:D4.被譽(yù)為全球未來的三大高科技產(chǎn)業(yè)除了塑料電子學(xué)和仿生人體器官外,還有()A、物聯(lián)網(wǎng)B、數(shù)學(xué)C、經(jīng)典力學(xué)D、社會(huì)學(xué)答案:A5.下列()程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)A、SecondNameNodeB、D.ataNodeC、TaskTrackerD、JobTracker答案:B6.如何在瀏覽器中查看HDFS運(yùn)行狀況的默認(rèn)端口號(hào)是。()A、9000B、8080C、80D、50070答案:D7.在數(shù)據(jù)生命周期管理實(shí)踐中()是執(zhí)行方法A、數(shù)據(jù)存儲(chǔ)和備份規(guī)范B、數(shù)據(jù)管理和維護(hù)C、數(shù)據(jù)價(jià)值發(fā)覺和利用D數(shù)據(jù)應(yīng)用開發(fā)和管理答案:B8.MapReduce編程模型,鍵值對(duì)<key,value>的key必須實(shí)現(xiàn)哪個(gè)接口?()A、WritableparableB、C.omparableC、WritableD、LongWritable答案:A9.云計(jì)算是對(duì)()技術(shù)的發(fā)展與運(yùn)用A、并行計(jì)算B、網(wǎng)格計(jì)算C、分布式計(jì)算D、三個(gè)選項(xiàng)都是答案:D10.以下對(duì)hbase的描述正確的是()A、regionserver負(fù)責(zé)對(duì)多個(gè)region實(shí)現(xiàn)負(fù)載均衡B、ROOT表可以有多個(gè)regionC、StoreFile是HFile的底層實(shí)現(xiàn)D、HLog是一個(gè)實(shí)現(xiàn)了WriteAheadLog的類答案:D11.下面哪個(gè)操作肯定是寬依賴()A、mapB、flatMapC、reduceByKeyD、Sample答案:C12.HBase數(shù)據(jù)庫(kù)的B.lockCache緩存的數(shù)據(jù)塊中,哪一項(xiàng)不一定能提高效率。()A、–ROOT-表B、META.表C、H.FileindexD、普通的數(shù)據(jù)塊答案:D13.大數(shù)據(jù)時(shí)代,數(shù)據(jù)使用的關(guān)鍵是()A、數(shù)據(jù)收集B、數(shù)據(jù)存儲(chǔ)C、數(shù)據(jù)分析D、數(shù)據(jù)再利用答案:D14.一個(gè)分布式應(yīng)用程序協(xié)調(diào)服務(wù),分布式應(yīng)用程序可以基于它實(shí)現(xiàn)同步服務(wù),配置維護(hù)和命名服務(wù)等的工具有()A、FlumeB、ZookeeperC、StormD、Sparkstreaming答案:B15.下面哪一項(xiàng)不是Hadoop框架的缺陷()A、MR編程框架的限制B、過多的磁盤操作,缺乏對(duì)分布式內(nèi)存的支持C、無(wú)法高效低支持迭代式計(jì)算D、海量的數(shù)據(jù)存儲(chǔ)答案:D16.Spark組成部件不包括()A、ResourceManagerB、ExecutorC、Driver答案:A17.Mapreduce適用于()A、任意應(yīng)用程序B、任意可在windowsservet2008上運(yùn)行的程序C、可以串行處理的應(yīng)用程序D、可以并行處理的應(yīng)用程序答案:D18.下面與HDFS類似的框架是?()A、NTFSB、FAT32C、GFSD、EXT3答案:C19.HDFS無(wú)法高效存儲(chǔ)大量小文件,想讓它能處理好小文件,比較可行的改進(jìn)策略不包括()A、利用SequenceFile.MapFile.Har等方式歸檔小文件B、多Master設(shè)計(jì)C、Block大小適當(dāng)調(diào)小D、調(diào)大namenode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤里答案:D20.()的目的縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)歸約答案:A21.美國(guó)海軍軍官莫里通過對(duì)前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的
地點(diǎn)。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追究效率而不是絕對(duì)精確D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)答案:B22.HDFS的是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯(cuò)、高可靠性、高可擴(kuò)展性、高吞吐率等特征,適合的讀寫任務(wù)是()。A、一次寫入,少次讀寫B(tài)、多次寫入,少次讀寫C、一次寫入,多次讀寫D、多次寫入,多次讀寫答案:C23.HDFS中當(dāng)前B.lock大小為128M,如果當(dāng)前要上傳到H.DFS中的文件大小為300M,那么在存儲(chǔ)時(shí)會(huì)分配()個(gè)B.lock進(jìn)行存儲(chǔ)A、1B、2C、3D、4答案:C24.完全分布式ApacheHadoop的核心配置文件不包括()文件。A、core-site.xmlB、hdfs-site.xmlC、mapred-site.xmlD、yarn.xml答案:D25.HDfS中的block默認(rèn)保存幾份?()A、3份B、2份C、1份D、不確定答案:A26.Hadoop中的HDFS架構(gòu)源于()A、Google分布式文件系統(tǒng)B、Yahoo分布式文件系統(tǒng)C、Facebook分布式文件系統(tǒng)答案:A27.在大數(shù)據(jù)時(shí)代,下列說法正確的是()。A、收集數(shù)據(jù)很簡(jiǎn)單B、數(shù)據(jù)是最核心的部分C、對(duì)數(shù)據(jù)的分析技術(shù)和技能是最重要的D、數(shù)據(jù)非常重要,一定要很好的保護(hù)起來,防止泄露答案:B28.以MapReduce統(tǒng)計(jì)學(xué)員的平均成績(jī),如果輸出結(jié)果的格式為“學(xué)生姓名平均成績(jī)”,例如“Alice89.5”,那么如何選用輸出鍵值對(duì)格式()A、job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);B、job.setOutputKeyClass(IntWritable.class);job.setOutputValueClass(Text.class);C、job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class);D、job.setOutputKeyClass(Text.class);job.setOutputValueClass(DoubleWritable.class);答案:D29.關(guān)閉H.adoop集群的一般順序是()。①Stop-dfs.sh②Stop-yarn.sh③Mr-jobhistory-daemon.shstopH.istoryserverA、①②③B、②①③C、③②①D、①③②答案:B30.采樣分析的精確性隨著采樣隨機(jī)性的增加而(),但與樣本數(shù)量的增加關(guān)系不大。A、降低B、不變C、提高D、無(wú)關(guān)答案:C31.促進(jìn)隱私保護(hù)的一種創(chuàng)新途徑是():故意將數(shù)據(jù)模糊處理,促使對(duì)大數(shù)據(jù)庫(kù)的查詢不能顯示精確的結(jié)果。A、匿名化B、信息模糊化C、個(gè)人隱私保護(hù)D、差別隱私答案:D32.以下哪種技術(shù)不是大數(shù)據(jù)常用的框架或技術(shù)()A、SparkB、LinuxC、HadoopD、Hbase答案:B33.下面哪個(gè)端口不是spark自帶服務(wù)的端口()A、8080B、4040C、8090D、18080答案:C34.Namenode發(fā)送給Datanode什么命令可以讓Datanode對(duì)壞塊進(jìn)行刪除()A、DNATRANSFER_B、DNAFINALIZE_C、DNAINVALIDATE_D、DNARECOVERBLOCK_答案:C35.哪個(gè)不是本地模式運(yùn)行的幾個(gè)條件()A、spark.localExecution.enabled=trueB、顯式指定本地運(yùn)行C、F.inalStage無(wú)父StageD、partition默認(rèn)值答案:D36.在大數(shù)據(jù)關(guān)鍵技術(shù)中,Hadoop的分布式文件系統(tǒng)HDFS屬于大數(shù)據(jù)()。A、存儲(chǔ)技術(shù)B、分析技術(shù)C、并行分析技術(shù)D、挖掘技術(shù)答案:A37.一個(gè)作業(yè)的map個(gè)數(shù)是怎么確定的()A、屬性mapred.map.tasks設(shè)定B、JobTracker計(jì)算得出C、InputSplit分片的個(gè)數(shù)D、TaskTracker通過配置map的個(gè)數(shù)答案:C38.大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用()的方法A、所有數(shù)據(jù)B、絕大部分?jǐn)?shù)據(jù)C、適量數(shù)據(jù)D、少量數(shù)據(jù)答案:A39.關(guān)于SecondaryNameNode哪項(xiàng)是正確的?()A、它是NameNode的熱備B、它對(duì)內(nèi)存沒有要求C、它的目的是幫助NameNode合并編輯日志,減少NameNode啟動(dòng)時(shí)間D、SecondaryNameNode應(yīng)與NameNode部署到一個(gè)節(jié)點(diǎn)。答案:C40.默認(rèn)的mapreduce輸入格式是()A、TextInputFormatB、KeyValueTextInputFormatC、NLineInputFormatD、SequenceFileInputFormat答案:A41.在M/R系統(tǒng)中,考慮以下情況:HDFS采用默認(rèn)數(shù)據(jù)塊大小(64M);InputFormat采用的是FileInputFormat;現(xiàn)在有三個(gè)文件大小分別是64K,65M和127M,那么會(huì)有幾個(gè)map任務(wù)產(chǎn)生?()A、3個(gè)B、4個(gè)C、5個(gè)D、6個(gè)答案:C42.關(guān)系型數(shù)據(jù)庫(kù)與HDFS之間相互數(shù)據(jù)遷移的工具是()A、distcpB、fsckC、fastcopyD、sqoop答案:D43.HDFS1.0默認(rèn)BlockSize大小是多少。()A、32MBB、64MBC、128MBD、256MB答案:B44.關(guān)于累加器,下面哪個(gè)是錯(cuò)誤的()A、支持加法B、支持?jǐn)?shù)值類型C、可并行D、不支持自定義類型答案:D45.HBase依賴()提供強(qiáng)大的計(jì)算能力。A、MapReduceB、ListC、GRaphD、ArrayList答案:A46.智能健康手環(huán)的應(yīng)用開發(fā),體現(xiàn)了()的數(shù)據(jù)采集技術(shù)的應(yīng)用。A、統(tǒng)計(jì)報(bào)表B、網(wǎng)絡(luò)爬蟲C、A.PI接口D、傳感器答案:D47.支撐大數(shù)據(jù)業(yè)務(wù)的基礎(chǔ)是()A、數(shù)據(jù)科學(xué)B、數(shù)據(jù)應(yīng)用C、數(shù)據(jù)硬件D、數(shù)據(jù)人才答案:B48.yarn-site.xml文件的作用是什么()A、配置MapReduce框架B、配置H.adoop的H.DFS系統(tǒng)的命名C、配置YARN框架D、保存子節(jié)點(diǎn)的信息答案:C49.HBase官方版本不可以安裝在什么操作系統(tǒng)上?()A、CentOSB、UbuntuC、RedHatD、Windows答案:D50.HBase的Rowkey設(shè)計(jì)的原則,下列哪些選項(xiàng)的描述是不正確的?()A、盡量保證越短越好B、可以使用漢字C、可以使用字符串D、本身是無(wú)序的答案:D51.下列關(guān)于計(jì)算機(jī)存儲(chǔ)容量單位的說法中,錯(cuò)誤的是()。A、1KB<1MB<1GBB、基本單位是字節(jié)(Byte)C、一個(gè)漢字需要一個(gè)字節(jié)的存儲(chǔ)空間D、一個(gè)字節(jié)能夠容納一個(gè)英文字符答案:C52.下面()程序負(fù)責(zé)H.DFS數(shù)據(jù)存儲(chǔ)。A、NameNodeB、JobtrackerC、D.atanodeD、SecondaryNameNode答案:C53.Hive是建立在()之上的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)?A、HDFSB、MapReduceC、HadoopD、Hbase答案:C54.信息技術(shù)發(fā)展史上的第二次信息化浪潮發(fā)生在()A、1950年前后B、1980年前后C、1995年前后D、2010年前后答案:C55.在Job類中對(duì)輸出鍵值對(duì)格式進(jìn)行設(shè)置時(shí),如果Mapper的輸出格式與Reducer的輸出格式一樣,那么可以省略下列哪一項(xiàng)的設(shè)置()。A、job.setOutputKeyClass()與job.setOutputValueClass()B、job.setMapOutputKeyClass()與job.setMapOutputValueClass()C、job.setReduceOutputKeyClass()與job.setReduceOutputValueClass()D、以上都不能省略答案:B56.下面程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)的是()A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNode答案:C57.執(zhí)行一個(gè)mapreduce程序,如果程序的輸出路徑已經(jīng)存在,那么程序會(huì)()A、覆蓋這個(gè)輸出路徑B、拋出警告,但是能夠繼續(xù)執(zhí)行C、拋出一個(gè)異常,然后退出D、創(chuàng)建一個(gè)新的輸出路徑答案:C58.在實(shí)驗(yàn)集群的master節(jié)點(diǎn)使用jps命令查看進(jìn)程時(shí),終端出現(xiàn)以下哪項(xiàng)能說明H.adoop主節(jié)點(diǎn)啟動(dòng)成功?()A、Namenode,Datanode,TaskTrackerB、Namenode,Datanode,secondaryNameNodeC、Namenode,Datanode,H.MasterD、Namenode,JobTracker,secondaryNameNode答案:D59.關(guān)于數(shù)據(jù)創(chuàng)新,下列說法正確的是()A、多個(gè)數(shù)據(jù)集的總和價(jià)值等于單個(gè)數(shù)據(jù)集價(jià)值相加;B、由于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去;C、相同數(shù)據(jù)多次用于相同或類似用途,其有效性會(huì)降低;D、數(shù)據(jù)只有開放價(jià)值才能得到真正釋放。答案:D60.spark中默認(rèn)的存儲(chǔ)級(jí)別()A、MEMORYONLY_B、MEMORYONLYSER__C、MEMORYANDDISK__D、MEMORYANDDISKSER___答案:A61.下列哪個(gè)不是Hadoop運(yùn)行的模式?()A、單機(jī)版B、偽分布式C、分散式D、分布式答案:C62.Hadoop項(xiàng)目不包括()A、HadoopDistributedFileSystem(HDFS)B、HadoopMapReduce編程模型C、HadoopStreamingD、Hadoopmon答案:C63.下面哪個(gè)程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。()A、NameNodeB、JobtrackerC、DataNodeD、secondaryNameNode答案:C64.以下哪項(xiàng)是DataNode節(jié)點(diǎn)的職責(zé)()A、管理文件系統(tǒng)命名空間B、存儲(chǔ)元數(shù)據(jù)C、規(guī)范客戶端對(duì)文件的訪問D、根據(jù)客戶端的請(qǐng)求執(zhí)行讀寫操作答案:D65.HBase的檢索支持的方式不包括()。A、通過單個(gè)Rowkey訪問,即按照某個(gè)Rowkey鍵值進(jìn)行g(shù)et操作,這樣獲取唯一一條記錄;B、通過Rowkey的range進(jìn)行scan,即通過設(shè)置startRowKey和endRowKey,在這個(gè)范圍內(nèi)進(jìn)行掃描。這樣可以按指定的條件獲取一批記錄;C、全表掃描,即直接掃描整張表中所有行記錄。D、用Select查詢表中記錄答案:D66.表示主機(jī)名與IP地址映射關(guān)系的文件是()A、/etc/host.confB、/etc/hostnameC、/etc/hostsD、/etc/resolv.conf答案:C67.當(dāng)前大數(shù)據(jù)技術(shù)的基礎(chǔ)是由()首先提出的。A、微軟B、百度C、谷歌D、阿里巴巴答案:C68.Spark引入了一個(gè)稱為()的概念,它是不可變的.容錯(cuò)的.分布式對(duì)象集合。A、RDDB、SparkStreamingC、SparkSQLD、Shark答案:A69.查看yarn運(yùn)行狀態(tài)的默認(rèn)端口號(hào)是()A、8088B、8080C、9000D、80答案:A70.HDFS1.0默認(rèn)B.lockSize的大小是()A、64MBB、128MC、32MD、1M答案:A71.Hadoop2.0的基本構(gòu)成不包括A、hdfsB、mapreduceC、yarnD、D答案:C72.LSM-Tree的含義是()。A、日志結(jié)構(gòu)合并樹B、二叉樹C、紅黑樹D、默克爾樹答案:A73.對(duì)大數(shù)據(jù)使用進(jìn)行正規(guī)評(píng)測(cè)及正確引導(dǎo),可以為數(shù)據(jù)使用者帶來什么切實(shí)的好處()A、他們無(wú)須再取得個(gè)人的明確同意,就可以對(duì)個(gè)人數(shù)據(jù)進(jìn)行二次利用。B、數(shù)據(jù)使用者不需要為敷衍了事的評(píng)測(cè)和不達(dá)標(biāo)準(zhǔn)的保護(hù)措施承擔(dān)法律責(zé)任。C、數(shù)據(jù)使用者的責(zé)任不需要強(qiáng)制力規(guī)范就能確保履行到位。D、所有項(xiàng)目,管理者必須設(shè)立規(guī)章,規(guī)定數(shù)據(jù)使用者應(yīng)如何評(píng)估風(fēng)險(xiǎn).如何規(guī)避或減輕潛在傷害。答案:A74.下列關(guān)于數(shù)據(jù)重組的說法中,錯(cuò)誤的是()。A、數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B、數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C、數(shù)據(jù)重組實(shí)現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D、數(shù)據(jù)重組有利于實(shí)現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新答案:A75.在Spark中,假設(shè)lines是一個(gè)DStream對(duì)象,filter語(yǔ)句可以過濾掉80%的數(shù)據(jù),針對(duì)以下兩個(gè)語(yǔ)句說法正確的是:()
X:lines.filter(...).groupByKey(...)
Y:lines.groupByKey(...).filter(...)A、X比Y的性能更高B、X比Y的性能更低C、X和Y和性能一樣D、無(wú)法確性X和Y的性能差異答案:A76.Reducer類中包括了哪些函數(shù)()A、startup,reduce,endB、setup,reduce,cleanupC、start.run,reduce,endD、startup,run,end答案:B77.下面哪個(gè)不是RDD的特點(diǎn)()A、可分區(qū)B、可序列化C、可修改D、可持久化答案:C78.克隆虛擬機(jī)之后需要修改哪些文件()
①/etc/udev/rules.d/70-persistent-net.rules
②/etc/sysconfig/network-scriptd/ifcfg-eth0
③/etc/sysconfig/networkA、①②B、①②③C、②③D、①③答案:B79.下列關(guān)于spark中的RDD描述不正確的有()A、RDD(ResilientDistributedDataset)叫做彈性分布式數(shù)據(jù)集,是spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的,彈性表示C、Destributed:分布式,不可以并行在集群計(jì)算D、Dataset:就是一個(gè)集合,用于存放數(shù)據(jù)的答案:C80.云計(jì)算的基礎(chǔ)層是()A、IaaS層B、PaaS層C、SaaS層D、BaaS層答案:A81.云計(jì)算就是把計(jì)算資源都放到()上。A、對(duì)等網(wǎng)B、因特網(wǎng)C、廣域網(wǎng)D、無(wú)線網(wǎng)答案:B82.HBase的Region組成中,必須要有()。A、StoreFileB、MemStoreC、HFileD、MetaStore答案:B83.Hadoop作者()A、MartinFowlerB、KentBeckC、DougcuttingD、Mark答案:C84.Stage的Task的數(shù)量由什么決定()A、PartitionB、JobC、StageD、TaskScheduler答案:A85.Spark支持的分布式部署方式中哪個(gè)是錯(cuò)誤的。()A、standaloneB、sparkonmesosC、sparkonYARND、Sparkonlocal答案:D86.下列關(guān)于舍恩伯格對(duì)大數(shù)據(jù)特點(diǎn)的說法中,錯(cuò)誤的是()。A、數(shù)據(jù)規(guī)模大B、數(shù)據(jù)類型多樣C、數(shù)據(jù)處理速度快D、數(shù)據(jù)價(jià)值密度高答案:D87.spark.deploy.recoveryMode不支持那種()A、ZooKeeperB、F.ileSystemC、NONED、H.adoop答案:D88.FusionInsightHD中,關(guān)于Hive的分區(qū)(partition)功能,如下描述錯(cuò)誤的是?()A、分區(qū)字段要在創(chuàng)建表時(shí)定義B、分區(qū)字段只能有一個(gè),不可以創(chuàng)建多級(jí)分區(qū)C、使用分區(qū),可以減少某些查詢的數(shù)據(jù)掃描范圍,進(jìn)而提高查詢效率D、分區(qū)字段可以作為where字句的條件答案:B89.云計(jì)算的中間層是()A、IaaS層B、PaaS層C、SaaS層D、BaaS層答案:B90.Hadoop1.0默認(rèn)的調(diào)度器策略是()A、先進(jìn)先出調(diào)度器B、計(jì)算能力調(diào)度器C、公平調(diào)度器D、優(yōu)先級(jí)調(diào)度器答案:A91.hadoop2.x采用什么技術(shù)構(gòu)建源代碼()A、antB、ivyC、mavenD、Makefile答案:C92.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?()A、分類B、聚類C、關(guān)聯(lián)分析D、隱馬爾可夫鏈答案:B93.大數(shù)據(jù)的最顯著特征是()A、數(shù)據(jù)規(guī)模大B、數(shù)據(jù)類型多樣C、數(shù)據(jù)處理速度快D、數(shù)據(jù)價(jià)值密度高答案:A94.TaskTracker與JobTracker之間的通信協(xié)議是()A、JobSubmissionProtocolB、ClientProtocolC、TaskUmbilicalProtocolD、InterTrackerProtocol答案:D95.hive的元數(shù)據(jù)存儲(chǔ)在D.erby和MySQL中有什么區(qū)別()A、沒區(qū)別B、多會(huì)話C、支持網(wǎng)絡(luò)環(huán)境D、數(shù)據(jù)庫(kù)的區(qū)別答案:B96.HBase表中每個(gè)cell的多版本是通過什么表示的()A、timestampB、rowkeyC、blockidD、cellid答案:A97.在大數(shù)據(jù)時(shí)代,我們需要設(shè)立一個(gè)不一樣的隱私保護(hù)模式,這個(gè)模式應(yīng)該更著重于()為其行為承擔(dān)責(zé)任。A、數(shù)據(jù)使用者B、數(shù)據(jù)提供者C、個(gè)人許可D、數(shù)據(jù)分析者答案:A98.SparkJob默認(rèn)的調(diào)度模式()A、F.IFOB、F.AIRC、無(wú)D、運(yùn)行時(shí)指定答案:A99.HBase是分布式列式存儲(chǔ)系統(tǒng),記錄按什么集中存放。()A、列族B、列C、行D、不確定答案:A100.HBase系統(tǒng)基本架構(gòu)中主服務(wù)器Master的作用是()A、包含訪問H.Base的接口,同時(shí)在緩存中維護(hù)著已經(jīng)訪問過的Region位置信息,用來加快后續(xù)數(shù)據(jù)訪問過程B、可以幫助選舉出一個(gè)Master作為集群的總管,并保證在任何時(shí)刻總有唯一一個(gè)Master在運(yùn)行C、主要負(fù)責(zé)表和Region的管理工作D、是H.Base中最核心的模塊,負(fù)責(zé)維護(hù)分配給自己的Region,并響應(yīng)用戶的讀寫請(qǐng)求答案:C101.大數(shù)據(jù)不是要教機(jī)器像人一樣思考。相反,它是()A、把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測(cè)事情發(fā)生的可能性。B、被視為人工智能的一部分。C、被視為一種機(jī)器學(xué)習(xí)。D.預(yù)測(cè)與懲罰。答案:A102.在MapReduce程序中,Mapper模塊中的自定義類MyMapper,繼承自哪個(gè)父類()A、MapperB、ReducerC、binerD、Partitioner答案:A103.關(guān)于數(shù)據(jù)估值,下列說法錯(cuò)誤的是()A、隨著數(shù)據(jù)價(jià)值被重視,公司所持有和使用的數(shù)據(jù)也漸漸納入了無(wú)形資產(chǎn)的范疇;B、無(wú)論是向公眾開放還是將其鎖在公司的保險(xiǎn)庫(kù)中,數(shù)據(jù)都是有價(jià)值的;C、數(shù)據(jù)的價(jià)值可以通過授權(quán)的第三方使用來實(shí)現(xiàn)D、目前可以通過數(shù)據(jù)估值模型來準(zhǔn)確的評(píng)估數(shù)據(jù)的價(jià)值評(píng)估答案:B104.YARN架構(gòu)中整個(gè)集群同一時(shí)間提供服務(wù)的ResourceManager有()個(gè),負(fù)責(zé)集群資源的統(tǒng)一管理和調(diào)度。A、0B、1C、2D、3答案:B105.根目錄下創(chuàng)建hdfs文件夾的shell命令是().A、hdfsdfs-mkdir/hdfsB、hadoopfs-mkdirhdfsC、hadoopdfsmkdir/hdfs
Dhdfsdfs-mkdirhdfs答案:A106.Client端上傳文件的時(shí)候下列哪項(xiàng)正確?()A、數(shù)據(jù)經(jīng)過NameNode傳遞給DataNodeB、Client端將文件切分為Block,依次上傳C、Client只上傳數(shù)據(jù)到一臺(tái)DataNode,然后由NameNode負(fù)責(zé)Block復(fù)制工作D、以上都不正確答案:B107.下列哪個(gè)命令可以下載H.DFS目錄/user/root/live.txt到本地/opt()A、hdfsD.fs-get/user/root/live.txt/optB、hdfsD.fs-download/user/root/live.txt/optC、hdfsD.fs-put/user/root/live.txt/optD、hdfsD.fs-move/user/root/live.txt/opt答案:A108.解壓.tar.gz結(jié)尾的HBase壓縮包使用的Linux命令是?()A、tar-zxvfB、tar-zxC、tar-sD、tar-nf答案:A109.大數(shù)據(jù)的核心就是()A、告知與許可B、預(yù)測(cè)C、匿名化D、規(guī)?;鸢福築110.設(shè)計(jì)分布式數(shù)據(jù)倉(cāng)庫(kù)hive的數(shù)據(jù)表時(shí),為取樣更高效,一般可以對(duì)表中的連續(xù)字段進(jìn)行()。A、分桶B、分區(qū)C、索引D、分表答案:A111.以下哪個(gè)數(shù)據(jù)結(jié)構(gòu)是java中對(duì)文件讀取速度最快的()A、RandomAccessFileB、FileChannelC、BufferedInputStreamD、FileInputStream答案:C112.Spark應(yīng)用的計(jì)算邏輯會(huì)被解析成DAG,這個(gè)解析操作由以下哪個(gè)功能模塊完成?()A、ClientB、ApplicationMasterC、ExecutorD、Driver答案:D113.下面哪個(gè)操作肯定是寬依賴()A、mapB、F.latMapC、reduceByKeyD、sample答案:C114.HBase依賴()提供強(qiáng)大的計(jì)算能力A、ZookeeperB、ChubbyC、RPCD、MapReduce答案:D115.Hadoop具有特性不包括()A、高可靠性B、高效性C、高可擴(kuò)展性D、低容錯(cuò)性,答案:D116.HBase來源于哪篇博文?()A、TheGoogleFileSystemB、MapReduceC、BigTableD、Chubby答案:C117.Hive加載數(shù)據(jù)文件到數(shù)據(jù)表中的關(guān)鍵語(yǔ)法是?()A、LOADDATA[LOCAL]INPATHfilepath[OVERWRITE]INTOTABLEtablenameB、INSERTDATA[LOCAL]INPATHfilepath[OVERWRITE]INTOTABLEtablenameC、LOADDATAINFILEd:\car.csvAPPENDINTOTABLEt_car_tempFIELDSTERMINATEDBY,答案:A118.有多種瀏覽H.DFS文件目錄的方式,以下哪種是不對(duì)的?()A、通過H.DFS命令B、通過Web瀏覽器C、通過E.clipse中的ProjectE.xplorerD、通過SSH客戶端工具答案:D119.HBase依靠()存儲(chǔ)底層數(shù)據(jù)A、HDFSB、HadoopC、MemoryD、MapReduce答案:A120.SparkRDD的依賴機(jī)制不包括()A、寬依賴B、深度依賴C、窄依賴答案:B121.數(shù)據(jù)清洗的方法不包括()A、缺失值處理B、噪聲數(shù)據(jù)清除C、一致性檢查D、重復(fù)數(shù)據(jù)記錄處理答案:D122.下面對(duì)HBase的描述哪些是不正確的?()A、不是開源的B、是面向列的C、是分布式的D、是一種NoSQL數(shù)據(jù)庫(kù)答案:A123.以下hadoop的幾個(gè)進(jìn)程名不包括()。A、NamenodeB、DatanodeC、ResourceManagerD、jps答案:D124.提交MapReduce任務(wù)時(shí),如果命令行中指定的輸出目錄已經(jīng)存在,執(zhí)行的結(jié)果是()A、覆蓋原目錄B、自動(dòng)創(chuàng)建新目錄C、報(bào)錯(cuò)并中斷任務(wù)D、以上都不是答案:C125.下面哪個(gè)進(jìn)程負(fù)責(zé)MapReduce任務(wù)調(diào)度。()A、NameNodeB、JobtrackerC、TaskTrackerD、secondaryNameNode答案:B126.面哪個(gè)不是RDD的特點(diǎn)()A、可分區(qū)B、可序列化C、可修改D、可持久化答案:C127.默認(rèn)的Namenodeweb管理端口是()A、50070B、8020C、50030D、22答案:A128.下列描述不正確的是()A、進(jìn)程(Process)是程序的一次執(zhí)行過程B、線程(Thread)是比進(jìn)程更小的執(zhí)行單位C、線程不可共享相同的內(nèi)存單元D、在同一個(gè)應(yīng)用程序中可以有多個(gè)線程同時(shí)執(zhí)行答案:C129.數(shù)據(jù)節(jié)點(diǎn)通過運(yùn)行什么后臺(tái)線程來檢測(cè)是否有數(shù)據(jù)損壞()A、DataXceiverB、ReplicationManagerC、BlockPoolManagerD、DataBlockScanner答案:D130.下列哪個(gè)程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)?()A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、Jobtracker答案:D131.()下列說法正確的是A、有價(jià)值的數(shù)據(jù)是附屬于企業(yè)經(jīng)營(yíng)核心業(yè)務(wù)的一部分?jǐn)?shù)據(jù);B、數(shù)據(jù)挖掘它的主要價(jià)值后就沒有必要再進(jìn)行分析了;C、所有數(shù)據(jù)都是有價(jià)值的;D、在大數(shù)據(jù)時(shí)代,收集.存儲(chǔ)和分析數(shù)據(jù)非常簡(jiǎn)單;答案:C132.只要得到了合理的利用,而不單純只是為了“數(shù)據(jù)”而“數(shù)據(jù)”,大數(shù)據(jù)就會(huì)變成()A、強(qiáng)大的威脅B、強(qiáng)大的武器C、預(yù)測(cè)工具D、分析工具答案:B133.下列哪個(gè)命令可以顯示出H.DFS文件系統(tǒng)中在線的數(shù)據(jù)節(jié)點(diǎn)()A、hdfsD.fsadmin-report-liveB、hdfsD.fsadmin-report-activeC、hdfsD.fsadmin-report-deadD、hdfsD.fsadmin-report-demissioning答案:A134.下列哪項(xiàng)通常是集群的最主要瓶頸:()A、CPUB、網(wǎng)絡(luò)C、磁盤IOD、內(nèi)存答案:C135.下列論據(jù)中,能夠支撐“大數(shù)據(jù)無(wú)所不能”的觀點(diǎn)的是()。A、互聯(lián)網(wǎng)金融打破了傳統(tǒng)的觀念和行為B、大數(shù)據(jù)存在泡沫C、大數(shù)據(jù)具有非常高的成本D、個(gè)人隱私泄露與信息安全擔(dān)憂答案:A136.下面哪個(gè)操作是窄依賴()A、joinB、F.ilterC、G.roupD、sort答案:B137.Hive是由哪家公司開源的大數(shù)據(jù)處理組件?()A、GoogleB、ApacheC、Facebook答案:B138.大數(shù)據(jù)的發(fā)展,使信息技術(shù)變革的重點(diǎn)從關(guān)注技術(shù)轉(zhuǎn)向關(guān)注()A、信息B、數(shù)字C、文字D、方位答案:A139.spark的四大組件下面哪個(gè)不是()A、SparkStreamingB、MlibC、GraphxD、SparkR答案:D140.下列關(guān)于HadoopAPI的說法錯(cuò)誤的是()A、Hadoop的文件API不是通用的,只用于HDFS文件系統(tǒng)B、Configuration類的默認(rèn)實(shí)例化方法是以HDFS系統(tǒng)的資源配置為基礎(chǔ)的C、FileStatus對(duì)象存儲(chǔ)文件和目錄的元數(shù)據(jù)D、FSDataInputStream是java.io.DataInputStream的子類答案:A141.下面與Zookeeper類似的框架是?()A、ProtobufB、JavaC、KafkaD、Chubby答案:D142.HIVE默認(rèn)采用()數(shù)據(jù)庫(kù)進(jìn)行元數(shù)據(jù)的存儲(chǔ)。A、MySQLB、HIVEC、DerbyD、HDFS答案:C143.當(dāng)前社會(huì)中,最為突出的大數(shù)據(jù)環(huán)境是()。A、物聯(lián)網(wǎng)B、綜合國(guó)力C、自然資源D、互聯(lián)網(wǎng)答案:D144.云數(shù)據(jù)庫(kù)的特性不包括()A、動(dòng)態(tài)可擴(kuò)展B、高可用性C、高性能D、較高的使用代價(jià)答案:D145.以下哪一項(xiàng)屬于非結(jié)構(gòu)化數(shù)據(jù)。()A、企業(yè)ERP數(shù)據(jù)B、財(cái)務(wù)系統(tǒng)數(shù)據(jù)C、視頻監(jiān)控?cái)?shù)據(jù)D、日志數(shù)據(jù)答案:C146.配置Hadoop時(shí),JAVA_HOME包含在哪一個(gè)配置文件中()A、hadoop-default.xmlB、hadoop-env.shC、hadoop-site.xmlD、configuration.xs答案:B147.大數(shù)據(jù)的起源是()A、金融B、電信C、互聯(lián)網(wǎng)D、公共管理答案:C148.智慧城市的構(gòu)建,不包含()A、數(shù)字城市B、物聯(lián)網(wǎng)C、聯(lián)網(wǎng)監(jiān)控D、云計(jì)算答案:C149.Hive的計(jì)算引擎是什么?()A、SparkB、MapReduceC、HDFS答案:B150.向H.adoop集群提交MapReduce任務(wù)時(shí),可以使用下列哪個(gè)命令()A、hadoopsubmitB、hadoopputC、hadoopjarD、mapreducejar答案:C151.在Bigtable中()主要用來存儲(chǔ)子表數(shù)據(jù)以及一些日志文件A、GFSB、ChubbyC、SSTableD、MapReduce答案:A152.隨著數(shù)據(jù)科學(xué)家的崛起,()的地位將發(fā)生動(dòng)搖。A、國(guó)家領(lǐng)導(dǎo)人B、大型企業(yè)C、行業(yè)專家和技術(shù)專家D、職業(yè)經(jīng)理人答案:C153.spark1.4版本的最大變化()A、sparksqlRelease版本B、引入SparkRC、D.ataFrameD、支持動(dòng)態(tài)資源分配答案:B154.配置H.adoop時(shí),JAVA_HOME包含在()配置文件中A、H.adoop-default.xmlB、H.adoop-env.shC、H.adoop-site.xmlD、C.onfiguration.xs答案:B155.啟動(dòng)H.adoop集群的一般順序是()。①Stop-dfs.sh②Stop-yarn.sh③Mr-jobhistory-daemon.shstopH.istoryserverA、①②③B、②①③C、③②①D、①③②答案:A156.SecondaryNamenode的作用是()A、監(jiān)控NamenodeB、管理DatanodeC、合并fsimage和editlogsD、支持NamenodeHA答案:C157.作為分布式消息隊(duì)列,既有非常優(yōu)秀的吞吐量,又有較高的可靠性和擴(kuò)展性,同時(shí)接受SparkStreaming的請(qǐng)求,將流量日志按序發(fā)送給SparkStreaming集群是()A、FlumeB、ZookeeperC、KafkaD、Sparkstreaming答案:C158.相比依賴于小數(shù)據(jù)和精確性的時(shí)代,大數(shù)據(jù)因?yàn)楦鼜?qiáng)調(diào)數(shù)據(jù)的(),幫助我們進(jìn)一步接近事實(shí)的真相。A、安全性B、完整性C、混雜性D、完整性和混雜性答案:D159.HIVE真實(shí)的數(shù)據(jù)是存儲(chǔ)在()中。A、MySQLB、HIVEC、DerbyD、HDFS答案:D160.H.adoop官方示例程序包H.addop-mapreduce-examples-2.6.4.jar中,封裝了一些常用的測(cè)試模塊??梢垣@得文件中單詞長(zhǎng)度的中位數(shù)的模塊是()A、wordcountB、wordmeanC、wordmedianD、wordstandarddeviation答案:C161.HBase分布式模式最少需要()個(gè)節(jié)點(diǎn)?A、1B、2C、3D、最少答案:C162.下列哪個(gè)命令可以顯示出H.DFS目錄/user/root中的內(nèi)容()A、hdfsD.fs-dir/user/root/B、hdfsD.fs-report/user/root/C、hdfsD.fs-ls/user/root/D、hdfsD.fs-display/user/root/答案:C163.使用()命令可查看hadoop進(jìn)程。A、HadoopB、HDFSC、JAVAD、JPS答案:D164.下列哪些選項(xiàng)是安裝HBase前所必須安裝的?()A、JDKB、ShellScriptC、JavaCodeD、Mysql答案:A165.下列哪個(gè)不是RDD的緩存方法()A、persist()B、C.ache()C、Memory()答案:C166.建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的()A、基礎(chǔ)B、前提C、核心D、條件答案:C167.下列關(guān)于聚類挖掘技術(shù)的說法中,錯(cuò)誤的是()A、不預(yù)先設(shè)定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別B、要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小C、要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小D、與分類挖掘技術(shù)相似的是,都是要對(duì)數(shù)據(jù)進(jìn)行分類處理答案:B168.下列關(guān)于H.adoopA.PI的說法錯(cuò)誤的是()A、H.adoop的文件A.PI不是通用的,只用于H.DFS文件系統(tǒng)B、C.onfiguration類的默認(rèn)實(shí)例化方法是以H.DFS系統(tǒng)的資源配置為基礎(chǔ)的C、F.ileStatus對(duì)象存儲(chǔ)文件和目錄的元數(shù)據(jù)D、F.SDataInputStream是java.io.DataInputStream的子類答案:A169.HBase依靠()存儲(chǔ)底層數(shù)據(jù)。A、HDFSB、CPUC、GPUD、內(nèi)存答案:A170.以下哪種說法是錯(cuò)誤的()A、將罪犯的定罪權(quán)放在數(shù)據(jù)手中,借以表達(dá)對(duì)數(shù)據(jù)和分析結(jié)果的崇尚,這實(shí)際上是一種濫用。B、隨著數(shù)據(jù)量和種類的增多,大數(shù)據(jù)促進(jìn)了數(shù)據(jù)內(nèi)容的交叉檢驗(yàn),匿名化的數(shù)據(jù)不會(huì)威脅到任何人的隱私。C、采集個(gè)人數(shù)據(jù)的工具就隱藏在我們?nèi)粘I钏貍涞墓ぞ弋?dāng)中,比如網(wǎng)頁(yè)和智能手機(jī)應(yīng)用程序。D、預(yù)測(cè)與懲罰,不是因?yàn)樗?,而是因?yàn)閷⒆觥4鸢福築171.云計(jì)算體系結(jié)構(gòu)的()負(fù)責(zé)資源管理.任務(wù)管理用戶管理和安全管理等工作A、物理資源層B、資源池層C、管理中間件層D、SOA構(gòu)建層答案:C172.與開源云計(jì)算系統(tǒng)HadoopHDFS相對(duì)應(yīng)的商用云計(jì)算軟件系統(tǒng)是()A、GoogleGFSB、GoogleMapReduceC、GoogleBigtableD、GoogleChubby答案:A173.Client端與Namenode之間的RPC通信協(xié)議是()A、ClientNamenodeProtocolB、NamenodeProtoclC、DatanodeProtocolD、ClientProtocol答案:D174.在詞頻統(tǒng)計(jì)(WordCount)的執(zhí)行過程中,()模塊負(fù)責(zé)進(jìn)行單詞的拆分和映射。A、MapperB、ReducerC、DriverD、Main答案:A175.hbase中的paction過程發(fā)生在什么時(shí)候()A、MemStore發(fā)生flush的時(shí)候B、HLog大小達(dá)到一定閾值的時(shí)候C、StoreFile文件個(gè)數(shù)達(dá)到一定閾值的時(shí)候D、HFile寫入HDFS的時(shí)候答案:C176.HBase中的批量加載底層使用()實(shí)現(xiàn)。A、MapReduceB、HiveC、CoprocessorD、BloomFilter答案:A177.默認(rèn)的存儲(chǔ)級(jí)別()A、MEMORYONLY_B、MEMORYONLYSER__C、MEMORYA.NDD.ISKD、MEMORYA.NDD.ISKSER___答案:A178.DataFrame和RDD最大的區(qū)別()A、科學(xué)統(tǒng)計(jì)支持B、多了schemaC、存儲(chǔ)方式不一樣D、外部數(shù)據(jù)源支持答案:B179.以下哪個(gè)組件可以指定對(duì)key進(jìn)行Reduce分發(fā)的策略?()A、RecordReaderB、binerC、PartitionerD、FileInputFormat答案:C180.最早是Cloudera提供的日志收集系統(tǒng),目前是Apache下的一個(gè)孵化項(xiàng)目,支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)的工具是()A、FlumeB、ZookeeperC、StormD、Sparkstreaming答案:A181.云計(jì)算里面面臨的一個(gè)很大的問題,就是()。A、服務(wù)器B、存儲(chǔ)C、計(jì)算D、節(jié)能答案:D182.Hadoop組件的核心功能不包括()A、分布式數(shù)據(jù)存儲(chǔ)B、分析C、分布式計(jì)算答案:B183.大數(shù)據(jù)的簡(jiǎn)單算法與小數(shù)據(jù)的復(fù)雜算法相比()A、更有效B、相當(dāng)C、不具備可比性D、無(wú)效答案:A184.現(xiàn)豐有一個(gè)Linux虛擬節(jié)點(diǎn),在節(jié)點(diǎn)中有解壓的H.adoop安裝包(未配置),若要搭建包含4個(gè)節(jié)點(diǎn)的H.adoop集群,以下選項(xiàng)中步驟正確的有()
①克隆虛擬機(jī)②配置SSH免密碼登錄③格式化④修改配置文件⑤配置時(shí)間同步服務(wù)A、④①②⑤③B、③②①⑤④C、⑤①③②④D、②⑤④①③答案:A185.有一組數(shù)據(jù)(W,2,C,2,8,S,W),如果用MapReduce程序?qū)ζ渲械拿總€(gè)元素進(jìn)行計(jì)數(shù),那么輸出的鍵值對(duì)結(jié)果中,鍵的排列順序應(yīng)該是()A、8,2,C.,S,WB、2,8,C.,S,WC、C,S,W,8,2D、2,8,W,C.,S答案:C186.下面哪個(gè)操作是窄依賴?()A、joinB、filterC、groupD、sort答案:B187.PageRank是一個(gè)函數(shù),它對(duì)Web中的每個(gè)網(wǎng)頁(yè)賦予一個(gè)實(shí)數(shù)值,它的意圖在于網(wǎng)頁(yè)的PageRank越高,那么它就()A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要答案:D188.當(dāng)提交某個(gè)MapReduce任務(wù)后,在任務(wù)列表中顯示該任務(wù)的狀態(tài)(state)值為”ACCEPTED”,這表示()A、正在接受中B、正在執(zhí)行中C、等待執(zhí)行中D、任務(wù)恢復(fù)中答案:C189.大數(shù)據(jù)不是要教機(jī)器像人一樣思考。相反,它是()A、把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測(cè)事情發(fā)生的可能性。B、被視為人工智能的一部分。C、被視為一種機(jī)器學(xué)習(xí)。D、預(yù)測(cè)與懲罰。答案:A190.hadoop處在云計(jì)算三層模型中哪一層()A、PaaSB、SaaSC、IasSD、介于IaaS和PaaS之間答案:A191.Task運(yùn)行在下來哪里個(gè)選項(xiàng)中E.xecutor上的工作單元()A、D.riverprogramB、sparkmasterC、workernodeD、C.lustermanager答案:C192.下面哪個(gè)不是spark比Mapreduce計(jì)算快的原因()A、基于內(nèi)存的計(jì)算B、基于DAG的調(diào)度框架C、基于Lineage的容錯(cuò)機(jī)制D、基于分布式計(jì)算的框架答案:D193.下列屬于H.adoop內(nèi)置數(shù)據(jù)類型的是()A、IntegerWritableB、StringWritableC、ListWritableD、MapWritable答案:D194.Client端上傳文件的時(shí)候下列哪項(xiàng)正確?()A、數(shù)據(jù)經(jīng)過NameNode傳遞給D.ataNodeB、C.lient端將文件切分為B.lock,依次上傳C、lient只上傳數(shù)據(jù)到一臺(tái)D.ataNode,然后由NameNode負(fù)責(zé)B.lock復(fù)制工作D、以上都不正確答案:B195.YARN的H.ttp端口默認(rèn)是()A、80B、8080C、8090D、8088答案:D196.HBase虛擬分布式模式需要()個(gè)節(jié)點(diǎn)?A、1B、2C、3D、最少3個(gè)答案:A197.大數(shù)據(jù)時(shí)代,我們是要讓數(shù)據(jù)自己“發(fā)聲”,沒必要知道為什么,只需要知道()A、原因B、是什么C、關(guān)聯(lián)物D、預(yù)測(cè)的關(guān)鍵答案:B198.Task運(yùn)行在下面哪個(gè)選項(xiàng)中Executor上的工作單元。()A、DriverB、masterC、workerD、clustermanager答案:C199.HDFS遞歸顯示根目錄下的文件列表的命令shell命令是()。A、hdfsdfs-ls-R/B、hadoopfs-ls/C、hdfsdfs-ls/D、hdfsdfsls-R/答案:A200.下列()程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)A、SecondNameNodeB、D.ataNodeC、TaskTrackerD、JobTracker答案:D201.大數(shù)據(jù)的基本特征不包括()A、數(shù)據(jù)量大B、數(shù)據(jù)類型繁多C、處理速度快D、價(jià)值密度高答案:D202.HBase依賴()提供消息通信機(jī)制。A、ZookeeperB、ChubbyC、RPCD、Socket答案:A203.spark的master和worker通過什么方式進(jìn)行通信的?()A、H.ttpB、nioC、nettyD、A.kka答案:D204.大數(shù)據(jù)公司的多樣性表明了()A、數(shù)據(jù)作用的體現(xiàn)B、數(shù)據(jù)價(jià)值的轉(zhuǎn)移C、數(shù)據(jù)技術(shù)的發(fā)展D、數(shù)據(jù)思維的創(chuàng)新答案:B205.HDFS的組成不包括()A、NameNodeB、DataNodeC、SecondaryNameNodeD、task答案:D206.以下對(duì)hbase的描述錯(cuò)誤的是()A、當(dāng)StoreFile的大小達(dá)到一定閾值的時(shí)候就會(huì)發(fā)生spilt操作B、HFile格式中的Magic內(nèi)容放的就是一些隨機(jī)數(shù)字C、ROOT表的存放位置可以通過詢問HMaster進(jìn)程得到D、META表可以有任意多的region答案:C207.HBase中通過()提供消息通信機(jī)制A、ProtobufB、JavaC、KafkaD、Zookeeper答案:D208.客戶端首次查詢H.Base數(shù)據(jù)庫(kù)時(shí),首先需要從哪個(gè)表開始查找。()A、META.B、–ROOT-C、用戶表D、信息表答案:B多選題1.下列屬于數(shù)據(jù)中間商的是()A、中國(guó)最大的銀行中國(guó)銀行,擁有大量客戶的數(shù)據(jù)。B、西雅圖的交通數(shù)據(jù)處理公司Inrix,匯集了來自美洲和歐洲近1億輛汽車的實(shí)時(shí)交通數(shù)據(jù)。C、中國(guó)最大的汽車網(wǎng)站,汽車之家,各家汽車的數(shù)據(jù)和大量用戶。D、Quantcast通過幫助網(wǎng)站記錄用戶的網(wǎng)頁(yè)瀏覽歷史來測(cè)評(píng)用戶的年齡、收入、喜好等個(gè)人信息,然后向用戶發(fā)送有針對(duì)性的定向廣告。答案:BCD2.下面關(guān)于大數(shù)據(jù)的解說正確的是()。A、大數(shù)據(jù)是人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以做到的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無(wú)法完成的。B、大數(shù)據(jù)是人們獲得新的認(rèn)知.創(chuàng)造新的價(jià)值的源泉。C、大數(shù)據(jù)還是改變市場(chǎng).組織機(jī)構(gòu),以及政府與公民關(guān)系的方法。D、無(wú)效的數(shù)據(jù)越來越多。答案:ABC3.下列關(guān)于大數(shù)據(jù)的說法中,錯(cuò)誤的是()。A、大數(shù)據(jù)具有體量大.結(jié)構(gòu)單一.時(shí)效性強(qiáng)的特征B、處理大數(shù)據(jù)需采用新型計(jì)算架構(gòu)和智能算法等新技術(shù)C、大數(shù)據(jù)的應(yīng)用注重相關(guān)分析而不是因果分析D、大數(shù)據(jù)的應(yīng)用注重因果分析而不是相關(guān)分析E、大數(shù)據(jù)的目的在于發(fā)現(xiàn)新的知識(shí)與洞察并進(jìn)行科學(xué)決策答案:AD4.關(guān)于大數(shù)據(jù)和互聯(lián)網(wǎng),以下哪些說法是正確的()A、互聯(lián)網(wǎng)的出現(xiàn)使得監(jiān)視變得更容易.成本更低廉也更有用處。B、大數(shù)據(jù)不管如何運(yùn)用都是我們合理決策過程中的有力武器。C、大數(shù)據(jù)的價(jià)值不再單純來源于它的基本用途,而更多源于它的二次利用。D、大數(shù)據(jù)時(shí)代,很多數(shù)據(jù)在收集的時(shí)候并無(wú)意用作其他用途,而最終卻產(chǎn)生了很多創(chuàng)新性的用途。答案:ABD5.大數(shù)據(jù)產(chǎn)業(yè)發(fā)展特點(diǎn)______A、規(guī)模較大B、規(guī)模較小C、增速較快D、增速緩慢E、多產(chǎn)業(yè)交叉融合答案:ACE6.下列哪些屬于數(shù)據(jù)廢氣()A、搜索關(guān)鍵詞時(shí),人們的錯(cuò)誤拼寫;B、人們?yōu)g覽網(wǎng)頁(yè)時(shí)停留的時(shí)間;C、人們閱讀電子書章節(jié)的時(shí)間長(zhǎng)短;D、商品每月被購(gòu)買的數(shù)量。答案:ABC7.數(shù)據(jù)研究經(jīng)歷了幾種范式,包括______A、實(shí)驗(yàn)B、理論C、計(jì)算D、數(shù)據(jù)答案:ABCD8.按照涉及自變量的多少,可以將回歸分析分為()。A、線性回歸分析B、非線性回歸分析C、一元回歸分析D、多元回歸分析E、綜合回歸分析答案:CD9.社會(huì)將兩個(gè)折中的想法不知不覺地滲入了我們的處事方法中,我們甚至不再把這當(dāng)成一種折中,而是把它當(dāng)成了事物的自然狀態(tài)。這兩個(gè)折中的方法是什么?()A、第一個(gè)折中是我們默認(rèn)自己不能使用更多的數(shù)據(jù),所以我們就不會(huì)去使用更多的數(shù)據(jù)。B、第二個(gè)折中出現(xiàn)在數(shù)據(jù)的質(zhì)量上。C、第一個(gè)折中是我們能夠容忍模糊和不確定出現(xiàn)在一些過去依賴于清晰和精確的領(lǐng)域。D、第二個(gè)折中是能夠得到一個(gè)事物更完整的概念,我們就能
接受模糊和不確定的存在。答案:AB10.關(guān)于大數(shù)據(jù)的說話正確的有()A、大數(shù)據(jù)時(shí)代要求我們重新審視精確性的優(yōu)劣。B、大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無(wú)法實(shí)現(xiàn)精確性。C、錯(cuò)誤并不是大數(shù)據(jù)固有的特性,而是一個(gè)亟需我們?nèi)ヌ幚淼默F(xiàn)實(shí)問題,并且有可能長(zhǎng)期存在。D、錯(cuò)誤性是大數(shù)據(jù)本身固有的。答案:ABC11.數(shù)據(jù)再利用的意義在于()。A、挖掘數(shù)據(jù)的潛在價(jià)值B、實(shí)現(xiàn)數(shù)據(jù)重組的創(chuàng)新價(jià)值C、利用數(shù)據(jù)可擴(kuò)展性拓寬業(yè)務(wù)領(lǐng)域D、優(yōu)化存儲(chǔ)設(shè)備,降低設(shè)備成本E、提高社會(huì)效益,優(yōu)化社會(huì)管理答案:ABC12.下列關(guān)于臟數(shù)據(jù)的說法中,正確的是()。A、格式不規(guī)范B、編碼不統(tǒng)一C、意義不明確D、與實(shí)際業(yè)務(wù)關(guān)系不大E、數(shù)據(jù)不完整答案:ABCDE13.進(jìn)行大數(shù)據(jù)分析的人可以輕松地看到大數(shù)據(jù)的價(jià)值潛力,這極大地刺激著他們進(jìn)一步()我們個(gè)人數(shù)據(jù)的野心。A、采集B、存儲(chǔ)C、分析D、循環(huán)利用答案:ABD14.大數(shù)據(jù)的科學(xué)價(jià)值和社會(huì)價(jià)值正是體現(xiàn)在()A、一方面,對(duì)大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的來源。B、另一方面,大數(shù)據(jù)已經(jīng)撼動(dòng)了世界的方方面面,從商業(yè)科技到醫(yī)療.政府.教育.經(jīng)濟(jì).人文以及社會(huì)的其他各個(gè)領(lǐng)域。C、大數(shù)據(jù)的價(jià)值不再單純來源于它的基本用途,而更多源于它的二次利用。D、大數(shù)據(jù)時(shí)代,很多數(shù)據(jù)在收集的時(shí)候并無(wú)意用作其他用途,而最終卻產(chǎn)生了很多創(chuàng)新性的用途。答案:AB15.下列關(guān)于數(shù)據(jù)生命周期管理的核心認(rèn)識(shí)中,正確的是______A、數(shù)據(jù)從產(chǎn)生到被刪除銷毀的過程中,具有多個(gè)不同的數(shù)據(jù)存在階段B、在不同的數(shù)據(jù)存在階段,數(shù)據(jù)的價(jià)值是不同的C、根據(jù)數(shù)據(jù)價(jià)值的不同應(yīng)該對(duì)數(shù)據(jù)采取不同的管理策略D、數(shù)據(jù)生命周期管理旨在產(chǎn)生效益的同時(shí),降低生產(chǎn)成本答案:ABC16.按照涉及自變量的多少,可以將回歸分析分為______A、線性回歸分析B、非線性回歸分析C、一元回歸分析D、多元回歸分析答案:CD17.傳統(tǒng)數(shù)據(jù)密集型行業(yè)積極探索和布局大數(shù)據(jù)應(yīng)用的表現(xiàn)是()。A、投資入股互聯(lián)網(wǎng)電商行業(yè)B、打通多源跨域數(shù)據(jù)C、提高分析挖掘能力D、自行開發(fā)數(shù)據(jù)產(chǎn)品E、實(shí)現(xiàn)科學(xué)決策與運(yùn)營(yíng)答案:BCE18.關(guān)于數(shù)據(jù)的潛在價(jià)值,說法正確的是()。A、數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。B、判斷數(shù)據(jù)的價(jià)值需要考慮到未來它可能被使用的各種方式,而非僅僅考慮其目前的用途。C、在基本用途完成后,數(shù)據(jù)的價(jià)值仍然存在,只是處于休眠狀態(tài)D、數(shù)據(jù)的價(jià)值是其所有可能用途的總和答案:ABCD19.數(shù)據(jù)化最早的根基是什么()A、計(jì)量B、數(shù)字化C、記錄D、阿拉伯?dāng)?shù)字答案:AC20.大數(shù)據(jù)時(shí)代對(duì)信息進(jìn)行有效.公正管理的三項(xiàng)策略是什么()A、在使用預(yù)測(cè)分析時(shí)考慮個(gè)人動(dòng)因B、隱私保護(hù)從個(gè)人許可到數(shù)據(jù)使用者承擔(dān)責(zé)任的轉(zhuǎn)變C、催生大數(shù)據(jù)審計(jì)員D、將反壟斷法付諸行動(dòng)答案:ABC21.下面例子屬于大數(shù)據(jù)技術(shù)公司的是()A、四大機(jī)票預(yù)訂系統(tǒng)之一的ITASoftwareB、與各行各業(yè)的公司合作應(yīng)用高級(jí)無(wú)線感應(yīng)技術(shù)來收集數(shù)據(jù),然后對(duì)這些數(shù)據(jù)進(jìn)行分析的埃森哲咨詢公司。C、微軟研究中心與華盛頓中心醫(yī)院合作分析了多年來的匿名醫(yī)療記錄D、在對(duì)沖基金工作的金融工程師杰夫?貝索斯創(chuàng)建了網(wǎng)上書店亞馬遜。答案:ABCD22.關(guān)于數(shù)據(jù)創(chuàng)新包含()A、數(shù)據(jù)的再利用B、重組數(shù)據(jù)C、可擴(kuò)展數(shù)據(jù)D、數(shù)據(jù)的折舊值E、數(shù)據(jù)廢氣F、開放數(shù)據(jù)答案:ABCDEF23.大數(shù)據(jù)與三個(gè)重大的思維轉(zhuǎn)變有關(guān),這三個(gè)轉(zhuǎn)變是什么?()。A、要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。B、我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。C、在數(shù)字化時(shí)代,數(shù)據(jù)處理變得更加容易.更加快速,人們能夠在瞬間處理成千上萬(wàn)的數(shù)據(jù)。D、我們的思想發(fā)生了轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。答案:ACD24.大數(shù)據(jù)人才整體上需要具備______等核心知識(shí)A、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)B、計(jì)算機(jī)相關(guān)知識(shí)C、馬克思主義哲學(xué)知識(shí)D、市場(chǎng)運(yùn)營(yíng)管理知識(shí)E、在特定業(yè)務(wù)領(lǐng)域的知識(shí)答案:ABE25.單純依據(jù)大數(shù)據(jù)預(yù)測(cè)作出決策需遵循哪些原則()A、公開原則B、公正原則C、可反駁原則D、確保個(gè)人動(dòng)因能防范數(shù)據(jù)獨(dú)裁的危害答案:ABCD判斷題1.HBase支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。()A、正確B、錯(cuò)誤答案:A2.數(shù)據(jù)化就是數(shù)字化,是相互等同的關(guān)系。()A、正確B、錯(cuò)誤答案:B3.聚類是指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程。()A、正確B、錯(cuò)誤答案:A4.“互聯(lián)網(wǎng)+”將依靠創(chuàng)新驅(qū)動(dòng),推動(dòng)經(jīng)濟(jì)結(jié)構(gòu)優(yōu)化,向產(chǎn)業(yè)服務(wù)化方向調(diào)整。()A、正確B、錯(cuò)誤答案:A5.Trident的核心數(shù)據(jù)模型是“流”(Stream),它與普通的拓?fù)湎嗤?)A、正確B、錯(cuò)誤答案:B6.簡(jiǎn)單隨機(jī)抽樣,是從總體N個(gè)對(duì)象中任意抽取n個(gè)對(duì)象作為樣本,最終以這些樣本作為調(diào)查對(duì)象。在抽取樣本時(shí),總體中每個(gè)對(duì)象被抽中為調(diào)查樣本的概率可能會(huì)有差異。A、正確B、錯(cuò)誤答案:B7.HBase對(duì)于空(NULL)的列,不需要占用存儲(chǔ)空間。()A、正確B、錯(cuò)誤答案:A8.采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。()A、正確B、錯(cuò)誤答案:A9.在一個(gè)MapReduce應(yīng)用程序中,map函數(shù)的輸出經(jīng)由MapReduce框架處理后,發(fā)送到reduce函數(shù)這個(gè)處理過程是基于鍵值對(duì)進(jìn)行排序和分組的()A、正確B、錯(cuò)誤答案:A10.HBase可以有列,可以沒有列族。()A、正確B、錯(cuò)誤答案:B11.鏈?zhǔn)組apReduce計(jì)算中,對(duì)任意一個(gè)MapReduce作業(yè),Map和Reduce階段可以有無(wú)限個(gè)Mapper,但Reducer只能有一個(gè)。()A、正確B、錯(cuò)誤答案:A12.MapReduce的inputsplit一定是一個(gè)block。()A、正確B、錯(cuò)誤答案:B13.在FusionInsightHD中,Spark默認(rèn)采用YARN作為集群資源管理系統(tǒng)()A、正確B、錯(cuò)誤答案:A14.一個(gè)數(shù)據(jù)流指的是在分布式環(huán)境中并行創(chuàng)建、處理的一組元組(tuple)的無(wú)界序列。()A、正確B、錯(cuò)誤答案:A15.大數(shù)據(jù)的核心思想就是用規(guī)模劇增來改變現(xiàn)狀。()A、正確B、錯(cuò)誤答案:A16.HDFS采用的是“一次寫入、多次讀取”的文件訪問模型所以推薦一個(gè)文件經(jīng)過創(chuàng)建、寫入和關(guān)閉之后,就不要再去修改。()A、正確B、錯(cuò)誤答案:A17.大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。()A、正確B、錯(cuò)誤答案:A18.Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),它為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)單的操作和編程接口。A、正確B、錯(cuò)誤答案:A19.即使數(shù)據(jù)用于基本用途的價(jià)值會(huì)減少,但潛在價(jià)值卻依然強(qiáng)大。()A、正確B、錯(cuò)誤答案:A20.HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合于大規(guī)模數(shù)據(jù)集上的應(yīng)用。A、正確B、錯(cuò)誤答案:A21.對(duì)于大數(shù)據(jù)而言,最基本、最重要的要求就是減少錯(cuò)誤、保證質(zhì)量。因此,大數(shù)據(jù)收集的信息量要盡量精確。A、正確B、錯(cuò)誤答案:B22.Spark是一個(gè)高效的分布式計(jì)算系統(tǒng),它有MapReduce所有優(yōu)點(diǎn),同時(shí)性能與Hadoop一樣高。A、正確B、錯(cuò)誤答案:B23.要想獲得大規(guī)模數(shù)據(jù)帶來的好處,混亂應(yīng)該是一種標(biāo)準(zhǔn)途徑,而不應(yīng)該是竭力避免的。()A、正確B、錯(cuò)誤答案:A24.云計(jì)算可以把普通的服務(wù)器或者PC連接起來以獲得超級(jí)計(jì)算機(jī)的計(jì)算和存儲(chǔ)等功能,但是成本更低。()A、正確B、錯(cuò)誤答案:A25.內(nèi)大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。()A、正確B、錯(cuò)誤答案:A26.信息生命周期管理是據(jù)生命周期管理的來源,最早由英國(guó)企業(yè)提出。A、正確B、錯(cuò)誤答案:B27.內(nèi)部算法師將扮演公正的審計(jì)員的角色,在客戶或政府所要求的任何時(shí)候,根據(jù)法律指令或規(guī)章對(duì)大數(shù)據(jù)的準(zhǔn)確程度或者有效性進(jìn)行鑒定。()A、正確B、錯(cuò)誤答案:B28.物聯(lián)網(wǎng)與互聯(lián)網(wǎng)不同,不需要考慮網(wǎng)絡(luò)數(shù)據(jù)安全。()A、正確B、錯(cuò)誤答案:B29.MapReduce適于PB級(jí)別以上的海量數(shù)據(jù)在線處理。()A、正確B、錯(cuò)誤答案:B30.利用數(shù)據(jù)融合、數(shù)學(xué)模型、仿真技術(shù)等,可以逼近事物的本質(zhì),可以揭示出原來沒有想到或難以展現(xiàn)的關(guān)聯(lián),大大提升政府決策的科學(xué)性。A、正確B、錯(cuò)誤答案:A31.MapReduce計(jì)算過程中,相同的key默認(rèn)會(huì)被發(fā)送到同一個(gè)reducetask處理。()A、正確B、錯(cuò)誤答案:A32.互聯(lián)網(wǎng)是技術(shù)、是工具,最終會(huì)成為全社會(huì)的標(biāo)配。()A、正確B、錯(cuò)誤答案:A33.大數(shù)據(jù)預(yù)測(cè)能夠分析和挖掘出人們不知道或沒有注意到的模式,確定判斷事件必然會(huì)發(fā)生。A、正確B、錯(cuò)誤答案:B34.Storm的拓?fù)涫菍?duì)實(shí)時(shí)計(jì)算應(yīng)用邏輯的封裝。()A、正確B、錯(cuò)誤答案:A35.因?yàn)镠DFS有多個(gè)副本,所以NameNode是不存在單點(diǎn)問題的。()A、正確B、錯(cuò)誤答案:B36.數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。()A、正確B、錯(cuò)誤答案:A37.Hadoop支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。()A、正確B、錯(cuò)誤答案:B38.數(shù)據(jù)取樣時(shí),除了要求抽樣時(shí)嚴(yán)把質(zhì)量關(guān)外,還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。()A、正確B、錯(cuò)誤答案:A39.execute方法負(fù)責(zé)接收一個(gè)元組作為輸入,并且使用OutputCollector對(duì)象發(fā)送新的元組。()A、正確B、錯(cuò)誤答案:A40.每個(gè)map槽就是一個(gè)線程。()A、正確B、錯(cuò)誤答案:B41.大數(shù)據(jù)思維,是指一種意識(shí),認(rèn)為公開的數(shù)據(jù)一旦處理得當(dāng)就能為千百萬(wàn)人急需解決的問題提供答案。()A、正確B、錯(cuò)誤答案:A42.NameNode負(fù)責(zé)管理元數(shù)據(jù)信息metadata,client端每次讀寫請(qǐng)求,它都會(huì)從磁盤中讀取或會(huì)寫入metadata信息并反饋給client端。()A、正確B、錯(cuò)誤答案:B43.對(duì)于大型、中等、小型規(guī)模的公司而言,大數(shù)據(jù)對(duì)中等規(guī)模的公司幫助最大。()A、正確B、錯(cuò)誤答案:B簡(jiǎn)答題1.單機(jī)(本地)模式中的注意點(diǎn)?答案:在單機(jī)模式(standalone)中不會(huì)存在守護(hù)進(jìn)程,所有東西都運(yùn)行在一個(gè)JVM上。這里同樣沒有DFS,使用的是本地文件系統(tǒng)。單機(jī)模式適用于開發(fā)過程中運(yùn)行MapReduce程序,這也是最少使用的一個(gè)模式。2.試述大數(shù)據(jù)對(duì)思維方式的重要影響答案:大數(shù)據(jù)時(shí)代對(duì)思維方式的重要影響是三種思維的轉(zhuǎn)變:全樣而非抽樣,效率而非精確,相關(guān)而非因果。3.大數(shù)據(jù)產(chǎn)業(yè)包含哪些關(guān)鍵技術(shù)。答案:IT基礎(chǔ)設(shè)施層.數(shù)據(jù)源層.數(shù)據(jù)管理層.數(shù)據(jù)分析層.數(shù)據(jù)平臺(tái)層.數(shù)據(jù)應(yīng)用層。4.試述Hadoop在各個(gè)領(lǐng)域的應(yīng)用情況。答案:2007年,雅虎在Sunnyvale總部建立了M45——一個(gè)包含了4000個(gè)處理器和1.5PB容量的Hadooop集群系統(tǒng);
Facebook主要將Hadoop平臺(tái)用于日志處理,推薦系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)等方面;
百度主要使用Hadoop于日志的存儲(chǔ)和統(tǒng)計(jì).網(wǎng)頁(yè)數(shù)據(jù)的分析和挖掘.商業(yè)分析.在線數(shù)據(jù)反饋.網(wǎng)頁(yè)聚類等。5.如何重啟Namenode?答案:點(diǎn)擊stop-all.sh,再點(diǎn)擊start-all.sh。6.Hadoop生態(tài)體系答案:7.試述hadoop和谷歌的mapreduce.gfs等技術(shù)之間的關(guān)系答案:Hadoop的核心是分布式文件系統(tǒng)HDFS和MapReduce,HDFS是谷歌文件系統(tǒng)GFS的開源實(shí)現(xiàn),
MapReduces是針對(duì)谷歌MapReduce的開源實(shí)現(xiàn)。8.偽分布模式中的注意點(diǎn)?答案:偽分布式(Pseudo)適用于開發(fā)和測(cè)試環(huán)境,在這個(gè)模式中,所有守護(hù)進(jìn)程都在同一臺(tái)機(jī)器上運(yùn)行。9.試述HDFS中的名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的具體功能。答案:名稱節(jié)點(diǎn)負(fù)責(zé)管理分布式文件系統(tǒng)系統(tǒng)的命名空間,記錄分布式文件系統(tǒng)中的每個(gè)文件中各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)的位置信息;
數(shù)據(jù)節(jié)點(diǎn)是分布式文件系統(tǒng)HDFS的工作節(jié)點(diǎn),負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和讀取,會(huì)根據(jù)客戶端或者是名稱節(jié)點(diǎn)的調(diào)度來進(jìn)行數(shù)據(jù)的存儲(chǔ)和檢索,并向名稱節(jié)點(diǎn)定期發(fā)送自己所存儲(chǔ)的塊的列10.Masters配置文件由什么組成?答案:Masters同樣是主機(jī)的列表組成,每臺(tái)一行,用于說明第二Namenode服務(wù)器。11.啟動(dòng)Hadoop系統(tǒng),當(dāng)使用bin/start-all.sh命令
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年江西客運(yùn)從業(yè)資格證題庫(kù)app
- 項(xiàng)目開發(fā)戰(zhàn)略合作協(xié)議書(3篇)
- 母親年終總結(jié)
- 建筑工地安全員勞務(wù)合同(3篇)
- 課件有用嗎教學(xué)課件
- 小班老鼠籠游戲教案
- 公司廠級(jí)員工安全培訓(xùn)試題參考
- 工廠車間安全培訓(xùn)試題【奪冠系列】
- 承包商入廠安全培訓(xùn)試題(標(biāo)準(zhǔn)卷)
- 公司廠級(jí)安全培訓(xùn)試題答案培優(yōu)B卷
- 紀(jì)念抗美援朝戰(zhàn)爭(zhēng)勝利70周年發(fā)言稿
- 礦領(lǐng)導(dǎo)現(xiàn)場(chǎng)帶班制度
- 動(dòng)物疫病防治員(高級(jí))理論考試復(fù)習(xí)題庫(kù)大全-下(判斷題)
- 五年級(jí)上冊(cè)英語(yǔ)教案(含作業(yè)設(shè)計(jì)和反思) Module 4 Unit 1 Mum bought a new T-shirt for me Period 2 外研版(三起)
- 玉米密植精準(zhǔn)調(diào)控高產(chǎn)技術(shù)-李少昆農(nóng)科院作物所
- 《高分子物理》課件-2高分子的凝聚態(tài)結(jié)構(gòu)
- 純音電測(cè)聽檢查操作規(guī)程
- 牙體牙髓學(xué)課件 髓腔應(yīng)用解剖與開髓
- Dreamweaver網(wǎng)頁(yè)設(shè)計(jì)教案
- 單梁起重機(jī)安全操作培訓(xùn)
- 《第10課跳躍:跳單雙圈》PPT課件(甘肅省市級(jí)優(yōu)課)-科學(xué)課件
評(píng)論
0/150
提交評(píng)論