




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
試卷科目:大數(shù)據(jù)開發(fā)基礎大數(shù)據(jù)開發(fā)基礎(習題卷28)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)開發(fā)基礎第1部分:單項選擇題,共144題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.HDFS的NameNode負責管理文件系統(tǒng)的命名空間,將所有的文件和文件夾的元數(shù)據(jù)保存在一個文件系統(tǒng)樹中,這些信息也會在硬盤上保存成以下文件:A)日志B)命名空間鏡像C)兩者都是答案:C解析:HDFS對文件系統(tǒng)目錄樹的持久化就是對editlog日志文件與fsimage鏡像文件的操作。[單選題]2.我們在做實驗時,會經常用到?日期?轉換器,下列不屬于?日期?轉換器的一項是()A)ChoiceB)DateFormatC)DatePartD)StringToDateTime答案:A解析:[單選題]3.關于大數(shù)據(jù)在社會綜合治理中的作用,以下理解不正確的是()。A)大數(shù)據(jù)的應用能夠杜絕抗生素的濫用B)大數(shù)據(jù)的應用能夠維護社會治安C)大數(shù)據(jù)的應用有利于走群眾路線D)大數(shù)據(jù)的應用能夠加強交通管理答案:A解析:[單選題]4.關于OLAP的特性,下面正確的是:①快速性;②可分析性;③多維性;④信息性;⑤共享性()A)①②③B)②③④C)①②③④D)①②③④⑤答案:D解析:OLAP具有快速性、可分析性、多維性、信息性、共享性等特征。[單選題]5.以下關于深度學習框架的描述,正確的是()A)Tensorfiow是一款使用c++語言開發(fā)的開源數(shù)學計算軟件B)Caffe對于卷積網絡的支持特別好,同時提供的C++接口,也提供了mat1ab接口和python接口C)PyTorch的前身便是Torch,其底層和Torch框架一樣,但是使用Python重新寫了很多內容D)以上答案都正確答案:D解析:[單選題]6.優(yōu)化管理體系,實現(xiàn)管理模式從(___)向(___)轉變,向各級組織和業(yè)務賦能。A)數(shù)據(jù)化,業(yè)務化B)平臺化,集約化C)條塊化,共享化D)縱向貫通,橫向貫通答案:C解析:[單選題]7.()肯定是寬依賴操作。A)mapB)?atMapC)reduceByKeyD)sample答案:C解析:Spark中常見的窄依賴操作包括map、?ler、union、sample等,寬依賴操作包括ReduceByKey、groupByKey、join等。[單選題]8.AUC是衡量()模型優(yōu)劣的一種評價指標。A)回歸B)分類C)二分類D)聚類答案:C解析:[單選題]9.ApacheKudu是通過什么方式來提高OLAP性能的?A)預計算B)列式存儲C)內存存儲D)硬件加速答案:B解析:[單選題]10.為提高計算性能,Spark中Transformation操作采用的是()計算模式。A)活性B)惰性C)實時D)非實時答案:B解析:[單選題]11.人工智能研究的一項基本內容是機器感知。以下列舉中的()不屬于機器感知的領域。A)使機器具有視覺、聽覺、觸覺、味覺、嗅覺等感知能力。B)讓機器具有理解文字的能力。C)使機器具有能夠獲取新知識、學習新技巧的能力。D)使機器具有聽懂人類語言的能力答案:C解析:[單選題]12.在python3中執(zhí)行以下代碼段a=21b=10print(ab)時,輸出為()。A)TrueB)FalseC)NoneD)Error答案:D解析:[單選題]13.當往往一本書中其實通常使用到的詞匯表是非常小的,這就會導致一本書的表示向量中存在大量的0.這樣的向量稱為()。A)零向量B)滿秩向量C)稀疏向量D)普通向量答案:C解析:[單選題]14.處理變量時,Python是否區(qū)分大小寫?A)區(qū)分B)不區(qū)分C)取決于操作系統(tǒng)D)以上都不對答案:A解析:[單選題]15.()的基本想法是適當考慮一部分屬性間的相互依賴信息,從而既不需要進行完全聯(lián)合概率計算,又不至于徹底忽略了比較強的屬性依賴關系。A)貝葉斯判定準則B)貝葉斯決策論C)樸素貝葉斯分類器D)半樸素貝葉斯分類器答案:D解析:[單選題]16.商品的()用于在搜索和瀏覽列表時更準確的找到該商品。--A)關鍵詞B)描述C)提示D)詳情答案:A解析:[單選題]17.有關數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是()。A)數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)B)數(shù)據(jù)倉庫使用的需求在開發(fā)初期就要明確C)數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D)在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式答案:A解析:數(shù)據(jù)倉庫開發(fā)要從需求出發(fā)。[單選題]18.分類模型評估指標不包括()A)F1-scoreB)平均絕對誤差C)準確率D)AUC答案:B解析:[單選題]19.以下圖像分割方法中,屬于基于圖像灰度分布的閾值方法的是A)區(qū)域合并、分裂法B)最大類間、內方差比法C)已知形狀的曲線檢測D)區(qū)域生長法答案:B解析:[單選題]20.MySQL是一種()數(shù)據(jù)庫管理系統(tǒng)。A)層次型B)網絡型C)關系型D)對象型答案:C解析:[單選題]21.若a=np.array([[7,2,3],[8,5,6]]),則print(np.sort(a,1))的結果為(__)。A)[[723][856]]B)[[237][568]]C)[235678]D)[[235][678]]答案:B解析:[單選題]22.下面描述錯誤的是:()A)?探針盒子?就是一款自動收集用戶隱私的產品B)許多顧客在使用WiFi之后會收到大量的廣告信息,甚至自己的手機號碼也會被當做信息進行多次買賣C)在免費上網的背后,其實也存在著不小的信息安全風險,或許一不小心,就落入了電腦黑客們設計的WiFi陷阱之中D)免費WIFI都是安全的,可以放心使用答案:D解析:[單選題]23.當云主機模板出現(xiàn)通用漏洞,將產生以下哪種風險:()A)主機不穩(wěn)定B)網絡性能下降C)該模板創(chuàng)建的云主機被批量入侵D)沒有影響答案:C解析:[單選題]24.下列選項中,運行后會輸出1、2、3的是()A)foriinrange(3):print(i)B)foriinrange(2):print(i+1)C)nums=[0,1,2]foriinnums:print(i+1)D)i=1whilei<3:print(i)i=i+1答案:C解析:[單選題]25.作為分布式消息隊列,既有非常優(yōu)秀的吞吐量,又有較高的可靠性和擴展性,同時接受SparkStreaming的請求,將流量日志按序發(fā)送給SparkStreaming集群是()A)FlumeB)ZookeeperC)KafkaD)Sparkstreaming答案:C解析:[單選題]26.在HDFS的數(shù)據(jù)讀取過程中,DistributedFileSystem獲取這些信息后,生成一個()對象實例返回給客戶端。A)DistributedFileSystemB)FSDataInputStreamC)FSDataOutputStreamD)InputSystem答案:B解析:[單選題]27.哪個軟件架構是Google提出的用于處理海量數(shù)據(jù)的并行編程模式和大規(guī)模數(shù)據(jù)集的A)GFSB)MapReduceC)ChubbyD)Bigtable答案:B解析:[單選題]28.np.exp(1)的結果是多少?A)1B)2C)0D)2.718281828459答案:D解析:[單選題]29.下列選項描述錯誤的是?()A)HadoopHA即集群中包含SecondaryNameNode作為備份節(jié)點存在。B)ResourceManager負責的是整個Yarn集群資源的監(jiān)控、分配和管理工作C)NodeManager負責定時的向ResourceManager匯報所在節(jié)點的資源使用情況以及接收并處理來自ApplicationMaster的啟動停止容器(Container)的各種請求。D)初次啟動HadoopHA集群時,需要將格式化文件系統(tǒng)后的目錄拷貝至另外一臺答案:A解析:[單選題]30.大數(shù)據(jù)4V特征不包括A)規(guī)模性(Volume)B)有效地(Valid)C)多樣性(Varity)D)高速性(Velocity)答案:B解析:[單選題]31.下列關于GaussDB200的數(shù)據(jù)類型轉換說法正確的是()A)如果需要保留空字符串時,需要新建兼容性為Postgres的數(shù)據(jù)庫。B)在查詢中,對常量不需要顯式指定數(shù)據(jù)類型。C)在ORACLE兼容模式下,在導入數(shù)據(jù)時,空字符串會自動過濾。D)不同數(shù)據(jù)類型比較或轉換時,使用強制類型轉換,以防隱式類型轉換結果與預期不符。答案:D解析:[單選題]32.HBase交互模式中,查看當前服務狀態(tài)的命令是()A)serviceB)servicesC)statusD)statu答案:C解析:[單選題]33.HBase依賴()提供強大的計算能力A)ZookeeperB)ChubbyC)RPCD)MapReduce答案:D解析:記住即可[單選題]34.()是MapReduce的?心臟?,是?奇跡?發(fā)生的地方A)CombineB)ShuffleC)PartitionD)Sort答案:B解析:[單選題]35.LSM結構的數(shù)據(jù)首先存儲在()。A)硬盤上B)內存中C)磁盤陣列中D)閃存中答案:B解析:LSM結構寫數(shù)據(jù)時,首先將數(shù)據(jù)緩存到內存中的一個有序樹結構中(稱為memtable)[單選題]36.將內存引用賦值給另一個變量的操作叫(__)。A)深拷貝B)指針C)參數(shù)實例化D)淺拷貝答案:D解析:[單選題]37.txt=open(filename)返回的是()。A)變量B)常數(shù)C)文件內容D)文件對象答案:D解析:[單選題]38.以下哪個組件樣式是在所有的可視化圖表中普遍存在的?A)圖例B)軸線C)標題D)網格線答案:C解析:[單選題]39.使用同態(tài)濾波方法進行圖像增強時,不包含以下哪個過程A)通過對圖像取對數(shù),將圖像模型中的入射分量與反射分量的乘積項分開B)將對數(shù)圖像通過傅里葉變換變到頻域,在頻域選擇合適的濾波函數(shù),進行減弱低頻和加強高頻的濾波C)計算圖像中各個灰度值的累計分布概率D)對濾波結果進行傅里葉逆變換和對數(shù)逆運算答案:C解析:[單選題]40.上傳當前目錄下的本地文件file.txt到分布式文件系統(tǒng)HDFS的?/path?目錄下的Shell命令是()。A)hdfsdfs-put/pathfile.txtB)hadoopdfs-put/pathfile.txtC)hdfsfs-putfile.txt/pathD)hdfsdfs-putfile.txt/path答案:D解析:[單選題]41.社交網絡產生了海量用戶以及實時和完整的數(shù)據(jù),同時社交網絡也記錄了用戶群體的(),通過深入挖掘這些數(shù)據(jù)來了解用戶,然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是微博營銷公司A)地址B)行為C)情緒D)來源答案:C解析:[單選題]42.以下屬于FROM子查詢的是()。--A)標量子查詢B)列子查詢C)行子查詢D)表子查詢答案:D解析:[單選題]43.計算機顯示器主要采用哪一種彩色模型()。A)RGBB)CMY和CMYKC)HISD)HSV答案:A解析:[單選題]44.為數(shù)據(jù)表創(chuàng)建索引的目的是()A)提高查詢的檢索性能B)歸類C)創(chuàng)建唯一索引D)創(chuàng)建主鍵答案:A解析:[單選題]45.在連接互聯(lián)網的計算機上()處理、存儲涉及國家秘密和企業(yè)秘密信息。A)可以B)只要網絡環(huán)境是安全的,就可以C)不確定D)嚴禁答案:D解析:[單選題]46.()是交叉驗證法的一種特例。A)自助法B)留一法C)交叉驗證法D)錯誤率分析答案:B解析:[單選題]47.下列關于構造函數(shù)說法錯誤的是(___)。A)python中如果子類有自己的構造函數(shù),不會自動調用父類的構造函數(shù)B)如果需要用到父類的構造函數(shù),則需要在子類的構造函數(shù)中顯式的調用C)如果子類沒有自己的構造函數(shù),則會直接從父類繼承構造函數(shù)D)無論子類有沒有構造函數(shù),子類都會自動調用父類的構造函數(shù)答案:D解析:[單選題]48.以下哪一項屬于非結構化數(shù)據(jù)。A)企業(yè)ERP數(shù)據(jù)B)財務系統(tǒng)數(shù)據(jù)C)視頻監(jiān)控數(shù)據(jù)D)日志數(shù)據(jù)答案:C解析:[單選題]49.()是表現(xiàn)數(shù)據(jù)分布對稱性的指標。A)斜率B)偏斜度C)偏度D)偏離度答案:B解析:偏斜度是對統(tǒng)計數(shù)據(jù)分布偏斜方向及程度的度量。在偏態(tài)分布中,當偏斜度為正值時,分布正偏,即眾數(shù)位于算術平均數(shù)的左側;當偏斜度為負值時,分布負偏,即眾數(shù)位于算術平均數(shù)的右側。[單選題]50.Python中用于釋放類占用資源的方法是()。A)__init__B)__del__C)_delD)delete答案:B解析:[單選題]51.寫入數(shù)據(jù)到HDFS的Sink組件是()。A)HiveB)HBaseC)HDFSD)Hadoop答案:C解析:[單選題]52.關于機器學習中的目標函數(shù),說法錯誤的是()A)、目標函數(shù)(TA、rgetFunC、tion)又稱為?評價函數(shù)(EvA、luA、tionFunC、tion)?B)、是機器學習算法中需要最大化或最小化一個函數(shù)C)、可以直接、精確地表示目標函數(shù)D)、目標函數(shù)包含誤差函數(shù)和正則化項。答案:C解析:[單選題]53.以下關于NoSQL數(shù)據(jù)庫描述錯誤的是:()A)NoSQL是一種不同于關系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)設計方式,是對非關系型數(shù)據(jù)庫的統(tǒng)稱B)NoSQL所采用的數(shù)據(jù)模型并非傳統(tǒng)關系數(shù)據(jù)庫的關系模型,而是類似鍵/值、列族、文檔等非關系模型C)NoSQL數(shù)據(jù)庫有固定的表結構,通常存在較多連接操作D)與關系數(shù)據(jù)庫相比,NoSQL具有靈活的水平可擴展性.可以支持海量數(shù)據(jù)存儲答案:C解析:[單選題]54.下列哪一項不屬于HDFS采用抽象的塊概念帶來的好處?A)簡化系統(tǒng)設計B)支持大規(guī)模文件存儲C)強大的跨平臺兼容性D)適合數(shù)據(jù)備份答案:C解析:[單選題]55.Hadoop1.0默認的調度器策略是哪個()A)先進先出調度器B)計算能力調度器C)公平調度器D)優(yōu)先級調度器答案:A解析:[單選題]56.貝葉斯網結構有效地表達了屬性的(__)。A)相互制約性B)條件獨立性C)取值D)含義答案:B解析:[單選題]57.下列Python語句執(zhí)行后的結果是:i=2s=0whileiA)8B)12C)18D)24答案:B解析:[單選題]58.若學習算法不依賴于環(huán)境建模,則稱為(__)A)免模型學習B)機器學習C)深度學習D)蒙特卡羅強化學習答案:A解析:[單選題]59.若arr=np.array([1,2,3]),則arr*arr的輸出為(__)。A)([1,4,9])B)([1,2,3])C)([2,4,6])D)([3,6,9])答案:A解析:[單選題]60.YARN的基于標準調度,是對下列選項中的()進行標簽化。A)AppMasterB)ResourceManagerC)NodeManagerD)Container答案:C解析:[單選題]61.我們可以利用--query參數(shù)將表的查詢結果導入HDFS中,使用該參數(shù)時需要注意必須要和()參數(shù)一起使用。A)--tableB)--target-dirC)--fields-terminated-byD)--where答案:B解析:[單選題]62.下列關于大數(shù)據(jù)的說法中正確的是()A)大數(shù)據(jù)具有體量大、結構單一、時效性強等特點B)處理大數(shù)據(jù)主要依靠人工進行計算C)大數(shù)據(jù)的應用注重相關分析而不是因果分析D)大數(shù)據(jù)的應用注重因果分析而不是相關分析答案:C解析:[單選題]63.通過HBase創(chuàng)建表的的時候指定命名空間的語法正確的是()A)namespace:tableB)namespacetableC)namespace-tableD)namespace>table答案:A解析:[單選題]64.只要具有適當?shù)恼咄苿樱髷?shù)據(jù)的使用將成為未來提高競爭力、生產力、創(chuàng)新能力以及()的關鍵要素。A)提高消費B)提高GDPC)提高生活水平D)創(chuàng)造消費者盈余答案:D解析:[單選題]65.假設一種基因同時導致兩件事情:一是使人喜歡抽煙,二是使這個人患肺癌。這句話種基因與抽煙.肺癌之間是()關系,而吸煙和肺癌則是()關系。A)因果;相關B)相關;因果C)并列;相關D)因果;并列答案:A解析:[單選題]66.pythonmy.pyv1v2命令運行腳本,通過fromsysimportargv如何獲得v2的參數(shù)值()。A)argv[0]B)argv[1]C)argv[2]D)argv[3]答案:C解析:[單選題]67.HBase只有一個針對行健的索引,如果要訪問HBase表中的行,下面哪種方式是不可行的?A)通過單個行健訪問B)通過時間戳訪問C)通過一個行健的區(qū)間來訪問D)全表掃描答案:B解析:[單選題]68.HBase獲得Connection連接正確的是()A)Connectionconn=ConnectionFactory.createConnection(conf);B)Connectionconn=ConnectionFactory.createConnection();C)Connectionconn=Connection.createConnection(conf);D)Connectionconn=Connection.createConnection();答案:A解析:[單選題]69.以下()屬于DMM(數(shù)據(jù)管理成熟度模型)中的關鍵過程域"數(shù)據(jù)戰(zhàn)略"。A)數(shù)據(jù)戰(zhàn)略制定B)業(yè)務術語表C)數(shù)據(jù)質量評估D)過程質量保障答案:A解析:數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關鍵過程域"數(shù)據(jù)戰(zhàn)略"。[單選題]70.計算單個特征跟類別變量之間的關系的方法不包括()A)Pearson相關系數(shù)B)方差C)Gini-index(基尼指數(shù))D)IG(信息增益)答案:B解析:[單選題]71.按照班級進行分組()A)ORDERBYCLASSESB)DORDERCLASSESC)GROUPBYCLASSESD)GROUPCLASSES答案:C解析:[單選題]72.Hadoop配置文件中,hadoop-site.xml顯示覆蓋hadoop-default.xml里的內容。在版本0.20中,hadoop-site.xml被分離成三個XML文件,不包括A)conf-site.xmlB)mapred-site.xmlC)core-site.xmlD)hdfs-site.xml答案:A解析:hadoop配置Conf沒見過,就不選[單選題]73.用于刪除約束的命令是A)ALTERTABLEMODIFYCONSTRAINTB)DROPCONSTRAINTC)ALTERTABLEDROPCONSTRAINTD)ALTERCONSTRAINTDROP答案:C解析:[單選題]74.大數(shù)據(jù)的4V特性不包括A)Volume(大量)B)Velocity(高速)C)Visual(可視)D)Variety(多樣)答案:C解析:[單選題]75.可分解為偏差、方差與噪聲之和的是()。A)訓練誤差(trainingerror)B)經驗誤差(empiricalerror)C)均方誤差(meansquarederror)D)泛化誤差(generalizationerror)答案:D解析:泛化誤差可分解為偏差、方差與噪聲之和。[單選題]76.下面屬于數(shù)據(jù)權限的特權是()。--A)DROPB)ALTERC)DELETED)以上答案全部正確答案:C解析:[單選題]77.a="Iwantto",如想得到I,則需要()A)a[8:]B)a[0:1]C)a[7:]D)a[9:]答案:B解析:[單選題]78.()是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。A)精度B)錯誤率C)正確率D)誤差答案:B解析:[單選題]79.預剪枝是指在決策樹生成過程中,對每個結點在劃分(__)進行估計。A)前B)中C)后D)不估計答案:A解析:[單選題]80.下面關于數(shù)據(jù)權的描述,錯誤的是:()A)數(shù)據(jù)權的概念發(fā)起于英國,主要將其視為信息社會的一項基木公民權利B)數(shù)據(jù)權包括兩個方面:數(shù)據(jù)主權和數(shù)據(jù)權利C)數(shù)據(jù)主權的主體是國家,是一個國家獨立自主對本國數(shù)據(jù)進行管理和利用的權力D)數(shù)據(jù)主權的主體是公民,是相對應于公民數(shù)據(jù)采集義務而形成的對數(shù)據(jù)利用的權利答案:D解析:[單選題]81.Hive查詢語言和SQL的一個不同之處在于()操作A)GroupB)JoinC)PartitionD)Union答案:C解析:[單選題]82.()提供針對集群中每個節(jié)點的服務,從監(jiān)督對一個容器的終身管理到監(jiān)視資源和跟蹤節(jié)點健康A)ResourceMangerB)NodeMangerC)ApplicationMasterD)Container答案:B解析:[單選題]83.altertabletableNamesettblproperties('EXTERNAL?='FALSE?);執(zhí)行該Hive命令能實現(xiàn)以下哪一個目標?A)修改外部表tableName為內部表B)刪除tableName表的元數(shù)據(jù)信息C)修改內部表tableName為外部表D)移動tableName數(shù)據(jù)到外部存儲系統(tǒng)答案:A解析:[單選題]84.與以下代碼段var=100ifvar==200:print("1-Gotatrueexpressionvalue")print(var)elifvar==150:print("2-Gotatrueexpressionvalue")print(var)elifvar==100:print("3-Gotatrueexpressionvalue")print(var)else:print("4-Gotafalseexpressionvalue")print(var)等效的列表描述()。A)1-Gotatrueexpressionvalue100B)2-Gotatrueexpressionvalue100C)3-Gotatrueexpressionvalue100D)4-Gotatrueexpressionvalue100答案:C解析:[單選題]85.()一般采用圖表或數(shù)學方法描述數(shù)據(jù)的統(tǒng)計特征,如分布狀態(tài)、數(shù)值特征等。A)推斷統(tǒng)計B)預測分析C)描述統(tǒng)計D)診斷分析答案:C解析:[單選題]86.作為技術人員,小王被Maxcompute強大的數(shù)據(jù)處理能力吸引,想去體驗一下。他快速注冊了一個阿里云帳號,進入官網后試圖創(chuàng)建一個名字為test_project的Maxcomputeproject,結果沒有成功。分析,小王出錯的最有可能的原因是:()。A)帳號未充值,余額不足導致出錯B)帳號未開通Maxcompute的使用權限C)未創(chuàng)建合適的accessID和accessKeyD)項目名字和現(xiàn)有的其他帳戶的名字重復答案:D解析:[單選題]87.通過HBase提創(chuàng)建表的關鍵字是()A)insertB)createC)addD)以上都不正確答案:B解析:[單選題]88.關于概率圖模型下列敘述,正確的是:A)貝葉斯網絡是有向圖模型,馬爾可夫網絡是無向圖模型B)貝葉斯網絡是無向圖模型,馬爾可夫網絡是有向圖模型C)貝葉斯網絡是有向圖模型,馬爾可夫網絡是有向圖模型D)貝葉斯網絡是無向圖模型,馬爾可夫網絡是無向圖模型答案:A解析:[單選題]89.LSM更能保證哪種操作的性能?A)讀B)寫C)隨機讀D)合并答案:B解析:LSM的思想,在于對數(shù)據(jù)的修改增量保持在內存中,達到指定的限制后將這些修改操作批量寫入到磁盤中,相比較于寫入操作的高性能,讀取需要合并內存中最近修改的操作和磁盤中歷史的數(shù)據(jù),即需要先看是否在內存中,若沒有命中,還要訪問磁盤文件。[單選題]90.機器學習訓練時,Mini-Batch的大小優(yōu)選為2的事,如256或512它背后的原因是()A)Mini-Batch為偶數(shù)的時候,梯度下降算法訓練的史決B)Mini-Batch設為2的罪,是為了符合CPU、GPU的內存要求,利于并行化處理C)不使用偶數(shù)時,損失函數(shù)是不穩(wěn)定的D)以上答案都不正確答案:B解析:[單選題]91.下列關于半監(jiān)督支持向量機說法錯誤的是(__)。A)半監(jiān)督支持向量機是針對二分類問題的學習算法B)半監(jiān)督支持向量機尋求一個在所有樣本上間隔最小化的劃分超平面C)半監(jiān)督支持向量機采用局部搜索來迭代地尋找其優(yōu)化問題的近似解D)半監(jiān)督支持向量機試圖考慮對未標記樣本進行各種可能的標記指派答案:B解析:[單選題]92.np.array()的作用是(__)。A)將輸入數(shù)據(jù)轉化為ndarrayB)將輸入數(shù)據(jù)轉化為arrayC)將輸入數(shù)據(jù)轉化為列表D)數(shù)組轉置答案:A解析:[單選題]93.網絡的價值在于網絡的互聯(lián),聯(lián)網的接點數(shù)與其價值呈現(xiàn)()的方式,聯(lián)網越多,系統(tǒng)的價值越大。A)對數(shù)B)指數(shù)C)正比D)反比答案:B解析:[單選題]94.下面關于網絡爬蟲的描述錯誤的是:()A)網絡爬蟲是一個自動提取網頁的程序B)為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成部分C)爬蟲從一個或若干個初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件D)網絡爬蟲的行為和人們訪問網站的行為是完全不同的答案:D解析:[單選題]95.以下哪些算法,可以用神經網絡去構造:1.KNN2.線性回歸3.對數(shù)幾率回歸A)1和2B)2和3C)1,2和3D)以上都不是答案:B解析:[單選題]96.sparksql的查詢優(yōu)化器是A)DataFrameB)CatalystC)RddD)DataSet答案:B解析:[單選題]97.HBase的一個典型應用是webtable,它是一個以網頁()為主鍵的表。A)標題B)URLC)內容D)類別答案:B解析:webtable中,以網頁URL為主鍵。[單選題]98.下列關于氣泡圖的說法中,錯誤的是()A)氣泡圖中氣泡的顏色是系統(tǒng)統(tǒng)一設置的,無法人為調整B)氣泡大小的不同意味著所代表的的數(shù)值的不同C)氣泡圖中的圖形形狀不一定是圓形D)可以為每個氣泡打上標簽使其展示的數(shù)值更加直觀化答案:A解析:[單選題]99.以下哪項方法不屬于漢語分詞方法?()A)雙向掃描法B)正向最大匹配法C)逐詞遍歷法D)詞向量匹配法答案:D解析:[單選題]100.()模式:hadoop安裝時的默認模式,不對配置文件進行修改。A)聯(lián)機B)單機C)虛擬分布D)完全分布答案:B解析:[單選題]101.ythonWeb開發(fā)方向的第三方庫是A)DjangoB)scipyC)pandasD)requests答案:A解析:[單選題]102.在選擇神經網絡的深度時,下面那些參數(shù)需要考慮?()(1)神經網絡的類型(如MLP,CNN)(2)輸入數(shù)據(jù)(3)計算能力(硬件和軟件能力決定)(4)學習速率(5)映射的輸出函數(shù)A)1,2,4,5B)LeakyRelu是Relu的一個變種,他在xC)都需要考慮D)1,3,4,5答案:C解析:[單選題]103.某企業(yè)準備上線一個項目,去搜集國內主要門戶、論壇中和本公司相關的消息,一旦有符合預定義類型的消息出現(xiàn),將第一時間反饋給公司的公共關系部,該場景屬于典型的()。A)流計算B)在線計算C)OLTPD)離線計算答案:A解析:[單選題]104.按性別對職工數(shù)據(jù)集進行匯總統(tǒng)計時,需要對性別列進行哪個操作才能完成統(tǒng)計匯總?()A)分組B)聚合C)排列D)統(tǒng)計答案:A解析:[單選題]105.執(zhí)行"abcdef"[2:]語句時輸出是()。A)abcB)abcdC)cdefD)cde答案:C解析:[單選題]106.如果問題存在最優(yōu)解,則下面幾種搜索算法中,()必然可以得到該最優(yōu)解。A)廣度優(yōu)先搜索B)深度優(yōu)先搜索C)有界深度優(yōu)先搜索D)啟發(fā)式搜索答案:A解析:[單選題]107.所有預測模型在廣義上都可稱為一個或一組()A)公式B)邏輯C)命題D)規(guī)則答案:D解析:[單選題]108.一個MapReduce程序中的MapTask的個數(shù)由()決定。A)輸入的總文件數(shù)B)客戶端程序設置的mapTask的個數(shù)C)Fi1eInputFormat.getSplits(JobContexjob)計算出的邏輯切片的數(shù)量D)輸入的總文件大小/數(shù)據(jù)塊大小答案:C解析:[單選題]109.ETL工具工作過程不包含以下哪項?A)清洗B)傳遞C)加載D)轉換答案:B解析:[單選題]110.下面關于MapReduce的描述中正確的是?A)MapReduce程序必須包含Mapper和ReducerB)MapReduce程序的MapTask可以任意指定C)MapReduce程序的ReduceTask可以任意指定D)MapReduce程序的默認數(shù)據(jù)讀取組件是TextInputFormat答案:D解析:[單選題]111.下列選項中不是hadoop特點的是()。A)可靠性B)擴容能力C)高效率D)成本高答案:D解析:[單選題]112.HDFS無法高效存儲大量小文件,想讓它能處理好小文件,比較可行的改進策略不包括A)利用SequenceFile、MapFile、Har等方式歸檔小文件B)多Master設計C)Block大小適當調小D)調大namenode內存或將文件系統(tǒng)元數(shù)據(jù)存到硬盤里答案:D解析:HDFS特性secondaryNamenode會將內存中合并后的的元數(shù)據(jù)存到硬盤[單選題]113.某二叉樹共有12個結點,其中葉子結點只有1個。則該二叉樹的深度為(根結點在第1層)___________。A)8B)12C)6D)3答案:B解析:[單選題]114.關于云數(shù)據(jù)庫描述不對的是()A)云數(shù)據(jù)可支持關系型數(shù)據(jù)庫B)數(shù)據(jù)庫支持按量計費C)支持創(chuàng)建只讀實例D)支持備份與恢復,可保留歷史2周數(shù)據(jù)答案:D解析:[單選題]115.有關MapReduce的輸入輸出,說法錯誤的是A)鏈接多個MapReduce作業(yè)時,序列文件是首選格式B)FileInputFormat中實現(xiàn)的getSplits()可以把輸入數(shù)據(jù)劃分為分片,分片數(shù)目和大小任意定義C)想完全禁止輸出,可以使用NullOutputFormatD)每個reduce需將它的輸出寫入自己的文件中,輸出無需分片答案:B解析:分片數(shù)目在numSplits中限定,分片大小必須大于mapred.min.size個字節(jié),但小于文件系統(tǒng)的塊[單選題]116.若a=np.abs(-5),則print(a)輸出為(__)。A)-6B)-4C)-5D)5答案:D解析:[單選題]117.以下關于程序控制結構描述錯誤的是:A)單分支結構是用if保留字判斷滿足一個條件,就執(zhí)行相應的處理代碼B)二分支結構是用if-else根據(jù)條件的真假,執(zhí)行兩種處理代碼C)多分支結構是用if-elif-else處理多種可能的情況D)在Python的程序流程圖中可以用處理框表示計算的輸出結果答案:D解析:[單選題]118.下列關于核函數(shù)特性的描述,錯誤的是()A)只要一個對稱函數(shù)所對應的核矩陣半正定,就能稱為核函數(shù)十B)核函數(shù)選擇作為支持向量機的最大變數(shù)中C)核函數(shù)將影響支持向量機的性能D)按函數(shù)是一種降雄模型答案:D解析:[單選題]119.RDD中的數(shù)據(jù)被()在集群中,使得任務可以并行執(zhí)行。A)順序存儲B)連續(xù)存儲C)分塊存儲D)分區(qū)存儲答案:D解析:RDD為分區(qū)存儲。[單選題]120.把詞典中的詞按照由長到短遞減的順序逐字搜索整個待處理的材料,一直到把全部的詞切分出來為止。不論分詞詞典多大,被處理的材料多么小,都得把這個分詞詞典匹配一遍。這種方法叫(__)。A)正向最大匹配法B)逆向最大匹配法C)逐詞遍歷法D)隱馬爾科夫模型答案:C解析:[單選題]121.關于eval函數(shù),以下選項中描述錯誤的是A)eval函數(shù)的作用是將輸入的字符串轉為Python語句,并執(zhí)行該語句B)如果用戶希望輸入一個數(shù)字,并用程序對這個數(shù)字進行計算,可以采用eval(input())組合C)執(zhí)行eval("Hello")和執(zhí)行eval("'Hello'")得到相同的結果D)eval函數(shù)的定義為:eval(source,globals=None,locals=None,/)答案:C解析:[單選題]122.KNN算法中K指的是:A)K個樣本B)相鄰的K個鄰居C)K次迭代D)K次方答案:B解析:[單選題]123.在使用--query參數(shù)指定查詢語句時,需要注意的是()A)在查詢語句中一定要有where條件且在where條件中必須包含$CONDITIONSB)在查詢語句中一定要有select語句且在select語句中必須包含$CONDITIONSC)在查詢語句中一定要有where條件且在where條件中必須包含CONDITIONSD)在查詢語句中一定要有select語句且在select語句中必須包含CONDITIONS答案:A解析:[單選題]124.對GaussDB200描述不正確的是?()A)并行架構B)易運維,安全可靠C)行列不能混存D)節(jié)點多,易擴展答案:C解析:[單選題]125.某電商網站想要實現(xiàn)熱銷商品的實時TopN排名,可以使用哪種技術實現(xiàn)?A)Elasticsearch的快速檢索B)HBase的rowkey索引C)Hive的關聯(lián)查詢分析D)Redis的排序計算答案:D解析:[單選題]126.目前精準營銷產品提供幾種服務方式:()A)1種B)2種C)3種D)4種答案:B解析:[單選題]127.查看一張表中數(shù)據(jù)的最后修改時間,正確的方法是:()。A)找管理員從后臺查B)DESC命令C)SHOWTABLES命令D)SELECTLAST_MODIFY_TIMEFROMTABLE答案:B解析:[單選題]128.()是Spark中用于結構化數(shù)據(jù)處理的軟件包。A)SPARKCOREB)SparkSQLC)SparkStreamingD)Mllib答案:B解析:[單選題]129.若要對圖片進行檢索,-般選擇什么工具較好?A)MysQLB)HDFSC)ElasticSearchD)Hive答案:C解析:[單選題]130.HDFS中當前block大小為128M,如果當前要上傳到HDFS中的文件大小為300M,那么在存儲時會分配()個block進行存儲。A)1B)2C)3D)4答案:C解析:[單選題]131.直方圖均衡化適用于增強直方圖呈()分布的圖像。A)尖峰B)波形C)隨機D)高斯答案:A解析:[單選題]132.物聯(lián)網(IoT,InternetofThings)即?物物相連的互聯(lián)網?,是()向物理世界的滲透、拓展和延伸。A)物理理論B)信息世界C)互聯(lián)網D)能源互聯(lián)網答案:C解析:[單選題]133.企業(yè)數(shù)據(jù)分析平臺在根據(jù)不同的業(yè)務場景需求,搭建不同的大數(shù)據(jù)分析平臺,如適應離線批處理的Hadoop平臺;適應實時處理的流計算平臺等,這種架構屬于哪種類型的架構?A)分離架構B)單一架構C)融合架構D)多維架構答案:A解析:[單選題]134.Python解釋器的提示符為()。A)>B)>>C)>>>D)#答案:C解析:Python解釋器的提示符為>>>。[單選題]135.Matplotlib設置好圖表元素后,以下哪個代碼可以使圖表自動調整格式()A)fig.fit()B)fig.tight()C)fig.fit_layout()D)fig.tight_layout()答案:D解析:[單選題]136.下列關于類屬性和實例屬性的說法中,描述正確的是()。A)類屬性既可以顯式定義,又能在方法中定義B)公有類屬性可以通過類和類的實例訪問C)通過類可以獲取實例屬性的值D)類的實例只能獲取實例屬性的值答案:B解析:[單選題]137.下面描述錯誤的是:()A)數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析B)廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。C)數(shù)據(jù)挖掘就是指狹義的數(shù)據(jù)分析D)數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中挖掘出未知的、且有價值的信息和知識的過程答案:C解析:[單選題]138.以下()文件中主要用來配置ResourceManager,NodeManager的通信端口,web監(jiān)控端口等。A)core-site.xmlB)mapred-site.xmlC)hdfs-site.xmlD)yarn-site.xml答案:D解析:[單選題]139.須以正確的順序傳入函數(shù),調用時的數(shù)量必須和聲明時的一樣的參數(shù)是()。A)位置參數(shù)B)默認值參數(shù)C)可變參數(shù)D)關鍵字參數(shù)答案:A解析:位置參數(shù)須以正確的順序傳入函數(shù),調用時的數(shù)量必須和聲明時的一樣。[單選題]140.電商大數(shù)據(jù)存在的安全風險不包括()。A)數(shù)據(jù)版權缺乏保護B)數(shù)據(jù)產權歸屬不清C)大數(shù)據(jù)?殺熟?現(xiàn)象D)業(yè)務數(shù)據(jù)跨境傳輸答案:C解析:[單選題]141.主成分分析(PCA)是一種重要的降維技術,以下對于PCA的描述不正確的是:A)主成分分析是一種無監(jiān)督方法B)主成分數(shù)量一定小于等于特征的數(shù)量C)各個主成分之間相互正交D)原始數(shù)據(jù)在第一主成分上的投影方差最小答案:D解析:[單選題]142.下列方法中,默認刪除列表最后一個元素的是()。A)delB)remove()C)pop()D)extend()答案:C解析:[單選題]143.將字符串分隔使用什么函數(shù)()A)splitB)stripC)encodeD)print答案:A解析:[單選題]144.下列關于回歸算法,不正確的是()A)回歸算法可以用最小二乘法求解B)最大似然估計可以得到和最小二乘法相同的結果C)回歸算法加入絕對值項是嶺回歸D)回歸算法也會產生過擬合問題答案:C解析:第2部分:多項選擇題,共63題,每題至少兩個正確答案,多選或少選均不得分。[多選題]145.Client上傳文件的時候下列哪項正確()A)數(shù)據(jù)經過NameNode傳遞給DataNodeB)Client端文件以Block為單位,管道方式依次傳到DataNodeC)Client只上傳數(shù)據(jù)到一臺Datanode,然后由NameNode負責Block復制工作D)當某個Datanode失敗,客戶端會繼續(xù)傳給其他DataNode答案:BD解析:[多選題]146.以下關于Hive的Metastore描述正確的是()【選兩項】A)Metastore保存了Hive的元數(shù)據(jù)信息B)Metastore的安裝模式不能用內嵌模式C)Metastore的安裝模式有本地模式D)Metastore的安裝模式默認是遠程模式答案:AC解析:[多選題]147.對文本類型的數(shù)據(jù)進行轉換加工,以下選項中哪些文本函數(shù)處理的對象是一個文本字符串,處理完的輸出結果也是一個文本字符串()A)ConcatenatB)LeftC)UpperD)Replace答案:BCD解析:[多選題]148.下列是SVM核函數(shù)的是:()A)多項式核函數(shù)B)logistic核函數(shù)C)徑向基核函數(shù)D)Sigmoid核函數(shù)答案:ACD解析:[多選題]149.大數(shù)據(jù)產業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關的企業(yè)經濟活動的集合。以下哪些屬于大數(shù)據(jù)產業(yè)的某個環(huán)節(jié)():A)IT基礎設施層B)數(shù)據(jù)源層C)數(shù)據(jù)管理層D)數(shù)析層答案:ABCD解析:[多選題]150.Spark支持的計算模型有()。A)批處理B)實時計算C)機器學習模型D)交互式查詢答案:ABCD解析:Spark支持的計算模型有批處理、實時計算、機器學習模型、交互式查詢。[多選題]151.下列對于客服端的描述,哪些是正確的?A)客戶端是用戶操作HDFS最常用的方式,HDFS在部署時都提供了客戶端B)HDFS客戶端是一個庫,暴露了HDFS文件系統(tǒng)接口C)嚴格來說,客戶端并不算是HDFS的一部分D)客戶端可以支持打開、讀取、寫入等常見的操作答案:ABCD解析:[多選題]152.Flink計算時間不包含以下哪幾種時間語義?A)DelayTime(延遲時間)B)StartTime(開始時間)C)ProcessingTime(處理)D)EventTime(事件時間)答案:AB解析:[多選題]153.Flume進程級聯(lián)時,以下哪些sink類型用于接收上一跳Flume發(fā)送過來的數(shù)據(jù)?A)avrosinkB)thriftsinkC)HDFSsinkD)NullSink答案:BC解析:[多選題]154.電信大數(shù)據(jù)PaaS平臺產品基本包包含以下哪幾類服務:()A)數(shù)據(jù)存儲服務B)離線分析服務C)應用開發(fā)環(huán)境及框架服務D)數(shù)據(jù)挖掘服務、MPPDB服務答案:ABC解析:[多選題]155.在Spark中,彈性分布式數(shù)據(jù)集的特點包括()。A)可分區(qū)B)可序列化C)可直接修改D)可持久化答案:ABD解析:RDD不可修改。[多選題]156.以下哪些選項屬于離線批處理的特點?A)處理時間相對較長B)數(shù)據(jù)不落地、存儲量不大C)數(shù)據(jù)吞吐量較大D)處理數(shù)據(jù)量相對較大答案:ACD解析:[多選題]157.下列說法正確的是(___)。A)Python提供了兩個內置函數(shù)從標準輸入讀入一行文本B)Python默認的標準輸入是鍵盤C)raw_input([prompt])函數(shù)從標準輸入讀取一個行,并返回一個字符串D)raw_input可以接收一個Python表達式作為輸入,并將運算結果返回答案:ABC解析:[多選題]158.下面屬于維歸約常用的線性代數(shù)技術的有:()A)主成分分析B)特征提取C)奇異值分解D)特征加權答案:AC解析:[多選題]159.()是Spark比MapReduce計算快的原因。A)基于內存的計算B)基于DAG的調度框架C)基于Lineage的容錯機制D)基于分布式計算的框架答案:ABC解析:Spark比MapReduce計算快的原因包括基于內存計算、使用基于Lineage的容錯機制和基于DAG的調度框架。[多選題]160.HBase讀數(shù)據(jù)時需要讀取哪幾部分數(shù)據(jù)?A)HlocB)MemStoreC)HfileD)HDFS答案:BC解析:[多選題]161.黨中央、國務院高度重視網絡安全工作,出臺了一系列法律、法規(guī)和專項文件,其中針對()等,提出了明確法律規(guī)定和要求,必須認真貫徹。A)保障數(shù)據(jù)與個人信息安全B)維護信息內容安全C)保護國家和企業(yè)秘密D)確保網絡意識形態(tài)安全答案:ABCD解析:[多選題]162.以下數(shù)據(jù)加工函數(shù)中屬于對字符串類型數(shù)據(jù)進行加工的是()A)trimB)replaceC)calculateD)mod答案:AB解析:[多選題]163.下列關于核函數(shù)的說法正確的是(__)。A)任何一個函數(shù)都可以作為核函數(shù)B)只要一個對稱函數(shù)所對應的核矩陣半正定,它就能作為核函數(shù)使用C)任何一個核函數(shù)都隱式地定義了一個再生核希爾伯特空間D)核函數(shù)可將低維空間中線性可分的數(shù)據(jù)映射到高維空間,使其線性不可分答案:BC解析:[多選題]164.()是大數(shù)據(jù)應用的步驟。A)數(shù)據(jù)輸入B)建模分析C)使用決策支持工具輸出結果D)驗證假設答案:ABC解析:[多選題]165.HBase集群定時執(zhí)行Compaction的目的是什么A)減少同一個Region,同一個ColumnFamily下的文件數(shù)目B)提升數(shù)據(jù)讀取性能C)減少同一個ColumnFamily的文件數(shù)據(jù)D)減少同一個Region的文件數(shù)目答案:AB解析:[多選題]166.假設目標遍歷的類別非常不平衡,即主要類別占據(jù)了訓練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓練集上表現(xiàn)為99%的準確度,那么下面說法正確的是()A)準確度并不適合衡量不平衡類別問題B)準確度適合衡量不平衡類別問題C)精確度和召回率適合于衡量不平衡類別問題D)精確度和召回率不適合衡量不平衡類別問題答案:AC解析:[多選題]167.a=np.array([1,2,3,4,5,6,7,8])以下(__)命令可以使輸出結果為([5,6,7])。A)a[4:7]B)a[5:8]C)a[4:-1]D)a[5:]答案:AC解析:[多選題]168.大數(shù)據(jù)處理流程可以概括為以下哪幾步?()A)挖掘B)采集C)統(tǒng)計和分析D)導入和預處理答案:ABCD解析:[多選題]169.關于語句limit5,5,說法正確的是A)表示檢索出第5行開始的5條記錄B)表示檢索出行6開始的5條記錄C)表示檢索出第6行開始的5條記錄D)表示檢索出行5開始的5條記錄答案:CD解析:[多選題]170.定量變量就是通常所說的連續(xù)量,它們是由測量或計數(shù)、統(tǒng)計所得到的量,這些變量具有數(shù)值特征,以下屬于定量變量的有()A)性別B)長度C)產量D)職業(yè)答案:BC解析:[多選題]171.專業(yè)審計軟件有()A)ACLB)IDEAC)MicrosoftOfficeD)QlikView答案:AB解析:[多選題]172.在下列關于關系的敘述中,正確的是()A)C)行在表中的順序無關緊要B)A)表中任意兩行的值不能相同C)D)列在表中的順序無關緊要D)B)表中任意兩列的值不能相同答案:ABC解析:[多選題]173.下列關于數(shù)據(jù)產品研發(fā)的說法錯誤的有()。A)從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B)一次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質量問題C)二次數(shù)據(jù)是對一次數(shù)據(jù)進行深度處理或分析后得到的增值數(shù)據(jù)D)三次數(shù)據(jù)是對二次數(shù)據(jù)進行洞察與分析后得到的、可以直接用于決策支持的洞見數(shù)據(jù)答案:ABD解析:二次數(shù)據(jù)是一種按照信息的生產過程和加工深度進行對信息進行分類的,是指根據(jù)特定的需求,對一次信息進行加工、分析、改編、重組、綜合概括生成的信息。[多選題]174.數(shù)據(jù)戰(zhàn)略的基本問題有(__)。A)數(shù)據(jù)戰(zhàn)略的定位B)數(shù)據(jù)戰(zhàn)略的目標C)數(shù)據(jù)戰(zhàn)略的側重點D)數(shù)據(jù)戰(zhàn)略的范疇答案:ABCD解析:[多選題]175.語句?CREATETABLEmydb.temp()?用于從mydb.user表中復制已有的表結構。--A)FROMmydb.userB)(FROMmydb.user)C)LIKEmydb.userD)(LIKEmydb.user)答案:CD解析:[多選題]176.客戶端使用給get方式讀取HBase用戶數(shù)據(jù)時,需要查詢meta表哪些數(shù)據(jù)?A)Region起始rowkeyB)RegionServer地址C)Region分裂時間D)Region大小答案:AB解析:[多選題]177.與傳統(tǒng)的分布式程序設計相比,Mapreduce封裝了()等細節(jié),還提供了一個簡單而強大的接口A)并行處理B)容錯處理C)本地化計算D)負載均衡答案:ABCD解析:[多選題]178.客戶端使用get方式讀取HBase用戶數(shù)據(jù)時,需要查詢meta表的哪些數(shù)據(jù)?A)RegionServer地址B)Region起始rowkeyC)Region大小D)Region分裂時間答案:AB解析:[多選題]179.根據(jù)《大數(shù)據(jù)風控平臺項目操作手冊》,擔保圈鏈模塊,擔保圈鏈頁面右側展示()、()按鈕。A)擔保篩選B)關聯(lián)篩選C)全景風險視圖D)企業(yè)信用智能分析報告答案:AB解析:[多選題]180.Hive的系統(tǒng)架構主要包括哪幾個模塊:()A)探查模塊B)驅動模塊C)元數(shù)據(jù)存儲模塊D)用戶接口模塊答案:BCD解析:[多選題]181.Pandas中主要的數(shù)據(jù)結構有()。A)DataB)DataFrameC)FrameD)Series答案:BD解析:Pandas的兩種主要數(shù)據(jù)結構為Series和DataFrame。[多選題]182.下面哪些是循環(huán)神經網絡的輸出模式A)多輸出B)單輸出C)同步多輸出D)異步多輸出答案:ABD解析:[多選題]183.DRDS做平滑擴容的時候,現(xiàn)有的數(shù)據(jù)庫中的表需要滿足()要求。A)拆分表需要有主鍵B)拆分表需要刪除主鍵C)單表需要做小表廣播D)單表需有主鍵答案:AC解析:[多選題]184.下列關于學習器的性能度量說法正確的是(__)。A)對于二分類問題,可將樣例根據(jù)其真實類別與學習器預測類別的組合劃分為:真正例、假正例、真反例、假反例B)查準率和查全率是一對矛盾的度量C)一般來說,查準率越高,查全率往往也偏高D)一般來說,查準率越高,查全率往往偏低答案:ABD解析:[多選題]185.大數(shù)據(jù)計算框架Flink的支持哪些資源調度方式?A)DockerB)YARNC)StandaloneD)Mesos答案:ABCD解析:[多選題]186.在GaussDB200中,關于Schema和Database,下面說法正確的是()?A)Database之間無法直接訪問,但通過權限授予可以訪問數(shù)據(jù)。B)相比于Database,Schema的隔離更加的徹底。C)Schema和用戶強相關的,通過權限控制語法可以實現(xiàn)不同用戶對各Schema的權限。D)二者都能實現(xiàn)資源隔離。答案:ACD解析:[多選題]187.為什么RNN網絡的激活函數(shù)要選用雙曲正切而不是sigmod呢?A)使用sigmod函數(shù)容易出現(xiàn)梯度消失B)sigmod的導數(shù)形式較為復雜C)雙曲正切更簡單D)sigmoid函數(shù)實現(xiàn)較為復雜答案:AB解析:[多選題]188.下列說法正確的是?A)MapReduce體系結構主要由四個部分組成,分別是:Client、JobTracker、TaskTracker以及TaskB)Task分為MapTask和ReduceTask兩種,均由TaskTracker啟動C)在MapReduce工作流程中,所有的數(shù)據(jù)交換都是通過MapReduce框架自身去實現(xiàn)的D)在MapReduce工作流程中,用戶不能顯式地從一臺機器向另一臺機器發(fā)送消息答案:ABCD解析:[多選題]189.相對于HadoopMapReduce,Spark的特點有()。A)通用性B)易用性C)速度快D)容錯性答案:ABC解析:[多選題]190.數(shù)據(jù)科學的基本流程主要包括()A)數(shù)據(jù)化,即獲取零次數(shù)據(jù)B)數(shù)據(jù)加工,且將3C精神融入其中C)驗證性分析,且事先提出假設D)數(shù)據(jù)產品的提供,且僅提供最終產品答案:AB解析:[多選題]191.遇到以下()情況,視圖數(shù)據(jù)操作可能會失敗。--A)視圖涉及多張數(shù)據(jù)表B)沒有滿足視圖的基本表對字段的約束條件C)創(chuàng)建視圖的SELECT字段含有MAX()函數(shù)D)定義視圖的SELECT語句中使用了GROUPBY答案:ABCD解析:[多選題]192.下面提到的編程框架,()是MaxCompute支持的。A)SQLB)MapReduceC)MPID)Graph答案:ABCD解析:[多選題]193.為落實數(shù)據(jù)安全全過程管控,在發(fā)布環(huán)節(jié),嚴格對外發(fā)和傳播數(shù)據(jù)安全審查,落實信息內容合規(guī)性審核,發(fā)現(xiàn)違法違規(guī)信息應()。A)立即停止傳輸和發(fā)布B)采取消除等處置措施,防止信息擴散C)對信息進行保密D)保存有關記錄答案:ABD解析:[多選題]194.(__)不屬于推斷統(tǒng)計的方法。A)區(qū)間估計B)參數(shù)估計C)假設檢驗D)相關分析答案:AD解析:[多選題]195.圖像識別的一般步驟包括()。A)預處理B)特征提取C)超像素生成D)識別分類答案:ABD解析:圖像識別中的一般步驟包括預處理、特征提取和識別分類。超像素生成并非必要步驟。[多選題]196.在Hive的條件語句中,關于條件A>B理解正確的有()【選三項】A)A為null,則返回為trueB)B為null,則返回為nullC)如果A大于B則返回trueD)如果A小于B返回false答案:BCD解析:[多選題]197.一個完整的推薦系統(tǒng)通常包括哪3個組成模塊:()A)用戶建模模塊B)推薦對象建模模塊C)推薦算法模塊D)可視化模塊答案:ABC解析:[多選題]198.Hive特性包括哪些?A)支持MapReduce,Tez,Spsrk等多種計算引擎。B)靈活方便的ETL(extract/transform/load.C)易用易編程。D)可直接訪問DFS文件以及HBase答案:ABCD解析:[多選題]199.有關實時檢索引擎中各組件的聯(lián)系與定位,以下描述中正確的有哪些項?A)HBaseoElasticSearch的組合滿足了大部分的用戶實時檢索訴求B)ElasticSearch存儲數(shù)據(jù)性價比低,但是其能夠滿足場景中多級索引的實時查詢需求,同時還能夠對文檔分詞建立索引C)與HBase相比,ElasticSearch在海量數(shù)據(jù)的情景下存儲性能不如HBase,故選擇HBase作為海量數(shù)據(jù)存儲的基石D)圖數(shù)據(jù)庫可以完美的解決復雜多級關系查詢分析,選用GES來解決圖數(shù)據(jù)的實時查詢需求答案:ABCD解析:[多選題]200.哪些方式能夠操作HBase的數(shù)據(jù)?A)客戶端命令B)PhoenixSQLC)JavaAPID)HivesQL答案:ABCD解析:[多選題]201.從Hadoop實現(xiàn)角度看,MapReduce1.0的計算框架主要由哪幾個部分?A)編程模型B)數(shù)據(jù)處理引擎C)運行時環(huán)境D)資源管理答案:ABC解析:[多選題]202.下列哪些是常用分詞方法?A)基于Binarytree的分詞方法B)基于HMM的分詞方法C)基于CRF的分詞方法D)基于Kmeans的分詞方法答案:BC解析:[多選題]203.下面()接口或工具是MaxCompute用于導入導出數(shù)據(jù)的。A)TunnelB)DataxC)CDPD)Dship答案:ABCD解析:[多選題]204.以下哪些選項是Kafka的特點?A)支持消息隨機讀取B)高吞吐C)分布式D)消息持久化答案:BCD解析:[多選題]205.客戶端上傳文件的時候哪項是正確的?()()A)數(shù)據(jù)經過NameNode傳遞給DataNodeB)客戶端端將文件切分為多個Block,依次上傳C)客戶端只上傳數(shù)據(jù)到一臺DataNode,然后由NameNode負責Block復制工作D)客戶端發(fā)起文件上傳請求,通過RPC與NameNode建立通訊。答案:BD解析:[多選題]206.假設一行數(shù)據(jù)內容有三列數(shù)據(jù)分別為:ID:"1"NAME:"張三"AGE:"23歲"。請使用hive的函數(shù)生成一個新的字段:"1-張三-23歲"。A)concat(ID,'-',NAME,'-',AGE)B)concat_ws('-',ID,NAME,AGE)C)ID+'-'+NAME+'-'+AGED)ID||'-'||NAME||'-'||AGE答案:AB解析:第3部分:判斷題,共42題,請判斷題目是否正確。[判斷題]207.stack()的逆操作是unstack(),默認為拆疊最后一層。A)正確B)錯誤答案:對解析:[判斷題]208.在DWS服務中,通過GDS并行導入數(shù)據(jù)時,需要明確DWS的集群IP地址。A)正確B)錯誤答案:錯解析:[判斷題]209.正則表達式'python|perl'或'p(ython|erl)'都可以匹配'python'或'perl'。A)正確B)錯誤答案:對解析:[判斷題]210.Python只能使用內置數(shù)據(jù)庫SQLite,無法訪問MSSQLServer、ACCESS或Oracle、MySQL等數(shù)據(jù)庫A)正確B)錯誤答案:錯解析:[判斷題]211.非結構化數(shù)據(jù)是可以直接用傳統(tǒng)關系數(shù)據(jù)庫存儲和管理的數(shù)據(jù)。()A)正確B)錯誤答案:錯解析:[判斷題]212.在面向對象程序設計中,函數(shù)和方法是完全一樣的,都必須為所有參數(shù)進行傳值。A)正確B)錯誤答案:錯解析:[判斷題]213.Zookeeper集群宕機數(shù)超過集群數(shù)一半,則Zookeeper服務失效。()A)正確B)錯誤答案:對解析:[判斷題]214.云計算就是軟件在云端無所不在、無限強大的計算。也叫網絡化計算或網格計算A)正確B)錯誤答案:對解析:[判斷題]215.數(shù)據(jù)科學是根據(jù)"數(shù)據(jù)世界"的分析結果,對"現(xiàn)實世界"進行預測、洞見、解釋或決策的新興科學。()A)正確B)錯誤答案:對解析:[判斷題]216.MySQL默認查詢會去除重復記錄,只保留一條。--A)正確B)錯誤答案:錯解析:[判斷題]217.啤酒與尿布的經典案例,充分體現(xiàn)了實驗思維在大據(jù)分析理念中的重要性。A)正確B)錯誤答案:錯解析:[判斷題]218.屬性可以像數(shù)據(jù)成員一樣進行訪問,但賦值時具有方法的優(yōu)點,可以對新值進行檢查A)正確B)錯誤答案:對解析:[判斷題]219.阿里云流計算目前可以支持SQL和MapReduce。A)正確B)錯誤答案:錯解析:[判斷題]220.大數(shù)據(jù)平臺采集系統(tǒng)的功能為:匯聚不同來源的數(shù)據(jù),接口數(shù)據(jù)清洗、稽核校驗、模型規(guī)范后,將數(shù)據(jù)規(guī)整到相關域,統(tǒng)一存放在大數(shù)據(jù)平臺指定地方,形成接口層數(shù)據(jù)。A)正確B)錯誤答案:對解析:[判斷題]221.語句?SHOWTABLESLIKEnew%?可獲取以new開頭的數(shù)據(jù)表。--A)正確B)錯誤答案:錯解析:[判斷題]222.線性回歸不是用來預測數(shù)據(jù)的方法。()A)正確B)錯誤答案:對解析:[判斷題]223.Hive定義了一種類似SQL的查詢語言(HQL),將HQL轉化為MapReduce任務在Hadoop上執(zhí)行,通常用于在線分析。A)正確B)錯誤答案:錯解析:[判斷題]224.數(shù)據(jù)類型VARCHAR(255)存儲ab占用的字節(jié)數(shù)為2。--A)正確B)錯誤答案:錯解析:[判斷題]225.只有Python擴展庫才需要導入以后才能使用其中的對象,Python標準庫不需要導入即可使用其中的所有對象和方法。A)正確B)錯誤答案:錯解析:[判斷題]226.2016年9月,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,10月,十八屆六中全會將大數(shù)據(jù)上升為國家戰(zhàn)略A)正確
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吊扇清洗項目合同范本
- 云銅購銷合同范本
- 口腔醫(yī)生兼職合同范本
- 半路夫妻合同范本
- 協(xié)會副會長聘用合同范本
- 華為設計合同范本
- 專業(yè)醫(yī)療咨詢合同范本
- 加盟制合同范本
- 醫(yī)院科室共建合同范本
- 合作入股技術合同范本
- 畢業(yè)設計外文文獻-Spring Boot
- 六年級下冊《生命.生態(tài).安全》全冊教案(表格式)
- 采購入庫單模板
- GB 14930.1-2022食品安全國家標準洗滌劑
- GB/T 15566.6-2007公共信息導向系統(tǒng)設置原則與要求第6部分:醫(yī)療場所
- 中國電信教育基地市級“三通兩平臺”建設方案(教育機構)
- 火力發(fā)電廠節(jié)能技術經濟指標釋義
- 智能制造知識課件
- 雙方責任及工程分工界面
- 2017醫(yī)學倫理知情同意書
- 中醫(yī)學-導論課件
評論
0/150
提交評論