大數據開發(fā)基礎練習題及答案16-2023-背題版

上傳人：燈*** IP屬地：河北上傳時間：2024-01-13 格式：PDF 頁數：95 大?。?1.19MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩90頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

試題說明

本套試題共包括1套試卷

每題均顯示答案和解析

大數據開發(fā)基礎練習題及答案16（500題）

大數據開發(fā)基礎練習題及答案16

L［單選題］HDFS的NameNo加負責管理文件系統(tǒng)的命名空間，將所有的文件和文件夾的元數據保存在

一個文件系統(tǒng)樹中，這些信息也會在硬盤上保存成以下文件：

A）日志

B）命名空間鏡像

C）兩者都是

答案:C

解析:HDFS對文件系統(tǒng)目錄樹的持久化就是對editlog日志文件與fsimage鏡像文件的操作。

2.［單選題］反演歸結（消解）證明定理時，若當前歸結式是（）時，則定理得證。

A）永真式

B）包孕式（subsumed）

C）空子句

答案:C

解析：

3.［單選題］以下屬于分類分析的是（）

A）、線性回歸

B）、平穩(wěn)序列預測

C）、決策樹分析

D）、單因素方差分析

答案:C

解析：

4.［單選題］以下描述不正確的是（_）。

A）干凈數據是相對于“臟數據”的一種提法

B）整齊數據是相對于“亂數據”的一種提法

C）存在缺失值的數據是亂數據

D）數據質量有問題是臟數據

答案:C

解析：

5.［單選題］下列關于Python包的說法正確的是（）。

A）利用pip包管理器更新已安裝包的代碼是pipupdate包名

B)單獨導入包名即可導入包中所包含的所有子模塊

C)下載安裝、更新、查看、移除包等行為可以在命令行中進行，但不可以在Jupyternotebook中

進行

D)下載安裝、更新、查看、移除包等行為既可以用pip工具，也可以用conda工具

答案:D

解析：pip更新包指令為pipinstall-upgradePackage；單獨導入包之后訪問子模塊需要用“模

塊?子模塊”方式；在Jupyter中也可以通過指令管理包。

6.［單選題］下面關于ID3算法中說法錯誤的是

A)ID3算法要求特征必須離散化

B)信息增益可以用嫡，而不是GINI系數來計算

C)選取信息增益最大的特征，作為樹的根節(jié)點

D)ID3算法是一個二叉樹模型

答案:D

解析：

7.［單選題］執(zhí)行以下代碼段listl=［2445,133,12254,123］print(min(listl),max(listl))Bf

,輸出為(___)o

A)1232445

B)2445133

C)12312254

D)122542445

答案:C

解析：

8.［單選題］以查準率為縱軸、查全率為橫軸作圖，就得到了查準率-查全率曲線，簡稱(_)。

A)雙曲線

B)P-R曲線

C)科克曲線

D)共朝曲線

答案:B

解析：

9.［單選題］()情況下，LDA會失敗。

A)如果有辨識性的信息不是平均值，而是數據的方差

B)如果有辨識性的信息是平均值，而不是數據方差

C)如果有辨識性的信息是數據的均值和方差

D)以上答案都不正確

答案:A

解析:LDA的思想是投影后類內方差最小、類間方差最大。

10.［單選題］在HBase數據模型中，列必須用()來定義。

A)鍵

B)族

C)單元格

D)時間戳

答案:B

解析：

11.[單選題]Hadoop中MapReduce組件擅長處理()場景的計算任務。

A)迭代計算

B)離線計算

C)實時交互計算

D)流式計算

答案：B

解析：

12.[單選題]HBase只有一個針對行健的索引，如果要訪問HBase表中的行，下面哪種方式是不可行的

A)通過單個行健訪問

B)通過時間戳訪問

C)通過一個行健的區(qū)間來訪問

D)全表掃描

答案:B

解析：

13.[單選題]執(zhí)行a=np.array([[1,2,3],[4,5,6]])；print(np.append(a,[[7,8,9]],axis=

0))結果為？

A)[123456789]

B)[[147][258][369]]

C)[[123][456][789]]

D)[[1,2,3,4,5,6,7,8,9]]

答案:C

解析：

14.[單選題]執(zhí)行以下代碼段pets=['dog','cat','dog','goldfish','cat','rabbit',

'cat']while'cat'inpets：pets,remove('cat')print(pets)0^,輸出為()。

A)['dog','cat','dog','goldfish','cat','rabbit','cat']

B)['dog','dog','goldfish','rabbit'1

C)['dog','dog','goldfish','cat','rabbit','cat']

D)['dog','dog','goldfish','rabbit','cat']

答案:B

解析：

15.［單選題］TFTDF模型中IDF是指（_）。

A）詞頻數

B）逆文檔頻率

C）詞頻率

D）逆文檔頻數

答案:B

解析：

16.［單選題］當訓練樣本近似線性可分時，通過（），學習一個（）

A）硬間隔，最大化非線性支持向量機

B）軟間隔，最大化線性支持向量機

C）硬間隔，最大化線性支持向量機

D）軟間隔，最大化非線性支持向量機

答案:B

解析：

17.［單選題］Stage的Task的數量由什么決定（）

A）Partition

B）Job

C）Stage

D）TaskScheduler

答案：A

解析：

18.［單選題］HBase作為數據存儲組件封裝于大數據平臺，用于（）存儲。

A）關系型數據庫

B）分布式文件

0非關系型數據庫

D）列式存儲

答案:C

解析：

19.［單選題］為了解決如何模擬人類的感性思維，例如視覺理解、直覺思維、悟性等，研究者找到一

個重要的信息處理的機制是（）O

A）A專家系統(tǒng)

B）人工神經網絡

C）模式識別

D）智能代理

答案:B

解析：

20.［單選題］已知一個數據集，n為特征數，m為訓練樣本數，如果n較小，而且m大小中等

（例如n為1?1000,而m為10?10000）,則一般選擇（）。

A）邏輯回歸模型

B）不帶核的支持向量機

C）高斯核的支持向量機

D）多項式核的支持向量機

答案:C

解析：高斯核函數需要選擇合適的參數。2,適用于少量特征、大量樣本的情況，可以擬合出非常復

雜的非線性決策邊界。

21.［單選題］在大數據計算服務（MaxCompute,原ODPS）的表中存有一批網站及其相互之間鏈接關

系，開發(fā)人員希望通過pagerank算法來分析這批網站的排名，即把網站看做節(jié)點，把網站之間的連

接關系看做權重，從而實現對網站的評分。（）計算框架更適合實現這個場景。

A）SQL

B）MapReduce

C）Graph

D）Tunnel

答案:C

解析：

22.［單選題］數據科學家采用（）方法判斷數據是否“干凈”。

A）、數據處理

B）、數據加工

0、數據審計

D）、數據化

答案:C

解析：

23.［單選題］D剛常用的激活函數有（）

A）sigmoid

B）tanh

C）ReLU

D）以上答案都正確

答案:D

解析：

24.［單選題］表t中有1000萬行數據，想要隨意抽取10行數據，在odpscmd中執(zhí)行消耗時間最短的方式

是：（）。

A）select*fromtwhererownum<=10

B）gett10

C）select*fromtlimit10

D）readt10

答案:D

解析:

25.［單選題］舍恩伯格在《大數據時代：生活、工作與思維的大變革》一書中明確指出，大數據時代

最大的轉變就是思維方式的三種轉變，其中不包括（）

A）全樣而非抽樣

B）效率而非精確

C）相關而非因果

D）務實而非務虛

答案：D

解析：

26.［單選題］機器學習中做特征選擇時，可能用到的方法有？

A）卡方

B）信息增益

C）期望交叉端

D）以上都有

答案:D

解析：

27.［單選題］假設file是文本文件對象，下列哪個選項可讀取file的一行內容？（）

A）file.read（）

B）file.read（200）

C）file,readline（）

D）file.readlines（）

答案:C

解析：

28.［單選題］下列關于大數據的分析理念的說法中，錯誤的是（）。

A）在數據基礎上傾向于全體數據而不是抽樣數據

B）在分析方法上更注重相關分析而不是因果分析

C）在分析效果上更追求效率而不是絕對精確

D）在數據規(guī)模上強調相對數據而不是絕對數據

答案:D

解析：在大數據的分析理念中，數據規(guī)模上強調絕對數據而不是相對數據。

29.［單選題］以下關于人機交互，描述錯誤的是：（）

A）人機交互是一門研究系統(tǒng)與用戶之間的交互關系的學科

B）人機交互界面通常是指用戶不可見的

C）系統(tǒng)可以是各種各樣的機器.也可以是計算機化的系統(tǒng)和軟件

D）用戶通過人機交互界面與系統(tǒng)交流.并進行操作

答案：B

解析：

30.［單選題］當前社會中，最為突出的大數據環(huán)境是（）

A）互聯網

B）物聯網

C）綜合國力

D）自然資源

答案:A

解析：

31.［單選題］下面代碼運行結果（）。a=Itry：a+=lexcept：a+=lelse：a+=Ifinally：a+=

Iprint（a）

A）2

B）3

D）5

答案:C

解析：

32.［單選題］HDFS架構中有兩個。。

A）DataNodes

B）JobTracke

C）NameNode

D）SecondayNameNode

答案:C

解析：

33.［單選題］已知一組數據的協方差矩陣P,下面關于主分量說法錯誤的是（）。

A）主分量分析的最佳準則是對一組數據進行按一組正交基分解，在只取相同數量分量的條件下，以均

方誤差計算截尾誤差最小

B）在經主分量分解后，協方差矩陣成為對角矩陣

C）主分量分析就是K-L變換

D）主分量是通過求協方差矩陣的特征值得到

答案:C

解析：主分量分析的變換矩陣是協方差矩陣,K-L變換的變換矩陣可以有很多種（二階矩陣、協方差矩

陣、總類內離散度矩陣等）。當K-L變換矩陣為協方差矩陣時，等同于PCA。

34.［單選題］ID、F采用了IWF的幾次平方？（）

A）、一次

B）、二次

0、三次

D）、四次

答案:A

解析:

35.［單選題］下面關于假設檢驗相關描述不正確的有(_)。

A)先對總體均值進行假設，然后利用樣本來檢驗假設是否成立這屬于假設檢驗

B)區(qū)間估計不是假設檢驗

0非參數假設檢驗是假設檢驗

D)點估計是假設檢驗

答案：D

解析：

36.［單選題］對于信息增益，決策樹分裂節(jié)點，下面說法正確的是。1純度高的節(jié)點需要更多的信

息去區(qū)分2信息增益可以用"1比特-嫡”獲得3如果選擇一個屬性具有許多歸類值，那么這個信息

增益是有偏差的

A)1

B)2

C)2和3

D)所有以上

答案:C

解析：

37.［單選題］執(zhí)行以下代碼段classfruits：def—init_(self,price)：self,price=priceobj

=fruits(10)obj.quantity=8obj.bags=2print(obj.quantity+len(obj._diet_))時，輸出

為(一)o

A)8

B)9

C)10

D)ll

答案:D

解析：

38.［單選題］把詞典中的詞按照由長到短遞減的順序逐字搜索整個待處理的材料，一直到把全部的詞

切分出來為止。不論分詞詞典多大，被處理的材料多么小，都得把這個分詞詞典匹配一遍。這種方

法叫(_)o

A)正向最大匹配法

B)逆向最大匹配法

C)逐詞遍歷法

D)隱馬爾科夫模型

答案:C

解析：

39.［單選題］關于Pandas中數據排序，下列說法正確的是。

A)即可以按照行索引排序，也可以按照列索引排序

B)sort_index()方法表示按照值進行排序

C)sort_values()方法表示按照索引進行排序

D)默認情況下，sort_index()方法按照降序排列

答案:A

解析：

40.［單選題］以下對大數據4V特性描述不正確的是(一)。

A)在大數據中，價值與數據總量的大小不存在線性關系

B)數據量大是相對計算與存儲能力而定的

C)Volume是指數據大

D)大數據中所說的“速度”包括兩種：增長速度和處理速度

答案:C

解析：

41.［單選題］()的本質是將低層次數據轉換為高層次數據的過程。

A)數據處理

B)數據計算

C)數據加工

D)整齊數據

答案:C

解析：數據加工(DataWrangling或DataMunging)的本質是將低層次數據轉換為高層次數據的過

程。從加工程度看，數據可以分為零次、一次、二次、三次數據。

42.［單選題］非關系型數據庫不包括

A)Hbase

B)Mapreduce

C)Neo4j

D)MongoDB

答案：B

解析：

43.［單選題］下列方法中，可以對列表元素排序的是()。

A)sort()

B)reverse()

C)max()

D)list()

答案:A

解析：

44.［單選題］mkdir()的作用是(一)0

A)刪除指定路徑的目錄

B)改變當前工作目錄到指定的路徑

C）以數字權限模式創(chuàng)建目錄

D）返回當前工作目錄

答案:C

解析：

45.［單選題］圖像識別常用softmA、x函數接在模型的輸出上，其作用為：（）。

A）、增加不同類別之間的區(qū)分度

B）、突出輸出向量中類標的對應的維度

C）、對輸出歸一化，同時以概率的更好解釋輸出向量

D）、過濾無用的環(huán)境信息

答案:C

解析：

46.［單選題］建立一個模型，通過這個模型根據已知的變量值來預測其他某個變量值屬于數據挖

26掘的哪一類任務？

A）、根據內容檢索

B）、建模描述

C）、預測建模

D）、尋找模式和規(guī)則

答案:C

解析：

47.［單選題］下列哪一項不屬于大數據的治理：。

A）安全問題

B）成本問題

C）針對大用戶

D）信息生命周期管理

答案:C

解析：

48.［單選題］大數據計算服務（MaxCompute,原0DPS）是阿里巴巴自主研發(fā)的海量數據處理平臺

,主要服務于批量結構化數據的存儲和計算。以下（）場景不適合使用大數據計算服務實現。

A）大數據的分析建模

B）海量數據倉庫

O0LTP

D）網站日志離線分析

答案:C

解析：

49.［單選題］構造方法是類的一個特殊方法，Python中它的名稱為。。

A）與類同名

B）construct

C）—init—

D）init

答案:C

解析：

50.［單選題］在HBase系統(tǒng)架構中，HRegionServer主要負責相應用戶I/O請求，向（）文件系統(tǒng)中讀寫

數據

A）HAFS

B）HBFS

OHCFS

D）HDFS

答案:D

解析：

51.［單選題］以下關于機器學習，描述錯誤的是：。

A）是一門涉及統(tǒng)計學、系統(tǒng)辨識、逼近理論、神經網絡、優(yōu)化理論、計算機科學、.腦科學等諸多領

域的交叉學科

B）研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能

C）機器學習強調三個關鍵詞：算法、模型、訓練

D）基于數據的機器學習是現代智能技術中的重要方法之一

答案:C

解析：

52.［單選題］ClouderaNavigator是唯一企業(yè)級Hadoop數據治理平臺，以下哪個不是他的功能

?（）

A）支持元數據標簽、分類和搜索

B）提供多維分析

C）提供數據溯源和依賴關系

D）提供操作審計

答案:B

解析：

53.［單選題］FusioninsightManager不能夠管理哪個對象？

A）Sprk

B）主機OS

OYARN

D）HDFS

答案:B

解析：

54.［單選題］以下不是開源工具特點的是（）。

A）免費

B）可以直接獲取源代碼

C）用戶可以修改源代碼并不加說明用于自己的軟件中

D）開源工具一樣具有版權

答案:C

解析：延伸的代碼中（修改和有源代碼衍生的代碼中）需要帶有原來代碼中的協議、商標、專利聲明和

其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產品中包含一個Notice文件，則在Notice文件中

需要帶有開源工具的Licence。你可以在Notice中增加自己的許可，但不可以表現為對開源工具

Licence構成更改。

55.［單選題］MapReduce中在程序的某個位置可以插入（—）,記錄數據或進度的變化情況。

A）計數器

B）對象

C）數組

D）索引

答案:A

解析：

56.［單選題］按照國家法律法規(guī)和公司保密管理規(guī)定，制定數據資產脫敏策略，對涉及個人隱私及單

位商密的數據進行（）后方可共享和開放。

A）分類處理

B）清洗處理

C）脫敏處理

D）切片處理

答案:C

解析：

57.［單選題］按照維度將多個矩陣連接起來應該用哪個函數？

A）np.mul

B）np.sum

C）np.concatenat

D）np.mat

答案:C

解析：

58.［單選題］導入模塊的方式錯誤的是

A）importmo

B）frommoimport

C）importmoasm

D）importmfrommo

答案：D

解析：

59.［單選題］長短時記憶神經網絡被設計用來解決什么問題？

A）傳統(tǒng)RNN存在的梯度消失/爆炸問題

B）傳統(tǒng)RNN計算量大的問題

C）傳統(tǒng)RNN速度較慢的問題

D）傳統(tǒng)RNN容易過過擬合的問題

答案：A

解析：

60.［單選題］多分類LDA將樣本投影到NT維空間，NT通常遠小于數據原有的屬性數，可通過這個投

影來減小樣本點的維數，且投影過程中使用了類別信息，因此LDA也常被視為一種經典的（）技術

A）無監(jiān)督特征選擇

B）無監(jiān)督降維

C）監(jiān)督特征選擇

D）監(jiān)督降維

答案:D

解析：

61.［單選題］什么關于TF-IDF模型描述錯誤的是？

A）TF意思是詞頻

B）IDF是逆文本頻率

C）該模型基于概率圖模型方法

D）是一種信息檢索和數據挖掘常用加權技術

答案:C

解析：

62.［單選題］某大數據運維人員想通過shell命令上傳某個文件至HDFS文件系統(tǒng)中。以下哪個命令能

幫助他完成這個操作？

A）-cat

B）-upload

C）-put

D）-get

答案:C

解析：

63.［單選題］大數據最顯著的特征是：（）。

A）數據規(guī)模大

B）數據類型多樣

C）數據處理速度快

D）數據價值密度高

答案:A

解析：

64.［單選題］關于Hive在FusioninsightHD中的架構描述錯誤的是：

A)只要有一個Hiveserver不可用，整個Hive集群便不可用

B)HiveServer負責接受客戶端請求、解析、執(zhí)行HQL命令并返回查詢結果

C)MetaDtore用于提供元數據服務，依賴于DBService

D)在用一時間點，HiveServer只有一個處于Active狀態(tài)，另一個則處于Standby

答案：A

解析：

65.［單選題］調用自定義函數使用()o-

A)CALL

B)LOAD

C)CREATE

D)SELECT

答案:D

解析：

66.［單選題］集合運算算子指的是？

A)SetOp

B)ArrayOP

C)HashOp

D)ListOp

答案：A

解析：

67.［單選題］在HBase的專用過濾器中，前綴過濾器是()

A)PrefixComparatorFilter

B)PrefixFilter

C)ComparatorFilter

D)PrefixValueFiIter

答案:B

解析：

68.［單選題］Yarn中設置隊里queueA的最大使用資源量，需要配置哪個參數

A)yarn,scheduler,capacity,root.Queueuser-1imit-factor

B)yarn,scheduler,capacity,root.QueueA.minimum-user-limit-percent

C)yarn.scheduler,capacity,root.QueueA.state

D)yarn,scheduler,capacity,root.QueueA.maxmum-capacity

答案:D

解析：

69.［單選題］下面關于ZooKeeper特性的描述錯誤的是?

A)消息更新只能成功或者失敗，沒有中間狀杰

B)ZooKeeper節(jié)點數必須為奇數個

C)一條消息要被超過半數的Server接收，它將可以成功寫入磁盤

D)客戶端所發(fā)送的更新會按照它們被發(fā)送的順序進行應用

答案:B

解析：

70.［單選題］部署HBase時需要依賴于哪個資源協調組件

A)Yarn

B)ZooKeeper

C)Sqoop

D)HDFS

答案:B

解析：

71.［單選題］HBase架構的四大組件中，()分布式協調服務器。

A)Zookeeper

B)Master

C)RegionServer

D)Client

答案:A

解析：

72.［單選題］HBase自動把表水平劃分成()。

A)塊

B)單元

C)域

D)區(qū)域

答案:D

解析：

73.［單選題］關于K均值和0BSCAN的比較，以下說法不正確的是()

A)K均值丟棄被它識別為噪聲的對象，而0BSCAN一般聚類所有對象

B)K均值使用簇的基于原型的概念，而0BSCAN使用基于密度的概念

OK均值很難處理非球形的簇和不同大小的簇，0BSCAN可以處理不同大小和不同形狀的簇

D)K均佳可以發(fā)現不是明顯分離的簇，即使簇有重疊也可以發(fā)現，但是0BSC劇會合并有重疊的簇

答案:C

解析：

74.［單選題］HBase是一種可伸縮、高可靠、高性能、分布式和面向()的動態(tài)模式數據庫。

A)列

B)行

C)行和列

D）元組

答案:A

解析:HBase支持的是列式存儲。

75.［單選題］數據資產維護是指為保證數據質量，對數據進行（）等處理的過程。

A）更正

B）刪除

0補充錄入

D）以上答案都正確

答案:D

解析:數據資產維護是指為保證數據質量，對數據進行更正、刪除、補充錄入等處理的過程。

76.［單選題］如圖，以下關于Kafka消息消費者Consumer讀取消息的描述，錯誤的有？

A）Consumer使用Offset來記錄讀取的位置

B）圖片中的藍色框為Kafka的一個Topic,即可以理解為一個隊列，每個格子代表一條消息。

C）生產者產生的消息逐條放到Topic的末尾

D）消費者從右至左順序讀取消息

答案:D

解析：

77.［單選題］人工智能是一門。

A）數學與生理學

B）心理學與生理學

C）語言學

D）綜合性的交叉學科與邊緣學科

答案:D

解析：

78.［單選題］有關Hive支持的基本數據類型，以下那個是2byte有符合整數（）

A）Tinyint

B）Smalint

Olnt

D）Bigint

答案:B

解析：

79.［單選題］將關系型數據庫中的數據導入到Hadoop平臺的工具是。。

A）import

B）export

C）overwrite

D）drop

答案:A

解析：

80.［單選題］以下哪個不是外部客戶（）

A）能源供應商

B）政府部門

C）能源服務商

D）生產客戶

答案：D

解析：

81.［單選題］修改資源的化導入excel的操作列應該填寫（）。

A）插入

B）更新

C）刪除

D）追加

答案:B

解析：

82.［單選題］下列不是開源工具特點的是（）。

A）免費

B）可以直接獲取源代碼

C）用戶可以修改源代碼并不加說明用于自己的軟件中

D）開源工具一樣具有版權

答案:C

解析:延伸的代碼中（修改和有源代碼衍生的代碼中）需要帶有原來代碼中的協議、商標、專利聲明

和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產品中包含一個Notice文件，則在Notice

文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可，但不可以表現為對開

源工具Licence構成更改。

83.［單選題］下列對圖數據庫描述正確的是?Z

A）以圖”數據結構存儲和查詢數據的教據庫

B）存儲圖片的數據庫

C）與關系型數據庫美似的數據庫

D）數據倉庫的一種

答案:A

解析：

84.［單選題］下面關于機器學習相關描述不正確的有（_）。

A）機器學習的主要議題是如何實現和優(yōu)化機器的自我學習

B）機器學習的基本思路是以訓練集為輸入，通過機器學習算法讓機器學習到能夠處理更多數據的能

力

OAlphaGo的核心技術是深度學習與增強學習

D)機器學習的只能是預定義的

答案:D

解析：

85.［單選題］圖像降噪的作用(_)?

A)改變圖像大小

B)將圖像分成多個小單位

C)去除干擾信號

D)使圖像變得更加豐富

答案:C

解析：

86.［單選題］執(zhí)行以下代碼段a=21b=10print(a==b)時，輸出為()。

A)True

B)False

C)None

D)Error

答案：B

解析：

87.［單選題］下列哪個方法不屬于情感分析的評測？

A)COAE評測

B)cifarlO數據集評測

OCCFTCCI評測

D)TAC評測

答案:B

解析：

88.［單選題］根據泛在電力物聯網建設戰(zhàn)略安排，第二個階段是到。年，建成泛在電力物聯網。

A)2020

B)2021

02024

D)2025

答案:C

解析：

89.［單選題］哪個不是Flume的channel類型?

A)MemoryChannel

B)FileChannel

C)JDBCCHannel

D)HDFSChannel

答案:D

解析:

90.［單選題］python語句print(chr(65))的運行結果是。。

A)65

B)6

D)A

答案：D

解析：

91.［單選題］以下關于Hive和關系數據庫的區(qū)別描述錯誤的是()

A)Hive的查詢語言是HQL,關系型數據庫的查詢語言是SQL

B)Hive的數據格式是用戶定義，關系型數據庫的數據格式是系統(tǒng)決定

C)Hive可擴展性高，關系型數據庫可擴展性低

D)Hive的數據規(guī)模小，關系型數據庫的數據規(guī)模大

答案:D

解析：

92.［單選題］在Apriori算法中，候選項集劃分為不同的桶，存放在()中

A)字典

B)集合

OHash樹

D)列表

答案:C

解析：

93.［單選題］Numpy中對數組進行轉置的函數是()。

A)transpose()

B)rollaxis()

C)swapaxes()

D)tan()

答案:A

解析：transpose()對矩陣進行矩陣轉置，rollaxis()向后滾動指定的軸，swapaxes()對換數

組的兩個軸，tan()求三角函數，

291

94.［單選題］關于GaussDB200的兩種跨集群方式EC(ExtensionConnector)和FT(Foreign

Table),以下說法正確的是()?

A)在連接之前都要先做好集群互信操作。

B)EC配置簡單，理論上可以連接任何支持ODBC的同構/異構數據庫。

C)二者都可以充分利用GaussDB200的分布式計算能力。

D)FT配置復雜，只能支持GaussDB200同構數據庫。

答案:A

解析：

95.［單選題］Fusioninsight系統(tǒng)中，Flume數據流在單個節(jié)點內不需要經過哪個環(huán)節(jié)？

A)Source

B)Channel

OSink

D)topic

答案：D

解析：

96.［單選題］在Scipy中，想要生成20個服從正態(tài)分布的隨機數使用函數()。

A)stats,uniform,rvs(size=20)

B)stats,norm,rvs(size=20)

C)stats,beta.rvs(size=20)

D)stats,poisson.rvs(size=20)

答案:B

解析:uniform均勻分布，norm正態(tài)分布，beta貝塔分布，poisson泊松分布。

97.［單選題］下列是正確的變量名的是(__)。

A)if

B)char

C)input

D)IF

答案：D

解析：

98.［單選題］關于公民的隱私權，下面描述錯誤的是：()

A)修改權是隱私權利人具有的依法了解自身信息資料是否被行政主體利用的權利

B)支配權是隱私權利人的基本權利之一，隱私權利人對自己的個人信息的收集、儲存、傳播、使用

、開放等享有支配權

C)保障權是指公民有權要求政府在數據開放的過程中保障涉及其個人隱私的信息資料不被開放、不

被濫用和不被泄露

D)救濟權是公民在自身的合法權益受到侵害時，按照法定程序采取法律手段維護自身權益的權利

答案:A

解析：

99.［單選題］Maxcompute中負責對等待提交的task進行排序的模塊是：()。

A)scheduler

B)controller

C)executor

D)worker

答案:A

解析：

100.［單選題］不良信用記錄會在征信系統(tǒng)里保存（）年

A）1

B）3

C）5

D）10

答案:C

解析：

10L［單選題］關于正則化項，說法錯誤的是（）

A）、在機器學習中，如果單方面追求“誤差函數”的取值最小，則很容易造成機器學習

的“欠擬合”現象。

B）、”過擬合（Overfit）”就是目標函數在已知數據（如訓練集）上的擬合性能非常高

（如準確率達到100%）,而在未知數據（如測試集或新數據）上的擬合準確率低（如準

確率低于50%）□

C）、為了防止過擬合現象的出現，機器學習通常采取“正則化項”。

D）、正則化項有L1項（"Loss）和L2項（L2Loss）,二者的區(qū)別在于所涉及的距離計算

方法和回歸方法不同

答案:A

解析：

102.［單選題］數據變換的策略包括（）。

A）平滑處理、特征構造、聚集、標準化、離散化

B）平滑處理、特征構造、聚集、審計、離散化

C）平滑處理、聚集、標準化、審計、離散化

D）特征構造、聚集、標準化、審計、離散化

答案:A

解析:數據變換的策略不包括審計。

103.［單選題］TFTDF與該詞在整個語言中的出現次數成（_）。

A）正比

B）反比

C）無關

D）嘉次

答案:B

解析：

104.［單選題］Streaming主要通過zookeeper提供以下的（）實現事件偵聽。

A）分布式鎖機制

B）Watcher

C)Checkpoint

D)ACK

答案：B

解析：

105.［單選題］LSTM的全稱是()。

A)卷積神經網絡

B)長短時記憶

C)區(qū)域神經網絡

D)循環(huán)神經網絡

答案:B

解析：

106.［單選題］為了提高Kafka的容錯性，Kafka支持Partition的復制策略，以下關于Leader

Partition和FollowerPartition的描述錯誤的是

A)Kafka針對Partition的復制需要選出一個Leader。由該Leader負責Partition的讀寫操作

o其他的副本節(jié)點只是負責數據同步

B)由于LeaderServer承載了全部的請求壓力。因此從集群的整體考慮，Kafka會將Leader均衡的分

散在每個實例上，來確保數據均衡

C)一個Kafka集群各個節(jié)點間不可能互為Leader和Flower

D)如果Leader失效。那么將會有其他follower來接管答案：成為新的Leader

答案:C

解析：

107.［單選題］大數據在金融領域的應用不包括以下哪項？。

A)股票交易

B)市場情緒分析

C)信貸風險分析

D)大數據征信

答案:A

解析：

108.［單選題］執(zhí)行以下代碼段時tl=(1,2,4,3)t2=(1,2,3,4)print(tl<t2)時，輸出為

(一)o

A)True

B)False

C)Error

D)None

答案:B

解析：

109.［單選題］采集數據字典首先應該()。

A）啟動extractor

B）對數據庫用戶授權

C）配置連接信息

D）安裝驅動包

答案:A

解析：

110.［單選題］MaxCompute的Mapjoin不支持（）。

A）or連接關聯條件

B）不等職連接

C）fullouterjoin

D）等值連接

答案:C

解析：

111.［單選題］下面組件哪個是數據挖掘庫：（）

A）Zookeeper

B）Mahout

C）MySQL

D）HBase

答案:B

解析：

112.［單選題］大數據正快速發(fā)展為對數量巨大.來源分散.格式多樣的數據進行采集.存儲和關聯分析

,從中發(fā)現新知識.創(chuàng)造新價值.提升新能力的（）。

A）新一代技術平臺

B）新一代信息技術和服務業(yè)態(tài)

C）新一代服務業(yè)態(tài)

D）新一代信息技術

答案:B

解析：

113.［單選題］下列Python語法表述不正確的是

A）if語句的第二行必須有縮進

B）while語句的第二行必須有縮進

C）else后不加冒號

D）while循環(huán)語句的條件之后必須有冒號

答案:C

解析：

114.［單選題］為了防止個人信息泄露，下列做法不正確的是（）o

A）關閉電腦攝像頭

B）不下載不明APP

C）抖音發(fā)布個人地址

D）手機設置多重密碼

答案:C

解析：

115.［單選題］下對GaussDB200雙AZ集群描述不正確是？

A）災備集群不同步數據時，可以提供讀寫服務

B）主集群不可用時，災備集群提供正常服務

C）主集群提供正常服務，文備集群只同步數據

D）周期性數據同步

答案:A

解析：

116.［單選題］關于過擬合下面說法錯誤的是（）

A）過擬合是可以避免的

B）過擬合是訓練過度使泛化能力下降

C）相比過擬合，欠擬合比較容易解決

D）根據少量訓練記錄做出分類決策的模型也容易受過分擬合的影響

答案:A

解析：

117.［單選題］根據《大數據風控平臺項目操作手冊》，財務智能分析中的財務科目異動分析模塊

，點擊（）可切換變化率的兩種計算方式（選擇該期財報科目的去年同比值或與今年年初的比較值

）O

A）合并/本部

B）B.按報告期/按年度切換

OC.同比變化率/比年初變化率

D）D.以上都不對

答案:C

解析：

118.［單選題］下列對于Sigmoid函數的說法，錯誤的是（）

A）存在梯度爆炸的問題

B）不是關于原點對稱

C）計算exp比較耗時

D）存在梯度消失的問題

答案：A

解析：

119.［單選題］數據產品的定義是（）。

A）數據產品是指能夠供給市場，被人們使用和消費，并能滿足人們某種需求的任何東西

B）數據產品是可以發(fā)揮數據價值去輔助用戶更優(yōu)地做決策（甚至行動）的一種產品形式

C）數據產品是指為了滿足自身的需要，通過科技發(fā)明或經驗總結而形成的技術

D）數據產品是數據科學的結果，創(chuàng)造了新的實物形態(tài)和使用價值的產品。

答案:B

解析：

120.［單選題］大數據的最顯著特征是（）。

A）數據規(guī)模大

B）數據類型多樣

C）數據處理速度快

D）數據價值密度高

答案:A

解析：

121.［單選題］池化層的作用是（）o

A）標準化處理輸入特征

B）對特征圖進行特征選擇和信息過濾

C）對提取的特征進行非線性組合以得到輸出

D）直接輸出每個像素的分類結果

答案:B

解析：

122.［單選題］python語句s=，hello'；print（s［l：3］）輸出結果是。（）

A）hel

B）he

Oell

D）el

答案:D

解析：

123.［單選題］（一）代表了Oracle數據庫中最小粒度的邏輯數據存儲層次。

A）表空間

B）盤區(qū)

C）數據文件

D）數據塊

答案:D

解析：

124.［單選題］假設您已在數據集上擬合了一個復雜的回歸模型?，F在，您正在使用Ridge回歸，并調

整參數人以減少其復雜性。下面的描述哪個表達了偏差和方差與人的關系（）。

A）在人非常小的情況下，偏差低，方差低

B）在人非常小的情況下，偏差低，方差高

C）在人非常小的情況下，偏差高，方差低

D）在人非常小的情況下，偏差低，方差低

答案：B

解析：人很小，則意味著模型比較復雜，在這種情況下，會產生偏差低且方差高的結果，模型會對數據過

擬合。

125.［單選題］閱讀下列程序defe_check（n）：t=Oif（n>500）：t=nO.9elif（n

>200）：t=n0.7else：t=n0.6returntprint（"電費："，e_check（100））運行結果是

A）電費：90

B）電費：80

C）電費：60

D）以上都不對

答案:C

解析：

126.［單選題］（）就是“平臺提供的數據超過一定規(guī)模后，產生的用戶交互會越少”。

A）逆向互作用定律

B）最小數據原則

C）最大交互原則

D）數據-交互平衡原則

答案:A

解析：

127.［單選題］下面哪個Flume功能可以給Event添加Header信息。

A）數倉與大數據的并行架構

B）低成本高擴震性的傳統(tǒng)數倉架構

C）以數倉為核心，大數據平臺為延伸的融合架構

D）大數據平臺為核心的架構

答案:C

解析：

128.［單選題］數據故事話的‘情景'不包括（）。

A）還原情景

B）統(tǒng)計情景

C）移植情景

D）虛構情景

答案:B

解析：

129.［單選題］（）反映數據的精細化程度，越細化的數據，價值越高。

A）規(guī)模

B）活性

C)關聯度

D)顆粒度

答案:D

解析：

130.［單選題］載入和保存matlab文件的方法在scipy的()模塊中。

A)scipy.cluster

B)scipy.io

C)scipy.constants

D)scipy.linalg

答案:B

解析：

131.［單選題］關于Redis集群拓撲信息，下面描述正確的是：()。

A)客戶端緩存有集群的拓撲信息

B)服務端緩存有集群的拓撲信息

C)兩者都是

D)兩者多不是

答案:C

解析：

132.［單選題］根據《大數據風控平臺項目操作手冊》，系統(tǒng)在【審查審批管理】一級菜單下增加【

征信報告審批】二級菜單，審批人員可在此菜單下的()節(jié)點查看已審批批準的征信報告查詢申請

A)待處理

B)B.審批批準

OC.審批否決

D)D.以上都不對

答案：B

解析：

133.［單選題］如果使用split分割字符串，返回的數據類型是

A)list

B)str

C)int

D)float

答案:A

解析：

134.［單選題］下列選項描述錯誤的是？()

A)HadoopHA即集群中包含SecondaryNameNode作為備份節(jié)點存在。

B)ResourceManager負責的是整個Yarn集群資源的監(jiān)控、分配和管理工作

C）NodeManager負責定時的向ResourceManager匯報所在節(jié)點的資源使用情況以及接收并處理來自

ApplicationMaster的啟動停止容器（Container）的各種請求。

D）初次啟動HadoopHA集群時，需要將格式化文件系統(tǒng)后的目錄拷貝至另外一臺

答案:A

解析：

135.［單選題］np.eye（2）函數的作用是（）。

A）輸出一個全都是0的數組

B）輸出一個全都是1的數組

C）輸出一個全都是2的數組

D）輸出一個二維單位矩陣

答案:D

解析:np.eye（）的作用是創(chuàng)建單位矩陣。

136.［單選題］根據《大數據風控平臺項目操作手冊》，財務智能分析中的上市公司行業(yè)標準值比對

模塊，上市公司行業(yè)標準值比對僅提供（）的標準值比對，不區(qū)分大型行業(yè)、中型行業(yè)、小型行業(yè)

A）全行業(yè)

B）B.大型行業(yè)

0C.中型行業(yè)

D）D.小型行業(yè)

答案：A

解析：

137.［單選題］數據使用環(huán)節(jié)的安全技術措施除防火墻、（）、防病毒、防DDOS、漏洞檢測等網絡

安全防護技術措施外，還需實現以下安全技術能力：賬號權限管理、數據安全域、數據脫敏、日志

管理和審計、異常行為實時監(jiān)控和終端數據防泄漏。

A）入侵檢測

B）病毒檢測

C）程序檢測

D）進程檢測

答案:A

解析:數據使用環(huán)節(jié)的安全技術措施除防火墻、入侵檢測、防病毒、防DDOS、漏洞檢測等網絡安全

防護技術措施外，還需實現以下安全技術能力：賬號權限管理、數據安全域、數據脫敏、日志管理

和審計、異常行為實時監(jiān)控和終端數據防泄漏。

138.［單選題］以某一圖表中的項為單位對關聯圖表進行數據篩選，建立圖表間聯動關系的功能是？（

）

A）全局篩選

B）計量單位

C）圖表聯動

D）數據凸顯

答案:c

解析：

139.［單選題］下列語句描述錯誤的是（）

A）可以通過CLI方式、Java

B）Sqoop底層會將Sqoop命令轉換為MapReduce任務，并通過Sqoop連接器進行數據的導入導出操作。

OSqoop是獨立的數據遷移工具，可以在任何系統(tǒng)上執(zhí)行。

D）如果在Hadoop分布式集群環(huán)境下，連接MySQL服務器參數不能是localhost或127.0.0.1。

答案:C

解析：

140.［單選題］（_）不是遺傳算法基本算子。

A）選擇

B）感染

C）突變

D）交叉

答案：B

解析：

141.［單選題］使用MaxcomputeSQL：createtabletlliket2；建表時，表tl不會具有表t2的（

）屬性。

A）分區(qū)

B）生命周期

C）二級分區(qū)

D）字段的注釋

答案:B

解析：

142.［單選題］關于KNN說法錯誤的是（）

A）、為尋找k個最近的鄰居

B）、當一個樣本在特征空間中的k個最相鄰的樣本中的大多數都屬于某一個類別時，該

29樣本也屬于這個類別，并具有這個類別上樣本的特性。

C）、該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分類樣

本所屬的類別。

D）、KNN算法主要靠判別類域的方法來確定所屬類別。

答案:D

解析：

143.［單選題］GoogleAPP為人們提供的云計算服務屬于下面哪種服務？

A）SaaS

B）PaaS

C）laaS

D）DaaS

答案:A

解析：

144.［單選題］在HDFS的數據讀取過程中，客戶端讀取完所有數據塊后，調用（）的close。接口關閉

這個文件。

A）DistributedFileSystem

B）FSDatalnputStream

C）FSDataOutputStream

D）InputSystem

答案:B

解析：

145.［單選題］HBase底層依賴于Hadoop環(huán)境，它們是基于（）系統(tǒng)開發(fā)的

A）windows7

B）Unix/Linux

C）XP

D）windows10

答案：B

解析：

146.［單選題］信息增益對可取值數目（）的屬性有所偏好，增益率對可取值數目（）的屬性有所偏好

A）較高，較高

B）較高，較低

C）較低，較高

D）較低，較低

答案:B

解析：

147.［單選題］下列描述中不屬于數據治理內容的是（）。

A）理解自己的數據

B）行為規(guī)范的制定

C）崗位職責的定義

D）獲得更多的數據

答案:D

解析：獲得更多的數據不屬于數據治理。

148.［單選題］大數據涌現現象的形式有多種，不屬于大數據涌現形式的是（）。

A）價值涌現

B）隱私涌現

C）物質涌現

D）質量涌現

答案:c

解析：

149.［單選題］Hadoop環(huán)境下HDFS系統(tǒng)中的NameNode實現的功能是（）。

A）管理文件系統(tǒng)的命名空間

B）管理存儲空間

C）分配算力

D）調控算法

答案:A

解析:NameNode負責管理文件系統(tǒng)的命名空間。

150.［單選題］決策樹的基本流程遵循（_）的策略。

A）貪心

B）最優(yōu)化

C）分而治之

D）順序

答案:C

解析：

151.［單選題］下列關于GaussDB200的數據類型轉換說法正確的是。

A）如果需要保留空字符串時，需要新建兼容性為Postgres的數據庫。

B）在查詢中，對常量不需要顯式指定數據類型。

C）在ORACLE兼容模式下，在導入數據時，空字符串會自動過濾。

D）不同數據類型比較或轉換時，使用強制類型轉換，以防隱式類型轉換結果與預期不符。

答案：D

解析：

152.［單選題］以下變量名中不是關鍵字的是（一）。

A）message

B）nonlocal

C）assert

D）lambda

答案:A

解析：

153.［單選題］FusioninsightHD部署時，同一集群內的Flumeserve節(jié)點建議至少部署幾個

A）1

B）2

D）4

答案：B

解析：

154.［單選題］下面關于政府信息公開與政府數據開放的描述，錯誤的是：()

A)政府信息公開與政府數據開放是一對既相互區(qū)別又相互聯系的概念

B)信息是沒有經過任何加工與解讀的原始記錄，沒有明確的含義，而數據則是經過加工處理并被賦

予一定含義的

C)政府信息公開主要是為了對公眾知情權的滿足而出現的

D)政府數據開放強調的是數據的再利用，公眾可以分享數據利用創(chuàng)造的經濟和社會價值

答案:B

解析：

155.［單選題］現實中往往會遇到“不完整”的訓練樣本，在這種存在屬性變量值未知的情形下，可

用(_)?

A)邊際似然

B)EM算法

C)貝葉斯決策

D)貝葉斯分類器

答案:B

解析：

156.［單選題］下面哪個操作肯定是寬依賴()

A)map

B)flatMap

C)reduceByKey

D)sample

答案:C

解析：

157.［單選題］下列關于數據交易市場的說法中，錯的是()o

A)數據交易市場是大數據產業(yè)發(fā)展到一定程度的產物

B)商業(yè)化的數據交易活動催生了多方參與的第三方數據交易市場

C)數據交易市場通過生產數據、研發(fā)和分析數據，為數據交易提供幫助

D)數據交易市場是大數據資源化的必然產物

答案:C

解析：

158.［單選題］利用到每個聚類中心和的遠近判斷離群值的方法，可以基于的算法為0。

A)K-means

B)KNN

C)SVM

D)LinearRegression

答案:A

解析:K-means算法又名K均值算法。其算法思想大致為先從樣本集中隨機選取k個樣本作為簇中心，并

計算所有樣本與這k個"簇中心"的距離，對于每一個樣本，將其劃分到與其距離最近的"簇中心"所在的

簇中，對于新的簇計算各個簇的新的"簇中心"。

159.［單選題］任一隨機事件出現的概率P為()。

A)TWP<1

B)P<0

C)P21

D)OWPW1

答案：D

解析：如果沒有其他的附加條件，一般概率P的取值范圍是0WPW1。P=0代表不可能發(fā)生，P=1

代表一定會發(fā)生。

160.［單選題］當原始數據的存在形式不符合目標算法的要求時，需要對原始數據進行(_)。

A)數據變換

B)數據加工

C)數據清洗

D)數據集成

答案:A

解析：

161.［單選題］下列對數據定義語言(DDL)描述正確的是(—)。

A)DDL關心的是數據庫中的數據

B)完成數據的增刪改查操作

C)控制對數據庫的訪問

D)定義數據庫的結構

答案:D

解析：

162.［單選題］Shark與SparkSQL的關系是：()

A)二者沒有任何關系

B)Shark是Spark

C)Spark

D)二者是一個軟件的兩個不同名稱，本質上是一個東西

答案:B

解析：

163.［單選題］打開一個已有文件，在文件末尾添加信息，正確的打開方式為()。

A)r

B)w

C)a

D)w+

答案:C

解析:

164.［單選題］Loader作業(yè)運行前后，需要保證哪些節(jié)點與外部數據源通訊？

A）Loader進程所在的節(jié)點

B）運行MapReduce作業(yè)的節(jié)點

C）前面兩個都需要

D）前面兩個都不需要

答案:C

解析：

165.［單選題］基于Boosting的集成學習代表算法有（）

A）Adaboost

B）GBDT

OXGB00ST

D）隨機森林

答案:D

解析：

166.［單選題］著名的C4.5決策樹算法使用（_）來選擇最優(yōu)劃分屬性。

A）信息增益

B）增益率

C）基尼指數

D）均值

答案:B

解析：

167.［單選題］kafka-clustermirroring工具可以實現以下那些功能？

A）kafka集群數據同步方案

B）kafka單集群內數據備份

Okafka單集群內數據恢復

D）以全部不對

答案:A

解析：

168.［單選題］下面關于詞袋模型的說法，錯誤的是（）

A）飼袋模型使用一個多重集對文本中出現的單詞進行編碼

B）詞袋模型不考慮詞語原本在句子中的順序

C）詞袋模型可以應用于文檔分類和檢索，同時受到編碼信息的限制

D）飼袋模型產生的靈感來源于包含類似單坷的文檔經常有相似的含義

答案:C

解析：

169.［單選題］關于ADS中的ECU,（）說法是正確的。

A）接入節(jié)點和計算節(jié)點可以指定不同類型的ECU,并且需要在創(chuàng)建DB時就確定，DB一旦創(chuàng)建，ECU類

型不能修改

B）ECU的數量，在DB創(chuàng)建后可以修改。即使在DB的使用過程中，也可以隨時調整（擴容或者縮容）

C）接入節(jié)點和計算節(jié)點必須指定相同類型的ECU,并且需要在創(chuàng)建DB時就確定，DB一旦創(chuàng)建，ECU類

型不能修改

D）創(chuàng)建DB時可以指定ECU的數量，必須為偶數，最小為4

答案:B

解析：

170.［單選題］在方差分析中，（）反映的是樣本數據與其組平均值的差異。

A）總離差

B）組間誤差

C）抽樣誤差

D）組內誤差

答案:D

解析:組內誤差是來自樣本內部數據之間的隨機誤差，它反映了樣本數據自身的差異程度；組間誤差由

因子的不同處理造成的處理誤差和抽樣的隨機誤差組成，反映了不同樣本之間數據的差異程度。

171.［單選題］以下不屬于數據科學的研究目的的是（一）。

A）大數據及其運動規(guī)律的揭示

B）從數據到智慧的轉化

C）數據解釋

D）數據驅動型決策支持

答案:C

解析：

172.［單選題］YARN的基于標準調度，是對下列選項中的哪個進行標簽化？

A）AppMaster

B）ResourceManager

C）NodeManager

D）Container

答案:C

解析：

173.［單選題］使用sklearn中的留一法對大小為n的數據進行交叉驗證時，需要（_）次模型訓練。

A）n-2

B）n-1

C）n

D）1

答案:C

解析：

174.［單選題］決策樹模型的規(guī)模應當是()

A)越復雜越好

B)越簡單越好

C)適當限制其復雜程度

D)盡可能利用所有特征

答案:C

解析：

175.［單選題］以下程序輸出到文件text,csv里的結果是：fo=open("text.csv",'w')x=

［90,87,93］fo.write(",join(str(x)))fo.close()

A)［90,87,93］

B)90,87,93

0,9,0,,,,8,7,,,,9,3,

D)［,9,0,,,,8,7,,,,9,3,］

答案:D

解析：

176.［單選題］當我們需要在一張圖表中特意指出某個特殊點，并加上標注達到醒目的目的時，需要

用到()函數。

A)pit.axvspan()

B)pit.axhspan()

C)plt.annotate()

D)pit.text()

答案:C

解析:annotate()函數為圖的某個位置添加注解。

310

177.［單選題］大數據計算服務支持基于標簽的安全，它是項目空間級別的一種強制訪問控制策略

,它的引入是為了讓項目空間管理員能更加靈活地控制用戶對敏感數據的訪問。LabelSecurity可以

對敏感數據的()粒度進行控制。

A)分區(qū)

B)表

C)列

D)行

答案:C

解析：

178.［單選題］數據集成的基本類型是()。

A)內容集成、結構集成

B)內容集成、規(guī)約集成

C)規(guī)約集成、結構集成

D）模式集成、結構集成

答案:A

解析：數據集成是指通過應用間的數據交換從而達到集成，主要解決數據的分布性和異構性的問題

,其前提是被集成應用必須公開數據結構，即必須公開表間結構、表間關系、編碼的含義等。

179.［單選題］特征工程的目的是（）。

A）找到最合適的算法

B）得到最好的輸入數據

C）減低模型復雜度

D）加快計算速度

答案:B

解析：特征工程的目的是篩選出更好的特征，獲取更好的訓練數據。

180.［單選題］在Flink的運行過程中，負責申請資源的角色是：（）。

A）ResourceManager

B）JobManager

C）Client

D）TaskManager

答案：B

解析：

181.［單選題］以下描述不正確的是（_）。

A）平滑處理是為了去掉噪聲

B）聚集是進行粗粒度計算

C）標準化是用區(qū)間或概念標簽表示數據

D）特征構造是構造出新的特征

答案:C

解析：

182.［單選題］大數據對影視行業(yè)的影響不包括下列哪項？（）

A）利用大數據對海量用戶數據進行分析，幫助投資方做出明智的選擇

B）了解用戶當前關注的題材，以便覺得拍什么作品

C）業(yè)內人士根據多年的市場經驗分析觀眾認可的作品類型

D）了解觀眾追棒的明星，邀請合適的演員

答案:C

解析：

183.［單選題］以下說法對的是：（）

A）當前云公司提供的公有云存儲只能通過互聯網訪問

B）對象存儲不可以在客戶機房建設

C）對象存儲可以存儲數據庫數據

D）客戶數據傳輸慢與客戶開通的資源池帶寬大小有關系

答案:A

解析：

184.［單選題］萬維網的實施國家是（）

A）英國

B）美國

C）德國

D）印度

答案：B

解析：

185.［單選題］決策樹中的葉結點對應于（）。

A）屬性

B）樣本

C）決策結果

D）標簽值

答案:C

解析：

186.［單選題］關于層次聚類算法:①不斷重復直到達到預設的聚類簇數;②不斷合并距離最近的聚類

簇;③對初始聚類簇和相應的距離矩陣初始化;④對合并得到的聚類簇進行更新正確的執(zhí)行順序為（）

A）①②③④

B）①③②④

C）③②④①

D）③④①②

答案:C

解析：

187.［單選題］關于Hive與傳統(tǒng)數據倉庫的對比，下列描述錯誤的是：（）。

A）Hive元數據存儲獨立于數據存儲之外，從而解耦合元數據和數據，靈活性高，二傳統(tǒng)數據倉庫數

據應用單一，靈活性低

B）Hive基于HDFS存儲，理論上存儲可以無限擴容，而傳統(tǒng)數據倉庫存儲量有上限

C）由于Hive的數據存儲在HDFS上，所以可以保證數據的高容錯，高可靠

D）由于Hive基于大數據平臺，所以查詢效率比傳統(tǒng)數據倉庫快

答案:D

解析：

188.［單選題］傅里葉變換得到的頻譜中，低頻系數對應于（）o

A）物體邊緣

B）噪聲

C）變化平緩部分

D）變化劇烈部分

答案:c

解析：

189.［單選題］下列關于線性模型的描述錯誤的是（）。

A）支持向量機的判別函數一定屬于線性函數

B）在樣本為某些分布情況時，線性判別函數可以成為最小錯誤率或最小風險意義

下的最優(yōu)分類器

C）在一般情況下，線性分類器只能是次優(yōu)分類器

D）線性分類器簡單而且在很多期情況下效果接近最優(yōu)，所以應用比較廣泛

答案:A

解析:支持向量機的判別函數不一定是線性函數。

190.［單選題］下列哪些不屬于詞袋模型的應用？

A）文檔分類

B）提取文章主題

C）文本向量化

D）統(tǒng)計詞頻

答案:D

解析：

191.［單選題］在Hive的連接查詢中，內連接通過關鍵字（）進行標識

A）innerjoin

B）leftouterjoin

C）rightouterjoin

D）fullouterjoin

答案:A

解析：

192.［單選題］檢測一元正態(tài)分布中的離群點，屬于異常檢測中的基于（）的離群點檢測。

A）統(tǒng)計方法

B）鄰近皮

C）密度

D）機器學習技術

答案:A

解析：

193.［單選題］執(zhí)行以下代碼段t=（1,2）print（2*t）時，輸出為（—

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數據開發(fā)基礎練習題及答案16-2023-背題版

文檔簡介

溫馨提示

最新文檔

評論

大數據開發(fā)基礎練習題及答案16-2023-背題版

文檔簡介

溫馨提示

最新文檔

評論

相關文檔