2023年大數(shù)據(jù)應用技能競賽考試題庫（精簡500題）

上傳人：奔*** IP屬地：河北上傳時間：2024-09-19 格式：PDF 頁數(shù)：137 大小：17.69MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩132頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

2023年大數(shù)據(jù)應用技能競賽考試題庫(精簡500題)

一、單選題

1.random庫中用于生成隨機小數(shù)的函數(shù)是()。

Avrandom()

B、randint()

C\getrandbits()

D、randrange()

答案：A

2.以下哪些方法不可以直接來對文本分類()

AxKmeans

B、決策樹

C、支持向量機

D、KNN

答案：A

3.下列哪些不是目前機器學習所面臨的問題是()。

A、測試集的規(guī)模

B、維度災難

C、特征工程

D、過擬合

答案：A

4.卷積神經(jīng)網(wǎng)絡能通過卷積以及池化等操作將不同種類的鳥歸為一類。關(guān)于卷積

神經(jīng)網(wǎng)絡能達到該效果的原因,下列說法不正確的是0。

A、同樣模式的內(nèi)容(如鳥嘴)在圖像不同位置可能出現(xiàn)

B、池化之后的圖像主體內(nèi)容基本不變

C、不同種類鳥的相同部位(如鳥嘴)形狀相似

D、池化作用能使不同種類鳥變得相似

答案：D

5.關(guān)于正態(tài)分布,下列說法錯誤的是()。

A、正態(tài)分布具有集中性和對稱性

B、正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)

C、正態(tài)分布的偏度為0,峰度為1

D、標準正態(tài)分布的均值為0,方差為1

答案：C

6.以下代碼的輸出結(jié)果為0。ImportnumpyasnpA=np.array([-1.7,1.5,-0.2,0.

6,10])Print(np.ceiI(a))

A、[-1.71.5-0.20.610.]

B、[-2.10.]

C、[-1.71.5-0.20.610.]

D、[-1.2.-0.1.10.]

答案：D

7.下面說法錯誤的是0。

A、可以利用統(tǒng)計量對缺失值進行填補

B、可以利用K近鄰值對缺失值進行填補

C、只要有缺失值就必須把對應記錄刪除

D、對于缺失值較多的屬性可以考慮刪除

答案：C

8.以下()屬于NoSQL數(shù)據(jù)庫中Key-VaIue的缺點。

A、數(shù)據(jù)無結(jié)構(gòu)

B、查詢性能不高，缺乏統(tǒng)一查詢語法

C、功能相對有限

D、功能相對有限不易于做分布式集群

答案：A

9.以下關(guān)于新舊MapReduceAPI的描述錯誤的是()

Av新API放在org.apache,hadoop.mapreduce包中，而舊API則是放在org.apa

che.hadoop.mapred中

B、新API傾向于使用接口方式，而舊API傾向于使用抽象類

G新API使用Configuration,而舊API使用JobConf來傳遞配置信息

D、新API可以使用Job對象來提交作業(yè)

答案：B

10.ordinaIencoder將屬性轉(zhuǎn)化為()。

A、獨熱編碼

B、附帶特性的數(shù)字

C、二進制編碼

D、ASCII碼

答案：B

11.在Iinux下預裝了Python2,Python3且默認Python版本為Python3,下列描

述可以正確啟動Python有()。

Ax在Iinux應用程序Terminal,打開一個終端窗口。輸入whichPython

B、在Iinux應用程序TerminaI,打開一個終端窗口。輸入Python2或Python3

C、在Iinux應用程序Terminal,打開一個終端窗口。輸入whichPythor)3

D、在Iinux應用程序Terminal,打開一個終端窗口。輸入輸入whichPython2

答案:B

12.以下可以應用關(guān)鍵詞提取的是()。

A、文獻檢索

B、自動文摘

C、文本聚類/分類

D、以上答案都正確

答案：D

13.下面哪一項用決策樹法訓練大量數(shù)據(jù)集最節(jié)約時間()o

A、增加樹的深度

B、增加學習率

C、減少數(shù)的深度

D、減少樹的個數(shù)

答案：C

14.大數(shù)據(jù)環(huán)境下的隱私擔憂,主要表現(xiàn)為()

A、人信息的被識別與暴露

B、戶畫像的生成

C、意廣告的推送

D、毒入侵

答案：A

15.下列關(guān)于RNN說法正確的是(_)o

A、RNN可以應用在NLP領(lǐng)域

B、LSTM是RNN的一個變種

C、在RNN中一個序列當前的輸出與前面的輸出也有關(guān)

D、以上答案都正確

答案：D

16.np.Iinalg.svd()函數(shù)可以實現(xiàn)()功能。

A、計算協(xié)方差矩陣

B、實現(xiàn)奇異值分解

C、計算方差

D、計算均值；

答案：B

17.k-NN最近鄰方法在什么情況下效果較好0

A、樣本較多但典型性不好

B、樣本較少但典型性好

C、樣本呈團狀分布

D、樣本呈鏈狀分布

答案：B

18.當0時,可以不考慮RDD序列化處理。

A、完成成本比較高的操作后

B、執(zhí)行容易失敗的操作之前

C、RDD被重復利用

D、實時性要求高

答案：D

19.數(shù)據(jù)探索是指針對目標可變、持續(xù)、多角度的搜索或分析任務,下列哪項不是

其搜索過程的特點()。

Ax有選擇

B、有策略

C、有目標

D、反復進行的

答案：C

20.下列關(guān)于數(shù)據(jù)科學流程與方法的描述中，錯誤的是0。

A、數(shù)據(jù)科學的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)x

數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見、結(jié)果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供

B、對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過清洗成為規(guī)整數(shù)據(jù)

C、數(shù)據(jù)分析包括描述性分析、診斷性分析、預測性分析和規(guī)范性分析

D、數(shù)據(jù)可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺

假象

答案：B

21.彩色圖像增強時，()處理可以采用RGBO

A、直方圖均衡化

B、同態(tài)濾波

C、加權(quán)均值濾波

D、中值濾波

答案：C

22.以下關(guān)于pandas中g(shù)roupby方法說法正確的是0。

A、groupby能夠?qū)崿F(xiàn)分組聚合

B、groupby方法的結(jié)果能夠直接查看

C、groupby是pandas提供的一個用來分組的方法

D、groupby方法是pandas提供的一個用來聚合的方法

答案：C

23.MapReduce編程模型,鍵值對&It;key,vaIue>的key必須實現(xiàn)哪個接口0

AxWritabIeparable;

B、parable;

C、Writable;

D、LongWritabIe;

答案：A

24.下列()不是神經(jīng)網(wǎng)絡的代表。

A、卷積神經(jīng)網(wǎng)絡

B、遞歸神經(jīng)網(wǎng)絡

C、殘差網(wǎng)絡

D、xgboost算法

答案：D

25.某籃運動員在三分線投球的命中率是2(1),他投球10次，恰好投進3個球的

概率()。

A、128(15)

B、16(3)

C、8(5)

Dv16(7)

答案:A

26.標準正態(tài)分布的均數(shù)與標準差是0。

A、0,1

B、1,0

C、0,0

D、1,1

答案：A

27.為提高計算性能,Spark中Transformation操作采用的是()計算模式。

A、活性

B、惰性

C、實時

D、非實時

答案：B

28.matpIotIib中的step函數(shù)繪制的是什么圖()。

A、階梯圖

B、直方圖

C、間斷條形圖

D、堆積折線圖

答案：A

29.下面()負責MapReduce任務調(diào)度。

AvNameNode

B、Jobtracker

C\TaskTracker

D、secondaryNameNode

答案：B

30.()計算框架源自一種分布式計算模型，其輸入和輸出值均為“鍵-值對”結(jié)構(gòu)。

AxMahout

B、MapReduce

C、Spark

D、Sqoop

答案：B

31.Hadoop中biner()函數(shù)的功能是0。

A、數(shù)據(jù)排序

B、數(shù)據(jù)標記

C、數(shù)據(jù)分析

D、數(shù)據(jù)合并

答案：D

32.假設(shè)函數(shù)中不包括global保留字,對于改變參數(shù)值的方法，以下選項中錯誤

的是()。

A、參數(shù)是列表類型時，改變原參數(shù)的值

B、參數(shù)的值是否改變與函數(shù)中對變量的操作有關(guān),與參數(shù)類型無關(guān)

C、參數(shù)是整數(shù)類型時,不改變原參數(shù)的值

D、參數(shù)是組合類型(可變對象)時，改變原參數(shù)的值

答案：B

33.下面哪個屬于映射數(shù)據(jù)到新的空間的方法()。

A、傅立葉變換

B、特征加權(quán)

C、漸進抽樣

D、維歸約

答案：A

34.下列關(guān)于運算符優(yōu)先級的說法中，不正確的一個是0。

A、運算符按照優(yōu)先級順序表進行運算

B、同一優(yōu)先級的運算符在表達式中都是按照從左到右的順序進行運算的

C、同一優(yōu)先級的運算符在表達式中都是按照從右到左的順序進行運算的

D、括號可以改變運算的優(yōu)先次序

答案：C

35.matpIotIib中的legend函數(shù)作用是什么()。

A、設(shè)置標簽文本

B、繪制網(wǎng)格線

Cx標示不同圖形的文本標簽圖例

D、設(shè)置x軸的數(shù)值顯示范圍

答案：C

36.為了降低MapReduce兩個階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對map階段

的輸出進行處理。

A、sort()

B、biner()

C、join()

D、gather()

答案：B

37.以下不屬于有監(jiān)督的詞義消歧方法的是()。

A、Flip-Flop算法

B、貝葉斯分類器

C、最大熔消歧

D、基于詞典的消歧

答案：D

38.如果我們說線性回歸模型完美地擬合了訓練樣本(訓練樣本誤差為零)，則下

面哪個說法是正確的()

A、測試樣本誤差始終為零

B、測試樣本誤差不可能為零

C、以上答案都不對

答案：C

39.視覺通道表現(xiàn)力評價指標不包括0。

A、精確性

B、可辨認性

C、可分離性

D、可轉(zhuǎn)換性

答案：D

40.下列哪個不是RDD的緩存方法()

Axpersist

B、cache

C、Memory

D、以上答案都正確

答案：C

41.下列算法中，不屬于外推法的是()。

A、移動平均法

B、回歸分析法

C、指數(shù)平滑法

D、季節(jié)指數(shù)法

答案：B

42.關(guān)于臟數(shù)據(jù)和亂數(shù)據(jù)的區(qū)分，以下哪種不屬于臟數(shù)據(jù)()。

A、含有缺失數(shù)據(jù)

B、冗余數(shù)據(jù)

C、噪聲數(shù)據(jù)

D、不規(guī)則形態(tài)數(shù)據(jù)

答案：D

43.數(shù)據(jù)集成的基本類型。

A、內(nèi)容集成結(jié)構(gòu)集成

B、內(nèi)容集成規(guī)約集成

C、規(guī)約集成結(jié)構(gòu)集成

D、模式集成結(jié)構(gòu)集成參

答案：A

44.隨機森林與Bagging中基學習器多樣性的區(qū)別是0。

A、都來自樣本擾動

B、都來自屬性擾動

C、來自樣本擾動和自屬性擾動

D、多樣本集結(jié)合

答案：C

45.RDD默認的存儲級別是()

A、MEMORY_ONLY

B、MEMORY_ONLY_SER

C、MEMORY_AND,DISK

D、MEMORY_AND_DISK_SER

答案：A

46.下列哪種算法可以用神經(jīng)網(wǎng)絡構(gòu)建？(_)1.K-NN最近鄰算法2.線性回歸3.邏

輯回歸

A、1and2

B、2and3

C\1,2and3

D、Noneoftheabove

答案：B

47.()的主要目標是提供可擴展的機器學習算法及其實現(xiàn)，旨在幫助開發(fā)人員更

加方便快捷地創(chuàng)建智能應用程序。

AxMahout

B、FIume

C、Sqoop

D、HBase

答案：A

48.下列關(guān)于LSTM說法錯誤的是(_)o

A、LSTM中存在sigmoid函數(shù)

B、LSTM中存在tanh函數(shù)

C、LSTM又稱長短時記憶網(wǎng)絡

D、RNN是LSTM的變種

答案：D

49.在集成學習中,對于數(shù)據(jù)型輸出，最常見的結(jié)合策略是0。

A、平均法

B、投票法

C、學習法

D、以上答案都正確

答案：A

50.以下關(guān)于Hadoop中MapReduce說法正確的是()。

A、可以沒有reduce任務

B、Reducer輸入為隨機輸入

C、shuffle主要實現(xiàn)數(shù)據(jù)可視化功能

D、一個reducer只能從一個map復制所需要的partition

答案：A

51.對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,下列說法正確

的是()。

A、需要將這些樣本全部強制轉(zhuǎn)換為支持向量

B、需要將這些樣本中可以轉(zhuǎn)化的樣本轉(zhuǎn)換為支持向量,不能轉(zhuǎn)換的直接刪除

C、移去或者減少這些樣本對分類結(jié)果沒有影響

D、以上都不對

答案：C

52.以下哪個數(shù)據(jù)類型不可以作為索引對數(shù)組進行選取()。

Axboolean

B、tupIe

C\dict

D、int

答案：C

53.如果我們現(xiàn)有一個安裝2.6.5版本的hadoop集群,在不修改默認配置的情況

下存儲200個每個200M的文本文件,請問最終會在集群中產(chǎn)生多少個數(shù)據(jù)塊(包

括副本)()

A、200

B、40000

C、400

D、1200

答案：D

54.數(shù)據(jù)科學家可能會同時使用多個算法(模型)進行預測,并且最后把這些算法

的結(jié)果集成起來進行最后的預測(集成學習)，以下對集成學習說法正確的是()。

A、單個模型之間具有高相關(guān)性

B、單個模型之間具有低相關(guān)性

C、在集成學習中使用“平均權(quán)重”而不是“投票”會比較好

D、單個模型都是用的一個算法

答案：B

55.(假設(shè)precision=TP/(TP+FP),recalI=TP/(TP+FN))在二分類問題中，當測試

集的正例和負例數(shù)量不均衡時,以下評價方案哪個是相對不合理的()。

A、Accuracy:(TP+TN)/alI

BxF-vaIue:2recaIIprecision/(recaIl+precision)

C、G-mean:sqrt(precision*recaII)

D、AUC:曲線下面積

答案：A

56.以下濾波器對圖像中的椒鹽噪聲濾波效果最好的是()。

A、中值濾波

B、均值濾波

C、最大值濾波

D、最小值濾波

答案：A

57.若建立一個5000個特征,100萬數(shù)據(jù)的機器學習模型，則應該怎么有效地應對

這樣的大數(shù)據(jù)訓練()。

A、隨機抽取一些樣本,在這些少量樣本之上訓練

B、可以試用在線機器學習算法

C、應用PCA算法降維,減少特征數(shù)

D、以上答案都正確

答案：D

58.Python中定義私有屬性的方法是()。

A、使用private關(guān)鍵字

B、使用public關(guān)鍵字

C、使用_XX_定義屬性名

D、使用_XX定義屬性名

答案：D

59.模型構(gòu)建完畢需要對模型進行評估量化,需要用到哪個模塊0。

A、utils

B、mixture

C、metrics

D、manifold

答案：C

60.以下哪種方法不屬于特征選擇的標準方法：()o

A、嵌入

B、過濾

C、包裝

D、抽樣

答案：D

61.有關(guān)數(shù)據(jù)倉庫的開發(fā)特點，不正確的描述是()。

A、數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)；

B、數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確；

C、數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程，是啟發(fā)式的開發(fā)；

D、在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)

倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式

答案：A

62.以下哪一種分布是二維隨機變量的分布()。

A、正態(tài)分布

B、二項分布

C、邊緣分布

D、指數(shù)分布

答案：C

63.輸入圖像為32x32,經(jīng)過步長為1.不進行padding,卷積核為5x5的卷積層后,

得到的特征圖尺寸是多少0

A、28x28

B、27x27

C、29x29

D、32x32;

答案：A

64.讀代碼，請寫出程序正確的答案()。#!/usr/bin/envpython3N=1OOSum=OCoun

ter=1WhiIecounter&11;=n:Sum+counterCounter+=1Print("1到%<1之和為:％d"%

(n,sum))

A、結(jié)果：1到100之和為:5000

B、結(jié)果:1到100之和為:0

C、結(jié)果：1到100之和為:2050

D、結(jié)果：1到100之和為:5020

答案：B

65.大數(shù)據(jù)平臺核心分布式存儲與計算組件采用Hadoop技術(shù)體系中分布式存儲、

分布式計算框架,及Spark等開源產(chǎn)品和技術(shù),實現(xiàn)對數(shù)據(jù)的安全控制和管理功

能，其中分布式存儲不包括()。

A、HDFS

B、PostgresqI

C^Hive

D、HBase

答案：B

66.scikit-learn中的k-means類，哪個參數(shù)是用來調(diào)節(jié)k值的()。

Axn_cIusters

Bxmax_iter

C、n_init

D、init

答案：A

67.任一隨機事件出現(xiàn)的概率為()

A、在-1與1之間

B、小于0

C、不小于1

D、在。與1之間

答案：D

68.對連續(xù)圖像的離散化采樣決定了圖像的()。

A、空間分辨率

B、時間分辨率

C、地面分辨率

D、灰度值

答案：A

69.Spark的劣勢()

A、運算速度快

B、業(yè)務實現(xiàn)需要較少代碼

C、提供很多現(xiàn)成函數(shù)

D、需要更多機器內(nèi)存

答案：D

70.決策樹中的葉結(jié)點對應于：)。

A、屬性

B、樣本

C、決策結(jié)果

D、標簽值

答案：C

71.MapReduce對map()函數(shù)的返回值進行處理后再返回給reduce()函數(shù)的目的

是()。

A、減少map()函數(shù)和reduce：)函數(shù)之間的數(shù)據(jù)傳輸

B、優(yōu)化map()函數(shù)

C、優(yōu)化reduce。函數(shù)

D、這一步驟并無必要

答案：A

72.關(guān)于表述數(shù)據(jù)可視化在數(shù)據(jù)科學中重要地位說法中，下列不正確的是0。

A、視覺是人類獲得信息的最主要途徑

B、數(shù)據(jù)可視化處理可以洞察統(tǒng)計分析無法發(fā)現(xiàn)的結(jié)構(gòu)和細節(jié)

C、數(shù)據(jù)可視化處理結(jié)果的解讀對用戶知識水平的要求較高

D、可視化能夠幫助人們提高理解與處理數(shù)據(jù)的效率

答案：C

73.arr1=np.arange(0,20,1),arr2=arr1.reshape(4,5),arr2(1:3,1］的輸出結(jié)

果為()°

A、[[6],[11]]

B、[[5],[10]]

C、[6,11]

D、[5,10]

答案：C

74.下列哪項方法不屬于圖像分割方法0。

A、邊緣檢測法

B、閾值分割法

C、區(qū)域分割法

D、特征提取法

答案：D

75.為了允許支持向量機在一些樣本上出錯,引入()的概念。

A、軟間隔

B、硬間隔

C、間隔

D、誤差

答案：A

76.以下不是開源工具特點的是0。

A、免費

B、可以直接獲取源代碼

C、用戶可以修改源代碼并不加說明用于自己的軟件中

D、開源工具一樣具有版權(quán)

答案：C

77.關(guān)于缺失值填補,不正確的說法是0。

A、填補數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等

B、pandas,dropna可以用來填補缺失值

C、用平均值填補會引入相關(guān)性

D、啞變量填補是將缺失值當做一類新特征處理

答案：B

78.下列哪個函數(shù)可以計算字典元素個數(shù)()。

Axcmp

B、Ien

C、str

D、type

答案：B

79.()是Spark中的抽象數(shù)據(jù)模型。

A、RDD

B、ScheduIer

C\Storage

D、Shuffle

答案：A

80.Hadoop生態(tài)系統(tǒng)中，()主要解決的是日志類數(shù)據(jù)的收集和處理問題。

AxMahout

B、FIume

C、Sqoop

D、HBase

答案：B

81.一般將原始業(yè)務數(shù)據(jù)分為多個部分，()用于模型的構(gòu)建。

A、訓練集

B、測試集

C、驗證集

D、全部數(shù)據(jù)

答案：A

82.以下可以作為文本分類準則的是()。

A、預測準確率

B、魯棒性

C、可擴展性

D、以上答案都正確

答案：D

83.“數(shù)據(jù)的故事化描述”是指為了提升數(shù)據(jù)的()和()，將數(shù)據(jù)還原成關(guān)聯(lián)至特定

的情景的過程。

A、可理解性可記憶性可體驗性

B、可接受性可記憶性可體驗性

C、可接受性可記憶性可呈現(xiàn)性

D、可理解性可記憶性可呈線性

答案：A

84.以下代碼的輸出結(jié)果為()°ImportnumpyasnpA=np.arange(12).reshape(3,4)

Print(np.deIete(a,5))

A、[[0123][4567][891011]]

B、[0123467891011]

C、[[023][467][81011]]

D、[246810]

答案：B

85.傅里葉變換得到的頻譜中，低頻系數(shù)對應于0。

A、物體邊緣

B、噪聲

C、變化平緩部分

D、變化劇烈部分

答案：C

86.下列程序打印結(jié)果為0oImportreStr^'Tython'sfeatures"Str2=re.match

(r,(.*)on(.*?).,str1,re.M|re.l)Print(str2.group(1))

AxPython

B、Pyth

Cxthons

D、Python^features

答案：B

87.scipy.stats,isf函數(shù)的作用是0。

A、隨機變量的生存函數(shù)

B、scipy.stats,sf的逆

C、計算隨機變量的期望和方差

D、隨機變量的累積分布函數(shù)

答案：B

88.ApacheSqoop主要設(shè)計目的是0。

A、數(shù)據(jù)清洗

B、數(shù)據(jù)轉(zhuǎn)化

C、數(shù)據(jù)ETL

D、數(shù)據(jù)可視化

答案：C

89.如果需要訓練的特征維度成千上萬,在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離

計算困難。我們通過什么方法可以緩解這個問題0。

A、K均值算法

B、支持向量機

G降維

D、以上答案都不正確

答案：C

90.關(guān)于S0M神經(jīng)網(wǎng)絡描述錯誤的是：（_）o

A、一種競爭學習型的無監(jiān)督神經(jīng)網(wǎng)絡

B、將高維輸入數(shù)據(jù)映射到低維空間，保持輸入數(shù)據(jù)在高維空間的拓撲結(jié)構(gòu)

C、SOM尋優(yōu)目標為每個輸出神經(jīng)元找到合適的權(quán)重

D、輸出層神經(jīng)元以矩陣方式排列在二維空間

答案：C

91.下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù)(_)。

A、等高線圖

B、餅圖

C、曲面圖

D、矢量場圖

答案：B

92.在TF-IDF算法中,在計算完詞頻與逆文檔頻率后,將二者0后得到最終的結(jié)

果。

A、相加

B、相減

C、相乘

D、相除

答案：C

93.jieba的哪一種模式會把文本精確切分,不存在冗余單詞()。

A、匹配模式

B、全模式

C、精準模式

D、搜索引擎模式

答案：C

94.關(guān)于Spark的說法中，()是錯誤的。

A、采用內(nèi)存計算模式

B、可利用多種語言編程

C、主要用于批處理

D、可進行map()操作

答案：C

95.()對應于決策樹結(jié)果，其他節(jié)點對應于()。

A、葉節(jié)點，屬性測試

B、根結(jié)點，學習測試

C、內(nèi)部節(jié)點，學習測試

D、葉節(jié)點,分類測試

答案：A

96.對于分類類型的變量，()是個非常好的展示工具。

A、柱狀圖

B、折線圖

C、餅狀圖

D、直方圖

答案：D

97.線性判別分析(LDA)從貝葉斯決策理論闡釋,當兩類數(shù)據(jù)同先驗且滿足()時,L

DA達到最優(yōu)分類。

A、滿足高斯分布

B、協(xié)方差相等

C、滿足高斯分布且協(xié)方差相等

D、協(xié)方差不等

答案：C

98.以下哪個模塊不是Scipy庫中的()。

A、cluster

B、random

C、signal

D\misc

答案：B

99.對于數(shù)據(jù)3,3,2,3,6,3,10,3,6,3.2.①這組數(shù)據(jù)的眾數(shù)是3;②這組數(shù)據(jù)的眾

數(shù)與中位數(shù)的數(shù)值不相等;③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等;④這組

數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等.其中正確結(jié)論的個數(shù)為()。

A、1

B、2

C、3

D、4

答案：B

100.給定一個長度為n的不完整單詞序列,我們希望預測下一個字母是什么。比

如輸入是predictio(9個字母組成),希望預測第十個字母是什么。下面哪種神經(jīng)

網(wǎng)絡結(jié)構(gòu)適用于解決這個工作0

A、循環(huán)神經(jīng)網(wǎng)絡

B、全連接神經(jīng)網(wǎng)絡

C、受限波爾茲曼機

D、卷積神經(jīng)網(wǎng)絡

答案：A

101.假設(shè)你在卷積神經(jīng)網(wǎng)絡的第一層中有5個卷積核,每個卷積核尺寸為7X7,

具有零填充且步幅為1。該層的輸入圖片的維度是224X224X3。那么該層輸出

的維度是多少0

A、217x217x3

B、217x217x8

C、218x218x5

D、220x220x7

答案：C

102.以下使用其本身可以達成數(shù)據(jù)透視功能的函數(shù)是()。

A、groupby

B、transform

Cvcrosstab

Dvpivot_tabIe

答案：D

103.在python3中以下安裝第三方模塊命令正確的是()。

A、pip-instaIIskIearn

B、pipinstalIsklearn

Cvpip-upgragesklearn

D、pip-iskiearn

答案：B

104.下列關(guān)于線性回歸分析中的殘差說法正確的是0。

A、殘差均值總是為零

B、殘差均值總是約等于零

C、殘差均值總是大于零

D、以上答案都不正確

答案：A

105.stats,describe()函數(shù)的作用是()。

A、計算變異系數(shù)

B、計算數(shù)據(jù)集的樣本偏度

C、計算所傳遞數(shù)組的幾個描述性統(tǒng)計信息

D、計算關(guān)于樣本平均值的第n個矩

答案：C

106.()是人們從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論和方法等。

A、信息

B、知識

C、理解

D、智慧

答案：B

107.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)

的()、不可恢復，如數(shù)據(jù)銷毀軟件、硬盤消磁機、硬盤粉碎機等。

A、暫時隔離

B、暫時刪除

C、永久刪除

D、不作處理

答案：C

108.在Hadoop生態(tài)系統(tǒng)中，()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并

提供簡單的查詢語言。

A、Pig

B、Hbase

C、Hive

D、MapReduce

答案：C

109.Python語句print(OxA+OxB)的輸出結(jié)果是()。。

A、OxA+OxB

B、A+B

C、OxAOxB

D、21

答案：D

110.有數(shù)組arr=Numpy.array([1,2,3,4]),執(zhí)行arr.dtype后輸出結(jié)果為()。

A、int32

B、int64

C、fIoat32

D\fIoat64

答案：A

111.以下選項中哪個不屬于數(shù)據(jù)預處理的方法0。

A、數(shù)據(jù)清洗

B、數(shù)據(jù)集成

C、數(shù)據(jù)變換

D、數(shù)據(jù)統(tǒng)計

答案：D

112.CNN神經(jīng)網(wǎng)絡對圖像特征提取帶來了變革性的變化，使之前的人工特征提取

升級到數(shù)據(jù)驅(qū)動的自動特征提取,在CNN中,起到特征提取作用的網(wǎng)絡層是：(_)o

Axconvolution

B、fullconnect層

C、maxpooling層

D、norm層

答案：A

113.下列關(guān)于文本分類的說法不正確的是()。

A、文本分類是指按照預先定義的主題類別，由計算機自動地為文檔集合中的每個

文檔確定一個類別

B、文本分類大致可分為基于知識工程的分類系統(tǒng)和基于機器學習的分類系統(tǒng)

C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序

D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計算兩個步驟

答案：C

114.聚類算法的性能度量可稱為()o

Ax密度估計

B、異常檢測

C、有效性指標

D、分布結(jié)構(gòu)

答案：C

115.數(shù)據(jù)整合和分組的說法,不正確的是0。

A、數(shù)據(jù)連接可以用concat或merge函數(shù)

B\axis=1表示軸向連接

C、數(shù)據(jù)分組可以使用mean函數(shù)

D、使用agg可以自定義多個聚合函數(shù)

答案：C

116.評估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應該如何解決()o

A、減少模型的特征數(shù)量

B、增加模型的特征數(shù)量

C、增加樣本數(shù)量

D、以上答案都正確

答案：B

117.MatpIotIib的核心是面向0<>

A、過程

B、對象

C、結(jié)果

D、服務

答案：B

118.scipy.stats模塊中隨機變量的殘存函數(shù)是()。

Axcdf

B、rvs

C、pdf

D、sf

答案：D

119.以下內(nèi)容符合物體識別任務的是0。

A、不能對圖像進行壓縮或剪裁

B、遵守誤差最小準則和最佳近似準則

C、可以不指定分類的類別數(shù)量

D、事先給定樣本的分布特征

答案：B

120.以下關(guān)于圖像平滑的敘述中錯誤的是()。

A、可以減少噪聲

B、可以使圖像變得均勻

C、圖像的細節(jié)部分可以不保持原有特征

D、可以采用基于卷積的濾波方法

答案：C

121.K-mearis++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相

互距離要盡可能的遠。那么算法流程為()。1.從輸入的數(shù)據(jù)點集合中隨機選擇一

個點作為第一個聚類中心2.對于數(shù)據(jù)集中的每一個點X,計算它與最近聚類中心

(指已選擇的聚類中心)的距離D(x)3.選擇一個新的數(shù)據(jù)點作為新的聚類中心,

選擇的原則是:D(x)較大的點,被選取作為聚類中心的概率較大4.重復2和3直

到k個聚類中心被選出來5.利用這k個初始的聚類中心來運行標準的k-means

算法

A、2.5.4.3.1

B、1.5.4.2.3

C、1.2.3.4.5

D、4.3.2.1.5

答案：C

122.留出法直接將數(shù)據(jù)集劃分為()個互斥的集合。

A、—

B、二

C、三

D、四

答案：B

123.a=1,b=2,c=3,以下表達式值為True的是()°

A、a>=bor(c+5)%3==1

B、not(a==1andb!=c)

C、notaandb==c

D、aanda+b>=c

答案：D

124.機器學習算法在學習過程中對某種類型假設(shè)的偏好,稱為0o

A、訓練偏好

B、歸納偏好

C、分析偏好

D、假設(shè)偏好

答案：B

125.下列關(guān)于L1正則化與L2正則化描述錯誤的是0。

A、L1范數(shù)正則化有助于降低過擬合風險

B、L2范數(shù)正則化有助于降低過擬合風險

C、L1范數(shù)正則化比L2范數(shù)正則化更有易于獲得稀疏解

D、L2范數(shù)正則化比L1范數(shù)正則化更有易于獲得稀疏解

答案：C

126.Seikit-Learn中()可以實現(xiàn)計算模型準確率。

A、accuracy_score

B、accuracy

C、f1_score

Dvf2_score

答案：A

127.下面哪個操作是窄依賴()

A、join

B、fiIter

Cvgroup

D、sort

答案：B

128.當相關(guān)系數(shù)『0時,說明：)。

A、現(xiàn)象之間相關(guān)程度較小

B、現(xiàn)象之間完全相關(guān)

C、現(xiàn)象之間無直線相關(guān)

D、現(xiàn)象之間完全無關(guān)

答案：C

129.不屬于Mayer-Sch?nbergerV和CukierK,在其著名論著《Bigdata:Arevolu

tionthatwiIItransformhowweIive,work,andthink》中提出了大數(shù)據(jù)時代統(tǒng)計的

思維變革的是()。

A、不是隨機樣本，而是全體數(shù)據(jù)

B、不是精確性，而是混雜性

C、不是描述性分析，而是預測性分析

D、不是因果關(guān)系,而是相關(guān)關(guān)系

答案：C

130.通過KMeans算法進行聚類分析后得出的聚類結(jié)果的特征是()。

A、同一聚類中的對象間相似度高,不同聚類中的對象間相似度高

B、同一聚類中的對象間相似度高,不同聚類中的對象間相似度低

C、同一聚類中的對象間相似度低,不同聚類中的對象間相似度低

D、同一聚類中的對象間相似度低,不同聚類中的對象間相似度高

答案：B

131.支持向量回歸與傳統(tǒng)回歸模型的差別()。

A、模型輸出與真實值相同

B、模型輸出與真實值存在￡偏差

C、模型輸出大于真實值

D、模型輸出小于真實值

答案：B

132.下列有關(guān)HDFS的容錯機制描述錯誤的是0。

A、HDFS可以使用機架位感知的方法實現(xiàn)容錯機制；

B、HDFS可以使用基于erasurecode的方法實現(xiàn)容錯機制；

C、HDFS使用機架位感知的方法先把一份拷貝放入同機架上的機器,然后再拷貝

一份到其他服務器；

D、HDFS使用機架位感知的方法先把一份拷貝放入同機架上的機器,然后再拷貝

一份到同機架機器的不同位置上；

答案：D

133.a=np.arange(10),a［2:4］截取到的數(shù)組為0。

A、［1,2,3］

B、【2,3,4】

C、［2,3】

D、［1,2］

答案：C

134.下列關(guān)于分詞的說法正確的是()

A、中文句子字之間沒有空格，無法分詞

B、一個句子的分詞結(jié)果是唯一的

C、中文分詞是將一系列無空格間隔字符串分割成一系列單詞的過程

D、分詞沒有實際應用價值

答案：C

135.()是交叉驗證法的一種特例。

A、自助法

B、留一法

C、交叉驗證法

D、錯誤率分析

答案：B

136.假設(shè)已從標準庫functools導入reduce()函數(shù)，那么表達式reduce(Iambda

x,y:x+y,[1,2,3])的值為()。

AxNone

B、6

C、3

D、9

答案：B

137.如何交換二維Numpy數(shù)組中的兩列0。在數(shù)組arr中交換列1和20arr=np.

arange(9).reshape(3,3)

A、arr[[1,0,2]]

B、arr[1,0,3]]

C、arr[:,[1,0,1]]

D、arr[:,[1,0]]

答案：A

138.Python語句Iist(range,10,3))執(zhí)行結(jié)果為()。

A、[1,10,30]

B、[1,3,6,9]

C、[1,4,7]

D、[2,5,8]

答案：C

133假設(shè)有列表a=[name','age','sex'】和b二9Dong',38,'MaIe'】，請使用

一個語句將這兩個列表的內(nèi)容轉(zhuǎn)換為字典,并且以列表a中的元素為“鍵”，以列

表b中的元素為“值”，這個語句可以寫為()。

Axc=dict(cross(a,b))

B、c=dict(zip(a,b))

C、c=map(zip(a,b))

D、c=b

答案：B

140.如何從一個數(shù)組中移除那些存在于另一個數(shù)組中的項()。A=np.array(11,

2,3,4,5])B=np.array([5,6,7,8,9])期望輸出：array([1,2,3,4】)

Axnp.setdiff1d(a,b)

B、setdiffld(a)

C、setdiffld(b)

D、以上答案都不正確

答案：A

141.在邏輯回歸輸出與目標對比的情況下，以下評估指標中哪一項不適用()o

A、AUC-ROC

B、準確度

C、Logloss

D、均方誤差

答案：D

142.Numpy中對數(shù)組進行轉(zhuǎn)置的函數(shù)是哪個0。

Axtranspose()

B、rolIaxis()

C、swapaxes()

Dxtan()

答案：A

143.Seaborn要求原始數(shù)據(jù)的輸入類型不能是()

A\Dataframe

B、Series

C\Numpy

答案：B

144.數(shù)據(jù)可視化的本質(zhì)是0。

A、將數(shù)據(jù)轉(zhuǎn)換為知識

B、將知識轉(zhuǎn)換為數(shù)據(jù)

C、將數(shù)據(jù)轉(zhuǎn)換為信息

D、將信息轉(zhuǎn)換為智慧

答案：A

145.大數(shù)據(jù)平臺技術(shù)架構(gòu)不包含的是()

A、數(shù)據(jù)整合

B、數(shù)據(jù)存儲

C、數(shù)據(jù)計算

D、數(shù)據(jù)溯源

答案：D

146.機器學習中L1正則化和L2正則化的區(qū)別是()。

A、使用L1可以得到稀疏的權(quán)值，使用L2可以得到平滑的權(quán)值

B、使用L1可以得到平滑的權(quán)值，使用L2可以得到平滑的權(quán)值

C、使用L1可以得到平滑的權(quán)值，使用L2可以得到稀疏的權(quán)值

D、使用L1可以得到稀疏的權(quán)值，使用L2可以得到稀疏的權(quán)值

答案：A

147.下列關(guān)于關(guān)鍵詞提取的說法錯誤的是()

A、關(guān)鍵詞提取是指借用自然語言處理方法提取文章關(guān)鍵詞

B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法

C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題

D、這個問題設(shè)計數(shù)據(jù)挖掘，文本處理，信息檢索等領(lǐng)域；

答案：C

148.考慮值集{12243324556826},其四分位數(shù)極差是：()

A、21

B、24

C、55

D、3

答案：A

149.在Hadoop中，下面哪個是默認的InputFormat類型,它將每行內(nèi)容作為新值，

而將字節(jié)偏移量作為key()o

AxFilelnputFormat

B、TextInputFormat

C\KeyVaIueTextInputFormat

DxbineTextInputFormat

答案：B

150.pynlpir是一種常用的自然語言理解工具包,其中進行分詞處理的函數(shù)是()。

Avopen()

B、segment()

C、AddllserWord()

D、generate0

答案：B

151.一元線性回歸方程y=0.7+0.82x,判定系數(shù)等于0.64,則x與y的相關(guān)系數(shù)為

A、0.82

B、0.64

C、0.8

D、0.7

答案：C

152.關(guān)于Python文件處理，以下選項中描述錯誤的是0。

A、Python能處理JPG圖像文件

B、Python不可以處理PDF文件CPython能處理

C、SV文件

D、Python能處理ExceI文件

答案：B

153,劃分聚類算法是一種簡單的較為基本的重要聚類方法。它的主要思想是通過

將數(shù)據(jù)點集分為0個劃分,并使用重復的控制策略使某個準則最優(yōu)化,以達到最

終的結(jié)果

A、D

B、K

C、E

D、F

答案：B

154.關(guān)于Python語言的特點,以下選項中描述錯誤的是()。

A、Python語言是非開源語言

B、Python語言是跨平臺語言

C、Python語言是多模型語言

D、Python語言是腳本語言

答案：A

155.不屬于判別式模型的是()。

A、決策樹

B、BP神經(jīng)網(wǎng)絡

C、支持向量機

D、貝葉斯

答案：D

156,聚類是一種典型的無監(jiān)督學習任務,然而在現(xiàn)實聚類任務中我們往往能獲得

一些額外的監(jiān)督信息,于是可通過()來利用監(jiān)督信息以獲得更好的聚類效果。

A、監(jiān)督聚類

B、半監(jiān)督聚類

C、聚類

D、直推聚類

答案：B

157.如果在大型數(shù)據(jù)集上訓練決策樹。為了花費更少的時間來訓練這個模型,下

列哪種做法是正確的()

A、增加樹的深度

B、增加學習率

C、減小樹的深度

D、減少樹的數(shù)量

答案：C

158.Python中的os模塊常見方法描述錯誤的是()。

A、os.remove。刪除文件

B、os.rename()重命名文件

C、os.walk。讀取所有的目錄名

D、os.chdir()改變目錄

答案：C

159.多分類圖像識別任務常采用()作為輸出的編碼方式。

A、二進制編碼

B、one-hot編碼

C、霍夫曼編碼

D、曼切斯特編碼

答案：B

160.表達式int(，10「，2)的值為()。

A、5

B、6

C、10

D、3

答案：A

161.以下關(guān)于模塊說法錯誤的是()。

A、一個xx.py就是一個模塊；

B、任何一個普通的xx.py文件可以作為模塊導入；

C、模塊文件的擴展名不一定是.py；

D、運行時會從制定的目錄搜索導入的模塊,如果沒有,會報錯異常

答案：C

162.當try子句中沒有任何錯誤時,一定不會執(zhí)行()語句。

A、try

B、sIse

C\except

Dxfinally

答案：C

163.假設(shè)你需要調(diào)整參數(shù)來最小化代價函數(shù)(costfunction),會使用()技術(shù)。

A、窮舉搜索

B、隨機搜索

C、Bayesian優(yōu)化

D、以上全是

答案：D

164.下面哪項不屬于循環(huán)神經(jīng)網(wǎng)絡的輸出模式。(_)

A、單輸出

B、多輸出

Cv同步多輸出

D、異步多輸出

答案：C

165.np.sort()函數(shù)返回的是0。

A、已排序的原數(shù)組

B、排好序的數(shù)組拷貝

C、原數(shù)組

D、原數(shù)組的拷貝

答案：B

166.在Apriori算法中，候選項集劃分為不同的桶,存放在（）中。

A、字典

B、集合

C、Hash樹

D、列表

答案：C

167.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為0。

A、信息（活動）價值鏈和信息技術(shù)價值鏈

B、信息技術(shù)價值鏈和信息（活動）價值鏈

C、信息交互價值鏈和信息技術(shù)價值鏈

D、信息（活動）價值鏈和信息交互價值鏈

答案：A

168.情感信息歸納常見的存在形式是0。

A、語料庫

B、情感文摘

C、情感評論

D、情感傾向

答案：B

169.以下關(guān)于副本和視圖描述錯誤的是（）。

A、Numpy的切片操作返回原數(shù)據(jù)的視圖

B、調(diào)用Ndarray的view。函數(shù)產(chǎn)生一個視圖

C、Python序列的切片操作，調(diào)用deepCopy()函數(shù)

D、調(diào)用Ndarray的copy()函數(shù)產(chǎn)生一個視圖

答案：D

170.屬于卷積神經(jīng)網(wǎng)絡應用方向的是(_)o

A、圖像分類

B、目標檢測

C、圖像語義分割

D、以上答案都正確

答案：D

171.下列不屬于數(shù)據(jù)科學跨平臺基礎(chǔ)設(shè)施和分析工具的是0。

A、微軟Azure

B、Google云平臺

C、阿里云

D、Adobephotoshop

答案：D

172.scipy庫中用于物理和數(shù)學常量計算的模塊是0。

A、scipy.cIuster

B、scipy.io

C\scipy.constants

D、scipy.Iinalg

答案：C

173.執(zhí)行如下代下：ImporttimePrint(time.time0)以下選項中描述錯誤的是()。

Axtime庫是Python的標準庫；

B、可使用time,ctime(),顯示為更可讀的形式;

C、time,sleep(5)推遲調(diào)用線程的運行,單位為毫秒；

D、輸出自1970年1月1日00:00:00AM以來的秒數(shù)；

答案：C

174.Python語句:f=。pen(),以下選項中對f的描述錯誤的是()。

A、*f是文件句柄，用來在程序中表達文件

B、表達式print(f)執(zhí)行將報錯

C、*f是一個Python內(nèi)部變量類型

D、將千當作文件對象,fread：)可以讀入文件全部信息

答案：B

175.常用的圖像去噪方法有()。

A、高斯濾波

B、中值濾波

C、P-M方程去噪

D、以上答案都正確

答案：D

176.運行下面的代碼后，變量n的類型是0。N={)

A、set

B、list

C、未知類型

D、diet

答案：D

177.有N個樣本,一般用于訓練,一般用于測試。若增大N值,則訓練誤差和測試

誤差之間的差距會如何變化()。

A、增大

B、減小

C、無法確定

D、無明顯變化

答案:B

178.任何一個核函數(shù)都隱式地定義了一個()空間。

A、希爾伯特空間

B、再生希爾伯特空間

C、再生核希爾伯特空間

D、歐式空間

答案：C

179.選擇哪一個解作為輸出，將由學習算法的歸納偏好決定,常見的做法是引入

A、線性回歸

B、線性判別分析

C、正則化項

D、偏置項

答案：C

180.Numpy庫的主要功能是()。

A、科學計算

B、繪圖

C、爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)

D、機器學習庫

答案：A

181.下列關(guān)于可視化方法體系說法不正確的是0o

A、通常采用視覺圖形元素和視覺通道兩個維度進行視覺編碼

B、常用的共性方法有統(tǒng)計圖表、圖論方法、視覺隱喻和圖形符號學等

C、領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應用

D、視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學基礎(chǔ)

答案：C

182.設(shè)計為8層的卷積神經(jīng)網(wǎng)絡AIexNet網(wǎng)絡成功使用(_)函數(shù),其效果遠遠地

超過了Sigmoid函數(shù)。

A、ReLU函數(shù)

B、sigmoid函數(shù)

C、tanh函數(shù)

Dxsin函數(shù)

答案：A

183.線性模型中的權(quán)重w值可以看做各個屬性x的()。

A、正則化系數(shù)

B、對最終決策結(jié)果的貢獻度

C、高維映射

D、取值

答案：B

184.最早被提出的循環(huán)神經(jīng)網(wǎng)絡門控算法是什么()

A、長短期記憶網(wǎng)絡

B、門控循環(huán)單元網(wǎng)絡

C、堆疊循環(huán)神經(jīng)網(wǎng)絡

D、雙向循環(huán)神經(jīng)網(wǎng)絡

答案:A

185.如果只寫open(fiIename),那就是用()模式打開。

A、r

B、w

C、a

D、b

答案：A

186,依托0.結(jié)合應用推進數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。

A、全業(yè)務數(shù)據(jù)中心和數(shù)據(jù)中臺

B、營銷基礎(chǔ)數(shù)據(jù)平臺和大數(shù)據(jù)平臺

C、全業(yè)務中心和營銷基礎(chǔ)數(shù)據(jù)平臺

D、全業(yè)務數(shù)據(jù)中心和大數(shù)據(jù)平臺

答案：A

187.MapReduce編程模型中以下組件哪個是最后執(zhí)行的()

A、Mapper

B、Partitioner

C、Reducer

D、RecordReader

答案：C

188.假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(X1,X

2.....X100)o現(xiàn)在,我們把其中一個特征值擴大10倍(例如是特征X1),然后用

相同的正則化參數(shù)對Lasso回歸進行修正。那么,下列說法正確的是()

A、特征X1很可能被排除在模型之外

B、特征X1很可能還包含在模型之中

C、無法確定特征X1是否被舍

D、以上答案都不正確

答案：B

189.data=Numpy.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]]),

data的形狀(shape)為()。

A、(2,2,3)

B、(2,3,2)

C、(3,2,3)

D、(3,2,2)

答案：A

190.下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù)()。

A、等高線圖

B、餅圖

C、曲面圖

D、矢量場圖

答案：B

191.一個MapReduce程序中的MapTask的個數(shù)由什么決定()

A、輸入的總文件數(shù)

B、客戶端程序設(shè)置的mapTask的個數(shù)

C、FileinputFormat.getSpIits(JobContextjob)計算出的邏輯切片的數(shù)量

D、輸入的總文件大小/數(shù)據(jù)塊大小

答案：C

192.數(shù)據(jù)可視化的方法論基礎(chǔ)是()。

A、統(tǒng)計圖表

B、視覺編碼理論

C、圖論

D、圖形符號學

答案：B

193.當特征值大致相等時會發(fā)生什么()

A、PCA將表現(xiàn)出色

B、PCA將表現(xiàn)不佳

C、不知道

D、以上都沒有

答案：B

194.訓練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分

類：()。

A、正確

B、錯誤

答案：A

195.可分解為偏差、方差與噪聲之和的是()。

A、訓練誤差(trainingerror)

B、經(jīng)驗誤差(empiricaIerror)

C、均方誤差(meansquarederror)

D、泛化誤差(generalizationerror)

答案：D

196.以下()是對DMM(數(shù)據(jù)管理成熟度模型)中“已管理級”基本特點的正確表述。

A、組織機構(gòu)的數(shù)據(jù)管理關(guān)鍵活動能夠根據(jù)結(jié)構(gòu)自身的反饋以及外部環(huán)境的變革

進行不斷優(yōu)化。

B、組織機構(gòu)已用定量化的方式管理其關(guān)鍵過程的執(zhí)行過程。

C、組織機構(gòu)只有在項目管理過程中執(zhí)行了D.M給出的關(guān)鍵過程,而缺乏機構(gòu)層次

的統(tǒng)籌與管理

D、組織機構(gòu)的數(shù)據(jù)管理工作超出了項目管理的范疇，由組織機構(gòu)統(tǒng)一管理了其數(shù)

據(jù)管理關(guān)鍵過程

答案：D

197.以下屬于圖像處理的常用方法有()。

A、圖像變換

B、圖像編碼壓縮

C、圖像增強和復原

D、以上答案都正確

答案：D

198.以下屬于深度學習框架的是

AxTensorfIow

B、Caffe

C\PyTorch

D、以上答案都正確

答案：D

199.下列關(guān)于支持向量的說法正確的是()。

A、到分類超平面的距離最近的且滿足一定條件的幾個訓練樣本點是支持向量

B、訓練集中的所有樣本點都是支持向量

C、每一類樣本集中都分別只有一個支持向量

D、支持向量的個數(shù)越多越好

答案：A

200.變量的不確定性越大,相對應信息熠有什么變化0。

A、埼變小

B、煙變大

C、不變

D、以上答案都不正確

答案：B

201.LSTM中，(_)的作用是確定哪些新的信息留在細胞狀態(tài)中，并更新細胞狀態(tài)。

A、輸入門

B、遺忘門

C、輸出門

D、更新門

答案：A

202.數(shù)據(jù)管理成熟度模型中成熟度等級最高是哪一級()。

A、已優(yōu)化級

B、已測量級

C、已定義級

D、已管理級

答案：A

203.下列不屬于聚類性能度量外部指標的是()。

A、Jaccard系數(shù)

B、FM系數(shù)

C、Rand指數(shù)

D、DB指數(shù)；

答案：D

204.執(zhí)行以下代碼段Print(bool(*False'))Print(bool())01,輸出為()。

A、TrueTrue

B、TrueFaIse

C、FaIseTrue

D、FaIseFaIse

答案：B

205.數(shù)據(jù)科學是一門以()為主要研究任務的獨立學科。

A、“數(shù)據(jù)驅(qū)動”“數(shù)據(jù)業(yè)務化”“數(shù)據(jù)洞見”“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)”數(shù)據(jù)

生態(tài)系統(tǒng)的建設(shè)”

B、數(shù)據(jù)研發(fā)

C、數(shù)據(jù)處理

D、數(shù)據(jù)洞見

答案：A

206.Hadoop中，Reducer的三個階段是_0

AxShuffIe-Sort-Reduce

B、ShuffIe-Reduce-Sort

C、Reduce-ShuffIe-Sort

DxSort-ShuffIe-Reduce

答案：A

207.下列場景中最有可能應用人工智能的是()。

A、刷臉辦電

B、輿情分析

C、信通巡檢機器人

D、以上答案都正確

答案：D

208.當使用不同類型的數(shù)組進行操作時,結(jié)果數(shù)組的類型會進行()o

A、向下轉(zhuǎn)換

B、向上轉(zhuǎn)換

C、不進行轉(zhuǎn)換

D、無法計算

答案：B

209.傳統(tǒng)目標檢測流程包括0。

A、區(qū)域選擇

B、特征提取

C、分類器分類

D、以上答案都正確

答案：D

210.關(guān)于文件的打開方式,以下選項中描述正確的是()o

A、文件只能選擇二進制或文本方式打開

B、文本文件只能以文本方式打開

C、所有文件都可能以文本方式打開

D、所有文件都可能以二進制方式打開

答案：D

211.以下選項中，輸出結(jié)果是FaIse的是()。

A、>>>5isnot4

B、>>>5!=4

C、>>>FaIse!=0

D、>>>5is5

答案：C

212.以下說法正確的是()。

A、關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。

B、尋找模式和規(guī)則主要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)則以及模式

C、數(shù)據(jù)挖掘的主要任務是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律,從而能更好的完成描述數(shù)據(jù)、

預測數(shù)據(jù)等任務。

D、在聚類分析當中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。

答案：C

213.在IBMPASS中，聚類算法分為分層聚類、KohonennetworkxK平均值聚類和0

四種。

A、系統(tǒng)聚類

B、兩步聚類

C、模型聚類

D、其它聚類

答案：B

214.下面哪行代碼最適合接受系統(tǒng)輸入的一個整數(shù)0。

A、num=input。

B、num=input("6")

C\num=int(input())

D、num=fIoat(input())

答案：C

215.如何在pyplot中設(shè)置x軸、y軸的刻度位置()。

AxxIabe1()、yIabeI()

B、xIim()vylim()

C\xscaIe()%yscaIe()

D、xticks()、yticks()

答案：D

216.導入模塊的方式錯誤的是()。

Avimportmo

B、frommoimport*;

C、importmoasm

D、importmfrommo

答案：D

217.特征工程的目的是()。

A、找到最合適的算法

B、得到最好的輸入數(shù)據(jù)

C、減低模型復雜度

D、加快計算速度

答案：B

218.關(guān)于bagging下列說法錯誤的是：()。

A、各基分類器之間有較強依賴,不可以進行并行訓練

B、最著名的算法之一是基于決策樹基分類器的隨機森林

C、當訓練樣本數(shù)量較少時,子集之間可能有重疊

D、為了讓基分類器之間互相獨立,需要將訓練集分為若干子集

答案：A

219.對于數(shù)據(jù)3,3,2,3,6,3,10,3,6,3.2.①這組數(shù)據(jù)的眾數(shù)是3;②這組數(shù)據(jù)的

眾數(shù)與中位數(shù)的數(shù)值不相等;③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等;④這

組數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等.其中正確結(jié)論的個數(shù)為()。

A、1

B、2

C、3

D、4

答案：B

220.卷積神經(jīng)網(wǎng)絡中每層卷積層(ConvolutionalIayer)由若干卷積單元組成，每

個卷積單元的參數(shù)都是通過反向傳播算法最佳化得到,其作用是(_)o

A、增強圖像

B、簡化圖像

C、特征提取

D、圖像處理

答案：C

221.關(guān)于層次聚類算法：(1)不斷重復直達達到預設(shè)的聚類簇數(shù)⑵不斷合并距離

最近的聚類簇⑶對初始聚類簇和相應的距離矩陣初始化⑷對合并得到的聚類

簇進行更新。正確的執(zhí)行順序為()。

A、1234

B、1324

C、3241

D、3412

答案：C

222.能使圖像亮度得到平緩漸變,減小突變梯度,改善圖像質(zhì)量的是()o

A、圖像平滑

B、圖像分類

C、圖像識別

D、圖像分割

答案:A

223.關(guān)于HDFS的特征,下列說法錯誤的是0。

A、支持超大文件

B、基于商用硬件

C、流式數(shù)據(jù)訪問

D、低吞吐量

答案：D

224,數(shù)組分割使用以下哪個函數(shù)()。

A、vstack()

B、hstack()

CxspIit()

D、view()

答案：C

225.以下說法正確的是0。

A、散點圖不能在子圖中繪制

B、散點圖的x軸刻度必須為數(shù)值

C、折線圖可以用作查看特征間的趨勢關(guān)系

D、箱線圖可以用來查看特征間的相關(guān)關(guān)系

答案：C

226.()選擇成為支持向量機的最大變數(shù)。

A、核函數(shù)

B、樣本空間

C、模型

D、算法

答案：A

227.關(guān)系云的一個重要功能是提供()。

A、數(shù)據(jù)庫即服務

B、虛擬服務

C、彈性計算

D、按需服務

答案：A

228.Python的sys模塊常用方法描述錯誤的是0°

A、sys.argv命令行參數(shù)List,第一個元素是程序本身路徑

B、sys.modules,keys()返回所有字典中的keys

C、sys.exc_info()獲取當前正在處理的異常類

D、sys.exit(n)退出程序

答案：B

229.檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于()的離群點檢測。

A、統(tǒng)計方法

B、鄰近度

C、密度

D、聚類技術(shù)

答案：A

230.數(shù)組允許批量計算而無須任何for循環(huán),這種特性叫()。

A、矩陣化；

B、便捷化；

C、批量化；

D、失量化；

答案：D

231.Hadoop生態(tài)系統(tǒng)中，HBase是一種()。

A、分布式文件系統(tǒng)

B、數(shù)據(jù)倉庫

C、實時分布式數(shù)據(jù)庫

D、分布式計算系統(tǒng)

答案：C

232.scipy中模塊integrate的作用是0。

A、程序輸入輸出

B、差值計算

C、計算積分

D、向量計算；

答案：C

233.下面哪個操作肯定是寬依賴()

A、map

B、flatMap

C、reduceByKey

DvsampIe

答案：C

234.關(guān)于Python賦值語句，以下選項中不合法的是0。

A、x=1;y=1

B、x=y=1

C、x=(y=1)

D、x,y=y,x

答案：C

235.關(guān)于混合模型聚類算法的優(yōu)缺點,下面說法正確的是0。

A、當簇只包含少量數(shù)據(jù)點,或者數(shù)據(jù)點近似協(xié)線性時,混合模型也能很好地處理

B、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇

C、混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布

D、混合模型在有噪聲和離群點時不會存在問題

答案：C

236.()主要提供內(nèi)存計算框架

A、Spark核心層

B、資源計算層

C、服務核心層

D、Spark層

答案：A

237.下列核函數(shù)特性描述錯誤的是()。

A、只要一個對稱函數(shù)所對應的核矩陣半正定，就能稱為核函數(shù)；

B、核函數(shù)選擇作為支持向量機的最大變數(shù)；

C、核函數(shù)將影響支持向量機的性能；

D、核函數(shù)是一種降維模型；

答案：D

238.以下說法不正確的是0。

A、卷積神經(jīng)網(wǎng)絡主要用于目標識別、圖像分割等方面

B、循環(huán)神經(jīng)網(wǎng)絡主要用于處理序列數(shù)據(jù)

C、長短時記憶神經(jīng)網(wǎng)絡主要用于處理序列數(shù)據(jù)

D、長短時記憶神經(jīng)網(wǎng)絡是和循環(huán)神經(jīng)網(wǎng)絡完全不同的一種新型神經(jīng)網(wǎng)絡

答案：D

239.卷積神經(jīng)網(wǎng)絡(convolutionalneuralnetwork,CNN),是一種專門用來處理具

有類似(_)的數(shù)據(jù)的神經(jīng)網(wǎng)絡。

A、網(wǎng)格結(jié)構(gòu)

B、數(shù)組結(jié)構(gòu)

C、序列結(jié)構(gòu)

D、表格結(jié)構(gòu)

答案：A

240.bootstrap數(shù)據(jù)是什么意思0。

A、有放回地從總共M個特征中抽樣m個特征

B、無放回地從總共M個特征中抽樣m個特征

C、有放回地從總共N個樣本中抽樣n個樣本

D、無放回地從總共N個樣本中抽樣n個樣本

答案：C

241.()采用概率模型來表達聚類原型。

A、k均值算法

B、學習向量量化

C、高斯混合聚類

D、密度聚類

答案：C

242.在Hadoop的分區(qū)階段，默認的Partitioner是()。

A、RangePartitioner

B、Partitioner

CvHashPartitioner

D、用戶自定義的Partitioner

答案：C

243.決策樹的父節(jié)點和子節(jié)點的煽的大小關(guān)系是什么()。

A、父節(jié)點的熔更小

B、子節(jié)點的炳更小

C、兩者相等

D、根據(jù)具體情況而定

答案：B

244.以下選項中Python用于異常處理結(jié)構(gòu)中用來捕獲特定類型的異常的保留字

是()。

A、except

B、do

C\pass

D、while

答案：A

245.Python中StatsmodeIs庫適用于()場景。

A、統(tǒng)計分析

B、機器學習

C、圖像處理

D、數(shù)據(jù)建模

答案：A

246.有關(guān)異常說法正確的是()。

A、程序中拋出異常終止程序

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023年大數(shù)據(jù)應用技能競賽考試題庫（精簡500題）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔