2022年大數據應用知識考試題庫（含答案）

上傳人：奔*** IP屬地：河北上傳時間：2023-05-18 格式：PDF 頁數：210 大小：20.15MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩205頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

2022年大數據應用知識考試題庫(含答案)

一'單選題

1.圖像平滑會造成()。

A、圖像邊緣模糊化

B、圖像邊緣清晰化

C、無影響

D、以上答案都不正確

答案：A

解析：為了抑制噪聲，使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑

實際上是低通濾波,平滑過程會導致圖像邊緣模糊化。

2.關于Spark的說法中，()是錯誤的。

A、采用內存計算模式

B、可利用多種語言編程

C、主要用于批處理

D、可進行map()操作

答案：C

解析：HadoopMapReduce主要用于批處理，與Hadoop不同的是,Spark更為通用一

些，可以很好地支持流計算、交互式處理、圖計算等多種計算模式。

3.以下關于代碼規(guī)范描述,哪些是錯誤的()。

A、類總是使用駝峰格式命名，即所有單詞首字母大寫其余字母小寫。

B、除特殊模塊_init_之外,模塊名稱都使用不帶下劃線的小寫字母。

C、不要濫用*args和**kwargs

D、建議把所有方法都放在一個類中

答案：D

解析：以下關于代碼規(guī)范描述,把所有方法都放在一個類中是錯誤的。

4.下面關于詞袋模型說法錯誤的是()。

A、詞袋模型使用一個多重集對文本中出現的單詞進行編碼

B、詞袋模型不考慮詞語原本在句子中的順序

C、詞袋模型可以應用于文檔分類和檢索,同時受到編碼信息的限制

D、詞袋模型產生的靈感來源于包含類似單詞的文檔經常有相似的含義

答案：C

解析：文本處理基礎知識。

5.對數值型輸出，最常見的結合策略是()。

A、投票法

B、平均法

C、學習法

D、排序法

答案：B

解析：對數值型輸出，最常見的結合策略是平均法。

6.以下有關計算機編程語言說法錯誤的是()。

A、編程語言是用于書寫計算機程序的語言；

B、計算機語言可分為機器語言、匯編語言、高級語言；

C、計算機能識別和執(zhí)行所有編程語言寫的程序;

D、C/C++、pascalxjavpython都屬于高級編程語言;

答案：C

解析：只有機器語言才能被計算機直接識別,Python等高級語言源程序,不能直

接運行,必須翻譯成機器語言才能執(zhí)行。

7.Python中StatsmodeI庫和()庫關系密切。

A、Numpy

B、Scipy

Cvjieba

D、Pandas

答案：D

解析：StatsmodeIs建立在pandas之上。

8.以下屬于考慮詞語位置關系的模型有()。

A、詞向量模型

B、詞袋模型

C、詞的分布式表示

D、TF-IDF

答案：A

解析：詞向量模型考慮通過中間詞預測鄰近詞,需要考慮詞語順序位置。

9.建立一個詞典[AIex,wants,to,go,pIay,footbaII,shopping],下面的句子:AI

exwantstogotopIayfootbaII可以用向量表示為()。

A、[1,1,2,1,1,1,0]

B、［1,1,2,1,1,11

C、[1,1,1,1,1,1,0]

D、[1,1,1,1,1,1,1]

答案：A

解析：向量中每個元素代表該詞在句中出現的次數，比如to在句中出現兩次,所

以第3個元素應為2。

10.()是指給目標用戶產生的錯誤或不準確的視覺感知,而這種感知與數據可視

化者的意圖或數據本身的真實情況不一致。

A、視覺假象

B、視覺認知

C、視覺感知

D、數據可視

答案：A

解析：視覺假象(VisualIIlusion)是數據可視化工作中不可忽略的特殊問題。視

覺假象是指給目標用戶產生的錯誤或不準確的視覺感知，而這種感知與數據可視

化者的意圖或數據本身的真實情況不一致。視

11.以下濾波器對圖像中的椒鹽噪聲濾波效果最好的是()。

A、中值濾波

B、均值濾波

C、最大值濾波

D、最小值濾波

答案:A

解析：中值濾波對圖像椒鹽噪聲的濾波效果最好。

12.以下哪種方法不能成功創(chuàng)建一個數組()。

A、a=np.array([1,2,3,4])

B、b=np.zeros((3,4))

Gc=np.ones(1,2,3,4)

D、d=np.arange(10,30,5)

答案：c

解析：onesO函數必須傳入一個數組類型的維度參數所表示的序列,如列表或元

組,所以C無法成功創(chuàng)建數組,改為np.ones((1,2,3,4))就可以。

13.MapReduce中，Shuffle操作的作用是()。

A、合并

B、排序

C、降維

D、分區(qū)

答案：B

解析：Shuffle—確保每個reduce0函數的輸入都按鍵排序。

14.一個MapReduce程序中的MapTask的個數由什么決定0

A、輸入的總文件數

B、客戶端程序設置的mapTask的個數

C、FiIeInputFormat.getSpIits(JobContextjob)計算出的邏輯切片的數量

D、輸入的總文件大小/數據塊大小

答案：C

解析：MapReduce編程模型中的mapTask的并行度決定機制是由FilelnputForm

at.getSpIits(JobContextjob)決定的。該方法的返回值是List<InputSpIit>sp

Iits,這個結果集合中的每個InputSpIit就是一個邏輯輸入切片,每個邏輯輸入

切片在默認情況下是會要啟動一個MapTask任務進行計算的，因此C對。

15.對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,下列說法正確

的是()。

A、需要將這些樣本全部強制轉換為支持向量

B、需要將這些樣本中可以轉化的樣本轉換為支持向量,不能轉換的直接刪除

C、移去或者減少這些樣本對分類結果沒有影響

D、以上都不對

答案：C

解析：支持向量機的一個重要性質:訓練完成后,大部分的訓練樣本都不需保留，

最終模型僅與支持向量有關。

16.下列對于sigmoid函數的說法,錯誤的是()

A、存在梯度爆炸的問題

B、不是關于原點對稱

G計算exp比較耗時

D、存在梯度消失的問題

答案：A

解析：對于sigmoid函數,S型函數圖像向兩邊的斜率逼近0,因此隨著網絡層增

加,梯度消失比梯度爆炸更容易發(fā)生的多。

17.決策樹模型的規(guī)模應當是()。

A、越復雜越好

B、越簡單越好

C、適當限制其復雜程度

D、盡可能利用所有特征

答案：C

解析：決策樹模型的規(guī)模復雜可能產生過擬合，因此并非越復雜做好,應適當限制

其復雜程度。

18.在Windows系統(tǒng)中，關閉Python終端會話常用快捷鍵是()。

A、CtrI+C

B、Ctrl+D

C、Ctrl+E

D、Ctrl+Z

答案：D

解析：在Windows系統(tǒng)中，關閉Python終端會話常用快捷鍵是CtrI+Z。

19.數據可視化的本質是()。

A、將數據轉換為知識

B、將知識轉換為數據

C、將數據轉換為信息

D、將信息轉換為智慧

答案：A

解析：可視化分析學模型認為，數據可視化的本質是將數據轉換為知識,而不能僅

僅停留在數據的可視化呈現層次之上,并提出從數據到知識的轉換途徑有兩個：

一是可視化分析,另一個是自動化建模。

20.在HDFS中()是文件系統(tǒng)的工作節(jié)點。

A、DataNode

B、Client

C、NameNode

DvFlume

答案：A

解析：數據節(jié)點(DataNode)是分布式文件系統(tǒng)HDFS的工作節(jié)點,負責數據的存儲

和讀取,會根據客戶端或者是名稱節(jié)點的調度來進行數據的存儲和檢索,并且向

名稱節(jié)點定期發(fā)送自己所存儲的塊的列表。每個數據節(jié)點中的數據會被保存在各

自節(jié)點本地Linux文件系統(tǒng)中。

21.圖像中虛假輪廓的出現就其本質而言是()。

A、圖像的灰度級數不夠多而造成的

B、圖像的空間分辨率不夠高而造成的

C、圖像的灰度級數過多而造成的

D、圖像的空間分辨率過高而造成的

答案：A

解析：圖像中的虛假輪廓最易在平滑區(qū)域內產生。平滑區(qū)域內灰度應緩慢變化，

但當圖像的灰度級數不夠多時會產生階躍。所以圖像中虛假輪廓的出現就其本質

而言是圖像的灰度級數不夠多而造成的,選Ao

22.對于數據3,3,2,3,6,3,10,3,6,3,2.①這組數據的眾數是3;②這組數據的眾

數與中位數的數值不相等;③這組數據的中位數與平均數的數值不相等;④這組

數據的平均數與眾數的數值相等.其中正確結論的個數為()。

A、1

B、2

C、3

D、4

答案：B

解析：眾數是指一組中出現次數最多的數，中位數是按順序排列的一組數據中居

于中間位置的數,平均值是各數值加總求和再除以總的個數。此題中眾數為3,中

位數為3,平均值為4,故①和③正確。

23.文本信息往往包含客觀事實和主觀情感,對于文本的情感分析主要是識別文

章中的主觀類詞語,其中()不適用于情感分析。

A、表達觀點的關鍵詞

B、表達程度的關鍵詞

C、表達情緒的關鍵詞

D、表達客觀事實的關鍵詞

答案：D

解析：D中表達客觀事實的關鍵詞是對事物的客觀性描述,不帶有感情色彩和情

感傾向,即為客觀性文本,不適用于情感分析。而主觀性文本則是作者對各種事物

的看法或想法,帶有作者的喜好厭惡等情感傾向,如ABC中表觀點、程度和情緒的

關鍵詞都是帶有情感傾向的主觀性文本,適用于情感分析。

24.scipy.stats,moment函數的作用是()。

A、隨機變量的概率密度函數

B、隨機變量的累積分布函數

C、隨機變量的生存函數

D、計算分布的非中心矩

答案：D

25.以下哪些算法是基于規(guī)則的分類器()。

A、C4.5

B、KNN

C、NaiveBayes

DvANN

答案：A

解析：基于規(guī)則的分類器有決策樹、隨機森林、Aprior。

26.scipy.stats模塊中對隨機變量進行隨機取值的函數是()。

A、rvs

B、pdf

Gcdf

D、sf

答案：A

解析：stats模塊中每個分布都rvs函數,對隨機變量取值。

27.以下不屬于大數據重要意義的是()。

A、大數據成為推動經濟轉型發(fā)展的新動力

B、大數據成為重塑國家競爭優(yōu)勢的新機遇

C、大數據成為提升政府治理能力的新途徑

D、大數據會增加經濟發(fā)展的成本

答案：D

解析：大數據可以促進經濟的發(fā)展，催生新的業(yè)態(tài),在輔助商業(yè)的決策'降低運營

成本、精準市場的營銷方面都能發(fā)揮作用，進一步提升企業(yè)競爭力。

28.Spark那個組件用于支持實時計算需求()。

AxSparkSQL

B、SparkStreaming

C、SparkGraphX

D、SparkMLLib

答案：B

解析：SparkStreaming用于實時處理。

29.Mapreduce適用于()

A、任意應用程序

B、任意可在windowsservet2008上運行的程序

C、可以串行處理的應用程序

D、可以并行處理的應用程序

答案：D

解析：Mapreduce適用于并行處理的應用程序

30.使用Numpy讀取csv文件應使用以下哪個函數()。

A、save()

B、read_csv()

CxIoadtxt()

D、open()

答案：C

解析：Numpy中設有讀取csv文件的函數，使用np.loadtxt可讀取csv文件。

31.讀代碼,請寫出程序正確的答案()。

#!/usr/bin/envpython3

N=100

Sum=0

Counter=1

WhiIecounter<=n:

Sum+counter

Counter+=1

Print("1到％(1之和為:%d"%(n,sum))

A、結果：1到100之和為:5000

B、結果：1到100之和為:0

G結果:1到100之和為:2050

D、結果：1到100之和為:5020

答案：B

解析：循環(huán)中沒有給sum賦值,故sum=0

32.以下哪個參數可以使數組計算沿指定軸進行應用操作()。

Axaxis

B、inplace

Cxdata

D、dtype

答案：A

解析：通過指定axis參數,可以沿數組的指定軸應用操作。

33.PageRank是一^t'函數，它對Web中的每個網頁賦予一個實數值。它的意圖在

于網頁的PageRank越高，那么它就()。

Av相關性越異］

B、越不重要

C、相關性越低

D、越重要

答案：D

解析：PageRank認為,如果A頁面有一個鏈接指向B頁面,那就可以看作是A頁

面對B頁面的一種信任或推薦。所以，如果一個頁面的反向鏈接越多,再根據這些

鏈接的價值加權越高，那搜索引擎就會判斷這樣的頁面更為重要。

34.機器學習中L1正則化和L2正則化的區(qū)別是()。

A、使用L1可以得到稀疏的權值，使用L2可以得到平滑的權值

B、使用L1可以得到平滑的權值，使用L2可以得到平滑的權值

C、使用L1可以得到平滑的權值，使用L2可以得到稀疏的權值

D、使用L1可以得到稀疏的權值，使用L2可以得到稀疏的權值

答案:A

解析：使用L1可以得到稀疏的權值，使用L2可以得到平滑的權值。

35.下面哪個操作是窄依賴()

A、join

B、filter

C、group

Dxsort

答案：B

解析：spark中常見的窄依賴操作包括map,filer,union,sample等,寬依賴的操

作包括reducebykey,groupbykey,joinWo

36.數據科學中，人們開始注意到傳統(tǒng)數據處理方式中普遍存在的“信息丟失”現

象,進而數據處理范式從()轉向()。

A、產品在先，數據在后范式;數據在先，產品在后范式或無模式

B、模式在先，產品在后范式;產品在先，模式在后范式或無模式

C、數據在先，模式在后范式或無模式;模式在先,數據在后范式

D、模式在先，數據在后范式;數據在先，模式在后范式或無模式

答案:D

解析：傳統(tǒng)關系數據庫中，先定義模式,然后嚴格按照模式要求存儲數據;當需要

調整模式時,不僅需要數據結構,而且還需要修改上層應用程序。然而,NoSQL技

術則采用了非常簡單的Key-VaIue等模式在后(SchemaLater)和無模式(SchemaI

ess)的方式提升了數據管理系統(tǒng)的自適應能力。當然,模式在后(SchemaLater)

和無模式(Schemaless)也會帶來新問題,如降低了數據管理系統(tǒng)的數據處理能力。

37.假如我們使用非線性可分的SVM目標函數作為最優(yōu)化對象,我們怎么保證模

型線性可分()。

A、設C=1

B、設C=0

C\設c=無窮大

D、以上答案都不正確

答案：c

解析：C無窮大保證了所有的線性不可分都是可以忍受的。

38.假定你現在訓練了一個線性SVM并推斷出這個模型出現了欠擬合現象,在下

一次訓練時,應該采取下列什么措施()

A、增加數據點

B、減少數據點

C、增加特征

D、減少特征

答案：C

解析：欠擬合是指模型擬合程度不高，數據距離擬合曲線較遠,或指模型沒有很好

地捕捉到數據特征,不能夠很好地擬合數據?？赏ㄟ^增加特征解決。

39.兩個變量相關，它們的相關系數r可能為0?這句話是否正確()

A、正確

B、錯誤

答案：A

解析：Pearson相關系數r=0,這表示兩個變量間不存在線性相關關系。

40.一幅數字圖像是()。

A、一個觀測系統(tǒng)

B、一個由許多像素排列而成的實體

C、一個2-D數組中的元素

D、一個3-D空間中的場景

答案：C

解析：數字圖像,又稱數碼圖像或數位圖像，是二維圖像用有限數字數值像素的表

7J\o

41.執(zhí)行以下代碼段

Print(booI('False'))

Print(booI())

時輸出為0。

A、TrueTrue

B、TrueFaIse

CxFaIseTrue

DxFaIseFaIse

答案:B

解析：這里'False'只是字符串

42.以下說法正確的是：()。1.一個機器學習模型,如果有較高準確率，總是說明這

個分類器是好的2.如果增加模型復雜度,那么模型的測試錯誤率總是會降低3.

如果增加模型復雜度,那么模型的訓練錯誤率總是會降低

A、1

B、2

C、3

D、1and3

答案：C

解析：如果增加模型復雜度,那么模型的測試錯誤率總是會降低，訓練錯誤率可能

降低,也可能增高。

43.從網絡的原理上來看,結構最復雜的神經網絡是()。

A、卷積神經網絡

B、長短時記憶神經網絡

C、GRU

D、BP神經網絡

答案：B

解析：從網絡的原理上來看,結構最復雜的神經網絡是LSTMo

44.txt=open(fiIename)返回的是()。

A、變量

B、常數

C、文件內容

D、文件對象

答案：D

解析：txt=open(fiIename)返回的是文件對象。

45.pipinstaIIscipy==1.7與pipinstaIIscipy兩者的區(qū)別是()。

A、兩者作用一樣

B、前者安裝指定版本的包，后者安裝最新版本的包

C、前者安裝指定版本的包,后者安裝隨機版本的包

D、以上答案都不正確

答案：B

解析：pipinstallscipy=1.7與pipinstalIscipy兩者的區(qū)別是前者安裝指定

版本的包,后者安裝最新版本的包。

46.若arr=np.array([[1,2,3,],[4,5,6,],[7,8,9,]]),則arr[:2,1:]的輸出為

()o

Av([[2,3],[5,6]])

B、([⑴[6]])

Cv([[5,6],[8,9]])

D、([[1,2],[4,5]])

答案：A

解析：索引時如果不指定冒號旁邊的數值,則默認從開頭開始或至結尾結束。

47.以下不能創(chuàng)建一個字典的語句是()。

A、dict1={}

B、dict2={3:5}

Gdict3={[1,2,3]:"uestc”}

D、dict4={(1,2,3):"uestc”}

答案：c

解析：字典key不可以是可變類型

48.LSTM中，(_)的作用是確定哪些新的信息留在細胞狀態(tài)中，并更新細胞狀態(tài)。

A、輸入門

B、遺忘門

G輸出門

D、更新門

答案：A

解析：LSTM中，輸入門的作用是確定哪些新的信息留在細胞狀態(tài)中，并更新細胞

狀態(tài);遺忘門決定我們會從細胞狀態(tài)中丟棄什么信息；輸出門確定輸出。

49.Matplotiib的核心是面向()。

A、過程

B、對象

C、結果

D、服務

答案：B

解析：Matplotlib的核心是面向對象的。如果需要更多控制和自定義圖，我們建

議直接使用對象。

50.正確導入日期模塊的語句()。

A、importdate

B、importdatetime

C、importtime

D、importdate_time

答案：B

解析：導入日期模塊的語句是importdatetime

51.診斷性分析主要采取的分析方法是()和()。

A、關聯(lián)分析和因果分析法

B、關聯(lián)分析和分類分析法

C、關聯(lián)分析和運籌學

D、因果分析和分類分析法

答案：A

解析：診斷性分析主要關注過去，回答為什么發(fā)生,主要采用關聯(lián)分析法和因果分

析法。

52.為了降低MapReduce兩個階段之間的數據傳遞量,一般采用()函數對map階段

的輸出進行處理。

A、sort()

B、biner()

C、join()

D、gather()

答案：B

解析：為了降低數據傳遞量,采用binerO函數對map()函數的數據結果進行合并

處理。

53.IDLE環(huán)境的退出命令是()。

A、exit()

B、回車鍵

C、cIose()

D、esc()

答案:A

解析：IDLE使用exit。退出環(huán)境。

54.反轉二維數組arr的行arr=np.arange(9).reshape(3,3)

Avarr[:：-1]

B、arr[:：-2]

C、arr[::1]

D、arr[::0]

答案：A

解析：：：-1進行反轉。

55.要彌補缺失值,可以使用均值，中位數，眾數等等,preprocessing模塊中那個

方法可以實現()。

Axpreprocessing.ImputerO

B、preprocessing.PoIynomiaIFeatures()

C、preprocessing.FunctionTransformer()

D、preprocessing.Binarizer()

答案：A

解析：要彌補缺失值,可以使用均值，中位數，眾數等等,preprocessing中Imput

er方法可以實現。

56.在當前圖形上添加一個子圖需要用到哪個方法0。

A、pypIot.stackpIot()

B、pyplot.suptitIe()

Cxpyplot.subpIot()

D、pyplot.imshowO

答案：c

解析：matplotIib.pyplot.subplot()的作用是在當前圖形上添加一個子圖。

57.下面哪個是滿足期望輸出的代碼()。

Arr=np.array([0,1,2,3,4,5,6,7,8,9])

期望輸出：array([1,3,5,7,9])

A、arr%2~1

B、arr[arr%2-1]

C、arr[arr/2-1]

D、arr[arr//2==1]

答案：B

解析：題中的結果是選取了原數組的奇數,先使用數組進行邏輯判斷得到一個邏

輯數組,然后以其作為索引選取數據。

58.A=np.array([[1,1],[0,1]]),B=np.array([[2,0],[3,4]]),A*B的結果是()。

A、[[2,0],[0,4]]

B、[[5,4].[3,4]]

C、[[3,4],[5,4]]

D、無法計算

答案：A

解析：Numpy數組的乘法計算分為兩種:一種是矩陣正常相乘，代碼實現為AB或A.

dot(B),一種是每個元素對應相乘,表現方式為A*B,本題所問的是后一種。

59.下列哪種算法可以用神經網絡構建？(_)1.K-NN最近鄰算法2.線性回歸3.邏

輯回歸

A、1and2

B、2and3

Cx1,2and3

D、Noneoftheabove

答案：B

解析：KNN是關于距離的學習算法,沒有任何參數,所以無法用神經網絡構建。

60.matplotlib中的調用堆積折線圖的函數是什么()。

A、step()

B、stackpIot0

C、pIuspIot()

D、hist()

答案：B

解析：stackplot用于繪制堆疊折線圖。

61.信息增益對可取值數目()的屬性有所偏好,增益率對可取值數目()的屬性有

所偏好。

A、較高，較高

B、較高，較低

G較低，較高

D、較低，較低

答案：B

解析：信息增益準則對可取值數目較多的屬性有所偏好,增益率對可取值數目較

少的屬性有所偏好。

62.數組分割使用以下哪個函數()。

A、vstack()

B、hstack()

C、split()

D、view()

答案：c

解析：np.split()的作用是把一個數組從左到右按順序切分。

63.關于基本數據的元數據是指()。

A、基本元數據與數據源，數據倉庫,數據集市和應用程序等結構相關的信息

B、基本元數據包括與企業(yè)相關的管理方面的數據和信息

C、基本元數據包括日志文件和簡歷執(zhí)行處理的時序調度信息

D、基本元數據包括關于裝載和更新處理,分析處理以及管理方面的信息

答案：D

解析：元數據(Metadata),又稱中介數據、中繼數據，為描述數據的數據(dataab

outdata)。

64.標準BP算法的目標是使訓練集上的()為最小。

A、累積方差

B、累積誤差

C、累積協(xié)方差

D、累積偏差

答案：B

解析：標準BP算法的目標是使訓練集上的累積誤差最小。

65.假負率是指()。

A、正樣本預測結果數/正樣本實際數

B、被預測為負的正樣本結果數/正樣本實際數

C、被預測為正的負樣本結果數/負樣本實際數

D、負樣本預測結果數/負樣本實際數

答案：B

解析：假負率是指被預測為負的正樣本結果數/正樣本實際數。

66.bootstrap數據是什么意思()。

A、有放回地從總共M個特征中抽樣m個特征

B、無放回地從總共M個特征中抽樣m個特征

C、有放回地從總共N個樣本中抽樣n個樣本

D、無放回地從總共N個樣本中抽樣n個樣本

答案：C

解析：自助來樣法(bootstrapsampling),給定包含N個樣本的數據集，我們先隨

機取出一個樣本放入采樣集中,再把該樣本放回初始數據集，使得下次采樣時該

樣本仍有可能被選中，這樣經過n次隨機采樣操作,我們得到含n個樣本的采樣集。

67.在編寫程序時經常要對某一個條件進行判斷，“條件”只有“成立”或“不成

立”兩種結果。成立用“True”表示，不成立用“False”表示。下列關系表達式

中，結果為“True”的是()。

A、2>5

B、3>=3

C、1!=1

D、6==5

答案：B

解析：>=可表示為>或=。

68.劃分聚類算法是一種簡單的較為基本的重要聚類方法。它的主要思想是通過

將數據點集分為()個劃分,并使用重復的控制策略使某個準則最優(yōu)化,以達到最

終的結果

A、D

B、K

C、E

D、F

答案：B

解析：劃分聚類算法K-Means將數據點集分為K個子集。

69.以下代碼的輸出結果為()。

Importnumpyasnp

A=np.array([0.25,1.33,1,100])

Print(np.reciprocaI(a))

A、[-10.-9.-8.]

B、[-7.-6.-5.]

G[0.251.331.100.]

D、[4.0.75187971.0.01]

答案：D

解析：np.reciprocal。取倒數。

70.有N個樣本,一般用于訓練,一般用于測試。若增大N值,則訓練誤差和測試誤

差之間的差距會如何變化()。

A、增大

B、減小

C、無法確定

D、無明顯變化

答案:B

解析：增加數據,能夠有效減小過擬合,減小訓I練樣本誤差和測試樣本誤差之間的

差距。

71.Numpy簡單介紹,不正確的是()。

A、Numpy(NumericaIPython)是Python語言的一個擴展程序庫

B、支持大量的維度數組與矩陣運算

C、針對數組運算提供大量的數學函數庫

D、Numpy不開放源代碼

答案:D

解析：Numpy是開源代碼庫。

72.當相關系數r=0時，說明()。

A、現象之間相關程度較小

B、現象之間完全相關

C、現象之間無直線相關

D、現象之間完全無關

答案：C

解析：相關系數r刻畫了兩個變量之間的相關程度，|r|小于等于1,|r|越接近1,

則表示兩個變量相關度越高,反之相關度越低。相關系數片0只能說明線性無關,

不能說明完全無關。

73.獲取兩個PythonNumpy數組之間的公共項()。

A=np.array([1,2,3,2,3,4,3,4,5,6])

B=np.array([7,2,10,2,7,4,9,4,9,8])

期望輸出：array([2,4])

A、intersectld(a,b)

B、ersectld(a,b)

C、erset(a,b)

D、ersectld(a)

答案：B

解析：intersect1d()返回二者的交集并排序。

74.大數據中的小數據可能缺失、冗余、存在垃圾數據不影響大數據的可信數據,

體現大數據“涌現”的()表現形式。

A、價值涌現

B、隱私涌現

C、質量涌現

D、安全涌現

答案：C

解析：大數據的“質量涌現”是指大數據中的成員小數據可能有質量問題(不可

信的數據),如缺失、冗余、垃圾數據的存在，但不影響大數據的質量(可信的數據)。

75.以下不屬于Python內置模塊的是()。

Axsys

B、json

C、os

Dximage

答案：D

解析：image屬于第三方庫。

76.Nu即y的數組中Ndarray對象屬性描述錯誤的是()。

A、Ndarray.dtypeNdarray對象中每個元素的大小，以字節(jié)為單位

B、Ndarray.fIagsNdarray對象的內存信息

GNdarray.realNdarray元素的實部

D、Ndarray.imagNdarray元素的虛部

答案:A

解析：dtype是數組元素的類型。

77.當圖像通過信道傳輸時，噪聲一般與()無關。

A、信道傳輸的質量

B、出現的圖像信號

C、是否有中轉信道的過程

D、圖像在信道前后的處理

答案：B

解析：當圖像通過信道傳輸時,噪聲一般與出現的圖像信號無關,這種獨立于信號

的退化被稱為加性噪聲。信道傳輸質量'中轉信道都會影響圖像質量，而圖像在

信道前后的預處理和后處理也會產生噪聲。

78.在留出法、交叉驗證法和自助法三種評估方法中，（）更適用于數據集較小、難

以劃分訓練集和測試集的情況。

A、留出法

B、交叉驗證法

C、自助法

D、留一法

答案：C

解析：自助法更適用于數據集較小、難以劃分訓練集和測試集的情況。

79.在數據科學中，通?？梢圆捎茫ǎ┓椒ㄓ行П苊鈹祿庸ず蛿祿浞莸钠姟?/p>

A、A/B測試

B、訓練集和測試集的劃分

C、測試集和驗證集的劃分

D、圖靈測試

答案：A

解析：A/B測試是一種對比試驗，準確說是一種分離式組間試驗,在試驗過程中，

我們從總體中隨機抽取一些樣本進行數據統(tǒng)計,進而得出對總體參數的多個評估。

A/B測試有效避免數據加工和準備偏見以及算法/模型選擇偏見具有重要借鑒意

義。

80.下列不屬于深度學習內容的是（_）。

A、深度置信網絡

B、受限玻爾茲曼機

C、卷積神經網絡

D、貝葉斯學習

答案：D

解析：貝葉斯學習屬于傳統(tǒng)的機器學習算法。

81.關于數據分析,下列說法正確的是()。

A、描述性分析和預測性分析是對診斷性分析的基礎

B、斷性分析分析是對規(guī)范性分析的進一步理解

C、預測性分析是規(guī)范性分析的基礎

D、規(guī)范性分析是數據分析的最高階段,可以直接產生產業(yè)價值

答案：C

解析:在數據分析中，流程分為以下方式:描述性分析、診斷性分析、預測性分析'

規(guī)范性分析。

82.增加卷積核的大小對于改進卷積神經網絡的效果是必要的嗎()

A、是的,增加卷積核尺寸一定能提高性能

B、不是，增加核函數的大小不一定會提高性能

答案：B

解析：增加核函數的大小不一定會提高性能。這個問題在很大程度上取決于數據

集。

83.關于Python包,以下說法正確的是()。

A、利用pip包管理器更新已安裝包的代碼是:pipupdate包名

B、單獨導入包名即可導入包中所包含的所有子模塊

C、下載安裝、更新、查看、移除包等行為可以在命令行中進行，但不可以在Jup

yternotebook中進行

D、下載安裝'更新、查看、移除包等行為既可以用pip工具，也可以用conda

工具

答案：D

解析：pip更新包指令為pipinstalI—upgradePackage;單獨導入包之后訪問子

模塊需要用“模塊.子模塊”方式;在Jupyter中也可以通過指令管理包。

84.三維以上數組是以()的形式輸出的。

A、按行輸出

B、按矩陣輸出

C、按矩陣列表輸出

D、按字符串輸出

答案：C

解析：一維數組輸出為行,二維數組輸出為矩陣,三維數組輸出位矩陣列表。

85.從連續(xù)圖像到數字圖像需要()。

A、圖像灰度級設定

B、圖像分辨率設定

C、確定圖像的存儲空間

D、采樣和量化

答案：D

解析：數字圖像又稱離散圖像,連續(xù)圖像到數字圖像需要離散化,離散化是通過采

樣和量化實現的。

86.有數組arr=Numpy.array([1,2,3,4]),執(zhí)行arr.dtype后輸出結果為()。

A、int32

B、int64

CxfIoat32

D、fIoat64

答案：A

解析：從列表中創(chuàng)建時,Numpy會自動判斷元素的類型從而確定數組的類型,此處

都為整數則確定為int32,如果將元素1改為1.0,則會確定為float64o

87.以下分割方法中不屬于區(qū)域算法的是()。

A、分裂合并

B、閾值分割

C、區(qū)域生長

D、邊緣檢測

答案：D

解析：邊緣檢測算法是標識數字圖像中亮度變化明顯的點,不屬于區(qū)域算法發(fā)范

疇。

88.假設我們已經在ImageNet數據集(物體識別)上訓練好了一個卷積神經網絡。

然后給這張卷積神經網絡輸入一張全白的圖片。對于這個輸入的輸出結果為任何

種類的物體的可能性都是一樣的,對嗎()。

A、對的

B、不知道

C、看情況

D、不對

答案：D

解析：不對,神經網絡對于未知的數據不是均勻預測的,會對莫一種或多種類別存

在偏向。

89.以下哪個不屬于數據治理的內容。

A、理解自己的數據

B、行為規(guī)范的制定

C、崗位職責的定義

D、獲得更多的數據

答案：D

解析：獲得更多的數據不屬于數據治理。

90.Python安裝擴展庫常用的是()工具。

A、pyinstaII

B、pip

C、pop

Dxpost

答案：B

91.數據故事話的“情景'不包括0。

A、還原情景

B、統(tǒng)計情景

C、移植情景

D、虛構情景

答案：B

解析：“數據的故事化描述（Storytelling）”是指為了提升數據的可理解性、可

記憶性及可體驗性，將“數據”還原成關聯(lián)至特定的“情景”的過程?？梢姡瑪祿?/p>

故事化也是數據轉換的表現形式之一,其本質是以“故事講述”的方式展現“數

據的內容”。數據故事化中的“情景”，可以是：1）還原情景:還原數據所計量和

記錄信息時的“原始情景”；2）移植情景:并非對應信息的原始情景，而是將數據

移植到另一個真實發(fā)生的情景（如目標用戶比較熟悉的情景）之中。3）虛構情景：

數據的故事化描述中所選擇的情景并非為真實存在的情景,而是根據講述人的想

象力設計出來的“虛構情景”。

92.Hadoop生態(tài)系統(tǒng)中，HBase是一種0。

A、分布式文件系統(tǒng)

B、數據倉庫

C、實時分布式數據庫

D、分布式計算系統(tǒng)

答案：C

解析：HBase是一個面向列的實時分布式數據庫。

93.以下代碼的輸出結果為（）。

Importnumpyasnp

A二np.arange(9)

B=np.split(a,3)

Print(b)

A、[012345678]

B、[array([0,1,2]),array([3,4,5]),array([6,7,8])]

G[array([0,1,2,3]),array([4,5,6]),array([7,8])]

D、沒有正確答案

答案:B

解析：split將原數組等分成三個數組。

94.為了觀察測試Y與X之間的線性關系,X是連續(xù)變量，使用下列()比較適合。

A、散點圖

B、柱形圖

G直方圖

D、以上答案都不正確

答案：A

解析：散點圖反映了兩個變量之間的相互關系,在測試Y與X之間的線性關系時,

使用散點圖最為直觀。

95.下列哪個用于說明在RDD上執(zhí)行何種計算()。

A、分區(qū)；

B、算子；

C、日志；

D、數據塊；

答案：B

解析:算子是Spark中定義的函數,用于對RDD中的數據進行操作、轉換和計算。

96.情感信息歸納常見的存在形式是()。

A、語料庫

B、情感文摘

C、情感評論

D、情感傾向

答案:B

解析：文本處理基礎知識

97.平滑圖像()處理可以采用RGB彩色模型。

A、直方圖均衡化

B、直方圖均衡化

C、加權均值濾波

D、中值濾波

答案：C

解析：平滑圖像處理可以采用RGB彩色加權均值濾波模型。

98.()計算框架源自一種分布式計算模型,其輸入和輸出值均為“鍵-值對”結構。

AxMahout

B、MapReduce

C、Spark

D、Sqoop

答案：B

解析：MapReduce定義

99.下列關于HDFS的描述正確的是()

A、如果NameNode宕機,SecondaryNameNode會接替它使集群繼續(xù)工作

B、HDFS集群支持數據的隨機讀寫

C、NameNode磁盤元數據不保存Block的位置信息

D、DataNode通過長連接與NameNode保持通信

答案：C

解析：SecondaryNameNode并不是namenode節(jié)點的備份。所以A錯。；存儲在H

DFS集群上的數據是不支持隨機修改和刪除的，只支持追加，所以B錯;namenode

和datanode之間的通信是基于一種心跳機制。該機制不是長連接。是短連接形

式。每次發(fā)送一個數據包(自身狀態(tài)信息+數據塊信息)即可,所以D錯。

100.以下選項中，輸出結果是FaIse的是()。

A、?>5isnot4

B、>>>5!=4

G?>False!=0

D、?>5is5

答案：c

解析：False在內置表達式中為0。

101.在抽樣估計中，隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數的概率就越

大,這一性質稱為()

A、無偏性

B、有效性

G及時性

D、一致性

答案：D

解析：一致性是指隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數的概率就越大，

對于給定的偏差控制水平,兩者間偏差高于此控制水平,兩者間偏差高于此控制

水平的可能性越小。

102.Seikit-Learn中()可以實現評估回歸模型。

A、accuracy_score

B、mean_squared_error

C、f1_score

Dxauc

答案：B

解析：mean_squared_error均方誤差是用來評估回歸模型的指標，其他三個都是

評估分類模型的指標。

103.下列場景中最有可能應用人工智能的是()。

A、刷臉辦電

B、輿情分析

C、信通巡檢機器人

D、以上答案都正確

答案：D

解析：人工智能應用的范圍很廣,包括:計算機科學,金融貿易，醫(yī)藥,診斷,重工業(yè),

運輸,遠程通訊,在線和電話服務,法律,科學發(fā)現,玩具和游戲,音樂等諸多方面，

刷臉辦電、輿情分析、信通巡檢機器人當然都能很好的應用到人工智能，選D。

104.過濾式特征選擇與學習器(),包裹式特征選擇與學習器()。

A、相關相關

B、相關不相關

C、不相關相關

D、不相關不相關

答案：C

解析：過濾式方法先對數據集進行特征選擇,然后再訓練學習器,特征選擇過程與

后續(xù)學習器無關。包裹式特征選擇把最終將要使用的學習器的性能作為特征于集

的評價準則。

105.()是數據庫管理系統(tǒng)運行的基本工作單位。

A、事務

B、數據倉庫

C、數據單元

D、數據分析

答案:A

解析：在關系數據庫中，事務(Transaction)是保證數據一致性的重要手段,可以

幫助用戶維護數據的一致性。事務是用戶定義的一個數據庫操作序列,這些操作

要么全做,要么全不做,是一個不可分割的工作單位。

106.以下輸出的結果正確的是()。

Importnumpyasnp

X=np.arange(32).reshape((8,4))

Print(x[[-4,-2,-1,-7]])

A、[[16171819][24252627][28293031][4567]]

B、[[16171819][891011][4567][28293031]

G[[891011][4567]]

D、error

答案:A

解析：二維數組只傳入一個列表進行索弓I時,是對行進行選取。

107.DAGScheduler的作用是什么()

A、負責分配任務；

B、負責調度Worker的運行;

C、負責創(chuàng)建執(zhí)行計劃；

D、負責清理執(zhí)行完畢的任務；

答案：C

解析：Scheduler模塊分為兩個部分DAGScheduler和TaskScheduler。DAGSche

duIer負責創(chuàng)建執(zhí)行計劃；TaskScheduler負責分配任務并調度Worker的運行。

108.HBase使用一個()節(jié)點協(xié)調管理一個或多個regionserver從屬機。

A、namenode;

B、datanode;

C、jobtracker;

D、master;

答案：D

解析：Hbase中由一個Master節(jié)點負責協(xié)調管理一個或多個RegionServer從屬

機

109.數據安全不只是技術問題,還涉及到()o

A、人員問題

B、管理問題

C、行政問題

D、領導問題

答案：B

解析：數據安全不只是技術問題,還涉及到管理問題。

110.關于表述數據可視化在數據科學中重要地位說法中，下列不正確的是()。

A、視覺是人類獲得信息的最主要途徑

B、數據可視化處理可以洞察統(tǒng)計分析無法發(fā)現的結構和細節(jié)

C、數據可視化處理結果的解讀對用戶知識水平的要求較高

D、可視化能夠幫助人們提高理解與處理數據的效率

答案：C

解析：視覺是人類獲得信息的最主要途徑,超過50%的人腦功能用于視覺信息的

處理。數據可視化處理可以洞察統(tǒng)計分析無法發(fā)現的結構和細節(jié)。數據可視化處

理結果的解讀對用戶知識水平的要求較低?？梢暬軌驇椭藗兲岣呃斫馀c處理

數據的效率。

111.以下算法中不屬于基于深度學習的圖像分割算法是()。

A、FCN

B、deepIab

C、Mask-RCNN

D、kNN

答案：D

解析：KNN為傳統(tǒng)機器學習方法并非深度學習方法。

112.下列關于文本分類的說法不正確的是()

A、文本分類是指按照預先定義的主題類別，由計算機自動地為文檔集合中的每個

文檔確定一個類別

B、文本分類大致可分為基于知識工程的分類系統(tǒng)和基于機器學習的分類系統(tǒng)

C、文本的向量形式一般基于詞袋模型構建,該模型考慮了文本詞語的行文順序

D、構建文本的向量形式可以歸結為文本的特征選擇與特征權重計算兩個步驟

答案：C

解析：詞袋模型是指將所有詞語裝進一個袋子里,不考慮其詞法和語序的問題，

即每個詞語都是獨立的,所以該模型沒有考慮文本詞語的行文順序,C錯誤,選Co

113.關于函數的關鍵字參數使用限制，以下選項中描述錯誤的是()。

A、關鍵字參數必須位于位置參數之前

B、不得重復提供實際參數

C、關鍵字參數必須位于位置參數之后

D、關鍵字參數順序無限制

答案：A

解析：關鍵字參數必須位于位置參數之后。

114.Apriori算法的核心思想是()。

A、通過頻繁項集生成和情節(jié)的向下封閉檢測兩個階段來挖掘候選集

B、通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集

C、數據集中包含該項集的數據所占數據集的比例,度量一個集合在原始數據中出

現的頻率

D、若某條規(guī)則不滿足最小置信度要求,則該規(guī)則的所有子集也不滿足最小置信度

要求

答案：B

解析：Apriori算法是一種挖掘關聯(lián)規(guī)則的頻繁項集算法，其核心思想是通過候

選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。

115.與生成方法、半監(jiān)督SVM、圖半監(jiān)督學習等基于單學習機器利用未標記數據

不同，基于分歧的方法(disagreement-basedmethods)使用多學習器，而學習器之

間的分歧(disagreement)對未標記數據的利用至關重要。()是此類方法的重要代

表。

A、協(xié)同訓練

B、組合訓練

G配合訓練

D、陪同訓練

答案：A

解析：與生成方法'半監(jiān)督SVM、圖半監(jiān)督學習等基于單學習機器利用未標記數

據不同，基于分歧的方法(disagreement-basedmethods)使用多學習器，而學習器

之間的分歧(disagreement)對未標記數據的利用至關重要。協(xié)同是此類方法的重

要代表,它很好地利用了多視圖的相容互補性。

116.kNN最近鄰算法在什么情況下效果較好()。

A、樣本較多但典型性不好

B、樣本較少但典型性好

C、樣本呈團狀分布

D、樣本呈鏈狀分布

答案：B

解析：K近鄰算法主要依靠的是周圍的點,因此如果樣本過多,則難以區(qū)分,典型

性好的容易區(qū)分。

117.數據銷毀環(huán)節(jié)的安全技術措施有通過軟件或物理方式保障磁盤中存儲數據

的()、不可恢復，如數據銷毀軟件、硬盤消磁機、硬盤粉碎機等。

A、暫時隔離

B、暫時刪除

C、永久刪除

D、不作處理

答案：C

解析：數據銷毀環(huán)節(jié)的安全技術措施有通過軟件或物理方式保障磁盤中存儲數據

的永久刪除'不可恢復，如數據銷毀軟件、硬盤消磁機、硬盤粉碎機等。

118.以下代碼的輸出結果為()。

Importnumpyasnp

A=np.array([[1,2,3],[4,5,6]])

Print(np.append(a,[7,8,9]))

Av[[123][456H

B、[123456789]

G[[123][456][789]]

D、[[123555][4567891]

答案：B

解析：append()函數在沒有指定軸進行操作時,默認展平數組。

119.對于一個分類任務,如果開始時神經網絡的權重不是隨機賦值的,而是都設

成0,下面哪個敘述是正確的()

A、其他選項都不對

B、沒啥問題，神經網絡會正常開始訓練

C、神經網絡可以訓練,但是所有的神經元最后都會變成識別同樣的東西

D、神經網絡不會開始訓練,因為沒有梯度改變

答案：C

解析：神經網絡可以訓練，但是所有的神經元最后都會變成識別同樣的東西。

120.time庫的time.mktime(t)函數的作用是0。

A、將當前程序掛起secs秒，掛起即暫停執(zhí)行

B、將struct」ime對象變量t轉換為時間戳

C、返回一個代表時間的精確浮點數,兩次或多次調用，其差值用來計時

D、根據format格式定義，解析字符串t,返回struct_time類型時間變量

答案：B

解析：mktime(t)函數的作用是將結構化時間變量t轉換為時間戳。

121.以下()不是NoSQL數據庫。

A、MongoDB

B\BigTabIe

C、HBase

D、Access

答案：D

解析：NoSQL是指那些非關系型的、分布式的、不保證遵循ACID原則的數據存

儲系統(tǒng)。典型的NoSQL產品有DangaInteractive的Memcached、10gen的Mongo

DB\Facebook的Cassandra、Google的BigTable及其開源系統(tǒng)HBase、Amazon

的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。

122.關于層次聚類算法：⑴不斷重復直達達到預設的聚類簇數⑵不斷合并距離

最近的聚類簇⑶對初始聚類簇和相應的距離矩陣初始化⑷對合并得到的聚類

簇進行更新。正確的執(zhí)行順序為()。

A、1234

B、1324

C、3241

D、3412

答案：C

解析：層次聚類算法的過程是：

對初始聚類簇和相應的距離矩陣初始化;不斷合并距離最近的聚類簇;對合并得

到的聚類簇進行更新;不斷重復直達達到預設的聚類簇數。

123.執(zhí)行以下代碼段

MotorcycIes=['honda','yamaha','suzuki']

MotorcycIes.append('ducati')

MotorcycIes.pop(1)

Print(motorcycIes)

時輸出為0。

A、['honda','yamaha','suzuki']

B、['yamaha*,suzuki','ducati']

Cx['honda',yamaha1,suzuki','ducati1]

D、['honda','suzuki',1ducati']

答案：D

解析：pop出第一位置的元素

124.Windows系統(tǒng)下安裝Matplotiib的命令是()。

AxpythonpipinstaIImatpIotIib

B、python-mpipinstaIImatpIotIib

C、sudoapt-getinstaIIpython-matpIotIib

D、sudopython-mpipinstaIImatplotIib

答案：B

解析：A選項缺少參數'-m',C選項是Linux系統(tǒng)下安裝命令,D選項是MacOSX

系統(tǒng)下安裝命令。

125.以下()屬于DMM(數據管理成熟度模型)中的關鍵過程域“數據戰(zhàn)略”。

A、數據戰(zhàn)略制定

B、業(yè)務術語表

C、數據質量評估

D、過程質量保障

答案：A

解析：數據戰(zhàn)略制定屬于DMM(數據管理成熟度模型)中的關鍵過程域“數據戰(zhàn)略”o

126.深度學習是當前很熱門的機器學習算法,在深度學習中,涉及到大量的矩陣

相乘,現在需要計算三個稠密矩陣A,B,C的乘積ABC,假設三個矩陣的尺寸分別為

m*n,n*p,p*q,且m<n<p<q,以下計算順序效率最高的是(_)。

A、(AB)C

B、AC(B)

C、A(BC)

D、所有效率都相同

答案：A

解析：B選項中A的列數與C的行數不相等，無法相乘,B選項排除。A選項需要

的乘法次數為m*n*p+m*p*q,C選項需要的乘法次數為n*p*q+m*n*q,由于m<n<p<

q,顯然A運算次數更少。

127.ordinalencoder將屬性轉化為()。

A、獨熱編碼

B、附帶特性的數字

C、二進制編碼

D、ASCII碼

答案：B

解析：ordinalencoder的作用是數值化，但是不增加列數。

128.下列關于大數據的分析理念的說法中，錯誤的是0。

A、在數據基礎上傾向于全體數據而不是抽樣數據

B、在分析方法上更注重相關分析而不是因果分析

C、在分析效果上更追求效率而不是絕對精確

D、在數據規(guī)模上強調相對數據而不是絕對數據

答案：D

解析：在大數據的分析理念中，數據規(guī)模上強調絕對數據而不是相對數據。

129.以下哪個是正確的運行結果()。

Importnumpyasnpa=np.logspace(0,9,10,base=2)

Print(a)

A、[1357]

B、[.28.256.512.]

G[0123456789]

D、[010]

答案：B

解析：np.logspace()計算時可以先求相同參數的Iinspace結果,然后對每個元

素做以base參數為底的懸運算。此處為以2為底,依此做0-9的塞運算。

130.np.exp(x).round⑸的結果是2.71828,x的值是()。

A、0

B、1

C、2

D、2.71828

答案：B

解析：e的1次方。

131.以下關于圖像的平滑處理錯誤的說法是()。

A、圖像的平滑處理是指在盡量保留原有信息的情況下,過濾掉圖像內部的噪音

B、圖像平滑處理會對圖像中與周圍像素點的像素值差異較大的像素點進行處理,

將其值調整為周圍像素點像素值的近似值

C、講過平滑處理后圖像質量會下降

D、以上答案都正確

答案：C

解析：圖像的平滑處理不會損壞圖像的輪廓及邊緣等重要信息，使得圖像清晰視

覺效果好。

132.在抽樣方法中，當合適的樣本容量很難確定時,可以使用的抽樣方法是：Oo

A、有放回的簡單隨機抽樣

B、無放回的簡單隨機抽樣

C、分層抽樣

D、漸進抽樣

答案：D

解析：在抽樣方法中，當合適的樣本容量很難確定時,可以使用的抽樣方法是漸進

抽樣。

133.數據安全技術保護與信息系統(tǒng)“三同步”原則不包括以下哪項()。

A、同步規(guī)劃

B\同步建設

C、同步使用

D、同步運維

答案：D

解析：數據安全技術保護與信息系統(tǒng)包含同步規(guī)則、同步建設、同步適用三項原

則。

134.如果要將讀寫位置移動到文件開頭,需要使用的命令是()。

A、close

B、seek(0)

Cxtruncate

D、write('stuff')

答案：B

解析：seek(0)指移動指針到0位置即開頭。

135.以下代碼的輸出結果為()。

Importnumpyasnp

A=np.array([[10,7,4],[3,2,1]])

Print(np.percentiIe(a,50))

A、[[1074][321]]

B、3.5

C、[]

D、[7.2.]

答案：B

解析：percentiIe是百分位數，此處是50%,即中位數，因為數組個數為偶數個，

因此中位數為3和4的均值。

136.a=np.array([[0,0,0],[10,10,10],[20,20,20],[30,30,30]])

B=np.array([1,2,3]),a+b的輸出結果為0。

A、[[123][101010][202020][303030]]

B、[[123][000][101010][202020][303030]]

G[[123][111213][212223][313233]]

D、無法計算

答案：c

解析:在Numpy中兩個維度不同的數組進行計算時會自動觸發(fā)Numpy的廣播機制,

原公式會轉換為[[1,2,3],[1,2,3],[1,2,3],[1,2,3]]+[[0,0,0],[10,10,10],

[20,20,20],[30,30,30]]0

137.()將觀測值分為相同數目的兩部分,當統(tǒng)計結果為非對稱分布時,經常使用

它。

A、眾數

B、標準差

C、中位數

D、均值

答案:C

解析：中位數是指一組數據排序后處于中間位置的變量值。

138.關于0LAP的特性,下面正確的是：(1)快速性⑵可分析性⑶多維性(4)信息

性⑸共享性()

A、(1)(2)(3)

B、(2)(3)(4)

C、(1)(2)(3)(4)

Dv(1)(2)(3)(4)(5)

答案：D

解析：OLAP具有快速性、可分析性、多維性、信息性、共享性等特征。

139.()是指針對用戶非常明確的數據查詢和處理任務，以高性能和高吞吐量的方

式實現大眾化的服務,是數據價值最重要也是最直接的發(fā)現方式。

A、數據服務

B、數據分析

C、數據治理

D、數據應用

答案：A

解析：數據服務指針對用戶非常明確的數據查詢和處理任務,以高性能和高吞吐

量的方式實現大眾化的服務,是數據價值最重要也是最直接的發(fā)現方式。

140.數據斐產維護是指為保證數據質量,對數據進行()等處理的過程。

A、更正

B、刪除

C、補充錄入

D、以上答案都正確

答案：D

解析：數據資產維護是指為保證數據質量，對數據進行更正、刪除、補充錄入等

處理的過程。

141.SparkJob默認的調度模式是()。

A、FIFO

B、FAIR

G無

D、運行時指定

答案：A

解析：Spark中的調度模式主要有兩種FIFO和FAIR。默認情況下Spark的調度

模式是FIFO(先進先出)。

142.以下可以應用關鍵詞提取的是()。

A、文獻檢索

B、自動文摘

C、文本聚類/分類

D、以上答案都正確

答案：D

解析：在自然語言處理領域,處理海量的文本文件最關鍵的是要把用戶最關心的

問題提取出來。

143.()是實現數據戰(zhàn)略的重要保障。

A、數據管理

B、數據分析

C、數據治理

D、數據規(guī)劃

答案：C

解析：從DMM模型可以看出，數據治理是實現數據戰(zhàn)略的重要保障。數據管理的

是指通過管理“數據”實現組織機構的某種業(yè)務目的。然而，數據治理則指如何

確?！皵祿芾怼钡捻樌?、有效'科學地完成。

144.ggpIot2的核心理念是()o

A、繪圖與數據分離

B、結構與數據分離

C、繪圖與結構分離

D、繪圖與數據和結構分離

答案：A

解析：ggplot2的核心理念是將繪圖與數據分離，數據相關的繪圖與數據無關的

繪圖分離。

145.最早被提出的循環(huán)神經網絡門控算法是什么()

A、長短期記憶網絡

B、門控循環(huán)單元網絡

C、堆疊循環(huán)神經網絡

D、雙向循環(huán)神經網絡

答案：A

解析：LSTM是最早被提出的循環(huán)神經網絡門控算法。長短期記憶網絡(Long-Sho

rtTermMemory,LSTM)論文首次發(fā)表于1997年11月15日。門控循環(huán)單元網絡(G

RU)論文發(fā)表于2014年。堆疊循環(huán)神經網絡(SRNN)論文發(fā)表于2017年。雙向循

環(huán)神經網絡(BidirectionaIrecurrentneuraInetworks)發(fā)表于1997年11月。

146.在其他條件不變的前提下，以下哪種做法容易引起機器學習中的過擬合問題

()o

A、增加訓練集量

B、減少神經網絡隱藏層節(jié)點數

C、刪除稀疏的特征

D、SVM算法中使用高斯核/RBF核代替線性核

答案：D

解析：神經網絡減少隱藏層節(jié)點,就是在減少參數,只會將訓練誤差變高,不會導

致過擬合。D選項中SVM高斯核函數比線性核函數模型更復雜,容易過擬合。

147.下列的哪種方法可以用來降低深度學習模型的過擬合問題()。

1增加更多的數據

2使用數據擴增技術(dataaugmentation)

3使用歸納性更好的架構

4正規(guī)化數據

5降低架構的復雜度

A、145

B、123

C、1345

D、所有項目都有用

答案：D

解析：增多數據、數據擴增'正規(guī)化數據'選擇歸納性更好、復雜度更低的架構

均可以用來降低深度學習模型的過擬合問題。

148.神經網絡感知機只有(_)神經元進行激活函數處理,即只擁有一層功能神經

兀。

A、輸出層

B、輸入層

G感知層

D、網絡層

答案：A

解析：神經網絡感知機只有輸入層神經元進行激活函數處理,即只擁有一層功能

神經元。

149.下列不屬于transform操作的是()

Axmap

BvfiIter

CxsampIe

Dxcount

答案：D

解析：Transformation常用函數為map、filter、fIatMapxsample、union、j

oin寺。

150.下列方法中，用于獲取當前目錄的是()。

A、open

Bvwrite

GGetpwd

D、read

答案：C

解析：用于獲取當前目錄的方法是Getcwd。

151.Scipy中計算偏度的函數是哪個()。

Axscipy.stats,skewtest()

B、scipy.stats,norm,rvs()

C、scipy.stats,kurtosis()

D、scipy.stats,poisson.rvs0

答案：A

解析：利用stats.skewtest()計算偏度,有兩個返回值,第二個為p-value,即數

據集服從正態(tài)分布的概率(0~1)o

152.相對于HadoopMapReduc

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2022年大數據應用知識考試題庫（含答案）

文檔簡介

溫馨提示

最新文檔

評論

相關文檔