HCIE-Big Data-Data Mining H13-731筆試題庫(重點題)_第1頁
HCIE-Big Data-Data Mining H13-731筆試題庫(重點題)_第2頁
HCIE-Big Data-Data Mining H13-731筆試題庫(重點題)_第3頁
HCIE-Big Data-Data Mining H13-731筆試題庫(重點題)_第4頁
HCIE-Big Data-Data Mining H13-731筆試題庫(重點題)_第5頁
已閱讀5頁,還剩157頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

HCIE-BigData-DataMiningH13-731筆試必備題庫(重點題)

一'單選題

1.以下哪個選項不是矩陣乘法對向量的變換?

A、投影

B、伸縮

C、曲線化

D、旋轉(zhuǎn)

答案:C

2.SparkMLIib中的BasicStatistic是??谟糜谶M(jìn)行大數(shù)據(jù)集群上的統(tǒng)計分析工

具,以下哪個不屬于BasicStatistic

支持的功能?

A、假設(shè)檢驗

B、特征抽取

C、匯總統(tǒng)計

D、生成隨機數(shù)

答案:B

解析:BasicStatistic是SparkMLIib提供??谟糜谶M(jìn)行大數(shù)

據(jù)集群上的統(tǒng)計分析工具。BasicStatistic為大數(shù)據(jù)集

中數(shù)據(jù)預(yù)處理中數(shù)據(jù)的分析提供支撐方法,包括

Summarystatistics(匯總統(tǒng)計),Correlations(相

關(guān)系數(shù)),Stratifiedsampling(分層抽樣)

,Hypothesistesting(假設(shè)檢驗),Randomdata

Generation(隨機數(shù)生成),KerneIdensityestimation

(核密度估計)等數(shù)據(jù)分析方法。

3.“點擊率問題”是這樣一個預(yù)測問題,99%的人不會點擊,而1%的人會點擊,

所以這是一個非常不平衡的數(shù)據(jù)集。假設(shè),現(xiàn)在我們已經(jīng)建了一個模型來分類,

而且有了99%的預(yù)測準(zhǔn)確率,我們可以下的結(jié)論是?

A、模型預(yù)測準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了。

B、模型預(yù)測準(zhǔn)確率不高,我們需要做點什么改進(jìn)模型。

C、無法下結(jié)論

D、以上都不對

答案:C

4.以下關(guān)于特征選擇定義的理解說法錯誤的是哪一項?

A、特征選擇是指從原始特征中挑選出一組最有代表性、分類性能好的特征。

B、特征選擇不像算法和模型是確定的步驟,更多是工程上的經(jīng)驗和權(quán)衡,一般需

要耗費較多的時間和精力。

C、對于不同的數(shù)據(jù)挖掘任務(wù),所需要的特征組合都是相同的。

D、特征選擇(Featureselection)也被稱為變量選擇、屬性選擇或變量子集選擇。

它是為了構(gòu)建模型而選擇相關(guān)特征子集的過程。

答案:C

5.請問以下選項中,不屬于分類算法的是哪一項?

A、決策樹

B、隨機森林

C、線性回歸

D、SVM

答案:C

解析:線性回歸屬于回歸算法

6.以下哪個選項是求解等式約束最優(yōu)化的常用方法?

A、牛頓法

B、梯度下降法

C、拉格朗曰乘法子

D、KKT條件

答案:C

解析:考查等式約束最優(yōu)化的問題,其中提到用拉格朗曰乘法

子方法來將約束優(yōu)化問題轉(zhuǎn)化為無約束優(yōu)化問題

7.在案例“銀行客聲精準(zhǔn)畫像”中,關(guān)于其數(shù)據(jù)挖掘不同階段的操作描述,屬于

數(shù)據(jù)建模階段的是?

A、在客聲分類問題中采用的主要是數(shù)據(jù)挖掘中分類和聚類的算法,需要結(jié)合需

求規(guī)劃出適用模型。

B、將來自數(shù)據(jù)倉庫中多個數(shù)據(jù)表,經(jīng)過了數(shù)據(jù)采集.清理和集成,生成一個針對

數(shù)據(jù)挖掘目標(biāo)確定與交易行為有關(guān)的數(shù)據(jù)項集合。

C、結(jié)果分析,并提供參看策略。

D、對最近三個月的原始交易數(shù)據(jù)進(jìn)行計算獲得變量。并整合在客聲的實際交易

情祝上定義客聲的行為,每個客聲作為一條觀測從中隧機抽取2867個客聲作為

研究實例的代表性樣本。

答案:D

解析:A選項:算法選擇,B選項:數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備,C選項:結(jié)果分析

8.以下關(guān)于離散特征編碼的表述,錯誤的是哪一項?單

A、離散特征的取值之間沒有大小的意義,使用。ne-hot編碼。

B、因為機器學(xué)習(xí)算法接收的是數(shù)字型變量。所以需要對屬性進(jìn)行編碼。

C、離散特征的取值有大小的意義,直接使用映射。

D、想要方法pandas.get_dummies()的作用等同于onehot編碼的效果,只需要

設(shè)置其參數(shù)drop_first=True0

答案:D

9.以下關(guān)于Wrapper(包裝法)和FiLter(過濾法)的描述不正確的是?

A、Wrapper方法由于每次對子集的評價都要進(jìn)行分類器的訓(xùn)練

和測試,所以算法計算復(fù)雜度很高。

B、Wrapper方法選出的特征通用性較強,當(dāng)改變學(xué)習(xí)算法時,

也不需要針對該學(xué)習(xí)算法重新進(jìn)行特征選擇。

C、相對于Filter(過濾法),Wrapper方法找到的特征子集分類性

能通常更好。

D、對于大規(guī)模數(shù)據(jù)集來說,Wrapper算法的執(zhí)行時間很口。

答案:B

解析:相對于Filter方法,Wrapper方法找到的特征子集分類

性能通常更好。但是因為Wrapper方法選出的特征通用

性不強,當(dāng)改變學(xué)習(xí)算法時,需要針對該學(xué)習(xí)算法重新

進(jìn)行特征選擇。

10.以下不屬于決策樹算法?

A、ID3

B、CART

C、C4.5

D、KNN

答案:D

解析:KNN不屬于決策樹算法。

11.請問以下關(guān)于特征選擇方法的一些表述,不正確的是哪一項?

A、卡方值描述了自變量與因變量之間的相關(guān)程度:卡方值越小,相關(guān)程度也越

大,所以很自然的可以利用卡方值來做特征選擇,保留相關(guān)程度大的變量。

B、遞歸消除特征法使用一個基模型來進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后,移除若干權(quán)

值系數(shù)的特征,再基于新的特征集進(jìn)行下一輪訓(xùn)練。它解決思路沒有過濾法直接,

它是在確認(rèn)后續(xù)的算法模型后,把模型本身的性能作為評價準(zhǔn)則:選擇一個目標(biāo)

函數(shù)來一步步的篩選特征。

C、基于樹的嵌入方法能夠用來計算特征的重要程度,因此能用來去除不相關(guān)的

特征。

D、保留大的方差的實際意義,就是該列特征的數(shù)據(jù)分散情況比較大,對結(jié)果的

劃分的影響力度就大,反過來,如果方差很小,比如一列數(shù)據(jù)的值全部一樣,方

差為0,確實對結(jié)果的分類來說意義不大,有沒有這列特征都不能影響分類目標(biāo)

產(chǎn)生不同的結(jié)果,這個也是方差選擇法的原理。

答案:A

12.關(guān)于實時流處理整體架構(gòu)中數(shù)據(jù)緩存和消息中間件描述錯誤的是()。

A、Redis:提供高速key/vaIue存儲查詢能力,用于流處理結(jié)果數(shù)據(jù)的高速緩存。

B、Katka:分布式消息系統(tǒng),支持消息的生產(chǎn)和發(fā)布,以及多種形式的消息緩存,

滿足高效可靠的消息生產(chǎn)和消費。

C、Kafka:消息中間件可對實時數(shù)據(jù)進(jìn)行緩存,支持高吞吐量的消息訂閱和發(fā)布。

D、HBase:用于行鍵查詢(Key-Value)檢索,查詢條件復(fù)雜且多樣。

答案:C

13.下列代碼的作用是?StringvertexId=getVertexIdByProperty(api,graphNam

e,"person","name","marko");api.queryVertex(vertexId,graphName);

A、查詢點

B、查詢屬性

C、查詢邊

D、以上全不正確

答案:B

14.樸素口葉斯分類方法(NaiveBayes)是一種特殊的Bayes分類器,特征變量是

x,類別標(biāo)簽是C,它的一個假定

是?

A、以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布

B、P(XIC)是高斯分布

C、特征變量x的各個屬性之間互相獨立

D、各類別的先驗概率P(C)是相等的

答案:C

解析:樸素口葉斯的條件就是每個變量相互獨立。

15.以下哪種場景比較適用于在保證召回率的前提下,

盡量提升精確率的情況?

A、搜索

B、地震檢測

C、金融欺詐

D、癌癥檢測

答案:A

解析:查全率(Recall):又被稱為召回率,是指分類器預(yù)測為

正例的樣本占實際正例樣本的比例。在實際項目中,

常常需要根據(jù)具體情況做出取舍,例如一般的搜索情

況,在保證召回率的條件下,盡量提升精確率。而像

癌癥檢測、地震檢測、金融欺詐等,則在保證精確率

的條件下,盡量提升召回率。

16.以下關(guān)于Python函數(shù)的描述中,錯誤的是

A、函數(shù)是一段可重用的語句組

B、每次使用函數(shù)需要提供相同的參數(shù)作為輸入

C、函數(shù)通過函數(shù)名進(jìn)行調(diào)用

D、函數(shù)是一段具有特定功能的語句組

答案:B

17.以下哪種方法屬于判別式模型(discriminativemodel)?單

A、隱口爾科夫模型(HMM)

B、SVM

C、LDA

D、樸素口葉斯

答案:c

解析:LDA(LinearDiscriminantAnalysis):線性判別式分析,也叫Fisher線性

判別,是模式識別中的經(jīng)典算法,它的數(shù)據(jù)集的每樣本是有

類別輸出的。

18.下列哪個選項不是常用的聚類算法?

A、SVM

B、DBSCAN算法

C、K-means算法

D、HierarchicalClustering算法、BIRCH算法

答案:A

解析:常用聚類算法:1、基于原型聚類(partitionng

Methods)K-Means算法,K-Mediods2x算法基于層次

聚類(hierarchicaImethods)HierarchicaICIustering算

法、BIRCH算法3、基于密度聚類(density-based

Methods)DBSCAN算法

19.我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時間,我們可以

A、減少樹的數(shù)量

B、增加樹的深度

C、減少樹的深度

D、增加學(xué)習(xí)率(learningrate)

答案:C

解析:

增加樹的深度,會導(dǎo)致所有節(jié)點不斷分裂,直到葉子節(jié)點是純的為止.所以,增加

深度,會延口訓(xùn)練時間。所以需要減少使用時間,應(yīng)該

選擇減少樹的深度。

20.設(shè)X.Y是兩個隨機變量,C是常數(shù),以下關(guān)于方差的性質(zhì)描述錯誤的是?

A、D(C)=0

B、D(0)=0的充要條件是X以概率1取常數(shù)E(X),即P{X=E(X)}=1

GD(X+Y)=D(X)+D(Y)

D、D(CX)=C2D(X)

答案:C

解析:X與Y相互獨立時才有C選項成立,題目中沒有X與Y相互獨立的前提,

所以選擇C選項。

21.Python中列表數(shù)據(jù)類型元素的切片非常強大,對于列表mylist=[1,2,3,4,5,

6,7,8,9],下面操作正確的是

A、mylist[1:9:0]

B、mylist[1:9:2]

C、mylist(6:-9:-2)

D、mylist[10::]

答案:B

22.我們可以使用Python中skiearn庫的。函數(shù),來解決無序分類變量的離散

化問題?

A、cut()函數(shù)

B、map()函數(shù)

C、OneHotEncoder()函數(shù)

D、KMeansO函數(shù)

答案:c

解析:無序分類變量的離散化方法較為常用方法有:獨熱編碼(One-HotEncodin

g)、啞編碼(DummyEncoding)0

23.以下關(guān)于SparkMLIib中協(xié)同過濾算法參數(shù)描述不正確的是哪一項?

A、Iterations:模型中潛在因子的數(shù)量。

B、nurnBlocks:用于并行計算的塊數(shù),如設(shè)置為7則為自動配置。

GLambda:ALS中的正則化參數(shù)。

D、OimplicitPrefs:指定是使用顯式反饋ALS變體還是使用適用于隱式反饋數(shù)

據(jù)的變量。

答案:A

解析:

?SparkMLlib中協(xié)同過濾算法叁

SparkMLlib協(xié)同過濾算法參數(shù)

□numBlocks:用于并行計算的塊數(shù)(設(shè)置為-1以為動配

□Rank:模型中潛在因子的數(shù)量。

口[iterations:運行的迭代次數(shù)。

□lambda:ALS中的正則化參數(shù)。

□implicitPrefs:指定是使用顯式反饋ALS變體還是使用

□alpha:適用于ALS的隱式反饋變體的參數(shù),其控制偏正

24.以下對分類模型以下描述,錯誤的是哪一項?

A、邏輯回歸算法速度快,解釋性也較好。

B、利用神經(jīng)網(wǎng)絡(luò)系列算法,需要大量數(shù)據(jù)點才能達(dá)到較好的預(yù)測效果。

C、線性支持向量機和樸素口葉斯算法都具有較好的解釋性。

D、GBDT一般是適用于二分類問題,但單獨的使用GBDT模型,容易出現(xiàn)過擬合。

答案:B

25.以下關(guān)于有監(jiān)督連續(xù)變量的離散化分析錯誤的是哪一項?

A、1R方法是分箱法的有監(jiān)督版本,每個區(qū)間至少包含6個變量(最后一個區(qū)間除

外)

B、基于卡方檢驗的方法,運用卡方檢驗的策略,自頂向下合并數(shù)值進(jìn)行有監(jiān)督

離散化,核心操作是Herge.

C、有監(jiān)督的連續(xù)變量的離散化相對于無監(jiān)督的方法來說,可以減少在離散化的過

程中異常值的影響

D、基于信息熠的方法運用了決策樹的理念進(jìn)行變量離散化,是一種自頂向下的分

裂技術(shù)。

答案:B

26.以下關(guān)于SparkMLlib中決策樹模型超參數(shù)描述不正確的是?

Aximpurity:用于在候選分割之間進(jìn)行選擇的雜質(zhì)度量。

B、subsamplingRater用于學(xué)習(xí)決策樹的訓(xùn)練數(shù)據(jù)的分?jǐn)?shù),但對于訓(xùn)練單個決策

樹,該參數(shù)不太有用。

GmaxBins:樹的最大深度。

D、maxMemoryInMB用于收集足夠統(tǒng)計信息的內(nèi)存量。

答案:C

解析:maxBins:離散連續(xù)特征時使用的箱數(shù);maxDepth:樹的最大深度

27.關(guān)于GaussDB200的邏輯架構(gòu),下列說法正確的是

A、DN是實際數(shù)據(jù)節(jié)點,所以只負(fù)責(zé)存儲數(shù)據(jù)。

B、CN是協(xié)調(diào)節(jié)點,協(xié)助CM管理整個集群。

C、CM是集群的管理模塊,那么負(fù)責(zé)集群的曰常管理和運維。

D、GTM是全局事務(wù)控制器,負(fù)責(zé)生成和維護全局事務(wù)ID等全局唯一信息。

答案:D

28.重新采樣是不均衡數(shù)據(jù)處理的常用方法之一,對于類別占比很高的樣本集,

適用于以下哪種重采樣方法?

A、欠采樣

B、組合采樣

C、過采樣

D、SMOTE算法

答案:A

解析:

》不均衡數(shù)據(jù)處理一方法(

重新采樣數(shù)據(jù)

□重采樣是不均衡數(shù)據(jù)處理的常用方法之一,

據(jù)量大的數(shù)據(jù)類別定義為豐富類數(shù)據(jù)量少

□欠采樣

■適用于大數(shù)據(jù)集,從豐富類中隨機選擇少量市

□過采樣

■適用于小數(shù)據(jù)集,從稀有類中隨機選擇樣本

□方法

-Python中SMOTE算法。

29.以下關(guān)于邏輯回歸算法的損失函數(shù)描述不正確的是哪一項?

A、在邏輯回歸的推導(dǎo)中,它假設(shè)樣本服從伯努利(07)分布,然后求得滿足該分

布的似然函數(shù),接著用對數(shù)求極值。

B、邏輯回歸算法一定要計算最大似然函數(shù)。

C、邏輯回歸算法的損失函數(shù)可以使用對數(shù)函數(shù)。

D、邏輯回歸并沒有求對數(shù)似然函數(shù)的最大值,而是把極大化當(dāng)做一個思想,進(jìn)而

推導(dǎo)出它的口險函數(shù)為最小化的似然函數(shù)。

答案:B

30.請問在Pandas中,DataFrame對象可以使用以下哪個方法查看前n條數(shù)據(jù)?

A、read

B、taiI

C、describe

D、head

答案:D

解析:DataFrame.head(n=5):顯示前n條數(shù)據(jù),n表示顯示的數(shù)據(jù)量。DataFra

me.tail(n=5):顯示底部數(shù)據(jù),n表示顯示的數(shù)據(jù)量。

31.決策樹中不包含以下哪種節(jié)點?

A、內(nèi)部節(jié)點(internaInode)

B、外部節(jié)點(externaInode)

C、根節(jié)點(rootnode)

D、葉節(jié)點

答案:B

32.一般情況下,若要提高ElasticSearch檢索效率,可以采取什么操作?

A、調(diào)整索引分片數(shù)

B、使用Hive做底層存儲

C、壓縮素引

D、正價EsMaster節(jié)點

答案:A

33.假設(shè)A,B,C是三個矩陣,A是2X2,B是2X2階,C是3x2階,以下哪一個矩

陣的運算是有意義的?

A、A+B

B、AC

C、AB+AC

D、B+C

答案:A

34.關(guān)于GaussDB200的數(shù)據(jù)導(dǎo)入導(dǎo)出下列說法正確的是(

A、gsql元命令和COPY命令在使用和用法上是一樣的。

B、GDS在數(shù)據(jù)導(dǎo)入時可以做預(yù)處理,比如非法字符替換、容錯處理'數(shù)據(jù)聚合

等。

C、COPY方式使用簡單,一般用在大量數(shù)據(jù)的導(dǎo)入導(dǎo)出中。

D、INSERT數(shù)據(jù)寫入適合數(shù)據(jù)量不大,并發(fā)度不高的場景。

答案:B

35.假設(shè)現(xiàn)在要做一個可以根據(jù)線索指導(dǎo)運維人員進(jìn)行排障的功能,你建議選擇

下列哪個工具實現(xiàn)該功能?

A、Lucene

BvEIasticSearch

C、HBase

D、GES

答案:B

36.企業(yè)數(shù)據(jù)分析平臺在根據(jù)不同的業(yè)務(wù)場景需求,搭建不同的大數(shù)據(jù)分析平臺,

如適應(yīng)離線批處理的Hadoop平臺;適應(yīng)實時處理的流計算等,這種架構(gòu)屬于哪種

類型的架構(gòu)?

Av融合架構(gòu)

B、分離架構(gòu)

C、單一架構(gòu)

D、多維架構(gòu)

答案:A

37.假設(shè)現(xiàn)在要做一個可以根據(jù)線索指導(dǎo)運維人員進(jìn)行排障的功能,你建議選擇

下列哪個工具實現(xiàn)該功能?

A、Lucene

B、HBase

C、EIasticSearch

D、GraphBase

答案:C

38.Numpy中創(chuàng)建全為0的矩陣使用

A、ones

B、empty

C、zeros

Dxarange

答案:C

39.以下關(guān)于Python正則表達(dá)式描述不正確的是?

A、re正則表達(dá)式可以處理字符串?dāng)?shù)據(jù),也能處理數(shù)值數(shù)據(jù)。

Bxre正則表達(dá)式模塊使Python語擁有部分正則表達(dá)式功能。

C、re正則表達(dá)式是用于處理字符串的強大工具。

D、Python自1.5版本起增加了re正則表達(dá)式模塊。

答案:A

40.下列關(guān)于存儲過程的特點說法正確的是

A、編寫的SQL存儲在數(shù)據(jù)庫中,因此執(zhí)行速度快。

B、創(chuàng)建時編譯,執(zhí)行時調(diào)用,因此開發(fā)效率高。

C、用聲創(chuàng)建的存儲過程或自定義函數(shù)可以重復(fù)調(diào)用,因此數(shù)據(jù)傳輸量少。

D、通過指定存儲過程的訪問權(quán)限,因此安全系數(shù)高。

答案:D

41.當(dāng)決策樹出現(xiàn)過擬合后,需要使用()技術(shù)來縮小樹的結(jié)構(gòu)和規(guī)模。

A、剪枝

B、回歸

C、小波

D、調(diào)和

答案:A

解析:決策樹容易過擬合,需要剪枝來縮小樹的結(jié)構(gòu)和規(guī)模

(包括預(yù)剪枝和后剪枝)o剪枝是決策樹后期處理的重

要步驟,也被視為必不可少的一個步驟。其根本目的就

是為了去掉一些不必要的節(jié)點使得決策樹模型具有更好

的泛化能力,以解決過擬合問題。

42.以下對聚類算法KMeans的缺點描述正確的是哪些項?

A、該算法對噪音和異常點比較的敏感。

B、如果各隱含類別的數(shù)據(jù)不平衡,比如各隱含類別的數(shù)據(jù)量嚴(yán)重失衡,或者各

隱含類別的方差不同,則聚類效果不佳。

C、聚類結(jié)果可能具有一定的隨機性。

D、K值是超參數(shù),它的選取不好把握。

答案:D

43.DUGP(UnitiedDataGovernancePIatform)華為大數(shù)據(jù)統(tǒng)一數(shù)據(jù)治理平臺,為運

營商提供全面高效的數(shù)據(jù)資產(chǎn)管控環(huán)境。實現(xiàn)

了數(shù)據(jù)集中.統(tǒng)一和共享。包括統(tǒng)一的數(shù)據(jù)采集和整合。統(tǒng)一的安全、標(biāo)準(zhǔn)、生

命周期和質(zhì)量管理。以及多維度數(shù)提云圖功能。提供開箱即

用的可以實現(xiàn)全生命周期的主數(shù)據(jù)管理。包括主數(shù)據(jù)的集中存儲'()、主數(shù)據(jù)清

洗、主數(shù)據(jù)監(jiān)管和主數(shù)據(jù)的共享滿足集團對于企業(yè)級別主數(shù)

據(jù)的管理平臺的要求。

A、主數(shù)據(jù)合并

B、主數(shù)據(jù)關(guān)聯(lián)

C、主數(shù)據(jù)標(biāo)記

D、主數(shù)據(jù)遷移

答案:A

解析:DUGP(UnifiedDataGovernancePIatform)華為大數(shù)據(jù)統(tǒng)一數(shù)據(jù)治理平臺,

為運營商提供全面高效的數(shù)據(jù)資產(chǎn)管控環(huán)境,包括主數(shù)據(jù)

的集中存儲、主數(shù)據(jù)合并、主數(shù)據(jù)清洗、主數(shù)據(jù)監(jiān)管和主數(shù)據(jù)的共享,滿足集團

對于企業(yè)級別主數(shù)據(jù)管理平臺的需求。故選擇A選項

44.在MRSManager界面中,對Loader的操作不包括下列哪個選項?

A、配置Loader參數(shù)

B、啟動Loader實例

C、切換Loader主備節(jié)點

D、查看Loader服務(wù)狀態(tài)

答案:C

45.以下哪項不是KNN算法的三要素?

A、K值的選取

B、分類決策規(guī)則

C、距離度量的方式

D、特征的順序

答案:D

解析:KNN的算法三要素:1.K值的選取。2.距離度量的方

式。3.分類決策規(guī)則。

46.HDFS的副本放置策略中,同一機架不同服務(wù)器之間的距離是?

A、1

B、2

C、3

D、4

答案:B

47.下列哪個不屬于決策樹的是?

A、KNN

B、CART

C、ID3

D、C4.5

答案:A

解析:A)KNN(K-NearestNeighbor)就是k個最近的鄰居的意思,即每個樣本都

可以用它最接近的k個鄰居來代表。KNN常用來處理分類問

題,但也可以用來處理回歸問題,不屬于決策樹。B)CART(CIassificationand

RegressionTree)分類回歸樹:是在ID3的基礎(chǔ)上進(jìn)

行優(yōu)化的決策樹。C)ID3算法是由RossQuinIan提出的決策樹的一種算法實現(xiàn)D)

C4.5算法是決策樹的一種是基于ID3的改進(jìn)和提

升。

48.關(guān)于FusionlnsightMiner的功能描述不準(zhǔn)確的是哪一項?

A、業(yè)務(wù)場景包括極大團分析。

B、工作流暫不支持自定義算法。

C、支持R語言。

D、支持Python2和Python3語言。

答案:B

49.)建設(shè)一個完整的數(shù)據(jù)治理平臺,作為數(shù)據(jù)平臺的管控系統(tǒng),從制度、標(biāo)準(zhǔn)、

()、流程幾個方面提升數(shù)據(jù)信息管理能力。解決目

前所面臨的數(shù)據(jù)標(biāo)準(zhǔn)問題、數(shù)據(jù)質(zhì)量問題、元數(shù)據(jù)管理問題和數(shù)據(jù)服務(wù)問題。

A、實時

B、管理

C、分化

D、監(jiān)控

答案:B

50.以下關(guān)于Python中函數(shù)定義的描述不正確的是?

A、函數(shù)內(nèi)容以冒號起始,并且縮進(jìn)。

B、在python中只能用關(guān)鍵字def創(chuàng)建函數(shù)。

C、Return用于返回一個函數(shù)執(zhí)行的結(jié)果。

D、用def聲明函數(shù),后面跟函數(shù)名和小括號,括號內(nèi)可以放置所需參數(shù)。

答案:B

解析:考查Python的函數(shù)創(chuàng)建。Python中除了def可以創(chuàng)建函

數(shù)外,還提供了lambda來創(chuàng)建匿名函數(shù)。

51.以下關(guān)于KNN(K-NearestNeighbor)K最近鄰方法的描述不正確的是哪一項?

A、可用于非線性分類

B、計算量小

C、常用來處理分類問題,但也可以處理回歸問題

D、對數(shù)據(jù)沒有假設(shè),支持增量學(xué)習(xí),無需估計參數(shù)

答案:B

52.一般而言,若數(shù)據(jù)類別比例超過(),即認(rèn)為數(shù)據(jù)集中存在不均衡數(shù)據(jù)的現(xiàn)象。

A、2:1

B、4:1

C、1:1

D、3:1

答案:B

解析:

考查數(shù)據(jù)預(yù)處理中,不均衡數(shù)據(jù)處理的影響。一般而

言,若數(shù)據(jù)類別比例超過4:1,即認(rèn)為數(shù)據(jù)集中存在不

均衡數(shù)據(jù)的現(xiàn)象

53.Numpy中向量轉(zhuǎn)換成矩陣使用

Avreshape

B、revaI

C、arrange

D、random

答案:A

54.以下哪個選項不屬于直接刪除包含缺失值的元組(或記錄)產(chǎn)生的影響?

A、降低模型準(zhǔn)確性

B、可能會引入噪音節(jié)點

C、數(shù)據(jù)缺失占比較多時,直接刪除可能會改變原始數(shù)據(jù)的分布情況

D、破壞數(shù)據(jù)的歷史完整性

答案:B

解析:刪除不會引入噪音節(jié)點

55.以下哪些方法不可以用來做分類?

A、KNN

B、支持向量機

C、K-Means

D、決策樹

答案:C

解析:考查有監(jiān)督學(xué)習(xí)的分類算法。KNN常用來做分類算法,

也可以用來處理回歸問題,支持向量機就是SVM,用于

分類算法,“Means是聚類算法。決策樹是分類算法。

56.屬于聚類問題常用的評估方法是哪一項?

A、均方誤差

B\SiIhonette輪廓系數(shù)

C、F-score

D、ROC曲線

答案:B

解析:聚類的評價方式在大方向上被分成兩類,一種是分析外

部信息,另一種是分析內(nèi)部信息。較為常用的分析內(nèi)部

信息的方法:互信息評分,蘭德系數(shù),輪轂系數(shù)等。

57.在其它條件不變的前提下,以下哪一方法容易引起模型的過擬合問題?

A、增加訓(xùn)練集數(shù)量

B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點數(shù)

C、刪除稀疏的特征

D、SVM算法中使用高斯核/RBF核替代

答案:D

58.以下關(guān)于PCA算法(主成分分析)說法不正確的是

A、必須在使用PCA前規(guī)范化數(shù)據(jù)

B、使數(shù)據(jù)降低到低維度上做數(shù)據(jù)可視化

C、應(yīng)該選擇使得模型有最小variance的主成分

D、應(yīng)該選擇使得模型有最大variance的主成分

答案:C

解析:PCA對數(shù)據(jù)尺度很敏感,打個比方,如果單位是從km變

為cm,這樣的數(shù)據(jù)尺度對PCA最后的結(jié)果可能很有影

響。我們總是應(yīng)該選擇使得模型有最大variance的主成

分,有時在低維度上作圖是需要PCA降維幫助的

59.以下關(guān)于特征縮放的處理方法,最小值-最大值歸一化和標(biāo)準(zhǔn)化的應(yīng)用場景

描述錯誤的是?

A、在實際應(yīng)用中,特征縮放的標(biāo)準(zhǔn)化操作更常用。

B、標(biāo)準(zhǔn)化方法在分、聚類算法中需要使用PCA技術(shù)進(jìn)行降維

C、最小值-最大值歸一化的數(shù)據(jù)不符合正態(tài)分布。

D、最小值最大值歸一化和標(biāo)準(zhǔn)化都需要使用距高來度量相似

性。

答案:D

解析:考查特征縮放的應(yīng)用場景,最小值最大值歸一化應(yīng)用場

景中說明最小值最大值歸一化不涉及距離度量

60.通過聚類的簇是否緊密相連來判斷樣本點是否屬于一個簇的聚類算法是以下

哪一項?

A、層次聚類

B、原型聚類

C、原點聚類

D、密度聚類

答案:D

解析:密度聚類的思想不同于K-Means,它是通過聚類的簇是否緊密相連來判斷

樣本點是否屬于一個簇,代表性的算法就是DBSCAN,它基

于一組鄰域參數(shù)來判斷某處樣本是否是緊密。

61.從數(shù)據(jù)庫架構(gòu)設(shè)計來看,主要有以下哪些設(shè)計思路?

AxShared-Disk

B、Shared-Everying

C、Shared-Nothing

D、以上全正確

答案:D

62.請問在Python中以下哪個選項正確?

A、Python中的類對象無法實現(xiàn)多重繼承。

B、Python面向?qū)ο缶幊痰姆庋b性只體現(xiàn)在不允許私有化變量被訪問。

C、變量是對象,但函數(shù)不是對象。

DxPython的多態(tài)性表現(xiàn)在子類可以覆蓋父類的屬性或方法。

答案:D

63.某開發(fā)小組計劃利用GraphBase實現(xiàn)一些功能,以下哪些功能可以實現(xiàn)?

A、物流最優(yōu)路徑規(guī)劃

B、社交分析

C、金融反欺詐

D、以上全都正確

答案:D

64.以下關(guān)于SparkMLIib中集成算法的相關(guān)描述,表述錯誤的是哪一項?

A、vaIboostingStrategy=BoostingStrategy.defauItParams("CIassificatio

n")boostingStrategy.numIterations=3boostingStrategy.treeStrategy.num

CIasses=2boostingStrategy.treeStrategy.maxDepth=5vaImodel=GradientBoo

stedIrees.train(trainingData,boostingStrategy)表示訓(xùn)練梯度提升分類樹

模型,設(shè)置類別數(shù)維度為2,樹的最大深度為5。

B、SparkMLIib包含兩種算法RandomForest和GradientBoostedDecisionIree(G

BDT),二者都是用決策樹算法作為基學(xué)習(xí)器。

C、vaImodeI=RandomForest.trainRegressor(trainingData,categoricaIFeatu

resInfo,numlrees=2,"auto","variance",maxDepth=4,32)該語句采用隨機森林

算法進(jìn)行分類模型訓(xùn)練,并且指定屬性選擇的方式為基尼系數(shù)度量。

D、vaImodel=newLogisticRegressionWithLBFGS().setIumCIasses(10).run(tr

aining)表示創(chuàng)建邏輯回歸LBFGS的模型進(jìn)行分類問題的求解,同時采用訓(xùn)練數(shù)

據(jù)進(jìn)行預(yù)測,樣本類別數(shù)是10。

答案:C

65.Oracle數(shù)據(jù)治理產(chǎn)品包括0racleDatabase12c\0、OracIe大數(shù)據(jù)SOL、和

大數(shù)據(jù)連接器開始入手。

A、OracIe大數(shù)據(jù)共享系統(tǒng)

B、Oracle大數(shù)據(jù)清洗系統(tǒng)

C、Oracle大數(shù)據(jù)存儲系統(tǒng)

D、OracIe大數(shù)據(jù)管理系統(tǒng)

答案:D

解析:Oracle公司從旗艦產(chǎn)品OracleDatabasel2c、OracIe大數(shù)據(jù)管理系統(tǒng)'0

racIe大數(shù)據(jù)SQL和大數(shù)據(jù)連接器開始入手。對于特定的數(shù)

據(jù)管理,它具有OracIe企業(yè)元數(shù)據(jù)管理器(OEMM)和OracIe企業(yè)數(shù)據(jù)質(zhì)量(EDQ)。

故選擇D選項

66.請問最小值-最大值歸一化的結(jié)果不會受到以下哪種數(shù)據(jù)點影響?

A、離群點

B、極值點

C、異常點

D、平均點

答案:D

解析:最小值-最大值歸一化受訓(xùn)練集中最大值和最小值影響

大,存在數(shù)據(jù)集中最大值與最小值動態(tài)變化的可能。容

易受噪聲(異常點、離群點)影響。

67.以下哪一項不屬于抽樣的類別?

A、簡單隨機抽樣

B、分層抽樣

C、系統(tǒng)抽樣

D、整群抽樣

E、循環(huán)抽樣

答案:E

解析:抽樣方法1、簡單隨機抽樣:在簡單隨機抽樣

中,總體所有成員被選為樣本的概率是相等的。2、

分層抽樣:將總體分成不同的子群,然后對所有的子

層進(jìn)行隨機抽樣。3、系統(tǒng)抽樣:首先將總體中各單位

按一定順序排列,根據(jù)樣本容量要求確定抽選間,然

后隨機確定起點,每隔一定的間隔抽取一個單位,以

得到所需要的樣本。4、整群抽樣:整群地抽選樣本

68.Flume的高級組件不包含以下哪個?

A、SinkProcessor

B、ChannelInterceptor

C、ChanneISeIector

D、SourceInterceptor

答案:B

69.以下關(guān)于SparkMLIib中K-Means優(yōu)化參數(shù)描述不正確的是?

A、initializationMode指定隨機初始化。

B、Runs:運行Kmeans算法的次數(shù)。

GmaxIterations:要運行的最大迭代次數(shù)。

D、EpsiIon:K-Means收斂的距離閾值。

答案:A

解析:

EpsiIon指的是K-Means已收斂的距離閾值,而非收斂的距離閾值。

70.以下關(guān)于DataNode的描述不正確的是?

A、DataNode管理數(shù)據(jù)塊元數(shù)據(jù)

B、DataNode執(zhí)行數(shù)據(jù)塊的讀/寫操作。

C、DataNode的數(shù)量受數(shù)據(jù)規(guī)模影響。

D、DataNode是用來存儲數(shù)據(jù)庫。

答案:A

71.以下關(guān)于聚類算法的理解正確的是?

A、簇內(nèi)的相似性越大,簇間的差別越小,聚類的效果就越好。

B、簇內(nèi)的相似性越大,簇間的差別越小,聚類的效果就越差。

C、簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越好。

D、簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。

答案:C

解析:簇內(nèi)的相似性越大,簇間的差別越大,聚類的效

果就越好

72.以下關(guān)于SparkMLIib中降維算法的相關(guān)描述,表述錯誤的是哪一項?

A、奇異值分解(SVD)通常不需要完全因式分解,只需要頂部奇異值及其相關(guān)的

奇異向量,這可以節(jié)省存儲,降噪并恢復(fù)矩陣的低秩結(jié)構(gòu)。

B、SparkMLIib為RowMatrix類的降維提供支持。

C、奇異值分解(SVD)將矩陣分解為三個矩陣,分別是左奇異矩陣,對角矩陣和

一個右奇異上三角非正交矩陣。

D、PCA通常用于高維數(shù)據(jù)集的探索與可視化,還可以用于數(shù)據(jù)壓縮。

答案:C

解析:

奇異值分解算法原理回顧

奇異值分解(SVD)將矩陣分解為三個矩陣,公式如下

A=U^VT

□U是一個(m*m)標(biāo)準(zhǔn)正交矩陣,其列稱為左奇異向量。

□Z是一個(m*n)對角矩陣,非負(fù)對角線按降序排列,其先

□V是一個(n*n辰矩陣],其列被稱為右奇異向量。

X

AUA

nxn

inxn/xrmxnmXn

73.FIume中—ChanneISeIector的作用是什么?

A、設(shè)置多個channel發(fā)往多個sink的策略

B、設(shè)置—source發(fā)往多個channeI的策略

C、設(shè)置多個source發(fā)往多個channeI的策略

D、設(shè)置一個channel發(fā)往多個sink的策略

答案:B

74.打開文件的不正確寫法為

Axf=open(*test.txt','r)

B、withopen('test.txtJ'r)asf

Gf=open(4C:\Apps\test.txt';r)

Dvf=open(r4C:\Apps\test.txt*;*r)

答案:c

75.我們可以使用Python中scikit-learn庫的()函數(shù),來對樣本集進(jìn)行feature

_seIection(特征選擇)和dimensionaIity

Reduction(降維)?

AxskIearn,neighbors

BxskIearn.feature_seIection

C、skIearn.Iinear_modeI

D、skIearn,cIuster

答案:B

解析:在sklearn.feature_seIection模塊中的類可以用來對樣

本集進(jìn)行features?Iection(特征選擇)和

DimensionaIityreduction(降維),這將會提高估計

器的準(zhǔn)確度或者增強它們在高維數(shù)據(jù)集上的性能。

76.請問在Python中以下哪項描述是正確的?

A、定義一個空集合的命令為:x={}。

B、t=(42,)和t=(42)都可以用于定義tuple。

C、animals.remove('fish')可以把animaIs這個列表中所有'fish'元素都

刪除。

D\animals.insert(1,'fish')是往animals這個列表中索引為1,也就是第

二個位置添加‘fish'元素。

答案:D

解析:x={}是定義一個空字典(diet),故不選A;

T=(42,)定義的是tuple,但t=(42)定義的是整型,故不選B;

Animals.remove(!fish')只會刪除第一個fish,故不選C;

77.請問在sklearn中,下列哪個選項中關(guān)于lasso回歸描述是不正確的?

A、在函數(shù)LassoCVO中可設(shè)置參數(shù)alpha是多少(序列格式),默認(rèn)不設(shè)置則找

適合訓(xùn)練集最優(yōu)alpha0

B、函數(shù)LassoCVO會返回mse這一統(tǒng)計學(xué)指標(biāo),其值越趨近1,表示擬合程度越

好。

C、lass?;貧w模型中有一個超參數(shù)需要選擇,也就是正則化的參數(shù)alpha,合適

的超參數(shù)選擇是獲取好的模型的重要因素。

D、屬性alpha_會返回最佳懲罰系數(shù)alpha的值。

答案:B

78.如一個原始數(shù)據(jù)為3行4列的數(shù)據(jù)框需要降維至兩維,利用SparkMLIib的實

現(xiàn)思路下述不正確的是?

A、在PCA中,可以選取值最小的2個特征值對應(yīng)的特征向量,并

由該兩個特征向量組成矩陣c

B、求協(xié)方差矩陣B的右特征向量

C、求取矩陣A的協(xié)方差矩陣B

D、將原始3行4列的數(shù)據(jù)轉(zhuǎn)換得到一個3乘4的矩陣A

答案:B

79.RISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)模型中的數(shù)據(jù)準(zhǔn)備環(huán)節(jié)除了包括數(shù)據(jù)選

擇,數(shù)據(jù)清潔,數(shù)據(jù)創(chuàng)建,數(shù)據(jù)合并外,還包含以

下哪個步驟?

A、數(shù)據(jù)變換

B、確定業(yè)務(wù)目標(biāo)

C、模型結(jié)果評估

D、選擇建模技術(shù)

答案:A

解析:PPT"第一章數(shù)據(jù)挖掘介紹”第32口原題

80.以下哪個措施屬于反爬措施?

A、字體

B、滑塊驗證碼

C、數(shù)據(jù)收費

D、以上全部正確

答案:D

解析:??诘姆磁朗侄危?、Headers字段:cookie,refer,

User-Agent等字段。2、驗證碼:數(shù)字,滑塊,計

算,文字,12306等。3、JavaScript:通過

JavaScript生成請求參數(shù)、數(shù)據(jù)加密、數(shù)據(jù)混淆'口

面跳轉(zhuǎn)。4、IP地址檢測:通過檢測訪問者的IP地

址,判斷是否為正常用聲。

81.以下關(guān)于Apriori算法的描述不正確的是哪一項?

A、Apriori算法是一個非常經(jīng)典的頻繁項集的挖掘算法,很多算法都是基于Ap

riori算法而產(chǎn)生的,包括FP-Tree,GSP,CBA等。

B、Apriori算法適用于非重復(fù)項集數(shù)元素較多的案例。

C、python的工具庫mlxtend目前提供實踐Apriori算法的方法。

D、使用先驗原理,大大提高了頻繁項集逐層產(chǎn)生的效率。

答案:A

82.對于隨機森林和GradientBostingTrees.下面說法正確的是?

A、可以并行地生成GradientBoostingTrees單個樹,因為它們之間是沒有依賴

B、這兩個模型都使用隨機特征子集,來生成許多單個的樹

C、在隨機森林的單個樹中,樹和樹之間是有依賴的,而GradientBostingTrees

中的單個樹之間是沒有依賴的

D、GradientBoostingTrees訓(xùn)練模型的表現(xiàn)總是比隨機森林好

答案:B

解析:隨機森林是基于bagging的,而GradientBoostingtrees是基于boosting

的,所以在隨機森林的單個樹中,樹和樹之間是沒有依賴的,而

GradientBoostingTrees中的單個樹之間是有依賴關(guān)系。

83.以下哪些不屬于無量綱化特征縮放的方法?

A、最大-最小歸化

B\OneHot編碼

C、縮放成單位向量

D、特征標(biāo)準(zhǔn)化

E、均值歸一化

答案:B

解析:考查常□的無量綱化特征縮放方法:標(biāo)準(zhǔn)化、歸一化

(均值歸一化、最大-最小歸化)、縮放成單位向量

84.銀行進(jìn)行客聲購買力分析,首先獲取客聲歷史賬單,確定其中各項商品的計

算權(quán)重,得出每位客聲的購買力評分并存儲記錄。最后將結(jié)果圖表顯

示。請問該過程對應(yīng)于以下哪個項目數(shù)據(jù)流程設(shè)計。

A、數(shù)據(jù)源數(shù)據(jù)處理數(shù)據(jù)落地->數(shù)據(jù)可視化

B、數(shù)據(jù)可視化->數(shù)據(jù)源->數(shù)據(jù)落地->數(shù)據(jù)處理

C、數(shù)據(jù)可視化->數(shù)據(jù)源->數(shù)據(jù)處理->數(shù)據(jù)落地

D、數(shù)據(jù)源->數(shù)據(jù)落地->數(shù)據(jù)處理數(shù)據(jù)可視化

答案:A

85.Pandas中的DataFrame的df.iloc[1:3]

Av查詢的是1,2行

B、查詢的是2,3列

G查詢的是2,3行

D、查詢的是1,2列

答案:C

86.在華為MLS中,“線性回歸”節(jié)點的參數(shù)設(shè)置描述錯誤的是?

A、最大迭代次數(shù),模型訓(xùn)練的最大迭代次數(shù)。

B、正則化函數(shù)。正則化方法,可選參數(shù)僅包括Aut。、None、L1、L2

C、正則化參數(shù):用于調(diào)節(jié)正則化項的權(quán)重.

D、彈性網(wǎng)絡(luò)參數(shù),L1和L2正則化的分配權(quán)重。

答案:B

解析:“線性回歸”節(jié)點的參數(shù)設(shè)置:1)正則化函數(shù):正則化方法。包括Aut。、

None、L1、L2和L1andL2。2)正則化參數(shù):用于調(diào)節(jié)

正則化項的權(quán)重。3)彈性網(wǎng)絡(luò)參數(shù):L1和L2正則化的分配權(quán)重。4)最大迭代

次數(shù):模型訓(xùn)練的最大迭代次數(shù)。B選項中的僅包括

是錯誤的,還有L1andL2方式,故選擇B選項

87.請問以下關(guān)于ID3算法中說法錯誤的是哪一項?

A、選取信息增益最大的特征,作為樹的根節(jié)點

B、節(jié)點分裂依據(jù)為信息增益

C、以信息增益度量屬性選擇,選擇分裂后信息增益最小的屬性進(jìn)行分裂

D、ID3算法是建立在奧卡姆剃刀的基礎(chǔ)上

答案:C

解析:ID3算法的核心思想:以信息增益度量屬性選擇,選擇分裂后信息增益最

大的屬性進(jìn)行分裂。故C錯誤

88.癌癥檢查數(shù)據(jù)樣本有1000個,其中10個數(shù)據(jù)樣本是有癌癥,其它是無癌癥。

假設(shè)分類模型在無癌癥數(shù)據(jù)9990中預(yù)測正確了9980個,在10個癌癥數(shù)據(jù)中預(yù)

測正確了9個,此時真陽=9,真陰=9980,假陽二10,假陰=1。則該預(yù)測模型的召

回率為多少?

A、90%

B、76.27%

G47.36%

D、99.89%

答案:A

解析:召回率計算公式TP/CTP+FN),即9/(9+1)=0.9

真陽性(TP)、真陰性(TN)、假陽性、假陰性(FN)O

89.以下哪個選項不是連續(xù)變量的數(shù)值特征離散化方法?

A、OneR

B、獨熱編碼

G分箱

D、基于信息熠的方法

答案:B

90.在數(shù)據(jù)抽取、轉(zhuǎn)換和加載過程中,以下哪種不是數(shù)據(jù)抽取的方式?

A、全量抽取

B、倒置抽取

G更新抽取

D、增量抽取

答案:B

解析:考查數(shù)據(jù)預(yù)處理的知識點。ETL工具中數(shù)據(jù)抽取的三種

方式:更新抽取、增量抽取、全量抽取

91.在有監(jiān)督學(xué)習(xí)中,我們?nèi)绾问褂镁垲惙椒?1.我們可以先創(chuàng)建聚類類別,然后

在每個類別上用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)2.我們可以使用聚類“類別id”作為一

個新的特征項,然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)3.在進(jìn)行監(jiān)督學(xué)習(xí)之前,我們

不能新建聚類類別4.我們不可以使用聚類“類別id”作為一個新的特征項,然

后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)

A、3和4

B、1和4

C、1和3

D、1和2

答案:D

92.Redis不適用于以下哪個應(yīng)用場景?

A、獲取PB級Value數(shù)據(jù)

B、獲取TOPN操作

C、獲取手機驗證碼

D、獲取最新N個數(shù)據(jù)的操作

答案:A

93.以下不屬于大數(shù)據(jù)治理的目的的是哪一項?

A、保障企業(yè)或組織可以明確定位到其核心數(shù)據(jù)信息,如客聲、供應(yīng)商、產(chǎn)品等

信息描述。

B、幫助企業(yè)等組織建立其現(xiàn)有數(shù)據(jù)的清單,就像建立物理資產(chǎn)的清單一樣。

C、兼顧開放性,如多分析引擎統(tǒng)一管理,滿足多樣化的數(shù)據(jù)分析場景和挖掘能力。

D、防御其財務(wù)、企業(yè)斐源規(guī)劃和人力資源應(yīng)用程序中的關(guān)鍵業(yè)務(wù)數(shù)據(jù)受到未授

權(quán)更改。

答案:C

94.以下哪種方法不屬于Embedded(嵌入法)?

A、特征擴增

B、基于L1的正則化方法

C、平均不純度減少(MeanDecreaseImpurity)

D、平均精度下降(MeanDecreaseAccuracy)

答案:A

95.若隨機變量X服從正態(tài)分布N(口?!?,則隨機變量Y=aX+b服從以下哪個正

態(tài)分布?

A、N(a”口+b,a”。-2)

B、N(au+b,a-2cT2)

C、N(au+b,a”o”+b)

D、N(au,a"(<2)

答案:B

96.以下關(guān)于大數(shù)據(jù)Kappa架構(gòu)描述不正確的是?

A、Kappa架構(gòu)在Lambda架構(gòu)的基礎(chǔ)上進(jìn)行了優(yōu)化,將實時和流部分進(jìn)行了合并,

將數(shù)據(jù)通道以消息隊列進(jìn)行替代,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖層面

進(jìn)行了存儲

B、在Kappa架構(gòu)中,如果需要進(jìn)行離線分析或者再次計算的時候,不必像實時

分析那樣將數(shù)據(jù)湖的數(shù)據(jù)再次經(jīng)過消息隊列重播一次

C、Kappa架構(gòu)的缺點:實施難度相對較高,尤其是在數(shù)據(jù)重播的部分

D、Kappa架構(gòu)的優(yōu)點:解決了Lambda架構(gòu)里面的冗余部分,以數(shù)據(jù)可重播的超

凡脫俗的思想進(jìn)行了設(shè)計,整個架構(gòu)非常簡潔

答案:B

解析:Kappa架構(gòu)在Lambda架構(gòu)的基礎(chǔ)上進(jìn)行了優(yōu)化,將實

時部分和流部分進(jìn)行了合并,將數(shù)據(jù)通道以消息隊列進(jìn)

行替代,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖層面

進(jìn)行了存儲。

97.ElasticSearch進(jìn)行全文檢索一般需要哪幾個步驟?

A、清洗、分詞、建立素引

B、清洗、分詞

C、清洗、建立素引

D、清洗、建立素引、分詞

答案:A

98.協(xié)同過濾推薦算法,是最經(jīng)典、最常用的推薦算法。要實現(xiàn)協(xié)同過濾。以下

哪個步驟不需要?

A、計算推薦

B、找到相似的用聲或物品

C、收集用聲偏好

D、收集用聲來源

答案:D

解析:要實現(xiàn)協(xié)同過濾,需要以下幾個步驟:1)收集用聲偏好;2)找到相似的用

聲或物品;3)計算推薦。沒有收集用聲來源,所以選擇D選項

99.以下關(guān)于數(shù)據(jù)分析與數(shù)據(jù)挖掘的描述錯誤的是?

A、數(shù)據(jù)分析更側(cè)重于統(tǒng)計學(xué)上面的一些方法,經(jīng)過人的推理演譯得到結(jié)論。數(shù)

據(jù)挖掘更側(cè)重于側(cè)重由機器進(jìn)行自學(xué)習(xí),直換得到結(jié)論。

B、數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,挖掘出未知的、且有價值的信息和知識的過程,

重點是從數(shù)據(jù)中發(fā)現(xiàn)“知識規(guī)則”。

C、數(shù)據(jù)分析和數(shù)據(jù)挖掘的界限是非常清晰的。

D、數(shù)據(jù)分析會用到成熟的分析工具,比如EXCEL.SPSS.SAS等。數(shù)據(jù)挖掘則需楚

有編程基礎(chǔ)。

答案:C

解析:都跟數(shù)據(jù)打交道,知識技能有很多交叉點,在職業(yè)上他們沒有很明顯的界

限,數(shù)據(jù)分析與數(shù)據(jù)挖掘的本質(zhì)都是一樣的,都是從數(shù)據(jù)里

面發(fā)現(xiàn)關(guān)于業(yè)務(wù)的知識(有價值的信息),從而幫助業(yè)務(wù)運營、改進(jìn)產(chǎn)品以及幫

助企業(yè)做更好的決策。狹義的數(shù)據(jù)分析與數(shù)據(jù)挖掘構(gòu)

成廣義的數(shù)據(jù)分析。

100.下列哪個不屬于常用的文本分類的特征選擇算法?

A、主成分分析

B、信息增益

G互信息法

D、卡方檢驗

答案:A

解析:常U的六種特征選擇方法:1)DF(DocumentFrequency)文檔頻率2)Ml(M

utuaIInformation)互信息法3)(InformationGain)信

息增益法4)CHI(Chi-square)卡方檢驗法5)WLLR(WeightedLogLikeIihoodRat

ion)加權(quán)對數(shù)似然6)WFO(Weighted

FrequencyandOdds)加權(quán)頻率和可能性主成分分析屬于降維方法,是對特征進(jìn)行

轉(zhuǎn)化而不是特征選擇,所以選擇A選項。

101.以下關(guān)于模型超參數(shù)的特征描述不正確的是?

A、模型超參數(shù)通常根據(jù)給定的預(yù)測建模問題而調(diào)整

B、模型超參數(shù)常應(yīng)用于估計模型參數(shù)的過程中

C、模型的超參數(shù)可以通過數(shù)據(jù)直接得到,也可以通過人的經(jīng)驗來設(shè)定

D、模型超參數(shù)通??梢允褂脝l(fā)式方法來設(shè)置

E、模型超參數(shù)通常由實踐者直接指定

答案:C

解析:考查超參數(shù)具有的特征:模型超參數(shù)常應(yīng)用于估計模型

參數(shù)的過程中,模型超參數(shù)通常由實踐者直接指定,模

型超參數(shù)通常可以使用啟發(fā)式方法來設(shè)置,模型超參數(shù)

通常根據(jù)給定的預(yù)測建模問題而調(diào)整。沒有C選項

102.在LogisticRegression中,如果同時加入L1和L2范數(shù),不會產(chǎn)生什么效果?

A、以做特征選擇,并在一定程度上防止過擬合

B、可以獲得更準(zhǔn)確的結(jié)果

C、能解決維度災(zāi)難問題

D、能加快計算速度

答案:B

103.大數(shù)據(jù)的4V不包含哪一個?

A、數(shù)據(jù)量大

B、種類多

C、價值密度低

D、分布式

E、處理速度快

答案:D

104.以下關(guān)于特征選擇方法中哪個不屬于特征減少的方法?

A、Embedded(嵌入法)

B、Wrapper(包裝法)

C、交叉驗證方法

D、Filter(過濾法)

答案:C

解析:考查常口特征選擇方法,特征減少的選擇方法有單變量

特征選擇方法:Filter(過濾法),基于模型的特征西安

則方法:Wrapper(包裝法)、Embedded(嵌入法)

105.以下選項中屬于需要模型通過訓(xùn)練獲得的參數(shù)是哪些?

A、隨機森林中的樹的個數(shù)。

B、神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)速率。

C、線性回歸或邏輯回歸中的系數(shù)。

D、SVM算法中的核函數(shù)。

答案:C

106.在python中,關(guān)于Pandas模塊中的數(shù)據(jù)讀取函數(shù)read_table以下說法不

正確的是?單

A、names:讀取數(shù)據(jù)時,可以通過names屬性設(shè)置列索引。

B、header:用來制定標(biāo)題行,如果數(shù)據(jù)集中沒有標(biāo)題行,則制定為None

C、index_col:可以將數(shù)據(jù)集中的某一列(某幾列)設(shè)置為行索引,通過indexcol

來進(jìn)行指定。

D、usecols:通過usecols參數(shù)來設(shè)置需要使用的列。

E、se/edaiter:用來制定數(shù)據(jù)之間的分隔符,read_table默認(rèn)為逗號,red.csv

默認(rèn)為表符。

答案:E

解析:seq/deIimiter:用來制定數(shù)據(jù)之間的分隔符,read_csv默認(rèn)為逗號,read

Jable默認(rèn)為\t(制表符)。E選項說反了

107.請問對于CRISP-DM模型基本步驟的描述,以下哪項是正確的?

A、1.商業(yè)理解2.數(shù)據(jù)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型評估6.模型實施

B、1.數(shù)據(jù)理解2.商業(yè)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型評估6.模型實施

C、1.數(shù)據(jù)理解2.商業(yè)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型實施6.模型評估

D、1.商業(yè)理解2.數(shù)據(jù)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型實施6.模型評估

答案:A

解析:

?CRISP-DM模型

CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)是CrossIndi

Mining的縮寫,是當(dāng)今數(shù)據(jù)挖掘業(yè)界通用流行的標(biāo)準(zhǔn)之一

的應(yīng)用,是用以管理并指導(dǎo)DataMiner有效、準(zhǔn)確開展;

果的一系列工作步驟的規(guī)范標(biāo)準(zhǔn)。

CRISP-DM模型的基本步驟包括:

□商業(yè)理解

□數(shù)據(jù)理解

□數(shù)據(jù)準(zhǔn)備

實施

□建立模型

□模型評估

□模型實施

108.以下哪些選項不屬于數(shù)值特征離散化的必要性?

A、數(shù)值高散化實際是一個數(shù)據(jù)簡化機制,通過數(shù)值離散化過程,一個完整的數(shù)

據(jù)集變成一個個按照某種規(guī)則分類的子集,增強了模型的穩(wěn)定性。

B、離散化數(shù)值在提高建模速度和提高模型精度上有顯著作用。

C、離散化過程并沒有帶來信息丟失

D、離散化后的特征對異常數(shù)據(jù)有很強的魯棒性,能減少噪音節(jié)點對數(shù)據(jù)的影響。

答案:C

解析:

1、在數(shù)據(jù)挖掘理論研究中,數(shù)值離散化對數(shù)據(jù)預(yù)處

理影響重大。研究表明離散化數(shù)值在提高建模速度和

提高模型精度上有顯著作用。2、數(shù)值離散化實際是

一個數(shù)據(jù)簡化機制。因為通過數(shù)值離散化過程,一個

完整的數(shù)據(jù)集變成一個個按照某種規(guī)則分類的子集,

增強了模型的穩(wěn)定性。3、離散化后的特征對異常數(shù)

據(jù)有很強的魯棒性。能減少噪音節(jié)點對數(shù)據(jù)的影響。

109.若要修改HBase表,下列API哪個最先被調(diào)用?

AvcreateConnection()

B、getTabIe()

C、getConnect0

D、getAdmin()

答案:A

110.請問以下哪些算法最適合配合線性判別分析LDA使用?

A、聚類算法

B、非線性回歸算法

C、多元線性回歸算法

D、一元線性回歸算法

答案:B

111.下面這條GaussDB200語句“caIIdbms_job.intervaI(1,'sysdate+1.0/24");

”的意思是

A、修改Job的Interva為每隔24小時執(zhí)行一次。

B、修改Job的Interval為每隔1小時執(zhí)行一次。

G修改Job的Interval為每隔1/24小時執(zhí)行一次。

D、修改Job的Interval為每隔24分鐘執(zhí)行一次。

答案:B

112.在DGC平臺架構(gòu)下提供企業(yè)級的元數(shù)據(jù)管理。數(shù)據(jù)斐產(chǎn)管理可視,支持鉆取、

溯源等。通過數(shù)據(jù)地圖,實現(xiàn)數(shù)據(jù)資產(chǎn)的數(shù)據(jù)血緣和數(shù)據(jù)全景可視,提供數(shù)據(jù)智能

搜索和運營監(jiān)控的模塊是哪個?

A、數(shù)據(jù)開發(fā)

B、數(shù)據(jù)資產(chǎn)管理

C、規(guī)范設(shè)計

D、數(shù)據(jù)集成

答案:B

113.以下哪個選項是異常值處理的方法?

A、刪除異常值

B、將異常值視為缺失值,按照缺失值處理方法來處理異常值

C、估算異常值

D、以上全都正確

答案:D

解析:

異常值處理方法包括:1)刪除異常值。適用于異常值較少的情況。2)將異常值

視為缺失值,按照缺失值處理方法來處理異常值。

3)估算異常值。Mean/Mode/Median估計數(shù)據(jù)填充異常值。

114.請問以下哪種場景不需要降維算法?

A、數(shù)量統(tǒng)計

B、視頻壓縮

C、用聲畫像

D、人臉識別

答案:A

115.利用Python中的seaborn模塊可以快速的制作出數(shù)據(jù)集中特征之間的相關(guān)

關(guān)系圖。以下對該相關(guān)系數(shù)熱力圖描述

錯誤的是哪一項?

A、通過相關(guān)關(guān)系熱力圖觀察到屬性之間相關(guān)系數(shù)值都不大,說明屬性之間普遍相

關(guān)性不高,但是部分屬性具備相關(guān)性挖掘的可能。

B、相關(guān)系數(shù)熱力圖矩陣是對稱的。

C、相關(guān)關(guān)系熱力圖中,各個特征自身的相關(guān)系數(shù)值均為1O

D、繪制相關(guān)關(guān)系熱力圖時,如果選擇相關(guān)關(guān)系計算的參數(shù)為spearman相關(guān)系數(shù),

則是用于描述兩個變量之間的線性相關(guān)關(guān)系。

答案:D

解析:Spearman相關(guān)系數(shù)不關(guān)心兩個數(shù)據(jù)集是否線性相關(guān),

而是單調(diào)相關(guān)

116.以下關(guān)于KMeans對比K-Mediods的描述,表述錯誤的是哪一項?

A、K-Mediods質(zhì)心可能是計算產(chǎn)生的,不屬于數(shù)據(jù)集中的點。

B、如果數(shù)據(jù)集本身不存在特別多的異常值,也不需要使用K-Mediods替代K-Mea

C、K-Mediods比K-Means效果更穩(wěn)定。

D、K-Mediods算法對比K-Means算法,質(zhì)心的計算復(fù)雜度更高。

答案:A

解析:

?K?Means對比K?Mediods(2)

K-Mediods聚類算法原理和K-Means大體相似,算方

□質(zhì)心的計算復(fù)雜度更高:在質(zhì)心的選取上,K-Means只

點獲得新的質(zhì)心,而K-Medoids需要計算每個簇任兩點

比較獲取新的質(zhì)心,計算復(fù)雜度增加,運行速度會較慢

□穩(wěn)定性更高、執(zhí)行速度變慢:對于有異常值的小樣本量:

Means效果更穩(wěn)定,但是隨著數(shù)據(jù)集規(guī)模增加,K-Mec

□如果數(shù)據(jù)集本身不存在特別多的異常值,也不需要使用I

117.關(guān)于SparkMLIib中SVD算法的使用說法錯誤的是?

A、必須先通過已有數(shù)據(jù)創(chuàng)建出相應(yīng)矩陣類型的對象,然后調(diào)用該類的成員方法

來進(jìn)行SVD分解。

B、如果需要獲得U成員,可以在進(jìn)行SVD分解時,指定puteU參數(shù),令其等于F

aIse,即可在分解后的svd對象中拿到U成員.

GSparkMLIib中SVD方法位于org.apache,spark,mIIib.LinaIg包下的RowMat

rix和IndexedRowMatrix類中.

D、將數(shù)據(jù)轉(zhuǎn)換成RowMatrix后,可調(diào)用RowMatrix自帶的puteSVD方法計算分解

結(jié)果。

答案:B

118.以下關(guān)于Python全局變量和局部變量的描述中,錯誤的是

A、局部變量在函數(shù)內(nèi)部創(chuàng)建和使用,函數(shù)退出后變量被釋放

B、全局變量一般指定義在函數(shù)之外的變量

C、使用global保留字聲明后,變量可以作為全局變量使用

D、當(dāng)函數(shù)退出時,局部變量依然存在,下次函數(shù)調(diào)用可以繼續(xù)使用

答案:D

119.df.taiI()這個函數(shù)是用來

A、用來創(chuàng)建數(shù)據(jù)

B、用來展現(xiàn)數(shù)據(jù)

C、用來分析數(shù)據(jù)

D、用來測試數(shù)據(jù)

答案:B

120.下列方法中,不可以用于特征降維的方法包括。

A、最小二乘法LeastSquares

B、主成分分析PCA

C、矩陣奇異值分解SVD

D、局部線性嵌入LLE

E、線性判別分析LDA

答案:A

解析:

考查??诮稻S方法,有:SVD-奇異值分解、PCA-主成

分分析、LDA-線性判別分析、LLE-局部線性嵌入

121.可以通過以下哪個命令創(chuàng)建節(jié)點數(shù)據(jù)?

A、Is/node

B、get/node

C、set/nodedata

D、create/node

答案:D

122.決策樹是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示個()上的測試,每個分支代

表個測試(),每個葉節(jié)點代表一種().

A、輸出、類別、屬性

B、屬性、類別、輸出

C、屬性、輸出、類別

D、類別、輸出、屬性

答案:C

解析:

考查分類問題模型選擇中的決策樹,在內(nèi)部進(jìn)行決策樹

的比較,每個分支代表類別,每個葉節(jié)點作為輸出

123.以下關(guān)于大數(shù)據(jù)Lambda架構(gòu)描述不正確的是哪一選項?

A、Lambda架構(gòu)是大數(shù)據(jù)系統(tǒng)里面舉足輕重的架構(gòu),大多數(shù)架構(gòu)基本都是Lambd

a架構(gòu)或者基于其變種的架構(gòu)。

B、Lambda架構(gòu)很好的兼顧了實時處理和離線處理,幾乎覆蓋了大多數(shù)的數(shù)據(jù)分

析和需求處理。可以很好地滿足同時存在實時和離線需求的場景。

C、Lambda架構(gòu)將數(shù)據(jù)通道分為兩個分支:實時流和離線。實時流類似流式架構(gòu),

保障了其實時性,而離線則以批處理方式為主,保障了最終一致性。

D、Lambda架構(gòu)的缺點:離線層與實時流內(nèi)部處理的邏輯是不相同的,因此有大

量冗余和重復(fù)的模塊存在。

答案:D

124.SparkMLIib匯總統(tǒng)計主要是對RDD數(shù)據(jù)集進(jìn)行整體的統(tǒng)計性描述,主要通過

調(diào)用colStats函數(shù),該函數(shù)中獲取數(shù)據(jù)每列的L1范數(shù)的參數(shù)是下列選項中的哪

一項?

A、normlL1

B、numNonzeros

C、normL2

Dxvariance

答案:A

125.Gremlin中查詢單個點的信息該用什么命令?

A、gV().hasLabeI("test").vaIues("age")

B、gV().hasLabeI("test").vaIueIap("string_list","age")

C、gV(13464736).vaIueMapO

D、gV().hasLabeI("test")

答案:A

126.設(shè)X、X1、X2、Y是四個隨機變量,a,b是常數(shù),以下關(guān)于協(xié)方差的性質(zhì)描

述錯誤的是?

A、如果Cov(X,Y)=0,則隨機變量X,Y相互獨立

B、Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

GCov(aX,bY)=abCov(X,Y)

D、如果隨機變量x,Y相互獨立,則Cov(X,Y)=0

答案:A

127.離線批處理方案的應(yīng)用場景不包括?

A、占用計算存儲資源多

B、快速高效,實時的數(shù)據(jù)處理

C、數(shù)據(jù)處理格式多樣

D、處理大規(guī)模數(shù)據(jù)

答案:B

128.關(guān)于模型部署的描述不正確的是哪一項?

A、模型一經(jīng)部署,就可以永久的固化下來。

B、模型部署可以借助的工具越來越多。

C、在生產(chǎn)環(huán)境下部署模型也存在許多挑

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論