數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案

上傳人：喝*** IP屬地：浙江上傳時(shí)間：2024-12-27 格式：DOCX 頁數(shù)：61 大?。?5.63KB 積分：30 舉報(bào) 版權(quán)申訴

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案_第2頁

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案_第3頁

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案_第4頁

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案_第5頁

已閱讀5頁，還剩56頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案1.主成分分析的優(yōu)化目標(biāo)是一個(gè)（）。A、不含約束條件的二次規(guī)劃問題B、含有約束條件的二次規(guī)劃問題C、不含約束條件的線性規(guī)劃問題D、含有約束條件的線性規(guī)劃問題【正確答案】：B解析：

--2.圖像平滑會(huì)造成（）。A、圖像邊緣模糊化B、圖像邊緣清晰化C、無影響D、以上答案都不正確【正確答案】：A解析：

為了抑制噪聲，使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑實(shí)際上是低通濾波，平滑過程會(huì)導(dǎo)致圖像邊緣模糊化。3.以下哪個(gè)統(tǒng)計(jì)量可以描述數(shù)據(jù)的集中程度的是（）。A、極差B、標(biāo)準(zhǔn)差C、極大值D、眾數(shù)【正確答案】：D解析：

最常見的幾種集中趨勢(shì)包括算數(shù)平均數(shù)、中位數(shù)及眾數(shù)，極差、標(biāo)準(zhǔn)差、離散程度等屬于描述離中程度的指標(biāo)。4.下列關(guān)于支持向量的說法，正確的是（）。A、到分類超平面的距離最近的且滿足一定條件的幾個(gè)訓(xùn)練樣本點(diǎn)是支持向量B、訓(xùn)練集中的所有樣本點(diǎn)都是支持向量C、每一類樣本集中都分別只有一個(gè)支持向量D、支持向量的個(gè)數(shù)越多越好【正確答案】：A解析：

在支持向量機(jī)中，距離超平面最近的且滿足一定條件的幾個(gè)訓(xùn)練樣本點(diǎn)被稱為支持向量。一般情況下，支持向量的個(gè)數(shù)等于訓(xùn)練樣本數(shù)目，并不是越多越好。5.采用冪次變換進(jìn)行灰度變換時(shí)，當(dāng)冪次大于1時(shí)，該變換是針對(duì)（）的圖像進(jìn)行增強(qiáng)。A、圖像整體偏暗B、圖像整體偏亮C、圖像細(xì)節(jié)淹沒在暗背景中D、圖像同時(shí)存在過亮和過暗背景【正確答案】：B解析：

冪次變換的基本表達(dá)式為：y=cxr+b。當(dāng)r>1時(shí)，變換函數(shù)曲線在正比函數(shù)下方，此時(shí)擴(kuò)展高灰度級(jí)，壓縮低灰度級(jí)，使圖像變暗；當(dāng)r＜1時(shí)，變換函數(shù)曲線在正比函數(shù)上方，此時(shí)擴(kuò)展低灰度級(jí)，壓縮高灰度級(jí)，使圖像變亮。這一點(diǎn)與對(duì)數(shù)變換十分相似。6.Adaboost的核心思想是（）。A、給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集，將該學(xué)習(xí)算法使用多次,得出預(yù)測(cè)函數(shù)序列,進(jìn)行投票B、針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器集合起來，構(gòu)成一個(gè)強(qiáng)分類器C、利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器D、基于前向策略的加法模型,每階段使用一個(gè)基模型去擬合上一階段基模型的殘差【正確答案】：B解析：

--7.已知一個(gè)數(shù)據(jù)集，n為特征數(shù)，m為訓(xùn)練樣本數(shù)，如果n較小，而且m大小中等（例如n為1～1000，而m為10～10000），則一般選擇（）。A、邏輯回歸模型B、不帶核的支持向量機(jī)C、高斯核的支持向量機(jī)D、多項(xiàng)式核的支持向量機(jī)【正確答案】：C解析：

高斯核函數(shù)需要選擇合適的sigma2參數(shù)，適用于少量特征，大量樣本的情況，可以擬合出非常復(fù)雜的非線性決策邊界。8.下列哪個(gè)（）不是scipy.stats模塊中的功能（）。A、連續(xù)性分布B、線性方程求解C、離散型分布D、核密度估計(jì)【正確答案】：B解析：

stats模塊包含了隨機(jī)變量樣本抽取、84個(gè)連續(xù)性分布、12個(gè)離散型分布、分布的密度分布函數(shù)、核密度估計(jì)、分布構(gòu)造、分布檢驗(yàn)等功能，但不包括線性方程求解。9.在linux下預(yù)裝了Python2，、Python3且默認(rèn)Python版本為Python3，下列描述可以正確啟動(dòng)Python有的是（）。A、在linux應(yīng)用程序Terminal，打開一個(gè)終端窗口。輸入whichPythonB、在linux應(yīng)用程序Terminal，打開一個(gè)終端窗口。輸入Python2或Python3C、在linux應(yīng)用程序Terminal，打開一個(gè)終端窗口。輸入whichPython3D、在linux應(yīng)用程序Terminal，打開一個(gè)終端窗口。輸入輸入whichPython2【正確答案】：B解析：

Windows系統(tǒng)下通過在命令行直接輸入python2或者python3啟動(dòng)Python，；Linux系統(tǒng)下通過在Terminal輸入python2或者python3啟動(dòng)Python。10.關(guān)于Python賦值語句，以下選項(xiàng)中不合法的是（）。A、x=1;y=1B、x=y=1C、x=（y=1）D、x,y=y,x【正確答案】：C解析：

賦值語句不能用于賦值。11.以下不屬于大數(shù)據(jù)重要意義的是（）。A、大數(shù)據(jù)成為推動(dòng)經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動(dòng)力B、大數(shù)據(jù)成為重塑國(guó)家競(jìng)爭(zhēng)優(yōu)勢(shì)的新機(jī)遇C、大數(shù)據(jù)成為提升政府治理能力的新途徑D、大數(shù)據(jù)會(huì)增加經(jīng)濟(jì)發(fā)展的成本【正確答案】：D解析：

大數(shù)據(jù)可以促進(jìn)經(jīng)濟(jì)的發(fā)展，催生新的業(yè)態(tài)，在輔助商業(yè)決策、降低運(yùn)營(yíng)成本、精準(zhǔn)市場(chǎng)的營(yíng)銷方面都能發(fā)揮作用，進(jìn)一步提升企業(yè)競(jìng)爭(zhēng)力。12.解決Master故障的方法是設(shè)置檢查點(diǎn)，當(dāng)Master失效時(shí)，從（）檢查點(diǎn)開始啟動(dòng)另一個(gè)Master進(jìn)程。A、第一個(gè)B、中間一個(gè)C、最后一個(gè)D、隨機(jī)選擇一個(gè)【正確答案】：C解析：

從最后一個(gè)檢查點(diǎn)開始啟動(dòng)另一Master進(jìn)程使得因故障產(chǎn)生的影響更小。13.在Apriori算法中，候選項(xiàng)集劃分為不同的桶，存放在（）中。A、字典B、集合C、Hash樹D、列表【正確答案】：C解析：

--14.關(guān)于HDFS的特征，下列說法錯(cuò)誤的是（）。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】：D解析：

HDFS設(shè)計(jì)中重視“數(shù)據(jù)的高吞吐量”，因此其數(shù)據(jù)吞吐量高，但也造成了其數(shù)據(jù)延遲訪問的特征。15.scipy中，線性模塊是以下哪個(gè)（）模塊（）。A、fftpackB、signalC、linalgD、ndimage【正確答案】：C解析：

fftpack米快是傅里葉變換模塊，signal是信號(hào)處理模塊，linalg是線性代數(shù)模塊，ndimage是多維圖像處理模塊，16.（）是一個(gè)觀測(cè)值，它與其他觀測(cè)值的差別如此之大，以至于懷疑它是由不同的機(jī)制產(chǎn)生的。A、邊界點(diǎn)B、質(zhì)心C、離群點(diǎn)D、核心點(diǎn)【正確答案】：C解析：

離群點(diǎn)（outlier）是指數(shù)值中遠(yuǎn)離數(shù)值的一般水平的極端大值和極端小值。17.Python語句print（0xA+0xB）的輸出結(jié)果是（）。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】：D解析：

0x是16進(jìn)制運(yùn)算，0xA+0xB換為十進(jìn)制為10+11=21。18.對(duì)參數(shù)進(jìn)行L2正則，是機(jī)器學(xué)習(xí)常用的防止過擬合的方法。對(duì)參數(shù)做L2正則時(shí)，（）是對(duì)參數(shù)本身做先驗(yàn)分布假設(shè)。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】：A解析：

L2正則假設(shè)參數(shù)的先驗(yàn)分布是Gaussian分布，可以保證模型的穩(wěn)定性，也就是參數(shù)的值不會(huì)太大或太小。19.要彌補(bǔ)缺失值，可以使用均值，、中位數(shù)，、眾數(shù)等等，preprocessing模塊中那個(gè)方法（）可以實(shí)現(xiàn)（）。A、preprocessing.Imputer）B、preprocessing.PolynomialFeatures）C、preprocessing.FunctionTransformer）D、preprocessing.Binarizer）【正確答案】：A解析：

要彌補(bǔ)缺失值，可以使用均值，、中位數(shù)，、眾數(shù)等等，preprocessing中Imputer方法可以實(shí)現(xiàn)。20.基于統(tǒng)計(jì)的分詞方法為（）。A、正向最大匹配法B、逆向最大匹配法C、最少切分法D、條件隨機(jī)場(chǎng)【正確答案】：D解析：

第一類是基于語法和規(guī)則的分詞法。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析，利用句法信息和語義信息來進(jìn)行詞性標(biāo)注，以解決分詞歧義現(xiàn)象。因?yàn)楝F(xiàn)有的語法知識(shí)、句法規(guī)則十分籠統(tǒng)、復(fù)雜，基于語法和規(guī)則的分詞法所能達(dá)到的精確度遠(yuǎn)遠(yuǎn)還不能令人滿意，目前這種分詞系統(tǒng)還處在試驗(yàn)階段。21.以下選項(xiàng)中哪個(gè)不屬于數(shù)據(jù)預(yù)處理的方法（）。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)統(tǒng)計(jì)【正確答案】：D解析：

數(shù)據(jù)統(tǒng)計(jì)并非為數(shù)據(jù)預(yù)處理的常見內(nèi)容。22.數(shù)據(jù)可視化的方法論基礎(chǔ)是（）。A、統(tǒng)計(jì)圖表B、視覺編碼C、圖論D、圖形符號(hào)學(xué)【正確答案】：B解析：

數(shù)據(jù)可視化的方法體系的方法論基礎(chǔ)主要是指“視覺編碼”?！耙曈X編碼”為其他數(shù)據(jù)可視化方法提供了方法論基礎(chǔ)，奠定了數(shù)據(jù)可視化方法體系的根基。23.下列不屬于Transformation操作的是（）。A、mapB、filterC、sampleD、count【正確答案】：D解析：

Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。24.arr=np.arange（9）.reshape（3,3）,如何使數(shù)組arr交換列1和列2的操作是（）。A、arr[:,[1,0,2]]B、arr[:,[1,0,3]]C、arr[:,[1,0,1]]D、arr[:,[1,0]]【正確答案】：A解析：

交換前兩列相當(dāng)于依次選取2,1,3列。25.關(guān)于正態(tài)分布,下列說法錯(cuò)誤的是（）。A、正態(tài)分布具有集中性和對(duì)稱性B、正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C、正態(tài)分布的偏度為0，峰度為1D、標(biāo)準(zhǔn)正態(tài)分布的均值為0，方差為1【正確答案】：C解析：

正態(tài)分布的均值決定正態(tài)分布的位置，正態(tài)分布的方差決定正態(tài)分布的形態(tài)，正態(tài)分布具有對(duì)稱性，其偏度為0，但峰度不一定為1，只有標(biāo)準(zhǔn)正態(tài)分布的偏度為0，峰度為1。26.在神經(jīng)網(wǎng)絡(luò)中引入了非線性的是（）。A、隨機(jī)梯度下降B、修正線性單元（ReLU）C、卷積函數(shù)D、以上答案都不正確【正確答案】：B解析：

ReLU是目前最常用的激勵(lì)函數(shù)，增加了神經(jīng)網(wǎng)絡(luò)模型的非線性。27.以下關(guān)于異常處理的描述，正確的是（）。A、try語句中有except子句就不能有finally子句B、Python中，可以用異常處理捕獲程序中的所有錯(cuò)誤C、引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)NameError錯(cuò)誤D、Python中允許利用raise語句由程序主動(dòng)引發(fā)異常【正確答案】：D解析：

try語句中有except子句可以有finally子句,，不用異常處理捕獲程序中的所有錯(cuò)誤，引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)lisindeoutError。28.下面哪個(gè)功能不是大數(shù)據(jù)平臺(tái)安全管理組件提供的功能（）。A、接口代理B、接口認(rèn)證C、接口授權(quán)D、路由代理【正確答案】：D解析：

接口可以對(duì)用戶的身份和請(qǐng)求的參數(shù)進(jìn)行驗(yàn)證，以保證接口的安全。通過添加身份驗(yàn)證和數(shù)字簽名的方法提高接口安全性，防止數(shù)據(jù)被篡改和信息泄露。29.bootstrap是指（）。A、有放回地從總共M個(gè)特征中抽樣m個(gè)特征B、無放回地從總共M個(gè)特征中抽樣m個(gè)特征C、有放回地從總共N個(gè)樣本中抽樣n個(gè)樣本D、無放回地從總共N個(gè)樣本中抽樣n個(gè)樣本【正確答案】：C解析：

自助采樣法（bootstrapsampling）：給定包含N個(gè)樣本的數(shù)據(jù)集，我們先隨機(jī)取出一個(gè)樣本放入采樣集中，再把該樣本放回初始數(shù)據(jù)集，使得下次采樣時(shí)該樣本仍有可能被選中，這樣經(jīng)過n次隨機(jī)采樣操作，我們得到含n個(gè)樣本的采樣集。30.GatedRecurrentunits的出現(xiàn)可以幫助防止在RNN中的梯度消失問題。（）A、可以這么理解B、不可以這么理解C、-D、-【正確答案】：A解析：

--31.詞袋模型中的文本向量每個(gè)元素表示該詞的（）。A、頻率B、順序C、含義D、語義關(guān)系【正確答案】：A解析：

詞袋模型是最基礎(chǔ)的文本表示模型，就是把每一篇文章看成一袋子單詞，并忽略每個(gè)詞出現(xiàn)的順序。每篇文章可以表示成一個(gè)長(zhǎng)向量，向量中的每一維代表一個(gè)單詞，而該維對(duì)應(yīng)的權(quán)重代表這個(gè)詞在文章中的重要程度，重要程度是由頻率來衡量的。32.[i**iforiinrange（3）]的運(yùn)行結(jié)果是（）。A、[1,1,4]B、[0,1,4]C、[1,2,3]D、（0,1,4）【正確答案】：B解析：**表示乘方運(yùn)算，該列表表達(dá)式指為[0,1**1,2**2]即為[0,1,4]33.生成多項(xiàng)式和交互特征使用preprocessing模塊中的（）函數(shù)。A、preprocessing.binarize）B、preprocessing.Normalizer）C、preprocessing.LabelEncoder）D、preprocessing.PolynomialFeatures）【正確答案】：D解析：

preprocessing.PolynomialFeatures用于生成多項(xiàng)式和交互特征，可以將線性回歸模型應(yīng)用于多項(xiàng)式回歸中。34.對(duì)于一個(gè)分類任務(wù)，如果開始時(shí)神經(jīng)網(wǎng)絡(luò)的權(quán)重不是隨機(jī)賦值的，而是都設(shè)成0，下面敘述正確的是（）。A、沒啥問題，神經(jīng)網(wǎng)絡(luò)會(huì)正常開始訓(xùn)練B、神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練，但是所有的神經(jīng)元最后都會(huì)變成識(shí)別同樣的東西C、神經(jīng)網(wǎng)絡(luò)不會(huì)開始訓(xùn)練，因?yàn)闆]有梯度改變D、以上選項(xiàng)都不對(duì)【正確答案】：B解析：

--35.以下代碼的輸出結(jié)果為（）。A、[[123][345][456]]B、3.6666666666667C、[2.666666673.666666674.66666667]D、[2.4.5.]【正確答案】：C解析：

對(duì)每列求均值。36.協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似（興趣）用戶,綜合這些用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度（）,并將這些用戶喜歡的項(xiàng)推薦給有相似興趣的用戶。A、相似B、相同C、推薦D、預(yù)測(cè)【正確答案】：D解析：

協(xié)同過濾簡(jiǎn)單來說是利用某興趣相投、擁有共同經(jīng)驗(yàn)之群體的喜好來推薦用戶感興趣的信息，個(gè)人通過合作的機(jī)制給予信息相當(dāng)程度的回應(yīng)（如評(píng)分）并記錄下來以達(dá)到過濾的目的進(jìn)而幫助別人篩選信息。37.如果要清空文件，需要使用的命令是（）。A、close）B、seek（0）C、truncate（0）Dwrite（'stuff'）【正確答案】：C解析：

truncate（size）方法將截?cái)辔募?，大小為size，size為0即清空38.使用pip工具查看當(dāng)前已安裝的Python擴(kuò)展庫(kù)的完整命令是（）。A、pipupdateB、piplistC、pipinstallD、pipshowall【正確答案】：B解析：

使用pip工具查看當(dāng)前已安裝的Python擴(kuò)展庫(kù)的完整命令piplist。39.留出法直接將數(shù)據(jù)集劃分為（）個(gè)互斥的集合。A、一B、二C、三D、四【正確答案】：B解析：

留出法（hold-out）直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合，其中一個(gè)集合作為訓(xùn)練集，另一個(gè)作為測(cè)試集T。40.（）網(wǎng)絡(luò)是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無監(jiān)督神經(jīng)網(wǎng)絡(luò)，它能將高維輸入數(shù)據(jù)映射到低維空間，同時(shí)保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu)，即將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的鄰近神經(jīng)元。A、SOMB、RBFC、ARTD、ELman【正確答案】：A解析：

自組織映射（Self-OrganizingMap，SOM）網(wǎng)絡(luò)[Kohonen，1982]是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無監(jiān)督神經(jīng)網(wǎng)絡(luò)，它能將高維輸入數(shù)據(jù)映射到低維空間（通常為二維），同時(shí)保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu)，即將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的鄰近神經(jīng)元。41.如果要將讀寫位置移動(dòng)到文件開頭，需要使用的命令是（）。A、closeB、seek（0）C、truncateD、write（'stuff'）【正確答案】：B解析：

seek（0）指移動(dòng)指針到0位置即開頭。42.對(duì)Numpy的數(shù)組Ndarray對(duì)象屬性的描述，錯(cuò)誤的是（）。A、Ndarray.dtypeNdarray對(duì)象中每個(gè)元素的大小，以字節(jié)為單位B、Ndarray.flagsNdarray對(duì)象的內(nèi)存信息C、Ndarray.realNdarray元素的實(shí)部D、Ndarray.imagNdarray元素的虛部【正確答案】：A解析：

dtype是數(shù)組元素的類型。43.正態(tài)分布的兩個(gè)參數(shù)μ與σ，（）對(duì)應(yīng)的正態(tài)曲線愈趨扁平。A、μ愈大B、μ愈小C、σ愈大D、σ愈小【正確答案】：C解析：

σ描述正態(tài)分布資料數(shù)據(jù)分布的離散程度，σ越大，數(shù)據(jù)分布越分散，；σ越小，數(shù)據(jù)分布越集中。σ也稱為是正態(tài)分布的形狀參數(shù)，σ越大，曲線越扁平，；反之，σ越小，曲線越瘦高。44.Scikit-Learn中，（）可以實(shí)現(xiàn)整數(shù)分類值轉(zhuǎn)化為獨(dú)熱向量。A、OridinalEncoderB、OneHotEncoderC、LableEncoderD、AutoEncoder【正確答案】：B解析：

onehot編碼是將整數(shù)分類值轉(zhuǎn)化為獨(dú)熱向量。45.（）適合連續(xù)特征，它假設(shè)每個(gè)特征對(duì)于每個(gè)類都符合正態(tài)分布。A、GaussianNBBernoulliNBC、MultinomialNBD、BaseDiscreteNB【正確答案】：A解析：

貝葉斯分類中GaussianNBB用于連續(xù)特征。46.HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是（）。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】：A解析：

HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是HFile。47.關(guān)于拋出異常的說法中，描述錯(cuò)誤的是（）。A、當(dāng)raise指定異常的類名時(shí)，會(huì)隱式地創(chuàng)建異常類的實(shí)例B、顯式地創(chuàng)建異常類實(shí)例，可以使用raise直接引發(fā)C、不帶參數(shù)的raise語句，只能引發(fā)剛剛發(fā)生過的異常D、使用raise拋出異常時(shí)，無法指定描述信息【正確答案】：D解析：

raise語句的第一個(gè)參數(shù)指定要產(chǎn)生的例外的名字；可選的第二參數(shù)指定例外的參數(shù)。48.以下描述中錯(cuò)誤的是（）。A、數(shù)據(jù)化與數(shù)字化是兩個(gè)不同概念B、數(shù)據(jù)與數(shù)值是一個(gè)概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個(gè)不同的概念D、數(shù)據(jù)和信息是兩個(gè)不同的概念【正確答案】：B解析：

除了“數(shù)值”，數(shù)據(jù)科學(xué)中的“數(shù)據(jù)”還包括文字、圖形、圖像、動(dòng)畫、文本、語音、視頻、多媒體和富媒體等多種類型49.運(yùn)行下面的代碼，輸出結(jié)果是（）。A、[0，10，2，30，4]B、[10，2，30，4]C、[0，10，2，30，4，50]D、[0，1，20，3，40]【正確答案】：A解析：

該列表推導(dǎo)式意為在0-～4中偶數(shù)不變，奇數(shù)乘10，因此A正確。50.數(shù)據(jù)可視化的基本類型是（）。A、科學(xué)可視化、信息可視化、可視分析學(xué)B、物理可視化、數(shù)字可視化、化學(xué)可視化C、科學(xué)可視化、數(shù)字可視化、可視分析學(xué)D、科學(xué)可視化、信息可視化、文本可視化【正確答案】：A解析：

大數(shù)據(jù)可視化可以說是傳統(tǒng)數(shù)據(jù)可視化的一個(gè)繼承和延伸，它是指將大規(guī)模海量數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示，并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。大數(shù)據(jù)可視化是大數(shù)據(jù)整個(gè)過程的最后環(huán)節(jié)，也是非常重要的一個(gè)環(huán)節(jié)。51.在機(jī)器學(xué)習(xí)中，不屬于常用的沖突消解策略是（）。A、投票法B、排序法C、元規(guī)則法D、加權(quán)法【正確答案】：D解析：

常用的沖突消解策略有投票法、排序法、元規(guī)則法等。52.以下代碼的輸出結(jié)果為（）。A、[101001000]B、[100100001000000]C、[123]D、[10100001000000000]【正確答案】：B解析：

np.power）取乘方。53.Relief是為（）問題設(shè)計(jì)的。A、二分類B、多分類C、回歸D、降維【正確答案】：A解析：

--54.線性模型中的權(quán)重w值可以看做各個(gè)屬性x的（）。A、正則化系數(shù)B、對(duì)最終決策結(jié)果的貢獻(xiàn)度C、高維映射D、取值【正確答案】：B解析：

--55.建立一個(gè)詞典[Alex,wants,to,go,play,football,shopping],下面的句子：Alexwantstogotoplayfootball可以用向量表示為（）。A、[1,1,2,1,1,1,0]B、[1,1,2,1,1,1]C、[1,1,1,1,1,1,0]D、[1,1,1,1,1,1,1]【正確答案】：A解析：

向量中每個(gè)元素代表該詞在句中出現(xiàn)的次數(shù)，比如to在句中出現(xiàn)兩次，所以第3個(gè)元素應(yīng)為2。56.繪圖是如何通過（）為項(xiàng)目設(shè)置matplotlib參數(shù)（）。A、rc）B、sci）C、axes）D、sca）【正確答案】：A解析：

matplotlib.rc）設(shè)置當(dāng)前的matplotlib參數(shù)。57.在以下那個(gè)選項(xiàng)是在局部生效的，出了這個(gè)變量的作用域，這個(gè)變量就失效了的變量是（）。A、局部變量B、全局變量C、字典D、集合【正確答案】：A解析：

局部變量是在局部生效的，出了這個(gè)變量的作用域，這個(gè)變量就失效了。58.Hadoop中partition（）函數(shù)代表的是（）。A、分區(qū)函數(shù)B、特征函數(shù)C、算法函數(shù)D、排序函數(shù)【正確答案】：A解析：

partition（）代表分區(qū)函數(shù)。59.以下代碼哪個(gè)中能夠打印出138-9922-0202這個(gè)電話號(hào)碼（注意格式需要完全一致）的是，注意格式需要完全一致（）。A、print（“138”）print（“9922”）print（“0202”）B、print（“138”,end=“”）print（“9922”,end=“”）print（“0202”,end=“”）C、print（“138”,sep=“-”）print（“9922”,sep=“-”）print（“0202”,sep=“-”）D、print（“138”,end=“-”）print（“9922”,end=“-”）print（“0202”）【正確答案】：D解析：

A打印出來是回車分割；B打印出來是空格分隔；C關(guān)鍵詞寫了分隔符，所以打印出來任是回車分割；D打印出來就是-分隔。60.以下代碼的輸出結(jié)果為（）。A、[022345]B、[543220]C、[[230][542]]D、[[235][024]]【正確答案】：A解析：

默認(rèn)按最后一個(gè)軸進(jìn)行排序，軸參數(shù)設(shè)置為None時(shí)先展平再進(jìn)行排序。61.matplotlib中的legend函數(shù)作用是什么（）。A、設(shè)置標(biāo)簽文本B、繪制網(wǎng)格線C、標(biāo)示不同圖形的文本標(biāo)簽圖例D、設(shè)置x軸的數(shù)值顯示范圍【正確答案】：C解析：

legend用于添加圖例。62.Hadoop中，Reducer的三個(gè)階段是（）。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shuffle-Reduce【正確答案】：A解析：

Reducer主要分為Shuffle洗牌、Sort排序和Reduce三個(gè)步驟。63.線性判別分析在二分類問題上也稱為（）。A、線性回歸B、對(duì)數(shù)幾率回歸C、Fisher判別分析D、主成分分析【正確答案】：C解析：

線性判別分析在二分類問題上也稱為Fisher判別分析。64.不屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出模式是（）。A、單輸出B、多輸出C、同步多輸出D、異步多輸出【正確答案】：C解析：

--65.關(guān)于DataNode的描述錯(cuò)誤的是（）。A、DataNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請(qǐng)求B、DataNode進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作C、集群中的DataNode一般是一個(gè)節(jié)點(diǎn)一個(gè)D、文件的副本系數(shù)由DataNode儲(chǔ)存【正確答案】：D解析：

文件副本的數(shù)目稱為文件的副本系數(shù),這個(gè)信息是由NameNode保存的。66.（）負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。A、NameNodeB、JobtrackerC、DataNodeD、SecondaryNameNode【正確答案】：C解析：

Hadoop中NameNode節(jié)點(diǎn)作為Master節(jié)點(diǎn)，對(duì)集群進(jìn)行管理；SecondaryNameNode節(jié)點(diǎn)在于分擔(dān)NameNode的壓力而設(shè)置；JobTracker是為了跟蹤作業(yè)運(yùn)行的情況而設(shè)置的節(jié)點(diǎn)。67.Numpy包中meshgrid函數(shù)實(shí)現(xiàn)的功能是（）。A、數(shù)組拆分B、數(shù)組乘法C、數(shù)組除法D、數(shù)組融合【正確答案】：D解析：

np.meshgrid）用于數(shù)組融合，在畫等高線圖時(shí)常用。68.如果python程序中包括零運(yùn)算，解釋器將在運(yùn)行時(shí)拋出）（）錯(cuò)誤信息（）。A、NameErrorB、FileNotFoundErrorC、SyntaxErrorD、Zero【正確答案】：D解析：

NameError為找不到變量名報(bào)錯(cuò)；FileNotFoundError為文件不存在報(bào)錯(cuò)；SyntaxError為語法報(bào)錯(cuò)；ZeroDivisionError為數(shù)學(xué)除零運(yùn)算報(bào)錯(cuò)。69.關(guān)于Hive說法正確的是（）。A、一種數(shù)據(jù)倉(cāng)庫(kù)B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】：A解析：

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載，這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。70.TF-IDF中的TF是指（）。A、某個(gè)詞在文檔中出現(xiàn)的次數(shù)B、文章的總次數(shù)C、某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D、以上答案都不正確【正確答案】：C解析：

TF是詞頻（TermFrequency），表示某個(gè)詞出現(xiàn)的頻率，也就是某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)。71.一元線性回歸方程y=0.7+0.82x，判定系數(shù)等于0.64，則x與y的相關(guān)系數(shù)為（）。A、0.82B、0.64C、0.8D、0.7【正確答案】：C解析：

一元回歸分析中，自變量和因變量的相關(guān)系數(shù)的平方等于回歸模型的判定系數(shù)。所以，相關(guān)系數(shù)=sqrt（0.64）=0.8。72.中文同義詞替換時(shí)，常用到Word2Vec，以下說法錯(cuò)誤的是（）。A、Word2Vec基于概率統(tǒng)計(jì)B、Word2Vec結(jié)果符合當(dāng)前預(yù)料環(huán)境C、Word2Vec得到的都是語義上的同義詞D、Word2Vec受限于訓(xùn)練語料的數(shù)量和質(zhì)量【正確答案】：C解析：

Word2Vec只會(huì)輸出詞向量，并不關(guān)心是否為同義詞。73.下列方法中，能夠讓所有單詞的首字母變成大寫的方法是（）。A、capitalizeB、titleC、upperD、Ijust【正確答案】：B解析：

capitalize）將字符串的第一個(gè)字母變成大寫,其他字母變小寫；upper）方法將字符串中的小寫字母轉(zhuǎn)為大寫字母；Iljust左對(duì)齊。74.若a=np.array（[5,1,2,3]），a.sort（），則數(shù)組a的結(jié)果是（）。A、[5,1,2,3]B、[1,2,3,5]C、[3,2,1,5]D、11【正確答案】：B解析：

Ndarray.sort）默認(rèn)在原地按最后一個(gè)軸從小到大排序。75.Python中定義私有屬性的方法是（）。A、使用private關(guān)鍵字B、使用public關(guān)鍵字C、使用__XX__定義屬性名D、使用__XX定義屬性名【正確答案】：D解析：

使用__XX定義屬性名是定義私有屬性的方法。76.對(duì)于PCA（主成分分析）轉(zhuǎn)化過的特征,樸素貝葉斯的不依賴假設(shè)總是成立,因?yàn)樗兄饕煞质钦坏?這個(gè)說法是（）。A、正確的B、錯(cuò)誤的C、-D、-【正確答案】：B解析：

說法錯(cuò)誤。首先,不依賴和不相關(guān)是兩回事；其次,轉(zhuǎn)化過的特征也可能是相關(guān)的。77.下列不屬于Action操作的是（）。A、collectB、filterC、reduceD、count【正確答案】：B解析：

Action常用的函數(shù)為reduce、collect、count、take、first、foreach等。78.PageRank是一個(gè)函數(shù),它對(duì)Web中的每個(gè)網(wǎng)頁賦予一個(gè)實(shí)數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就（）。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】：D解析：

PageRank認(rèn)為，如果A頁面有一個(gè)鏈接指向B頁面，那就可以看作是A頁面對(duì)B頁面的一種信任或推薦。所以，如果一個(gè)頁面的反向鏈接越多，根據(jù)這些鏈接的價(jià)值加權(quán)越高，那搜索引擎就會(huì)判斷這樣的頁面更為重要。79.數(shù)據(jù)產(chǎn)品的定義是（）。A、數(shù)據(jù)產(chǎn)品是指能夠供給市場(chǎng)，被人們使用和消費(fèi)，并能滿足人們某種需求的任何東西B、數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價(jià)值去輔助用戶更優(yōu)地做決策（甚至行動(dòng)）的一種產(chǎn)品形式C、數(shù)據(jù)產(chǎn)品是指為了滿足自身的需要，通過科技發(fā)明或經(jīng)驗(yàn)總結(jié)而形成的技術(shù)D、數(shù)據(jù)產(chǎn)品是數(shù)據(jù)科學(xué)的結(jié)果，創(chuàng)造了新的實(shí)物形態(tài)和使用價(jià)值的產(chǎn)品?！菊_答案】：B解析：

數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價(jià)值去輔助用戶更優(yōu)的做決策（甚至行動(dòng)）的一種產(chǎn)品形式。80.下列關(guān)于數(shù)據(jù)重組的說法中，錯(cuò)誤的是（）。A、數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B、數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C、數(shù)據(jù)重組實(shí)現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D、數(shù)據(jù)重組有利于實(shí)現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新【正確答案】：A解析：

數(shù)據(jù)重組將數(shù)據(jù)庫(kù)內(nèi)各數(shù)據(jù)的相關(guān)信息重新組織。81.scipy.stats中，（）表示泊松分布。A、gammaB、poissonC、binomD、uniform【正確答案】：B解析：

poission表示泊松分布。82.pyplot.pie）所畫的圖像是（）。A、箱線圖B、折線圖C、直方圖D、餅圖【正確答案】：D解析：

pyplot.pie）的作用是繪制餅圖。83.增加卷積核的大小對(duì)于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的效果是必要的嗎（）A、是的，增加卷積核尺寸一定能提高性能B、不是，增加核函數(shù)的大小不一定會(huì)提高性能C、-D、-【正確答案】：B解析：

增加核函數(shù)的大小不一定會(huì)提高性能。這個(gè)問題在很大程度上取決于數(shù)據(jù)集。84.在一些算法中，為了進(jìn)行屬性之間的比較或運(yùn)算，需要把不同屬性的不同變量取值范圍變換成同一范圍，以免使得結(jié)果發(fā)生扭曲，偏向取值范圍大的變量。這一過程稱為（）。A、合并B、數(shù)據(jù)聚合C、歸一化D、數(shù)據(jù)處理【正確答案】：C解析：

歸一化是一種無量綱處理手段，使物理系統(tǒng)數(shù)值的絕對(duì)值變成某種相對(duì)值關(guān)系，是簡(jiǎn)化計(jì)算、縮小量值的有效辦法。85.CART決策樹通常采用（）剪枝方法。A、REP（錯(cuò)誤率降低）B、CCP（代價(jià)復(fù)雜度）C、PEP（悲觀剪枝）D、預(yù)剪枝【正確答案】：B解析：

--86.檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基于（）的離群點(diǎn)檢測(cè)。A、統(tǒng)計(jì)方法B、鄰近度C、密度D、機(jī)器學(xué)習(xí)技術(shù)【正確答案】：A解析：

略。87.下列關(guān)于線性回歸分析中的殘差說法正確的是（）。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確【正確答案】：A解析：

線性回歸分析中，目標(biāo)是殘差最小化。殘差平方和是關(guān)于參數(shù)的函數(shù)，為了求殘差極小值，令殘差關(guān)于參數(shù)的偏導(dǎo)數(shù)為零，會(huì)得到殘差和為零，即殘差均值為零。88.（）操作屬于預(yù)剪枝。A、信息增益B、計(jì)算最好的特征切分點(diǎn)C、限制樹模型的深度D、可視化樹模型【正確答案】：C解析：

預(yù)剪枝是指在決策樹生成過程中，對(duì)每個(gè)結(jié)點(diǎn)在劃分前先進(jìn)行估計(jì)，若當(dāng)前結(jié)點(diǎn)的劃分不能帶來決策樹泛化性能提升，則停止劃分并將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)。限制樹模型的深度屬于預(yù)剪枝。89.下列關(guān)于可視化方法體系說法不正確的是（）。A、通常采用視覺圖形元素和視覺通道兩個(gè)維度進(jìn)行視覺編碼B、常用的共性方法有統(tǒng)計(jì)圖表、圖論方法、視覺隱喻和圖形符號(hào)學(xué)等C、領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用D、視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)【正確答案】：C解析：

領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果高于基礎(chǔ)方法的直接應(yīng)用。90.matplotlib中的legend函數(shù)作用是什么（）。A、設(shè)置標(biāo)簽文本B、繪制網(wǎng)格線C、標(biāo)示不同圖形的文本標(biāo)簽圖例D、設(shè)置x軸的數(shù)值顯示范圍【正確答案】：C解析：

legend用于添加圖例。91.你正在訓(xùn)練一個(gè)RNN網(wǎng)絡(luò)，你發(fā)現(xiàn)你的權(quán)重與激活值都是NaN，下列選項(xiàng)中導(dǎo)致這個(gè)問題的最有可能的原因是（）。A、梯度消失B、梯度爆炸C、ReLU函數(shù)作為激活函數(shù)g（.），在計(jì)算g（z）時(shí)，z的數(shù)值過大了D、Sigmoid函數(shù)作為激活函數(shù)g（.），在計(jì)算g（z）時(shí)，z的數(shù)值過大了【正確答案】：B解析：

訓(xùn)練過程中出現(xiàn)梯度爆炸會(huì)伴隨一些細(xì)微的信號(hào)，如：①模型無法從訓(xùn)練數(shù)據(jù)中獲得更新（如低損失）；②模型不穩(wěn)定，導(dǎo)致更新過程中的損失出現(xiàn)顯著變化；③訓(xùn)練過程中，模型損失變成NaN。92.下列關(guān)于文本分類的說法不正確的是（）。A、文本分類是指按照預(yù)先定義的主題類別，由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類別B、文本分類大致可分為基于知識(shí)工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建，該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟【正確答案】：C解析：

詞袋模型是指將所有詞語裝進(jìn)一個(gè)袋子里，不考慮其詞法和語序的問題，即每個(gè)詞語都是獨(dú)立的，所以該模型沒有考慮文本詞語的行文順序，C錯(cuò)誤，選C。93.下面算法屬于局部處理的是（）。A、灰度線性變換B、二值化C、傅里葉變換D、中值濾波【正確答案】：D解析：

中值濾波是將每一像素點(diǎn)的灰度值設(shè)置為該點(diǎn)某鄰域窗口內(nèi)的所有像素點(diǎn)灰度值的中值，在圖像處理中常用于保護(hù)邊緣信息，是一種局部處理方法。94.平滑圖像處理可以采用RGB彩色（）模型。A、直方圖均衡化B、直方圖均衡化C、加權(quán)均值濾波D、中值濾波【正確答案】：C解析：

平滑圖像處理可以采用RGB彩色加權(quán)均值濾波模型。95.sklearn.decomposition.PCA）方法的作用是（）。A、因子分析B、主成分分析C、稀疏編碼D、唯一編碼【正確答案】：B解析：

PCA）方法是一種常用的降維方法，在數(shù)據(jù)維度較高時(shí)使用。96.在k近鄰學(xué)習(xí)算法中，隨著k的增加，上界將逐漸降低，當(dāng)k區(qū)域無窮大時(shí)，上界和下界碰到一起，k近鄰法就達(dá)到了（）。A、貝葉斯錯(cuò)誤率B、漸進(jìn)錯(cuò)誤率C、最優(yōu)值D、上界【正確答案】：A解析：

--97.在回歸模型中，（）在權(quán)衡欠擬合（under-fitting）和過擬合（over-fitting）中影響最大。A、多項(xiàng)式階數(shù)B、更新權(quán)重w時(shí)，使用的是矩陣求逆C、使用常數(shù)項(xiàng)D、使用梯度下降法【正確答案】：A解析：

選擇合適的多項(xiàng)式階數(shù)非常重要。如果階數(shù)過大，模型就會(huì)更加復(fù)雜，容易發(fā)生過擬合；如果階數(shù)較小，模型就會(huì)過于簡(jiǎn)單，容易發(fā)生欠擬合。98.下列關(guān)于BP網(wǎng)絡(luò)的說法，不正確的是（）。A、標(biāo)準(zhǔn)BP算法每次僅針對(duì)一個(gè)訓(xùn)練樣例更新連接權(quán)和閾值BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過擬合C、早停策略可用來緩解BP網(wǎng)絡(luò)的過擬合問題D、晚停策略可用來緩解BP網(wǎng)絡(luò)的欠擬合問題【正確答案】：D解析：

早停和正則化是解決BP網(wǎng)絡(luò)過擬合的兩種方法，欠擬合的網(wǎng)絡(luò)需繼續(xù)訓(xùn)練，并沒有晚停這一說法。99.如果x＝5.5，則表達(dá)式x＞0andx==int（x）的運(yùn)算結(jié)果為；表達(dá)式x＞0orx==int（x）的運(yùn)算結(jié)果為（）。A、TrueFalseB、FalseTrueC、TrueTrueD、FalseFalse【正確答案】：B解析：

5.5恒大于0，且5.5不等于int（5）。100.聚類是一種典型的無監(jiān)督學(xué)習(xí)任務(wù)，然而在現(xiàn)實(shí)聚類任務(wù)中我們往往能獲得一些額外的監(jiān)督信息，于是可通過（）來利用監(jiān)督信息以獲得更好的聚類效果。A、監(jiān)督聚類B、半監(jiān)督聚類C、聚類D、直推聚類【正確答案】：B解析：

--1.關(guān)于Python組合數(shù)據(jù)類型，以下選項(xiàng)中描述正確的是（）。A、Python的str、tuple和list類型都屬于序列類型B、Python組合數(shù)據(jù)類型能夠?qū)⒍鄠€(gè)同類型或不同類型的數(shù)據(jù)組織起來，通過單一的表示使數(shù)據(jù)操作更有序更容易C、組合數(shù)據(jù)類型可以分為3類：序列類型、集合類型和映射類型3類D、序列類型是二維元素向量，元素之間存在先后關(guān)系，通過序號(hào)訪問【正確答案】：ABC解析：

序列類型是一維元素向量。2.數(shù)據(jù)再利用的意義在于（）A、挖掘數(shù)據(jù)的潛在價(jià)值B、提高社會(huì)效益，優(yōu)化社會(huì)管理C、實(shí)現(xiàn)數(shù)據(jù)重組的創(chuàng)新價(jià)值D、優(yōu)化存儲(chǔ)設(shè)備，降低設(shè)備成本E、利用數(shù)據(jù)的可拓展性拓展業(yè)務(wù)領(lǐng)域【正確答案】：ACE解析：

數(shù)據(jù)的再利用可以挖掘數(shù)據(jù)的潛在價(jià)值，實(shí)現(xiàn)數(shù)據(jù)組重組的創(chuàng)新價(jià)值，并且可以利用數(shù)據(jù)的可拓展性拓展業(yè)務(wù)領(lǐng)域3.聚類性能度量外部指標(biāo)包括（）。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)【正確答案】：ABD解析：

常用的聚類性能度量外部指標(biāo)有Jaccard系數(shù)，F(xiàn)M指數(shù)，Rand指數(shù)。4.在數(shù)據(jù)科學(xué)中，計(jì)算模式發(fā)生了根本性的變化——從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過渡至云計(jì)算，有一定的代表性的是Google云計(jì)算三大技術(shù)，這三大技術(shù)包括（）。A、HadoopYRN資源管理器B、GFS分布式存儲(chǔ)系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫(kù)【正確答案】：BCD解析：

Goolge于2003～2008年間發(fā)表的3篇論文在云計(jì)算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響，被稱為Google三大技術(shù)或三大論文：①GFS論文——GhemawatS,Gobioff5.下列方法中，可以用于特征降維的方法包括（）。A、主成分分析PCAB、線性判別分析LDAC、深度學(xué)習(xí)SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】：ABD解析：

--6.關(guān)于Dropout說法，正確的是（）。A、Dropout背后的思想其實(shí)就是把DNN當(dāng)作一個(gè)集成模型來訓(xùn)練，之后取所有值的平均值，而不只是訓(xùn)練單個(gè)DNNB、DNN網(wǎng)絡(luò)將Dropout率設(shè)置為p，也就是說，一個(gè)神經(jīng)元被保留的概率是1-p。當(dāng)一個(gè)神經(jīng)元被丟棄時(shí)，無論輸入或者相關(guān)的參數(shù)是什么，它的輸出值就會(huì)被設(shè)置為0C、丟棄的神經(jīng)元在訓(xùn)練階段，對(duì)BP算法的前向和后向階段都沒有貢獻(xiàn)。由于這個(gè)原因，每一次訓(xùn)練它都像是在訓(xùn)練一個(gè)新的網(wǎng)絡(luò)Dropout方法通常和L2正則化或者其他參數(shù)約束技術(shù)（比如MaxNorm）一起使用，來防止神經(jīng)網(wǎng)絡(luò)的過擬合【正確答案】：ABCD解析：

dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中，對(duì)于神經(jīng)網(wǎng)絡(luò)單元，按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄。注意是暫時(shí)，對(duì)于隨機(jī)梯度下降來說，由于是隨機(jī)丟棄，故而每一個(gè)mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)。防止過擬合的方法：提前終止（當(dāng)驗(yàn)證集上的效果變差的時(shí)候）;L1和L2正則化加權(quán)；softweightsharingdropout。dropout率的選擇：經(jīng)過交叉驗(yàn)證，隱含節(jié)點(diǎn)dropout率等于0.5的時(shí)候效果最好，原因是0.5的時(shí)候dropout隨機(jī)生成的網(wǎng)絡(luò)結(jié)構(gòu)最多。dropout也可以被用作一種添加噪聲的方法，直接對(duì)input進(jìn)行操作。輸入層設(shè)為更接近1的數(shù)。使得輸入變化不會(huì)太大（0.8）。7.已定義級(jí)（DefinedLevel）的主要特點(diǎn)包括（）。A、組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的“標(biāo)準(zhǔn)定義”，并定期對(duì)其進(jìn)行改進(jìn)B、已提供了關(guān)鍵過程的測(cè)量與預(yù)測(cè)方法C、關(guān)鍵過程的執(zhí)行過程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的“標(biāo)準(zhǔn)定義”，而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的“裁剪”工作D、數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí)，將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一【正確答案】：ABCD解析：

DMM的已定義級(jí)（DefinedLevel）：組織機(jī)構(gòu)已經(jīng)定義了自己的“標(biāo)準(zhǔn)關(guān)鍵過程”。其主要特點(diǎn)如下：①組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的“標(biāo)準(zhǔn)定義”，并定期對(duì)其進(jìn)行改進(jìn)；②已提供了關(guān)鍵過程的測(cè)量與預(yù)測(cè)方法；③關(guān)鍵過程的執(zhí)行過程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的“標(biāo)準(zhǔn)定義”，而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的“裁剪”工作；④數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí)，將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一。8.回歸分析有很多種類，常見的有（）。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回歸【正確答案】：ACD解析：

--9.對(duì)以下代碼說法正確的是（）。A、該圖表是一個(gè)藍(lán)綠色的散點(diǎn)圖B、圖表中有紅色實(shí)線的網(wǎng)格線C、圖表中有圖例D、該圖畫的是sin曲線【正確答案】：CD解析：

該圖畫的是點(diǎn)虛線形式的折線圖，紅色點(diǎn)線網(wǎng)格，帶有圖例。10.參數(shù)估計(jì)可以分為（）。A、點(diǎn)估計(jì)B、一致估計(jì)C、區(qū)間估計(jì)D、無偏估計(jì)【正確答案】：AC解析：

參數(shù)估計(jì)可以分為點(diǎn)估計(jì)、區(qū)間估計(jì)。11.EDA（探索性數(shù)據(jù)分析）方法與傳統(tǒng)統(tǒng)計(jì)學(xué)的驗(yàn)證性分析方法的區(qū)別有（）。A、EDA需要事先提出假設(shè)，而驗(yàn)證性分析不需要B、EDA中采用的方法往往比驗(yàn)證性分析簡(jiǎn)單C、在一般數(shù)據(jù)科學(xué)項(xiàng)目中，探索性分析在先，驗(yàn)證性分析在后D、EDA更為簡(jiǎn)單、易學(xué)和易用【正確答案】：BCD解析：

在一般數(shù)據(jù)科學(xué)項(xiàng)目中，探索性分析在先，驗(yàn)證性分析在后，EDA中采用的方法往往比驗(yàn)證性分析簡(jiǎn)單。12.下面對(duì)范數(shù)規(guī)則化描述，正確的是（）。A、L0是指向量中0的元素的個(gè)數(shù)B、L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和C、L2范數(shù)向量元素絕對(duì)值的平方和再開平方D、L0是指向量中非0的元素的個(gè)數(shù)【正確答案】：BCD解析：

L0是指向量中非0的元素的個(gè)數(shù)，L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和，L2范數(shù)向量元素絕對(duì)值的平方和再開平方。13.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個(gè)獨(dú)立的實(shí)體，包括（）。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】：ABCD解析：

可以將MapReduce的工作流程概括為4個(gè)獨(dú)立的實(shí)體。4個(gè)實(shí)體分別為：①客戶端，用來提交MapReduce的作業(yè)。編寫MapReduce程序，配置作業(yè)，提交作業(yè)，即需程序員完成的工作。②JobTracker，用來協(xié)調(diào)作業(yè)的運(yùn)行。與TaskTracker通信，協(xié)調(diào)整個(gè)作業(yè)的執(zhí)行。③TaskTracker，用來處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信，在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù)，TaskTracker和JobTracker的不同有個(gè)很重要方面，就是在執(zhí)行任務(wù)的時(shí)候TaskTracker可以有n個(gè)，JobTracker則只會(huì)有一個(gè)。④HDFS，用來在其他實(shí)體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等，最后的結(jié)果也是保存在HDFS上面。14.以下關(guān)于降維方法的敘述，正確的是（）。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D、度量學(xué)習(xí)繞過降維的過程，將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對(duì)距離度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)【正確答案】：CD解析：

本質(zhì)上講，主成分分析是一種線性降維方法，在處理非線性問題時(shí)，效果不太理想。核化線性降維是一種非線性降維方法。15.HighBias（高偏差）的解決方案有（）。A、BoostingB、復(fù)雜模型（非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層）C、更多特征D、-【正確答案】：ABC解析：

偏差刻畫了學(xué)習(xí)算法本身的擬合能力，高偏差意味著欠擬合，可通過Boosting、復(fù)雜模型（非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層）、更多特征等方式解決。16.CNN相比于全連接的DNN，具有的優(yōu)勢(shì)是（）。A、參數(shù)更少B、泛化更好C、訓(xùn)練更快D、更容易搭建【正確答案】：ABC解析：

DNN直接對(duì)數(shù)據(jù)做加權(quán)線性連接，而CNN則是移動(dòng)卷積核，并對(duì)圖像中的各區(qū)域做卷積操作。因此，DNN更容易搭建，D錯(cuò)誤。17.線性模型的基本形式有（）。A、線性回歸B、對(duì)數(shù)幾率回歸（二分類問題）C、線性判別分析（Fisher判別分析）D、多分類學(xué)習(xí)【正確答案】：ABCD解析：

--18.屬于特征選擇的優(yōu)點(diǎn)有（）。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】：BCD解析：

特征選擇無法克服模型自身的缺陷，二者是獨(dú)立的。19.“噪聲”是指測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差，噪聲數(shù)據(jù)的主要表現(xiàn)有哪幾種形式（）A、錯(cuò)誤數(shù)據(jù)B、假數(shù)據(jù)C、異常數(shù)據(jù)D、僵尸數(shù)據(jù)【正確答案】：ABC解析：

錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)、異常數(shù)據(jù)在測(cè)量變量中多被定義為噪聲。20.Numpy數(shù)組中將一個(gè)數(shù)組分割成多個(gè)小數(shù)組數(shù)組的分割函數(shù)包括（）。A、hsplitBB、vsplitCC、splitDD、dsplit【正確答案】：ABCD解析：

以上都是分割函數(shù)，分別為水平分割，、數(shù)值分割，、通用分割，、深度分割。21.Python邏輯表達(dá)式中，（）會(huì)導(dǎo)致邏輯短路，即不會(huì)繼續(xù)向下推算而直接返回結(jié)果。A、False開頭的and語句B、False開頭的or語句C、True開頭的and語句D、True開頭的or語句【正確答案】：AD解析：

兩種情況：False開頭的and語句，True開頭的or語句。22.以下關(guān)于神經(jīng)網(wǎng)絡(luò)模型描述正確的是（）。A、神經(jīng)網(wǎng)絡(luò)模型是許多邏輯單元按照不同層級(jí)組織起來的網(wǎng)絡(luò)，每一層的輸出變量都是下一層的輸入變量B、神經(jīng)網(wǎng)絡(luò)模型建立在多神經(jīng)元之上C、神經(jīng)網(wǎng)絡(luò)模型中，無中間層的神經(jīng)元模型的計(jì)算可用來表示邏輯運(yùn)算D、神經(jīng)網(wǎng)絡(luò)模型一定可以解決所有分類問題【正確答案】：ABC解析：

現(xiàn)在很多分類問題的準(zhǔn)確率都很低尤其是醫(yī)學(xué)圖像方面，而且容易受環(huán)境，如光照影響。23.下列選項(xiàng)中基于核的機(jī)器學(xué)習(xí)算法有（）。A、最大期望算法B、徑向基核函數(shù)C、線性判別分析法D、支持向量機(jī)【正確答案】：BCD解析：

--24.關(guān)于HDFS的文件寫入，正確的是（）。A、不支持多用戶對(duì)同一文件的寫操作B、用戶不可以在文件任意位置進(jìn)行修改C、默認(rèn)將文件復(fù)制成三份存放D、復(fù)制的文件塊默認(rèn)不存在同一機(jī)架上【正確答案】：ABCD解析：

根據(jù)HDFS定義，以上答案都為正確選項(xiàng)。25.MapReduce對(duì)map（）函數(shù)的返回值處理后才傳給reduce（）函數(shù)，其中涉及哪些操作（）。A、合并B、排序C、分區(qū)D、抽樣【正確答案】：ABC解析：

分別涉及Shuffle（排序）、Combiner（合并）和Partition（分區(qū)）操作。26.集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法有（）。A、數(shù)據(jù)樣本擾動(dòng)B、輸入屬性擾動(dòng)C、輸出表示擾動(dòng)D、算法參數(shù)擾動(dòng)【正確答案】：ABCD解析：

集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法主要是是對(duì)數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動(dòng)。27.圖像分割中常使用的領(lǐng)域有（）。A、0鄰域B、4鄰域C、8鄰域D、24鄰域【正確答案】：BC解析：

圖像分割中常見的鄰域?yàn)?鄰域與8鄰域，即某像素的上下左右、某像素周圍的一圈像素。28.下列哪些是RDBMS中事務(wù)遵循的原則（）。A、原子性（Atomicity）B、一致性（Connsistency）C、隔離性（Isolation）D、持久性（Durability）【正確答案】：ABCD解析：

關(guān)系數(shù)據(jù)庫(kù)中的事務(wù)需要具備一定的規(guī)則——ACID特征。ACID是指數(shù)據(jù)庫(kù)事務(wù)正確執(zhí)行的4個(gè)基本要素的縮寫：原子性（Atomicity）、一致性（Consistency）、隔離性（Isolation）、持久性（Durability）。29.以下有關(guān)特征數(shù)據(jù)歸一化的說法，正確的是（）。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處理【正確答案】：ABD解析：

歸一化方法比較適用在數(shù)值比較集中的情況。這種方法的缺陷是如果max和min不穩(wěn)定，很容易使得歸一化結(jié)果不穩(wěn)定，使得后續(xù)使用效果也不穩(wěn)定。實(shí)際使用中可以用經(jīng)驗(yàn)常量值來替代max和min。非線性歸一化經(jīng)常用在數(shù)據(jù)分化比較大的場(chǎng)景，有些數(shù)值很大，有些很小。30.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則是（）。A、忠于原始數(shù)據(jù)原則B、設(shè)定共同場(chǎng)景原則C、有效性利用原則D、3C精神原則【正確答案】：ABCD解析：

數(shù)據(jù)的故事化描述應(yīng)遵循的基本原則包括忠于原始數(shù)據(jù)原則、設(shè)定共同情景原則、體驗(yàn)式講述原則、個(gè)性化定制原則、有效性利用原則、3C精神原則。31.模塊可以分為以下的通用類別包含（）。A、使用python編寫的.py文件B、已被編譯為共享庫(kù)或DLL的C或C++擴(kuò)展C、把一系列模塊組織到一起的文件夾D、使用C編寫并鏈接到python解釋器的內(nèi)置模塊【正確答案】：ABCD解析：

python的模塊定義是一組包含了一組功能的python文件，比如test.py,模塊名為test，可以通過importtest進(jìn)行調(diào)用。模塊可以分為以下四個(gè)通用類別：使用python編寫的.py文件；已被編譯為共享庫(kù)或DLL的C或C++擴(kuò)展；把一系列模塊組織到一起的文件夾；使用C編寫并鏈接到python解釋器的內(nèi)置模塊。32.下列方法中，屬于詞語情感分析的方法有（）。A、基于網(wǎng)絡(luò)的分析方法B、基于word-embedding的分析方法C、基于詞典的分析方法D、基于詞頻的分析方法【正確答案】：AC解析：

其余兩種為分詞方法。33.RDD具有（）特征。A、可容錯(cuò)性B、簡(jiǎn)潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】：AC解析：

RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu)。34.下面導(dǎo)入模塊正確的是（）。A、importnumpyB、importnumpyasnpC、frommatplotlibimportpyplotD、frommatplotlibimportpyplotasplt【正確答案】：ABCD解析：

本題考查模塊導(dǎo)入方法。35.當(dāng)我們構(gòu)造線性模型時(shí)，我們注意變量間的相關(guān)性。在相關(guān)矩陣中搜索相關(guān)系數(shù)時(shí)，如果我們發(fā)現(xiàn)3對(duì)變量的相關(guān)系數(shù)是（Var1和Var2，Var2和Var3，Var3和Var1），相關(guān)系數(shù)分別是-0.98、0.45、1.23。我們可以得出的結(jié)論是（）。A、Var1和Var2是非常相關(guān)的B、因?yàn)閂a1r和Var2是非常相關(guān)的，可以去除其中一個(gè)C、Var3和Var1的1.23相關(guān)系數(shù)是不可能的D、-【正確答案】：ABC解析：

Var1和Var2之間的相關(guān)性非常高，并且是負(fù)的，可視為多重共線性的情況，可以去掉一個(gè)。一般來說，如果相關(guān)大于0.7或小于-0.7，則認(rèn)為特征之間有很高的相關(guān)性。相關(guān)系數(shù)范圍為[-1，1]，C選項(xiàng)中1.23明顯有誤。36.MapReduce中運(yùn)行程序副本程序的機(jī)器為（）。A、Map服務(wù)器B、Master服務(wù)器C、Worker服務(wù)器D、Reduce服務(wù)器【正確答案】：BC解析：

MapReduce中，運(yùn)行程序副本程序的機(jī)器分為Master服務(wù)器和若干個(gè)Worker服務(wù)器兩類。37.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在（）。A、具有勞動(dòng)增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價(jià)值D、涉及道德與倫理【正確答案】：ABCD解析：

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。38.影響聚類算法效果的主要原因有（）。A、特征選取B、模式相似性測(cè)度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】：ABC解析：

聚類算法是無監(jiān)督的學(xué)習(xí)算法，訓(xùn)練樣本的標(biāo)記信息是未知的。39.下列關(guān)于AUC面積的描述，正確的是（）。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AUC等于0.5時(shí)，則真實(shí)性最低，無應(yīng)用價(jià)值D、AUC越接近1.0，檢測(cè)方法真實(shí)性越高【正確答案】：ACD解析：

AUC面積的值小于等于1。40.常見的核函數(shù)主要包括（）。A、多項(xiàng)式核B、高斯核C、線性核D、拉普拉斯核E、徑向基核函數(shù)【正確答案】：ABCDE解析：

--41.以下關(guān)于數(shù)據(jù)維度的描述，正確的是（）。A、采用列表表示一維數(shù)據(jù)，不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】：ABC解析：

字典可以表示二維以上的高維數(shù)據(jù)。42.TF-IDF的缺點(diǎn)包含（）。A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比B、將一些生僻字誤當(dāng)作文檔關(guān)鍵詞C、只考慮特征詞和文本之間的關(guān)系，忽略了一個(gè)特征項(xiàng)在不同類別間的分布情況D、沒有考慮特征詞的位置因素對(duì)文本的區(qū)分度【正確答案】：BCD解析：

低頻詞匯的重要性和出現(xiàn)次數(shù)成正比。43.下列哪些是面向?qū)ο蠹夹g(shù)的特征包含（）。A、封裝B、繼承C、多態(tài)D、分布性【正確答案】：ABC解析：

面向?qū)ο蠹夹g(shù)的特征有封裝、繼承、多態(tài)。44.以下屬于頻率域圖像濾波的方法有（）。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】：CD解析：

頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。45.Spark的部署模式包括（）。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】：ABCD解析：

Spark支持上述四種運(yùn)行模式，在實(shí)驗(yàn)中為了充分利用資源，一般配置Standalone模式運(yùn)行。46.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面（）。A、能夠直觀反映成對(duì)數(shù)據(jù)之間的空間關(guān)系B、能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、能夠靜態(tài)演化事物的變化及變化的規(guī)律D、能夠動(dòng)態(tài)演化事物的變化及變化的規(guī)律【正確答案】：BD解析：

可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系，以及能夠動(dòng)態(tài)演化事物的變化及變化的規(guī)律。47.機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵組成要素是（）。A、任務(wù)TB、性能指標(biāo)PC、目標(biāo)函數(shù)VD、經(jīng)驗(yàn)來源E【正確答案】：ABD解析：

--48.以下（）是一元通用函數(shù)。A、np.add）B、np.maximum）C、np.exp）D、np.sqrt）【正確答案】：CD解析：

--49.常見的聚類性能度量外部指標(biāo)有（）。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】：AC解析：

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)；聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。50.以下選項(xiàng)中，屬于MapReduce特征的有（）。A、以主從結(jié)構(gòu)的形式運(yùn)行B、容錯(cuò)機(jī)制的復(fù)雜性C、任務(wù)備份機(jī)制的必要性D、數(shù)據(jù)存儲(chǔ)位置固定【正確答案】：ABC解析：

數(shù)據(jù)存儲(chǔ)位置具有多樣性，并非固定，所以D錯(cuò)。51.能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點(diǎn)的系數(shù)降至0附近的濾波器有（）。A、同態(tài)濾波B、高斯濾波C、巴特沃斯濾波D、中值濾波【正確答案】：BC解析：

--52.下面關(guān)于隨機(jī)變量及其概率分布的說法，正確的是（）。A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性C、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5，其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5，其中正面朝上次數(shù)為5的概率是最大的【正確答案】：ABC解析：

扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5，其中正面朝上次數(shù)為5的概率不是最大的。53.以下選項(xiàng)中，不是Python語言保留字的是（）。A、doB、passC、exceptD、until【正確答案】：AD解析：

詳見Python關(guān)鍵字列表。54.決策樹的劃分選擇有（）。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】：BCD解析：

--55.以下圖像技術(shù)中屬于圖像處理技術(shù)的是（）。A、圖像編碼B、圖像合成C、圖像增強(qiáng)D、圖像分類【正確答案】：AC解析：

圖像合成輸入是數(shù)據(jù)，圖像分類輸出是類別數(shù)據(jù)。56.數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)，將數(shù)據(jù)轉(zhuǎn)換成（）或（）在屏幕上顯示出來，并進(jìn)行交互處理的理論、方法和技術(shù)。A、文字B、圖形C、圖像D、視頻【正確答案】：BC解析：

數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)，將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來，再進(jìn)行交互處理的理論、方法和技術(shù)。57.下列關(guān)于Ridge回歸的說法，正確的是（）。A、若λ=0，則等價(jià)于一般的線性回歸B、若λ=0，則不等價(jià)于一般的線性回歸C、若λ=+∞，則得到的權(quán)重系數(shù)很小，接近于零D、若λ=+∞，則得到的權(quán)重系數(shù)很大，接近與無窮大【正確答案】：AC解析：

Ridge回歸中，若λ=0，則等價(jià)于一般的線性回歸；若λ=+∞，則得到的權(quán)重系數(shù)很小，接近于零。58.以下算法中可以應(yīng)用于圖像分割的是（）。A、邊緣檢測(cè)技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長(zhǎng)方法【正確答案】：ABCD解析：

邊緣檢測(cè)技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長(zhǎng)方法均是圖像分割技術(shù)。59.以下方法是tf-idf的變種的有（）。A、TFCB、EWCC、ITCD、IG【正確答案】：AC解析：

TFC：對(duì)文本長(zhǎng)度進(jìn)行歸一化處理后的TF-IDF。ITC：在TFC基礎(chǔ)上，用tf的對(duì)數(shù)值取代tf。60.以下屬于圖像分割的算法的是（）。A、閾值分割方法（thresholdsegmentationmethod）B、區(qū)域增長(zhǎng)細(xì)分（regionalgrowthsegmentation）C、邊緣檢測(cè)分割方法（edgedetectionsegmentationmethod）D、基于聚類的分割（segmentationbasedonclustering）E、基于能量的分割【正確答案】：ABCDE解析：

--61.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是（）。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】：ABD解析：

機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。62.以下說法正確的是（）。A、負(fù)梯度方向是使函數(shù)值下降最快的方向B、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí)，梯度下降法的解是全局最優(yōu)解C、梯度下降法比牛頓法收斂速度快D、牛頓法不需要計(jì)算Hesse矩陣【正確答案】：ABD解析：

牛頓法是二階收斂,梯度下降是一階收斂,所以牛頓法就更快。63.下面關(guān)于隨機(jī)變量及其概率分布的說法，正確的是（）。A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性C、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5，其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5，其中正面朝上次數(shù)為5的概率是最大的【正確答案】：ABC解析：

扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5，其中正面朝上次數(shù)為5的概率不是最大的。64.下面選項(xiàng)是python標(biāo)準(zhǔn)庫(kù)的是（）。A、osB、sysC、numpyD、re【正確答案】：ABD解析：

numpy屬于第三方庫(kù)。65.以下屬于關(guān)鍵詞提取算法的有（）。A、TF-IDF算法B、TextRank算法C、LSA（潛在語義分析）D、LDA【正確答案】：ABCD解析：

關(guān)鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA（潛在語義分析）orLSI（潛在語義索引）、LDA等。66.在Spark中，彈性分布式數(shù)據(jù)集的特點(diǎn)包括（）。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】：ABD解析：

RDD不可修改。67.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性，還包括（）。A、完整性B、可用性C、不可否認(rèn)性D、可審計(jì)性【正確答案】：ABCD解析：

數(shù)據(jù)安全不等同于數(shù)據(jù)保密。通常，除了數(shù)據(jù)保密——數(shù)據(jù)的機(jī)密性（Confidentiality）之外，數(shù)據(jù)安全還包括完整性（Integrity）、可用性（Availability）、不可否認(rèn)性（Non-repudiation）、鑒別（Authentication）、可審計(jì)性（Accountability）和可靠性（Reliability）等多個(gè)維度68.決策樹遞歸停止的條件為（）。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標(biāo)簽完全相同C、特征用完D、遇到丟失值【正確答案】：BC解析：

決策樹的生成是一個(gè)遞歸過程。在決策樹基本算法中，有三種情形會(huì)導(dǎo)致遞歸返回：①結(jié)點(diǎn)包含的樣本全屬于同一類別，無須劃分；②當(dāng)前屬性集為空，或是所有樣本在所有屬性上取值相同，無法劃分；③當(dāng)前結(jié)點(diǎn)包含的樣本集合為空，不能劃分。69.下列關(guān)于RNN、LSTM、GRU說法正確的是（）。A、RNN引入了循環(huán)的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的變體D、RNN、LSTM、GRU是同一神經(jīng)網(wǎng)絡(luò)的不同說法，沒有區(qū)別【正確答案】：ABC解析：RNN:循環(huán)神經(jīng)網(wǎng)絡(luò)，是非線性動(dòng)態(tài)系統(tǒng)，將序列映射到序列。LSTM通過刻意的設(shè)計(jì)來避免長(zhǎng)期依賴問題，記住長(zhǎng)期的信息在實(shí)踐中是LSTM的默認(rèn)行為，而非需要付出很大代價(jià)才能獲得的能力。GRU:LSTM有很多變體，其中較大改動(dòng)的是GatedRecurrentUnit（GRU）,它將忘記門和輸入門合成了一個(gè)單一的更新門，同樣還混合了細(xì)胞狀態(tài)和隱藏狀態(tài)，和其他一些改動(dòng)。最終的模型比標(biāo)準(zhǔn)的LSTM模型要簡(jiǎn)單。效果和LSTM差不多，但是參數(shù)少了1/3，不容易過擬合。70.數(shù)據(jù)科學(xué)基本原則中，三世界原則指的是（）A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】：ABC解析：

大數(shù)據(jù)時(shí)代的到來，在我們的“精神世界”和“物理世界”之間出現(xiàn)了一種新的世界——“數(shù)據(jù)世界”。因此，在數(shù)據(jù)科學(xué)中，通常需要研究如何運(yùn)用“數(shù)據(jù)世界”中已存在的“痕跡數(shù)據(jù)”的方式解決“物理世界”中的具體問題，而不是直接到“物理世界”，采用問卷和訪談等方法親自收集“采訪數(shù)據(jù)”。相對(duì)于“采訪數(shù)據(jù)”，“痕跡數(shù)據(jù)”更具有客觀性。圖靈獎(jiǎng)獲得者JimGray提出的科學(xué)研究第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)（Data-intensiveScientificDiscovery）是“三世界原則”的代表性理論之一。71.Python函數(shù)包括下述哪些內(nèi)容（）。A、函數(shù)名稱B、參數(shù)C、執(zhí)行語句D、返回值【正確答案】：ABCD解析：

Python函數(shù)包括下述哪些內(nèi)容函數(shù)名稱、參數(shù)、執(zhí)行語句、返回值。72.語音識(shí)別的方法包括（）。A、聲道模型方法B、模板匹配的方法C、利用人工神經(jīng)網(wǎng)絡(luò)的方法D、語音知識(shí)方法【正確答案】：ABCD解析：

一般來說,語音識(shí)別的方法有基于聲道模型和語音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。73.從可視化處理視角看，可以將數(shù)據(jù)分為四個(gè)類型（）四個(gè)類型并采用不同的視覺映射方法。A、定類數(shù)據(jù)B、定序數(shù)據(jù)C、定距離數(shù)據(jù)D、定比暑假【正確答案】：ABCD解析：

一般可以將數(shù)據(jù)類型的度量分為四種：定類，定序，定距，和定比四種，這四種類型是從低到高的遞進(jìn)關(guān)系，高級(jí)的類型可以用低級(jí)類型的分析方法來分析，而反過來卻不行。74.在假設(shè)檢驗(yàn)中，當(dāng)原假設(shè)為“偽”，但數(shù)據(jù)分析人員沒有拒絕它時(shí)犯的錯(cuò)誤叫（）。A、α錯(cuò)誤B、β錯(cuò)誤C、取偽錯(cuò)誤D、棄真錯(cuò)誤【正確答案】：BC解析：

α錯(cuò)誤（棄真錯(cuò)誤）：當(dāng)原假設(shè)為真時(shí)，但我們錯(cuò)誤地認(rèn)為“原假設(shè)是不成立的”，進(jìn)而導(dǎo)致拒絕這個(gè)正確假設(shè)；β錯(cuò)誤（取偽錯(cuò)誤）：當(dāng)原假設(shè)為假時(shí)，但我們錯(cuò)誤地認(rèn)為“原假設(shè)是成立的”，進(jìn)而導(dǎo)致接受此錯(cuò)誤假設(shè)75.隨機(jī)森林的隨機(jī)性主要體現(xiàn)在（）。A、決策樹選擇的隨機(jī)性B、數(shù)據(jù)集的隨機(jī)性C、待選特征的隨機(jī)性D、參數(shù)選擇的隨機(jī)性【正確答案】：BC解析：

隨機(jī)森林算法的隨機(jī)性主要體現(xiàn)在兩個(gè)方面：子模型的訓(xùn)練樣本是隨機(jī)抽取的、子模型的特征變量也是隨機(jī)抽取的。76.常用來緩解BP網(wǎng)絡(luò)的過擬合的兩種策略是（）。A、晚停B、早停C、正則化D、加入損失函數(shù)【正確答案】：BC解析：

通常有兩種策略來緩解BP網(wǎng)絡(luò)的過擬合。第一種策略是早停（earlystopping），即將數(shù)據(jù)分成訓(xùn)練集合驗(yàn)證集，訓(xùn)練集用來計(jì)算梯度、更新連接權(quán)和閾值，驗(yàn)證集用來估計(jì)誤差，若訓(xùn)練集誤差降低但驗(yàn)證集誤差升高，則停止訓(xùn)練，同時(shí)返回具有最小驗(yàn)證集誤差的連接權(quán)和閾值。第二種策略是正則化（regularization）,其基本思想是在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述網(wǎng)絡(luò)復(fù)雜度的部分，例如連接權(quán)和閾值的平方和。77.常用的沖突消解策略包括（）。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】：ABC解析：

--78.下列關(guān)于Spark中的RDD描述正確的有（）。A、RDD（ResilientDistributedDataset）叫作彈性分布式數(shù)據(jù)集，是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式，可以并行在集群計(jì)算Dataset:就是一個(gè)集合，用于存放數(shù)據(jù)【正確答案】：ABCD解析：

A、B、C、D全部正確。79.圖像識(shí)別的一般步驟包括（）。A、預(yù)處理B、特征提取C、超像素生成D、識(shí)別分類【正確答案】：ABD解析：

圖像識(shí)別中的一般步驟包括預(yù)處理、特征提取和識(shí)別分類。超像素生成并非必要步驟。80.在Windows系統(tǒng)中通過Geany編寫Python程序，運(yùn)行Python程序的常用步驟是（）。A、菜單Build>ExecuteB、菜單Execute>BuildC、按F5D、按F10【正確答案】：AC解析：

在Windows系統(tǒng)中通過Geany編寫Python程序，運(yùn)行Python程序的常用步驟是菜單Build>Execute或按F5。81.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征，表現(xiàn)在（）方面。A、數(shù)據(jù)驅(qū)動(dòng)B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】：ABC解析：

“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的“以數(shù)據(jù)中心”的特征不僅體現(xiàn)在“以數(shù)據(jù)為核心生產(chǎn)要素”，而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)密集和數(shù)據(jù)范式。82.情感分析的應(yīng)用場(chǎng)景有（）。A、數(shù)據(jù)挖掘B、信息檢索C、文本分詞D、市場(chǎng)營(yíng)銷【正確答案】：ABD解析：

情感分析常用于數(shù)據(jù)挖掘、信息檢索、市場(chǎng)營(yíng)銷等，而文本分詞屬于文本處理的應(yīng)用場(chǎng)景。83.（）是Spark比MapReduce計(jì)

人人文庫(kù)> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔