數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案_第1頁
數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案_第2頁
數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案_第3頁
數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案_第4頁
數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題及答案1.主成分分析的優(yōu)化目標(biāo)是一個(gè)()。A、不含約束條件的二次規(guī)劃問題B、含有約束條件的二次規(guī)劃問題C、不含約束條件的線性規(guī)劃問題D、含有約束條件的線性規(guī)劃問題【正確答案】:B解析:

--2.圖像平滑會(huì)造成()。A、圖像邊緣模糊化B、圖像邊緣清晰化C、無影響D、以上答案都不正確【正確答案】:A解析:

為了抑制噪聲,使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑實(shí)際上是低通濾波,平滑過程會(huì)導(dǎo)致圖像邊緣模糊化。3.以下哪個(gè)統(tǒng)計(jì)量可以描述數(shù)據(jù)的集中程度的是()。A、極差B、標(biāo)準(zhǔn)差C、極大值D、眾數(shù)【正確答案】:D解析:

最常見的幾種集中趨勢(shì)包括算數(shù)平均數(shù)、中位數(shù)及眾數(shù),極差、標(biāo)準(zhǔn)差、離散程度等屬于描述離中程度的指標(biāo)。4.下列關(guān)于支持向量的說法,正確的是()。A、到分類超平面的距離最近的且滿足一定條件的幾個(gè)訓(xùn)練樣本點(diǎn)是支持向量B、訓(xùn)練集中的所有樣本點(diǎn)都是支持向量C、每一類樣本集中都分別只有一個(gè)支持向量D、支持向量的個(gè)數(shù)越多越好【正確答案】:A解析:

在支持向量機(jī)中,距離超平面最近的且滿足一定條件的幾個(gè)訓(xùn)練樣本點(diǎn)被稱為支持向量。一般情況下,支持向量的個(gè)數(shù)等于訓(xùn)練樣本數(shù)目,并不是越多越好。5.采用冪次變換進(jìn)行灰度變換時(shí),當(dāng)冪次大于1時(shí),該變換是針對(duì)()的圖像進(jìn)行增強(qiáng)。A、圖像整體偏暗B、圖像整體偏亮C、圖像細(xì)節(jié)淹沒在暗背景中D、圖像同時(shí)存在過亮和過暗背景【正確答案】:B解析:

冪次變換的基本表達(dá)式為:y=cxr+b。當(dāng)r>1時(shí),變換函數(shù)曲線在正比函數(shù)下方,此時(shí)擴(kuò)展高灰度級(jí),壓縮低灰度級(jí),使圖像變暗;當(dāng)r<1時(shí),變換函數(shù)曲線在正比函數(shù)上方,此時(shí)擴(kuò)展低灰度級(jí),壓縮高灰度級(jí),使圖像變亮。這一點(diǎn)與對(duì)數(shù)變換十分相似。6.Adaboost的核心思想是()。A、給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集,將該學(xué)習(xí)算法使用多次,得出預(yù)測(cè)函數(shù)序列,進(jìn)行投票B、針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器集合起來,構(gòu)成一個(gè)強(qiáng)分類器C、利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器D、基于前向策略的加法模型,每階段使用一個(gè)基模型去擬合上一階段基模型的殘差【正確答案】:B解析:

--7.已知一個(gè)數(shù)據(jù)集,n為特征數(shù),m為訓(xùn)練樣本數(shù),如果n較小,而且m大小中等(例如n為1~1000,而m為10~10000),則一般選擇()。A、邏輯回歸模型B、不帶核的支持向量機(jī)C、高斯核的支持向量機(jī)D、多項(xiàng)式核的支持向量機(jī)【正確答案】:C解析:

高斯核函數(shù)需要選擇合適的sigma2參數(shù),適用于少量特征,大量樣本的情況,可以擬合出非常復(fù)雜的非線性決策邊界。8.下列哪個(gè)()不是scipy.stats模塊中的功能()。A、連續(xù)性分布B、線性方程求解C、離散型分布D、核密度估計(jì)【正確答案】:B解析:

stats模塊包含了隨機(jī)變量樣本抽取、84個(gè)連續(xù)性分布、12個(gè)離散型分布、分布的密度分布函數(shù)、核密度估計(jì)、分布構(gòu)造、分布檢驗(yàn)等功能,但不包括線性方程求解。9.在linux下預(yù)裝了Python2,、Python3且默認(rèn)Python版本為Python3,下列描述可以正確啟動(dòng)Python有的是()。A、在linux應(yīng)用程序Terminal,打開一個(gè)終端窗口。輸入whichPythonB、在linux應(yīng)用程序Terminal,打開一個(gè)終端窗口。輸入Python2或Python3C、在linux應(yīng)用程序Terminal,打開一個(gè)終端窗口。輸入whichPython3D、在linux應(yīng)用程序Terminal,打開一個(gè)終端窗口。輸入輸入whichPython2【正確答案】:B解析:

Windows系統(tǒng)下通過在命令行直接輸入python2或者python3啟動(dòng)Python,;Linux系統(tǒng)下通過在Terminal輸入python2或者python3啟動(dòng)Python。10.關(guān)于Python賦值語句,以下選項(xiàng)中不合法的是()。A、x=1;y=1B、x=y=1C、x=(y=1)D、x,y=y,x【正確答案】:C解析:

賦值語句不能用于賦值。11.以下不屬于大數(shù)據(jù)重要意義的是()。A、大數(shù)據(jù)成為推動(dòng)經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動(dòng)力B、大數(shù)據(jù)成為重塑國(guó)家競(jìng)爭(zhēng)優(yōu)勢(shì)的新機(jī)遇C、大數(shù)據(jù)成為提升政府治理能力的新途徑D、大數(shù)據(jù)會(huì)增加經(jīng)濟(jì)發(fā)展的成本【正確答案】:D解析:

大數(shù)據(jù)可以促進(jìn)經(jīng)濟(jì)的發(fā)展,催生新的業(yè)態(tài),在輔助商業(yè)決策、降低運(yùn)營(yíng)成本、精準(zhǔn)市場(chǎng)的營(yíng)銷方面都能發(fā)揮作用,進(jìn)一步提升企業(yè)競(jìng)爭(zhēng)力。12.解決Master故障的方法是設(shè)置檢查點(diǎn),當(dāng)Master失效時(shí),從()檢查點(diǎn)開始啟動(dòng)另一個(gè)Master進(jìn)程。A、第一個(gè)B、中間一個(gè)C、最后一個(gè)D、隨機(jī)選擇一個(gè)【正確答案】:C解析:

從最后一個(gè)檢查點(diǎn)開始啟動(dòng)另一Master進(jìn)程使得因故障產(chǎn)生的影響更小。13.在Apriori算法中,候選項(xiàng)集劃分為不同的桶,存放在()中。A、字典B、集合C、Hash樹D、列表【正確答案】:C解析:

--14.關(guān)于HDFS的特征,下列說法錯(cuò)誤的是()。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】:D解析:

HDFS設(shè)計(jì)中重視“數(shù)據(jù)的高吞吐量”,因此其數(shù)據(jù)吞吐量高,但也造成了其數(shù)據(jù)延遲訪問的特征。15.scipy中,線性模塊是以下哪個(gè)()模塊()。A、fftpackB、signalC、linalgD、ndimage【正確答案】:C解析:

fftpack米快是傅里葉變換模塊,signal是信號(hào)處理模塊,linalg是線性代數(shù)模塊,ndimage是多維圖像處理模塊,16.()是一個(gè)觀測(cè)值,它與其他觀測(cè)值的差別如此之大,以至于懷疑它是由不同的機(jī)制產(chǎn)生的。A、邊界點(diǎn)B、質(zhì)心C、離群點(diǎn)D、核心點(diǎn)【正確答案】:C解析:

離群點(diǎn)(outlier)是指數(shù)值中遠(yuǎn)離數(shù)值的一般水平的極端大值和極端小值。17.Python語句print(0xA+0xB)的輸出結(jié)果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】:D解析:

0x是16進(jìn)制運(yùn)算,0xA+0xB換為十進(jìn)制為10+11=21。18.對(duì)參數(shù)進(jìn)行L2正則,是機(jī)器學(xué)習(xí)常用的防止過擬合的方法。對(duì)參數(shù)做L2正則時(shí),()是對(duì)參數(shù)本身做先驗(yàn)分布假設(shè)。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】:A解析:

L2正則假設(shè)參數(shù)的先驗(yàn)分布是Gaussian分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會(huì)太大或太小。19.要彌補(bǔ)缺失值,可以使用均值,、中位數(shù),、眾數(shù)等等,preprocessing模塊中那個(gè)方法()可以實(shí)現(xiàn)()。A、preprocessing.Imputer)B、preprocessing.PolynomialFeatures)C、preprocessing.FunctionTransformer)D、preprocessing.Binarizer)【正確答案】:A解析:

要彌補(bǔ)缺失值,可以使用均值,、中位數(shù),、眾數(shù)等等,preprocessing中Imputer方法可以實(shí)現(xiàn)。20.基于統(tǒng)計(jì)的分詞方法為()。A、正向最大匹配法B、逆向最大匹配法C、最少切分法D、條件隨機(jī)場(chǎng)【正確答案】:D解析:

第一類是基于語法和規(guī)則的分詞法。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來進(jìn)行詞性標(biāo)注,以解決分詞歧義現(xiàn)象。因?yàn)楝F(xiàn)有的語法知識(shí)、句法規(guī)則十分籠統(tǒng)、復(fù)雜,基于語法和規(guī)則的分詞法所能達(dá)到的精確度遠(yuǎn)遠(yuǎn)還不能令人滿意,目前這種分詞系統(tǒng)還處在試驗(yàn)階段。21.以下選項(xiàng)中哪個(gè)不屬于數(shù)據(jù)預(yù)處理的方法()。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)統(tǒng)計(jì)【正確答案】:D解析:

數(shù)據(jù)統(tǒng)計(jì)并非為數(shù)據(jù)預(yù)處理的常見內(nèi)容。22.數(shù)據(jù)可視化的方法論基礎(chǔ)是()。A、統(tǒng)計(jì)圖表B、視覺編碼C、圖論D、圖形符號(hào)學(xué)【正確答案】:B解析:

數(shù)據(jù)可視化的方法體系的方法論基礎(chǔ)主要是指“視覺編碼”?!耙曈X編碼”為其他數(shù)據(jù)可視化方法提供了方法論基礎(chǔ),奠定了數(shù)據(jù)可視化方法體系的根基。23.下列不屬于Transformation操作的是()。A、mapB、filterC、sampleD、count【正確答案】:D解析:

Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。24.arr=np.arange(9).reshape(3,3),如何使數(shù)組arr交換列1和列2的操作是()。A、arr[:,[1,0,2]]B、arr[:,[1,0,3]]C、arr[:,[1,0,1]]D、arr[:,[1,0]]【正確答案】:A解析:

交換前兩列相當(dāng)于依次選取2,1,3列。25.關(guān)于正態(tài)分布,下列說法錯(cuò)誤的是()。A、正態(tài)分布具有集中性和對(duì)稱性B、正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C、正態(tài)分布的偏度為0,峰度為1D、標(biāo)準(zhǔn)正態(tài)分布的均值為0,方差為1【正確答案】:C解析:

正態(tài)分布的均值決定正態(tài)分布的位置,正態(tài)分布的方差決定正態(tài)分布的形態(tài),正態(tài)分布具有對(duì)稱性,其偏度為0,但峰度不一定為1,只有標(biāo)準(zhǔn)正態(tài)分布的偏度為0,峰度為1。26.在神經(jīng)網(wǎng)絡(luò)中引入了非線性的是()。A、隨機(jī)梯度下降B、修正線性單元(ReLU)C、卷積函數(shù)D、以上答案都不正確【正確答案】:B解析:

ReLU是目前最常用的激勵(lì)函數(shù),增加了神經(jīng)網(wǎng)絡(luò)模型的非線性。27.以下關(guān)于異常處理的描述,正確的是()。A、try語句中有except子句就不能有finally子句B、Python中,可以用異常處理捕獲程序中的所有錯(cuò)誤C、引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)NameError錯(cuò)誤D、Python中允許利用raise語句由程序主動(dòng)引發(fā)異常【正確答案】:D解析:

try語句中有except子句可以有finally子句,,不用異常處理捕獲程序中的所有錯(cuò)誤,引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)lisindeoutError。28.下面哪個(gè)功能不是大數(shù)據(jù)平臺(tái)安全管理組件提供的功能()。A、接口代理B、接口認(rèn)證C、接口授權(quán)D、路由代理【正確答案】:D解析:

接口可以對(duì)用戶的身份和請(qǐng)求的參數(shù)進(jìn)行驗(yàn)證,以保證接口的安全。通過添加身份驗(yàn)證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。29.bootstrap是指()。A、有放回地從總共M個(gè)特征中抽樣m個(gè)特征B、無放回地從總共M個(gè)特征中抽樣m個(gè)特征C、有放回地從總共N個(gè)樣本中抽樣n個(gè)樣本D、無放回地從總共N個(gè)樣本中抽樣n個(gè)樣本【正確答案】:C解析:

自助采樣法(bootstrapsampling):給定包含N個(gè)樣本的數(shù)據(jù)集,我們先隨機(jī)取出一個(gè)樣本放入采樣集中,再把該樣本放回初始數(shù)據(jù)集,使得下次采樣時(shí)該樣本仍有可能被選中,這樣經(jīng)過n次隨機(jī)采樣操作,我們得到含n個(gè)樣本的采樣集。30.GatedRecurrentunits的出現(xiàn)可以幫助防止在RNN中的梯度消失問題。()A、可以這么理解B、不可以這么理解C、-D、-【正確答案】:A解析:

--31.詞袋模型中的文本向量每個(gè)元素表示該詞的()。A、頻率B、順序C、含義D、語義關(guān)系【正確答案】:A解析:

詞袋模型是最基礎(chǔ)的文本表示模型,就是把每一篇文章看成一袋子單詞,并忽略每個(gè)詞出現(xiàn)的順序。每篇文章可以表示成一個(gè)長(zhǎng)向量,向量中的每一維代表一個(gè)單詞,而該維對(duì)應(yīng)的權(quán)重代表這個(gè)詞在文章中的重要程度,重要程度是由頻率來衡量的。32.[i**iforiinrange(3)]的運(yùn)行結(jié)果是()。A、[1,1,4]B、[0,1,4]C、[1,2,3]D、(0,1,4)【正確答案】:B解析:**表示乘方運(yùn)算,該列表表達(dá)式指為[0,1**1,2**2]即為[0,1,4]33.生成多項(xiàng)式和交互特征使用preprocessing模塊中的()函數(shù)。A、preprocessing.binarize)B、preprocessing.Normalizer)C、preprocessing.LabelEncoder)D、preprocessing.PolynomialFeatures)【正確答案】:D解析:

preprocessing.PolynomialFeatures用于生成多項(xiàng)式和交互特征,可以將線性回歸模型應(yīng)用于多項(xiàng)式回歸中。34.對(duì)于一個(gè)分類任務(wù),如果開始時(shí)神經(jīng)網(wǎng)絡(luò)的權(quán)重不是隨機(jī)賦值的,而是都設(shè)成0,下面敘述正確的是()。A、沒啥問題,神經(jīng)網(wǎng)絡(luò)會(huì)正常開始訓(xùn)練B、神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練,但是所有的神經(jīng)元最后都會(huì)變成識(shí)別同樣的東西C、神經(jīng)網(wǎng)絡(luò)不會(huì)開始訓(xùn)練,因?yàn)闆]有梯度改變D、以上選項(xiàng)都不對(duì)【正確答案】:B解析:

--35.以下代碼的輸出結(jié)果為()。A、[[123][345][456]]B、3.6666666666667C、[2.666666673.666666674.66666667]D、[2.4.5.]【正確答案】:C解析:

對(duì)每列求均值。36.協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度(),并將這些用戶喜歡的項(xiàng)推薦給有相似興趣的用戶。A、相似B、相同C、推薦D、預(yù)測(cè)【正確答案】:D解析:

協(xié)同過濾簡(jiǎn)單來說是利用某興趣相投、擁有共同經(jīng)驗(yàn)之群體的喜好來推薦用戶感興趣的信息,個(gè)人通過合作的機(jī)制給予信息相當(dāng)程度的回應(yīng)(如評(píng)分)并記錄下來以達(dá)到過濾的目的進(jìn)而幫助別人篩選信息。37.如果要清空文件,需要使用的命令是()。A、close)B、seek(0)C、truncate(0)Dwrite('stuff')【正確答案】:C解析:

truncate(size)方法將截?cái)辔募?,大小為size,size為0即清空38.使用pip工具查看當(dāng)前已安裝的Python擴(kuò)展庫(kù)的完整命令是()。A、pipupdateB、piplistC、pipinstallD、pipshowall【正確答案】:B解析:

使用pip工具查看當(dāng)前已安裝的Python擴(kuò)展庫(kù)的完整命令piplist。39.留出法直接將數(shù)據(jù)集劃分為()個(gè)互斥的集合。A、一B、二C、三D、四【正確答案】:B解析:

留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集,另一個(gè)作為測(cè)試集T。40.()網(wǎng)絡(luò)是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無監(jiān)督神經(jīng)網(wǎng)絡(luò),它能將高維輸入數(shù)據(jù)映射到低維空間,同時(shí)保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的鄰近神經(jīng)元。A、SOMB、RBFC、ARTD、ELman【正確答案】:A解析:

自組織映射(Self-OrganizingMap,SOM)網(wǎng)絡(luò)[Kohonen,1982]是一種競(jìng)爭(zhēng)學(xué)習(xí)型的無監(jiān)督神經(jīng)網(wǎng)絡(luò),它能將高維輸入數(shù)據(jù)映射到低維空間(通常為二維),同時(shí)保持輸入數(shù)據(jù)在高維空間的拓?fù)浣Y(jié)構(gòu),即將高維空間中相似的樣本點(diǎn)映射到網(wǎng)絡(luò)輸出層中的鄰近神經(jīng)元。41.如果要將讀寫位置移動(dòng)到文件開頭,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')【正確答案】:B解析:

seek(0)指移動(dòng)指針到0位置即開頭。42.對(duì)Numpy的數(shù)組Ndarray對(duì)象屬性的描述,錯(cuò)誤的是()。A、Ndarray.dtypeNdarray對(duì)象中每個(gè)元素的大小,以字節(jié)為單位B、Ndarray.flagsNdarray對(duì)象的內(nèi)存信息C、Ndarray.realNdarray元素的實(shí)部D、Ndarray.imagNdarray元素的虛部【正確答案】:A解析:

dtype是數(shù)組元素的類型。43.正態(tài)分布的兩個(gè)參數(shù)μ與σ,()對(duì)應(yīng)的正態(tài)曲線愈趨扁平。A、μ愈大B、μ愈小C、σ愈大D、σ愈小【正確答案】:C解析:

σ描述正態(tài)分布資料數(shù)據(jù)分布的離散程度,σ越大,數(shù)據(jù)分布越分散,;σ越小,數(shù)據(jù)分布越集中。σ也稱為是正態(tài)分布的形狀參數(shù),σ越大,曲線越扁平,;反之,σ越小,曲線越瘦高。44.Scikit-Learn中,()可以實(shí)現(xiàn)整數(shù)分類值轉(zhuǎn)化為獨(dú)熱向量。A、OridinalEncoderB、OneHotEncoderC、LableEncoderD、AutoEncoder【正確答案】:B解析:

onehot編碼是將整數(shù)分類值轉(zhuǎn)化為獨(dú)熱向量。45.()適合連續(xù)特征,它假設(shè)每個(gè)特征對(duì)于每個(gè)類都符合正態(tài)分布。A、GaussianNBBernoulliNBC、MultinomialNBD、BaseDiscreteNB【正確答案】:A解析:

貝葉斯分類中GaussianNBB用于連續(xù)特征。46.HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】:A解析:

HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是HFile。47.關(guān)于拋出異常的說法中,描述錯(cuò)誤的是()。A、當(dāng)raise指定異常的類名時(shí),會(huì)隱式地創(chuàng)建異常類的實(shí)例B、顯式地創(chuàng)建異常類實(shí)例,可以使用raise直接引發(fā)C、不帶參數(shù)的raise語句,只能引發(fā)剛剛發(fā)生過的異常D、使用raise拋出異常時(shí),無法指定描述信息【正確答案】:D解析:

raise語句的第一個(gè)參數(shù)指定要產(chǎn)生的例外的名字;可選的第二參數(shù)指定例外的參數(shù)。48.以下描述中錯(cuò)誤的是()。A、數(shù)據(jù)化與數(shù)字化是兩個(gè)不同概念B、數(shù)據(jù)與數(shù)值是一個(gè)概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個(gè)不同的概念D、數(shù)據(jù)和信息是兩個(gè)不同的概念【正確答案】:B解析:

除了“數(shù)值”,數(shù)據(jù)科學(xué)中的“數(shù)據(jù)”還包括文字、圖形、圖像、動(dòng)畫、文本、語音、視頻、多媒體和富媒體等多種類型49.運(yùn)行下面的代碼,輸出結(jié)果是()。A、[0,10,2,30,4]B、[10,2,30,4]C、[0,10,2,30,4,50]D、[0,1,20,3,40]【正確答案】:A解析:

該列表推導(dǎo)式意為在0-~4中偶數(shù)不變,奇數(shù)乘10,因此A正確。50.數(shù)據(jù)可視化的基本類型是()。A、科學(xué)可視化、信息可視化、可視分析學(xué)B、物理可視化、數(shù)字可視化、化學(xué)可視化C、科學(xué)可視化、數(shù)字可視化、可視分析學(xué)D、科學(xué)可視化、信息可視化、文本可視化【正確答案】:A解析:

大數(shù)據(jù)可視化可以說是傳統(tǒng)數(shù)據(jù)可視化的一個(gè)繼承和延伸,它是指將大規(guī)模海量數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。大數(shù)據(jù)可視化是大數(shù)據(jù)整個(gè)過程的最后環(huán)節(jié),也是非常重要的一個(gè)環(huán)節(jié)。51.在機(jī)器學(xué)習(xí)中,不屬于常用的沖突消解策略是()。A、投票法B、排序法C、元規(guī)則法D、加權(quán)法【正確答案】:D解析:

常用的沖突消解策略有投票法、排序法、元規(guī)則法等。52.以下代碼的輸出結(jié)果為()。A、[101001000]B、[100100001000000]C、[123]D、[10100001000000000]【正確答案】:B解析:

np.power)取乘方。53.Relief是為()問題設(shè)計(jì)的。A、二分類B、多分類C、回歸D、降維【正確答案】:A解析:

--54.線性模型中的權(quán)重w值可以看做各個(gè)屬性x的()。A、正則化系數(shù)B、對(duì)最終決策結(jié)果的貢獻(xiàn)度C、高維映射D、取值【正確答案】:B解析:

--55.建立一個(gè)詞典[Alex,wants,to,go,play,football,shopping],下面的句子:Alexwantstogotoplayfootball可以用向量表示為()。A、[1,1,2,1,1,1,0]B、[1,1,2,1,1,1]C、[1,1,1,1,1,1,0]D、[1,1,1,1,1,1,1]【正確答案】:A解析:

向量中每個(gè)元素代表該詞在句中出現(xiàn)的次數(shù),比如to在句中出現(xiàn)兩次,所以第3個(gè)元素應(yīng)為2。56.繪圖是如何通過()為項(xiàng)目設(shè)置matplotlib參數(shù)()。A、rc)B、sci)C、axes)D、sca)【正確答案】:A解析:

matplotlib.rc)設(shè)置當(dāng)前的matplotlib參數(shù)。57.在以下那個(gè)選項(xiàng)是在局部生效的,出了這個(gè)變量的作用域,這個(gè)變量就失效了的變量是()。A、局部變量B、全局變量C、字典D、集合【正確答案】:A解析:

局部變量是在局部生效的,出了這個(gè)變量的作用域,這個(gè)變量就失效了。58.Hadoop中partition()函數(shù)代表的是()。A、分區(qū)函數(shù)B、特征函數(shù)C、算法函數(shù)D、排序函數(shù)【正確答案】:A解析:

partition()代表分區(qū)函數(shù)。59.以下代碼哪個(gè)中能夠打印出138-9922-0202這個(gè)電話號(hào)碼(注意格式需要完全一致)的是,注意格式需要完全一致()。A、print(“138”)print(“9922”)print(“0202”)B、print(“138”,end=“”)print(“9922”,end=“”)print(“0202”,end=“”)C、print(“138”,sep=“-”)print(“9922”,sep=“-”)print(“0202”,sep=“-”)D、print(“138”,end=“-”)print(“9922”,end=“-”)print(“0202”)【正確答案】:D解析:

A打印出來是回車分割;B打印出來是空格分隔;C關(guān)鍵詞寫了分隔符,所以打印出來任是回車分割;D打印出來就是-分隔。60.以下代碼的輸出結(jié)果為()。A、[022345]B、[543220]C、[[230][542]]D、[[235][024]]【正確答案】:A解析:

默認(rèn)按最后一個(gè)軸進(jìn)行排序,軸參數(shù)設(shè)置為None時(shí)先展平再進(jìn)行排序。61.matplotlib中的legend函數(shù)作用是什么()。A、設(shè)置標(biāo)簽文本B、繪制網(wǎng)格線C、標(biāo)示不同圖形的文本標(biāo)簽圖例D、設(shè)置x軸的數(shù)值顯示范圍【正確答案】:C解析:

legend用于添加圖例。62.Hadoop中,Reducer的三個(gè)階段是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shuffle-Reduce【正確答案】:A解析:

Reducer主要分為Shuffle洗牌、Sort排序和Reduce三個(gè)步驟。63.線性判別分析在二分類問題上也稱為()。A、線性回歸B、對(duì)數(shù)幾率回歸C、Fisher判別分析D、主成分分析【正確答案】:C解析:

線性判別分析在二分類問題上也稱為Fisher判別分析。64.不屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出模式是()。A、單輸出B、多輸出C、同步多輸出D、異步多輸出【正確答案】:C解析:

--65.關(guān)于DataNode的描述錯(cuò)誤的是()。A、DataNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請(qǐng)求B、DataNode進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作C、集群中的DataNode一般是一個(gè)節(jié)點(diǎn)一個(gè)D、文件的副本系數(shù)由DataNode儲(chǔ)存【正確答案】:D解析:

文件副本的數(shù)目稱為文件的副本系數(shù),這個(gè)信息是由NameNode保存的。66.()負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。A、NameNodeB、JobtrackerC、DataNodeD、SecondaryNameNode【正確答案】:C解析:

Hadoop中NameNode節(jié)點(diǎn)作為Master節(jié)點(diǎn),對(duì)集群進(jìn)行管理;SecondaryNameNode節(jié)點(diǎn)在于分擔(dān)NameNode的壓力而設(shè)置;JobTracker是為了跟蹤作業(yè)運(yùn)行的情況而設(shè)置的節(jié)點(diǎn)。67.Numpy包中meshgrid函數(shù)實(shí)現(xiàn)的功能是()。A、數(shù)組拆分B、數(shù)組乘法C、數(shù)組除法D、數(shù)組融合【正確答案】:D解析:

np.meshgrid)用于數(shù)組融合,在畫等高線圖時(shí)常用。68.如果python程序中包括零運(yùn)算,解釋器將在運(yùn)行時(shí)拋出)()錯(cuò)誤信息()。A、NameErrorB、FileNotFoundErrorC、SyntaxErrorD、Zero【正確答案】:D解析:

NameError為找不到變量名報(bào)錯(cuò);FileNotFoundError為文件不存在報(bào)錯(cuò);SyntaxError為語法報(bào)錯(cuò);ZeroDivisionError為數(shù)學(xué)除零運(yùn)算報(bào)錯(cuò)。69.關(guān)于Hive說法正確的是()。A、一種數(shù)據(jù)倉(cāng)庫(kù)B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。70.TF-IDF中的TF是指()。A、某個(gè)詞在文檔中出現(xiàn)的次數(shù)B、文章的總次數(shù)C、某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D、以上答案都不正確【正確答案】:C解析:

TF是詞頻(TermFrequency),表示某個(gè)詞出現(xiàn)的頻率,也就是某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)。71.一元線性回歸方程y=0.7+0.82x,判定系數(shù)等于0.64,則x與y的相關(guān)系數(shù)為()。A、0.82B、0.64C、0.8D、0.7【正確答案】:C解析:

一元回歸分析中,自變量和因變量的相關(guān)系數(shù)的平方等于回歸模型的判定系數(shù)。所以,相關(guān)系數(shù)=sqrt(0.64)=0.8。72.中文同義詞替換時(shí),常用到Word2Vec,以下說法錯(cuò)誤的是()。A、Word2Vec基于概率統(tǒng)計(jì)B、Word2Vec結(jié)果符合當(dāng)前預(yù)料環(huán)境C、Word2Vec得到的都是語義上的同義詞D、Word2Vec受限于訓(xùn)練語料的數(shù)量和質(zhì)量【正確答案】:C解析:

Word2Vec只會(huì)輸出詞向量,并不關(guān)心是否為同義詞。73.下列方法中,能夠讓所有單詞的首字母變成大寫的方法是()。A、capitalizeB、titleC、upperD、Ijust【正確答案】:B解析:

capitalize)將字符串的第一個(gè)字母變成大寫,其他字母變小寫;upper)方法將字符串中的小寫字母轉(zhuǎn)為大寫字母;Iljust左對(duì)齊。74.若a=np.array([5,1,2,3]),a.sort(),則數(shù)組a的結(jié)果是()。A、[5,1,2,3]B、[1,2,3,5]C、[3,2,1,5]D、11【正確答案】:B解析:

Ndarray.sort)默認(rèn)在原地按最后一個(gè)軸從小到大排序。75.Python中定義私有屬性的方法是()。A、使用private關(guān)鍵字B、使用public關(guān)鍵字C、使用__XX__定義屬性名D、使用__XX定義屬性名【正確答案】:D解析:

使用__XX定義屬性名是定義私有屬性的方法。76.對(duì)于PCA(主成分分析)轉(zhuǎn)化過的特征,樸素貝葉斯的不依賴假設(shè)總是成立,因?yàn)樗兄饕煞质钦坏?這個(gè)說法是()。A、正確的B、錯(cuò)誤的C、-D、-【正確答案】:B解析:

說法錯(cuò)誤。首先,不依賴和不相關(guān)是兩回事;其次,轉(zhuǎn)化過的特征也可能是相關(guān)的。77.下列不屬于Action操作的是()。A、collectB、filterC、reduceD、count【正確答案】:B解析:

Action常用的函數(shù)為reduce、collect、count、take、first、foreach等。78.PageRank是一個(gè)函數(shù),它對(duì)Web中的每個(gè)網(wǎng)頁賦予一個(gè)實(shí)數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】:D解析:

PageRank認(rèn)為,如果A頁面有一個(gè)鏈接指向B頁面,那就可以看作是A頁面對(duì)B頁面的一種信任或推薦。所以,如果一個(gè)頁面的反向鏈接越多,根據(jù)這些鏈接的價(jià)值加權(quán)越高,那搜索引擎就會(huì)判斷這樣的頁面更為重要。79.數(shù)據(jù)產(chǎn)品的定義是()。A、數(shù)據(jù)產(chǎn)品是指能夠供給市場(chǎng),被人們使用和消費(fèi),并能滿足人們某種需求的任何東西B、數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價(jià)值去輔助用戶更優(yōu)地做決策(甚至行動(dòng))的一種產(chǎn)品形式C、數(shù)據(jù)產(chǎn)品是指為了滿足自身的需要,通過科技發(fā)明或經(jīng)驗(yàn)總結(jié)而形成的技術(shù)D、數(shù)據(jù)產(chǎn)品是數(shù)據(jù)科學(xué)的結(jié)果,創(chuàng)造了新的實(shí)物形態(tài)和使用價(jià)值的產(chǎn)品?!菊_答案】:B解析:

數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價(jià)值去輔助用戶更優(yōu)的做決策(甚至行動(dòng))的一種產(chǎn)品形式。80.下列關(guān)于數(shù)據(jù)重組的說法中,錯(cuò)誤的是()。A、數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集B、數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒C、數(shù)據(jù)重組實(shí)現(xiàn)的關(guān)鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成D、數(shù)據(jù)重組有利于實(shí)現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新【正確答案】:A解析:

數(shù)據(jù)重組將數(shù)據(jù)庫(kù)內(nèi)各數(shù)據(jù)的相關(guān)信息重新組織。81.scipy.stats中,()表示泊松分布。A、gammaB、poissonC、binomD、uniform【正確答案】:B解析:

poission表示泊松分布。82.pyplot.pie)所畫的圖像是()。A、箱線圖B、折線圖C、直方圖D、餅圖【正確答案】:D解析:

pyplot.pie)的作用是繪制餅圖。83.增加卷積核的大小對(duì)于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的效果是必要的嗎()A、是的,增加卷積核尺寸一定能提高性能B、不是,增加核函數(shù)的大小不一定會(huì)提高性能C、-D、-【正確答案】:B解析:

增加核函數(shù)的大小不一定會(huì)提高性能。這個(gè)問題在很大程度上取決于數(shù)據(jù)集。84.在一些算法中,為了進(jìn)行屬性之間的比較或運(yùn)算,需要把不同屬性的不同變量取值范圍變換成同一范圍,以免使得結(jié)果發(fā)生扭曲,偏向取值范圍大的變量。這一過程稱為()。A、合并B、數(shù)據(jù)聚合C、歸一化D、數(shù)據(jù)處理【正確答案】:C解析:

歸一化是一種無量綱處理手段,使物理系統(tǒng)數(shù)值的絕對(duì)值變成某種相對(duì)值關(guān)系,是簡(jiǎn)化計(jì)算、縮小量值的有效辦法。85.CART決策樹通常采用()剪枝方法。A、REP(錯(cuò)誤率降低)B、CCP(代價(jià)復(fù)雜度)C、PEP(悲觀剪枝)D、預(yù)剪枝【正確答案】:B解析:

--86.檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基于()的離群點(diǎn)檢測(cè)。A、統(tǒng)計(jì)方法B、鄰近度C、密度D、機(jī)器學(xué)習(xí)技術(shù)【正確答案】:A解析:

略。87.下列關(guān)于線性回歸分析中的殘差說法正確的是()。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確【正確答案】:A解析:

線性回歸分析中,目標(biāo)是殘差最小化。殘差平方和是關(guān)于參數(shù)的函數(shù),為了求殘差極小值,令殘差關(guān)于參數(shù)的偏導(dǎo)數(shù)為零,會(huì)得到殘差和為零,即殘差均值為零。88.()操作屬于預(yù)剪枝。A、信息增益B、計(jì)算最好的特征切分點(diǎn)C、限制樹模型的深度D、可視化樹模型【正確答案】:C解析:

預(yù)剪枝是指在決策樹生成過程中,對(duì)每個(gè)結(jié)點(diǎn)在劃分前先進(jìn)行估計(jì),若當(dāng)前結(jié)點(diǎn)的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)。限制樹模型的深度屬于預(yù)剪枝。89.下列關(guān)于可視化方法體系說法不正確的是()。A、通常采用視覺圖形元素和視覺通道兩個(gè)維度進(jìn)行視覺編碼B、常用的共性方法有統(tǒng)計(jì)圖表、圖論方法、視覺隱喻和圖形符號(hào)學(xué)等C、領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用D、視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)【正確答案】:C解析:

領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果高于基礎(chǔ)方法的直接應(yīng)用。90.matplotlib中的legend函數(shù)作用是什么()。A、設(shè)置標(biāo)簽文本B、繪制網(wǎng)格線C、標(biāo)示不同圖形的文本標(biāo)簽圖例D、設(shè)置x軸的數(shù)值顯示范圍【正確答案】:C解析:

legend用于添加圖例。91.你正在訓(xùn)練一個(gè)RNN網(wǎng)絡(luò),你發(fā)現(xiàn)你的權(quán)重與激活值都是NaN,下列選項(xiàng)中導(dǎo)致這個(gè)問題的最有可能的原因是()。A、梯度消失B、梯度爆炸C、ReLU函數(shù)作為激活函數(shù)g(.),在計(jì)算g(z)時(shí),z的數(shù)值過大了D、Sigmoid函數(shù)作為激活函數(shù)g(.),在計(jì)算g(z)時(shí),z的數(shù)值過大了【正確答案】:B解析:

訓(xùn)練過程中出現(xiàn)梯度爆炸會(huì)伴隨一些細(xì)微的信號(hào),如:①模型無法從訓(xùn)練數(shù)據(jù)中獲得更新(如低損失);②模型不穩(wěn)定,導(dǎo)致更新過程中的損失出現(xiàn)顯著變化;③訓(xùn)練過程中,模型損失變成NaN。92.下列關(guān)于文本分類的說法不正確的是()。A、文本分類是指按照預(yù)先定義的主題類別,由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類別B、文本分類大致可分為基于知識(shí)工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟【正確答案】:C解析:

詞袋模型是指將所有詞語裝進(jìn)一個(gè)袋子里,不考慮其詞法和語序的問題,即每個(gè)詞語都是獨(dú)立的,所以該模型沒有考慮文本詞語的行文順序,C錯(cuò)誤,選C。93.下面算法屬于局部處理的是()。A、灰度線性變換B、二值化C、傅里葉變換D、中值濾波【正確答案】:D解析:

中值濾波是將每一像素點(diǎn)的灰度值設(shè)置為該點(diǎn)某鄰域窗口內(nèi)的所有像素點(diǎn)灰度值的中值,在圖像處理中常用于保護(hù)邊緣信息,是一種局部處理方法。94.平滑圖像處理可以采用RGB彩色()模型。A、直方圖均衡化B、直方圖均衡化C、加權(quán)均值濾波D、中值濾波【正確答案】:C解析:

平滑圖像處理可以采用RGB彩色加權(quán)均值濾波模型。95.sklearn.decomposition.PCA)方法的作用是()。A、因子分析B、主成分分析C、稀疏編碼D、唯一編碼【正確答案】:B解析:

PCA)方法是一種常用的降維方法,在數(shù)據(jù)維度較高時(shí)使用。96.在k近鄰學(xué)習(xí)算法中,隨著k的增加,上界將逐漸降低,當(dāng)k區(qū)域無窮大時(shí),上界和下界碰到一起,k近鄰法就達(dá)到了()。A、貝葉斯錯(cuò)誤率B、漸進(jìn)錯(cuò)誤率C、最優(yōu)值D、上界【正確答案】:A解析:

--97.在回歸模型中,()在權(quán)衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大。A、多項(xiàng)式階數(shù)B、更新權(quán)重w時(shí),使用的是矩陣求逆C、使用常數(shù)項(xiàng)D、使用梯度下降法【正確答案】:A解析:

選擇合適的多項(xiàng)式階數(shù)非常重要。如果階數(shù)過大,模型就會(huì)更加復(fù)雜,容易發(fā)生過擬合;如果階數(shù)較小,模型就會(huì)過于簡(jiǎn)單,容易發(fā)生欠擬合。98.下列關(guān)于BP網(wǎng)絡(luò)的說法,不正確的是()。A、標(biāo)準(zhǔn)BP算法每次僅針對(duì)一個(gè)訓(xùn)練樣例更新連接權(quán)和閾值BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過擬合C、早停策略可用來緩解BP網(wǎng)絡(luò)的過擬合問題D、晚停策略可用來緩解BP網(wǎng)絡(luò)的欠擬合問題【正確答案】:D解析:

早停和正則化是解決BP網(wǎng)絡(luò)過擬合的兩種方法,欠擬合的網(wǎng)絡(luò)需繼續(xù)訓(xùn)練,并沒有晚停這一說法。99.如果x=5.5,則表達(dá)式x>0andx==int(x)的運(yùn)算結(jié)果為;表達(dá)式x>0orx==int(x)的運(yùn)算結(jié)果為()。A、TrueFalseB、FalseTrueC、TrueTrueD、FalseFalse【正確答案】:B解析:

5.5恒大于0,且5.5不等于int(5)。100.聚類是一種典型的無監(jiān)督學(xué)習(xí)任務(wù),然而在現(xiàn)實(shí)聚類任務(wù)中我們往往能獲得一些額外的監(jiān)督信息,于是可通過()來利用監(jiān)督信息以獲得更好的聚類效果。A、監(jiān)督聚類B、半監(jiān)督聚類C、聚類D、直推聚類【正確答案】:B解析:

--1.關(guān)于Python組合數(shù)據(jù)類型,以下選項(xiàng)中描述正確的是()。A、Python的str、tuple和list類型都屬于序列類型B、Python組合數(shù)據(jù)類型能夠?qū)⒍鄠€(gè)同類型或不同類型的數(shù)據(jù)組織起來,通過單一的表示使數(shù)據(jù)操作更有序更容易C、組合數(shù)據(jù)類型可以分為3類:序列類型、集合類型和映射類型3類D、序列類型是二維元素向量,元素之間存在先后關(guān)系,通過序號(hào)訪問【正確答案】:ABC解析:

序列類型是一維元素向量。2.數(shù)據(jù)再利用的意義在于()A、挖掘數(shù)據(jù)的潛在價(jià)值B、提高社會(huì)效益,優(yōu)化社會(huì)管理C、實(shí)現(xiàn)數(shù)據(jù)重組的創(chuàng)新價(jià)值D、優(yōu)化存儲(chǔ)設(shè)備,降低設(shè)備成本E、利用數(shù)據(jù)的可拓展性拓展業(yè)務(wù)領(lǐng)域【正確答案】:ACE解析:

數(shù)據(jù)的再利用可以挖掘數(shù)據(jù)的潛在價(jià)值,實(shí)現(xiàn)數(shù)據(jù)組重組的創(chuàng)新價(jià)值,并且可以利用數(shù)據(jù)的可拓展性拓展業(yè)務(wù)領(lǐng)域3.聚類性能度量外部指標(biāo)包括()。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)【正確答案】:ABD解析:

常用的聚類性能度量外部指標(biāo)有Jaccard系數(shù),F(xiàn)M指數(shù),Rand指數(shù)。4.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化——從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三大技術(shù),這三大技術(shù)包括()。A、HadoopYRN資源管理器B、GFS分布式存儲(chǔ)系統(tǒng)C、MapRedue分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫(kù)【正確答案】:BCD解析:

Goolge于2003~2008年間發(fā)表的3篇論文在云計(jì)算和大數(shù)據(jù)技術(shù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響,被稱為Google三大技術(shù)或三大論文:①GFS論文——GhemawatS,Gobioff5.下列方法中,可以用于特征降維的方法包括()。A、主成分分析PCAB、線性判別分析LDAC、深度學(xué)習(xí)SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】:ABD解析:

--6.關(guān)于Dropout說法,正確的是()。A、Dropout背后的思想其實(shí)就是把DNN當(dāng)作一個(gè)集成模型來訓(xùn)練,之后取所有值的平均值,而不只是訓(xùn)練單個(gè)DNNB、DNN網(wǎng)絡(luò)將Dropout率設(shè)置為p,也就是說,一個(gè)神經(jīng)元被保留的概率是1-p。當(dāng)一個(gè)神經(jīng)元被丟棄時(shí),無論輸入或者相關(guān)的參數(shù)是什么,它的輸出值就會(huì)被設(shè)置為0C、丟棄的神經(jīng)元在訓(xùn)練階段,對(duì)BP算法的前向和后向階段都沒有貢獻(xiàn)。由于這個(gè)原因,每一次訓(xùn)練它都像是在訓(xùn)練一個(gè)新的網(wǎng)絡(luò)Dropout方法通常和L2正則化或者其他參數(shù)約束技術(shù)(比如MaxNorm)一起使用,來防止神經(jīng)網(wǎng)絡(luò)的過擬合【正確答案】:ABCD解析:

dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中,對(duì)于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄。注意是暫時(shí),對(duì)于隨機(jī)梯度下降來說,由于是隨機(jī)丟棄,故而每一個(gè)mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)。防止過擬合的方法:提前終止(當(dāng)驗(yàn)證集上的效果變差的時(shí)候);L1和L2正則化加權(quán);softweightsharingdropout。dropout率的選擇:經(jīng)過交叉驗(yàn)證,隱含節(jié)點(diǎn)dropout率等于0.5的時(shí)候效果最好,原因是0.5的時(shí)候dropout隨機(jī)生成的網(wǎng)絡(luò)結(jié)構(gòu)最多。dropout也可以被用作一種添加噪聲的方法,直接對(duì)input進(jìn)行操作。輸入層設(shè)為更接近1的數(shù)。使得輸入變化不會(huì)太大(0.8)。7.已定義級(jí)(DefinedLevel)的主要特點(diǎn)包括()。A、組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的“標(biāo)準(zhǔn)定義”,并定期對(duì)其進(jìn)行改進(jìn)B、已提供了關(guān)鍵過程的測(cè)量與預(yù)測(cè)方法C、關(guān)鍵過程的執(zhí)行過程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的“標(biāo)準(zhǔn)定義”,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的“裁剪”工作D、數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí),將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一【正確答案】:ABCD解析:

DMM的已定義級(jí)(DefinedLevel):組織機(jī)構(gòu)已經(jīng)定義了自己的“標(biāo)準(zhǔn)關(guān)鍵過程”。其主要特點(diǎn)如下:①組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的“標(biāo)準(zhǔn)定義”,并定期對(duì)其進(jìn)行改進(jìn);②已提供了關(guān)鍵過程的測(cè)量與預(yù)測(cè)方法;③關(guān)鍵過程的執(zhí)行過程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的“標(biāo)準(zhǔn)定義”,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的“裁剪”工作;④數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí),將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一。8.回歸分析有很多種類,常見的有()。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回歸【正確答案】:ACD解析:

--9.對(duì)以下代碼說法正確的是()。A、該圖表是一個(gè)藍(lán)綠色的散點(diǎn)圖B、圖表中有紅色實(shí)線的網(wǎng)格線C、圖表中有圖例D、該圖畫的是sin曲線【正確答案】:CD解析:

該圖畫的是點(diǎn)虛線形式的折線圖,紅色點(diǎn)線網(wǎng)格,帶有圖例。10.參數(shù)估計(jì)可以分為()。A、點(diǎn)估計(jì)B、一致估計(jì)C、區(qū)間估計(jì)D、無偏估計(jì)【正確答案】:AC解析:

參數(shù)估計(jì)可以分為點(diǎn)估計(jì)、區(qū)間估計(jì)。11.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計(jì)學(xué)的驗(yàn)證性分析方法的區(qū)別有()。A、EDA需要事先提出假設(shè),而驗(yàn)證性分析不需要B、EDA中采用的方法往往比驗(yàn)證性分析簡(jiǎn)單C、在一般數(shù)據(jù)科學(xué)項(xiàng)目中,探索性分析在先,驗(yàn)證性分析在后D、EDA更為簡(jiǎn)單、易學(xué)和易用【正確答案】:BCD解析:

在一般數(shù)據(jù)科學(xué)項(xiàng)目中,探索性分析在先,驗(yàn)證性分析在后,EDA中采用的方法往往比驗(yàn)證性分析簡(jiǎn)單。12.下面對(duì)范數(shù)規(guī)則化描述,正確的是()。A、L0是指向量中0的元素的個(gè)數(shù)B、L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和C、L2范數(shù)向量元素絕對(duì)值的平方和再開平方D、L0是指向量中非0的元素的個(gè)數(shù)【正確答案】:BCD解析:

L0是指向量中非0的元素的個(gè)數(shù),L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和,L2范數(shù)向量元素絕對(duì)值的平方和再開平方。13.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個(gè)獨(dú)立的實(shí)體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】:ABCD解析:

可以將MapReduce的工作流程概括為4個(gè)獨(dú)立的實(shí)體。4個(gè)實(shí)體分別為:①客戶端,用來提交MapReduce的作業(yè)。編寫MapReduce程序,配置作業(yè),提交作業(yè),即需程序員完成的工作。②JobTracker,用來協(xié)調(diào)作業(yè)的運(yùn)行。與TaskTracker通信,協(xié)調(diào)整個(gè)作業(yè)的執(zhí)行。③TaskTracker,用來處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù),TaskTracker和JobTracker的不同有個(gè)很重要方面,就是在執(zhí)行任務(wù)的時(shí)候TaskTracker可以有n個(gè),JobTracker則只會(huì)有一個(gè)。④HDFS,用來在其他實(shí)體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等,最后的結(jié)果也是保存在HDFS上面。14.以下關(guān)于降維方法的敘述,正確的是()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D、度量學(xué)習(xí)繞過降維的過程,將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對(duì)距離度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)【正確答案】:CD解析:

本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問題時(shí),效果不太理想。核化線性降維是一種非線性降維方法。15.HighBias(高偏差)的解決方案有()。A、BoostingB、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)C、更多特征D、-【正確答案】:ABC解析:

偏差刻畫了學(xué)習(xí)算法本身的擬合能力,高偏差意味著欠擬合,可通過Boosting、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)、更多特征等方式解決。16.CNN相比于全連接的DNN,具有的優(yōu)勢(shì)是()。A、參數(shù)更少B、泛化更好C、訓(xùn)練更快D、更容易搭建【正確答案】:ABC解析:

DNN直接對(duì)數(shù)據(jù)做加權(quán)線性連接,而CNN則是移動(dòng)卷積核,并對(duì)圖像中的各區(qū)域做卷積操作。因此,DNN更容易搭建,D錯(cuò)誤。17.線性模型的基本形式有()。A、線性回歸B、對(duì)數(shù)幾率回歸(二分類問題)C、線性判別分析(Fisher判別分析)D、多分類學(xué)習(xí)【正確答案】:ABCD解析:

--18.屬于特征選擇的優(yōu)點(diǎn)有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】:BCD解析:

特征選擇無法克服模型自身的缺陷,二者是獨(dú)立的。19.“噪聲”是指測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差,噪聲數(shù)據(jù)的主要表現(xiàn)有哪幾種形式()A、錯(cuò)誤數(shù)據(jù)B、假數(shù)據(jù)C、異常數(shù)據(jù)D、僵尸數(shù)據(jù)【正確答案】:ABC解析:

錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)、異常數(shù)據(jù)在測(cè)量變量中多被定義為噪聲。20.Numpy數(shù)組中將一個(gè)數(shù)組分割成多個(gè)小數(shù)組數(shù)組的分割函數(shù)包括()。A、hsplitBB、vsplitCC、splitDD、dsplit【正確答案】:ABCD解析:

以上都是分割函數(shù),分別為水平分割,、數(shù)值分割,、通用分割,、深度分割。21.Python邏輯表達(dá)式中,()會(huì)導(dǎo)致邏輯短路,即不會(huì)繼續(xù)向下推算而直接返回結(jié)果。A、False開頭的and語句B、False開頭的or語句C、True開頭的and語句D、True開頭的or語句【正確答案】:AD解析:

兩種情況:False開頭的and語句,True開頭的or語句。22.以下關(guān)于神經(jīng)網(wǎng)絡(luò)模型描述正確的是()。A、神經(jīng)網(wǎng)絡(luò)模型是許多邏輯單元按照不同層級(jí)組織起來的網(wǎng)絡(luò),每一層的輸出變量都是下一層的輸入變量B、神經(jīng)網(wǎng)絡(luò)模型建立在多神經(jīng)元之上C、神經(jīng)網(wǎng)絡(luò)模型中,無中間層的神經(jīng)元模型的計(jì)算可用來表示邏輯運(yùn)算D、神經(jīng)網(wǎng)絡(luò)模型一定可以解決所有分類問題【正確答案】:ABC解析:

現(xiàn)在很多分類問題的準(zhǔn)確率都很低尤其是醫(yī)學(xué)圖像方面,而且容易受環(huán)境,如光照影響。23.下列選項(xiàng)中基于核的機(jī)器學(xué)習(xí)算法有()。A、最大期望算法B、徑向基核函數(shù)C、線性判別分析法D、支持向量機(jī)【正確答案】:BCD解析:

--24.關(guān)于HDFS的文件寫入,正確的是()。A、不支持多用戶對(duì)同一文件的寫操作B、用戶不可以在文件任意位置進(jìn)行修改C、默認(rèn)將文件復(fù)制成三份存放D、復(fù)制的文件塊默認(rèn)不存在同一機(jī)架上【正確答案】:ABCD解析:

根據(jù)HDFS定義,以上答案都為正確選項(xiàng)。25.MapReduce對(duì)map()函數(shù)的返回值處理后才傳給reduce()函數(shù),其中涉及哪些操作()。A、合并B、排序C、分區(qū)D、抽樣【正確答案】:ABC解析:

分別涉及Shuffle(排序)、Combiner(合并)和Partition(分區(qū))操作。26.集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法有()。A、數(shù)據(jù)樣本擾動(dòng)B、輸入屬性擾動(dòng)C、輸出表示擾動(dòng)D、算法參數(shù)擾動(dòng)【正確答案】:ABCD解析:

集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法主要是是對(duì)數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動(dòng)。27.圖像分割中常使用的領(lǐng)域有()。A、0鄰域B、4鄰域C、8鄰域D、24鄰域【正確答案】:BC解析:

圖像分割中常見的鄰域?yàn)?鄰域與8鄰域,即某像素的上下左右、某像素周圍的一圈像素。28.下列哪些是RDBMS中事務(wù)遵循的原則()。A、原子性(Atomicity)B、一致性(Connsistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:

關(guān)系數(shù)據(jù)庫(kù)中的事務(wù)需要具備一定的規(guī)則——ACID特征。ACID是指數(shù)據(jù)庫(kù)事務(wù)正確執(zhí)行的4個(gè)基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。29.以下有關(guān)特征數(shù)據(jù)歸一化的說法,正確的是()。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處理【正確答案】:ABD解析:

歸一化方法比較適用在數(shù)值比較集中的情況。這種方法的缺陷是如果max和min不穩(wěn)定,很容易使得歸一化結(jié)果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。實(shí)際使用中可以用經(jīng)驗(yàn)常量值來替代max和min。非線性歸一化經(jīng)常用在數(shù)據(jù)分化比較大的場(chǎng)景,有些數(shù)值很大,有些很小。30.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則是()。A、忠于原始數(shù)據(jù)原則B、設(shè)定共同場(chǎng)景原則C、有效性利用原則D、3C精神原則【正確答案】:ABCD解析:

數(shù)據(jù)的故事化描述應(yīng)遵循的基本原則包括忠于原始數(shù)據(jù)原則、設(shè)定共同情景原則、體驗(yàn)式講述原則、個(gè)性化定制原則、有效性利用原則、3C精神原則。31.模塊可以分為以下的通用類別包含()。A、使用python編寫的.py文件B、已被編譯為共享庫(kù)或DLL的C或C++擴(kuò)展C、把一系列模塊組織到一起的文件夾D、使用C編寫并鏈接到python解釋器的內(nèi)置模塊【正確答案】:ABCD解析:

python的模塊定義是一組包含了一組功能的python文件,比如test.py,模塊名為test,可以通過importtest進(jìn)行調(diào)用。模塊可以分為以下四個(gè)通用類別:使用python編寫的.py文件;已被編譯為共享庫(kù)或DLL的C或C++擴(kuò)展;把一系列模塊組織到一起的文件夾;使用C編寫并鏈接到python解釋器的內(nèi)置模塊。32.下列方法中,屬于詞語情感分析的方法有()。A、基于網(wǎng)絡(luò)的分析方法B、基于word-embedding的分析方法C、基于詞典的分析方法D、基于詞頻的分析方法【正確答案】:AC解析:

其余兩種為分詞方法。33.RDD具有()特征。A、可容錯(cuò)性B、簡(jiǎn)潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:

RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu)。34.下面導(dǎo)入模塊正確的是()。A、importnumpyB、importnumpyasnpC、frommatplotlibimportpyplotD、frommatplotlibimportpyplotasplt【正確答案】:ABCD解析:

本題考查模塊導(dǎo)入方法。35.當(dāng)我們構(gòu)造線性模型時(shí),我們注意變量間的相關(guān)性。在相關(guān)矩陣中搜索相關(guān)系數(shù)時(shí),如果我們發(fā)現(xiàn)3對(duì)變量的相關(guān)系數(shù)是(Var1和Var2,Var2和Var3,Var3和Var1),相關(guān)系數(shù)分別是-0.98、0.45、1.23。我們可以得出的結(jié)論是()。A、Var1和Var2是非常相關(guān)的B、因?yàn)閂a1r和Var2是非常相關(guān)的,可以去除其中一個(gè)C、Var3和Var1的1.23相關(guān)系數(shù)是不可能的D、-【正確答案】:ABC解析:

Var1和Var2之間的相關(guān)性非常高,并且是負(fù)的,可視為多重共線性的情況,可以去掉一個(gè)。一般來說,如果相關(guān)大于0.7或小于-0.7,則認(rèn)為特征之間有很高的相關(guān)性。相關(guān)系數(shù)范圍為[-1,1],C選項(xiàng)中1.23明顯有誤。36.MapReduce中運(yùn)行程序副本程序的機(jī)器為()。A、Map服務(wù)器B、Master服務(wù)器C、Worker服務(wù)器D、Reduce服務(wù)器【正確答案】:BC解析:

MapReduce中,運(yùn)行程序副本程序的機(jī)器分為Master服務(wù)器和若干個(gè)Worker服務(wù)器兩類。37.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A、具有勞動(dòng)增值B、涉及法律權(quán)屬C、具有財(cái)務(wù)價(jià)值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。38.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測(cè)度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:

聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。39.下列關(guān)于AUC面積的描述,正確的是()。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AUC等于0.5時(shí),則真實(shí)性最低,無應(yīng)用價(jià)值D、AUC越接近1.0,檢測(cè)方法真實(shí)性越高【正確答案】:ACD解析:

AUC面積的值小于等于1。40.常見的核函數(shù)主要包括()。A、多項(xiàng)式核B、高斯核C、線性核D、拉普拉斯核E、徑向基核函數(shù)【正確答案】:ABCDE解析:

--41.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:

字典可以表示二維以上的高維數(shù)據(jù)。42.TF-IDF的缺點(diǎn)包含()。A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比B、將一些生僻字誤當(dāng)作文檔關(guān)鍵詞C、只考慮特征詞和文本之間的關(guān)系,忽略了一個(gè)特征項(xiàng)在不同類別間的分布情況D、沒有考慮特征詞的位置因素對(duì)文本的區(qū)分度【正確答案】:BCD解析:

低頻詞匯的重要性和出現(xiàn)次數(shù)成正比。43.下列哪些是面向?qū)ο蠹夹g(shù)的特征包含()。A、封裝B、繼承C、多態(tài)D、分布性【正確答案】:ABC解析:

面向?qū)ο蠹夹g(shù)的特征有封裝、繼承、多態(tài)。44.以下屬于頻率域圖像濾波的方法有()。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】:CD解析:

頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。45.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】:ABCD解析:

Spark支持上述四種運(yùn)行模式,在實(shí)驗(yàn)中為了充分利用資源,一般配置Standalone模式運(yùn)行。46.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面()。A、能夠直觀反映成對(duì)數(shù)據(jù)之間的空間關(guān)系B、能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、能夠靜態(tài)演化事物的變化及變化的規(guī)律D、能夠動(dòng)態(tài)演化事物的變化及變化的規(guī)律【正確答案】:BD解析:

可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系,以及能夠動(dòng)態(tài)演化事物的變化及變化的規(guī)律。47.機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵組成要素是()。A、任務(wù)TB、性能指標(biāo)PC、目標(biāo)函數(shù)VD、經(jīng)驗(yàn)來源E【正確答案】:ABD解析:

--48.以下()是一元通用函數(shù)。A、np.add)B、np.maximum)C、np.exp)D、np.sqrt)【正確答案】:CD解析:

--49.常見的聚類性能度量外部指標(biāo)有()。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】:AC解析:

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。50.以下選項(xiàng)中,屬于MapReduce特征的有()。A、以主從結(jié)構(gòu)的形式運(yùn)行B、容錯(cuò)機(jī)制的復(fù)雜性C、任務(wù)備份機(jī)制的必要性D、數(shù)據(jù)存儲(chǔ)位置固定【正確答案】:ABC解析:

數(shù)據(jù)存儲(chǔ)位置具有多樣性,并非固定,所以D錯(cuò)。51.能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點(diǎn)的系數(shù)降至0附近的濾波器有()。A、同態(tài)濾波B、高斯濾波C、巴特沃斯濾波D、中值濾波【正確答案】:BC解析:

--52.下面關(guān)于隨機(jī)變量及其概率分布的說法,正確的是()。A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:

扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。53.以下選項(xiàng)中,不是Python語言保留字的是()。A、doB、passC、exceptD、until【正確答案】:AD解析:

詳見Python關(guān)鍵字列表。54.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD解析:

--55.以下圖像技術(shù)中屬于圖像處理技術(shù)的是()。A、圖像編碼B、圖像合成C、圖像增強(qiáng)D、圖像分類【正確答案】:AC解析:

圖像合成輸入是數(shù)據(jù),圖像分類輸出是類別數(shù)據(jù)。56.數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成()或()在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。A、文字B、圖形C、圖像D、視頻【正確答案】:BC解析:

數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,再進(jìn)行交互處理的理論、方法和技術(shù)。57.下列關(guān)于Ridge回歸的說法,正確的是()。A、若λ=0,則等價(jià)于一般的線性回歸B、若λ=0,則不等價(jià)于一般的線性回歸C、若λ=+∞,則得到的權(quán)重系數(shù)很小,接近于零D、若λ=+∞,則得到的權(quán)重系數(shù)很大,接近與無窮大【正確答案】:AC解析:

Ridge回歸中,若λ=0,則等價(jià)于一般的線性回歸;若λ=+∞,則得到的權(quán)重系數(shù)很小,接近于零。58.以下算法中可以應(yīng)用于圖像分割的是()。A、邊緣檢測(cè)技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長(zhǎng)方法【正確答案】:ABCD解析:

邊緣檢測(cè)技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長(zhǎng)方法均是圖像分割技術(shù)。59.以下方法是tf-idf的變種的有()。A、TFCB、EWCC、ITCD、IG【正確答案】:AC解析:

TFC:對(duì)文本長(zhǎng)度進(jìn)行歸一化處理后的TF-IDF。ITC:在TFC基礎(chǔ)上,用tf的對(duì)數(shù)值取代tf。60.以下屬于圖像分割的算法的是()。A、閾值分割方法(thresholdsegmentationmethod)B、區(qū)域增長(zhǎng)細(xì)分(regionalgrowthsegmentation)C、邊緣檢測(cè)分割方法(edgedetectionsegmentationmethod)D、基于聚類的分割(segmentationbasedonclustering)E、基于能量的分割【正確答案】:ABCDE解析:

--61.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】:ABD解析:

機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。62.以下說法正確的是()。A、負(fù)梯度方向是使函數(shù)值下降最快的方向B、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降法的解是全局最優(yōu)解C、梯度下降法比牛頓法收斂速度快D、牛頓法不需要計(jì)算Hesse矩陣【正確答案】:ABD解析:

牛頓法是二階收斂,梯度下降是一階收斂,所以牛頓法就更快。63.下面關(guān)于隨機(jī)變量及其概率分布的說法,正確的是()。A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:

扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。64.下面選項(xiàng)是python標(biāo)準(zhǔn)庫(kù)的是()。A、osB、sysC、numpyD、re【正確答案】:ABD解析:

numpy屬于第三方庫(kù)。65.以下屬于關(guān)鍵詞提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潛在語義分析)D、LDA【正確答案】:ABCD解析:

關(guān)鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)orLSI(潛在語義索引)、LDA等。66.在Spark中,彈性分布式數(shù)據(jù)集的特點(diǎn)包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:

RDD不可修改。67.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性,還包括()。A、完整性B、可用性C、不可否認(rèn)性D、可審計(jì)性【正確答案】:ABCD解析:

數(shù)據(jù)安全不等同于數(shù)據(jù)保密。通常,除了數(shù)據(jù)保密——數(shù)據(jù)的機(jī)密性(Confidentiality)之外,數(shù)據(jù)安全還包括完整性(Integrity)、可用性(Availability)、不可否認(rèn)性(Non-repudiation)、鑒別(Authentication)、可審計(jì)性(Accountability)和可靠性(Reliability)等多個(gè)維度68.決策樹遞歸停止的條件為()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標(biāo)簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:

決策樹的生成是一個(gè)遞歸過程。在決策樹基本算法中,有三種情形會(huì)導(dǎo)致遞歸返回:①結(jié)點(diǎn)包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前結(jié)點(diǎn)包含的樣本集合為空,不能劃分。69.下列關(guān)于RNN、LSTM、GRU說法正確的是()。A、RNN引入了循環(huán)的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的變體D、RNN、LSTM、GRU是同一神經(jīng)網(wǎng)絡(luò)的不同說法,沒有區(qū)別【正確答案】:ABC解析:RNN:循環(huán)神經(jīng)網(wǎng)絡(luò),是非線性動(dòng)態(tài)系統(tǒng),將序列映射到序列。LSTM通過刻意的設(shè)計(jì)來避免長(zhǎng)期依賴問題,記住長(zhǎng)期的信息在實(shí)踐中是LSTM的默認(rèn)行為,而非需要付出很大代價(jià)才能獲得的能力。GRU:LSTM有很多變體,其中較大改動(dòng)的是GatedRecurrentUnit(GRU),它將忘記門和輸入門合成了一個(gè)單一的更新門,同樣還混合了細(xì)胞狀態(tài)和隱藏狀態(tài),和其他一些改動(dòng)。最終的模型比標(biāo)準(zhǔn)的LSTM模型要簡(jiǎn)單。效果和LSTM差不多,但是參數(shù)少了1/3,不容易過擬合。70.數(shù)據(jù)科學(xué)基本原則中,三世界原則指的是()A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】:ABC解析:

大數(shù)據(jù)時(shí)代的到來,在我們的“精神世界”和“物理世界”之間出現(xiàn)了一種新的世界——“數(shù)據(jù)世界”。因此,在數(shù)據(jù)科學(xué)中,通常需要研究如何運(yùn)用“數(shù)據(jù)世界”中已存在的“痕跡數(shù)據(jù)”的方式解決“物理世界”中的具體問題,而不是直接到“物理世界”,采用問卷和訪談等方法親自收集“采訪數(shù)據(jù)”。相對(duì)于“采訪數(shù)據(jù)”,“痕跡數(shù)據(jù)”更具有客觀性。圖靈獎(jiǎng)獲得者JimGray提出的科學(xué)研究第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)是“三世界原則”的代表性理論之一。71.Python函數(shù)包括下述哪些內(nèi)容()。A、函數(shù)名稱B、參數(shù)C、執(zhí)行語句D、返回值【正確答案】:ABCD解析:

Python函數(shù)包括下述哪些內(nèi)容函數(shù)名稱、參數(shù)、執(zhí)行語句、返回值。72.語音識(shí)別的方法包括()。A、聲道模型方法B、模板匹配的方法C、利用人工神經(jīng)網(wǎng)絡(luò)的方法D、語音知識(shí)方法【正確答案】:ABCD解析:

一般來說,語音識(shí)別的方法有基于聲道模型和語音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。73.從可視化處理視角看,可以將數(shù)據(jù)分為四個(gè)類型()四個(gè)類型并采用不同的視覺映射方法。A、定類數(shù)據(jù)B、定序數(shù)據(jù)C、定距離數(shù)據(jù)D、定比暑假【正確答案】:ABCD解析:

一般可以將數(shù)據(jù)類型的度量分為四種:定類,定序,定距,和定比四種,這四種類型是從低到高的遞進(jìn)關(guān)系,高級(jí)的類型可以用低級(jí)類型的分析方法來分析,而反過來卻不行。74.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為“偽”,但數(shù)據(jù)分析人員沒有拒絕它時(shí)犯的錯(cuò)誤叫()。A、α錯(cuò)誤B、β錯(cuò)誤C、取偽錯(cuò)誤D、棄真錯(cuò)誤【正確答案】:BC解析:

α錯(cuò)誤(棄真錯(cuò)誤):當(dāng)原假設(shè)為真時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是不成立的”,進(jìn)而導(dǎo)致拒絕這個(gè)正確假設(shè);β錯(cuò)誤(取偽錯(cuò)誤):當(dāng)原假設(shè)為假時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯(cuò)誤假設(shè)75.隨機(jī)森林的隨機(jī)性主要體現(xiàn)在()。A、決策樹選擇的隨機(jī)性B、數(shù)據(jù)集的隨機(jī)性C、待選特征的隨機(jī)性D、參數(shù)選擇的隨機(jī)性【正確答案】:BC解析:

隨機(jī)森林算法的隨機(jī)性主要體現(xiàn)在兩個(gè)方面:子模型的訓(xùn)練樣本是隨機(jī)抽取的、子模型的特征變量也是隨機(jī)抽取的。76.常用來緩解BP網(wǎng)絡(luò)的過擬合的兩種策略是()。A、晚停B、早停C、正則化D、加入損失函數(shù)【正確答案】:BC解析:

通常有兩種策略來緩解BP網(wǎng)絡(luò)的過擬合。第一種策略是早停(earlystopping),即將數(shù)據(jù)分成訓(xùn)練集合驗(yàn)證集,訓(xùn)練集用來計(jì)算梯度、更新連接權(quán)和閾值,驗(yàn)證集用來估計(jì)誤差,若訓(xùn)練集誤差降低但驗(yàn)證集誤差升高,則停止訓(xùn)練,同時(shí)返回具有最小驗(yàn)證集誤差的連接權(quán)和閾值。第二種策略是正則化(regularization),其基本思想是在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述網(wǎng)絡(luò)復(fù)雜度的部分,例如連接權(quán)和閾值的平方和。77.常用的沖突消解策略包括()。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】:ABC解析:

--78.下列關(guān)于Spark中的RDD描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計(jì)算Dataset:就是一個(gè)集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:

A、B、C、D全部正確。79.圖像識(shí)別的一般步驟包括()。A、預(yù)處理B、特征提取C、超像素生成D、識(shí)別分類【正確答案】:ABD解析:

圖像識(shí)別中的一般步驟包括預(yù)處理、特征提取和識(shí)別分類。超像素生成并非必要步驟。80.在Windows系統(tǒng)中通過Geany編寫Python程序,運(yùn)行Python程序的常用步驟是()。A、菜單Build>ExecuteB、菜單Execute>BuildC、按F5D、按F10【正確答案】:AC解析:

在Windows系統(tǒng)中通過Geany編寫Python程序,運(yùn)行Python程序的常用步驟是菜單Build>Execute或按F5。81.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)在()方面。A、數(shù)據(jù)驅(qū)動(dòng)B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】:ABC解析:

“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的“以數(shù)據(jù)中心”的特征不僅體現(xiàn)在“以數(shù)據(jù)為核心生產(chǎn)要素”,而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)密集和數(shù)據(jù)范式。82.情感分析的應(yīng)用場(chǎng)景有()。A、數(shù)據(jù)挖掘B、信息檢索C、文本分詞D、市場(chǎng)營(yíng)銷【正確答案】:ABD解析:

情感分析常用于數(shù)據(jù)挖掘、信息檢索、市場(chǎng)營(yíng)銷等,而文本分詞屬于文本處理的應(yīng)用場(chǎng)景。83.()是Spark比MapReduce計(jì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論