




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
試卷科目:人工智能機器學(xué)習(xí)技術(shù)練習(xí)人工智能機器學(xué)習(xí)技術(shù)練習(xí)(習(xí)題卷1)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能機器學(xué)習(xí)技術(shù)練習(xí)第1部分:單項選擇題,共155題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.現(xiàn)在有一份數(shù)據(jù),你隨機的將數(shù)據(jù)分成了n份,然后同時訓(xùn)練n個子模型,再將模型最后相結(jié)合得到一個強學(xué)習(xí)器,這屬于boosting方法嗎A)是B)不是C)不確定答案:B解析:[單選題]2.基于劃分的聚類,說法正確的是()A)對分區(qū)個數(shù)敏感B)無法區(qū)分互斥的簇C)有利于尋找非球形簇答案:A解析:[單選題]3.回歸問題的評價指標(biāo)中MAE是指()A)均方根誤差B)均方誤差C)平均絕對誤差答案:C解析:[單選題]4.邏輯回歸擬合的函數(shù)是()A)sigmoidB)tanhC)relu答案:A解析:[單選題]5.如果我們說線性回歸模型完美地擬合了訓(xùn)練樣本(訓(xùn)練樣本誤差為零),則下面說法正確的是()。A)測試樣本誤差始終為零B)測試樣本誤差不可能為零C)以上答案都不對答案:C解析:根據(jù)訓(xùn)練樣本誤差為零,無法推斷測試樣本誤差是否為零。如果測試樣本集很大,則很可能發(fā)生過擬合,導(dǎo)致模型不具備很好的泛化能力。[單選題]6.下列關(guān)于聚類挖掘技術(shù)的說法中,錯誤的是()。A)不預(yù)先設(shè)定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質(zhì)將數(shù)據(jù)聚合成不同類別B)要求同類數(shù)據(jù)的內(nèi)容相似度盡可能小C)要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小D)與分類挖掘技術(shù)相似的是,都是要對數(shù)據(jù)進行分類處理答案:B解析:聚類挖據(jù)技術(shù)中要求不同類數(shù)據(jù)的內(nèi)容相似度盡可能小。[單選題]7.在機器學(xué)習(xí)算法中,選擇具有最大間隔的分割線進行預(yù)測的算法是哪一個()A)線性回歸B)支持向量機C)決策樹D)K-Means答案:B解析:[單選題]8.以下關(guān)于機器學(xué)習(xí)描述錯誤的是?A)是一門涉及統(tǒng)計學(xué)、系統(tǒng)辨識、逼近理論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化理論、計算機科學(xué)、腦科學(xué)等諸多領(lǐng)域的交叉學(xué)科B)研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能C)器學(xué)習(xí)強調(diào)三個關(guān)鍵詞:算法、模型、訓(xùn)練D)基于數(shù)據(jù)的機器學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要方法之一答案:C解析:[單選題]9.以下關(guān)于神經(jīng)網(wǎng)絡(luò)的說法中,正確的是()?A)增加網(wǎng)絡(luò)層數(shù),一定能減小訓(xùn)練集錯誤率B)減小網(wǎng)絡(luò)層數(shù),一定能減小測試集錯誤率C)增加網(wǎng)絡(luò)層數(shù),可能增加測試集錯誤率D)增加網(wǎng)絡(luò)層數(shù),一定增加測試集錯誤率答案:C解析:[單選題]10.下列神經(jīng)網(wǎng)絡(luò)特點描述錯誤的是A)適應(yīng)性B)由簡單單元組成C)廣泛并行互連的網(wǎng)絡(luò)D)線性特性答案:D解析:[單選題]11.若a=range(100),以下哪個操作是非法的是()。A)a[-0.3]B)a[2:13]C)a[::3]D)a[2-3]答案:A解析:[單選題]12.關(guān)于線性鑒別分析的描述最準(zhǔn)確的是,找到一個投影方向,使得()A)類內(nèi)距離最大,類間距離最小B)類內(nèi)距離最小,類間距離最大C)類內(nèi)距離最大,類間距離最大D)類內(nèi)距離最小,類間距離最小答案:B解析:[單選題]13.貝葉斯網(wǎng)借助(__)來刻畫屬性之間的依賴關(guān)系。A)有向圖B)無環(huán)圖C)有向無環(huán)圖D)歐拉圖答案:C解析:[單選題]14.TF-IDF模型中IDF是指(__)。A)詞頻數(shù)B)逆文檔頻率C)詞頻率D)逆文檔頻數(shù)答案:B解析:[單選題]15.下列關(guān)于zookeeper自身特性說法正確的是()A)zookeeper是一個被動協(xié)調(diào)服務(wù)組件B)zookeeper是一個計算組件C)zookeeper是一個主動協(xié)調(diào)服務(wù)D)zookeeper是一個存儲模型答案:A解析:[單選題]16.StandardScaler預(yù)處理方法可以表示為?=(?-?)/?,其中?表示特征所在列的A)最大值B)分解閾值C)均值D)方差答案:D解析:[單選題]17.代碼print(1ifain'ABC'else2)執(zhí)行結(jié)果是()。A)1B)2C)報錯D)無結(jié)果答案:C解析:[單選題]18.一般來說,下列哪種方法常用來預(yù)測連續(xù)獨立變量?A)線性回歸B)邏輯回顧C)線性回歸和邏輯回歸都行D)以上說法都不對答案:A解析:線性回歸一般用于實數(shù)預(yù)測,邏輯回歸一般用于分類問題。[單選題]19.BP神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)不包括()A)輸入層B)隱層C)翰出層D)顯層答案:D解析:[單選題]20.決策樹模型的規(guī)模應(yīng)當(dāng)是()。A)越復(fù)雜越好B)越簡單越好C)適當(dāng)限制其復(fù)雜程度D)盡可能利用所有特征答案:C解析:決策樹模型的規(guī)模復(fù)雜可能產(chǎn)生過擬合,因此并非越復(fù)雜做好,應(yīng)適當(dāng)限制其復(fù)雜程度。[單選題]21.下面兩張圖展示了兩個擬合回歸線(A和B),原始數(shù)據(jù)是隨機產(chǎn)生的?,F(xiàn)在,我想要計算A和B各自的殘差之和。注意:兩種圖中的坐標(biāo)尺度一樣。關(guān)于A和B各自的殘差之和,下列說法正確的是?A)A比B高B)A比B小C)A與B相同D)以上說法都不對答案:C解析:A和B中各自的殘差之和應(yīng)該是相同的。線性回歸模型的損失函數(shù)為:J=(XW-Y)(XW-Y)/m對損失函數(shù)求導(dǎo),并令?J=0,即可得到XW-Y=0,即殘差之和始終為零[單選題]22.選擇Logistic回歸中的One-Vs-All方法中的哪個選項是真實的。A)我們需要在n類分類問題中適合n個模型B)我們需要適合n-1個模型來分類為n個類C)我們需要只適合1個模型來分類為n個類D)這些都沒有答案:A解析:如果存在n個類,那么n個單獨的邏輯回歸必須與之相適應(yīng),其中每個類的概率由剩余類的概率之和確定。[單選題]23.在抽樣估計中,隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大,這一性質(zhì)稱為()。A)無偏性B)有效性C)及時性D)一致性答案:D解析:一致性是指隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大。對于給定的偏差控制水平,兩者間偏差高于此控制水平的可能性越小。[單選題]24.下列哪項具體任務(wù)不屬于情感分析?()A)情感分類B)觀點抽取C)觀點問答D)段落匹配答案:D解析:[單選題]25.下面關(guān)于RandomForest和GradientBoostingTrees說法正確的是?A)RandomForest的中間樹不是相互獨立的,而GradientBoostingTrees的中間樹是相互獨立的B)兩者都使用隨機特征子集來創(chuàng)建中間樹C)在GradientBoostingTrees中可以生成并行樹,因為它們是相互獨立的D)無論任何數(shù)據(jù),GradientBoostingTrees總是優(yōu)于RandomForest答案:B解析:本題考查的是隨機森林和梯度提升樹(GBDT)的基本概率和區(qū)別。[單選題]26.下面說法正確的是?A)梯度下降有時會陷于局部極小值,但EM算法不會。B)SVM對噪聲魯棒。C)當(dāng)訓(xùn)練數(shù)據(jù)較多時更容易發(fā)生過擬合。D)給定n個數(shù)據(jù)點,如果其中一半用于訓(xùn)練,另一半用于測試,則訓(xùn)練誤差和測試誤差之間的差別會隨著n的增加而減小。答案:D解析:[單選題]27.下列算法中,()更適合做時間序列建模。A)CNNB)決策樹C)LSTMD)貝葉斯算法答案:C解析:LSTM為長短時記憶網(wǎng)絡(luò),是一種時間遞歸神經(jīng)網(wǎng)絡(luò)。[單選題]28.解決線性不可分情況下的支持向量分類機的最優(yōu)化模型問題時,以下可以保證結(jié)果模型線性可分的是A)C=1B)C=0C)C無限制D)以上均不正確答案:C解析:[單選題]29.以下關(guān)于Zookeeper的Leader節(jié)點在收到數(shù)據(jù)變更請求后的讀寫流程說法正確的是?()A)僅寫入內(nèi)存B)同時寫入磁盤和內(nèi)存C)先寫入內(nèi)存再寫入磁盤D)先寫磁盤再寫內(nèi)存答案:D解析:[單選題]30.規(guī)則生成本質(zhì)上是一個貪心搜索的過程,須有一定的機制來緩解過擬合的風(fēng)險,最常見的做法是A)序列化B)剪枝C)去重D)重組答案:B解析:[單選題]31.過擬合現(xiàn)象中()A)訓(xùn)練樣本的測試誤差最小,測試樣本的正確識別率卻很低B)訓(xùn)練樣本的測試誤差最小,測試樣本的正確識別率也很高C)模型的泛化能力很高D)通常為線性模型答案:A解析:[單選題]32.下列對于精度的描述,解釋正確的是(__)。A)統(tǒng)計分類器預(yù)測出來的結(jié)果與真實結(jié)果不相同的個數(shù),然后除以總的樣例集D的個數(shù)。B)先統(tǒng)計分類正確的樣本數(shù),然后除以總的樣例集D的個數(shù)。C)預(yù)測為正的樣例中有多少是真正的正樣例D)樣本中的正例有多少被預(yù)測正確答案:B解析:[單選題]33.關(guān)于隨機森林描述不正確的是()。A)隨機森林是一種集成學(xué)習(xí)方法B)隨機森林的隨機性主要體現(xiàn)在,當(dāng)訓(xùn)練單棵決策樹時,對樣本和特征同時進行采樣C)隨機森林可以高度并行化D)隨機森林在預(yù)測時,根據(jù)單棵決策樹分類誤差進行加權(quán)投票答案:D解析:[單選題]34.以下關(guān)于機器學(xué)習(xí)的發(fā)展歷程描述錯誤的是(___)。A)要使機器具有智能,就必須設(shè)法使機器擁有知識B)從二十世紀(jì)七十年代中期開始,人工智能研究進入了?知識期?C)二十世紀(jì)五十年代中后期,基于神經(jīng)網(wǎng)絡(luò)的?符號主義?學(xué)習(xí)開始出現(xiàn)D)二十世紀(jì)八十年代是機器學(xué)習(xí)稱為一個獨立的學(xué)科領(lǐng)域、各種機器學(xué)習(xí)技術(shù)百花初綻的時期答案:C解析:[單選題]35.下列說法錯誤的是()。A)當(dāng)目標(biāo)函數(shù)是凸函數(shù)時,梯度下降算法的解一般就是全局最優(yōu)解B)進行PCA降維時,需要計算協(xié)方差矩C)沿負(fù)梯度的方向一定是最優(yōu)的方向D)利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題答案:C解析:沿負(fù)梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。[單選題]36.增強現(xiàn)實領(lǐng)域(AR)大量應(yīng)用了(),典型的就是微軟的HoLolensA)虛擬現(xiàn)實技術(shù)B)圖像處理C)計算機視覺D)語音識別答案:C解析:[單選題]37.使用什么函數(shù)接收用輸入的數(shù)據(jù)()。A)accept()B)input()C)readline()D)login()答案:B解析:[單選題]38.對于神經(jīng)網(wǎng)絡(luò)模型,當(dāng)樣本足夠多時,少量輸入樣本中帶有較大的誤差甚至個別錯誤對模型的輸入-輸出映射關(guān)系影響很小,這屬于()A)泛化能力B)容錯能力C)搜索能力D)非線性映射能力答案:B解析:[單選題]39.下列選項中,不能創(chuàng)建一個Series對象的是()。A)ser_obj=pd.Series([1,2,3,4,5])B)ser_obj=pd.Series({2001:17.8,2002:20.1,2003:16.5})C)ser_obj=pd.Series((1,2,3,4))D)ser_obj=pd.Series(1,2)答案:D解析:[單選題]40.機器學(xué)習(xí)研究的目標(biāo)有三個,不包括(A)人類學(xué)習(xí)與過程的認(rèn)知模型B)通用學(xué)習(xí)算法C)構(gòu)造面問仕務(wù)的專用學(xué)習(xí)系統(tǒng)D)制作長相接近人類的機器系統(tǒng)答案:D解析:[單選題]41.混合高斯聚類中,運用了以下哪種過程()A)EM算法B)集合運算C)密度可達(dá)D)樣本與集合運算答案:A解析:[單選題]42.人工智能未來發(fā)展的三個層次包括(A)弱人工智能B)強人工智能C)超人工智自D)以上全對,答案:D解析:[單選題]43.以下說法中正確的是()。A)Python3.x完全兼容Python2.x。B)在Windows平臺上編寫的Python程序無法在Unix平臺運行。C)不可以在同一臺計算機上安裝多個Python版本。D)Python是跨平臺的答案:D解析:[單選題]44.使用下列二維圖形變換矩陣A=T*a,class="fr-ficfr-dibcursor-hover"將產(chǎn)生的變換結(jié)果為:A)圖形放大2倍B)圖形放大2倍,同時沿X、Y坐標(biāo)軸方向各移動一個單位C)沿x坐標(biāo)軸方向移動2個單位D)沿X坐標(biāo)軸放大2倍,同時沿X、Y坐標(biāo)軸方向各移動一個單位答案:D解析:[單選題]45.下列選項中,用于搭接數(shù)據(jù)倉庫和保證數(shù)據(jù)質(zhì)量的是()。A)數(shù)據(jù)收集B)數(shù)據(jù)處理C)數(shù)據(jù)分析D)數(shù)據(jù)展現(xiàn)答案:B解析:[單選題]46.(__)通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。A)支持向量機B)貝葉斯分類器C)神經(jīng)網(wǎng)絡(luò)D)集成學(xué)習(xí)答案:D解析:[單選題]47.已知數(shù)組trans_cnt[1,2,3,4],trans_cnt[2]代表的是哪一個元素:A)1B)2C)3D)4答案:C解析:[單選題]48.()是并行式集成學(xué)習(xí)方法最著名的代表A)隨機森林B)BoostingC)BaggingD)AdaBoost答案:C解析:[單選題]49.()分類方法可以較好地避免樣本的不平衡問題。A)KNNB)SVMC)BayesD)神經(jīng)網(wǎng)絡(luò)答案:A解析:KNN只是取了最近的幾個樣本點做平均,離預(yù)測數(shù)據(jù)較遠(yuǎn)的訓(xùn)練數(shù)據(jù)對預(yù)測結(jié)果不會造成影響,但是SVM、Baves和KNN的每一個訓(xùn)練樣本結(jié)果都會對預(yù)測結(jié)果產(chǎn)生影響。[單選題]50.在回歸模型中,()在權(quán)衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大。A)多項式階數(shù)B)更新權(quán)重w時,使用的是矩陣求逆C)使用常數(shù)項D)使用梯度下降法答案:A解析:選擇合適的多項式階數(shù)非常重要。如果階數(shù)過大,模型就會更加復(fù)雜,容易發(fā)生過擬合;如果階數(shù)較小,模型就會過于簡單,容易發(fā)生欠擬合。[單選題]51.判斷并求一個數(shù)的絕對值,用_____結(jié)構(gòu)實現(xiàn)最簡單。A)多分支結(jié)構(gòu)B)雙分支結(jié)構(gòu)C)單分支結(jié)構(gòu)D)循環(huán)結(jié)構(gòu)答案:C解析:[單選題]52.線性回歸是一種(),它分為簡單線性回歸和多元線性回歸A)無監(jiān)督學(xué)習(xí)算法B)有監(jiān)督學(xué)習(xí)算法C)強化學(xué)習(xí)D)聚類算法答案:B解析:[單選題]53.樸素貝葉斯是一種典型的基于概率的機器學(xué)習(xí)方法,它利用了A)先驗概率B)后驗概率C)以上都是D)以上都不是答案:C解析:[單選題]54.如果我們用了一個過大的學(xué)習(xí)速率會發(fā)生什么?A)神經(jīng)網(wǎng)絡(luò)會收斂B)不好說C)都不對D)神經(jīng)網(wǎng)絡(luò)不會收斂答案:D解析:[單選題]55.一個機器學(xué)習(xí)系統(tǒng)的基本結(jié)構(gòu)不包括以下那個()A)感知B)學(xué)習(xí)C)環(huán)境D)知識庫答案:A解析:[單選題]56.OpenCV用于繪制橢圓的函數(shù)是()。A)line()B)circle()C)ellipse()D)polylines()答案:C解析:[單選題]57.與生成方法、半監(jiān)督SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)機器利用未標(biāo)記數(shù)據(jù)不同,基于分歧的方法(disagreement-basedmethods)使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的分歧(disagreement)對未標(biāo)記數(shù)據(jù)的利用至關(guān)重要。()是此類方法的重要代表。A)協(xié)同訓(xùn)練B)組合訓(xùn)練C)配合訓(xùn)練D)陪同訓(xùn)練答案:A解析:協(xié)同訓(xùn)練是此類方法的重要代表,它很好地利用了多視圖的相容互補性。[單選題]58.移動運營商對客戶的流失進行預(yù)測,可以使用下面哪種機器學(xué)習(xí)方法比較合適()。A)一元線性回歸分析B)關(guān)聯(lián)方法C)聚類方法D)多層前饋網(wǎng)絡(luò)答案:D解析:[單選題]59.下列關(guān)于泛化誤差與偏差、方差和噪音之間的關(guān)系,表述正確的是(__)。A)泛化誤差=偏差+方差-噪音B)泛化誤差=偏差-方差+噪音C)泛化誤差=偏差-方差-噪音D)泛化誤差=偏差+方差+噪音答案:D解析:[單選題]60.數(shù)據(jù)預(yù)處理對機器學(xué)習(xí)是很重要的,下面說法正確的是()。A)數(shù)據(jù)預(yù)處理的效果直接決定了機器學(xué)習(xí)的結(jié)果質(zhì)量B)數(shù)據(jù)噪聲對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練沒什么影響C)對于有問題的數(shù)據(jù)都直接刪除即可D)預(yù)處理不需要花費大量的時間答案:A解析:[單選題]61.()是基于規(guī)則的分類器。A)C4.5B)KNNC)NaiveBayesD)ANN答案:A解析:基于規(guī)則的分類器有決策樹、隨機森林、Aprior,C4.5屬于決策樹算法。[單選題]62.在k均值算法中,假定聚類簇數(shù)k=3,則在算法開始時隨機選?。╛_)個樣本作為初始均值向量A)1B)2C)3D)任意答案:C解析:[單選題]63.假設(shè)在龐大的數(shù)據(jù)集上使用Logistic回歸模型,可能遇到一個問題,Logistic回歸需要很長時間才能訓(xùn)練,如果對相同的數(shù)據(jù)進行邏輯回歸,則花費更少的時間,并給出比較相似的精度的方法是()。A)降低學(xué)習(xí)率,減少選代次數(shù)B)降低學(xué)習(xí)率,增加迭代次數(shù)C)提高學(xué)習(xí)率,增加迭代次數(shù)D)增加學(xué)習(xí)率,減少迭代次數(shù)答案:D解析:如果在訓(xùn)練時減少選代次數(shù),就能花費更少的時間獲得相同的精度,但需要增加學(xué)習(xí)率。[單選題]64.調(diào)用sklearn中的train_test_split函數(shù)將數(shù)據(jù)集切分為訓(xùn)練集和測試集。訓(xùn)練集與測試集比例為6:4。最合適的代碼為:A)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.4)B)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.6)C)X_train,y_train,X_test,y_test=train_test_split(X,y,test_size=0.6)D)y_train,y_test,X_train,X_test=train_test_split(X,y,test_size=0.4)答案:A解析:[單選題]65.下列有關(guān)核函數(shù)不正確的是:A)可以采用cross-va1idalion方法選擇最佳核函數(shù)B)滿足Mercer條件的函數(shù)不一定能作為支持向量機的核函數(shù)C)極大地提高了學(xué)習(xí)機器的非線性處理能力D)函數(shù)與非線性映射并不是一一對應(yīng)的關(guān)系答案:B解析:[單選題]66.在n維空間中(n>1),下列哪種方法最適合用來檢測異常值?A)正態(tài)概率圖B)箱形圖C)馬氏距離D)散點圖答案:C解析:正態(tài)概率圖(NormalProbabilityPlot)一般用來檢查一組數(shù)據(jù)是否服從正態(tài)分布。是實數(shù)與正態(tài)分布數(shù)據(jù)之間函數(shù)關(guān)系的散點圖。如果這組實數(shù)服從正態(tài)分布,正態(tài)概率圖將是一條直線。[單選題]67.情感分析技術(shù)可以應(yīng)用于()A)股票市場分析B)互聯(lián)網(wǎng)輿情分析與監(jiān)控C)商品服務(wù)質(zhì)量評估D)以上都是答案:D解析:[單選題]68.?SVM中的代價參數(shù)C表示什么?A)交叉驗證的次數(shù)B)以上都不對C)用到的核函數(shù)D)在分類準(zhǔn)確性和模型復(fù)雜度之間的權(quán)衡答案:D解析:[單選題]69.下列激活函數(shù)中,能夠?qū)崿F(xiàn)將特征限制到區(qū)間[-1,1]的是哪一個A)TanhB)LogisticC)ReLUD)Sigmoid答案:A解析:[單選題]70.()不是最近鄰分類器的特點。A)它使用具體的訓(xùn)練實例進行預(yù)測,不必維護源自數(shù)據(jù)的模型B)分類一個測試樣例開銷很大C)最近鄰分類器基于全局信息進行預(yù)測D)可以生產(chǎn)任意形狀的決策邊界答案:C解析:k近鄰中的近鄰指的是距離待預(yù)測數(shù)據(jù)的數(shù)據(jù)點,而k近鄰指的是取距k近的前幾個數(shù)據(jù)點,并非基于全局信息進行預(yù)測。[單選題]71.圖像分割是(__)的過程。A)改變圖像大小B)將圖像分成多個小區(qū)域C)去除干擾信號D)使圖像變得更加豐富答案:B解析:[單選題]72.列表a=[1,2,[3,4]],以下的運算結(jié)果為True的是()。A)length(a)==3B)len(a)==4C)len(a)==3D)length(a)==4答案:C解析:[單選題]73.S市A,B共有兩個區(qū),人口比例為3:5,據(jù)歷史統(tǒng)計A的犯罪率為0.01%,B區(qū)為0.015%,現(xiàn)有一起新案件發(fā)生在S市,那么案件發(fā)生在A區(qū)的可能性有多大?()A)37.5%B)32.5%C)28.6%D)26.1%答案:C解析:[單選題]74.設(shè)有一幅二值圖像,其中黑色的背景上有一條寬為5個像素的白線,如要通過空域濾波消除這條白線,需要用?A)3*3的算術(shù)均值濾波器B)7*7的算術(shù)均值濾波器C)3*3的諧波均值濾波器D)7*7的諧波均值濾波器答案:D解析:[單選題]75.層次聚類試圖在不同層次上對數(shù)據(jù)集進行劃分,從而形成(__)形結(jié)構(gòu)。A)圖B)環(huán)C)網(wǎng)D)樹答案:D解析:[單選題]76.如果我使用數(shù)據(jù)集的全部特征并且能夠達(dá)到100%的準(zhǔn)確率,但在新數(shù)據(jù)集上僅能達(dá)到70%左右,這說明()A)欠擬合B)正常情況C)過擬合D)模型選擇錯誤答案:C解析:[單選題]77.以下哪種方法能最佳地適應(yīng)邏輯回歸中的數(shù)據(jù)?A)LeastSquareErrorB)MaximumLikelihoodC)JaccarddistanceD)BothAandB答案:B解析:LogisticRegression使用可能的最大似然估值來測試邏輯回歸過程。[單選題]78.下列關(guān)于HSV色彩空間中描述不正確的是()。A)H表示的是色調(diào),指的是光的顏色B)S表示的是飽和度,指的色彩的深淺C)V表示的是亮度,指的是光的明暗D)HSV色彩空間稱為五角錐體模型答案:D解析:[單選題]79.下列屬于無監(jiān)督學(xué)習(xí)的是:A)k-meansB)SVMC)最大熵D)CRF答案:A解析:[單選題]80.下列哪種去噪方法能較好的保持圖像邊緣。()A)中值濾波B)雙邊濾波C)均值濾波D)高斯濾波答案:A解析:[單選題]81.一個輸入為(32,32,3)的數(shù)據(jù)集,通過一個大小為2×2的不重疊最大池化層,輸出()。A)(28,28,8)B)(16,16,8)C)(28,28,3)D)(16,16,3)答案:D解析:[單選題]82.下列哪種嵌入方式支持雙向上下文(BidirectionalContext)?A)Word2VecB)BERTC)GloVeD)以上所有答案:B解析:[單選題]83.感知機只有(__)神經(jīng)元進行激活函數(shù)處理,即只擁有一層功能神經(jīng)元。A)輸入層B)輸出層C)第一層D)第二層答案:B解析:[單選題]84.查準(zhǔn)率和查全率是一對__的度量。A)相容B)相等C)矛盾D)包含答案:C解析:[單選題]85.哪一個是機器學(xué)習(xí)的合理定義?A)機器學(xué)習(xí)是計算機編程的科學(xué)B)機器學(xué)習(xí)從標(biāo)記的數(shù)據(jù)中學(xué)習(xí)C)機器學(xué)習(xí)是允許機器人智能行動的領(lǐng)域D)機器學(xué)習(xí)能使計算機能夠在沒有明確編程的情況下學(xué)習(xí)答案:D解析:[單選題]86.中值濾波對(__)的表現(xiàn)較差。A)泊松噪聲B)高斯噪聲C)乘性噪聲D)椒鹽噪聲答案:B解析:[單選題]87.以下可以用于處理決策樹歸納中的過擬合的方法(__)。A)先剪枝B)使用確認(rèn)集C)結(jié)合模型復(fù)雜度D)使用再代入估計答案:A解析:[單選題]88.一切以數(shù)據(jù)作為驅(qū)動或者核心的產(chǎn)品叫做()A)創(chuàng)新性產(chǎn)品B)數(shù)據(jù)產(chǎn)品C)風(fēng)控產(chǎn)品D)核心產(chǎn)品答案:B解析:[單選題]89.數(shù)據(jù)戰(zhàn)略的目標(biāo)是(__)。A)數(shù)據(jù)本身的管理B)培育數(shù)據(jù)驅(qū)動組織或文化C)增強組織機構(gòu)的敏捷性D)提高組織機構(gòu)的核心競爭力答案:B解析:[單選題]90.以下選項不包含在DIKW金字塔中的是()。A)信息B)數(shù)值C)知識D)智慧答案:B解析:[單選題]91.下列對于PCA說法:①我們須在使用PCA前標(biāo)準(zhǔn)化數(shù)據(jù);②我們應(yīng)該選擇使得模型有最大variance的主成分;③我們應(yīng)該選擇使得模型有最小variance的主成分;④我們可以使用PCA在低維度上做數(shù)據(jù)可視化。正確的是()。A)①、②、④B)②、④C)③、④D)①、③答案:A解析:須在使用PCA前標(biāo)準(zhǔn)化數(shù)據(jù),應(yīng)選擇使得模型有最大variance的主成分,PCA在低維度上做數(shù)據(jù)可視化。[單選題]92.spark的master和worker通過什么方式進行通信的()。A)httpB)nioC)nettyD)Akka答案:D解析:[單選題]93.當(dāng)數(shù)據(jù)過大以至于無法在RAM中同時處理時,哪種梯度下降方法更加有效?A)隨機梯度下降法(StochasticGradientDescent)B)不知道C)整批梯度下降法(FullBatchGradientDescent)D)都不是答案:A解析:[單選題]94.使用梯度下降法訓(xùn)練回歸模型時,會由于各特征尺寸相差較大而造成算法收斂較慢。應(yīng)該將特征尺寸進行縮放至接近或相同尺寸??刹捎胹klearn中的類或函數(shù)是:(2.0分)2.0分A)LabelEcoderB)fit_transformC)accuracy_scoreD)StanderScaler答案:D解析:[單選題]95.若1.數(shù)據(jù)加工、2.數(shù)據(jù)化、3.數(shù)據(jù)整齊化、4.數(shù)據(jù)分析,則在數(shù)據(jù)科學(xué)的基本流程順序是(__)。A)1234B)2134C)2314D)3214答案:B解析:[單選題]96.概率密度函數(shù)服從正態(tài)分布的噪聲,叫做(__)。A)泊松噪聲B)高斯噪聲C)乘性噪聲D)椒鹽噪聲答案:B解析:[單選題]97.建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?A)根據(jù)內(nèi)容檢索B)建模描述C)預(yù)測建模D)尋找模式和規(guī)則答案:C解析:[單選題]98.(__)是將數(shù)據(jù)轉(zhuǎn)換為產(chǎn)品的藝術(shù)。A)數(shù)據(jù)柔術(shù)B)數(shù)據(jù)處理C)數(shù)據(jù)加工D)數(shù)據(jù)設(shè)計答案:A解析:[單選題]99.下面關(guān)于非監(jiān)督學(xué)習(xí)算法的說法正確的是A)數(shù)據(jù)要是成對的B)算法準(zhǔn)確率非常高C)沒有經(jīng)驗數(shù)據(jù)可供學(xué)習(xí)D)需要一定的經(jīng)驗數(shù)據(jù)答案:C解析:[單選題]100.讀取CSV文件中的數(shù)據(jù)用()包。A)sklearnB)MatplotlibC)PandasD)pylab答案:C解析:[單選題]101.一對一法分類器,k個類別需要多少個SVM:A)k(k-1)/2B)k(k-1)C)kD)k!答案:A解析:[單選題]102.下面算法屬于局部處理的是()。A)灰度線性變換B)二值化C)傅里葉變換D)中值濾波答案:D解析:[單選題]103.不屬于python標(biāo)準(zhǔn)數(shù)據(jù)類型的是A)DataframeB)字符串C)數(shù)值D)列表答案:A解析:[單選題]104.設(shè)X={1,2,3}是頻繁項集,則可由X產(chǎn)生()個關(guān)聯(lián)規(guī)則。A)4B)5C)6D)7答案:C解析:[單選題]105.(__)又稱情感傾向性分析,是指對給定的文本,識別其中主觀性文本的傾向是肯定還是否定的,或者說是正面還是負(fù)面的,是情感分析領(lǐng)域研究最多的A)情感分類B)情感檢索C)情感抽取D)情感分析答案:A解析:[單選題]106.分析營銷投入與銷售收入的關(guān)系可以使用下面哪種數(shù)據(jù)挖掘方法()。A)關(guān)聯(lián)分析B)回歸分析C)聚類方法D)推薦算法答案:B解析:[單選題]107.普通反向傳播算法和隨時間的反向傳播算法(BPTT)有什么技術(shù)上的不同()A)與普通反向傳播不同的是,BPTT會在每個時間步長內(nèi)減去所有對應(yīng)權(quán)重的梯度B)與普通反向傳播不同的是,BPTT會在每個時間步長內(nèi)疊加所有對應(yīng)權(quán)重的梯度C)BPTT使用的是二階梯度D)沒有差別答案:B解析:[單選題]108.以下有關(guān)機器學(xué)習(xí)理解不正確的是()。A)查詢大量的操作數(shù)據(jù)去發(fā)現(xiàn)新的信息B)從大量的業(yè)務(wù)數(shù)據(jù)中分析有興趣的新穎知識輔助決策的過程C)機器學(xué)習(xí)的結(jié)果不一定能輔助決策D)需要借助統(tǒng)計學(xué)或機器學(xué)習(xí)的一些算法答案:A解析:[單選題]109.從左到右和從右到左訓(xùn)練兩個獨立的LSTM語言模型,并將它們簡單地連接起來A)GPTB)BERTC)ULMFitD)ELMo答案:D解析:[單選題]110.邊界跟蹤技術(shù)技術(shù)屬于哪一類分割方法。()A)閾值分割法B)邊緣分割法C)區(qū)域分割法D)特征分區(qū)法答案:B解析:[單選題]111.以下關(guān)于降維的表述,錯誤的是()。A)降維過程中可以保留原始數(shù)據(jù)的所有信息B)多維縮放的目標(biāo)是要保證降維后樣本之間的距離不變C)線性降維方法目標(biāo)是要保證降維到的超平面能更好地表示原始數(shù)據(jù)D)核線性降維方法目標(biāo)是通過核函數(shù)和核方法來避免采樣空間投影到高維空間再降維之后的低維結(jié)構(gòu)丟失答案:A解析:降維過程中盡量保留原始數(shù)據(jù)的信息,但不能保留原始數(shù)據(jù)的全部信息。[單選題]112.下圖顯示了訓(xùn)練過的3層卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確度,與參數(shù)數(shù)量(特征核的數(shù)量)的關(guān)系。從圖中趨勢可見,如果增加神經(jīng)網(wǎng)絡(luò)的寬度,精確度會增加到一個特定閾值后,便開始降低。造成這一現(xiàn)象的可能原因是什么?class="fr-ficfr-dibcursor-hover"A)即使增加卷積核的數(shù)量,只有少部分的核會被用作預(yù)測B)當(dāng)卷積核數(shù)量增加時,神經(jīng)網(wǎng)絡(luò)的預(yù)測能力(Power)會降低C)當(dāng)卷積核數(shù)量增加時,導(dǎo)致過擬合D)以上都不正確答案:C解析:[單選題]113.集成學(xué)習(xí)中,每個基分類器的正確率的最低要求()A)50%以上B)60%以上C)70%以上D)80%以上答案:A解析:[單選題]114.將閔可夫斯基距離和(__)結(jié)合即可處理混合屬性。A)ValueDifferenceMectricB)k-meansC)k近鄰D)SVM答案:A解析:[單選題]115.下圖中主成分的最佳數(shù)量是多少?alt="">A)7B)30C)40D)不知道答案:B解析:可以在上圖中看到,主成分的數(shù)量為30時以最小的數(shù)量得到最大的方差。[單選題]116.任一隨機事件出現(xiàn)的概率為()。A)在-1與1之間B)小于0C)不小于1D)在0與1之間答案:D解析:如果沒有其他的附加條件的話,一般概率P的取值范圍是0≤P≤1。0代表不可能發(fā)生,1代表一定會發(fā)生。[單選題]117.sigmoid導(dǎo)數(shù)為()A)f(z)B)f(1-z)C)f(1+z)f(1-z)D)f(z)(1-f(z))答案:D解析:[單選題]118.Spark可以處理的數(shù)據(jù)任務(wù)包括()A)數(shù)據(jù)批處理任務(wù)B)準(zhǔn)實時處理任務(wù)C)圖數(shù)據(jù)處理任務(wù)D)A,B和C答案:D解析:[單選題]119.關(guān)于決策樹節(jié)點劃分指標(biāo)描述正確的是()A)類別非純度越大越好B)信息增益越大越好C)信息增益率越小越好D)基尼指數(shù)越大越好答案:B解析:[單選題]120.卷積神經(jīng)網(wǎng)絡(luò)中池化層的作用是()。A)尋找圖像中的細(xì)節(jié)特征B)輸入圖片C)減少下一層的計算,防止過擬合D)輸出圖片答案:C解析:[單選題]121.假設(shè)我們使用原始的非線性可分版本的Soft-SVM優(yōu)化目標(biāo)函數(shù)。我們需要做什么來保證得到的模型是線性可分離的?A)C=0B)C=1C)C正無窮大D)C負(fù)無窮大答案:C解析:[單選題]122.?哪些機器學(xué)習(xí)模型經(jīng)過訓(xùn)練,能夠根據(jù)其行為獲得的獎勵和反饋做出一系列決策?A)無監(jiān)督學(xué)習(xí)B)監(jiān)督學(xué)習(xí)C)強化學(xué)習(xí)D)以上全部答案:C解析:[單選題]123.關(guān)于L1、L2正則化下列說法正確的是?A)L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B)L2正則化技術(shù)又稱為LassoRegularizationC)L1正則化得到的解更加稀疏D)L2正則化得到的解更加稀疏答案:C解析:[單選題]124.若學(xué)習(xí)如何種瓜,在種瓜過程中不斷摸索,從而總結(jié)出好的種瓜策略。這個過程抽象出來,就是(__)。A)機器學(xué)習(xí)B)深度學(xué)習(xí)C)強化學(xué)習(xí)D)有監(jiān)督學(xué)習(xí)答案:C解析:[單選題]125.在有限支撐集上,下面分布的熵最大()A)幾何分布B)指數(shù)分布C)高斯分布D)均勻分布答案:D解析:[單選題]126.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?A)變量代換B)離散化C)聚集D)估計遺漏值答案:D解析:[單選題]127.下面不屬于探索性統(tǒng)計中常用離散程度統(tǒng)計量的是(__)。A)平均數(shù)B)方差C)標(biāo)準(zhǔn)差D)極大值答案:A解析:[單選題]128.加入使用邏輯回歸對樣本進行分類,得到訓(xùn)練樣本的準(zhǔn)確率和測試樣本的準(zhǔn)確率?,F(xiàn)在,在數(shù)據(jù)中增加一個新的特征,其它特征保持不變。然后重新訓(xùn)練測試。則下列說法正確的是?A)訓(xùn)練樣本準(zhǔn)確率一定會降低B)訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變C)測試樣本準(zhǔn)確率一定會降低D)測試樣本準(zhǔn)確率一定增加或保持不變答案:B解析:在模型中增加更多特征一般會增加訓(xùn)練樣本的準(zhǔn)確率,減小bias。但是測試樣本準(zhǔn)確率不一定增加,除非增加的特征是有效特征。這題對應(yīng)的知識點也包括了增加模型復(fù)雜度,雖然會減小訓(xùn)練樣本誤差,但是容易發(fā)生過擬合。[單選題]129.決策樹中不包含以下哪種結(jié)點A)根節(jié)點B)內(nèi)部結(jié)點C)葉節(jié)點D)外部結(jié)點答案:D解析:[單選題]130.線性模型試圖學(xué)得一個屬性的(__)來進行預(yù)測的函數(shù)。A)線性組合B)非線性組合C)取值D)維度答案:A解析:[單選題]131.針對下面的代碼,說法不正確的是();importnumpyasnpa=np.array([0,1,2,3,4])importpandasaspdb=pd.Series([0,1,2,3,4])A)a和b是不同的數(shù)字類型,他們之間不能直接進行運算。B)a和b表達(dá)同樣的數(shù)據(jù)內(nèi)容C)a和b都是一維數(shù)據(jù)D)a參與運算的執(zhí)行速度明顯比b快答案:D解析:[單選題]132.文本向量的每個元素表示該詞的()。A)順序B)頻率C)含義D)語義關(guān)系答案:B解析:[單選題]133.下列對于查準(zhǔn)率的描述,解釋正確的是(__)。A)統(tǒng)計分類器預(yù)測出來的結(jié)果與真實結(jié)果不相同的個數(shù),然后除以總的樣例集D的個數(shù)。B)先統(tǒng)計分類正確的樣本數(shù),然后除以總的樣例集D的個數(shù)。C)預(yù)測為正的樣例中有多少是真正的正樣例D)樣本中的正例有多少被預(yù)測正確答案:C解析:[單選題]134.(__)的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息,從而既不需要進行完全聯(lián)合概率計算,又不至于徹底忽略了比較強的屬性依賴關(guān)系。A)貝葉斯判定準(zhǔn)則B)貝葉斯決策論C)樸素貝葉斯分類器D)半樸素貝葉斯分類器答案:D解析:[單選題]135.spark.deploy.recoveryMode不支持那種()。A)ZooKeeperB)FileSystemC)NONED)hadoop答案:D解析:[單選題]136.在選擇神經(jīng)網(wǎng)絡(luò)的深度時,下面哪些參數(shù)需要考慮?1神經(jīng)網(wǎng)絡(luò)的類型(如MLP,CNN);2輸入數(shù)據(jù);3計算能力(硬件和軟件能力決定);4學(xué)習(xí)速率;5映射的輸出函數(shù).A)1,2,4,5B)2,3,4,5C)都需要考慮D)1,3,4,5答案:C解析:[單選題]137.Relief是為()問題設(shè)計的。A)二分類B)多分類C)回歸D)降維答案:A解析:[單選題]138.讓學(xué)習(xí)器不依賴外界交互、自動地利用未標(biāo)記樣本來提升學(xué)習(xí)性能,就是()?A)監(jiān)督學(xué)習(xí)B)倍監(jiān)督學(xué)習(xí)C)半監(jiān)督學(xué)習(xí)D)無監(jiān)督學(xué)習(xí)答案:C解析:[單選題]139.以下描述中,屬于集合特點的是A)集合中的數(shù)據(jù)是無序的B)集合中的數(shù)據(jù)是可以重復(fù)的C)集合中的數(shù)據(jù)是嚴(yán)格有序的D)集合中必須嵌套一個子集合答案:A解析:[單選題]140.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?A)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B)聚類C)分類D)自然語言處理答案:A解析:[單選題]141.貝葉斯決策論是在(__)框架下實施決策的基本方法。A)模型B)條件C)概率D)分類器答案:C解析:[單選題]142.下列關(guān)于特征編碼的敘述中,不正確的是()A)特征編碼是將非數(shù)值型特征轉(zhuǎn)換成數(shù)值型特征的方法B)數(shù)字編碼與特征的排序無關(guān)C)One-Hot編碼中,原始特征有n種取值,轉(zhuǎn)換后就會產(chǎn)生n列新特征D)啞變量編碼解決了One-Hot編碼中存在線性關(guān)系的問題答案:B解析:[單選題]143.對比于機器學(xué)習(xí)程序與傳統(tǒng)的計算機程序,下列說法不正確的是:A)都屬于計算機程序B)輸出結(jié)果不同C)輸出結(jié)果相同D)經(jīng)驗總結(jié)問題處理上傳統(tǒng)程序效果更好答案:C解析:[單選題]144.(__)直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評價標(biāo)準(zhǔn)。A)過濾式選擇B)包裹式選擇C)嵌入式選擇D)正則化答案:B解析:[單選題]145.多層感知機方法中,可用作神經(jīng)元的非線性激活函數(shù)()A)logisticB)范數(shù)C)線性內(nèi)積D)加權(quán)求和答案:A解析:[單選題]146.關(guān)于Anaconda的組件中,可以編輯文檔且展示數(shù)據(jù)分析過程的是()。A)AnacondaNavigatorB)AnacondaPromptC)SpyderD)JupyterNotebook答案:D解析:JupyterNotebook可以重現(xiàn)整個分析過程,并將說明文字、代碼、圖表、公式和結(jié)論都整合在一個文檔中[單選題]147.高斯核也稱為(__)。A)多項式核B)拉普拉斯核C)RBF核D)Sigmoid核答案:C解析:[單選題]148.假如你在訓(xùn)練一個線性回歸模型,有下面兩句話:1、如果數(shù)據(jù)量較少,容易發(fā)生過擬合。2、如果假設(shè)空間較小,容易發(fā)生過擬合。關(guān)于這兩句話,下列說法正確的是?A)1和2都錯誤B)1正確,2錯誤C)1錯誤,2正確D)1和2都正確答案:B解析:先來看第1句話,如果數(shù)據(jù)量較少,容易在假設(shè)空間找到一個模型對訓(xùn)練樣本的擬合度很好,容易造成過擬合,該模型不具備良好的泛化能力。再來看第2句話,如果假設(shè)空間較小,包含的可能的模型就比較少,也就不太可能找到一個模型能夠?qū)颖緮M合得很好,容易造成高偏差、低方差,即欠擬合。[單選題]149.下面關(guān)于假設(shè)檢驗相關(guān)描述不正確的有(__)。A)先對總體均值進行假設(shè),然后利用樣本來檢驗假設(shè)是否成立這屬于假設(shè)檢驗B)區(qū)間估計不是假設(shè)檢驗C)非參數(shù)假設(shè)檢驗是假設(shè)檢驗D)點估計是假設(shè)檢驗答案:D解析:[單選題]150.(__)先將數(shù)據(jù)集中的每個樣本看做一個初始聚類簇,然后在算法運行的每一步找到距離最近的兩個聚類簇進行合并,該過程不端重復(fù),直至達(dá)到預(yù)設(shè)的聚類簇個數(shù)。A)原型聚類B)密度聚類C)層次聚類D)AGNES答案:D解析:[單選題]151.線性回歸的基本假設(shè)不包括()。A)隨機誤差項是一個期望值為0的隨機變量B)對于解釋變量的所有觀測值,隨機誤差項有相同的方差C)隨機誤差項彼此相關(guān)D)解釋變量是確定性變量不是隨機變量,與隨機誤差項之間相互獨立答案:C解析:線性回歸的基本假設(shè):(1)線性關(guān)系假設(shè)。(2)正態(tài)性假設(shè),指回歸分析中的Y服從正態(tài)分布。(3)獨立性假設(shè),包含兩個意思:①與某一個X對應(yīng)的一組Y和與另一個X對應(yīng)的一組Y之間沒有關(guān)系,彼此獨立;②誤差項獨立,不同的X所產(chǎn)生的誤差之間應(yīng)相互獨立,無自相關(guān)。(4)誤差等分散性假設(shè):特定X水平的誤差,除了應(yīng)呈隨機化的常態(tài)分配,其變異量也應(yīng)相等,稱為誤差等分散性。[單選題]152.推薦系統(tǒng)為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基于(),推測客戶將來可能的購買行為。A)客戶的朋友B)客戶的個人信息C)客戶的興趣愛好D)客戶過去的購買行為和購買記錄答案:D解析:[單選題]153.目前移動設(shè)備主流的屏幕幀率是每秒()幀A)24B)30C)60D)120答案:C解析:[單選題]154.下面哪個不是RDD的特點()。A)可分區(qū)B)可序列化C)可修改D)可持久化答案:C解析:[單選題]155.以下說法正確的是A)1B)2C)3D)2和3E)都錯答案:E解析:1的模型中,如果負(fù)樣本占比非常大,也會有很高的準(zhǔn)確率,對正樣本的分類不一定很好;4的模型中,?類別id?可以作為一個特征項去訓(xùn)練,這樣會有效地總結(jié)了數(shù)據(jù)特征。第2部分:多項選擇題,共49題,每題至少兩個正確答案,多選或少選均不得分。[多選題]156.一個回歸模型存在多重共線問題。在不損失過多信息的情況下,你該怎么做()A)移除共線的兩個變量B)移除共線的兩個變量其中一個C)我們可以計算方差膨脹因子(varianceinflationfactor)來檢查存在的多重共線性并采取相應(yīng)的措施D)移除相關(guān)變量可能會導(dǎo)致信息的丟失,為了保留這些變量,我們可以使用嶺回歸(ridge)或lasso等回歸方法對模型進行懲罰答案:BCD解析:為了檢查多重共線性,我們可以創(chuàng)建相關(guān)系數(shù)矩陣來辨別和移除相關(guān)系數(shù)大于75%的變量(閾值根據(jù)情況設(shè)定),除此之外,我們可以使用VIF方法來檢查當(dāng)前存在的共線變量。VIF<=4表明沒有多種共線,VIF>=10表明有著嚴(yán)重的多重共線性。當(dāng)然,我們也可以使用公差(tolerance)作為評估指標(biāo)。但是,移除相關(guān)變量可能導(dǎo)致信息的丟失,為了保留這些變量,我們可以使用帶懲罰的回歸方法。我們也可以在相關(guān)變量之間隨機加入噪音,使得變量之間存在差異。但增加噪音可能影響準(zhǔn)確度,因此這種方法應(yīng)該小心使用。[多選題]157.在正則化公式中,λ為正則化參數(shù),關(guān)于λ的描述正確的是()。A)若正則化參數(shù)λ過大,可能會導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B)若λ的值太大,則梯度下降可能不收斂C)取一個合理的λ值,可以更好地應(yīng)用正則化D)如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小答案:ABCD解析:正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。[多選題]158.常見的特征選擇方法有哪些A)過濾式B)包裹式C)啟發(fā)式D)嵌入式答案:ABD解析:[多選題]159.下列哪些項屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)。()A)上一時刻的網(wǎng)絡(luò)狀態(tài)信息將會作用于下一時刻的網(wǎng)絡(luò)狀態(tài)B)并行處理序列中所有信息C)容易梯度爆炸/消失D)易于搭建答案:AC解析:[多選題]160.屬于數(shù)據(jù)變換的類型有(__)。A)平滑處理B)聚類C)標(biāo)準(zhǔn)化D)特征構(gòu)造答案:ABD解析:[多選題]161.關(guān)于ZooKeeper的說法描述正確的是()A)是一個分布式應(yīng)用程序協(xié)調(diào)服務(wù)B)Google的Chubby一個開源實現(xiàn)C)是Hadoop的重要組件D)提供的服務(wù)包括配置維護、域名服務(wù)、分布式同步、組服務(wù)答案:ABCD解析:[多選題]162.深度學(xué)習(xí)中的激活函數(shù)需要具有哪些屬性?()A)計算簡單B)非線性C)具有飽和區(qū)D)幾乎處處可微答案:ABD解析:[多選題]163.專家系統(tǒng)的主要組成部分包括()A)知識庫B)推理引擎C)用戶接口D)自主學(xué)習(xí)系統(tǒng)答案:ABC解析:[多選題]164.根據(jù)波士頓郊區(qū)房屋信息,預(yù)測房屋價格。適合采用的方法有?A)CART回歸決策樹B)CART分類決策樹C)線性回歸D)樸素貝葉斯答案:AC解析:[多選題]165.JupyterNotebook支持以下哪些語言A)CB)RC)PythonD)Java答案:BC解析:[多選題]166.按用途分類,專家系統(tǒng)可分為()**A)診斷型B)預(yù)測型C)設(shè)計型D)控制型答案:ABCD解析:[多選題]167.強化學(xué)習(xí)中的?策略?就相當(dāng)于監(jiān)督學(xué)習(xí)中(__)或(__)。A)分類器B)決策樹C)隨機森林D)回歸器答案:AD解析:[多選題]168.Zookeeper客戶端命令中,遞歸刪除節(jié)點可以使用()A)rmrB)deleteallC)deleteD)Mm答案:AB解析:[多選題]169.關(guān)于梯度下降算法中,超參數(shù)學(xué)習(xí)率的說法正確的是?A)學(xué)習(xí)率越小越好B)學(xué)習(xí)率控制參數(shù)調(diào)整的步長C)學(xué)習(xí)率越大越好D)學(xué)習(xí)率小會影響損失函數(shù)收斂于最小值的速度答案:BD解析:[多選題]170.預(yù)剪枝使得決策樹的很多分子都沒有展開,會導(dǎo)致()。A)顯著減少訓(xùn)練時間開銷B)顯著減少測試時間開銷C)降低過擬合風(fēng)險D)提高欠擬合風(fēng)險答案:ABCD解析:預(yù)剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風(fēng)險,還顯著減少了決策樹的訓(xùn)練時間開銷和測試時間開銷。但另一方面,有些分支的當(dāng)前劃分雖不能提升泛化性能,其至可能導(dǎo)致泛化性能暫時下降,但在其基礎(chǔ)上進行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于貪心原則,禁止這些分支展開,提高了欠擬合的風(fēng)險。[多選題]171.關(guān)于決策樹的CART分類樹構(gòu)造算法和ID3算法,下列說法正確的是?A)選擇切分特征時,CART算法使用信息熵B)選擇切分特征時,CART算法使用基尼指數(shù)來度量一個數(shù)據(jù)集的混亂程度C)選擇切分特征時,ID3算法使用基尼指數(shù)D)選擇切分特征時,ID3算法使用信息熵答案:BD解析:[多選題]172.項目管理涉及(__)和整體、質(zhì)量、人力資源、溝通、風(fēng)險、采購的管理。A)時間B)空間C)成本D)范圍答案:ACD解析:[多選題]173.信息熵是信息論中重要的信息度量,以下不正確的是()A)可度量不確定程度B)是運算中的商C)可度量信息量D)是向量的模答案:BD解析:[多選題]174.下列屬于半監(jiān)督學(xué)習(xí)方法的是(__)。A)半監(jiān)督支持向量機B)圖半監(jiān)督學(xué)習(xí)C)生成式方法D)支持向量機答案:ABC解析:[多選題]175.下面屬于探索性分析主要關(guān)注的四大主題的有(__)。A)耐抗性B)方差C)重新表達(dá)D)啟示答案:ACD解析:[多選題]176.若線性回歸方程得到多個解,下面哪些方法能夠解決此問題?A)獲取更多的訓(xùn)練樣本B)選取樣本有效的特征,使樣本數(shù)量大于特征數(shù)C)加入正則化項D)不考慮偏置項b答案:ABC解析:[多選題]177.下列關(guān)于特征的稀疏性說法,正確的是()。A)稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)B)稀疏樣本可減少學(xué)習(xí)任務(wù)的計算開銷C)學(xué)習(xí)任務(wù)難度可能有所降低D)稀疏矩陣沒有高效的存儲方法答案:ABC解析:在一個矩陣中,若非零元素的個數(shù)遠(yuǎn)遠(yuǎn)小于零元素的個數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進行壓縮存儲。[多選題]178.從復(fù)雜度和價值高低兩個維度,可以將數(shù)據(jù)分析分為(__)。A)描述性分析B)診斷性分析C)預(yù)測性分析D)規(guī)范性分析答案:ABCD解析:[多選題]179.按標(biāo)注的實現(xiàn)層次,數(shù)據(jù)標(biāo)注可以分為(__)。A)語義標(biāo)注B)圖像標(biāo)注C)語法標(biāo)注D)文字標(biāo)注答案:AC解析:[多選題]180.下列關(guān)于貝葉斯分類器說法正確的是(__)。A)貝葉斯分類算法是一大類分類算法的總稱B)貝葉斯分類算法以樣本可能屬于某類的概率作為分類依據(jù)C)樸素貝葉斯分類算法是貝葉斯分類算法中最簡單的一種D)樸素貝葉斯分類算法采用了屬性條件獨立性假設(shè)答案:ABCD解析:[多選題]181.下列關(guān)于決策樹的說法正確的是()A)ID3決策樹是根據(jù)信息增益來劃分屬性B)C4.5決策樹是根據(jù)增益率來劃分屬性C)CART決策樹是根據(jù)基尼指數(shù)來劃分屬性D)基尼指數(shù)反映了從樣本集D中隨機抽取兩個樣本,其類別標(biāo)記不一致的概率,因此越小越好答案:ABCD解析:[多選題]182.(__)不屬于元分析方法。A)加權(quán)平均法B)優(yōu)化方法C)時序法D)關(guān)聯(lián)法答案:CD解析:[多選題]183.當(dāng)同一個示例被判別結(jié)果不同的多條規(guī)則覆蓋時,稱發(fā)生了沖突,解決沖突的辦法稱為沖突消解,常用的沖突消解策略有A)投票法B)排序法C)元規(guī)則法D)因式分解法答案:ABC解析:[多選題]184.線性判別分析是一種(___)算法。A)有監(jiān)督B)無監(jiān)督C)分類D)降維答案:AD解析:[多選題]185.從不同的學(xué)習(xí)場景看,半監(jiān)督學(xué)習(xí)可大致分為四大類A)半監(jiān)督分類B)半監(jiān)督回歸C)半監(jiān)督聚類D)半監(jiān)督降維答案:ABCD解析:[多選題]186.從結(jié)構(gòu)化角度來看,數(shù)據(jù)可分為()。A)結(jié)構(gòu)化數(shù)據(jù)B)非結(jié)構(gòu)化數(shù)據(jù)C)無結(jié)構(gòu)化數(shù)據(jù)D)半結(jié)構(gòu)化數(shù)據(jù)答案:ABD解析:[多選題]187.對單層感知機判別分類,描述正確的是()A)線性分類B)監(jiān)督學(xué)習(xí)C)錯誤誤差最小D)錯誤誤差最大答案:ABC解析:[多選題]188.神經(jīng)網(wǎng)絡(luò)可以按()A)學(xué)習(xí)方式分類B)網(wǎng)絡(luò)結(jié)構(gòu)分類C)網(wǎng)絡(luò)的協(xié)議類型分類D)網(wǎng)絡(luò)的活動方式分類答案:ABD解析:[多選題]189.(__)是圖像降噪的方法。A)空間域合成法B)中值濾波器C)最小值濾波D)非線性小波變換答案:ABCD解析:[多選題]190.影響聚類算法效果的主要原因有()。A)特征選取B)模式相似性測度C)分類準(zhǔn)則D)已知類別的樣本質(zhì)量答案:ABC解析:聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。[多選題]191.關(guān)于集成學(xué)習(xí)正確的是()A)Bagging降低偏差B)Bagging降低方差C)Boosting降低偏差D)Boosting降低方差答案:BC解析:[多選題]192.圖像識別技術(shù)的過程分以下幾步:信息的獲取、(__)、(__)、分類器設(shè)計和分類決策。A)辨認(rèn)B)預(yù)處理C)統(tǒng)計D)特征抽取和選擇答案:BD解析:[多選題]193.下面屬于范數(shù)規(guī)則化的作用的是()。A)保證模型盡可能的簡單,避免過擬合B)約束模型特征C)最小化問題D)最大化問題答案:AB解析:[多選題]194.在機器學(xué)習(xí)中,如果單純?nèi)ヌ岣哂?xùn)練數(shù)據(jù)的預(yù)測能力,所選模型的復(fù)雜度往往會很高,這種現(xiàn)象稱為過擬合,可以有效解決過擬合的方法包括A)增加樣本數(shù)量B)增加特征數(shù)量C)訓(xùn)練更多的迭代次數(shù)D)采用正則化方法答案:AD解析:[多選題]195.按標(biāo)注活動的自動化程度,數(shù)據(jù)標(biāo)注可以分為(__)。A)手工標(biāo)注B)文本標(biāo)注C)半自動標(biāo)注D)自動標(biāo)注答案:ACD解析:[多選題]196.目前,機器學(xué)習(xí)領(lǐng)域所面臨的主要挑戰(zhàn)包括().A)過擬合B)維度災(zāi)難C)特征工程D)算法的可擴展性答案:ABCD解析:[多選題]197.下面與數(shù)據(jù)科學(xué)相關(guān)的正確描述有(__)。A)數(shù)據(jù)科學(xué)中的?數(shù)據(jù)?并不僅僅是?數(shù)值?也不等同?數(shù)值?B)數(shù)據(jù)科學(xué)中?計算?包括查詢、洞見、可視化等C)數(shù)據(jù)科學(xué)關(guān)注的是?單一學(xué)科?D)數(shù)據(jù)科學(xué)并不僅僅是?理論研究?也不是?領(lǐng)域務(wù)實知識?答案:ABD解析:[多選題]198.對于主成分分析方法,確定降維后低維空間的維數(shù)d的方法有()。A)由用戶事先指定B)通過在d值不同的低維空間中對開銷較小的學(xué)習(xí)器進行交叉驗證來選取C)可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值D)隨機設(shè)置答案:ABC解析:降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d值不同的低維空間中對k近鄰分類器(或其他開銷較小的學(xué)習(xí)器)進行交叉驗證來選取較好的d值。還可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值。[多選題]199.未標(biāo)記樣本學(xué)習(xí)分類為A)主動學(xué)習(xí)B)半監(jiān)督SVMC)半監(jiān)督聚類D)圖半監(jiān)督學(xué)習(xí)答案:BCD解析:[多選題]200.機器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是?A)使用L1可以得到稀疏的權(quán)值B)使用L1可以得到平滑的權(quán)值C)使用L2可以得到稀疏的權(quán)值D)使用L2可以得到平滑的權(quán)值答案:AD解析:[多選題]201.常用的代價函數(shù)有()。A)均方誤差B)均方根誤差C)平均絕對誤差D)交叉熵答案:ABCD解析:[多選題]202.M-P神經(jīng)元模型描述正確的是A)神經(jīng)元接收多個其他神經(jīng)元傳遞過來的輸入信號;B)這些輸入信號通過帶權(quán)重的連接傳遞;C)神經(jīng)元接收到的總輸入值將與神經(jīng)元的閾值進行比較;D)通過激活函數(shù)處理產(chǎn)生神經(jīng)元的輸出;答案:ABCD解析:[多選題]203.?垃圾郵件?數(shù)據(jù)集訓(xùn)練模型來識別垃圾郵件。用訓(xùn)練好的模型對測試集進行預(yù)測。調(diào)用sklearn中的accuracy_score函數(shù)計算預(yù)測的準(zhǔn)確率:單次測試的準(zhǔn)確率為88.27%。A)樸素貝葉斯分類器只需要使用很少的訓(xùn)練數(shù)據(jù)B)對于該分類問題,樸素貝葉斯分類器預(yù)測準(zhǔn)確率不是很高C)依次使用了訓(xùn)練集比例70%,60%,…,10%來訓(xùn)練模型并測試模型性能。發(fā)現(xiàn)隨著訓(xùn)練集的減小和測試集增大,模型性能僅有極微小的改變。這說明?D)樸素貝葉斯分類器使用大量的訓(xùn)練數(shù)據(jù)可以顯著提高預(yù)測準(zhǔn)確率E)對于該分類問題,樸素貝葉斯分類器預(yù)測準(zhǔn)確率很高答案:DE解析:[多選題]204.下列哪些方法可以用來對高維數(shù)據(jù)進行降維:A)LASSOB)主成分分析法C)聚類分析D)小波分析法E)線性判別法F)拉普拉斯特征映射答案:ABCDEF解析:第3部分:判斷題,共33題,請判斷題目是否正確。[判斷題]205.計算機視覺(ComputerVision)是指利用攝像機和電腦代替人眼,使得計算機擁有類似于人類的那種對目標(biāo)進行分割、分類、識別、跟蹤、判別決策的功能A)正確B)錯誤答案:對解析:[判斷題]206.通過zeros()函數(shù)創(chuàng)建的數(shù)組中元素值都是0。A)正確B)錯誤答案:對解析:[判斷題]207.專家系統(tǒng)模擬人類專家的知識和經(jīng)驗解決特定領(lǐng)域的問題,實現(xiàn)了人工智能從理論研究走向?qū)嶋H應(yīng)用A)正確B)錯誤答案:對解析:[判斷題]208.機器學(xué)習(xí)方法傳統(tǒng)上可以分為2類?A)正確B)錯誤答案:錯解析:[判斷題]209.如果數(shù)據(jù)量較少,容易發(fā)生過擬合。A)正確B)錯誤答案:對解析:[判斷題]210.聚類需要從沒有標(biāo)簽的一組輸入向量中尋找數(shù)據(jù)的模型和規(guī)律。A)正確B)錯誤答案:對解析:[判斷題]211.對于PCA(主成分分析)轉(zhuǎn)化過的特征,樸素貝葉斯的?不依賴假設(shè)?總是成立,因為所有主要成分是正交的,這個說法是:A)正確的B)錯誤的答案:錯解析:這個說法是錯誤的,首先,?不依賴?和?不相關(guān)?是兩回事,其次,轉(zhuǎn)化過的特征,也可能是相關(guān)的.[判斷題]212.如果自變量X和因變量Y之間存在高度的非線性和復(fù)雜關(guān)系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。以上說法()。A)正確B)錯誤C)無法確定D)模型效果差別不大答案:對解析:當(dāng)數(shù)據(jù)是非線性的時,經(jīng)典回歸模型泛化能力不強,而基于樹的模型通常表現(xiàn)更好。[判斷題]213.超父為假設(shè)所以屬性都依賴于同一個屬性A)正確;B)錯誤;答案:對解析:[判斷題]214.通過求解損失函數(shù)的最小值,可以實現(xiàn)求解模型參數(shù)、優(yōu)化模型參數(shù)和評價模型學(xué)習(xí)效果的目的。A)正確B)錯誤答案:對解析:[判斷題]215.Bagging是一個低效的集成學(xué)習(xí)算法A)正確B)錯誤答案:錯解析:[判斷題]216.人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目的就是使得損失函數(shù)最小化A)正確B)錯誤答案:對解析:[判斷題]217.CART算法處理回歸問題時,要求算法輸出的是連續(xù)實數(shù)值A(chǔ))正確B)錯誤答案:對解析:[判斷題]218.已知學(xué)得規(guī)則:壞瓜←(紋理=模糊),則被該規(guī)則覆蓋的樣本為壞瓜。A)正確B)錯誤答案:對解析:[判斷題]219."過擬合是有監(jiān)督學(xué)習(xí)的挑戰(zhàn),而不是無監(jiān)督學(xué)習(xí)"A)正確B)錯誤答案:對解析:[判斷題]220.預(yù)剪枝決策樹的訓(xùn)練時間開銷比后剪枝決策樹要大得多。A)正確B)錯誤答案:錯解析:[判斷題]221.深度學(xué)習(xí)是機器學(xué)習(xí)的一個分支A)正確B)錯誤答案:對解析:[判斷題]222.最小二乘法是基于預(yù)測值和真實值的均方差最小化的方法來估計線性回歸學(xué)習(xí)器的參數(shù)w和b。A)正確B)錯誤答案:對解析:[判斷題]223.drop_duplicated()方法可以刪除重復(fù)值。A)正確B)錯誤答案:錯解析:[判斷題]224.使用梯度下降法訓(xùn)練回歸模型時,會由于各特征尺寸相差較大而造成算法收斂較慢。應(yīng)該將特征尺寸進行縮放至接近或相同尺寸??刹捎胹klearn中的類或函數(shù)LabelEcoderA)正確B)錯誤答案:錯解析:[判斷題]225.決策樹基本流程遵循簡單且直觀的分而治之策略。__A)正確B)錯誤答案:對解析:[判斷題]226.要獲得好的集成,個體學(xué)習(xí)器應(yīng)?好而不同?,即個體學(xué)習(xí)器要有一定的?準(zhǔn)確率?,即學(xué)習(xí)器不能太壞,并且要有?多樣性?,即學(xué)習(xí)器間具有差異。A)正確B)錯誤答案:對解析:[判斷題]227.邏輯回歸是一種解決回歸問題的算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CAS 907-2024面向分布式天然氣供應(yīng)的智能化系統(tǒng)技術(shù)要求
- T/CCOA 76-2023濃香核桃油
- 北京市消費類預(yù)付費服務(wù)交易合同行為指引(試行)(標(biāo)準(zhǔn)版)5篇
- 有關(guān)印刷品訂貨合同7篇
- 專業(yè)版抵押房子借款協(xié)議8篇
- T/ZRCX 004-2018集成灶
- 眼科疾病常用穴位
- T/ZHCA 105-2022靈芝子實體
- 癲癇預(yù)防與急救
- 健康促進單位創(chuàng)建課件
- 2024年浙江省中考社會試卷真題(含標(biāo)準(zhǔn)答案及評分標(biāo)準(zhǔn))
- 第五版-FMEA培訓(xùn)教材-新版
- NB-T32036-2017光伏發(fā)電工程達(dá)標(biāo)投產(chǎn)驗收規(guī)程
- 食品安全與日常飲食智慧樹知到期末考試答案章節(jié)答案2024年中國農(nóng)業(yè)大學(xué)
- 七人學(xué)生小品《如此課堂》劇本臺詞手稿
- 吊具與索具點檢表
- microRNA研究 ppt課件
- 甲醇及制氫裝置預(yù)試車方案
- 單片機課件第8章存儲器的擴展
- 分子的立體構(gòu)型
- 英文版簡易-電商送貨單-產(chǎn)品隨行單模板
評論
0/150
提交評論