




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
試卷科目:人工智能機器學(xué)習(xí)技術(shù)練習(xí)人工智能機器學(xué)習(xí)技術(shù)練習(xí)(習(xí)題卷8)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能機器學(xué)習(xí)技術(shù)練習(xí)第1部分:單項選擇題,共155題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.以下哪項是解決NLP用例(如語義相似性、閱讀理解和常識推理)的更好選擇?A)ELMoB)OpenAI?sGPTC)ULMFit答案:B解析:[單選題]2.SVM在下列那種情況下表現(xiàn)糟糕A)線性可分?jǐn)?shù)據(jù)B)清洗過的數(shù)據(jù)C)含噪聲數(shù)據(jù)與重疊數(shù)據(jù)點答案:C解析:當(dāng)數(shù)據(jù)中含有噪聲數(shù)據(jù)與重疊的點時,要畫出干凈利落且無誤分類的超平面很難[單選題]3.關(guān)于梯度提升樹,說法正確的是()A)梯度提升樹中樣本的權(quán)重是不等的B)梯度提升樹只需構(gòu)建一棵樹C)梯度提升樹回歸可以跨越訓(xùn)練集中l(wèi)abel的值范圍答案:A解析:[單選題]4.對于隨機森林和GradientBoostingTrees,下面說法正確的是:A)在隨機森林的單個樹中,樹和樹之間是有依賴的,而GradientBoostingTrees中的單個樹之間是沒有依賴的.B)這兩個模型都使用隨機特征子集,來生成許多單個的樹.C)我們可以并行地生成GradientBoostingTrees單個樹,因為它們之間是沒有依賴的,GradientBoostingTrees訓(xùn)練模型的表現(xiàn)總是比隨機森林好答案:B解析:隨機森林是基于bagging的,而GradientBoostingtrees是基于boosting的,所有說反了,在隨機森林的單個樹中,樹和樹之間是沒有依賴的,而GradientBoostingTrees中的單個樹之間是有依賴關(guān)系.這兩個模型都使用隨機特征子集,來生成許多單個的樹.[單選題]5.在回歸模型中,下列哪一項在權(quán)衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?A)多項式階數(shù)B)更新權(quán)重w時,使用的是矩陣求逆還是梯度下降C)使用常數(shù)項答案:A解析:選擇合適的多項式階數(shù)非常重要。如果階數(shù)過大,模型就會更加復(fù)雜,容易發(fā)生過擬合;如果階數(shù)較小,模型就會過于簡單,容易發(fā)生欠擬合。[單選題]6.先對數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān),這相當(dāng)于先用特征選擇對初始特征進(jìn)行(__)。A)排序B)過濾C)搜索D)查找答案:B解析:[單選題]7.(__)在訓(xùn)練的每一輪都要檢查當(dāng)前生成的基學(xué)習(xí)器是否滿足基本條件。A)支持向量機B)Boosting算法C)貝葉斯分類器D)神經(jīng)網(wǎng)絡(luò)答案:B解析:[單選題]8.下面不屬于數(shù)據(jù)歸約方法有(__)。A)維歸約B)度歸約C)值歸約D)數(shù)據(jù)壓縮答案:B解析:[單選題]9.下列方法中沒有考慮先驗分布的是()A)最大后驗估計B)貝葉斯分類器C)貝葉斯學(xué)習(xí)D)最大似然估計答案:D解析:[單選題]10.下面哪個端口不是spark自帶服務(wù)的端口()。A)8080B)4040C)8090D)18080答案:C解析:[單選題]11.圖片是訓(xùn)練數(shù)據(jù)集(樣本非常少)的快照(屬性x、y分別用?+?和?o?表示),設(shè)定kNN的k=1,那么留一法交叉驗證的誤差是A)0%B)100%C)0到100%D)以上均不正確答案:B解析:留一交叉驗證法中,如果有N個樣本數(shù)據(jù)。將每個樣本單獨作為測試集,其余N-1個樣本作為訓(xùn)練集,這樣得到了N個模型,用這N個模型的分類準(zhǔn)確率的平均數(shù)作為此分類器的性能指標(biāo)。因此每一個模型都是用幾乎所有的樣本來訓(xùn)練得到最接近樣本,這樣評估所得的結(jié)果沒有隨機因素,所以答案選擇B。[單選題]12.核矩陣是()的。A)沒有規(guī)律B)半正定C)正定D)樣本矩陣答案:B解析:只要一個對稱函數(shù)所對應(yīng)的核矩陣半正定,它就能作為核函數(shù)使用。[單選題]13.下列哪個語句在Python中是非法的是()。A)x=y=z=1B)x,y=y,xC)x=(y=z+1)D)x+=y答案:C解析:[單選題]14.?以下關(guān)于訓(xùn)練集、驗證集和測試集說法不正確的是()。A)驗證集用于調(diào)整模型參數(shù)B)測試集是純粹是用于測試模型泛化能力C)以上說法都不對D)訓(xùn)練集是用來訓(xùn)練以及評估模型性能答案:D解析:[單選題]15.在馬爾科夫隨機場中,(__)個變量之間的聯(lián)合概率分布能基于團分解為多個因子的乘積。A)2B)3C)4D)多答案:D解析:[單選題]16.ZooKeeper的核心是()。A)原子廣播B)watchesC)ACLD)Znode答案:A解析:[單選題]17.(__)是指捕獲人們的生活、業(yè)務(wù)或社會活動,并將其轉(zhuǎn)換為數(shù)據(jù)的過程。A)數(shù)據(jù)化B)數(shù)據(jù)可視化C)數(shù)據(jù)存儲D)數(shù)據(jù)加工答案:A解析:[單選題]18.下圖是兩個不同β0、β1對應(yīng)的邏輯回歸模型(綠色和黑色):關(guān)于兩個邏輯回歸模型中的β0、β1值,下列說法正確的是?注意:y=β0+β1*x,β0是截距,β1是權(quán)重系數(shù)。A)綠色模型的β1比黑色模型的β1大B)綠色模型的β1比黑色模型的β1小C)兩個模型的β1相同D)以上說法都不對答案:B解析:邏輯回歸模型最終還要經(jīng)過Sigmoid非線性函數(shù),Sigmoid是增函數(shù),其圖形與上圖中的黑色模型相近。黑色模型是增函數(shù),說明其β1>0,綠色模型是減函數(shù),說明其β1<0。所以,得出結(jié)論:綠色模型的β1比黑色模型的β1小。[單選題]19.一階規(guī)則的基本成分是A)原子命題B)謂詞C)量詞D)原子公式答案:D解析:[單選題]20.回歸任務(wù)最常使用的性能度量是__。A)精度B)ROCC)MSED)AUC答案:C解析:[單選題]21.下列表示Pandas類別統(tǒng)計函數(shù)的是()。A)value_Counts()B)Value_Counts()C)values_counts()D)value_counts()答案:D解析:[單選題]22.已知中國人的血型分布約為A型:30%,B型:20%,O型:40%,AB型:10%,則任選一批中國人作為用戶調(diào)研對象,希望他們中至少有一個是B型血的可能性不低于90%,那么最少需要選多少人?A)7B)9C)11D)13答案:C解析:[單選題]23.最早是Cloudera提供的日志收集系統(tǒng),目前是Apache下的一個孵化項目,支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)的工具是()A)FlumeB)ZookeeperC)StormD)Sparkstreaming答案:A解析:[單選題]24.用OpenCV讀取圖像所需要的函數(shù)是()。A)cv.imshow()B)cv.inread()C)cv.imwrite()D)cv.imread()答案:D解析:[單選題]25.Logit函數(shù)(給定為l(x))是幾率函數(shù)的對數(shù)。域x=[0,1]中l(wèi)ogit函數(shù)的范圍是多少?A)(-∞,∞)B)(0,1)C)(0,∞)D)(-∞,0)答案:A解析:為了與目標(biāo)相適應(yīng),幾率函數(shù)具有將值從0到1的概率函數(shù)變換成值在0和∞之間的等效函數(shù)的優(yōu)點。當(dāng)我們采用幾率函數(shù)的自然對數(shù)時,我們便能范圍是-∞到∞的值。這里給出Logit函數(shù)的圖像(來自維基百科):alt=""class="fr-ficfr-dii">[單選題]26.以下剪枝算法中性能最好的是A)REPB)IREPC)RIPPERD)CN2答案:C解析:[單選題]27.對于一個給定的token,其輸入表示為它的token嵌入、段嵌入(SegmentEmbedding)、位置嵌入(PositionEmbedding)的總和A)ELMoB)GPTC)BERTD)ULMFit答案:C解析:[單選題]28.下面不屬于數(shù)據(jù)加工的有(__)。A)數(shù)據(jù)脫敏B)數(shù)據(jù)脫質(zhì)C)數(shù)據(jù)規(guī)約D)數(shù)據(jù)標(biāo)注答案:B解析:[單選題]29.精確推斷的實質(zhì)是一類()規(guī)劃算法,它利用圖模型所描述的條件獨立性來削減計算目標(biāo)概率值所需的計算量。A)靜態(tài)B)動態(tài)C)偽靜態(tài)D)一階答案:B解析:[單選題]30.有關(guān)決策樹的說法哪個是錯誤的()A)可以轉(zhuǎn)化為決策規(guī)則B)對新樣本起到分類預(yù)測的作用C)決策樹的深度越大越好D)決策樹的算法和神經(jīng)網(wǎng)絡(luò)的原理不一樣答案:C解析:[單選題]31.從一個初始策略出發(fā),不斷迭代進(jìn)行策略評估和改進(jìn),直到策略收斂、不再改變?yōu)橹?,這樣的作法稱為A)策略迭代B)值迭代C)策略改進(jìn)D)最優(yōu)值函數(shù)答案:A解析:[單選題]32.Stage的Task的數(shù)量由什么決定()。A)PartitionB)JobC)StageD)TaskScheduler答案:A解析:[單選題]33.下列不屬于Spark中driver的作用的是()A)執(zhí)行main方法B)把用戶程序轉(zhuǎn)化為taskC)協(xié)調(diào)任務(wù)的調(diào)度D)負(fù)責(zé)運行組成Spark應(yīng)用的任務(wù)答案:D解析:[單選題]34.關(guān)于L1、L2正則化,下列說法正確的是()。A)L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B)L2正則化技術(shù)又稱為LassoRegularizationC)L1正則化得到的解更加稀疏D)L2正則化得到的解更加稀疏答案:C解析:L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個稀疏模型,可以用于特征選擇;L2正則化可以防止模型過擬合,一定程度上L1也可以防止過擬合,L1正則化又稱LassoRegression。[單選題]35.關(guān)于維數(shù)災(zāi)難說法錯誤的是?A)高維度數(shù)據(jù)可使得算法泛華能力變得越來越弱B)降低高維度數(shù)據(jù)會對數(shù)據(jù)有所損傷C)高維度數(shù)據(jù)增加了運算難度D)高維度數(shù)據(jù)難以可視化答案:A解析:[單選題]36.在目標(biāo)識別中,假定類型1為敵方目標(biāo),類型2為誘餌(假目標(biāo)),已知先驗概率P(1)=0.2和P(2)=0.8,類概率密度函數(shù)如下:則總錯誤概率為P(e)為class="fr-ficfr-dibcursor-hover"A)0.08B)0.09C)0.11D)0.1答案:A解析:[單選題]37.線性判別分析設(shè)法將樣例投影到__直線上,使得同類樣例的投影點盡可能__。A)一條;接近B)兩條;接近C)一條;遠(yuǎn)離D)兩條;原理答案:A解析:[單選題]38.NaveBayes是一種特殊的Bayes分類器,特征變量是X,類別標(biāo)簽是C,它的一個假定是:()A)各類別的先驗概率P(C)是相等的B)以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布C)特征變量X的各個維度是類別條件獨立隨機變量D)P(X|C)是高斯分布答案:C解析:[單選題]39.大數(shù)據(jù)的4V特性不包括A)Volume(大量)B)Velocity(高速)C)Visual(可視)D)Variety(多樣)答案:C解析:[單選題]40.下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預(yù)測A)AR模型B)MA模型C)ARMA模型D)GARCH模型答案:D解析:[單選題]41.()在訓(xùn)練的每一輪都要檢查當(dāng)前生成的基學(xué)習(xí)器是否滿足基本條件。A)支持向量機B)Boosting算法C)貝葉斯分類器D)Bagging算法答案:B解析:[單選題]42.為了觀察測試Y與X之間的線性關(guān)系,若X是連續(xù)變量,則使用()比較適合。A)散點圖B)柱形圖C)直方圖D)以上答案都不正確答案:A解析:散點圖反映了兩個變量之間的相互關(guān)系,在測試Y與X之間的線性關(guān)系時,使用散點圖最為直觀。[單選題]43.如下表是用戶是否使用某產(chǎn)品的調(diào)查結(jié)果()請計算年齡、地區(qū)、學(xué)歷、收入中對用戶是否使用調(diào)查產(chǎn)品信息增益最大的屬性。alt="">A)年齡B)地區(qū)C)學(xué)歷D)收入答案:C解析:alt=""class="fr-ficfr-dii">[單選題]44.(__)是神經(jīng)網(wǎng)絡(luò)的基本單位。A)神經(jīng)系統(tǒng)B)神經(jīng)網(wǎng)絡(luò)C)神經(jīng)元D)感知機答案:C解析:[單選題]45.對應(yīng)GradientBoostingtree算法,以下說法正確的是:A)2和4B)2和3C)1和3D)1和4答案:C解析:最小樣本分裂個數(shù)是用來控制?過擬合?參數(shù)。太高的值會導(dǎo)致?欠擬合?,這個參數(shù)應(yīng)該用交叉驗證來調(diào)節(jié)。第二點是靠bias和variance概念的。[單選題]46.下面列出特征選擇算法中,不屬于啟發(fā)式搜索的有()A)分支限界搜索B)序列前向選擇搜索C)增L去R搜索D)序列浮動選擇搜索答案:A解析:[單選題]47.(__)是事先將訓(xùn)練樣本存儲下來,然后每當(dāng)遇到一個新增樣本,學(xué)習(xí)系統(tǒng)分析此樣本與以前存儲樣本之間的關(guān)系,并據(jù)此把一個目標(biāo)函數(shù)值賦給新增樣本。A)基于實例學(xué)習(xí)B)遺傳算法C)人工神經(jīng)網(wǎng)絡(luò)D)歸納學(xué)習(xí)答案:A解析:[單選題]48.找出其中的異類A)nltkB)scikitlearnC)SpaCyD)BERT答案:D解析:[單選題]49.下面不屬于云計算技術(shù)的有(__)。A)HadoopB)SparkC)YARND)集中式計算答案:D解析:[單選題]50.神經(jīng)網(wǎng)絡(luò)是由()演化而來。[]*A)符號主義B)認(rèn)知主義C)聯(lián)結(jié)主義D)行為主義答案:C解析:[單選題]51.散點圖矩陣通過()坐標(biāo)系中的一組點來展示變量之間的關(guān)系。A)一維B)二維C)三維D)多維答案:B解析:[單選題]52.有如下兩組數(shù)據(jù){(-1,0),(-1,2),(1,2)}{(0,0),(1,0),(1,1)}我們在該數(shù)據(jù)集上訓(xùn)練一個線性SVM模型,該模型中的支持向量是哪些?A)(?1,2),(1,1),(1,0)B)(?1,0),(?1,2),(1,1),(1,0)C)(?1,0),(1,2),(0,0),(1,1)D)(?1,0),(-1,2),(0,0),(1,0)答案:C解析:[單選題]53.真負(fù)率是指(__)。A)正樣本預(yù)測結(jié)果數(shù)/正樣本實際數(shù)B)被預(yù)測為負(fù)的正樣本結(jié)果數(shù)/正樣本實際數(shù)C)被預(yù)測為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實際數(shù)D)負(fù)樣本預(yù)測結(jié)果數(shù)/負(fù)樣本實際數(shù)答案:D解析:[單選題]54.下面關(guān)于支持向量機(SVM)的描述錯誤的是()?A)是一種監(jiān)督式學(xué)習(xí)的方法B)可用于多分類的問題C)是一種生成式模型D)支持非線性的核函數(shù)答案:C解析:[單選題]55.下面不屬于NoSQL的有(__)。A)ORACLEB)RedislabsC)couchbaseD)paradigm4答案:D解析:[單選題]56.(__)是指在對數(shù)據(jù)進(jìn)行正式計算之前,根據(jù)后續(xù)數(shù)據(jù)計算的需求對原始數(shù)據(jù)進(jìn)行審計、清洗、變換、集成等一系列處理活動。A)數(shù)據(jù)加工B)數(shù)據(jù)預(yù)處理C)數(shù)據(jù)清洗D)數(shù)據(jù)挖掘答案:A解析:[單選題]57.下面關(guān)于機器學(xué)習(xí)相關(guān)描述不正確的有(__)。A)機器學(xué)習(xí)的主要議題是如何實現(xiàn)和優(yōu)化機器的自我學(xué)習(xí)B)機器學(xué)習(xí)的基本思路是以訓(xùn)練集為輸入,通過機器學(xué)習(xí)算法讓機器學(xué)習(xí)到能夠處理更多數(shù)據(jù)的能力C)AlphaGo的核心技術(shù)是深度學(xué)習(xí)與增強學(xué)習(xí)D)機器學(xué)習(xí)的只能是預(yù)定義的答案:D解析:[單選題]58.GRAY灰度圖像的通道數(shù)為()。A)0B)1C)2D)3答案:B解析:[單選題]59.接受者操作特征曲線簡稱(__)。A)雙曲線B)ROC曲線C)科克曲線D)共軛曲線答案:B解析:[單選題]60.下列方法中,用于獲取當(dāng)前目錄的是()。A)openB)writeC)getcwdD)readmulu答案:A解析:[單選題]61.在數(shù)據(jù)清理中,下面哪個不是處理缺失值的方法()A)估算B)整例刪除C)變量刪除D)成對刪除答案:D解析:[單選題]62.根據(jù)邊的性質(zhì)不同,概率圖模型可大致分為兩類:第一類是使用有向無環(huán)圖表示變量間的依賴關(guān)系,稱為();第二類是使用無向圖表示變量間的相關(guān)關(guān)系,稱為無向圖模型或馬爾可夫網(wǎng)(Markovnetwork)。A)貝葉斯網(wǎng)B)拉普拉斯網(wǎng)C)帕斯卡網(wǎng)D)塞繆爾網(wǎng)答案:A解析:[單選題]63.如果使用線性回歸模型,下列說法正確的是?A)檢查異常值是很重要的,因為線性回歸對離群效應(yīng)很敏感B)線性回歸分析要求所有變量特征都必須具有正態(tài)分布C)線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D)以上說法都不對答案:A解析:本題考查的是線性回歸的一些基本原理。異常值是數(shù)據(jù)中的一個非常有影響的點,它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中一直是很重要的。了解變量特征的分布是有用的。類似于正態(tài)分布的變量特征對提升模型性能很有幫助。例如,數(shù)據(jù)預(yù)處理的時候經(jīng)常做的一件事就是將數(shù)據(jù)特征歸一化到(0,1)分布。但這也不是必須的。當(dāng)模型包含相互關(guān)聯(lián)的多個特征時,會發(fā)生多重共線性。因此,線性回歸中變量特征應(yīng)該盡量減少冗余性。C選擇絕對化了。[單選題]64.在測試一假設(shè)h時,發(fā)現(xiàn)在一包含n=1000個隨機抽取樣例的樣本s上,它出現(xiàn)r=300個錯誤,計算Errors(h)的標(biāo)準(zhǔn)差()A)0.0145B)0.145C)1.45D)14.5答案:A解析:[單選題]65.(__)是在不影響數(shù)據(jù)完整性和數(shù)據(jù)分析結(jié)果準(zhǔn)確性的前提下,通過減少數(shù)據(jù)規(guī)模的方式減少數(shù)據(jù)量,進(jìn)而提升數(shù)據(jù)分析的效果與效率。A)數(shù)據(jù)縮減B)數(shù)據(jù)加工C)數(shù)據(jù)清洗D)數(shù)據(jù)歸約答案:D解析:[單選題]66.一個包里有5個黑球,10個紅球和17個白球。每次可以從中取兩個球出來,放置在外面。那么至少取________次以后,一定出現(xiàn)過取出一對顏色一樣的球。A)16B)9C)4D)1答案:A解析:[單選題]67.在支持向量機中,?間隔?是指(__)。A)非支持向量到劃分超平面間的距離之和B)支持向量之間的距離C)支持向量和非支持向量之間的距離D)支持向量到超平面的距離之和答案:D解析:[單選題]68.對分類任務(wù)來說,學(xué)習(xí)器從類別標(biāo)記集合中預(yù)測出一個標(biāo)記,最常見的結(jié)合策略是(__)。A)投票法B)平均法C)學(xué)習(xí)法D)排序法答案:A解析:[單選題]69.混淆矩陣中的TP=16,F(xiàn)P=12,F(xiàn)N=8,TN=4,準(zhǔn)確率是A)四分之一B)二分之一C)七分之四D)三分之二答案:B解析:[單選題]70.點擊率的預(yù)測是一個數(shù)據(jù)比例不平衡問題(如訓(xùn)練集中樣本呈陰性的比例為99%,陽性的比例是1%),如果我們用這種數(shù)據(jù)建立模型并使得訓(xùn)練集的準(zhǔn)確率高達(dá)99%。我們可以得出結(jié)論是()。A)模型的準(zhǔn)確率非常高,我們不需要進(jìn)一步探索B)模型不好,我們應(yīng)建一個更好的模型C)無法評價模型D)以上答案都不正確答案:C解析:對于失衡數(shù)據(jù),模型的準(zhǔn)確率不能作為衡量模型效果的標(biāo)準(zhǔn)。因為我們需要探索的是少數(shù)1%的數(shù)據(jù),為更好地評估模型效果,可以用靈敏度、特異度、F-measure來判斷。[單選題]71.(__)也稱為?基于密度的聚類?A)原型聚類B)密度聚類C)層次聚類D)AGNES答案:B解析:[單選題]72.測試集應(yīng)盡可能與訓(xùn)練集__。A)相容B)相等C)互斥D)包含答案:C解析:[單選題]73.事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率,稱為(__)。A)先驗概率B)后驗概率C)條件概率D)統(tǒng)計概率答案:C解析:[單選題]74.(__)不是常用的噪聲處理方法。A)聚類B)回歸C)分類D)分箱答案:C解析:[單選題]75.在LogisticRegression中,如果同時加入L1和L2范數(shù),會產(chǎn)生什么效果()A)可以做特征選擇,并在一定程度上防止過擬合B)能解決維度災(zāi)難問題C)能加快計算速度D)可以獲得更準(zhǔn)確的結(jié)果答案:A解析:[單選題]76.以下描述中,屬于決策樹策略的是()A)最優(yōu)投影方向B)梯度下降方法C)最大特征值D)最大信息增益答案:D解析:[單選題]77.()情況下,LDA會失敗。A)如果有辨識性的信息不是平均值,而是數(shù)據(jù)的方差B)如果有辨識性的信息是平均值,而不是數(shù)據(jù)方差C)如果有辨識性的信息是數(shù)據(jù)的均值和方差D)以上答案都不正確答案:A解析:LDA的思想是投影后類內(nèi)方差最小、類間方差最大。[單選題]78.詞袋模型是在自然語言處理和信息檢索中的一種簡單假設(shè)。在這種模型中,文本(段落或者文檔)被看作是()的詞匯集合,忽略語法甚至是單詞的順序。A)無序B)有序C)無意義D)規(guī)范答案:A解析:[單選題]79.下列關(guān)于DataFrame說法正確的是()。A)DataFrame結(jié)構(gòu)是由索引和數(shù)據(jù)組成B)DataFrame的行索引位于最右側(cè)C)創(chuàng)建一個DataFrame對象時需要指定索引D)DataFrame每列的數(shù)據(jù)類型必須是相同的答案:C解析:[單選題]80.邏輯回歸的以下模型:P(y=1|x,w)=g(w0+w1x)其中g(shù)(z)是邏輯函數(shù)。在上述等式中,通過改變參數(shù)w可以得到的P(y=1|x;w)被視為x的函數(shù)。在上面的問題中,你認(rèn)為哪個函數(shù)會產(chǎn)生(0,1)之間的p?A)邏輯函數(shù)B)對數(shù)似然函數(shù)C)兩者的復(fù)合函數(shù)D)都不會答案:A解析:對于從-∞到+∞的實數(shù)范圍內(nèi)的x的值。邏輯函數(shù)將給出(0,1)的輸出。[單選題]81.當(dāng)訓(xùn)練樣本數(shù)量趨向于無窮大時,在該數(shù)據(jù)集上訓(xùn)練的模型變化趨勢,對于其描述正確的是()A)偏差(bias)變小B)偏差變大C)偏差不變D)不變答案:C解析:偏差大是欠擬合,方差大是過擬合。增大樣本數(shù)量會降低方差,和偏差沒關(guān)系。[單選題]82.根據(jù)邊的性質(zhì)不同,概率圖模型可大致分為兩類:第一類是使用有向無環(huán)圖表示變量間的依賴關(guān)系,稱為有向圖模型或貝葉斯網(wǎng)(Bayesiannetwork);第二類是使用無向圖表示變量間的相關(guān)關(guān)系,稱為()。A)赫布網(wǎng)B)拉普拉斯網(wǎng)C)馬爾科夫網(wǎng)D)塞繆爾網(wǎng)答案:C解析:[單選題]83.下列不屬于大數(shù)據(jù)4V特性的是().A)大量B)多樣C)高速D)快捷答案:D解析:[單選題]84.下面關(guān)于Adaboost算法的描述中,錯誤的是()A)是弱分類器的線性組合B)提升樹是以分類樹或者回歸樹為基本分類器的提升辦法C)該算法實際上是前向分步算法的一個實現(xiàn),在這個方法里,模型是加法模型,損失函數(shù)是指數(shù)損失,算法是前向分步算法。D)同時獨立地學(xué)習(xí)多個弱分類器答案:D解析:[單選題]85.在利用矢量形式的圖像數(shù)據(jù)文件中?A)圖像的分辨率與數(shù)據(jù)文件的大小成正比;B)如果顯示其中的圖像會有方塊;?C)圖形由空間分布的像素的集合來表示;D)不僅有數(shù)據(jù)還有命令;答案:D解析:[單選題]86.下列代碼實現(xiàn)的功能是:>>>fromsklearn.naive_bayesimportGaussianNB>>>gnb=GaussianNB()>>>y_pred=gnb.fit(iris.data,iris.target).predict(iris.data)A)創(chuàng)建高斯樸素貝葉斯模型并對模型進(jìn)行訓(xùn)練B)創(chuàng)建高斯樸素貝葉斯模型并對模型進(jìn)行預(yù)測C)創(chuàng)建高斯樸素貝葉斯模型并對模型進(jìn)行訓(xùn)練和預(yù)測D)創(chuàng)建高斯樸素貝葉斯模型并對模型進(jìn)行訓(xùn)練和評測答案:C解析:[單選題]87.循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理什么數(shù)據(jù)。()A)節(jié)點數(shù)據(jù)B)序列數(shù)據(jù)C)結(jié)構(gòu)化數(shù)據(jù)D)圖像數(shù)據(jù)答案:B解析:[單選題]88.在CTR(點擊率預(yù)測)中,對于一個特定商品,一個用戶可以根據(jù)過往的點擊商品等信息被歸為兩類【會點擊】和【不會點擊】。CTR問題適合用()方法來解決A)分類B)回歸C)聚類D)以上都不是答案:A解析:[單選題]89.Hadoop-2.6.5集群中的HDFS的默認(rèn)的副本塊的個數(shù)是?A)1B)2C)3D)4答案:B解析:[單選題]90.()是一個觀測值,它與其他觀測值的差別很大,以至于我們懷疑它是由不同的機制產(chǎn)生的。A)邊緣點B)質(zhì)心C)離群點D)核點答案:C解析:[單選題]91.設(shè)線性規(guī)劃的約束條件為:則基本可行解為()A)(0,0,4,3)B)(3,4,0,0)C)(2,0,1,0)D)(3,0,4,0)答案:C解析:[單選題]92.在Matplotlib中設(shè)置x軸的標(biāo)簽的函數(shù)是()。A)xlabelsB)xticksC)xlabelD)Xtick答案:C解析:[單選題]93.集成學(xué)習(xí)中,每個基分類器的正確率的最低要求()A)50%以上B)60%以上C)70%以上D)80%以上答案:A解析:[單選題]94.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程為y=7.19x+73.93,據(jù)此可以預(yù)測這個孩子10歲時的身高,則正確的敘述是()A)身高一定是145.83cmB)身高超過146.00cmC)身高低于145.00cmD)身高在145.83cm左右答案:D解析:[單選題]95.一幅數(shù)字圖像是()A)一個觀測系統(tǒng)B)一個有許多像素排列而成的實體C)一個2-D數(shù)組中的元素D)一個3-D空間的場景答案:B解析:[單選題]96.Transformer架構(gòu)首先是由下列哪項引入的?A)GloVeB)BERTC)OpenAI?sGPTD)ULMFit答案:C解析:[單選題]97.為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?A)探索性數(shù)據(jù)分析B)建模描述C)預(yù)測建模D)尋找模式和規(guī)則答案:B解析:[單選題]98.假設(shè)某商品需求函數(shù)為y1=B0+B1x1+u,為了考慮包裝外觀因素(黑,藍(lán),白,金四種不同的顏色),引入4個虛擬變量形式形成截距變動模型,則模型的參數(shù)估計量()A)是有偏估計量B)是非有效估計量C)是非一致估計量D)無法估計答案:D解析:[單選題]99.關(guān)于Anconda組件的說法中,下列描述錯誤的是()。A)AnacondaPrompt是Anaconda自帶的命令行B)JupyterNotebook是基于客戶端的交互式計算環(huán)境,可以編輯易于人們閱讀的文檔,用于展示數(shù)據(jù)分析的過程C)Spyder是一個使用Python語言、跨平臺的、科學(xué)運算集成開發(fā)環(huán)境D)AnacondaNavigator是用于管理工具包和環(huán)境的圖形用戶界面,后續(xù)涉及的眾多管理命令也可以在Navigator中手動實現(xiàn)JupyterNotebook是基于Web的交互式計算環(huán)境,可以編輯易于人們閱讀的文檔,用于展示數(shù)據(jù)分析的過程答案:B解析:[單選題]100.一個輸入為(32,32,3)的數(shù)據(jù)集,通過一個卷積核個數(shù)為8,大小為5*5,步長為1的卷積層,輸出()。A)(28,28,8)B)(27,27,8)C)(28,28,3)D)(27,27,3)答案:A解析:[單選題]101.以下對字典的說法錯誤的是()。A)字典可以為空B)字典的鍵不能相同C)字典的鍵不可變D)字典的鍵的值不可變答案:D解析:[單選題]102.關(guān)于數(shù)據(jù)規(guī)范化,下列說法中錯誤的是()。A)標(biāo)準(zhǔn)化實際上是將數(shù)據(jù)在樣本的標(biāo)準(zhǔn)差上做了等比例的縮放操作B)歸一化利用了樣本中的最大值和最小值C)包含標(biāo)準(zhǔn)化和歸一化D)標(biāo)準(zhǔn)化在任何場景下受異常值的影響都很小答案:D解析:[單選題]103.假設(shè)我們使用kNN訓(xùn)練模型,其中訓(xùn)練數(shù)據(jù)具有較少的觀測數(shù)據(jù)(下圖是兩個屬性x、y和兩個標(biāo)記為?+?和?o?的訓(xùn)練數(shù)據(jù))?,F(xiàn)在令k=1,則圖中的Leave-One-Out交叉驗證錯誤率是多少?A)0%B)20%C)50%D)100%答案:D解析:本題考查的是kNN算法和Leave-One-Out交叉驗證。KNN算法是標(biāo)記類算法,取當(dāng)前實例最近鄰的k個樣本,k個樣本中所屬的最多類別即判定為該實例的類別。本題中k=1,則只需要看最近鄰的那一個樣本屬于?+?還是?o?即可。Leave-One-Out交叉驗證是一種用來訓(xùn)練和測試分類器的方法,假定數(shù)據(jù)集有N個樣本,將這個樣本分為兩份,第一份N-1個樣本用來訓(xùn)練分類器,另一份1個樣本用來測試,如此迭代N次,所有的樣本里所有對象都經(jīng)歷了測試和訓(xùn)練。分別對這10個點進(jìn)行觀察可以發(fā)現(xiàn),每個實例點最近鄰的都不是當(dāng)前實例所屬的類別,因此每次驗證都是錯誤的。整體的錯誤率即為100%。[單選題]104.機器學(xué)習(xí)模型包括四個組成部分,不包含(A)模型結(jié)構(gòu)B)知識庫C)學(xué)習(xí)單元D)執(zhí)行單元答案:A解析:[單選題]105.以下哪項方法不屬于漢語分詞方法?()A)雙向掃描法B)正向最大匹配法C)逐詞遍歷法D)詞向量匹配法答案:D解析:[單選題]106.ResNet-50有多少個卷積層?()A)48B)49C)50D)51答案:B解析:[單選題]107.歸納推理是()推理A)從一般到個別B)從個別到一般C)從個別到個別D)從一般到一般答案:B解析:[單選題]108.在給定文件中查找與設(shè)定條件相符字符串的命令A(yù))gzipB)grepC)lsD)find答案:B解析:[單選題]109.關(guān)于貝葉斯網(wǎng)描述錯誤的是A)也稱為信念網(wǎng);B)借助有向無環(huán)圖刻畫屬性之間的關(guān)系;C)借助無向無環(huán)圖刻畫屬性之間的關(guān)系;D)用條件概率表來描述屬性的聯(lián)合概率分布;答案:C解析:[單選題]110.假設(shè)你需要調(diào)整參數(shù)來最小化代價函數(shù)(costfunction),會使用()技術(shù)。A)窮舉搜索B)隨機搜索C)Bayesian優(yōu)化D)以上全是答案:D解析:[單選題]111.下列有關(guān)SVM和LR說法不正確的是()A)SVM是分類模型,LR是回歸模型B)SVM和LR都是分類模型C)SVM是判別式模型D)LR判別式模型答案:A解析:[單選題]112.(__)是一種著名的過濾式特征選擇方法。A)k-meansB)k近鄰C)支持向量機D)Relief答案:D解析:[單選題]113.假負(fù)率是指(__)。A)正樣本預(yù)測結(jié)果數(shù)/正樣本實際數(shù)B)被預(yù)測為負(fù)的正樣本結(jié)果數(shù)/正樣本實際數(shù)C)被預(yù)測為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實際數(shù)D)負(fù)樣本預(yù)測結(jié)果數(shù)/負(fù)樣本實際數(shù)答案:B解析:[單選題]114.支持向量(supportvectors)指的是()A)對原始數(shù)據(jù)進(jìn)行采樣得到的樣本點B)決定分類面可以平移的范圍的數(shù)據(jù)點C)位于分類面上的點D)能夠被正確分類的數(shù)據(jù)點答案:B解析:[單選題]115.下面關(guān)于基礎(chǔ)理論相關(guān)描述正確的有(__)。A)基礎(chǔ)理論等于理論基礎(chǔ)B)基礎(chǔ)理論在數(shù)據(jù)科學(xué)研究邊界之外C)理論基礎(chǔ)在數(shù)據(jù)科學(xué)研究邊界之內(nèi)D)基礎(chǔ)理論包含理念、理論、方法、技術(shù)等答案:D解析:[單選題]116.簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰好在一個子集中,這種聚類方法稱作()。A)層次聚類B)劃分聚類C)非互斥聚類D)模糊聚類答案:B解析:[單選題]117.下列哪個算法可以用于特征選擇A)樸素貝葉斯B)感知器C)支持向量機D)決策樹答案:D解析:[單選題]118.長短時記憶神經(jīng)網(wǎng)絡(luò)通過什么來緩解梯度消失問題?()A)增加網(wǎng)絡(luò)深度B)減少網(wǎng)絡(luò)神經(jīng)元C)使用雙向的網(wǎng)絡(luò)結(jié)構(gòu)D)增加一個用來保存長期狀態(tài)的單元答案:D解析:[單選題]119.以下關(guān)于感知器說法錯誤的是:()A)感知器中的偏置只改變決策邊界的位置B)可為感知器的輸出值設(shè)置閾值使其用于處理分類問題C)單層感知器可以用于處理非線性學(xué)習(xí)問題D)感知器是最簡單的前饋式人工神經(jīng)網(wǎng)絡(luò)答案:C解析:[單選題]120.關(guān)于梯度下降算法,正確的說法是:A)小批量梯度下降同時具備批量梯度下降和隨機梯度下降二者的優(yōu)缺點。B)相對隨機梯度下降算法,批量梯度下降運行速度很快C)相對隨機梯度下降算法,批量梯度下降的一個優(yōu)勢是:當(dāng)損失函數(shù)很不規(guī)則時(存在多個局部最小值),它更有可能跳過局部最小值,最終接近全局最小值。D)隨機梯度下降同時具備批量梯度下降和小批量梯度下降二者的優(yōu)缺點。答案:A解析:[單選題]121.當(dāng)k=5時,使用k近鄰算法判斷下圖中的綠色方框?qū)儆冢ǎ〢)圓形B)三角形C)長方形D)以上都不是答案:A解析:[單選題]122.線性SVM和一般線性分類器的區(qū)別主要是()A)是否進(jìn)行了空間映射B)是否確保間隔最大化C)是否能處理線性不可分問題D)訓(xùn)練誤差通常較低答案:A解析:[單選題]123.假設(shè)下圖是K-means算法的聚類結(jié)果,那么K的值為()A)1B)2C)3D)4答案:C解析:[單選題]124.以下關(guān)于Sigmoid的特點說法錯誤的是()。A)Sigmoid函數(shù)計算量小B)趨向無窮的地方,函數(shù)變化很小,容易出現(xiàn)梯度消失的現(xiàn)象C)可以將函數(shù)值的范圍壓縮到[0,1]D)函數(shù)處處連續(xù)答案:A解析:[單選題]125.已知:(1)大腦是有很多個叫做神經(jīng)元的東西構(gòu)成,神經(jīng)網(wǎng)絡(luò)是對大腦的簡單的數(shù)學(xué)表達(dá)。(2)每一個神經(jīng)元都有輸入、處理函數(shù)和輸出。(3)神經(jīng)元組合起來形成了網(wǎng)絡(luò),可以擬合任何函數(shù)。(4)為了得到最佳的神經(jīng)網(wǎng)絡(luò),我們用梯度下降方法不斷更新模型。給定上述關(guān)于神經(jīng)網(wǎng)絡(luò)的描述,什么情況下神經(jīng)網(wǎng)絡(luò)模型被稱為深度學(xué)習(xí)模型?A)加入更多層,使神經(jīng)網(wǎng)絡(luò)的深度增加B)有維度更高的數(shù)據(jù)C)當(dāng)這是一個圖形識別的問題時D)以上都不正確答案:A解析:[單選題]126.以下對信息描述不正確的是()。A)信息與能源、材料屬于同一層次的概念B)信息是客觀的存在C)信息是人類社會賴以生存和發(fā)展的三大資源之一D)信息是對數(shù)據(jù)進(jìn)行計量形成的記錄答案:D解析:[單選題]127.有關(guān)數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是A)數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)B)數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確C)數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D)在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式答案:A解析:[單選題]128.Relief屬于哪種特征選擇方法A)包裹式B)啟發(fā)式C)嵌入式D)過濾式答案:D解析:[單選題]129.下列關(guān)于數(shù)組運算的描述錯誤的是()。A)在NumPy中,大小相等的數(shù)組之間的任何計算都會應(yīng)用到元素級B)廣播機制表示對數(shù)組進(jìn)行擴展,使數(shù)組的shape屬性值一樣C)標(biāo)量運算會產(chǎn)生一個與數(shù)組具有相同數(shù)量的行和列的新矩陣,其原始矩陣的每個元素都被相加、相減、相乘或者相除D)數(shù)組不支持算術(shù)運算符與標(biāo)量之間的運算答案:D解析:數(shù)組支持算術(shù)運算符與標(biāo)量之間的運算[單選題]130.下面有關(guān)可視化原理的說法,錯誤的是哪個()。A)可視化主要是為滿足人類決策者對視覺信息的敏感性B)可視化分析的方法論基礎(chǔ)是視覺隱喻,可以對數(shù)據(jù)進(jìn)行一定的抽象表示C)高維數(shù)據(jù)可視化需要對數(shù)據(jù)進(jìn)行變換,抽取有效特征,從而降低維度D)餅圖可分析數(shù)據(jù)變化的趨勢答案:D解析:[單選題]131.維納濾波器的作用通常是()。A)去噪B)減小圖像動態(tài)范圍C)復(fù)原圖像D)圖像模糊答案:C解析:[單選題]132.hive的元數(shù)據(jù)存儲在derby和mysql中有什么區(qū)別()。A)沒區(qū)別B)多會話C)支持網(wǎng)絡(luò)環(huán)境D)數(shù)據(jù)庫的區(qū)別答案:B解析:[單選題]133.Relief的擴展變體Relief-F能夠處理(__)問題。A)二分類B)多分類C)回歸D)降維答案:B解析:[單選題]134.在邏輯回歸輸出與目標(biāo)對比的情況下,以下評估指標(biāo)中()不適用。A)AUC-ROCB)準(zhǔn)確度C)LoglossD)均方誤差答案:D解析:LogisticRegression是一個分類算法,所以它的輸出不能是實時值,所以均方誤差不能用于評估它。[單選題]135.最早被提出的循環(huán)神經(jīng)網(wǎng)絡(luò)門控算法是什么。()A)長短期記憶網(wǎng)絡(luò)B)門控循環(huán)單元網(wǎng)絡(luò)C)堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)D)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)答案:A解析:[單選題]136.感知機描述錯誤的是:-P99A)感知機根據(jù)正確的程度進(jìn)行權(quán)重調(diào)整;B)輸入層接收外界輸入信號傳遞給輸出層;C)輸出層是M-P神經(jīng)元;D)感知機能容易實現(xiàn)邏輯與、或、非運算;答案:A解析:[單選題]137.專家系統(tǒng)是以______為基礎(chǔ),推理為核心的系統(tǒng)。A)專家B)軟件C)問題D)知識答案:D解析:[單選題]138.??沒有免費的午餐定理?告訴我們A)我們不能對問題有先驗假設(shè)B)沒有可以適應(yīng)一切問題的算法C)設(shè)計好的算法是徒勞的D)對于一個特定的問題,任何算法都是一樣好的答案:B解析:[單選題]139.以下選項中zookeeper的功能正確的是()。A)實現(xiàn)元數(shù)據(jù)持久化B)存儲HA模式下狀態(tài)信息C)存儲namenode生成的editlogD)監(jiān)控namenode節(jié)點的主備狀態(tài)答案:B解析:[單選題]140.在安裝cdh提供的軟件的時候,我們應(yīng)該關(guān)注哪一部分,下圖給出了一款軟件,名字是crunch,這款軟件我們沒有學(xué)過,但是我們通過對cdh的了解,可以知道,我們應(yīng)該關(guān)注的版本號是哪部分():class="fr-ficfr-dibcursor-hover"A)crunch-0.11.0B)cdh5.14.0C)src.tar.gzD)changes.log答案:B解析:[單選題]141.主成分分析的優(yōu)化目標(biāo)是一個(__)。A)不含約束條件的二次規(guī)劃問題B)含有約束條件的二次規(guī)劃問題C)不含約束條件的線性規(guī)劃問題D)含有約束條件的線性規(guī)劃問題答案:B解析:[單選題]142.二項式分布的共軛分布是()A)正態(tài)分布B)Dirichlet分布C)Beta分布D)指數(shù)分布答案:C解析:[單選題]143.請閱讀下列一段程序:Arr=np.arange(12).reshape(3,4)Arr.shape運行上述程序,它最終執(zhí)行的結(jié)果為()。A)3B)4C)(3,4)D)(1,2)答案:C解析:[單選題]144.在使用軟間隔支持向量機(SVM)時,對于線性不可分?jǐn)?shù)據(jù)集,線性支持向量機對每個樣本點引進(jìn)松弛變量,放寬約束條件。為了使這種放寬適度,需要對每一個進(jìn)行一個代價為的?懲罰?。關(guān)于懲罰系數(shù)C,正確的說法有:A)懲罰系數(shù)C越小,對于錯誤分類的懲罰越重B)懲罰系數(shù)C越大,對于錯誤分類的懲罰越重C)懲罰系數(shù)C越小越好D)懲罰系數(shù)C越大越好答案:B解析:[單選題]145.概率模型的訓(xùn)練過程就是()過程。A)分類B)聚類C)參數(shù)估計D)參數(shù)選擇答案:C解析:[單選題]146.平面上平均每4個單位面積有一個染色點,觀察一定面積上的點數(shù)X,X近似服從()A)均勻分布B)泊松分布C)二項分布D)正態(tài)分布答案:B解析:[單選題]147.決策樹的生成是一個__過程。A)聚類B)回歸C)遞歸D)KNN答案:C解析:[單選題]148.考慮如下數(shù)據(jù)集,其中CustomerID(顧客id),TransactionID(事務(wù)id),ItemsBought(購買項)。如果將每個事務(wù)id看成一個購物籃,計算項集{e},{b,d},{b,D,e}的支持度:A)s({e})=0.8s({b,d})=0.2s({b,D,e})=0.2B)s({e})=0.7s({b,d})=0.3s({b,D,e})=0.3C)s({e})=0.6s({b,d})=0.4s({b,D,e})=0.3D)s({e})=0.8s({b,d})=0.1s({b,D,e})=0.1答案:A解析:[單選題]149.向量X=[1,2,3,4,-9,0]的L1范數(shù)為?A)1B)19C)6D)√111答案:B解析:L0范數(shù)表示向量中所有非零元素的個數(shù);L1范數(shù)指的是向量中各元素的絕對值之和,又稱?稀疏矩陣算子?;L2范數(shù)指的是向量中各元素的平方和再求平方根。本例中,L0范數(shù)為5,L1范數(shù)為19,L2范數(shù)為√111。[單選題]150.以下對結(jié)構(gòu)化數(shù)據(jù)描述不正確的是()。A)結(jié)構(gòu)化數(shù)據(jù)可以直接用傳統(tǒng)關(guān)系數(shù)據(jù)庫進(jìn)行存儲B)先有結(jié)構(gòu),后有數(shù)據(jù)C)語音數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)D)XML不是結(jié)構(gòu)化數(shù)據(jù)答案:C解析:[單選題]151.假負(fù)率是指()。A)正樣本預(yù)測結(jié)果數(shù)/正樣本實際數(shù)B)被預(yù)測為負(fù)的正樣本結(jié)果數(shù)/正樣本實際數(shù)C)被預(yù)測為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實際數(shù)D)負(fù)樣本預(yù)測結(jié)果數(shù)/負(fù)樣本實際數(shù)答案:B解析:[單選題]152.下列關(guān)于數(shù)據(jù)的說法,不正確的是()A)數(shù)據(jù)的類別有多種多樣B)數(shù)據(jù)庫中的一列代表一個特征C)一組數(shù)據(jù)平均值不會受異常值影響D)數(shù)據(jù)點之間的距離滿足d_ij+d_jk≥d_ik答案:C解析:[單選題]153.以下哪個語句可以實現(xiàn)加載scikit-learn模塊的iris數(shù)據(jù)集:A)iris=datasets.read_iris()B)iris=datasets.load_iris()C)iris=datasets.iris()D)iris=datasets.load.iris()答案:B解析:[單選題]154.給定測試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個訓(xùn)練樣本,然后基于這k個樣本的信息來進(jìn)行預(yù)測。這種學(xué)習(xí)算法稱為(__)。A)k-meansB)k近鄰學(xué)習(xí)C)隨機森林D)決策樹答案:B解析:[單選題]155.以下哪個圖是KNN算法的訓(xùn)練邊界alt="">A)BB)AC)DD)CE)都不是答案:B解析:KNN算法肯定不是線性的邊界,所以直的邊界就不用考慮了。另外這個算法是看周圍最近的k個樣本的分類用以確定分類,所以邊界一定是坑坑洼洼的。第2部分:多項選擇題,共49題,每題至少兩個正確答案,多選或少選均不得分。[多選題]156.下列屬于無監(jiān)督學(xué)習(xí)任務(wù)的還有(__)。A)密度估計B)異常檢測C)聚類D)分類答案:ABC解析:[多選題]157.關(guān)于Zookeeper集群容錯性的說法,正確的有()A)3個節(jié)點的cluster可以掛掉1個節(jié)點B)3個節(jié)點的cluster可以掛掉2個節(jié)點C)4個節(jié)點的cluster可以掛掉2個節(jié)點D)2個節(jié)點的cluster不能掛掉任何1個節(jié)點答案:AD解析:[多選題]158.Zookeeper運行的模式可以為()A)StandAloneB)StooolC)StandUpD)集群模式答案:AD解析:[多選題]159.下列關(guān)于嵌入式選擇描述錯誤的是(__)。A)嵌入式選擇是將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,兩者在同一個優(yōu)化過程中完成B)從最終學(xué)習(xí)器性能來看,嵌入式特征選擇比過濾式特征選擇更好C)嵌入式特征選擇的計算開銷通常比過濾式特征選擇大得多D)嵌入式特征選擇方法直接針對給定學(xué)習(xí)器進(jìn)行優(yōu)化答案:BCD解析:[多選題]160.數(shù)據(jù)科學(xué)的基本流程包含(__)。A)數(shù)據(jù)化B)探索性分析C)數(shù)據(jù)分析D)數(shù)據(jù)存儲答案:ABC解析:[多選題]161.數(shù)據(jù)科學(xué)項目主要涉及的角色有(__)和項目發(fā)起人、客戶、項目經(jīng)理。A)數(shù)據(jù)科學(xué)家B)領(lǐng)域?qū)<褻)數(shù)據(jù)工程師D)操作人員答案:ACD解析:[多選題]162.邏輯回歸的一般過程是()A)擬合sigmoidfunctionB)某個樣本的sigmoidfunction的計算結(jié)果看做是這個樣本屬于類別1的概率C)其它樣本的sigmoidfunction的計算結(jié)果看做是樣本屬于類別0的概率D)將sigmoidfunction的計算結(jié)果大于等于0.5的歸屬為類別1,小于0.5的歸為類別0答案:ABD解析:[多選題]163.神經(jīng)網(wǎng)絡(luò)起源很早,但真正被大規(guī)模商用還是在本世紀(jì),你覺得阻礙神經(jīng)網(wǎng)絡(luò)在上世紀(jì)發(fā)展的主要原因是什么()A)理論沒有發(fā)展起來B)科學(xué)界不重視C)計算能力跟不上D)標(biāo)注數(shù)據(jù)不足答案:CD解析:[多選題]164.下列關(guān)于自助法描述錯誤的是(__)。A)自助法在數(shù)據(jù)集較大、難以有效劃分訓(xùn)練集或測試集是很有用B)自助法能從初始數(shù)據(jù)集中產(chǎn)生多個不同的訓(xùn)練集C)自助法產(chǎn)生的數(shù)據(jù)集沒有改變初始數(shù)據(jù)集的分布D)在初始數(shù)據(jù)量足夠時,留出法和交叉驗證法較自助法更為常用答案:AC解析:[多選題]165.現(xiàn)實任務(wù)中一般有哪兩種策略來產(chǎn)生規(guī)則A)隨機比對法B)窮盡搜索的序貫覆蓋法C)自頂而下的序貫覆蓋法D)自底向上的序貫覆蓋法答案:CD解析:[多選題]166.影響深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練效果的因素有()A)學(xué)習(xí)率B)訓(xùn)練集規(guī)模C)網(wǎng)絡(luò)深度D)激活函數(shù)答案:ABCD解析:[多選題]167.關(guān)于ELM神經(jīng)網(wǎng)絡(luò)的描述,下列選項中正確的是()A)通過梯度下降法,利用反向傳播的方式來進(jìn)行學(xué)習(xí)B)是一種泛化的單隱層前饋神經(jīng)網(wǎng)絡(luò)C)容易形成局部極小值而得不到全局最優(yōu)值D)輸入層和隱含層之間的權(quán)重和隱含層節(jié)點的閾值是通過隨機初始化得到的答案:BD解析:[多選題]168.根據(jù)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號),大數(shù)據(jù)的主要特征包括A)容量大B)類型多C)存取速度快D)價值密度低答案:ABCD解析:[多選題]169.__可以用來判斷學(xué)習(xí)器的性能。A)P-R曲線B)BEPC)F1度量D)Fβ度量答案:ABCD解析:[多選題]170.數(shù)據(jù)柔術(shù)強調(diào)的基本問題有(__)。A)設(shè)計思維問題B)產(chǎn)品開發(fā)要有較高的藝術(shù)性C)以目標(biāo)用戶為中心的產(chǎn)品開發(fā)D)支持人機交互問題答案:BC解析:[多選題]171.以下能力中,數(shù)據(jù)工程師需要具備的能力或素質(zhì)是()。A)數(shù)據(jù)洞見B)數(shù)據(jù)的ETL操作C)數(shù)據(jù)的備份與恢復(fù)D)主數(shù)據(jù)管理及數(shù)據(jù)集成答案:BCD解析:[多選題]172.假設(shè)你有一個非常大的訓(xùn)練集合,如下機器學(xué)習(xí)算法中,你覺著有哪些是能夠使用map-reduce框架并能將訓(xùn)練集劃分到多臺機器上進(jìn)行并行訓(xùn)練()A)邏輯斯特回歸(LR),以及隨機梯度下降(SGD)B)線性回歸及批量梯度下降(BGD)C)神經(jīng)網(wǎng)絡(luò)及批量梯度下降(BGD)D)針對單條樣本進(jìn)行訓(xùn)練的在線學(xué)習(xí)答案:BC解析:LR,SVM,NN,KNN,KMeans,DT,NB都可以用mapreduce并行。[多選題]173.交叉驗證可用于(__)、(__)和(__)。A)分類B)參數(shù)選擇C)模型選擇D)特征選擇答案:BCD解析:[多選題]174.關(guān)于貝葉斯網(wǎng)的結(jié)構(gòu)描述正確的為A)有效表達(dá)了屬性件的條件獨立性;B)給定了父結(jié)點集;C)同父,順序和V型結(jié)構(gòu)為主要涉及的技術(shù);D)所有屬性之間相互獨立;答案:ABC解析:[多選題]175.下列算法屬于深度學(xué)習(xí)的是()A)卷積神經(jīng)網(wǎng)絡(luò)B)循環(huán)神經(jīng)網(wǎng)絡(luò)C)決策樹D)受限玻爾茲曼機答案:ABD解析:[多選題]176.下列關(guān)于Boosting算法說法正確的是(__)。A)Boosting算法要求基學(xué)習(xí)器能對特定的數(shù)據(jù)分布進(jìn)行學(xué)習(xí)B)Boosting對無法接受帶權(quán)樣本的基學(xué)習(xí)算法,可通過重采樣法進(jìn)行處理C)Boosting算法在訓(xùn)練的每一輪都要檢查當(dāng)前生成的基學(xué)習(xí)器是否滿足基本條件D)一旦當(dāng)前生成的基學(xué)習(xí)器不滿足條件,則當(dāng)前基學(xué)習(xí)器被拋棄,且學(xué)習(xí)過程停止答案:ABCD解析:[多選題]177.zookeeper常用的命令有哪些A)deleteB)getC)setD)Create答案:ABCD解析:[多選題]178.以下屬于數(shù)據(jù)挖掘與分析工具的有()。A)TableauB)PythonC)SPSSD)Alteyx答案:ABCD解析:常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。[多選題]179.下面關(guān)于特征選擇和特征提取的描述正確的是()A)Relief算法屬于特征提取方法B)特征選擇的目標(biāo)是從原始的d個特征中選擇k個特征C)特征提取的目標(biāo)是根據(jù)原始的d個特征的組合形成k個新的特征D)PCA屬于特征選擇方法答案:BC解析:[多選題]180.下面關(guān)于最大熵模型的描述,正確的是()A)思想是在滿足一定約束條件下,概率分布的熵最大B)是一種信息論模型C)在已知均值和方差的條件下,最大熵分布是高斯分布D)在已知均值和方差的條件下,最大熵分布是指數(shù)分布答案:ABC解析:[多選題]181.如右圖所示無向圖,它的極大團包括()A){B,C,D}B){A,B}C){A,B,C}D){A,B,C,D}答案:AC解析:[多選題]182.在分析句子結(jié)構(gòu)時,句子的內(nèi)部組織結(jié)構(gòu)用樹來表示,組成的結(jié)構(gòu)具有顯著的特點是()A)遞歸B)中心詞C)循環(huán)D)修飾語答案:ABD解析:[多選題]183.學(xué)習(xí)器結(jié)合可能從哪些方面帶來好處A)統(tǒng)計方面B)計算方面C)表示方面D)預(yù)測方面答案:ABC解析:[多選題]184.下列方法中,解決欠擬合的方法有哪些()A)正則化方法B)集成學(xué)習(xí)方法C)添加新特征D)減少正則化系數(shù)答案:BCD解析:[多選題]185.根據(jù)學(xué)習(xí)形式,數(shù)據(jù)科學(xué)中機器學(xué)習(xí)可分為(__)。A)人工神經(jīng)網(wǎng)絡(luò)和增強學(xué)習(xí)B)基于實例學(xué)習(xí)C)遺傳算法D)貝葉斯學(xué)習(xí)答案:ABCD解析:[多選題]186.關(guān)于線性回歸說法不正確的是()A)梯度下降在靠近極大值時速度減慢B)梯度下降學(xué)習(xí)率a的選擇不合適不影響模型結(jié)果C)線性回歸對異常值非常敏感D)適用于預(yù)測目標(biāo)與特征之間線性關(guān)系強的數(shù)據(jù)集答案:AB解析:[多選題]187.以下不是人工智能深度學(xué)習(xí)技術(shù)先尋找的是()A)概率B)數(shù)據(jù)C)梯度D)函數(shù)答案:ABC解析:[多選題]188.關(guān)于決策樹的CART分類樹構(gòu)造算法和ID3算法,下列說法正確的是?A)選擇切分特征時,ID3算法使用信息熵B)選擇切分特征時,CART算法使用基尼指數(shù)來度量一個數(shù)據(jù)集的混亂程度C)選擇切分特征時,ID3算法使用基尼指數(shù)D)選擇切分特征時,CART算法使用信息熵答案:AB解析:[多選題]189.下列屬于DBSCAN算法的特點的是(__)。A)對噪音敏感B)能發(fā)現(xiàn)任意形狀的簇C)對參數(shù)的設(shè)置敏感D)DBSCAN使用固定的參數(shù)識別聚類答案:BCD解析:[多選題]190.影響K-Means聚類算法結(jié)果的主要因素有()A)樣本順序B)相似性度量C)初始聚類中心D)樣本類別答案:BC解析:[多選題]191.下列關(guān)于支持向量的說法錯誤的是(__)。A)支持向量回歸機的支持向量落在它規(guī)定的間隔帶之內(nèi)B)支持向量回歸機的支持向量落在它規(guī)定的間隔帶之外C)支持向量回歸機的支持向量只占訓(xùn)練集的一部分D)訓(xùn)練集中的全部樣本都是支持向量答案:BD解析:[多選題]192.以下關(guān)于機器學(xué)習(xí)的發(fā)展歷程描述正確的是(___)。A)機器學(xué)習(xí)是人工智能研究發(fā)展到一定階段的必然產(chǎn)物B)二十世紀(jì)五十年代到七十年代出,人工智能研究處于?推理期?C)圖靈在1950年關(guān)于圖靈測試的文章中,就曾提到了機器學(xué)習(xí)的可能D)人工智能在二十世紀(jì)五十到八十年代經(jīng)歷了?推理期?和?知識期?答案:ABCD解析:[多選題]193.邏輯學(xué)中,()和()是人類人事世界的兩種基本方式A)推導(dǎo)B)演繹C)歸納D)泛化答案:BC解析:[多選題]194.一個交叉驗證將數(shù)據(jù)集分成兩個互補的子集,分別是(__)和(__)。A)訓(xùn)練集B)測試集C)子集D)補集答案:AB解析:[多選題]195.隨機森林的隨機性在于()A)隨機樣本B)隨機特征C)隨機特征組合D)隨機分裂規(guī)則答案:ABCD解析:[多選題]196.圖像分割中常使用的領(lǐng)域有()。A)0鄰域B)4鄰域C)8鄰域D)24鄰域答案:BC解析:[多選題]197.K近鄰算法實現(xiàn)的基本步驟有A)計算距離,并按距離排序B)選取距離最小的K個點C)確定k點中各分類的出現(xiàn)概率D)返回出現(xiàn)概率最高的分類答案:ABCD解析:[多選題]198.根據(jù)波士頓郊區(qū)房屋信息,預(yù)測房屋價格。適合采用的方法有?A)CART回歸決策樹B)線性回歸C)樸素貝葉斯D)CART分類決策樹答案:AB解析:[多選題]199.模仿學(xué)習(xí)包含以下哪兩種學(xué)習(xí)方法A)值函數(shù)近似B)直接模仿學(xué)習(xí)C)逆強化學(xué)習(xí)D)間接模仿學(xué)習(xí)答案:BC解析:[多選題]200.下列關(guān)于特征選擇方法說法正確的是A)過濾式方法先對數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān)B)包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評價標(biāo)準(zhǔn)C)包裹式特征選擇過程中需要多次訓(xùn)練學(xué)習(xí)器,因此包裹式特征選擇的計算開銷通常比較大D)嵌入式特征選擇是將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,兩者在同一個優(yōu)化過程中完成答案:ABCD解析:[多選題]201.以下描述錯誤的是:A)SVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器(minimalmarginclassifier)B)在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。C)在決策樹中,隨著樹中結(jié)點數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。D)聚類分析可以看作是一種非監(jiān)督的分類。答案:ABC解析:[多選題]202.以下屬于聚類算法的是:A)K均值B)DBSCANC)AprioriD)樸素貝葉斯答案:AB解析:[多選題]203.關(guān)于Word2vec,下列哪些說法是正確的()A)Word2vec是無監(jiān)督學(xué)習(xí)B)Word2vec利用當(dāng)前特征詞的上下文信息實現(xiàn)詞向量編碼,是語言模型的副產(chǎn)品C)Word2vec能夠表示詞匯之間的語義相關(guān)性D)Word2vec沒有使用完全的深度神經(jīng)網(wǎng)絡(luò)模型E)Word2vec可以采用負(fù)采樣的方式來節(jié)省計算開銷答案:ABCDE解析:[多選題]204.下面哪些算法模型可以用來完成命名實體的任務(wù)()A)GBDTB)LDAC)HMMD)CRFE)LSTMF)seq2seq答案:CDEF解析:第3部分:判斷題,共33題,請判斷題目是否正確。[判斷題]205.在訓(xùn)練集非常大時,批量梯度下降算法會運行得極慢。隨機梯度下降和小批量梯度下降可以解決該問題A)正確B)錯誤答案:對解析:[判斷題]206.一般情形下,后剪枝決策樹的欠擬合風(fēng)險很小,泛化性能往往優(yōu)于預(yù)剪枝決策樹。A)正確B)錯誤答案:對解析:[判斷題]207.logistic函數(shù)是一種線性函數(shù)A)正確B)錯誤答案:錯解析:[判斷題]208.CART分類樹構(gòu)造算法在選擇切分特征時,選擇使得每一個特征條件下基尼指數(shù)最大的特征來切分?jǐn)?shù)據(jù)形成子集A)正確B)錯誤答案:錯解析:[判斷題]209.線性回歸是一種有監(jiān)督機器學(xué)習(xí)算法,它使用真實的標(biāo)簽進(jìn)行訓(xùn)練。A)正確B)錯誤答案:對解析:[判斷題]210.已知學(xué)得規(guī)則:好瓜←(根蒂=蜷縮)?(臍部=凹陷)。則被該規(guī)則覆蓋的樣本是好瓜,沒被覆蓋的不是好瓜。A)正確B)錯誤答案:錯解析:[判斷題]211.數(shù)據(jù)標(biāo)準(zhǔn)化有利于加快模型的收斂速度,提高模型的泛化能力。A)正確B)錯誤答案:對解析:[判斷題]212.集合中的元素沒有特定順序但可以重復(fù)。A)正確B)錯誤答案:錯解析:[判斷題]213.FOIL不支持函數(shù)和邏輯表達(dá)式嵌套A)正確B)錯誤答案:對解析:[判斷題]214.樸素貝葉斯做了一個很強的?特征條件獨立性假設(shè)?把問題簡化,即假設(shè)的各個特征之間相互獨立,一個特征出現(xiàn)的概率不受其他特征的影響。A)正確B)錯誤答案:對解析:[判斷題]215.CART算法處理回歸問題時,要求算法輸出的是布爾值A(chǔ))正確B)錯誤答案:錯解析:[判斷題]216.Pandas只有Series和DataFrame兩種數(shù)據(jù)結(jié)構(gòu)。A)正確B)錯誤答案:錯解析:Pandas有Series、DataFrame、Panel三種數(shù)據(jù)結(jié)構(gòu)[判斷題]217.對抗神經(jīng)網(wǎng)絡(luò)可以通過兩個神經(jīng)網(wǎng)絡(luò)的博弈,達(dá)到更好的學(xué)習(xí)效果A)正確B)錯誤答案:對解析:[判斷題]218.綜合編碼長度最短的貝葉斯網(wǎng)就是最小描述長度準(zhǔn)則A)正確;B)錯誤;答案:對解析:[判斷題]219.只要當(dāng)前的系統(tǒng)中安裝了Anconda,則默認(rèn)就已經(jīng)擁有了JupyterNotebook,不需要再另行下載和安裝。A)正確B)錯誤答案:對解析:[判斷題]220.Sigmoid函數(shù)能夠把輸入的連續(xù)實值變換為0和1之間的輸出。A)正確B)錯誤答案:對解析:[判斷題]221.支持向量是最靠近決策表面的數(shù)據(jù)點A)正確B)錯誤答案:對解析:[判斷題]222.兩個變量相關(guān),它們的相關(guān)系數(shù)r可能為0。這句話是否正確?A)正確B)錯誤答案:對解析:一般來說,相關(guān)系數(shù)r=0是兩變量相互獨立的必要不充分條件。也就是說,如果兩個變量相互獨立,那么相關(guān)系數(shù)r一定為0,如果相關(guān)系數(shù)r=0,則不一定相互獨立。相關(guān)系數(shù)r=0只能說明兩個變量之間不存在線性關(guān)系,仍然可能存在非線性關(guān)系。那么,若兩個變量相關(guān),存在非線性關(guān)系,那么它們的相關(guān)系數(shù)r就為0。[判斷題]223.回歸問題和分類問題都有可能發(fā)生過擬合A)正確B)錯誤答案:對解析:[判斷題]224.邏輯回歸算法是一種廣義的線性回歸分析方法,它僅在線性回歸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 東坡成就介紹課件
- 上海市奉賢區(qū)2025屆高三下學(xué)期二模試題 歷史 含解析
- 專業(yè)職業(yè)課件
- 合伙合同與終止合同
- 遼寧省沈陽市五校協(xié)作體2024-2025學(xué)年高考模擬試卷(1)語文試題含解析
- 山東理工大學(xué)《數(shù)據(jù)結(jié)構(gòu)中俄》2023-2024學(xué)年第一學(xué)期期末試卷
- 山東省青島市第十六中學(xué)2025年重慶一中初三4月月考物理試題含解析
- 銷售合同書范文
- 店鋪租賃合同模板
- 云南省德宏市重點中學(xué)2025屆初三5月模擬考試自選試題含解析
- 養(yǎng)老院安全知識培訓(xùn)課件
- 基礎(chǔ)教育教學(xué)研究項目結(jié)項鑒定審批書
- 中小學(xué)生心理健康教育課件
- 2025年03月北京住房公積金管理中心(北京市住房資金管理中心)公開招聘8人筆試歷年參考題庫考點剖析附解題思路及答案詳解
- 預(yù)防觸電知識培訓(xùn)
- 中藥煎藥室工作制度和流程
- 國開2025年《會計政策判斷與選擇》形考任務(wù)1-9答案
- 京瓷哲學(xué)學(xué)習(xí)與應(yīng)用課件
- 2025年河南對外經(jīng)濟貿(mào)易職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫新版
- 撒哈拉以南非洲(第2課時)課件-2024~2025學(xué)年人教版初中地理七年級下冊
- 2025年甘肅財貿(mào)職業(yè)學(xué)院單招職業(yè)適應(yīng)性考試題庫有答案
評論
0/150
提交評論