工匠杯練習試卷附答案_第1頁
工匠杯練習試卷附答案_第2頁
工匠杯練習試卷附答案_第3頁
工匠杯練習試卷附答案_第4頁
工匠杯練習試卷附答案_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第頁工匠杯練習試卷附答案1.如果要清空文件,需要使用的命令是()。A、close()B、seek(0)C、truncate(0)Dwrite('stuff')【正確答案】:C解析:

truncate(size)方法將截斷文件,大小為size,size為0即清空2.__new__和__init__的區(qū)別,說法不正確的是()。A、__new__是一個實例方法,而__init__是一個靜態(tài)方法B、__new__方法會返回一個創(chuàng)建的實例,而__init__什么都不返回C、只有在__new__返回一個cls的實例時,后面的__init__才能被調用D、當創(chuàng)建一個新實例時調用__new__,初始化一個實例時用__init__【正確答案】:A解析:

__init__是一個實例方法,而__new__是一個靜態(tài)方法。3.matplotlib中的legend函數(shù)作用是什么()。A、設置標簽文本B、繪制網(wǎng)格線C、標示不同圖形的文本標簽圖例D、設置x軸的數(shù)值顯示范圍【正確答案】:C解析:

legend用于添加圖例。4.Numpy.array數(shù)組的簡稱是()。A、arrayB、nparrayC、NdarrayD、pyarray【正確答案】:C解析:

Numpy的array數(shù)組類被調用的是N維數(shù)組對象Ndarray。5.()在劃分屬性時是在當前結點的屬性集合中選擇一個最優(yōu)屬性。AdaBoostB、RFC、BaggingD、傳統(tǒng)決策樹【正確答案】:D解析:

傳統(tǒng)決策樹在選擇劃分屬性時,是在當前節(jié)點的屬性集合中選擇一個最優(yōu)屬性進行劃分。6.評估完模型后,我們發(fā)現(xiàn)模型中有很高的偏差。我們怎樣來減少這個偏差?A、減少模型中特征的數(shù)量B、增加模型中特征的數(shù)量C、增加模型中的數(shù)據(jù)點D、以上所有【正確答案】:B7.a=np.arange(10),a[2:4]截取到的數(shù)組為()。A、[1,2,3]B、[2,3,4]C、[2,3]D、[1,2]【正確答案】:C解析:

np.arange(10)創(chuàng)建從0-9的一維數(shù)組,數(shù)組切片下表索引從0開始。8.隨機試驗所有可能出現(xiàn)的結果,稱為()A、基本事件B、樣本C、全部事件D、樣本空間【正確答案】:D解析:

隨機試驗中的每一個可能出現(xiàn)的試驗結果稱為這個試驗的一個樣本點。全體樣本點組成的集合,即隨機試驗的所有可能出現(xiàn)的結果稱為這個試驗的樣本空間。9.下列關于Python函數(shù)調用說法錯誤的是()。A、函數(shù)的遞歸調用必須有一個明確的結束條件B、函數(shù)的遞歸調用每次進入更深一層遞歸時,問題規(guī)模相比上次遞歸都應有所減少C、函數(shù)的遞歸調用效率不高,遞歸層次過多會導致棧溢出(在計算機中,函數(shù)調用是通過棧(stack)這種數(shù)據(jù)結構實現(xiàn)的,每當進入一個函數(shù)調用,棧就會加一層棧幀,每當函數(shù)返回,棧就會減一層棧)D、函數(shù)的遞歸調用由于棧的大小是無限的,所以,遞歸調用的次數(shù)過多,也不會導致棧溢出【正確答案】:D解析:

由于棧的大小不是無限的,所以,遞歸調用的次數(shù)過多,會導致棧溢出。10.ordinalencoder將屬性轉化為()。A、獨熱編碼B、附帶特性的數(shù)字C、二進制編碼D、ASCII碼【正確答案】:B解析:

ordinalencoder的作用是數(shù)值化,但是不增加列數(shù)。11.以下哪一種分布是二維隨機變量的分布()。A、正態(tài)分布B、二項分布C、邊緣分布

D、指數(shù)分布【正確答案】:C解析:

二維隨機變量的分布有邊緣分布和條件分布12.下列哪個不是stats模塊中的功能()。A、連續(xù)性分布B、線性方程求解C、離散型分布D、核密度估計【正確答案】:B解析:

stats模塊包含了隨機變量樣本抽取、84個連續(xù)性分布、12個離散型分布、分布的密度分布函數(shù)、核密度估計、分布構造、分布檢驗等功能,但不包括線性方程求解。13.若a=np.array([[1,2,3],[4,5,6]]),則print(np.mean(a))的輸出結果是(__)。A、([2.][5.])B、3.5C、([3.5])D、[2.5.]【正確答案】:B解析:

利用python進行數(shù)據(jù)分析14.讀代碼,請寫出程序正確的答案()。#!/usr/bin/envpython3n=100sum=0counter=1whilecounter<=n:sum+countercounter+=1print("1到%d之和為:%d"%(n,sum))A、結果:1到100之和為:5000B、結果:1到100之和為:0C、結果:1到100之和為:2050D、結果:1到100之和為:5020【正確答案】:B解析:

循環(huán)中沒有給sum賦值,故sum=15.池化層的作用是()。A、標準化處理輸入特征B、對特征圖進行特征選擇和信息過濾C、對提取的特征進行非線性組合以得到輸出D、直接輸出每個像素的分類結果【正確答案】:B解析:

《數(shù)據(jù)科學》16.當圖像通過信道傳輸時,噪聲一般與()無關。A、信道傳輸?shù)馁|量B、出現(xiàn)的圖像信號C、是否有中轉信道的過程D、圖像在信道前后的處理【正確答案】:B解析:

當圖像通過信道傳輸時,噪聲一般與出現(xiàn)的圖像信號無關,這種獨立于信號的退化被稱為加性噪聲。信道傳輸質量、中轉信道都會影響圖像質量,而圖像在信道前后的預處理和后處理也會產(chǎn)生噪聲。17.scipy中模塊integrate的作用是()。A、程序輸入輸出B、差值計算C、計算積分D、向量計算;【正確答案】:C解析:

scipy中,integrate是用來進行積分計算的模塊。18.下面哪個不是hdfs副本放置策略()。A、本機B、當?shù)貦C架C、不同機架的同一個節(jié)點D、不同機架的不同節(jié)點【正確答案】:A解析:

每個hdfs文件應至少有三個副本,一份在當?shù)貦C架,一份在不同機架的同一個節(jié)點,一份在不同機架的不同節(jié)點。19.Hadoop中,Reducer的三個階段是__。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shuffle-Reduce【正確答案】:A解析:

Reducer主要分為三個步驟Shuffle洗牌、Sort排序和Reduce20.下列關于數(shù)據(jù)倉庫最終目的的描述正確的是()A、收集業(yè)務需求B、建立數(shù)據(jù)倉庫邏輯模型C、開發(fā)數(shù)據(jù)倉庫的應用分析D、為用戶和業(yè)務部門提供決策支持【正確答案】:D解析:

基礎知識參考【正確答案】:D解析:數(shù)據(jù)倉庫的最終目的是為用戶和業(yè)務部門提供決策支持。21.在多分類學習中,不屬于經(jīng)典的拆分策略有()。A、一對其余(Onevs.Rest,簡稱OvR)B、二對二(Twovs.Two,簡稱TvT)C、多對多(Manyvs.Many,簡稱MvM)D、一對一(Onevs.One,簡稱OvO)【正確答案】:B解析:

《機器學習》22.以下程序的輸出結果是:ls=list({'shandong':200,'hebei':300,'beijing':400})print(ls)A、['shandong','hebei','beijing']B、[300,200,400]C、['300','200','400']D、[[‘shandong':200],['hebei':300],['beijing':400]]【正確答案】:A23.以下代碼中繪制散點圖的是()。A、plt.scatter(x,y)B、plt.plot(x,y)C、plt.legend('upperleft)D、plt.xlabel(散點圖"")【正確答案】:A解析:

scatter用于繪制散點圖。24.在多元線性回歸模型中,若某個解釋變量對其余解釋變量的判定系數(shù)接近于1,則表明模型中存在()。A、異方差B、序列相關C、多重共線性D、高擬合優(yōu)度【正確答案】:C解析:

在多元線性回歸模型中,若某個解釋變量對其余解釋變量的判定系數(shù)接近于1,則表明模型中存在多重共線性。25.數(shù)據(jù)管理成熟度模型——DMM模型將一個機構的數(shù)據(jù)管理工作抽象成6個關鍵過程域,即數(shù)據(jù)戰(zhàn)略、()、數(shù)據(jù)質量、平臺與架構、數(shù)據(jù)操作以及輔助性過程。A、數(shù)據(jù)管理B、數(shù)據(jù)治理C、數(shù)據(jù)策略D、數(shù)據(jù)安全【正確答案】:B解析:

DMM模型將一個機構的數(shù)據(jù)管理工作抽象成6個關鍵過程域,即數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)質量、平臺與架構、數(shù)據(jù)操作以及輔助性過程。26.以下代碼的輸出結果為()。arr1=np.arange(0,16,1).reshape(4,4)np.delete(arr1,1,axis=1)print(arr1)A、[[0,2,3],[4,6,7],[8,10,11],[12,14,15]]B、[[0,1,2,3],[8,9,10,11],[12,13,14,15]]C、[[0,1,2,3],[4,5,6,7],[8,9,10,11],[12,13,14,15]]D、[[1,2,3],[5,6,7],[9,10,11],[13,14,15]]【正確答案】:C解析:

np.delete()不會改變原數(shù)組,而是新建數(shù)組進行刪除。27.下列哪個不屬于常用的文本分類的特征選擇算法()。A、卡方檢驗值B、互信息C、信息增益D、主成分分析【正確答案】:D解析:

以文檔頻率為基礎的特征選擇算法有文檔頻次方法(直接依據(jù)文檔頻率大小排序的方法)、卡方檢驗、信息增益、互信息等,不包括主成分分析法。28.圖像中虛假輪廓的出現(xiàn)就其本質而言是()。A、圖像的灰度級數(shù)不夠多而造成的B、圖像的空間分辨率不夠高而造成的C、圖像的灰度級數(shù)過多而造成的D、圖像的空間分辨率過高而造成的【正確答案】:A解析:

圖像中的虛假輪廓最易在平滑區(qū)域內產(chǎn)生。平滑區(qū)域內灰度應緩慢變化,但當圖像的灰度級數(shù)不夠多時會產(chǎn)生階躍。所以圖像中虛假輪廓的出現(xiàn)就其本質而言是圖像的灰度級數(shù)不夠多而造成的,選A。29.下面哪行代碼最適合接受系統(tǒng)輸入的一個整數(shù)()。A、num=input()B、num=input(“6”)C、num=int(input())D、num=float(input())【正確答案】:C解析:

AB輸入后是字符串;C輸入后是整數(shù);D輸入后是浮點數(shù)。30.留出法直接將數(shù)據(jù)集劃分為()個互斥的集合。A、一B、二C、三D、四【正確答案】:B解析:

留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個互斥的集合,其中一個集合作為訓練集,另一個作為測試集T。31.關于Python賦值語句,以下選項中不合法的是()。A、x=1;y=1B、x=y=1C、x=(y=1)D、x,y=y,x【正確答案】:C解析:

賦值語句不能用于賦值。32.在MapReduce中,以下描述錯誤的有()。A、Worker故障和Master故障的處理方法不相同B、Map和Reduce的處理結果都存儲在本地文件系統(tǒng)C、一個Worker發(fā)生故障時,該節(jié)點上執(zhí)行完的Map任務需要再次執(zhí)行D、MapReduce具有很強的容錯機制【正確答案】:B解析:

已經(jīng)完成的Map任務的輸出存儲在本臺機器上,Reduce任務的輸出存儲在全局文件系統(tǒng)上,故B錯。33.所有預測模型在廣義上都可稱為一個或一組()。A、公式B、邏輯C、命題D、規(guī)則【正確答案】:D解析:

所有預測模型在廣義上都可稱為一個或一組規(guī)則。34.Python代碼中mpl.rcParams['font.sans-serif']=['SimHei']的作用是()。A、設置圖表中文顯示的字體B、設置圖表圖例的位置C、設置圖表標題的顏色D、設置圖表標題的位置【正確答案】:A解析:

設置圖表字體以正確顯示中文。35.scipy中()是空間數(shù)據(jù)結構和算法模塊。A、clusterB、constantsC、integrateD、spatial【正確答案】:D解析:

spatial模塊是Scipy中的空間結構模塊,提供了一些空間相關的數(shù)據(jù)結構和算法,如Delaunay三角剖分,共面點,凸包,維諾圖,Kd樹等。36.常用的灰度內插值法不包括()。A、最近鄰內插法B、三次內插法C、雙線性內插值法D、三次樣條插值法【正確答案】:D解析:

常用的灰度內插值法有最近鄰內插法,三次內插法,雙線性內插值法,所以本題答案有ABC三個,建議題目修改為常用的灰度內插值法不包括,參考答案為D。37.評估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應該如何解決()。A、減少模型的特征數(shù)量B、增加模型的特征數(shù)量C、增加樣本數(shù)量D、以上答案都正確【正確答案】:B解析:

如果模型存在高偏差,意味著模型過于簡單,為了使模型更加健壯,可以在特征空間中添加更多的特征。而增加樣本數(shù)量將減少方差。38.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種,不屬于大數(shù)據(jù)涌現(xiàn)的形式()。A、價值涌現(xiàn)B、隱私涌現(xiàn)C、物質涌現(xiàn)D、安全涌現(xiàn)【正確答案】:C解析:

大數(shù)據(jù)并不等同于“小數(shù)據(jù)的集合”。因為,從“小數(shù)據(jù)”到“大數(shù)據(jù)”的過程中出現(xiàn)了“涌現(xiàn)”現(xiàn)象,“涌現(xiàn)”才是大數(shù)據(jù)的本質特征。所謂的“涌現(xiàn)(Emergence)”就是“系統(tǒng)大于元素之和,或者說系統(tǒng)在跨越層次時,出現(xiàn)了新的質”。大數(shù)據(jù)“涌現(xiàn)”現(xiàn)象的具體表現(xiàn)形式有多種,例如價值涌現(xiàn)、隱私涌現(xiàn)、質量涌現(xiàn)和安全涌現(xiàn)等。39.從行為目的與思維方式看,下列哪個屬于描述統(tǒng)計方法()。A、線性回歸B、參數(shù)估計C、相關分析D、主成分分析【正確答案】:C解析:

描述性統(tǒng)計,是指運用制表和分類,圖形以及計算概括性數(shù)據(jù)來描述數(shù)據(jù)特征的各項活動。描述性統(tǒng)計分析要對調查總體所有變量的有關數(shù)據(jù)進行統(tǒng)計性描述,主要包括數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散程度分析、分布、相關以及一些基本的統(tǒng)計圖形。40.MapReduce對map()函數(shù)的返回值進行處理后再返回給reduce()函數(shù)的目的是()。A、減少map()函數(shù)和reduce()函數(shù)之間的數(shù)據(jù)傳輸B、優(yōu)化map()函數(shù)C、優(yōu)化reduce()函數(shù)D、這一步驟并無必要【正確答案】:A解析:

為了降低map()函數(shù)與reduce()函數(shù)之間的數(shù)據(jù)傳輸量,一般先對map()函數(shù)的輸出結果進行處理。41.BP神經(jīng)網(wǎng)絡經(jīng)常遭遇(____),其訓練誤差持續(xù)降低,但測試誤差卻可能上升。A、欠擬合B、誤差過大C、誤差過小D、過擬合【正確答案】:D42.下列程序段執(zhí)行后,輸出結果是()。n=1s=1whilen<5:s=s*nn=n+1Print(s)A、24B、10C、120D、15【正確答案】:A解析:

該段程序執(zhí)行結果為1*1*2*3*4等于24。43.下列關于誤差的說法,正確的是()。A、訓練樣本容量增加,泛化誤差也會增加B、過擬合指數(shù)據(jù)在訓練集上的誤差過大C、過擬合可以通過減少模型參數(shù)數(shù)量解決D、交叉驗證不重復使用數(shù)據(jù)【正確答案】:C解析:

解決過擬合的兩條主線:一是增大數(shù)據(jù)集,二是降低模型的復雜度(根據(jù)VC維理論可知)。44.SLIC算法的主要目的是()。A、目標識別B、前景和背景分離C、超像素提取D、語義分割【正確答案】:C解析:

SLIC是基于K-means算法的生成超像素新方法,SLIC是超像素中心周圍的區(qū)域2S×2S中進行類似像素的搜索45.下列關于線性回歸分析中的殘差說法正確的是()。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確【正確答案】:A解析:

線性回歸分析中,目標是殘差最小化。殘差平方和是關于參數(shù)的函數(shù),為了求殘差極小值,令殘差關于參數(shù)的偏導數(shù)為零,會得到殘差和為零,即殘差均值為零。46.RNN不同于其它神經(jīng)網(wǎng)絡的地方在于(__)。A、實現(xiàn)了記憶功能B、速度快C、精度高D、易于搭建【正確答案】:A解析:

RNN不同于其它神經(jīng)網(wǎng)絡的地方在于實現(xiàn)了記憶功能。47.下列哪項關于模型能力(指神經(jīng)網(wǎng)絡模型能擬合復雜函數(shù)的能力)的描述是正確的A、隱藏層層數(shù)增加,模型能力增加B、Dropout的比例增加,模型能力增加C、學習率增加,模型能力增加D、都不正確【正確答案】:A48.在linux下預裝了Python2,Python3且默認Python版本為Python3,下列描述可以正確啟動Python有()。A、在linux應用程序Terminal,打開一個終端窗口。輸入whichPythonB、在linux應用程序Terminal,打開一個終端窗口。輸入Python2或Python3C、在linux應用程序Terminal,打開一個終端窗口。輸入whichPython3D、在linux應用程序Terminal,打開一個終端窗口。輸入輸入whichPython2【正確答案】:B解析:

Windows系統(tǒng)下通過在命令行直接輸入python2或者python3啟動Python,Linux系統(tǒng)下通過在Terminal輸入python2或者python3啟動Python。49.下列關于線性模型的描述錯誤的是()。A、支持向量機的判別函數(shù)一定屬于線性函數(shù)B、在樣本為某些分布情況時,線性判別函數(shù)可以成為最小錯誤率或最小風險意義下的最優(yōu)分類器C、在一般情況下,線性分類器只能是次優(yōu)分類器D、線性分類器簡單而且在很多期情況下效果接近最優(yōu),所以應用比較廣泛【正確答案】:A解析:

支持向量機的判別函數(shù)不一定是線性函數(shù)。50.大數(shù)據(jù)環(huán)境下的隱私擔憂,主要表現(xiàn)為()A、個人信息的被識別與暴露B、客戶畫像的生成C、惡意廣告的推送D、病毒入侵【正確答案】:A解析:

大數(shù)據(jù)環(huán)境下的隱私擔憂,主要表現(xiàn)為個人信息的被識別與暴露。51.線性判別分析在二分類問題上,也稱為()。A、線性回歸B、對數(shù)幾率回歸C、Fisher判別分析D、主成分分析【正確答案】:C解析:

線性判別分析在二分類問題上,也稱為Fisher判別分析。52.關系云的一個重要功能是提供()。A、數(shù)據(jù)庫即服務B、虛擬服務C、彈性計算D、按需服務【正確答案】:A解析:

關系云的一個重要功能是提供“數(shù)據(jù)庫即服務(DatabaseasaService)”,用戶無須在本機安裝數(shù)據(jù)庫管理軟件,也不需要搭建自己的數(shù)據(jù)管理集群,而只需要使用服務提供商提供的數(shù)據(jù)庫服務。53.以下不能創(chuàng)建一個字典的語句是()。A、dict1={}B、dict2={3:5}C、dict3={[1,2,3]:“uestc”}D、dict4={(1,2,3):“uestc”}【正確答案】:C解析:

字典key不可以是可變類型54.當我們需要在一張圖表中加上文字標注,達到提醒讀者的目的時,需要用到()函數(shù)。A、plt.axvspan()B、plt.axhspan()C、plt.annotate()D、plt.text()【正確答案】:D解析:

文字標注是text函數(shù)。55.關于模塊下列說法不正確的是()。A、Python模塊(Module),是一個Python文件,以.py結尾,包含了Python對象定義和Python語句。B、模塊讓你能夠有邏輯地組織你的Python代碼段。C、把相關的代碼分配到一個模塊里能讓你的代碼更好用,更易懂。D、模塊不能定義類【正確答案】:D解析:

模塊中可以定義類。56.CPU主要通過增加指令,增加核數(shù)等方式來提升AI性能。A、TRUEB、FALSE【正確答案】:A57.Scipy的stats包中提供了產(chǎn)生連續(xù)性分布的函數(shù),其中用于均勻分布的函數(shù)是()。A、normB、uniformC、betaD、geom【正確答案】:B解析:

均勻分布是uniform。58.()采用概率模型來表達聚類原型。A、k均值算法B、學習向量量化C、高斯混合聚類D、密度聚類【正確答案】:C解析:

高斯混合聚類采用概率模型來表達聚類原型。59.訓練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分類:()。A、正確B、錯誤【正確答案】:A解析:

訓練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分類。60.加強數(shù)據(jù)傳輸、存儲過程中的安全管理,采取_____、_____、_____等安全技術手段,確保符合相應安全條件或技術標準,具備災備能力,防范數(shù)據(jù)泄露、篡改、損毀、丟失風險。A、隔離、過濾、加密B、接入認證、加密、隔離C、過濾、隔離、備份D、加密、隔離、備份【正確答案】:D61.在HDFS中()是文件系統(tǒng)的工作節(jié)點。A、DataNodeB、ClientC、NameNodeD、Flume【正確答案】:A解析:

數(shù)據(jù)節(jié)點(DataNode)是分布式文件系統(tǒng)HDFS的工作節(jié)點,負責數(shù)據(jù)的存儲和讀取,會根據(jù)客戶端或者是名稱節(jié)點的調度來進行數(shù)據(jù)的存儲和檢索,并且向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表。每個數(shù)據(jù)節(jié)點中的數(shù)據(jù)會被保存在各自節(jié)點本地Linux文件系統(tǒng)中。62.scipy中模塊io的作用是()。A、差值計算B、程序輸入輸出C、稀疏矩陣D、優(yōu)化【正確答案】:B解析:

scipy中,io是用來進行輸入輸出控制的模塊。63.下面代碼的輸出結果是x=0o1010print(x)A、10B、520C、1024D、32768【正確答案】:B64.當try子句中沒有任何錯誤時,一定不會執(zhí)行()語句。A、tryB、slseC、exceptD、finally【正確答案】:C解析:

except是當try語句錯誤才運行。65.在Spark中,()是指RDD的每個分區(qū)都只被子RDD的一個分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】:D解析:

窄依賴定義。66.我們在使用pandas時需要怎樣導入A、ImportpandasaspdB、ImportsysC、ImportmatplotlibD、以上都不正確【正確答案】:A解析:

《Python數(shù)據(jù)分析基礎》,人民郵電出版社67.當決策樹出現(xiàn)過擬合的時候,可以采取以下哪些措施()。A、剪枝B、增加訓練次數(shù)C、減少樣本數(shù)量D、以上均可【正確答案】:A解析:

《機器學習》68.scikit-learn中的k-means類,哪個參數(shù)是用來調節(jié)k值的()。A、n_clustersB、max_iterC、n_initD、init【正確答案】:A解析:

n_clusters參數(shù)設定了k-means算法的聚類個數(shù)。69.()先對數(shù)據(jù)集進行特征選擇,然后再訓練學習器。A、過濾式選擇B、包裹式選擇C、稀疏表示D、嵌入式選擇【正確答案】:A解析:

過濾式選擇先對數(shù)據(jù)集進行特征選擇,然后再訓練學習器。70.數(shù)據(jù)的可用性取決于()。A、數(shù)據(jù)分析B、數(shù)據(jù)集采C、數(shù)據(jù)質量D、數(shù)據(jù)需求【正確答案】:C71.ZooKeeper的特點描述錯誤的是()。A、復雜性B、自我復制C、順序訪問D、高速讀取【正確答案】:A解析:

ZooKeeper的設計目標和特點包括簡單性、自我復制、順序訪問和高速讀取。72.下列關于數(shù)據(jù)科學流程與方法的描述中,錯誤的是()。A、數(shù)據(jù)科學的基本流程包括數(shù)據(jù)化、數(shù)據(jù)加工(DataWrangling或DataMunging)、數(shù)據(jù)規(guī)整化、探索性分析、數(shù)據(jù)分析與洞見、結果展現(xiàn)以及數(shù)據(jù)產(chǎn)品的提供B、對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過清洗成為規(guī)整數(shù)據(jù)C、數(shù)據(jù)分析包括描述性分析、診斷性分析、預測性分析和規(guī)范性分析D、數(shù)據(jù)可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺假象【正確答案】:B解析:

對于數(shù)據(jù)形態(tài)不符合要求的亂數(shù)據(jù),要通過規(guī)整化處理(DataTyding)成為規(guī)整數(shù)據(jù)73.關于拋出異常的說法中,描述錯誤的是()。A、當raise指定異常的類名時,會隱式地創(chuàng)建異常類的實例B、顯式地創(chuàng)建異常類實例,可以使用raise直接引發(fā)C、不帶參數(shù)的raise語句,只能引發(fā)剛剛發(fā)生過的異常D、使用raise拋出異常時,無法指定描述信息【正確答案】:D解析:

raise語句的第一個參數(shù)指定要產(chǎn)生的例外的名字;可選的第二參數(shù)指定例外的參數(shù)。74.Hive的數(shù)據(jù)最終存儲在()A、HDFSB、HBaseC、RDBMSD、Metastore【正確答案】:A解析:

Hive是基于Hadoop分布式文件系統(tǒng)的,它的數(shù)據(jù)存儲在Hadoop分布式文件系統(tǒng)HDFS中75.構造了一個詞表:{1.小明2.喜歡3.踢4.看5.足球6.籃球7.電影},利用上述詞表的索引號,文檔{小明喜歡踢足球}可以用一個7維向量表示為()。A、[1101001]B、[1111111]C、[1111100]D、[1110100]【正確答案】:D解析:

統(tǒng)計文檔中每個詞的數(shù)量,根據(jù)詞表的位置,將各個詞的數(shù)量拼接成一個向量即可。76.隨機森林中的隨機是什么意思?A、隨便構建樹模B、隨機選擇一個樹模型C、隨機選擇多個樹模型D、在構建每個樹模型時隨機選擇樣本和特征【正確答案】:D77.某籃運動員在三分線投球的命中率是2(1),他投球10次,恰好投進3個球的概率()。A、128(15)B、16(3)C、8(5)D、16(7)【正確答案】:A解析:

投籃只有兩種結果,進或者不進,符合二項分布,二項分布概率的概率可以用以下公式求得,其中n=10代表試驗次數(shù),k=3代表事件連續(xù)發(fā)生的次數(shù),p=1/2代表事件發(fā)生的概率。78.下面與Zookeeper類似的框架是()。A、ProtobufB、JavaC、KafkaD、Chubby【正確答案】:D解析:

Chubby—Google的分布式協(xié)調系統(tǒng)79.在抽樣估計中,隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大,這一性質稱為()A、無偏性B、有效性C、及時性D、一致性【正確答案】:D解析:

一致性是指隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大,對于給定的偏差控制水平,兩者間偏差高于此控制水平,兩者間偏差高于此控制水平的可能性越小。80.一幅數(shù)字圖像是()。A、一個觀測系統(tǒng)B、一個由許多像素排列而成的實體C、一個2-D空間中的場景D、一個3-D空間中的場景【正確答案】:C解析:

數(shù)字圖像,又稱數(shù)碼圖像或數(shù)位圖像,是二維圖像用有限數(shù)字數(shù)值像素的表示。81.關于函數(shù)的可變參數(shù),可變參數(shù)*args傳入函數(shù)時存儲的類型是()。A、dictB、tupleC、listD、set【正確答案】:B解析:

*args用來將參數(shù)打包成tuple給函數(shù)體調用;**kwargs打包關鍵字參數(shù)成dict給函數(shù)體調用。82.(假設precision=TP/(TP+FP),recall=TP/(TP+FN))在二分類問題中,當測試集的正例和負例數(shù)量不均衡時,以下評價方案哪個是相對不合理的()。Accuracy:(TP+TN)/allB、F-value:2recallprecision/(recall+precision)C、G-mean:sqrt(precision*recall)D、AUC:曲線下面積【正確答案】:A解析:

測試集正例和負例數(shù)量不均衡,那么假設正例數(shù)量很少占10%,負例數(shù)量占大部分90%。而且算法能正確識別所有負例,但正例只有一半能正確判別。那么TP=05×all,TN=0.9×all,Accuracy=95%。雖然Accuracy很高,precision是100%,但正例recall只有50%。83.對參數(shù)進行L2正則,是機器學習常用的防止過擬合的方法。請問對參數(shù)做L2正則,下列()是對參數(shù)本身做先驗分布假設。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】:A解析:

L2正則假設參數(shù)的先驗分布是Gaussian分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會太大或太小。84.ReLU函數(shù)又稱為修正線性單元,有()特點A、解決梯度消失問題(在正區(qū)間)B、計算簡單C、收斂速度慢【正確答案】:A解析:

《大數(shù)據(jù)應用知識讀本》85.HBase使用一個()節(jié)點協(xié)調管理一個或多個regionserver從屬機。A、namenode;B、datanode;C、jobtracker;D、master;【正確答案】:D解析:

Hbase中由一個Master節(jié)點負責協(xié)調管理一個或多個RegionServer從屬機86.傳統(tǒng)管理技術不包括()。A、數(shù)據(jù)庫系統(tǒng)B、數(shù)據(jù)倉庫C、文件系統(tǒng)D、數(shù)據(jù)視圖【正確答案】:D解析:

《數(shù)據(jù)科學》87.查看變量內存地址的Python內置函數(shù)是()。A、memery()B、id()C、localof()D、help()【正確答案】:B解析:

查看變量內存地址的Python內置函數(shù)是id()。88.在留出法、交叉驗證法和自助法三種評估方法中,()更適用于數(shù)據(jù)集較小、難以劃分訓練集和測試集的情況。A、留出法B、交叉驗證法C、自助法D、留一法【正確答案】:C解析:

自助法更適用于數(shù)據(jù)集較小、難以劃分訓練集和測試集的情況。89.以下關于Python模塊理解錯誤的有()。A、模塊是包含函數(shù)和變量的Python文件B、不可以使用.操作符訪問模塊中的函數(shù)和變量C、可以導入模塊中的所有類D、可以在一個模塊中導入另一個模塊【正確答案】:B解析:

導入模塊后,可直接使用“模塊.函數(shù)名/變量名”訪問函數(shù)或變量。90.如果你的數(shù)據(jù)有許多異常值,那么使用數(shù)據(jù)的均值與方差去做標準化就不行了,在preprocessing模塊中定義了哪個方法可以解決這個問題()。A、normalizer()B、robust_scale()C、maxabs_scale()D、scale()【正確答案】:B解析:

robust_scale()和RobustScaler()這兩個方法,解決了上述問題,它會根據(jù)中位數(shù)或者四分位數(shù)去中心化數(shù)據(jù)。91.隨著集成中個體分類器(相互獨立)數(shù)目T的增大,集成的錯誤率將呈()下降,最終趨向于零。A、指數(shù)級B、對數(shù)級C、線性級D、平方級【正確答案】:A解析:

隨著集成中個體分類器數(shù)目T的增大,集成的錯誤率將指數(shù)級下降,最終趨向于零。92.下列哪一項在神經(jīng)網(wǎng)絡中引入了非線性()A、隨機梯度下降修正B、線性單元(ReLU)C、卷積函數(shù)D、以上答案都不正確【正確答案】:B解析:

Relu是目前最常用的激勵函數(shù),增加了神經(jīng)網(wǎng)絡模型的非線性。93.Matplotlib的主要功能是()。A、科學計算B、繪圖庫C、爬取網(wǎng)站數(shù)據(jù)、提取結構性數(shù)據(jù)D、機器學習庫【正確答案】:B解析:

Matplotlib是一個Python2D繪圖庫,它以多種硬拷貝格式和跨平臺的交互式環(huán)境生成出版物質量的圖形。94.在選擇神經(jīng)網(wǎng)絡的深度時,下面哪些參數(shù)需要考慮1.神經(jīng)網(wǎng)絡的類型(如MLP,CNN)2.輸入數(shù)據(jù)3.計算能力(硬件和軟件能力決定)4.學習速率5.映射的輸出函數(shù)A、1,2,4,5B、2,3,4,5C、都需要考慮D、1,3,4,5【正確答案】:C95.以下關于train_test_split函數(shù)的說法正確的是()。A、train_test_split能夠將數(shù)據(jù)集劃分為訓練集、驗證集和測試集B、train_test_split的輸入只能是一個數(shù)組C、train_test_split每次的劃分結果不同,無法解決D、train_test_split函數(shù)可以自行決定訓練集和測試集的占比【正確答案】:D解析:

train_test_split將輸入分為訓練集和測試集,可以同時傳入特征數(shù)組和標簽數(shù)組。若想要獲得同樣的劃分結果,可通過randomstate參數(shù)設置相同的隨機種子。96.一幅512*512的圖像,若灰度級數(shù)為16,則該圖像大小為()。A、32KBB、128KBC、1MBD、2MB【正確答案】:B解析:

512*512表示像素個數(shù),16級灰度用二進制表示需要4位,故存儲圖像所需的二進制位數(shù)為:512*512*4,即1024Kbit,所需字節(jié)數(shù)除以8為128KB,注意單位的不同。97.以下代碼的輸出結果為()。importnumpyasnpa=np.array([0.25,1.33,1,100])print(np.reciprocal(a))A、[-10.-9.-8.]B、[-7.-6.-5.]C、[0.251.331.100.]D、[4.0.75187971.0.01]【正確答案】:D解析:

np.reciprocal()取倒數(shù)。98.以下屬于考慮詞語位置關系的模型有()。A、詞向量模型B、詞袋模型C、詞的分布式表示D、TF-IDF【正確答案】:A解析:

詞向量模型考慮通過中間詞預測鄰近詞,需要考慮詞語順序位置。99.如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則【正確答案】:C解析:

如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為互斥規(guī)則。100.任何一個核函數(shù)都隱式地定義了一個()空間。A、希爾伯特空間B、再生希爾伯特空間C、再生核希爾伯特空間D、歐式空間【正確答案】:C解析:

任何一個核函數(shù)都隱式地定義了一個再生核希爾伯特空間空間。101.假設你需要調整參數(shù)來最小化代價函數(shù)(costfunction),會使用()技術。A、窮舉搜索B、隨機搜索C、Bayesian優(yōu)化D、以上全是【正確答案】:D解析:

要使用的學習器的性能作為特征于集的評價準則.102.AUC是衡量()模型優(yōu)劣的一種評價指標。A、回歸B、分類C、二分類D、聚類【正確答案】:C解析:

AUC是衡量二分類模型優(yōu)劣的一種評價指標。103.下列不屬于深度學習內容的是(__)。A、深度置信網(wǎng)絡B、受限玻爾茲曼機C、卷積神經(jīng)網(wǎng)絡D、貝葉斯學習【正確答案】:D解析:

貝葉斯學習屬于傳統(tǒng)的機器學習算法。104.數(shù)據(jù)資產(chǎn)維護是指為保證數(shù)據(jù)質量,對數(shù)據(jù)進行()等處理的過程。A、更正B、刪除C、補充錄入D、以上答案都正確【正確答案】:D解析:

數(shù)據(jù)資產(chǎn)維護是指為保證數(shù)據(jù)質量,對數(shù)據(jù)進行更正、刪除、補充錄入等處理的過程。105.一般而言,在個體學習器性能相差較大時宜使用(),而在個體學習器性能相近時宜使用()。A、簡單平均法,加權平均法B、加權平均法,簡單平均法C、簡單平均法,簡單平均法D、加權平均法,加權平均法【正確答案】:B解析:

一般而言,在個體學習器性能相差較大時宜使用加權平均法,而在個體學習器性能相近時宜使用簡單平均法。106.下列關于支持向量機優(yōu)化性問題的形式說法正確的是(__)。A、它是一個凸二次規(guī)劃問題B、它是一個凸一次規(guī)劃問題C、它是一個凹二次規(guī)劃問題D、它是一個凹一次規(guī)劃問題【正確答案】:A解析:

支持向量機優(yōu)化性問題的一個凸二次規(guī)劃問題。107.考慮以下問題:假設我們有一個5層的神經(jīng)網(wǎng)絡,這個神經(jīng)網(wǎng)絡在使用一個4GB顯存顯卡時需要花費3個小時來完成訓練。而在測試過程中,單個數(shù)據(jù)需要花費2秒的時間。如果我們現(xiàn)在把架構變換一下,當評分是0.2和0.3時,分別在第2層和第4層添加Dropout,那么新架構的測試所用時間會變?yōu)槎嗌伲緼、少于2sB、大于2sC、仍是2sD、說不準【正確答案】:C108.圖像降噪一般可分為以下哪幾類()。A、加性噪聲B、乘性噪聲C、量化噪聲D、以上答案都正確【正確答案】:D解析:

噪聲是圖像干擾的重要原因。一幅圖像在實際應用中可能存在各種各樣的噪聲,這些噪聲可能在傳輸中產(chǎn)生,也可能在量化等處理中產(chǎn)生。根據(jù)噪聲和信號的關系可將其分為三種形式:(f(x,y)表示給定原始圖像,g(x,y)表示圖像信號,n(x,y)表示噪聲。)加性噪聲,此類噪聲與輸入圖像信號無關,含噪圖像可表示為f(x,y)=g(x,y)+n(x,y),信道噪聲及光導攝像管的攝像機掃描圖像時產(chǎn)生的噪聲就屬這類噪聲;乘性噪聲,此類噪聲與圖像信號有關,含噪圖像可表示為f(x,y)=g(x,y)+n(x,y)g(x,y),飛點掃描器掃描圖像時的噪聲,電視圖像中的相干噪聲,膠片中的顆粒噪聲就屬于此類噪聲。量化噪聲,此類噪聲與輸入圖像信號無關,是量化過程存在量化誤差,再反映到接收端而產(chǎn)生。109.以下()屬于DMM(數(shù)據(jù)管理成熟度模型)中的關鍵過程域“數(shù)據(jù)戰(zhàn)略”。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務術語表C、數(shù)據(jù)質量評估D、過程質量保障【正確答案】:A解析:

數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關鍵過程域“數(shù)據(jù)戰(zhàn)略”。110.在MapReduce計算架構中,()組件運行在DataNode上,具體管理本節(jié)點計算任務的執(zhí)行。A、Client;B、JobTracker;C、TaskTracker;D、Task;【正確答案】:C解析:

TaskTracker組件運行在DataNode上,具體管理本節(jié)點計算任務的執(zhí)行。111.在情感分析中,下面哪個詞不屬于影響詞()。A、識別B、開心C、難過D、無聊【正確答案】:A解析:

識別一詞與情感無關。112.關于數(shù)據(jù)產(chǎn)品,以下說法錯誤的是()。A、數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B、與傳統(tǒng)物質產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費者不僅限于人類用戶.還可以是計算機以及其他軟硬件系統(tǒng)C、數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學項目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品D、數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學項目流程的全部活動【正確答案】:A解析:

數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集,還包括文檔、知識庫、應用系統(tǒng)、硬件系統(tǒng)、服務、洞見、決策或它們的組合。113.基于統(tǒng)計的異常點檢測算法不包括A、基于正態(tài)分布的異常點檢測算法B、基于距離的異常點檢測算法C、3δ原則D、簡單統(tǒng)計分析【正確答案】:B114.打開文本文件時,通過file.readlines()返回的數(shù)據(jù)是A、一次讀入,返回一個列表格式的數(shù)據(jù),每行數(shù)據(jù)是一個元素B、多次讀入,每次讀入一行數(shù)據(jù)C、一次寫入,每次寫入一行數(shù)據(jù)D、多次寫入,寫入一個列表,每行數(shù)據(jù)是一個元素【正確答案】:A解析:

《Python數(shù)據(jù)分析基礎》,人民郵電出版社115.下面代碼的輸出結果是x=0x0101print(x)A、5B、101C、257D、65【正確答案】:C116.關聯(lián)規(guī)則的評價指標是____。A、均方誤差、均方根誤差B、Kappa統(tǒng)計、顯著性檢驗C、支持度、置信度D、平均絕對誤差、相對誤差【正確答案】:C117.關于嶺回歸,下列說法錯誤的是()。A、屬于線性回歸B、使用L2正規(guī)項C、使用L1正規(guī)項D、基于最小二乘法【正確答案】:C解析:

《機器學習》,清華大學出版社118.在大規(guī)模的語料中,挖掘詞的相關性是一個重要的問題。以下哪一個信息不能用于確定兩個詞的相關性()。A、互信息B、最大熵C、卡方檢驗D、最大似然比【正確答案】:B解析:

最大熵為尋找最優(yōu)模型的方法,并不能度量相似性。119.()是M-P神經(jīng)元,也稱為閾值邏輯單元。A、輸入層B、輸出層C、第一層D、第二層【正確答案】:B解析:

感知機(Perceptron)由兩層神經(jīng)元組成,輸入層接收外界輸入信號后傳遞給輸出層,輸出層是M-P神經(jīng)元,亦稱閾值邏輯單元(thresholdlogicunit)。120.在比較模型的擬合效果時,甲、乙、丙三個模型的相關指數(shù)R^2的值分別約為0.71、0.85、0.90,則擬合效果較好的模型是()。A、甲B、乙C、丙D、效果一樣【正確答案】:C解析:

R^2的取值為0-1,越靠近1,擬合效果越好。121.一篇文章中某些名詞的TF-IDF值比較大,則說明()。A、這些名詞對這篇文章的區(qū)分度比較高B、這些名詞對這篇文章的區(qū)分度比較低C、不能說明什么D、以上答案都不正確【正確答案】:A解析:

TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。名詞的TF-IDF值越大說明這些名詞對這篇文章的區(qū)分度越高。122.np.floor()函數(shù)的作用是()。A、計算每個元素的模;B、計算每個元素的符號;C、計算小于每個元素的最大整數(shù)值;D、計算每個元素的小數(shù)部分;【正確答案】:C解析:

floor()取小于元素的最大整數(shù)值,借用英文地板的意思。123..由于變量在使用之前不需要類型聲明而且不允許隱式類型轉換,因此python是一門()、()的語言A、靜態(tài)弱類型B、動態(tài)弱類型C、動態(tài)強類型D、靜態(tài)強類型【正確答案】:C124.運行下面的代碼后,變量n的類型是()。n={}A、setB、listC、未知類型D、dict【正確答案】:D解析:

{}代表dict。125.當()時,可以不考慮RDD序列化處理。A、完成成本比較高的操作后B、執(zhí)行容易失敗的操作之前C、RDD被重復利用D、實時性要求高【正確答案】:D解析:

RDD的序列化處理,主要在完成成本比較高的操作之后、執(zhí)行容易失敗的操作之前、當RDD被重復使用或者計算其代價很高時進行。126.a=[[1.,2.,1.],[1.,2.,1.]],a+3的值為()。A、[[1,2,1],[4,5,4]]B、[[4,5,4],[4,5,4]]C、[[4,5,4],[1,2,1]]D、以上答案都不正確【正確答案】:D解析:

列表不能和數(shù)字相加,因此會報錯。127.下列算法中屬于圖像平滑處理的是()。A、梯度銳化B、直方圖均衡化C、中值濾波D、Laplacian增強【正確答案】:C解析:

中值濾波是一種非線性平滑技術,是常用的圖像平滑處理方法。128.負責關鍵信息基礎設施安全保護工作的部門,應當建立健全本行業(yè)、本領域的網(wǎng)絡安全監(jiān)測預警和(____),并按照規(guī)定報送網(wǎng)絡安全監(jiān)測預警信息。A、網(wǎng)絡安全風控機制B、信息通報制度C、網(wǎng)絡安全風險庫D、信息預警制度【正確答案】:B解析:

《中華人民共和國網(wǎng)絡安全法》第52條129.下列不屬于action操作的是()A、collectB、filterC、reduceD、count【正確答案】:B解析:

Action常用的函數(shù)為reduce、collect、count、take、first、foreach等130.一般將原始業(yè)務數(shù)據(jù)分為多個部分,()用于模型的構建。A、訓練集B、測試集C、驗證集D、全部數(shù)據(jù)【正確答案】:A解析:

訓練集、測試集和驗證集的功能分別為訓練模型、測試模型以及模型選擇與超級參數(shù)的調優(yōu)。131.數(shù)據(jù)資產(chǎn)應用以安全可控為前提,按照()的原則,落實安全與保密責任。A、誰經(jīng)手,誰使用,誰負責B、誰主管,誰負責C、誰使用,誰主管,誰負責D、誰錄入,誰使用,誰負責【正確答案】:A解析:

數(shù)據(jù)資產(chǎn)應用以安全可控為前提,按照誰經(jīng)手,誰使用,誰負責的原則,落實安全與保密責任。132.下列()模塊包括用于加載和獲取流行的參考數(shù)據(jù)集的方法。A、sklearn.dataB、sklearn.datasetsC、sklearn.datasD、sklearn.datafetch【正確答案】:B解析:

sklearn.datasets模塊提供了用于加載和獲取流行的參考數(shù)據(jù)集的方法。133.下面代碼的執(zhí)行結果是>>>abs(-3+4j)A、3B、4C、5D、執(zhí)行錯誤【正確答案】:C134.回歸問題和分類問題的區(qū)別是什么?A、回歸問題與分類問題在輸入屬性值上要求不同B、回歸問題有標簽,分類問題沒有C、回歸問題輸出值是連續(xù)的,分類問題輸出值是離散的D、回歸問題輸出值是離散的,分類問題輸出值是連續(xù)的【正確答案】:C解析:

機器學習135.第一數(shù)字定律中使用概率最大的數(shù)字是()。A、0B、1C、2D、3【正確答案】:B解析:

第一數(shù)字定律表示,數(shù)字“1”的使用最多接近三分之一,“2”為6%,“3”為12.5%,依次遞減,“9”的頻率是4.6%。136.大數(shù)據(jù)的4V特性不包括()。A、Volume(大量)B、Velocity(高速)C、Visual(可視)D、Variety(多樣)【正確答案】:C解析:

通常,用4V來表示大數(shù)據(jù)的基本特征:Volume(數(shù)據(jù)量大)、Variety(類型多)、137.scipy.stats.fit函數(shù)的作用是()。A、隨機變量的生存函數(shù)B、對數(shù)據(jù)進行擬合,找出最適合采樣數(shù)據(jù)的概率密度函數(shù)系數(shù)C、計算隨機變量的期望和方差D、隨機變量的概率密度函數(shù)【正確答案】:B解析:

fit是對數(shù)據(jù)的擬合。138.大數(shù)據(jù)的最顯著特征是()。A、數(shù)據(jù)規(guī)模大B、數(shù)據(jù)類型多樣C、數(shù)據(jù)處理速度快D、數(shù)據(jù)價值密度高【正確答案】:A解析:

《大數(shù)據(jù)》李聯(lián)寧著139.假定你現(xiàn)在訓練了一個線性SVM并推斷出這個模型出現(xiàn)了欠擬合現(xiàn)象,在下一次訓練時,應該采取下列什么措施()A、增加數(shù)據(jù)點B、減少數(shù)據(jù)點C、增加特征D、減少特征【正確答案】:C解析:

欠擬合是指模型擬合程度不高,數(shù)據(jù)距離擬合曲線較遠,或指模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地擬合數(shù)據(jù)??赏ㄟ^增加特征解決。140.以下代碼的輸出結果為()。importnumpyasnpa=np.arange(9)b=np.split(3)print(b)A、[012345678]B、[array([0,1,2]),array([3,4,5]),array([6,7,8])]C、[array([0,1,2,3]),array([4,5,6]),array([7,8])]D、沒有正確答案【正確答案】:B解析:

split將原數(shù)組等分成三個數(shù)組。141.以下關于特征工程的說法不正確的是A、特征工程指的是把原始數(shù)據(jù)轉變?yōu)槟P偷挠柧殧?shù)據(jù)的過程B、它的目的就是獲取更好的訓練數(shù)據(jù)特征,使得機器學習模型逼近這個上限C、特征工程在機器學習中占有非常重要的作用,一般認為括特征構建、特征提取、特征選擇三個部分。D、特征提取是從特征集合中挑選一組具有明顯物理或統(tǒng)計意義的特征子集。【正確答案】:D142.KNN最近鄰分類算法的過程()1.計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);2.對上面所有的距離值進行排序;3.選前k個最小距離的樣本;4.根據(jù)這k個樣本的標簽進行投票,得到最后的分類類別。A、B、C、D、【正確答案】:C解析:

KNN最近鄰分類算法的過程是:計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);2.對上面所有的距離值進行排序;3.選前k個最小距離的樣本;4.根據(jù)這k個樣本的標簽進行投票,得到最后的分類類別。143.聚類算法在下列哪個模塊中()A、sklearn.treeB、sklearn.clusterC、sklearn.ensembleD、sklearn.svm【正確答案】:B解析:

《大數(shù)據(jù)應用知識讀本》144.考察一個由三個卷積層組成的CNN:kernel=3×3,stride=2,padding=SAME。最低層輸出100個特征映射(featuremap),中間層200個特征映射,最高層400個特征映射。輸入是200×300的RGB圖片,總參數(shù)的數(shù)量是多少()A、903400B、2800C、180200D、720400【正確答案】:A解析:

第一層中由于第一個卷積kernel=3×3,輸入有3個通道(channel),因此每個特征映射有3×3×3個weight,加上bias,每個特征映射對應28個參數(shù)。由于第一層有100個特征映射,因此有2800個參數(shù);第二層中kernel=3×3,輸入是前一層的100個特征映射,因此每個特征映射有3×3×100=900個weight,加上一個bias。由于共有200個特征映射,因此需要901×200=180200個參數(shù);第三層中kernel=3×3,輸入是前一層的200個特征映射,因此(第三層的)每個特征映射有3×3×200=1800個weight,加上bias。由于第三層有400個特征映射。因此這一層共有1801×400=720400個參數(shù)。【總共】以上求和共有2800+180200+720400=903400個參數(shù)。145.下列論據(jù)中,能夠支撐“大數(shù)據(jù)無所不能”的觀點的是()。A、互聯(lián)網(wǎng)金融打破了傳統(tǒng)的觀念和行為B、大數(shù)據(jù)存在泡沫C、大數(shù)據(jù)具有非常高的成本D、個人隱私泄露與信息安全擔憂【正確答案】:A解析:

《大數(shù)據(jù)平臺基礎架構指南》146.在Hadoop中,下面哪個是默認的InputFormat類型,它將每行內容作為新值,而將字節(jié)偏移量作為key()。A、FileInputFormatB、TextInputFormatC、KeyValueTextInputFormatD、CombineTextInputFormat【正確答案】:B解析:

TextInputFormat是默認的InputFormat。每條記錄是一行輸入。鍵Key是LongWritable類型,存儲該行在整個文件中的字節(jié)偏移量。147.在機器學習中,不屬于常用的沖突消解策略是()。A、投票法B、排序法C、元規(guī)則法D、加權法【正確答案】:D解析:

常用的沖突消解策略有投票法、排序法、元規(guī)則法等。148.在HadoopMapReduce中,()是客戶端需要執(zhí)行的一個工作單元。A、InputB、JobClientD、Task【正確答案】:B解析:

MapReduce作業(yè)(job)是客戶端需要執(zhí)行的一個工作單元它包括輸入數(shù)據(jù)、MapReduce程序和配置信息。149.輸入圖像已被轉換為大小為28×28的矩陣和大小為7×7的步幅為1的核心/濾波器。卷積矩陣的大小是多少()A、22X22B、21X21C、28X28D、7X7【正確答案】:A解析:

28-7+1=22。150.在神經(jīng)網(wǎng)絡學習中,感知機輸出層中的M-P神經(jīng)元通常被稱為()。A、閾值邏輯單元B、激活函數(shù)C、擠壓函數(shù)D、連接函數(shù)【正確答案】:A解析:

深度學習基礎知識。1.卷積神經(jīng)網(wǎng)絡中,底層的卷積層可以提取到圖片的哪些特征?(____)。A、邊緣B、線段C、局部塊D、以上都不是【正確答案】:AB2.某單位運用隨機森林算法思想建立搶修熱點模型。該模型主要預測下期臺區(qū)工單數(shù)量,構建搶修熱點。以下模型算法構建步驟中合理的順序是:()。A、將歷史數(shù)據(jù)進行隨機自助法重抽樣,生成N個訓練樣本集B、將N個訓練樣本集分別做決策樹,生成N棵決策樹C、將N棵決策樹隨機構成隨機森林D、未來根據(jù)預測樣本氣候環(huán)境、設備屬性、設備工況進行隨機森林決策投票,得出針對該預測樣本最優(yōu)的決策樹進行運算,并計算出最終結果?!菊_答案】:ABCD解析:

模型算法構建步驟為:將歷史數(shù)據(jù)進行隨機自助法重抽樣,生成N個訓練樣本集.2.將N個訓練樣本集分別做決策樹,生成N棵決策樹;3.將N棵決策樹隨機構成隨機森林4.未來根據(jù)預測樣本氣候環(huán)境、設備屬性、設備工況進行隨機森林決策投票,得出針對該預測樣本最優(yōu)的決策樹進行運算,并計算出最終結果。3.任何函數(shù)都可以修改,所以盡量少用全局變量,主要原因包括()。A、不夠安全B、一直占用內存C、容易失效D、一直占用字符【正確答案】:AB解析:

全局變量安全性差、相關內存一直無法釋放。4.下面哪些是循環(huán)神經(jīng)網(wǎng)絡的輸出模式(__)。A、多輸出B、單輸出C、同步多輸出D、異步多輸出【正確答案】:ABD解析:

循環(huán)神經(jīng)網(wǎng)絡是遞歸的,不可能同步多輸出。5.以下關于HTML標簽嵌套規(guī)則的說法,正確的是()。A、塊元素可以包含內聯(lián)元素或某些塊元素,但內聯(lián)元素也可以包含塊元素B、HTML標簽包括塊級元素和內嵌元素C、內嵌元素一般用在網(wǎng)站內容之中的某些細節(jié)或部位,用以“強調區(qū)分樣式上標下標錨點”等,通常包括:a、abbr、b、br、font、i、img、input、kbd、label、q、s、select、small、span、sub、tt、u、var等D、其中塊級元素一般用來搭建網(wǎng)絡架構布局承載內容,通常包括的標簽有:address、dir、div、dl、dt、dd、form、h1~h6、hr、isindex、menu、noframes、noscript、ol、p、pre、table、ul等【正確答案】:BCD解析:

塊元素可以包含內聯(lián)元素或某些塊元素,但內聯(lián)元素卻不能包含塊元素,它只能包含其他的內聯(lián)元素。6.pandas中刪除列的方式()。A、df.drop(["列名"],axis=1)B、df.drop(columns=["列名"])C、df.drop([0,1])D、df.drop([0])【正確答案】:AB解析:

A和B選項都是刪除列的方式,CD選項沒有指定axis,默認是刪除行。(共89題)7.假設只有少量數(shù)據(jù)來解決某個具體問題,但有有個預先訓練好的神經(jīng)網(wǎng)絡來解決類似問題??梢杂孟旅婺男┓椒▉砝眠@個預先訓練好的網(wǎng)絡(____)。A、把除了最后一層外所有的層都凍結,重新訓練最一層B、重新訓練整個模型C、只對最后幾層進行微調D、對每一層模型進行評估,只使用少數(shù)層【正確答案】:AC8.在Spark的基本流程中,主要涉及()。A、DriverProgramB、CusterManagerC、WorkerNodeD、Executor【正確答案】:ABCD解析:

Spark的基本流程,主要涉及DriverProgram(驅動程序)、Spark-Context、ClusterManager(集群管理器)、WorkerNode(工作節(jié)點)、Executor(執(zhí)行器)和Cache(緩存)等角色。9.圖像識別的精度會受到以下那些因素的影響()。A、數(shù)據(jù)類別數(shù)量不平衡B、輸入圖像尺寸不同C、圖像中存在類標之外的環(huán)境干擾D、圖像中存在隨機噪聲【正確答案】:ACD解析:

圖像識別中若圖像存在隨機噪聲,一是噪聲影響較小,二是可以有預處理解決噪聲問題,并不會影響圖像識別精度。10.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A、具有勞動增值B、涉及法律權屬C、具有財務價值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動增值、涉及法律權屬、具有財務價值、涉及道德與倫理。11.下列哪些是特征選擇方法()。AIC赤池信息準則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過濾式特征選擇方法【正確答案】:BCD解析:

AIC赤池信息準則是常用的模型選擇方法。12.Python的優(yōu)點有()。A、變量不用預定義類型B、數(shù)據(jù)結構功能強大C、語言可解釋性強D、變量類型固定【正確答案】:ABC解析:

Python變量在使用前不必定義變量類型。13.當我們構造線性模型時,我們注意變量間的相關性。在相關矩陣中搜索相關系數(shù)時,如果我們發(fā)現(xiàn)3對變量的相關系數(shù)是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98,0.45,1.23.我們可以得出什么結論:()。A、Var1和Var2是非常相關的B、因為Va1r和Var2是非常相關的,我們可以去除其中一個C、Var3和Var1的1.23相關系數(shù)是不可能的【正確答案】:ABC解析:

SVM的策略是最大間隔分類器。B.簇內的相似性越大,簇間的差別越大,聚類的效果就越好。C.訓練誤差減少與測試誤差逐漸增大,是明顯的過擬合的特征。14.NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、圖存儲【正確答案】:ABCD解析:

NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括Key-Value、Key-Document、Key-Column、圖存儲。15.plt.axhline(y=0.0,c="r",ls="--",lw=2),對這句代碼說法正確的是()。A、在0.0處添加豎直參考線B、添加水平參考線C、參考線是虛線形式D、網(wǎng)格線是紅色的【正確答案】:BC解析:

這句代碼添加的是紅色水平參考線,虛線線型。16.與全連接的DNN,CNN的優(yōu)勢有(____)。A、參數(shù)更少B、泛化更好C、訓練更快D、更容易搭建【正確答案】:ABC17.建立線性模型時,我們看變量之間的相關性。在尋找相關矩陣中的相關系數(shù)時,如果發(fā)現(xiàn)3對變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢()A、Var1和Var2具有很高的相關性B、Var1和Var2存在多重共線性,模型可以去掉其中一個特征C、Var3和Var1相關系數(shù)為1.23是不可能的D、以上答案都不正確【正確答案】:ABC解析:

Var1和Var2之間的相關性非常高,并且是負的,可視為多重共線性的情況,可以去掉一個。一般來說,如果相關大于18.DGI定義的數(shù)據(jù)治理任務包括()。A、數(shù)據(jù)質量的評估B、主動定義或序化規(guī)則C、為數(shù)據(jù)利益相關者提供持續(xù)跨職能的保護與服務D、應對并解決因不遵守規(guī)則而產(chǎn)生的問題【正確答案】:BCD解析:

DGI(TheDataGover略ceInstitute)認為數(shù)據(jù)治理是對數(shù)據(jù)相關的決策及數(shù)據(jù)使用權限控制的活動。它是一個信息處理過程中根據(jù)模型來執(zhí)行的決策權和承擔責任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。19.可視化高維展示技術在展示數(shù)據(jù)之間的關系以及數(shù)據(jù)分析結果方面作()。A、能夠直觀反映成對數(shù)據(jù)之間的空間關系B、能夠直觀反映多維數(shù)據(jù)之間的空間關系C、能夠靜態(tài)演化事物的變化及變化的規(guī)律D、能夠動態(tài)演化事物的變化及變化的規(guī)律【正確答案】:BD解析:

可視化高維展示技術在展示數(shù)據(jù)之間的關系以及數(shù)據(jù)分析結果方面能夠直觀反映多維數(shù)據(jù)之間的空間關系,動態(tài)演化事物的變化及變化的規(guī)律。20.Yarn的調度機制有哪幾種是__。A、FIFOB、CapacityC、FairD、Line【正確答案】:ABC解析:

Hadoop作業(yè)調度器主要有三種,分別是FIFO,CapacitySchedule(容量調度器),F(xiàn)airSchedule(公平調度器)。21.下列關于極大似然估計(MaximumLikelihoodEstimate,MLE),說法正確的是(__)。A、MLE可能并不存在B、MLE總是存在C、如果MLE存在,那么它的解可能不是唯一的D、如果MLE存在,那么它的解一定是唯一的【正確答案】:AC解析:

極大似然估計方法(MaximumLikelihoodEstimate,MLE)也稱最大概似估計或最大似然估計:利用已知的樣本結果,反推最有可能(最大概率)導致這樣的結果的參數(shù)值。極大似然估計,只是一種概率論在統(tǒng)計學的應用,它是參數(shù)估計的方法之一。說的是已知某個隨機樣本滿足某種概率分布,但是其中具體的參數(shù)不清楚,參數(shù)估計就是通過若干次試驗,觀察其結果,利用結果推出參數(shù)的大概值。極大似然估計是建立在這樣的思想上:已知某個參數(shù)能使這個樣本出現(xiàn)的概率最大,我們當然不會再去選擇其他小概率的樣本,所以干脆就把這個參數(shù)作為估計的真實值。當然極大似然估計只是一種粗略的數(shù)學期望,要知道它的誤差大小還要做區(qū)間估計。22.以下四個選項中,()是Python關鍵字。A、asB、globalC、intD、not【正確答案】:ABD解析:

詳見Python關鍵字列表。23.CNN相比于全連接的DNN有哪些優(yōu)勢()A、參數(shù)更少B、泛化更好C、訓練更快D、更容易搭建;【正確答案】:ABC解析:

D:DNN直接對數(shù)據(jù)做加權線性連接,而CNN則是移動卷積核,并對圖像中的各區(qū)域做卷積操作。24.Python邏輯表達式()的結果是False。A、not(TrueorFalse)B、not(FalseandFalse)C、1!=0D、1==0【正確答案】:AD解析:

FalseandFalse結果為False。25.一個監(jiān)督觀測值集合會被劃分為()。A、訓練集B、驗證集C、測試集D、預處理集【正確答案】:ABC解析:

一個監(jiān)督觀測值集合會被劃分為訓練集、測試集、預測集。其中測試集來測試學習器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。26.數(shù)據(jù)科學基本原則中,三世界原則指的是()A、我們的世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】:ABC解析:

大數(shù)據(jù)時代的到來,在我們的“精神世界”和“物理世界”之間出現(xiàn)了一種新的世界——“數(shù)據(jù)世界”。因此,在數(shù)據(jù)科學中,通常需要研究如何運用“數(shù)據(jù)世界”中已存在的“痕跡數(shù)據(jù)”的方式解決“物理世界”中的具體問題,而不是直接到“物理世界”,采用問卷和訪談等方法親自收集“采訪數(shù)據(jù)”。相對于“采訪數(shù)據(jù)”,“痕跡數(shù)據(jù)”更具有客觀性。圖靈獎獲得者JimGray提出的科學研究第四范式——數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data-intensiveScientificDiscovery)是“三世界原則”的代表性理論之一。27.常見的圖像分割算法有()。A、基于區(qū)域的分割方法B、基于人工勾畫的分割方法C、基于邊緣的分割方法D、基于閾值的分割方法【正確答案】:ACD解析:

人工勾畫太過耗時,并不能作為常見的圖像分割方法。28.常用的沖突消解策略有包括()。A、投票法B、排序法C、元規(guī)則法D、調研法【正確答案】:ABC解析:

常用的沖突消解策略有包括:投票法,排序法,元規(guī)則法。29.Numpy中計算數(shù)組的標準差和方差的函數(shù)是()。A、std()B、diff()C、exp()D、var()【正確答案】:AD解析:

std()是標準差,var()是方差。30.Hadoop組件Flume三層架構包括()。AgentB、GossipCollectorD、Storage【正確答案】:ACD解析:

Flume采用了三層架構,分別為agent,collector和storage,每一層均可以水平擴展。agent用于采集數(shù)據(jù),agent是flume中存儲數(shù)據(jù)流的地方,同時agent會將產(chǎn)生的數(shù)據(jù)傳輸?shù)絚ollector;Collector的作用是堅多個agent的數(shù)據(jù)匯總后,加載到storage中,多個collector之間遵循負載均衡規(guī)則;Storage是存儲系統(tǒng),可以是一個普通file,也可以是HDFS,HIVE,Hbase等。31.Hadoop框架的缺陷有()。A、MR編程框架的限制;B、過多的磁盤操作,缺乏對分布式內存的支持;C、無法高效支持迭代式計算;D、不支持多用戶寫入并任意修改文件;【正確答案】:ABCD解析:

以上四項都為Hadoop的缺點。32.在Hive架構中支持對數(shù)據(jù)的操作有()。A、插入B、查詢C、刪除D、分析;【正確答案】:BD解析:

Hive提供簡單的HiveQL查詢功能;Hive可以較好地滿足基于數(shù)據(jù)倉庫的統(tǒng)計分析需要。33.以下選項中,屬于MapReduce特征的有()。A、以主從結構的形式運行B、容錯機制的復雜性C、任務備份機制的必要性D、數(shù)據(jù)存儲位置固定【正確答案】:ABC解析:

數(shù)據(jù)存儲位置具有多樣性,并非固定,所以D錯。34.下列關于集合操作結果正確的有()。A、name={‘d’,‘s’}nameadd(‘sd’)name值為:{‘sd’,‘d’,‘s’}B、name={‘sd’,d’,‘s’}nameremove(‘s’)name值為:{‘sd’,‘d’}C、name={‘sd’,d’,‘s’}nameclear()name值為:{}D、name={‘sd’,d’,‘s’}nameupdate(‘df’)name值為:{‘sd’,’d’,‘f’,’s’,’j’}【正確答案】:ABC解析:

D結果應為{'d','f','s','sd'}。35.我們想要訓練一個ML模型,樣本數(shù)量有100萬個,特征維度是5000,面對如此大數(shù)據(jù),如何有效地訓練模型()A、對訓練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機器學習算法C、使用PCA算法減少特征維度【正確答案】:ABC解析:

大數(shù)據(jù)可以采用對訓練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型,嘗試使用在線機器學習算法,使用PCA算法減少特征維度。36.變量名可以包含()。A、字母B、數(shù)字C、下劃線D、空格【正確答案】:ABC解析:

變量名可以包含字母數(shù)字下劃線,但不能以數(shù)字開頭。37.下面定義函數(shù)正確的是()。A、defcalc(*numbers):sum=0forninnumbers:sum=sum+n*nreturnsumB、defcalc(**numbers):sum=0forninnumbers:sum=sum+n*nreturnsumC、defcalc(**numbers,n):sum=0forninnumbers:sum=sum+n*nreturnsumD、defcalc(**numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum【正確答案】:AB解析:

函數(shù)不定長參數(shù)*args和**kwargs只能放在形參的末尾,因此AB正確,CD錯誤。38.數(shù)據(jù)來源和目標用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標包括()。A、精確性B、可辨認性C、可分離性D、視覺突出性【正確答案】:ABCD解析:

在數(shù)據(jù)來源和目標用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論