版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第頁工匠杯練習(xí)試題附答案1.以下代碼的輸出結(jié)果為()。a=np.array([[1,2],[3,4]])b=np.array([[1,2],[3,4]])np.vstack((b))A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]【正確答案】:A解析:
vstack()為數(shù)組垂直拼接。2.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()特點(diǎn)。A、可關(guān)聯(lián)性B、可溯源性C、可理解性D、可復(fù)制性【正確答案】:A解析:
數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,降低數(shù)據(jù)的失用、失信和失控的風(fēng)險(xiǎn):1)可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是不同數(shù)據(jù)對象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的“失用”風(fēng)險(xiǎn)。2)可溯源性是在時(shí)間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個(gè)數(shù)據(jù)對象的歷史版本之間的連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理、可信度評估以及預(yù)測分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)的“失信”風(fēng)險(xiǎn);3)可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)與其產(chǎn)生、管理和維護(hù)的主體(包括人與計(jì)算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)據(jù)可理解性的意義在于降低數(shù)據(jù)的“失控”風(fēng)險(xiǎn)。3.結(jié)構(gòu)化數(shù)組不能使用以下哪種數(shù)據(jù)類型創(chuàng)建()。A、元組列表B、字符串C、字典D、整數(shù)【正確答案】:D解析:
結(jié)構(gòu)化數(shù)組類型創(chuàng)建有四種不同的規(guī)范形式:元組列表、逗號(hào)分割的數(shù)據(jù)類型規(guī)范字符串、字段參數(shù)組字典、字段名稱字典,不包含整數(shù)。4.把圖像分割問題與圖的最小割(mincut)問題相關(guān)聯(lián)的方法是()。A、基于圖論的分割方法B、分水嶺算法C、SLIC算法D、基于閾值的方法【正確答案】:A解析:
基于圖論的分割方法把圖像分割問題與圖的最小割(mincut)問題相關(guān)聯(lián)。首先將圖像映射為帶權(quán)無向圖,圖中每個(gè)節(jié)點(diǎn)對應(yīng)于圖像中的每個(gè)像素,每條邊的權(quán)值表示了相鄰像素之間在灰度、顏色或紋理方面的非負(fù)相似度。5.以下選項(xiàng)中,不是PythonIDE的是()。A、PyCharmB、JupyterNotebookC、SpyderD、Rstudio【正確答案】:D解析:
Rstudio為R語言編程環(huán)境。6.下列不屬于深度學(xué)習(xí)內(nèi)容的是(__)。A、深度置信網(wǎng)絡(luò)B、受限玻爾茲曼機(jī)C、卷積神經(jīng)網(wǎng)絡(luò)D、貝葉斯學(xué)習(xí)【正確答案】:D解析:
貝葉斯學(xué)習(xí)屬于傳統(tǒng)的機(jī)器學(xué)習(xí)算法。7.下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù):()。A、等高線圖B、餅圖C、曲面圖D、矢量場圖【正確答案】:B解析:
數(shù)據(jù)科學(xué)實(shí)戰(zhàn)8.減少神經(jīng)網(wǎng)絡(luò)過擬合的說法,以下哪些是正確的?(____)A、在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中類似dropout減少神經(jīng)元或相關(guān)鏈接權(quán)的數(shù)量B、通過正則化可以減少網(wǎng)絡(luò)參數(shù)的取值或個(gè)數(shù),一定程度可能減少過擬合C、利用L1或L2正則化可以使權(quán)重衰減,從而一定程度上減少過擬合D、以上都對【正確答案】:D9.對參數(shù)進(jìn)行L2正則,是機(jī)器學(xué)習(xí)常用的防止過擬合的方法。請問對參數(shù)做L2正則,下列()是對參數(shù)本身做先驗(yàn)分布假設(shè)。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】:A解析:
L2正則假設(shè)參數(shù)的先驗(yàn)分布是Gaussian分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會(huì)太大或太小。10.下列貝葉斯描述錯(cuò)誤的是()A、貝葉斯是概率框架下實(shí)施決策的基本方法B、貝葉斯基于概率和誤判損失來選擇最優(yōu)的類別標(biāo)記C、貝葉斯判定準(zhǔn)則為最大化總體風(fēng)險(xiǎn)D、貝葉斯中期望損失定義為風(fēng)險(xiǎn)【正確答案】:C11.“ab”+”c”*2結(jié)果是()。A、abc2B、abcabcC、abccD、ababcc【正確答案】:C12.關(guān)于時(shí)間相關(guān)類,下列說法錯(cuò)誤的是()。A、Timestamp是存放某個(gè)時(shí)間點(diǎn)的類B、Period是存放某個(gè)時(shí)間段的類C、Timestamp數(shù)據(jù)可以使用標(biāo)準(zhǔn)的時(shí)間str轉(zhuǎn)換得來D、兩個(gè)數(shù)值上相同的Period和Timestamp所代表的意義相同【正確答案】:D解析:
《機(jī)器學(xué)習(xí)》,清華大學(xué)出版社13.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指()。A、基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時(shí)序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息【正確答案】:D解析:
元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)。14.scipy中()是空間數(shù)據(jù)結(jié)構(gòu)和算法模塊。A、clusterB、constantsC、integrateD、spatial【正確答案】:D解析:
spatial模塊是Scipy中的空間結(jié)構(gòu)模塊,提供了一些空間相關(guān)的數(shù)據(jù)結(jié)構(gòu)和算法,如Delaunay三角剖分,共面點(diǎn),凸包,維諾圖,Kd樹等。15.當(dāng)try子句中沒有任何錯(cuò)誤時(shí),一定不會(huì)執(zhí)行()語句。A、tryB、slseC、exceptD、finally【正確答案】:C解析:
except是當(dāng)try語句錯(cuò)誤才運(yùn)行。16.以下哪個(gè)不屬于數(shù)據(jù)治理的內(nèi)容。A、理解自己的數(shù)據(jù)B、行為規(guī)范的制定C、崗位職責(zé)的定義D、獲得更多的數(shù)據(jù)【正確答案】:D解析:
獲得更多的數(shù)據(jù)不屬于數(shù)據(jù)治理。17.下列關(guān)于線性回歸和邏輯回歸,說法不正確的是()A、線性回歸主要對連續(xù)性數(shù)值進(jìn)行預(yù)測B、邏輯回歸不屬于分類算法C、邏輯回歸的本質(zhì)是概率性回歸,是廣義線性模型的一種D、線性回歸中,“最小二乘法”是基于均方誤差最小化來進(jìn)行模型求解的方法【正確答案】:B18.一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數(shù)是:()。A、一年級B、二年級C、三年級D、四年級【正確答案】:A解析:
數(shù)據(jù)科學(xué)實(shí)戰(zhàn)19.下列哪個(gè)語句在Python中是非法的()。A、x=y=z=1B、x=(y=z+1)C、x,y=y,xD、x+=y【正確答案】:B解析:
賦值語句不能用于賦值。20.對MapReduce計(jì)算框架中生成的鍵值對的說法正確的是(__)。A、可以有相同的鍵,值必須唯一;B、可以有相同的值,鍵必須唯一;C、可以有相同的鍵,也可以有相同的值;D、鍵和值都必須唯一;【正確答案】:C解析:
鍵值對中的“鍵”和“值”并沒有必然的聯(lián)系,兩者可以相同。21.關(guān)系數(shù)據(jù)庫中存儲(chǔ)、計(jì)算和管理的數(shù)據(jù)是()A、結(jié)構(gòu)化數(shù)據(jù)B、海量數(shù)據(jù)C、半結(jié)構(gòu)化數(shù)據(jù)D、非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:A22.a=np.array([[0,0,0],[10,10,10],[20,20,20],[30,30,30]])b=np.array([1,2,3]),a+b的輸出結(jié)果為()。A、[[123][101010][202020][303030]]B、[[123][000][101010][202020][303030]]C、[[123][111213][212223][313233]]D、無法計(jì)算【正確答案】:C解析:
在Numpy中兩個(gè)維度不同的數(shù)組進(jìn)行計(jì)算時(shí)會(huì)自動(dòng)觸發(fā)Numpy的廣播機(jī)制,原公式會(huì)轉(zhuǎn)換為[[1,2,3],[1,2,3],[1,2,3],[1,2,3]]+[[0,0,0],[10,10,10],[20,20,20],[30,30,30]]。23.以下選項(xiàng)中,不是Python語言基本控制結(jié)構(gòu)的是A、順序結(jié)構(gòu)B、程序異常C、循環(huán)結(jié)構(gòu)D、跳轉(zhuǎn)結(jié)構(gòu)【正確答案】:D24.數(shù)據(jù)科學(xué)處于哪三大領(lǐng)域的重疊之處()。A、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識(shí)B、數(shù)據(jù)挖掘、黑客精神與技能、領(lǐng)域?qū)崉?wù)知識(shí)C、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、數(shù)據(jù)挖掘、領(lǐng)域?qū)崉?wù)知識(shí)D、數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能、數(shù)據(jù)挖掘【正確答案】:A解析:
根據(jù)DrewConway的數(shù)據(jù)科學(xué)韋恩圖(DataScienceVennDiagram),數(shù)據(jù)科學(xué)處于數(shù)學(xué)與統(tǒng)計(jì)知識(shí)、黑客精神與技能和領(lǐng)域?qū)崉?wù)知識(shí)等三大領(lǐng)域的交叉之處。25.a=[[1.,2.,1.],[1.,2.,1.]],a+3的值為()。A、[[1.,2.,1.],[4.,5.,4.]]B、[[4.,5.,4.],[4.,5.,4.]]C、以上都不對D、[[4.,5.,4.],[1.,2.,1.]]【正確答案】:C26.平滑圖像()處理可以采用RGB彩色模型。A、直方圖均衡化B、直方圖均衡化C、加權(quán)均值濾波D、中值濾波【正確答案】:C解析:
平滑圖像處理可以采用RGB彩色加權(quán)均值濾波模型。27.Hadoop默認(rèn)對3個(gè)副本的存放策略是()A、第一個(gè)副本存放在client所在的datanode中——》第二個(gè)副本存放在與第一個(gè)副本不同機(jī)架的隨機(jī)datanode中——》第三個(gè)副本存放在與第二個(gè)副本同機(jī)架的不同datanode中;B、第一個(gè)副本存放在client所在的datanode中——》第二個(gè)副本存放在與第一個(gè)副本同機(jī)架的不同datanode中——》第三個(gè)副本存放在與第一個(gè)副本不同機(jī)架的隨機(jī)datanode中;C、第一個(gè)副本存放在隨機(jī)datanode中——》第二個(gè)副本存放在與第一個(gè)副本同機(jī)架的不同datanode中——》第三個(gè)副本存放在與第一個(gè)副本不同機(jī)架的隨機(jī)datanode中;D、第一個(gè)副本存放在隨機(jī)datanode中——》第二個(gè)副本存放在與第一個(gè)副本不同機(jī)架的隨機(jī)datanode中——》第三個(gè)副本存放在與第一個(gè)副本同機(jī)架的不同datanode中;【正確答案】:A解析:
根據(jù)存放策略定義,A正確。28.一元線性回歸方程y=0.7+0.82x,判定系數(shù)等于0.64,則x與y的相關(guān)系數(shù)為()。A、0.82B、0.64C、0.8D、0.7【正確答案】:C解析:
一元回歸分析中,自變量和因變量的相關(guān)系數(shù)的平方等于回歸模型的判定系數(shù)。所以,相關(guān)系數(shù)=sqrt(64)=0.8。29.Python運(yùn)算符中用來計(jì)算集合并集的是()。A、|B、&C、||D、+【正確答案】:A解析:
Python運(yùn)算符中用來計(jì)算集合并集的是|。30.googlenet提出的Inception結(jié)構(gòu)優(yōu)勢有()。A、保證每一層的感受野不變,網(wǎng)絡(luò)深度加深,使得網(wǎng)絡(luò)的精度更高B、使得每一層的感受野增大,學(xué)習(xí)小特征的能力變大C、有效提取高層語義信息,且對高層語義進(jìn)行加工,有效提高網(wǎng)絡(luò)準(zhǔn)確度D、利用該結(jié)構(gòu)有效減輕網(wǎng)絡(luò)的權(quán)重【正確答案】:D31.以下代碼的運(yùn)行結(jié)果為()x=(1,2,3,4);x[-1::-2];A、(4,3)B、(4,3,2)C、(3,2)D、(4,2)【正確答案】:D解析:
《數(shù)據(jù)科學(xué)》32.關(guān)于循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的敘述中,錯(cuò)誤的是()。A、能處理可變長度的序列B、基于圖展開思想C、基于參數(shù)共享思想D、循環(huán)神經(jīng)網(wǎng)絡(luò)不可應(yīng)用于圖像數(shù)據(jù)【正確答案】:D解析:
深度學(xué)習(xí)基礎(chǔ)知識(shí)。33.大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù)不影響大數(shù)據(jù)的可信數(shù)據(jù),體現(xiàn)大數(shù)據(jù)“涌現(xiàn)”的()表現(xiàn)形式。A、價(jià)值涌現(xiàn)B、隱私涌現(xiàn)C、質(zhì)量涌現(xiàn)D、安全涌現(xiàn)【正確答案】:C解析:
大數(shù)據(jù)的“質(zhì)量涌現(xiàn)”是指大數(shù)據(jù)中的成員小數(shù)據(jù)可能有質(zhì)量問題(不可信的數(shù)據(jù)),如缺失、冗余、垃圾數(shù)據(jù)的存在,但不影響大數(shù)據(jù)的質(zhì)量(可信的數(shù)據(jù))。34.設(shè)計(jì)為8層的卷積神經(jīng)網(wǎng)絡(luò)AlexNet網(wǎng)絡(luò)成功使用(__)函數(shù),其效果遠(yuǎn)遠(yuǎn)地超過了Sigmoid函數(shù)。A、ReLU函數(shù)B、sigmoid函數(shù)C、tanh函數(shù)D、sin函數(shù)【正確答案】:A解析:
AlexNet網(wǎng)絡(luò)用ReLU代替sigmoid,效果得到大幅提升。35.以下選項(xiàng)中,輸出結(jié)果是False的是()。A、>>>5isnot4B、>>>5!=4C、>>>False!=0D、>>>5is5【正確答案】:C解析:
False在內(nèi)置表達(dá)式中為0。36.采用模板[-11]主要檢測()方向的邊緣。A、水平B、45°C、垂直D、135°【正確答案】:C解析:
[-11]是用右邊的像素減去左邊的像素,當(dāng)左右像素差別大也就是存在垂直方向邊緣時(shí),模板作用在圖像上的值會(huì)較大。37.以下關(guān)于break,continue說法正確的是()。A、continue語句被用來告訴Python跳過當(dāng)前循環(huán)塊中的剩余語句,然后繼續(xù)進(jìn)行下一輪循環(huán)在循環(huán)中break的作用是終止當(dāng)前循環(huán)結(jié)構(gòu)的后續(xù)操作,一旦程序運(yùn)行了break,循環(huán)也就終止了!B、break語句被用來告訴Python跳過當(dāng)前循環(huán)塊中的剩余語句,然后繼續(xù)進(jìn)行下一輪循環(huán),在循環(huán)中continue的作用是終止當(dāng)前循環(huán)結(jié)構(gòu)的后續(xù)操作,一旦程序運(yùn)行了continue,循環(huán)也就終止了!C、break,continue語句被用來告訴Python跳過當(dāng)前循環(huán)塊中的剩余語句,然后繼續(xù)進(jìn)行下一輪循環(huán)D、在循環(huán)中break,continue的作用是終止當(dāng)前循環(huán)結(jié)構(gòu)的后續(xù)操作,一旦程序運(yùn)行了break循環(huán)也就終止了!【正確答案】:A解析:
continue語句可以跳過循環(huán)的當(dāng)前一步。38.下列策略()可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。A、正則化系數(shù)無窮大B、正則化系數(shù)幾乎為0C、選擇合適的正則化參數(shù)D、以上答案都不正確【正確答案】:C解析:
選擇合適的正則化參數(shù)可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。39.KNN算法更適合于()的分類問題。A、重復(fù)時(shí)間B、稀有事件C、規(guī)則事件D、相近事件【正確答案】:B解析:
算法模型類題型—KNN算法40.在Windows系統(tǒng)中,關(guān)閉Python終端會(huì)話常用快捷鍵是()。A、Ctrl+CB、Ctrl+DCtrl+ED、Ctrl+Z【正確答案】:D解析:
在Windows系統(tǒng)中,關(guān)閉Python終端會(huì)話常用快捷鍵是Ctrl+Z。41.當(dāng)圖像通過信道傳輸時(shí),噪聲一般與()無關(guān)。A、信道傳輸?shù)馁|(zhì)量B、出現(xiàn)的圖像信號(hào)C、是否有中轉(zhuǎn)信道的過程D、圖像在信道前后的處理【正確答案】:B解析:
當(dāng)圖像通過信道傳輸時(shí),噪聲一般與出現(xiàn)的圖像信號(hào)無關(guān),這種獨(dú)立于信號(hào)的退化被稱為加性噪聲。信道傳輸質(zhì)量、中轉(zhuǎn)信道都會(huì)影響圖像質(zhì)量,而圖像在信道前后的預(yù)處理和后處理也會(huì)產(chǎn)生噪聲。42.關(guān)于嶺回歸,下列說法錯(cuò)誤的是()。A、屬于線性回歸B、使用L2正規(guī)項(xiàng)C、使用L1正規(guī)項(xiàng)D、基于最小二乘法【正確答案】:C解析:
《機(jī)器學(xué)習(xí)》,清華大學(xué)出版社43.以下()屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語表C、數(shù)據(jù)質(zhì)量評估D、過程質(zhì)量保障【正確答案】:A解析:
數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。44.多分類LDA將樣本投影到N-1維空間,N-1通常遠(yuǎn)小于數(shù)據(jù)原有的屬性數(shù),可通過這個(gè)投影來減小樣本點(diǎn)的維數(shù),且投影過程中使用了類別信息,因此LDA也常被視為一種經(jīng)典的()技術(shù)。A、無監(jiān)督特征選擇B、無監(jiān)督降維C、監(jiān)督特征選擇D、監(jiān)督降維【正確答案】:D解析:
多分類LDA將樣本投影到N-1維空間,N-1通常遠(yuǎn)小于數(shù)據(jù)原有的屬性數(shù),可通過這個(gè)投影來減小樣本點(diǎn)的維數(shù),且投影過程中使用了類別信息,因此LDA也常被視為一種經(jīng)典的監(jiān)督降維技術(shù)。45.以下代碼的輸出結(jié)果為()。importnumpyasnpa=np.array([[30,65,70],[80,95,10],[50,90,60]])print(np.median(axis=1))A、[[306570][809510][509060]]B、65.0C、[50.90.60.]D、[65.80.60.]【正確答案】:D解析:
每行求中位數(shù)。46.圖像灰度方差說明了圖像的哪一個(gè)屬性()。A、平均灰度B、圖像對比度C、圖像整體亮度D、圖像細(xì)節(jié)【正確答案】:B解析:
方差反應(yīng)圖像的高頻部分的大小;如果圖片對比度小,那方差就??;如果圖片對比度很大,那方差就大;方差=每個(gè)像素點(diǎn)的灰度值減去圖像平均灰度值的平方和除以總的像素個(gè)數(shù)47.pyplot.pie()所畫的圖像是()。A、箱線圖B、折線圖C、直方圖D、餅圖【正確答案】:D解析:
pyplot.pie()的作用是繪制餅圖。48.在Python中,調(diào)用open()時(shí)需要將內(nèi)容附加到文件末尾,而不是覆蓋文件原來內(nèi)容,則第二個(gè)實(shí)參應(yīng)該使用()。A、a'B、'g'C、'm'D、'w'【正確答案】:A解析:
'r'讀模式、'w'寫模式、'a'追加模式、'b'二進(jìn)制模式、'+'讀/寫模式。49.有關(guān)深度學(xué)習(xí)加速芯片,以下的說法中不正確的是:()。A、GPU既可以做游戲圖形加速,也可以做深度學(xué)習(xí)加速B、用于玩游戲的高配置顯卡,也可以用于深度學(xué)習(xí)計(jì)算。C、GoogleTPU已經(jīng)發(fā)展了三代,它們只能用于推斷(Inference)計(jì)算,不能用于訓(xùn)練(Training)計(jì)算D、FPGA最早是作為CPLD的競爭技術(shù)而出現(xiàn)的【正確答案】:C50.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:()A、特征提取B、特征修改C、映射數(shù)據(jù)到新的空間D、特征構(gòu)造【正確答案】:B解析:
機(jī)器學(xué)習(xí)51.下列方法中,能夠讓所有單詞的首字母變成大寫的方法是()。A、capitalizeB、titleC、upperD、Ijust【正確答案】:B解析:
capitalize()將字符串的第一個(gè)字母變成大寫,其他字母變小寫;upper()方法將字符串中的小寫字母轉(zhuǎn)為大寫字母;ljust左對齊。52.ApacheSqoop主要設(shè)計(jì)目的是()。A、數(shù)據(jù)清洗B、數(shù)據(jù)轉(zhuǎn)化C、數(shù)據(jù)ETLD、數(shù)據(jù)可視化【正確答案】:C解析:
在Hadoop與傳統(tǒng)的數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)的ETL操作。53.假設(shè)有5個(gè)大?為7x7、邊界值為0的卷積核,同時(shí)卷積神經(jīng)網(wǎng)絡(luò)第一層的深度為1。此時(shí)如果向這一層傳入一個(gè)維度為224x224x3的數(shù)據(jù),那么神經(jīng)網(wǎng)絡(luò)下一層所接收到的數(shù)據(jù)維度是多少?A、218x218x5B、217x217x8C、217x217x3D、220x220x5【正確答案】:A54.下列常用模塊功能描述錯(cuò)誤的是()。A、datetime:datetime對象不可將日期對象格式化為可讀字符串的方法B、json:JSON(JavaScriptObjectNotation,JS對象標(biāo)記)是一種輕量級的數(shù)據(jù)交換格式C、sys:這個(gè)模塊可供訪問由解釋器使用或維護(hù)的變量和與解釋器進(jìn)行交互的函數(shù)D、scipy:應(yīng)用廣泛的科學(xué)計(jì)算包【正確答案】:A解析:
strftime()是datetime庫將日期對象格式化為可讀字符串的方法。55.TF-IDF中的TF是指()。A、某個(gè)詞在文檔中出現(xiàn)的次數(shù)B、文章的總次數(shù)C、某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D、以上答案都不正確【正確答案】:C解析:
TF意思是詞頻(TermFrequency),表示某個(gè)詞出現(xiàn)頻率,也就是某個(gè)詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)56.神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,一般會(huì)遇到停滯期,即神經(jīng)網(wǎng)絡(luò)在進(jìn)入全局最小值之前陷入局部最小值。以下哪個(gè)策略可以避免上述情況?A、增加參數(shù)數(shù)量B、減少參數(shù)數(shù)量C、在開始時(shí)將學(xué)習(xí)率降低10倍D、改變幾個(gè)時(shí)期的學(xué)習(xí)率【正確答案】:D57.將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為()。A、編輯器B、編譯器C、虛擬機(jī)D、解釋器【正確答案】:B解析:
將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為編譯器。58.()算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個(gè)階段來挖掘頻繁項(xiàng)集。AprioriB、EMC、PCAD、PAC【正確答案】:A解析:
《大數(shù)據(jù)應(yīng)用知識(shí)讀本》,中國電力出版社59.樹立數(shù)據(jù)是公司核心資產(chǎn)的理念,建立統(tǒng)一管理、分級負(fù)責(zé)的()管理機(jī)制。A、數(shù)據(jù)B、安全C、資產(chǎn)D、統(tǒng)一【正確答案】:A解析:
阿里專有云用戶指南及產(chǎn)品手冊V_3_1460.如果需要訓(xùn)練的特征維度成千上萬,在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離計(jì)算困難。我們通過什么方法可以緩解這個(gè)問題()。A、K均值算法B、支持向量機(jī)C、降維D、以上答案都不正確【正確答案】:C解析:
如果需要訓(xùn)練的特征維度成千上萬,在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏、距離計(jì)算困難,可懂過降維降低特征維度。61.Spark比mapreduce快的原因不包括()A、Spark基于內(nèi)存迭代,而MapReduce基于磁盤迭代B、DAG計(jì)算模型相比MapReduce更有效率C、Spark是粗粒度的資源調(diào)度,而MR是細(xì)粒度的資源調(diào)度。D、Spark支持交互式處理,MapReduce善于處理流計(jì)算。【正確答案】:D解析:
A、B、C是Spark比mapreduce快的原因。MapReduce不善于處理除批處理計(jì)算模式之外的其他計(jì)算模式,如流計(jì)算、交互式計(jì)算和圖計(jì)算等。62.執(zhí)行如下代碼:importtimeprint(time.time())以下選項(xiàng)中描述錯(cuò)誤的是()。A、time庫是Python的標(biāo)準(zhǔn)庫;B、可使用time.ctime(),顯示為更可讀的形式;C、time.sleep(5)推遲調(diào)用線程的運(yùn)行,單位為毫秒;D、輸出自1970年1月1日00:00:00AM以來的秒數(shù);【正確答案】:C解析:
time模塊的sleep()函數(shù)推遲調(diào)用線程的運(yùn)行,單位為秒。63.下列代碼中,表示刪除空目錄的是()A、os.removeB、os.rmdirC、os.removedirD、os.rename【正確答案】:B解析:
《大數(shù)據(jù)應(yīng)用知識(shí)讀本》64.RNN不同于其他神經(jīng)網(wǎng)絡(luò)的地方在于(____)。A、實(shí)現(xiàn)了記憶功能B、速度快C、精度高D、易于搭建【正確答案】:A65.已知一個(gè)數(shù)據(jù)集,n為特征數(shù),m為訓(xùn)練樣本數(shù),如果n較小,而且m大小中等(例如n在1-1000之間,而m在10-10000之間),則一般選擇什么核函數(shù)的支持向量機(jī)()。A、邏輯回歸模型B、不帶核的支持向量機(jī)C、高斯核的支持向量機(jī)D、多項(xiàng)式核的支持向量機(jī)【正確答案】:C解析:
高斯核函數(shù)需要選擇合適的sigma^2參數(shù),適用于少量特征,大量樣本的情況,可以擬合出非常復(fù)雜的非線性決策邊界。66.下列哪一種方法的系數(shù)沒有封閉形式(closed-form)的解()。A、Ridge回歸B、LassoC、Ridge回歸和LassoD、以上答案都不正確【正確答案】:B解析:
Ridge回歸是一般的線性回歸再加上L2正則項(xiàng),它具有封閉形式的解,可以基于最小二乘法求解。67.關(guān)于K均值和DBSCAN的比較,以下說法不正確的是()。A、K均值丟棄被它識(shí)別為噪聲的對象,而DBSCAN一般聚類所有對象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇【正確答案】:A解析:
DBSCAN和K均值都是將每個(gè)對象指派到單個(gè)簇的劃分聚類算法,但K均值一般聚類所有對象,而DBSCAN丟棄被它識(shí)別為噪聲的對象。68.Spark可以處理的數(shù)據(jù)任務(wù)包括()A、數(shù)據(jù)批處理任務(wù);B、交互式處理任務(wù);C、圖數(shù)據(jù)處理任務(wù);D、B和C;【正確答案】:D解析:
Spark可以很好地支持流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。69.DBSCAN算法的MinPts參數(shù)的意義是()。A、數(shù)據(jù)點(diǎn)的鄰域半徑B、密度閾值C、高密度點(diǎn)距離閾值D、低密度點(diǎn)距離閾值【正確答案】:B解析:
DBSCAN算法的MinPts參數(shù)的意義是密度閾值。70.在MapReduce計(jì)算架構(gòu)中,()組件運(yùn)行在DataNode上,具體管理本節(jié)點(diǎn)計(jì)算任務(wù)的執(zhí)行。A、Client;B、JobTracker;C、TaskTracker;D、Task;【正確答案】:C解析:
TaskTracker組件運(yùn)行在DataNode上,具體管理本節(jié)點(diǎn)計(jì)算任務(wù)的執(zhí)行。71.()是交叉驗(yàn)證法的一種特例。A、自助法B、留一法C、交叉驗(yàn)證法D、錯(cuò)誤率分析【正確答案】:B解析:
留一法是交叉驗(yàn)證法的一種特例。72.下列關(guān)于AUC面積描述不正確的是_____。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AUC等于0.5時(shí),則真實(shí)性最低,無應(yīng)用價(jià)值D、AUC越接近1.0,檢測方法真實(shí)性越高【正確答案】:B解析:
《數(shù)據(jù)挖掘_概念與技術(shù)》73.(____)應(yīng)當(dāng)為公安機(jī)關(guān),國家安全機(jī)關(guān)依法愛護(hù)國家安全和偵查犯罪的活動(dòng)提供技術(shù)支持和幫助。A、網(wǎng)絡(luò)建設(shè)者B、網(wǎng)絡(luò)建設(shè)者C、網(wǎng)絡(luò)運(yùn)營者D、網(wǎng)絡(luò)使用者【正確答案】:C解析:
《中華人民共和國網(wǎng)絡(luò)安全法》第28條74.如果要將讀寫位置移動(dòng)到文件開頭,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')【正確答案】:B解析:
seek(0)指移動(dòng)指針到0位置即開頭。75.gensim庫中()是指一組電子文檔的集合,這個(gè)集合是gensim的輸入。A、結(jié)構(gòu)B、主題C、文檔流D、語料【正確答案】:D解析:
語料是文檔的集合,也是gensim進(jìn)行自然語言處理的輸入。76.()用于將非線性引入神經(jīng)網(wǎng)絡(luò)。它會(huì)將值縮小到較小的范圍內(nèi)。A、損失函數(shù)B、優(yōu)化函數(shù)C、激活函數(shù)D、目標(biāo)函數(shù)【正確答案】:C解析:
激活函數(shù)用于將非線性引入神經(jīng)網(wǎng)絡(luò),它會(huì)將值縮小到較小的范圍內(nèi)。77.stats.describe()函數(shù)的作用是()。A、計(jì)算變異系數(shù)B、計(jì)算數(shù)據(jù)集的樣本偏度C、計(jì)算所傳遞數(shù)組的幾個(gè)描述性統(tǒng)計(jì)信息D、計(jì)算關(guān)于樣本平均值的第n個(gè)矩【正確答案】:C解析:
stats.describe用來計(jì)算所傳遞數(shù)組的幾個(gè)描述性統(tǒng)計(jì)信息。78.以下不屬于基于區(qū)域的圖像分割方法的是()。A、區(qū)域生長法B、分水嶺算法C、大津算法D、基于圖論的分割算法【正確答案】:C解析:
大津算法是基于圖像灰度分布的圖像分割方法。79.Scikit-Learn中()可以實(shí)現(xiàn)評估回歸模型。A、accuracy_scoreB、mean_squared_errorC、f1_scoreD、auc【正確答案】:B解析:
mean_squared_error均方誤差是用來評估回歸模型的指標(biāo),其他三個(gè)都是評估分類模型的指標(biāo)。80.下列哪項(xiàng)關(guān)于模型能力(指神經(jīng)網(wǎng)絡(luò)模型能擬合復(fù)雜函數(shù)的能力)的描述是正確的A、隱藏層層數(shù)增加,模型能力增加B、Dropout的比例增加,模型能力增加C、學(xué)習(xí)率增加,模型能力增加D、都不正確【正確答案】:A81.open函數(shù)中,參數(shù)'wb'的含義是()。A、創(chuàng)建并二進(jìn)制只讀B、創(chuàng)建并只寫方式C、創(chuàng)建并二進(jìn)制寫入D、創(chuàng)建并追加方式【正確答案】:C解析:
open函數(shù)中,參數(shù)'wb'的含義創(chuàng)建并二進(jìn)制寫入。82.關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是()。A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同。B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)。C、OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高。D、OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的【正確答案】:C解析:
OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,記錄即時(shí)的增、刪、改、查,比如在銀行存取一筆款,就是一個(gè)事務(wù)交易。OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉庫的核心部心,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動(dòng)態(tài)報(bào)表系統(tǒng)。83.關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn),下面說法正確的是()。A、當(dāng)簇只包含少量數(shù)據(jù)點(diǎn),或者數(shù)據(jù)點(diǎn)近似協(xié)線性時(shí),混合模型也能很好地處理B、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇C、混合模型比K均值或模糊c均值更一般,因?yàn)樗梢允褂酶鞣N類型的分布D、混合模型在有噪聲和離群點(diǎn)時(shí)不會(huì)存在問題【正確答案】:C解析:
K均值與模糊C均值,這兩個(gè)方法都是迭代求取最終的聚類劃分,即聚類中心與隸屬度值。兩者都不能保證找到問題的最優(yōu)解,都有可能收斂到局部極值。模糊C均值是K均值方法的改進(jìn),算法的目標(biāo)函數(shù)與K均值一致,區(qū)別在于目標(biāo)函數(shù)中增加了模糊權(quán)重指數(shù);GMM高斯混合模型聚類采用了新的判斷依據(jù)--概率,即通過屬于某一類的概率大小來判斷最終的歸屬類別。84.信息熵是度量()最常用的一種指標(biāo)。A、樣本的個(gè)數(shù)B、樣本的維度C、樣本的純度D、樣本的冗余度【正確答案】:C解析:
信息熵是度量樣本純度最常用的一種指標(biāo)。85.數(shù)組允許批量計(jì)算而無須任何for循環(huán),這種特性叫()。A、矩陣化;B、便捷化;C、批量化;D、失量化;【正確答案】:D解析:
矢量化指Numpy可以直接面向數(shù)組進(jìn)行批量計(jì)算,不需要對每個(gè)元素進(jìn)行循環(huán)計(jì)算。86.在一個(gè)神經(jīng)網(wǎng)絡(luò)中,確定每一個(gè)神經(jīng)元的權(quán)重和偏差是模型擬合訓(xùn)練樣本的目標(biāo),比較有效的辦法是()。A、根據(jù)人工經(jīng)驗(yàn)隨機(jī)賦值B、搜索所有權(quán)重和偏差的組合,直到得到最佳值C、賦予一個(gè)初始值,然后迭代更新權(quán)重,直至損失函數(shù)取得極小D、下一層神經(jīng)元繼承上一層神經(jīng)元的權(quán)重和偏差【正確答案】:C87.國家保護(hù)公民、法人和其他組織依法使用網(wǎng)絡(luò)的權(quán)利,促進(jìn)網(wǎng)絡(luò)接入普及,(),為社會(huì)提供安全、便利的網(wǎng)絡(luò)服務(wù),保障網(wǎng)絡(luò)信息依法有序自由流動(dòng)A、服務(wù)水平B、網(wǎng)絡(luò)服務(wù)C、業(yè)務(wù)水平D、提升網(wǎng)絡(luò)服務(wù)水平【正確答案】:D解析:
《中華人民共和國網(wǎng)絡(luò)安全法》88.對于一組數(shù)據(jù),我們應(yīng)該如何將每個(gè)要素縮放到[-1,1]范圍,而不會(huì)破壞稀疏性()。A、使用preprocessing.MaxAbsScaler()方法B、使用preprocessing.LabelEncoder()方法C、使用preprocessing.maxabs_scale()方法D、使用preprocessing.MinMaxScaler()方法【正確答案】:C解析:
preprocessing.maxabs_scale()函數(shù)會(huì)將將每個(gè)要素縮放到[-1,1]范圍,而不會(huì)破壞稀疏性。89.?所謂高維數(shù)據(jù),指的是A、數(shù)據(jù)對象很多B、數(shù)據(jù)屬性很多C、以上都正確D、以上都錯(cuò)誤【正確答案】:B解析:
數(shù)據(jù)挖掘:概念與技術(shù)90.在plt中通常的lw參數(shù)代表的作用是()。A、線條的風(fēng)格B、文字的顏色C、線條的寬度D、線條的透明度【正確答案】:C解析:
linewidth,線條寬度。91.下面回歸模型中的哪個(gè)步驟/假設(shè)最能影響過擬合和欠擬合之間的平衡因素()。A、多項(xiàng)式的階數(shù)B、是否通過矩陣求逆或梯度下降學(xué)習(xí)權(quán)重C、使用常數(shù)項(xiàng)D、使用正則化【正確答案】:A解析:
選取合適的多項(xiàng)式階數(shù)對于回歸的擬合程度會(huì)產(chǎn)生重要的影響。多項(xiàng)式階數(shù)越高,越容易產(chǎn)生過擬合現(xiàn)象。92.與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)的優(yōu)勢在于()。A、深度學(xué)習(xí)可以自動(dòng)學(xué)習(xí)特征B、深度學(xué)習(xí)完全不需要做數(shù)據(jù)預(yù)處理C、深度學(xué)習(xí)完全不提取底層特征,如圖像邊緣、紋理等D、深度學(xué)習(xí)不需要調(diào)參【正確答案】:A93.下列()算法更適合做時(shí)間序列建模。A、CNNB、決策樹C、LSTMD、貝葉斯算法【正確答案】:C解析:
LSTM算法更適合做時(shí)間序列建模。94.a=np.arange(24).reshape(2,3,4)的輸出結(jié)果為()數(shù)據(jù)。A、一維B、二維C、三維D、四維【正確答案】:C解析:
在進(jìn)行reshape操作后,數(shù)組維度為reshape參數(shù)個(gè)數(shù),此處輸出結(jié)果為三維數(shù)據(jù)。95.?考慮兩隊(duì)之間的足球比賽:隊(duì)0和隊(duì)1。假設(shè)65%的比賽隊(duì)0勝出,剩余的比賽隊(duì)1獲勝。隊(duì)0獲勝的比賽中只有30%是在隊(duì)1的主場,而隊(duì)1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊(duì)1的主場進(jìn)行隊(duì)1獲勝的概率為A、0.75B、0.35C、0.4678D、0.5738【正確答案】:D解析:
數(shù)據(jù)挖掘:概念與技術(shù)96.在一些算法中,為了進(jìn)行屬性之間的比較或運(yùn)算,需要把不同屬性的不同變量取值范圍變換成同一范圍,以免使得結(jié)果發(fā)生扭曲,偏向取值范圍大的變量。這一過程稱為()。A、合并B、數(shù)據(jù)聚合C、歸一化D、數(shù)據(jù)處理【正確答案】:C解析:
歸一化是一種無量綱處理手段,使物理系統(tǒng)數(shù)值的絕對值變成某種相對值關(guān)系。簡化計(jì)算,縮小量值的有效辦法。97.一幅灰度均勻分布的圖像,其灰度范圍在[0,255],則該圖像的信息量為()。A、0B、6C、8D、255【正確答案】:C解析:
把255拆成二進(jìn)制以后是11111111所以是8。98.BP神經(jīng)網(wǎng)絡(luò)具有很的表示能力,它經(jīng)常遭遇(),其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。A、欠擬合B、誤差過大C、誤差過小D、過擬合【正確答案】:D解析:
由于其強(qiáng)大的表示能力,BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過擬合,其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。99.如何使用pyplot創(chuàng)建一個(gè)新圖()。A、pyplot.figimage()B、pyplot.figure()C、pyplot.figtext()D、pyplot.figlegend()【正確答案】:B解析:
figure()函數(shù)創(chuàng)建一個(gè)新圖。100.關(guān)于數(shù)據(jù)產(chǎn)品,以下說法錯(cuò)誤的是()。A、數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B、與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費(fèi)者不僅限于人類用戶.還可以是計(jì)算機(jī)以及其他軟硬件系統(tǒng)C、數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項(xiàng)目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品D、數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項(xiàng)目流程的全部活動(dòng)【正確答案】:A解析:
數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集,還包括文檔、知識(shí)庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策或它們的組合。101.下列哪項(xiàng)關(guān)于模型能力(modelcapacity指神經(jīng)網(wǎng)絡(luò)模型能擬合復(fù)雜函數(shù)的能力)的描述是正確的()A、隱藏層層數(shù)增加,模型能力增加B、Dropout的比例增加,模型能力增加C、學(xué)習(xí)率增加,模型能力增加D、都不正確【正確答案】:A解析:
Dropout比例增加,可能會(huì)丟失過多參數(shù)影響模型能力;學(xué)習(xí)率過大,梯度下降可能會(huì)越過最低點(diǎn),無法收斂。102.ordinalencoder將屬性轉(zhuǎn)化為()。A、獨(dú)熱編碼B、附帶特性的數(shù)字C、二進(jìn)制編碼D、ASCII碼【正確答案】:B解析:
ordinalencoder的作用是數(shù)值化,但是不增加列數(shù)。103.有一個(gè)44x44x16的輸入,并使用大小為5x5的32個(gè)卷積核進(jìn)行卷積,步長為1,無填充(nopadding),輸出是多少?()A、39*39*32B、40*40*32C、44*44*16D、29*29*32【正確答案】:B解析:
《從小數(shù)據(jù)到大數(shù)據(jù)》104.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正確答案】:B解析:
Spark的集群管理主要有三種,分別為Standalone模式、YARN模式和Mesos模式。105.測一元正態(tài)分布中的離群點(diǎn),屬于異常檢測中的基于()的離群點(diǎn)檢測。A、統(tǒng)計(jì)方法B、鄰近度C、密度D、聚類技術(shù)【正確答案】:A解析:
數(shù)據(jù)科學(xué)實(shí)戰(zhàn)106.[i**iforiinrange(3)]運(yùn)行結(jié)果是()。A、[1,1,4]B、[0,1,4]C、[1,2,3]D、(0,1,4)【正確答案】:A解析:
**表示乘方運(yùn)算,該列表表達(dá)式指為[0**0,1**1,2**2]即為[1,1,4]107.緩解過擬合的一個(gè)辦法是允許支持向量機(jī)在一些樣本上出錯(cuò),以下哪種形式適合這種方法()。A、硬間隔支持向量機(jī)B、軟間隔支持向量機(jī)C、線性核函數(shù)支持向量機(jī)D、多項(xiàng)式核函數(shù)支持向量機(jī)【正確答案】:B解析:
軟間隔允許某些樣本不滿足約束,可緩解過擬合。108.()是一種著名的密度聚類算法,它基于一組鄰域參數(shù)來刻畫樣本的緊密程度。A、DBSCANB、原型聚類C、密度聚類D、層次聚類【正確答案】:A解析:
DBSCAN是一種著名的密度聚類算法,它基于一組鄰域參數(shù)來刻畫樣本的緊密程度。109.若A與B是任意的兩個(gè)事件,且P(AB)=P(A)·P(B),則可稱事件A與B()。A、等價(jià)B、互不相容C、相互獨(dú)立D、相互對立【正確答案】:C解析:
若A與B為互斥事件,則有概率加法公式P(A+B)=P(A)+P(B),若A與B不為互斥事件,則有公式P(A+B)=P(A)+P(B)-P(AB);若A與B為相互獨(dú)立事件,則有概率乘法公式P(AB)=p(A)P(B)110.以下內(nèi)容符合物體識(shí)別任務(wù)的是()。A、不能對圖像進(jìn)行壓縮或剪裁B、遵守誤差最小準(zhǔn)則和最佳近似準(zhǔn)則C、可以不指定分類的類別數(shù)量D、事先給定樣本的分布特征【正確答案】:B解析:
遵守誤差最小準(zhǔn)則和最佳近似準(zhǔn)則為實(shí)現(xiàn)物體識(shí)別任務(wù)的最優(yōu)化準(zhǔn)則。111.任一隨機(jī)事件出現(xiàn)的概率為()A、在–1與1之間B、小于0C、不小于1D、在0與1之間【正確答案】:D解析:
如果沒有其他的附加條件的話,一般概率p的取值范圍是:0≤P≤1。0代表不可能發(fā)生,1代表一定會(huì)發(fā)生。112.對于列表ls的操作,以下選項(xiàng)中描述錯(cuò)誤的是A、ls.append(x):在ls最后增加一個(gè)元素B、ls.clear():刪除ls的最后一個(gè)元素C、ls.copy():生成一個(gè)新列表,復(fù)制ls的所有元素D、ls.reverse():列表ls的所有元素反轉(zhuǎn)【正確答案】:B113.在支持向量機(jī)中,核函數(shù)的主要作用是(____)。A、將低維空間中線性不可分的數(shù)據(jù)映射到高維空間,使其線性可分B、將高維空間中線性不可分的數(shù)據(jù)映射到低維空間,使其線性可分C、將高維空間中線性可分的數(shù)據(jù)映射到低維空間,使其線性不可分D、將低維空間中線性可分的數(shù)據(jù)映射到高維空間,使其線性不可分【正確答案】:A114.關(guān)于Python內(nèi)存管理,下列說法錯(cuò)誤的是哪項(xiàng)()。A、變量不必事先聲明B、變量無須先創(chuàng)建和賦值而直接使用C、變量無須指定類型D、可以使用del釋放資源【正確答案】:B解析:
Python變量需要事先聲明并賦值才能使用。115.任何一個(gè)核函數(shù)都隱式地定義了一個(gè)()空間。A、希爾伯特空間B、再生希爾伯特空間C、再生核希爾伯特空間D、歐式空間【正確答案】:C解析:
任何一個(gè)核函數(shù)都隱式地定義了一個(gè)再生核希爾伯特空間空間。116.Hbase的一個(gè)典型應(yīng)用是webtable,它是一個(gè)以網(wǎng)頁()為主鍵的表。A、標(biāo)題;B、URL;C、內(nèi)容;D、類別;【正確答案】:B解析:
webtable中,以網(wǎng)頁URL為主鍵。117.以下屬于圖像處理的常用方法有()。A、圖像變換B、圖像編碼壓縮C、圖像增強(qiáng)和復(fù)原D、以上答案都正確【正確答案】:D解析:
圖像處理的常用方法包括圖像變換,圖像解碼和壓縮和圖像增強(qiáng)和復(fù)原。118.以下不屬于數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)區(qū)別的是()。A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學(xué)關(guān)注的不僅僅是“單一學(xué)科”問題,超出了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等單一學(xué)科的范疇C、數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)域?qū)崉?wù)知識(shí),它關(guān)注和強(qiáng)調(diào)的是二者的結(jié)合D、數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)中的計(jì)算一樣,僅僅是加減乘除【正確答案】:D解析:
數(shù)據(jù)科學(xué)中的“計(jì)算”并不僅僅是加/減/乘/除等“數(shù)學(xué)計(jì)算”,而包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型。119.隨機(jī)森林中的隨機(jī)是什么意思?A、隨便構(gòu)建樹模B、隨機(jī)選擇一個(gè)樹模型C、隨機(jī)選擇多個(gè)樹模型D、在構(gòu)建每個(gè)樹模型時(shí)隨機(jī)選擇樣本和特征【正確答案】:D120.下列論據(jù)中,能夠支撐“大數(shù)據(jù)無所不能”的觀點(diǎn)的是()。A、互聯(lián)網(wǎng)金融打破了傳統(tǒng)的觀念和行為B、大數(shù)據(jù)存在泡沫C、大數(shù)據(jù)具有非常高的成本D、個(gè)人隱私泄露與信息安全擔(dān)憂【正確答案】:A解析:
《大數(shù)據(jù)平臺(tái)基礎(chǔ)架構(gòu)指南》121.Spark的Stage的Task的數(shù)量由什么決定__。A、PartitionB、JobC、StageD、TaskScheduler【正確答案】:A解析:
task是stage下的一個(gè)任務(wù)執(zhí)行單元,一般來說,一個(gè)rdd中有多少個(gè)partition就有多少個(gè)task。122.DataFrame和RDD最大的區(qū)別是()。A、科學(xué)統(tǒng)計(jì)支持B、多了schemaC、存儲(chǔ)方式不一樣D、外部數(shù)據(jù)源支持【正確答案】:B解析:
相比于RDD,DataFrame多了數(shù)據(jù)的結(jié)構(gòu)信息,即schema123.請以下代碼的輸出結(jié)果為()。importnumpyasnpx=np.array([3,1,2])y=np.argsort(x)print(y)A、[312]B、[120]C、[123]D、123【正確答案】:B解析:
np.argsort()返回從小到大排序的數(shù)組在原數(shù)組中對應(yīng)的下標(biāo)。124.下面哪個(gè)是SVM在實(shí)際生活中的應(yīng)用?A、文本分類B、圖片分類C、新聞聚類D、以上都對【正確答案】:D125.下面與HDFS類似的框架是()A、NTFSB、FAT32C、GFSD、EXT3【正確答案】:C解析:
GFS也是分布式文件系統(tǒng),谷歌自己的分布式文件系統(tǒng).126.plt.scatter()函數(shù)中的參數(shù)c表示的含義是()。A、x軸上的數(shù)值B、y軸上的數(shù)值C、散點(diǎn)圖中的標(biāo)記顏色D、標(biāo)記圖形內(nèi)容的標(biāo)簽文件【正確答案】:C解析:
c是color關(guān)鍵字,指顏色。127.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程為y=7.19x+73.93,據(jù)此可以預(yù)測這個(gè)孩子10歲時(shí)的身高,則正確的敘述是()。A、身高一定是145.83cmB、身高一定超過146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正確答案】:D解析:
回歸直線方程預(yù)測時(shí),出現(xiàn)的誤差方向不能確定。128.()選擇成為支持向量機(jī)的最大變數(shù)。A、核函數(shù)B、樣本空間C、模型D、算法【正確答案】:A解析:
在不知道特征映射的形式時(shí),我們并不知道什么樣的核函數(shù)是合適的,而核函數(shù)也僅是隱式地定義了這個(gè)特征空間.于是,核函數(shù)選擇成為支持向量機(jī)的最大變數(shù)。129.CLOG日志緩沖區(qū)使用()算法。A、FIFOB、LRUC、SLRUD、RANDOM【正確答案】:C130.下列說法錯(cuò)誤的是()。A、Map函數(shù)將輸入的元素轉(zhuǎn)換成<key,value>形式的鍵值對B、Hadoop框架是用Java實(shí)現(xiàn)的,MapReduce應(yīng)用程序則一定要用Java來寫C、不同的Map任務(wù)之間不能互相通信D、MapReduce框架采用了Master/Slave架構(gòu),包括一個(gè)Master和若干個(gè)Slave【正確答案】:B解析:
大數(shù)據(jù)應(yīng)用知識(shí)讀本131.數(shù)組輸出的原則是()。A、從左到右,從下到上B、從左到右,從上到下C、從右到左,從下到上D、從右到左,從上到下【正確答案】:B解析:
數(shù)組輸出時(shí)遵循以下原則:從左到右,從上到下,132.以下代碼的輸出結(jié)果為()。np.concatenate([[[123][234]],[[345]]],axis=0)A、[[123][234][345]]B、[[123345][234]]C、[[123][234345]]D、[[123][234]]【正確答案】:A解析:
concatenate函數(shù)指定第0軸,即按行拼接。133.()是人們從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論和方法等。A、信息B、知識(shí)C、理解D、智慧【正確答案】:B解析:
知識(shí)上人們從數(shù)據(jù)、信息中發(fā)現(xiàn)的,在數(shù)據(jù)/信息中存在的共性規(guī)律、認(rèn)識(shí)、經(jīng)驗(yàn)與常識(shí)。通常根據(jù)能否清晰地表述和有效的轉(zhuǎn)移,將知識(shí)分為兩種:顯性知識(shí)(ExplicitKnowledge)和隱性知識(shí)(TacitKnowledge)。134.下面哪行代碼最適合接受系統(tǒng)輸入的一個(gè)整數(shù)()。A、num=input()B、num=input(“6”)C、num=int(input())D、num=float(input())【正確答案】:C解析:
AB輸入后是字符串;C輸入后是整數(shù);D輸入后是浮點(diǎn)數(shù)。135.plt.plot()函數(shù)的功能是()。A、展現(xiàn)變量的趨勢變化B、尋找變量之間的關(guān)系C、設(shè)置x軸的數(shù)值顯示范圍D、設(shè)置x軸的標(biāo)簽文本【正確答案】:A解析:
plot是折線圖,用于展現(xiàn)變量的趨勢變化。136.spark的master和worker通過什么方式進(jìn)行通信的?A、httpB、nioC、nettyD、Akka【正確答案】:D137.在Spark中,()是指RDD的每個(gè)分區(qū)都只被子RDD的一個(gè)分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】:D解析:
窄依賴定義。138.下面哪個(gè)程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)()A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNode【正確答案】:C解析:
Hadoop中namenode節(jié)點(diǎn)作為master節(jié)點(diǎn),對集群進(jìn)行管理;secondaryNameNode節(jié)點(diǎn)在于分擔(dān)namenode的壓力而設(shè)置;Jobtracker是為了跟蹤作業(yè)運(yùn)行的情況而設(shè)置的節(jié)點(diǎn)。139.Python中對變量描述錯(cuò)誤的選項(xiàng)是:A、Python不需要顯式聲明變量類型,在第一次變量賦值時(shí)由值決定變量的類型B、變量通過變量名訪問C、變量必須在創(chuàng)建和賦值后使用D、變量PI與變量Pi被看作相同的變量【正確答案】:D解析:
Python程序設(shè)計(jì)140.下列關(guān)于RNN說法正確的是(__)。A、RNN可以應(yīng)用在NLP領(lǐng)域B、LSTM是RNN的一個(gè)變種C、在RNN中一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)D、以上答案都正確【正確答案】:D解析:
RNN是一種人造神經(jīng)網(wǎng)絡(luò),它通過賦予網(wǎng)絡(luò)圖附加權(quán)重來創(chuàng)建循環(huán)機(jī)制,以維持內(nèi)部的狀態(tài)。在擁有狀態(tài)以后,便能在序列預(yù)測中明確地學(xué)習(xí)并利用上下文信息,如順序或時(shí)間成分,因此RNN適用于自然語言處理。RNN中一個(gè)序列當(dāng)前的輸出與前面的輸出有關(guān)。LSTM在RNN基礎(chǔ)上進(jìn)行了改進(jìn),能夠?qū)W習(xí)到長期依賴關(guān)系,因此是RNN的一個(gè)變種。141.RNN不同于其它神經(jīng)網(wǎng)絡(luò)的地方在于(__)。A、實(shí)現(xiàn)了記憶功能B、速度快C、精度高D、易于搭建【正確答案】:A解析:
RNN不同于其它神經(jīng)網(wǎng)絡(luò)的地方在于實(shí)現(xiàn)了記憶功能。142.企業(yè)要建立預(yù)測模型,需要準(zhǔn)備建模數(shù)據(jù)集,以下四條描述建模數(shù)據(jù)集正確的是()。A、數(shù)據(jù)越多越好B、盡可能多的合適的數(shù)據(jù)C、訓(xùn)練集數(shù)據(jù)是建模集數(shù)據(jù)的一部分D、以上三條都正確【正確答案】:D解析:
《統(tǒng)計(jì)分析:從小數(shù)據(jù)到大數(shù)據(jù)》143.CRF(條件隨機(jī)場)和HMM(隱馬爾可夫模型)之間的主要區(qū)別是什么?A、CRF是生成式的,而HMM是判別式模型B、CRF是判別式模型,HMM是生成式模型。CRF和HMM都是生成式模型D、CRF和HMM都是判別式模型?!菊_答案】:B144.能夠直觀顯示出學(xué)習(xí)器在樣本總體上的查全率、查準(zhǔn)率的圖是()。A、ROC曲線B、誤差曲線C、方差曲線D、P-R曲線【正確答案】:D解析:
能夠直觀顯示出學(xué)習(xí)器在樣本總體上的查全率、查準(zhǔn)率的圖是P-R曲線。145.從網(wǎng)絡(luò)的原理上來看,結(jié)構(gòu)最復(fù)雜的神經(jīng)網(wǎng)絡(luò)是()。A、卷積神經(jīng)網(wǎng)絡(luò)B、長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)C、GRUD、BP神經(jīng)網(wǎng)絡(luò)【正確答案】:B解析:
從網(wǎng)絡(luò)的原理上來看,結(jié)構(gòu)最復(fù)雜的神經(jīng)網(wǎng)絡(luò)是LSTM。146.MapReduce對map()函數(shù)的返回值進(jìn)行處理后再返回給reduce()函數(shù)的目的是()。A、減少map()函數(shù)和reduce()函數(shù)之間的數(shù)據(jù)傳輸B、優(yōu)化map()函數(shù)C、優(yōu)化reduce()函數(shù)D、這一步驟并無必要【正確答案】:A解析:
為了降低map()函數(shù)與reduce()函數(shù)之間的數(shù)據(jù)傳輸量,一般先對map()函數(shù)的輸出結(jié)果進(jìn)行處理。147.可視化視覺下的數(shù)據(jù)類型不包括()。A、定類數(shù)據(jù)B、定序數(shù)據(jù)C、定寬數(shù)據(jù)D、定比數(shù)據(jù)【正確答案】:C解析:
從可視化處理視角看,可以將數(shù)據(jù)分為4個(gè)類型:定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)和定比數(shù)據(jù),并采用不同的視覺映射方法。在可視化領(lǐng)域,對數(shù)據(jù)進(jìn)行分類分析的目的在于不同類型的數(shù)據(jù)可支持的操作類型不同。148.可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有()。A、機(jī)器學(xué)習(xí)、對數(shù)回歸、關(guān)聯(lián)模式B、K均值法、SOM機(jī)器學(xué)習(xí)C、Apriori算法、FP-Tree算法D、RBF機(jī)器學(xué)習(xí)、K均值法、機(jī)器學(xué)習(xí)【正確答案】:C解析:
關(guān)聯(lián)規(guī)則包括Apriori、FP-Tree等算法。149.回歸問題和分類問題的區(qū)別是什么?A、回歸問題與分類問題在輸入屬性值上要求不同B、回歸問題有標(biāo)簽,分類問題沒有C、回歸問題輸出值是連續(xù)的,分類問題輸出值是離散的D、回歸問題輸出值是離散的,分類問題輸出值是連續(xù)的【正確答案】:C解析:
機(jī)器學(xué)習(xí)150.下面選項(xiàng)正確的是()。importnumpyasnpx=np.array([[1,2],[3,4]])y=np.linalg.inv(x)print(y)A、[[12][34]]B、[[-2.1.][1.5-0.5]]C、[[1.0.][2.1.]]D、以上答案均不正確【正確答案】:B解析:
linalg.inv()是矩陣求逆,輸入與結(jié)果相乘為單位矩陣。1.常用的沖突消解策略有包括()。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】:ABC解析:
常用的沖突消解策略有包括:投票法,排序法,元規(guī)則法。2.HBase性能優(yōu)化包含下面的哪些選項(xiàng)()。A、讀優(yōu)化B、寫優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化【正確答案】:ABCD解析:
HBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。3.下列的哪種方法可以用來降低深度學(xué)習(xí)模型的過擬合問題?A、增加更多的數(shù)據(jù)B、使用數(shù)據(jù)擴(kuò)增技術(shù)(dataaugmentation)C、使用歸納性更好的架構(gòu)D、正則化數(shù)據(jù)【正確答案】:ABCD4.HIS表色系的三屬性包含:()。A、色調(diào)B、色飽和度C、亮度D、色度【正確答案】:ABC解析:
HIS表色系包含色調(diào),色飽和度和亮度。5.下列哪種服務(wù)可以用于存儲(chǔ)數(shù)據(jù)()。A、MapReduceB、YARNC、HBaseD、HDFS【正確答案】:CD解析:
MapReduce是計(jì)算模型;YARN是通用資源管理系統(tǒng);HBase是動(dòng)態(tài)模式數(shù)據(jù)庫;HDFS是Hadoop分布式文件系統(tǒng),是數(shù)據(jù)存儲(chǔ)的基礎(chǔ)。6.影響聚類算法效果的主要原因有:()A、特征選取B、模式相似性測度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:
聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。7.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度,那么下面說法正確的是:()。A、準(zhǔn)確度并不適合衡量不平衡類別問題B、準(zhǔn)確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:
精確度和召回率適合于衡量不平衡類別問題,準(zhǔn)確度并不適合衡量不平衡類別問題。8.下面屬于范數(shù)規(guī)則化的作用的是()和()。A、保證模型盡可能的簡單,避免過擬合B、約束模型特征C、最小化問題D、最大化問題【正確答案】:AB解析:
范數(shù)規(guī)則化的作用的是:保證模型盡可能的簡單,避免過擬合、約束模型特征。9.可視分析學(xué)的幾個(gè)特點(diǎn)包含()A、強(qiáng)調(diào)數(shù)據(jù)到知識(shí)的轉(zhuǎn)換過程B、強(qiáng)調(diào)可視化分析與自動(dòng)化建模之間的相互作用C、強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性D、強(qiáng)調(diào)數(shù)據(jù)加工(DataWrangling或DataMunging)工作的必要性E、強(qiáng)調(diào)人機(jī)交互的重要性【正確答案】:ABCDE解析:
從可是分析學(xué)模型可以看出,可視分析學(xué)的流程具有如下特點(diǎn):1)強(qiáng)調(diào)數(shù)據(jù)到知識(shí)的轉(zhuǎn)換過程??梢暬治鰧W(xué)中對數(shù)據(jù)可視化工作的理解發(fā)生了根本性變化——數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識(shí),而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上。兩種從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑:一是可視化分析,另一個(gè)是自動(dòng)化建模。2)強(qiáng)調(diào)可視化分析與自動(dòng)化建模之間的相互作用。二者的相互作用主要體現(xiàn)在:一方面,可視化技術(shù)可用于數(shù)據(jù)建模中的參數(shù)改進(jìn)的依據(jù);另一方面,數(shù)據(jù)建模也可以支持?jǐn)?shù)據(jù)可視化活動(dòng),為更好地實(shí)現(xiàn)用戶交互提供參考。3)強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。從數(shù)據(jù)到知識(shí)轉(zhuǎn)換的兩種途徑——可視化分析與自動(dòng)化建模分別通過數(shù)據(jù)映射和數(shù)據(jù)挖掘兩種不同方法實(shí)現(xiàn)。因此,數(shù)據(jù)映射和數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)可視化的兩個(gè)重要支撐技術(shù)。用戶可以通過兩種方法的配合使用實(shí)現(xiàn)模型參數(shù)調(diào)整和可視化映射方式的改變,盡早發(fā)現(xiàn)中間步驟中的錯(cuò)誤,進(jìn)而提升可視化操作的信度與效度。4)強(qiáng)調(diào)數(shù)據(jù)加工工作的必要性。數(shù)據(jù)可視化處理之前一般需要對數(shù)據(jù)進(jìn)行預(yù)處理(轉(zhuǎn)換)工作,且預(yù)處理活動(dòng)的質(zhì)量將影響數(shù)據(jù)可視化效果。5)強(qiáng)調(diào)人機(jī)交互的重要性。可視化過程往往涉及人機(jī)交互操作,需要重視人與計(jì)算機(jī)在數(shù)據(jù)可視化工作中的互補(bǔ)性優(yōu)勢。因此,人機(jī)交互以及人機(jī)協(xié)同工作也將成為未來數(shù)據(jù)可視化研究與實(shí)踐的重要手段。10.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個(gè)獨(dú)立的實(shí)體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】:ABCD解析:
可以將MapReduce的工作流程概括為4個(gè)獨(dú)立的實(shí)體①客戶端,用來提交MapReduce的作業(yè)。編寫MapReduce程序,配置作業(yè),提交作業(yè),程序員完成的工作。②JobTracker,用來協(xié)調(diào)作業(yè)的運(yùn)行。與TaskTracker通信,協(xié)調(diào)整個(gè)作業(yè)的執(zhí)行③TaskTracker,用來處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù),TaskTracker和JobTracker的不同有個(gè)很重要方面,就是在執(zhí)行任務(wù)時(shí)候TaskTracker可以有n多個(gè),JobTracker則只會(huì)有一個(gè)④HDFS,用來在其他實(shí)體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等等,最后的結(jié)果也是保存在hdfs上面。11.回歸分析有很多種類,常見的有()。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回歸【正確答案】:ACD解析:
常見的回歸分析有線性回歸,邏輯回歸和曲線回歸。12.下列不屬于聚類性能度量內(nèi)部指標(biāo)的是()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:
聚類常用的外部指標(biāo)包括:Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括:DB指數(shù)、Dunn指數(shù)。13.下面是文件基本操作的函數(shù)()。A、closeB、readC、renameD、remove【正確答案】:ABCD解析:
下面是文件基本操作的函數(shù)close、read、rename、remove。14.下面哪些是基于核的機(jī)器學(xué)習(xí)算法(__)。A、最大期望算法B、徑向基核函數(shù)C、線性判別分析法D、支持向量機(jī)【正確答案】:BCD解析:
SVM(可支持向量機(jī)),KFD(基于核的Fisher判別分析),KPCA(核成分分析)。徑向基函數(shù)核(RadialBasisFunction,RBFkernel),也被稱為高斯核(Gaussiankernel)或平方指數(shù)核(SquaredExponential.,SEkernel)[1],是常見的核函數(shù)(kernelfunction)。RBF核被應(yīng)用各類核學(xué)習(xí)(kernellearning)算法中,包括支持向量機(jī)(SupportVectorMachine,SVM)、高斯過程回歸(GaussianProcessRegression,GPR)等。15.長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)三個(gè)門是(____)。A、進(jìn)化門B、輸出門C、輸入門D、遺忘門【正確答案】:BCD16.常見的核函數(shù)主要包括()。A、多項(xiàng)式核B、高斯核C、線性核D、拉普拉斯核E、Sigmoid核【正確答案】:ABCDE解析:
上述都是常見的核函數(shù)。17.下面哪些情況可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練失敗。A、梯度消失B、梯度爆炸C、激活單元死亡D、鞍點(diǎn)【正確答案】:ABCD18.Python變量命名規(guī)則()。A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開頭,但不能以數(shù)字開頭,例如,可將變量命名為message_1,但不能將其命名為1_message。B、變量名不能包含空格,但可使用下劃線來分隔其中的單詞。例如,變量名greeting_message可行,但變量名greetingmessage會(huì)引發(fā)錯(cuò)誤。C、不要將Python關(guān)鍵字和函數(shù)名用作變量名,即不要使用Python保留用于特殊用途的單詞,如print。D、變量名應(yīng)既簡短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好?!菊_答案】:ABCD解析:
Python變量名只能包含字母、數(shù)字和下劃線,但不能以數(shù)字開頭,避免使用關(guān)鍵字,變量名應(yīng)既簡短又具有描述性。19.下列哪些指標(biāo)可以用來評估線性回歸模型(多選)()A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】:ABCD解析:
R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指標(biāo)均可以評估線性回歸模型。20.以下()屬于數(shù)據(jù)統(tǒng)計(jì)分析工具。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:
常用統(tǒng)計(jì)軟件的種類,包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Statistica、Eviews。(共36題)21.ETL包含下列哪些過程()A、數(shù)據(jù)抽取B、數(shù)據(jù)轉(zhuǎn)換C、數(shù)據(jù)加載D、數(shù)據(jù)展現(xiàn)【正確答案】:ABC解析:
ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。22.ETL技術(shù)主要涉及()操作。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】:ABC解析:
抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)23.關(guān)于降維說法正確的是()。A、PCA是根據(jù)方差這一屬性降維的B、降維可以防止模型過擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PCA等【正確答案】:ACD解析:
降維不能用于防止模型過擬合。24.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:
字典可以表示二維以上的高維數(shù)據(jù)。25.長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)三個(gè)門是哪些()A、進(jìn)化門B、輸出門C、輸入門D、遺忘門【正確答案】:BCD解析:
LSTM擁有三個(gè)門(輸入門,遺忘門,輸出門),來保護(hù)和控制細(xì)胞狀態(tài)。(共4題)26.數(shù)據(jù)科學(xué)項(xiàng)目主要涉及的活動(dòng)包括()。A、模式/模型的應(yīng)用及維護(hù)B、模式/模型的洞見C、結(jié)果的可視化與文檔化D、模式/模型的驗(yàn)證和優(yōu)化【正確答案】:ABCD解析:
數(shù)據(jù)科學(xué)項(xiàng)目是由從“項(xiàng)目目標(biāo)的定義”到“模式/模型的應(yīng)用及維護(hù)”的一系列雙向互聯(lián)的互動(dòng)鏈條組成的循序漸進(jìn)的過程,主要涉及的活動(dòng)包括:項(xiàng)目目標(biāo)的定義、數(shù)據(jù)的獲得與管理、模式/模型的洞見、模式/模型的驗(yàn)證和優(yōu)化和模式/模型的應(yīng)用及維護(hù)27.以下現(xiàn)象屬于過擬合的是A、訓(xùn)練集Loss下降,驗(yàn)證集loss不變B、訓(xùn)練集Loss下降,驗(yàn)證集loss上升C、訓(xùn)練集Loss上升,驗(yàn)證集loss.上升D、訓(xùn)練集Loss下降,驗(yàn)證集loss下降【正確答案】:AB28.若b=np.array([True,False,False]),以下能輸出[FalseTrueTrue]的是()。A、print(b-1)B、print(~b)C、print(np.logical_not(b))D、print(>>b)【正確答案】:BC解析:
數(shù)組分別邏輯取反的兩種方式,可以使用np.logical_not()函數(shù)或者直接用取反符號(hào)~。29.關(guān)于Pig的說法正確的是()。A、Pig的主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性B、Pig的核心是一種數(shù)據(jù)分析語言C、Pig程序的結(jié)構(gòu)適合于串行處理D、Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分【正確答案】:ABD解析:
Pig程序的結(jié)構(gòu)適合于并行處理。30.下列既可以用于分類,又可以用于回歸的機(jī)器學(xué)習(xí)算法有:A、k近鄰B、邏輯回歸C、決策樹D、線性回歸【正確答案】:AC解析:
邏輯回歸只用于分類,線性回歸只用于回歸。31.RNN在NLP領(lǐng)域的應(yīng)用包括(__)。A、語言模型與文本生成B、機(jī)器翻譯C、語音識(shí)別D、圖像描述生成【正確答案】:ABCD解析:
語言模型與文本生成;機(jī)器翻譯;語音識(shí)別;圖像描述生成;情感分析;對話系統(tǒng)等。32.特征選擇在子集生成與搜索方面引入了()人工智能搜索和評價(jià)方法。A、分支界限法B、浮動(dòng)搜索法C、信息熵D、AIC【正確答案】:ABCD解析:
特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術(shù),如分支界限法,浮動(dòng)搜索法等;在子集評價(jià)方法則采用了很多源于信息論的準(zhǔn)則,如信息熵、AIC等。33.下面是Numpy支持的統(tǒng)計(jì)函數(shù)有()。A、minB、maxC、medianD、mean【正確答案】:ABCD解析:
這些都是Numpy支持的統(tǒng)計(jì)函數(shù)。34.訓(xùn)練CNN時(shí),GPU顯存溢出,此時(shí)可以采取什么辦法()A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函數(shù)【正確答案】:ABC解析:
D:反而會(huì)加重負(fù)擔(dān)。35.LSTM應(yīng)用場景應(yīng)用場景有哪些()A、翻譯語言B、語音識(shí)別C、圖像識(shí)別D、股票預(yù)測【正確答案】:ABD解析:
C:CNN應(yīng)用于圖像識(shí)別。36.下面有關(guān)HTML敘述正確的是()。A、一個(gè)HTML文件可以用記事本來編輯B、HTML的意思是超文本標(biāo)記語言C、一個(gè)HTML文件必須是一個(gè)以htm或html為擴(kuò)展名的文件D、HTML區(qū)分大小寫,如<b>寫成<B>是錯(cuò)誤的【正確答案】:ABC解析:
在HTML文件是不區(qū)分大小寫的。37.相對于HadoopMapReduce,Spark有什么好處()。A、通用性;B、易用性;C、速度快;D、容錯(cuò)性;【正確答案】:ABC解析:
相對于HadoopMapReduce,Spark的特點(diǎn)包括速度快、通用性和易用性。38.為什么RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是sigmod呢()A、使用sigmod函數(shù)容易出現(xiàn)梯度消失B、sigmod的導(dǎo)數(shù)形式較為復(fù)雜C、雙曲正切更簡單D、sigmoid函數(shù)實(shí)現(xiàn)較為復(fù)雜【正確答案】:AB解析:
第一,采用sigmoid等函數(shù),反向傳播求誤差梯度時(shí),求導(dǎo)計(jì)算量很大,而Relu求導(dǎo)非常容易。第二,對于深層網(wǎng)絡(luò),sigmoid函數(shù)反向傳播時(shí),很容易就會(huì)出現(xiàn)梯度消失的情況(在sigmoid接近飽和區(qū)時(shí),變換太緩慢,導(dǎo)數(shù)趨于0),從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練。39.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD解析:
決策樹的劃分選擇有信息增益,增益率,基尼系數(shù)。40.線性模型的基本形式有()。A、線性回歸B、對數(shù)幾率回歸(二分類問題)C、線性判別分析(Fisher判別分析)D、多分類學(xué)習(xí)【正確答案】:ABCD解析:
線性模型的經(jīng)典模型有:線性回歸,對數(shù)幾率回歸(二分類問題),線性判別分析(Fisher判別分析),多分類學(xué)習(xí)。41.下列關(guān)于探索型數(shù)據(jù)分析常用圖表的說法,正確的有:A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數(shù)據(jù)之間的特征和對比B、探索型數(shù)據(jù)分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點(diǎn)圖、箱型圖等C、在探索型數(shù)據(jù)分析時(shí)應(yīng)該盡量避免使用餅圖,然而在數(shù)據(jù)報(bào)告中可以使用餅圖達(dá)到更加美觀的效果D、直方圖和箱型圖都可以用來展示數(shù)據(jù)的分布情況【正確答案】:BCD解析:
數(shù)據(jù)之間的特征和對比使用條形圖可更加直觀的展示數(shù)據(jù)。42.下列關(guān)于RNN、LSTM、GRU說法正確的是(__)。A、RNN引入了循環(huán)的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的變體D、RNN、LSTM、GRU是同一神經(jīng)網(wǎng)絡(luò)的不同說法,沒有區(qū)別【正確答案】:ABC解析:
RNN:循環(huán)神經(jīng)網(wǎng)絡(luò),是非線性動(dòng)態(tài)系統(tǒng),將序列映射到序列;LSTM:LSTM通過刻意的設(shè)計(jì)來避免長期依賴問題。記住長期的信息在實(shí)踐中是LSTM的默認(rèn)行為,而非需要付出很大代價(jià)才能獲得的能力
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025船舶租賃合同范本
- 2025年度炊事員食品安全責(zé)任與聘用合同4篇
- 2025年成品油公路運(yùn)輸與油站合作開發(fā)合同3篇
- 2025年度高端住宅窗戶安裝與智能家居集成合同3篇
- 二零二四年老字號(hào)男裝店鋪使用權(quán)轉(zhuǎn)讓合同3篇
- 二零二五年度車貸擔(dān)保及車輛維修服務(wù)合同4篇
- 二零二五年度場項(xiàng)目投標(biāo)失敗原因分析及補(bǔ)救措施合同4篇
- 2025年度汽車租賃公司車輛資產(chǎn)置換協(xié)議3篇
- 二零二五年度船舶維修配件運(yùn)輸合同范本4篇
- 二零二五年度啤酒經(jīng)銷商品牌形象合作合同3篇
- 2025年上半年江蘇連云港灌云縣招聘“鄉(xiāng)村振興專干”16人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- DB3301T 0382-2022 公共資源交易開評標(biāo)數(shù)字見證服務(wù)規(guī)范
- 人教版2024-2025學(xué)年八年級上學(xué)期數(shù)學(xué)期末壓軸題練習(xí)
- 【人教版化學(xué)】必修1 知識(shí)點(diǎn)默寫小紙條(答案背誦版)
- 江蘇省無錫市2023-2024學(xué)年八年級上學(xué)期期末數(shù)學(xué)試題(原卷版)
- 俄語版:中國文化概論之中國的傳統(tǒng)節(jié)日
- 《奧特萊斯業(yè)態(tài)淺析》課件
- 2022年湖南省公務(wù)員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 婦科一病一品護(hù)理匯報(bào)
- 哪吒之魔童降世
- 2022年上海市各區(qū)中考一模語文試卷及答案
評論
0/150
提交評論