




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第頁(yè)大數(shù)據(jù)題庫(kù)-綜合復(fù)習(xí)測(cè)試題1.下列關(guān)于數(shù)據(jù)分析的說(shuō)法正確的是()。A、描述性分析和預(yù)測(cè)性分析是診斷性分析的基礎(chǔ)B、診斷性分析是對(duì)規(guī)范性分析的進(jìn)一步理解C、預(yù)測(cè)性分析是規(guī)范性分析的基礎(chǔ)D、規(guī)范性分析是數(shù)據(jù)分析的最高階段,可以直接產(chǎn)生產(chǎn)業(yè)價(jià)值【正確答案】:C解析:
在數(shù)據(jù)分析中,流程分為以下方式:描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析。2.一般而言,在個(gè)體學(xué)習(xí)器性能相差較大與個(gè)體學(xué)習(xí)器性能相近時(shí)宜分別使用()。A、簡(jiǎn)單平均法,加權(quán)平均法B、加權(quán)平均法,簡(jiǎn)單平均法C、簡(jiǎn)單平均法,簡(jiǎn)單平均法D、加權(quán)平均法,加權(quán)平均法【正確答案】:B3.下列關(guān)于LSTM的說(shuō)法錯(cuò)誤的是()A、LSTM中存在sigmoid函數(shù)B、LSTM中存在tanh函數(shù)C、LSTM又稱長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)D、RNN是LSTM的變種【正確答案】:D解析:
解析:LSTM在RNN基礎(chǔ)上進(jìn)行了改進(jìn),能夠?qū)W習(xí)到長(zhǎng)期依賴關(guān)系,是RNN的一個(gè)變種。4.BASE原則的含義不包括()。A、基本可用B、柔性狀態(tài)C、最終一致D、基礎(chǔ)條件【正確答案】:D解析:
BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventallyConsistent(最終--致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致狀態(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時(shí)一致,系統(tǒng)在某一個(gè)時(shí)刻后達(dá)到一致性要求即可。5.下列聚類方法中采用概率模型來(lái)表達(dá)聚類的是()。A、K-meansB、LVQC、DBSCAND、高斯混合聚類【正確答案】:D解析:
高斯混合聚類(MixtureofGaussian)采用概率模型來(lái)表達(dá)聚類。6.分布式應(yīng)用程序可以基于分布式應(yīng)用程序協(xié)調(diào)服務(wù)實(shí)現(xiàn)同步服務(wù),配置維護(hù)和命名服務(wù)等的工具是()。A、FlumeB、ZookeeperC、StormD、SparkStreaming【正確答案】:B解析:
Zookeeper和Chubby均是分布式協(xié)調(diào)服務(wù)。7.在Spark中,()是指RDD的每個(gè)分區(qū)都只被子RDD的一個(gè)分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】:D解析:
窄依賴定義。8.()和假設(shè)檢驗(yàn)又可歸結(jié)為統(tǒng)計(jì)推斷的范疇,即對(duì)總體的數(shù)量特征做出具有一定可靠程度的估計(jì)和判斷。A、參數(shù)估計(jì)B、邏輯分析C、方差分析D、回歸分析【正確答案】:A解析:
推斷統(tǒng)計(jì)包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩方面的內(nèi)容。9.下列關(guān)于數(shù)據(jù)倉(cāng)庫(kù)最終目的的描述正確的是()。A、收集業(yè)務(wù)需求B、建立數(shù)據(jù)倉(cāng)庫(kù)邏輯模型C、開發(fā)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用分析D、為用戶和業(yè)務(wù)部門提供決策支持【正確答案】:D解析:
數(shù)據(jù)倉(cāng)庫(kù)的最終目的是為用戶和業(yè)務(wù)部門提供決策支持。10.解決Master故障的方法是設(shè)置檢查點(diǎn),當(dāng)Master失效時(shí),從()檢查點(diǎn)開)動(dòng)另一個(gè)Master進(jìn)程。A、第一個(gè)B、中間一個(gè)C、最后一個(gè)D、隨機(jī)選擇一個(gè)【正確答案】:C解析:
從最后一個(gè)檢查點(diǎn)開始啟動(dòng)另-Master進(jìn)程使得因故障產(chǎn)生的影響更小。11.下列說(shuō)法正確的是()。A、關(guān)聯(lián)規(guī)則挖掘過(guò)程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則B、尋找模式和規(guī)則主要是對(duì)數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式C、數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律,從而能更好地完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)D、在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差【正確答案】:C解析:
關(guān)聯(lián)規(guī)則挖掘過(guò)程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表,再利用代表生成需要的關(guān)聯(lián)規(guī)則,根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍,最后得到強(qiáng)關(guān)聯(lián)規(guī)則。數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律,從而能更好地完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越好。12.()的系數(shù)沒有封閉形式(closed-form)的解。A、Ridge回歸B、LassoC、Ridge回歸和LassoD、以上答案都不正確【正確答案】:B解析:
Ridge回歸是一般的線性回歸再加上L2正則項(xiàng),它具有封閉形式的解,可以基于最小二乘法求解。13.下列關(guān)于數(shù)據(jù)產(chǎn)品開發(fā)關(guān)鍵環(huán)節(jié)的描述正確的是()。A、數(shù)據(jù)收集B、數(shù)據(jù)預(yù)處理C、數(shù)據(jù)學(xué)習(xí)D、數(shù)據(jù)加工【正確答案】:D解析:
數(shù)據(jù)加工(DataWrangling或DataMunging)是數(shù)據(jù)產(chǎn)品開發(fā)的關(guān)鍵環(huán)節(jié)。14.下列關(guān)于Bagging的說(shuō)法錯(cuò)誤的是()。A、各基分類器之間有較強(qiáng)依賴,不可以進(jìn)行并行訓(xùn)練B、最著名的算法之一是基于決策樹基分類器的隨機(jī)森林C、當(dāng)訓(xùn)練樣本數(shù)量較少時(shí),子集之間可能有重疊D、為了讓基分類器之間互相獨(dú)立,需要將訓(xùn)練集分為若干子集【正確答案】:A解析:
Bagging方法在訓(xùn)練過(guò)程中,各基分類器之間無(wú)強(qiáng)依賴,可以進(jìn)行并行訓(xùn)練,隨機(jī)森林就是一種典型的例子。15.當(dāng)訓(xùn)練集特征非常多,而實(shí)例非常少的時(shí)候,可以采用()。A、sigmoid核的支持向量機(jī)B、不帶核的支持向量機(jī)C、高斯核的支持向量機(jī)D、多項(xiàng)式核的支持向量機(jī)【正確答案】:B解析:
當(dāng)不采用非常復(fù)雜的函數(shù),或者當(dāng)我們的訓(xùn)練集特征非常多但是實(shí)例非常少的時(shí)候,可以采用不帶核函數(shù)的支持向量機(jī)。16.下列屬于NoSQL數(shù)據(jù)庫(kù)中Key-Value缺點(diǎn)的是()。A、不記錄結(jié)構(gòu)信息B、查詢性能不高,缺乏統(tǒng)一查詢語(yǔ)法C、功能相對(duì)有限D(zhuǎn)、功能相對(duì)有限,不易于做分布式集群【正確答案】:A解析:
Key-Value型數(shù)據(jù)通常Key與Value之間采用某種方法(如哈希表)建立KValue映射,其缺點(diǎn)是不記錄結(jié)構(gòu)信息,無(wú)法建立索引。17.機(jī)器學(xué)習(xí)中做特征選擇時(shí),可能用到的方法有()。A、卡方B、信息增益C、平均互信息D、以上答案都正確【正確答案】:D18.()是基于規(guī)則的分類器。A、C4.5B、KNNC、NaiveBayesD、ANN【正確答案】:A解析:
基于規(guī)則的分類器有決策樹、隨機(jī)森林、Aprior,C4.5屬于決策樹算法。19.下列屬于小波去噪步驟的是()A、對(duì)圖象信號(hào)進(jìn)行小波分解B、對(duì)經(jīng)過(guò)層次分解后的高頻系數(shù)進(jìn)行閾值量化C、利用二維小波重構(gòu)圖象信號(hào)D、以上答案都正確【正確答案】:D解析:
小波去噪是通過(guò)短波實(shí)現(xiàn)噪音消除,與高斯去噪的基本原理一致。小波去噪方法包括三個(gè)基本的步驟:對(duì)含噪聲信號(hào)進(jìn)行小波變換;對(duì)變換得到的小波系數(shù)進(jìn)行某種處理,以去除其中包含的噪聲;對(duì)處理后的小波系數(shù)進(jìn)行小波逆變換,得到去噪后的信號(hào)。20.機(jī)器學(xué)習(xí)中,基于樣本分布的距離是()。A、馬氏距離B、歐式距離C、曼哈頓距離D、閔可夫斯基距離【正確答案】:A解析:
馬氏距離是基于樣本分布的一種距離。21.聚類是一種典型的無(wú)監(jiān)督學(xué)習(xí)任務(wù),然而在現(xiàn)實(shí)聚類任務(wù)中我們往往能獲得一些額外的監(jiān)督信息,于是可通過(guò)()來(lái)利用監(jiān)督信息以獲得更好的聚類效果。A、監(jiān)督聚類B、半監(jiān)督聚類C、聚類D、直推聚類【正確答案】:B22.CART決策樹通常采用()剪枝方法。A、REP(錯(cuò)誤率降低)B、CCP(代價(jià)復(fù)雜度)C、PEP(悲觀剪枝)D、預(yù)剪枝【正確答案】:B23.下列關(guān)于Spark的說(shuō)法錯(cuò)誤的是()。A、采用內(nèi)存計(jì)算模式B、可利用多種語(yǔ)言編程C、主要用于批處理D、可進(jìn)行map()操作【正確答案】:C解析:
HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用--些,可以很好地支持流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。24.診斷性分析主要采取的分析方法是()。A、關(guān)聯(lián)分析法和因果分析法B、關(guān)聯(lián)分析法和分類分析法C、關(guān)聯(lián)分析法和運(yùn)籌學(xué)D、因果分析法和分類分析法【正確答案】:A解析:
診斷性分析主要關(guān)注過(guò)去,回答為什么發(fā)生,主要采用關(guān)聯(lián)分析法和因果分析25.主成分分析的優(yōu)化目標(biāo)是一個(gè)()。A、不含約束條件的二次規(guī)劃問(wèn)題B、含有約束條件的二次規(guī)劃問(wèn)題C、不含約束條件的線性規(guī)劃問(wèn)題D、含有約束條件的線性規(guī)劃問(wèn)題【正確答案】:B26.假設(shè)我們擁有一個(gè)已完成訓(xùn)練的、用來(lái)解決車輛檢測(cè)問(wèn)題的深度神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練所用的數(shù)據(jù)集由汽車和卡車的照片構(gòu)成,而訓(xùn)練目標(biāo)是檢測(cè)出每種車輛的名稱(車輛共有10種類型)?,F(xiàn)在想要使用這個(gè)模型來(lái)解決另外一個(gè)問(wèn)題,問(wèn)題數(shù)據(jù)集中僅包含一種車(福特野馬)而目標(biāo)變?yōu)槎ㄎ卉囕v在照片中的位置,則應(yīng)采取的方法是()A、除去神經(jīng)網(wǎng)絡(luò)中的最后一層,凍結(jié)所有層然后重新訓(xùn)練B、對(duì)神經(jīng)網(wǎng)絡(luò)中的最后幾層進(jìn)行微調(diào),同時(shí)將最后一層(分類層)更改為回歸層C、使用新的數(shù)據(jù)集重新訓(xùn)練模型D、所有答案均不對(duì)【正確答案】:B解析:
由于神經(jīng)網(wǎng)絡(luò)淺層網(wǎng)絡(luò)主要提取圖像的低維特征,對(duì)于相近領(lǐng)域進(jìn)行遷移學(xué)習(xí)時(shí),這些低維特征相同,因此只需要對(duì)最后幾層進(jìn)行微調(diào),而檢測(cè)位置相當(dāng)于回歸任務(wù)。27.Spark核心層主要關(guān)注的問(wèn)題是().A、存儲(chǔ)B、計(jì)算C、傳輸D、連接【正確答案】:B解析:
Spark核心層定義,Spark核心層主要關(guān)注計(jì)算問(wèn)題。28.對(duì)文本數(shù)據(jù)處理,通常采用()核函數(shù)A、多項(xiàng)式B、SigmoidC、線性D、拉普拉斯【正確答案】:C29.HBase的一個(gè)典型應(yīng)用是Webtable,它是一個(gè)以網(wǎng)頁(yè)()為主鍵的表。A、標(biāo)題B、URLC、內(nèi)容D、類別【正確答案】:B解析:
Webtable中,以網(wǎng)頁(yè)URL為主鍵。30.下列關(guān)于選擇Logistic回歸中的One-Vs-All方法的描述正確的是()。A、我們需要在n類分類問(wèn)題中適合n個(gè)模型B、我們需要適合n-1個(gè)模型來(lái)分類為n個(gè)類C、我們需要只適合1個(gè)模型來(lái)分類為n個(gè)類D、以上答案都不正確【正確答案】:A解析:
如果存在n個(gè)類,那么n個(gè)單獨(dú)的邏輯回歸必須與之相適應(yīng),其中每個(gè)類的概率由剩余類的概率之和確定。31.圖像與灰度直方圖的對(duì)應(yīng)關(guān)系為()A、一一對(duì)應(yīng)B、一對(duì)多C、多對(duì)一D、以上答案都正確【正確答案】:C解析:
灰度直方圖是灰度級(jí)的函數(shù),它表示圖像中具有每種灰度級(jí)的像素的個(gè)數(shù),反映圖像中每種灰度出現(xiàn)的頻率。灰度直方圖的橫坐標(biāo)是灰度級(jí),縱坐標(biāo)是該灰度級(jí)出現(xiàn)的頻率,是圖像的最基本的統(tǒng)計(jì)特征。與圖像之間的關(guān)系是多對(duì)一的映射關(guān)系。一幅圖像唯一確定出與之對(duì)應(yīng)的直方圖,但不同圖像可能有相同的直方圖,選C。32.下列關(guān)于數(shù)據(jù)整合和分組的說(shuō)法不正確的是()。A、數(shù)據(jù)連接可以用concat或merge函數(shù)B、axiis=11表示軸向連接C、數(shù)據(jù)分組可以使用mean函數(shù)D、使用agg可以自定義多個(gè)聚合函數(shù)【正確答案】:C解析:
數(shù)據(jù)分組不可以使用mcan函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。33.隨薦集成中個(gè)體分類器(相互獨(dú)立)數(shù)目T的增大,集成的錯(cuò)誤率將呈()下降,最終趨向于零。A、指數(shù)級(jí)B、對(duì)數(shù)級(jí)C、線性級(jí)D、平方級(jí)【正確答案】:A34.以下內(nèi)容符合物體識(shí)別任務(wù)的是()A、不能對(duì)圖像進(jìn)行壓縮或剪裁B、遵守誤差最小準(zhǔn)則和最佳近似準(zhǔn)則C、可以不指定分類的類別數(shù)量D、事先給定樣本的分布特征【正確答案】:B解析:
遵守誤差最小準(zhǔn)則和最佳近似準(zhǔn)則為實(shí)現(xiàn)物體識(shí)別任務(wù)的最優(yōu)化準(zhǔn)則。35.考慮某個(gè)具體問(wèn)題時(shí)可能只有少量數(shù)據(jù),但如果有一個(gè)類似問(wèn)題已經(jīng)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),則可以有很靠譜的先驗(yàn)??梢岳眠@個(gè)預(yù)先訓(xùn)練好的網(wǎng)絡(luò)的方法是()A、把除了最后一層外所有的層都凍住,重新訓(xùn)練最后一層B、對(duì)新數(shù)據(jù)重新訓(xùn)練整個(gè)模型C、只對(duì)最后幾層進(jìn)行訓(xùn)練調(diào)參(finetune)D、對(duì)每一層模型進(jìn)行評(píng)估,選擇其中的少數(shù)來(lái)用【正確答案】:C解析:
解析:如果有個(gè)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),就相當(dāng)于網(wǎng)絡(luò)各參數(shù)有個(gè)很靠譜的先驗(yàn)代替隨機(jī)初始化。若新的少量數(shù)據(jù)來(lái)自先前訓(xùn)練數(shù)據(jù)(或者先前訓(xùn)練數(shù)據(jù)量很好地描述了數(shù)據(jù)分布,而新數(shù)據(jù)采樣自完全相同的分布),則凍結(jié)前面所有層而重新訓(xùn)練最后一層即可。但一般情況下,新數(shù)據(jù)分布跟先前訓(xùn)練集分布有所偏差,所以先驗(yàn)網(wǎng)絡(luò)不足以完全擬合新數(shù)據(jù)時(shí),可以凍結(jié)大部分前層網(wǎng)絡(luò),只對(duì)最后幾層進(jìn)行訓(xùn)練調(diào)參(finetune)。36.線性判別分析在二分類問(wèn)題上也稱為()。A、線性回歸B、對(duì)數(shù)幾率回歸C、Fisher判別分析D、主成分分析【正確答案】:C解析:
線性判別分析在二分類問(wèn)題上也稱為Fisher判別分析。37.下列不屬于判別式模型的是()。A、決策樹BP神經(jīng)網(wǎng)絡(luò)C、支持向量機(jī)D、貝葉斯【正確答案】:D38.下列關(guān)于核函數(shù)特性的描述錯(cuò)誤的是()A、只要一個(gè)對(duì)稱函數(shù)所對(duì)應(yīng)的核矩陣半正定就能稱為核函數(shù)B、核函數(shù)選擇作為支持向量機(jī)的最大變數(shù)C、核函數(shù)將影響支持向量機(jī)的性能D、核函數(shù)是一種降維模型【正確答案】:D解析:
解析:以RBF的核函數(shù)為例,它是通過(guò)徑向基核函數(shù)可以把原始數(shù)據(jù)投影到更高維的空間里去,從而增加數(shù)據(jù)可分的概率,是從低維到高維,并不是降維。39.下列關(guān)于ZooKecper特點(diǎn)的描述錯(cuò)誤的是()。A、復(fù)雜性B、自我復(fù)制C、順序訪問(wèn)D、高速讀取【正確答案】:A解析:
ZooKeeper的設(shè)計(jì)回標(biāo)和特點(diǎn)包括簡(jiǎn)單性、自我復(fù)制、順序訪問(wèn)和高速讀取。40.下列基本活動(dòng)中不屬于數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要特別注意的是()。A、創(chuàng)造性設(shè)計(jì)B、數(shù)據(jù)洞見C、虛擬化D、個(gè)性化描述【正確答案】:D解析:
數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要注意有創(chuàng)造性設(shè)計(jì)、數(shù)據(jù)洞見、虛擬化等基本活動(dòng)。41.RDD默認(rèn)的存儲(chǔ)級(jí)別是()。A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_ANDISKE、MEMORY_AND_DISK_SER【正確答案】:A解析:
RDD存儲(chǔ)級(jí)別定義。42.對(duì)數(shù)值型輸出,最常見的結(jié)合策略是()。A、投票法B、平均法C、學(xué)習(xí)法D、排序法【正確答案】:B43.聚類算法已經(jīng)默認(rèn)所有的記錄都是()的實(shí)體。A、相關(guān)聯(lián)B、有備份C、不獨(dú)立D、獨(dú)立【正確答案】:D44.()通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)。A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、JobTracker【正確答案】:D解析:
Hadoop的集群是基于master/slave模式,NameNode和JobTracker屬于master,DataNode和TaskTracker屬于slave,master只有一個(gè),而slave有多個(gè)。SecondaryNameNode內(nèi)存需求和NameNode在一個(gè)數(shù)量級(jí)上,所以通常SecondaryNameNode(運(yùn)行在單獨(dú)的物理機(jī)器上)和NameNode運(yùn)行在不同的機(jī)器上。JobTracker對(duì)應(yīng)于NameNode,TaskTracker對(duì)應(yīng)于DataNode。DataNode和NameNode是針對(duì)數(shù)據(jù)存放來(lái)而言的,JobTracker和TaskTracker是對(duì)于MapRcduce執(zhí)行而言的。45.下面色彩空間中,最接近人的視覺系統(tǒng)的特點(diǎn)的是哪個(gè)()A、RGB空間B、CMY空間CMYK空間D、HSI空間【正確答案】:D解析:
HSI反映了人的視覺系統(tǒng)感知彩色的方式,以色調(diào)、飽和度和亮度三種基本特征量來(lái)感知顏色,最接近人的視覺系統(tǒng)特征。46.下列關(guān)于MapReduce說(shuō)法不正確的是()。A、MapReduce是一種計(jì)算框架B、MapRcduce來(lái)源于Google的學(xué)術(shù)論文C、MapReduce程序只能用java語(yǔ)言編寫D、MapReduce隱藏了并行計(jì)算的細(xì)節(jié),方便使用【正確答案】:C解析:
MapReduce程序可用多種語(yǔ)言編寫,如Ruby、Python、Java等。47.數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),下列不是其搜索過(guò)程特點(diǎn)的是()。A、有選擇B、有策略C、有目標(biāo)D、反復(fù)進(jìn)行的【正確答案】:C解析:
數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過(guò)程是有選擇、有策略和反復(fù)進(jìn)行的。48.下列關(guān)于MapReduce計(jì)算框架中生成鍵值對(duì)的說(shuō)法正確的是()。A、可以有相同的鍵,值必須唯一B、可以有相同的值,鍵必須唯一C、可以有相同的鍵,也可以有相同的值D、鍵和值都必須唯一【正確答案】:C解析:
鍵值對(duì)中的鍵和值并沒有必然的聯(lián)系,兩者可以相同。49.()算法假設(shè)聚類結(jié)構(gòu)能通過(guò)樣本分布的緊密程度確定。A、原型聚類B、密度聚類C、層次聚類D、模型聚類【正確答案】:B50.下列關(guān)于缺失值的說(shuō)法錯(cuò)誤的是()。A、可以利用統(tǒng)計(jì)量對(duì)缺失值進(jìn)行填補(bǔ)B、可以利用K近鄰值對(duì)缺失值進(jìn)行填補(bǔ)C、只要有缺失值就必須把對(duì)應(yīng)記錄刪除D、對(duì)于缺失值較多的屬性可以考慮刪除【正確答案】:C解析:
缺失值可以通過(guò)刪除、填補(bǔ)等方法進(jìn)行處理。51.()是以樣本統(tǒng)計(jì)量作為未知總體參數(shù)的估計(jì)量,并通過(guò)對(duì)樣本單位的實(shí)際觀察取得樣本數(shù)據(jù),計(jì)算樣本統(tǒng)計(jì)量的取值作為被估計(jì)參數(shù)的估計(jì)值。A、參數(shù)估計(jì)B、邏輯分析C、方差分析D、回歸分析【正確答案】:A解析:
參數(shù)估計(jì)是統(tǒng)計(jì)推斷的一種,根據(jù)從總體中抽取的隨機(jī)樣本來(lái)估計(jì)總體分布中未知參數(shù)。52.Sigmoid函數(shù)作為神經(jīng)元激活函數(shù)的特點(diǎn)是()A、連續(xù)但不光滑B、不連續(xù)但光滑C、連續(xù)且光滑D、不連續(xù)且不光滑【正確答案】:C53.下列回歸模型中最能影響過(guò)擬合與欠擬合之間平衡的步驟是()。A、多項(xiàng)式的階數(shù)B、是否通過(guò)矩陣求逆或梯度下降學(xué)習(xí)權(quán)重C、使用常數(shù)項(xiàng)D、使用正則化【正確答案】:A解析:
選取合適的多項(xiàng)式階數(shù)對(duì)于回歸的擬合程度會(huì)產(chǎn)生重要的影響。多項(xiàng)式階數(shù)越高,越容易產(chǎn)生過(guò)擬合現(xiàn)象。54.一監(jiān)獄人臉識(shí)別準(zhǔn)入系統(tǒng)用來(lái)識(shí)別待進(jìn)入人員的身份,此系統(tǒng)能識(shí)別獄警、小偷、送餐員、其他人員4種不同人員。下列學(xué)習(xí)方法最適合此種應(yīng)用需求的是()。A、二分類問(wèn)題B、層次聚類問(wèn)題C、多分類問(wèn)題D、回歸問(wèn)題【正確答案】:C解析:
涉及4種人員類別屬于多分類問(wèn)題。55.當(dāng)訓(xùn)練樣本近似線性可分時(shí),()。A、通過(guò)硬間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)B、通過(guò)軟間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)C、通過(guò)硬間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)D、通過(guò)軟間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)【正確答案】:B56.Relief是為()問(wèn)題設(shè)計(jì)的。A、二分類B、多分類C、回歸D、降維【正確答案】:A57.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行()等處理的過(guò)程。A、更正B、刪除C、補(bǔ)充錄入D、以上答案都正確【正確答案】:D解析:
數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行更正、刪除、補(bǔ)充錄入等處理的過(guò)程。58.下列說(shuō)法錯(cuò)誤的是()。A、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降的解時(shí)全局最優(yōu)解B、進(jìn)行PCA降維時(shí)需要計(jì)算協(xié)方差矩陣C、沿負(fù)梯度下降的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問(wèn)題【正確答案】:C解析:
解析:梯度下降法并不是下降最快的方向,它只是目標(biāo)函數(shù)在當(dāng)前的點(diǎn)的切平面上下降最快的方向,可以說(shuō)負(fù)梯度下降的方向一定是局部最優(yōu)的方向。59.對(duì)于一個(gè)圖像識(shí)別問(wèn)題(在一張照片里找出一只貓),()可以更好地解決這個(gè)問(wèn)題A、循環(huán)神經(jīng)網(wǎng)絡(luò)B、感知機(jī)C、多層感知機(jī)D、卷積神經(jīng)網(wǎng)絡(luò)【正確答案】:D解析:
解析:卷積神經(jīng)網(wǎng)絡(luò)可以提取圖像特征,且具有平移不變性。循環(huán)神經(jīng)網(wǎng)絡(luò)適合語(yǔ)言類數(shù)據(jù)。60.()的主要目標(biāo)是提供可擴(kuò)展的機(jī)器學(xué)習(xí)算法及其實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:A解析:
Mahout是ApacheSoftwareFoundation(ASF)旗下的一個(gè)開源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),如聚類、分類、推薦過(guò)濾、頻繁子項(xiàng)挖掘等。61.機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的關(guān)系是()A、深度學(xué)習(xí)包含機(jī)器學(xué)習(xí)B、機(jī)器學(xué)習(xí)包含深度學(xué)習(xí)C、二者是獨(dú)立的D、二者相互促進(jìn)【正確答案】:B62.()是指?jìng)€(gè)體對(duì)視覺感知信息的進(jìn)一步加工處理過(guò)程,包括視覺信息的抽取、轉(zhuǎn)換、存儲(chǔ)、簡(jiǎn)化、合并、理解和決策加工活動(dòng)。A、視覺感知B、視覺認(rèn)知C、視覺編碼D、視覺轉(zhuǎn)換【正確答案】:B解析:
視覺感知(VisualPerception)是指客觀事物通過(guò)視覺感覺器官(眼睛等)在人腦中產(chǎn)生直接反應(yīng)的過(guò)程。視覺感知是產(chǎn)生視覺認(rèn)知的前提條件。視覺認(rèn)知(VisualCognition)是指?jìng)€(gè)體對(duì)視覺感知信息的進(jìn)一步加工處理過(guò)程,包括視覺信息的抽取、轉(zhuǎn)換、存儲(chǔ)、簡(jiǎn)化、合并、理解和決策等加工活動(dòng)。63.下列關(guān)于支持向量機(jī)優(yōu)化性問(wèn)題形式的說(shuō)法正確的是()。A、它是一個(gè)凸二次規(guī)劃問(wèn)題B、它是一個(gè)凸一次規(guī)劃問(wèn)題C、它是一個(gè)凹二次規(guī)劃問(wèn)題D、它是一個(gè)凹一次規(guī)劃問(wèn)題【正確答案】:A解析:
支持向量機(jī)優(yōu)化性問(wèn)題的一個(gè)凸二次規(guī)劃問(wèn)題。64.下列能夠直觀顯示出學(xué)習(xí)器在樣本總體上的查全率、查準(zhǔn)率的是()。A、ROC曲線B、誤差曲線C、方差曲線D、P-R曲線【正確答案】:D65.DBSCAN算法的MinPts參數(shù)的意義是()。A、數(shù)據(jù)點(diǎn)的鄰域半徑B、密度閾值C、高密度點(diǎn)距離閾值D、低密度點(diǎn)距離閾值【正確答案】:B66.以下方法中,不屬于漢語(yǔ)分詞方法的是哪項(xiàng)()A、雙向掃描法B、正向最大匹配法C、逐詞遍歷法D、詞向量匹配法【正確答案】:D解析:
詞向量匹配法為相似性度量,并不能實(shí)現(xiàn)分詞。67.從數(shù)據(jù)到智慧的轉(zhuǎn)換依次遞進(jìn)過(guò)程是()。A、數(shù)據(jù)、知識(shí)、信息、理解、智慧B、數(shù)據(jù)、信息、理解、知識(shí)、智慧C、數(shù)據(jù)、信息、知識(shí)、理解、智慧D、數(shù)據(jù)、理解、信息、知識(shí)、智慧【正確答案】:C解析:
DIKW金字塔(DIKWPyramid)模型揭示了數(shù)據(jù)(Data)與信息(Information)、知識(shí)(Knowledge)、智慧(Wisdom)之間的區(qū)別與聯(lián)系,自底向上分別為數(shù)據(jù)、信息、知識(shí)、智慧。68.在MapReduce中,下列組件中用戶不指定也不會(huì)有默認(rèn)的是()。A、CombinerB、OutputFormatC、PartitionerD、InputFormat【正確答案】:A解析:
在MapReduce編程模型中,Combiner是可有可無(wú)的組件,它的作用是給MapTask的結(jié)果數(shù)據(jù)做局部合并以減少ReduceTask接收的數(shù)據(jù)量,以減少網(wǎng)絡(luò)數(shù)據(jù)傳輸;OutputFormat的默認(rèn)組件是TextOutputFormat;InputFormat的默認(rèn)組件是TextInputFormat;Partitioner的默認(rèn)實(shí)現(xiàn)是HashPartitioner。69.如果使用線性回歸模型,則下列說(shuō)法正確的是()。A、檢查異常值是很重要的,因?yàn)榫€性回歸對(duì)離群效應(yīng)很敏感B、線性回歸分析要求所有變量特征都必須具有正態(tài)分布C、線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性D、以上說(shuō)法都不對(duì)【正確答案】:A解析:
異常值是數(shù)據(jù)中的一個(gè)非常有影響的點(diǎn),它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中是很重要的。了解變量特征的分布是有用的,類似于正態(tài)分布的變量特征對(duì)提升模型性能很有幫助,數(shù)據(jù)預(yù)處理的時(shí)候經(jīng)常做的一件事就是將數(shù)據(jù)特征歸一化到(0,1)分布,但不是必需的。當(dāng)模型包含相互關(guān)聯(lián)的多個(gè)特征時(shí),會(huì)發(fā)生多重共線性。因此,線性回歸中變量特征應(yīng)該盡量減少冗余性。70.下面方法中,屬于映射數(shù)據(jù)到新的空間的方法是哪個(gè)()A、傅立葉變換B、特征加權(quán)C、漸進(jìn)抽樣D、維歸約【正確答案】:A解析:
傅立葉變換是將時(shí)間域映射到頻率域。71.在機(jī)器學(xué)習(xí)中,不屬于常用的沖突消解策略是()。A、投票法B、排序法C、元規(guī)則法D、加權(quán)法【正確答案】:D解析:
常用的沖突消解策略有投票法、排序法、元規(guī)則法等。72.MapReduce使用()來(lái)記錄不同事件的發(fā)生次數(shù)。A、日志B、事件觸發(fā)器C、狀態(tài)列表D、計(jì)數(shù)器【正確答案】:D解析:
MapReduce使用計(jì)數(shù)器來(lái)記錄不同事件的發(fā)生次數(shù)。73.下列關(guān)于數(shù)據(jù)清洗的說(shuō)法不正確的是()。A、對(duì)單數(shù)據(jù)源,主鍵取值不能重復(fù)B、多數(shù)據(jù)源會(huì)存在數(shù)據(jù)重復(fù)、單位不一致的問(wèn)題C、連續(xù)型數(shù)據(jù)不存在冗余問(wèn)題D、缺失值可以采用刪除和填補(bǔ)等方法處理【正確答案】:C解析:
連續(xù)型數(shù)據(jù)可能存在冗余問(wèn)題。74.RNN不同于其他神經(jīng)網(wǎng)絡(luò)的地方在于()A、實(shí)現(xiàn)了記憶功能B、速度快C、精度高D、易于搭建【正確答案】:A75.語(yǔ)音識(shí)別的應(yīng)用場(chǎng)景包括()A、語(yǔ)音轉(zhuǎn)文本B、語(yǔ)音合成C、人機(jī)交互D、以上答案都正確【正確答案】:D解析:
語(yǔ)音識(shí)別應(yīng)用包含語(yǔ)音轉(zhuǎn)文本,音合成和人機(jī)交互等。76.以下關(guān)鍵點(diǎn)檢測(cè)描述正確的是()A、關(guān)鍵點(diǎn)檢測(cè)就是檢測(cè)目標(biāo)的關(guān)鍵點(diǎn)B、在人體或者人臉關(guān)鍵點(diǎn)檢測(cè)中應(yīng)用較多C、在電網(wǎng)的應(yīng)用中,我們主要用來(lái)進(jìn)行人員違章動(dòng)作的判斷D、以上答案都正確【正確答案】:D解析:
關(guān)鍵點(diǎn)檢測(cè)就是檢測(cè)目標(biāo)的關(guān)鍵點(diǎn),在人體或者人臉關(guān)鍵點(diǎn)檢測(cè)中應(yīng)用較多,在電網(wǎng)的應(yīng)用中主要用來(lái)進(jìn)行人員違章動(dòng)作的判斷。77.標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的()最小A、累積方差B、累積誤差C、累積協(xié)方差D、累積偏差【正確答案】:B78.()采用概率模型來(lái)表達(dá)聚類原型。A、K均值算法B、學(xué)習(xí)向量量化C、高斯混合聚類D、密度聚類【正確答案】:C79.根據(jù)數(shù)據(jù)管理計(jì)劃,設(shè)計(jì)或選擇具體方法實(shí)行計(jì)劃中的工作內(nèi)容,屬于數(shù)據(jù)治理的()過(guò)程。A、計(jì)劃B、執(zhí)行C、檢查D、改進(jìn)【正確答案】:B解析:
數(shù)據(jù)治理并不是一次性工作,而是一種循序漸進(jìn)的過(guò)程,主要包含計(jì)劃、執(zhí)行、檢查和改進(jìn)等基本活動(dòng),即數(shù)據(jù)治理的PDCA模型,其中:①計(jì)劃(Plan):數(shù)據(jù)管理方針和目標(biāo)的確定,明確組織機(jī)構(gòu)的數(shù)據(jù)管理的目的、邊界和工作內(nèi)容;②執(zhí)行(Do):根據(jù)數(shù)據(jù)管理計(jì)劃,設(shè)計(jì)或選擇具體的方法、技術(shù)、工具等解決方案,實(shí)現(xiàn)計(jì)劃中的工作內(nèi)容;③檢查(Check):定期檢查執(zhí)行效果,進(jìn)行績(jī)效評(píng)估,并發(fā)現(xiàn)存在問(wèn)題與潛在風(fēng)險(xiǎn);④改進(jìn)(Action):根據(jù)檢查結(jié)果中發(fā)現(xiàn)的問(wèn)題與風(fēng)險(xiǎn),進(jìn)一步改進(jìn)自己的數(shù)據(jù)管理工作。80.對(duì)一幅100×100像素的圖像,若像元用8bit表示灰度值,霍夫曼編碼壓縮后的圖像數(shù)據(jù)量為40000bit,則圖像壓縮比例為()A、2:1B、3:1C、4:1D、1:2【正確答案】:A解析:
像素個(gè)數(shù)100×100=10000,再乘以每個(gè)像素位數(shù)得總位數(shù)80000,壓縮后40000,所以壓縮比為2:1。81.圖像的形態(tài)學(xué)處理方法包括()A、圖像增強(qiáng)B、圖像銳化C、圖像分割D、腐蝕【正確答案】:D解析:
圖像的形態(tài)學(xué)處理方法最常用的幾種操作:腐蝕、膨脹、開操作、閉操作、形態(tài)學(xué)濾波、形態(tài)學(xué)梯度、頂帽、黑帽以及測(cè)地腐蝕、測(cè)地膨脹。82.()是表現(xiàn)數(shù)據(jù)分布對(duì)稱性的指標(biāo)。A、斜率B、偏斜度C、偏度D、偏離度【正確答案】:B解析:
偏斜度是對(duì)統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向及程度的度量。在偏態(tài)分布中,當(dāng)偏斜度為正值時(shí),分布正偏,即眾數(shù)位于算術(shù)平均數(shù)的左側(cè);當(dāng)偏斜度為負(fù)值時(shí),分布負(fù)偏,即眾數(shù)位于算術(shù)平均數(shù)的右側(cè)。83.最早被提出的循環(huán)神經(jīng)網(wǎng)絡(luò)門控算法是()A、長(zhǎng)短期記憶網(wǎng)絡(luò)B、門控循環(huán)單元網(wǎng)絡(luò)C、堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)D、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)【正確答案】:A解析:
解析:長(zhǎng)短期記憶網(wǎng)絡(luò)是最早被提出的循環(huán)神經(jīng)網(wǎng)絡(luò)門控算法。長(zhǎng)短期記憶網(wǎng)絡(luò)(long-shorttermmemory,LSTM)論文首次發(fā)表于1997年11月15日。門控循環(huán)單元網(wǎng)絡(luò)(GRU)論文發(fā)表于2014年。堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)(SRNN)論文發(fā)表于2017年。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectionalrecurrentneuralnetworks,BRNN)發(fā)表于1997年11月。84.下列關(guān)于DMM(數(shù)據(jù)管理成熟度模型)中已管理級(jí)基本特點(diǎn)的描述正確的是()。A、組織機(jī)構(gòu)的數(shù)據(jù)管理關(guān)鍵活動(dòng)能夠根據(jù)結(jié)構(gòu)自身的反饋以及外部環(huán)境的變革進(jìn)行不斷優(yōu)化B、組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過(guò)程的執(zhí)行過(guò)程C、組織機(jī)構(gòu)只在項(xiàng)目管理過(guò)程中執(zhí)行了D、M給出的關(guān)鍵過(guò)程,而缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理E、組織機(jī)構(gòu)的數(shù)據(jù)管理工作超出了項(xiàng)目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理其數(shù)據(jù)管理關(guān)鍵過(guò)程【正確答案】:D解析:
DMM(數(shù)據(jù)管理成熟度模型)中“已管理級(jí)”的基本特點(diǎn)是組織機(jī)構(gòu)的數(shù)據(jù)管埋工作超出了項(xiàng)目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理其數(shù)據(jù)管理關(guān)鍵過(guò)程。85.在多元線性回歸模型中,若某個(gè)解釋變量對(duì)其余解釋變量的判定系數(shù)接近于1,則表明模型中存在()。A、異方差B、序列相關(guān)C、多重共線性D、高擬合優(yōu)度【正確答案】:C86.()不可以直接來(lái)對(duì)文本分類。A、K-meansB、決策樹C、支持向量機(jī)D、KNN【正確答案】:A解析:
K-mcans是聚類方法,屬于無(wú)監(jiān)督學(xué)習(xí)。BCD都是常見的分類方法。87.()算法是決策樹學(xué)習(xí)的基本算法,其他多數(shù)決策樹學(xué)習(xí)方法都是它的變體。A、Find-SB、KNNC、概念D、ID3【正確答案】:D88.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過(guò)軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的(不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A、暫時(shí)隔離B、暫時(shí)刪除C、永久刪除D、不做處理【正確答案】:C解析:
數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過(guò)軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的永刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。89.點(diǎn)擊率的預(yù)測(cè)是一個(gè)數(shù)據(jù)比例不平衡問(wèn)題(如訓(xùn)練集中樣本呈陰性的比例為99%,陽(yáng)性的比例是1%),如果用這種數(shù)據(jù)建立模型并使得訓(xùn)練集的準(zhǔn)確率高達(dá)99%。則可以得出結(jié)論是()。A、模型的準(zhǔn)確率非常高,我們不需要進(jìn)一步探索B、模型不好,我們應(yīng)建一個(gè)更好的模型C、無(wú)法評(píng)價(jià)模型D、以上答案都不正確【正確答案】:C解析:
對(duì)于失衡數(shù)據(jù),模型的準(zhǔn)確率不能作為衡量模型效果的標(biāo)準(zhǔn)。因?yàn)槲覀冃枰剿鞯氖巧贁?shù)1%的數(shù)據(jù),為更好地評(píng)估模型效果,可以用靈敏度、特異度、Fmeasure來(lái)判斷。90.HBase依靠()存儲(chǔ)底層數(shù)據(jù)。A、HDFSB、HadoopC、MemoryD、MapReducc【正確答案】:A解析:
HBase位于結(jié)構(gòu)化存儲(chǔ)層,HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持。91.下列關(guān)于文本分類的說(shuō)法不正確的是()A、文本分類是指按照預(yù)先定義的主題類別,由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類別B、文本分類大致可分為基于知識(shí)工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語(yǔ)的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟【正確答案】:C解析:
詞袋模型是指將所有詞語(yǔ)裝進(jìn)一個(gè)袋子里,不考慮其詞法和語(yǔ)序的問(wèn)題,即每個(gè)詞語(yǔ)都是獨(dú)立的,所以該模型沒有考慮文本詞語(yǔ)的行文順序,C錯(cuò)誤,選C92.輸入圖像為37x37,經(jīng)過(guò)第一層卷積(thenumberoffilteters=25,kemelsizesize=5x5,,paddingvalid,strid)與池化層maxpooling(kemelsimelsize=3x3,,padding=valid),輸出特征圖rde=l大小為()A、10x10B、11x11C、12x12D、13x13【正確答案】:B解析:
解析:(37-5+1)/3=11。93.在支持向量機(jī)中,軟間隔支持向量機(jī)的目標(biāo)函數(shù)比硬間隔支持向量機(jī)多了一個(gè)()。A、偏置項(xiàng)B、系數(shù)C、松弛變量D、兩種情況的目標(biāo)函數(shù)相同【正確答案】:C94.()會(huì)發(fā)生權(quán)重共享。A、卷積神經(jīng)網(wǎng)絡(luò)B、循環(huán)神經(jīng)網(wǎng)絡(luò)C、全連接神經(jīng)網(wǎng)絡(luò)D、A、B【正確答案】:D95.大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù),實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理,滿足()存儲(chǔ)需求。A、歷史數(shù)據(jù)B、離線數(shù)據(jù)C、實(shí)時(shí)數(shù)據(jù)D、多樣化數(shù)據(jù)【正確答案】:D解析:
大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)、實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理,滿足多樣化數(shù)據(jù)存儲(chǔ)需求。96.數(shù)據(jù)可視化的方法論基礎(chǔ)是()。A、統(tǒng)計(jì)圖表B、視覺編碼C、圖論D、圖形符號(hào)學(xué)【正確答案】:B解析:
數(shù)據(jù)可視化方法體系的方法論基礎(chǔ)主要是指視覺編碼。視覺編碼為其他數(shù)據(jù)可視化方法提供了方法論基礎(chǔ),奠定了數(shù)據(jù)可視化方法體系的根基。97.中文同義詞替換時(shí),常用到Word2Vec,以下說(shuō)法錯(cuò)誤的是()A、Word2Vec基于概率統(tǒng)計(jì)B、Word2Vec結(jié)果符合當(dāng)前預(yù)料環(huán)境C、Word2Vec得到的都是語(yǔ)義上的同義詞D、Word2Vec受限于訓(xùn)練語(yǔ)料的數(shù)量和質(zhì)量【正確答案】:C解析:
Word2Vec只會(huì)輸出詞向量,并不關(guān)心是否為同義詞。98.()表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界,即刻畫了學(xué)習(xí)問(wèn)題本身的難度。A、偏差B、方差C、噪聲D、泛化誤差【正確答案】:C解析:
泛化誤差可分解為偏差、方差與噪聲之和。偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度,即刻畫了學(xué)習(xí)算法本身的擬合能力;方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫了數(shù)據(jù)擾動(dòng)所造成的影響;噪聲則表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的F界,即刻畫了學(xué)習(xí)問(wèn)題本身的難度。99.MapReduce對(duì)map()函數(shù)的返回值進(jìn)行處理后再返回給reduce()函數(shù)的目的是()。A、減少map()函數(shù)和reduce()函數(shù)之間的數(shù)據(jù)傳輸B、優(yōu)化map()函數(shù)C、優(yōu)化reduce()函數(shù)D、這一步驟并無(wú)必要【正確答案】:A解析:
為了降低map()函數(shù)與reduce()函數(shù)之間的數(shù)據(jù)傳輸量,一般先對(duì)map()函數(shù)的輸出結(jié)果進(jìn)行處理。100.CNN神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取帶來(lái)了變革性的變化,使之前的人工特征提取升級(jí)到數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)特征提取、在CNN中,起到特征提取作用的網(wǎng)絡(luò)層是()A、卷積層B、全連接層C、池化層D、采樣層【正確答案】:A解析:
解析:卷積層負(fù)責(zé)提取特征,采樣層負(fù)責(zé)特征選擇,全連接層負(fù)責(zé)分類。1.能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點(diǎn)的系數(shù)降至0附近以下哪些濾波器()A、同態(tài)濾波B、高斯濾波C、巴特沃斯濾波D、中值濾波【正確答案】:BC2.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為偽,但數(shù)據(jù)分析人員沒有拒絕它時(shí)犯的錯(cuò)誤叫()。A、a錯(cuò)誤B、β錯(cuò)誤C、取偽錯(cuò)誤D、棄真錯(cuò)誤【正確答案】:BC解析:
a錯(cuò)誤(棄真錯(cuò)誤):當(dāng)原假設(shè)為真時(shí),但我們錯(cuò)誤地認(rèn)為“原偶的”,進(jìn)而導(dǎo)致拒絕這個(gè)正確假設(shè);β錯(cuò)誤(取偽錯(cuò)誤):當(dāng)原假設(shè)為假時(shí),但我們錯(cuò)誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯(cuò)誤假設(shè)。3.下列描述中正確的有()。A、統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B、Python語(yǔ)言是統(tǒng)計(jì)學(xué)家發(fā)明的語(yǔ)言C、機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D、數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)分支領(lǐng)域(子學(xué)科)【正確答案】:AC解析:
Python發(fā)明者是GuidoVanRossum,并非為統(tǒng)計(jì)學(xué)家;數(shù)據(jù)科學(xué)是一門獨(dú)立學(xué)科,已經(jīng)超出了統(tǒng)計(jì)學(xué)一個(gè)學(xué)科的研究范疇,并非為統(tǒng)計(jì)學(xué)的一個(gè)分支。4.圖像處理中的去噪算法有()A、中值濾波B、均值濾波C、峰值濾波D、高值濾波【正確答案】:AB解析:
圖像處理中噪聲可用中值濾波或均值濾波將其與周圍圖像像素融合,達(dá)到降噪目的。5.在統(tǒng)計(jì)模式分類問(wèn)題中,當(dāng)先驗(yàn)概率未知時(shí),可以使用()。A、最小最大損失準(zhǔn)則B、最小誤判概率準(zhǔn)則C、最小損失準(zhǔn)則D、N-P判決【正確答案】:AD6.主要面向或關(guān)注過(guò)去的數(shù)據(jù)分析過(guò)程有()。A、描述性分析B、診斷性分析C、預(yù)測(cè)性分析D、規(guī)范性分析【正確答案】:AB解析:
Gartner分析學(xué)價(jià)值扶梯模型認(rèn)為,從復(fù)雜度及價(jià)值高低兩個(gè)維度,可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測(cè)性分析和規(guī)范性分析四種,其中描述性分析和診斷性分析關(guān)注和面向的是過(guò)去的時(shí)間點(diǎn)。7.語(yǔ)音識(shí)別的方法包括()A、聲道模型方法B、模板匹配的方法C、利用人工神經(jīng)網(wǎng)絡(luò)的方法D、語(yǔ)音知識(shí)方法【正確答案】:ABCD解析:
一般來(lái)說(shuō),語(yǔ)音識(shí)別的方法有基于聲道模型和語(yǔ)音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。8.下列關(guān)于HadoopMapReduce的描述正確的有()。A、reduce()函數(shù)的輸入是value集B、reduce()函數(shù)將最終結(jié)果寫到HDFS系統(tǒng)中C、用戶可以自己定義reduce()函數(shù)D、reduce()函數(shù)的輸入數(shù)據(jù)是經(jīng)過(guò)map()函數(shù)處理之后的數(shù)據(jù)【正確答案】:BCD解析:
reduce()函數(shù)的輸入是key-value集。9.下列關(guān)于Zookecper的描述正確的有()。A、Zookccper維護(hù)著一個(gè)樹形的層次結(jié)構(gòu)B、Zookeeper的數(shù)據(jù)訪問(wèn)具有原子性C、Zookecper被設(shè)計(jì)用來(lái)實(shí)現(xiàn)協(xié)調(diào)服務(wù)D、Zookceper被設(shè)計(jì)用來(lái)實(shí)現(xiàn)大容量數(shù)據(jù)存儲(chǔ)【正確答案】:ABC解析:
Zookeeper無(wú)法用來(lái)存儲(chǔ)數(shù)據(jù)。10.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的有()。A、深度優(yōu)先遇歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略E、大站優(yōu)先策略【正確答案】:AB解析:
在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。11.如果希望減少數(shù)據(jù)集中的特征數(shù)量,則可以采取的措施有()。A、使用正向選擇法(ForwardSelection)B、使用反向消除法(BackwardElimination)C、逐步選擇消除法(Stepwise)D、計(jì)算不同特征之間的相關(guān)系數(shù),刪去相關(guān)系數(shù)高的特征之一【正確答案】:ABCD解析:
正向選擇法(ForwardSelection)是首先選擇一個(gè)特征,每個(gè)特征都試一遍,選擇對(duì)模型準(zhǔn)確率提升最高的那個(gè)特征;然后再在這個(gè)特征基礎(chǔ)上添加另外一個(gè)特征,方法類似,直到模型準(zhǔn)確率不再提示為止。反向消除法(BackwardElimination)是首先包含了所有的特征,然后嘗試刪除每個(gè)特征,最終刪掉對(duì)模型準(zhǔn)確率提升最高的一個(gè)特征(如果刪除這個(gè)特征模型準(zhǔn)確率反而增加了,則說(shuō)明這個(gè)特征是無(wú)用特征)。以此類推,直到刪除特征并不能提升模型為止。相對(duì)于正向選擇法,反向消除法的優(yōu)點(diǎn)在于其允許-些低貢獻(xiàn)值的特征能夠進(jìn)到模型中去(有時(shí)候低貢獻(xiàn)值的特征能在組合中有更大的貢獻(xiàn)值,而正向選擇法忽略了這種組合的可能性),因此反向消除法能夠避免受一兩個(gè)占主導(dǎo)地位的特征的干擾。另外還有一種特征選擇方法是逐步選擇消除法(Stepwise),該方法結(jié)合上述兩者的方法,新加入一個(gè)特征之后,再嘗試刪去一個(gè)特征,直至達(dá)到某個(gè)預(yù)設(shè)的標(biāo)準(zhǔn)。這種方法的缺點(diǎn)是預(yù)設(shè)的標(biāo)準(zhǔn)不好定,而且容易陷入到過(guò)擬合當(dāng)中。除此之外,也可以使用基于相關(guān)性的特征選擇,可以去除多重線性特征。12.異常值的檢測(cè)方法有()。A、直接通過(guò)數(shù)據(jù)可視化進(jìn)行觀察B、通過(guò)統(tǒng)計(jì)分布進(jìn)行判斷C、通過(guò)相對(duì)距離進(jìn)行度量D、通過(guò)相對(duì)密度進(jìn)行度量【正確答案】:ABCD解析:
異常值的檢測(cè)方法有直接通過(guò)數(shù)據(jù)可視化進(jìn)行觀察、通過(guò)統(tǒng)計(jì)分布進(jìn)行判斷、通過(guò)相對(duì)距離進(jìn)行度量、通過(guò)相對(duì)密度進(jìn)行度量。13.數(shù)據(jù)從產(chǎn)生到終結(jié)共包含的環(huán)節(jié)有()。A、數(shù)據(jù)產(chǎn)生B、數(shù)據(jù)傳輸C、數(shù)據(jù)使用D、數(shù)據(jù)共享E、數(shù)據(jù)銷毀【正確答案】:ABCDE解析:
數(shù)據(jù)的全壽命周期有獲?。óa(chǎn)生)、存儲(chǔ)、共享、維護(hù)、應(yīng)用(使用)、消亡(銷毀),在以上這些過(guò)程都會(huì)有數(shù)據(jù)傳輸過(guò)程。14.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,假設(shè)現(xiàn)在模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度,那么下列說(shuō)法正確的有()。A、準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題B、準(zhǔn)確度適合衡量不平衡類別問(wèn)題C、精確度和召回率適合于衡量不平衡類別問(wèn)題D、精確度和召回率不適合衡量不平衡類別問(wèn)題【正確答案】:AC解析:
精確度和召回率適合于衡量不平衡類別問(wèn)題,準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題。15.常用分詞方法下列哪些是()A、基于Binarytree的分詞方法B、基于HMM的分詞方法C、基于CRF的分詞方法D、基于K-means的分詞方法【正確答案】:BC解析:
K-means一般用于聚類,Binarytree(二叉樹)也不用于分詞。16.在選擇高斯函數(shù)作為核函數(shù)的支持向量機(jī)中,參數(shù)的選取會(huì)影響擬合的結(jié)果,如果出現(xiàn)過(guò)擬合的現(xiàn)象,則可能導(dǎo)致該結(jié)果的原因有()。A、其他參數(shù)保持不變,C過(guò)大B、其他參數(shù)保持不變,C較小C、其他參數(shù)保持不變,σ較大D、其他參數(shù)保持不變,σ較小【正確答案】:AD解析:
解析:SVM模型中,C是懲罰系數(shù),即對(duì)誤判的寬容度,若C越高,說(shuō)明越不能容恐出現(xiàn)誤差,容易擬合;σ是高斯函數(shù)自帶的一個(gè)參數(shù),若σ無(wú)窮小,理論上高斯核的SVN可以擬合任何非線性數(shù)據(jù),但容易過(guò)擬合。17.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測(cè)度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:
聚類算法是無(wú)監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。18.HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】:A解析:
HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是HFile。19.下列屬于TF-IDF的應(yīng)用有哪些()A、搜索引擎B、關(guān)鍵詞提取C、文本相似性D、數(shù)據(jù)降維【正確答案】:ABC解析:
TF-IDF只用來(lái)提取關(guān)鍵詞,不做降維。20.下列關(guān)于數(shù)據(jù)產(chǎn)品研發(fā)的說(shuō)法錯(cuò)誤的有()。A、從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B、一次數(shù)據(jù)中往往存在缺失值、噪聲、錯(cuò)誤或虛假數(shù)據(jù)等質(zhì)量問(wèn)題C、二次數(shù)據(jù)是對(duì)一次數(shù)據(jù)進(jìn)行深度處理或分析后得到的增值數(shù)據(jù)D、三次數(shù)據(jù)是對(duì)二次數(shù)據(jù)進(jìn)行洞察與分析后得到的、可以直接用于決策支持的洞見數(shù)據(jù)【正確答案】:ABD解析:
二次數(shù)據(jù)是一種按照信息的生產(chǎn)過(guò)程和加工深度進(jìn)行對(duì)信息進(jìn)行分類的,是指根據(jù)特定的需求,對(duì)一次信息進(jìn)行加工、分析、改編、重組、綜合概括生成的信息。21.ApacheFlume主要解決的是日志數(shù)據(jù)的收集和處理問(wèn)題,F(xiàn)lume的主要設(shè)計(jì)目的和特征包括()。A、高可靠性B、可擴(kuò)展性C、管理復(fù)雜D、不支持用戶自定義【正確答案】:AB解析:
Flume的主要設(shè)計(jì)目的和特征包括高可靠性、可擴(kuò)展性、支持方便管理、支持用
戶自定義22.Spark的基本流程主要涉及()等角色。A、DriverProgramB、ClusterManagerC、WorkerNodeD、Executor【正確答案】:ABCD解析:
Spark的基本流程主要涉及DriverProgram(驅(qū)動(dòng)程序)、Spark-Context、ClusterManage(集群管理器)、WorkerNode(工作節(jié)點(diǎn))、Executor(執(zhí)行器)和Cache(緩存)等角色。
-.23.以下屬于圖像平滑算法的是()A、中值濾波B、均值濾波C、鄰域平均法D、高斯濾波【正確答案】:ABCD24.以下屬于漢語(yǔ)未登錄詞的類型的有哪幾項(xiàng)()A、存在于詞典但出現(xiàn)頻率較少的詞B、新出現(xiàn)的普通詞匯C、專有名詞D、專業(yè)名詞和研究領(lǐng)域名稱【正確答案】:BCD解析:
未登錄詞就是未知的新詞。判斷一個(gè)新字符串是否應(yīng)作為一個(gè)詞,是基于世界知識(shí)的,需要人參與才能確認(rèn)。25.下列關(guān)于Hadoop中map輸出結(jié)果的說(shuō)法正確的有()。A、<key,value>鍵值對(duì)B、輸出中間臨時(shí)結(jié)果C、輸出最終計(jì)算結(jié)果D、輸出結(jié)果永久保留【正確答案】:AB解析:
map輸出結(jié)果并非是最終結(jié)果且只暫時(shí)保留。26.常見的圖像分割算法有()A、基于區(qū)域的分割方法B、基于人工勾畫的分割方法C、基于邊緣的分割方法D、基于閾值的分割方法【正確答案】:ACD解析:
人工勾畫太過(guò)耗時(shí),并不能作為常見的圖像分割方法。27.下列關(guān)于AUC面積的描述正確的有()。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AUC面積的值等于0.5時(shí),真實(shí)性最低,無(wú)應(yīng)用價(jià)值D、AUC面積的值越接近1.0,檢測(cè)方法真實(shí)性越高【正確答案】:ACD解析:
AUC面積的值不大于1。28.已定義級(jí)(DefinedLevel)的主要特點(diǎn)包括()。A、組織機(jī)構(gòu)已明確給出了關(guān)鍵過(guò)程的標(biāo)準(zhǔn)定義,并定期對(duì)其進(jìn)行改進(jìn)B、已提供了關(guān)鍵過(guò)程的測(cè)量與預(yù)測(cè)方法C、關(guān)鍵過(guò)程的執(zhí)行過(guò)程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作D、數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí),將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一【正確答案】:ABCD解析:
DMM的已定義級(jí)(DefinedLevel):組織機(jī)構(gòu)已經(jīng)定義了自己的標(biāo)準(zhǔn)關(guān)鍵過(guò)程。其主要特點(diǎn)如下:①組織機(jī)構(gòu)已明確給出了關(guān)鍵過(guò)程的標(biāo)準(zhǔn)定義,并定期對(duì)其進(jìn)行改進(jìn);②已提供了關(guān)鍵過(guò)程的測(cè)量與預(yù)測(cè)方法;③關(guān)鍵過(guò)程的執(zhí)行過(guò)程并不是簡(jiǎn)單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作;④數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識(shí),將數(shù)據(jù)當(dāng)作成功實(shí)現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一。29.常見的圖像降噪方式包括()A、中值濾波B、均值濾波C、平均濾波D、加權(quán)平均濾波【正確答案】:ABCD30.HIS表色系的三屬性包含()A、色調(diào)B、飽和度C、亮度D、色度【正確答案】:ABC31.大數(shù)據(jù)偏見包括()。A、數(shù)據(jù)源的選擇偏見B、算法與模型偏見C、結(jié)果解讀方法的偏見D、數(shù)據(jù)呈現(xiàn)方式的偏見【正確答案】:ABCD解析:
大數(shù)據(jù)偏見是數(shù)據(jù)科學(xué)項(xiàng)目中必須關(guān)注和加以避免的問(wèn)題,上述四個(gè)活動(dòng)中均可能出現(xiàn)偏見。32.從Hadoop實(shí)現(xiàn)角度看,HadoopMapReducel.0主要由()組成。A、編程模型B、數(shù)據(jù)處理引擎C、運(yùn)行時(shí)環(huán)境D、算法庫(kù)【正確答案】:ABC解析:
HadoopMapReduce1.0計(jì)算框架主要由編程模型、數(shù)據(jù)處理引擎和運(yùn)行時(shí)環(huán)境組成。
國(guó)家電網(wǎng)有限公司大數(shù)據(jù)應(yīng)用習(xí)題集33.聚類性能度量外部指標(biāo)包括()。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)【正確答案】:ABD解析:
常用的聚類性能度量外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。34.特征選擇的目的有()。A、減少特征數(shù)量、降維B、使模型泛化能力更強(qiáng)C、增強(qiáng)模型擬合能力D、減少過(guò)擬合?!菊_答案】:ABD解析:
特征選擇的主要目的是減少特征的數(shù)量、降低特征維度、使模型泛化能力更強(qiáng)、減少過(guò)擬合。35.下列關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較的說(shuō)法正確的有()。A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B、歸納學(xué)習(xí)論證方式為統(tǒng)計(jì)推理,分析學(xué)習(xí)為演繹推理C、歸納學(xué)習(xí)不需要先驗(yàn)知識(shí)D、訓(xùn)練數(shù)據(jù)不足時(shí)歸納學(xué)習(xí)可能會(huì)失敗【正確答案】:ABCD解析:
分析學(xué)習(xí)是相對(duì)于歸納學(xué)習(xí)的一種提法,其特點(diǎn)是使用先驗(yàn)知識(shí)來(lái)分析或解釋每個(gè)訓(xùn)練樣本,以推理出樣本的哪些特征與目標(biāo)函數(shù)相關(guān)或不相關(guān)。因此,這些解釋能使機(jī)器學(xué)習(xí)系統(tǒng)比單獨(dú)依靠數(shù)據(jù)進(jìn)行泛化有更高的精度。分析學(xué)習(xí)使用先驗(yàn)知識(shí)來(lái)減小待搜索假設(shè)空間的復(fù)雜度,減小了樣本復(fù)雜度并提高了機(jī)器學(xué)習(xí)系統(tǒng)的泛化精度??梢?,分析學(xué)習(xí)與歸納學(xué)習(xí)的優(yōu)缺點(diǎn)在一定程度上具有互補(bǔ)性,分析學(xué)習(xí)方法的優(yōu)點(diǎn)在于可用先驗(yàn)知識(shí)從較少的數(shù)據(jù)中更精確地泛化以引導(dǎo)學(xué)習(xí)。但是,當(dāng)先驗(yàn)知識(shí)不正確或不足時(shí),分析學(xué)習(xí)的缺點(diǎn)也會(huì)被突顯;歸納學(xué)習(xí)具有的優(yōu)點(diǎn)是不需要顯式的先驗(yàn)知識(shí),并且主要基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)到規(guī)律。然而,若訓(xùn)練數(shù)據(jù)不足時(shí)它能會(huì)失敗,并且會(huì)被其中隱式的歸納偏置所誤導(dǎo),而歸納偏置是從觀察數(shù)據(jù)中泛化所必需的過(guò)程。因此,我們可以考慮如何將二者結(jié)合成一個(gè)單獨(dú)的算法,以獲得它們各自的優(yōu)點(diǎn)。36.下列關(guān)于隨機(jī)變量及其概率分布的說(shuō)法正確的有()。A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率是最大的【正確答案】:ABC解析:
扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上次數(shù)為5的概率不是最大的。37.下列可以用于特征降維的方法有()。A、主成分分析PCAB、線性判別分析LDAC、深度學(xué)習(xí)SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】:ABD38.傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)包括()。A、數(shù)據(jù)一致性高B、數(shù)據(jù)冗余度低C、簡(jiǎn)單處理的效率高D、產(chǎn)品成熟度高【正確答案】:ABD解析:
略。39.下列屬于機(jī)器學(xué)習(xí)生成式模型的有()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】:ABD解析:
機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。40.下列關(guān)于特征數(shù)據(jù)歸一化的說(shuō)法正確的有()。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處理【正確答案】:ABD解析:
歸一化方法比較適用于數(shù)值比較集中的情況,這種方法的缺陷是如果max和min不穩(wěn)定,很容易使得歸一化結(jié)果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。實(shí)際使用中可以用經(jīng)驗(yàn)常量值來(lái)替代max和min。非線性歸一化經(jīng)常用在數(shù)據(jù)分化比較大的場(chǎng)景,有些數(shù)值很大,有些很小。41.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則有()。A、忠于原始數(shù)據(jù)原則B、設(shè)定共同場(chǎng)景原則C、有效性利用原則D、3C精神原則【正確答案】:ABCD解析:
數(shù)據(jù)的故事化描述應(yīng)遵循的基本原則包括忠于原始數(shù)據(jù)原則、設(shè)定共同情景原則、體驗(yàn)式講述原則、個(gè)性化定制原則、有效性利用原則、3C精神原則。42.影響Apriori算法的計(jì)算復(fù)雜度的有()。A、支持度閾值B、項(xiàng)數(shù)(維度)C、事務(wù)數(shù)D、事務(wù)平均寬度【正確答案】:ABCD43.下列關(guān)于神經(jīng)網(wǎng)絡(luò)的說(shuō)法正確的有()。A、增加網(wǎng)絡(luò)層數(shù),可能會(huì)增加測(cè)試集分類錯(cuò)誤率B、增加網(wǎng)絡(luò)層數(shù),一定會(huì)增加訓(xùn)練集分類錯(cuò)誤率C、減少網(wǎng)絡(luò)層數(shù),可能會(huì)減少測(cè)試集分類錯(cuò)誤率D、減少網(wǎng)絡(luò)層數(shù),一定會(huì)減少訓(xùn)練集分類錯(cuò)誤率【正確答案】:AC解析:
增加網(wǎng)絡(luò)層數(shù)可能造成訓(xùn)練誤差和測(cè)試誤差減小,但神經(jīng)網(wǎng)絡(luò)層數(shù)過(guò)多容易造成過(guò)擬合、訓(xùn)練誤差小,但是測(cè)試誤差很大。44.下列描述中屬于特征選擇的優(yōu)點(diǎn)有()。A、解決模型自身的缺陷B、減少過(guò)擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】:BCD解析:
特征選擇無(wú)法克服模型自身的缺陷,二者是獨(dú)立的。45.TF-IDF的缺點(diǎn)下列哪些是()A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比B、將一些生僻字誤當(dāng)作文檔關(guān)鍵詞C、只考慮特征詞和文本之間的關(guān)系,忽略了一個(gè)特征項(xiàng)在不同類別間的分布情況D、沒有考慮特征詞的位置因素對(duì)文本的區(qū)分度【正確答案】:BCD解析:
低頻詞匯的重要性和出現(xiàn)次數(shù)成正比。46.對(duì)于不同場(chǎng)景內(nèi)容,一般數(shù)字圖像可以分為()A、二值圖像B、灰度圖像C、彩色圖像D、深度圖像【正確答案】:ABC解析:
深度圖像中深度通道為描述距離,一般對(duì)其進(jìn)行采樣或數(shù)值離散化。47.針對(duì)維數(shù)災(zāi)難,主要采用的降維方法有()。A、多維縮放B、主成分分析C、核化線性降維D、流形學(xué)習(xí)【正確答案】:ABCD48.圖像分割中常使用的領(lǐng)域有()A、0鄰域B、4鄰域C、8鄰域D、24鄰域【正確答案】:BC解析:
圖像分割中常見的鄰域?yàn)?鄰域與8鄰域,即某像素的上下左右、某像素周圍的一圈像素。49.集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法有()。A、數(shù)據(jù)樣本擾動(dòng)B、輸入屬性擾動(dòng)C、輸出表示擾動(dòng)D、算法參數(shù)擾動(dòng)【正確答案】:ABCD解析:
集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法主要有對(duì)數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動(dòng)。50.特征選擇方法有()。AIC赤池信息準(zhǔn)則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過(guò)濾式特征選擇方法【正確答案】:BCD解析:
AIC赤池信息準(zhǔn)則是常用的模型選擇方法。51.假設(shè)一個(gè)隨機(jī)變量服從正態(tài)分布,則與隨機(jī)變量的概率分布有關(guān)的有()。A、眾數(shù)B、頻數(shù)C、平均值D、方差【正確答案】:CD解析:
正態(tài)分布一般用均值和方差來(lái)刻畫。52.以下方法中可用于圖像分割的有()A、霍夫曼編碼B、分水嶺算法C、K-meansD、區(qū)域增長(zhǎng)法【正確答案】:BCD解析:
分水嶺、K-means算法、區(qū)域生長(zhǎng)都是常見的分割算法,而霍夫曼編碼不屬于分割算法。53.下列關(guān)于HDFS文件寫人的描述正確的有()。A、不支持多用戶對(duì)同一文件的寫操作B、用戶不可以在文件任意位置進(jìn)行修改C、默認(rèn)將文件復(fù)制成三份存放D、復(fù)制的文件塊默認(rèn)不存在同一機(jī)架上【正確答案】:ABCD解析:
根據(jù)HDFS定義。54.相對(duì)于HadoopMapReduce,Spark的特點(diǎn)有()。A、通用性B、易用性C、速度快D、容錯(cuò)性【正確答案】:ABC解析:
相對(duì)于HadoopMapReduce,Spark的特點(diǎn)包括速度快、通用性和易用性。55.下列屬于數(shù)據(jù)統(tǒng)計(jì)分析工具的有()。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:
常用統(tǒng)計(jì)軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。56.下列關(guān)于數(shù)據(jù)科學(xué)中常用統(tǒng)計(jì)學(xué)知識(shí)的說(shuō)法錯(cuò)誤的有()。A、從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統(tǒng)計(jì)的數(shù)據(jù)分析方法又可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)C、描述統(tǒng)計(jì)可分為集中趨勢(shì)分析、離散趨勢(shì)分析、參數(shù)估計(jì)和假設(shè)檢驗(yàn)D、推斷統(tǒng)計(jì)包括采樣分布和相關(guān)分析【正確答案】:ABCD解析:
從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法包括描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、相關(guān)分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統(tǒng)計(jì)可分為集中趨勢(shì)分析和離散趨勢(shì)分析;推斷統(tǒng)計(jì)包括總體參數(shù)估計(jì)和假設(shè)檢驗(yàn)兩方面內(nèi)容。57.下面屬于詞袋模型的缺點(diǎn)的是()A、詞匯表的詞匯需要經(jīng)過(guò)精心設(shè)計(jì)B、表示具有稀疏性C、丟失詞序忽略了上下文D、模型復(fù)雜,不利于實(shí)施【正確答案】:ABC解析:
詞袋模型簡(jiǎn)單易理解,并不復(fù)雜,也利于實(shí)施,但需要精心設(shè)計(jì),具有稀疏性,詞序忽略了上下文。58.LSTM應(yīng)用場(chǎng)景有()。A、翻譯語(yǔ)言B、語(yǔ)音識(shí)別C、圖像識(shí)別D、股票預(yù)測(cè)【正確答案】:ABD解析:
解析:CNN應(yīng)用于圖像識(shí)別,因此C錯(cuò)誤。59.下列描述屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)有()。A、上一時(shí)刻的網(wǎng)絡(luò)狀態(tài)信息將會(huì)作用于下一時(shí)刻的網(wǎng)絡(luò)狀態(tài)B、并行處理序列中的所有信息C、容易梯度爆炸/消失D、易于搭建【正確答案】:AC解析:
解析:循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork,RNN)是一類以序列(sequence)數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞歸(recursion)且所有節(jié)點(diǎn)(循環(huán)單元)按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork)。循環(huán)神經(jīng)網(wǎng)絡(luò)在誤差梯度在經(jīng)過(guò)多個(gè)時(shí)間步的反向傳播后容易導(dǎo)致極端的非線性行為,包括梯度消失(gradientvanishing)和梯度爆炸(gradientexplosion)。實(shí)踐中,梯度爆炸雖然對(duì)學(xué)習(xí)有明顯的影響,但較少出現(xiàn),使用梯度截?cái)嗫梢越鉀Q。梯度消失是更常見的問(wèn)題且不易察覺,發(fā)生梯度消失時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)在多個(gè)時(shí)間步后的輸出幾乎不與序列的初始值有關(guān),因此無(wú)法模擬序列的長(zhǎng)距離依賴(long-termdependency)。在數(shù)值試驗(yàn)中,SRN對(duì)時(shí)間步跨度超過(guò)20的長(zhǎng)距離依賴進(jìn)行成功學(xué)習(xí)的概率接近于0。恰當(dāng)?shù)臋?quán)重初始化(weightinitialization)或使用非監(jiān)督學(xué)習(xí)策略,例如神經(jīng)歷史壓縮器(NHC)可提升循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)長(zhǎng)距離依賴的能力,但對(duì)更一般的情形,循環(huán)神經(jīng)網(wǎng)絡(luò)發(fā)展了一系列優(yōu)化策略,其中有很多涉及網(wǎng)絡(luò)結(jié)構(gòu)的改變和算法的改進(jìn)。60.下列關(guān)于Ridge回歸的說(shuō)法正確的有()。A、若λ=0,則等價(jià)于一般的線性回歸B、若λ=0,則不等價(jià)于一般的線性回歸C、o+=YD、若,則得到的權(quán)重系數(shù)很小,接近于零E、8+ルF、若,則得到的權(quán)重系數(shù)很大,接近與無(wú)窮大【正確答案】:AC解析:
λ=+0Ridge回歸中,若λ=0,則等價(jià)于一般的線性回歸;若,則得到的權(quán)重系數(shù)很小,接近于零。61.可作為決策樹選擇劃分屬性的參數(shù)有()。A、信息增益B、信息增益率C、基尼指數(shù)D、密度函數(shù)【正確答案】:ABC解析:
特征選擇的準(zhǔn)則主要有信息增益、信息增益率、基尼指數(shù)三種。62.以下圖像技術(shù)中屬于圖像處理技術(shù)的是()A、圖像編碼B、圖像合成C、圖像增強(qiáng)D、圖像分類【正確答案】:AC解析:
圖像合成輸入是數(shù)據(jù),圖像分類輸出是類別數(shù)據(jù)。63.訓(xùn)練CNN時(shí),GPU顯存溢出,此時(shí)可以采取的措施有()。A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函數(shù)【正確答案】:ABC解析:
解析:增加激活函數(shù)反而會(huì)加重負(fù)擔(dān),D選項(xiàng)錯(cuò)誤。64.在建立模型時(shí),需要用到的數(shù)據(jù)有()。A、訓(xùn)練數(shù)據(jù)B、測(cè)試數(shù)據(jù)C、原始數(shù)據(jù)D、驗(yàn)證數(shù)據(jù)【正確答案】:ABD解析:
在機(jī)器學(xué)習(xí)中,通常將數(shù)據(jù)分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。65.在MapReducel.0版本中,JobTracker功能有()。A、資源管理B、作業(yè)控制C、作業(yè)存儲(chǔ)D、作業(yè)審核【正確答案】:AB解析:
在MapReducel.0中,JobTracker同時(shí)兼?zhèn)淞速Y源管理和作業(yè)控制兩個(gè)功能。66.RDD的特征有()。A、可容錯(cuò)性B、簡(jiǎn)潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:
RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu)。67.ETL技術(shù)主要涉及操作有()。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】:ABC解析:
ETL技術(shù)主要涉及抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)。68.最常見的分詞算法可以分為哪三大類()A、基于字符串匹配的分詞方法B、基于理解的分詞方法C、基于統(tǒng)計(jì)的分詞方法D、基于閱讀的分詞方法【正確答案】:ABC解析:
無(wú)基于閱讀的分詞方法。69.下列關(guān)于深度學(xué)習(xí)的實(shí)質(zhì)及其與淺層學(xué)習(xí)區(qū)別的說(shuō)法正確的有()A、深度學(xué)習(xí)強(qiáng)調(diào)模型深度B、深度學(xué)習(xí)突出特征學(xué)習(xí)的重要性:特征變換+非人工C、沒有區(qū)別D、以上答案都不正確【正確答案】:AB解析:
解析:深度模型是手段,特征學(xué)習(xí)是目的。70.Spark提交工作的方式有()。A、ClientB、ClusterC、StandaloneD、YARN【正確答案】:AB解析:
Spark提交作業(yè)的方式是Client和Clustero71.直方圖修正法包括()A、直方圖統(tǒng)計(jì)B、直方圖均衡C、直方圖過(guò)濾D、直方圖規(guī)定化【正確答案】:BD解析:
直方圖統(tǒng)計(jì)是對(duì)圖像特征值的統(tǒng)計(jì);直方圖過(guò)濾屬于圖像處理技術(shù)。72.基于核的機(jī)器學(xué)習(xí)算法有()A、最大期望算法B、徑向基核函數(shù)C、線性判別分析法D、支持向量機(jī)【正確答案】:BCD73.已測(cè)量級(jí)(MeasuredLevel)的主要特點(diǎn)包括()。A、已構(gòu)建了關(guān)鍵過(guò)程矩陣B、已定義了變革管理的正式流程C、已實(shí)現(xiàn)用定量化方式計(jì)算關(guān)鍵過(guò)程的質(zhì)量和效率D、關(guān)鍵過(guò)程的質(zhì)量和效率的管理涉及整個(gè)生命周期【正確答案】:ABCD解析:
DMM的已測(cè)量級(jí)(McasuredLevel);組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過(guò)程的共行過(guò)程。主要特點(diǎn)如下:①已構(gòu)建了關(guān)鍵過(guò)程矩陣;②已定義了變革管理的正式流程;③已實(shí)現(xiàn)用定量化方式計(jì)算關(guān)健過(guò)程的質(zhì)量和效率;④關(guān)鍵過(guò)程的質(zhì)量和效率的管理涉及其全生命周期。74.下列為RDBMS中事務(wù)遵循原則的有()。A、原子性(Atomicity)B、一致性(Consistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:
關(guān)系數(shù)據(jù)庫(kù)中的事務(wù)需要具備一定的規(guī)則-ACID特征。ACID是指數(shù)據(jù)庫(kù)事務(wù)正確執(zhí)行的4個(gè)基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。75.卷積神經(jīng)網(wǎng)絡(luò)為了保證圖像對(duì)位移、縮放、扭曲的魯棒性,可采取的措施有A、局部感受野B、共享權(quán)值C、池采樣D、正則化【正確答案】:ABC解析:
解析:正則化是為了減少泛化誤差。76.下列既可以用于分類,又可以用于回歸的機(jī)器學(xué)習(xí)算法有()。A、k近鄰B、邏輯回歸C、決策樹D、線性回歸【正確答案】:AC解析:
邏輯回歸只用于分類,線性回歸只用于回歸。77.下列關(guān)于中心極限定理的說(shuō)法正確的有()。A、中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗(yàn)提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:
中心極限定理說(shuō)明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限。78.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD79.分布式列式存儲(chǔ)的功能有()。A、支持在線快速讀寫B(tài)、支持線性擴(kuò)展C、具備節(jié)點(diǎn)監(jiān)控管理D、數(shù)據(jù)同源不壓縮【正確答案】:ABC解析:
分布式列式存儲(chǔ)的功能包括數(shù)據(jù)壓縮。80.下列為離散型變量的有()。A、示波器B、心電圖及腦動(dòng)電圖掃描器對(duì)腦電波的測(cè)量C、過(guò)去數(shù)月的總銷售額D、公司每年的紅利【正確答案】:CD解析:
在統(tǒng)計(jì)學(xué)中,變量按其數(shù)值表現(xiàn)是否連續(xù),分為連續(xù)變量和離散變量。離散變量指變量值可以按一定順序一一列舉,通常以整數(shù)位取值的變量,如職工人數(shù)、工廠數(shù)、機(jī)器臺(tái)數(shù)等。有些性質(zhì)上屬于連續(xù)變量的現(xiàn)象也按整數(shù)取值,即可以把它們當(dāng)做離散變量來(lái)看待。例如年齡、評(píng)定成績(jī)等雖屬連續(xù)變量,但一般按整數(shù)計(jì)算,按離散變量來(lái)處理。離散變量的數(shù)值用計(jì)數(shù)的方法取得。81.下列關(guān)于Pig的說(shuō)法正確的有()。A、彌補(bǔ)MapReduce編程復(fù)雜性B、封裝MapReduce處理過(guò)程C、PigLatin是一種數(shù)據(jù)分析語(yǔ)言D、適用于并行處理【正確答案】:ABCD解析:
Pig建立在MapRcduce之上,主要目的是彌補(bǔ)MapRcduce編程的復(fù)雜性;Pig較好地封裝了MapReduce的處理過(guò)程;PigLatin是數(shù)據(jù)分析的描述語(yǔ)言;Pig的結(jié)構(gòu)適用于并行處理。82.以下方法是tf-idf的變種的有哪些()A、TFCB、EWCC、ITCD、IG【正確答案】:AC解析:
TFC:對(duì)文本長(zhǎng)度進(jìn)行歸一化處理后的TF-IDF。ITC:在TFC基礎(chǔ)上,用tf的對(duì)數(shù)值取代tf。83.Spark的關(guān)鍵技術(shù)包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】:ABCD解析:
Spark的關(guān)鍵技術(shù)包括RDD、Schedulcr、Storagc、Shuffc。84.隨機(jī)森林的隨機(jī)性主要體現(xiàn)在()。A、決策樹選擇的隨機(jī)性B、數(shù)據(jù)集的隨機(jī)性C、待選特征的隨機(jī)性D、參數(shù)選擇的隨機(jī)性【正確答案】:BC解析:
隨機(jī)森林算法的隨機(jī)性主要體現(xiàn)在兩個(gè)方面,即子模型的訓(xùn)練樣本是隨機(jī)抽取的、子模型的特征變量也是隨機(jī)抽取的。85.Hadoop的優(yōu)點(diǎn)包括()。A、可其性B、高效性C、可伸煽性D、成本低【正確答案】:ABCD解析:
Hadoop的優(yōu)點(diǎn)包括可靠性、高效性、可伸縮性和成本低。86.決策樹遞歸返回的條件有()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標(biāo)簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:
決策樹的生成是一個(gè)遞歸過(guò)程。在決策樹基本算法中,有三種情形會(huì)導(dǎo)致遞歸返回:①節(jié)點(diǎn)包含的樣本全屬于同一類別,無(wú)須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無(wú)法劃分;③當(dāng)前節(jié)點(diǎn)包含的樣本集合為空,不能劃分。87.下列關(guān)于MapReduce與HBase關(guān)系的描述正確的有()。A、兩者不可或缺,MapReduce是HBase可以正常運(yùn)行的保證B、兩者不是強(qiáng)關(guān)聯(lián)關(guān)系,沒有MapReduce,HBasc可以正常運(yùn)行C、MapReduce可以直接訪問(wèn)HBaseD、它們之間沒有任何關(guān)系【正確答案】:BC解析:
HBase是Hadoop數(shù)據(jù)庫(kù)。它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù),與MapReduce并無(wú)強(qiáng)關(guān)聯(lián)關(guān)系,HadoopMapReduce為HBase提供了高性能的計(jì)算能力,可直接訪問(wèn)HBase。88.RNN網(wǎng)絡(luò)的激活函數(shù)選用雙曲正切而不是Sigmod的原因有()A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜C、雙曲正切更簡(jiǎn)單D、Sigmoid函數(shù)實(shí)現(xiàn)較為復(fù)雜【正確答案】:AB解析:
解析:第一,采用Sigmoid等函數(shù),反向傳播求誤差梯度時(shí),求導(dǎo)計(jì)算量很大,而ReLU求導(dǎo)非常容易;第二,對(duì)于深層網(wǎng)絡(luò),Sigmoid函數(shù)反向傳播時(shí),很容易就會(huì)出現(xiàn)梯度消失的情況(在Sigmoid接近飽和區(qū)時(shí),變換太緩慢,導(dǎo)數(shù)趨于0),從而無(wú)法完成深層網(wǎng)絡(luò)的訓(xùn)練。89.下列關(guān)于Pig的說(shuō)法正確的有()。A、Pig的主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性B、Pig的核心是一種數(shù)據(jù)分析語(yǔ)言C、Pig程序的結(jié)構(gòu)適合串行處理D、Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分【正確答案】:ABD解析:
Pig程序的結(jié)構(gòu)適合并行處理。90.下列屬于數(shù)值優(yōu)化算法的有()。A、梯度下降法B、牛頓法C、極大似然法D、邏輯回歸【正確答案】:AB解析:
在機(jī)器學(xué)習(xí)的優(yōu)化問(wèn)題中,梯度下降法和牛頓法是常用的兩種凸函數(shù)求極值的方法,他們都是為了求得目標(biāo)函數(shù)的近似解。極大似然法是一種應(yīng)用非常廣泛的參數(shù)估計(jì)方法。邏輯回歸是一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 甘肅小學(xué)課題申報(bào)書范例
- 中醫(yī)社科課題申報(bào)書范文
- 課題申報(bào)書研究設(shè)計(jì)方案
- 教材課題申報(bào)書
- 入職離職合同范本
- 教學(xué)模式科研課題申報(bào)書
- 賣沙子購(gòu)銷合同范本
- 代銷售居間合同范本
- 司機(jī)出租合同范本
- 合同范本文字要求
- 重慶市南開名校2024-2025學(xué)年八年級(jí)下學(xué)期開學(xué)考試物理試題(含答案)
- 2025年湖南生物機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)1套
- 《預(yù)算編制要點(diǎn)講解》課件
- 滲漉法胡鵬講解
- 2025年交管12123學(xué)法減分試題庫(kù)附參考答案
- 2025年360億方智能航空AI白皮書-愛分析
- 【道 法】學(xué)會(huì)自我保護(hù)+課件-2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)下冊(cè)
- 事業(yè)編 合同范例
- 2025(人教版)音樂三年級(jí)下冊(cè)全冊(cè)教案及教學(xué)設(shè)計(jì)
- 福建省廈門市第一中學(xué)2023-2024學(xué)年高二上學(xué)期開學(xué)考試英語(yǔ)試題(解析版)
- 2025屆高考英語(yǔ)讀后續(xù)寫提分技巧+講義
評(píng)論
0/150
提交評(píng)論