大數(shù)據(jù)理論考試(習(xí)題卷9)

上傳人：1*** IP屬地：重慶上傳時間：2024-02-03 格式：DOCX 頁數(shù)：26 大?。?2.63KB 積分：3.6 舉報 版權(quán)申訴

已閱讀5頁，還剩21頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

試卷科目：大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷9)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分：單項選擇題，共64題，每題只有一個正確答案,多選或少選均不得分。[單選題]1.關(guān)于拋出異常的說法中，描述錯誤的是（）。A)當(dāng)raise指定異常的類名時，會隱式地創(chuàng)建異常類的實例B)顯式地創(chuàng)建異常類實例，可以使用raise直接引發(fā)C)不帶參數(shù)的raise語句，只能引發(fā)剛剛發(fā)生過的異常D)使用raise拋出異常時，無法指定描述信息答案:D解析:raise語句的第一個參數(shù)指定要產(chǎn)生的例外的名字；可選的第二參數(shù)指定例外的參數(shù)。[單選題]2.下列關(guān)于ResourceManager描述錯誤的是（）A)ResourceManager也叫JobTrackerB)ResourceManager負責(zé)調(diào)度DataNode上的工作C)ResourceManager只負責(zé)調(diào)度DataNode，具體的工作由ResourceManager上的TaskTracker執(zhí)行實際工作D)ResourceManager不只負責(zé)調(diào)度DataNode，還執(zhí)行實際的讀寫任答案:D解析:[單選題]3.文檔是待處理的數(shù)據(jù)對象，它由一組詞組成，這些詞在文檔中不計順序的額，例如一篇論文、一個網(wǎng)頁都可以看做一個文檔；這樣的表示方式稱為（）。A)語句B)詞袋C)詞海D)詞答案:B解析:詞袋模型下，像是句子或是文件這樣的文字可以用一個袋子裝著這些詞的方式表現(xiàn)，這種表現(xiàn)方式不考慮文法以及詞的順序。[單選題]4.（）算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法，其核心思想是通過候選集生成和檢測兩個階段來挖掘頻繁項集。A)rioriB)EMC)PD)PA答案:A解析:Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法，其核心思想是通過候選集生成和檢測兩個階段來挖掘頻繁項集。PCA是無監(jiān)督的降維算法。概率近似正確（簡稱PAC)學(xué)習(xí)理論計算學(xué)習(xí)理論中最基本的理論。最大期望算法（Expectation-EM），是一類通過迭代進行極大似然估計的優(yōu)化算法。[單選題]5.MapReduce編程模型，鍵值對<key,value>的key必須實現(xiàn)哪個接口（）A)WritableComparable；B)Comparable；C)Writable；D)LongWritable；答案:A解析:hadoop為Key的數(shù)據(jù)類型必須實現(xiàn)WritableComparable，而Value的數(shù)據(jù)類型只需要實現(xiàn)Writable即可[單選題]6.下列哪個算法可以用于特征選擇：（）。A)樸素貝葉斯B)感知器C)支持向量機D)決策樹答案:D解析:使用決策樹也可以計算每個特征的相對重要性。這些重要性能夠輔助進行特征選擇。[單選題]7.從可視化視角看，可以將數(shù)據(jù)分為4種類型，其中不包括（）A)定類數(shù)據(jù)B)定序數(shù)據(jù)C)定距數(shù)據(jù)D)定量數(shù)據(jù)答案:D解析:一般可以將數(shù)據(jù)類型的度量分為四種：定類，定序，定距，和定比，這四種類型是從低到高的遞進關(guān)系，高級的類型可以用低級類型的分析方法來分析，而反過來卻不行。[單選題]8.bootstrap數(shù)據(jù)是什么意思（）。A)有放回地從總共M個特征中抽樣m個特征B)無放回地從總共M個特征中抽樣m個特征C)有放回地從總共N個樣本中抽樣n個樣本D)無放回地從總共N個樣本中抽樣n個樣本答案:C解析:自助來樣法(bootstrapsampling)，給定包含N個樣本的數(shù)據(jù)集，我們先隨機取出一個樣本放入采樣集中，再把該樣本放回初始數(shù)據(jù)集，使得下次采樣時該樣本仍有可能被選中，這樣經(jīng)過n次隨機采樣操作，我們得到含n個樣本的采樣集。[單選題]9.以下算法中，sklearn中未提及的是（）。A)K-Means聚類算法B)LogisticRegressionC)KNN最近鄰分類算法D)Apriori關(guān)聯(lián)規(guī)則算法答案:D解析:關(guān)聯(lián)規(guī)則在sklearn庫中未涉及。[單選題]10.關(guān)于Python內(nèi)存管理，下列說法錯誤的是哪項（）。A)變量不必事先聲明B)變量無須先創(chuàng)建和賦值而直接使用C)變量無須指定類型D)可以使用del釋放資源答案:B解析:Python變量需要事先聲明并賦值才能使用。[單選題]11.以下（）能力不屬于數(shù)據(jù)中臺能力架構(gòu)能力。A)數(shù)據(jù)接入B)存儲計算C)數(shù)據(jù)服務(wù)D)應(yīng)用研答案:D解析:[單選題]12.下列關(guān)于BP網(wǎng)絡(luò)說法不正確的是（）。A)標(biāo)準BP算法每次僅針對一個訓(xùn)練樣例更新連接權(quán)和閾值B)神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過擬合C)早停策略可用來緩解BP網(wǎng)絡(luò)的過擬合問題D)晚停策略可用來緩解BP網(wǎng)絡(luò)的欠擬合問答案:D解析:早停和正則化是解決BP網(wǎng)絡(luò)過擬合的兩種方法，欠擬合的網(wǎng)絡(luò)需繼續(xù)訓(xùn)練，并沒有晚停這一說法。[單選題]13.matplotlib中的step函數(shù)繪制的是什么圖（）。A)階梯圖B)直方圖C)間斷條形圖D)堆積折線圖答案:A解析:step用于繪制階梯圖。[單選題]14.以下聚合函數(shù)求個數(shù)的是()A)AVGB)SUMC)MAXD)COUN答案:D解析:[單選題]15.采用主成分分析法映射到低維空間，將最小的d-d′個特征向量舍棄，有（）影響。A)使樣本采樣密度增大B)丟失最優(yōu)解C)增大噪聲D)使樣本采樣密度減小答案:A解析:低維空間與原始高維空間必有不同，因為對應(yīng)于最小的d-d'個特征值的特征向量被舍棄了，這是降維導(dǎo)致的結(jié)果.但舍棄這部分信息往往是必要的：一方面舍棄這部分信息之后能使樣本的采樣密度增大，這正是降維的重要動機;另一方面，當(dāng)數(shù)據(jù)受到噪聲影響時，最小的特征值所對應(yīng)的特征向量往往與噪聲有關(guān)。將它們舍棄能在一定程度上起到去噪的效果.[單選題]16.K折交叉驗證器是以下哪個方法（）。A)model_selection.GroupKFold()B)model_selection.GroupShuffleSplit()C)model_selection.KFold()D)model_selection.RepeatedKFold()答案:C解析:model_selection.KFold()實現(xiàn)了K折交叉驗證功能。[單選題]17.以下現(xiàn)象不能直接通過低通濾波器解決的是（）。A)低分辨率文本圖像中出現(xiàn)的字符斷裂問題B)指紋圖像中的去污染問題C)人臉圖像中需要美容的去皺紋問題D)遙感圖像中的掃描線濾除問答案:B解析:圖像處理基礎(chǔ)知識。[單選題]18.一幅灰度級均勻分布的圖象，其灰度范圍在[0，255]，則該圖象的信息量為：（）A)0B)255C)6D)8答案:D解析:[單選題]19.下列算法中屬于局部處理的是：（）A)灰度線性變換B)二值化C)傅立葉變換D)中值濾波答案:D解析:[單選題]20.假設(shè)您已在數(shù)據(jù)集上擬合了一個復(fù)雜的回歸模型。現(xiàn)在，您正在使用Ridge回歸，并調(diào)整參數(shù)λ以減少其復(fù)雜性。選擇下面的描述，哪個表達了偏差和方差與λ的關(guān)系（）。A)在λ非常小的情況下，偏差低，方差低B)在λ非常小的情況下，偏差低，方差高C)在λ非常小的情況下，偏差高，方差低D)在λ非常小的情況下，偏差低，方差低答案:B解析:λ很小，則意味著模型比較復(fù)雜，在這種情況下，會產(chǎn)生偏差低且方差高的結(jié)果，模型會對數(shù)據(jù)過擬合。[單選題]21.以下哪個不屬于數(shù)據(jù)治理的內(nèi)容。A)理解自己的數(shù)據(jù)B)行為規(guī)范的制定C)崗位職責(zé)的定義D)獲得更多的數(shù)據(jù)答案:D解析:獲得更多的數(shù)據(jù)不屬于數(shù)據(jù)治理。[單選題]22.若建立一個5000個特征,100萬數(shù)據(jù)的機器學(xué)習(xí)模型，則應(yīng)該怎么有效地應(yīng)對這樣的大數(shù)據(jù)訓(xùn)練（）。A)隨機抽取一些樣本，在這些少量樣本之上訓(xùn)練B)可以試用在線機器學(xué)習(xí)算法C)應(yīng)用P算法降維，減少特征數(shù)D)以上答案都正答案:D解析:樣本數(shù)過多,或者特征數(shù)過多,而不能單機完成訓(xùn)練,可以用小批量樣本訓(xùn)練,或者在線累計式訓(xùn)練,或者主成分PCA降維方式減少特征數(shù)量再進行訓(xùn)練。[單選題]23.在情感分析中，下面哪個詞不屬于影響詞（）。A)識別B)開心C)難過D)無答案:A解析:識別一詞與情感無關(guān)。[單選題]24.Python中的os模塊常見方法描述錯誤的是（）。A)os.remove()刪除文件B)os.rename()重命名文件C)os.walk()讀取所有的目錄名D)os.chdir()改變目錄答案:C解析:os.walk()方法用于通過在目錄樹中游走輸出在目錄中的文件名，可以指定向上或者向下。[單選題]25.下面關(guān)于Hive各個格式使用場景描述錯誤的是（）A)Parquet對于大型查詢的類型是高效的，對于掃描特定表格中的特定列的查詢，Parquet特別有用B)目前Parquet默認使用gzip壓縮格式C)ORC可以支持復(fù)雜的數(shù)據(jù)結(jié)構(gòu)（比如Map等）D)RCFile是一種行列存儲相結(jié)合的存儲方答案:B解析:[單選題]26.（）是指具有體量大、來源多樣、生成極快、且多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系機構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)。A)海量數(shù)據(jù)B)大數(shù)據(jù)C)厚數(shù)據(jù)D)異構(gòu)數(shù)據(jù)答案:B解析:《國家標(biāo)準GBㄍT35295-2017信息技術(shù)/大數(shù)據(jù)/術(shù)語》中的定義認為，大數(shù)據(jù)是具有體量大、來源多樣、生成極快、且多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系機構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)。[單選題]27.在TF-IDF算法中，在計算完詞頻與逆文檔頻率后，將二者（）后得到最終的結(jié)果。A)相加B)相減C)相乘D)相答案:C解析:TF-IDF算法基本知識。[單選題]28.機器學(xué)習(xí)中，基于樣本分布的距離是以下哪一個（）A)馬氏距離B)歐式距離C)曼哈頓距離D)閔可夫斯基距離答案:A解析:馬氏距離是基于樣本分布的一種距離。[單選題]29.Scipy中計算偏度的函數(shù)是哪個（）。A)scipy.stats.skewtest()B)scipy.stats.norm.rvs()C)scipy.stats.kurtosis()D)scipy.stats.poisson.rvs()答案:A解析:利用stats.skewtest()計算偏度，有兩個返回值，第二個為p-value，即數(shù)據(jù)集服從正態(tài)分布的概率（0~1）。[單選題]30.線性判別分析在二分類問題上，也稱為（）。A)線性回歸B)對數(shù)幾率回歸C)Fisher判別分析D)主成分分析答案:C解析:線性判別分析在二分類問題上，也稱為Fisher判別分析。[單選題]31.下列哪種業(yè)務(wù)場景中，不能直接使用Reducer充當(dāng)Combiner使用（）A)sum求和B)max求最大值C)count求計數(shù)D)avg求平均答案:D解析:求平均需要對全部數(shù)據(jù)進行計算而非部分數(shù)據(jù)，在不更改reducer業(yè)務(wù)邏輯的情況，使用Reducer充當(dāng)Combiner，最終會造成業(yè)務(wù)結(jié)果不正確[單選題]32.傳統(tǒng)目標(biāo)檢測流程包括（）。A)區(qū)域選擇B)特征提取C)分類器分類D)以上答案都正答案:D解析:傳統(tǒng)目標(biāo)檢測需要選擇檢測區(qū)域，然后提取特征，分類器再根據(jù)特征進行分類。[單選題]33.以下哪個分類方法可以較好地避免樣本的不平衡問題（）。A)KNNB)SVMC)BayesD)神經(jīng)網(wǎng)絡(luò)答案:A解析:KNN只是取了最近的幾個樣本點做平均，離預(yù)測數(shù)據(jù)較遠的訓(xùn)練數(shù)據(jù)對預(yù)測結(jié)果不會造成影響，但是svm、Bayes和NN每一個訓(xùn)練樣本果都會對預(yù)測結(jié)果產(chǎn)生影響。[單選題]34.對事務(wù)的描述中不正確的是A)事務(wù)具有原子性B)事務(wù)具有隔離性C)事務(wù)回滾使用commit命令D)事務(wù)具有可靠答案:C解析:[單選題]35.在支持向量機中，軟間隔支持向量機的目標(biāo)函數(shù)比硬間隔支持向量機多了一個(__）。A)偏置項bB)系數(shù)C)松弛變量D)兩種情況的目標(biāo)函數(shù)相同答案:C解析:在支持向量機中，軟間隔支持向量機的目標(biāo)函數(shù)比硬間隔支持向量機多了一個松弛變量。[單選題]36.考慮這么一種情況：一個對象碰巧與另一個對象相對接近，但屬于不同的類，因為這兩個對象一般不會共享許多近鄰，所以應(yīng)該選擇（）的相似度計算方法。A)平方歐幾里德距離B)余弦距離C)直接相似度D)共享最近鄰答案:D解析:SNN相似度通過共享最近鄰的個數(shù)考慮了對象的環(huán)境，因此可以處理兩個對象相對接近卻不屬于同一類的情況。[單選題]37.下列在python3中合法的語句為（）。A)printHello,World!B)print'Hello,World!'C)print('Hello,World!')D)print"Hello,World!"答案:C解析:A選項存在語法錯誤，B、D選項為Python2打印語句。[單選題]38.下列關(guān)于可視化方法體系說法不正確的是（）。A)通常采用視覺圖形元素和視覺通道兩個維度進行視覺編碼B)常用的共性方法有統(tǒng)計圖表、圖論方法、視覺隱喻和圖形符號學(xué)等C)領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果往往低于基礎(chǔ)方法的直接應(yīng)用D)視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ)答案:C解析:領(lǐng)域方法在所屬領(lǐng)域內(nèi)其可視化的信度和效果高于基礎(chǔ)方法的直接應(yīng)用。[單選題]39.下列關(guān)于RBM說法錯誤的是(__)。A)學(xué)習(xí)過程很快B)R訓(xùn)練可以看作對一個深層網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值參數(shù)的初始化C)RBM不用人工選擇特征D)RBM有標(biāo)簽樣本答案:A解析:RBM學(xué)習(xí)率更新相比DBN速度較慢。[單選題]40.下列關(guān)于Hive特點總結(jié)正確的選項是（）A)Hive支持自由的擴展集群的規(guī)模，只需要重啟服務(wù)即可B)Hive支持自定義函數(shù)，用戶可以根據(jù)自己的需求去定義函數(shù)C)HiveSQL執(zhí)行時，需要避免節(jié)點出現(xiàn)問題D)Hive適合處理小批量數(shù)答案:B解析:[單選題]41.下列方法中，能夠讓所有單詞的首字母變成大寫的方法是（）。A)capitalizeB)titleC)upperD)Ijust答案:B解析:capitalize()將字符串的第一個字母變成大寫,其他字母變小寫；upper()方法將字符串中的小寫字母轉(zhuǎn)為大寫字母；ljust左對齊。[單選題]42.下面關(guān)于Hive表分區(qū)的使用錯誤的是（）A)PARTITIONEDBY(xxx)表示根據(jù)xxx的內(nèi)容分區(qū)B)INSERT寫入分區(qū)表的指定分區(qū)時，需要改為INSERTINTOtablePARTITION(...)C)分區(qū)表即使不在查詢里進行分區(qū)剪裁，SQL的執(zhí)行速度也會很快D)分區(qū)表是常見的生產(chǎn)環(huán)境使用的答案:C解析:[單選題]43.可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有（）。A)機器學(xué)習(xí)、對數(shù)回歸、關(guān)聯(lián)模式B)K均值法、SOM機器學(xué)習(xí)C)Apriori算法、FP-Tree算法D)RBF機器學(xué)習(xí)、K均值法、機器學(xué)答案:C解析:關(guān)聯(lián)規(guī)則包括Apriori、FP-Tree等算法。[單選題]44.對于PCA說法正確的是:（）。1.我們須在使用PCA前標(biāo)準化化數(shù)據(jù)2.我們應(yīng)該選擇使得模型有最大variance的主成分3.我們應(yīng)該選擇使得模型有最小variance的主成分4.我們可以使用PCA在低維度上做數(shù)據(jù)可視化A)1,2and4B)2and4C)3and4D)1and答案:A解析:須在使用PCA前標(biāo)準化化數(shù)據(jù)，應(yīng)選擇使得模型有最大variance的主成分，PCA在低維度上做數(shù)據(jù)可視化。[單選題]45.決策樹中，同一路徑上的所有屬性之間是（）關(guān)系。A)因果B)相關(guān)C)邏輯或D)邏輯答案:D解析:決策樹中，同一路徑上的所有屬性之間是邏輯與的關(guān)系[單選題]46.np.floor([-1.7,1.5,-0.2,0.6,10])的輸出結(jié)果是（）。A)[-1,1,0,0,10]B)[-2.,1.,-1.,0.,10.]C)[-1.,1.,-1.,0.,10.]D)[-2.,1.,0.,0.,10.]答案:B解析:floor函數(shù)定義取的是不超過這個數(shù)的最大整數(shù)。[單選題]47.下列語句中，哪個在Python中是非法的?A)x=y=z=1B)x=(y=z+1)C)x,y=y,xD)x+=y答案:B解析:下列方法中，能夠讓所有單詞的首字母變成大寫的方法是[單選題]48.PageRank是一個函數(shù),它對Web中的每個網(wǎng)頁賦予一個實數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就（）。A)相關(guān)性越高B)越不重要C)相關(guān)性越低D)越重要答案:D解析:PageRank認為，如果A頁面有一個鏈接指向B頁面，那就可以看作是A頁面對B頁面的一種信任或推薦。所以，如果一個頁面的反向鏈接越多，再根據(jù)這些鏈接的價值加權(quán)越高，那搜索引擎就會判斷這樣的頁面更為重要。[單選題]49.以下跟RNN相關(guān)的是(__)。A)梯度消失B)時間步C)梯度爆炸D)以上答案都正答案:D解析:深度學(xué)習(xí)基礎(chǔ)知識。[單選題]50.（）主要提供內(nèi)存計算框架A)Spark核心層B)資源計算層C)服務(wù)核心層D)Spark層答案:A解析:Spark的技術(shù)架構(gòu)可以分為三層資源管理層、Spark核心層和服務(wù)層。資源管理層主要提供資源管理功能；Spark核心層主要提供內(nèi)存計算框架；服務(wù)層主要提供面向特定類型的計算服務(wù)。[單選題]51.給定訓(xùn)練樣例集，設(shè)法將樣例投影到一條直線上，使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離，這說的是（）算法。A)PCB)SVMC)K-meansD)LD答案:D解析:LDA算法對給定訓(xùn)練樣例集，設(shè)法將樣例投影到一條直線上，使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離。[單選題]52.下列哪項不是HDFS的設(shè)計目標(biāo)（）。A)流式數(shù)據(jù)訪問B)大規(guī)模數(shù)據(jù)集C)移動計算D)"多次寫入多次讀取"的文件訪問模型答案:D解析:HDFS的設(shè)計以?一次寫入、多次讀取?為主要應(yīng)用場景，因此D錯。[單選題]53.數(shù)據(jù)的可用性取決于（）。A)數(shù)據(jù)分析B)數(shù)據(jù)集采C)數(shù)據(jù)質(zhì)量D)數(shù)據(jù)需求答案:C解析:略[單選題]54.（）算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項目集的算法。A)FP-growthB)EClatC)聚類D)Apdor答案:D解析:Apdori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項目集的算法。[單選題]55.在其他條件不變的前提下，以下哪種做法容易引起機器學(xué)習(xí)中的過擬合問題（）。A)增加訓(xùn)練集量B)減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點數(shù)C)刪除稀疏的特征D)SVM算法中使用高斯核/RBF核代替線性答案:D解析:神經(jīng)網(wǎng)絡(luò)減少隱藏層節(jié)點，就是在減少參數(shù)，只會將訓(xùn)練誤差變高，不會導(dǎo)致過擬合。D選項中SVM高斯核函數(shù)比線性核函數(shù)模型更復(fù)雜，容易過擬合。[單選題]56.一個MapReduce程序中的MapTask的個數(shù)由什么決定（）A)輸入的總文件數(shù)B)客戶端程序設(shè)置的mapTask的個數(shù)C)FileInputFormat.getSplits(Jobntextjob)計算出的邏輯切片的數(shù)量D)輸入的總文件大小/數(shù)據(jù)塊大小答案:C解析:MapReduce編程模型中的mapTask的并行度決定機制是由FileInputFormat.getSplits(JobContextjob)決定的。該方法的返回值是Listsplits，這個結(jié)果集合中的每個InputSplit就是一個邏輯輸入切片，每個邏輯輸入切片在默認情況下是會要啟動一個MapTask任務(wù)進行計算的，因此C對。[單選題]57.以下（）屬于NoSQL數(shù)據(jù)庫中Key-Value的缺點。A)數(shù)據(jù)無結(jié)構(gòu)B)查詢性能不高，缺乏統(tǒng)一查詢語法C)功能相對有限D(zhuǎn))功能相對有限，不易于做分布式集群答案:A解析:Key-Value型數(shù)據(jù)通常key與value之間采用某種方法（如哈希表）建立Key-Value映射，其缺點是不記錄結(jié)構(gòu)信息，無法建立索引。[單選題]58.決策樹的父節(jié)點和子節(jié)點的熵的大小關(guān)系是什么（）。A)父節(jié)點的熵更小B)子節(jié)點的熵更小C)兩者相等D)根據(jù)具體情況而定答案:B解析:決策樹分解策略是保證子結(jié)點的熵小于父結(jié)點的熵。但子結(jié)點的熵是該父結(jié)點所有孩子結(jié)點的熵的總和，因此，并保證任意一個子節(jié)點的熵都小于父結(jié)點熵。[單選題]59.下列哪一項能反映出X和Y之間的強相關(guān)性（）A)相關(guān)系數(shù)為0.9B)對于無效假設(shè)β=0的p值為0.0001C)對于無效假設(shè)β=0的t值為30D)以上說法都不對答案:A解析:相關(guān)系數(shù)反映了不同變量之間線性相關(guān)程度，取值范圍在[-1,1]之間，值越大表示相關(guān)程度越高；因此，A選項中中r=0.9，表示X和Y之間有較強的相關(guān)性。p和t的數(shù)值大小沒有統(tǒng)計意義，只是將其與某一個閾值進行比對,以得到二選一的結(jié)論。[單選題]60.Sigmoid函數(shù)作為神經(jīng)元激活函數(shù)的特點是（）。A)連續(xù)但不光滑B)不連續(xù)但光滑C)連續(xù)且光滑D)不連續(xù)且不光答案:C解析:Sigmoid函數(shù)作為神經(jīng)元激活函數(shù)的特點是連續(xù)且光滑。[單選題]61.如果你的數(shù)據(jù)有許多異常值，那么使用數(shù)據(jù)的均值與方差去做標(biāo)準化就不行了，在preprocessing模塊中定義了哪個方法可以解決這個問題（）。A)normalizer()B)robust_scale()C)maxabs_scale()D)scale()答案:B解析:robust_scale()和RobustScaler()這兩個方法，解決了上述問題，它會根據(jù)中位數(shù)或者四分位數(shù)去中心化數(shù)據(jù)。[單選題]62.以下MaxcomputeSQL（）效率最高。A)select*from(select*fromawheredt=20140301)AleftouterjoinbonB.id=A.idB)沒有區(qū)別C)select*fromAleftouterjoinBonB.id=A.idandA.dt=20140301D)select*fromAleftouterjoinBonB.id=A.idwhereA.dt=20140301答案:A解析:[單選題]63.Spark的特點不包括（）A)速度快B)通用性C)易用性D)單一操作性答案:D解析:Spark是一個快速、通用和易于使用的計算平臺。[單選題]64.Apriori算法的核心思想是（）。A)通過頻繁項集生成和情節(jié)的向下封閉檢測兩個階段來挖掘候選集B)通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集C)數(shù)據(jù)集中包含該項集的數(shù)據(jù)所占數(shù)據(jù)集的比例，度量一個集合在原始數(shù)據(jù)中出現(xiàn)的頻率D)若某條規(guī)則不滿足最小置信度要求，則該規(guī)則的所有子集也不滿足最小置信度要求答案:B解析:Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法，其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。第2部分：多項選擇題，共22題，每題至少兩個正確答案,多選或少選均不得分。[多選題]65.數(shù)據(jù)挖掘的預(yù)測建模任務(wù)主要包括哪幾大類問題？()A)分類B)回歸C)模式發(fā)現(xiàn)D)模式匹配答案:AB解析:[多選題]66.關(guān)于數(shù)據(jù)產(chǎn)品研發(fā)，下列說法錯誤的是（）。A)從加工程度看，可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B)一次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題C)二次數(shù)據(jù)是對一次數(shù)據(jù)進行深度處理或分析后得到的?增值數(shù)據(jù)?D)三次數(shù)據(jù)是對二次數(shù)據(jù)進行洞察與分析后得到的、可以直接用于決策支持的?洞見數(shù)據(jù)?答案:ABD解析:二次數(shù)據(jù)是一種按照信息的生產(chǎn)過程和加工深度進行對信息進行分類的，是指根據(jù)特定的需求，對進行加工、分析、改編、重組、綜合概括生成的信息。[多選題]67.做一個二分類預(yù)測問題，先設(shè)定閾值為0.5，概率大于等于0.5的樣本歸入正例類（即1），小于0.5的樣本歸入反例類（即0）。然后，用閾值n（n>0.5）重新劃分樣本到正例類和反例類，下面哪一種說法正確（）。A)增加閾值不會提高召回率B)增加閾值會提高召回率C)增加閾值不會降低查準率D)增加閾值會降低查準率答案:AC解析:召回率=TP/TP+FN，查準率=TP/TP+FP。當(dāng)概率閾值增加時，TP、FP減少或者持平，TP+FN不變，所以召回率不會增加。[多選題]68.關(guān)于HadoopMapReduce，以下描述中正確的是（）。A)reduce（）函數(shù)的輸入是value集B)reduce（）函數(shù)將最終結(jié)果寫到HDFS系統(tǒng)中C)用戶可以自己定義reduce（）函數(shù)D)reduce（）函數(shù)的輸入數(shù)據(jù)是經(jīng)過map（）函數(shù)處理之后的數(shù)答案:BCD解析:reduce（）函數(shù)的輸入是key-value集。[多選題]69.以下函數(shù)中（）屬于二元通用函數(shù)(Binaryuniversalfunctions)。A)addB)substractC)multiplyD)power答案:ABCD解析:二元函數(shù)是指函數(shù)方程式中包含二個自變量，ABCD都滿足。[多選題]70.噪聲數(shù)據(jù)的產(chǎn)生原因主要有（）。A)數(shù)據(jù)采集設(shè)備有問題B)在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤C)數(shù)據(jù)傳輸過程中發(fā)生錯誤D)由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致答案:ABCD解析:噪聲數(shù)據(jù)的產(chǎn)生原因主要有數(shù)據(jù)采集設(shè)備有問題、在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤、數(shù)據(jù)傳輸過程中發(fā)生錯誤、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致。[多選題]71.常見的聚類性能度量外部指標(biāo)有（）。A)Jaccard系數(shù)B)D數(shù)C)FM指數(shù)D)以上答案都正答案:AC解析:聚類常用的外部指標(biāo)包括：Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)；聚類常用的內(nèi)部指標(biāo)包括：DB指數(shù)、Dunn指數(shù)。[多選題]72.大數(shù)據(jù)平臺的計算組件主要有哪幾個（）。A)StormB)SparkC)MapreduceD)Sqoop答案:ABC解析:Storm是Twitter開源的分布式實時大數(shù)據(jù)處理框架；Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎；MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運算；Sqoop是一款開源的工具，主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql...)間進行數(shù)據(jù)的傳遞；因此A、B、C正確。[多選題]73.Flume特點包括（）。A)分布式B)高可靠C)高容錯D)易于定制和擴展答案:ABCD解析:Flume的特點包括分布式、高可靠、高容錯、易于定制和擴展。[多選題]74.以下可以查看schema中所有表的語句是：A)元命令\dB)showtables;C)selecttablenamefrompg_tableswhereschemaname='test_schema';D)元命令\答案:AC解析:[多選題]75.下列不屬于聚類性能度量內(nèi)部指標(biāo)的是（）。A)DB指數(shù)B)Dunn指數(shù)C)Jaccard系數(shù)D)FM系答案:AB解析:聚類常用的外部指標(biāo)包括：Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)；聚類常用的內(nèi)部指標(biāo)包括：DB指數(shù)、Dunn指數(shù)。[多選題]76.ETL技術(shù)主要涉及（）操作。A)抽取B)轉(zhuǎn)換C)加載D)分析答案:ABC解析:抽取（extract）、轉(zhuǎn)換（transform）、加載（load）[多選題]77.以下算法中可以應(yīng)用于圖像分割的是（）。A)邊緣檢測技術(shù)B)閾值分割技術(shù)C)基于區(qū)域的分割技術(shù)D)區(qū)域生長方答案:ABCD解析:邊緣檢測技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長方法均是圖像分割技術(shù)。[多選題]78.常見的圖像降噪方式包括（）。A)中值濾波B)均值濾波C)平均濾波D)加權(quán)平均濾答案:ABCD解析:常見的圖像降噪方式包括中值濾波，均值濾波，平均濾波和加權(quán)平均濾波等。[多選題]79.大數(shù)據(jù)處理流程可以概括為以下哪幾步（）。A)數(shù)據(jù)分析與挖掘B)數(shù)據(jù)采集C)數(shù)據(jù)儲存D)結(jié)果展示答案:ABCD解析:參考答案：ABCD[多選題]80.尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價值地總結(jié)了數(shù)據(jù)的某一特征的表示，這個過程包括了以下哪些步驟？()A)決定要使用的表示的特征和結(jié)構(gòu)B)決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C)選擇一個算法過程使評分函數(shù)最優(yōu)D)決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法。答案:ABCD解析:[多選題]81.以下四個選項中，（）是Python關(guān)鍵字。A)asB)globalC)intD)not答案:ABD解析:詳見Python關(guān)鍵字列表。[多選題]82.根據(jù)OLAP系統(tǒng)的典型特征，下列屬于OLAP系統(tǒng)的是：A)銀行交易核心系統(tǒng)B)信用卡系統(tǒng)C)ACRM系統(tǒng)D)分線管理系答案:CD解析:[多選題]83.決策樹（）情況下會導(dǎo)致遞歸返回。A)當(dāng)前節(jié)點包含的樣本全屬于同一類B)當(dāng)前屬性集為空C)當(dāng)前節(jié)點包含的樣本集合為空D)所有樣本在所有屬性上取值相答案:ABCD解析:決策樹的生成是一個遞歸過程.在決策樹基本算法中，有三種情形會導(dǎo)致遞歸返回:(1)當(dāng)前結(jié)點包含的樣本全屬于同一類別，無需劃分;(2)當(dāng)前屬性集為空，或是所有樣本在所有屬性上取值相同，無法劃分;(3)當(dāng)前結(jié)點包含的樣本集合為空，不能劃分.[多選題]84.以下哪幾項屬于漢語未登錄詞的類型（）。A)存在于詞典但出現(xiàn)頻率較少的詞B)新出現(xiàn)的普通詞匯C)專有名詞D)專業(yè)名詞和研究領(lǐng)域名答案:BCD解析:未登錄詞就是未知的新詞。判斷一個新字符串是否應(yīng)作為一個詞，是基于世界知識的，需要人參與才能確認。[多選題]85.Spark的技術(shù)架構(gòu)可以分為哪幾層（）。A)資源管理層；B)Spark核心層；C)應(yīng)用層；D)服務(wù)層；答案:ABD解析:Spark的技術(shù)架構(gòu)可以分為三層資源管理層、Spark核心層和服務(wù)層。[多選題]86.Yarn的調(diào)度機制有哪幾種是__。A)FIFOB)CapacityC)FairD)Line答案:ABC解析:Hadoop作業(yè)調(diào)度器主要

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)理論考試(習(xí)題卷9)

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)理論考試(習(xí)題卷9)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔