大數(shù)據(jù)-多選練習(xí)試題及答案

上傳人：喝*** IP屬地：浙江上傳時(shí)間：2025-01-19 格式：DOCX 頁(yè)數(shù)：35 大?。?6.15KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩30頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁(yè)大數(shù)據(jù)-多選練習(xí)試題及答案1.假定你正在處理類屬特征，并且沒(méi)有查看分類變量在測(cè)試集中的分布。現(xiàn)在你想將onehotencoding（OHE）應(yīng)用到類屬特征中。那么在訓(xùn)練集中將OHE應(yīng)用到分類變量可能要面臨的困難是什么A、分類變量所有的類別沒(méi)有全部出現(xiàn)在測(cè)試集中B、分類變量所有的類別全部出現(xiàn)在測(cè)試集中C、類別的頻率分布在訓(xùn)練集和測(cè)試集是不同的D、訓(xùn)練集和測(cè)試集通常會(huì)有一樣的分布【正確答案】：AC2.對(duì)應(yīng)GradientBoostingtree算法，以下說(shuō)法正確的是A、當(dāng)增加最小樣本分裂個(gè)數(shù)，我們可以抵制過(guò)擬合B、當(dāng)增加最小樣本分裂個(gè)數(shù)，會(huì)導(dǎo)致過(guò)擬合C、當(dāng)我們減少訓(xùn)練單個(gè)學(xué)習(xí)器的樣本個(gè)數(shù)，我們可以降低varianceD、當(dāng)我們減少訓(xùn)練單個(gè)學(xué)習(xí)器的樣本個(gè)數(shù)，我們可以降低bias【正確答案】：AC3.while循環(huán)語(yǔ)句和for循環(huán)語(yǔ)句使用else的區(qū)別是A、else語(yǔ)句和while循環(huán)語(yǔ)句一起使用，則當(dāng)條件變?yōu)镕alse時(shí)，執(zhí)行else語(yǔ)句B、else語(yǔ)句和while循環(huán)語(yǔ)句一起使用，則當(dāng)條件變?yōu)門(mén)rue時(shí)，執(zhí)行else語(yǔ)句C、else語(yǔ)句和for循環(huán)語(yǔ)句一起使用，else語(yǔ)句塊只在for循環(huán)正常終止時(shí)執(zhí)行D、else語(yǔ)句和for循環(huán)語(yǔ)句一起使用，else語(yǔ)句塊只在for循環(huán)不正常終止時(shí)執(zhí)行【正確答案】：AC4.下面哪幾個(gè)屬于Reducer階段A、ShuffleB、SortC、MapD、Reduce【正確答案】：ABD5.下列哪種方法可以用來(lái)減小過(guò)擬合A、更多的訓(xùn)練數(shù)據(jù)B、L1正則化C、L2正則化D、減小模型的復(fù)雜度【正確答案】：ABCD6.我們知道二元分類的輸出是概率值。一般設(shè)定輸出概率大于或等于0.5，則預(yù)測(cè)為正類；若輸出概率小于0.5，則預(yù)測(cè)為負(fù)類。那么，如果將閾值0.5提高，例如0.6，大于或等于0.6的才預(yù)測(cè)為正類。則準(zhǔn)確率（Precision）和召回率（Recall）會(huì)發(fā)生什么變化A、準(zhǔn)確率（Precision）增加或者不變B、準(zhǔn)確率（Precision）減小C、召回率（Recall）減小或者不變D、召回率（Recall）增大【正確答案】：AC7.下列哪項(xiàng)敘述是正確的Adaboost可以降低方差B、Xgboost可以降低偏差C、RandomForest可以降低方差DecisionTree可以降低偏差【正確答案】：BC8.Pandas的數(shù)據(jù)結(jié)構(gòu)包括以下哪些A、SeriesB、DataframeC、dictD、list【正確答案】：AB9.關(guān)于神經(jīng)網(wǎng)絡(luò)，下列說(shuō)法正確的是A、增加網(wǎng)絡(luò)層數(shù)，可能會(huì)增加測(cè)試集分類錯(cuò)誤率B、增加網(wǎng)絡(luò)層數(shù)，一定會(huì)增加訓(xùn)練集分類錯(cuò)誤率C、減少網(wǎng)絡(luò)層數(shù)，可能會(huì)減少測(cè)試集分類錯(cuò)誤率D、減少網(wǎng)絡(luò)層數(shù)，一定會(huì)減少訓(xùn)練集分類錯(cuò)誤率【正確答案】：AC10.driver的功能包含哪些A、向集群申請(qǐng)資源B、負(fù)責(zé)了作業(yè)的調(diào)度和解析C、生成Stage并調(diào)度Task到Executor上（包括DAGScheduler，TaskScheduler）D、管理executor節(jié)點(diǎn)【正確答案】：ABC11.以下方法屬于集成方法的是A、baggingB、stackingC、blendingD、boosting【正確答案】：ABCD12.HDFS相關(guān)的shell命令正確的是A、hdfsdfs–rm:刪除路徑path指定的文件B、hadoopfs–ls:顯示path指定文件夾的詳細(xì)信息C、hdfsdfs-mkdir:創(chuàng)建path指定的文件夾D、hadoopfs–copyFromLocal:從path1拷貝到path2【正確答案】：ABCD13.a=numpy.array([[1,2,3],[4,5,6]])下列選項(xiàng)中可以選取數(shù)字5的索引的是A、a[1][1]B、a[2][2]C、a[1,1]D、a[2,2]【正確答案】：AC14.以下sklearn中的模型，哪些是解決回歸分析的A、LinearRegressionB、SVRC、LogisticRegressionD、Ridge【正確答案】：ABD15.Pandas的數(shù)據(jù)結(jié)構(gòu)包括以下哪些A、SeriesB、DataframeC、dictD、List【正確答案】：AB16.Spark應(yīng)用程序的執(zhí)行過(guò)程包含以下哪些過(guò)程A、構(gòu)建SparkApplication的運(yùn)行環(huán)境（啟動(dòng)SparkContext）B、SparkContext向資源管理器（可以是Standalone、Mesos或YARN）注冊(cè)并申請(qǐng)運(yùn)行Executor資源；C、資源管理器分配Executor資源，Executor運(yùn)行情況將隨著心跳發(fā)送到資源管理器上；D、SparkContext構(gòu)建成DAG圖，將DAG圖分解成Stage，并把Taskset發(fā)送給TaskScheduler【正確答案】：ABCD17.下列關(guān)于決策樹(shù)的說(shuō)法正確的是A、ID3決策樹(shù)是根據(jù)信息增益來(lái)劃分屬性B、C4.5決策樹(shù)是根據(jù)增益率來(lái)劃分屬性CART決策樹(shù)是根據(jù)基尼指數(shù)來(lái)劃分屬性D、基尼指數(shù)反映了從樣本集D中隨機(jī)抽取兩個(gè)樣本，其類別標(biāo)記不一致的概率，因此越小越好【正確答案】：ABCD18.Hive創(chuàng)建動(dòng)態(tài)分區(qū)表時(shí)需要設(shè)置哪些參數(shù)A、hive.server2.thrift.portB、hive.server2.thrift.bind.hostC、hive.exedynamipartitionD、hive.exedynamipartition.mode【正確答案】：CD19.Flume中Master是管理協(xié)調(diào)那個(gè)流程的配置信息A、agentB、StorageChannelD、collector【正確答案】：AD20.關(guān)于“大數(shù)據(jù)摩爾定律”，以下說(shuō)法正確的是A、人類社會(huì)產(chǎn)生的數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng)B、人類社會(huì)的數(shù)據(jù)量以每年10%的速度增長(zhǎng)C、人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和D、人類社會(huì)的數(shù)據(jù)量大約每?jī)赡昃驮黾右槐丁菊_答案】：ACD21.下列方法中，可以用于特征降維的方法包括A、主成分分析PCAB、線性判別分析LDAC、AutoEncoderD、矩陣奇異值分解SVD【正確答案】：ABCD22.邏輯回歸與線性回歸的區(qū)別A、邏輯回歸用于分析離散變量,線性回歸用于連續(xù)變量B、邏輯回歸可以用于二分類模型C、線性回歸是利用數(shù)理統(tǒng)計(jì)中的回歸分析,來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法D、邏輯回歸與多元線性回歸都可以使用梯度下降法求最優(yōu)解【正確答案】：ABCD23.Kafka的優(yōu)點(diǎn)A、Kafka支持多個(gè)生產(chǎn)者和消費(fèi)者B、Kafka支持broker的橫向擴(kuò)展；C、支持多種模式的消息（schema）；D、對(duì)CPU和內(nèi)存消耗較??；【正確答案】：ABCD24.在機(jī)器學(xué)習(xí)中，下列關(guān)于各算法對(duì)應(yīng)的損失函數(shù)正確的是A、最小二乘-SquarelossB、SVM-HingeLossC、LogisticRegression-（log-Loss）D、AdaBoost-指數(shù)損失函數(shù)【正確答案】：ABCD25.關(guān)于Kafka的特點(diǎn)如下描述正確的是A、Kafka是一個(gè)高吞吐、分布式、基于發(fā)布訂閱的消息系統(tǒng)B、Kafka可以做到消息的持久化C、Kafka適用于離線和在線的消息消費(fèi)場(chǎng)景D、Kafka可以保證每個(gè)Partition內(nèi)的消息有序【正確答案】：ABCD26.數(shù)據(jù)清洗的方法包括A、缺失值處理B、噪聲數(shù)據(jù)處理C、一致性檢查D、處理速度快【正確答案】：ABC27.機(jī)器學(xué)習(xí)中做特征選擇時(shí)，可能用到的方法有A、卡方B、信息增益C、平均互信息D、期望交叉熵【正確答案】：ABCD28.關(guān)于k近鄰算法，描述正確的是A、k近鄰算法是一種常用的監(jiān)督學(xué)習(xí)方法B、k近鄰算法是基于距離來(lái)進(jìn)行預(yù)測(cè)的C、在分類任務(wù)中可使用“投票法”，即選擇這k個(gè)樣本中出現(xiàn)最多的類別標(biāo)記作為預(yù)測(cè)結(jié)果D、在回歸任務(wù)中可使用平均法，即將這k個(gè)樣本的實(shí)值輸出標(biāo)記的平均值作為預(yù)測(cè)結(jié)果【正確答案】：ABCD29.關(guān)于GBDT算法，下列說(shuō)法正確的是A、增加用于分割的最小樣本數(shù)量，有助于避免過(guò)擬合B、增加用于分割的最小樣本數(shù)量，容易造成過(guò)擬合C、減小每個(gè)基本樹(shù)的樣本比例，有助于減小方差D、減小每個(gè)基本樹(shù)的樣本比例，有助于減小偏差【正確答案】：AC30.我們想要訓(xùn)練一個(gè)ML模型，樣本數(shù)量有100萬(wàn)個(gè)，特征維度是5000，面對(duì)如此大數(shù)據(jù)，如何有效地訓(xùn)練模型A、對(duì)訓(xùn)練集隨機(jī)采樣，在隨機(jī)采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機(jī)器學(xué)習(xí)算法C、使用PCA算法減少特征維度D、隨機(jī)去掉部分特征【正確答案】：ABC31.在機(jī)器學(xué)習(xí)中需要?jiǎng)澐謹(jǐn)?shù)據(jù)集，常用的劃分測(cè)試集和訓(xùn)練集的劃分方法有哪些A、留出法B、交叉驗(yàn)證法C、自助法D、評(píng)分法【正確答案】：ABC32.下面機(jī)器學(xué)習(xí)算法屬于監(jiān)督學(xué)習(xí)的是A、線性回歸B、K-均值C、樸素貝葉斯D、SVM【正確答案】：ACD33.以下關(guān)于正則化的描述正確的是A、正則化可以防止過(guò)擬合B、L1正則化能得到稀疏解C、L2正則化約束了解空間Dropout也是一種正則化方法【正確答案】：ABCD34.在數(shù)據(jù)庫(kù)系統(tǒng)中，有哪幾種數(shù)據(jù)模型A、實(shí)體聯(lián)系模型B、關(guān)系模型C、網(wǎng)狀模型D、層次模型【正確答案】：BCD35.下列方法中，可以用于特征降維的方法包括A、主成分分析PCAB、線性判別分析LDAC、深度學(xué)習(xí)SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】：ABCD36.我們希望減少數(shù)據(jù)集中的特征數(shù)量。你可以采取以下哪一個(gè)步驟來(lái)減少特征A、使用正向選擇法（ForwardSelection）B、使用反向消除法（BackwardElimination）C、逐步選擇消除法（Stepwise）D、計(jì)算不同特征之間的相關(guān)系數(shù)，刪去相關(guān)系數(shù)高的特征之一【正確答案】：ABCD37.關(guān)于Kafka，說(shuō)法正確的是A、由produce、broker和consumer等角色構(gòu)成B、通過(guò)zookeeper進(jìn)行服務(wù)協(xié)調(diào)C、消息可以存成多個(gè)副本以達(dá)到容錯(cuò)的目標(biāo)D、是一個(gè)分布式key/value存儲(chǔ)系統(tǒng)【正確答案】：ABC38.層次聚類對(duì)數(shù)據(jù)集劃分的策略有A、自底向上的聚合B、自底向上的分拆策略C、自頂向下的分拆策略【正確答案】：AC39.在有監(jiān)督學(xué)習(xí)中，我們?nèi)绾问褂镁垲惙椒ˋ、可以先創(chuàng)建聚類類別，然后在每個(gè)類別上用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)B、可以使用聚類“類別id”作為一個(gè)新的特征項(xiàng)，然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)C、在進(jìn)行監(jiān)督學(xué)習(xí)之前，我們不能新建聚類類別D、我們不可以使用聚類“類別id”作為一個(gè)新的特征項(xiàng)，然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)【正確答案】：AB40.將/目錄下的www文件權(quán)限改為僅主用戶有執(zhí)行的權(quán)限，其他人都沒(méi)有的命令是A、chmod100/wwwB、chmod001/wwwC、chmodu+x，g-x，o-x/wwwD、chmodo-x，g-x，u-x/www【正確答案】：AC41.神經(jīng)網(wǎng)絡(luò)通常包含以下哪些層A、輸入層B、隱藏層C、輸出層D、匯總層【正確答案】：ABC42.下面哪些選項(xiàng)正確描述了HBase的特性A、高可靠性B、高性能C、面向列D、可伸縮【正確答案】：ABCD43.下面關(guān)于Hive內(nèi)外表描述正確的是A、Hive內(nèi)表的元數(shù)據(jù)和數(shù)據(jù)都由Hive自己管理B、Hive會(huì)管理外表的元數(shù)據(jù)C、當(dāng)Hive內(nèi)表的元數(shù)據(jù)發(fā)生變化時(shí)，內(nèi)表的改動(dòng)修改不會(huì)同步給元數(shù)據(jù)D、對(duì)外部表的表結(jié)構(gòu)和分區(qū)進(jìn)行修改，需要修復(fù)【正確答案】：ABD44.Flume中包含哪些組件A、ChannelB、SinkC、SourceD、Log【正確答案】：ABC45.下列說(shuō)法正確的是A、梯度下降法是利用當(dāng)前位置的負(fù)梯度作為搜索方向的方法B、批量梯度下降和隨機(jī)梯度下降相比，批量梯度下降優(yōu)勢(shì)是對(duì)于大規(guī)模樣本效率很高C、牛頓法和梯度下降法相比，一個(gè)劣勢(shì)是求解復(fù)雜，一個(gè)優(yōu)勢(shì)是收斂速度加快D、共軛梯度法僅需利用一階導(dǎo)數(shù)的信息，但是收斂速度高于梯度下降法【正確答案】：ACD46.kafka可靠性主要通過(guò)（）實(shí)現(xiàn)A、ck機(jī)制B、持久化C、多副本機(jī)制D、zookeeper協(xié)調(diào)【正確答案】：ABCD47.以下描述錯(cuò)誤的是A、SVM是這樣一個(gè)分類器，他尋找具有最小邊緣的超平面，因此它也經(jīng)常被稱為最小邊緣分類器（minimalmarginclassifier）B、在聚類分析當(dāng)中，簇內(nèi)的相似性越大，簇間的差別越大，聚類的效果就越差C、在決策樹(shù)中，隨著樹(shù)中結(jié)點(diǎn)數(shù)變得太大，即使模型的訓(xùn)練誤差還在繼續(xù)減低，但是檢驗(yàn)誤差開(kāi)始增大，這是出現(xiàn)了模型擬合不足的問(wèn)題D、聚類分析可以看作是一種非監(jiān)督的分類【正確答案】：ABC48.Python3中，以下哪些可返回列表lists=[1,2,3,4,5,6,7]中大于4的元素A、(iforiinlistsifi>4)B、list(filter(lambdax:x>4,lists))C、list(map(lambdax:x>4,lists))D、lists(lists.index(4):)【正確答案】：AB49.在集成學(xué)習(xí)中，模型集成了弱學(xué)習(xí)者的預(yù)測(cè)，所以這些模型的集成將比使用單個(gè)模型預(yù)測(cè)效果更好。下面哪個(gè)/些選項(xiàng)對(duì)集成學(xué)習(xí)模型中的弱學(xué)習(xí)者描述正確A、通常不會(huì)過(guò)擬合B、通常帶有高偏差C、通常會(huì)過(guò)擬合D、通常帶有高方差【正確答案】：AB50.HDFS客戶端以N副本寫(xiě)文件時(shí)，下列關(guān)于寫(xiě)過(guò)程正確的是A、每個(gè)DataNode最多存儲(chǔ)1副本。B、支持多用戶同時(shí)對(duì)同一文件的寫(xiě)操作。C、數(shù)據(jù)塊的第一個(gè)副本優(yōu)先放在寫(xiě)入數(shù)據(jù)塊的客戶端所在的節(jié)點(diǎn)。D、復(fù)制的文件塊默認(rèn)都存在同一機(jī)架上。【正確答案】：AB51.關(guān)于Ridge回歸，下列哪些項(xiàng)正確A、lambda為0時(shí)，模型作用類似于線性回歸模型B、.lambda為0時(shí)，模型作用與線性回歸模型不相像C、當(dāng)lambda趨向無(wú)窮，會(huì)得到非常小，趨近0的相關(guān)系數(shù)D、當(dāng)lambda趨向無(wú)窮，會(huì)得到非常大，趨近無(wú)窮的相關(guān)系數(shù)【正確答案】：AC52.下面哪些選項(xiàng)對(duì)K折交叉驗(yàn)證的描述是正確的A、增大K將導(dǎo)致交叉驗(yàn)證結(jié)果時(shí)需要更多的時(shí)間B、更大的K值相比于小K值將對(duì)交叉驗(yàn)證結(jié)構(gòu)有更高的信心C、如果K=P，那么其稱為留一交叉驗(yàn)證，其中P為驗(yàn)證集中的樣本數(shù)量D、如果K=P，那么其稱為留P交叉驗(yàn)證，其中P為訓(xùn)練集中的樣本數(shù)量【正確答案】：ABC53.關(guān)于Kafka的Producer,如下說(shuō)法正確的是A、Producer是消息生產(chǎn)者B、Producer生產(chǎn)數(shù)據(jù)需要指定TopicC、可以同時(shí)起多個(gè)Producer進(jìn)程向同一個(gè)Topic進(jìn)行數(shù)據(jù)發(fā)送D、Producer生產(chǎn)數(shù)據(jù)時(shí)需要先連接ZooKeeper,而后才連接Broker【正確答案】：ABC54.以下說(shuō)法中正確的是A、SVM對(duì)噪聲(如來(lái)自其他分布的噪聲樣本)魯棒B、在AdaBoost算法中,所有被分錯(cuò)的樣本的權(quán)重更新比例相同C、Boosting和Bagging都是組合多個(gè)分類器投票的方法,二者都是根據(jù)單個(gè)分類器的正確率決定其權(quán)重D、給定n個(gè)數(shù)據(jù)點(diǎn),如果其中一半用于訓(xùn)練,一般用于測(cè)試,則訓(xùn)練誤差和測(cè)試誤差之間的差別會(huì)隨著n的增加而減少【正確答案】：BD55.下面屬于數(shù)據(jù)集的一般特性的有：A、連續(xù)性B、維度C、稀疏性D、相異性【正確答案】：BC56.下面關(guān)于RandomForest和GradientBoostingTrees說(shuō)法錯(cuò)誤的是A、RandomForest的中間樹(shù)不是相互獨(dú)立的，而GradientBoostingTrees的中間樹(shù)是相互獨(dú)立的B、兩者都使用隨機(jī)特征子集來(lái)創(chuàng)建中間樹(shù)C、在GradientBoostingTrees中可以生成并行樹(shù)，因?yàn)樗鼈兪窍嗷オ?dú)立的D、無(wú)論任何數(shù)據(jù)，GradientBoostingTrees總是優(yōu)于RandomForest【正確答案】：ACD57.決策樹(shù)算法很容易出現(xiàn)過(guò)擬合，我們通常會(huì)使用一些剪枝手段來(lái)改善這一現(xiàn)象。對(duì)于sklearn.tree.DecisionTreeClassifier模型，下面這些參數(shù)哪些能起到剪枝的作用A、criterionB、max_depthC、min_samples_splitD、min_impurity_split【正確答案】：BCD58.下列關(guān)于MapReduceOnYarn的執(zhí)行流程說(shuō)法正確的有A、資源管理器為MapReduce應(yīng)用程序分配容器B、在資源管理器中注冊(cè)MapReduce應(yīng)用程序管理器C、MapReduce應(yīng)用程序采用輪詢的方式申請(qǐng)資源D、MapReduce應(yīng)用程序與節(jié)點(diǎn)管理器通信并啟動(dòng)任務(wù)【正確答案】：CD59.如果回歸模型中存在多重共線性（multicollinearity），應(yīng)該如何解決這一問(wèn)題而不丟失太多信息A、剔除所有的共線性變量B、剔除共線性變量中的一個(gè)C、通過(guò)計(jì)算方差膨脹因子（VarianceInflationFactor，VIF）來(lái)檢查共線性程度，并采取相應(yīng)措施D、刪除相關(guān)變量可能會(huì)有信息損失，我們可以不刪除相關(guān)變量，而使用一些正則化方法來(lái)解決多重共線性問(wèn)題，例如Ridge或Lasso回歸。【正確答案】：BCD60.關(guān)于HDFS集群中的datanode的描述不正確的是A、datanode之間都是獨(dú)立的，相互之間不會(huì)有通信B、存儲(chǔ)客戶端上傳的數(shù)據(jù)的數(shù)據(jù)塊C、一個(gè)datanode上存儲(chǔ)的所有數(shù)據(jù)塊可以有相同的D、響應(yīng)客戶端的所有讀寫(xiě)數(shù)據(jù)請(qǐng)求，為客戶端的存儲(chǔ)和讀取數(shù)據(jù)提供支撐【正確答案】：AC61.以下各項(xiàng)均是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的不同說(shuō)法,你認(rèn)為正確的有A、數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)庫(kù)B、數(shù)據(jù)倉(cāng)庫(kù)是一切商業(yè)智能系統(tǒng)的基礎(chǔ)C、數(shù)據(jù)倉(cāng)庫(kù)是面向業(yè)務(wù)的,支持聯(lián)機(jī)事務(wù)處理（OLTP）D、數(shù)據(jù)倉(cāng)庫(kù)支持決策而非事務(wù)處理【正確答案】：BCD62.下列哪項(xiàng)可以評(píng)價(jià)回歸模型A、R方B、調(diào)整R方C、F統(tǒng)計(jì)量D、RMSE/MSE/MAE【正確答案】：ABCD63.以下哪些機(jī)器學(xué)習(xí)算法可以不對(duì)特征做歸一化處理A、隨機(jī)森林B、邏輯回歸C、SVMD、決策樹(shù)【正確答案】：AD64.以下會(huì)觸發(fā)sparkshuffle機(jī)制的是A、repartitionB、coalesceC、groupByKeyD、cogroup【正確答案】：ABCD65.Spark累加器描述正確的是A、全局的，只增不減，記錄全局集群的唯一狀態(tài)B、在executor中修改它，在driver讀取C、executor級(jí)別共享的，廣播變量是task級(jí)別的共享D、兩個(gè)application不可以共享累加器，但是同一個(gè)app不同的job可以共享【正確答案】：ABCD66.常用的核函數(shù)有A、線性核B、多項(xiàng)式核C、高斯核D、拉普拉斯核【正確答案】：ABCD67.PCA和LDA的以下比較哪些是正確的A、LDA和PCA都是線性變換技術(shù)B、LDA是線性變換技術(shù)，PCA是非線性變換技術(shù)C、PCA最大化數(shù)據(jù)的方差，而LDA最大化不同類之間的分離D、LDA是有監(jiān)督的，而PCA是無(wú)監(jiān)督的【正確答案】：ACD68.機(jī)器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是A、使用L1可以得到稀疏的權(quán)值B、使用L1可以得到平滑的權(quán)值C、使用L2可以得到稀疏的權(quán)值D、使用L2可以得到平滑的權(quán)值【正確答案】：AD69.XGBoost工具包能夠?qū)崿F(xiàn)的任務(wù)有A、降維B、分類C、回歸D、聚類【正確答案】：BC70.以下說(shuō)法正確的是A、每個(gè)Python文件就是一個(gè)模塊B、在Python中沒(méi)有switch-case語(yǔ)句C、一個(gè)try語(yǔ)句只能對(duì)應(yīng)一個(gè)except子句D、字典中的值只能夠是字符串類型【正確答案】：AB71.(1,1,1)+(2,2,2)的運(yùn)行結(jié)果不可能是A、(3,3,3)B、(1,1,1,2,2,2)C、[1,1,1,2,2,2,]D、運(yùn)行出錯(cuò)【正確答案】：ACD72.在shell中，當(dāng)用戶準(zhǔn)備結(jié)束登錄對(duì)話進(jìn)程時(shí)，可用（）命令。A、logoutB、exitCtrl+DD、shutdown【正確答案】：ABC73.對(duì)于以下代碼，說(shuō)法正確的是：foriinrange(10):（2.0）A、range函數(shù)產(chǎn)生的序列從0開(kāi)始B、range函數(shù)產(chǎn)生的序列從1開(kāi)始C、range函數(shù)產(chǎn)生的序列到10結(jié)束（包括10）D、range函數(shù)產(chǎn)生的序列到9結(jié)束（包括9）【正確答案】：AD74.當(dāng)我們構(gòu)造線性模型時(shí),我們注意變量間的相關(guān)性.在相關(guān)矩陣中搜索相關(guān)系數(shù)時(shí),如果我們發(fā)現(xiàn)3對(duì)變量的相關(guān)系數(shù)是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98,0.45,1.23.我們可以得出什么結(jié)論A、Var1和Var2是非常相關(guān)的B、因?yàn)閂ar1和Var2是非常相關(guān)的,我們可以去除其中一個(gè)C、Var3和Var1的1.23相關(guān)系數(shù)是不可能的D、Var3和Var1的相關(guān)性是最高的【正確答案】：ABC75.下列哪些算法可以用來(lái)夠造神經(jīng)網(wǎng)絡(luò)A、kNNB、線性回歸C、邏輯回歸D、SVM【正確答案】：BC76.在>>>提示符后,輸入()可以退出Python運(yùn)行環(huán)境。A、print("退出")B、exit()C、print("exit")D、quit()【正確答案】：BD77.HBase性能優(yōu)化包含下面的哪些選項(xiàng)A、讀優(yōu)化B、寫(xiě)優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化【正確答案】：ABCD78.下面哪一項(xiàng)對(duì)梯度下降（GD）和隨機(jī)梯度下降（SGD）的描述是正確的A、在SGD中，每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)B、在SGD中，每一次迭代需要遍歷訓(xùn)練集中的子樣本集以更新一次參數(shù)C、在GD中，每一次迭代需要使用整個(gè)訓(xùn)練集或子訓(xùn)練集的數(shù)據(jù)更新一個(gè)參數(shù)D、在GD中，每一次迭代需要使用整個(gè)訓(xùn)練集數(shù)據(jù)更新一個(gè)參數(shù)【正確答案】：BD79.Spark是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架。下列關(guān)于Spark描述正確的是A、Spark通過(guò)將中間結(jié)果緩存在內(nèi)存減少磁盤(pán)I/O提升運(yùn)行速度B、Spark支持JavPython、Scala的APIC、Spark支持復(fù)雜查詢D、Spark與MapReduce一樣，不支持實(shí)時(shí)流計(jì)算【正確答案】：ABC80.下面關(guān)于Hive數(shù)據(jù)傾斜問(wèn)題描述正確的是A、不需要了解業(yè)務(wù)，對(duì)業(yè)務(wù)進(jìn)行數(shù)據(jù)探查無(wú)法解決數(shù)據(jù)傾斜B、每一個(gè)數(shù)據(jù)傾斜的作業(yè)都需要優(yōu)化C、小文件合并一定程度上可解決數(shù)據(jù)傾斜的問(wèn)題D、可以適當(dāng)?shù)耐ㄟ^(guò)控制mapper和reducer來(lái)控制數(shù)據(jù)傾斜的問(wèn)題【正確答案】：CD81.在Spark中，RDD具有數(shù)據(jù)流模型的特點(diǎn)有哪些A、自動(dòng)容錯(cuò)B、位置感知性調(diào)度C、不可終止性D、可伸縮性【正確答案】：ABD82.Hadoop系統(tǒng)中YARN支持哪些資源類型的管理A、內(nèi)存B、CPUC、網(wǎng)絡(luò)D、磁盤(pán)空間【正確答案】：AB83.以下HBase的shell操作命令描述正確的是A、version可以顯示當(dāng)前HBase的版本號(hào)B、status命令用來(lái)顯示集群各節(jié)點(diǎn)的狀態(tài)C、exit或quit退出當(dāng)前HBaseshell環(huán)境D、輸入help命令可查看HBase提供的所有命令【正確答案】：ABCD84.影響K-Means聚類算法結(jié)果的主要因素有A、樣本順序B、相似性度量C、初始聚類中心D、樣本類別【正確答案】：BC85.下面屬于非線性模型的機(jī)器學(xué)習(xí)的方法A、決策樹(shù)B、PCAC、多層感知機(jī)D、單層感知機(jī)【正確答案】：AC86.Hive中的查詢語(yǔ)句命令的別名使用描述正確的是A、別名在單表查詢中作用不大，所以單表查詢命令不能使用別名B、涉及到多個(gè)不同的表查詢，使用別名能簡(jiǎn)化命令凸顯其優(yōu)勢(shì)C、對(duì)于多表的連接查詢使用別名能方便程序代碼的可讀性以及后期代碼的維護(hù)D、不管任何情況下使用別名進(jìn)行查詢會(huì)更好【正確答案】：BC87.類別不平衡就是指分類問(wèn)題中不同類別的訓(xùn)練樣本相差懸殊的情況，例如正例有900個(gè)，而反例只有100個(gè)，這個(gè)時(shí)候我們就需要進(jìn)行相應(yīng)的處理來(lái)平衡，這個(gè)問(wèn)題,下列方法正確的是A、在訓(xùn)練樣本較多的類別中進(jìn)行欠采樣B、在訓(xùn)練樣本較多的類別中進(jìn)行過(guò)采樣C、直接基于原數(shù)據(jù)集進(jìn)行學(xué)習(xí)，對(duì)預(yù)測(cè)值進(jìn)行再縮放處理D、通過(guò)對(duì)反例中的數(shù)據(jù)進(jìn)行插值，來(lái)產(chǎn)生額外的反例【正確答案】：ACD88.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETL過(guò)程中，ETL軟件的主要功能包括A、數(shù)據(jù)抽取B、數(shù)據(jù)轉(zhuǎn)換C、數(shù)據(jù)加載D、數(shù)據(jù)分析【正確答案】：ABC89.RDD作為Spark最核心的對(duì)象，具有以下哪些特點(diǎn)A、只讀B、分區(qū)C、容錯(cuò)D、高效【正確答案】：ABCD90.以下哪些方法可以用于評(píng)估分類算法的性能：A、F1ScoreB、精確率C、AUCD、預(yù)測(cè)結(jié)果分布【正確答案】：ABC91.以下sklearn中的模型，哪些是解決回歸分析的A、LinearRegressionB、SVRC、LogisticRegressionD、Ridge【正確答案】：ABD92.下面關(guān)于海量小文件存儲(chǔ)的描述正確的是A、HDFS中存海量小文件會(huì)給NameNode帶來(lái)極大的壓力。B、HBase存儲(chǔ)海量小文件，Compaction會(huì)帶來(lái)IO資源浪費(fèi)。Ceph適合存儲(chǔ)海量小文件D、以上說(shuō)法都不對(duì)【正確答案】：ABC93.對(duì)于線性回歸，我們應(yīng)該有以下哪些假設(shè)A、找到離群點(diǎn)很重要,因?yàn)榫€性回歸對(duì)離群點(diǎn)很敏感B、線性回歸要求所有變量必須符合正態(tài)分布C、線性回歸假設(shè)數(shù)據(jù)沒(méi)有多重線性相關(guān)性D、線性回歸不要求所有變量必須符合正態(tài)分布【正確答案】：ABC94.shell變量的定義錯(cuò)誤的是A、name="jerry"B、01name="jerry"C、name="jerry"D、name01="jerry"【正確答案】：BC95.RDD有哪些缺陷A、不支持細(xì)粒度的寫(xiě)和更新操作，批量寫(xiě)入數(shù)據(jù)B、不支持增量迭代計(jì)算C、不能自動(dòng)的進(jìn)行內(nèi)存和磁盤(pán)的存儲(chǔ)切換D、stage如果失敗會(huì)自動(dòng)進(jìn)行特定次數(shù)的重試，重新計(jì)算所有分片【正確答案】：AB96.Flink的主要特性包括A、事件時(shí)間支持B、精密的狀態(tài)管理C、精確一次的狀態(tài)一致性保障D、批流一體化【正確答案】：ABCD97.Kafkaworker進(jìn)程的職責(zé)是：A、負(fù)責(zé)配置管理B、可靠性&高可用性C、伸縮性D、負(fù)載均衡【正確答案】：ABCD98.數(shù)據(jù)集D的基尼指數(shù)越小，數(shù)據(jù)集就______？A、數(shù)據(jù)集D的純度越低B、數(shù)據(jù)集D的純度越高C、數(shù)據(jù)集D中任取兩個(gè)樣本類別標(biāo)記相同的概率越低D、數(shù)據(jù)集D中任取兩個(gè)樣本類別標(biāo)記相同的概率越高【正確答案】：BD99.變量選擇是用來(lái)選擇最好的判別器子集，如果要考慮模型效率，我們應(yīng)該做哪些變量選擇的考慮A、多個(gè)變量其實(shí)有相同的用處B、變量對(duì)于模型的解釋有多大作用C、特征攜帶的信息D、交叉驗(yàn)證【正確答案】：ACD100.HBase的數(shù)據(jù)文件HFile中一個(gè)KeyValue格式包含哪些信息A、KeyB、ValueC、timeStampD、KeyType【正確答案】：ABC101.下列關(guān)于Hive和關(guān)系型數(shù)據(jù)庫(kù)說(shuō)法錯(cuò)誤是A、Hive的執(zhí)行延遲高于關(guān)系型數(shù)據(jù)庫(kù)B、二者都支持索引，但Hive支持較弱C、二者都支持?jǐn)?shù)據(jù)更新D、Hive的可擴(kuò)性高于關(guān)系型數(shù)據(jù)庫(kù)【正確答案】：BC102.計(jì)算(1,3),(4,7)的曼哈頓距離和歐氏距離正確的是A、曼哈頓:|1-4|+|3-7|=7B、曼哈頓:sqrt((1-4)^2+(3-7)^2)=5C、歐式距離:|1-4|+|3-7|=7D、歐式距離:sqrt((1-4)^2+(3-7)^2)=5【正確答案】：AD103.噪聲數(shù)據(jù)的產(chǎn)生原因主要有：A、數(shù)據(jù)采集設(shè)備有問(wèn)題B、在數(shù)據(jù)錄入過(guò)程中發(fā)生了人為或計(jì)算機(jī)錯(cuò)誤C、數(shù)據(jù)傳輸過(guò)程中發(fā)生錯(cuò)誤D、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致【正確答案】：ABCD104.在shell中，使用（）命令可顯示磁盤(pán)空間A、dfB、duC、dir【正確答案】：AB105.下列哪些函數(shù)語(yǔ)句可以設(shè)置坐標(biāo)軸的刻度：A、plt.xticks()B、plt.yticks()C、plt.xlabel()D、plt.ylabel()【正確答案】：AB106.以下屬于聚類算法的是A、K-MeansB、DBSCANC、AprioriD、KNN【正確答案】：AB107.下面關(guān)于Hive四種排序方式的區(qū)別，描述正確的是A、orderby是要對(duì)輸出的結(jié)果進(jìn)行全局排序，全局排序只可在一個(gè)reducer中實(shí)現(xiàn)B、sortby不是全局排序，只是在進(jìn)入到reducer之前完成排序C、distributeby指的是按照指定的字段劃分到不同的輸出reduce文件中，常見(jiàn)使用方式是orderbydistributebyD、clusterby不僅支持正序排序，也支持逆序排序【正確答案】：AB108.以下關(guān)于PCA描述正確的是A、PCA是一種無(wú)監(jiān)督的方法B、搜索數(shù)據(jù)具有最大差異的方向C、主成分的最大數(shù)量<=特征能數(shù)量D、所有主成分彼此正交【正確答案】：ABCD109.格式化HDFS系統(tǒng)的命令為A、hdfsnamenode–formatB、hdfsdatanode-formatC、hadoopnamenode-formatD、hadoopdatanode-format【正確答案】：AC110.kafka中刪除消息的閾值有幾種A、硬盤(pán)總空間大小B、分區(qū)總?cè)罩敬笮、數(shù)據(jù)使用的頻軍D、數(shù)據(jù)產(chǎn)生的時(shí)間【正確答案】：BD111.關(guān)于Redis特點(diǎn)，下面描述正確的是A、低時(shí)延B、豐富的數(shù)據(jù)結(jié)構(gòu)C、支持?jǐn)?shù)據(jù)持久化D、支持SQL查詢接口【正確答案】：ABC112.隨機(jī)森林和集成學(xué)習(xí)的說(shuō)法，正確的是A、隨機(jī)森林只能用于解決分類問(wèn)題B、隨機(jī)森林由隨機(jī)數(shù)量的決策樹(shù)組成C、集成學(xué)習(xí)通過(guò)構(gòu)建多個(gè)模型，并將各個(gè)模型的結(jié)果使用求平均數(shù)的方法集成起來(lái)，作為最終的預(yù)測(cè)結(jié)果，提高分類問(wèn)題的準(zhǔn)確率D、隨機(jī)森林的弱分類器（基分類器）的特征選擇是隨機(jī)的【正確答案】：CD113.下列屬于action操作的是A、collectB、reduceC、countD、cache【正確答案】：ABC114.Spark應(yīng)用程序有哪幾種參數(shù)設(shè)置方法A、在應(yīng)用的配置文件spark-defaults.conf中進(jìn)行配置B、在提交應(yīng)用時(shí)，通過(guò)--conf進(jìn)行設(shè)置C、在應(yīng)用的代碼里面，通過(guò)SparkContext的setProperty方法進(jìn)行設(shè)置D、在應(yīng)用的代碼里面，通過(guò)SparkConf對(duì)象進(jìn)行設(shè)置【正確答案】：ABD115.下列哪些原因會(huì)導(dǎo)致HDFS的NameNode進(jìn)入safemode（安全只讀模式）A、主備NameNode的元數(shù)據(jù)所在磁盤(pán)空間不足B、丟失塊數(shù)超過(guò)閥值C、丟失副本超過(guò)閥值D、損壞副本超過(guò)閥值?！菊_答案】：ACD116.在Spark中，下列選項(xiàng)中有哪些函數(shù)屬于轉(zhuǎn)換(transform)操作A、mapB、flatMapC、mapPartitionsD、join【正確答案】：ABCD117.下面哪些場(chǎng)景不是flink組件擅長(zhǎng)的A、批處理B、迭代計(jì)算C、流處理D、數(shù)據(jù)存儲(chǔ)【正確答案】：BD118.異常檢測(cè)算法主要包括A、孤立森林算法B、基于密度的異常點(diǎn)檢測(cè)算法C、基于鄰近度的異常點(diǎn)檢測(cè)D、基于統(tǒng)計(jì)模型的異常點(diǎn)檢測(cè)【正確答案】：ABCD119.以下哪些措施能提高HBase的查詢性能A、預(yù)分region，使region分布均勻，提高并發(fā)B、查詢頻繁屬性放在rowkey前面部分C、使用二級(jí)索引，適應(yīng)更多查詢場(chǎng)景D、同時(shí)讀取的數(shù)據(jù)存放在同一個(gè)cell中【正確答案】：ABCD120.以下關(guān)于Hive的Metastore描述正確的是A、Metastore保存了Hive的元數(shù)據(jù)信息B、Metastore的安裝模式不能用內(nèi)嵌模式C、Metastore的安裝模式有本地模式D、Metastore的安裝模式默認(rèn)是遠(yuǎn)程模式【正確答案】：AC121.在線日志查詢方案中，采用了Spark處理來(lái)完成計(jì)算工作，整個(gè)計(jì)算過(guò)程中，需要將中間計(jì)算結(jié)果暫時(shí)存放，下列哪些組件適合存儲(chǔ)中間計(jì)算結(jié)果A、HDfSB、HBaseC、KafkaD、Redis【正確答案】：CD122.查詢出學(xué)生表(student)中,數(shù)學(xué)(math)成績(jī)最高的學(xué)生姓名(name),以下正確的是A、selectnamefromstudentwheremathis(selectmax(math)fromstudent);B、selectnamefromstudentwheremath(selectmax(math)fromstudent);C、selectnamefromstudentwheremath=(selectmax(math)fromstudent);D、selectnamefromstudentwheremathin(selectmax(math)fromstudent);【正確答案】：CD123.關(guān)于shell參數(shù)的說(shuō)法，下面正確的是A、$0當(dāng)前執(zhí)行的進(jìn)程名B、$#參數(shù)的數(shù)量C、$*所有參數(shù)的內(nèi)容D、$1代表第一個(gè)參數(shù)，$2代表第二個(gè)參數(shù)，依次類推，$10代表第十個(gè)參數(shù)，$11代表第十一個(gè)參數(shù)【正確答案】：ABCD124.python中的for語(yǔ)句涉及的序列可以是A、列表B、字符串C、range函數(shù)產(chǎn)生的序列D、關(guān)系表達(dá)式【正確答案】：ABC125.下列關(guān)于Hive特點(diǎn)總結(jié)錯(cuò)誤的選項(xiàng)是A、Hive支持自由的擴(kuò)展集群的規(guī)模，只需要重啟服務(wù)即可B、Hive支持自定義函數(shù)，用戶可以根據(jù)自己的需求去定義函數(shù)C、HiveSQL執(zhí)行時(shí)，需要避免節(jié)點(diǎn)出現(xiàn)問(wèn)題D、Hive適合處理小批量數(shù)據(jù)【正確答案】：ACD126.按照學(xué)習(xí)方式的不同，可以將機(jī)器學(xué)習(xí)分為以下哪幾類A、有監(jiān)督學(xué)習(xí)B、無(wú)監(jiān)督學(xué)習(xí)C、半監(jiān)督學(xué)習(xí)D、自主學(xué)習(xí)【正確答案】：ABC127.關(guān)于HBase二級(jí)索引的描述，哪些是正確的A、核心是倒排表B、二級(jí)索引概念是對(duì)應(yīng)Rowkey這個(gè)“一級(jí)”索引C、二級(jí)索引使用平衡二叉樹(shù)D、二級(jí)索引使用LSM結(jié)構(gòu)【正確答案】：AB128.Flume適用于以下哪些場(chǎng)景的數(shù)據(jù)收集A、Thrift,Avro,Syslog,Kafka等數(shù)據(jù)源上收集數(shù)據(jù)B、本地文件數(shù)據(jù)采集C、應(yīng)用系統(tǒng)產(chǎn)生的日志采集D、大量數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)采集【正確答案】：ABC129.以下描述哪些是HMaster的功能A、管理用戶對(duì)表的增刪改查操作B、存儲(chǔ)和管理regionsC、管理RegionServer的負(fù)載均衡，調(diào)整Region分布D、處理讀取/寫(xiě)入請(qǐng)求【正確答案】：AC130.以下哪些大數(shù)據(jù)技術(shù)的特點(diǎn)A、Volume（大體量）B、Variety（多樣性）C、Velocity（時(shí)效性）D、Value（大價(jià)值）【正確答案】：ABCD131.map與flatMap的區(qū)別A、map對(duì)RDD每個(gè)元素轉(zhuǎn)換，文件中的每一行數(shù)據(jù)返回一個(gè)數(shù)組對(duì)象B、flatMap對(duì)RDD每個(gè)元素轉(zhuǎn)換，文件中的每一行數(shù)據(jù)返回一個(gè)數(shù)組對(duì)象C、map對(duì)RDD每個(gè)元素轉(zhuǎn)換，然后再扁平化，將所有的對(duì)象合并為一個(gè)對(duì)象，會(huì)拋棄值為null的值D、flatMap對(duì)RDD每個(gè)元素轉(zhuǎn)換，然后再扁平化，將所有的對(duì)象合并為一個(gè)對(duì)象，會(huì)拋棄值為null的值【正確答案】：AD132.以下模型中屬于貝葉斯網(wǎng)絡(luò)的有A、馬爾可夫隨機(jī)場(chǎng)B、隱馬爾可夫模型C、條件隨機(jī)場(chǎng)D、樸素貝葉斯分類器【正確答案】：BD133.關(guān)于Hive中窗口函數(shù)下列描述正確的是A、LAG用于統(tǒng)計(jì)窗口內(nèi)往上第n行值，未過(guò)濾空情況下，空不計(jì)入窗口中B、LEAD用于統(tǒng)計(jì)窗口內(nèi)往下第n行值，空不計(jì)入窗口中C、FIRST_VALUE取分組排序后，截止到當(dāng)前行的第一個(gè)值D、LAST_VALUE取分組不需要指定ORDERBY后，截止到當(dāng)前行的最后一個(gè)值【正確答案】：AC134.Python3中,以下哪些語(yǔ)句可以將lists=[1,2,3,4]轉(zhuǎn)換為[4,3,2,1]A、lists.sort(reverse=True)B、lists[::-1]C、lists[:]D、sorted(lists)【正確答案】：AB135.已知：x=21,y=16,以下結(jié)果為T(mén)rue的有哪些A、X%2!=0B、X-5==yC、x>10andy<17D、X<y【正確答案】：ABC136.下列層次聚類算法中，哪些更適合處理大數(shù)據(jù)？A、CURE算法B、ROCK算法Chameleon算法D、BIRCH算法【正確答案】：ABCD137.集成學(xué)習(xí)中，個(gè)體學(xué)習(xí)器結(jié)合的策略有哪幾種A、平均法B、回歸法C、投票法D、學(xué)習(xí)法【正確答案】：ACD138.給定兩個(gè)特征向量，以下哪些方法可以計(jì)算這兩個(gè)向量相似度A、歐式距離B、夾角余弦(Cosine)C、信息熵D、曼哈頓距離【正確答案】：ABD139.YARN主要包含哪些模塊ApplicationMasterB、ResourceManagerC、NodeManagerD、QuorumJournalManager【正確答案】：ABC140.XGBoost與GBDT相比具有的優(yōu)點(diǎn)有A、損失函數(shù)是用泰勒展式二項(xiàng)逼近，而GBDT只是一階導(dǎo)數(shù)B、對(duì)樹(shù)的結(jié)構(gòu)進(jìn)行了正則化約束，防止模型過(guò)度復(fù)雜，降低了過(guò)擬合的可能性C、節(jié)點(diǎn)分裂的方式不同，GBDT是用的基尼系數(shù)，XGBoost是經(jīng)過(guò)優(yōu)化推導(dǎo)后的D、XGBoost使用網(wǎng)格搜索，只能檢測(cè)有限個(gè)值【正確答案】：ABC141.在HDFS中,元數(shù)據(jù)(Metadata)描述了HDFS的目錄結(jié)構(gòu)和文件,包括HDFS的目錄結(jié)構(gòu)和文件的版有權(quán)、配額、副本信息等等。HDFS的元數(shù)據(jù)(Metadata)主要存放在哪個(gè)文件里A、EditLogsB、INodeFileC、FsNamesystemD、Fslmage【正確答案】：AD142.以下哪些機(jī)器學(xué)習(xí)算法可以不對(duì)特征做歸一化處理A、隨機(jī)森林B、邏輯回歸C、SVMD、GBDT【正確答案】：AD143.mv命令可以實(shí)現(xiàn)功能有A、移動(dòng)文件B、移動(dòng)目錄C、文件重新命名D、目錄重新命名【正確答案】：ABCD144.以下哪些是大數(shù)據(jù)的特征A、價(jià)值密度低B、數(shù)據(jù)類型繁多C、訪問(wèn)時(shí)間短D、處理速度快【正確答案】：ABD145.訓(xùn)練誤差會(huì)降低模型的準(zhǔn)確率，產(chǎn)生欠擬合，此時(shí)如何提升模擬擬合度A、增加數(shù)據(jù)量B、特征工程C、減少正則化參數(shù)D、提高模型復(fù)雜度【正確答案】：BCD146.有關(guān)集成學(xué)習(xí)下列說(shuō)法正確的是A、基本模型應(yīng)盡量來(lái)自于同一算法，通過(guò)改變訓(xùn)練數(shù)據(jù)和參數(shù)，得到不同的基本模型B、通常來(lái)講，基本模型之間相關(guān)性應(yīng)該低一些C、集成的基本模型的數(shù)量越多，集成模型的效果就越好D、baggingboosting是常用的集成學(xué)習(xí)的方法【正確答案】：BD147.以下描述不正確的是A、KNN算法中K值對(duì)分類效果影響較為顯著，一般K值較大時(shí)，對(duì)噪聲比較敏感B、樸素貝葉斯算法對(duì)缺失數(shù)據(jù)特別敏感，事先需要知道先驗(yàn)概率C、SVM算法可以解決高維問(wèn)題。提高泛化性能D、集成學(xué)習(xí)算法存在過(guò)擬合、魯棒性不強(qiáng)等問(wèn)題【正確答案】：ABD148.假定你現(xiàn)在解決一個(gè)有著非常不平衡類別的分類問(wèn)題，即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%?，F(xiàn)在你的模型在測(cè)試集上表現(xiàn)為99%的準(zhǔn)確度。那么下面哪一項(xiàng)表述是正確的A、準(zhǔn)確度并不適合于衡量不平衡類別問(wèn)題B、準(zhǔn)確度適合于衡量不平衡類別問(wèn)題C、精確率和召回率適合于衡量不平衡類別問(wèn)題D、精確率和召回率不適合于衡量不平衡類別問(wèn)題【正確答案】：AC149.LightGBM為了更好的實(shí)現(xiàn)落地GBDT算法，在以下哪些方向上做了優(yōu)化A、帶深度限制的Leaf-wise的葉子生長(zhǎng)策略B、直方圖做差加速直接C、支持類別特征(CategoricalFeature)D、計(jì)算信息增益的時(shí)候只利用剩下的具有高梯度的數(shù)據(jù)【正確答案】：ABCD150.以下關(guān)于KafkaPrtition說(shuō)法正確的是A、引入Partition機(jī)制，保證了Kafka的高吞吐能力B、每個(gè)Partition都是有序且不可變的消息隊(duì)列C、Partition數(shù)量決定了每個(gè)consumergroup中并發(fā)消費(fèi)者的最大數(shù)量D、每個(gè)Partition在存儲(chǔ)層面對(duì)應(yīng)一個(gè)log文件【正確答案】：ABCD151.以下說(shuō)法正確的是A、過(guò)擬合只是監(jiān)督學(xué)習(xí)中的問(wèn)題，對(duì)于無(wú)監(jiān)督學(xué)習(xí)影響不大B、如果增加一個(gè)模型的復(fù)雜度，訓(xùn)練錯(cuò)誤總會(huì)增加C、如果一個(gè)機(jī)器學(xué)習(xí)模型在測(cè)試集上獲得的100%的準(zhǔn)確性，是否意味著在新的測(cè)試集上也能獲得100%的準(zhǔn)確性。D、K-means是非監(jiān)督模型【正確答案】：BD152.Redis的LIST數(shù)據(jù)結(jié)構(gòu)適合以下哪些場(chǎng)景A、構(gòu)建隊(duì)列系統(tǒng)，例如消息隊(duì)列B、uniq操作，例如獲取某段時(shí)間所有數(shù)據(jù)的排重值C、取最新N個(gè)數(shù)據(jù)操作：例如對(duì)某條微博，獲取最新的10個(gè)評(píng)論D、模擬棧操作【正確答案】：AC153.kafka消息在（）情況下被刪除。A、被消費(fèi)完就立即刪除B、超過(guò)老化時(shí)間會(huì)被刪除C、超過(guò)數(shù)據(jù)保存最大容量D、永遠(yuǎn)不會(huì)被刪除【正確答案】：BC154.HiveQL的查詢語(yǔ)句中排序可以使用A、orderbyB、sortbyC、distributebyD、countby【正確答案】：AB155.在選擇分治法解決問(wèn)題時(shí)，應(yīng)考慮待解決問(wèn)題應(yīng)具有哪些特征A、待解決問(wèn)題規(guī)?？s小到一定程度后可以容易解決B、待解決問(wèn)題應(yīng)可以分解為若干個(gè)規(guī)模較小的相同問(wèn)題，且子問(wèn)題應(yīng)可直接求解C、各子問(wèn)題之間是相互獨(dú)立的D、分解后的子問(wèn)題的解可以合并為源問(wèn)題的解【正確答案】：ABCD156.關(guān)于kafka的MirrorMaker工具，描述錯(cuò)誤的是A、在TargetCluster沒(méi)有對(duì)應(yīng)Topic時(shí)，MirrorMaker不會(huì)自動(dòng)在TargetCluster上創(chuàng)建一個(gè)一模一樣的topicB、MirrorMaker允許指定多個(gè)TopicC、只支持單線程模式D、隨kafka發(fā)行版自帶工具【正確答案】：AC157.Rowkey設(shè)計(jì)的原則，下列哪些選項(xiàng)的描述是正確的A、盡量保證越短越好B、可以使用漢字C、可以使用字符串D、本身是無(wú)序的【正確答案】：ABC158.假設(shè)目標(biāo)遍歷的類別非常不平衡，即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%，現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度，那么下面說(shuō)法正確的是A、準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題B、準(zhǔn)確度適合衡量不平衡類別問(wèn)題C、精確度和召回率適合于衡量不平衡類別問(wèn)題D、精確度和召回率不適合衡量不平衡類別問(wèn)題【正確答案】：AC159.Zookeeper在Kafka中有以下哪些功能?A、協(xié)調(diào)Kafka與ResourceManager的通信B、觸發(fā)負(fù)載均衡，保障一個(gè)consumergroup內(nèi)的多個(gè)consumer的訂閱負(fù)載平衡C、管理broker與consumer的動(dòng)態(tài)加入與離開(kāi)D、負(fù)責(zé)partition中index數(shù)據(jù)的生成【正確答案】：BC160.以下關(guān)于HDFS體系結(jié)構(gòu)的描述正確的有哪幾項(xiàng)A、NameNode作為主結(jié)點(diǎn)，用來(lái)管理文件系統(tǒng)的元數(shù)據(jù)（命名空間和訪問(wèn)操作等信息）B、DataNode作為從結(jié)點(diǎn)，用來(lái)管理存儲(chǔ)的數(shù)據(jù)C、HDFS采用主從結(jié)構(gòu)模型D、一個(gè)HDFS集群是由一個(gè)NameNode和若干個(gè)DataNode組成的【正確答案】：ABC161.pandas中刪除列的方式A、df.drop(【"列名"】,axis=1)B、df.drop(columns=【"列名"】)C、df.drop([0,1])D、df.drop([0])【正確答案】：AB162.下面sklearn.feature_extraction.text模塊中哪個(gè)來(lái)實(shí)現(xiàn)tf_idf的函數(shù)A、TfidfTransformerB、TfidfTransVectorizerC、VectorizerMixinD、CountVectorizer【正確答案】：AB163.以下是shell命令的有A、catB、touchC、manD、sort【正確答案】：ABCD164.kafka消息傳輸保障通常有以下哪幾種A、最多三次(AtMostThreeTimes)B、僅有一次(ExactlyOnce)C、最少一次(AtLeaseonce)D、最多一次(AtMostonce)【正確答案】：BCD165.Kafka的核心架構(gòu)包含A、SplitB、ProducerConsumerD、Broker【正確答案】：BCD166.在sklearn中，要求數(shù)據(jù)都是數(shù)值化的，如果數(shù)據(jù)中有類別型數(shù)據(jù)，需要將其轉(zhuǎn)換成數(shù)據(jù)值，常用的轉(zhuǎn)換方式有A、標(biāo)簽編碼B、獨(dú)熱編碼C、二分編碼D、布爾編碼【正確答案】：AB167.下列哪個(gè)組件屬于Hive架構(gòu)A、MySQLB、TaskManagerC、HDFSD、Client【正確答案】：ACD168.對(duì)于PCA說(shuō)法正確的是A、必須在使用PCA前規(guī)范化數(shù)據(jù)B、應(yīng)該選擇使得模型有最大variance的主成分C、應(yīng)該選擇使得模型有最小variance的主成分D、可以使用PCA在低維度上做數(shù)據(jù)可視化【正確答案】：ABD169.以下對(duì)于LDA算法描述正確的是A、在降維過(guò)程中可以使用類別的先驗(yàn)知識(shí)經(jīng)驗(yàn)，而像PCA這樣的無(wú)監(jiān)督學(xué)習(xí)則無(wú)法使用類別先驗(yàn)知識(shí)B、LDA在樣本分類信息依賴均值而不是方差的時(shí)候，比PCA之類的算法較優(yōu)C、LDA不適合對(duì)非高斯分布樣本進(jìn)行降維D、LDA降維最多降到類別數(shù)k-1的維數(shù)，如果我們降維的維度大于k-1，則不能使用LDA【正確答案】：ABCD170.執(zhí)行HBase讀數(shù)據(jù)業(yè)務(wù)，需要讀取哪幾部分?jǐn)?shù)據(jù)A、HFileB、HLogC、MemStoreD、HMaster【正確答案】：AC171.下列算法屬于深度學(xué)習(xí)的是A、卷積神經(jīng)網(wǎng)絡(luò)B、循環(huán)神經(jīng)網(wǎng)絡(luò)C、決策樹(shù)D、受限玻爾茲曼機(jī)【正確答案】：ABD172.決策樹(shù)算法碰到下面幾種情形時(shí)會(huì)導(dǎo)致遞歸返回A、當(dāng)前結(jié)點(diǎn)包含的樣本全屬于同一類別，無(wú)需劃分B、當(dāng)前屬性集為空，或是所有樣本在所有屬性上取值相同，無(wú)法劃分C、當(dāng)前結(jié)點(diǎn)包含的樣本集合為空，不能劃分D、下一結(jié)點(diǎn)的樣本集合為空，不能劃分【正確答案】：ABC173.常用的剪枝方法有A、預(yù)剪枝B、隨機(jī)剪枝C、后減枝D、線性剪枝【正確答案】：AC174.Spark共享變量包括A、累加器B、廣播變量C、全局變量D、局部變量【正確答案】：AB175.在分類問(wèn)題中,我們經(jīng)常會(huì)遇到正負(fù)樣本數(shù)據(jù)量不等的情況,比如正樣本為10w條數(shù)據(jù),負(fù)樣本只有1w條數(shù)據(jù),以下最合適的處理方法是A、將負(fù)樣本重復(fù)10次，生成10w樣本量，亂順序參與分類B、直接進(jìn)行分類，可以最大限度利用數(shù)據(jù)C、從10w正樣本中隨機(jī)抽取1w參與分類D、將負(fù)樣本每個(gè)權(quán)重設(shè)置為10，正樣本權(quán)重為1，參與訓(xùn)練過(guò)程【正確答案】：ACD176.神經(jīng)網(wǎng)絡(luò)模型中，提升模型復(fù)雜度的方法有A、增加隱層層數(shù)B、增加隱層神經(jīng)元的數(shù)目C、增加輸入層神經(jīng)元的數(shù)目D、增加輸出層神經(jīng)元的數(shù)目【正確答案】：AB177.下面關(guān)于Hive內(nèi)外表描述錯(cuò)誤的是A、建表時(shí)候如果不顯示聲明表的類型，則建表為外表B、外表使用DROP語(yǔ)句可以刪除的很干凈C、外表由Hive自己管理D、建表時(shí)候如果不顯示聲明表的類型，則建表為內(nèi)表【正確答案】：ABC178.在決策樹(shù)分割結(jié)點(diǎn)的時(shí)候，下列關(guān)于信息增益說(shuō)法正確的是A、純度高的結(jié)點(diǎn)需要更多的信息來(lái)描述它B、信息增益可以用”1比特-熵”獲得C、如果選擇一個(gè)屬性具有許多特征值,那么這個(gè)信息增益是有偏差的D、如果選擇一個(gè)屬性具有許多特征值,對(duì)信息增益是無(wú)影響【正確答案】：BC179.下面對(duì)HBase的描述哪些是正確的A、不是開(kāi)源的B、是面向列的C、是分布式的D、是一種NoSQL數(shù)據(jù)庫(kù)【正確答案】：BCD180.關(guān)于主

人人文庫(kù)> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)-多選練習(xí)試題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔