大數(shù)據(jù)理論考試(習(xí)題卷2)

上傳人：1*** IP屬地：重慶上傳時(shí)間：2024-02-03 格式：DOCX 頁(yè)數(shù)：27 大?。?3.92KB 積分：3.6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩22頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

試卷科目：大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分：?jiǎn)雾?xiàng)選擇題，共64題，每題只有一個(gè)正確答案,多選或少選均不得分。[單選題]1.關(guān)于數(shù)據(jù)分析，下列說(shuō)法正確的是（）。A)描述性分析和預(yù)測(cè)性分析是對(duì)診斷性分析的基礎(chǔ)B)斷性分析分析是對(duì)規(guī)范性分析的進(jìn)一步理解C)預(yù)測(cè)性分析是規(guī)范性分析的基礎(chǔ)D)規(guī)范性分析是數(shù)據(jù)分析的最高階段，可以直接產(chǎn)生產(chǎn)業(yè)價(jià)值答案:C解析:在數(shù)據(jù)分析中，流程分為以下方式：描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析。[單選題]2.如果要清空文件，需要使用的命令是（）。A)close()B)seek(0)C)truncate(0)D)Dwrite('stuff')答案:C解析:truncate（size）方法將截?cái)辔募?，大小為size，size為0即清空[單選題]3.在pandas中，描述統(tǒng)計(jì)信息的是哪個(gè)函數(shù)（）。A)describe()B)desc()C)information()D)info()答案:A解析:describe()用于描述統(tǒng)計(jì)信息。[單選題]4.聲明變量的關(guān)鍵字是A)dimB)decimalC)declareD)dealcr答案:C解析:[單選題]5.通過(guò)HDFS的Shell命令來(lái)操作HDFS,表示刪除文件的命令是A)hdfsdfs-catB)hdtsdrs-rmC)hdfsdfs-mkdirD)hdfsdfs-put答案:B解析:[單選題]6.數(shù)據(jù)庫(kù)中有A表，包括學(xué)生，學(xué)科，成績(jī)?nèi)齻€(gè)字段，如何統(tǒng)計(jì)每個(gè)學(xué)科的最高分A)select學(xué)生,max(成績(jī))fromAgroupby學(xué)生;B)select學(xué)生,max(成績(jī))fromAgroupby學(xué)科;C)select學(xué)生,max(成績(jī))fromAorderby學(xué)生;D)select學(xué)生,max(成績(jī))fromAgroupby成績(jī)答案:B解析:[單選題]7.以下代碼的輸出結(jié)果為（）。Arr=np.array([1，5，3])Arr1=np.array([2，4，6])Print(arr<arr1)A)TRUEB)FALSEC)[Ture，F(xiàn)alse，Ture]D)([Ture，Ture，Ture])答案:C解析:數(shù)組進(jìn)行邏輯運(yùn)算生成邏輯數(shù)組。[單選題]8.（）表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界，即刻畫(huà)了學(xué)習(xí)問(wèn)題本身的難度。A)偏差B)方差C)噪聲D)泛化誤差答案:C解析:泛化誤差可分解為偏差、方差與噪聲之和。偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度，即刻畫(huà)了學(xué)習(xí)算法本身的擬合能力;方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化，即刻畫(huà)了數(shù)據(jù)擾動(dòng)所造成的影響;噪聲則表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的F界，即刻畫(huà)了學(xué)習(xí)問(wèn)題本身的難度。[單選題]9.長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)通過(guò)什么來(lái)緩解梯度消失問(wèn)題（）A)增加網(wǎng)絡(luò)深度B)減少網(wǎng)絡(luò)神經(jīng)元C)使用雙向的網(wǎng)絡(luò)結(jié)構(gòu)D)增加一個(gè)用來(lái)保存長(zhǎng)期狀態(tài)的單答案:D解析:長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)增加一個(gè)用來(lái)保存長(zhǎng)期狀態(tài)的單元來(lái)解決梯度消失問(wèn)題。[單選題]10.Matplotlib的主要功能是（）。A)科學(xué)計(jì)算B)繪圖庫(kù)C)爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)D)機(jī)器學(xué)習(xí)庫(kù)答案:B解析:Matplotlib是一個(gè)Python2D繪圖庫(kù)，它以多種硬拷貝格式和跨平臺(tái)的交互式環(huán)境生成出版物質(zhì)量的圖形。[單選題]11.Hadoop環(huán)境下MapReduce中，（）實(shí)現(xiàn)中間結(jié)果中的重復(fù)key做合并A)OutputKeyClassB)OutputValueClassC)CombinerClassD)ReducerClass答案:C解析:CombinerClass實(shí)現(xiàn)輸出結(jié)果的合并。[單選題]12.下列關(guān)于Hive特性歸納正確的選項(xiàng)是（）(1)為了數(shù)據(jù)倉(cāng)庫(kù)而設(shè)計(jì)(2)迭代式算法無(wú)法表達(dá)(3)數(shù)據(jù)挖掘方面不擅長(zhǎng)(4)分布式拓展能力強(qiáng)，適合高吞吐量、批量、海量數(shù)據(jù)處理(5)不屬于MapReduce框架(6)低容錯(cuò)性A)(1)(2)(3)(4)B)(1)(2)(3)(6)C)(2)(3)(5)(6)D)(1)(2)(3)(4)(6答案:A解析:[單選題]13.下面哪一項(xiàng)用決策樹(shù)法訓(xùn)練大量數(shù)據(jù)集最節(jié)約時(shí)間（）。A)增加樹(shù)的深度B)增加學(xué)習(xí)率C)減少數(shù)的深度D)減少樹(shù)的個(gè)答案:C解析:減少樹(shù)的深度，相當(dāng)于加入了一個(gè)正則化項(xiàng)，可以降低模型復(fù)雜度。[單選題]14.在用戶驗(yàn)證權(quán)限時(shí)，應(yīng)當(dāng)在?服務(wù)列表?中選擇數(shù)據(jù)復(fù)制服務(wù)，進(jìn)入DRS主界面，單擊右上角（），嘗試購(gòu)創(chuàng)建遷移任務(wù)。A)修改遷移任務(wù)B)創(chuàng)建遷移任務(wù)C)查閱權(quán)限D(zhuǎn))刪除遷移任答案:B解析:[單選題]15.假定你使用SVM學(xué)習(xí)數(shù)據(jù)X，數(shù)據(jù)X里面有些點(diǎn)存在錯(cuò)誤。現(xiàn)在如果你使用一個(gè)二次核函數(shù)，多項(xiàng)式階數(shù)為2，使用松弛變量C作為超參之一。當(dāng)你使用較大的C（C趨于無(wú)窮），則（）。A)仍然能正確分類(lèi)數(shù)據(jù)B)不能正確分類(lèi)C)不確定D)以上均不正確答案:A解析:采用更大的C，誤分類(lèi)點(diǎn)的懲罰就更大，因此決策邊界將盡可能完美地分類(lèi)數(shù)據(jù)。[單選題]16.下列哪種算法可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建?(__)1.K-NN最近鄰算法2.線性回歸3.邏輯回歸A)1and2B)2and3C)1,2and3D)Noneoftheabov答案:B解析:KNN是關(guān)于距離的學(xué)習(xí)算法，沒(méi)有任何參數(shù)，所以無(wú)法用神經(jīng)網(wǎng)絡(luò)構(gòu)建。[單選題]17.plt.scatter()函數(shù)中的參數(shù)c表示的含義是（）。A)x軸上的數(shù)值B)y軸上的數(shù)值C)散點(diǎn)圖中的標(biāo)記顏色D)標(biāo)記圖形內(nèi)容的標(biāo)簽文件答案:C解析:c是color關(guān)鍵字，指顏色。[單選題]18.（）在訓(xùn)練的每一輪都要檢查當(dāng)前生成的基學(xué)習(xí)器是否滿足基本條件。A)支持向量機(jī)B)osting算法C)貝葉斯分類(lèi)器D)Bagging算答案:B解析:Boosting算法在訓(xùn)練的每一輪都要檢查當(dāng)前生成的基學(xué)習(xí)器是否滿足基本條件。[單選題]19.下面哪個(gè)操作是窄依賴A)joinB)filterC)groupD)sor答案:B解析:[單選題]20.假設(shè)有列表a=['name','age','sex']和b=['Dong',38,'Male']，請(qǐng)使用一個(gè)語(yǔ)句將這兩個(gè)列表的內(nèi)容轉(zhuǎn)換為字典，并且以列表a中的元素為?鍵?，以列表b中的元素為?值?，這個(gè)語(yǔ)句可以寫(xiě)為（）。A)c=dict(cross(a，b))B)c=dict(zip(a，b))C)c=map(zip(a，b))D)c=b答案:B解析:zip()將可迭代的對(duì)象作為參數(shù)，將對(duì)象中對(duì)應(yīng)的元素打包成一個(gè)個(gè)元組,然后用dict生成器生成字典[單選題]21.大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù)不影響大數(shù)據(jù)的可信數(shù)據(jù)，體現(xiàn)大數(shù)據(jù)?涌現(xiàn)?的（）表現(xiàn)形式。A)價(jià)值涌現(xiàn)B)隱私涌現(xiàn)C)質(zhì)量涌現(xiàn)D)安全涌現(xiàn)答案:C解析:大數(shù)據(jù)的?質(zhì)量涌現(xiàn)?是指大數(shù)據(jù)中的成員小數(shù)據(jù)可能有質(zhì)量問(wèn)題（不可信的數(shù)據(jù)），如缺失、冗余、垃圾數(shù)據(jù)的存在，但不影響大數(shù)據(jù)的質(zhì)量（可信的數(shù)據(jù)）。[單選題]22.彩色圖像增強(qiáng)時(shí)，（）處理可以采用RGB。A)直方圖均衡化B)同態(tài)濾波C)加權(quán)均值濾波D)中值濾答案:C解析:RGB是彩色圖像的三通道像素值，均值濾波進(jìn)行的是線性操作，不影響原本圖像的相對(duì)亮度。[單選題]23.卷積神經(jīng)網(wǎng)絡(luò)可以對(duì)一個(gè)輸入進(jìn)行多種變換（旋轉(zhuǎn)、平移、縮放），這個(gè)表述正確嗎（）A)對(duì)的B)不知道C)看情況D)不答案:D解析:把數(shù)據(jù)傳入神經(jīng)網(wǎng)絡(luò)之前需要做一系列數(shù)據(jù)預(yù)處理（也就是旋轉(zhuǎn)、平移、縮放）工作，神經(jīng)網(wǎng)絡(luò)本身不能完成這些變換。[單選題]24.以下關(guān)于Hive內(nèi)置函數(shù)描述正確的是A)to.date(),獲取當(dāng)前日期B)descfunctionsupper:查看系統(tǒng)自帶的函數(shù)C)substr(),求字符串長(zhǎng)度D)trim():去除空字符串答案:C解析:[單選題]25.視覺(jué)編碼的前提是分析并了解目標(biāo)用戶的（），盡量降低目標(biāo)用戶的（）。A)視覺(jué)感知特征；感知障礙B)視覺(jué)感知特征；感知時(shí)間C)視覺(jué)感知習(xí)慣；感知障礙D)視覺(jué)感知習(xí)慣；感知時(shí)答案:A解析:視覺(jué)編碼的前提是分析并了解目標(biāo)用戶的視覺(jué)感知特征，盡量降低目標(biāo)用戶的感知障礙。[單選題]26.數(shù)據(jù)可視化的本質(zhì)是（）。A)將數(shù)據(jù)轉(zhuǎn)換為知識(shí)B)將知識(shí)轉(zhuǎn)換為數(shù)據(jù)C)將數(shù)據(jù)轉(zhuǎn)換為信息D)將信息轉(zhuǎn)換為智慧答案:A解析:可視化分析學(xué)模型認(rèn)為，數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識(shí)，而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上，并提出從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑有兩個(gè)：一是可視化分析，另一個(gè)是自動(dòng)化建模。[單選題]27.閱讀下面的程序：deffunc():print(x)x=100func()執(zhí)行上述語(yǔ)句后，輸出的結(jié)果為()。A)0B)100C)程序出現(xiàn)異常D)程序編譯失敗答案:C解析:[單選題]28.（）是指通過(guò)訓(xùn)練而得到一種識(shí)別規(guī)則，通過(guò)此識(shí)別規(guī)則可以得到一種特征分類(lèi)，使圖像識(shí)別技術(shù)能夠得到高識(shí)別率。A)預(yù)處理B)特征抽取和選擇C)分類(lèi)器設(shè)計(jì)D)分類(lèi)決答案:C解析:分類(lèi)器設(shè)計(jì)是指通過(guò)訓(xùn)練而得到一張識(shí)別規(guī)則,通過(guò)此識(shí)別規(guī)則可以得到的一種特征分類(lèi),使圖像識(shí)別技術(shù)能夠得到高識(shí)別率。[單選題]29.下面關(guān)于Hive導(dǎo)表寫(xiě)入指定格式表時(shí)的描述正確的是（）A)導(dǎo)表時(shí)，如果建表語(yǔ)句指定為ORC格式的表，那么數(shù)據(jù)會(huì)先存儲(chǔ)為ORC格式B)導(dǎo)表時(shí)，如果建表語(yǔ)句指定為SequenceFile格式的表，那么數(shù)據(jù)會(huì)先存儲(chǔ)為SequenceFile格式C)導(dǎo)表時(shí)，如果建表語(yǔ)句指定為PARQUET格式的表，那么數(shù)據(jù)會(huì)先存儲(chǔ)為PARQUET格式D)導(dǎo)表時(shí)，如果建表語(yǔ)句指定為ORC格式的表，那么數(shù)據(jù)會(huì)先存儲(chǔ)為T(mén)EXTFILE格答案:D解析:[單選題]30.（）的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息，從而既不需要進(jìn)行完全聯(lián)合概率計(jì)算，又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。A)貝葉斯判定準(zhǔn)則B)貝葉斯決策論C)樸素貝葉斯分類(lèi)器D)半樸素貝葉斯分類(lèi)器答案:D解析:半樸素貝葉斯的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息，從而既不需要進(jìn)行完全聯(lián)合概率計(jì)算，又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。[單選題]31.關(guān)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的權(quán)重共享現(xiàn)象，下面哪個(gè)選項(xiàng)是正確的（）A)只有全連接神經(jīng)網(wǎng)絡(luò)會(huì)出現(xiàn)B)只有卷積神經(jīng)網(wǎng)絡(luò)(CNN)會(huì)出現(xiàn)C)只有循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)會(huì)出現(xiàn)D)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)都會(huì)出答案:D解析:卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)產(chǎn)生權(quán)重共享現(xiàn)象。[單選題]32.sklearn.naive_bayes模塊實(shí)現(xiàn)了樸素貝葉斯算法,基于貝葉斯定理和特征獨(dú)立性假設(shè)的監(jiān)督學(xué)習(xí)方法,下列哪個(gè)模型不是樸素貝葉斯分類(lèi)器的模型（）。A)BernoulliNB()B)GaussianN()C)NeighborsNB()D)MultinomialNB()答案:C解析:sklearn的樸素貝葉斯算法，根據(jù)輸入特征的不同類(lèi)型分為BernoulliNB，GaussianNB，MultinomialNB三種。[單選題]33.討論變量之間的關(guān)系，主要有三個(gè)方法：（）、方差分析和回歸分析A)參數(shù)分析B)邏輯分析C)假設(shè)分析D)相關(guān)分析答案:D解析:相關(guān)分析是研究?jī)蓚€(gè)或兩個(gè)以上處于同等地位的隨機(jī)變量間的相關(guān)關(guān)系的統(tǒng)計(jì)分析方法。例如，人的身高和體重之間；空氣中的相對(duì)濕度與降雨量之間的相關(guān)關(guān)系都是相關(guān)分析研究的問(wèn)題。方差分析用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。[單選題]34.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換，正確的是（）。A)json內(nèi)的取值只能有統(tǒng)一格式B)pdf文件在不同平臺(tái)上打開(kāi)顯示不同C)可以通過(guò)python將csv文件轉(zhuǎn)換成Excel格式D)excel存儲(chǔ)數(shù)據(jù)的量無(wú)限制答案:C解析:json內(nèi)的取值可以有多種格式,pdf文件在不同平臺(tái)上打開(kāi)顯示相同，excel存儲(chǔ)數(shù)據(jù)的量在Excel2007及以后版本，一個(gè)工作表最多可有1048576行，16384列。[單選題]35.圖靈獎(jiǎng)獲得者JimGray提出的?科學(xué)研究第四范式?的全稱為（）。A)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)B)以數(shù)據(jù)為中心的科學(xué)發(fā)現(xiàn)C)數(shù)據(jù)驅(qū)動(dòng)型的科學(xué)發(fā)現(xiàn)D)大數(shù)據(jù)科學(xué)研究答案:A解析:2007年，圖靈獎(jiǎng)獲得者JimGray提出了科學(xué)研究的第四范式--數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)（Data-intensiveScientificDiscovery）。在他看來(lái)，人類(lèi)科學(xué)研究活動(dòng)已經(jīng)歷過(guò)三種不同范式的演變過(guò)程（原始社會(huì)的?實(shí)驗(yàn)科學(xué)范式?、以模型和歸納為特征的?理論科學(xué)范式?和以模擬仿真為特征的?計(jì)算科學(xué)范式?），目前正在從?計(jì)算科學(xué)范式?轉(zhuǎn)向?數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式?。[單選題]36.下列說(shuō)法錯(cuò)誤的是（）A)當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí)，梯度下降算法的解一般就是全局最優(yōu)解B)進(jìn)行PCA降維時(shí)，需要計(jì)算協(xié)方差矩C)沿負(fù)梯度的方向一定是最優(yōu)的方向D)利用拉格朗日函數(shù)能解帶約束的優(yōu)化問(wèn)題答案:C解析:沿負(fù)梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。[單選題]37.K-Means算法無(wú)法聚以下哪種形狀的樣本（）A)圓形分布B)螺旋分布C)帶狀分布D)凸多邊形分布答案:B解析:K-Means算法是基于距離測(cè)量的，無(wú)法聚非凸形狀的樣本。[單選題]38.以下聚合函數(shù)求和的是()A)AVGB)SUMC)MAXD)COUN答案:B解析:[單選題]39.大數(shù)據(jù)計(jì)算服務(wù)中，臨時(shí)數(shù)據(jù)表tmp_item是一張非分區(qū)表，開(kāi)發(fā)人員在建表時(shí)指定了lifecycle屬性為30，且使用一次后未再進(jìn)行任何操作和訪問(wèn)。30天后這張表會(huì)（）。A)tmp_item會(huì)被自動(dòng)重命名為tmp_item.deletedB)tmp_item表會(huì)被自動(dòng)刪除掉C)不會(huì)任何變更D)tmp_item中的數(shù)據(jù)會(huì)被清空，表結(jié)構(gòu)仍存在答案:B解析:[單選題]40.基于詞的n元文法模型，其最后的粗分結(jié)果集合大小（）N。A)大于B)大于等于C)小于D)小于等于答案:B解析:基于N-最短路徑分詞算法，其基本思想是根據(jù)詞典，找出字串中所有可能的詞，構(gòu)造詞語(yǔ)切分有向無(wú)環(huán)圖。每個(gè)詞對(duì)應(yīng)圖中的一條有向邊，并賦給相應(yīng)的邊長(zhǎng)(權(quán)值)。然后針對(duì)該切分圖，在起點(diǎn)到終點(diǎn)的所有路徑中，求出長(zhǎng)度值按嚴(yán)格升序排列(任何兩個(gè)不同位置上的值一定不等，下同)依次為第1，第2，…，第i，…，第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長(zhǎng)度相等，那么他們的長(zhǎng)度并列第i，都要列入粗分結(jié)果集，而且不影響其他路徑的排列序號(hào)，最后的粗分結(jié)果集合大小大于或等于N。[單選題]41.a=np.array([1,0,0,3,4,5,0,8]),b=np.nonzero(a)B[0]的值為（）。A)[0,3,4,5,7]B)[1,3,4,5,8]C)[03457]D)[13458]答案:A解析:np.nonzero()函數(shù)是提取數(shù)組中不為0的下標(biāo)，返回的結(jié)果為每一個(gè)位置的下標(biāo)數(shù)組組成的元組。[單選題]42.執(zhí)行下面操作后，list2的值是（）。List1=[4,5,6]List2=list1List1[2]=3A)[4,5,6]B)[4,3,6]C)[4,5,3]D)以上答案都不正確答案:C解析:賦值語(yǔ)句是淺復(fù)制操作，沒(méi)有復(fù)制子對(duì)象，所以原始數(shù)據(jù)改變，子對(duì)象會(huì)改變[單選題]43.對(duì)于數(shù)據(jù)3，3，2，3，6，3，10，3，6，3，2.①這組數(shù)據(jù)的眾數(shù)是3；②這組數(shù)據(jù)的眾數(shù)與中位數(shù)的數(shù)值不相等；③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等；④這組數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等.其中正確結(jié)論的個(gè)數(shù)為（）。A)1B)2C)3D)4答案:B解析:眾數(shù)是指一組中出現(xiàn)次數(shù)最多的數(shù)，中位數(shù)是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)，平均值是各數(shù)值加總求和再除以總的個(gè)數(shù)。此題中眾數(shù)為3，中位數(shù)為3，平均值為4，故①和③正確。[單選題]44.決策樹(shù)模型的規(guī)模應(yīng)當(dāng)是（）。A)越復(fù)雜越好B)越簡(jiǎn)單越好C)適當(dāng)限制其復(fù)雜程度D)盡可能利用所有特答案:C解析:決策樹(shù)模型的規(guī)模復(fù)雜可能產(chǎn)生過(guò)擬合，因此并非越復(fù)雜做好，應(yīng)適當(dāng)限制其復(fù)雜程度。[單選題]45.數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)?三同步?原則不包括以下哪項(xiàng)（）。A)同步規(guī)劃B)同步建設(shè)C)同步使用D)同步運(yùn)維答案:D解析:數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)包含同步規(guī)則、同步建設(shè)、同步適用三項(xiàng)原則。[單選題]46.下列哪個(gè)不屬于常用的文本分類(lèi)的特征選擇算法（）。A)卡方檢驗(yàn)值B)．互信息C)．信息增益D)．主成分分答案:D解析:以文檔頻率為基礎(chǔ)的特征選擇算法有文檔頻次方法（直接依據(jù)文檔頻率大小排序的方法）、卡方檢驗(yàn)、信息增益、互信息等，不包括主成分分析法。[單選題]47.（）是數(shù)據(jù)庫(kù)管理系統(tǒng)運(yùn)行的基本工作單位。A)事務(wù)B)數(shù)據(jù)倉(cāng)庫(kù)C)數(shù)據(jù)單元D)數(shù)據(jù)分析答案:A解析:在關(guān)系數(shù)據(jù)庫(kù)中，事務(wù)(Transaction)是保證數(shù)據(jù)一致性的重要手段，可以幫助用戶維護(hù)數(shù)據(jù)的一致性。事務(wù)是用戶定義的一個(gè)數(shù)據(jù)庫(kù)操作序列，這些操作要么全做，要么全不做，是一個(gè)不可分割的工作單位。[單選題]48.假設(shè)有4個(gè)數(shù)據(jù)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)上有2個(gè)主DN實(shí)例，那么每個(gè)節(jié)點(diǎn)上有幾個(gè)DN實(shí)例：A)4個(gè)B)6個(gè)C)8個(gè)D)12答案:B解析:[單選題]49.把圖像分割問(wèn)題與圖的最小割(mincut)問(wèn)題相關(guān)聯(lián)的方法是（）。A)基于圖論的分割方法B)分水嶺算法C)SLI法D)基于閾值的方答案:A解析:基于圖論的分割方法把圖像分割問(wèn)題與圖的最小割（mincut）問(wèn)題相關(guān)聯(lián)。首先將圖像映射為帶權(quán)無(wú)向圖，圖中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于圖像中的每個(gè)像素，每條邊的權(quán)值表示了相鄰像素之間在灰度、顏色或紋理方面的非負(fù)相似度。[單選題]50.通常來(lái)說(shuō)，下面哪種方法能夠用來(lái)預(yù)測(cè)連續(xù)因變量（）A)線性回歸B)邏輯回歸C)線性回歸和邏輯回歸D)以上答案都不正確答案:A解析:邏輯回歸被用來(lái)處理分類(lèi)問(wèn)題。[單選題]51.下面關(guān)于Hive內(nèi)外表描述正確的是（）A)內(nèi)部表數(shù)據(jù)由HDFS自身管理，外部表數(shù)據(jù)由Hive管理；B)內(nèi)部表數(shù)據(jù)存儲(chǔ)的位置是hive.metastore.warehouse.dir設(shè)置配置（默認(rèn)：/user/hive/warehouse）C)外表存儲(chǔ)必須指定LOCATIOND)內(nèi)外表刪除時(shí)，都會(huì)刪除元數(shù)據(jù)和存答案:B解析:[單選題]52.SQL語(yǔ)句中修改表結(jié)構(gòu)的命令是A)modifytableB)modifystructureC)altertableD)alterstructure答案:C解析:[單選題]53.假設(shè)你有5個(gè)大小為7x7、邊界值為0的卷積核，同時(shí)卷積神經(jīng)網(wǎng)絡(luò)第一層的深度為1。此時(shí)如果你向這一層傳入一個(gè)維度為224x224x3的數(shù)據(jù)，那么神經(jīng)網(wǎng)絡(luò)下一層所接收到的數(shù)據(jù)維度是多少（）A)218x218x5B)217x217x8C)217x217x3D)220x220x答案:A解析:（224-7）/1+1=218，因?yàn)槭?個(gè)卷積核，所以輸出通道肯定是5，選A。[單選題]54.下面（）負(fù)責(zé)MapReduce任務(wù)調(diào)度。A)NameNodeB)JobtrackerC)TaskTrackerD)secondaryNameNode答案:B解析:Jobtracker負(fù)責(zé)MapReduce任務(wù)調(diào)度，TaskTracker負(fù)責(zé)任務(wù)執(zhí)行。[單選題]55.下列不屬于action操作的是（）A)collectB)filterC)reduceD)count答案:B解析:Action常用的函數(shù)為reduce、collect、count、take、first、foreach等[單選題]56.（）是指給目標(biāo)用戶產(chǎn)生的錯(cuò)誤或不準(zhǔn)確的視覺(jué)感知，而這種感知與數(shù)據(jù)可視化者的意圖或數(shù)據(jù)本身的真實(shí)情況不一致。A)視覺(jué)假象B)視覺(jué)認(rèn)知C)視覺(jué)感知D)數(shù)據(jù)可視答案:A解析:視覺(jué)假象（VisualIllusion）是數(shù)據(jù)可視化工作中不可忽略的特殊問(wèn)題。視覺(jué)假象是指給目標(biāo)用戶產(chǎn)生的錯(cuò)誤或不準(zhǔn)確的視覺(jué)感知，而這種感知與數(shù)據(jù)可視化者的意圖或數(shù)據(jù)本身的真實(shí)情況不一致。視[單選題]57.ApacheSqoop主要設(shè)計(jì)目的是（）。A)數(shù)據(jù)清洗B)數(shù)據(jù)轉(zhuǎn)化C)數(shù)據(jù)ETLD)數(shù)據(jù)可視化答案:C解析:在Hadoop與傳統(tǒng)的數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)的ETL操作。[單選題]58.Kafka通過(guò)（）避免任務(wù)重復(fù)執(zhí)行。A)實(shí)現(xiàn)記錄唯一鍵約束B(niǎo))對(duì)每個(gè)Producer分配唯一IDC)通過(guò)事務(wù)檢查是否重復(fù)執(zhí)行D)利用Redis的原子性去實(shí)答案:B解析:[單選題]59.絕對(duì)多數(shù)投票法的基本思想是（）。A)對(duì)于若干和弱學(xué)習(xí)器的輸出進(jìn)行平均得到最終的預(yù)測(cè)輸出B)少數(shù)服從多數(shù)，數(shù)量最多的類(lèi)別為最終的分類(lèi)類(lèi)別C)不光要求獲得最高票，還要求票過(guò)半數(shù)D)將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入，將訓(xùn)練集的輸出作為輸出，重新訓(xùn)練一個(gè)學(xué)習(xí)器來(lái)得到最終結(jié)果答案:C解析:絕對(duì)多數(shù)投票法若某標(biāo)記得票過(guò)半數(shù)，則預(yù)測(cè)為該標(biāo)記;否則拒絕預(yù)測(cè)。[單選題]60.下列不是數(shù)據(jù)科學(xué)項(xiàng)目的主要角色（）。A)項(xiàng)目發(fā)起人B)項(xiàng)目經(jīng)理C)操作人員D)驗(yàn)收人員答案:D解析:數(shù)據(jù)科學(xué)項(xiàng)目涉及的主要角色有：項(xiàng)目發(fā)起人（ProjectSponsor）、項(xiàng)目經(jīng)理（ProjectManager）、客戶（Client）、數(shù)據(jù)科學(xué)家（DataScientist）、數(shù)據(jù)工程師（DataEngineer）、操作員（Operations）等[單選題]61.假如我們使用Lasso回歸來(lái)擬合數(shù)據(jù)集，該數(shù)據(jù)集輸入特征有100個(gè)（X1，X2，...，X100）?，F(xiàn)在，我們把其中一個(gè)特征值擴(kuò)大10倍（例如是特征X1），然后用相同的正則化參數(shù)對(duì)Lasso回歸進(jìn)行修正。那么，下列說(shuō)法正確的是（）A)特征X1很可能被排除在模型之外B)特征X1很可能還包含在模型之中C)無(wú)法確定特征X1是否被舍D)以上答案都不正答案:B解析:將特征X1數(shù)值擴(kuò)大10倍，它對(duì)應(yīng)的回歸系數(shù)將相應(yīng)會(huì)減小，但不為0，仍然滿足β的正則化約束，因此可能還包含在模型之中。[單選題]62.下列關(guān)于支持向量的說(shuō)法正確的是（）。A)到分類(lèi)超平面的距離最近的且滿足一定條件的幾個(gè)訓(xùn)練樣本點(diǎn)是支持向量B)訓(xùn)練集中的所有樣本點(diǎn)都是支持向量C)每一類(lèi)樣本集中都分別只有一個(gè)支持向量D)支持向量的個(gè)數(shù)越多越答案:A解析:在支持向量機(jī)中，距離超平面最近的且滿足一定條件的幾個(gè)訓(xùn)練樣本點(diǎn)被稱為支持向量。一般情況下，支持向量的個(gè)數(shù)等于訓(xùn)練樣本數(shù)目，并不是越多越好。[單選題]63.Base原則的含義不包括（）A)基本可用B)柔性狀態(tài)C)最終一致D)基礎(chǔ)條答案:D解析:BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventuallyConsistent(最終一致)的縮寫(xiě)。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用，并不追求全天候服務(wù)；SoftState是指不要求一直保持強(qiáng)一致?tīng)顟B(tài)；EventuallyConsistent是指最終數(shù)據(jù)一致，而不是嚴(yán)格的實(shí)時(shí)一致，系統(tǒng)在某一個(gè)時(shí)刻后達(dá)到一致性要求即可。[單選題]64.下列哪一種方法的系數(shù)沒(méi)有封閉形式（closed-form）的解（）。A)Ridge回歸B)LassoC)Ridge回歸和LassoD)以上答案都不正確答案:B解析:Ridge回歸是一般的線性回歸再加上L2正則項(xiàng)，它具有封閉形式的解，可以基于最小二乘法求解。第2部分：多項(xiàng)選擇題，共22題，每題至少兩個(gè)正確答案,多選或少選均不得分。[多選題]65.語(yǔ)音識(shí)別的方法包括（）。A)聲道模型方法B)模板匹配的方法C)利用仍神經(jīng)網(wǎng)絡(luò)的方法D)語(yǔ)音知識(shí)方答案:ABCD解析:一般來(lái)說(shuō),語(yǔ)音識(shí)別的方法有：基于聲道模型和語(yǔ)音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。[多選題]66.云上DWS部署架構(gòu)中，BMS裸金屬方式部署相較于ECS虛機(jī)方式的優(yōu)勢(shì)有哪些：A)BMS部署具有更好的IO性能B)BMS部署方式具備更好的安全性C)BMC部署方式更易維護(hù)D)集群發(fā)生DN主備切換不影響B(tài)MS集群性答案:ABC解析:[多選題]67.大數(shù)據(jù)偏見(jiàn)包括（）A)數(shù)據(jù)源的選擇偏見(jiàn)B)算法與模型偏見(jiàn)C)結(jié)果解讀方法的偏見(jiàn)D)數(shù)據(jù)呈現(xiàn)方式的偏見(jiàn)答案:ABCD解析:大數(shù)據(jù)偏見(jiàn)是數(shù)據(jù)科學(xué)項(xiàng)目中必須關(guān)注和加以避免的問(wèn)題，上述四個(gè)活動(dòng)中均可能出現(xiàn)偏見(jiàn)。[多選題]68.下列方法中，可以用于特征降維的方法包括（）。A)主成分分析PCAB)線性判別分析LDAC)深度學(xué)習(xí)SparseAutoEncoderD)矩陣奇異值分解SVD答案:ABD解析:主成分分析PCA、線性判別分析LDA、矩陣奇異值分解SVD均可用于特征降維。[多選題]69.下列關(guān)于PCA說(shuō)法正確的是（）。A)在使用PC之前，我們必須標(biāo)準(zhǔn)化數(shù)據(jù)B)應(yīng)該選擇具有最大方差的主成分C)應(yīng)該選擇具有最小方差的主成分D)可以使用PCA在低維空間中可視化數(shù)答案:ABD解析:PCA對(duì)數(shù)據(jù)中變量的尺度非常敏感，因此需要對(duì)各個(gè)變量進(jìn)行標(biāo)準(zhǔn)化。方差越大，說(shuō)明在該特征上分布越廣泛，說(shuō)明該特征越有用，影響越大。PCA有時(shí)在較低維度上繪制數(shù)據(jù)是非常有用，可以提取前2個(gè)主要組成部分，在二維平面上使用散點(diǎn)圖可視化數(shù)據(jù)。[多選題]70.下列關(guān)于詞袋模型說(shuō)法正確的是（）。A)詞袋模型可以忽略每個(gè)詞出現(xiàn)的順序B)詞袋模型不可以忽略每個(gè)詞出現(xiàn)的順序C)TensorFlow支持詞袋模型D)詞袋模型可以表出單詞之間的前后關(guān)答案:AC解析:詞袋模型的缺點(diǎn)之一就是不考慮詞語(yǔ)的順序關(guān)系，因此AC錯(cuò)誤。[多選題]71.以下哪些濾波器能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點(diǎn)的系數(shù)降至0附近（）。A)同態(tài)濾波B)高斯濾波C)巴特沃斯濾波D)中值濾答案:BC解析:圖像處理基礎(chǔ)知識(shí)。[多選題]72.以下屬于數(shù)據(jù)挖掘與分析工具的有（）。A)TableauB)PythonC)SPSSD)Altey答案:ABCD解析:常用的數(shù)據(jù)挖掘工具有：RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有：Tableau、Alteyx、R＆Python語(yǔ)言、FineReport、PowerBI。[多選題]73.下列對(duì)字符串函數(shù)或方法說(shuō)法正確的有（）。A)istitle()如果字符串是標(biāo)題化的(見(jiàn)title())則返回True，否則返回FalseB)max(str)返回字符串str中最大的字母。C)replace(old,new,max)把將字符串中的str1替換成str2,如果max指定，則替換不超過(guò)max次D)upper()轉(zhuǎn)換字符串中所有大寫(xiě)字符為小寫(xiě)答案:ABC解析:upper()轉(zhuǎn)換字符串中所有小寫(xiě)字符為大寫(xiě)。[多選題]74.特征選擇在子集生成與搜索方面引入了（）人工智能搜索和評(píng)價(jià)方法。A)分支界限法B)浮動(dòng)搜索法C)信息熵D)AIC答案:ABCD解析:特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術(shù)，如分支界限法，浮動(dòng)搜索法等；在子集評(píng)價(jià)方法則采用了很多源于信息論的準(zhǔn)則，如信息熵、AIC等。[多選題]75.MaxcomputeSQL支持的Join操作類(lèi)型包括:（）。A)INNERB)LEFTC)FULLD)RIGHT答案:ABCD解析:[多選題]76.Spark支持的計(jì)算模型有（）。A)批處理；B)實(shí)時(shí)計(jì)算；C)機(jī)器學(xué)習(xí)模型；D)交互式查詢；答案:ABCD解析:Spark支持的計(jì)算模型有批處理、實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)模型、交互式查詢。[多選題]77.請(qǐng)問(wèn)下面哪些是離散型變量（）。A)示波器B)心電圖及腦動(dòng)電圖掃描器對(duì)腦電波的測(cè)量C)過(guò)去數(shù)月的總銷(xiāo)售額D)公司每年的紅利答案:CD解析:在統(tǒng)計(jì)學(xué)中，變量按其數(shù)值表現(xiàn)是否連續(xù)，分為連續(xù)變量和離散變量。離散變量指變量值可以按一定順序一一列舉，通常以整數(shù)位取值的變量。如職工人數(shù)、工廠數(shù)、機(jī)器臺(tái)數(shù)等。有些性質(zhì)上屬于連續(xù)變量的現(xiàn)象也按整數(shù)取值，即可以把它們當(dāng)做離散變量來(lái)看待。例如年齡、評(píng)定成績(jī)等雖屬連續(xù)變量，但一般按整數(shù)計(jì)算，按離散變量來(lái)處理。離散變量的數(shù)值用計(jì)數(shù)的方法取得。[多選題]78.字符串的格式化可以使用（）。A)%B)formatC)inputD)+答案:AB解析:input輸入，+加法運(yùn)算符。[多選題]79.以下網(wǎng)絡(luò)結(jié)構(gòu)中可以應(yīng)用于圖像識(shí)別任務(wù)的是（）。A)LeNet-5B)AlexNetC)ND)VGG-ne答案:ABCD解析:四者均為經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)。[多選題]80.31、以下哪些選項(xiàng)是Kafka的特點(diǎn)?A)支持消息隨機(jī)讀取B)高吞吐C)分布式D)消息持久化答案:BCD解析:[多選題]81.哪些是離線批處理的特點(diǎn)?A)處理數(shù)據(jù)量巨大，PB級(jí)B)處理時(shí)間要求高C)容易產(chǎn)生資源搶占D)多個(gè)作業(yè)調(diào)度復(fù)答案:ACD解析:[多選題]82.以下關(guān)于降維方法，敘述正確的是（）。A)主成分分析是一種常用的非線性降維方法B)核化線性降維是一種常用的線性降維方法C)流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D)度量學(xué)習(xí)繞過(guò)降維的過(guò)程，將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對(duì)距離度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)答案:CD解析:本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問(wèn)題時(shí),效果不太理想。核化線性降維是一種非的線性降維方法。[多選題]83.可作為決策樹(shù)選擇劃分屬性的參數(shù)是（）。A)信息增益B)增益率C)基尼指數(shù)D)密度函答案:ABC解析:特征選擇的準(zhǔn)則主要有三種：信息增益，信息增益率，基尼指數(shù)。[多選題]84.數(shù)據(jù)可視化涉及到（）等多個(gè)領(lǐng)域，成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問(wèn)題的綜合技術(shù)。A)計(jì)算機(jī)圖形學(xué)B)圖像處理C)計(jì)算機(jī)視覺(jué)D)計(jì)算機(jī)輔助設(shè)計(jì)答案:ABCD解析:數(shù)據(jù)可視化涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)輔助設(shè)計(jì)等多個(gè)領(lǐng)域，成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問(wèn)題的綜合技術(shù)

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)理論考試(習(xí)題卷2)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)理論考試(習(xí)題卷2)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔