大數(shù)據(jù)理論考試(習(xí)題卷4)_第1頁
大數(shù)據(jù)理論考試(習(xí)題卷4)_第2頁
大數(shù)據(jù)理論考試(習(xí)題卷4)_第3頁
大數(shù)據(jù)理論考試(習(xí)題卷4)_第4頁
大數(shù)據(jù)理論考試(習(xí)題卷4)_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

試卷科目:大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分:單項選擇題,共64題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.假設(shè)你需要調(diào)整參數(shù)來最小化代價函數(shù)(costfunction),會使用()技術(shù)。A)窮舉搜索B)隨機搜索C)Bayesian優(yōu)化D)以上全是答案:D解析:要使用的學(xué)習(xí)器的性能作為特征于集的評價準(zhǔn)則.[單選題]2.在抽樣估計中,隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大,這一性質(zhì)稱為()A)無偏性B)有效性C)及時性D)一致答案:D解析:一致性是指隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大,對于給定的偏差控制水平,兩者間偏差高于此控制水平,兩者間偏差高于此控制水平的可能性越小。[單選題]3.以下屬于淺層學(xué)習(xí)模型的是()。A)DBNB)CNNC)SVMD)RN答案:C解析:SVM是一種傳統(tǒng)機器學(xué)習(xí)方法,不涉及深度學(xué)習(xí)模型[單選題]4.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革的是()。A)不是隨機樣本,而是全體數(shù)據(jù)B)不是精確性,而是混雜性C)不是描述性分析,而是預(yù)測性分析D)不是因果關(guān)系,而是相關(guān)關(guān)系答案:C解析:Mayer-Sch?nbergerV和CukierK.在其著名論著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革:1)不是隨機樣本,而是全體數(shù)據(jù):大數(shù)據(jù)時代應(yīng)遵循?樣本=總體?的理念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。2)不是精確性,而是混雜性:大數(shù)據(jù)時代應(yīng)承認數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。3)不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時代的思想方式應(yīng)轉(zhuǎn)變--不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。[單選題]5.以下關(guān)于Mahout說法正確的是()。A)存儲框架B)數(shù)據(jù)管理框架C)數(shù)據(jù)可視化專業(yè)工具D)可擴展的機器學(xué)習(xí)算法及其實現(xiàn)答案:D解析:Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序[單選題]6.以下不屬于大數(shù)據(jù)重要意義的是()。A)大數(shù)據(jù)成為推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力B)大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇C)大數(shù)據(jù)成為提升政府治理能力的新途徑D)大數(shù)據(jù)會增加經(jīng)濟發(fā)展的成本答案:D解析:大數(shù)據(jù)可以促進經(jīng)濟的發(fā)展,催生新的業(yè)態(tài),在輔助商業(yè)的決策、降低運營成本、精準(zhǔn)市場的營銷方面都能發(fā)揮作用,進一步提升企業(yè)競爭力。[單選題]7.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種,不屬于大數(shù)據(jù)涌現(xiàn)的形式()。A)價值涌現(xiàn)B)隱私涌現(xiàn)C)物質(zhì)涌現(xiàn)D)隱私涌現(xiàn)答案:C解析:大數(shù)據(jù)并不等同于?小數(shù)據(jù)的集合?。因為,從?小數(shù)據(jù)?到?大數(shù)據(jù)?的過程中出現(xiàn)了?涌現(xiàn)?現(xiàn)象,?涌現(xiàn)?才是大數(shù)據(jù)的本質(zhì)特征。所謂的?涌現(xiàn)(Emergence)?就是?系統(tǒng)大于元素之和,或者說系統(tǒng)在跨越層次時,出現(xiàn)了新的質(zhì)?。大數(shù)據(jù)?涌現(xiàn)?現(xiàn)象的具體表現(xiàn)形式有多種,例如價值涌現(xiàn)、隱私涌現(xiàn)、質(zhì)量涌現(xiàn)和安全涌現(xiàn)等。[單選題]8.下列策略()可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。A)正則化系數(shù)無窮大B)正則化系數(shù)幾乎為0C)選擇合適的正則化參數(shù)D)以上答案都不正確答案:C解析:選擇合適的正則化參數(shù)可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。[單選題]9.變量的不確定性越大,相對應(yīng)信息熵有什么變化()。A)熵變小B)熵變大C)不變D)以上答案都不正答案:B解析:信息熵(informationentropy)是度量樣本集合純度最常用的一種指標(biāo),信息熵越大,變量的不確定性越大。[單選題]10.Hive的數(shù)據(jù)最終存儲在()A)HDFSB)HseC)RDBMSD)Metastor答案:A解析:Hive是基于Hadoop分布式文件系統(tǒng)的,它的數(shù)據(jù)存儲在Hadoop分布式文件系統(tǒng)HDFS中[單選題]11.在抽樣方法中,當(dāng)合適的樣本容量很難確定時,可以使用的抽樣方法是()。A)有放回的簡單隨機抽樣B)無放回的簡單隨機抽樣C)分層抽樣D)漸進抽樣答案:D解析:Value(價值密度低或價值發(fā)現(xiàn)難度大)、Velocity(速度快)。[單選題]12.與生成方法、半監(jiān)督SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)機器利用未標(biāo)記數(shù)據(jù)不同,基于分歧的方法(disagreement-basedmethods)使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的分歧(disagreement)對未標(biāo)記數(shù)據(jù)的利用至關(guān)重要。()是此類方法的重要代表。A)協(xié)同訓(xùn)練B)組合訓(xùn)練C)配合訓(xùn)練D)陪同訓(xùn)練答案:A解析:與生成方法、半監(jiān)督SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)機器利用未標(biāo)記數(shù)據(jù)不同,基于分歧的方法(disagreement-basedmethods)使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的分歧(disagreement)對未標(biāo)記數(shù)據(jù)的利用至關(guān)重要。協(xié)同是此類方法的重要代表,它很好地利用了多視圖的相容互補性。[單選題]13.使用pip工具查看當(dāng)前已安裝的Python擴展庫的完整命令是()。A)pipupdateB)piplistC)pipinstallD)pipshowall答案:B解析:使用pip工具查看當(dāng)前已安裝的Python擴展庫的完整命令piplist。[單選題]14.給定詞匯表如下:{Bob,ok,like,football,car}。則下面句子Botlikesfootball的詞袋模型表示為:A)[11100]B)[10110]C)[10010]D)[01101答案:B解析:統(tǒng)計自然語言處理語言模型P162,命名實體翻譯P585統(tǒng)計文檔中每個詞的數(shù)量,根據(jù)詞表的位置,將各個詞的數(shù)量拼接成一個向量即可。[單選題]15.一般將原始業(yè)務(wù)數(shù)據(jù)分為多個部分,()用于模型的構(gòu)建。A)訓(xùn)練集B)測試集C)驗證集D)全部數(shù)據(jù)答案:A解析:訓(xùn)練集、測試集和驗證集的功能分別為訓(xùn)練模型、測試模型以及模型選擇與超級參數(shù)的調(diào)優(yōu)。[單選題]16.()是一種著名的密度聚類算法,它基于一組鄰域參數(shù)來刻畫樣本的緊密程度。A)DBSCANB)原型聚類C)密度聚類D)層次聚類答案:A解析:DBSCAN是一種著名的密度聚類算法,它基于一組鄰域參數(shù)來刻畫樣本的緊密程度。[單選題]17.下列關(guān)于HDFS的描述正確的是()A)如果NameNode宕機,SecondaryNameNode會接替它使集群繼續(xù)工作B)HDFS集群支持數(shù)據(jù)的隨機讀寫C)NameNode磁盤元數(shù)據(jù)不保存Block的位置信息D)taNode通過長連接與NameNode保持通信答案:C解析:SecondaryNameNode并不是namenode節(jié)點的備份。所以A錯。;存儲在HDFS集群上的數(shù)據(jù)是不支持隨機修改和刪除的,只支持追加,所以B錯;namenode和datanode之間的通信是基于一種心跳機制。該機制不是長連接。是短連接形式。每次發(fā)送一個數(shù)據(jù)包(自身狀態(tài)信息+數(shù)據(jù)塊信息)即可,所以D錯。[單選題]18.數(shù)據(jù)可視化的方法論基礎(chǔ)是()。A)統(tǒng)計圖表B)視覺編碼理論C)圖論D)圖形符號學(xué)答案:B解析:數(shù)據(jù)可視化的方法體系的方法論基礎(chǔ)主要是指?視覺編碼?。?視覺編碼?為其他數(shù)據(jù)可視化方法提供了方法學(xué)基礎(chǔ),奠定了數(shù)據(jù)可視化方法體系的根基。[單選題]19.數(shù)據(jù)管理成熟度模型--DMM模型將一個機構(gòu)的數(shù)據(jù)管理工作抽象成6個關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、()、數(shù)據(jù)質(zhì)量、平臺與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。A)數(shù)據(jù)管理B)數(shù)據(jù)治理C)數(shù)據(jù)策略D)數(shù)據(jù)安全答案:B解析:DMM模型將一個機構(gòu)的數(shù)據(jù)管理工作抽象成6個關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量、平臺與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。[單選題]20.以下哪一個不是spark的特點A)隨處運行B)代碼簡潔C)使用復(fù)雜D)運行快答案:C解析:[單選題]21.請以下代碼的輸出結(jié)果為()。ImportnumpyasnpX=np.array([3,1,2])Y=np.argsort(x)Print(y)A)[312]B)[120]C)[123]D)123答案:B解析:np.argsort()返回從小到大排序的數(shù)組在原數(shù)組中對應(yīng)的下標(biāo)。[單選題]22.MapReduce的Shuffle過程中哪個操作是最后做的()A)溢寫B(tài))分區(qū)C)排序D)合并答案:D解析:MapReduce編程模型分為Mapper和Reducer階段,在mapper和reducer的中間還有一個shuffle階段。shuflle中的執(zhí)行順序是先分區(qū),然后在溢寫之前進行排序,最后溢出的多個磁盤文件會進行合并成一個大文件。[單選題]23.過濾式特征選擇與學(xué)習(xí)器(),包裹式特征選擇與學(xué)習(xí)器()。A)相關(guān)相關(guān)B)相關(guān)不相關(guān)C)不相關(guān)相關(guān)D)不相關(guān)不相關(guān)答案:C解析:過濾式方法先對數(shù)據(jù)集進行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān)。包裹式特征選擇把最終將要使用的學(xué)習(xí)器的性能作為特征于集的評價準(zhǔn)則。[單選題]24.CART決策樹通常采用()剪枝方法。A)REP(錯誤率降低)B)CCP(代價復(fù)雜度)C)PEP(悲觀剪枝)D)預(yù)剪枝答案:B解析:CART決策樹通常采用CCP(代價復(fù)雜度)剪枝方法。[單選題]25.下列判斷錯誤的是()。A)XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)B)JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)C)PPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)D)音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)答案:B解析:JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。[單選題]26.將一副圖像進行分割后,分割出的區(qū)域彼此之間(__)重疊。A)可以B)不可以C)根據(jù)任務(wù)需要確定是否可以D)根據(jù)分割方法確定是否可答案:B解析:圖像分割技術(shù)指將圖像分成互不重疊,具有各自特征的區(qū)域的技術(shù)。[單選題]27.Flink的Checkpoint機制繪制的流應(yīng)用快照不能被保存在以下哪個位置?A)LocalB)HDFSC)TaskManager的內(nèi)存D)Jobmanager的內(nèi)答案:C解析:[單選題]28.常用的圖像去噪方法有()。A)高斯濾波B)中值濾波C)P-M方程去噪D)以上答案都正答案:D解析:圖像去噪方法有很多,如高斯濾波,屬于線性濾波,中值濾波是非線性濾波,還有P-M方程去噪。[單選題]29.下列關(guān)于TF-IDF說法正確的是()A)該值與特征項在文檔中出現(xiàn)的頻率成反比B)該值與特征項在文檔中出現(xiàn)的頻率成正比C)該值與在整個語料庫中出現(xiàn)該特征項的文檔庫成正比D)該值與特征項在文檔中出現(xiàn)的頻率無答案:B解析:TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF意思是詞頻(TermFrequency),IDF意思是逆文本頻率指數(shù)(InverseDocumentFrequency)。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。A中應(yīng)是成正比,C中應(yīng)是成反比,B正確。[單選題]30.關(guān)于長短時神經(jīng)網(wǎng)絡(luò)的敘述中錯誤的是()。A)引用自循環(huán)思想B)產(chǎn)生梯度長時間持續(xù)流動的路徑C)積累的時間尺度不可以因輸入序列而改變D)可應(yīng)用于語音識別和機器翻答案:C解析:LSTM累積的時間尺度也可以因輸入序列而改變,因為時間常數(shù)是模型本身的輸出。[單選題]31.相對于HadoopMapReduce1.0,Spark的特點不包括()。A)速度快B)并發(fā)多C)通用性D)易用性答案:B解析:相較于HadoopMapReduce,Spark的特點為速度快、通用性和易用性。[單選題]32.將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為()。A)編輯器B)編譯器C)虛擬機D)解釋器答案:B解析:將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為編譯器。[單選題]33.解決Master故障的方法是設(shè)置檢查點,當(dāng)Master失效時,從()檢查點開始啟動另一個Master進程。A)第一個B)中間一個C)最后一個D)隨機選擇一個答案:C解析:從最后一個檢查點開始啟動另一Master進程使得因故障產(chǎn)生的影響更小。[單選題]34.Python使用()符號標(biāo)示注釋。A)&B)*C)#D)//答案:C解析:單行注釋使用#號。[單選題]35.循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理什么數(shù)據(jù)()A)節(jié)點數(shù)據(jù)B)序列數(shù)據(jù)C)結(jié)構(gòu)化數(shù)據(jù)D)圖像數(shù)答案:B解析:循環(huán)神經(jīng)網(wǎng)絡(luò)是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),相比一般的神經(jīng)網(wǎng)絡(luò)來說,他能夠處理序列變化的數(shù)據(jù)。比如某個單詞的意思會因為上文提到的內(nèi)容不同而有不同的含義,RNN就能夠很好地解決這類問題。[單選題]36.下面算法屬于局部處理的是()。A)灰度線性變換B)二值化C)傅里葉變換D)中值濾答案:D解析:中值濾波是將每一像素點的灰度值設(shè)置為該點某鄰域窗口內(nèi)的所有像素點灰度值的中值,在圖像處理中常用于保護邊緣信息,是一種局部處理方法。[單選題]37.有三個表,它們的記錄行數(shù)分別是10行、2行和6行,三個表進行交叉連接后,結(jié)果集中共有多少行數(shù)據(jù)A)18B)26C)不確定D)12答案:D解析:[單選題]38.通常,()主要指的是關(guān)系數(shù)據(jù)庫中存儲、計算和管理的數(shù)據(jù)。A)結(jié)構(gòu)化數(shù)據(jù)B)海量數(shù)據(jù)C)半結(jié)構(gòu)化數(shù)據(jù)D)非結(jié)構(gòu)化數(shù)據(jù)答案:A解析:通常,結(jié)構(gòu)化數(shù)據(jù)是指直接可以用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲和管理的數(shù)據(jù)。[單選題]39.TF-IDF中的TF是指()。A)某個詞在文檔中出現(xiàn)的次數(shù)B)文章的總次數(shù)C)某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D)以上答案都不正答案:C解析:TF意思是詞頻(TermFrequency),表示某個詞出現(xiàn)頻率,也就是某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)[單選題]40.下面說法錯誤的是()。A)可以利用統(tǒng)計量對缺失值進行填補B)可以利用K近鄰值對缺失值進行填補C)只要有缺失值就必須把對應(yīng)記錄刪除D)對于缺失值較多的屬性可以考慮刪除答案:C解析:缺失值可以通過刪除、填補等方法進行處理。[單選題]41.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是(__)。A)圖像分類B)目標(biāo)檢測C)圖像語義分割D)以上答案都正答案:D解析:卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類,目標(biāo)檢測及圖像語義分割。[單選題]42.數(shù)據(jù)清洗的方法不包括()。A)缺失值處理B)噪聲數(shù)據(jù)清除C)一致性檢查D)重復(fù)數(shù)據(jù)記錄處理答案:D解析:本題考查信息處理基本概念。剛收集得到的原始數(shù)據(jù)很可能有一部分是臟的,需要清洗才能使用。例如,有些是重復(fù)的數(shù)據(jù),有些是含有矛盾的數(shù)據(jù)(回答的多個問題中發(fā)現(xiàn)有矛盾),有些是填寫錯誤的數(shù)據(jù)(包括格式錯誤、數(shù)字錯誤)。對以上不同的情況要做不同的處理,這屬于數(shù)據(jù)清洗工作。對過大的或者過小的異常數(shù)據(jù)要慎重處理,有可能是錯誤數(shù)據(jù),但也有可能是正確的非常重要的超常數(shù)據(jù)。分析處理異常數(shù)據(jù)需要專業(yè)水平,不屬于數(shù)據(jù)清洗工作。[單選題]43.下列場景中最有可能應(yīng)用人工智能的是()。A)刷臉辦電B)輿情分析C)信通巡檢機器人D)以上答案都正答案:D解析:人工智能應(yīng)用的范圍很廣,包括:計算機科學(xué),金融貿(mào)易,醫(yī)藥,診斷,重工業(yè),運輸,遠程通訊,在線和電話服務(wù),法律,科學(xué)發(fā)現(xiàn),玩具和游戲,音樂等諸多方面,刷臉辦電、輿情分析、信通巡檢機器人當(dāng)然都能很好的應(yīng)用到人工智能,選D。[單選題]44.BP神經(jīng)網(wǎng)絡(luò)具有很的表示能力,它經(jīng)常遭遇(),其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。A)欠擬合B)誤差過大C)誤差過小D)過擬答案:D解析:由于其強大的表示能力,BP神經(jīng)網(wǎng)絡(luò)經(jīng)常遭遇過擬合,其訓(xùn)練誤差持續(xù)降低,但測試誤差卻可能上升。[單選題]45.stats()函數(shù)不能求以下哪個值()。A)均值B)方差C)峰度D)眾數(shù)答案:D解析:stats作為一個函數(shù)可以返回均值,方差,(費舍爾)偏態(tài),(費舍爾)峰度等值,不包括眾數(shù)等值。[單選題]46.table1是根據(jù)dt分區(qū)的數(shù)據(jù)表,dt例如:20220101,下列加載數(shù)據(jù)的SQL正確的是(),要求可重跑、寫入分區(qū)要求當(dāng)前天執(zhí)行時寫入至前一天的分區(qū)A)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtable1PARTITION(dt='{{yyyymmdd}}')B)LOADDATAINPATH'filepath'INTOTABLEtable1PARTITION(dt='{{yyyymmdd}}')C)LOADDATAINPATH'filepath'INTOTABLEtable1PARTITION(dt='{{yyyyMMdd}}')D)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtable1PARTITION(dt='{{yyyyMMdd-1d}}'答案:D解析:[單選題]47.MapReduce編程模型中以下組件哪個是最后執(zhí)行的()A)MapperB)PartitionerC)ReducerD)RecordReader答案:C解析:以上這四個MapReduce編程模型中的執(zhí)行順序是recordReader-->mapper-->partitioner-->reducer[單選題]48.()是Spark中的抽象數(shù)據(jù)模型。A)RDDB)SchedulerC)StorageD)Shuffl答案:A解析:RDD(ResilientDistributedDataset)是Spark的抽象數(shù)據(jù)模型。Scheduler、Storage和Shuffle是Spark的關(guān)鍵技術(shù)。[單選題]49.隨機森林是在()上的一個擴展變體。A)BoostingB)AdaBoostC)RFD)Bagging答案:D解析:隨機森林是在Bagging上的一個擴展變體。[單選題]50.下列算法中,不屬于外推法的是()。A)移動平均法B)回歸分析法C)指數(shù)平滑法D)季節(jié)指數(shù)法答案:B解析:外推法(Extrapolation)是根據(jù)過去和現(xiàn)在的發(fā)展趨勢推斷未來的一類方法的總稱,回歸分析法不屬于外推法。[單選題]51.依托(),結(jié)合應(yīng)用推進數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。A)全業(yè)務(wù)數(shù)據(jù)中心和數(shù)據(jù)中臺B)營銷基礎(chǔ)數(shù)據(jù)平臺和大數(shù)據(jù)平臺C)全業(yè)務(wù)中心和營銷基礎(chǔ)數(shù)據(jù)平臺D)全業(yè)務(wù)數(shù)據(jù)中心和大數(shù)據(jù)平答案:A解析:詳見互聯(lián)數(shù)據(jù)〔2019〕14號國網(wǎng)互聯(lián)網(wǎng)部關(guān)于加強數(shù)據(jù)管理的通知P5[單選題]52.使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A)探索性數(shù)據(jù)分析B)建模描述C)預(yù)測建模D)尋找模式和規(guī)則答案:A解析:[單選題]53.輸入圖片大小為37×37,經(jīng)過第一層卷積(thenumberoffilters=25,kernelsize=5×5,padding=valid,stride=1),與池化層maxpooling(kernelsize=3×3,padding=valid),輸出特征圖大小為?(__)A)10×10B)11×11C)12×12D)13×1答案:B解析:(37-5+1)/3=11。[單選題]54.下列關(guān)于支持向量回歸說法錯誤的是()。A)支持向量回歸是將支持向量的方法應(yīng)用到回歸問題中B)支持向量回歸同樣可以應(yīng)用核函數(shù)求解線性不可分的問題C)同分類算法不同的是,支持向量回歸要最小化一個凹函數(shù)D)支持向量回歸的解是稀疏答案:C解析:支持向量機最大間隔模型是一個凸二次規(guī)劃問題。[單選題]55.在Spark中,()是指RDD的每個分區(qū)都只被子RDD的一個分區(qū)所依賴。A)子分區(qū)B)父分區(qū)C)寬依賴D)窄依賴答案:D解析:窄依賴定義。[單選題]56.下面關(guān)于Hive的SequenceFile格式描述正確的是()A)SequenceFile是二進制文件格式,以list的形式序列化到文件中B)SequenceFile存儲方式:列存儲C)SequenceFile不可分割、壓縮D)SequenceFile優(yōu)勢是文件和Hadoopapi中的MapFile是相互兼容答案:D解析:[單選題]57.在線遷移同步過程中可能因數(shù)據(jù)沖突、數(shù)據(jù)加工、異構(gòu)類型轉(zhuǎn)化、對象缺失等因素導(dǎo)致數(shù)據(jù)異常,用戶可以通過?異常數(shù)據(jù)?頁簽查看,以幫助異常寫入的排查。下列同步過程中,支持異常診斷的是:()。A)Postgres->GaussDBB)Oracle->RDSforMySQLC)Mysql->GaussDB(forMySQL)D)Postgres->GaussD答案:B解析:[單選題]58.scipy庫中用于物理和數(shù)學(xué)常量計算的模塊是()。A)scipy.clusterB)scipy.ioC)scipy.constantsD)scipy.linalg答案:C解析:scipy中,constants是常量計算模塊。[單選題]59.劃分聚類算法是一種簡單的較為基本的重要聚類方法。它的主要思想是通過將數(shù)據(jù)點集分為()個劃分,并使用重復(fù)的控制策略使某個準(zhǔn)則最優(yōu)化,以達到最終的結(jié)果A)DB)KC)ED)F答案:B解析:劃分聚類算法K-Means將數(shù)據(jù)點集分為K個子集。[單選題]60.根據(jù)數(shù)據(jù)管理計劃,設(shè)計或選擇具體方法實行計劃中的工作內(nèi)容,屬于數(shù)據(jù)治理的哪一步()。A)計劃B)執(zhí)行C)檢查D)改進答案:B解析:數(shù)據(jù)治理并不是一次性工作,而是一種循序漸進的過程,主要包含計劃、執(zhí)行、檢查和改進等基本活動,即數(shù)據(jù)治理的PDCA模型,其中:1)計劃(Plan):數(shù)據(jù)管理方針和目標(biāo)的確定,明確組織機構(gòu)的數(shù)據(jù)管理的目的、邊界和工作內(nèi)容。2)執(zhí)行(Do):根據(jù)數(shù)據(jù)管理計劃,設(shè)計或選擇具體的方法、技術(shù)、工具等解決方案,實現(xiàn)計劃中的工作內(nèi)容。3)檢查(Check):定期檢查執(zhí)行效果,進行績效評估,并發(fā)現(xiàn)存在問題與潛在風(fēng)險。4)改進(Action):根據(jù)檢查結(jié)果中發(fā)現(xiàn)的問題與風(fēng)險,進一步改進自己的數(shù)據(jù)管理工作。[單選題]61.采用模板[-11]主要檢測()方向的邊緣。A)水平B)45°C)垂直D)135答案:C解析:[-11]是用右邊的像素減去左邊的像素,當(dāng)左右像素差別大也就是存在垂直方向邊緣時,模板作用在圖像上的值會較大。[單選題]62.輸入圖像已被轉(zhuǎn)換為大小為28×28的矩陣和大小為7×7的步幅為1的核心/濾波器。卷積矩陣的大小是多少()A)22X22B)21X21C)28X28D)7X答案:A解析:28-7+1=22。[單選題]63.統(tǒng)計描述的種類主要包括均值、百分位數(shù)、中位數(shù)、眾數(shù)、全距和方差等,()是指如果將一組數(shù)據(jù)從小到大排序,并計算相應(yīng)的累計百分位,則某一百分位所對應(yīng)數(shù)據(jù)的值.A)均值B)百分位數(shù)C)中位數(shù)D)眾數(shù)答案:B解析:百分位數(shù)是指如果將一組數(shù)據(jù)從小到大排序,并計算相應(yīng)的累計百分位,則某一百分位所對應(yīng)數(shù)據(jù)的值。[單選題]64.Hadoop中,()執(zhí)行文件系統(tǒng)命名空間操作。A)DatanodeB)NamenodeC)JobTrackerD)TaskTracker答案:B解析:NameNode在hdfs這種文件系統(tǒng)中充當(dāng)著master的角色,負責(zé)的功能有很多,比如文件系統(tǒng)目錄管理(命名空間管理)、數(shù)據(jù)塊管理、數(shù)據(jù)節(jié)點管理、租約管理、緩存管理等等。第2部分:多項選擇題,共22題,每題至少兩個正確答案,多選或少選均不得分。[多選題]65.以下屬于自然語言處理范疇的是()。A)情感傾向分析B)評論觀點抽取C)文章分類D)新聞?wù)榇鸢?ABCD解析:自然語言處理涉及的內(nèi)容較多,主要技術(shù)范疇包括、語音合成、語音識別、中文自動、詞性標(biāo)注、句法分析、文本分類、文本挖掘、信息抽取、問答系統(tǒng)、機器翻譯、文本情感分析、自動摘要、文字蘊涵等。[多選題]66.MapReduce中運行程序副本程序的機器為()。A)Map服務(wù)器B)Master服務(wù)器C)Worker服務(wù)器D)Reduce服務(wù)器答案:BC解析:MapReduce中,運行程序副本程序的機器分為兩類:一個Master服務(wù)器和若干個Worker服務(wù)器。[多選題]67.下面不是Python關(guān)鍵字的是()。A)noB)NoneC)nullD)none答案:ACD解析:詳見Python關(guān)鍵字列表。[多選題]68.Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)()。A)文本總結(jié)B)文本分類C)文本機器學(xué)習(xí)D)關(guān)聯(lián)規(guī)答案:ABCD解析:Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)包含文本總結(jié),文本分類,文本機器學(xué)習(xí)和關(guān)聯(lián)規(guī)則等。[多選題]69.已測量級(MeasuredLevel)的主要特點包括()。A)已構(gòu)建了關(guān)鍵過程矩陣。B)已定義了變革管理的正式流程。C)已實現(xiàn)用定量化方式計算關(guān)鍵過程的質(zhì)量和效率。D)關(guān)鍵過程的質(zhì)量和效率的管理涉及整個生命周期答案:ABCD解析:DMM的已測量級(MeasuredLevel):組織機構(gòu)已用?定量化?的方式管理其關(guān)鍵過程的執(zhí)行過程。主要特點如下:1)已構(gòu)建了關(guān)鍵過程矩陣;2)已定義了變革管理的正式流程;3)已實現(xiàn)用定量化方式計算關(guān)鍵過程的質(zhì)量和效率;4)關(guān)鍵過程的質(zhì)量和效率的管理涉及其全生命周[多選題]70.下面導(dǎo)入模塊正確的是()。A)importnumpyB)importnumpyasnpC)frommatplotlibimportpyplotD)frommatplotlibimportpyplotasplt答案:ABCD解析:本題考查模塊導(dǎo)入方法。[多選題]71.以下關(guān)于MapReduce1.0版本說法正確的是()。A)擴展性差B)可靠性差C)資源利用率低D)無法支持多種計算框架答案:ABCD解析:MRv1存在的局限性包括擴展性差、可靠性差、資源利用率低、無法支持多種計算框架[多選題]72.創(chuàng)建API時,需要填寫()信息。A)API名稱B)API目錄C)請求PathD)請求方答案:ABCD解析:[多選題]73.下列關(guān)于集合操作結(jié)果正確的有()。A)name={?d?,?s?}nameadd(?sd?)name值為:{?sd?,?d?,?s?}B)name={?sd?,d?,?s?}nameremove(?s?)name值為:{?sd?,?d?}C)name={?sd?,d?,?s?}nameclear()name值為:{}D)name={?sd?,d?,?s?}nameupdate(?df?)name值為:{?sd?,?d?,?f?,?s?,?j?}答案:ABC解析:D結(jié)果應(yīng)為{'d','f','s','sd'}。[多選題]74.下面對LDA判別分析的思想描述正確的是()。A)同類樣例的投影點盡可能近B)異類樣例的投影點盡可能遠C)同類樣例的投影點盡可能遠D)異類樣例的投影點盡可能答案:AB解析:LDA的思想非常樸素:給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離;在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據(jù)投影點的位置來確定新樣本的類別。[多選題]75.列存表有以下哪些特性:A)insert效率高B)適用于OLAPC)select效率高D)update效率答案:BC解析:[多選題]76.正則表達式可以用非常靈活的方式來處理字符串,在大數(shù)據(jù)計算服務(wù)SQL中的正則函數(shù)支持POSIX格式,以下對正則表達式描述正確的有:()。A)[[:blank::]]匹配空格和TAB制表符B)$匹配行尾C)[[:alnum:]]匹配字母字符和數(shù)字字符D)[[:digint:]]匹配數(shù)字字符答案:ABCD解析:[多選題]77.數(shù)據(jù)可視化中,從數(shù)據(jù)到知識的轉(zhuǎn)換途徑()。A)可視化分析B)自動化建模C)用戶交互D)參數(shù)優(yōu)化答案:AB解析:數(shù)據(jù)可視化中,從數(shù)據(jù)到知識的轉(zhuǎn)換途徑強調(diào)可視化分析與自動化建模之間的相互作用。強調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。強調(diào)數(shù)據(jù)預(yù)處理工作的必要性。強調(diào)人機交互的重要性。[多選題]78.特征工程一般需要做哪些工作()。A)正則化B)標(biāo)準(zhǔn)化C)特征處理D)特征選擇答案:CD解析:特征工程包括特征選擇、特征處理、特征變換、特征衍生等。[多選題]79.最常見的分詞算法可以分為哪三大類()。A)基于字符串匹配的分詞方法B)基于理解的分詞方法C)基于統(tǒng)計的分詞方法D)基于閱讀的分詞方答案:ABC解析:無基于閱讀的分詞方法。[多選題]80.pandas中主要的數(shù)據(jù)結(jié)構(gòu)是()。A)DataB)DataFrameC)FrameD)Series答案:BD解析:pandas的兩種主要數(shù)據(jù)結(jié)構(gòu)為Series和DataFrame。[多選題]81.GTM負責(zé)生成和維護下列哪些信息:A)全局事務(wù)IDB)事務(wù)快照C)時間戳D)執(zhí)行計答案:ABC解析:[多選題]82.下列屬于描述gensim庫的特性的是()。A)訓(xùn)練語料的預(yù)處理B)主題向量的變換C)文檔相似度的計算D)文章切分詞語統(tǒng)計計算答案:ABC解析:gensim不用于分詞。[多選題]83.數(shù)據(jù)挖掘的挖掘方法包括()。A)聚類分析B)回歸分析C)神經(jīng)網(wǎng)絡(luò)D)決策樹算答案:ABCD解析:利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等.分類方法有決策樹、KNN法(K-NearestNeighbor)、SVM法、VSM法、Bayes法、神經(jīng)網(wǎng)絡(luò)等。聚類算法分為:基于密度,基于層次,基于模型,基于網(wǎng)格等。關(guān)聯(lián)規(guī)則算法有:Apriori算法,F(xiàn)P-Growth算法[多選題]84.大數(shù)據(jù)的參考架構(gòu)分為哪三個層次()A)角色B)活動C)邏輯構(gòu)件D)功能組件答案:ABD解析:《GB/T35589-2017信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動的功能組件以及它們之間的關(guān)系[多選題]85.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中正確的是()。A)可用于處理時間序列數(shù)據(jù)B)可用于處理圖像數(shù)據(jù)C)卷積網(wǎng)絡(luò)中使用的卷積運算就是數(shù)學(xué)中的卷積計算D)至少在網(wǎng)絡(luò)的一層中使用卷答案:ABD解析:神經(jīng)網(wǎng)絡(luò)中的卷積:我們通常是指由多個并行卷積組成的運算。(因為單個核只能特區(qū)一種類型的特征,我們usually希望可以在多個位置提取多個特征)輸入也不僅僅是實值的網(wǎng)格,而是由一系列觀測數(shù)據(jù)的向量構(gòu)成的網(wǎng)格。我們有的時候會希望跳出核中的一些位置來降低計算的開銷(相應(yīng)的代價是提取特征沒有先前那么好了)我們就把這個過程看作對全卷積函數(shù)輸出的下采樣(downsampling).如果只是在輸出的每個方向上每間隔s個像素進行采樣,那么可重新定義一個下采樣卷積函數(shù)。我們把s

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論