版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第頁大數(shù)據(jù)題庫-綜合練習(xí)試題1.()是一個組織機構(gòu)的數(shù)據(jù)管理的愿景、目標以及功能藍圖的統(tǒng)一管理。A、數(shù)據(jù)治理B、數(shù)據(jù)戰(zhàn)略C、數(shù)據(jù)加工D、數(shù)據(jù)能力【正確答案】:B解析:
數(shù)據(jù)戰(zhàn)略(DataStrategy)是一個機構(gòu)的數(shù)據(jù)管理的愿景、目標以及功能藍圖的統(tǒng)一管理。從DMM模型可看出,數(shù)據(jù)戰(zhàn)略是組織機構(gòu)的數(shù)據(jù)管理工作的重要前提。2.HBase依靠()提供強大的計算能力。A、ZooKeeperB、ChubbyC、RPCD、MapReduce【正確答案】:D解析:
Chubby是分布式協(xié)調(diào)系統(tǒng),類似于ZooKecper。RPC(RemoteProcedureCall)是遠程過程調(diào)用,它是一種通過網(wǎng)絡(luò)從遠程計算機程序上請求服務(wù),而不需要了解底層網(wǎng)絡(luò)技術(shù)的協(xié)議。HBase依靠MapReduce提供強大的計算能力。3.已知一組數(shù)據(jù)的協(xié)方差矩陣,下列關(guān)于主分量說法的錯誤的是()。A、主分量分析的最佳準則是對一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對角矩陣C、主分量分析就是K-L變換D、主分量是通過求協(xié)方差矩陣的特征值得到【正確答案】:C解析:
K-L變換與PCA變換是不同的概念,PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當(dāng)K-L變換矩陣為協(xié)方差矩陣時,等同于PCA。4.在其他條件不變的前提下,()容易引起機器學(xué)習(xí)中的過擬合問題。A、增加訓(xùn)練集量B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點數(shù)C、刪除稀疏的特征D、SVM算法中使用高斯核/RBF核代替線性核【正確答案】:D解析:
神經(jīng)網(wǎng)絡(luò)減少隱藏層節(jié)點,就是在減少參數(shù),只會將訓(xùn)練誤差變高,不會導(dǎo)致過擬合。D選項中SVM高斯核函數(shù)比線性核函數(shù)模型更復(fù)雜,容易過擬合。5.下列不屬于Transformation操作的是()。A、mapB、filterC、sampleD、count【正確答案】:D解析:
Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。6.基于統(tǒng)計的分詞方法為()A、正向最大匹配法B、逆向最大匹配法C、最少切分法D、條件隨機場【正確答案】:D解析:
第一類是基于語法和規(guī)則的分詞法。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來進行詞性標注,以解決分詞歧義現(xiàn)象。因為現(xiàn)有的語法知識、句法規(guī)則十分籠統(tǒng)、復(fù)雜,基于語法和規(guī)則的分詞法所能達到的精確度遠遠還不能令人滿意,目前這種分詞系統(tǒng)還處在試驗階段。
第二類是機械式分詞法(即基于詞典)。機械分詞的原理是將文檔中的字符串與詞典中的詞條進行逐一匹配,如果詞典中找到某個字符串,則匹配成功,可以切分,否則不予切分?;谠~典的機械分詞法,實現(xiàn)簡單,實用性強,但機械分詞法的最大的缺點就是詞典的完備性不能得到保證。據(jù)統(tǒng)計,用一個含有70000個詞的詞典去切分含有15000個詞的語料庫,仍然有30%以上的詞條沒有被分出來,也就是說有4500個詞沒有在詞典中登錄。
第三類是基于統(tǒng)計的方法。基于統(tǒng)計的分詞法的基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計頻率來決定其是否構(gòu)成詞。詞是字的組合,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映它們成為詞的可信度。
最大匹配是指以詞典為依據(jù),取詞典中最長單詞為第一個次取字數(shù)量的掃描串,在詞典中進行掃描,這是基于詞典分詞的方法。最大匹配法有正向最大匹配法、逆向最大匹配法、最少切分法。其中,最少切分法使每一句中切出的詞數(shù)最小,這也是基于詞典分詞的方法。7.表示數(shù)據(jù)分布是否為對稱性的統(tǒng)計量是()。A、方差B、中位數(shù)C、偏態(tài)D、峰態(tài)【正確答案】:C解析:
偏態(tài)(Skewness)描述數(shù)據(jù)分布的對稱性,當(dāng)偏態(tài)系數(shù)等于0時,對應(yīng)數(shù)據(jù)的分布為對稱;否則分布為非對稱。峰態(tài)(Kurtosis)描述數(shù)據(jù)分布的平峰或尖峰程度,當(dāng)峰態(tài)系數(shù)等于0時,數(shù)據(jù)分布為標準正態(tài)分布;否則比正態(tài)分布更平或更尖。8.()是窄依賴操作。A、joinB、filterC、groupD、sort【正確答案】:B解析:
spark中常見的窄依賴操作包括map、filer、union、sample等,寬依賴的操作包括reduceByKey、groupByKey、join等。9.圖像分割方法主要可以分為哪幾類()A、基于閾值的分割方法B、基于區(qū)域的分割方法C、基于邊緣的分割方法D、以上答案都正確【正確答案】:D解析:
現(xiàn)有的圖像分割方法主要分以下幾類:基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。10.下列關(guān)于基本元數(shù)據(jù)描述正確的是()。A、基本元數(shù)據(jù)是與數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理、分析處理以及管理方面的信息【正確答案】:D解析:
基本元數(shù)據(jù)(Metadata)又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)。11.假如使用一個較復(fù)雜的回歸模型來擬合樣本數(shù)據(jù),使用Ridge回歸,調(diào)試正則化參數(shù)入,來降低模型復(fù)雜度。在入較大時,下列關(guān)于偏差(bias)和方差(variance)關(guān)系的說法正確的是()。A、偏差減小,方差減小B、偏差減小,方差增大C、偏差增大,方差減小D、偏差增大,方差增大【正確答案】:C解析:
入較小,偏差減小,方差增大,容易發(fā)生過擬合;入較大,偏差增大,方差減小,容易發(fā)生欠擬合。12.Spark比MapReduce快的原因不包括()。A、Spark基于內(nèi)存迭代,而MapReduce基于磁盤迭代B、DAG計算模型比MapReduce更有效率C、Spark是粗粒度的資源調(diào)度,而MapReduce是細粒度的資源調(diào)度D、Spark支持交互式處理,MapReduce善于處理流計算【正確答案】:D解析:
A、B、C是Spark比MapReduce快的原因。MapReduce不善于處理除批處理算模式之外的其他計算模式,如流計算、交互式計算和圖計算等。13.以下關(guān)于圖像識別任務(wù)的敘述,錯誤的是()A、目標在于檢測出圖像中的對象是什么B、在識別前往往需要對圖像進行預(yù)處理CNN是一種常用的圖像識別網(wǎng)絡(luò)D、圖像的采集和傳輸方式對于圖像識別結(jié)果沒有影響【正確答案】:D14.下列關(guān)于多層前饋神經(jīng)網(wǎng)絡(luò)的描述錯誤的是()A、輸出層與輸入層之間包含隱含層,且隱含層和輸出層都擁有激活函數(shù)的神經(jīng)元B、神經(jīng)元之間存在同層連接以及跨層連接C、輸入層僅僅是接收輸入,不進行函數(shù)處理D、每層神經(jīng)元上一層與下一層全互連【正確答案】:B解析:
解析:多層前饋神經(jīng)網(wǎng)絡(luò)的特點:①每層神經(jīng)元與下一層神經(jīng)元之間完全互連;②神經(jīng)元之間不存在同層連接;③神經(jīng)元之間不存在跨層連接。15.下列描述中不屬于規(guī)整數(shù)據(jù)(TidyData)三個基本原則的是()。A、每一類觀察單元構(gòu)成一個關(guān)系(表)B、每個觀察占且僅占一行C、每個變量占且僅占一列D、每個觀察占且僅占一個關(guān)系(表)【正確答案】:D解析:
tidyData原則為每列代表一個單獨變量、每行代表單個觀察值、每種觀察形成一個表格。16.數(shù)據(jù)探索是指針對目標可變、持續(xù)、多角度的搜索或分析任務(wù),下列不是其搜索過程特點的是()。A、有選擇B、有策略C、有目標D、反復(fù)進行的【正確答案】:C解析:
數(shù)據(jù)探索是指針對目標可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過程是有選擇、有策略和反復(fù)進行的。17.下列關(guān)于數(shù)據(jù)交易市場的說法錯誤的是()。A、數(shù)據(jù)交易市場是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展到一定程度的產(chǎn)物B、商業(yè)化的數(shù)據(jù)交易活動催生了多方參與的第三方數(shù)據(jù)交易市場C、數(shù)據(jù)交易市場通過生產(chǎn)、研發(fā)和分析數(shù)據(jù),為數(shù)據(jù)交易提供幫助D、數(shù)據(jù)交易市場是大數(shù)據(jù)資源化的必然產(chǎn)物【正確答案】:C解析:
數(shù)據(jù)交易市場不生產(chǎn)數(shù)據(jù)。18.線性模型中的權(quán)重w可以看做各個屬性x的()。A、正則化系數(shù)B、對最終決策結(jié)果的貢獻度C、高維映射D、取值【正確答案】:B19.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的(不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機、硬盤粉碎機等。A、暫時隔離B、暫時刪除C、永久刪除D、不做處理【正確答案】:C解析:
數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的永刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機、硬盤粉碎機等。20.TF-IDF中的TF是指()A、某個詞在文檔中出現(xiàn)的次數(shù)B、文章的總次數(shù)C、某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)D、以上答案都不正確【正確答案】:C解析:
TF是詞頻(TermFrequency),表示某個詞出現(xiàn)的頻率,也就是某個詞在文檔中出現(xiàn)的次數(shù)/文章的總次數(shù)。21.()是交叉驗證法的一種特例。A、自助法B、留一法C、交叉驗證法D、錯誤率分析【正確答案】:B22.核矩陣是()的。A、沒有規(guī)律B、半正定C、正定D、樣本矩陣【正確答案】:B解析:
只要一個對稱函數(shù)所對應(yīng)的核矩陣半正定,它就能作為核函數(shù)使用。23.下列關(guān)于欠擬合(under-fitting)的說法正確的是()。A、訓(xùn)練誤差較大,測試誤差較小B、訓(xùn)練誤差較小,測試誤差較大C、訓(xùn)練誤差較大,測試誤差較大D、訓(xùn)練誤差較小,測試誤差較小【正確答案】:C解析:
欠擬合是指對訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好,因此訓(xùn)練誤差和測試誤差均較大。24.SparkJob默認的調(diào)度模式是()。A、FIFOB、FAIRC、無D、運行時指定【正確答案】:A解析:
默認情況下Spark的調(diào)度模式是FIFO(先進先出)。25.多分類圖像識別任務(wù)常采用()作為輸出的編碼方式A、二進制編碼B、one-hot編碼C、霍夫曼編碼D、曼切斯特編碼【正確答案】:B解析:
分類任務(wù)一般用獨熱(one-hot)編碼表示最終輸出,也就是00000010000這樣的,碼段中1出現(xiàn)的位置就是預(yù)測的類別。26.可用信息增益來進行決策樹的()。A、樹高B、葉子結(jié)點數(shù)C、總結(jié)點數(shù)D、劃分屬性選擇【正確答案】:D27.長短時記憶網(wǎng)絡(luò)屬于一種()。A、全連接神經(jīng)網(wǎng)絡(luò)B、門控RNNC、BP神經(jīng)網(wǎng)絡(luò)D、雙向RNN【正確答案】:B解析:
解析:長短時記憶網(wǎng)絡(luò)(LSTM)是一種改進后的RNN,其增加了三個門用來控制信息傳遞和最后的結(jié)果計算,三個門分別為遺忘門、輸入門、輸出門。28.KNN近鄰算法在()的情況下效果較好。A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團狀分布D、樣本呈鏈狀分布【正確答案】:B解析:
KNN算法主要依靠的是周圍的點,因此如果樣本過多,則難以區(qū)分,典型性好的容易區(qū)分。樣本都是呈團狀分布,KNN就發(fā)揮不出其求近鄰的優(yōu)勢了,整體樣本應(yīng)該具有典型性好,樣本較少,比較適宜。29.有研究發(fā)現(xiàn)“頁面的顯示速度每延遲1s,網(wǎng)站訪問量就會降低11%,從而導(dǎo)致營業(yè)額或者注冊量減少7%,顧客滿意度下降16%”。該項研究表明了在數(shù)據(jù)產(chǎn)品開發(fā)中更加重要的是()。A、查全率B、用戶體驗C、數(shù)據(jù)可視化D、查準率【正確答案】:B解析:
在大數(shù)據(jù)時代,用戶體驗更加重要。30.情感信息抽取不包括以下哪些方法()A、基于命名實體識別的抽取方法B、基于重復(fù)段落的識別方法C、基于語義角色標注的抽取方法D、基于監(jiān)督學(xué)習(xí)抽取的學(xué)習(xí)方法【正確答案】:B解析:
方法可以分為如下幾種類型:①基于命名實體識別的抽取方法:一般情況下,評論中的觀點持有者是由命名實體(如人名或機構(gòu)名)組成的,因此,可以借助于命名實體識別技術(shù)來獲取觀點持有者;②基于語義角色標注的抽取方法:該方法利用語義角色標注的結(jié)果,尋找謂詞的施事者作為候選的觀點持有者和基于監(jiān)督學(xué)習(xí)的抽取方法。31.()算法要求基學(xué)習(xí)器能對特定的數(shù)據(jù)分布進行學(xué)習(xí),在訓(xùn)練過程的每一輪中,根據(jù)樣本分布為每個訓(xùn)練樣本重新賦予一個權(quán)重。A、BoostingB、支持向量機C、貝葉斯分類器D、神經(jīng)網(wǎng)絡(luò)【正確答案】:A32.假設(shè)有5個大小為7x7、邊界值為0的卷積核,同時卷積神經(jīng)網(wǎng)絡(luò)第一層的深度為1。此時如果向這一層傳入一個維度為224x224x3的數(shù)據(jù),那么神經(jīng)網(wǎng)絡(luò)下一層所接收到的數(shù)據(jù)維度是()。A、218x218x218x5B、217217x217x8C、217x217x3D、220x220x5【正確答案】:A解析:
解析:(224-7)/1+1=218,因為是5個卷積核,所以輸出通道肯定是5,選A。224-7)/1+1=21833.在邏輯回歸輸出與目標對比的情況下,下列評估指標不適用的是()。AUC-ROCB、準確度C、LoglossD、均方誤差【正確答案】:D解析:
LogisticRegression是一個分類算法,所以它的輸出不能是實時值,所以均方誤差不能用于評估它。34.()用于對RDD中的數(shù)據(jù)進行計算。A、分區(qū)B、算子C、日志D、數(shù)據(jù)塊【正確答案】:B解析:
算子是Spark中定義的函數(shù),用于對RDD中的數(shù)據(jù)進行操作、轉(zhuǎn)換和計算。35.在MapReduce中,下列描述錯誤的是()。A、經(jīng)過map()函數(shù)的計算可以得出一個中間數(shù)據(jù)集B、map()函數(shù)是確定的,用戶不可自定義C、對map()函數(shù)的返回值,進行--定的處理后才進入下個階段D、map()函數(shù)的輸入輸出都是同一數(shù)據(jù)結(jié)構(gòu)【正確答案】:B解析:
map()函數(shù)是由用戶所自定義的。36.信息增益、增益率分別對可取值數(shù)目()的屬性有所偏好。A、較高,較高B、較高,較低C、較低,較高D、較低,較低【正確答案】:B37.卷積的過程是讓過濾器在圖像上進行()A、縮放B、剪切C、窗口滑動D、鏡像對稱【正確答案】:C38.在Hadoop生態(tài)系統(tǒng)中,()建立在MapReduce之上,主要用來彌補MapReduce編程的復(fù)雜性。A、HbaseB、FlumeC、PigD、Sqoop【正確答案】:C解析:
Pig是對MapReduce編程復(fù)雜性的抽象,Pig平臺包含用于分析Hadoop數(shù)據(jù)集的執(zhí)行環(huán)境和腳本語言(PigLatin)。39.數(shù)據(jù)集成的基本類型是()。A、內(nèi)容集成、結(jié)構(gòu)集成B、內(nèi)容集成、規(guī)約集成C、規(guī)約集成、結(jié)構(gòu)集成D、模式集成、結(jié)構(gòu)集成【正確答案】:A解析:
數(shù)據(jù)集成是指通過應(yīng)用間的數(shù)據(jù)交換從而達到集成,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題,其前提是被集成應(yīng)用必須公開數(shù)據(jù)結(jié)構(gòu),即必須公開表間結(jié)構(gòu)、表間關(guān)系、編碼的含義等。40.構(gòu)造了一個詞表:{1.小明2.喜歡3.踢4.看5.足球6.籃球7.電影},利用上述詞表的索引號,文檔{小明喜歡踢足球}可以用一個7維向量表示為()A、[1101001]B、[1111111]C、[1111100]D、[1110100]【正確答案】:D解析:
統(tǒng)計文檔中每個詞的數(shù)量,根據(jù)詞表的位置,將各個詞的數(shù)量拼接成一個向量即可。41.BASE原則的含義不包括()。A、基本可用B、柔性狀態(tài)C、最終一致D、基礎(chǔ)條件【正確答案】:D解析:
BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventallyConsistent(最終--致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強一致狀態(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴格的實時一致,系統(tǒng)在某一個時刻后達到一致性要求即可。42.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是()A、圖像分類B、目標檢測C、圖像語義分割D、以上答案都正確【正確答案】:D解析:
解析:卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類、目標檢測及圖像語義分割。43.采用冪次變換進行灰度變換時,當(dāng)冪次大于1時,該變換是針對()的圖像進行增強。A、圖像整體偏暗B、圖像整體偏亮C、圖像細節(jié)淹沒在暗背景中D、圖像同時存在過亮和過暗背景【正確答案】:B解析:
冪次變換的基本表達式為:y=cxr+b。當(dāng)r>1時,變換函數(shù)曲線在正比函數(shù)下方,此時擴展高灰度級,壓縮低灰度級,使圖像變暗;當(dāng)r44.下列關(guān)于數(shù)據(jù)的描述錯誤的是()。A、數(shù)據(jù)化與數(shù)字化是兩個不同概念B、數(shù)據(jù)與數(shù)值是一個概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個不同的概念D、數(shù)據(jù)和信息是兩個不同的概念【正確答案】:B解析:
除了數(shù)值,數(shù)據(jù)科學(xué)中的數(shù)據(jù)還包括文字、圖形、圖像、動畫、文本、語音、視頻、多媒體和富媒體等多種類型。45.PagcRank是一個函數(shù),它對Web中的每個網(wǎng)頁賦予一個實數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】:D解析:
PageRank認為,如果A頁面有一個鏈接指向B頁面,那就可以看作是A頁面對B頁面的一種信任或推薦。所以,如果一個頁面的反向鏈接越多,根據(jù)這些鏈接的價值加權(quán)越高,那搜索引擎就會判斷這樣的頁面更為重要。46.留出法直接將數(shù)據(jù)集劃分為()個互斥的集合。A、一B、二C、三D、四【正確答案】:B解析:
留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個互斥的集合,其中一個集合作為訓(xùn)練集,另一個作為測試集T。47.下列關(guān)于缺失值的說法錯誤的是()。A、可以利用統(tǒng)計量對缺失值進行填補B、可以利用K近鄰值對缺失值進行填補C、只要有缺失值就必須把對應(yīng)記錄刪除D、對于缺失值較多的屬性可以考慮刪除【正確答案】:C解析:
缺失值可以通過刪除、填補等方法進行處理。48.對于一個圖像識別問題(在一張照片里找出一只貓),()可以更好地解決這個問題A、循環(huán)神經(jīng)網(wǎng)絡(luò)B、感知機C、多層感知機D、卷積神經(jīng)網(wǎng)絡(luò)【正確答案】:D解析:
解析:卷積神經(jīng)網(wǎng)絡(luò)可以提取圖像特征,且具有平移不變性。循環(huán)神經(jīng)網(wǎng)絡(luò)適合語言類數(shù)據(jù)。49.神經(jīng)網(wǎng)絡(luò)感知機只有()神經(jīng)元進行激活函數(shù)處理,即只擁有一層功能神經(jīng)元A、輸出層B、輸入層C、感知層D、網(wǎng)絡(luò)層【正確答案】:A解析:
解析:神經(jīng)網(wǎng)絡(luò)感知機由兩層神經(jīng)元組成,輸入層接收外界輸入信號以后傳遞給輸出層,其中,僅輸出層進行激活函數(shù)處理。50.下列關(guān)于缺失值填補的說法不正確的是()。A、填補數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B、Pandas.dropna可以用來填補缺失值C、用平均值填補會引入相關(guān)D、啞變量填補是將缺失值當(dāng)做一類新特征處理【正確答案】:B解析:
Pandas.dropna可以用來刪除缺失值。51.下列不屬于數(shù)據(jù)科學(xué)項目主要角色的是()。A、項目發(fā)起人B、項目經(jīng)理C、操作員D、驗收人員【正確答案】:D解析:
數(shù)據(jù)科學(xué)項目涉及的主要角色有項目發(fā)起人(ProjectSponsor)、項目經(jīng)理(ProjecManager)、客戶(Client)、數(shù)據(jù)科學(xué)家(DataScientist)、數(shù)據(jù)工程師(DataEngineer)、操作員(Operations)等。52.下列關(guān)于降維的表述錯誤的是()。A、降維過程中可以保留原始數(shù)據(jù)的所有信息B、多維縮放的目標是要保證降維后樣本之間的距離不變C、線性降維方法目標是要保證降維到的超平面能更好地表示原始數(shù)據(jù)D、核線性降維方法目標是通過核函數(shù)和核方法來避免采樣空間投影到高維空間再降維之后的低維結(jié)構(gòu)丟失【正確答案】:A解析:
降維過程中盡量保留原始數(shù)據(jù)的信息,但不能保留原始數(shù)據(jù)的全部信息。53.下列不是開源工具特點的是()。A、免費B、可以直接獲取源代碼C、用戶可以修改源代碼并不加說明用于自己的軟件中D、開源工具一樣具有版權(quán)【正確答案】:C解析:
延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來代碼中的協(xié)議、商標、專利聲明和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產(chǎn)品中包含一個Notice文件,則在Notice文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可,但不可以表現(xiàn)為對開源工具Licence構(gòu)成更改。54.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術(shù)價值鏈B、信息技術(shù)價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術(shù)價值鏈D、信息(活動)價值鏈和信息交互價值鏈【正確答案】:A解析:
大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價值鏈的信息價值鏈(水平軸)和信息技術(shù)價值鏈(垂直軸)兩個維度組織展開。55.圖靈獎獲得者JimGray提出的科學(xué)研究第四范式的全稱為()。A、數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)B、以數(shù)據(jù)為中心的科學(xué)發(fā)現(xiàn)C、數(shù)據(jù)驅(qū)動型的科學(xué)發(fā)現(xiàn)D、大數(shù)據(jù)科學(xué)研究【正確答案】:A解析:
2007年,圖靈獎獲得者JimGray提出了科學(xué)研究的第四范式-數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)。在他看來,人類科學(xué)研究活動已經(jīng)歷過三種不同范式的演變過程(原始社會的實驗科學(xué)范式、以模型和歸納為特征的理論科學(xué)范式和以模擬仿真為特征的計算科學(xué)范式),目前正在從計算科學(xué)范式轉(zhuǎn)向數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式。56.如果一個SVM模型出現(xiàn)欠擬合,那么()能解決這一問題。A、增大懲罰參數(shù)CB、減小懲罰參數(shù)CC、減小核系數(shù)(gamma參數(shù))D、增大核系數(shù)(gamma參數(shù))【正確答案】:A解析:
SVM模型出現(xiàn)欠擬合,表明模型過于簡單,需要提高模型復(fù)雜度。C越大,相應(yīng)的模型越復(fù)雜。57.下列算法中:①KNN;②線性回歸;③對數(shù)幾率回歸??梢杂蒙窠?jīng)網(wǎng)絡(luò)去構(gòu)造的()。A、①②B、②③C、①②③D、以上答案都不正確【正確答案】:B解析:
解析:KNN算法不需要訓(xùn)練參數(shù),而所有神經(jīng)網(wǎng)絡(luò)都需要訓(xùn)練參數(shù),因此神經(jīng)網(wǎng)絡(luò)幫不上忙。最簡單的神經(jīng)網(wǎng)絡(luò)-感知器,其實就是線性回歸的訓(xùn)練。我們可以用一層的神經(jīng)網(wǎng)絡(luò)構(gòu)造對數(shù)幾率回歸。58.下列關(guān)于等距離散化和等頻離散化的敘述不正確的是()。A、等距離散化是將連續(xù)型特征的取值區(qū)間均勻地劃分成多個區(qū)間段B、等距離散化對數(shù)據(jù)離群值不敏感C、等頻離散化考慮了區(qū)間段中的樣本個數(shù),使每個區(qū)間段的樣本數(shù)相同D、等頻離散化會將相似的樣本劃分到不同的區(qū)間【正確答案】:B解析:
等距離散化對數(shù)據(jù)離群值敏感。59.長短時記憶神經(jīng)網(wǎng)絡(luò)被設(shè)計用來解決的問題是()。A、傳統(tǒng)RNN存在的梯度消失/爆炸問題B、傳統(tǒng)RNN計算量大的問題C、傳統(tǒng)RNN速度較慢的問題D、傳統(tǒng)RNN容易過過擬合的問題【正確答案】:A60.劃分聚類算法是一種簡單的較為基本的重要聚類方法。它的主要思想是通過將數(shù)據(jù)點集分為()個劃分,并使用重復(fù)的控制策略使某個準則最優(yōu)化,以達到最終的結(jié)果。A、DB、KC、ED、F【正確答案】:B解析:
劃分聚類算法K-Means將數(shù)據(jù)點集分為K個子集。61..卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)是一種專門用來處理具有類似()的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。A、網(wǎng)格結(jié)構(gòu)B、數(shù)組結(jié)構(gòu)C、序列結(jié)構(gòu)D、表格結(jié)構(gòu)【正確答案】:A62.下列關(guān)于L1、L2正則化的說法正確的是()。A、L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B、L2正則化技術(shù)又稱為LassoRegularizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏【正確答案】:C解析:
L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個稀疏模型,可以用于特征選擇;L2正則化可以防止模型過擬合,一定程度上L1也可以防止過擬合,L1正則化又稱LassoRegression。63.下列關(guān)于HDFS特征的說法錯誤的是()。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】:D解析:
HDFS設(shè)計中重視數(shù)據(jù)的高吞吐量,因此其數(shù)據(jù)吞吐量高,但也造成了其數(shù)據(jù)延遲訪問的特征。64.下列關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯誤的是()A、神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B、可以處理冗余特征C、訓(xùn)練ANN是一個很耗時的過程D、至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)【正確答案】:A解析:
解析:未經(jīng)正則化的神經(jīng)網(wǎng)絡(luò)對可能對噪聲很敏感。65.下列關(guān)于集成學(xué)習(xí)模型中弱學(xué)習(xí)者的描述錯誤的是()。A、經(jīng)常不會過擬合B、通常帶有高偏差,所以其并不能解決復(fù)雜學(xué)習(xí)問題C、通常會過擬合D、通常擁有低方差【正確答案】:C解析:
弱學(xué)習(xí)者是問題的特定部分。所以他們通常不會過擬合,這也就意味著弱學(xué)習(xí)者通常擁有低方差和高偏差。66.下面方法中,屬于映射數(shù)據(jù)到新的空間的方法是哪個()A、傅立葉變換B、特征加權(quán)C、漸進抽樣D、維歸約【正確答案】:A解析:
傅立葉變換是將時間域映射到頻率域。67.下列關(guān)于HDFS的描述正確的是()。A、如果NameNode宕機,SecondaryNamcNode會接替它使集群繼續(xù)工作B、HDFS集群支持數(shù)據(jù)的隨機讀寫C、NameNode磁盤元數(shù)據(jù)不保存Block的位置信息DataNode通過長連接與NameNode保持通信【正確答案】:C解析:
SccondaryNameNode并不是NameNode節(jié)點的備份,所以A錯;存儲在HD集群上的數(shù)據(jù)是不支持隨機修改和刪除的,只支持追加,所以B錯;NanNode和DataNo之間的通信是基于一種心跳機制,該機制不是長連接是短連接形式,每次發(fā)送一個數(shù)據(jù)(自身狀態(tài)信息+數(shù)據(jù)塊信息)即可,所以D錯。68.下列特征選擇算法中,不屬于常用的文本分類的特征選擇算法是哪個()A、卡方檢驗B、互信息C、信息增益D、主成分分析【正確答案】:D解析:
以文檔頻率為基礎(chǔ)的特征選擇算法有文檔頻次方法(直接依據(jù)文檔頻率大小排序的方法)、卡方檢驗、信息增益、互信息等,不包括主成分分析法。69.()算法是決策樹學(xué)習(xí)的基本算法,其他多數(shù)決策樹學(xué)習(xí)方法都是它的變體。A、Find-SB、KNNC、概念D、ID3【正確答案】:D70.下列關(guān)于數(shù)據(jù)創(chuàng)新的說法正確的是()。A、多個數(shù)據(jù)集的總和價值等于單個數(shù)據(jù)集價值相加B、由于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去C、相同數(shù)據(jù)多次用于相同或類似用途,其有效性會降低D、數(shù)據(jù)只有開放價值才可以得到真正釋放【正確答案】:D解析:
略。71.下列算法中:①KNN算法;②線性回歸;③邏輯回歸。可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建的算法是()。A、①②B、②③C、①②③D、以上都不是【正確答案】:B解析:
解析:KNN算法是關(guān)于距離的學(xué)習(xí)算法,沒有任何參數(shù),所以無法用神經(jīng)網(wǎng)絡(luò)構(gòu)建。72.下列關(guān)于Apriori算法原理的敘述錯誤的是()。Apriori算法通常使用先驗知識或者假設(shè)B、如果某個項集是頻繁的,那么它的所有子集也是頻繁的C、如果一個項集是非頻繁集,那么它的所有超集也是非頻繁的D、Apriori算法不可以用來發(fā)現(xiàn)頻繁集【正確答案】:D解析:
Apriori算法可以用來發(fā)現(xiàn)頻繁集。73.如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則【正確答案】:C74.在深度學(xué)習(xí)中,我們經(jīng)常會遇到收斂到localminimum,下列不屬于解決localminimum問題的方法是()。A、隨機梯度下降B、設(shè)置MomentumC、設(shè)置不同初始值D、增大batchsize【正確答案】:D解析:
解析:增大batchsize無法解決localminimum問題。75.下列關(guān)于Logistic回歸和SVM的描述不正確的是()。A、Logistic回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進行極大似然估計的方法,用先驗概率的乘積代替后驗概率B、Logistic回歸的輸出就是樣本屬于正類別的概率C、SVM的目標是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,屬于結(jié)構(gòu)風(fēng)險最小化D、SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合【正確答案】:A解析:
Logistic回歸目標函數(shù)是最小化后驗概率,Logistic回歸可以用于預(yù)測事件發(fā)生概率的大小,SVM目標是結(jié)構(gòu)風(fēng)險最小化,SVM可以有效避免模型過擬合。76.平滑圖像處理可以采用RGB彩色()。A、直方圖均衡化模型B、直方圖均衡化模型C、加權(quán)均值濾波模型D、中值濾波模型【正確答案】:C解析:
平滑圖像處理可以采用RGB彩色加權(quán)均值濾波模型。77.在Apriori算法中,候選項集劃分為不同的桶,存放在()中。A、字典B、集合C、Hash樹D、列表【正確答案】:C78.如果訓(xùn)練一個RNN網(wǎng)絡(luò)時發(fā)現(xiàn)權(quán)重與激活值都是NaN,則導(dǎo)致這個問題最有可能的原因是()A、梯度消失B、梯度爆炸C、ReLU函數(shù)作為激活函數(shù)g),在計算g(z)時,z的數(shù)值過大了D、Sigmoid函數(shù)作為激活函數(shù)g),在計算g(z)時,z的數(shù)值過大了【正確答案】:B解析:
解析:訓(xùn)練過程中出現(xiàn)梯度爆炸會伴隨一些細微的信號,如:①模型無法從訓(xùn)練數(shù)據(jù)中獲得更新(如低損失);②模型不穩(wěn)定,導(dǎo)致更新過程中的損失出現(xiàn)顯著變化;③訓(xùn)練過程中,模型損失變成NaN。79.大數(shù)據(jù)平臺構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉庫、非關(guān)系型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫,實現(xiàn)各類數(shù)據(jù)的集中存儲與統(tǒng)一管理,滿足()存儲需求。A、歷史數(shù)據(jù)B、離線數(shù)據(jù)C、實時數(shù)據(jù)D、多樣化數(shù)據(jù)【正確答案】:D解析:
大數(shù)據(jù)平臺構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉庫、非關(guān)系型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、實現(xiàn)各類數(shù)據(jù)的集中存儲與統(tǒng)一管理,滿足多樣化數(shù)據(jù)存儲需求。80.以下關(guān)于情感分析說法錯誤的是()A、情感分類是一個領(lǐng)域相關(guān)的問題B、情感分類往往牽涉樣本的正負類別分布不平衡的問題C、情感分析屬于nlp范圍D、以上答案都不正確【正確答案】:D解析:
情感分析是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,情感分類不屬于鄰域相關(guān)的問題,不涉及樣本的正負類別分布不平衡的問題,不屬于nlp范圍。81.輸人圖像已被轉(zhuǎn)換為大小為28x28的矩陣和大小為7x7的步幅為1的核心/濾波器,則卷積矩陣的大小是()A、22x22B、21x21C、28x28D、7x7【正確答案】:A解析:
解析:28-7+1=22。82.對連續(xù)圖像的離散化采樣決定了圖像的()A、空間分辨率B、時間分辨率C、地面分辨率D、灰度值【正確答案】:A解析:
連續(xù)圖像變?yōu)殡x散圖像需要每隔一定距離取一次樣,這里的一定距離就是采樣距離,采樣距離越大,而像素點越少,圖像越模糊,反之亦然。83.下列關(guān)于關(guān)鍵詞提取的說法錯誤的是()A、關(guān)鍵詞提取是指借用自然語言處理方法提取文章關(guān)鍵詞B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題D、這個問題設(shè)計數(shù)據(jù)挖掘,文本處理,信息檢索等領(lǐng)域【正確答案】:C解析:
只依靠文本中出現(xiàn)次數(shù)即詞頻所得到的關(guān)鍵詞有很大的不確定性,對于長度比較長的文本,這個方法會有很大的噪音,雖然它在文本中出現(xiàn)的次數(shù)最多,但它很可能在語料庫中出現(xiàn)的次數(shù)也很高,所以單憑文本中出現(xiàn)次數(shù)最多這一個特性并不能準確的代表文本的主題,所以C錯誤,選C。84.具有體量大、來源多樣、生成極快和多變等特征并且難以用傳統(tǒng)數(shù)據(jù)體系機構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)是()。A、海量數(shù)據(jù)B、大數(shù)據(jù)C、厚數(shù)據(jù)D、異構(gòu)數(shù)據(jù)【正確答案】:B解析:
GB/T35295-2017《信息技術(shù)/大數(shù)據(jù)/術(shù)語》認為,大數(shù)據(jù)是具有體量大、來源多樣、生成極快、多變等特征,并且難以用傳統(tǒng)數(shù)據(jù)體系機構(gòu)有效處理的包含大量數(shù)據(jù)集的數(shù)據(jù)。85.假設(shè)在龐大的數(shù)據(jù)集上使用Logistic回歸模型,可能遇到一個問題,Logistic回歸需要很長時間才能訓(xùn)練,如果對相同的數(shù)據(jù)進行邏輯回歸,則花費更少的時間,并給出比較相似的精度的方法是()。A、降低學(xué)習(xí)率,減少迭代次數(shù)B、降低學(xué)習(xí)率,增加迭代次數(shù)C、提高學(xué)習(xí)率,增加迭代次數(shù)D、增加學(xué)習(xí)率,減少迭代次數(shù)【正確答案】:D解析:
如果在訓(xùn)練時減少迭代次數(shù),就能花費更少的時間獲得相同的精度,但需要增加學(xué)習(xí)率。86.下列關(guān)于數(shù)據(jù)產(chǎn)品開發(fā)關(guān)鍵環(huán)節(jié)的描述正確的是()。A、數(shù)據(jù)收集B、數(shù)據(jù)預(yù)處理C、數(shù)據(jù)學(xué)習(xí)D、數(shù)據(jù)加工【正確答案】:D解析:
數(shù)據(jù)加工(DataWrangling或DataMunging)是數(shù)據(jù)產(chǎn)品開發(fā)的關(guān)鍵環(huán)節(jié)。87.下面色彩空間中,最接近人的視覺系統(tǒng)的特點的是哪個()A、RGB空間B、CMY空間CMYK空間D、HSI空間【正確答案】:D解析:
HSI反映了人的視覺系統(tǒng)感知彩色的方式,以色調(diào)、飽和度和亮度三種基本特征量來感知顏色,最接近人的視覺系統(tǒng)特征。88.與生成方法、半監(jiān)督SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)機器利用未標記數(shù)據(jù)不同,基于分歧的方法(disagreement-basedmethods)使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的分歧(disagreement)對未標記數(shù)據(jù)的利用至關(guān)重要。()是此類方法的重要代表。A、協(xié)同訓(xùn)練B、組合訓(xùn)練C、配合訓(xùn)練D、陪同訓(xùn)練【正確答案】:A解析:
協(xié)同訓(xùn)練是此類方法的重要代表,它很好地利用了多視圖的相容互補性。89.()反映數(shù)據(jù)的精細化程度,越細化的數(shù)據(jù),價值越高。A、規(guī)模B、靈活性C、關(guān)聯(lián)度D、顆粒度【正確答案】:D解析:
顆粒度反映的是數(shù)據(jù)的精細化程度。90.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程J=7.19x+73.93,據(jù)此可以預(yù)測這個孩子10歲時的身高,則下列敘述正確的是(A、身高一定是145.83cmB、身高一定超過146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正確答案】:D解析:
回歸直線方程預(yù)測時,出現(xiàn)的誤差方向不能確定。91.DBSCAN算法的MinPts參數(shù)的意義是()。A、數(shù)據(jù)點的鄰域半徑B、密度閾值C、高密度點距離閾值D、低密度點距離閾值【正確答案】:B92.自然語言處理、語音識別、股票交易、氣象預(yù)測等應(yīng)用適合采用()處理。A、循環(huán)神經(jīng)網(wǎng)絡(luò)B、卷積神經(jīng)網(wǎng)絡(luò)C、多層神經(jīng)網(wǎng)絡(luò)D、單層神經(jīng)網(wǎng)絡(luò)【正確答案】:A解析:
解析:循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備,因此在對序列的非線性特征進行學(xué)習(xí)時具有一定優(yōu)勢。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語言處理,例如語音識別、語言建模、機器翻譯等領(lǐng)域有應(yīng)用,也被用于各類時間序列預(yù)報,如股票交易和氣象預(yù)測。卷積神經(jīng)網(wǎng)絡(luò)主要用于圖像處理。多層神經(jīng)網(wǎng)絡(luò)主要用于分類任務(wù),單層神經(jīng)網(wǎng)絡(luò)只能實現(xiàn)簡單的邏輯,如與、或、非,若不加激活函數(shù)甚至無法實現(xiàn)異或。93.下列關(guān)于Hive說法正確的是()。A、一種數(shù)據(jù)倉庫工具B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,用來進行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。94.下列關(guān)于深度學(xué)習(xí)框架的描述正確的是()A、Tensorfow是一款使用C++語言開發(fā)的開源數(shù)學(xué)計算軟件B、Caffe對于卷積網(wǎng)絡(luò)的支持特別好,同時提供C++接口、matlab接口和python接口C、PyTorch的前身便是Torch,其底層和Torch框架一樣,但是使用Python重新寫了很多內(nèi)容D、以上答案都正確【正確答案】:D95.下列不適合使用機器學(xué)習(xí)方法解決的是()。A、判斷電子郵件是否是垃圾郵件B、判斷給定的圖中是否有環(huán)C、判斷是否給指定用戶辦理信用卡D、對滴滴拼車乘客分簇【正確答案】:B解析:
判斷給定的圖中是否有環(huán)采用深度學(xué)習(xí)。96.DIKW金字塔模型中,頂層與底層的名稱分別為()。A、智慧與數(shù)據(jù)B、知識與數(shù)據(jù)C、智慧與數(shù)值D、知識與數(shù)值【正確答案】:A解析:
DIKW金字塔(DIKWPyramid)模型揭示了數(shù)據(jù)(Data)與信息(Information)、知識(Knowledge)、智慧(Wisdom)之間的區(qū)別與聯(lián)系,自底向上分別為數(shù)據(jù)、信息、知識、智慧。97.著名的C4.5決策樹算法使用()來選擇最優(yōu)劃分屬性。A、信息增益B、增益率C、基尼指數(shù)D、均值【正確答案】:B98.機器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好稱為()。A、訓(xùn)練偏好B、歸納偏好C、分析偏好D、假設(shè)偏好【正確答案】:B99.()算法是分類算法。A、DBSCANB、C4.5C、K-meansD、EM【正確答案】:B解析:
C4.5是分類算法;DBSCAN、K-means、EM是聚類算法。100.屬于深度學(xué)習(xí)框架的是()A、TensorflowB、CaffeC、PyTorchD、以上答案都正確【正確答案】:D解析:
解析:Tensorflow、Caffe、PyTorch都是流行的深度學(xué)習(xí)框架。1.在Spark中,彈性分布式數(shù)據(jù)集的特點包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:
RDD不可修改。2.可視分析學(xué)的特點包含()。A、強調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程B、強調(diào)可視化分析與自動化建模之間的相互作用C、強調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性D、強調(diào)數(shù)據(jù)加工(DataWrangling或DataMunging)工作的必要性E、強調(diào)人機交互的重要性【正確答案】:ABCDE解析:
從可視分析學(xué)模型可以看出,可視分析學(xué)的流程具有如下特點:①強調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程??梢暬治鰧W(xué)中對數(shù)據(jù)可視化工作的理解發(fā)生了根本性變化-數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識,而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上。從數(shù)據(jù)到知識的轉(zhuǎn)換途徑有可視化分析和自動化建模兩種。②強調(diào)可視化分析與自動化建模之間的相互作用。二者的相互作用主要體現(xiàn)在:一方面,可視化技術(shù)可用于數(shù)據(jù)建模中的參數(shù)改進的依據(jù);另一方面,數(shù)據(jù)建模也可以支持數(shù)據(jù)可視化活動,為更好地實現(xiàn)用戶交互提供參考。③強調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。從數(shù)據(jù)到知識轉(zhuǎn)換的兩種途徑-可視化分析與自動化建模分別通過數(shù)據(jù)映射和數(shù)據(jù)挖掘兩種不同方法實現(xiàn)。因此,數(shù)據(jù)映射和數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)可視化的兩個重要支撐技術(shù)。用戶可以通過兩種方法的配合使用實現(xiàn)模型參數(shù)調(diào)整和可視化映射方式的改變,盡早發(fā)現(xiàn)中間步驟中的錯誤,進而提升可視化操作的信度與效度。④強調(diào)數(shù)據(jù)加工工作的必要性。數(shù)據(jù)可視化處理之前一般需要對數(shù)據(jù)進行預(yù)處理(轉(zhuǎn)換)工作,且預(yù)處理活動的質(zhì)量將影響數(shù)據(jù)可視化效果。⑤強調(diào)人機交互的重要性??梢暬^程往往涉及人機交互操作,需要重視人與計算機在數(shù)據(jù)可視化工作中的互補性優(yōu)勢。因此,人機交互以及人機協(xié)同工作也將成為未來數(shù)據(jù)可視化研究與實踐的重要手段。3.數(shù)據(jù)增值存在的過程有()。A、數(shù)據(jù)對象的封裝B、數(shù)據(jù)系統(tǒng)的研發(fā)C、數(shù)據(jù)的集成應(yīng)用D、基于數(shù)據(jù)的創(chuàng)新【正確答案】:ABCD解析:
數(shù)據(jù)對象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進行數(shù)據(jù)增值。4.下列關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較的說法正確的有()。A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B、歸納學(xué)習(xí)論證方式為統(tǒng)計推理,分析學(xué)習(xí)為演繹推理C、歸納學(xué)習(xí)不需要先驗知識D、訓(xùn)練數(shù)據(jù)不足時歸納學(xué)習(xí)可能會失敗【正確答案】:ABCD解析:
分析學(xué)習(xí)是相對于歸納學(xué)習(xí)的一種提法,其特點是使用先驗知識來分析或解釋每個訓(xùn)練樣本,以推理出樣本的哪些特征與目標函數(shù)相關(guān)或不相關(guān)。因此,這些解釋能使機器學(xué)習(xí)系統(tǒng)比單獨依靠數(shù)據(jù)進行泛化有更高的精度。分析學(xué)習(xí)使用先驗知識來減小待搜索假設(shè)空間的復(fù)雜度,減小了樣本復(fù)雜度并提高了機器學(xué)習(xí)系統(tǒng)的泛化精度??梢姡治鰧W(xué)習(xí)與歸納學(xué)習(xí)的優(yōu)缺點在一定程度上具有互補性,分析學(xué)習(xí)方法的優(yōu)點在于可用先驗知識從較少的數(shù)據(jù)中更精確地泛化以引導(dǎo)學(xué)習(xí)。但是,當(dāng)先驗知識不正確或不足時,分析學(xué)習(xí)的缺點也會被突顯;歸納學(xué)習(xí)具有的優(yōu)點是不需要顯式的先驗知識,并且主要基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)到規(guī)律。然而,若訓(xùn)練數(shù)據(jù)不足時它能會失敗,并且會被其中隱式的歸納偏置所誤導(dǎo),而歸納偏置是從觀察數(shù)據(jù)中泛化所必需的過程。因此,我們可以考慮如何將二者結(jié)合成一個單獨的算法,以獲得它們各自的優(yōu)點。5.在監(jiān)督式學(xué)習(xí)中使用聚類算法的方法有()。A、首先可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個額外的特征C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個額外的特征【正確答案】:AB解析:
我們可以為不同的集群構(gòu)建獨立的機器學(xué)習(xí)模型,并且可以提高預(yù)測精度。將每個類別的ID作為特征空間中的一個額外的特征可能會提高的精度結(jié)果。6.與全連接的DNN,CNN的優(yōu)勢有()A、參數(shù)更少B、泛化更好C、訓(xùn)練更快D、更容易搭建【正確答案】:ABC解析:
解析:DNN直接對數(shù)據(jù)做加權(quán)線性連接,CNN則是移動卷積核,并對圖像中的各區(qū)域做卷積操作。因此,DNN更容易搭建,D錯誤。7.基于核的機器學(xué)習(xí)算法有()A、最大期望算法B、徑向基核函數(shù)C、線性判別分析法D、支持向量機【正確答案】:BCD8.關(guān)于TF-IDF模型描述正確的有()A、TF是詞頻B、IDF是逆文本頻率C、該模型基于統(tǒng)計方法D、在信息檢索中應(yīng)用較少【正確答案】:ABC解析:
TF-IDF算法應(yīng)用較為廣泛,在信息檢索中也常用。9.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:
聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標記信息是未知的。10.下列關(guān)于Hive的說法正確的有()。A、Hive是基于Hadoop的數(shù)據(jù)倉庫工具B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表C、最初,Hive由Google開源,用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計問題D、Hive的主要應(yīng)用場景是離線分析【正確答案】:ABD解析:
Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術(shù)是GFS、BigTable、MapReduce。11.Spark組件包含()兩個算子。A、MapB、ActionC、TransformationD、Reduce【正確答案】:BC解析:
Spark針對RDD提供了多種基礎(chǔ)操作,可以大致分為Action和Transformation兩種。12.特征選擇在子集生成與搜索方面引入了人工智能搜索技術(shù)和子集評價方法。其中人工智能搜索技術(shù)有()。A、分支界限法B、浮動搜索法C、信息熵D、AIC【正確答案】:ABCD解析:
特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術(shù),如分支界限法、浮動搜索法等;在子集評價方法則采用了很多源于信息論的準則,如信息熵、AIC等。13.HadoopMapReduce是MapReduce的具體實現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個獨立的實體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】:ABCD解析:
可以將MapReducc的工作流程概括為4個獨立的實體。4個實體分別為:①Client,用來提交MapRcduce的作業(yè)。編寫MapRcducc程序,配置作業(yè),提交作業(yè),即需程序員完成的工作。②JobTracker,用來協(xié)調(diào)作業(yè)的運行。與TaskTracker通信,協(xié)調(diào)整個作業(yè)的執(zhí)行。③TaskTracker,用來處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù),TaskTracker和JobTracker的不同有個很重要方面,就是在執(zhí)行任務(wù)的時候TaskTracker可以有n個,JobTracker則只會有一個。④HDFS,用來在其他實體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等,最后的結(jié)果也是保存在HDFS上面。14.下列關(guān)于中心極限定理的說法正確的有()。A、中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:
中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態(tài)分布為極限。15.下列關(guān)于Zookecper的描述正確的有()。A、Zookccper維護著一個樹形的層次結(jié)構(gòu)B、Zookeeper的數(shù)據(jù)訪問具有原子性C、Zookecper被設(shè)計用來實現(xiàn)協(xié)調(diào)服務(wù)D、Zookceper被設(shè)計用來實現(xiàn)大容量數(shù)據(jù)存儲【正確答案】:ABC解析:
Zookeeper無法用來存儲數(shù)據(jù)。16.常用的沖突消解策略包括()。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】:ABC17.以下圖像技術(shù)中屬于圖像處理技術(shù)的是()A、圖像編碼B、圖像合成C、圖像增強D、圖像分類【正確答案】:AC解析:
圖像合成輸入是數(shù)據(jù),圖像分類輸出是類別數(shù)據(jù)。18.機器學(xué)習(xí)的三個關(guān)鍵組成要素包含()。A、任務(wù)TB、性能指標PC、目標函數(shù)VD、經(jīng)驗來源E【正確答案】:ABD19.相對于HadoopMapReduce,Spark的特點有()。A、通用性B、易用性C、速度快D、容錯性【正確答案】:ABC解析:
相對于HadoopMapReduce,Spark的特點包括速度快、通用性和易用性。20.如果希望減少數(shù)據(jù)集中的特征數(shù)量,則可以采取的措施有()。A、使用正向選擇法(ForwardSelection)B、使用反向消除法(BackwardElimination)C、逐步選擇消除法(Stepwise)D、計算不同特征之間的相關(guān)系數(shù),刪去相關(guān)系數(shù)高的特征之一【正確答案】:ABCD解析:
正向選擇法(ForwardSelection)是首先選擇一個特征,每個特征都試一遍,選擇對模型準確率提升最高的那個特征;然后再在這個特征基礎(chǔ)上添加另外一個特征,方法類似,直到模型準確率不再提示為止。反向消除法(BackwardElimination)是首先包含了所有的特征,然后嘗試刪除每個特征,最終刪掉對模型準確率提升最高的一個特征(如果刪除這個特征模型準確率反而增加了,則說明這個特征是無用特征)。以此類推,直到刪除特征并不能提升模型為止。相對于正向選擇法,反向消除法的優(yōu)點在于其允許-些低貢獻值的特征能夠進到模型中去(有時候低貢獻值的特征能在組合中有更大的貢獻值,而正向選擇法忽略了這種組合的可能性),因此反向消除法能夠避免受一兩個占主導(dǎo)地位的特征的干擾。另外還有一種特征選擇方法是逐步選擇消除法(Stepwise),該方法結(jié)合上述兩者的方法,新加入一個特征之后,再嘗試刪去一個特征,直至達到某個預(yù)設(shè)的標準。這種方法的缺點是預(yù)設(shè)的標準不好定,而且容易陷入到過擬合當(dāng)中。除此之外,也可以使用基于相關(guān)性的特征選擇,可以去除多重線性特征。21.一個監(jiān)督觀測值集合會被劃分為()。A、訓(xùn)練集B、驗證集C、測試集D、預(yù)處理集【正確答案】:ABC解析:
一個監(jiān)督觀測值集合會被劃分為訓(xùn)練集、測試集、預(yù)測集。其中測試集來測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。22.決策樹遞歸返回的條件有()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:
決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導(dǎo)致遞歸返回:①節(jié)點包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前節(jié)點包含的樣本集合為空,不能劃分。23.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠()。A、直觀反映成對數(shù)據(jù)之間的空間關(guān)系B、直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、靜態(tài)演化事物的變化及變化的規(guī)律D、動態(tài)演化事物的變化及變化的規(guī)律E、提供高性能并行計算技術(shù)的強力支撐【正確答案】:BD解析:
可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系,以及能夠動態(tài)演化事物的變化及變化的規(guī)律。24.常用來緩解BP網(wǎng)絡(luò)的過擬合的兩種策略是()。A、晚停B、早停C、正則化D、加入損失函數(shù)【正確答案】:BC解析:
解析:通常有兩種策略來緩解BP網(wǎng)絡(luò)的過擬合。第一種策略是早停(earlystopping)、即將數(shù)據(jù)分成訓(xùn)練集合驗證集,訓(xùn)練集用來計算梯度、更新連接權(quán)和閾值,驗證集用來估計誤差,若訓(xùn)練集誤差降低但驗證集誤差升高,則停止訓(xùn)練,同時返回具有最小驗證集誤差的連接權(quán)和閾值。第二種策略是正則化(regularization),其基本思想是在誤差目標函數(shù)中增加一個用于描述網(wǎng)絡(luò)復(fù)雜度的部分,例如連接權(quán)和閾值的平方和。25.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD26.對于主成分分析方法,確定降維后低維空間的維數(shù)d的方法有()。A、由用戶事先指定B、通過在d不同的低維空間中對開銷較小的學(xué)習(xí)器進行交叉驗證來選取C、可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值D、隨機設(shè)置【正確答案】:ABC解析:
降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d不同的低維空間中對k近鄰分類器(或其他開銷較小的學(xué)習(xí)器)進行交叉驗證來選取較好的d。還可從重構(gòu)的角度設(shè)置一個重構(gòu)閾值,選取使得特定公式成立的最小值。27.Spark2.0提供的應(yīng)用庫包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正確答案】:ABCD解析:
Spark2.0提供的應(yīng)用庫包括SparkSQL、SparkStreaming、MLib、GraphX。28.ETL技術(shù)主要涉及操作有()。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】:ABC解析:
ETL技術(shù)主要涉及抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)。29.在數(shù)據(jù)缺失嚴重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進行填補。常用的填補方法有()。A、平均值填充B、K最近鄰距離法C、回歸法D、極大似然估計E、多重插補法【正確答案】:ABCDE解析:
在數(shù)據(jù)缺失嚴重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進行填補。常用的填補方法有平均值填充、K最近鄰距離法、回歸法、極大似然估計、多重插補法。30.噪聲數(shù)據(jù)的產(chǎn)生原因主要有()。A、數(shù)據(jù)采集設(shè)備有問題B、在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤C、數(shù)據(jù)傳輸過程中發(fā)生錯誤D、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致【正確答案】:ABCD解析:
噪聲數(shù)據(jù)的產(chǎn)生原因主要有數(shù)據(jù)采集設(shè)備有問題、在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤、數(shù)據(jù)傳輸過程中發(fā)生錯誤、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致。31.下列不屬于聚類性能度量內(nèi)部指標的有()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:
聚類常用的外部指標包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標包括DB指數(shù)、Dunn指數(shù)。32.以下方法是tf-idf的變種的有哪些()A、TFCB、EWCC、ITCD、IG【正確答案】:AC解析:
TFC:對文本長度進行歸一化處理后的TF-IDF。ITC:在TFC基礎(chǔ)上,用tf的對數(shù)值取代tf。33.數(shù)據(jù)科學(xué)項目主要涉及的活動包括()。A、模式/模型的應(yīng)用及維護B、模式/模型的洞見C、結(jié)果的可視化與文檔化D、模式/模型的驗證和優(yōu)化【正確答案】:ABCD解析:
數(shù)據(jù)科學(xué)項目是由從項目目標的定義到模式/模型的應(yīng)用及維護的一系列雙向互聯(lián)的互動鏈條組成的循序漸進的過程,主要涉及的活動包括項目目標的定義、數(shù)據(jù)的獲得與管理、模式/模型34.圖像分割中常使用的領(lǐng)域有()A、0鄰域B、4鄰域C、8鄰域D、24鄰域【正確答案】:BC解析:
圖像分割中常見的鄰域為4鄰域與8鄰域,即某像素的上下左右、某像素周圍的一圈像素。35.大數(shù)據(jù)平臺的計算組件主要有()。A、StormB、SparkC、MapReduceD、Sqoop【正確答案】:ABC解析:
Storm是Twitter開源的分布式實時大數(shù)據(jù)處理框架;Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎;MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算;Sqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞;因此A、B、C正確。36.常見的原型聚類算法包括()。A、K均值算法B、學(xué)習(xí)向量量化C、高斯混合聚類D、密度聚類【正確答案】:ABC37.以下網(wǎng)絡(luò)結(jié)構(gòu)中可以應(yīng)用于圖像識別任務(wù)的是()A、LeNet-5B、AlexNetCNND、VGG-net【正確答案】:ABCD解析:
四者均為經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)。38.下列描述中正確的有()。A、統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B、Python語言是統(tǒng)計學(xué)家發(fā)明的語言C、機器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D、數(shù)據(jù)科學(xué)是統(tǒng)計學(xué)的一個分支領(lǐng)域(子學(xué)科)【正確答案】:AC解析:
Python發(fā)明者是GuidoVanRossum,并非為統(tǒng)計學(xué)家;數(shù)據(jù)科學(xué)是一門獨立學(xué)科,已經(jīng)超出了統(tǒng)計學(xué)一個學(xué)科的研究范疇,并非為統(tǒng)計學(xué)的一個分支。39.可作為決策樹選擇劃分屬性的參數(shù)有()。A、信息增益B、信息增益率C、基尼指數(shù)D、密度函數(shù)【正確答案】:ABC解析:
特征選擇的準則主要有信息增益、信息增益率、基尼指數(shù)三種。40.下列關(guān)于數(shù)據(jù)維度的描述正確的有()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:
字典可以表示二維以上的高維數(shù)據(jù)。41.以下方法中可用于圖像分割的有()A、霍夫曼編碼B、分水嶺算法C、K-meansD、區(qū)域增長法【正確答案】:BCD解析:
分水嶺、K-means算法、區(qū)域生長都是常見的分割算法,而霍夫曼編碼不屬于分割算法。42.以下屬于圖像平滑算法的是()A、中值濾波B、均值濾波C、鄰域平均法D、高斯濾波【正確答案】:ABCD43.Hadoop的HDFS是一種分布式文件系統(tǒng),其適合()的數(shù)據(jù)存儲和管理。A、大量小文件存儲B、高容錯、高吞吐量C、低延遲讀取D、流式數(shù)據(jù)訪問【正確答案】:BD解析:
HDFS不適合小文件存儲,HDFS的讀取操作相比于傳統(tǒng)的數(shù)據(jù)庫延遲較高,不適合低延遲讀取。44.傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點包括()。A、數(shù)據(jù)一致性高B、數(shù)據(jù)冗余度低C、簡單處理的效率高D、產(chǎn)品成熟度高【正確答案】:ABD解析:
略。45.在選擇高斯函數(shù)作為核函數(shù)的支持向量機中,參數(shù)的選取會影響擬合的結(jié)果,如果出現(xiàn)過擬合的現(xiàn)象,則可能導(dǎo)致該結(jié)果的原因有()。A、其他參數(shù)保持不變,C過大B、其他參數(shù)保持不變,C較小C、其他參數(shù)保持不變,σ較大D、其他參數(shù)保持不變,σ較小【正確答案】:AD解析:
解析:SVM模型中,C是懲罰系數(shù),即對誤判的寬容度,若C越高,說明越不能容恐出現(xiàn)誤差,容易擬合;σ是高斯函數(shù)自帶的一個參數(shù),若σ無窮小,理論上高斯核的SVN可以擬合任何非線性數(shù)據(jù),但容易過擬合。46.主要用來實現(xiàn)實時計算類應(yīng)用的組件有()。A、流計算組件B、內(nèi)存計算組件C、MPP數(shù)據(jù)庫D、Hadoop的后臺定時分析計算任務(wù)【正確答案】:AB解析:
實時計算類應(yīng)用主要通過流計算組件、內(nèi)存計算組件來實現(xiàn)。47.下列關(guān)于PCA的說法正確的有()。A、在使用PCA之前,我們必須標準化數(shù)據(jù)B、應(yīng)該選擇具有最大方差的主成分C、應(yīng)該選擇具有最小方差的主成分D、可以使用PCA在低維空間中可視化數(shù)據(jù)【正確答案】:ABD解析:
PCA對數(shù)據(jù)中變量的尺度非常敏感,因此需要對各個變量進行標準化。方差越大,說明在該特征上分布越廣泛,說明該特征越有用,影響越大。PCA有時在較低維度上繪制數(shù)據(jù)是非常有用的,可以提取前2個主要組成部分,在二維平面上使用散點圖可視化數(shù)據(jù)。48.以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)方面有()。A、數(shù)據(jù)驅(qū)動B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】:ABC解析:
以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的以數(shù)據(jù)中心的特征不僅體現(xiàn)在以數(shù)據(jù)為核心生產(chǎn)要素,而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動、數(shù)據(jù)密集和數(shù)據(jù)范式。49.常用分詞方法下列哪些是()A、基于Binarytree的分詞方法B、基于HMM的分詞方法C、基于CRF的分詞方法D、基于K-means的分詞方法【正確答案】:BC解析:
K-means一般用于聚類,Binarytree(二叉樹)也不用于分詞。50.RDD的特征有()。A、可容錯性B、簡潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:
RDD是一個容錯的、并行的數(shù)據(jù)結(jié)構(gòu)。51.下列關(guān)于Spark中RDD的描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計算Dataset:就是一個集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:
A、B、C、D全部正確。52.數(shù)據(jù)再利用的意義有()。A、挖掘數(shù)據(jù)的潛在價值B、提高社會效益,優(yōu)化社會管理C、實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值D、優(yōu)化存儲設(shè)備,降低設(shè)備成本【正確答案】:ACD解析:
數(shù)據(jù)的再利用可以挖掘數(shù)據(jù)的潛在價值、實現(xiàn)數(shù)據(jù)組重組的創(chuàng)新價值,并且可以利用數(shù)據(jù)的可拓展性拓展業(yè)務(wù)領(lǐng)域53.常見的圖像降噪方式包括()A、中值濾波B、均值濾波C、平均濾波D、加權(quán)平均濾波【正確答案】:ABCD54.下列屬于TF-IDF的應(yīng)用有哪些()A、搜索引擎B、關(guān)鍵詞提取C、文本相似性D、數(shù)據(jù)降維【正確答案】:ABC解析:
TF-IDF只用來提取關(guān)鍵詞,不做降維。55.情感分析的途徑下列哪些是()A、關(guān)鍵詞識別B、數(shù)據(jù)增強C、統(tǒng)計方法D、概念級技術(shù)【正確答案】:ABCD解析:
現(xiàn)有的文本情感分析的途徑大致可以集合成關(guān)鍵詞識別、詞匯關(guān)聯(lián)、統(tǒng)計方法和概念級技術(shù)四類。56.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析、()等方面。A、關(guān)聯(lián)分析B、分類和預(yù)測分析C、聚類分析D、偏差分析【正確答案】:ABCD57.針對維數(shù)災(zāi)難,主要采用的降維方法有()。A、多維縮放B、主成分分析C、核化線性降維D、流形學(xué)習(xí)【正確答案】:ABCD58.下列屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:
常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。三、(共33題)59.假設(shè)一個隨機變量服從正態(tài)分布,則與隨機變量的概率分布有關(guān)的有()。A、眾數(shù)B、頻數(shù)C、平均值D、方差【正確答案】:CD解析:
正態(tài)分布一般用均值和方差來刻畫。60.下面屬于可視化高維數(shù)據(jù)技術(shù)的是哪些()A、矩陣B、平行坐標系C、星形坐標系D、散布圖【正確答案】:ABC解析:
矩陣、平行坐標系和星形坐標系都屬于可視化高維數(shù)據(jù)的常用技術(shù),而散布圖又叫相關(guān)圖,只能處理二維數(shù)據(jù)。61.以下可用于處理由于光照不均帶來的影響的圖像處理方法有()A、同態(tài)濾波B、頂帽變換C、基于移動平均的局部閾值處理D、拉普拉斯算子【正確答案】:ABC解析:
拉普拉斯算子屬于銳化濾波器,并不能處理光照不均勻帶來的影響。62.下列關(guān)于特征的稀疏性的說法正確的有()。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計算開銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒有高效的存儲方法【正確答案】:ABC解析:
在一個矩陣中,若非零元素的個數(shù)遠遠小于零元素的個數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進行壓縮存儲。63.下列關(guān)于機器學(xué)習(xí)的理解正確的有()。A、非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標簽的B、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標簽C、強化學(xué)習(xí)以輸入數(shù)據(jù)作為對模型的反饋D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)【正確答案】:BCD解析:
非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是不要求帶標簽的,監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標簽的。64.下列關(guān)于HDFS文件寫人的描述正確的有()。A、不支持多用戶對同一文件的寫操作B、用戶不可以在文件任意位置進行修改C、默認將文件復(fù)制成三份存放D、復(fù)制的文件塊默認不存在同一機架上【正確答案】:ABCD解析:
根據(jù)HDFS定義。65.深度學(xué)習(xí)方法不適用的數(shù)據(jù)集有()。A、數(shù)據(jù)樣本充足B、數(shù)據(jù)樣本不足C、數(shù)據(jù)集具有局部相關(guān)特性D、數(shù)據(jù)集沒有局部相關(guān)特性【正確答案】:BD解析:
以下數(shù)據(jù)集不適用于深度學(xué)習(xí):①數(shù)據(jù)集太小,數(shù)據(jù)樣本不足時,深度學(xué)習(xí)相對其他機器學(xué)習(xí)算法沒有明顯優(yōu)勢;②數(shù)據(jù)集沒有局部相關(guān)特性,目前深度學(xué)習(xí)表現(xiàn)比較好的領(lǐng)域主要是圖像、語音、自然語言處理等領(lǐng)域,這些領(lǐng)域的一個共性是局部相關(guān)性。圖像中像素組成物體,語音信號中音位組合成單詞,文本數(shù)據(jù)中單詞組合成句子,這些特征元素的組合一旦被打亂,表示的含義同時也被改變。對于沒有這樣的局部相關(guān)性的數(shù)據(jù)集,不適用于使用深度學(xué)習(xí)算法進行處理。66.下列關(guān)于集成學(xué)習(xí)的說法正確的有()。A、隨機森林是減少模型的方差,而GBDT是減少模型的偏差B、組成隨機森林的樹可以并行生成,而GBDT是串行生成C、隨機森林的結(jié)果是多數(shù)表決的,而GBDT則是多棵樹累加之和D、隨機森林對異常值不敏感,而GBDT對異常值比較敏感【正確答案】:ABCD解析:
隨機森林與GBDT之間的區(qū)別:①組成隨機森林的樹可以是分類樹也可以是回歸樹,而GBDT只由回歸樹組成;②組成隨機森林的樹可以并行生成,而GBDT是串行生成;③隨機森林的結(jié)果是多數(shù)表決的,而GBDT則是多棵樹累加之和;④隨機森林對異常值不敏感,而GBDT對異常值比較敏感;⑤隨機森林是通過減少模型的方差來提高性能,而GBDT是減少模型的偏差來提高性能的;⑥隨機森林不需要進行數(shù)據(jù)預(yù)處理即特征歸一心而GBDT則需要進行特征歸一化。67.HBase中KeyValue數(shù)據(jù)的存儲格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】:A解析:
HBase中KeyValue數(shù)據(jù)的存儲格式是HFile。68.鑒別多元共線特征后,下一步可能的操作有()。A、移除兩個共線變量B、不移除兩個變量,而是移除一個C、移除相關(guān)變量可能會導(dǎo)致信息損失,可以使用懲罰線性回歸模型(如ridge或lassoregression)【正確答案】:BC解析:
移除兩個變量會損失一切信息,所以只能移除一個特征,或者也可以使用正則化算法。69.下列有關(guān)MapReduce計算框架的描述正確的有()。A、MapReduce可以計算任務(wù)的劃分和調(diào)度B、MapReduce可完成數(shù)據(jù)的分布存儲和劃分C、MapReduce可以實現(xiàn)處理系統(tǒng)節(jié)點出錯檢測和失效恢復(fù)D、MapReduce可實現(xiàn)處理數(shù)據(jù)與計算任務(wù)的同步【正確答案】:ABCD解析:
根據(jù)MapReduce定義可得,A、B、C、D都可以實現(xiàn)。70.下列關(guān)于Pig的說法正確的有()。A、彌補MapReduce編程復(fù)雜性B、封裝MapReduce處理過程C、PigLatin是一種數(shù)據(jù)分析語言D、適用于并行處理【正確答案】:ABCD解析:
Pig建立在MapRcduce之上,主要目的是彌補MapRcduce編程的復(fù)雜性;Pig較好地封裝了MapReduce的處理過程;PigLatin是數(shù)據(jù)分析的描述語言;Pig的結(jié)構(gòu)適用于并行處理。71.聚類性能度量的指標主要分為外部指標和內(nèi)部指標,其中屬于內(nèi)部指標的是()。A、Jaccard指數(shù)B、FM指數(shù)C、DB指數(shù)Dunn指數(shù)【正確答案】:CD解析:
AB為外部指標。72.隨機森林的隨機性主要體現(xiàn)在()。A、決策樹選擇的隨機性B、數(shù)據(jù)集的隨機性C、待選特征的隨機性D、參數(shù)選擇的隨機性【正確答案】:BC解析:
隨機森林算法的隨機性主要體現(xiàn)在兩個方面,即子模型的訓(xùn)練樣本是隨機抽取的、子模型的特征變量也是隨機抽取的。73.在詞袋模型中使用單個的單詞來構(gòu)建詞向量這樣的序列被稱為()A、1元組(1-gram)B、單元組(unigram)模型C、列表D、字典【正確答案】:AB解析:
列表和字典一般包含多個單詞74.關(guān)于特征向量的缺失值處理方式如下:缺失值較多,直接將該特征舍棄掉,否則可能會帶入較大的noise,對結(jié)果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內(nèi),可以采取的處理方式有()。A、把NaN直接作為一個特征,假設(shè)用0表示B、用均值填充C、用隨機森林等算法預(yù)測填充D、以上選項都不正確【正確答案】:ABC解析:
缺失值較少的處理方式:①把NAN直接作為一個特征,假設(shè)用0表示;②用均值填充;③用隨機森林等算法預(yù)測填充;④用插值法填充。75.下列為RDBMS中事務(wù)遵循原則的有()。A、原子性(Atomicity)B、一致性(Consistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:
關(guān)系數(shù)據(jù)庫中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025房產(chǎn)抵押合同書范文
- 2023-2028年中國工業(yè)廢水行業(yè)市場深度研究及投資戰(zhàn)略規(guī)劃建議報告
- 2025關(guān)于外包加工的合同范本
- 音頻校準帶項目可行性研究報告
- 2024年電視媒體行業(yè)市場深度調(diào)查評估及投資方向研究報告
- 貴州省某公司綠色有機蔬菜項目可行性研究報告
- 2024年新聞圖書出版行業(yè)市場全景監(jiān)測及投資前景展望報告
- 2025年覆膜鋁卷項目可行性研究報告
- 2025年中國制藥機械市場全景評估及投資規(guī)劃建議報告
- 2024-2030年中國銀行借記卡行業(yè)市場發(fā)展監(jiān)測及投資潛力預(yù)測報告
- 體育教師的個人工作總結(jié)
- 評語大全之學(xué)生英語學(xué)科評語
- 《職業(yè)輔導(dǎo)》自考學(xué)習(xí)筆記
- 產(chǎn)后出血預(yù)防與處理指南(2023)解讀
- 《姓氏歌》第一課時(課件)語文一年級下冊
- 2024風(fēng)力發(fā)電機組 整機一階調(diào)諧質(zhì)量阻尼器
- GB/T 43686-2024電化學(xué)儲能電站后評價導(dǎo)則
- 小學(xué)英語語法復(fù)習(xí)課件1
- (高清版)TDT 1037-2013 土地整治重大項目可行性研究報告編制規(guī)程
- 中國旅游集團2024年校園招聘筆試參考題庫附帶答案詳解
- 導(dǎo)管室進修匯報課件
評論
0/150
提交評論