大數(shù)據(jù)理論考試(習(xí)題卷8)_第1頁
大數(shù)據(jù)理論考試(習(xí)題卷8)_第2頁
大數(shù)據(jù)理論考試(習(xí)題卷8)_第3頁
大數(shù)據(jù)理論考試(習(xí)題卷8)_第4頁
大數(shù)據(jù)理論考試(習(xí)題卷8)_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

試卷科目:大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷8)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分:單項選擇題,共64題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.在選擇神經(jīng)網(wǎng)絡(luò)的深度時,下面那些參數(shù)需要考慮()1神經(jīng)網(wǎng)絡(luò)的類型(如MLP,CNN)2輸入數(shù)據(jù)3計算能力(硬件和軟件能力決定)4學(xué)習(xí)速率5映射的輸出函數(shù)A)1,2,4,5B)2,3,4,5C)都需要考慮D)1,3,4,答案:C解析:所有上述因素對于選擇神經(jīng)網(wǎng)絡(luò)模型的深度都是重要的。特征抽取所需分層越多,輸入數(shù)據(jù)維度越高,映射的輸出函數(shù)非線性越復(fù)雜,所需深度就越深。另外為了達到最佳效果,增加深度所帶來的參數(shù)量增加,也需要考慮硬件計算能力和學(xué)習(xí)速率以設(shè)計合理的訓(xùn)練時間。[單選題]2.Spark的Stage的Task的數(shù)量由什么決定__。A)PartitionB)JobC)StageD)TaskScheduler答案:A解析:task是stage下的一個任務(wù)執(zhí)行單元,一般來說,一個rdd中有多少個partition就有多少個task。[單選題]3.以下不屬于大數(shù)據(jù)在社會活動中的典型應(yīng)用的是()。A)美團實現(xiàn)了快速精準(zhǔn)的送餐服務(wù)B)享單車、滴滴打車方便了人們的日常出行C)快遞實現(xiàn)了訂單的實時跟蹤D)供電公司提供電費賬單查詢答案:D解析:電費賬單查詢屬于簡單報表查詢,用電情況分析、竊電行為分析、基于交易大數(shù)據(jù)分析用戶的購買習(xí)慣、基于傳感器感知的海量數(shù)據(jù)分析自然災(zāi)害的危害程度、基于搜索引擎的搜索關(guān)鍵詞分析社會熱點等屬于大數(shù)據(jù)應(yīng)用。[單選題]4.python不支持的數(shù)據(jù)類型有A)charB)intC)floatD)list答案:A解析:[單選題]5.傅里葉變換得到的頻譜中,低頻系數(shù)對應(yīng)于()。A)物體邊緣B)噪聲C)變化平緩部分D)變化劇烈部答案:C解析:圖像的主要成分是低頻信息,它形成了圖像的基本灰度等級,對圖像結(jié)構(gòu)的決定作用較??;中頻信息決定了圖像的基本結(jié)構(gòu),形成了圖像的主要邊緣結(jié)構(gòu);高頻信息形成了圖像的邊緣和細(xì)節(jié),是在中頻信息上對圖像內(nèi)容的進一步強化。[單選題]6.某企業(yè)的數(shù)據(jù)倉庫運行在大數(shù)據(jù)計算服務(wù)上,開發(fā)人員在加工數(shù)據(jù)時發(fā)現(xiàn)用戶表user中的用戶標(biāo)識字段user_id有部分臟數(shù)據(jù),正確的格式應(yīng)該是8位的字符串??梢允褂肧QL語句()將臟數(shù)據(jù)過濾出來。A)select*B)select*C)select*D)select*fromuserwherelength(userid)<>8oruseridisnull答案:D解析:[單選題]7.探索性分析與驗證性分析的不同點是()。A)探索性分析需要事先假設(shè)B)探索性分析比驗證性分析復(fù)雜C)探索性分析在前D)驗證性分析在前答案:C解析:驗證性分析需要事先假設(shè),因數(shù)據(jù)不同復(fù)雜程度也不同,探索性分析一般在前,為驗證性分析提供參考。[單選題]8.在深度學(xué)習(xí)中,下列對于sigmoid函數(shù)的說法,錯誤的是()。A)存在梯度爆炸的問題B)不是關(guān)于原點對稱C)計算exp比較耗時D)存在梯度消失的問答案:A解析:sigmoid函數(shù)存在的是梯度消失問題。[單選題]9.()是Scikit-Learn中的支持向量機模塊。A)MinBatchKMeansB)SVCC)LinearRegressionD)Regression答案:B解析:SVM是sklearn中的支持向量機模塊,包括分類svc和回歸svr。[單選題]10.在Python中,下列不是int整型數(shù)據(jù)的是()。A)160B)010C)-78D)0x234答案:B解析:B不符合python語法[單選題]11.利用到每個聚類中心和的遠(yuǎn)近判斷離群值的方法,可以基于的算法為()。A)K-MeansB)KNNC)SVMD)LinearRegression答案:A解析:K-means算法又名k均值算法。其算法思想大致為:先從樣本集中隨機選取k個樣本作為簇中心,并計算所有樣本與這k個?簇中心?的距離,對于每一個樣本,將其劃分到與其距離最近的?簇中心?所在的簇中,對于新的簇計算各個簇的新的?簇中心?。[單選題]12.機器學(xué)習(xí)和深度學(xué)習(xí)的關(guān)系是(__)。A)深度學(xué)習(xí)包含機器學(xué)習(xí)B)機器學(xué)習(xí)包含深度學(xué)習(xí)C)二者是獨立的D)二者相互促答案:B解析:機器學(xué)習(xí)包含深度學(xué)習(xí)。[單選題]13.通常?落伍者?是影響MapReduce總執(zhí)行時間的主要影響因素之一,為此MapReduce采用()機制來解決。A)分布式計算B)惰性計算C)推測性執(zhí)行的任務(wù)備份D)先進先出答案:C解析:MapReduce采用?推測性執(zhí)行的任務(wù)備份?機制-當(dāng)作業(yè)中大多數(shù)的任務(wù)都已經(jīng)完成時,系統(tǒng)在幾個空閑的節(jié)點上調(diào)度執(zhí)行剩余任務(wù)的備份,并在多個Worker上同時進行相同的剩余任務(wù)。[單選題]14.Spark支持的分布式部署方式中哪個是錯誤的A)standaloneB)sparkonmesosC)sparkonYARND)Sparkonloca答案:D解析:[單選題]15.大數(shù)據(jù)平臺技術(shù)架構(gòu)不包含的是()A)數(shù)據(jù)整合B)數(shù)據(jù)存儲C)數(shù)據(jù)計算D)數(shù)據(jù)溯答案:D解析:利用大數(shù)據(jù)平臺可以實現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)存儲、數(shù)據(jù)計算等技術(shù),無法實現(xiàn)數(shù)據(jù)溯源。[單選題]16.對連續(xù)圖像的離散化采樣決定了圖像的()。A)空間分辨率B)時間分辨率C)地面分辨率D)灰度答案:A解析:連續(xù)圖像變?yōu)殡x散圖像需要每隔一定距離取一次樣,這里的一定距離就是采樣距離,采樣距離越大,而像素點越少,圖像越模糊,反之亦然。[單選題]17.HadoopMapReduce2.0中,()負(fù)責(zé)資源的管理和調(diào)度。A)JobTrackerB)YARNC)TaskTrackerD)ApplicationMaster答案:B解析:Hadoop2.0比起Hadoop1.0來說,最大的改進是加入了資源調(diào)度框架Yarn,引入了ApplicationManager和NodeManager的概念。[單選題]18.以下不是開源工具特點的是()。A)免費B)可以直接獲取源代碼C)用戶可以修改源代碼并不加說明用于自己的軟件中D)開源工具一樣具有版權(quán)答案:C解析:在延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來代碼中的協(xié)議,商標(biāo),專利聲明和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產(chǎn)品中包含一個Notice文件,則在Notice文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可,但不可以表現(xiàn)為對開源工具Licence構(gòu)成更改。[單選題]19.有訂單表orders,包含用戶信息userid、產(chǎn)品信息productid兩列,以下語句能夠返回至少被訂購過兩回的productid的語句是A)SELECTproductidFROMordersWHEREcount(productid)>1B)SELECTproductidFROMordersWHEREmax(productid)>1C)SELECTproductidFROMordersWHEREhavingcount(productid)>1GROUPBYproductidD)SELECTproductidFROMordersGROUPBYproductidHAVINGcount(productid)>答案:D解析:[單選題]20.對于Boosting算法描述錯誤的是()。A)可將強學(xué)習(xí)器降為弱學(xué)習(xí)器B)從初始訓(xùn)練集訓(xùn)練基學(xué)習(xí)器C)對訓(xùn)練樣本分布進行調(diào)整D)做錯的訓(xùn)練樣本多次訓(xùn)答案:A解析:boosting是一種集成學(xué)習(xí)算法,由一系列基本分類器按照不同的權(quán)重組合成為一個強分類器。[單選題]21.spark的master和worker通過什么方式進行通信的?A)httpB)nioC)nettyD)Akk答案:D解析:[單選題]22.gateway在ElasticSearch中的含義是?A)網(wǎng)關(guān)B)索引的存儲方式C)rpc請求接口D)索引快照的存儲方答案:D解析:[單選題]23.可視化視覺下的數(shù)據(jù)類型不包括()。A)定類數(shù)據(jù)B)定序數(shù)據(jù)C)定寬數(shù)據(jù)D)定比數(shù)據(jù)答案:C解析:從可視化處理視角看,可以將數(shù)據(jù)分為4個類型:定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)和定比數(shù)據(jù),并采用不同的視覺映射方法。在可視化領(lǐng)域,對數(shù)據(jù)進行分類分析的目的在于不同類型的數(shù)據(jù)可支持的操作類型不同。[單選題]24.以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)?()a)警察抓小偷,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A)Precision,RecallB)Recall,PrecisionC)Precision,ROCD)Recall,ROC答案:A解析:precision即為預(yù)測為正確的數(shù)據(jù)中,真實值為正確的比例,而recall即為在所有的真實值為正確的數(shù)據(jù)中,有多少能預(yù)測正確[單選題]25.有兩個樣本點,第一個點為正樣本,它的特征向量是(0,-1);第二個點為負(fù)樣本,它的特征向量是(2,3),從這兩個樣本點組成的訓(xùn)練集構(gòu)建一個線性SVM分類器的分類面方程是()。A)2x+y=4B)x+2y=5C)x+2y=3D)2x-y=答案:C解析:對于兩個點來說,最大間隔就是垂直平分線,因此求出垂直平分線即可。斜率是兩點連線的斜率的負(fù)倒數(shù)-1/((-1-3)/(0-2))=-1/2,可得y=-(1/2)x+c,過中點((0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故方程為x+2y=3。[單選題]26.運營人員為了搞促銷,需要找出目標(biāo)客戶名單,這批客戶的信息存儲在大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)的user表中,并且用戶名字段username中包含?vip?字樣,通過執(zhí)行SQL語句()可以找出這批客戶。A)select*fromuserwhereusernamecontains(?vip?)B)select*fromuserwhereusername=?vip?C)select*fromuserwhereusernamelike?*vip*?D)select*fromuserwhereusernamelike?%vip%?答案:D解析:[單選題]27.數(shù)據(jù)產(chǎn)品開發(fā)的關(guān)鍵環(huán)節(jié)是()A)數(shù)據(jù)收集B)數(shù)據(jù)預(yù)處理C)數(shù)據(jù)學(xué)習(xí)D)數(shù)據(jù)加工(DataWrangling或DataMunging)答案:D解析:數(shù)據(jù)加工(DataWrangling或DataMunging)是數(shù)據(jù)產(chǎn)品開發(fā)的關(guān)鍵環(huán)節(jié)。[單選題]28.以下關(guān)于繪圖標(biāo)準(zhǔn)流程說法錯誤的是()。A)繪制最簡單的圖形可以不用創(chuàng)建畫布B)添加圖例可以在繪制圖形之前C)添加x軸、y軸的標(biāo)簽可以在繪制圖形之前D)修改x軸標(biāo)簽、y軸標(biāo)簽和繪制圖形沒有先后答案:B解析:繪制圖例需要在繪制圖形之后。[單選題]29.從網(wǎng)絡(luò)的原理上來看,結(jié)構(gòu)最復(fù)雜的神經(jīng)網(wǎng)絡(luò)是()。A)卷積神經(jīng)網(wǎng)絡(luò)B)長短時記憶神經(jīng)網(wǎng)絡(luò)C)GRUD)BP神經(jīng)網(wǎng)答案:B解析:從網(wǎng)絡(luò)的原理上來看,結(jié)構(gòu)最復(fù)雜的神經(jīng)網(wǎng)絡(luò)是LSTM。[單選題]30.Numpy.linspace(0,3,3)的結(jié)果為()。A)[0,1,2]B)[1,2,3]C)[0,1.5,3]D)[0,3,6]答案:C解析:np.linspace()指定開始值、結(jié)束值和值的個數(shù),默認(rèn)包含結(jié)束值,注意與arange區(qū)別。[單選題]31.在數(shù)據(jù)科學(xué)中,R的包通常從()下載。A)PIPB)CRANC)RstudioD)Pypi答案:B解析:CRAN的全稱為TheComprehensiveRArchiveNetwork,在R編程中通常從該服務(wù)器下載所需包。[單選題]32.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征,適合的讀寫任務(wù)是()。A)一次寫入,少次讀B)多次寫入,少次讀C)多次寫入,多次讀D)一次寫入,多次讀答案:D解析:HDFS的設(shè)計以?一次寫入、多次讀取?為主要應(yīng)用場景。[單選題]33.表達式int('101',2)的值為()。A)5B)6C)"10"D)3答案:A解析:二進制101等于5[單選題]34.對于神經(jīng)網(wǎng)絡(luò)的說法,下面正確的是(__)。A)增加神經(jīng)網(wǎng)絡(luò)層數(shù),可能會增加測試數(shù)據(jù)集的分類錯誤率B)減少神經(jīng)網(wǎng)絡(luò)層數(shù),總是能減小測試數(shù)據(jù)集的分類錯誤率C)增加神經(jīng)網(wǎng)絡(luò)層數(shù),總是能減小訓(xùn)練數(shù)據(jù)集的分類錯誤率D)1、2都答案:A解析:增加神經(jīng)網(wǎng)絡(luò)層數(shù),可能會增加測試數(shù)據(jù)集的分類錯誤率。[單選題]35.()操作屬于預(yù)剪枝。A)信息增益B)計算最好的特征切分點C)限制樹模型的深度D)可視化樹模答案:C解析:預(yù)剪枝是指在決策樹生成過程中,對每個結(jié)點在劃分前先進行估計,若當(dāng)前結(jié)點的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當(dāng)前結(jié)點標(biāo)記為葉結(jié)點。限制樹模型的深度屬于預(yù)剪枝。[單選題]36.下面的語句哪個會無限循環(huán)下去()。A)forainrange(10):timesleep(10)B)while1<10:timesleep(10)C)whileTrue:breakD)a=[3,-1,',']foriina[:]:ifnota:break答案:B解析:B中條件1<10恒成立。[單選題]37.在著名管理學(xué)家ThomasH.Davernport在《哈佛商業(yè)論壇》上發(fā)表的題為《第三代分析學(xué)(Analytics3.0)》的經(jīng)典論文中,Analytics3.0時代是指()。A)商務(wù)智能時代B)大數(shù)據(jù)時代C)數(shù)據(jù)富足供給時代D)數(shù)據(jù)智能時代答案:C解析:Analytics3.0的名稱為數(shù)據(jù)富足供給時代(Data-enrichedOfferings)。與Analytics2.0不同的是,Analytics3.0中數(shù)據(jù)分析更為專業(yè)化,從技術(shù)實現(xiàn)和常用工具角度看,Analytics3.0將采用更為專業(yè)的分析工具,而不再直接采用Hadoop、Spark、NoSQL等大數(shù)據(jù)分析技術(shù)。同時,數(shù)據(jù)分析工作也由專業(yè)從事數(shù)據(jù)分析的數(shù)據(jù)科學(xué)家--首席分析師完成,數(shù)據(jù)科學(xué)家的類型將得到進一步細(xì)化[單選題]38.以下哪種情況LDA會失?。ǎ)如果有辨識性的信息不是平均值,而是數(shù)據(jù)的方差B)如果有辨識性的信息是平均值,而不是數(shù)據(jù)方差C)如果有辨識性的信息是數(shù)據(jù)的均值和方差D)以上答案都不正答案:A解析:LDA的思想是投影后類內(nèi)方差最小,類間方差最大。[單選題]39.主成分分析的優(yōu)化目標(biāo)是一個()。A)不含約束條件的二次規(guī)劃問題B)含有約束條件的二次規(guī)劃問題C)不含約束條件的線性規(guī)劃問題D)含有約束條件的線性規(guī)劃問題答案:B解析:主成分分析的優(yōu)化目標(biāo)是一個含有約束條件的二次規(guī)劃問題。[單選題]40.()是指為最小化總體風(fēng)險,只需在每個樣本上選擇能使特定條件風(fēng)險最小的類別標(biāo)記。A)支持向量機B)間隔最大化C)線性分類器D)貝葉斯判定準(zhǔn)則答案:D解析:貝葉斯判定準(zhǔn)則:為最小化總體風(fēng)險,只需在每個樣本上選擇那個能使條件風(fēng)險最小的類別標(biāo)記。[單選題]41.以下算法中不屬于基于深度學(xué)習(xí)的圖像分割算法是()。A)FCNB)deeplabC)Mask-RND)kN答案:D解析:KNN為傳統(tǒng)機器學(xué)習(xí)方法并非深度學(xué)習(xí)方法。[單選題]42.在MapReduce中,通常將Map拆分成M個片段、Reduce拆分成R個片段,下面描述中錯誤的是()。A)MapReduced中單臺機器上執(zhí)行大量不同的任務(wù)可以提高集群的負(fù)載均衡能力B)Master必須執(zhí)行O(M+R)次調(diào)度C)Master在內(nèi)存中保存O(M+R)個狀態(tài)D)M和R要比集群中Worker數(shù)量多答案:C解析:master必須執(zhí)行O(M+R)次調(diào)度,并且在內(nèi)存中保存O(M*R)個狀態(tài),故C錯。[單選題]43.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指()。A)基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B)基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C)基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D)基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息答案:D解析:元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)。[單選題]44.數(shù)據(jù)科學(xué)項目應(yīng)遵循一般項目管理的原則和方法,涉及()。A)整體、范圍、時間、成本、質(zhì)量、溝通、風(fēng)險、宣傳、消費B)整體、范圍、時間、成本、質(zhì)量、人力資源、溝通、風(fēng)險、采購C)整體、范圍、時間、成本、質(zhì)量、人力資源、運維、采購、宣傳D)整體、范圍、時間、成本、質(zhì)量、人力資源、采購、宣傳、運維答案:B解析:數(shù)據(jù)科學(xué)項目應(yīng)遵循一般項目管理的原則和方法,涉及整體、范圍、時間、成本、質(zhì)量、人力資源、溝通、風(fēng)險、采購。[單選題]45.下面關(guān)于詞袋模型說法錯誤的是()。A)詞袋模型使用一個多重集對文本中出現(xiàn)的單詞進行編碼B)詞袋模型不考慮詞語原本在句子中的順序C)詞袋模型可以應(yīng)用于文檔分類和檢索,同時受到編碼信息的限制D)詞袋模型產(chǎn)生的靈感來源于包含類似單詞的文檔經(jīng)常有相似的含答案:C解析:文本處理基礎(chǔ)知識。[單選題]46.下列哪種架構(gòu)的數(shù)據(jù)庫數(shù)據(jù)是分布式存儲的:A)share-everythingB)share-diskC)share-nothingD)share-anythin答案:C解析:[單選題]47.()和假設(shè)檢驗又可歸結(jié)為統(tǒng)計推斷的范疇,即對總體的數(shù)量特征做出具有一定可靠程度的估計和判斷.A)參數(shù)估計B)邏輯分析C)方差分析D)回歸分答案:A解析:推斷統(tǒng)計包括兩方面的內(nèi)容:參數(shù)估計和假設(shè)檢驗。[單選題]48.Numpy的數(shù)組中Ndarray對象屬性描述錯誤的是()。A)Ndarray.ndim秩,即軸的數(shù)量或維度的數(shù)量B)Ndarray.shape數(shù)組的維度,對于矩陣,n行m列C)Ndarray.size數(shù)組元素的總個數(shù),也是shape屬性中n*m的值D)Ndarray.itemsizeNdarray對象的元素類型答案:D解析:itemsize是每個數(shù)組元素的字節(jié)大小。[單選題]49.以下使用其本身可以達成數(shù)據(jù)透視功能的函數(shù)是()。A)groupbyB)transformC)crosstabD)pivot_table答案:D解析:pivot_table用于創(chuàng)建數(shù)據(jù)透視表。[單選題]50.一幅圖像在采樣時,行、列的采樣點與量化級數(shù)()。A)既影響數(shù)字圖像的質(zhì)量,也影響到該數(shù)字圖像數(shù)據(jù)量的大小B)不影響數(shù)字圖像的質(zhì)量,只影響到該數(shù)字圖像數(shù)據(jù)量的大小C)只影響數(shù)字圖像的質(zhì)量,不影響到該數(shù)字圖像數(shù)據(jù)量的大小D)既不影響數(shù)字圖像的質(zhì)量,也不影響到數(shù)字圖像數(shù)據(jù)量的大答案:A解析:圖像在空間上的離散化稱為采樣,也就是用空間上部分點的灰度值代表圖像,這些點稱為采樣點。圖像在采樣時,行、列的采樣點與量化時每個像素量化的級數(shù),既影響數(shù)字圖像的質(zhì)量,也影響到該數(shù)字圖像數(shù)據(jù)量的大小。[單選題]51.數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù),是數(shù)據(jù)產(chǎn)品的研發(fā)的哪個階段()。A)零次數(shù)據(jù)B)一次數(shù)據(jù)C)二次數(shù)據(jù)D)采集數(shù)據(jù)答案:A解析:零次數(shù)據(jù)是數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù),如各種感知儀器設(shè)備中直接生成的數(shù)據(jù)。零次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題。[單選題]52.已知數(shù)組trans_cnt[1,2,3,4],trans_cnt[2]獲取的結(jié)果為()A)1B)2C)3D)4答案:C解析:[單選題]53.以下哪項是Spark2.x程序統(tǒng)一入口?A)StreamingContextB)SqlContextC)HiveContextD)SparkSessio答案:D解析:[單選題]54.數(shù)據(jù)安全不只是技術(shù)問題,還涉及到()。A)人員問題B)管理問題C)行政問題D)領(lǐng)導(dǎo)問題答案:B解析:數(shù)據(jù)安全不只是技術(shù)問題,還涉及到管理問題。[單選題]55.Python中定義私有屬性的方法是()。A)使用private關(guān)鍵字B)使用public關(guān)鍵字C)使用__XX__定義屬性名D)使用__XX定義屬性名答案:D解析:使用__XX定義屬性名定義私有屬性的方法。[單選題]56.Spark中Job的劃分是依據(jù)()A)依賴B)ction算子C)依賴D)aransformation算子答案:B解析:action的觸發(fā)會生成一個job,Job會提交給DAGScheduler,分解成Stage,因此Job是由action算子劃分的,B正確。[單選題]57.關(guān)于數(shù)據(jù)產(chǎn)品,以下說法錯誤的是()。A)數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B)與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費者不僅限于人類用戶.還可以是計算機以及其他軟硬件系統(tǒng)C)數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品D)數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項目流程的全部活動答案:A解析:數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集,還包括文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策或它們的組合。[單選題]58.因子分析把每個原始變量分解為兩部分因素:一部分為(),另一部分為()。A)公共因子和特殊因子B)特殊因子和相關(guān)因子C)相關(guān)因子和獨立因子D)獨立因子和公共因子答案:A解析:因子分析把每個原始變量分解為兩部分因素:一部分為公共因子,另一部分為特殊因子。[單選題]59.以下哪項關(guān)于決策樹的說法是錯誤的()。A)冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響B(tài))子樹可能在決策樹中重復(fù)多次C)決策樹算法對于噪聲的干擾非常敏感D)尋找最佳決策樹是NP完全問題答案:C解析:決策樹算法對于噪聲的干擾具有相當(dāng)好的魯棒性。[單選題]60.關(guān)于裝飾器,下列說法錯誤的是()。A)裝飾器是一個包裹函數(shù)B)裝飾器只能有一個參數(shù)C)通過在函數(shù)定義的面前加上@符號和裝飾器名,使得裝飾器函數(shù)生效D)如果裝飾器帶有參數(shù),則必須在裝飾函數(shù)的外層再嵌套一層函數(shù)答案:B解析:[單選題]61.數(shù)據(jù)探索是指針對目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),下列哪項不是其搜索過程的特點()。A)有選擇B)有策略C)有目標(biāo)D)反復(fù)進行的答案:C解析:數(shù)據(jù)探索是指針對目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過程是有選擇、有策略和反復(fù)進行的。[單選題]62.文本信息往往包含客觀事實和主觀情感,對于文本的情感分析主要是識別文章中的主觀類詞語,其中()不適用于情感分析。A)表達觀點的關(guān)鍵詞B)表達程度的關(guān)鍵詞C)表達情緒的關(guān)鍵詞D)表達客觀事實的關(guān)鍵答案:D解析:D中表達客觀事實的關(guān)鍵詞是對事物的客觀性描述,不帶有感情色彩和情感傾向,即為客觀性文本,不適用于情感分析。而主觀性文本則是作者對各種事物的看法或想法,帶有作者的喜好厭惡等情感傾向,如ABC中表觀點、程度和情緒的關(guān)鍵詞都是帶有情感傾向的主觀性文本,適用于情感分析。[單選題]63.當(dāng)特征值大致相等時會發(fā)生什么()A)PCA將表現(xiàn)出色B)PCA將表現(xiàn)不佳C)不知道D)以上都沒有答案:B解析:當(dāng)所有特征向量相同時將無法選擇主成分,因為在這種情況下所有主成分相等。[單選題]64.以下哪個數(shù)據(jù)庫出現(xiàn)時間最早A)oracleB)postgresqlC)sybaseD)greeplu答案:A解析:第2部分:多項選擇題,共22題,每題至少兩個正確答案,多選或少選均不得分。[多選題]65.直方圖修正法包括()。A)直方圖統(tǒng)計B)直方圖均衡C)直方圖過濾D)直方圖規(guī)定化答案:BD解析:直方圖統(tǒng)計是對圖像特征值的統(tǒng)計;直方圖過濾屬于圖像處理技術(shù)。[多選題]66.在數(shù)據(jù)集成中,CDM支持對已經(jīng)創(chuàng)建的鏈接進行()操作A)刪除連接B)測試連通性C)備份連接D)編答案:ABD解析:[多選題]67.Analytics1.0的主要特點有()。A)分析活動滯后于數(shù)據(jù)的生成B)重視結(jié)構(gòu)化數(shù)據(jù)的分析C)以對歷史數(shù)據(jù)的理解為主要目的D)注重描述性分析答案:ABCD解析:著名管理學(xué)家ThomasH.Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具--分析學(xué)(Analytics)分為三個不同時代--商務(wù)智能時代、大數(shù)據(jù)時代和數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0.其中,Analytics1.0:商務(wù)智能時代(1950~2000)的主要數(shù)據(jù)分析技術(shù)、方法和工具。Analytics1.0中常用的工具軟件為數(shù)據(jù)倉庫及商務(wù)智能類軟件,一般由數(shù)據(jù)分析師或商務(wù)智能分析師負(fù)責(zé)完成。Analytics1.0的主要特點有:分析活動滯后于數(shù)據(jù)的生成;重視結(jié)構(gòu)化數(shù)據(jù)的分析;以對歷史數(shù)據(jù)的理解;重視描述性分析。[多選題]68.以下描述中屬于Analytics2.0的主要特點的是()。A)側(cè)重嵌入式分析B)重視非結(jié)構(gòu)化數(shù)據(jù)的分析C)以決策支持為主要目的D)注重解釋性分析和預(yù)測性分析答案:BCD解析:著名管理學(xué)家ThomasH.Davernport于2013年在《哈佛商業(yè)論壇(HarvardBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的方法、技術(shù)和工具--分析學(xué)(Analytics)分為三個不同時代--商務(wù)智能時代、大數(shù)據(jù)時代和數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0.其中,Analytics2.0的主要特點有:分析活動與數(shù)據(jù)的生成幾乎同步,強調(diào)數(shù)據(jù)分析的實時性;重視非結(jié)構(gòu)化數(shù)據(jù)的分析;以決策支持為主要目的;注重解釋性分析和預(yù)測性分析。[多選題]69.DataStudio的基本功能包含以下哪些A)SQL編輯B)查詢結(jié)果C)存儲過程管理D)對象瀏覽答案:ABCD解析:[多選題]70.以下圖像技術(shù)中屬于圖像處理技術(shù)的是()。A)圖像編碼B)圖像合成C)圖像增強D)圖像分答案:AC解析:圖像合成輸入是數(shù)據(jù),圖像分類輸出是類別數(shù)據(jù)。[多選題]71.數(shù)據(jù)科學(xué)以數(shù)據(jù)尤其是大數(shù)據(jù)為研究對象,主要研究內(nèi)容包括()。A)數(shù)據(jù)加工(DataWrangling或DataMunging)B)數(shù)據(jù)管理C)數(shù)據(jù)計算D)數(shù)據(jù)產(chǎn)品研發(fā)答案:ABCD解析:數(shù)據(jù)科學(xué)是一門以?數(shù)據(jù)?,尤其是?大數(shù)據(jù)?為研究對象,并以數(shù)據(jù)統(tǒng)計、機器學(xué)習(xí)、數(shù)據(jù)可視化等為理論基礎(chǔ),主要研究數(shù)據(jù)加工、數(shù)據(jù)管理、數(shù)據(jù)計算、數(shù)據(jù)產(chǎn)品開發(fā)等活動的交叉性學(xué)科。[多選題]72.下列哪個是Hadoop運行的模式()。A)單機版B)偽分布式C)分布式D)全分布式答案:ABC解析:Hadoop運行模式包括單機版、偽分布式和分布式。[多選題]73.假設(shè)一個隨機變量服從正態(tài)分布,則隨機變量的概率分布跟其()和()有關(guān)。A)眾數(shù)B)頻數(shù)C)平均值D)方差答案:CD解析:正態(tài)分布一般用均值和方差來刻畫。[多選題]74.下列屬于文本處理流程的是()。A)NormalizationB)TokenizationStopwordsC)Part-of-speechTaggingD)NamedEntityRecognitio答案:ABCD解析:文本處理的流程為正則化、引入停止詞、詞性標(biāo)注、命名實體識別。[多選題]75.Python的模塊符合以下哪些說法()。A)模塊讓你能夠有邏輯地組織你的Python代碼段B)Python擁有豐富的模塊,不支持自定義模塊C)把相關(guān)的代碼分配到一個模塊里能讓你的代碼更好用,更易懂D)模塊能定義函數(shù),類和變量,模塊里也能包含可執(zhí)行的代碼。答案:ACD解析:Python不僅支持自帶的模塊/庫,還支持第三方庫導(dǎo)入。[多選題]76.下列關(guān)于AUC面積描述正確的是()。A)C被定義為ROC曲線下與坐標(biāo)軸圍成的面積B)AUC面積的值大于1C)AU于0.5時,則真實性最低,無應(yīng)用價值D)AUC越接近1.0,檢測方法真實性越答案:ACD解析:AUC面積的值小于等于1。[多選題]77.Spark組件包含哪兩個算子()。A)Map;B)Action;C)Transformation;D)Reduce;答案:BC解析:Spark針對RDD提供了多種基礎(chǔ)操作,可以大致分為兩種即Action和Transformation。[多選題]78.DWS建表時,COMPRESSION關(guān)鍵字指定壓縮級別有哪些A)YESB)HIGHC)LOWD)N答案:BCD解析:[多選題]79.數(shù)據(jù)集成中,CDM遷移支持的數(shù)據(jù)源有哪些()A)文件服務(wù)器B)NoSQL數(shù)據(jù)庫C)傳統(tǒng)關(guān)系型數(shù)據(jù)庫D)大數(shù)據(jù)存答案:ABCD解析:[多選題]80.圖像識別的一般步驟包括()。A)預(yù)處理B)特征提取C)超像素生成D)識別分答案:ABD解析:圖像識別中的一般步驟包括預(yù)處理、特征提取和識別分類。超像素生成并非必要步驟。[多選題]81.下列哪些屬于TF-IDF的應(yīng)用()。A)搜索引擎B)關(guān)鍵詞提取C)文本相似性D)數(shù)據(jù)降答案:ABC解析:TF-IDF只用來提取關(guān)鍵詞,不做降維。[多選題]82.數(shù)據(jù)集成功能包括:()。A)表/文件/整庫遷移B)增量數(shù)據(jù)遷移C)事務(wù)模式遷移D)字段轉(zhuǎn)答案:ABCD解析:[多選題]83.下列哪些是面向?qū)ο蠹夹g(shù)的特征()。A)封裝B)繼承C)多態(tài)D)分布性答案:ABC解析:面向?qū)ο蠹夹g(shù)的特征封裝、繼承、多態(tài)。[多選題]84.關(guān)于降維說法正確的是()。A)P根據(jù)方差這一屬性降維的B)降維可以防止模型過擬合C)降維降低了數(shù)據(jù)集特征的維度D)降維方法有PLA等答案:ACD解析:降維不能用于防止模型過擬合。[多選題]85.大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)中的MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算,它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。其中,兩個主要階段Map和Redu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論