大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷附答案_第1頁
大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷附答案_第2頁
大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷附答案_第3頁
大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷附答案_第4頁
大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷附答案_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第頁大數(shù)據(jù)題庫-數(shù)據(jù)理論基礎(chǔ)復(fù)習(xí)測試卷附答案1.下列關(guān)于在回歸分析中解釋變量與非解釋變量的說法正確的是()。A、解釋變量和被解釋變量都是隨機(jī)變量B、解釋變量為非隨機(jī)變量,被解釋變量為隨機(jī)變量C、解釋變量和被解釋變量都為非隨機(jī)變量D、解釋變量為隨機(jī)變量,被解釋變量為非隨機(jī)變量【正確答案】:B解析:

在回歸分析中,解釋變量可以理解為自變量,具有確定性,因此為非隨機(jī)變量被解釋變量可以理解為因變量,具有隨機(jī)性,因此為隨機(jī)變量。2.下列不能作為數(shù)據(jù)科學(xué)數(shù)據(jù)源的是()。A、醫(yī)院里的病歷、檢查、診斷等與健康相關(guān)的數(shù)據(jù)B、物聯(lián)網(wǎng)中涉及設(shè)備運(yùn)行情況的日志數(shù)據(jù)C、金融領(lǐng)域客戶的借款記錄以及信用情況D、個人電腦中用于備忘的日記【正確答案】:D解析:

數(shù)據(jù)科學(xué)數(shù)據(jù)源的前提條件是數(shù)據(jù)需要具備規(guī)律性、周期性等特征,個人電腦中用于備忘的日記一般不具備規(guī)律性。3.下列不是NoSQL數(shù)據(jù)庫的是()。A、MongoDBBigTableC、HBaseD、Access【正確答案】:D解析:

NoSQL是指那些非關(guān)系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲系統(tǒng)。典型的NoSQL產(chǎn)品有DangaInteractive的Memcached、10gen的MongoDB、Facebook的Cassandra、Google的BigTable及其開源系統(tǒng)HBasc、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。4.下列關(guān)于數(shù)據(jù)整合和分組的說法不正確的是()。A、數(shù)據(jù)連接可以用concat或merge函數(shù)B、axiis=11表示軸向連接C、數(shù)據(jù)分組可以使用mean函數(shù)D、使用agg可以自定義多個聚合函數(shù)【正確答案】:C解析:

數(shù)據(jù)分組不可以使用mcan函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。5.對于數(shù)據(jù)3,3,2,3,6,3,10,3,6,3,2,得出以下結(jié)論:①這組數(shù)據(jù)的眾數(shù)是3;②這組數(shù)據(jù)的眾數(shù)與中位數(shù)的數(shù)值不相等;③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等;④這組數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等。其中結(jié)論正確的個數(shù)為()。A、1B、2C、3D、4【正確答案】:B解析:

眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)最多的變量值;中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值;均值是各數(shù)值加總求和再除以總的個數(shù)。此題中眾數(shù)為3,中位數(shù)為3,平均值為4,故①和③正確。6.下列描述中不屬于向量空間模型缺陷的是()。A、維度災(zāi)難B、模型稀疏性C、語義信息缺失D、無法計算文本相似度【正確答案】:D解析:

無法計算文本相似度的原因有出現(xiàn)新詞在向量模型中沒有該詞匯或分詞工具對于詞匯切分與上次不同等其他原因。7.下列關(guān)于數(shù)據(jù)倉庫最終目的的描述正確的是()。A、收集業(yè)務(wù)需求B、建立數(shù)據(jù)倉庫邏輯模型C、開發(fā)數(shù)據(jù)倉庫的應(yīng)用分析D、為用戶和業(yè)務(wù)部門提供決策支持【正確答案】:D解析:

數(shù)據(jù)倉庫的最終目的是為用戶和業(yè)務(wù)部門提供決策支持。8.與其他觀測值的差別較大,以至于懷疑它是由不同的機(jī)制產(chǎn)生的觀測值是()。A、邊界點B、質(zhì)心C、離群點D、核心點【正確答案】:C解析:

離群點(outlier)是指數(shù)值中遠(yuǎn)離數(shù)值的一般水平的極端大值和極端小值。9.下列關(guān)于基本元數(shù)據(jù)描述正確的是()。A、基本元數(shù)據(jù)是與數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理、分析處理以及管理方面的信息【正確答案】:D解析:

基本元數(shù)據(jù)(Metadata)又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)。10.數(shù)據(jù)管理成熟度模型中成熟度等級最高的是()。A、已優(yōu)化級B、已測量級C、已定義級D、已管理級【正確答案】:A解析:

已優(yōu)化是數(shù)據(jù)管理成熟度模型中成熟度的最高等級。11.下列關(guān)于數(shù)據(jù)倉庫開發(fā)特點的描述不正確的是()。A、數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)B、數(shù)據(jù)倉庫使用的需求在開發(fā)初期就要明確C、數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)D、在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式【正確答案】:A解析:

數(shù)據(jù)倉庫開發(fā)要從需求出發(fā)。12.下列描述中屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域數(shù)據(jù)戰(zhàn)略的是()。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語表C、數(shù)據(jù)質(zhì)量評估D、過程質(zhì)量保障【正確答案】:A解析:

數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。13.下列關(guān)于OLAP的特性的描述:①快速性;②可分析性;③多維性;④信息性;⑤共享性。正確的是()。A、①②③B、②③④C、①②③④D、①②③④⑤【正確答案】:D解析:

OLAP具有快速性、可分析性、多維性、信息性、共享性等特性。14.一切皆可連,任何數(shù)據(jù)之間邏輯上都有可能存在聯(lián)系,這體現(xiàn)了大數(shù)據(jù)思維維度中的()。A、定量思維B、相關(guān)思維C、因果思維D、檢驗思維【正確答案】:B解析:

《我們的大數(shù)據(jù)時代》一書認(rèn)為一切皆可連,任何數(shù)據(jù)之間邏輯上都有可能存在聯(lián)系,這體現(xiàn)了大數(shù)據(jù)思維維度中的相關(guān)思維。15.下列不是目前機(jī)器學(xué)習(xí)所面臨的問題是()。A、測試集的規(guī)模B、維度災(zāi)難C、特征工程D、過擬合【正確答案】:A解析:

目前,機(jī)器學(xué)習(xí)領(lǐng)域所面臨的主要挑戰(zhàn)包括過擬合(Overfiting)、維度災(zāi)難(CurseofDimensionality)、特征工程(FeatureEngineering)、算法的可擴(kuò)展性(Scalability)和模型集成。16.數(shù)據(jù)管理成熟度模型-DMM將一個機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、()、數(shù)據(jù)質(zhì)量、平臺與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。A、數(shù)據(jù)管理B、數(shù)據(jù)治理C、數(shù)據(jù)策略D、數(shù)據(jù)安全【正確答案】:B解析:

DMM模型將一個機(jī)構(gòu)的數(shù)據(jù)管理工作抽象成6個關(guān)鍵過程域,即數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量、平臺與架構(gòu)、數(shù)據(jù)操作以及輔助性過程。17.下列關(guān)于數(shù)據(jù)相關(guān)性的說法錯誤的是()。A、相關(guān)性體現(xiàn)了大數(shù)據(jù)的靈魂B、相關(guān)性思維實現(xiàn)了從“為什么”到“是什么”的思維轉(zhuǎn)變C、相關(guān)性關(guān)注事物的因果關(guān)系D、相關(guān)性關(guān)注事物的相關(guān)關(guān)系【正確答案】:C解析:

相關(guān)性是指兩個變量的關(guān)聯(lián)程度,可以有正相關(guān)、負(fù)相關(guān)、不相關(guān)。18.下列關(guān)于數(shù)據(jù)產(chǎn)品開發(fā)關(guān)鍵環(huán)節(jié)的描述正確的是()。A、數(shù)據(jù)收集B、數(shù)據(jù)預(yù)處理C、數(shù)據(jù)學(xué)習(xí)D、數(shù)據(jù)加工【正確答案】:D解析:

數(shù)據(jù)加工(DataWrangling或DataMunging)是數(shù)據(jù)產(chǎn)品開發(fā)的關(guān)鍵環(huán)節(jié)。19.下列關(guān)于大數(shù)據(jù)的分析理念的說法錯誤的是()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追求效率而不是絕對精確D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)【正確答案】:D解析:

在大數(shù)據(jù)的分析理念中,數(shù)據(jù)規(guī)模上強(qiáng)調(diào)絕對數(shù)據(jù)而不是相對數(shù)據(jù)。20.探索性分析與驗證性分析的不同點是()。A、探索性分析需要事先假設(shè)B、探索性分析比驗證性分析復(fù)雜C、探索性分析在前D、驗證性分析在前【正確答案】:C解析:

驗證性分析需要事先假設(shè),因數(shù)據(jù)不同復(fù)雜程度也不同,探索性分析一般在前,為驗證性分析提供參考。21.第一數(shù)字定律中使用概率最大的數(shù)字是()。A、0B、1C、2D、3【正確答案】:B解析:

第一數(shù)字定律表示,數(shù)字1使用最多,使用概率接近1/3;數(shù)字2為17.6%;數(shù)字3為12.5%;依次遞減,數(shù)字9的使用概率是4.6%。22.大數(shù)據(jù)的“4V”特性不包括()。A、VolumeB、VelocityC、VisualD、Variety【正確答案】:C解析:

通常,用“4V”來表示大數(shù)據(jù)的基本特征:Volume(數(shù)據(jù)量大)、Variety(類型多)、Value(價值高)、Velocity(速度快)。23.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的(不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A、暫時隔離B、暫時刪除C、永久刪除D、不做處理【正確答案】:C解析:

數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的永刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。24.數(shù)據(jù)集成的基本類型是()。A、內(nèi)容集成、結(jié)構(gòu)集成B、內(nèi)容集成、規(guī)約集成C、規(guī)約集成、結(jié)構(gòu)集成D、模式集成、結(jié)構(gòu)集成【正確答案】:A解析:

數(shù)據(jù)集成是指通過應(yīng)用間的數(shù)據(jù)交換從而達(dá)到集成,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問題,其前提是被集成應(yīng)用必須公開數(shù)據(jù)結(jié)構(gòu),即必須公開表間結(jié)構(gòu)、表間關(guān)系、編碼的含義等。25.下列屬于NoSQL數(shù)據(jù)庫中Key-Value缺點的是()。A、不記錄結(jié)構(gòu)信息B、查詢性能不高,缺乏統(tǒng)一查詢語法C、功能相對有限D(zhuǎn)、功能相對有限,不易于做分布式集群【正確答案】:A解析:

Key-Value型數(shù)據(jù)通常Key與Value之間采用某種方法(如哈希表)建立KValue映射,其缺點是不記錄結(jié)構(gòu)信息,無法建立索引。26.大數(shù)據(jù)參考架構(gòu)的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術(shù)價值鏈B、信息技術(shù)價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術(shù)價值鏈D、信息(活動)價值鏈和信息交互價值鏈【正確答案】:A解析:

大數(shù)據(jù)參考架構(gòu)圍繞代表大數(shù)據(jù)價值鏈的信息價值鏈(水平軸)和信息技術(shù)價值鏈(垂直軸)兩個維度組織展開。27.一般將原始業(yè)務(wù)數(shù)據(jù)分為多個部分,用于構(gòu)建模型的是()。A、訓(xùn)練集B、測試集C、驗證集D、全部數(shù)據(jù)【正確答案】:A解析:

訓(xùn)練集、測試集和驗證集的功能分別為訓(xùn)練(構(gòu)建)模型、測試模型以及模型選擇與超級參數(shù)的調(diào)優(yōu)。28.2003年,Tableau在斯坦福大學(xué)誕生,它起源于一種改變數(shù)據(jù)使用方式的新技術(shù),即()A、VizQL語言B、SQL語言C、XSQL語言D、NewSQL語言【正確答案】:A解析:

VizQL是一種可視化查詢語言,可將拖放動作轉(zhuǎn)化為數(shù)據(jù)查詢,然后以可視化的形式表達(dá)數(shù)據(jù),是Tableau的起源。29.()是實現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。A、數(shù)據(jù)管理B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)規(guī)劃【正確答案】:C解析:

從DMM模型可以看出,數(shù)據(jù)治理是實現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。數(shù)據(jù)管理指通過管理數(shù)據(jù)實現(xiàn)組織機(jī)構(gòu)的某種業(yè)務(wù)目的。然而,數(shù)據(jù)治理則指如何確保數(shù)據(jù)管理順利、有效、科學(xué)地完成。30.大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用()。A、所有數(shù)據(jù)B、部分?jǐn)?shù)據(jù)C、少量數(shù)據(jù)D、抽樣數(shù)據(jù)【正確答案】:A解析:

大數(shù)據(jù)的一種表現(xiàn)形式為接近其總體的所有數(shù)據(jù)。31.()的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。A、數(shù)據(jù)處理B、數(shù)據(jù)計算C、數(shù)據(jù)加工D、整齊數(shù)據(jù)【正確答案】:C解析:

數(shù)據(jù)加工(DataWrangling或DataMunging)的本質(zhì)是將低層次數(shù)據(jù)轉(zhuǎn)換為高層次數(shù)據(jù)的過程。從加工程度看,數(shù)據(jù)可以分為零次、一次、二次、三次數(shù)據(jù)。32.下列不是開源工具特點的是()。A、免費(fèi)B、可以直接獲取源代碼C、用戶可以修改源代碼并不加說明用于自己的軟件中D、開源工具一樣具有版權(quán)【正確答案】:C解析:

延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來代碼中的協(xié)議、商標(biāo)、專利聲明和其他原來作者規(guī)定需要包含的說明。如果再發(fā)布的產(chǎn)品中包含一個Notice文件,則在Notice文件中需要帶有開源工具的Licence。你可以在Notice中增加自己的許可,但不可以表現(xiàn)為對開源工具Licence構(gòu)成更改。33.新興數(shù)據(jù)管理技術(shù)主要包括NoSQL技術(shù)、NewSQL技術(shù)和()。A、數(shù)據(jù)倉庫B、關(guān)系云C、數(shù)據(jù)庫系統(tǒng)D、文件系統(tǒng)【正確答案】:B解析:

關(guān)系云是在云計算環(huán)境中部署和虛擬化的關(guān)系數(shù)據(jù)庫,進(jìn)而使傳統(tǒng)關(guān)系數(shù)據(jù)庫具備云計算的彈性計算、虛擬化、按需服務(wù)和高經(jīng)濟(jì)性等特征。關(guān)系云代表了數(shù)據(jù)管理的一個重要發(fā)展方向。34.下列關(guān)于數(shù)據(jù)倉庫隨時間變化的描述不正確的是()。A、數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B、捕捉到的新數(shù)據(jù)會覆蓋原來的快照C、數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容D、數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進(jìn)行重新綜合【正確答案】:C解析:

一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。35.下列關(guān)于數(shù)據(jù)交易市場的說法錯誤的是()。A、數(shù)據(jù)交易市場是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展到一定程度的產(chǎn)物B、商業(yè)化的數(shù)據(jù)交易活動催生了多方參與的第三方數(shù)據(jù)交易市場C、數(shù)據(jù)交易市場通過生產(chǎn)、研發(fā)和分析數(shù)據(jù),為數(shù)據(jù)交易提供幫助D、數(shù)據(jù)交易市場是大數(shù)據(jù)資源化的必然產(chǎn)物【正確答案】:C解析:

數(shù)據(jù)交易市場不生產(chǎn)數(shù)據(jù)。36.下列不屬于大數(shù)據(jù)重要意義的是()。A、大數(shù)據(jù)成為推動經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動力B、大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機(jī)遇C、大數(shù)據(jù)成為提升政府治理能力的新途徑D、大數(shù)據(jù)會增加經(jīng)濟(jì)發(fā)展的成本【正確答案】:D解析:

大數(shù)據(jù)可以促進(jìn)經(jīng)濟(jì)的發(fā)展,催生新的業(yè)態(tài),在輔助商業(yè)決策、降低運(yùn)營成本、精準(zhǔn)市場的營銷方面都能發(fā)揮作用,進(jìn)一步提升企業(yè)競爭力。37.下列關(guān)于特征編碼的敘述不正確的是()。A、特征編碼是將非數(shù)值型特征轉(zhuǎn)換成數(shù)值型特征的方法B、數(shù)字編碼與特征的排序無關(guān)C、One-Hot編碼中,原始特征有n種取值,轉(zhuǎn)換后就會產(chǎn)生n列新特征D、啞變量編碼解決了One-Hot編碼中存在線性關(guān)系的問題【正確答案】:B解析:

數(shù)字編碼與特征的排序有關(guān),先出現(xiàn)的優(yōu)先排序。38.下列關(guān)于DMM(數(shù)據(jù)管理成熟度模型)中已管理級基本特點的描述正確的是()。A、組織機(jī)構(gòu)的數(shù)據(jù)管理關(guān)鍵活動能夠根據(jù)結(jié)構(gòu)自身的反饋以及外部環(huán)境的變革進(jìn)行不斷優(yōu)化B、組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過程的執(zhí)行過程C、組織機(jī)構(gòu)只在項目管理過程中執(zhí)行了D、M給出的關(guān)鍵過程,而缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理E、組織機(jī)構(gòu)的數(shù)據(jù)管理工作超出了項目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理其數(shù)據(jù)管理關(guān)鍵過程【正確答案】:D解析:

DMM(數(shù)據(jù)管理成熟度模型)中“已管理級”的基本特點是組織機(jī)構(gòu)的數(shù)據(jù)管埋工作超出了項目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理其數(shù)據(jù)管理關(guān)鍵過程。39.在數(shù)據(jù)科學(xué)項目的活動流程中,主要用于回答“我們用什么方式記錄和展現(xiàn)數(shù)據(jù)結(jié)果”問題的是()。A、數(shù)據(jù)的獲得與管理B、模式/模型的驗證和優(yōu)化C、結(jié)果的可視化與文檔化D、模式/模型的應(yīng)用及維護(hù)【正確答案】:C解析:

結(jié)果的可視化與文檔化階段主要回答的問題是“我們用什么方式記錄和展現(xiàn)數(shù)據(jù)結(jié)果”。結(jié)果的可視化和文檔化分別代表的是數(shù)據(jù)項目結(jié)果的可視化表達(dá)和文檔化記錄(包括故事化描述)。可視化和文檔化方式的選擇對于數(shù)據(jù)科學(xué)項目的成敗,尤其是項目干系人(Stakeholders)的正確理解具有重要意義。40.下列關(guān)于數(shù)據(jù)轉(zhuǎn)換的說法正確的是()。A、Json內(nèi)的取值只能有統(tǒng)一格式B、PDF文件在不同平臺上打開顯示不同C、可以通過Python將CSV文件轉(zhuǎn)換成Excel格式D、Excel存儲數(shù)據(jù)的量無限制【正確答案】:C解析:

Json內(nèi)的取值可以有多種格式,PDF文件在不同平臺上打開顯示相同,Excel存儲數(shù)據(jù)的量在Excel2007及以后版本,一個工作表最多可有1048576行、16384列。41.因子分析把每個原始變量分解為()兩部分因素。A、公共因子和特殊因子B、特殊因子和相關(guān)因子C、相關(guān)因子和獨立因子D、獨立因子和公共因子【正確答案】:A解析:

因子分析把每個原始變量分解為公共因子和特殊因子兩部分因素。42.利用到每個聚類中心和的遠(yuǎn)近判斷離群值的方法,可以基于的算法為()。A、K-meansB、KNNC、SVMD、LinearRegression【正確答案】:A解析:

K-means算法又名K均值算法。其算法思想大致為先從樣本集中隨機(jī)選取K個樣本作為簇中心,并計算所有樣本與這K個簇中心的距離,對于每一個樣本,將其劃分到與其距離最近的簇中心所在的簇中,對于新的簇計算各個簇的新的簇中心。43.下列不屬于可視化視覺下的數(shù)據(jù)類型的是()。A、定類數(shù)據(jù)B、定序數(shù)據(jù)C、定寬數(shù)據(jù)D、定比數(shù)據(jù)【正確答案】:C解析:

從可視化處理視角看,可以將數(shù)據(jù)分為定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)和定比數(shù)據(jù)4個類型,并采用不同的視覺映射方法。在可視化領(lǐng)域,對數(shù)據(jù)進(jìn)行分類分析是由于不同類型的數(shù)據(jù)可支持的操作類型不同。44.下列不屬于數(shù)據(jù)科學(xué)項目主要角色的是()。A、項目發(fā)起人B、項目經(jīng)理C、操作員D、驗收人員【正確答案】:D解析:

數(shù)據(jù)科學(xué)項目涉及的主要角色有項目發(fā)起人(ProjectSponsor)、項目經(jīng)理(ProjecManager)、客戶(Client)、數(shù)據(jù)科學(xué)家(DataScientist)、數(shù)據(jù)工程師(DataEngineer)、操作員(Operations)等。45.在比較模型的擬合效果時,甲、乙、丙三個模型的相關(guān)指數(shù)R2的值分別約為0.71、0.85、0.90,則擬合效果較好的模型是()。A、甲B、乙C、丙D、效果一樣【正確答案】:C解析:

R2的取值為0~1,越靠近1,擬合效果越好。46.PagcRank是一個函數(shù),它對Web中的每個網(wǎng)頁賦予一個實數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要【正確答案】:D解析:

PageRank認(rèn)為,如果A頁面有一個鏈接指向B頁面,那就可以看作是A頁面對B頁面的一種信任或推薦。所以,如果一個頁面的反向鏈接越多,根據(jù)這些鏈接的價值加權(quán)越高,那搜索引擎就會判斷這樣的頁面更為重要。47.數(shù)據(jù)科學(xué)是一門以()為主要研究任務(wù)的獨立學(xué)科。A、數(shù)據(jù)驅(qū)動、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞見、數(shù)據(jù)產(chǎn)品研發(fā)和(或)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)B、數(shù)據(jù)研發(fā)C、數(shù)據(jù)處理D、數(shù)據(jù)洞見【正確答案】:A解析:

數(shù)據(jù)科學(xué)是一門以實現(xiàn)從數(shù)據(jù)到信息、從數(shù)據(jù)到知識和(或)從數(shù)據(jù)到智慧的轉(zhuǎn)化為主要研究目的,以數(shù)據(jù)驅(qū)動、數(shù)據(jù)業(yè)務(wù)化、數(shù)據(jù)洞見、數(shù)據(jù)產(chǎn)品研發(fā)和(或)數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)為主要研究任務(wù)的獨立學(xué)科。48.數(shù)據(jù)科學(xué)家可能會同時使用多個算法(模型)進(jìn)行預(yù)測,并且把這些算法的結(jié)果集成起來進(jìn)行最后的預(yù)測(集成學(xué)習(xí)),下列關(guān)于集成學(xué)習(xí)的說法正確的是()。A、單個模型之間具有高相關(guān)性B、單個模型之間具有低相關(guān)性C、在集成學(xué)習(xí)中使用平均權(quán)重而不是投票會比較好D、單個模型都用同一個算法【正確答案】:B解析:

集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型以期得到一個更好、更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個弱模型得到了錯誤的預(yù)測,其他的弱模型也可以將錯誤

糾正回來。某一個弱模型要有一定的準(zhǔn)確性,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個體學(xué)習(xí)器間具有差異。集成中既可包含同種類型的弱模型,也可包含不同類型的弱模型。49.異常檢測中,檢測一元正態(tài)分布中的離群點基于的技術(shù)是()。A、統(tǒng)計方法B、鄰近度C、密度D、機(jī)器學(xué)習(xí)技術(shù)【正確答案】:A解析:

略。50.數(shù)據(jù)科學(xué)中,人們開始注意到傳統(tǒng)數(shù)據(jù)處理方式中普遍存在的信息丟失現(xiàn)象,進(jìn)而數(shù)據(jù)處理范式變?yōu)椋ǎ、從產(chǎn)品在先,數(shù)據(jù)在后范式轉(zhuǎn)向數(shù)據(jù)在先,產(chǎn)品在后范式或無模式B、從模式在先,產(chǎn)品在后范式轉(zhuǎn)向產(chǎn)品在先,模式在后范式或無模式C、從數(shù)據(jù)在先,模式在后范式或無模式轉(zhuǎn)向模式在先,數(shù)據(jù)在后范式D、從模式在先,數(shù)據(jù)在后范式轉(zhuǎn)向數(shù)據(jù)在先,模式在后范式或無模式【正確答案】:D解析:

傳統(tǒng)關(guān)系數(shù)據(jù)庫中,先定義模式,然后嚴(yán)格按照模式要求存儲數(shù)據(jù);當(dāng)需要調(diào)整模式時,不僅需要數(shù)據(jù)結(jié)構(gòu),而且還需要修改上層應(yīng)用程序。然而,NoSQL技術(shù)則采用了非常簡單的Key-Value等模式在后(SchemaLater)和無模式(Schemaless)的方式提升了數(shù)據(jù)管理系統(tǒng)的自適應(yīng)能力。當(dāng)然,模式在后(SchemaLater)和無模式(Schemaless)也會帶來新問題,如降低了數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)處理能力。51.下列描述中不屬于數(shù)據(jù)預(yù)處理方法的是()。A、數(shù)據(jù)清洗:去噪聲和無關(guān)數(shù)據(jù)B、數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存在一個一致的數(shù)據(jù)存儲中C、數(shù)據(jù)變換:把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式D、數(shù)據(jù)轉(zhuǎn)化:把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)【正確答案】:D解析:

數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別[男,女]分別轉(zhuǎn)換為[0,1]。52.決定事務(wù)對數(shù)據(jù)對象加鎖后擁有何種控制權(quán)的是鎖的()。A、狀態(tài)B、類型C、數(shù)量D、屬性【正確答案】:B解析:

在2PL中,鎖的類型分為排他鎖和共享鎖等。53.建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的()。A、基礎(chǔ)B、前提C、核心D、條件【正確答案】:C解析:

略。54.下列不屬于大數(shù)據(jù)平臺安全管理組件提供的功能的是()。A、接口代理B、接口認(rèn)證C、接口授權(quán)D、路由代理【正確答案】:D解析:

接口可以對用戶的身份和請求的參數(shù)進(jìn)行驗證,以保證接口的安全。通過添加身份驗證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。55.在一些算法中,為了進(jìn)行屬性之間的比較或運(yùn)算,需要把不同屬性的不同變量取值范圍變換成同一范圍,以免使得結(jié)果發(fā)生扭曲,偏向取值范圍大的變量。這一過程稱為()。A、合并B、數(shù)據(jù)聚合C、歸一化D、數(shù)據(jù)處理【正確答案】:C解析:

歸一化是一種無量綱處理手段,使物理系統(tǒng)數(shù)值的絕對值變成某種相對值關(guān)系,是簡化計算、縮小量值的有效辦法。56.DIKW金字塔模型中,頂層與底層的名稱分別為()。A、智慧與數(shù)據(jù)B、知識與數(shù)據(jù)C、智慧與數(shù)值D、知識與數(shù)值【正確答案】:A解析:

DIKW金字塔(DIKWPyramid)模型揭示了數(shù)據(jù)(Data)與信息(Information)、知識(Knowledge)、智慧(Wisdom)之間的區(qū)別與聯(lián)系,自底向上分別為數(shù)據(jù)、信息、知識、智慧。57.大數(shù)據(jù)涌現(xiàn)現(xiàn)象的形式有多種,不屬于大數(shù)據(jù)涌現(xiàn)形式的是()。A、價值涌現(xiàn)B、隱私涌現(xiàn)C、物質(zhì)涌現(xiàn)D、質(zhì)量涌現(xiàn)【正確答案】:C解析:

大數(shù)據(jù)并不等同于小數(shù)據(jù)的集合。從小數(shù)據(jù)到大數(shù)據(jù)的過程中出現(xiàn)了涌現(xiàn)現(xiàn)象,涌現(xiàn)才是大數(shù)據(jù)的本質(zhì)特征。涌現(xiàn)(Emergence)就是系統(tǒng)大于元素之和,或者系統(tǒng)在跨越層次時,出現(xiàn)了新的質(zhì)。大數(shù)據(jù)涌現(xiàn)現(xiàn)象的具體表現(xiàn)形式有多種,如價值涌現(xiàn)、隱私涌現(xiàn)、質(zhì)量涌現(xiàn)和安全涌現(xiàn)等。58.下列不屬于視覺通道表現(xiàn)力評價指標(biāo)的是()。A、精確性B、可辨認(rèn)性C、可分離性D、可轉(zhuǎn)換性【正確答案】:D解析:

在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道表現(xiàn)力的評價指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺突出性。59.數(shù)據(jù)變換的策略包括()。A、平滑處理、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、離散化B、平滑處理、特征構(gòu)造、聚集、審計、離散化C、平滑處理、聚集、標(biāo)準(zhǔn)化、審計、離散化D、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、審計、離散化【正確答案】:A解析:

數(shù)據(jù)變換的策略不包括審計。60.目前,多數(shù)NoSQL數(shù)據(jù)庫是針對特定應(yīng)用場景研發(fā)出來的,其設(shè)計遵循()原則,更強(qiáng)調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)可擴(kuò)展性。A、EASYB、READC、BASED、BASIC【正確答案】:C解析:

BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventuallyConsistent(最終一致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致狀態(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實時一致,系統(tǒng)在某一個時刻后達(dá)到一致性要求即可。61.數(shù)據(jù)的故事化描述是指為了提升數(shù)據(jù)的(),將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。A、可理解性、可記憶性、可體驗性B、可接受性、可記憶性、可體驗性C、可接受性、可記憶性、可呈現(xiàn)性D、可理解性、可記憶性、可呈線性【正確答案】:A解析:

數(shù)據(jù)的故事化描述(Storytelling)是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗性,將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。62.下列關(guān)于缺失值的說法錯誤的是()。A、可以利用統(tǒng)計量對缺失值進(jìn)行填補(bǔ)B、可以利用K近鄰值對缺失值進(jìn)行填補(bǔ)C、只要有缺失值就必須把對應(yīng)記錄刪除D、對于缺失值較多的屬性可以考慮刪除【正確答案】:C解析:

缺失值可以通過刪除、填補(bǔ)等方法進(jìn)行處理。63.下列關(guān)于數(shù)據(jù)創(chuàng)新的說法正確的是()。A、多個數(shù)據(jù)集的總和價值等于單個數(shù)據(jù)集價值相加B、由于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去C、相同數(shù)據(jù)多次用于相同或類似用途,其有效性會降低D、數(shù)據(jù)只有開放價值才可以得到真正釋放【正確答案】:D解析:

略。64.下列關(guān)于文本分類的說法不正確的是()。A、文本分類是指按照預(yù)先定義的主題類別,由計算機(jī)自動地為文檔集合中的每個文檔確定一個類別B、文本分類系統(tǒng)大致可分為基于知識工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計算兩個步驟【正確答案】:C解析:

詞袋模型沒有考慮文本詞語的原本行文順序。65.下列關(guān)于OLAP和OLTP的區(qū)別描述不正確的是()。A、OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)C、OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高D、OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的【正確答案】:C解析:

OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,記錄即時的增、刪、改、查,比如在銀行存取一筆款,就是一個事務(wù)交易。OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉庫的核心,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動態(tài)報表系統(tǒng)。66.下列不屬于現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型的是()。A、數(shù)據(jù)源與AppB、基礎(chǔ)設(shè)施C、HadoopD、數(shù)據(jù)資源【正確答案】:C解析:

Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當(dāng)時快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到廣泛地應(yīng)用和不斷地更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017人數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開源工具、跨平臺基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。67.數(shù)據(jù)安全不只是技術(shù)問題,還涉及()。A、人員問題B、管理問題C、行政問題D、領(lǐng)導(dǎo)問題【正確答案】:B解析:

數(shù)據(jù)安全不只是技術(shù)問題,還涉及管理問題。68.在著名管理學(xué)家Thomas·H.Davernport在《哈佛商業(yè)論壇》上發(fā)表的題為《第三代分析學(xué)(Analytics3.0)》的經(jīng)典論文中,Analytics3.0時代是指()。A、商務(wù)智能時代B、大數(shù)據(jù)時代C、數(shù)據(jù)富足供給時代D、數(shù)據(jù)智能時代【正確答案】:C解析:

Analytics3.0的名稱為數(shù)據(jù)富足供給時代(Data-enrichedOfferings)。與Analytics2.0不同的是,Analytics3.0中數(shù)據(jù)分析更為專業(yè)化,從技術(shù)實現(xiàn)和常用工具角度看,Analytics3.0將采用更為專業(yè)的分析工具,而不再直接采用Hadoop、Spark、NoSQL等大數(shù)據(jù)分析技術(shù)。同時,數(shù)據(jù)分析工作也由專業(yè)從事數(shù)據(jù)分析的數(shù)據(jù)科學(xué)家-首席分析師完成,數(shù)據(jù)科學(xué)家的類型將得到進(jìn)一步細(xì)化。69.數(shù)據(jù)探索是指針對目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),下列不是其搜索過程特點的是()。A、有選擇B、有策略C、有目標(biāo)D、反復(fù)進(jìn)行的【正確答案】:C解析:

數(shù)據(jù)探索是指針對目標(biāo)可變、持續(xù)、多角度的搜索或分析任務(wù),其搜索過程是有選擇、有策略和反復(fù)進(jìn)行的。70.將觀測值分為相同數(shù)目的兩部分,當(dāng)統(tǒng)計結(jié)果為非對稱分布時經(jīng)常使用的是()。A、眾數(shù)B、標(biāo)準(zhǔn)差C、中位數(shù)D、均值【正確答案】:C解析:

中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值。71.關(guān)系數(shù)據(jù)庫中存儲、計算和管理的數(shù)據(jù)是()。A、結(jié)構(gòu)化數(shù)據(jù)B、海量數(shù)據(jù)C、半結(jié)構(gòu)化數(shù)據(jù)D、非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:A解析:

通常,結(jié)構(gòu)化數(shù)據(jù)是指直接可以用傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲、計算和管理的數(shù)據(jù)。72.關(guān)系云的一個重要功能是提供()。A、數(shù)據(jù)庫即服務(wù)B、虛擬服務(wù)C、彈性計算D、按需服務(wù)【正確答案】:A解析:

關(guān)系云的一個重要功能是提供數(shù)據(jù)庫即服務(wù)(DatabaseasaService),用戶無須在本機(jī)安裝數(shù)據(jù)庫管理軟件,也不需要搭建自己的數(shù)據(jù)管理集群,而只需要使用服務(wù)提供商提供的數(shù)據(jù)庫服務(wù)。73.下列關(guān)于計算機(jī)存儲容量單位的說法錯誤的是()。A、1kBB、基本單位是字節(jié)(Byte)C、一個漢字需要一個字節(jié)的存儲空間D、一個字節(jié)能夠容納一個英文字符【正確答案】:C解析:

通常,一個漢字需要兩個字節(jié)的存儲空間。74.數(shù)據(jù)的可用性取決于()。A、數(shù)據(jù)分析B、數(shù)據(jù)集采C、數(shù)據(jù)質(zhì)量D、數(shù)據(jù)需求【正確答案】:C解析:

略。75.下列描述中不屬于規(guī)整數(shù)據(jù)(TidyData)三個基本原則的是()。A、每一類觀察單元構(gòu)成一個關(guān)系(表)B、每個觀察占且僅占一行C、每個變量占且僅占一列D、每個觀察占且僅占一個關(guān)系(表)【正確答案】:D解析:

tidyData原則為每列代表一個單獨變量、每行代表單個觀察值、每種觀察形成一個表格。76.下列不屬于數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)區(qū)別的是(A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學(xué)關(guān)注的不僅僅是“單一學(xué)科”問題,超出了數(shù)學(xué)、統(tǒng)計學(xué)、計算機(jī)科學(xué)等單一學(xué)科的范疇C、數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)域?qū)崉?wù)知識,它關(guān)注和強(qiáng)調(diào)的是二者的結(jié)合D、數(shù)據(jù)科學(xué)和統(tǒng)計學(xué)中的計算一樣,僅僅是加減乘除【正確答案】:D解析:

數(shù)據(jù)科學(xué)中的計算并不僅僅是加/減/乘/除等數(shù)學(xué)計算,而是包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型的計算。77.下列關(guān)于缺失值填補(bǔ)的說法不正確的是()。A、填補(bǔ)數(shù)據(jù)可以用中位數(shù)或者眾數(shù)等B、Pandas.dropna可以用來填補(bǔ)缺失值C、用平均值填補(bǔ)會引入相關(guān)D、啞變量填補(bǔ)是將缺失值當(dāng)做一類新特征處理【正確答案】:B解析:

Pandas.dropna可以用來刪除缺失值。78.數(shù)據(jù)分析的第一步是()。A、探索性分析B、描述性分析C、診斷性分析D、規(guī)范性分析【正確答案】:B解析:

數(shù)據(jù)分析的步驟:描述性分析、診斷性分析、預(yù)測性分析、規(guī)范性分析。79.離散程度的測度值愈大,則()。A、反映變量值愈分散,算術(shù)平均數(shù)代表性愈差B、反映變量值愈集中,算術(shù)平均數(shù)代表性愈差C、反映變量值愈分散,算術(shù)平均數(shù)代表性愈好D、反映變量值愈集中,算術(shù)平均數(shù)代表性愈好【正確答案】:A解析:

離散程度的測度值愈大,則反映變量值愈分散,算術(shù)平均數(shù)代表性愈差。80.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()。A、可關(guān)聯(lián)性B、可溯源性C、可理解性D、可復(fù)制性【正確答案】:A解析:

數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,降低數(shù)據(jù)的失用、失信和失控的風(fēng)險??坍嫈?shù)據(jù)連續(xù)性的特點描述如下:①可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是不同數(shù)據(jù)對象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的“失用”風(fēng)險。②可溯源性是在時間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個數(shù)據(jù)對象的歷史版本之間的連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理、可信度評估以及預(yù)測分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)的“失信”風(fēng)險。③可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)與其產(chǎn)生、管理和維護(hù)的主體(包括人與計算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)據(jù)可理解性的意義在于降低數(shù)據(jù)的“失控”風(fēng)險。81.美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標(biāo)明了大風(fēng)與洋流可能發(fā)生的地點。這體現(xiàn)了大數(shù)據(jù)分析理念中的()。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追究效率而不是絕對精確D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)【正確答案】:B解析:

本次分析主要分析了大風(fēng)和洋流可能發(fā)生的地與安全航路的相關(guān)性。82.下列關(guān)于數(shù)據(jù)產(chǎn)品的說法錯誤的是()。A、數(shù)據(jù)產(chǎn)品的存在形式是數(shù)據(jù)集B、與傳統(tǒng)物質(zhì)產(chǎn)品不同的是,數(shù)據(jù)產(chǎn)品的消費(fèi)者不僅限于人類用戶,還可以是計算機(jī)以及其他軟硬件系統(tǒng)C、數(shù)據(jù)產(chǎn)品不僅包括數(shù)據(jù)科學(xué)項目的最終產(chǎn)品,也包括其中間產(chǎn)品以及副產(chǎn)品D、數(shù)據(jù)產(chǎn)品開發(fā)涉及數(shù)據(jù)科學(xué)項目流程的全部活動【正確答案】:A解析:

數(shù)據(jù)產(chǎn)品的存在形式不僅限于數(shù)據(jù)集,還包括文檔、知識庫、應(yīng)用系統(tǒng)、硬件系統(tǒng)、服務(wù)、洞見、決策或它們的組合。

83.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是下列步驟中()的任務(wù)。A、頻繁模式挖掘B、分類和預(yù)測C、數(shù)據(jù)預(yù)處理D、數(shù)據(jù)流挖掘【正確答案】:C解析:

數(shù)據(jù)預(yù)處理是對原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約的過程。頻繁模式挖掘、分類和預(yù)測和數(shù)據(jù)流挖掘均屬于數(shù)據(jù)挖掘范疇。84.下列不屬于數(shù)據(jù)科學(xué)跨平臺基礎(chǔ)設(shè)施和分析工具的是()。A、微軟AzureB、Google云平臺C、阿里云D、Adobephotoshop【正確答案】:D解析:

Adobephotoshop軟件一般不作為數(shù)據(jù)分析工具。85.()反映數(shù)據(jù)的精細(xì)化程度,越細(xì)化的數(shù)據(jù),價值越高。A、規(guī)模B、靈活性C、關(guān)聯(lián)度D、顆粒度【正確答案】:D解析:

顆粒度反映的是數(shù)據(jù)的精細(xì)化程度。86.下列不屬于數(shù)據(jù)科學(xué)開源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark【正確答案】:B解析:

ERP系統(tǒng)是企業(yè)資源計劃(EnterpriseResourcePlanning)的簡稱,是指建立在信息技術(shù)基礎(chǔ)上,集信息技術(shù)與先進(jìn)管理思想于一身,以系統(tǒng)化的管理思想,為企業(yè)員工及決策層提供決策手段的管理平臺。87.下列不屬于大數(shù)據(jù)在社會活動中的典型應(yīng)用的是()。A、美團(tuán)實現(xiàn)了快速精準(zhǔn)的送餐服務(wù)B、共享單車、滴滴打車方便了人們的日常出行C、快遞實現(xiàn)了訂單的實時跟蹤D、供電公司提供電費(fèi)賬單查詢【正確答案】:D解析:

電費(fèi)賬單查詢屬于簡單報表查詢,用電情況分析、竊電行為分析、基于交易大數(shù)據(jù)分析用戶的購買習(xí)慣、基于傳感器感知的海量數(shù)據(jù)分析自然災(zāi)害的危害程度、基于搜索引擎的搜索關(guān)鍵詞分析社會熱點等屬于大數(shù)據(jù)應(yīng)用。88.下列判斷錯誤的是()。A、XML數(shù)據(jù)屬于半結(jié)構(gòu)化數(shù)據(jù)B、JSON文件屬于非結(jié)構(gòu)化數(shù)據(jù)C、PPT文件屬于非結(jié)構(gòu)化數(shù)據(jù)D、音視頻文件屬于非結(jié)構(gòu)化數(shù)據(jù)【正確答案】:B解析:

JSON文件屬于半結(jié)構(gòu)化數(shù)據(jù)。89.下列關(guān)于數(shù)據(jù)科學(xué)的描述錯誤的是()。A、數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值,也不等同于數(shù)值B、數(shù)據(jù)科學(xué)中的計算包括數(shù)據(jù)的查詢、挖掘、洞見等C、數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是跨學(xué)科視角D、數(shù)據(jù)科學(xué)不包括理論知識,只包括領(lǐng)域?qū)崉?wù)經(jīng)驗【正確答案】:D解析:

數(shù)據(jù)科學(xué)既包括理論知識,又包括領(lǐng)域?qū)崉?wù)經(jīng)驗。90.數(shù)據(jù)產(chǎn)品的定義是()。A、數(shù)據(jù)產(chǎn)品是指能夠供給市場,被人們使用和消費(fèi),并能滿足人們某種需求的任何東西B、數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)地做決策(甚至行動)的一種產(chǎn)品形式C、數(shù)據(jù)產(chǎn)品是指為了滿足自身的需要,通過科技發(fā)明或經(jīng)驗總結(jié)而形成的技術(shù)D、數(shù)據(jù)產(chǎn)品是數(shù)據(jù)科學(xué)的結(jié)果,創(chuàng)造了新的實物形態(tài)和使用價值的產(chǎn)品【正確答案】:B解析:

數(shù)據(jù)產(chǎn)品是可以發(fā)揮數(shù)據(jù)價值去輔助用戶更優(yōu)地做決策(甚至行動)的一種產(chǎn)品形式。91.下列關(guān)于數(shù)據(jù)的描述錯誤的是()。A、數(shù)據(jù)化與數(shù)字化是兩個不同概念B、數(shù)據(jù)與數(shù)值是一個概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個不同的概念D、數(shù)據(jù)和信息是兩個不同的概念【正確答案】:B解析:

除了數(shù)值,數(shù)據(jù)科學(xué)中的數(shù)據(jù)還包括文字、圖形、圖像、動畫、文本、語音、視頻、多媒體和富媒體等多種類型。92.下列不屬于數(shù)據(jù)脫敏要求的是()。A、雙向性B、單向性C、無殘留D、易于實現(xiàn)【正確答案】:A解析:

數(shù)據(jù)脫敏操作不能停留在簡單地將敏感信息屏蔽掉或匿名處理。數(shù)據(jù)脫敏操作必須滿足以下3個要求:單向性、無殘留、易于實現(xiàn)。93.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行()等處理的過程。A、更正B、刪除C、補(bǔ)充錄入D、以上答案都正確【正確答案】:D解析:

數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行更正、刪除、補(bǔ)充錄入等處理的過程。94.在數(shù)據(jù)科學(xué)中,通常下載R的包的服務(wù)器是()。A、PIPB、CRANC、RstudioD、PyP1【正確答案】:B解析:

CRAN的全稱為TheComprehensiveRArchivcNetwork,在R編程中通常從該服務(wù)器下載所需包。95.從行為目的與思維方式看,下列屬于描述性統(tǒng)計分析的是()。A、線性回歸B、參數(shù)估計C、相關(guān)分析D、主成分分析【正確答案】:C解析:

描述性統(tǒng)計是指運(yùn)用制表和分類、圖形以及計算概括性數(shù)據(jù)來描述數(shù)據(jù)特征的各項活動。描述性統(tǒng)計分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計性描述,主要包括數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散程度分析、分布、相關(guān)分析以及一些基本的統(tǒng)計圖形。96.有研究發(fā)現(xiàn)“頁面的顯示速度每延遲1s,網(wǎng)站訪問量就會降低11%,從而導(dǎo)致營業(yè)額或者注冊量減少7%,顧客滿意度下降16%”。該項研究表明了在數(shù)據(jù)產(chǎn)品開發(fā)中更加重要的是()。A、查全率B、用戶體驗C、數(shù)據(jù)可視化D、查準(zhǔn)率【正確答案】:B解析:

在大數(shù)據(jù)時代,用戶體驗更加重要。97.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革的是()。A、不是隨機(jī)樣本,而是全體數(shù)據(jù)B、不是精確性,而是混雜性C、不是描述性分析,而是預(yù)測性分析D、不是因果關(guān)系,而是相關(guān)關(guān)系【正確答案】:C解析:

Mayer-Sch?nbergerV和CukierK.在其著名論著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革:①不是隨機(jī)樣本,而是全體數(shù)據(jù):大數(shù)據(jù)時代應(yīng)遵循“樣本=總體”的理念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。②不是精確性,而是混雜性;大數(shù)據(jù)時代應(yīng)承認(rèn)數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。③不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時代的思想方式應(yīng)轉(zhuǎn)變--不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。98.平滑圖像處理可以采用RGB彩色()。A、直方圖均衡化模型B、直方圖均衡化模型C、加權(quán)均值濾波模型D、中值濾波模型【正確答案】:C解析:

平滑圖像處理可以采用RGB彩色加權(quán)均值濾波模型。99.大數(shù)據(jù)應(yīng)用需依托的新技術(shù)有()。A、大規(guī)模并行處理B、數(shù)據(jù)分析處理C、智能化D、三個選項都是【正確答案】:D解析:

適用于大數(shù)據(jù)的技術(shù)包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)據(jù)分析、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)、智能化相術(shù)等。100.下列關(guān)于混合模型聚類算法的優(yōu)、缺點的說法正確的是()。A、當(dāng)簇只包含少量數(shù)據(jù)點或者數(shù)據(jù)點近似協(xié)線性時,混合模型也能很好地處理B、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇C、混合模型比K均值或模糊C均值更一般,因為它可以使用各種類型的分布D、混合模型在有噪聲和離群點時不會存在問題【正確答案】:C解析:

K均值與模糊C均值都是迭代求取最終值的聚類劃分,即聚類中心與隸屬度值。兩者都不能保證找到問題的最優(yōu)解,都有可能收斂到局部極值。模糊C均值是K均值方法的改進(jìn),算法的目標(biāo)函數(shù)與K均值一致,區(qū)別在于目標(biāo)函數(shù)中增加了模糊權(quán)重指數(shù);GMM高斯混合模型聚類采用了新的判斷依據(jù)-概率,即通過屬于某一類的概率大小來判斷最終的歸屬類別。1.大數(shù)據(jù)處理流程可以概括為()。A、數(shù)據(jù)分析與挖掘B、數(shù)據(jù)采集C、數(shù)據(jù)儲存D、結(jié)果展示【正確答案】:ABCD解析:

算法歧視是指算法設(shè)計、實現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。

6.?dāng)?shù)據(jù)增值存在的過程有()。

A.數(shù)據(jù)對象的封裝

B.數(shù)據(jù)系統(tǒng)的研發(fā)

C.數(shù)據(jù)的集成應(yīng)用

D.基于數(shù)據(jù)的創(chuàng)新

參考【正確答案】:ABCD

解析:數(shù)據(jù)對象的封裝、數(shù)據(jù)系統(tǒng)的研發(fā)、數(shù)據(jù)的集成應(yīng)用、基于數(shù)據(jù)的創(chuàng)新均需要進(jìn)行數(shù)據(jù)增值。

7.大數(shù)據(jù)參考架構(gòu)的三個層次包含()。

A.角色

B.活動

C.邏輯構(gòu)件

D.功能組件

參考【正確答案】:ABD

解析:GB/T35589-2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動的功能組件以及它們之間的關(guān)系。

8.分布式列式存儲的功能有()。

A.支持在線快速讀寫

B.支持線性擴(kuò)展

C.具備節(jié)點監(jiān)控管理

D.數(shù)據(jù)同源不壓縮

參考【正確答案】:ABC

解析:分布式列式存儲的功能包括數(shù)據(jù)壓縮。

9.下列關(guān)于現(xiàn)階段大數(shù)據(jù)2.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評估B、主動定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)D、應(yīng)對并解決因不遵守規(guī)則而產(chǎn)生的問題【正確答案】:BCD解析:

DGI(TheDataGovemanceInstitute)認(rèn)為數(shù)據(jù)治理是對數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動。它是一個信息處理過程中根據(jù)模型來執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。3.NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、圖存儲【正確答案】:ABCD解析:

NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括Key-Value、Key-Document、Key-Column、存儲。4.ETL包含的過程有()。A、數(shù)據(jù)抽取B、數(shù)據(jù)轉(zhuǎn)換C、數(shù)據(jù)加載D、數(shù)據(jù)展現(xiàn)【正確答案】:ABC解析:

ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取tract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。5.大數(shù)據(jù)參考架構(gòu)的三個層次包含()。A、角色B、活動C、邏輯構(gòu)件D、功能組件【正確答案】:ABD解析:

GB/T35589-2017《信息技術(shù)大數(shù)據(jù)技術(shù)參考模型》描述了大數(shù)據(jù)的參考架構(gòu),包括角色、活動的功能組件以及它們之間的關(guān)系。6.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運(yùn)用()等技術(shù)等多個學(xué)科領(lǐng)域的知識,以實現(xiàn)人機(jī)協(xié)同完成可視化任務(wù)為主要目的的分析推理學(xué)科。A、物理學(xué)B、圖形學(xué)C、數(shù)據(jù)挖掘D、人機(jī)交互【正確答案】:BCD解析:

可視分析學(xué)(VisualAnalytics);科學(xué)可視化和信息可視化理論的進(jìn)一步演變以及與其他學(xué)科相互交融發(fā)展之后的結(jié)果。在數(shù)據(jù)科學(xué)中,通常采用數(shù)據(jù)可視化的廣義定義方法,并以可視分析學(xué)為主要理論基礎(chǔ)。7.在假設(shè)檢驗中,當(dāng)原假設(shè)為偽,但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫()。A、a錯誤B、β錯誤C、取偽錯誤D、棄真錯誤【正確答案】:BC解析:

a錯誤(棄真錯誤):當(dāng)原假設(shè)為真時,但我們錯誤地認(rèn)為“原偶的”,進(jìn)而導(dǎo)致拒絕這個正確假設(shè);β錯誤(取偽錯誤):當(dāng)原假設(shè)為假時,但我們錯誤地認(rèn)為“原假設(shè)是成立的”,進(jìn)而導(dǎo)致接受此錯誤假設(shè)。8.常用的數(shù)據(jù)審計方法可以分為()。A、預(yù)定義審計B、自定義審計C、可視化審計D、結(jié)構(gòu)化審計【正確答案】:ABC解析:

常用的數(shù)據(jù)審計方法有預(yù)定義審計、自定義審計和可視化審計三種。9.分布式列式存儲的功能有()。A、支持在線快速讀寫B(tài)、支持線性擴(kuò)展C、具備節(jié)點監(jiān)控管理D、數(shù)據(jù)同源不壓縮【正確答案】:ABC解析:

分布式列式存儲的功能包括數(shù)據(jù)壓縮。10.主要用來實現(xiàn)實時計算類應(yīng)用的組件有()。A、流計算組件B、內(nèi)存計算組件C、MPP數(shù)據(jù)庫D、Hadoop的后臺定時分析計算任務(wù)【正確答案】:AB解析:

實時計算類應(yīng)用主要通過流計算組件、內(nèi)存計算組件來實現(xiàn)。11.下列關(guān)于中心極限定理的說法正確的有()。A、中心極限定理說明,對于大量相互獨立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限B、中心極限定理說明,對于大量相互獨立的隨機(jī)變量,其均值的分布以t分布為極限C、中心極限定理為Z檢驗提供了理論支持D、中心極限定理是數(shù)理統(tǒng)計學(xué)和誤差分析的基礎(chǔ)【正確答案】:ACD解析:

中心極限定理說明,對于大量相互獨立的隨機(jī)變量,其均值的分布以正態(tài)分布為極限。12.下列為RDBMS中事務(wù)遵循原則的有()。A、原子性(Atomicity)B、一致性(Consistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:

關(guān)系數(shù)據(jù)庫中的事務(wù)需要具備一定的規(guī)則-ACID特征。ACID是指數(shù)據(jù)庫事務(wù)正確執(zhí)行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。13.下列屬于數(shù)據(jù)統(tǒng)計分析工具的有()。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:

常用統(tǒng)計軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。14.數(shù)據(jù)從產(chǎn)生到終結(jié)共包含的環(huán)節(jié)有()。A、數(shù)據(jù)產(chǎn)生B、數(shù)據(jù)傳輸C、數(shù)據(jù)使用D、數(shù)據(jù)共享E、數(shù)據(jù)銷毀【正確答案】:ABCDE解析:

數(shù)據(jù)的全壽命周期有獲取(產(chǎn)生)、存儲、共享、維護(hù)、應(yīng)用(使用)、消亡(銷毀),在以上這些過程都會有數(shù)據(jù)傳輸過程。15.在數(shù)據(jù)科學(xué)中,通??梢圆捎茫ǎ┯行П苊鈹?shù)據(jù)加工和數(shù)據(jù)備份的偏見。A/B測試B、訓(xùn)練集和測試集的劃分C、測試集和驗證集的劃分D、圖靈測試【正確答案】:A解析:

A/B測試是一種對比試驗,準(zhǔn)確說是一種分離式組間試驗,在試驗過程中,我們從總體中隨機(jī)抽取一些樣本進(jìn)行數(shù)據(jù)統(tǒng)計,進(jìn)而得出對總體參數(shù)的多個評估。A/B測試能有效避免數(shù)據(jù)加工和數(shù)據(jù)備份的偏見,對算法/模型選擇偏見具有重要借鑒意義。16.下列關(guān)于降維說法正確的有()。A、PA是根據(jù)方差這一屬性降維的B、降維可以防止模型過擬合C、降維降低了數(shù)據(jù)集特征的維度D、降維方法有PLA等【正確答案】:ACD解析:

降維不能用于防止模型過擬合。17.數(shù)據(jù)管理包含的管理活動有()。A、識別B、度量C、監(jiān)拉D、預(yù)警【正確答案】:ABCD解析:

數(shù)據(jù)管理指對數(shù)據(jù)生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控以及預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平是的數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。18.已測量級(MeasuredLevel)的主要特點包括()。A、已構(gòu)建了關(guān)鍵過程矩陣B、已定義了變革管理的正式流程C、已實現(xiàn)用定量化方式計算關(guān)鍵過程的質(zhì)量和效率D、關(guān)鍵過程的質(zhì)量和效率的管理涉及整個生命周期【正確答案】:ABCD解析:

DMM的已測量級(McasuredLevel);組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過程的共行過程。主要特點如下:①已構(gòu)建了關(guān)鍵過程矩陣;②已定義了變革管理的正式流程;③已實現(xiàn)用定量化方式計算關(guān)健過程的質(zhì)量和效率;④關(guān)鍵過程的質(zhì)量和效率的管理涉及其全生命周期。19.下列關(guān)于單樣本:檢驗的說法錯誤的有()。A、當(dāng)單樣本t檢驗的自由度越來越大時,正態(tài)分布越來越趨向于t分布B、單樣本t檢驗適用于樣本量比較多(n>30)的情況C、t分布的不確定性比正態(tài)分布小,其原因是樣本數(shù)量比較小D、單樣本t檢驗通常也被叫作學(xué)生t檢驗【正確答案】:ABC解析:

t檢驗,也稱studentt檢驗(Student'sttest),主要用于樣本含量較?。ɡ鏽<30),總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布。t檢驗是用1分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著。20.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計學(xué)的驗證性分析方法的區(qū)別有()。A、EDA需要事先提出假設(shè),而驗證性分析不需要B、EDA中采用的方法往往比驗證性分析簡單C、在一般數(shù)據(jù)科學(xué)項目中,探索性分析在先,驗證性分析在后D、EDA更為簡單、易學(xué)和易用【正確答案】:BCD解析:

在一般數(shù)據(jù)科學(xué)項目中,探索性分析在先,驗證性分析在后,EDA中采用的方往往比驗證性分析簡單。21.可視分析學(xué)的特點包含()。A、強(qiáng)調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程B、強(qiáng)調(diào)可視化分析與自動化建模之間的相互作用C、強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性D、強(qiáng)調(diào)數(shù)據(jù)加工(DataWrangling或DataMunging)工作的必要性E、強(qiáng)調(diào)人機(jī)交互的重要性【正確答案】:ABCDE解析:

從可視分析學(xué)模型可以看出,可視分析學(xué)的流程具有如下特點:①強(qiáng)調(diào)數(shù)據(jù)到知識的轉(zhuǎn)換過程??梢暬治鰧W(xué)中對數(shù)據(jù)可視化工作的理解發(fā)生了根本性變化-數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識,而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上。從數(shù)據(jù)到知識的轉(zhuǎn)換途徑有可視化分析和自動化建模兩種。②強(qiáng)調(diào)可視化分析與自動化建模之間的相互作用。二者的相互作用主要體現(xiàn)在:一方面,可視化技術(shù)可用于數(shù)據(jù)建模中的參數(shù)改進(jìn)的依據(jù);另一方面,數(shù)據(jù)建模也可以支持?jǐn)?shù)據(jù)可視化活動,為更好地實現(xiàn)用戶交互提供參考。③強(qiáng)調(diào)數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。從數(shù)據(jù)到知識轉(zhuǎn)換的兩種途徑-可視化分析與自動化建模分別通過數(shù)據(jù)映射和數(shù)據(jù)挖掘兩種不同方法實現(xiàn)。因此,數(shù)據(jù)映射和數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)可視化的兩個重要支撐技術(shù)。用戶可以通過兩種方法的配合使用實現(xiàn)模型參數(shù)調(diào)整和可視化映射方式的改變,盡早發(fā)現(xiàn)中間步驟中的錯誤,進(jìn)而提升可視化操作的信度與效度。④強(qiáng)調(diào)數(shù)據(jù)加工工作的必要性。數(shù)據(jù)可視化處理之前一般需要對數(shù)據(jù)進(jìn)行預(yù)處理(轉(zhuǎn)換)工作,且預(yù)處理活動的質(zhì)量將影響數(shù)據(jù)可視化效果。⑤強(qiáng)調(diào)人機(jī)交互的重要性??梢暬^程往往涉及人機(jī)交互操作,需要重視人與計算機(jī)在數(shù)據(jù)可視化工作中的互補(bǔ)性優(yōu)勢。因此,人機(jī)交互以及人機(jī)協(xié)同工作也將成為未來數(shù)據(jù)可視化研究與實踐的重要手段。22.數(shù)據(jù)科學(xué)以數(shù)據(jù)尤其是大數(shù)據(jù)為研究對象,主要研究內(nèi)容包括()。A、數(shù)據(jù)加工B、數(shù)據(jù)管理C、數(shù)據(jù)計算D、數(shù)據(jù)產(chǎn)品開發(fā)【正確答案】:ABCD解析:

數(shù)據(jù)科學(xué)是一門以數(shù)據(jù),尤其是大數(shù)據(jù)為研究對象,并以數(shù)據(jù)統(tǒng)計、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等為理論基礎(chǔ),主要研究數(shù)據(jù)加工、數(shù)據(jù)管理、數(shù)據(jù)計算、數(shù)據(jù)產(chǎn)品開發(fā)等活動的交叉性學(xué)科。23.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性,還包括()。A、完整性B、可用性C、不可否認(rèn)性D、可審計性【正確答案】:ABCD解析:

數(shù)據(jù)安全不等同于數(shù)據(jù)保密。通常,除了數(shù)據(jù)保密--數(shù)據(jù)的機(jī)密也(Confidentiality)之外,數(shù)據(jù)安全還包括完整性(Integrity)、可用性(Availability)、不可否認(rèn)性(Non-repudiation)、鑒別(Authentication)、可審計性(Accountability)和可靠姓(Reliability)等多個維度。24.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠()。A、直觀反映成對數(shù)據(jù)之間的空間關(guān)系B、直觀反映多維數(shù)據(jù)之間的空間關(guān)系C、靜態(tài)演化事物的變化及變化的規(guī)律D、動態(tài)演化事物的變化及變化的規(guī)律E、提供高性能并行計算技術(shù)的強(qiáng)力支撐【正確答案】:BD解析:

可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系,以及能夠動態(tài)演化事物的變化及變化的規(guī)律。25.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲數(shù)據(jù),表結(jié)構(gòu)包含的元素有()。A、關(guān)鍵字B、時間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:

BigTable和HBase的索引由行關(guān)鍵字、列簇和時間戳組成。26.使用極大似然估計的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分?jǐn)?shù)據(jù)集C、提前已知某先驗概率D、數(shù)據(jù)集各個屬性相對獨立【正確答案】:AB解析:

極大似然估計(MLE)要求樣本獨立同分布,否則無法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。27.在數(shù)據(jù)缺失嚴(yán)重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進(jìn)行填補(bǔ)。常用的填補(bǔ)方法有()。A、平均值填充B、K最近鄰距離法C、回歸法D、極大似然估計E、多重插補(bǔ)法【正確答案】:ABCDE解析:

在數(shù)據(jù)缺失嚴(yán)重時,會對分析結(jié)果造成較大的影響,因此對于剔除的異常值和缺失值,要采用合理的方法進(jìn)行填補(bǔ)。常用的填補(bǔ)方法有平均值填充、K最近鄰距離法、回歸法、極大似然估計、多重插補(bǔ)法。28.下列關(guān)于總體和樣本的說法正確的有()。A、總體也就是研究對象的全體B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10s抽取的產(chǎn)品C、樣本是從總體的隨機(jī)抽樣D、如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級的100名學(xué)生【正確答案】:ABC解析:

小學(xué)包括多個年級,樣本沒有代表性。29.在數(shù)據(jù)安全領(lǐng)域常用的P2DR模型中,P、D和R代表的是()。A、策略B、防護(hù)C、檢測D、響應(yīng)【正確答案】:ABCD解析:

P2DR模型是美國ISS公司提出的一種動態(tài)網(wǎng)絡(luò)安全體系,認(rèn)為網(wǎng)絡(luò)安全是一種動態(tài)的、有條件的相對安全。P2DR模型包括四個主要部分:Policy(策略)、Protection(防護(hù))、Detection(檢測)和Response(響應(yīng))。其中,安全策略處于核心地位,為其他三個組成部分提供支持和指導(dǎo),而保護(hù)、檢測和響應(yīng)為網(wǎng)絡(luò)安全的三個基本活動。30.下列關(guān)于CAP理論說法正確的有()。A、一個分布式系統(tǒng)不能同時滿足一致性、可用性和分區(qū)容錯性等需求B、一致性主要指強(qiáng)一致性C、一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一特征的損失(放棄)D、可用性指每個操作總是在給定時間之內(nèi)得到返回所需要的結(jié)果【正確答案】:ABCD解析:

CAP理論認(rèn)為,一個分布式系統(tǒng)不能同時滿足一致性(Consistency)、可用(Availability)和分區(qū)容錯性(PartitionTolerance)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的-一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐?dǎo)致另一個特征的損失(放棄)。31.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的有()。A、深度優(yōu)先遇歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略E、大站優(yōu)先策略【正確答案】:AB解析:

在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。32.噪聲是指測量變量中的隨機(jī)錯誤或偏差,噪聲數(shù)據(jù)的主要表現(xiàn)形式有()。A、錯誤數(shù)據(jù)B、假數(shù)據(jù)C、異常數(shù)據(jù)D、僵尸數(shù)據(jù)【正確答案】:ABC解析:

錯誤數(shù)據(jù)、假數(shù)據(jù)、異常數(shù)據(jù)在測量變量中多被定義為噪聲。33.主要面向或關(guān)注過去的數(shù)據(jù)分析過程有()。A、描述性分析B、診斷性分析C、預(yù)測性分析D、規(guī)范性分析【正確答案】:AB解析:

Gartner分析學(xué)價值扶梯模型認(rèn)為,從復(fù)雜度及價值高低兩個維度,可以將數(shù)據(jù)分析分為描述性分析、診斷性分析、預(yù)測性分析和規(guī)范性分析四種,其中描述性分析和診斷性分析關(guān)注和面向的是過去的時間點。34.區(qū)塊鏈?zhǔn)牵ǎ┑扔嬎銠C(jī)技術(shù)的新型應(yīng)用模式。A、分布式數(shù)據(jù)存儲B、點對點傳輸C、共識機(jī)制D、加密算法【正確答案】:ABCD解析:

區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲、點對點傳輸、共識機(jī)制、加密算法等計算機(jī)技術(shù)的新型應(yīng)用模式。35.下列關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系的說法正確的有()。A、基礎(chǔ)設(shè)施提供數(shù)據(jù)計算、數(shù)據(jù)存儲、數(shù)據(jù)加工(DataWrangling或DataMunging)等服務(wù)B、數(shù)據(jù)流處理、統(tǒng)計工具、日志分析都屬于常用的開源工具C、數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機(jī)構(gòu)D、數(shù)據(jù)源與App為數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內(nèi)容【正確答案】:ABCD解析:

Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當(dāng)時快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到了廣泛應(yīng)用和不斷更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017大數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開源工具、跨平臺基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。36.大數(shù)據(jù)偏見包括()。A、數(shù)據(jù)源的選擇偏見B、算法與模型偏見C、結(jié)果解讀方法的偏見D、數(shù)據(jù)呈現(xiàn)方式的偏見【正確答案】:ABCD解析:

大數(shù)據(jù)偏見是數(shù)據(jù)科學(xué)項目中必須關(guān)注和加以避免的問題,上述四個活動中均可能出現(xiàn)偏見。37.數(shù)據(jù)科學(xué)基本原則中,“三世界”原則指的是()。A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】:ABC解析:

大數(shù)據(jù)時代的到來,在我們的精神世界和物理世界之間出現(xiàn)了一種新的世界-數(shù)據(jù)世界。因此,在數(shù)據(jù)科學(xué)中,通常需要研究如何運(yùn)用數(shù)據(jù)世界中已存在的痕跡數(shù)據(jù)的方式解決物理世界中的具體問題,而不是直接到物理世界,采用問卷和訪談等方法親自收集采訪數(shù)據(jù)。相對于采訪數(shù)據(jù),痕跡數(shù)據(jù)更具有客觀性。圖靈獎獲得者JimGray提出的科學(xué)研究第四范式-數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensiveScientificDiscovery)是“三世界”原則的代表性理論之一。38.下列描述中屬于特征選擇的優(yōu)點有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】:BCD解析:

特征選擇無法克服模型自身的缺陷,二者是獨立的。39.下列屬于大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)的方面有()。A、具有勞動增值B、涉及法律權(quán)屬C、具有財務(wù)價值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動增值、涉及法律權(quán)屬、具有財務(wù)價值、涉及道德與倫理。40.完整性約束通常包括()。.A、實體完整性B、域完整性C、參照完整性D、用戶定義完整性【正確答案】:ABCD解析:

在關(guān)系數(shù)據(jù)庫中,完整性約束通常包括:①實體完整性:規(guī)定表的每一行在關(guān)系表中是唯一的實體。②域完整性:指關(guān)系表中的列必須滿足某種特定的數(shù)據(jù)類型約束,其中約束又包括取值范圍、精度等規(guī)定。③參照完整性:指兩個關(guān)系表的主關(guān)鍵字和外關(guān)鍵字的數(shù)據(jù)應(yīng)一致,保證了表之間的數(shù)據(jù)的一致性,防止了數(shù)據(jù)丟失或無意義的數(shù)據(jù)在數(shù)據(jù)庫中擴(kuò)散。④用戶定義的完整性:不同的關(guān)系數(shù)據(jù)庫系統(tǒng)根據(jù)其應(yīng)用環(huán)境的不同,往往還需要一些特殊的約束條件。用戶定義的完整性即針對某個特定關(guān)系數(shù)據(jù)庫的約束條件,它反映某一具體應(yīng)用必須滿足的語義要求。41.下列說法中正確的有()。A、云計算的主要特點是非常昂貴B、大數(shù)據(jù)是多源、異構(gòu)、動態(tài)的復(fù)雜數(shù)據(jù),即具有4V特征的數(shù)據(jù)C、大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對象之一D、MapReduce是采用云計算這種新的計算模式研發(fā)出的具體工具軟件(或算法)【正確答案】:BCD解析:

云計算的一個重要優(yōu)勢在于其經(jīng)濟(jì)性。與其他計算模式不同的是,云計算的出發(fā)點是如何使用成本低的商用機(jī)(而不是成本很高的高性能服務(wù)器)實現(xiàn)強(qiáng)大的計算能力。42.假設(shè)一個隨機(jī)變量服從正態(tài)分布,則與隨機(jī)變量的概率分布有關(guān)的有()。A、眾數(shù)B、頻數(shù)C、平均值D、方差【正確答案】:CD解析:

正態(tài)分布一般用均值和方差來刻畫。43.傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點包括()。A、數(shù)據(jù)一致性高B、數(shù)據(jù)冗余度低C、簡單處理的效率高D、產(chǎn)品成熟度高【正確答案】:ABD解析:

略。44.已定義級(DefinedLevel)的主要特點包括()。A、組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的標(biāo)準(zhǔn)定義,并定期對其進(jìn)行改進(jìn)B、已提供了關(guān)鍵過程的測量與預(yù)測方法C、關(guān)鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作D、數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識,將數(shù)據(jù)當(dāng)作成功實現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一【正確答案】:ABCD解析:

DMM的已定義級(DefinedLevel):組織機(jī)構(gòu)已經(jīng)定義了自己的標(biāo)準(zhǔn)關(guān)鍵過程。其主要特點如下:①組織機(jī)構(gòu)已明確給出了關(guān)鍵過程的標(biāo)準(zhǔn)定義,并定期對其進(jìn)行改進(jìn);②已提供了關(guān)鍵過程的測量與預(yù)測方法;③關(guān)鍵過程的執(zhí)行過程并不是簡單或死板地執(zhí)行組織機(jī)構(gòu)給出的標(biāo)準(zhǔn)定義,而是根據(jù)具體業(yè)務(wù)進(jìn)行了一定的裁剪工作;④數(shù)據(jù)的重要性已成為組織機(jī)構(gòu)層次的共識,將數(shù)據(jù)當(dāng)作成功實現(xiàn)組織機(jī)構(gòu)使命的關(guān)鍵因素之一。45.以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)方面有()。A、數(shù)據(jù)驅(qū)動B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】:ABC解析:

以數(shù)據(jù)為中心是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的以數(shù)據(jù)中心的特征不僅體現(xiàn)在以數(shù)據(jù)為核心生產(chǎn)要素,而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動、數(shù)據(jù)密集和數(shù)據(jù)范式。46.下列關(guān)于數(shù)據(jù)產(chǎn)品研發(fā)的說法錯誤的有()。A、從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B、一次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題C、二次數(shù)據(jù)是對一次數(shù)據(jù)進(jìn)行深度處理或分析后得到的增值數(shù)據(jù)D、三次數(shù)據(jù)是對二次數(shù)據(jù)進(jìn)行洞察與分析后得到的、可以直接用于決策支持的洞見數(shù)據(jù)【正確答案】:ABD解析:

二次數(shù)據(jù)是一種按照信息的生產(chǎn)過程和加工深度進(jìn)行對信息進(jìn)行分類的,是指根據(jù)特定的需求,對一次信息進(jìn)行加工、分析、改編、重組、綜合概括生成的信息。47.下列關(guān)于探索型數(shù)據(jù)分析常用圖表的說法正確的有()。A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數(shù)據(jù)之間的特征和對比B、探索型數(shù)據(jù)分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點圖、箱型圖等C、在探索型數(shù)據(jù)分析時應(yīng)該盡量避免使用餅圖,然而在數(shù)據(jù)報告中可以使用餅圖達(dá)到更加美觀的效果D、直方圖和箱型圖都可以用來展示數(shù)據(jù)的分布情況【正確答案】:BCD解析:

數(shù)據(jù)之間的特征和對比使用條形圖可更加直觀地展示數(shù)據(jù)。48.下列描述中正確的有()。A、統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B、Python語言是統(tǒng)計學(xué)家發(fā)明的語言C、機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D、數(shù)據(jù)科學(xué)是統(tǒng)計學(xué)的一個分支領(lǐng)域(子學(xué)科)【正確答案】:AC解析:

Python發(fā)明者是GuidoVanRossum,并非為統(tǒng)計學(xué)家;數(shù)據(jù)科學(xué)是一門獨立學(xué)科,已經(jīng)超出了統(tǒng)計學(xué)一個學(xué)科的研究范疇,并非為統(tǒng)計學(xué)的一個分支。49.下列關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函數(shù)的說法正確的有()。A、一個客服一天可能接聽到多少個電話是一個連續(xù)型隨機(jī)變量B、正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布C、可以使用概率密度函數(shù)來描述連續(xù)型隨機(jī)變量的概率分布D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1【正確答案】:BCD解析:

一個客服一天可能接聽到多少個電話是一個離散型隨機(jī)變量。50.Analytics1.0的主要特點有()。A、分析活動滯后于數(shù)據(jù)的生成B、重視結(jié)構(gòu)化數(shù)據(jù)的分析C、以對歷史數(shù)據(jù)的理解為主要目的D、注重描述性分析【正確答案】:ABCD解析:

著名管理學(xué)家Thomas·H·Davemport于2013年在《哈佛商業(yè)論壇(HarvaBusinessReview)》上發(fā)表一篇題為《第三代分析學(xué)(Analytics3.0)》的論文,將數(shù)據(jù)分析的法、技術(shù)和工具-分析學(xué)(Analytics)分為三個不同時代-商務(wù)智能時代、大數(shù)據(jù)時代數(shù)據(jù)富足供給時代,即Analytics1.0、Analytics2.0和Analytics3.0。其中,Analytics1.0是商智能時代(1950~2000年),Analytics1.0中常用的工具軟件為數(shù)據(jù)倉庫及商務(wù)智能類軟件,般由數(shù)據(jù)分析師或商務(wù)智能分析師負(fù)責(zé)完成。Analytics1.0的主要特點有分析活動滯后于數(shù)據(jù)的生成、重視結(jié)構(gòu)化數(shù)據(jù)的分析、以對歷史數(shù)據(jù)的理解為主要目的、注重描述性分析。51.異常值的檢測方法有()。A、直接通過數(shù)據(jù)可視化進(jìn)行觀察B、通過統(tǒng)計分布進(jìn)行判斷C、通過相對距離進(jìn)行度量D、通過相對密度進(jìn)行度量【正確答案】:ABCD解析:

異常值的檢測方法有直接通過數(shù)據(jù)可視化進(jìn)行觀察、通過統(tǒng)計分布進(jìn)行判斷、通過相對距離進(jìn)行度量、通過相對密度進(jìn)行度量。52.數(shù)據(jù)科學(xué)項目主要涉及的活動包括()。A、模式/模型的應(yīng)用及維護(hù)B、模式/模型的洞見C、結(jié)果的可視化與文檔化D、模式/模型的驗證和優(yōu)化【正確答案】:ABCD解析:

數(shù)據(jù)科學(xué)項目是由從項目目標(biāo)的定義到模式/模型的應(yīng)用及維護(hù)的一系列雙

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論