數(shù)據(jù)清洗期末試卷答案_第1頁
數(shù)據(jù)清洗期末試卷答案_第2頁
數(shù)據(jù)清洗期末試卷答案_第3頁
數(shù)據(jù)清洗期末試卷答案_第4頁
數(shù)據(jù)清洗期末試卷答案_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

學(xué)院

期末試卷A

2020-2021學(xué)年第一學(xué)期

考試課程:數(shù)據(jù)清洗

課程代碼:

考試形式:閉卷考試

考試班級(jí):20大數(shù)據(jù)

命題教師:

教研室主任:

系(院)主任:

教務(wù)處長:

學(xué)院

2020-2021學(xué)年第一學(xué)期輔修試卷

《數(shù)據(jù)清洗A》(課程代碼:)

考試時(shí)間:120分鐘總分:100分

一'名詞解釋題(每題5分,共10分)

1、數(shù)據(jù)的標(biāo)準(zhǔn)化

2、數(shù)據(jù)集成

二、選擇題(每空2分,共10分)

1、噪聲數(shù)據(jù)主要包含錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)和()

A、異常數(shù)據(jù)B、真實(shí)數(shù)據(jù)C、污染數(shù)據(jù)D、都對(duì)

2、、特征二值化的核心在于設(shè)定一個(gè)()

A、元素B、閾值

C、元素D、關(guān)鍵值

3、定性特征啞編碼又稱為獨(dú)熱碼,它用不同的()對(duì)應(yīng)不同的數(shù)據(jù)值。

A、數(shù)據(jù)B、數(shù)值C、狀態(tài)D、節(jié)點(diǎn)

4、數(shù)據(jù)壓縮是指在()前提下,縮減數(shù)據(jù)量以減少存儲(chǔ)空間,提高其傳輸、存

儲(chǔ)和處理效率,或按照一定的算法對(duì)數(shù)據(jù)進(jìn)行重新組織,減少數(shù)據(jù)的冗余和存儲(chǔ)

的空間的一種技術(shù)方法。()

A、不丟失有用信息的B、不丟失所有信息的C、不丟失真實(shí)信息的

D、以上三個(gè)都是

5、在Python在,GroupBy對(duì)象的用途是()。

A、執(zhí)行分割-應(yīng)用-組合操作B、執(zhí)行排序操作C、執(zhí)行定位操作D、都不

三'簡(jiǎn)答題(每題8分,共48分)

1.描述數(shù)據(jù)歸約思想及實(shí)現(xiàn)。

2、描述回歸法主要思想。

3、描述大數(shù)據(jù)采集的特點(diǎn)。

4、請(qǐng)寫出8個(gè)以上的Excel中用于數(shù)據(jù)清洗的函數(shù)

5、什么是數(shù)據(jù)類型?有哪些常見的數(shù)據(jù)類型?

6、如何使用kettle對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析

四、程序題(每題6分共12分)

1.寫出程序用Python讀取文本內(nèi)容

2.創(chuàng)建一個(gè)Series,并更新Series的索引

五'論述題(每題20分共20分)

如何使用kettle清洗超出范圍的數(shù)據(jù)?畫出流程圖并說明含義

答案:

一、名詞解釋題(每題5分,共10分)

1、數(shù)據(jù)的標(biāo)準(zhǔn)化

數(shù)據(jù)的標(biāo)準(zhǔn)化,是通過一定的數(shù)學(xué)變換方式,將原始數(shù)據(jù)按照一定的比例進(jìn)行轉(zhuǎn)換,使之落入

到一個(gè)小的特定區(qū)間內(nèi),例如0~1或-1~1的區(qū)間內(nèi),消除不同變量之間性質(zhì)、量綱、數(shù)量級(jí)等

特征屬性的差異,將其轉(zhuǎn)化為一個(gè)無量綱的相對(duì)數(shù)值。

2、數(shù)據(jù)集成

數(shù)據(jù)集成正是將把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為

企業(yè)提供全面的數(shù)據(jù)共享。

二'選擇題(每空2分,共20分)

ABCAA

三、簡(jiǎn)答題(每題8分,共32分)

1.數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量(完成該任務(wù)的

必要前提是理解挖掘任務(wù)和熟悉數(shù)據(jù)本身內(nèi)容)。數(shù)據(jù)歸約主要有兩個(gè)途徑:屬性選擇和數(shù)

據(jù)采樣,分別針對(duì)原始數(shù)據(jù)集中的屬性和記錄。

一般而言,原始數(shù)據(jù)可以用數(shù)據(jù)集的歸約表示。盡管歸約數(shù)據(jù)體積較小,但它仍接近于

保持原始數(shù)據(jù)的完整性。

2.回歸法是試圖發(fā)現(xiàn)兩個(gè)相關(guān)的變量之間的變化模式,通過使數(shù)據(jù)適合一個(gè)函數(shù)來平滑數(shù)

據(jù),即通過建立數(shù)學(xué)模型來預(yù)測(cè)下一個(gè)數(shù)值,包括線性回歸和非線性回歸。線性回歸涉及找

出擬合兩個(gè)屬性(或變量)的“最佳”直線,使得一個(gè)屬性可以用來預(yù)測(cè)另一個(gè)。非線性回歸

是線性回歸的擴(kuò)充,其中涉及的屬性多余兩個(gè),并且數(shù)據(jù)擬合到一個(gè)多維曲面。

3.大數(shù)據(jù)采集與一般的傳統(tǒng)采集不同,大數(shù)據(jù)的采集過程的主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)

高,因?yàn)橥瑫r(shí)可能會(huì)有成千上萬的用戶在進(jìn)行訪問和操作。例如,火車票售票網(wǎng)站、飛機(jī)票

售票網(wǎng)站和淘寶網(wǎng)站的并發(fā)訪問量在峰值時(shí)可達(dá)到上百萬甚至是上千萬,所以在采集端需要

部署大量數(shù)據(jù)庫才能對(duì)其支撐。并且在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片是需要深入的思

考和設(shè)計(jì)的。

此外,根據(jù)數(shù)據(jù)源的不同,大數(shù)據(jù)采集方法也不相同。但是為了能夠滿足大數(shù)據(jù)采集

的需要,大數(shù)據(jù)采集時(shí)大多都使用了大數(shù)據(jù)的處理模式,即M叩Reduce分布式并行處理模

式或是基于內(nèi)存的流式處理模式。

4.FIND函數(shù)、SEARCH函數(shù)、REPLACE函數(shù)、UBSTITUTE函數(shù)、LEFT函數(shù)、

RIGHT函數(shù)、MID函數(shù)、DOLLAR函數(shù)。

5.數(shù)據(jù)類型是指是一個(gè)值的集合和定義在這個(gè)值集上的一組操作的總稱。它的出現(xiàn)是為了

把數(shù)據(jù)分成所需內(nèi)存大小不同的數(shù)據(jù),以便于程序的運(yùn)行。通??梢愿鶕?jù)數(shù)據(jù)類型的特點(diǎn)將數(shù)

據(jù)劃分為不同的類型,如原始類型、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參考

類型以及函數(shù)類型等。在每種編程語言和數(shù)據(jù)庫中都有不同的數(shù)據(jù)類型。

常見的數(shù)據(jù)類型主要包含有:數(shù)值型、日期型、時(shí)間性、字符串型、邏輯型以及文本型

6.成功運(yùn)行ketlle后在菜單欄單擊文件,在“新建”中選擇“轉(zhuǎn)換”選項(xiàng),在“輸入”中選

擇“Excel輸入”選項(xiàng),在“統(tǒng)計(jì)”中選擇“單變量統(tǒng)計(jì)”選項(xiàng)進(jìn)行分析

四'程序題(每題10分共30分)

1.withopen('1.txt,)asfile_object:

contents=file_object.read()

print(contents)

2.importpandasaspd

data=np.array(「a?b?c?d'])

s=pd.Series(data)

print(s)

運(yùn)行結(jié)果為:

0a

1b

2c

3d

dtype:object

data=np.arrayCfa'/bVcVd'])

s=pd.Series(data,index=[100J01,102,103])

print(s)

運(yùn)行結(jié)果為:

100a

101b

102c

103d

dtype:object

s.index

運(yùn)行結(jié)果為:

Int641ndex([100,101,102,103],dtype='int64')

五、論述題(每題10分共10分)

文本文件捻出2

學(xué)院

期末試卷B

2020-2021學(xué)年第一學(xué)期

考試課程:數(shù)據(jù)清洗

課程代碼:

考試形式:閉卷考試

考試班級(jí):20大數(shù)據(jù)

命題教師:

教研室主任:

系(院)主任:

教務(wù)處長:

學(xué)院

2020-2021學(xué)年第一學(xué)期輔修試卷

《數(shù)據(jù)清洗B》(課程代碼:)

考試時(shí)間:120分鐘總分:100分

一、名詞解釋題(每題5分,共10分)

1、數(shù)據(jù)倉庫

2、NumPy

二'選擇題(每空2分,共10分)

1、噪聲數(shù)據(jù)主要包含錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)和()

A、異常數(shù)據(jù)B、真實(shí)數(shù)據(jù)C、污染數(shù)據(jù)D、都對(duì)

2、Pandas提供了兩種高效的的數(shù)據(jù)結(jié)構(gòu),series和()

A、defineB、form

C、numD、dataframe

3、Kafka是一種高吞吐量的分布式系統(tǒng)()。

A、數(shù)據(jù)采集B、發(fā)布訂閱消息C、數(shù)據(jù)集成D、數(shù)據(jù)及處理

4^Scribe是facebook開源的()

A、數(shù)據(jù)集成系統(tǒng)B、數(shù)據(jù)清洗系統(tǒng)C、數(shù)據(jù)實(shí)現(xiàn)系統(tǒng)D、

日志采集系統(tǒng)

5、在Excel中,LOOKUP函數(shù)的用途是()。

A、查找指定的值B、清除指定的值C、打開指定的值D、都不是

三'簡(jiǎn)答題(每題8分,共48分)

1.描述隨機(jī)變量分布思想。

2、描述3a原則。

3、描述網(wǎng)絡(luò)爬蟲。

4、描述數(shù)據(jù)抽取定義及實(shí)現(xiàn)方式。

5、描述Excel數(shù)據(jù)清洗和轉(zhuǎn)換的基本步驟。

6、描述R語言功能及特點(diǎn)。

四、程序題(每題6分共12分)

1.寫出程序用Python創(chuàng)建一個(gè)3x4的數(shù)組,并輸出和更新數(shù)組中的元素。

2.用Python將數(shù)據(jù)框按keyl歹U,key2列同時(shí)進(jìn)行分組求均值

五'論述題(每題20分共20分)

如何使用kettle去除重復(fù)數(shù)據(jù)?畫出流程圖并說明含義

答案:

一、名詞解釋題(每題5分,共10分)

1、數(shù)據(jù)倉庫

數(shù)據(jù)倉庫(DataWarehouse)簡(jiǎn)稱DW,顧名思義,數(shù)據(jù)倉庫是一個(gè)很大的數(shù)據(jù)存儲(chǔ)集合,出于

企業(yè)的分析性報(bào)告和決策支持目的而創(chuàng)建,并對(duì)多樣的業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選與整合。

2、NumPy

NumPy是Python中科學(xué)計(jì)算的第三方庫,代表“NumericPython”。它是一個(gè)提供多維數(shù)組

對(duì)象,多種派生對(duì)象(如:掩碼數(shù)組、矩陣)以及用于快速操作數(shù)組的函數(shù)及API

二'選擇題(每空2分,共20分)

ADBDA

三'簡(jiǎn)答題(每題8分,共32分)

1.隨機(jī)變量是指隨機(jī)事件的數(shù)量表現(xiàn),人們可以用數(shù)學(xué)分析的方法來研究隨機(jī)現(xiàn)象。例如

某一時(shí)間內(nèi)公共汽車站等車乘客人數(shù),電話交換臺(tái)在一定時(shí)間內(nèi)收到的呼叫次數(shù),電子元件

的壽命,一臺(tái)機(jī)器在一定時(shí)間內(nèi)出現(xiàn)故障的次數(shù),在實(shí)際工作中遇到的測(cè)量誤差等,都是隨

機(jī)變量的實(shí)例。按照隨機(jī)變量可能取得的值,可以把它們分為離散型與連續(xù)性兩種基本類型。

2.3a原則是指如果數(shù)據(jù)服從正態(tài)分布,那么在3a原則下,異常數(shù)據(jù)為一組測(cè)定值中與平均

值的偏差超過3倍標(biāo)準(zhǔn)差的值。因此,如果數(shù)據(jù)服從正態(tài)分布,那么距離平均值3a之外的

值出現(xiàn)的概率為P(|x-u|>3a)<=0.003,(屬于極個(gè)別的小概率事件)即可認(rèn)為是異常數(shù)據(jù)。

3.網(wǎng)絡(luò)爬蟲(WebSpider)又稱之為網(wǎng)絡(luò)機(jī)器人、網(wǎng)絡(luò)蜘蛛,是一種通過既定規(guī)則,能夠

自動(dòng)提取網(wǎng)頁信息的程序。爬蟲的目地在于將目標(biāo)網(wǎng)頁數(shù)據(jù)下載至本地,以便進(jìn)行后續(xù)的數(shù)

據(jù)分析。

4.數(shù)據(jù)抽取是指從數(shù)據(jù)源中抽取對(duì)企業(yè)有用的或感興趣的數(shù)據(jù)的過程,它的實(shí)質(zhì)是將數(shù)

據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來,它是大數(shù)據(jù)工作開展的前提。目前常用以下兩種方式

來實(shí)現(xiàn)數(shù)據(jù)抽取:關(guān)系庫中的數(shù)據(jù)抽取和非關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)抽取。

5.Excel數(shù)據(jù)清洗和轉(zhuǎn)換的基本步驟如下:

1)從外部數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。

2)在單獨(dú)的工作簿中創(chuàng)建原始數(shù)據(jù)的副本。

3)確保以行和列的表格形式顯示數(shù)據(jù),并且每列中的數(shù)據(jù)都相似;所有的列和行都可

見;范圍內(nèi)沒有空白行。為了獲得較佳結(jié)果,請(qǐng)使用Excel表。

4)首先執(zhí)行不需要對(duì)列進(jìn)行操作的任務(wù),例如拼寫檢查或使用“查找和替換”對(duì)話框。

5)然后執(zhí)行需要對(duì)列進(jìn)行操作的任務(wù)。對(duì)列進(jìn)行操作的一般步驟為:

a.在需要清理的原始列(A)旁邊插入新列(B)。

b.在新列(B)的頂部添加將要轉(zhuǎn)換數(shù)據(jù)的公式。

c.在新列(B)中向下填充公式。在Excel表中,將使用向下填充的值自動(dòng)創(chuàng)建計(jì)算列。

d.選擇并復(fù)制新列(B),然后將其作為值粘貼到新列(B)中。

e.刪除原始列(A),這樣,新列B將轉(zhuǎn)換為A。

6.R語言是用于統(tǒng)計(jì)分析,圖形表示報(bào)告的編程語言和軟件環(huán)境。R語言是由新西蘭奧

克蘭大學(xué)的RossIhaka和RobertGentleman創(chuàng)建的,目前由RDevelopmentCoreTeam開發(fā)

和維護(hù)。R語言的核心是一種解釋型的計(jì)算機(jī)語言,允許使用分支和循環(huán)以及函數(shù)的模塊化

編程。

四、程序題(每題10分共30分)

1.importnumpyasnp

a=np.array([[l,2,3,4],[5,6,7,8],[9,10,11,12]])#創(chuàng)建一個(gè)3X4的數(shù)組

a

#結(jié)果:

array([[1,2,3,4],

[5,6,7,81,

[9,10,11,12]])

b=a[:2,1:3]#取數(shù)組中第0,1行,第1,2列的元素

b

#結(jié)果:

array([[2,3],

[6,7]])

print(a[0,1])#運(yùn)行結(jié)果為:2

b[0,0]=77#將b[0,0]的值更新為77,同時(shí)a[0,1]元素的值也更新為77

print(a[0,1])#運(yùn)行結(jié)果為:7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論