




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
學(xué)院
期末試卷A
2020-2021學(xué)年第一學(xué)期
考試課程:數(shù)據(jù)清洗
課程代碼:
考試形式:閉卷考試
考試班級(jí):20大數(shù)據(jù)
命題教師:
教研室主任:
系(院)主任:
教務(wù)處長(zhǎng):
學(xué)院
2020-2021學(xué)年第一學(xué)期輔修試卷
《數(shù)據(jù)清洗A》(課程代碼:)
考試時(shí)間:120分鐘總分:100分
一'名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)的標(biāo)準(zhǔn)化
2、數(shù)據(jù)集成
二、選擇題(每空2分,共10分)
1、噪聲數(shù)據(jù)主要包含錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)和()
A、異常數(shù)據(jù)B、真實(shí)數(shù)據(jù)C、污染數(shù)據(jù)D、都對(duì)
2、、特征二值化的核心在于設(shè)定一個(gè)()
A、元素B、閾值
C、元素D、關(guān)鍵值
3、定性特征啞編碼又稱為獨(dú)熱碼,它用不同的()對(duì)應(yīng)不同的數(shù)據(jù)值。
A、數(shù)據(jù)B、數(shù)值C、狀態(tài)D、節(jié)點(diǎn)
4、數(shù)據(jù)壓縮是指在()前提下,縮減數(shù)據(jù)量以減少存儲(chǔ)空間,提高其傳輸、存
儲(chǔ)和處理效率,或按照一定的算法對(duì)數(shù)據(jù)進(jìn)行重新組織,減少數(shù)據(jù)的冗余和存儲(chǔ)
的空間的一種技術(shù)方法。()
A、不丟失有用信息的B、不丟失所有信息的C、不丟失真實(shí)信息的
D、以上三個(gè)都是
5、在Python在,GroupBy對(duì)象的用途是()。
A、執(zhí)行分割-應(yīng)用-組合操作B、執(zhí)行排序操作C、執(zhí)行定位操作D、都不
是
三'簡(jiǎn)答題(每題8分,共48分)
1.描述數(shù)據(jù)歸約思想及實(shí)現(xiàn)。
2、描述回歸法主要思想。
3、描述大數(shù)據(jù)采集的特點(diǎn)。
4、請(qǐng)寫出8個(gè)以上的Excel中用于數(shù)據(jù)清洗的函數(shù)
5、什么是數(shù)據(jù)類型?有哪些常見(jiàn)的數(shù)據(jù)類型?
6、如何使用kettle對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析
四、程序題(每題6分共12分)
1.寫出程序用Python讀取文本內(nèi)容
2.創(chuàng)建一個(gè)Series,并更新Series的索引
五'論述題(每題20分共20分)
如何使用kettle清洗超出范圍的數(shù)據(jù)?畫(huà)出流程圖并說(shuō)明含義
答案:
一、名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)的標(biāo)準(zhǔn)化
數(shù)據(jù)的標(biāo)準(zhǔn)化,是通過(guò)一定的數(shù)學(xué)變換方式,將原始數(shù)據(jù)按照一定的比例進(jìn)行轉(zhuǎn)換,使之落入
到一個(gè)小的特定區(qū)間內(nèi),例如0~1或-1~1的區(qū)間內(nèi),消除不同變量之間性質(zhì)、量綱、數(shù)量級(jí)等
特征屬性的差異,將其轉(zhuǎn)化為一個(gè)無(wú)量綱的相對(duì)數(shù)值。
2、數(shù)據(jù)集成
數(shù)據(jù)集成正是將把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為
企業(yè)提供全面的數(shù)據(jù)共享。
二'選擇題(每空2分,共20分)
ABCAA
三、簡(jiǎn)答題(每題8分,共32分)
1.數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量(完成該任務(wù)的
必要前提是理解挖掘任務(wù)和熟悉數(shù)據(jù)本身內(nèi)容)。數(shù)據(jù)歸約主要有兩個(gè)途徑:屬性選擇和數(shù)
據(jù)采樣,分別針對(duì)原始數(shù)據(jù)集中的屬性和記錄。
一般而言,原始數(shù)據(jù)可以用數(shù)據(jù)集的歸約表示。盡管歸約數(shù)據(jù)體積較小,但它仍接近于
保持原始數(shù)據(jù)的完整性。
2.回歸法是試圖發(fā)現(xiàn)兩個(gè)相關(guān)的變量之間的變化模式,通過(guò)使數(shù)據(jù)適合一個(gè)函數(shù)來(lái)平滑數(shù)
據(jù),即通過(guò)建立數(shù)學(xué)模型來(lái)預(yù)測(cè)下一個(gè)數(shù)值,包括線性回歸和非線性回歸。線性回歸涉及找
出擬合兩個(gè)屬性(或變量)的“最佳”直線,使得一個(gè)屬性可以用來(lái)預(yù)測(cè)另一個(gè)。非線性回歸
是線性回歸的擴(kuò)充,其中涉及的屬性多余兩個(gè),并且數(shù)據(jù)擬合到一個(gè)多維曲面。
3.大數(shù)據(jù)采集與一般的傳統(tǒng)采集不同,大數(shù)據(jù)的采集過(guò)程的主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)
高,因?yàn)橥瑫r(shí)可能會(huì)有成千上萬(wàn)的用戶在進(jìn)行訪問(wèn)和操作。例如,火車票售票網(wǎng)站、飛機(jī)票
售票網(wǎng)站和淘寶網(wǎng)站的并發(fā)訪問(wèn)量在峰值時(shí)可達(dá)到上百萬(wàn)甚至是上千萬(wàn),所以在采集端需要
部署大量數(shù)據(jù)庫(kù)才能對(duì)其支撐。并且在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片是需要深入的思
考和設(shè)計(jì)的。
此外,根據(jù)數(shù)據(jù)源的不同,大數(shù)據(jù)采集方法也不相同。但是為了能夠滿足大數(shù)據(jù)采集
的需要,大數(shù)據(jù)采集時(shí)大多都使用了大數(shù)據(jù)的處理模式,即M叩Reduce分布式并行處理模
式或是基于內(nèi)存的流式處理模式。
4.FIND函數(shù)、SEARCH函數(shù)、REPLACE函數(shù)、UBSTITUTE函數(shù)、LEFT函數(shù)、
RIGHT函數(shù)、MID函數(shù)、DOLLAR函數(shù)。
5.數(shù)據(jù)類型是指是一個(gè)值的集合和定義在這個(gè)值集上的一組操作的總稱。它的出現(xiàn)是為了
把數(shù)據(jù)分成所需內(nèi)存大小不同的數(shù)據(jù),以便于程序的運(yùn)行。通??梢愿鶕?jù)數(shù)據(jù)類型的特點(diǎn)將數(shù)
據(jù)劃分為不同的類型,如原始類型、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參考
類型以及函數(shù)類型等。在每種編程語(yǔ)言和數(shù)據(jù)庫(kù)中都有不同的數(shù)據(jù)類型。
常見(jiàn)的數(shù)據(jù)類型主要包含有:數(shù)值型、日期型、時(shí)間性、字符串型、邏輯型以及文本型
6.成功運(yùn)行ketlle后在菜單欄單擊文件,在“新建”中選擇“轉(zhuǎn)換”選項(xiàng),在“輸入”中選
擇“Excel輸入”選項(xiàng),在“統(tǒng)計(jì)”中選擇“單變量統(tǒng)計(jì)”選項(xiàng)進(jìn)行分析
四'程序題(每題10分共30分)
1.withopen('1.txt,)asfile_object:
contents=file_object.read()
print(contents)
2.importpandasaspd
data=np.array(「a?b?c?d'])
s=pd.Series(data)
print(s)
運(yùn)行結(jié)果為:
0a
1b
2c
3d
dtype:object
data=np.arrayCfa'/bVcVd'])
s=pd.Series(data,index=[100J01,102,103])
print(s)
運(yùn)行結(jié)果為:
100a
101b
102c
103d
dtype:object
s.index
運(yùn)行結(jié)果為:
Int641ndex([100,101,102,103],dtype='int64')
五、論述題(每題10分共10分)
文本文件捻出2
學(xué)院
期末試卷B
2020-2021學(xué)年第一學(xué)期
考試課程:數(shù)據(jù)清洗
課程代碼:
考試形式:閉卷考試
考試班級(jí):20大數(shù)據(jù)
命題教師:
教研室主任:
系(院)主任:
教務(wù)處長(zhǎng):
學(xué)院
2020-2021學(xué)年第一學(xué)期輔修試卷
《數(shù)據(jù)清洗B》(課程代碼:)
考試時(shí)間:120分鐘總分:100分
一、名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)倉(cāng)庫(kù)
2、NumPy
二'選擇題(每空2分,共10分)
1、噪聲數(shù)據(jù)主要包含錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)和()
A、異常數(shù)據(jù)B、真實(shí)數(shù)據(jù)C、污染數(shù)據(jù)D、都對(duì)
2、Pandas提供了兩種高效的的數(shù)據(jù)結(jié)構(gòu),series和()
A、defineB、form
C、numD、dataframe
3、Kafka是一種高吞吐量的分布式系統(tǒng)()。
A、數(shù)據(jù)采集B、發(fā)布訂閱消息C、數(shù)據(jù)集成D、數(shù)據(jù)及處理
4^Scribe是facebook開(kāi)源的()
A、數(shù)據(jù)集成系統(tǒng)B、數(shù)據(jù)清洗系統(tǒng)C、數(shù)據(jù)實(shí)現(xiàn)系統(tǒng)D、
日志采集系統(tǒng)
5、在Excel中,LOOKUP函數(shù)的用途是()。
A、查找指定的值B、清除指定的值C、打開(kāi)指定的值D、都不是
三'簡(jiǎn)答題(每題8分,共48分)
1.描述隨機(jī)變量分布思想。
2、描述3a原則。
3、描述網(wǎng)絡(luò)爬蟲(chóng)。
4、描述數(shù)據(jù)抽取定義及實(shí)現(xiàn)方式。
5、描述Excel數(shù)據(jù)清洗和轉(zhuǎn)換的基本步驟。
6、描述R語(yǔ)言功能及特點(diǎn)。
四、程序題(每題6分共12分)
1.寫出程序用Python創(chuàng)建一個(gè)3x4的數(shù)組,并輸出和更新數(shù)組中的元素。
2.用Python將數(shù)據(jù)框按keyl歹U,key2列同時(shí)進(jìn)行分組求均值
五'論述題(每題20分共20分)
如何使用kettle去除重復(fù)數(shù)據(jù)?畫(huà)出流程圖并說(shuō)明含義
答案:
一、名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)簡(jiǎn)稱DW,顧名思義,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)很大的數(shù)據(jù)存儲(chǔ)集合,出于
企業(yè)的分析性報(bào)告和決策支持目的而創(chuàng)建,并對(duì)多樣的業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選與整合。
2、NumPy
NumPy是Python中科學(xué)計(jì)算的第三方庫(kù),代表“NumericPython”。它是一個(gè)提供多維數(shù)組
對(duì)象,多種派生對(duì)象(如:掩碼數(shù)組、矩陣)以及用于快速操作數(shù)組的函數(shù)及API
二'選擇題(每空2分,共20分)
ADBDA
三'簡(jiǎn)答題(每題8分,共32分)
1.隨機(jī)變量是指隨機(jī)事件的數(shù)量表現(xiàn),人們可以用數(shù)學(xué)分析的方法來(lái)研究隨機(jī)現(xiàn)象。例如
某一時(shí)間內(nèi)公共汽車站等車乘客人數(shù),電話交換臺(tái)在一定時(shí)間內(nèi)收到的呼叫次數(shù),電子元件
的壽命,一臺(tái)機(jī)器在一定時(shí)間內(nèi)出現(xiàn)故障的次數(shù),在實(shí)際工作中遇到的測(cè)量誤差等,都是隨
機(jī)變量的實(shí)例。按照隨機(jī)變量可能取得的值,可以把它們分為離散型與連續(xù)性兩種基本類型。
2.3a原則是指如果數(shù)據(jù)服從正態(tài)分布,那么在3a原則下,異常數(shù)據(jù)為一組測(cè)定值中與平均
值的偏差超過(guò)3倍標(biāo)準(zhǔn)差的值。因此,如果數(shù)據(jù)服從正態(tài)分布,那么距離平均值3a之外的
值出現(xiàn)的概率為P(|x-u|>3a)<=0.003,(屬于極個(gè)別的小概率事件)即可認(rèn)為是異常數(shù)據(jù)。
3.網(wǎng)絡(luò)爬蟲(chóng)(WebSpider)又稱之為網(wǎng)絡(luò)機(jī)器人、網(wǎng)絡(luò)蜘蛛,是一種通過(guò)既定規(guī)則,能夠
自動(dòng)提取網(wǎng)頁(yè)信息的程序。爬蟲(chóng)的目地在于將目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)下載至本地,以便進(jìn)行后續(xù)的數(shù)
據(jù)分析。
4.數(shù)據(jù)抽取是指從數(shù)據(jù)源中抽取對(duì)企業(yè)有用的或感興趣的數(shù)據(jù)的過(guò)程,它的實(shí)質(zhì)是將數(shù)
據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來(lái),它是大數(shù)據(jù)工作開(kāi)展的前提。目前常用以下兩種方式
來(lái)實(shí)現(xiàn)數(shù)據(jù)抽?。宏P(guān)系庫(kù)中的數(shù)據(jù)抽取和非關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)抽取。
5.Excel數(shù)據(jù)清洗和轉(zhuǎn)換的基本步驟如下:
1)從外部數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。
2)在單獨(dú)的工作簿中創(chuàng)建原始數(shù)據(jù)的副本。
3)確保以行和列的表格形式顯示數(shù)據(jù),并且每列中的數(shù)據(jù)都相似;所有的列和行都可
見(jiàn);范圍內(nèi)沒(méi)有空白行。為了獲得較佳結(jié)果,請(qǐng)使用Excel表。
4)首先執(zhí)行不需要對(duì)列進(jìn)行操作的任務(wù),例如拼寫檢查或使用“查找和替換”對(duì)話框。
5)然后執(zhí)行需要對(duì)列進(jìn)行操作的任務(wù)。對(duì)列進(jìn)行操作的一般步驟為:
a.在需要清理的原始列(A)旁邊插入新列(B)。
b.在新列(B)的頂部添加將要轉(zhuǎn)換數(shù)據(jù)的公式。
c.在新列(B)中向下填充公式。在Excel表中,將使用向下填充的值自動(dòng)創(chuàng)建計(jì)算列。
d.選擇并復(fù)制新列(B),然后將其作為值粘貼到新列(B)中。
e.刪除原始列(A),這樣,新列B將轉(zhuǎn)換為A。
6.R語(yǔ)言是用于統(tǒng)計(jì)分析,圖形表示報(bào)告的編程語(yǔ)言和軟件環(huán)境。R語(yǔ)言是由新西蘭奧
克蘭大學(xué)的RossIhaka和RobertGentleman創(chuàng)建的,目前由RDevelopmentCoreTeam開(kāi)發(fā)
和維護(hù)。R語(yǔ)言的核心是一種解釋型的計(jì)算機(jī)語(yǔ)言,允許使用分支和循環(huán)以及函數(shù)的模塊化
編程。
四、程序題(每題10分共30分)
1.importnumpyasnp
a=np.array([[l,2,3,4],[5,6,7,8],[9,10,11,12]])#創(chuàng)建一個(gè)3X4的數(shù)組
a
#結(jié)果:
array([[1,2,3,4],
[5,6,7,81,
[9,10,11,12]])
b=a[:2,1:3]#取數(shù)組中第0,1行,第1,2列的元素
b
#結(jié)果:
array([[2,3],
[6,7]])
print(a[0,1])#運(yùn)行結(jié)果為:2
b[0,0]=77#將b[0,0]的值更新為77,同時(shí)a[0,1]元素的值也更新為77
print(a[0,1])#運(yùn)行結(jié)果為:7
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 邁出成功第一步的計(jì)算機(jī)基礎(chǔ)考試試題及答案
- 汽車美容師全球市場(chǎng)動(dòng)態(tài)試題及答案
- 2024小學(xué)語(yǔ)文試題及答案大集合
- 第2講 磁場(chǎng)對(duì)運(yùn)動(dòng)電荷的作用-2026版大一輪高考物理復(fù)習(xí)
- 語(yǔ)文書(shū)寫技巧掌握六年級(jí)題試題及答案
- 歸納2024古代文學(xué)史的試題及答案
- 皮膚測(cè)試的科學(xué)依據(jù)試題及答案
- 提升汽車美容師能力的考試重點(diǎn)與試題答案
- 2024汽車美容師應(yīng)急處理能力試題及答案
- 計(jì)算機(jī)基礎(chǔ)考試試題及答案分析
- 【百?gòu)?qiáng)校】【黑吉遼卷】黑龍江省哈爾濱市第三中學(xué)2025年高三學(xué)年第一次模擬考試(哈三中一模)化學(xué)試卷
- 2024高職單招考試(語(yǔ)文)試題(附答案)人人文庫(kù)
- 物管物業(yè)交接驗(yàn)收明細(xì)表格(全)模板
- 20S515 鋼筋混凝土及磚砌排水檢查井
- AQ 1020-2006 煤礦井下粉塵綜合防治技術(shù)規(guī)范(正式版)
- 建筑地基基礎(chǔ)檢測(cè)規(guī)范DBJ-T 15-60-2019
- 二級(jí)公立醫(yī)院績(jī)效考核三級(jí)手術(shù)目錄(2020版)
- 6人小品《沒(méi)有學(xué)習(xí)的人不傷心》臺(tái)詞完整版
- 密封基本知識(shí)介紹
- 甲基丙烯酸甲酯生產(chǎn)工藝畢業(yè)設(shè)計(jì)-設(shè)備選型與布置
- LKJ-2000課件
評(píng)論
0/150
提交評(píng)論