版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
學(xué)院
期末試卷A
2020-2021學(xué)年第一學(xué)期
考試課程:數(shù)據(jù)清洗
課程代碼:
考試形式:閉卷考試
考試班級(jí):20大數(shù)據(jù)
命題教師:
教研室主任:
系(院)主任:
教務(wù)處長:
學(xué)院
2020-2021學(xué)年第一學(xué)期輔修試卷
《數(shù)據(jù)清洗A》(課程代碼:)
考試時(shí)間:120分鐘總分:100分
一'名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)的標(biāo)準(zhǔn)化
2、數(shù)據(jù)集成
二、選擇題(每空2分,共10分)
1、噪聲數(shù)據(jù)主要包含錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)和()
A、異常數(shù)據(jù)B、真實(shí)數(shù)據(jù)C、污染數(shù)據(jù)D、都對(duì)
2、、特征二值化的核心在于設(shè)定一個(gè)()
A、元素B、閾值
C、元素D、關(guān)鍵值
3、定性特征啞編碼又稱為獨(dú)熱碼,它用不同的()對(duì)應(yīng)不同的數(shù)據(jù)值。
A、數(shù)據(jù)B、數(shù)值C、狀態(tài)D、節(jié)點(diǎn)
4、數(shù)據(jù)壓縮是指在()前提下,縮減數(shù)據(jù)量以減少存儲(chǔ)空間,提高其傳輸、存
儲(chǔ)和處理效率,或按照一定的算法對(duì)數(shù)據(jù)進(jìn)行重新組織,減少數(shù)據(jù)的冗余和存儲(chǔ)
的空間的一種技術(shù)方法。()
A、不丟失有用信息的B、不丟失所有信息的C、不丟失真實(shí)信息的
D、以上三個(gè)都是
5、在Python在,GroupBy對(duì)象的用途是()。
A、執(zhí)行分割-應(yīng)用-組合操作B、執(zhí)行排序操作C、執(zhí)行定位操作D、都不
是
三'簡(jiǎn)答題(每題8分,共48分)
1.描述數(shù)據(jù)歸約思想及實(shí)現(xiàn)。
2、描述回歸法主要思想。
3、描述大數(shù)據(jù)采集的特點(diǎn)。
4、請(qǐng)寫出8個(gè)以上的Excel中用于數(shù)據(jù)清洗的函數(shù)
5、什么是數(shù)據(jù)類型?有哪些常見的數(shù)據(jù)類型?
6、如何使用kettle對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析
四、程序題(每題6分共12分)
1.寫出程序用Python讀取文本內(nèi)容
2.創(chuàng)建一個(gè)Series,并更新Series的索引
五'論述題(每題20分共20分)
如何使用kettle清洗超出范圍的數(shù)據(jù)?畫出流程圖并說明含義
答案:
一、名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)的標(biāo)準(zhǔn)化
數(shù)據(jù)的標(biāo)準(zhǔn)化,是通過一定的數(shù)學(xué)變換方式,將原始數(shù)據(jù)按照一定的比例進(jìn)行轉(zhuǎn)換,使之落入
到一個(gè)小的特定區(qū)間內(nèi),例如0~1或-1~1的區(qū)間內(nèi),消除不同變量之間性質(zhì)、量綱、數(shù)量級(jí)等
特征屬性的差異,將其轉(zhuǎn)化為一個(gè)無量綱的相對(duì)數(shù)值。
2、數(shù)據(jù)集成
數(shù)據(jù)集成正是將把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為
企業(yè)提供全面的數(shù)據(jù)共享。
二'選擇題(每空2分,共20分)
ABCAA
三、簡(jiǎn)答題(每題8分,共32分)
1.數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量(完成該任務(wù)的
必要前提是理解挖掘任務(wù)和熟悉數(shù)據(jù)本身內(nèi)容)。數(shù)據(jù)歸約主要有兩個(gè)途徑:屬性選擇和數(shù)
據(jù)采樣,分別針對(duì)原始數(shù)據(jù)集中的屬性和記錄。
一般而言,原始數(shù)據(jù)可以用數(shù)據(jù)集的歸約表示。盡管歸約數(shù)據(jù)體積較小,但它仍接近于
保持原始數(shù)據(jù)的完整性。
2.回歸法是試圖發(fā)現(xiàn)兩個(gè)相關(guān)的變量之間的變化模式,通過使數(shù)據(jù)適合一個(gè)函數(shù)來平滑數(shù)
據(jù),即通過建立數(shù)學(xué)模型來預(yù)測(cè)下一個(gè)數(shù)值,包括線性回歸和非線性回歸。線性回歸涉及找
出擬合兩個(gè)屬性(或變量)的“最佳”直線,使得一個(gè)屬性可以用來預(yù)測(cè)另一個(gè)。非線性回歸
是線性回歸的擴(kuò)充,其中涉及的屬性多余兩個(gè),并且數(shù)據(jù)擬合到一個(gè)多維曲面。
3.大數(shù)據(jù)采集與一般的傳統(tǒng)采集不同,大數(shù)據(jù)的采集過程的主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)
高,因?yàn)橥瑫r(shí)可能會(huì)有成千上萬的用戶在進(jìn)行訪問和操作。例如,火車票售票網(wǎng)站、飛機(jī)票
售票網(wǎng)站和淘寶網(wǎng)站的并發(fā)訪問量在峰值時(shí)可達(dá)到上百萬甚至是上千萬,所以在采集端需要
部署大量數(shù)據(jù)庫才能對(duì)其支撐。并且在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片是需要深入的思
考和設(shè)計(jì)的。
此外,根據(jù)數(shù)據(jù)源的不同,大數(shù)據(jù)采集方法也不相同。但是為了能夠滿足大數(shù)據(jù)采集
的需要,大數(shù)據(jù)采集時(shí)大多都使用了大數(shù)據(jù)的處理模式,即M叩Reduce分布式并行處理模
式或是基于內(nèi)存的流式處理模式。
4.FIND函數(shù)、SEARCH函數(shù)、REPLACE函數(shù)、UBSTITUTE函數(shù)、LEFT函數(shù)、
RIGHT函數(shù)、MID函數(shù)、DOLLAR函數(shù)。
5.數(shù)據(jù)類型是指是一個(gè)值的集合和定義在這個(gè)值集上的一組操作的總稱。它的出現(xiàn)是為了
把數(shù)據(jù)分成所需內(nèi)存大小不同的數(shù)據(jù),以便于程序的運(yùn)行。通??梢愿鶕?jù)數(shù)據(jù)類型的特點(diǎn)將數(shù)
據(jù)劃分為不同的類型,如原始類型、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參考
類型以及函數(shù)類型等。在每種編程語言和數(shù)據(jù)庫中都有不同的數(shù)據(jù)類型。
常見的數(shù)據(jù)類型主要包含有:數(shù)值型、日期型、時(shí)間性、字符串型、邏輯型以及文本型
6.成功運(yùn)行ketlle后在菜單欄單擊文件,在“新建”中選擇“轉(zhuǎn)換”選項(xiàng),在“輸入”中選
擇“Excel輸入”選項(xiàng),在“統(tǒng)計(jì)”中選擇“單變量統(tǒng)計(jì)”選項(xiàng)進(jìn)行分析
四'程序題(每題10分共30分)
1.withopen('1.txt,)asfile_object:
contents=file_object.read()
print(contents)
2.importpandasaspd
data=np.array(「a?b?c?d'])
s=pd.Series(data)
print(s)
運(yùn)行結(jié)果為:
0a
1b
2c
3d
dtype:object
data=np.arrayCfa'/bVcVd'])
s=pd.Series(data,index=[100J01,102,103])
print(s)
運(yùn)行結(jié)果為:
100a
101b
102c
103d
dtype:object
s.index
運(yùn)行結(jié)果為:
Int641ndex([100,101,102,103],dtype='int64')
五、論述題(每題10分共10分)
文本文件捻出2
學(xué)院
期末試卷B
2020-2021學(xué)年第一學(xué)期
考試課程:數(shù)據(jù)清洗
課程代碼:
考試形式:閉卷考試
考試班級(jí):20大數(shù)據(jù)
命題教師:
教研室主任:
系(院)主任:
教務(wù)處長:
學(xué)院
2020-2021學(xué)年第一學(xué)期輔修試卷
《數(shù)據(jù)清洗B》(課程代碼:)
考試時(shí)間:120分鐘總分:100分
一、名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)倉庫
2、NumPy
二'選擇題(每空2分,共10分)
1、噪聲數(shù)據(jù)主要包含錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)和()
A、異常數(shù)據(jù)B、真實(shí)數(shù)據(jù)C、污染數(shù)據(jù)D、都對(duì)
2、Pandas提供了兩種高效的的數(shù)據(jù)結(jié)構(gòu),series和()
A、defineB、form
C、numD、dataframe
3、Kafka是一種高吞吐量的分布式系統(tǒng)()。
A、數(shù)據(jù)采集B、發(fā)布訂閱消息C、數(shù)據(jù)集成D、數(shù)據(jù)及處理
4^Scribe是facebook開源的()
A、數(shù)據(jù)集成系統(tǒng)B、數(shù)據(jù)清洗系統(tǒng)C、數(shù)據(jù)實(shí)現(xiàn)系統(tǒng)D、
日志采集系統(tǒng)
5、在Excel中,LOOKUP函數(shù)的用途是()。
A、查找指定的值B、清除指定的值C、打開指定的值D、都不是
三'簡(jiǎn)答題(每題8分,共48分)
1.描述隨機(jī)變量分布思想。
2、描述3a原則。
3、描述網(wǎng)絡(luò)爬蟲。
4、描述數(shù)據(jù)抽取定義及實(shí)現(xiàn)方式。
5、描述Excel數(shù)據(jù)清洗和轉(zhuǎn)換的基本步驟。
6、描述R語言功能及特點(diǎn)。
四、程序題(每題6分共12分)
1.寫出程序用Python創(chuàng)建一個(gè)3x4的數(shù)組,并輸出和更新數(shù)組中的元素。
2.用Python將數(shù)據(jù)框按keyl歹U,key2列同時(shí)進(jìn)行分組求均值
五'論述題(每題20分共20分)
如何使用kettle去除重復(fù)數(shù)據(jù)?畫出流程圖并說明含義
答案:
一、名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(DataWarehouse)簡(jiǎn)稱DW,顧名思義,數(shù)據(jù)倉庫是一個(gè)很大的數(shù)據(jù)存儲(chǔ)集合,出于
企業(yè)的分析性報(bào)告和決策支持目的而創(chuàng)建,并對(duì)多樣的業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選與整合。
2、NumPy
NumPy是Python中科學(xué)計(jì)算的第三方庫,代表“NumericPython”。它是一個(gè)提供多維數(shù)組
對(duì)象,多種派生對(duì)象(如:掩碼數(shù)組、矩陣)以及用于快速操作數(shù)組的函數(shù)及API
二'選擇題(每空2分,共20分)
ADBDA
三'簡(jiǎn)答題(每題8分,共32分)
1.隨機(jī)變量是指隨機(jī)事件的數(shù)量表現(xiàn),人們可以用數(shù)學(xué)分析的方法來研究隨機(jī)現(xiàn)象。例如
某一時(shí)間內(nèi)公共汽車站等車乘客人數(shù),電話交換臺(tái)在一定時(shí)間內(nèi)收到的呼叫次數(shù),電子元件
的壽命,一臺(tái)機(jī)器在一定時(shí)間內(nèi)出現(xiàn)故障的次數(shù),在實(shí)際工作中遇到的測(cè)量誤差等,都是隨
機(jī)變量的實(shí)例。按照隨機(jī)變量可能取得的值,可以把它們分為離散型與連續(xù)性兩種基本類型。
2.3a原則是指如果數(shù)據(jù)服從正態(tài)分布,那么在3a原則下,異常數(shù)據(jù)為一組測(cè)定值中與平均
值的偏差超過3倍標(biāo)準(zhǔn)差的值。因此,如果數(shù)據(jù)服從正態(tài)分布,那么距離平均值3a之外的
值出現(xiàn)的概率為P(|x-u|>3a)<=0.003,(屬于極個(gè)別的小概率事件)即可認(rèn)為是異常數(shù)據(jù)。
3.網(wǎng)絡(luò)爬蟲(WebSpider)又稱之為網(wǎng)絡(luò)機(jī)器人、網(wǎng)絡(luò)蜘蛛,是一種通過既定規(guī)則,能夠
自動(dòng)提取網(wǎng)頁信息的程序。爬蟲的目地在于將目標(biāo)網(wǎng)頁數(shù)據(jù)下載至本地,以便進(jìn)行后續(xù)的數(shù)
據(jù)分析。
4.數(shù)據(jù)抽取是指從數(shù)據(jù)源中抽取對(duì)企業(yè)有用的或感興趣的數(shù)據(jù)的過程,它的實(shí)質(zhì)是將數(shù)
據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來,它是大數(shù)據(jù)工作開展的前提。目前常用以下兩種方式
來實(shí)現(xiàn)數(shù)據(jù)抽取:關(guān)系庫中的數(shù)據(jù)抽取和非關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)抽取。
5.Excel數(shù)據(jù)清洗和轉(zhuǎn)換的基本步驟如下:
1)從外部數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。
2)在單獨(dú)的工作簿中創(chuàng)建原始數(shù)據(jù)的副本。
3)確保以行和列的表格形式顯示數(shù)據(jù),并且每列中的數(shù)據(jù)都相似;所有的列和行都可
見;范圍內(nèi)沒有空白行。為了獲得較佳結(jié)果,請(qǐng)使用Excel表。
4)首先執(zhí)行不需要對(duì)列進(jìn)行操作的任務(wù),例如拼寫檢查或使用“查找和替換”對(duì)話框。
5)然后執(zhí)行需要對(duì)列進(jìn)行操作的任務(wù)。對(duì)列進(jìn)行操作的一般步驟為:
a.在需要清理的原始列(A)旁邊插入新列(B)。
b.在新列(B)的頂部添加將要轉(zhuǎn)換數(shù)據(jù)的公式。
c.在新列(B)中向下填充公式。在Excel表中,將使用向下填充的值自動(dòng)創(chuàng)建計(jì)算列。
d.選擇并復(fù)制新列(B),然后將其作為值粘貼到新列(B)中。
e.刪除原始列(A),這樣,新列B將轉(zhuǎn)換為A。
6.R語言是用于統(tǒng)計(jì)分析,圖形表示報(bào)告的編程語言和軟件環(huán)境。R語言是由新西蘭奧
克蘭大學(xué)的RossIhaka和RobertGentleman創(chuàng)建的,目前由RDevelopmentCoreTeam開發(fā)
和維護(hù)。R語言的核心是一種解釋型的計(jì)算機(jī)語言,允許使用分支和循環(huán)以及函數(shù)的模塊化
編程。
四、程序題(每題10分共30分)
1.importnumpyasnp
a=np.array([[l,2,3,4],[5,6,7,8],[9,10,11,12]])#創(chuàng)建一個(gè)3X4的數(shù)組
a
#結(jié)果:
array([[1,2,3,4],
[5,6,7,81,
[9,10,11,12]])
b=a[:2,1:3]#取數(shù)組中第0,1行,第1,2列的元素
b
#結(jié)果:
array([[2,3],
[6,7]])
print(a[0,1])#運(yùn)行結(jié)果為:2
b[0,0]=77#將b[0,0]的值更新為77,同時(shí)a[0,1]元素的值也更新為77
print(a[0,1])#運(yùn)行結(jié)果為:7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度年福建省高校教師資格證之高等教育心理學(xué)題庫綜合試卷B卷附答案
- 2024年圖書館管理服務(wù)項(xiàng)目資金申請(qǐng)報(bào)告代可行性研究報(bào)告
- 五年級(jí)數(shù)學(xué)(小數(shù)乘除法)計(jì)算題專項(xiàng)練習(xí)及答案
- 文化自信背景下民族傳統(tǒng)體育文化的傳承與發(fā)展
- 魯教版高三上學(xué)期期末地理試題及解答參考
- 2024年定制出口業(yè)務(wù)銷售協(xié)議模板
- 保安公司門衛(wèi)服務(wù)承攬協(xié)議范本
- 2024高品質(zhì)彩鋼房建設(shè)協(xié)議書
- 2024批次高品質(zhì)片石購買協(xié)議
- 2024年健身機(jī)構(gòu)業(yè)務(wù)合作伙伴協(xié)議
- 2023-2024學(xué)年北京海淀區(qū)首都師大附中初二(上)期中道法試題及答案
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評(píng)價(jià)導(dǎo)則
- 二級(jí)公立醫(yī)院績效考核三級(jí)手術(shù)目錄(2020版)
- 新蘇教版六年級(jí)上冊(cè)《科學(xué)》全一冊(cè)全部課件(含19課時(shí))
- 親子閱讀ppt課件
- 愛心媽媽結(jié)對(duì)幫扶記錄表
- 農(nóng)貿(mào)市場(chǎng)建設(shè)項(xiàng)目裝飾工程施工方案
- 八年級(jí)語文上冊(cè)期中文言文默寫(含答案)
- MATLAB語言課程論文 基于MATLAB的電磁場(chǎng)數(shù)值圖像分析
- 暗挖隧道帷幕注漿專項(xiàng)方案[優(yōu)秀工程方案]
- 淺談城市燃?xì)夤芫W(wǎng)安全運(yùn)行存在問題及處理對(duì)策
評(píng)論
0/150
提交評(píng)論