任務(wù)1.3數(shù)據(jù)預(yù)處理原理及方法_第1頁(yè)
任務(wù)1.3數(shù)據(jù)預(yù)處理原理及方法_第2頁(yè)
任務(wù)1.3數(shù)據(jù)預(yù)處理原理及方法_第3頁(yè)
任務(wù)1.3數(shù)據(jù)預(yù)處理原理及方法_第4頁(yè)
任務(wù)1.3數(shù)據(jù)預(yù)處理原理及方法_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ETL數(shù)據(jù)預(yù)處理技術(shù)主講人:曾凡晉任務(wù)一了解數(shù)據(jù)預(yù)處理基礎(chǔ)1.3數(shù)據(jù)預(yù)處理原理及方法數(shù)據(jù)清洗定義認(rèn)識(shí)數(shù)據(jù)處理的前提:數(shù)據(jù)預(yù)處理的原理是處理數(shù)據(jù)的根基與依據(jù)不同類型的“臟”數(shù)據(jù)有不同的清洗方法01.數(shù)據(jù)預(yù)處理原理02.目錄數(shù)據(jù)預(yù)處理方法CONTENTS子任務(wù)1.3.1數(shù)據(jù)預(yù)處理原理利用有關(guān)技術(shù),如統(tǒng)計(jì)方法、數(shù)據(jù)挖掘方法、模式規(guī)則方法等將臟數(shù)據(jù)轉(zhuǎn)換為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù),具體有:

數(shù)據(jù)采集從數(shù)據(jù)庫(kù)、文件、Web、API等數(shù)據(jù)源中采集和抽取數(shù)據(jù),需考慮數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)格式、數(shù)據(jù)粒度等因素。數(shù)據(jù)清洗對(duì)數(shù)據(jù)進(jìn)行識(shí)別、處理、修復(fù)、刪除、填充等操作,提高數(shù)據(jù)質(zhì)量和可用性數(shù)據(jù)集成將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成和整合,便于分析和挖掘數(shù)據(jù)轉(zhuǎn)換對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換和格式化,以便適應(yīng)不同的分析需求和工具,提高可操作性數(shù)據(jù)降維消除不必要的特征和維度,減少數(shù)據(jù)分析和挖掘的復(fù)雜性和成本,通常依靠機(jī)器學(xué)習(xí)手段進(jìn)行評(píng)估數(shù)據(jù)采集指利用某些裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個(gè)接口。而大數(shù)據(jù)采集則是指從傳感器和智能設(shè)備、企業(yè)在線系統(tǒng)、企業(yè)離線系統(tǒng)、社交網(wǎng)絡(luò)和互聯(lián)網(wǎng)平臺(tái)等獲取數(shù)據(jù)的過(guò)程。在數(shù)據(jù)采集過(guò)程中,可以使用網(wǎng)卡、條形碼、觸摸屏、PDA、RFID等各種設(shè)備進(jìn)行數(shù)據(jù)的采集。數(shù)據(jù)清洗同一值的不同表示、拼寫錯(cuò)誤、不同的命名習(xí)慣、不合法的值以及空值都會(huì)導(dǎo)致“臟數(shù)據(jù)”的出現(xiàn),通過(guò)定義好的數(shù)據(jù)清洗策略和清洗規(guī)則(即數(shù)理統(tǒng)計(jì)技術(shù)、數(shù)據(jù)挖掘技術(shù)等清洗策略)對(duì)臟數(shù)據(jù)進(jìn)行清洗,得到滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。數(shù)據(jù)集成聯(lián)邦數(shù)據(jù)庫(kù)模式:是最簡(jiǎn)單的數(shù)據(jù)集成模式,它需要在每對(duì)數(shù)據(jù)源之間創(chuàng)建映射和轉(zhuǎn)換的軟件,該軟件稱為包裝器(Wrapper)。當(dāng)數(shù)據(jù)源X需要和數(shù)據(jù)源Y進(jìn)行通信和數(shù)據(jù)集成時(shí),才需要建立X和Y之間的包裝器。數(shù)據(jù)集成數(shù)據(jù)倉(cāng)庫(kù)模式:是最通用的一種數(shù)據(jù)集成模式,在數(shù)據(jù)倉(cāng)庫(kù)模式中,數(shù)據(jù)從各個(gè)數(shù)據(jù)源拷貝過(guò)來(lái),經(jīng)過(guò)轉(zhuǎn)換,然后存儲(chǔ)到一個(gè)目標(biāo)數(shù)據(jù)庫(kù)中。數(shù)據(jù)集成中介者模式:中介者(Mediator)扮演的是數(shù)據(jù)源的虛擬視圖的角色,中介者本身不保存作保數(shù)據(jù),數(shù)據(jù)仍然保存在數(shù)據(jù)源中。中介者維護(hù)一個(gè)虛擬的數(shù)據(jù)模式它把各個(gè)數(shù)據(jù)源的數(shù)據(jù)模式組合起來(lái)。數(shù)據(jù)映射和傳輸在查詢時(shí)刻才真正發(fā)生。數(shù)據(jù)轉(zhuǎn)換格式轉(zhuǎn)換根據(jù)不同的分析工具的需求而進(jìn)行轉(zhuǎn)換數(shù)值轉(zhuǎn)換為適應(yīng)不同的數(shù)據(jù)分布形式及便于進(jìn)行頻域分析而轉(zhuǎn)換——對(duì)數(shù)變換、冪次變換、離散余弦變換數(shù)據(jù)降維主成分分析(PAC):數(shù)據(jù)轉(zhuǎn)換坐標(biāo)系,線性布局奇異值分解(SVD):矩陣因式方法核主成分分析:處理非線性數(shù)據(jù)數(shù)據(jù)預(yù)處理評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估過(guò)程是一種通過(guò)測(cè)量和改善數(shù)據(jù)綜合特征來(lái)優(yōu)化數(shù)據(jù)價(jià)值的過(guò)程。數(shù)據(jù)完整性數(shù)據(jù)準(zhǔn)確性數(shù)據(jù)一致性數(shù)據(jù)規(guī)范性數(shù)據(jù)預(yù)處理評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估過(guò)程是一種通過(guò)測(cè)量和改善數(shù)據(jù)綜合特征來(lái)優(yōu)化數(shù)據(jù)價(jià)值的過(guò)程。數(shù)據(jù)可靠性數(shù)據(jù)安全性數(shù)據(jù)可重復(fù)性數(shù)據(jù)易讀性子任務(wù)1.3.2數(shù)據(jù)預(yù)處理方法

數(shù)據(jù)的標(biāo)準(zhǔn)化,是通過(guò)一定的數(shù)學(xué)變換方式,將原始數(shù)據(jù)按照一定的比例進(jìn)行轉(zhuǎn)換,使之落入到一個(gè)小的特定區(qū)間內(nèi),例如0~1或-1~1的區(qū)間內(nèi),消除不同變量之間性質(zhì)、量綱、數(shù)量級(jí)等特征屬性的差異,將其轉(zhuǎn)化為一個(gè)無(wú)量綱的相對(duì)數(shù)值。1、數(shù)據(jù)標(biāo)準(zhǔn)化1、數(shù)據(jù)標(biāo)準(zhǔn)化方法說(shuō)明最大-最小規(guī)范化對(duì)原始數(shù)據(jù)進(jìn)行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個(gè)原始值x通過(guò)min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值,其公式為:新數(shù)據(jù)=(原數(shù)據(jù)-極小值)/(極大值-極小值)z-score標(biāo)準(zhǔn)化基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standarddeviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。將屬性A的原始值v使用z-score標(biāo)準(zhǔn)化到v'的計(jì)算方法是:新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差小數(shù)定標(biāo)規(guī)范化Decimalscaling通過(guò)移動(dòng)數(shù)據(jù)的小數(shù)點(diǎn)位置來(lái)進(jìn)行標(biāo)準(zhǔn)化。小數(shù)點(diǎn)移動(dòng)多少位取決于屬性A的取值中的最大絕對(duì)值。將屬性A的原始值x使用decimalscaling標(biāo)準(zhǔn)化到y(tǒng)'的計(jì)算方法是:y=x/(10*j)

其中,j是滿足條件的最小整數(shù)對(duì)數(shù)變換對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)變換,使其符合正態(tài)分布數(shù)據(jù)標(biāo)準(zhǔn)化方法2、不同類型“臟”數(shù)據(jù)的預(yù)處理方法類

別說(shuō)

明實(shí)

例機(jī)械原因由于機(jī)械原因?qū)е碌臄?shù)據(jù)收集或保存的失敗造成的數(shù)據(jù)缺失數(shù)據(jù)存儲(chǔ)的失敗,存儲(chǔ)器損壞,機(jī)械故障導(dǎo)致某段時(shí)間數(shù)據(jù)未能收集(對(duì)于定時(shí)數(shù)據(jù)采集而言)等。人為因素由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失,在市場(chǎng)調(diào)查中被訪人拒絕透露相關(guān)問(wèn)題的答案,或者回答的問(wèn)題是無(wú)效的,數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)等。數(shù)據(jù)缺失值數(shù)據(jù)缺失值產(chǎn)生的原因多種多樣,主要分為機(jī)械原因和人為原因兩種。2、不同類型“臟”數(shù)據(jù)的預(yù)處理方法數(shù)據(jù)缺失值從缺失的分布來(lái)講可以分為完全隨機(jī)缺失,隨機(jī)缺失和完全非隨機(jī)缺失。數(shù)據(jù)的缺失是隨機(jī)的,不依賴于任何不完全變量或完全變量數(shù)據(jù)的缺失不是完全隨機(jī)的,依賴于其他完全變量數(shù)據(jù)的缺失依賴于不完全變量自身完全隨機(jī)缺失隨機(jī)缺失完全非隨機(jī)缺失依賴性增強(qiáng)隨機(jī)性漸弱2、不同類型“臟”數(shù)據(jù)的預(yù)處理方法數(shù)據(jù)缺失值2、不同類型“臟”數(shù)據(jù)的預(yù)處理方法冗余數(shù)據(jù)重復(fù)數(shù)據(jù)會(huì)對(duì)數(shù)據(jù)分析和建模產(chǎn)生負(fù)面影響數(shù)據(jù)分析結(jié)果的準(zhǔn)確性:重復(fù)數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)分析結(jié)果的偏差,影響對(duì)數(shù)據(jù)的正確理解和決策。數(shù)據(jù)存儲(chǔ)和計(jì)算資源的浪費(fèi):重復(fù)數(shù)據(jù)會(huì)占用存儲(chǔ)空間和計(jì)算資源,增加數(shù)據(jù)處理的時(shí)間和成本。數(shù)據(jù)質(zhì)量的下降:重復(fù)數(shù)據(jù)會(huì)降低數(shù)據(jù)的質(zhì)量,使得數(shù)據(jù)不一致、不完整和不可靠。

2、不同類型“臟”數(shù)據(jù)的預(yù)處理方法冗余數(shù)據(jù)冗余數(shù)據(jù)的一般處理方法:2、不同類型“臟”數(shù)據(jù)的預(yù)處理方法噪聲數(shù)據(jù)噪聲數(shù)據(jù)(NoisyData)就是無(wú)意義的數(shù)據(jù),現(xiàn)階段的意義已經(jīng)擴(kuò)展到包含所有難以被機(jī)器正確理解和翻譯的數(shù)據(jù),如非結(jié)構(gòu)化文本。任何不可被源程序讀取和運(yùn)用的數(shù)據(jù),不管是已經(jīng)接收、存儲(chǔ)的還是改變的,都被稱為噪聲。2、不同類型“臟”數(shù)據(jù)的預(yù)處理方法噪聲數(shù)據(jù)硬件故障編程錯(cuò)誤語(yǔ)音識(shí)別錯(cuò)誤光學(xué)字符識(shí)別錯(cuò)誤噪聲數(shù)據(jù)產(chǎn)生源頭2、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論