大數據預處理技術第4章數據清理課件_第1頁
大數據預處理技術第4章數據清理課件_第2頁
大數據預處理技術第4章數據清理課件_第3頁
大數據預處理技術第4章數據清理課件_第4頁
大數據預處理技術第4章數據清理課件_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據導入與預處理應用-第四章數據清理離不開的主題-數據數據機器學習人工智能數據挖掘數據分析一切的美好都是建立在龐大而整潔的數據之上,然而,現實中的數據卻是:雜!臟!亂!為什么要數據清理?數據質量差錯誤缺失不一致重復不完整無效不合規(guī)數據清理做些什么?數據清理,就是試圖檢測和去除數據集中的噪聲數據和無關數據,處理遺漏數據,去除空白數據域和知識背景下的白噪聲,解決數據的一致性、重復性問題,從而達到提高數據質量的目的。 第四章 數據清理 4.1 數據清洗概述 4.2 數據排重 4.3 使用腳本組件進行數據清理4.1 數據清洗概述數據源數據源數據源數據集市數據集市數據集市數據倉庫Kettle.4.常用的

2、數據清洗步驟介紹Kettle沒有單一的清洗步驟清洗工作,需要結合多個步驟來完成。數據的清洗工作從抽取數據就開始了!e.g. “表輸入(Table input)”步驟SELECT student_id,scoreFROM student_infoORDER BY score DESC注意:難維護,當SQL語句太過復雜時,后期的維護會非常困難。無法審計,數據進入Kettle已經做過清洗,Kettle無法提供審計功能。4.常用的數據清洗步驟介紹轉換目錄校驗目錄腳本目錄其它目錄4.常用的數據清洗步驟介紹 計算器(Calculator) 字符串替換(Replace in string) 字符串操作(St

3、ring operations) 字符串剪切(Strings cut) 拆分字段(Split Fields) 合并字段(Concat Fields) 拆分字段成多行(Split filed to rows) 值映射(Value Mapper) 字段選擇(Select values) 去除重復記錄(Unique rows) 去除重復記錄(哈希值)(Unique rows(HashSet)轉換目錄下的常用清洗步驟:4.常用的數據清洗步驟介紹 信用卡號碼校驗(Credit card validator) 電子郵箱校驗(Mail Validator) 數據校驗(Data Validator) 正則表達

4、式驗證(Regex Evaluation) 公式 (Formula) JavaScript代碼(Modified Java Script Value) 用戶自定義Java類(JDBC)模糊匹配(Fuzzy match).4.2 字符串清洗IDCODECITY 0 10BJ-BeiJing10755SZ-ShenZhen 20023CQ-CHONGQING 3021aSH-shanghaiID字段有些無效的空白字符CODE也就是區(qū)號字段里有無效的字母,并且有些區(qū)號前沒有0CITY字段里大小寫不統(tǒng)一,并且可能并不需要前面兩個字母的縮寫4.2 字符串清洗轉換目錄下有三個清洗字符串的常用步驟:字符串剪切(Strings cut)字符串替換(Replace in string)字符串操作(String operations)字符串剪切:他的作用正如他的名字字符串替換:由于支持正則表達式的原因,他的功能比從字面上了解的要強大許多字符串操作:功能豐富 字符串首尾空白字符去除:Trim type 大小寫:Lower/Upper、InitCap 填充字符設置:Padding、Pad char、Pad Length 數字移除/提?。篋igits 刪除特殊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論