




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ETL數(shù)據(jù)預處理技術主講人:李靜任務四數(shù)據(jù)清洗4.1重復值處理重復值在實際的數(shù)據(jù)處理中,由于輸入錯誤、數(shù)據(jù)同步或者數(shù)據(jù)傳輸?shù)仍蚩赡軙斐蓴?shù)據(jù)集中出現(xiàn)一條數(shù)據(jù)多次出現(xiàn)的情況,這樣會造成數(shù)據(jù)冗余的問題。01.重復值的概念02.03.目錄重復值檢測Kettle處理重復值CONTENTS子任務4.1.1重復值概念重復值冗余數(shù)據(jù)既包含重復的數(shù)據(jù),也包含對分析處理的問題無關的數(shù)據(jù),通常采用過濾數(shù)據(jù)的方法處理冗余數(shù)據(jù)。例如,對于重復數(shù)據(jù)采用重復過濾的方法,對于無關的數(shù)據(jù)則采用條件過濾的方法。重復值為什么出現(xiàn)重復數(shù)據(jù)為什么出現(xiàn)重復數(shù)據(jù)為什么出現(xiàn)重復數(shù)據(jù)子任務4.1.2重復值檢測1.通過唯一標識列篩選重復數(shù)據(jù):唯一標識列是數(shù)據(jù)集中的一個列,其中的值在整個數(shù)據(jù)集中都是唯一的。以下是使用唯一標識列篩選重復數(shù)據(jù)的步驟:首先,確定數(shù)據(jù)集中的唯一標識列,例如ID列或唯一編碼列。
使用數(shù)據(jù)處理工具或編程語言,比如Excel、SQL或Python,對數(shù)據(jù)集進行排序,以便相同的記錄排在一起。
遍歷數(shù)據(jù)集,比較當前記錄的唯一標識列值與前一個記錄的唯一標識列值是否相等。如果相等,則表示當前記錄是重復數(shù)據(jù)??梢赃x擇保留第一個出現(xiàn)的記錄,或者刪除所有重復數(shù)據(jù),只保留唯一的記錄2.基于多列篩選重復數(shù)據(jù):除了唯一標識列,還可以根據(jù)多個列的組合來篩選重復數(shù)據(jù)。這種方法更加靈活,可以根據(jù)特定的需求進行篩選。以下是基于多列篩選重復數(shù)據(jù)的步驟:
確定需要用來篩選重復數(shù)據(jù)的多個列。
將這些列按照一定的順序進行排序,確保相同的記錄排在一起。遍歷數(shù)據(jù)集,比較當前記錄的多個列的值與前一個記錄的對應列的值是否相等。如果相等,則表示當前記錄是重復數(shù)據(jù)。根據(jù)需求選擇保留第一個出現(xiàn)的記錄,或者刪除所有重復數(shù)據(jù),只保留唯一的記錄。3.使用數(shù)據(jù)處理工具和函數(shù):現(xiàn)代數(shù)據(jù)處理工具和編程語言通常提供了方便的函數(shù)和工具來篩選重復數(shù)據(jù)。例如,Excel中的“刪除重復項”功能、SQL中的“SELECTDISTINCT”語句以及Python中的pandas庫中的“drop_duplicates”函數(shù)、kettle中的“唯一行(哈希值)”等。以下是使用這些工具和函數(shù)篩選重復數(shù)據(jù)的步驟:
打開數(shù)據(jù)處理工具或編程環(huán)境,導入數(shù)據(jù)集。
查找并使用相應的工具或函數(shù)來篩選重復數(shù)據(jù)。根據(jù)需要選擇保留或刪除重復數(shù)據(jù),并將結果保存到新的數(shù)據(jù)集中或覆蓋原始數(shù)據(jù)集。子任務4.1.3用kettle處理重復數(shù)據(jù)現(xiàn)有“客戶.csv”
如右圖,其中有的數(shù)據(jù)重復出現(xiàn),使用kettle進行處理,只保留一條即可。案例背景步驟1:創(chuàng)建轉換拖動“CSV文件輸入”控件及“唯一行(哈希值)”控件到右側工作區(qū),如下圖:步驟2:設置“CSV文件輸入”雙擊“CSV文件輸入”圖標,進入該對話框,進行如下右圖所示配置,添加文件“客戶.csv”,點擊“獲取字段”,得到文件中的字段設置情況,如下右圖:步驟3:預覽輸入數(shù)據(jù)單擊“預覽”按鈕,查看csv文件是否已經(jīng)導入步驟4:設置“唯一行(哈希值)”雙擊“唯一行(哈希值)”圖標,單擊“獲取”按鈕,添加需要去重的字段,如下圖,單擊“確定”配置完成。步驟5:運行轉換,查看結果Kettle中提供一個“去除重復記錄”的控件,也可用完成重復值處理,簡單介紹如下:在上圖的轉換中,增加了“排序記錄”控件,其作用相當于檢測重復記錄,然后在“去除重復記錄”中設置關鍵比較字段即可。實際應用中,重復值的含義也需根據(jù)需求而定,有的數(shù)據(jù)其中的幾個屬性值相同也可認定為重復值,對這樣的數(shù)據(jù)的處理稱為“不完全去重”現(xiàn)有”people.txt”文件,內容如下,利用kettle將其中缺失的記錄去掉步驟1:創(chuàng)建轉換創(chuàng)建轉換如下,將滿足要求的內容和需要去除的內容分別存放于文本文件中步驟2:配置“文本文件輸入”步驟2:配置“文本文件輸入”切換“內容”選項卡,在“分隔符”處刪除默認的分號,點擊“insertTAB”插入制表符,取消“頭部”勾選,如下圖:步驟2:配置“文本文件輸入”切換“字段”選項卡,添加字段名,并設置字段類型,務必添加“不去掉空格”,然后點擊預覽,查看是否導入數(shù)據(jù),如右圖:步驟3:配置“唯一行(哈希值)”設置“唯一行(哈希值)”控件,輸入需要比較的字段(不是全部)如下圖:步驟4:配置“文本文件輸出”配置“文本文件輸出”控件,用來存放滿足要求的記錄,點擊“瀏覽”確定文件路徑及名稱步驟4:配置“文本文件輸出”分別切換到“內容”和“字段選項卡”,設置如下:說明:“文本文件輸出2”配置與此相同步驟5:運行轉換查看結果如下:小結它指的是現(xiàn)有數(shù)據(jù)集中數(shù)據(jù)其屬性完全或部分相同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 綠化工程高位水池施工方案
- 變電站避雷器安裝施工方案
- 海纜防護沉軟體排施工方案
- 黃山大理石欄桿施工方案
- 交房樣板施工方案
- 英語閱讀理解練習
- 四川廠房滲漏維修施工方案
- 鞍山8年級期中數(shù)學試卷
- 鹿寨縣國四道路施工方案
- 四川房地產(chǎn)開發(fā)施工方案
- 2024年皖北衛(wèi)生職業(yè)學院單招職業(yè)技能測試題庫
- 華東師范大學《社會研究方法》2023-2024學年第一學期期末試卷
- ps 課件教學課件
- 軍工產(chǎn)品保密協(xié)議
- 數(shù)控車編程實訓教案
- 2024年世界職業(yè)院校技能大賽高職組“健康養(yǎng)老照護組”賽項考試題庫(含答案)
- 廈門大學介紹
- 醫(yī)院培訓課件:《乳腺癌解讀》
- 2024-2025學年度第一學期高一英語期中考試卷(含解析)
- 新疆2024年中考數(shù)學試卷(含答案)
- DB11T 1490-2017 人民防空工程防護設備安裝驗收技術規(guī)程
評論
0/150
提交評論