大數(shù)據(jù)數(shù)據(jù)清洗數(shù)據(jù)分析數(shù)據(jù)挖掘_第1頁
大數(shù)據(jù)數(shù)據(jù)清洗數(shù)據(jù)分析數(shù)據(jù)挖掘_第2頁
大數(shù)據(jù)數(shù)據(jù)清洗數(shù)據(jù)分析數(shù)據(jù)挖掘_第3頁
大數(shù)據(jù)數(shù)據(jù)清洗數(shù)據(jù)分析數(shù)據(jù)挖掘_第4頁
大數(shù)據(jù)數(shù)據(jù)清洗數(shù)據(jù)分析數(shù)據(jù)挖掘_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)清洗1.基本概念數(shù)據(jù)清洗從名字上也看的出就是把"臟"的"洗掉",指發(fā)現(xiàn)并糾正數(shù)據(jù)文獻中可識別的錯誤的最后一道程序,涉及檢查數(shù)據(jù)一致性,解決無效值和缺失值等。由于數(shù)據(jù)倉庫中的數(shù)據(jù)是面對某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務系統(tǒng)中抽取而來并且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)互相之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為"臟數(shù)據(jù)"。我們要按照一定的規(guī)則把"臟數(shù)據(jù)""洗掉",這就是數(shù)據(jù)清洗。而數(shù)據(jù)清洗的任務是過濾那些不符合規(guī)定的數(shù)據(jù),將過濾的成果交給業(yè)務主管部門,確認與否過濾掉還是由業(yè)務單位修正之后再進行抽取。不符合規(guī)定的數(shù)據(jù)重要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。數(shù)據(jù)清洗是與問卷審核不同,錄入后的數(shù)據(jù)清理普通是由計算機而不是人工完畢。折疊殘缺數(shù)據(jù)這一類數(shù)據(jù)重要是某些應當有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務系統(tǒng)中主表與明細表不能匹配等。對于這一類數(shù)據(jù)過濾出來,按缺失的內容分別寫入不同Excel文獻向客戶提交,規(guī)定在規(guī)定的時間內補全。補全后才寫入數(shù)據(jù)倉庫。折疊錯誤數(shù)據(jù)這一類錯誤產(chǎn)生的因素是業(yè)務系統(tǒng)不夠健全,在接受輸入后沒有進行判斷直接寫入后臺數(shù)據(jù)庫造成的,例如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)背面有一種回車操作、日期格式不對的、日期越界等。這一類數(shù)據(jù)也要分類,對于類似于全角字符、數(shù)據(jù)前后有不可見字符的問題,只能通過寫SQL語句的方式找出來,然后規(guī)定客戶在業(yè)務系統(tǒng)修正之后抽取。日期格式不對的的或者是日期越界的這一類錯誤會造成ETL運行失敗,這一類錯誤需要去業(yè)務系統(tǒng)數(shù)據(jù)庫用SQL的方式挑出來,交給業(yè)務主管部門規(guī)定限期修正,修正之后再抽取。折疊重復數(shù)據(jù)對于這一類數(shù)據(jù)--特別是維表中會出現(xiàn)這種狀況--將重復數(shù)據(jù)統(tǒng)計的全部字段導出來,讓客戶確認并整頓。數(shù)據(jù)清洗是一種重復的過程,不可能在幾天內完畢,只有不停的發(fā)現(xiàn)問題,解決問題。對于與否過濾,與否修正普通規(guī)定客戶確認,對于過濾掉的數(shù)據(jù),寫入Excel文獻或者將過濾數(shù)據(jù)寫入數(shù)據(jù)表,在ETL開發(fā)的早期能夠每天向業(yè)務單位發(fā)送過濾數(shù)據(jù)的郵件,促使他們盡快地修正錯誤,同時也能夠做為將來驗證數(shù)據(jù)的根據(jù)。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過濾掉,對于每個過濾規(guī)則認真進行驗證,并要顧客確認。數(shù)據(jù)分析是指用適宜的統(tǒng)計分析辦法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結論而對數(shù)據(jù)加以具體研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數(shù)據(jù)分析可協(xié)助人們作出判斷,方便采用適宜行動。類型在統(tǒng)計學領域,有人將數(shù)據(jù)分析劃分為描述性統(tǒng)計分析、探索性數(shù)據(jù)分析以及驗證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特性,而驗證性數(shù)據(jù)分析則側重于已有假設的證明或證偽。探索性數(shù)據(jù)分析是指為了形成值得假設的檢查而對數(shù)據(jù)進行分析的一種辦法,是對傳統(tǒng)統(tǒng)計學假設檢查手段的補充。該辦法由美國出名統(tǒng)計學家約翰·圖基(JohnTukey)命名。定性數(shù)據(jù)分析又稱為"定性資料分析"、"定性研究"或者"質性研究資料分析",是指對諸如詞語、照片、觀察成果之類的非數(shù)值型數(shù)據(jù)(或者說資料)的分析。數(shù)據(jù)挖掘(英語:Datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-DiscoveryinDatabases,簡稱:KDD)中的一種環(huán)節(jié)。數(shù)據(jù)挖掘普通是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關系性(屬于Associationrulelearning)的信息的過程。數(shù)據(jù)挖掘普通與計算機科學有關,并通過統(tǒng)計、在線分析解決、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多辦法來實現(xiàn)上述目的。折疊數(shù)據(jù)挖掘的基本環(huán)節(jié)數(shù)據(jù)挖掘的環(huán)節(jié)會隨不同領域的應用而有所變化,每一種數(shù)據(jù)挖掘技術也會有各自的特性和使用環(huán)節(jié),針對不同問題和需求所制訂的數(shù)據(jù)挖掘過程也會存在差別。另外,數(shù)據(jù)的完整程度、專業(yè)人員支持的程度等都會對建立數(shù)據(jù)挖掘過程有所影響。這些因素造成了數(shù)據(jù)挖掘在各不同領域中的運用、規(guī)劃,以及流程的差別性,即使同一產(chǎn)業(yè),也會由于分析技術和專業(yè)知識的涉入程度不同而不同,因此對于數(shù)據(jù)挖掘過程的系統(tǒng)化、原則化就顯得格外重要。如此一來,不僅能夠較容易地跨領域應用,也能夠結合不同的專業(yè)知識,發(fā)揮數(shù)據(jù)挖掘的真正精神。數(shù)據(jù)挖掘完整的環(huán)節(jié)以下:①理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding)。②獲取有關知識與技術(acquisition)。③整合與檢查數(shù)據(jù)(integrationandchecking)。④去除錯誤或不一致的數(shù)據(jù)(datacleaning)。⑤建立模型和假設(modelandhypothesisdevelopment)。⑥實際數(shù)據(jù)挖掘工作(datamining)。⑦測試和驗證挖掘成果(testingandverification)。⑧解釋和應用(interpretationanduse)。由上述環(huán)節(jié)可看出,數(shù)據(jù)挖掘牽涉了大量的準備工作與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論