




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第1章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述
第五章數(shù)據(jù)預處理5.1 數(shù)據(jù)預處理重要性 5.2 數(shù)據(jù)清洗 5.3 數(shù)據(jù)集成與轉換5.4數(shù)據(jù)規(guī)約5.5離散化和概念樹生成
5.1數(shù)據(jù)預處理重要性數(shù)據(jù)預處理是數(shù)據(jù)挖掘(知識發(fā)現(xiàn))過程中的一個重要步驟,尤其是在對包含有噪聲、不完整,甚至是不一致數(shù)據(jù)進行數(shù)據(jù)挖掘時,更需要進行數(shù)據(jù)的預處理,以提高數(shù)據(jù)挖掘對象的質量,并最終達到提高數(shù)據(jù)挖掘所獲模式知識質量的目的5.1數(shù)據(jù)預處理重要性噪聲數(shù)據(jù):數(shù)據(jù)中存在著錯誤、或異常(偏離期望值)的數(shù)據(jù);不完整數(shù)據(jù):感興趣的屬性沒有值;不一致數(shù)據(jù):數(shù)據(jù)內(nèi)涵出現(xiàn)不一致情況(如:作為關鍵字的同一部門編碼出現(xiàn)不同值)。數(shù)據(jù)清洗:消除數(shù)據(jù)中所存在的噪聲、填補不完整數(shù)據(jù)以及糾正不一致數(shù)據(jù);數(shù)據(jù)集成:將來自多個數(shù)據(jù)源的數(shù)據(jù)合并到一起構成一個完整的數(shù)據(jù)集,需要處理不一致數(shù)據(jù);數(shù)據(jù)轉換:將一種格式的數(shù)據(jù)轉換為另一種格式的數(shù)據(jù);數(shù)據(jù)規(guī)約:通過刪除冗余特征或聚類消除多余數(shù)據(jù)。5.1數(shù)據(jù)預處理重要性噪聲數(shù)據(jù)產(chǎn)生的原因:5.1數(shù)據(jù)預處理重要性不完整數(shù)據(jù)產(chǎn)生的原因:5.1數(shù)據(jù)預處理重要性數(shù)據(jù)清洗包括:5.1數(shù)據(jù)預處理重要性數(shù)據(jù)集成將來自多個數(shù)據(jù)源(如:數(shù)據(jù)庫、文件等)數(shù)據(jù)合并到一起。由于描述同一個概念的屬性在不同數(shù)據(jù)庫取不同的名字,在進行數(shù)據(jù)集成時就常常會引起數(shù)據(jù)的不一致或冗余。custom-idcust-idBillB5.1數(shù)據(jù)預處理重要性數(shù)據(jù)轉換數(shù)據(jù)轉換主要是對數(shù)據(jù)進行標準化操作。在正式進行數(shù)據(jù)挖掘之前,尤其是使用基于對象距離的挖掘算法時,如:神經(jīng)網(wǎng)絡、最近鄰分類等,必須進行數(shù)據(jù)標準化。也就是將其縮至特定的范圍之內(nèi),如:[0,1]。年齡工資5.1數(shù)據(jù)預處理重要性數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約的目的就是縮小所挖掘數(shù)據(jù)的規(guī)模,但卻不會影響(或基本不影響)最終的挖掘結果?,F(xiàn)有的數(shù)據(jù)規(guī)約包括:1、數(shù)據(jù)聚合,如:構造數(shù)據(jù)立方(cube);2、消減維數(shù),數(shù)據(jù)挖掘如:通過相關分析消除多余屬性;3、數(shù)據(jù)壓縮,如:利用編碼方法(如最小編碼長度或小波);4、數(shù)據(jù)塊消減,如:利用聚類或參數(shù)模型替代原有數(shù)據(jù)。5.1數(shù)據(jù)預處理重要性5.1數(shù)據(jù)預處理重要性各種數(shù)據(jù)預處理方法,并不是相互獨立的,而是相互關聯(lián)的。現(xiàn)實世界數(shù)據(jù)常常是含有噪聲、不完全的和不一致的,數(shù)據(jù)預處理能夠幫助改善數(shù)據(jù)的質量,進而幫助提高數(shù)據(jù)挖掘進程的有效性和準確性。高質量的決策來自高質量的數(shù)據(jù)。因此數(shù)據(jù)預處理是整個數(shù)據(jù)挖掘與知識發(fā)現(xiàn)過程中一個重要步驟。5.2數(shù)據(jù)清洗缺失數(shù)據(jù)處理1、忽略該條記錄若一條記錄中有屬性值被遺漏了,則將此條記錄排除在數(shù)據(jù)挖掘過程之外。2、手工填補遺漏值。一般來說這種方法比較耗時,而且對于存在許多遺漏情況的大規(guī)模數(shù)據(jù)集而言,顯然可行較差。3、利用缺省值填補遺漏值對一個屬性的所有遺漏的值均利用一個事先確定好的值來填補。如:都用0來填補。但當一個屬性空缺率太高,采用這種方法,就可能誤導挖掘進程。5.2數(shù)據(jù)清洗缺失數(shù)據(jù)處理4、利用均值填補遺漏值計算一個屬性(值)的平均值,并用此值填補該屬性所有遺漏的值。如:若一個顧客的平均收入為12000元,則用此值填補income屬性中所有被遺漏的值。5、利用同類別均值填補遺漏值這種方法尤其在進行分類挖掘時使用。如:若要對商場顧客按信用風險(credit-risk)進行分類挖掘時,就可以用在同一信用風險類別下(如良好)的income屬性的平均值,來填補所有在同一信用風險類別下屬性income的遺漏值。5.2數(shù)據(jù)清洗缺失數(shù)據(jù)處理6、利用最可能的值填補遺漏值可以利用回歸分析、貝葉斯計算公式或決策樹推斷出該條記錄特定屬性的最大可能的取值。例如:利用數(shù)據(jù)集中其它顧客的屬性值,可以構造一個決策樹來預測屬性income的遺漏值。5.2數(shù)據(jù)清洗id姓名年齡投遞地址電話報刊金額訂閱網(wǎng)點興趣職業(yè)報刊類型00104張三21。。。。350。。。。。。體育00220李四35。。。。330。。。。。。政治00130王五。。。。18000。。。。。。體育00240趙六33。。。。340。。。。。。體育00345孫七27。。。。310。。。。。。政治00027周八。。。。娛樂00028吳九29。。。。。。。。。。。。體育2921+33+29/3=285.2數(shù)據(jù)清洗id姓名年齡層次籍貫性別興趣客戶級別00104張三青年北京男運動高00220李四中年天津女購物00130王五老年山東男低00240趙六青年上海女運動中00801孫七中年天津女集郵。。。。。。。。。。。。。。年齡層次為老年,且籍貫為山東的男性,興趣愛好為集郵集郵5.2數(shù)據(jù)清洗噪聲數(shù)據(jù)處理5.2數(shù)據(jù)清洗噪聲數(shù)據(jù)處理—分箱平滑數(shù)據(jù):4,8,9,15,21,21,24,25,26,28,29,34劃分為(等深的)箱:箱一:4,8,9,15箱二:21,21,24,25箱三:26,28,29,34用箱平均值平滑:箱一:9,9,9,9箱二:23,23,23,23箱三:29,29,29,295.2數(shù)據(jù)清洗噪聲數(shù)據(jù)處理—分箱平滑數(shù)據(jù):4,8,9,15,21,21,24,25,26,28,29,34劃分為(等深的)箱:箱一:4,8,9,15箱二:21,21,24,25箱三:26,28,29,34用箱邊界值平滑:箱一:4,4,4,15箱二:21,21,25,25箱三:26,26,26,345.2數(shù)據(jù)清洗噪聲數(shù)據(jù)處理—聚類5.2數(shù)據(jù)清洗噪聲數(shù)據(jù)處理—回歸5.2數(shù)據(jù)清洗不一致數(shù)據(jù)處理現(xiàn)實世界的數(shù)據(jù)庫常出現(xiàn)數(shù)據(jù)記錄內(nèi)容的不一致,其中一些數(shù)據(jù)不一致可以利用它們與外部的關聯(lián)手工加以解決。例如:輸入發(fā)生的數(shù)據(jù)錄入錯誤一般可以與原稿進行對比來加以糾正。此外還有一些例程可以幫助糾正使用編碼時所發(fā)生的不一致問題。5.3數(shù)據(jù)集成與轉換數(shù)據(jù)集成5.3數(shù)據(jù)集成與轉換數(shù)據(jù)轉換1、平滑幫助除去數(shù)據(jù)中的噪聲,主要技術方法有:分箱、聚類和回歸。2、聚集對數(shù)據(jù)進行總結或合計操作。3、泛化(generalization)用更抽象(更高層次)的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象。街道屬性泛化到更高層次的概念,諸如:城市、國家。同樣對于數(shù)值型的屬性;年齡屬性,就可以映射到更高層次概念,如:年輕、中年和老年。4、標準化標準化就是將有關屬性數(shù)據(jù)按比例投射到特定小范圍之中。如將工資收入屬性值映射到0到1范圍內(nèi)。5、屬性構造根據(jù)已有屬性集構造新的屬性,以幫助數(shù)據(jù)挖掘過程。標準化屬性構造哪個維度對建筑造價影響最大(長、寬、材料選擇、建筑風格)?長和寬構造面積哪種元素對膽固醇高有直接作用(Na、K、Ca、Mg)?可構造Na/K數(shù)據(jù)缺失噪聲數(shù)據(jù)不一致數(shù)據(jù)數(shù)據(jù)清洗:(1)處理缺失數(shù)據(jù)數(shù)據(jù);(2)分箱、聚類、回歸處理噪聲數(shù)據(jù)數(shù)據(jù)集成:實體識別、冗余、單位差別不易存儲計算挖掘的數(shù)據(jù)數(shù)據(jù)轉換:平滑、聚集、泛化、標準化、屬性構造5.4數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約技術正是用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來的結果與使用原有數(shù)據(jù)集所獲得結果基本相同。5.4數(shù)據(jù)規(guī)約5.4數(shù)據(jù)規(guī)約數(shù)據(jù)立方合計5.4數(shù)據(jù)規(guī)約數(shù)據(jù)立方合計5.4數(shù)據(jù)規(guī)約維規(guī)約什么樣的顧客是否會在商場購買MP3播放機客戶ID和電話號碼為無用維度維規(guī)約就是通過消除多余和無關的屬性而有效消減數(shù)據(jù)集的規(guī)模。5.4數(shù)據(jù)規(guī)約維規(guī)約屬性子集選擇方法的目標就是尋找出最小的屬性子集。確保新數(shù)據(jù)子集的概率分布盡可能接近原來數(shù)據(jù)集的概率分布。利用篩選后的屬性集挖掘所獲的結果,由于使用了較少的屬性,從而使得用戶更加容易理解挖掘結果。5.4數(shù)據(jù)規(guī)約維規(guī)約一般利用統(tǒng)計重要性的方法來選擇“最優(yōu)“或“最差”屬性。這里假設各屬性之間都是相互獨立的。構造屬性子集的基本啟發(fā)式方法有以下幾種5.4數(shù)據(jù)規(guī)約數(shù)據(jù)壓縮數(shù)據(jù)壓縮就是利用數(shù)據(jù)編碼或數(shù)據(jù)轉換將原來的數(shù)據(jù)集合壓縮為一個較小規(guī)模的數(shù)據(jù)集合。若僅根據(jù)壓縮后的數(shù)據(jù)集就可以恢復原來的數(shù)據(jù)集,那么就認為這一壓縮是無損的,否則就稱為有損的。在數(shù)據(jù)挖掘領域通常使用的兩種數(shù)據(jù)壓縮方法均是有損的,它們是小波轉換和主成分分析。5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減數(shù)據(jù)塊消減方法主要包含參數(shù)與非參數(shù)兩種基本方法。所謂參數(shù)方法就是利用一個模型來幫助通過計算獲得原來的數(shù)據(jù),因此只需要存儲模型的參數(shù)即可。例如:線性回歸模型就可以根據(jù)一組變量預測計算另一個變量。而非參數(shù)方法則是存儲利用直方圖、聚類或取樣而獲得的消減后數(shù)據(jù)集。5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減+線性回歸方法是利用一條直線模型對數(shù)據(jù)進行擬合。例如:利用自變量X的一個線性函數(shù)可以擬合因變量Y的輸出,其線性函數(shù)模型為:其中系數(shù)α和β稱為回歸系數(shù),也是直線的截距和斜率。這兩個系數(shù)可以通過最小二乘法計算獲得。多變量回歸則是利用多個自變量的一個線性函數(shù)擬合因變量Y的輸出5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減在數(shù)據(jù)規(guī)約中,數(shù)據(jù)的聚類表示用于替換原來的數(shù)據(jù)。聚類技術將數(shù)據(jù)行視為對象。對于聚類分析所獲得的組或類則有性質:同一組或類中的對象彼此相似而不同組或類中的對象彼此不相似。所謂相似通常利用多維空間中的距離來表示。5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減聚類采樣方法。首先將大數(shù)據(jù)集D劃分為M個不相交的“類”;然后再從這M個類中的數(shù)據(jù)對象分別進行隨機抽取,這樣就可以最終獲得聚類采樣數(shù)據(jù)子集。5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減分層采樣方法。首先將大數(shù)據(jù)集D劃分為若干不相交的“層”。然后再分別從這些“層“中隨機抽取數(shù)據(jù)對象,從而獲得具有代表性的采樣數(shù)據(jù)子集。例如:可以對一個顧客數(shù)據(jù)集按照年齡進行分層,然后再在每個年齡組中進行隨機選擇,從而確保了最終獲得分層采樣數(shù)據(jù)子集中的年齡分布具有代表性。5.4數(shù)據(jù)規(guī)約數(shù)據(jù)塊消減5.5離散化和概念層次樹生成離散化技術方法可以通過將屬性(連續(xù)取值)域值范圍分為若干區(qū)間,來幫助消減一個連續(xù)(取值)屬性的取值個數(shù)。可以用一個標簽來表示一個區(qū)間內(nèi)的實際數(shù)據(jù)值。在基于決策樹的分類挖掘中,消減一個屬性取值個數(shù)的離散化處理是一個極為有效的數(shù)據(jù)預處理步驟。5.5離散化和概念層次樹生成概念層次樹可以通過利用較高層次概念替換低層次概念(如年齡的數(shù)值)而減少原來數(shù)據(jù)集。雖然一些細節(jié)在數(shù)據(jù)泛化過程中消失了,但這樣所獲得的泛化數(shù)據(jù)或許會更易于理解、更有意義,挖掘效率更高。5.5離散化和概念層次樹生成5.5離散化和概念層次樹生成概念層次樹生成5.5離散化和概念層次樹生成概念層次樹生成3-4-5規(guī)則若一個區(qū)間包含3、6、7、9個不同值,則將該區(qū)間(包含3、6、9不同值)分解為三個等寬小區(qū)間;而將包含7個不同值分解為分別包含2個、3個和2個不同值的小區(qū)間(也共是三個)。若一個區(qū)間包含2、4、8個不同值,則將該區(qū)間分解為四個等寬小區(qū)間。若一個區(qū)間包含1、5、10個不同值,則將該區(qū)間分解為五個等寬小區(qū)間。5.5離散化和概念層次樹生成概念層次樹生成3-4-5規(guī)則對指定數(shù)值屬性的取值范圍不斷循環(huán)應用3-4-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【假期提升】 五升六語文暑假作業(yè)(四)-人教部編版(含答案含解析)
- 音樂角色測試試題及答案
- 2019-2025年軍隊文職人員招聘之軍隊文職公共科目能力檢測試卷A卷附答案
- 醫(yī)療服務基礎面試題及答案
- 配合老師教學的合同(2篇)
- 2025年度施工員資格考試全真模擬考試試題及答案(共三套)
- 健康衛(wèi)生知識培訓課件
- 年度目標達成工作計劃與目標分解
- 私人導游旅游服務安全須知
- 成長中的兒童文學經(jīng)典作品解讀
- 水利工程設計課件
- 關心關愛女性健康知識講座含內(nèi)容兩篇
- 《地方導游基礎知識》課程標準
- 50新媒體文案的具體寫作課件
- 西北政法環(huán)境與資源保護法學案例評析04國際環(huán)境保護法案例
- 上海煙草集團有限責任公司招聘考試真題及答案2022
- 建設工程檢測人員(地基基礎檢測)考試復習題庫400題(含各題型)
- 房地產(chǎn)開發(fā)公司建立質量保證體系情況說明
- 谷氨酸的發(fā)酵工藝
- 商品庫存管理系統(tǒng)-數(shù)據(jù)庫課設
- 航拍中國第一季 文字稿
評論
0/150
提交評論