




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第4章數(shù)據(jù)預(yù)處理4.1 數(shù)據(jù)預(yù)處理概述4.1.1 原始數(shù)據(jù)中存在的問(wèn)題1 .不一致2 .重復(fù)3 .不完整4 .含噪聲5 .維度高6 .數(shù)據(jù)不平衡7 .1.2數(shù)據(jù)預(yù)處理的方法和功能1 .數(shù)據(jù)?#洗(datacleaning)2 .數(shù)據(jù)集成(dataintegration)3 .數(shù)據(jù)變換(datatransformation)4 .數(shù)據(jù)J)3約(datareduction)4.2數(shù)據(jù)清洗1 屬性選擇與處理4 .盡可能賦予屬性名和屬性值明確的含義5 .統(tǒng)一多數(shù)據(jù)源的屬性值編碼6 .處理唯一屬性7 .去除重復(fù)屬性8 .去除可忽略字段9 .合理選擇關(guān)聯(lián)字段4.2.2空缺值處理1 .忽略該記錄2 .去掉屬
2、性3 .寫空缺值4 .使用默認(rèn)值5 .使用屬性平均值6 .使用同類樣本平均值7 .預(yù)測(cè)最可能的值8 .2.3噪聲數(shù)據(jù)處理6 .分箱(binning)7 .聚類(clustering)圖4-1用聚類方法去掉噪聲8 .回歸(regression)4.2.4不平衡數(shù)據(jù)的處理4.3數(shù)據(jù)集成和變換4.3.1數(shù)據(jù)集成.模式匹配表41客戶基本情況表表4寸客戶交易數(shù)據(jù)表屬性名稱數(shù)據(jù)類型說(shuō)明屬性名稱數(shù)據(jù)類型說(shuō)明idShortint客戶株志cu3tomcr_idint客戶標(biāo)志genderboolean性別timedate交易日期goodsstring商陸名稱birthdata出生日期pricereal商品價(jià)格ty
3、peboolean是否會(huì)員countshortint商品數(shù)量incomeShortint月收入(元)real總僑格.數(shù)據(jù)冗余.數(shù)據(jù)值沖突.3.2數(shù)據(jù)變換.平滑(smoothing).聚集(clustering).數(shù)據(jù)和3化(generalization).規(guī)范化(normalization).屬性構(gòu)造.4數(shù)據(jù)歸約數(shù)據(jù)歸約的方法數(shù)據(jù)立方體聚集省份年份200091/7天津河北江蘇廣東銷稗金額1042150050044125201402140328079973154324172017025841750、陸育國(guó)房家裝文具商品類型表*3"銷售記錄”表結(jié)構(gòu)題性名稱數(shù)據(jù)類型長(zhǎng)度說(shuō)明goods_ty
4、pcString10商品類型yearstring4年的provincestring20省粉salesreal6期售金額(萬(wàn)元)圖4-2銷售數(shù)據(jù)立方體維歸約.逐步向前選擇.逐步向后刪除.向前選擇和向后刪除結(jié)合.判定樹(shù)(dicisiontree)歸納.基于統(tǒng)計(jì)分析的歸約數(shù)據(jù)壓縮數(shù)值歸約1.直方圖(histogram)圖4-5購(gòu)買數(shù)據(jù)的單桶直方圖2.聚類3.抽樣(sampling)圖4-6購(gòu)買數(shù)據(jù)的等寬直方圖(箱寬5)1.X2180005823。口034400013221CQ25418002503QCQ22618000231600128450014435002ageincomelevelageinc
5、onnclevel218tXI02180002316000*-261800261S001284500LageincomelevelageiTicomelevel344000134400013221002ageincomelevelageincomelevel443500244350。2ageincomelevelageincomelevel5623000503000254l«0025030002圖4-8用戶數(shù)據(jù)按年齡分層抽樣.線性回歸.非線性回歸.4.6離散化與概念分層生成分稻后的卻隹風(fēng)1,數(shù)值數(shù)據(jù)的離散化與概念分層生成黑,會(huì)D1:TJHDI7120)二LiaoddT)最高位有6個(gè)不
6、同的值,分成3個(gè)等覽的區(qū)域U謂TNCJ25O%最高位有之個(gè)不同的面£T-D3V-分成4個(gè)等就的區(qū)域Cj5J0T5O25°l51)22VvD32VP24D34圖4-103-4-5規(guī)則產(chǎn)生的概念分層J"5%95%圖4-11數(shù)據(jù)集D的分布曲線最高位有4個(gè)不同的值,分成4個(gè)等寬的區(qū)域Q(jyoT)(2o3oT)D2D3D4圖4-12在置信區(qū)間5%,95%上的第一層劃分圖4-13對(duì)缺失區(qū)間補(bǔ)充的劃分-10,30-13,10)-10,0)10,20)|獨(dú)岫30,32)|10J2)3031)112.14)22.24)31,32)UkL24J6)26,28)TT)CJUVO)圖4
7、-14對(duì)圖4-13進(jìn)一步分層2.分類數(shù)據(jù)的概念分層生成U?5匚)CfripnthcfendayTth圖4-15對(duì)屬性組:year,month,day的概念分層習(xí)題4.列舉實(shí)際業(yè)務(wù)操作數(shù)據(jù)中存在的問(wèn)題以及這些問(wèn)題產(chǎn)生的原因。.數(shù)據(jù)預(yù)處理涉及哪些方法,這些方法分別用于解決數(shù)據(jù)中的哪方面的問(wèn)題?.說(shuō)明屬性選取的原則。.說(shuō)明填補(bǔ)空缺值的方法和這些方法的優(yōu)缺點(diǎn)。.下面是一個(gè)超市某種商品連續(xù)24個(gè)月的銷售數(shù)據(jù)(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17使用統(tǒng)一權(quán)重、統(tǒng)一區(qū)間、和自定義區(qū)間方法對(duì)數(shù)據(jù)分
8、箱,做出各種分箱方法得到的直方圖。.對(duì)上題中分箱后的數(shù)據(jù)采用平均值、邊界值或中值等方法進(jìn)行平滑。.如果挖掘算法需要把第5題中的商品銷售數(shù)據(jù)規(guī)范化到區(qū)間0,1上,采用最小-最大規(guī)范化方法,請(qǐng)寫出規(guī)范化后的結(jié)果。.試采用一種分箱方法,對(duì)以下某種商品連續(xù)30周的銷售利潤(rùn)數(shù)據(jù)進(jìn)行歸約(千元):3,2,5,7,4,2,5,6,8,8,4,5,4,6,2,3,7,5,5,4,6,3,4,7,8,3,6,4,2,39.解釋本章中提到的幾種數(shù)據(jù)抽樣方法。10.用等寬分箱技術(shù)對(duì)排序后的數(shù)據(jù)集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 平面車位租賃合同范本
- 合伙店合作合同范本
- 單位出讓房屋合同范本
- 合伙門窗店合同范本
- 單位欠款合同范本
- 企業(yè)eap合同范本
- 印刷耗材采購(gòu)合同范本
- 出租燒烤店合同范例
- 人工智能治理框架與應(yīng)用領(lǐng)域的戰(zhàn)研究總結(jié)
- 合同范本前言范文
- API520-安全閥計(jì)算PART1(中文版)
- 生產(chǎn)車間管理制度辦法
- 機(jī)電企業(yè)管理導(dǎo)論第1章課件
- 水平一足球全冊(cè)教案
- 蘇教版科學(xué)二年級(jí)下冊(cè)全冊(cè)教案
- 約束評(píng)分標(biāo)準(zhǔn)
- GB/T 28799.2-2020冷熱水用耐熱聚乙烯(PE-RT)管道系統(tǒng)第2部分:管材
- 法律和道德的關(guān)系 課件
- GB 16780-2021水泥單位產(chǎn)品能源消耗限額
- 全面推進(jìn)依法行政課件
- 政務(wù)服務(wù)一網(wǎng)通辦平臺(tái)解決方案-最新
評(píng)論
0/150
提交評(píng)論