大數(shù)據(jù)預處理技術(shù)第1章數(shù)據(jù)預處理概述課件_第1頁
大數(shù)據(jù)預處理技術(shù)第1章數(shù)據(jù)預處理概述課件_第2頁
大數(shù)據(jù)預處理技術(shù)第1章數(shù)據(jù)預處理概述課件_第3頁
大數(shù)據(jù)預處理技術(shù)第1章數(shù)據(jù)預處理概述課件_第4頁
大數(shù)據(jù)預處理技術(shù)第1章數(shù)據(jù)預處理概述課件_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第一章:數(shù)據(jù)預處理總述1大數(shù)據(jù)項目開發(fā)流程數(shù)據(jù)采集數(shù)據(jù)預處理數(shù)據(jù)存儲數(shù)據(jù)分析挖掘數(shù)據(jù)可視化2目 錄數(shù)據(jù)預處理目的數(shù)據(jù)預處理的流程數(shù)據(jù)預處理的工具020304數(shù)據(jù)預處理背景013數(shù)據(jù)預處理背景0 1-數(shù)據(jù)的各種質(zhì)量4數(shù)據(jù)質(zhì)量問題完整性一致性相關性時效性可信性可解釋性準確性5數(shù)據(jù)收集設備故障數(shù)據(jù)輸入錯誤數(shù)據(jù)傳輸過程出錯 命名約定、數(shù)據(jù)代碼、輸入字段的格式不一致數(shù)據(jù)質(zhì)量因素數(shù)據(jù)是正確的,數(shù)據(jù)存儲在數(shù)據(jù)庫中的值對應于真實世界的值造成數(shù)據(jù)不準確的原因準確性6完整性數(shù)據(jù)質(zhì)量因素指信息具有一個實體描述的所有必需的部分,在傳統(tǒng)關系型數(shù)據(jù)庫中,完整性通常與空值(NULL)有關。一般包括記錄的缺失和記錄屬性的缺失

2、。涉及個人隱私,無法獲取相關屬性數(shù)據(jù)輸入時,由于人為的疏漏導致數(shù)據(jù)輸入或傳輸時,由于機器的故障導致造成數(shù)據(jù)不完整的原因:7一致性數(shù)據(jù)質(zhì)量因素在數(shù)據(jù)庫中是指在不同地方存儲和使用的同一數(shù)據(jù)應當是等價的,表示數(shù)據(jù)有相等的值和相同的含義邏輯不一致8一致性數(shù)據(jù)質(zhì)量因素在數(shù)據(jù)庫中是指在不同地方存儲和使用的同一數(shù)據(jù)應當是等價的,表示數(shù)據(jù)有相等的值和相同的含義記錄規(guī)范不一致9一致性數(shù)據(jù)質(zhì)量因素在數(shù)據(jù)庫中是指在不同地方存儲和使用的同一數(shù)據(jù)應當是等價的,表示數(shù)據(jù)有相等的值和相同的含義數(shù)據(jù)冗余時數(shù)據(jù)內(nèi)容不一致10相關性數(shù)據(jù)質(zhì)量因素數(shù)據(jù)的相關性是指數(shù)據(jù)與特定的應用和領域有關。構(gòu)造預測模型時,需要采集與模型相關的數(shù)據(jù)相

3、同的數(shù)據(jù),在不同的應用領域中,相關性也是不一樣的。數(shù)據(jù)相關性的應用場景:11時效性數(shù)據(jù)質(zhì)量因素是指數(shù)據(jù)僅在一定時間段內(nèi)對決策具有價值的屬性。數(shù)據(jù)的時效性很大程度上制約著決策的客觀效果。商品推薦城市交通數(shù)據(jù)時效性的應用場景:12數(shù)據(jù)來源的權(quán)威性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)產(chǎn)生的時間反映數(shù)據(jù)是否容易理解數(shù)據(jù)質(zhì)量因素13可信性可解釋性數(shù)據(jù)預處理目的0 2-提升數(shù)據(jù)質(zhì)量14目的:達到改進數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)挖掘過程的準確率和效率。保證數(shù)據(jù)挖掘的正確性和有效性。通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使得數(shù)據(jù)更符合挖掘的需要。數(shù)據(jù)預處理的目的數(shù)據(jù)采集數(shù)據(jù)預處理數(shù)據(jù)存儲數(shù)據(jù)分析挖掘數(shù)據(jù)可視化15重要性:數(shù)據(jù)預處理是數(shù)據(jù)挖掘中

4、必不可少的關鍵一步, 更是進行數(shù)據(jù)挖掘前的準備工作。目的 提升數(shù)據(jù)質(zhì)量,符合數(shù)據(jù)挖掘的需求,保證數(shù)據(jù)挖掘的正確性和有效性16數(shù)據(jù)預處理流程0 3數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)變換17預處理流程18數(shù)據(jù)清理臟數(shù)據(jù):由于重復錄入,并發(fā)處理等不規(guī)范的操作,導致產(chǎn)生不完整,不準確的,無效的數(shù)據(jù)。學號姓名性別年齡所在專業(yè)95001張曉云女18M0195002劉一天男19M0295003鄧茹女180M0395004王小剛男20M05越早處理臟數(shù)據(jù),數(shù)據(jù)清理操作越簡單19數(shù)據(jù)清理缺失值處理噪聲數(shù)據(jù)平滑數(shù)據(jù)清理試圖填充空缺的值、識別孤立點、消除噪聲,并糾正數(shù)據(jù)中的不一致性。學號姓名性別年齡所在專業(yè)95001張曉

5、云女18M0195002劉一天男19M0295003鄧茹女18M0395004王小剛男NullM0520缺失值處理缺失值:現(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完整的客戶編號客戶名稱.風險等級收入0001張三380000002李四2120000003王五2110000004趙六1200000005李木2NULL0006王權(quán)125000缺失值處理方法:忽略元組人工填寫屬性的中心度量來填充使用于給定元組同一類的所有樣本平均值使用最可能的值客戶信息表21缺失值處理客戶編號客戶名稱.風險等級收入0001張三380000002李四2120000003王五2110000004趙六1200000005李木2NU

6、LL0006王權(quán)125000元組屬性中心度量平均值中位數(shù)客戶信息表客戶收入:8000、11000、12000、20000、2500022忽略元組缺失值處理客戶編號客戶名稱.風險等級收入0001張三380000002李四2120000003王五2110000004趙六1200000005李木2NULL0006王權(quán)125000人工填寫:人為填充,工作量大,不可行全局變量:采用全局常量來替換空缺值23使用屬性的中心度量使用最可能的值:利用回歸、貝葉斯計算公式推斷最可能的值缺失值處理用同類樣本屬性的中心度量收入80001200011000200001520025000客戶編號客戶名稱.風險等級收入00

7、01張三380000002李四2120000003王五2110000004趙六1200000005李木2115000006王權(quán)12500024噪聲是被測量的變量的隨機誤差或偏差。噪聲處理引起噪聲數(shù)據(jù)的原因:數(shù)據(jù)收集工具的問題數(shù)據(jù)輸入錯誤數(shù)據(jù)傳輸錯誤技術(shù)的限制命名規(guī)則不一致噪聲處理的方法:分箱法回歸聚類噪聲處理的目的:降低對數(shù)據(jù)分析和結(jié)果的影響孤立點:不符合數(shù)據(jù)模型的數(shù)據(jù)。25分箱:通過考察數(shù)據(jù)的近鄰來光滑有序數(shù)據(jù)值。噪聲處理26 舉例:8、24、15、41、6、10、18、67、25等9個數(shù)。 排序:6、8、10、15、18、24、25、41、67。 分箱: 箱1: 6、8、10 箱2: 15

8、、18、24 箱3: 25、41、67 分別用三種不同的分箱法求出平滑存儲數(shù)據(jù)的值: 平均值:8; 箱1: 8,8,8。中值: 18 箱2: 18,18,18 。邊界值: 箱3:25,25,67,箱中的最大和最小值被視為箱邊界?;貧w:采用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)。噪聲處理27線性回歸:找出擬合兩個屬性的“最佳”直線,幫助平滑數(shù)據(jù)及除去噪聲。多元線性回歸:設計多個屬性,擬合到一個多維的面聚類:可以通過聚類算法來檢測離群點,消除噪聲噪聲處理聚類算法:K均值方法:層次聚類方法基于密度聚類方法28相似或相鄰近的數(shù)據(jù)聚合在一起形成各個聚類集合,而那些位于聚類集合之外的數(shù)據(jù)對象,被視為離群點。數(shù)據(jù)清理2

9、930數(shù)據(jù)預處理流程0 3數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)規(guī)約31數(shù)據(jù)集成信息孤島:指不同軟件間,尤其是不同部門間的數(shù)據(jù)信息不能共享,造成系統(tǒng)中存在大量冗余數(shù)據(jù)、垃圾數(shù)據(jù),無法保證數(shù)據(jù)的一致性。定義:將互相關聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,使用戶能夠以透明的方式訪問這些數(shù)據(jù)源。階段性分布性信息孤島32數(shù)據(jù)集成聯(lián)邦數(shù)據(jù)庫:將各數(shù)據(jù)源的數(shù)據(jù)視圖集成為全局模式33中間件集成:通過統(tǒng)一的全局數(shù)據(jù)模型來訪問異構(gòu)的數(shù)據(jù)源數(shù)據(jù)復制:將各個數(shù)據(jù)源的數(shù)據(jù)復制到同一處,即數(shù)據(jù)倉庫數(shù)據(jù)集成的方法:聯(lián)邦數(shù)據(jù)庫,中間件集成,數(shù)據(jù)復制。數(shù)據(jù)集成集成過程中需要處理的問題實體識別冗余與相關分析數(shù)據(jù)沖突和檢測34實體識別:匹配多個

10、信息源在現(xiàn)實世界中的等價實體。數(shù)據(jù)集成同義不同名IDcustomer_idcust_numberNo? =? =同名不同義discount商品訂單35冗余問題:屬性重復,屬性相關冗余,元組重復。數(shù)據(jù)集成數(shù)值數(shù)據(jù)的相關系數(shù)數(shù)值數(shù)據(jù)的協(xié)方差客戶編號客戶名稱.female性別月薪年收入0001張三0男8960002李四1女7840003王五1女6720004趙剛0男7.5900005趙剛0男7.59036屬性重復屬性相關冗余元組重復數(shù)據(jù)沖突的檢測與處理對現(xiàn)實世界的同一實體,來自不同數(shù)據(jù)源的屬性定義不同。原因:表示方法,度量單位、編碼或比例的差異數(shù)據(jù)集成厘米英尺mm磅公斤統(tǒng)一37小結(jié)3839數(shù)據(jù)預處理

11、0 3影響數(shù)據(jù)質(zhì)量的因素數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)變換40為什么要數(shù)據(jù)規(guī)約在現(xiàn)實場景中,數(shù)據(jù)集是很龐大的,數(shù)據(jù)是海量的,在整個數(shù)據(jù)集上進行復雜的數(shù)據(jù)分析和挖掘需要花費很長的時間。數(shù)據(jù)規(guī)約41數(shù)據(jù)規(guī)約目的用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果是基本相同。標準用于規(guī)約的時間不應當超過或抵消在規(guī)約后的數(shù)據(jù)上挖掘節(jié)省的時間。規(guī)約得到的數(shù)據(jù)比原數(shù)據(jù)小得多,但可以產(chǎn)生相同或幾乎相同的分析結(jié)果維歸約數(shù)量歸約數(shù)據(jù)壓縮數(shù)據(jù)規(guī)約42維歸約-主成分分析主成分分析:主成分分析

12、也稱主分量分析,旨在利用降維的思想,把多指標轉(zhuǎn)化為少數(shù)幾個綜合指標(即主成分),其中每個主成分都能夠反映原始變量的大部分信息,且所含信息互不重復。43-這種方法在引進多方面變量的同時將復雜因素歸結(jié)為幾個主成分,使問題簡單化,同時得到的結(jié)果更加科學有效的數(shù)據(jù)信息。屬性子集選擇用于檢測并刪除不相關、弱相關或冗余的屬性。目標是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性得到的原分布維歸約-屬性子集選擇顧客分類年齡喜好音樂類型電話號碼住址分析顧客是否愿意購買新的流行CD44數(shù)量歸約:通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。數(shù)量規(guī)約45(1)有參方法:回歸和對數(shù)的線性模型(2)無

13、參方法:直方圖、聚類、抽樣和數(shù)據(jù)立方體聚集(1)有參方法:回歸和對數(shù)的線性模型通常使用一個參數(shù)模型來評估數(shù)據(jù),該方法只需要存儲參數(shù),而不是實際數(shù)據(jù),能大大減少數(shù)據(jù)量,但只對數(shù)值型數(shù)據(jù)有效。如:線性回歸方法:Y=+X數(shù)量規(guī)約46(2)無參方法:直方圖:根據(jù)屬性的數(shù)據(jù)分布將其分成若干不相交的區(qū)間,每個區(qū)間的高度與其出現(xiàn)的頻率成正比。數(shù)量規(guī)約例:下面的數(shù)據(jù)是某商店銷售的商品的單價表(已排序):1,1,5,5,5,5,5,8,8,10,10,10,10,12,14,14,14,15,15,15,15,15,15,18,18, 18,18, 18,18, 18,18,20,20, 20,20, 20,2

14、0,20,21,21, 21,21,25,25, 25,25,25,28,28,30,30,30。試用直方圖表示,以壓縮數(shù)據(jù)。價格清單:1(2),5(5),8(2),10(4),12,14(4),15(5), 18(8),20(7),21(4),25(5),28,30(3)47聚類:將原數(shù)據(jù)集劃分成多個群或聚類。原則:同類中的數(shù)據(jù)彼此相似;不同類中的數(shù)據(jù)彼此不相似。相似:通常用空間距離度量 聚類的有效性依賴于實際數(shù)據(jù)的內(nèi)在規(guī)律。數(shù)量規(guī)約48數(shù)量規(guī)約49取樣(抽樣):允許用數(shù)據(jù)的較小隨機樣本(子集)表示大的數(shù)據(jù)集。取樣方法:數(shù)量規(guī)約50 不放回簡單隨機取樣 (Simple Random Samp

15、ling Without Replacement, SRSWOR)放回簡單隨機取樣(Simple Random Sampling With Replacement, SRSWR) 聚類取樣:先聚類,后取樣 分層取樣:先分層,后取樣。數(shù)量規(guī)約 :取樣SRSSRSWOR(簡單隨機選樣,不回放)SRSWR(簡單隨機選樣,回放)原始數(shù)據(jù)51數(shù)量規(guī)約52聚類采樣: 首先將大數(shù)據(jù)集D劃分為M個互不相交的聚類,然后再從M個類中的數(shù)據(jù)對象分別進行隨機抽取,可最終獲得聚類采樣的數(shù)據(jù)子集。聚類采樣方法示意圖數(shù)量規(guī)約53聚類取樣圖示數(shù)量規(guī)約分層取樣: 首先將大數(shù)據(jù)集D劃分為互不相交的層,然后對每一層簡單隨機選樣得到

16、D的分層選樣。54數(shù)量規(guī)約分層取樣圖示分層采樣方法示意圖根據(jù)顧客的年齡組進行分層,然后再在每個年齡組中進行隨機選樣,從而確保了最終獲得分層采樣數(shù)據(jù)子集中的年齡分布具有代表性。55數(shù)據(jù)立方體聚集數(shù)據(jù)立方體概念數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示,由維度、維度成員和度量值組成。維度:觀察數(shù)據(jù)的角度維度成員:維的取值度量值:實際意義的數(shù)值數(shù)據(jù)立方體聚集定義將n維數(shù)據(jù)立方體聚集成n-1維的數(shù)據(jù)立方體數(shù)量規(guī)約產(chǎn)品類型時間地區(qū)維度維度成員度量值230056數(shù)據(jù)立方體聚集200220032004Home entertanment203330004000computer300645556000phone60010

17、004000security2005001000數(shù)據(jù)規(guī)約57數(shù)據(jù)壓縮:利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換將原來的數(shù)據(jù)集合壓縮為一個較小規(guī)模的數(shù)據(jù)集合。無損壓縮(loseless):可以不丟失任何信息地還原壓縮數(shù)據(jù);如:字符串壓縮,壓縮格式:Zip或RAR有損壓縮(lossy):只能重新構(gòu)造原數(shù)據(jù)的近似表示;如:音頻/視頻壓縮。音頻能夠在沒有察覺的質(zhì)量下降情況下實現(xiàn) 10:1 的壓縮比,視頻能夠在稍微觀察質(zhì)量下降的情況下實現(xiàn)如 300:1 這樣非常大的壓縮比。數(shù)據(jù)歸約58數(shù)據(jù)規(guī)約小結(jié)59數(shù)據(jù)預處理0 3影響數(shù)據(jù)質(zhì)量的因素數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)變換61數(shù)據(jù)變換目的:將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成易于進行數(shù)據(jù)挖掘的數(shù)

18、據(jù)存儲形式,使得挖掘過程可能更有效。方法策略:光滑:去掉數(shù)據(jù)中的噪音。屬性構(gòu)造:由給定的屬性構(gòu)造新的屬性并添加到屬性集中,幫助數(shù)據(jù)分析和挖掘。聚集:對數(shù)據(jù)進行匯總或聚集規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間離散化:數(shù)值屬性用區(qū)間標簽或概念標簽替換。由標稱數(shù)據(jù)產(chǎn)生概念分層:屬性,如street,可以泛化到較高的概念層,如city或country。62數(shù)據(jù)變換規(guī)范化:將數(shù)據(jù)按比例進行縮放,使之落入一個特定的區(qū)域。常用的算法:最小-最大規(guī)范化;零-均值規(guī)范化(z-score規(guī)范化);小數(shù)定標規(guī)范化。63例:假定屬性income的最小與最大值分別為$12000和$98000,可根據(jù)最小最大規(guī)范化方法將其范圍映射到0,1:如:屬性值$73600將變換為:(73600-12000)/(98000-12000)*(1-0)+0=0.716數(shù)據(jù)變換64數(shù)據(jù)變換65663)小數(shù)定標規(guī)范化:通過移動屬性A的小數(shù)點位置進行規(guī)范化,小數(shù)點的移動依賴于A的最大絕對值:例:假定A的取值范圍-986, 917,則A的最大絕對值為986,為使用小數(shù)定標規(guī)范化,用1000(即j=3)除每個值,這樣-986被規(guī)范化為-0.986。其中,j是使 Max(| v |)1的最小整數(shù)數(shù)據(jù)變換67數(shù)據(jù)變換總結(jié)數(shù)據(jù)預處理注意項數(shù)據(jù)預處理的上述流程并不是完全分開的,在某種場景下是可以一起使用的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論