第三講數(shù)據(jù)預處理_第1頁
第三講數(shù)據(jù)預處理_第2頁
第三講數(shù)據(jù)預處理_第3頁
第三講數(shù)據(jù)預處理_第4頁
第三講數(shù)據(jù)預處理_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第三講數(shù)據(jù)預處理第一頁,共六十九頁,2022年,8月28日2數(shù)據(jù)預處理(DataPreprocessing)為什么要預處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)簡約(歸約)離散化與概念分層生成用SSIS對數(shù)據(jù)進行ETL操作第二頁,共六十九頁,2022年,8月28日3為什么進行數(shù)據(jù)預處理?現(xiàn)實世界中的數(shù)據(jù)是“臟”的不完整:缺少屬性值,缺少某些屬性,或者僅包含聚集類數(shù)據(jù)噪音:包含錯誤、異常數(shù)據(jù)或存在偏離期望的孤立點值。不一致:包含編碼或名稱的差異。例如,用于商品分類的部門編碼存在差異。沒有質(zhì)量保證的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果!高質(zhì)量的決策必須以高質(zhì)量的數(shù)據(jù)為基礎數(shù)據(jù)倉庫需要一致集成的高質(zhì)量數(shù)據(jù)第三頁,共六十九頁,2022年,8月28日4數(shù)據(jù)質(zhì)量的多維測度一個被普遍接受的多維觀點準確性(Accuracy)完整性(Completeness)一致性(Consistency)適時性(Timeliness)可信性(Believability)可增值性(Valueadded)可解釋性(Interpretability)可獲取性(Accessibility)第四頁,共六十九頁,2022年,8月28日5數(shù)據(jù)預處理的主要任務數(shù)據(jù)清理(Datacleaning)Fillinmissingvalues,smoothnoisydata,identifyorremoveoutliers,andresolveinconsistencies數(shù)據(jù)集成(Dataintegration)Integrationofmultipledatabases,datacubes,orfiles數(shù)據(jù)轉(zhuǎn)換(Datatransformation)Normalizationandaggregation數(shù)據(jù)歸約/約簡(Datareduction)Obtainsreducedrepresentationinvolumebutproducesthesameorsimilaranalyticalresults第五頁,共六十九頁,2022年,8月28日6數(shù)據(jù)預處理的形式第六頁,共六十九頁,2022年,8月28日7為什么要預處理數(shù)據(jù)?現(xiàn)實世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。數(shù)據(jù)預處理技術可以改進數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。由于高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預處理是知識發(fā)現(xiàn)過程中的重要步驟。第七頁,共六十九頁,2022年,8月28日8數(shù)據(jù)預處理為什么要預處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)簡約(歸約)離散化與概念分層生成用SSIS對數(shù)據(jù)進行ETL操作第八頁,共六十九頁,2022年,8月28日9數(shù)據(jù)清理數(shù)據(jù)清理任務補充缺失值識別異常并平滑噪音數(shù)據(jù)修正不一致的數(shù)據(jù)第九頁,共六十九頁,2022年,8月28日10MissingData(缺失數(shù)據(jù))數(shù)據(jù)并非總是可得到的例如:許多元組在某些屬性上沒有記錄值,比如銷售數(shù)據(jù)中的客戶收入導致缺失數(shù)據(jù)的原因設備出錯和其他記錄數(shù)據(jù)不一致,進而被刪除了由于誤解導致數(shù)據(jù)沒有錄入在錄入的時候某些數(shù)據(jù)可能被認為是不重要的缺失數(shù)據(jù)可能需要被推知第十頁,共六十九頁,2022年,8月28日11如何處理缺失數(shù)據(jù)忽略該元組:通常類標志缺失時(假設在分類任務中)手工填入缺失值:繁瑣+不可能?用一個全局常量來填充缺失值:例如,用“unknown”來替換空缺值。可能挖掘出一個有趣的概念,因為這些數(shù)據(jù)都具有相同的值“unknown”。該方法雖然簡單,卻并不十分可靠。利用該屬性的均值來填充缺失值:例如用顧客的平均收入替換收入(income)的空值。利用與給定元組屬于同一類的所有樣本的均值:例如,如果將顧客按信用等級(credit_risk)分類,則用具有相同信用度的顧客的平均收入替換收入的空缺值。smarter利用最可能的值來填充缺失值:決策樹。例如利用數(shù)據(jù)集中其他顧客的屬性,可以構造一棵決策樹,來預測income的空缺值。第十一頁,共六十九頁,2022年,8月28日12如何處理缺失數(shù)據(jù)方法3-6使數(shù)據(jù)傾斜,填入的值可能不正確。然而,方法6是最常用的方法。與其他方法相比,它使用現(xiàn)存數(shù)據(jù)的多數(shù)信息來預測空缺值。通過考慮其他屬性的值,有更大機會保持空值屬性和其他屬性之間的聯(lián)系。第十二頁,共六十九頁,2022年,8月28日13噪音數(shù)據(jù)(NoisyData)Noise:(具有不正確的屬性值)在可測度變量中的隨機錯誤或偏差導致不正確屬性值的原因錯誤的數(shù)據(jù)收集手段數(shù)據(jù)輸入問題數(shù)據(jù)傳送問題技術限制第十三頁,共六十九頁,2022年,8月28日14如何處理噪音數(shù)據(jù)?給定一個數(shù)值屬性,例如price,怎樣才能平滑數(shù)據(jù),去掉噪音?常用的數(shù)據(jù)平滑技術:分箱(Binningmethod):分箱方法通過考察“鄰居”(即周圍的值)來平滑存儲數(shù)據(jù)的值。首先將數(shù)據(jù)排序并將其分割到一些相等深度的“桶”(bucketorbin)中然后可根據(jù)桶均值,桶中間值,桶邊界值等進行平滑第十四頁,共六十九頁,2022年,8月28日15Sorteddata:4,8,15,21,21,24,25,28,34Partitioninto(equidepth)bins:Bin1:4,8,15Bin2:21,21,24Bin3:25,28,34Smoothingbybinmeans:Bin1:9,9,9Bin2:22,22,22Bin3:29,29,29Smoothingbyboundaries:Bin1:4,4,15Bin2:21,21,24Bin3:25,25,34BinningMethod第十五頁,共六十九頁,2022年,8月28日16數(shù)據(jù)平滑的Binning方法*Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34*Partitioninto(equi-depth)bins:-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34*Smoothingbybinmeans:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,29*Smoothingbybinboundaries:-Bin1:4,4,15,15-Bin2:21,21,25,25-Bin3:26,26,34,34第十六頁,共六十九頁,2022年,8月28日17簡單的離散化方法:Binning等寬(距)劃分:將范圍分為等大小的N個區(qū)間如果A和

B是該屬性的最低或最高值,則區(qū)間的寬度為:

W=(B-A)/N.最直接易懂但是異常值可能會主導其展現(xiàn)不能很好的處理偏離數(shù)據(jù)(Skeweddata)等深(頻)劃分:將范圍劃分為N個區(qū)間,每個區(qū)間包含近似相等數(shù)量的樣本較好的數(shù)據(jù)比例第十七頁,共六十九頁,2022年,8月28日18如何處理噪音數(shù)據(jù)?聚類(Clustering)孤立點可以被聚類檢測。聚類將類似的值組織成群或“聚類”。直觀地看,落在聚類集合之外的值被視為孤立點?;貧w通過讓數(shù)據(jù)適合一個函數(shù)(如線性回歸函數(shù))來平滑數(shù)據(jù)。線性回歸涉及找出適合兩個變量的“最佳”直線,使得一個變量能夠預測另一個。第十八頁,共六十九頁,2022年,8月28日19聚類分析第十九頁,共六十九頁,2022年,8月28日20回歸xyy=x+1X1Y1Y1’第二十頁,共六十九頁,2022年,8月28日21數(shù)據(jù)預處理為什么要預處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)簡約(歸約)離散化與概念分層生成用SSIS對數(shù)據(jù)進行ETL操作第二十一頁,共六十九頁,2022年,8月28日22數(shù)據(jù)集成數(shù)據(jù)集成(Dataintegration):將多個數(shù)據(jù)源中的數(shù)據(jù)組合到一個一致的數(shù)據(jù)存儲中。需要考慮的問題:實體識別問題從多種數(shù)據(jù)源中識別真實世界中的實體e.g.,A.cust-idB.cust-#通過元數(shù)據(jù)解決偵測并解決數(shù)據(jù)值的沖突對于真實世界中的同一實體,來自不同數(shù)據(jù)源的屬性值可能是不同的可能的原因:不同的表示,不同比率,e.g.,公制vs.英制單位屬于語義的異種性第二十二頁,共六十九頁,2022年,8月28日23數(shù)據(jù)集成中的冗余數(shù)據(jù)處理在集成多種數(shù)據(jù)庫時經(jīng)常會出現(xiàn)冗余數(shù)據(jù)同一屬性值在不同的數(shù)據(jù)庫中可能有不同的名字一個屬性可能是另外一個表中的一個“衍生”屬性,e.g.,年薪冗余數(shù)據(jù)可能通過相關性分析而被發(fā)現(xiàn)仔細集成來自不同源的數(shù)據(jù)有助于減少或避免冗余和不一致性從而改善挖掘速度和質(zhì)量其中,是A的標準差第二十三頁,共六十九頁,2022年,8月28日24數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式。涉及以下內(nèi)容:平滑:從數(shù)據(jù)中去掉噪音。這種技術包括分箱、聚類和回歸。聚集:對數(shù)據(jù)進行匯總和聚集。數(shù)據(jù)泛化:使用概念分層,用高層次概念替換低層次“原始”數(shù)據(jù)。規(guī)范化:將屬性數(shù)據(jù)按比例映射到一個小的特定范圍,如[-1,1]min-maxnormalizationz-scorenormalizationnormalizationbydecimalscaling屬性構造(或特征構造):從給定屬性中創(chuàng)建新屬性第二十四頁,共六十九頁,2022年,8月28日25數(shù)據(jù)轉(zhuǎn)換:規(guī)范化min-maxnormalization:對原始數(shù)據(jù)進行線性變換。能夠保持原始數(shù)據(jù)值之間的關系。如果今后的輸入落在A的原數(shù)據(jù)區(qū)之外,該方法將面臨“越界”的錯誤。例如,假定屬性income的最小與最大值分別為$12000和$98000,映射income到區(qū)間[0.0,1.0]。根據(jù)公式,income值$73600將變換為第二十五頁,共六十九頁,2022年,8月28日26數(shù)據(jù)轉(zhuǎn)換:規(guī)范化z-scorenormalization:屬性A的值基于A的平均值和標準差。當屬性A的最大和最小值未知,或孤立點左右了min-maxnormalization時,該方法是有用的。normalizationbydecimalscaling:通過移動屬性A的小數(shù)點位置進行規(guī)范化。小數(shù)點的移動位數(shù)依賴于A的最大絕對值。WherejisthesmallestintegersuchthatMax(||)<1第二十六頁,共六十九頁,2022年,8月28日27數(shù)據(jù)預處理為什么要預處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)簡約(歸約)離散化與概念分層生成用SSIS對數(shù)據(jù)進行ETL操作第二十七頁,共六十九頁,2022年,8月28日28數(shù)據(jù)歸約數(shù)據(jù)倉庫可能存儲T數(shù)量級的數(shù)據(jù),如果運行于完整的數(shù)據(jù)集,復雜數(shù)據(jù)分析或挖掘要花費非常長的時間。數(shù)據(jù)歸約(Datareduction):獲得數(shù)據(jù)集的一個簡約表示,使得在容量上大大減小,但仍接近于保持原數(shù)據(jù)的完整性,并產(chǎn)生相同或基本相同的分析結(jié)果。數(shù)據(jù)歸約策略數(shù)據(jù)立方體聚集(Datacubeaggregation)維數(shù)約簡(Dimensionalityreduction)數(shù)值壓縮(Numerosityreduction)離散化和概念分層生成(Discretizationandconcepthierarchygeneration)用于數(shù)據(jù)歸約的時間不應當超過或“抵消”在歸約后數(shù)據(jù)挖掘上挖掘節(jié)省的時間。第二十八頁,共六十九頁,2022年,8月28日29維數(shù)約簡維數(shù)約簡:通過刪除不相關的屬性(或維)減少數(shù)據(jù)量。通常使用屬性子集選擇法。屬性子集選擇選擇最小的一組屬性,使得數(shù)據(jù)類的概率分布與使用所有屬性獲得的最初概率分布盡可能的一致減少被發(fā)現(xiàn)模式屬性的數(shù)量,使得模式更容易理解d個屬性有2d

個可能的子屬性集合啟發(fā)式算法(HeuristicMethods):貪心算法,作局部最優(yōu)選擇,期望由此導致全局最優(yōu)解。包括以下技術:逐步向前選擇逐步向后消除結(jié)合上述二者決策樹歸納:基于信息增益度量,ID3和C4.5算法第二十九頁,共六十九頁,2022年,8月28日30啟發(fā)式屬性選擇方法幾個啟發(fā)式屬性選擇方法:

在屬性獨立的假設下,通過重要程度測試找出最好的或最壞的單個屬性最優(yōu)逐步屬性選擇:首先選出一個最好的屬性然后再在這個最好屬性的條件下,選擇下一個,...逐步屬性消除:重復地去除最差的屬性最優(yōu)組合屬性選擇與消除第三十頁,共六十九頁,2022年,8月28日31決策樹歸納的一個例子初始的屬性集合:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2>Reducedattributeset:{A1,A4,A6}YNYNYN第三十一頁,共六十九頁,2022年,8月28日32數(shù)值壓縮數(shù)值壓縮:通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。參數(shù)方法用一個模型來估計數(shù)據(jù),因此一般來說只有模型參數(shù)需要存儲,而無須存儲實際數(shù)據(jù)。例如:線性回歸模型。非參數(shù)方法

無須假設模型存儲簡約后的表示,包括:histograms,clustering,sampling第三十二頁,共六十九頁,2022年,8月28日33回歸模型線性回歸:將數(shù)據(jù)建模,用來擬合一條直線,用來近似給定數(shù)據(jù)。Y=+X經(jīng)常使用最小二乘方法來擬合直線多元回歸:Y=b0+b1X1+b2X2.第三十三頁,共六十九頁,2022年,8月28日34Histograms第三十四頁,共六十九頁,2022年,8月28日35ClusterRawDataCluster/StratifiedSample第三十五頁,共六十九頁,2022年,8月28日36SamplingSRSWOR(simplerandomsamplewithoutreplacement)SRSWRRawData第三十六頁,共六十九頁,2022年,8月28日37數(shù)據(jù)預處理為什么要預處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)簡約(歸約)離散化與概念分層生成用SSIS對數(shù)據(jù)進行ETL操作第三十七頁,共六十九頁,2022年,8月28日38離散化和概念分層離散化:將連續(xù)屬性的范圍分成區(qū)間,用來減少給定連續(xù)屬性值的個數(shù)。為什么要離散化有些分類算法只接受類別屬性減小數(shù)據(jù)大小為進一步分析做準備概念分層:通過用高層概念(如青年,中年,老年)收集和替換低層概念(如年齡屬性的數(shù)值)來減少數(shù)據(jù)量。第三十八頁,共六十九頁,2022年,8月28日39數(shù)值型數(shù)據(jù)的離散化和概念分層生成方法BinningHistogramanalysisClusteringanalysisEntropy-baseddiscretizationSegmentationbynaturalpartitioning第三十九頁,共六十九頁,2022年,8月28日40基于熵的離散化給定一組樣本S,如果S利用邊界T被劃分為兩個區(qū)間S1和S2,劃分之后的熵為使得熵函數(shù)在所有可能的邊界中取得最小值的那個邊界被選作為二元離散因子遞歸地將這一過程應用于所得的分區(qū),直到滿足特定的結(jié)束條件,e.g.,實驗表明這樣處理數(shù)據(jù)可以減少數(shù)據(jù)大小,以及改善分類準確率。第四十頁,共六十九頁,2022年,8月28日41總結(jié)數(shù)據(jù)準備是數(shù)據(jù)倉庫和數(shù)據(jù)挖掘中的大問題數(shù)據(jù)準備包括數(shù)據(jù)清理和數(shù)據(jù)集成數(shù)據(jù)歸約和屬性選擇離散化目前已經(jīng)開發(fā)了許多中方法用于數(shù)據(jù)準備,但其仍是個活躍的研究領域第四十一頁,共六十九頁,2022年,8月28日42數(shù)據(jù)預處理為什么要預處理數(shù)據(jù)?數(shù)據(jù)清理數(shù)據(jù)集成與轉(zhuǎn)換數(shù)據(jù)簡約(歸約)離散化與概念分層生成用SSIS對數(shù)據(jù)進行ETL操作第四十二頁,共六十九頁,2022年,8月28日用SSIS對數(shù)據(jù)進行ETL操作SQLServerIntegrationServices(SSIS)是由SQLServer2000中的DTS服務升級而來,是用于生成高性能數(shù)據(jù)集成和工作流解決方案的平臺,可以進行數(shù)據(jù)的提取、轉(zhuǎn)換和加載(ETL)操作。SSIS可以解決業(yè)務數(shù)據(jù)庫中數(shù)據(jù)模型不同、數(shù)據(jù)不兼容等問題。SSIS通過包來管理復雜的數(shù)據(jù)整合任務,通過控制流、數(shù)據(jù)流和事件處理程序等組件來處理這些任務。43第四十三頁,共六十九頁,2022年,8月28日44包包控制流任務源轉(zhuǎn)換目標數(shù)據(jù)流任務包的典型使用方式第四十四頁,共六十九頁,2022年,8月28日第一個SSIS包的設計將設計一個包來處理AdventureWorks數(shù)據(jù)庫的“TransactionHistoryArchive”表,同時把處理后的數(shù)據(jù)轉(zhuǎn)換為平面文件目標(文本文件),并且在包內(nèi)把此目標文件復制到備份文件夾中。45第四十五頁,共六十九頁,2022年,8月28日1.新建項目46第四十六頁,共六十九頁,2022年,8月28日47第四十七頁,共六十九頁,2022年,8月28日2.設置連接管理器(1)鼠標右鍵單擊“連接管理器”區(qū)域任意位置,在彈出的快捷菜單中選擇“新建OLEDB連接”命令。(2)在“配置OLEDB連接管理器”對話框中單擊“新建”按鈕,在彈出的“連接管理器”對話框中選擇相應服務器,并選擇AdventureWorks數(shù)據(jù)庫。(3)設置好后可單擊此對話框中的“測試連接”按鈕。返回SSIS設計器。48第四十八頁,共六十九頁,2022年,8月28日49第四十九頁,共六十九頁,2022年,8月28日3.規(guī)劃控制流本例中需要計算銷售歸檔數(shù)據(jù)表中的數(shù)據(jù),并把結(jié)果保存為一個文本文件,同時復制到備份文件夾中。(1)確認管理標簽是“控制流”,從工具箱中選擇“數(shù)據(jù)流任務”組件拖動到控制流設計器中,改名為“計算歸檔值”。(2)從工具箱中選擇“文件系統(tǒng)任務”組件拖動到控制流設計器中,命名為“備份”。拖動“計算歸檔值”數(shù)據(jù)流任務下的綠色箭頭到這個文件系統(tǒng)任務。(3)選擇工具箱中的“序列容器”組件拖動到控制流設計界面,同時把前2個組件一起放入到序列容器中。50第五十頁,共六十九頁,2022年,8月28日51第五十一頁,共六十九頁,2022年,8月28日4.設計“計算歸檔值”數(shù)據(jù)流(1)雙擊“計算歸檔值”組件,計入數(shù)據(jù)流管理界面。(2)從工具箱中選擇“OLEDB源”組件,改名為“提取數(shù)據(jù)”。雙擊此組件,在彈出的“OLEDB源編輯器”窗口中進行設置。如圖所示。52第五十二頁,共六十九頁,2022年,8月28日53第五十三頁,共六十九頁,2022年,8月28日4.設計“計算歸檔值”數(shù)據(jù)流(3)從工具箱中選擇“派生列”組件,命名為“計算每一項的總成本”,并把“提取數(shù)據(jù)”組件所帶的綠色箭頭拖動到“計算每一項的總成本”組件,后雙擊該組件,進行設置。54第五十四頁,共六十九頁,2022年,8月28日55

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論