數(shù)據(jù)挖掘 課件 第二章 數(shù)據(jù)挖掘中的預(yù)處理_第1頁(yè)
數(shù)據(jù)挖掘 課件 第二章 數(shù)據(jù)挖掘中的預(yù)處理_第2頁(yè)
數(shù)據(jù)挖掘 課件 第二章 數(shù)據(jù)挖掘中的預(yù)處理_第3頁(yè)
數(shù)據(jù)挖掘 課件 第二章 數(shù)據(jù)挖掘中的預(yù)處理_第4頁(yè)
數(shù)據(jù)挖掘 課件 第二章 數(shù)據(jù)挖掘中的預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘中的預(yù)處理Contents數(shù)據(jù)挖掘過(guò)程概述01數(shù)據(jù)準(zhǔn)備02數(shù)據(jù)預(yù)處理03數(shù)據(jù)挖掘的對(duì)象(1)關(guān)系型數(shù)據(jù)庫(kù)、事務(wù)型數(shù)據(jù)庫(kù)、面向?qū)ο蟮臄?shù)據(jù)庫(kù);(2)數(shù)據(jù)倉(cāng)庫(kù)/多維數(shù)據(jù)庫(kù);(3)空間數(shù)據(jù)(如地圖信息)(4)工程數(shù)據(jù)(如建筑、集成電路的信息)(5)文本和多媒體數(shù)據(jù)(如文本、圖象、音頻、視頻數(shù)據(jù))(6)時(shí)間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股票交換數(shù)據(jù))(7)萬(wàn)維網(wǎng)(如半結(jié)構(gòu)化的HTML,結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息)數(shù)據(jù)挖掘的步驟(1)數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù),補(bǔ)缺);(2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起);(3)數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù));(4)數(shù)據(jù)變換(變換成適合挖掘的形式);(5)數(shù)據(jù)挖掘(使用智能方法提取數(shù)據(jù)模式);(6)模式評(píng)估(識(shí)別提供知識(shí)的真正有趣模式);(7)知識(shí)表示(可視化和知識(shí)表示技術(shù))。Contents數(shù)據(jù)挖掘過(guò)程概述01數(shù)據(jù)準(zhǔn)備02數(shù)據(jù)預(yù)處理03數(shù)據(jù)準(zhǔn)備現(xiàn)實(shí)世界的數(shù)據(jù)是不完整的(有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)),含噪音的(包含錯(cuò)誤,或存在偏離期望的異常值),不一致的(例如,用于商品分類(lèi)的部門(mén)編碼存在差異)。需要數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換等技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理。

數(shù)據(jù)準(zhǔn)備——維歸約/特征提取決策樹(shù)歸約(1)決策樹(shù)歸約構(gòu)造一個(gè)類(lèi)似于流程圖的結(jié)構(gòu):其每個(gè)非葉子結(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分枝對(duì)應(yīng)于測(cè)試的一個(gè)輸出;每個(gè)葉子結(jié)點(diǎn)表示一個(gè)決策類(lèi)。(2)在每個(gè)結(jié)點(diǎn),算法選擇“當(dāng)前對(duì)分類(lèi)最有幫助”的屬性,出現(xiàn)在樹(shù)中的屬性形成歸約后的屬性子集。數(shù)據(jù)準(zhǔn)備——維歸約/特征提取粗糙集歸約(1)粗糙集理論在數(shù)學(xué)意義上描述了知識(shí)的不確定性,它的特點(diǎn)是把用于分類(lèi)的知識(shí)嵌入集合內(nèi),使分類(lèi)與知識(shí)聯(lián)系在一起。(2)知識(shí)的粒度、不可分辨關(guān)系、上近似、下近似、邊界等概念見(jiàn)下圖。數(shù)據(jù)準(zhǔn)備——維歸約/特征提取粗糙集歸約(3)令Q代表屬性的集合。q∈Q是一個(gè)屬性,如果IND(Q?q)=IND(Q),則q在S中不是獨(dú)立的;否則稱(chēng)q在S中是獨(dú)立的。(4)若集合滿(mǎn)足IND(R)=IND(Q)且R中的每一個(gè)屬性都是獨(dú)立的,則R被稱(chēng)為Q的一個(gè)“約簡(jiǎn)”,記作R=RED(Q)。(5)約簡(jiǎn)可以通過(guò)刪除冗余的(不獨(dú)立的)屬性而獲得,約簡(jiǎn)包含的屬性即為“對(duì)分類(lèi)有幫助”的屬性。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)變換歸一化與模糊化有限區(qū)間的歸一化:無(wú)限區(qū)間的歸一化:模糊隸屬度:數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)變換核函數(shù)(1)核函數(shù)的基本思想是將在低維特征向量線性不可分的數(shù)據(jù)映射到線性可分的高維特征空間中去。(2)映射可以是顯式的,也可以是隱式的。顯式映射即找到一個(gè)映射關(guān)系f,使高維空間的特征向量f(x)可以被直接計(jì)算出來(lái)。(3)隱式映射,即引入一個(gè)核函數(shù)進(jìn)行整體處理,就避免了對(duì)的直接求f(x)的計(jì)算困難。核函數(shù)即某高維特征空間中向量的內(nèi)積,是核矩陣中的一個(gè)元素。(4)并不是所有的實(shí)值函數(shù)f(x)都可以作為空間映射的核函數(shù),只有f(x)是某一特征空間的內(nèi)積時(shí),即符合Mercer條件,它才能成為核函數(shù)。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)變換核函數(shù)多項(xiàng)式函數(shù):

高斯(RBF)函數(shù):

多層感知機(jī)函數(shù):低維空間向量映射到高維空間向量舉例:

數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮離散化離散化的用途:(1)適應(yīng)某些僅接受離散值的算法;(2)減小數(shù)據(jù)的尺度。離散化的方法包括幾下幾種。(1)等距分割;(2)聚類(lèi)分割;(3)直方圖分割;(4)基于熵的分割;(5)基于自然屬性的分割。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮回歸回歸和對(duì)數(shù)線性模型可以用來(lái)近似給定的數(shù)據(jù)。在線性回歸中,用一條直線來(lái)模擬數(shù)據(jù)的生成規(guī)則。多元回歸是線性回歸的擴(kuò)展,涉及多個(gè)預(yù)測(cè)變量。在多項(xiàng)式回歸中,通過(guò)對(duì)變量進(jìn)行變換,可以將非線性模型轉(zhuǎn)換成線性的,然后用最小平方和法求解。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮回歸利用線性回歸可以為連續(xù)取值的函數(shù)建模。廣義線性模型則可以用于對(duì)離散取值變量進(jìn)行回歸建模。在廣義線性模型中,因變量Y的變化速率是Y均值的一個(gè)函數(shù);這一點(diǎn)與線性回歸不同。常見(jiàn)的廣義線性模型有:對(duì)數(shù)回歸和泊松回歸。對(duì)數(shù)回歸模型是利用一些事件發(fā)生的概率作為自變量所建立的線性回歸模型。泊松回歸模型主要是描述數(shù)據(jù)出現(xiàn)次數(shù)的模型,因?yàn)樗鼈兂31憩F(xiàn)為泊松分布。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮主成分分析(PCA)PCA算法搜索c個(gè)最能代表數(shù)據(jù)的k-維正交向量;這里c

k。這樣,原來(lái)的數(shù)據(jù)投影到一個(gè)較小的空間,導(dǎo)致數(shù)據(jù)壓縮。步驟如下:(1)對(duì)輸入數(shù)據(jù)歸一化,使得每個(gè)屬性都落入相同的區(qū)間。(2)PCA計(jì)算c個(gè)規(guī)范正交向量,作為歸一化輸入數(shù)據(jù)的基。這些是單位向量,每一個(gè)都垂直于另一個(gè):稱(chēng)為主成分。輸入數(shù)據(jù)是主要成分的線性組合。(3)對(duì)主成分按“意義”或強(qiáng)度降序排列,選擇部分主成分充當(dāng)數(shù)據(jù)的一組新坐標(biāo)軸。

數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮離散小波變換(DWT)離散小波變換是一種線性信號(hào)處理技術(shù)。該技術(shù)方法可以將一個(gè)數(shù)據(jù)向量轉(zhuǎn)換為另一個(gè)數(shù)據(jù)向量(為小波相關(guān)系數(shù));且兩個(gè)向量具有相同長(zhǎng)度。可以舍棄轉(zhuǎn)換后的數(shù)據(jù)向量中的一些小波相關(guān)系數(shù)。保留所有大于用戶(hù)指定閾值的小波系數(shù),而將其它小波系數(shù)置為0,以幫助提高數(shù)據(jù)處理的運(yùn)算效率。這一技術(shù)方法可以在保留數(shù)據(jù)主要特征情況下除去數(shù)據(jù)中的噪聲,因此該方法可以有效地進(jìn)行數(shù)據(jù)清洗。給定一組小波相關(guān)系數(shù),利用離散小波變換的逆運(yùn)算還可以近似恢復(fù)原來(lái)的數(shù)據(jù)。Contents數(shù)據(jù)挖掘過(guò)程概述01數(shù)據(jù)準(zhǔn)備02數(shù)據(jù)預(yù)處理03數(shù)據(jù)預(yù)處理什么是數(shù)據(jù)預(yù)處理?數(shù)據(jù)挖掘的前提:真實(shí)世界中的數(shù)據(jù)來(lái)源復(fù)雜、體積巨大,往往難以避免地存在缺失、噪聲、不一致等問(wèn)題。為了提高數(shù)據(jù)挖掘的質(zhì)量,產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而所選模型和算法只是去逼近這個(gè)上限。數(shù)據(jù)預(yù)處理為什么做數(shù)據(jù)預(yù)處理?通過(guò)特征提取,我們能得到未經(jīng)處理的特征,這時(shí)的特征可能有以下問(wèn)題:不屬于同一量綱:即特征的規(guī)格不一樣,不能夠放在一起比較。信息冗余:對(duì)于某些定量特征,其包含的有效信息為區(qū)間劃分,例如學(xué)習(xí)成績(jī),假若只關(guān)心“及格”或不“及格”,那么需要將定量的考分,轉(zhuǎn)換成“1”和“0”表示及格和未及格定性特征不能直接使用:某些機(jī)器學(xué)習(xí)算法和模型只能接受定量特征的輸入,那么需要將定性特征轉(zhuǎn)換為定量特征。存在缺失值:缺失值需要補(bǔ)充。信息利用率低:不同的機(jī)器學(xué)習(xí)算法和模型對(duì)數(shù)據(jù)中信息的利用是不同的。當(dāng)數(shù)據(jù)的維數(shù)過(guò)高時(shí)還會(huì)存在所謂的“維數(shù)災(zāi)難(Curseofdimensionality)”問(wèn)題,過(guò)高的維度不僅增加了計(jì)算量,反而可能會(huì)降低算法的效果。數(shù)據(jù)預(yù)處理常見(jiàn)數(shù)據(jù)預(yù)處理方法數(shù)據(jù)清洗處理數(shù)據(jù)的某些紀(jì)錄值缺失,平滑數(shù)據(jù)中的噪聲、發(fā)現(xiàn)異常值,改正不一致等。數(shù)據(jù)融合將不同來(lái)源的、異質(zhì)的數(shù)據(jù)融合到一起。良好的數(shù)據(jù)融合可以減少數(shù)據(jù)中的冗余和不一致性,進(jìn)而提升后續(xù)步驟的精度和速度。數(shù)據(jù)轉(zhuǎn)換通過(guò)平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。數(shù)據(jù)降維將高維度數(shù)據(jù)化為低維度數(shù)據(jù),仍保持原數(shù)據(jù)的大部分信息,使數(shù)據(jù)挖掘結(jié)果與降維前結(jié)果相同或幾乎相同。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗缺失值處理缺失值在實(shí)際數(shù)據(jù)中是不可避免的問(wèn)題,對(duì)于不同的數(shù)據(jù)場(chǎng)景應(yīng)該采取不同的策略,首先應(yīng)該判斷缺失值的分布情況:如果缺失值極少且這個(gè)維度信息不重要,一般刪除它們對(duì)于整體數(shù)據(jù)情況影響不大;如果缺失值較多或這個(gè)維度的信息還很重要的時(shí)候,直接刪除會(huì)對(duì)后面的算法跑的結(jié)果造成不好的影響。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗缺失值處理我們常用的方法有以下幾種:直接刪除——適合缺失值數(shù)量較小,并且是隨機(jī)出現(xiàn)的,刪除它們對(duì)整體數(shù)據(jù)影響不大的情況;使用一個(gè)全局常量填充——譬如將缺失值用“Unknown”等填充,但是效果不一定好,因?yàn)樗惴赡軙?huì)把它識(shí)別為一個(gè)新的類(lèi)別,一般很少用;使用均值或中位數(shù)代替:

優(yōu)點(diǎn):不會(huì)減少樣本信息,處理簡(jiǎn)單。缺點(diǎn):當(dāng)缺失數(shù)據(jù)不是隨機(jī)數(shù)據(jù)時(shí)會(huì)產(chǎn)生偏差,對(duì)于正常分布的數(shù)據(jù)

可以使用均值代替,如果數(shù)據(jù)是傾斜的,使用中位數(shù)可能更好。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗缺失值處理插補(bǔ)法

1)隨機(jī)插補(bǔ)法——從總體中隨機(jī)抽取某個(gè)樣本代替缺失樣本

2)多重插補(bǔ)法——通過(guò)變量之間的關(guān)系對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè),例如利用蒙特卡洛方法

生成多個(gè)完整的數(shù)據(jù)集,在對(duì)這些數(shù)據(jù)集進(jìn)行分析,最后對(duì)分析結(jié)果進(jìn)行匯總處理

3)熱平臺(tái)插補(bǔ)——指在非缺失數(shù)據(jù)集中找到一個(gè)與缺失值所在樣本相似的樣本(匹配

樣本)利用其中的觀測(cè)值對(duì)缺失值進(jìn)行插補(bǔ)。

4)拉格朗日差值法和牛頓插值法建模法——可以用回歸、使用貝葉斯形式化方法的基于推理的工具或決策樹(shù)歸納確定。例如,利用數(shù)據(jù)集中其他數(shù)據(jù)的屬性,可以構(gòu)造一棵判定樹(shù),來(lái)預(yù)測(cè)缺失值的值。

以上方法各有優(yōu)缺點(diǎn),具體情況要根據(jù)實(shí)際數(shù)據(jù)分分布情況、傾斜程度、缺失值所占比例等等來(lái)選擇方法。一般而言,建模法是比較常用的方法,它根據(jù)已有的值來(lái)預(yù)測(cè)缺失值,準(zhǔn)確率更高。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理異常值我們通常也稱(chēng)為“離群點(diǎn)”(outlier),即在樣本空間中,與其他樣本點(diǎn)的一般行為或特征不一致的點(diǎn)。一般可能有如下產(chǎn)生原因:計(jì)算的誤差或者操作的錯(cuò)誤所致,比如:某人的年齡

-999

歲,這就是明顯由誤操作所導(dǎo)致的離群點(diǎn);數(shù)據(jù)本身的可變性或彈性所致,比如:一個(gè)公司中

CEO

的工資肯定是明顯高于其他普通員工的工資,于是

CEO

變成為了由于數(shù)據(jù)本身可變性所導(dǎo)致的離群點(diǎn)。注意:離群點(diǎn)不一定是無(wú)用數(shù)據(jù),它也許正是用戶(hù)感興趣的,比如在欺詐檢測(cè)領(lǐng)域,那些與正常數(shù)據(jù)行為不一致的離群點(diǎn),往往預(yù)示著欺詐行為,因此成為執(zhí)法者所關(guān)注的。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理常見(jiàn)異常值檢測(cè)方法:基于統(tǒng)計(jì)分布的離群點(diǎn)檢測(cè)

這類(lèi)檢測(cè)方法假設(shè)樣本空間中所有數(shù)據(jù)符合某個(gè)分布或者數(shù)據(jù)模型,然后根據(jù)模型采用不和諧校驗(yàn)(discordancytest)識(shí)別離群點(diǎn)。例如:1)3?原則如果數(shù)據(jù)服從正態(tài)分布,在3?原則下,異常值為一組測(cè)定值中與平均值的偏差超過(guò)3倍標(biāo)準(zhǔn)差的值。如果數(shù)據(jù)服從正態(tài)分布,距離平均值3?之外的值出現(xiàn)的概率為P(|x-u|>3?)<=0.003,屬于極個(gè)別的小概率事件。如果數(shù)據(jù)不服從正態(tài)分布,也可以用遠(yuǎn)離平均值的多少倍標(biāo)準(zhǔn)差來(lái)描述。2)箱型圖分析

箱型圖提供了識(shí)別異常值的一個(gè)標(biāo)準(zhǔn):如果一個(gè)值小于QL-1.5IQR或大于QU-1.5IQR的值,則被稱(chēng)為異常值。QL為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它??;QU為上四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它大;IQR為四分位數(shù)間距,是上四分位數(shù)QU與下四分位數(shù)QL的差值,包含了全部觀察值的一半。箱型圖判斷異常值的方法以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有魯棒性:25%的數(shù)據(jù)可以變得任意遠(yuǎn)并且不會(huì)干擾四分位數(shù),所以異常值不能對(duì)這個(gè)標(biāo)準(zhǔn)施加影響。因此箱型圖識(shí)別異常值比較客觀,在識(shí)別異常值時(shí)有一定的優(yōu)越性。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理常見(jiàn)異常值檢測(cè)方法:基于距離的離群點(diǎn)檢測(cè)通??梢栽趯?duì)象之間定義鄰近性度量,異常對(duì)象是那些遠(yuǎn)離其他對(duì)象的對(duì)象。如果樣本空間D中至少有N個(gè)樣本點(diǎn)與對(duì)象O的距離大于dmin,那么稱(chēng)對(duì)象O是以{至少N個(gè)樣本點(diǎn)}和dmin為參數(shù)的基于距離的離群點(diǎn)。優(yōu)點(diǎn):簡(jiǎn)單;缺點(diǎn):基于鄰近度量的方法需要O(m^2)時(shí)間,大數(shù)據(jù)集不適用;該方法對(duì)參數(shù)的選擇也是敏感的,不同的距離度量其結(jié)果也不一樣;不能處理具有不同密度區(qū)域的數(shù)據(jù)集,因?yàn)樗褂萌珠撝担荒芸紤]這

種密度的變化。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理常見(jiàn)異常值檢測(cè)方法:基于密度的局部離群點(diǎn)檢測(cè)當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)才將其分類(lèi)為離群點(diǎn)。適合非均勻分布的數(shù)據(jù)。不同于基于距離的方法,基于密度的離群點(diǎn)檢測(cè)不將離群點(diǎn)看做一種二元性質(zhì),即不簡(jiǎn)單用YesorNo來(lái)斷定一個(gè)點(diǎn)是否是離群點(diǎn),而是用一個(gè)權(quán)值來(lái)評(píng)估它的離群度。它是局部的,意思是該程度依賴(lài)于對(duì)象相對(duì)于其領(lǐng)域的孤立情況。這種方法可以同時(shí)檢測(cè)出全局離群點(diǎn)和局部離群點(diǎn)。優(yōu)點(diǎn):給出了對(duì)象是離群點(diǎn)的定量度量,并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理;缺點(diǎn):基于距離的方法一樣,具有O(m^2)的時(shí)間時(shí)間復(fù)雜度,對(duì)于低維數(shù)據(jù)使用特定的數(shù)據(jù)結(jié)構(gòu)可

達(dá)到O(mlogm);參數(shù)選擇困難。仍然需要選擇這些離群度的上下界。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理處理方法:刪除異常值——明顯看出是異常且數(shù)量較少可以直接刪除不處理——如果算法對(duì)異常值不敏感則可以不處理,但如果算法對(duì)異常值敏感,則最好不要用,如基于距離計(jì)算的一些算法,包括kmeans,knn之類(lèi)的。平均值替代——損失信息小,簡(jiǎn)單高效。視為缺失值——可以按照處理缺失值的方法來(lái)處理數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗數(shù)據(jù)去重?cái)?shù)據(jù)重復(fù)在實(shí)際生活中很常見(jiàn),在一些數(shù)據(jù)挖掘模型中,這些冗余的數(shù)據(jù)加大了數(shù)據(jù)分析的難度和處理速度,因此需要對(duì)數(shù)據(jù)去重。常見(jiàn)方法:遍歷數(shù)據(jù)搜索,復(fù)雜度高,僅適用于數(shù)據(jù)規(guī)模較小的情形。哈希表示,生成數(shù)據(jù)指紋,簡(jiǎn)單高效,適用于大規(guī)模數(shù)據(jù),代表算法:1)Bitmap:位圖法2)SimHash:相似哈希3)布隆過(guò)濾器數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗數(shù)據(jù)去噪噪聲,是被測(cè)量變量的隨機(jī)誤差或方差。我們?cè)谏衔闹刑岬竭^(guò)異常點(diǎn)(離群點(diǎn)),那么離群點(diǎn)和噪音是不是一回事呢?觀測(cè)量(Measurement)=真實(shí)數(shù)據(jù)(TrueData)+噪聲(Noise)離群點(diǎn)(Outlier)屬于觀測(cè)量,既有可能是真實(shí)數(shù)據(jù)產(chǎn)生的,也有可能是噪聲帶來(lái)的,但是總的來(lái)說(shuō)是和大部分觀測(cè)量之間有明顯不同的觀測(cè)值。噪聲包括錯(cuò)誤值或偏離期望的孤立點(diǎn)值,但也不能說(shuō)噪聲點(diǎn)包含離群點(diǎn),雖然大部分?jǐn)?shù)據(jù)挖掘方法都將離群點(diǎn)視為噪聲或異常而丟棄。然而,在一些應(yīng)用(例如:欺詐檢測(cè)),會(huì)針對(duì)離群點(diǎn)做離群點(diǎn)分析或異常挖掘。而且有些點(diǎn)在局部是屬于離群點(diǎn),但從全局看是正常的。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗數(shù)據(jù)去噪常見(jiàn)數(shù)據(jù)去噪方法分箱法分箱方法通過(guò)考察數(shù)據(jù)的“近鄰”(即周?chē)闹担﹣?lái)光滑有序數(shù)據(jù)值。這些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近鄰的值,因此它進(jìn)行局部光滑。1)用箱均值光滑:箱中每一個(gè)值被箱中的平均值替換。2)用箱中位數(shù)平滑:箱中的每一個(gè)值被箱中的中位數(shù)替換。3)用箱邊界平滑:箱中的最大和最小值同樣被視為邊界。箱中的每一個(gè)值被最近的邊界值替換。一般而言,寬度越大,光滑效果越明顯。箱也可以是等寬的,其中每個(gè)箱值的區(qū)間范圍是個(gè)常量。分箱也可以作為一種離散化技術(shù)使用?;貧w法可以用一個(gè)函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)。線性回歸涉及找出擬合兩個(gè)屬性(或變量)的“最佳”直線,使得一個(gè)屬性能夠預(yù)測(cè)另一個(gè)。多線性回歸是線性回歸的擴(kuò)展,它涉及多于兩個(gè)屬性,并且數(shù)據(jù)擬合到一個(gè)多維面。使用回歸,找出適合數(shù)據(jù)的數(shù)學(xué)方程式,能夠幫助消除噪聲。數(shù)據(jù)預(yù)處理——數(shù)據(jù)融合數(shù)據(jù)融合就是將不同來(lái)源的、異質(zhì)的數(shù)據(jù)融合到一起。良好的數(shù)據(jù)融合可以減少數(shù)據(jù)中的冗余(redundacies)和不一致性(inconsistence),進(jìn)而提升后續(xù)步驟的精度和速度。數(shù)據(jù)融合包括如下幾個(gè)步驟:實(shí)體識(shí)別問(wèn)題(EntityIdentificationProblem)實(shí)體識(shí)別中最主要的問(wèn)題匹配不同的數(shù)據(jù)源中指向現(xiàn)實(shí)世界相同實(shí)體的紀(jì)錄。比如分析有不同銷(xiāo)售員紀(jì)錄的17年和18年兩年的銷(xiāo)售數(shù)據(jù),由于不同的銷(xiāo)售員有不同的紀(jì)錄習(xí)慣,顧客的名字紀(jì)錄方式并不一樣,一個(gè)銷(xiāo)售員喜歡紀(jì)錄全名(例如WardellStephenCurryII),另外一個(gè)銷(xiāo)售員喜歡將中間名省略(WardellSCurryII),雖然WardellStephenCurryII和WardellSCurryII是現(xiàn)實(shí)世界中是同一名顧客,但計(jì)算機(jī)會(huì)識(shí)別為兩位不同的顧客,解決這個(gè)問(wèn)題就需要EntityIdentification。一個(gè)常用的EntityIndentificationProblem的解決算法是LSH算法。冗余和相關(guān)性分析當(dāng)能夠從樣本的一個(gè)或多個(gè)屬性推導(dǎo)出另外的屬性的時(shí)候,那么數(shù)據(jù)中就存在冗余。檢測(cè)冗余的一種方法是相關(guān)性分析——給定要進(jìn)行檢測(cè)的兩個(gè)屬性,相關(guān)性分析可以給出一個(gè)屬性隱含(imply)另外一個(gè)屬性的程度。對(duì)于標(biāo)稱(chēng)型(Nominal)數(shù)據(jù),可以使用χ2檢驗(yàn),而對(duì)于數(shù)值數(shù)據(jù),可以根據(jù)方差和相關(guān)系數(shù)來(lái)分析。當(dāng)相關(guān)系數(shù)是正的時(shí)候表示屬性A和屬性B正相關(guān),當(dāng)相關(guān)系數(shù)是負(fù)的時(shí)候?qū)傩訟和屬性B負(fù)相關(guān),注意,相關(guān)關(guān)系并不等同于因果關(guān)系。數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換在對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí),要求數(shù)據(jù)必須滿(mǎn)足一定的條件,數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)從一種表示形式變?yōu)榱硪环N表現(xiàn)形式的過(guò)程。常見(jiàn)的數(shù)據(jù)轉(zhuǎn)換方法大致可分為如下幾類(lèi):離散化二值化歸一化標(biāo)準(zhǔn)化正則化特征編碼數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換離散化有些數(shù)據(jù)挖掘算法,特別是某些分類(lèi)算法,要求數(shù)據(jù)是分類(lèi)屬性形式。例如,發(fā)現(xiàn)關(guān)聯(lián)模式的算法要求數(shù)據(jù)是二元屬性形式。這樣,常常需要將連續(xù)屬性變換成分類(lèi)屬性(離散化,discretization),并且連續(xù)和離散屬性可能都需要變換成一個(gè)或多個(gè)二元屬性。此外,如果一個(gè)分類(lèi)屬性具有大量不同值(類(lèi)別),或者某些值出現(xiàn)不頻繁,則對(duì)于某些數(shù)據(jù)挖掘任務(wù),通過(guò)合并某些值減少類(lèi)別的數(shù)目可能是有益的。相比于連續(xù)屬性值,離散屬性值有一下優(yōu)點(diǎn):①通過(guò)離散化數(shù)據(jù)將被簡(jiǎn)化并且減少;②離散特征更容易被理解,使用和解釋?zhuān)虎垭x散化使學(xué)習(xí)更加準(zhǔn)確,快速;④使用離散特征獲得的結(jié)果(如decisiontrees,inductionrules)更加緊湊,簡(jiǎn)短,準(zhǔn)確,結(jié)果更容易進(jìn)行檢查,比較,使用和重復(fù)使用;⑤很多分類(lèi)學(xué)習(xí)算法只能處理離散數(shù)據(jù)。常見(jiàn)離散化方法:1)無(wú)監(jiān)督:分箱法(等寬/等頻)、直觀劃分等2)有監(jiān)督:1R方法、基于卡方的離散方法、基于熵的離散方法等數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換二值化特征二值化是把數(shù)值特征轉(zhuǎn)化成布爾值的過(guò)程,其核心在于設(shè)定一個(gè)閾值,大于閾值的賦值為1,小于等于閾值的賦值為0。這個(gè)方法對(duì)符合多變量伯努利分布的輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)概率參數(shù)很有效。數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換歸一化歸一化是一種簡(jiǎn)化計(jì)算的方式,即將有量綱的表達(dá)式,經(jīng)過(guò)變換,化為無(wú)量綱的表達(dá)式,成為標(biāo)量。它可將數(shù)據(jù)縮放至給定的最小值與最大值之間,通常是0與1之間。歸一化常見(jiàn)兩種方式:最小最大值歸一化,將數(shù)據(jù)歸一化到[0,1]區(qū)間絕對(duì)值最大歸一化,將數(shù)據(jù)歸一化到[-1,1]區(qū)間數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)化不同的特征有不同的取值范圍,如線性模型,特征的取值范圍會(huì)對(duì)最終的結(jié)果產(chǎn)生較大的影響,取值范圍不一致會(huì)導(dǎo)致模型會(huì)更偏向取值范圍較大的特征。標(biāo)準(zhǔn)化通常是為了消除不同屬性或樣本間的不齊性,使同一樣本內(nèi)的不同屬性間或同一屬性在不同樣本內(nèi)的方差減小。另外數(shù)據(jù)的標(biāo)準(zhǔn)化也會(huì)加快數(shù)據(jù)的收斂速度。例如:Z-score標(biāo)準(zhǔn)化:數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換正則化通常是為給數(shù)據(jù)加入某種限制,使其滿(mǎn)足某一特性,常見(jiàn)的:L1正則化(稀疏性):L2正則化(平滑性):數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換特征編碼我們經(jīng)常會(huì)遇到一些類(lèi)別特征,這些特征不是離散型的數(shù)值,而是這樣的:[“男性”,“女性”],[“來(lái)自歐洲”,“來(lái)自美國(guó)”,“來(lái)自亞洲”],[“使用Firefox瀏覽器”,“使用Chrome瀏覽器”,“使用Safari瀏覽器”,“使用IE瀏覽器”]等等。這種類(lèi)型的特征可以被編碼為整型(int),如[“男性”,“來(lái)自美國(guó)”,“使用IE瀏覽器”]可以表示成[0,1,3],[“女性”,“來(lái)自亞洲”,“使用Chrome瀏覽器”]可以表示成[1,2,1]。這些整數(shù)式的表示不能直接作為機(jī)器學(xué)習(xí)模型的參數(shù),因?yàn)槲覀冃枰氖沁B續(xù)型的輸入,而且我們通常是有序的翻譯這些特征,而不是所有的特征都是有序化的(譬如瀏覽器就是按人工排的序列)。將這些類(lèi)別特征轉(zhuǎn)化成機(jī)器學(xué)習(xí)模型的參數(shù),可以使用的方法是:使用one-of-K或者one-hot編碼(獨(dú)熱編碼OneHotEncoding)。它可以把每一個(gè)有m種類(lèi)別的特征轉(zhuǎn)化成m中二值特征。注意:除了上述所提及的6種數(shù)據(jù)轉(zhuǎn)換方法,我們可以根據(jù)模型需求和數(shù)據(jù)特性,自定義轉(zhuǎn)換方法。數(shù)據(jù)預(yù)處理——數(shù)據(jù)降維維數(shù)災(zāi)難指在涉及到向量的計(jì)算的問(wèn)題中,隨著維數(shù)的增加,計(jì)算量呈指數(shù)倍增長(zhǎng)的一種現(xiàn)象。維度災(zāi)難最直接的后果就是過(guò)擬合現(xiàn)象,而發(fā)生該現(xiàn)象最根本的原因是:維度增加時(shí),有限的樣本空間

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論