課件第4章 數(shù)據(jù)預(yù)處理_第1頁(yè)
課件第4章 數(shù)據(jù)預(yù)處理_第2頁(yè)
課件第4章 數(shù)據(jù)預(yù)處理_第3頁(yè)
課件第4章 數(shù)據(jù)預(yù)處理_第4頁(yè)
課件第4章 數(shù)據(jù)預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘方法與應(yīng)用數(shù)據(jù)挖掘方法與應(yīng)用浙江工商大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院浙江工商大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院徐雪琪第4章 數(shù)據(jù)預(yù)處理4.1 數(shù)據(jù)預(yù)處理概述4.2 數(shù)據(jù)清洗4.3 數(shù)據(jù)集成4.4 數(shù)據(jù)變換4.5 數(shù)據(jù)歸約4.1 數(shù)據(jù)預(yù)處理概述4.1.1 原始數(shù)據(jù)中存在的問題1. 數(shù)據(jù)缺失數(shù)據(jù)缺失分為兩種,一種是基于某些分析所必需的行記錄或列屬性的缺失,另一種是在一些記錄上缺少某些屬性值。某些記錄上屬性值的缺失在原始數(shù)據(jù)中較為常見。2. 數(shù)據(jù)異常數(shù)據(jù)異常指數(shù)據(jù)集中存在的孤立點(diǎn),這些數(shù)據(jù)處于其特定分布區(qū)域或范疇之外。根據(jù)其產(chǎn)生原因,可以分為“真異?!焙汀皞萎惓!?,我們要檢測(cè)和糾正的是“真異常”。3. 數(shù)據(jù)重復(fù)數(shù)據(jù)重復(fù)包

2、括記錄的重復(fù)和屬性的重復(fù)。4. 數(shù)據(jù)不一致數(shù)據(jù)不一致包括數(shù)據(jù)記錄內(nèi)部的自相矛盾和多數(shù)據(jù)源之間的不一致。5. 數(shù)據(jù)高維性數(shù)據(jù)高維性主要指原始數(shù)據(jù)中存在大量對(duì)于某次具體挖掘任務(wù)沒有用的維度(屬性)。6. 數(shù)據(jù)不平衡數(shù)據(jù)不平衡指的是原始數(shù)據(jù)中不同類別的樣本量差異非常大,主要出現(xiàn)在與分類相關(guān)的挖掘任務(wù)中。4.1.2 數(shù)據(jù)預(yù)處理的主要任務(wù)1. 數(shù)據(jù)清洗數(shù)據(jù)清洗主要處理的是每個(gè)數(shù)據(jù)源中的數(shù)據(jù)缺失、數(shù)據(jù)異常和數(shù)據(jù)重復(fù)的問題。2. 數(shù)據(jù)集成數(shù)據(jù)集成主要處理的是多數(shù)據(jù)源集成時(shí)數(shù)據(jù)不一致和數(shù)據(jù)冗余的問題,從而實(shí)現(xiàn)多個(gè)數(shù)據(jù)源數(shù)據(jù)的一致化,并通過相關(guān)分析等去除冗余屬性。3. 數(shù)據(jù)變換數(shù)據(jù)變換主要是把數(shù)據(jù)變換成適合挖掘

3、的形式,包括定性數(shù)據(jù)的數(shù)值化、定量數(shù)據(jù)的規(guī)范化及離散化等,以及不平衡數(shù)據(jù)的處理。4. 數(shù)據(jù)歸約數(shù)據(jù)歸約即數(shù)據(jù)縮減,對(duì)于格式化數(shù)據(jù)而言,主要指數(shù)據(jù)行(記錄)的縮減、列(屬性)的縮減及數(shù)值的歸約。4.2 數(shù)據(jù)清洗4.2.1 缺失數(shù)據(jù)處理對(duì)于缺失數(shù)據(jù)的處理思路:首先要了解缺失數(shù)據(jù)在整體樣本中的比例;然后分析清楚缺失的可能原因,再結(jié)合后續(xù)要使用的模型,決定可采用的方法。常用的缺失數(shù)據(jù)處理方法: 1. 刪除2. 使用一個(gè)固定的值代替缺失值3. 使用屬性平均值代替缺失值4. 使用同一類別的均值代替缺失值5. 使用成數(shù)推導(dǎo)值代替缺失值6. 使用最可能的值代替缺失值4.2.2 異常數(shù)據(jù)處理數(shù)據(jù)異常處理的主要任

4、務(wù)就是檢測(cè)出孤立點(diǎn)1. 可視化方法2. 置信區(qū)間檢驗(yàn)方法3. 箱型圖分析法4. 基于距離的方法5. 基于聚類的方法4.2.2.1 對(duì)于結(jié)構(gòu)化數(shù)據(jù),孤立點(diǎn)檢測(cè)常用的方法有若孤立點(diǎn)是度量或執(zhí)行錯(cuò)誤所導(dǎo)致度量或執(zhí)行錯(cuò)誤所導(dǎo)致的,則可將其:1.視為噪聲或異常而丟棄2.標(biāo)記為異常,作為數(shù)據(jù)的一個(gè)特征3.運(yùn)用數(shù)據(jù)平滑技術(shù)按數(shù)據(jù)分布特征修勻數(shù)據(jù)(轉(zhuǎn)換)移動(dòng)平均法、聚類、回歸分析法、Bin方法4.尋找不受異常點(diǎn)影響的健壯性建模方法如決策樹、隨機(jī)森林等4.2.2.2 孤立點(diǎn)處理原則4.3 數(shù)據(jù)集成多個(gè)數(shù)據(jù)源進(jìn)行集成時(shí)數(shù)據(jù)的不一致性等問題表現(xiàn)得尤為突出,我們一般可以從模式匹配及數(shù)值一致化和刪除冗余數(shù)據(jù)兩個(gè)方面加以

5、處理。圖圖4.2 數(shù)據(jù)集成數(shù)據(jù)集成4.3.1 模式匹配及數(shù)值一致化模式匹配及數(shù)值一致化主要解決的是不同數(shù)據(jù)源中行和列的識(shí)別與匹配及一致化屬性值的計(jì)算方法、計(jì)量單位、空間范圍和時(shí)間范圍等方面。表表4.1 客戶基本信息表定義客戶基本信息表定義表表4.2 交易信息表定義交易信息表定義4.3.2 刪除冗余數(shù)據(jù)冗余是指存在重復(fù)的信息。最明顯的冗余是數(shù)據(jù)中存在兩個(gè)或多個(gè)重復(fù)的記錄,或者是同一個(gè)屬性多次出現(xiàn),或某個(gè)屬性和其他屬性具有明顯的相關(guān)性。這類冗余較為容易發(fā)現(xiàn),可以直接刪除。而有些冗余比較隱蔽,我們可以使用相關(guān)分析加以判別。對(duì)于數(shù)值型屬性,我們常用皮爾遜相關(guān)系數(shù)進(jìn)行判別。對(duì)于類別型屬性,我們可以使用卡

6、方檢驗(yàn)分析其相關(guān)性。對(duì)于數(shù)值型屬性和類別型屬性之間的相關(guān)性,我們可以使用方差分析的方法分析。4.4 數(shù)據(jù)變換4.4.1 定性數(shù)據(jù)數(shù)值化對(duì)于定類數(shù)據(jù),常用的數(shù)值化方法是獨(dú)熱編碼(onehot encode)。如顏色屬性,有四個(gè)取值,分別為紅、黃、藍(lán)、綠,則N=4,獨(dú)熱編碼后分別為1000、0100、0010、0001。對(duì)于定序數(shù)據(jù),可以直接進(jìn)行賦值。如收入取值為低、中、高,可以賦值為0、1、2。4.4.2 定量數(shù)據(jù)離散化和規(guī)范化1. 定量數(shù)據(jù)離散化(1) 通過分箱離散化分箱是一種將連續(xù)型變量轉(zhuǎn)換成序數(shù)變量或者類別變量的技術(shù)。分箱前要對(duì)變量值進(jìn)行排序,然后按照一定的規(guī)則把數(shù)據(jù)放進(jìn)一些箱子中。分箱可

7、分為無(wú)指導(dǎo)的簡(jiǎn)單分箱和有指導(dǎo)的信息分箱。無(wú)指導(dǎo)的簡(jiǎn)單分箱:只考慮需要分箱的變量,不參考其他變量來(lái)設(shè)定箱邊界,確定分箱數(shù)。 常用的有等寬分箱法和等深分箱法。有指導(dǎo)的信息分箱:利用數(shù)據(jù)挖掘任務(wù)中輸出變量來(lái)指導(dǎo)對(duì)輸入變量的分箱,從而使這種 分箱能夠盡可能地揭示關(guān)于輸出變量的信息。 最小熵分箱法即為有指導(dǎo)的信息分箱。 等寬分箱法把變量的值域范圍劃分成相等的幾份,每一份構(gòu)成 一個(gè)箱。等深分箱法是按所有箱盡可能地具有同樣多的變量數(shù)值的原則來(lái)劃分。(2) 通過直方圖離散化2. 定量數(shù)據(jù)規(guī)范化常用的規(guī)范化方法有極大極小值規(guī)范化、最大絕對(duì)值規(guī)范化、零均值規(guī)范化(標(biāo)準(zhǔn)化法)和小數(shù)定標(biāo)規(guī)范化。(1) 極大極小值規(guī)范

8、化old_minnew _maxnew _minnew _minold_maxold_min() ixxxxxxxx (4-5)常用的轉(zhuǎn)換后的最高、最低值分別為1和0,則式(4-5)可簡(jiǎn)化為式(4-6)。minmaxmin ixxxxx (4-6)(2) 最大絕對(duì)值規(guī)范化maxxxx (4-7)(3) 零均值規(guī)范化ixxx (4-8)(4) 小數(shù)定標(biāo)規(guī)范化10 axx(4-9)4.4.3 不平衡數(shù)據(jù)處理1. 通過過采樣或欠采樣解決不平衡抽樣是解決樣本不平衡的一種簡(jiǎn)單且常用的方法,主要有過采樣過采樣和欠采樣欠采樣兩種。2. 通過集成方法解決不平衡首先,隨機(jī)將多數(shù)類樣本分成多份,每份的樣本量和少數(shù)

9、類樣本量相近,然后將每份多數(shù)類樣本和少數(shù)類樣本組合構(gòu)成訓(xùn)練集用于訓(xùn)練模型,最后集成所有的模型用于預(yù)測(cè)。3. 通過調(diào)整模型類別權(quán)重解決不平衡這種方法不需要對(duì)樣本本身做處理,只需要在計(jì)算和建模過程中,針對(duì)不同類別調(diào)整其權(quán)重進(jìn)行平衡化處理。4.5 數(shù)據(jù)歸約4.5.1 屬性的歸約1. 屬性預(yù)處理對(duì)于屬性值為以下四種情況的可以考慮去掉該屬性:(1) 數(shù)值型屬性為常量或差異較小(2) 屬性值為空值(3) 屬性值呈現(xiàn)稀疏性(4) 屬性為單調(diào)類別變量數(shù)據(jù)歸約標(biāo)準(zhǔn)1.用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時(shí)間2.歸約得到的數(shù)據(jù)比原數(shù)據(jù)小得多,但可以產(chǎn)生相同或幾乎相同的分析結(jié)果2. 屬性

10、選擇(1) 屬性子集選擇法(2) 主成分分析法逐步向前選擇從一個(gè)空屬性集(作為屬性子集初始值)開始,每次從原來(lái)屬性集合中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到當(dāng)前屬性子集中。直到無(wú)法選擇出最優(yōu)屬性或滿足一定閾值約束為止。逐步向后刪除 從一個(gè)全屬性集(作為屬性子集初始值)開始,每次從當(dāng)前屬性子集中選擇一個(gè)當(dāng)前最差的屬性并將其從當(dāng)前屬性子集中消去。直到無(wú)法選擇出最差屬性為止或滿足一定閾值約束為止。向前選擇和向后刪除結(jié)合判定樹(決策樹)歸納利用決策樹的歸納方法對(duì)初始數(shù)據(jù)進(jìn)行分類歸納學(xué)習(xí),獲得一個(gè)初始決策樹,所有沒有出現(xiàn)這個(gè)決策樹上的屬性均認(rèn)為是無(wú)關(guān)屬性,因此將這些屬性從初始屬性集合刪除掉,就可以獲得一個(gè)較優(yōu)的

11、屬性子集。(3) 聚類分析法運(yùn)用聚類分析法,對(duì)屬性進(jìn)行聚類。聚類完成之后,可以從每類中選取一個(gè)或幾個(gè)代表性屬性構(gòu)成屬性子集用于數(shù)據(jù)挖掘。 4.5.2 記錄的歸約1. 簡(jiǎn)單隨機(jī)抽樣:2. 等距抽樣:3. 分層抽樣:4. 聚類抽樣:5. 整群抽樣:簡(jiǎn)單隨機(jī)抽樣是按等概率的原則直接從總體中隨機(jī)抽取樣本,其適用前提是所有個(gè)體都是等概率分布的,但現(xiàn)實(shí)情況卻常常不是如此的。先將總體中的每一個(gè)個(gè)體按順序進(jìn)行編號(hào),然后計(jì)算出抽樣間隔,再按照固定的抽樣間隔抽取個(gè)體。這種方法適用于個(gè)體分布較為均勻的數(shù)據(jù)。先將總體按某種特征劃分為幾個(gè)類別,使類內(nèi)差異盡可能地小,類間差異盡可能地大,然后從每個(gè)類別中隨機(jī)抽取若干樣本,由每類中抽中的樣本構(gòu)成一個(gè)總的樣本。這種方法適用于帶有類別標(biāo)簽的數(shù)據(jù)。先將總體按聚類的方法分為幾個(gè)類別,然后從每個(gè)類別中隨機(jī)抽取若干個(gè)樣本,由每類中抽中的樣本構(gòu)成一個(gè)總的樣本。該方法適用于雖不存在類別標(biāo)簽但可以聚類的數(shù)據(jù)。整群抽樣是先將總體分為幾個(gè)群體,然而抽取若干群組成總的樣本。這種方法適用于群內(nèi)差異大、群間差異小的總體。4.5.3 數(shù)值的歸約數(shù)值的歸約主要體現(xiàn)在每條記錄在不同屬性取值上的精簡(jiǎn),除了上述提及的定量數(shù)據(jù)離散化的方法可以實(shí)現(xiàn)數(shù)值精簡(jiǎn)外,還可以使用聚類聚類和聚集聚集的方法。1. 聚類2. 聚集用聚類的結(jié)果代

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論