商務(wù)智能課件第7章數(shù)據(jù)預(yù)處理_第1頁
商務(wù)智能課件第7章數(shù)據(jù)預(yù)處理_第2頁
商務(wù)智能課件第7章數(shù)據(jù)預(yù)處理_第3頁
商務(wù)智能課件第7章數(shù)據(jù)預(yù)處理_第4頁
商務(wù)智能課件第7章數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第7章 數(shù)據(jù)預(yù)處理Chapter 7: Data Preprocessing主要內(nèi)容7.1 數(shù)據(jù)預(yù)處理的原因和任務(wù)7.2 數(shù)據(jù)規(guī)范化7.3 數(shù)據(jù)離散化7.1 數(shù)據(jù)預(yù)處理的原因和任務(wù)(1)數(shù)據(jù)離散化(discretization)(2)數(shù)據(jù)規(guī)范化(normalization)(3) 數(shù)據(jù)清洗(data cleaning)(4)特征提取與特征選擇7.2 數(shù)據(jù)規(guī)范化數(shù)據(jù)規(guī)范化又稱標(biāo)準(zhǔn)化(standardization),通過將屬性的取值范圍進(jìn)行統(tǒng)一,避免不同的屬性在數(shù)據(jù)分析的過程中具有不平等的地位常用方法最小-最大法(min-max normalization)z-score最小-最大法假設(shè)需要映射

2、到目標(biāo)區(qū)間為L(zhǎng),R。原來的取值范圍為l, r,則根據(jù)等比例映射的原理,一個(gè)值x映射到新區(qū)間后的值v的計(jì)算方法如下:例如,對(duì)于描述客戶的屬性“年收入(萬元)”,如果原來的取值范圍為3,200,新的取值范圍為0,1,則若某客戶的年收入為60萬元,規(guī)范化后為(60-3)/(200-3)=0.29z-scorez-score,又稱零均值規(guī)范化(zero-mean normalization)。給定一個(gè)屬性A,設(shè)其取值的均值為A,標(biāo)準(zhǔn)差為A,A的某個(gè)取值x規(guī)范化后的值v計(jì)算如下:均值為A和標(biāo)準(zhǔn)差為A通過已有樣本的屬性值進(jìn)行計(jì)算。規(guī)范化后的屬性A取值的均值為零例如,年收入屬性的均值為82,標(biāo)準(zhǔn)差為39,則

3、年收入60萬規(guī)范化后為-0.317.3 數(shù)據(jù)離散化7.3 數(shù)據(jù)離散化7.3.1 分箱離散化7.3.2 基于熵的離散化7.3.3 離散化方法ChiMerge7.3.1 分箱離散化等距離分箱、等頻率分箱等距離(equal- distance)分箱又稱為等寬度分箱(equal-width binning),是將每個(gè)取值映射到等大小的區(qū)間的方法給定屬性A的最小和最大取值分別為min和max,若區(qū)間個(gè)數(shù)為k,則每個(gè)區(qū)間的間距為I=(max-min)/k,區(qū)間分別為min,min+I)、min+I, min+2I)、min+(k-1)I, min+kI等距離分箱可能導(dǎo)致屬于某些的取值非常多,而某些又非常少

4、7.3.1 分箱離散化等頻率(equal-frequency)分箱又稱等深度分箱(equal-depth binning)。它將每個(gè)取值映射到一個(gè)區(qū)間,每個(gè)區(qū)間內(nèi)包含的取值個(gè)數(shù)大致相同例如:假設(shè)14個(gè)客戶的屬性“年收入”的取值按順序?yàn)椋?0,40,50,58,65,80,80,82,86,90,96,105,120,200利用等距離分箱,區(qū)間的個(gè)數(shù)為4,則區(qū)間間距為(200-20)/4=45,則4個(gè)箱的區(qū)間分別為20,65),65,110),110,155),155,200利用等頻率分箱,每箱3個(gè)值,則4個(gè)箱分別為20,40,50,58,65,80,80,82,86,90,96,105,120

5、,2007.3.2 基于熵的離散化分箱離散化由于是一種無監(jiān)督離散化方法基于熵的離散化方法是常用的有監(jiān)督的離散化方法給定一個(gè)數(shù)據(jù)集D及分類屬性的取值,即類別集合C=c1, c2, , ck,數(shù)據(jù)集D的信息熵entropy(D)的計(jì)算公式其中p(ci)=count(ci)/|D|,count(ci)表示類別ci在D中出現(xiàn)的次數(shù),|D|代表D中的數(shù)據(jù)行數(shù),即對(duì)象個(gè)數(shù)。信息熵的取值越小,類別分布越純,反之越不純7.3.2 基于熵的離散化首先將D中的行按照屬性A的取值進(jìn)行排序。分割的方法是利用條件Av,v是A的一個(gè)取值。相應(yīng)地,數(shù)據(jù)集D按照此條件分裂為兩個(gè)子數(shù)據(jù)集:D1, D2,綜合這2個(gè)子數(shù)據(jù)集的信息

6、熵作為衡量這種分割優(yōu)劣的度量,entropy(D, v),一個(gè)數(shù)據(jù)集D按Av分裂前后信息熵的差值稱為信息增益,記為gain(D,v)gain(D,v)=entropy(D)-entropy(D,v) 基于熵的離散化Entropy(D,40)=-2/5(2/2log22/2)-3 /5(2/3log22/3+ 1/3log21/3) =0.52Entropy(D,58)=-4/5( 1/2log21/2+ 1/2log21/2)-1 /5log21 =0.8gain(D, 40)=0.97-0.52=0.45gain(D, 58)=0.97-0.8=0.17年收入豪華車20否40否50是58是6

7、5否7.3.3 離散化方法ChiMerge如果基于熵的方法可以看作是自頂向下的分裂方法,則ChiMerge則屬于自底向上的合并方法ChiMerge則是從每個(gè)值都是一個(gè)小區(qū)間開始,不斷合并相鄰區(qū)間成為大的區(qū)間,它是基于統(tǒng)計(jì)量卡方檢驗(yàn)實(shí)現(xiàn)的豪華車=是豪華車=否合計(jì)0,300 (N11)1(N12)1(R1)30,450(N21)1(N21)1(R2)合計(jì)0(C1)2(C2)2k為類別的個(gè)數(shù)7.3.3 離散化方法ChiMerge(1)將待離散化屬性“年收入”的取值排序,生成只含有單個(gè)取值的區(qū)間,以相鄰兩個(gè)值的中點(diǎn)為分界,初始區(qū)間為0,30,30,45,45,54,54,61.5,61.5,+。(2)

8、對(duì)兩個(gè)相鄰區(qū)間構(gòu)建列聯(lián)表年收入豪華車20否40否50是58是65否豪華車=是豪華車=否合計(jì)0,300 (N11)1(N12)1(R1)30,450(N21)1(N21)1(R2)合計(jì)0(C1)2(C2)2ChiMerge7.4 數(shù)據(jù)清洗數(shù)據(jù)清洗處理數(shù)據(jù)的缺失、噪音數(shù)據(jù)的處理以及數(shù)據(jù)不一致的識(shí)別和處理處理數(shù)據(jù)的缺失如果數(shù)據(jù)集含有分類屬性,一種簡(jiǎn)單的填補(bǔ)缺失值的方法為,將屬于同一類的對(duì)象的該屬性值的均值賦予此缺失值;對(duì)于離散屬性或定性屬性,用眾數(shù)代替均值更復(fù)雜的方法,可以將其轉(zhuǎn)換為分類問題或數(shù)值預(yù)測(cè)問題數(shù)據(jù)清洗噪音數(shù)據(jù)的處理一類是識(shí)別出噪音,將其去除;另一類是利用其它非噪音數(shù)據(jù)降低噪音的影響,起到

9、平滑(smoothing)的作用。孤立點(diǎn)的識(shí)別屬于第一類方法,上一章中介紹聚類算法DBSCAN時(shí)提到過,最終不屬于任一個(gè)簇的點(diǎn)可以看作噪音。分箱(binning)方法可以用于平滑噪音。例如,將年收入的缺失值填補(bǔ)之后,將其取值利用分箱法平滑噪音。7.5 特征提取與特征選擇7.5.1 特征選擇介紹面向分類的特征選擇方法。有效地特征選擇不僅降低數(shù)據(jù)量,提高分類模型的構(gòu)建效率,有時(shí)還可以提高分類準(zhǔn)確率。特征選擇方法有很多,總結(jié)它們的共同特點(diǎn),其過程可以分為以下幾步:根據(jù)一定的方法選擇一個(gè)屬性子集;衡量子集的相關(guān)性;判斷是否需要更新屬性子集,若是,轉(zhuǎn)第1步繼續(xù),若否,進(jìn)入下一步;輸出最終選取的屬性子集。

10、屬性子集的選擇選擇屬性子集的方法,一般采用啟發(fā)式方法,只檢驗(yàn)部分可能性比較大的子集,這樣可以快速完成屬性的選擇常用的方法包括:逐步增加法(stepwise forward selection)、逐步遞減法(stepwise backward elimination)、隨機(jī)選取。衡量子集的相關(guān)性第二步中,通常采用兩類不同的方法一類稱為filter方法,利用距離、信息熵以及相關(guān)度檢驗(yàn)等方法直接衡量屬性子集與類別的關(guān)聯(lián);另一類稱為wrapper方法,利用分類模型來衡量屬性子集的效果,通常效率很低Relief: 給定數(shù)據(jù)集D,屬性集A=A1, A2, , Am, class,權(quán)重閾值,樣本個(gè)數(shù)N, 主

11、要步驟1. 初始化每個(gè)屬性Ai的權(quán)重wi=0, j=0,數(shù)值屬性規(guī)范化到0,1;2. 從D 中隨機(jī)抽取一個(gè)對(duì)象作為樣本x,從與x類別相同的對(duì)象中選取一個(gè)距離與x最近的樣本h,h稱為x的near-hit;從與x類別不同的對(duì)象中選取一個(gè)距離與x最近的樣本s, s稱為x的near-miss;3. 對(duì)于每個(gè)屬性Ai,調(diào)整其權(quán)重如下:wi=wi- d(x.Ai, h.Ai)+ d(x.Ai, s.Ai) (7-8)4. j=j+1; 如果jN,轉(zhuǎn)至步驟2。否則,輸出那些權(quán)重大于閾值的屬性Reliefwi=wi- d(x.Ai, h.Ai)+ d(x.Ai, s.Ai) x.Ai代表對(duì)象x屬性Ai的取值;

12、d(x.Ai, h.Ai)代表對(duì)象x和h在屬性Ai的取值的相異性。若屬性Ai為數(shù)值屬性,d(x.Ai, h.Ai)=|x.Ai- h.Ai|;若為標(biāo)稱屬性,取值相同時(shí)d(x.Ai, h.Ai)=0,不同則d(x.Ai, h.Ai)=1;若為序數(shù)屬性,有p個(gè)不同取值,按照順序映射為整數(shù)0(p-1),d(x.Ai, h.Ai)=|x.Ai- h.Ai|/(p-1)。實(shí)際上,權(quán)值的調(diào)整只需要對(duì)取值不同的屬性進(jìn)行。Relief對(duì)象編號(hào)ABCDEFClass10000010200011103001001040011001501000106010111071010011801110019101100110

13、11000017.5.2 特征提取主成分分析,PCA(principle component analysis)最早由Karl Pearson于1901年提出,后經(jīng)Harold Hotelling發(fā)展,是一種經(jīng)典的統(tǒng)計(jì)方法。它通過對(duì)原有變量(屬性、特征)進(jìn)行線性變換,提取反映事物本質(zhì)的新的變量,同時(shí)去除冗余、降低噪音,達(dá)到降維的目的。PCA: 主成分分析給定數(shù)據(jù)集D,包括n個(gè)對(duì)象的數(shù)據(jù),每個(gè)對(duì)象由m個(gè)屬性A1、A2、Am描述。每個(gè)對(duì)象可以看作m維空間中的一個(gè)點(diǎn)。sepal_lengthsepal_widthpetal_lengthpetal_widthtype5.72.94.21.3Iris-

14、versicolor6.22.94.31.3Iris-versicolorFeature extraction-PCAPCA計(jì)算協(xié)方差矩陣C的特征根和主成分矩陣,保留前q 個(gè)最大的特征根及對(duì)應(yīng)的特征向量,其中最大特征根對(duì)應(yīng)的特征向量稱為第一主成分,第二大特征根對(duì)應(yīng)的是第二主成分,構(gòu)造主成分矩陣P,其中其列向量pi是第i個(gè)主成分假設(shè)降序排列的特征根為 ,第i個(gè)主成分的貢獻(xiàn)率的計(jì)算如下:計(jì)算最終降維后的數(shù)據(jù)集Y,Y=XP,其中P是主成分矩陣,X是步驟1中得到的矩陣。PCAsepal_lengthsepal_widthpetal_lengthpetal_width5.72.94.21.36.22.94.31.35.72.84.11.36.33.36.02.55.82.75.11.97.13.05.92.15.13.81.60.24.63.21.40.25.33.71.50.2PCA特征根貢獻(xiàn)率累積貢獻(xiàn)率4.224840.924620

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論