版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、2022/7/104. 數(shù)據(jù)預(yù)處置2022/7/101.為什么要進(jìn)展數(shù)據(jù)發(fā)掘?現(xiàn)實(shí)世界的數(shù)據(jù)是臟的不完好: 缺乏屬性值,缺乏有意義的屬性,或者只包含了匯總數(shù)據(jù)e.g., occupation=“ 有噪聲: 包含錯(cuò)誤的數(shù)據(jù)或異常值e.g., Salary=“-10不一致: 在代碼或者名字中存在矛盾或不一致e.g., Age=“42 Birthday=“03/07/1997e.g., Was rating “1,2,3, now rating “A, B, Ce.g., discrepancy between duplicate records2022/7/102.為什么數(shù)據(jù)預(yù)處置重要?No qu
2、ality data, no quality mining results!Quality decisions must be based on quality datae.g., duplicate or missing data may cause incorrect or even misleading statistics.Data warehouse needs consistent integration of quality dataData extraction, cleaning, and transformation comprises the majority of th
3、e work of building a data warehouse2022/7/103.2022/7/104數(shù)據(jù)預(yù)處置的主要內(nèi)容:.2022/7/10數(shù)據(jù)預(yù)處置的主要內(nèi)容一、原始數(shù)據(jù)的表述二、數(shù)據(jù)清理三、數(shù)據(jù)變換四、元組的歸約五、屬性的歸約2022/7/105.數(shù)據(jù)樣本是數(shù)據(jù)發(fā)掘過程的根本組成部分。一、原始數(shù)據(jù)的表述2022/7/106每個(gè)樣本都用幾個(gè)特征來描畫,每個(gè)特征有不同類型的值。.2022/7/102022/7/10常見的數(shù)據(jù)類型有:數(shù)值型和分類型。數(shù)值型包括實(shí)型變量和整型變量注:具有數(shù)值型值的特征有兩個(gè)重要的屬性:其值有順序關(guān)系和間隔關(guān)系。 7.2022/7/102022/7/1
4、0一個(gè)有兩個(gè)值的分類型變量:分類型變量的兩個(gè)值可以平等或不平等。原那么上可以轉(zhuǎn)化成一個(gè)二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有兩個(gè)值:0或1;而有N值的分類型變量原那么上可以轉(zhuǎn)化成一個(gè)二進(jìn)制的數(shù)值型變量,這種數(shù)值型變量有N個(gè)值。8.2022/7/102022/7/10例如:假設(shè)變量“眼睛顏色有4個(gè)值:黑色、藍(lán)色、綠色、褐色。 特征值 編碼 黑色 1000 藍(lán)色 0100 綠色 0010 褐色 00019.2022/7/102022/7/10變量的分類:延續(xù)型變量和離散型變量。延續(xù)型變量也以為是定量型或是量度型,是指在一定區(qū)間內(nèi)可以恣意取值的變量。離散型變量也叫定性型變量,是指全部能夠取到的不一樣的
5、值是有限個(gè)的變量。注:一種特殊類型的離散型變量是周期變量,例如:星期、月和年中的日期。10.2022/7/102022/7/10與時(shí)間有關(guān)的數(shù)據(jù)分類:靜態(tài)數(shù)據(jù)數(shù)據(jù)不隨時(shí)間變化而變化動(dòng)態(tài)數(shù)據(jù)時(shí)間數(shù)據(jù)隨時(shí)間變化而變化的屬性。注:大多數(shù)數(shù)據(jù)發(fā)掘方法更適用于靜態(tài)數(shù)據(jù),在對動(dòng)態(tài)數(shù)據(jù)進(jìn)展發(fā)掘時(shí)要有特殊的思索和預(yù)處置。11.2022/7/10二、數(shù)據(jù)清理缺失值的填補(bǔ)2022/7/10對數(shù)據(jù)發(fā)掘的實(shí)踐運(yùn)用而言,即使數(shù)據(jù)量很大,具有完好數(shù)據(jù)的案例也非常少,這樣就面臨數(shù)據(jù)的缺失問題。運(yùn)用數(shù)據(jù)發(fā)掘方法之前如何處置這樣景象,最簡單的方法是減少數(shù)據(jù)集,去掉一切有缺失值的樣本。假設(shè)我們不想扔掉這些有缺失值的樣本,就必需找
6、到它們的缺失值,用什么方法來實(shí)現(xiàn)呢?填補(bǔ)缺失值。12.2022/7/101、單一填補(bǔ)法1均值填補(bǔ)法。均值填補(bǔ)法是根據(jù)與含缺失值的目的屬性相關(guān)性高的其它屬性的信息將樣品分為假設(shè)干組,然后分別計(jì)算各組目的屬性的均值,將各組均值作為組內(nèi)一切缺失項(xiàng)的填補(bǔ)值。均值填補(bǔ)的優(yōu)點(diǎn)是操作簡便,并且可以有效地降低其點(diǎn)估計(jì)的偏向。但它的缺陷也比較突出:首先,由于同組中的缺失值由同一個(gè)值填補(bǔ),填補(bǔ)結(jié)果歪曲了目的屬性的分布;其次,也導(dǎo)致在均值和總量估計(jì)中對方差的低估。2022/7/1013.例:2022/7/1014.均值填補(bǔ):2022/7/1015.2022/7/102隨機(jī)填補(bǔ)法。隨機(jī)填補(bǔ)法是采用某種概率抽樣的方式,
7、從有完好信息的元組中抽取缺失數(shù)據(jù)的填補(bǔ)值的方法。它雖然可以防止均值填補(bǔ)中填補(bǔ)值過于凝集以及容易扭曲目的屬性分布的弱點(diǎn),使得填補(bǔ)值的分布與真值分布更為接近。但它卻增大了估計(jì)量的方差,并且穩(wěn)定性不夠。2022/7/1016.2022/7/103熱卡填補(bǔ)法。熱卡填補(bǔ)法hot deck imputation是規(guī)定一個(gè)或多個(gè)排序?qū)傩?,按其察看值大小對全部察看單位排序,假設(shè)選擇的是兩個(gè)以上的屬性,排序按屬性的入選順序依次進(jìn)展。排序?qū)傩灾低耆粯拥牟炜磫挝环Q為匹配,缺失值就用與之匹配的察看單位的屬性值來填補(bǔ)。假設(shè)有多例相匹配,可取第一例或隨機(jī)取其一。假設(shè)沒有相匹配的,可以每次減少一個(gè)排序?qū)傩裕僬蚁嗥ヅ涞脑?/p>
8、組。假設(shè)直到最后一個(gè)排序?qū)傩?,還沒有找到相匹配的,那么需求重新規(guī)定排序?qū)傩浴?022/7/1017項(xiàng)目性別年齡學(xué)生身分收入辦卡1男45否高 會(huì)2女3145否高會(huì)3女2030是低會(huì)4男20是低不會(huì)5女2030是中不會(huì)6女2030否中會(huì)7女3145否高會(huì)8男3145是中不會(huì)9男3145否中會(huì)10女45否高 會(huì)2女3145否高會(huì)3女2030是低會(huì)4男20是低不會(huì)5女2030是中不會(huì)6女2030否中會(huì)7女3145否高會(huì)8男3145是中不會(huì)9男3145否中會(huì)10女20是低會(huì).2022/7/10Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.4300
9、6.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422022/7/10舉例:IRIS樣本集的詳細(xì)步驟 71.2022/7/10首先,從第一個(gè)分割點(diǎn)開場,將屬性值分為兩部分即4.3,4.4)和4.4,7.9,那么分割后新的類別熵為: 2022/7/10區(qū)間d1d2d3合計(jì)4.3,4
10、.4)10014.4,7.949505014972.2022/7/10以此類推,如把屬性值分為4.3,5.6)和5.6,7,9兩個(gè)區(qū)間時(shí),產(chǎn)生的新的類別熵為:2022/7/10區(qū)間d1d2d3合計(jì)4.3,5.6)47111595.6,7.9339499173.2022/7/10對一切的分割點(diǎn)將屬性值分為兩個(gè)區(qū)間的新類別熵計(jì)算出來,有2022/7/10d1 d2 d3 新的類別熵d1d2d3新的類別熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.64000.446796.30360.39
11、2024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010.457305.81330.330407.
12、60010.460715.90210.337427.70040.473927.900174.2022/7/10從上表中可以看到,將屬性值分為4.3,5.6)和5.6,7,9兩個(gè)區(qū)間時(shí),類別熵最小,因此首先把屬性值分為兩大部分。按照上述步驟, 分別再找出區(qū)間 4.3,5.6)和5.6,7,9的二分點(diǎn),以此類推,逐漸將區(qū)間分割為更小的區(qū)間,直到滿足某個(gè)終止條件為止。2022/7/1075.2022/7/102022/7/10d1 d2 d3 新的類別熵d1d2d3新的類別熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.45966
13、6.20220.367514.64000.446796.30360.392024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.725
14、10.321787.40010.457305.81330.330407.60010.460715.90210.337427.70040.473927.900176.2022/7/102022/7/104、CHIMERGE算法77.2022/7/102022/7/1078Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.100
15、15.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.90016042.2022/7/102022/7/1079.2022/7/102022/7/1080.2022/7/10運(yùn)用采用Iris樣本集進(jìn)展統(tǒng)計(jì)模擬。如今以花萼長 sepal length in cm 屬性為例,來進(jìn)展延續(xù)型值屬性的離散化。2022/7/1081.2022/7/10Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254
16、.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422022/7/1082.2022/7/10詳細(xì)步驟:1察看各區(qū)間,先將類分布完全一樣的區(qū)間進(jìn)展合并。2022/7/10區(qū)間d1d2d3區(qū)間d1d2d34.3,4.9)16005.7,5.9)3844.9,5.0)4115.9,6.6)018225.0,5.3)19406.6,6.7)020
17、5.3,5.4)1006.7,7.0)05105.4,5.6)7607.0,7.1)0105.6,5.7)0517.1,7.9)001283.2022/7/102022/7/102調(diào)查4.3,4.9)與4.9,5),看其能否可以合并?兩區(qū)間的卡方統(tǒng)計(jì)量和為5.87,大于臨界值,因此兩區(qū)間不能合并。區(qū)間d1d2d3求和4.3,4.9)1600164.9,5)4116求和201122區(qū)間eijeijeij4.3,4.9)14.5450.7270.7274.9,5)5.4550.2730.273區(qū)間24.3,4.9)0.1450.7270.7271.64.9,5)0.3881.9391.9394.2
18、67表1:兩區(qū)間的列聯(lián)表表2:計(jì)算各項(xiàng)的eij表3:兩區(qū)間的卡方統(tǒng)計(jì)量值84.2022/7/102022/7/103繼續(xù)調(diào)查區(qū)間4.9,5)與5.0,5.3) ,看其能否可以合并,直到一切的區(qū)間卡方統(tǒng)計(jì)量大于閥值為止。85.2022/7/10五、屬性的歸約屬性的歸約包括兩類方法:屬性的提取和屬性子集的選擇。一屬性的提取屬性的提取是經(jīng)過映射或變換的方法,將高維的屬性空間緊縮為低維的屬性空間,即將原始屬性變換為較少的新屬性。此時(shí),“較少的新屬性是原始屬性的某種線性組合,也可以稱為“二次屬性。2022/7/1086.2022/7/10屬性提取的最大的優(yōu)點(diǎn)在于:這樣的線性組合比屬性選擇中的最優(yōu)子集有更
19、好的判別才干。但相應(yīng)的問題是,這樣的線性組合的實(shí)踐意義卻不明顯,有時(shí)難以解釋。到目前為止,對屬性提取的研討主要是從線性和非線性的數(shù)據(jù)變換角度進(jìn)展的。用的比較多的線性數(shù)據(jù)變換方法是:主成分分析、因子分析、判別分析、聚類分析、多維標(biāo)度、投影尋蹤以及小波變換等。非線性的數(shù)據(jù)變換,主要是基于自組織映射的屬性抽取方法、基于核的主成分分析和基于核的判別分析方法等。2022/7/1087.2022/7/101、主成分分析因子分析主成分分析和因子分析都是多元統(tǒng)計(jì)分析中的一種常用方法,是數(shù)學(xué)上處置降維的一種方法。主成分分析的根本思想:設(shè)法將原始屬性重新組合成一組新的相互無關(guān)的幾個(gè)綜合屬性,同時(shí)根據(jù)需求從中選取少
20、數(shù)幾個(gè)綜合屬性來盡能夠多地反映原來目的的信息。綜合目的的選取運(yùn)用的是方差最大法。2022/7/1088.2、因子分析因子分析的根本思想:經(jīng)過變量或樣本的相關(guān)系數(shù)矩陣內(nèi)部構(gòu)造的研討,找出能控制一切變量的少數(shù)幾個(gè)因子去描畫多個(gè)變量之間的相關(guān)關(guān)系;然后,根據(jù)相關(guān)性的大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不同組之間相關(guān)性較低。2022/7/1089.2022/7/10主成分分析和因子分析的對比2022/7/10主成分分析因子分析由因子的線性組合來解釋變量90.主成份分析和因子分析的優(yōu)點(diǎn)因子主成份之間的線性相關(guān)關(guān)系不顯著。主成份參與數(shù)據(jù)建模可以有效地處理變量多重共線性等分析運(yùn)用帶來的問題。因
21、子可以反映原有變量的絕大部分信息。因子的方差奉獻(xiàn)和方差奉獻(xiàn)率是衡量因子重要性的關(guān)鍵目的。該值越高,闡明相應(yīng)因子的重要性越高。aij因子載荷反映了某i個(gè)變量在第j因子上的相對重要性。因子得分是因子分析的最終表達(dá)。在后續(xù)的分析中可以用因子變量替代原有變量進(jìn)展建模,或者利用因子變量對樣本分類、評價(jià)或排序等研討。2022/7/1091.3、聚類分析K均值聚類分析 K均值法是麥奎因MacQueen,1967提出的,這種算法的根本思想是將每一個(gè)樣品分配給最近中心均值的類中.詳細(xì)的算法至少包括以下三個(gè)步驟:1將一切的樣品分成K個(gè)初始類;2經(jīng)過歐氏間隔將某個(gè)樣品劃入離中心最近的類中,并對獲得樣品與失去樣品的類
22、,重新計(jì)算中心坐標(biāo);3反復(fù)步驟2,直到一切的樣品都不能再分配時(shí)為止。2022/7/1092.2022/7/10二屬性子集的選擇屬性子集的選擇是經(jīng)過刪除不相關(guān)的屬性來減少數(shù)據(jù)量。屬性子集選擇的目的是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡能夠地接近運(yùn)用一切屬性的原分布。2022/7/1093.2022/7/10屬性子集的選擇方法普通有兩個(gè)組成部分:一是高效率的屬性子集搜索戰(zhàn)略,即在允許的時(shí)間內(nèi),用以找出最小的、最能描畫類別的屬性組合的搜索方法;二是確定評價(jià)函數(shù),是衡量屬性組合能否最優(yōu)的規(guī)范。屬性子集的選擇普通分兩步進(jìn)展:首先,產(chǎn)生屬性子集;然后,對子集進(jìn)展評價(jià),假設(shè)滿足停頓條件那么停頓,否那么反復(fù)
23、前述兩步直到條件滿足為止。2022/7/1094經(jīng)過該規(guī)范,要可以衡量哪組屬性子集的分類效果最好,即使得數(shù)據(jù)類的概率分布盡能夠地接近運(yùn)用一切屬性的原分布;或者可以衡量哪組屬性子集的分類效果最好,即最可以代表全部的屬性集合對樣本的劃分。.2022/7/101、搜索戰(zhàn)略按照搜索屬性構(gòu)成屬性子集的方式,搜索戰(zhàn)略可以分為:窮舉法、啟發(fā)式和隨機(jī)搜索。啟發(fā)式搜索即貪婪算法。根本的啟發(fā)式屬性選擇算法主要有:逐漸向前選擇SFS、逐漸向后選擇SBG 以及向前選擇和向后刪除相結(jié)合的方法等。2022/7/1095.2022/7/101逐漸向前選擇逐漸向前選擇方法是一種自下而上的搜索方法,它是由空屬性集開場,依次從未
24、入選的屬性中選擇一個(gè)屬性,使它與已入選的屬性組合在一同時(shí)所得的評價(jià)函數(shù)到達(dá)最大值或最小值,依評價(jià)函數(shù)選取的不同,取最大或最小值,直到評價(jià)函數(shù)的值不再添加或減小時(shí)為止,亦或者到達(dá)指定的屬性數(shù)為止。2022/7/109696可以衡量哪組屬性子集的分類效果最好,最可以代表全部的屬性集合對樣本的劃分。.這種算法的缺乏是:在算法中雖然思索了所選屬性與已入選屬性之間的相關(guān)性,但卻未思索未入選屬性之間的統(tǒng)計(jì)相關(guān)性,并且一旦某個(gè)屬性已入選,即使由于后參與的屬性使它變?yōu)槎嘤啵矡o法再剔除。2022/7/1097.2022/7/102逐漸向后刪除逐漸向后刪除是一種自上而下搜索的方法,它由整個(gè)屬性集開場,在每一步刪
25、除掉在屬性集中最壞的屬性,評判屬性好壞的準(zhǔn)那么是,假設(shè)剔除該屬性后,屬性集的評價(jià)函數(shù)到達(dá)最大或最小值,那么這個(gè)屬性是最壞的。2022/7/109898.3逐漸向前選擇和逐漸向后刪除相結(jié)合向前選擇和向后刪除結(jié)合的方法那么是將向前選擇和向后刪除方法結(jié)合在一同,每一步選擇一個(gè)最好的屬性,并在其剩余的屬性中刪除掉一個(gè)最壞的屬性。這兩種方法也存在著與逐漸向前選擇方法一樣的缺陷。2022/7/1099.2022/7/104廣義逐漸向前選擇廣義逐漸向前選擇方法是逐漸向前選擇方法的推行,針對逐漸向前選擇方法“未能思索未入選屬性之間的統(tǒng)計(jì)相關(guān)性的缺陷,該方法每次從未入選的屬性中挑選的不止是一個(gè)屬性而是多個(gè)屬性。廣義逐漸向前選擇方法的缺陷是:計(jì)算量要比逐漸向前選擇方法大很多,并且也未處理“一旦某個(gè)屬性已入選,即使由于后參與的屬性使它變?yōu)槎嘤啵矡o法再剔除的問題。2022/7/10100100.2022/7/102、屬性子集選擇中的評價(jià)函數(shù)在屬性子集選擇中,找出最具代表性的屬性子集需求一個(gè)子集優(yōu)劣的評價(jià)規(guī)范。經(jīng)過該規(guī)范,使得數(shù)據(jù)類的概率分布盡能夠地接近運(yùn)用一切屬性的原分布;假設(shè)沒有類屬性,那么可以衡量哪組屬性子集的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)保項(xiàng)目計(jì)劃書
- 社工站某年工作計(jì)劃
- 小學(xué)學(xué)校國防教育工作計(jì)劃
- 2025村衛(wèi)生室公共衛(wèi)生工作計(jì)劃例文投稿
- 有關(guān)我的寒假計(jì)劃作文范文
- 新學(xué)期開學(xué)教師工作計(jì)劃怎么寫
- 2025年幼兒園資助計(jì)劃-幼兒園貧困資助計(jì)劃
- 《GEN系統(tǒng)工具》課件
- 《外存系統(tǒng)故障維修》課件
- 土地承包經(jīng)營權(quán)解除合同案件判決書
- 【MOOC】油氣地質(zhì)與勘探-中國石油大學(xué)(華東) 中國大學(xué)慕課MOOC答案
- 山東省濟(jì)南市2023-2024學(xué)年高一上學(xué)期1月期末考試 物理 含答案
- 管理咨詢服務(wù)實(shí)施方案
- 成人重癥患者人工氣道濕化護(hù)理專家共識 解讀
- 機(jī)器學(xué)習(xí)(山東聯(lián)盟)智慧樹知到期末考試答案章節(jié)答案2024年山東財(cái)經(jīng)大學(xué)
- 科研設(shè)計(jì)及研究生論文撰寫智慧樹知到期末考試答案章節(jié)答案2024年浙江中醫(yī)藥大學(xué)
- 商業(yè)倫理與企業(yè)社會(huì)責(zé)任(山東財(cái)經(jīng)大學(xué))智慧樹知到期末考試答案章節(jié)答案2024年山東財(cái)經(jīng)大學(xué)
- 2024年江蘇省普通高中學(xué)業(yè)水平測試小高考生物、地理、歷史、政治試卷及答案(綜合版)
- 《孟子》精讀學(xué)習(xí)通章節(jié)答案期末考試題庫2023年
- 濟(jì)南人力資源和社會(huì)保障局勞動(dòng)合同(共13頁)
- 數(shù)值分析實(shí)驗(yàn)報(bào)告
評論
0/150
提交評論