第二章數(shù)據(jù)預(yù)處理_第1頁
第二章數(shù)據(jù)預(yù)處理_第2頁
第二章數(shù)據(jù)預(yù)處理_第3頁
第二章數(shù)據(jù)預(yù)處理_第4頁
第二章數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 )處理: 條記錄。若一條記錄中有屬性值被遺漏了,則將此條記錄排除在 忽略該條記錄 數(shù)據(jù)挖掘過程之外,尤其當(dāng)類別屬性( )的值沒有而又要進(jìn)行 分類數(shù)據(jù)挖掘時。當(dāng)然這種方法并不很有效,尤其是在每個屬性遺漏值 的記錄比例相差較大時。 值。一般講這種方法比較耗時,而且對于存在許多遺漏情 手工填補遺漏值 況的大規(guī)模數(shù)據(jù)集而言,顯然可行較差。 值。對一個屬性的所有遺漏的值均利用一個事先確 利用缺省值填補遺漏值 定好的值來填補。如:都用 %& 來填補。但當(dāng)一個屬性遺漏值較多值, 若采用這種方法,就可能誤導(dǎo)挖掘進(jìn)程。因此這種方法雖然簡單,但并 不推薦使用,或使用時需要仔細(xì)分析填補后的情況,以盡量避免

2、對最終 挖掘結(jié)果產(chǎn)生較大誤差。 數(shù)據(jù)挖掘 第二章 數(shù)據(jù)預(yù)處理 利用均值填補遺漏值。 值 計算一個屬性(值)的平均值,并用此值填補該 屬性所有遺漏的值。 如: 若一個顧客的平均收入 ( ) 為 '""" 元, 則用此值填補 屬性中所有被遺漏的值。 值。 這種方法尤其在進(jìn)行分類挖掘時使用。 如: 利用同類別均值填補遺漏值 若要對商場顧客按信用風(fēng)險( ()進(jìn)行分類挖掘時,就可以用在 同一信用風(fēng)險類別下(如良好)的 屬性的平均值,來填補所有 在同一信用風(fēng)險類別下屬性 的遺漏值。 值。可以利用回歸分析、貝葉斯計算公式或決 利用最可能的值填補遺漏值 策樹推斷出該條記錄

3、特定屬性的最大可能的取值。例如:利用數(shù)據(jù)集中 其它顧客的屬性值,可以構(gòu)造一個決策樹來預(yù)測屬性 的遺漏值。 最后一種方法是一種較常用的方法,與其他方法相比,它最大程度地利用了 當(dāng)前數(shù)據(jù)所包含的信息來幫助預(yù)測所遺漏的數(shù)據(jù)。 通過利用其它屬性的值來幫助 預(yù)測屬性 的值。 噪聲是指被測變量的一個隨機(jī)錯誤和變化。 給定一個數(shù)值型屬性, 如: 價格, 平滑去噪的數(shù)據(jù)具體方法說明: .排序后價格:'''''''' .劃分為等高度 : '' '' '' .根據(jù)均值進(jìn)行平滑 *'*'*

4、 '' *'*'* .根據(jù)邊界進(jìn)行平滑: '' '' '' 圖- 利用 方法進(jìn)行平滑描述 方法 方法通過利用相應(yīng)被平滑數(shù)據(jù)點的周圍點(近鄰) ,對一 方法。 數(shù)據(jù)挖掘 第二章 數(shù)據(jù)預(yù)處理 組排序數(shù)據(jù)進(jìn)行平滑。排序后數(shù)據(jù)分配到若干桶(稱為 ( 或 ) 中。由于 方法利用周圍點的數(shù)值來進(jìn)行局部平滑。圖- 示意描述 了一些 方法技術(shù)。在圖- 中,首先對價格數(shù)據(jù)進(jìn)行排序,然后將 其劃分為若干等高度的 (即每個 包含三個數(shù)值,兩種典型 方 法示意描述如圖- 所示) ;這時既可以利用每個 的均值進(jìn)行平滑, 即對每個 中所有值均

5、用該 的均值替換。在圖- 中,第一個 中 、 均用該 的均值 * 替換,這種方法稱為 均值平滑。與 之類似,對于給定的 ,其最大與最小值就構(gòu)成了該 的邊界。利用 每個 的邊界值(最大值或最小值) ,替換該 中的所有值。一般講 每個 的寬度越寬,其平滑效果越明顯。若按照等寬劃分 ,即每個 的取值間距(左右邊界之差)相同。此外 方法也可以用于屬性的 離散化處理,在第五章關(guān)聯(lián)規(guī)則挖掘中將要作詳細(xì)介紹。 中個數(shù) 中個數(shù) 屬性值 等高 等寬 圖- 兩種典型 方法 屬性值 ,道理很簡單, 聚類方法。 類方法 通過聚類分析可幫助發(fā)現(xiàn)異常數(shù)據(jù)( ) 相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個聚類集合,而那些位于這

6、些 聚類集合之外的數(shù)據(jù)對象,自然而然就被認(rèn)為是異常數(shù)據(jù)。聚類分析方 法的具體內(nèi)容將在第六章詳細(xì)介紹。 檢查方法。通過人與計算機(jī)檢查相結(jié)合方法,可以幫助發(fā)現(xiàn)異 人機(jī)結(jié)合檢查方法 常數(shù)據(jù)。如:利用基于信息論方法可幫助識別用于分類識別手寫符號庫 中的異常模式;所識別出的異常模式可輸出到一個列表中;然后由人對 這一列表中的各異常模式進(jìn)行檢查,并最終確認(rèn)無用的模式(真正異常 的模式) 。這種人機(jī)結(jié)合檢查方法比單純利用手工方法手寫符號庫進(jìn)行 檢查要快許多。 方法。 可以利用擬合函數(shù)對數(shù)據(jù)進(jìn)行平滑。 如: 借助線性回歸 ( 回歸方法 )方法,包括多變量回歸方法,就可以獲得的多個變量之間的 數(shù)據(jù)挖掘 第二章 數(shù)據(jù)預(yù)處理 一個擬合關(guān)系,從而達(dá)到利用一個(或一組)變量值來幫助預(yù)測另一個 變量取值的目的。利用回歸分析方法所獲得的擬合函數(shù),能夠幫助平滑 數(shù)據(jù)及除去其中的噪聲。 圖- 基于聚類分析的異常數(shù)據(jù)( )檢測 許多數(shù)據(jù)平滑方法,同時也是數(shù)據(jù)消減方法。例如:以上描述的 方法' 可以幫助消減一個屬性中不同取值,這也就意味著 方法可以作為基于邏輯挖 掘方法中的數(shù)據(jù)消減處理。 現(xiàn)實世界的數(shù)據(jù)庫常出現(xiàn)數(shù)據(jù)記錄內(nèi)容的不一致, 其中一些數(shù)據(jù)不一致可以 利用它們與外部的關(guān)聯(lián)手工加以解決。例如:輸入發(fā)生的數(shù)據(jù)錄入錯誤一般可以 與原稿進(jìn)行對比來加以糾正。 此外還有一些例程可以幫助糾

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論