


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)處理-缺-失值處理異常值處理缺失值處理:造成數(shù)據(jù)缺失的原因是多方面的,主要可能有以下幾種:有些信息暫時(shí)無(wú)法獲取,致使一部分屬性值空缺出來(lái)。有些信息因?yàn)橐恍┤藶橐蛩囟鴣G失了。有些對(duì)象的某個(gè)或某些屬性是不可用的。如一個(gè)未婚者的配偶姓名。獲取這些信息的代價(jià)太大,從而未獲取數(shù)據(jù)??罩堤幚淼闹匾裕嚎罩档拇嬖?,造成了以下影響:系統(tǒng)丟失了大量的有用信息;系統(tǒng)的不確定性更加顯著,系統(tǒng)中的確定性成分更難把握;包含空值的數(shù)據(jù)會(huì)使挖掘過(guò)程陷入混亂,導(dǎo)致不可靠的輸出??罩堤幚淼姆椒ǎ阂弧h除元組將存在遺漏信息屬性值的對(duì)象(記錄)刪除,從而得到一個(gè)完備的信息表。這種方法在對(duì)象有多個(gè)屬性缺失值、被刪除的含缺失值的對(duì)
2、象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常有效的。然而這種方法丟棄了大量隱藏在這些對(duì)象中的信息。在信息表中對(duì)象很少的情況下會(huì)影響到結(jié)果的正確性,可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,從而引出錯(cuò)誤的結(jié)論。二、數(shù)據(jù)補(bǔ)齊這類方法是基于統(tǒng)計(jì)學(xué)原理用一定的值去填充空值,從而使信息表完備化。數(shù)據(jù)挖掘中常用的有以下幾種補(bǔ)齊方法:人工填寫(xiě)這個(gè)方法產(chǎn)生數(shù)據(jù)偏離最小,是填充效果最好的一種。當(dāng)數(shù)據(jù)規(guī)模很大、空值很多的時(shí)候,該方法是不可行的。特殊值填充將空值作為一種特殊的屬性值來(lái)處理,它不同于其他的任何屬性值。如所有的空值都用“unknown”填充。這樣將形成另一個(gè)概念,可能導(dǎo)致嚴(yán)重的數(shù)據(jù)偏離,一般不使用。平均值填充如果空值是數(shù)值
3、屬性,就使用該屬性在其他所有對(duì)象的取值的平均值來(lái)填充該缺失的屬性值.如果空值是非數(shù)值屬性,就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,用該屬性在其他所有對(duì)象出現(xiàn)頻率最高的值來(lái)補(bǔ)齊該缺失的屬性值。熱卡填充(就近補(bǔ)齊)對(duì)于一個(gè)包含空值的對(duì)象,熱卡填充法在完整數(shù)據(jù)中找到一個(gè)與它最相似的對(duì)象,然后用這個(gè)相似對(duì)象的值來(lái)進(jìn)行填充。不同的問(wèn)題選用不同的標(biāo)準(zhǔn)來(lái)對(duì)相似進(jìn)行判定。K最近鄰法先根據(jù)歐式距離或相關(guān)分析來(lái)確定距離具有缺失數(shù)據(jù)樣本最近的K個(gè)樣本,將這K個(gè)值加權(quán)平均來(lái)估計(jì)該樣本的缺失數(shù)據(jù)。使用所有可能的值填充這種方法是用空缺屬性值的所有可能的屬性取值來(lái)填充,能夠得到較好的補(bǔ)齊效果。但是當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時(shí),其計(jì)
4、算的代價(jià)很大,可能的測(cè)試方案很多?;貧w基于完整的數(shù)據(jù)集,建立回歸方程(模型)。對(duì)于包含空值的對(duì)象,將已知屬性值代入方程來(lái)估計(jì)未知屬性值,以此估計(jì)值來(lái)進(jìn)行填充。期望值最大化方法(EM)在缺失類型為隨機(jī)缺失的條件下,假設(shè)模型對(duì)于完整的樣本是正確的,通過(guò)觀測(cè)數(shù)據(jù)的邊際分布可以對(duì)未知參數(shù)進(jìn)行極大似然估計(jì)。它一個(gè)重要前提:適用于大樣本。有效樣本的數(shù)量足夠以保證ML估計(jì)值是漸近無(wú)偏的并服從正態(tài)分布。但是這種方法可能會(huì)陷入局部極值,收斂速度也不是很快,并且計(jì)算很復(fù)雜。三、不處理直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘。這類方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。異常值處理異常值,即在數(shù)據(jù)集中存在不合理的值,又稱離群點(diǎn)
5、。異常值的判別方法:34.1%34.1%簡(jiǎn)單統(tǒng)計(jì)分析對(duì)屬性值進(jìn)行一個(gè)描述性的統(tǒng)計(jì)(規(guī)定范圍),從而查看哪些值是不合理的(范圍以外的值)。2.3d原則若數(shù)據(jù)服從正態(tài)分布:根據(jù)正態(tài)分布的定義可知,距離平均值3d之外的概率為P(|x-u|3d)=0.003,這屬于極小概率事件,在默認(rèn)情況下我們可以認(rèn)定,距離超過(guò)平均值3d的樣本是不存在的。因此,當(dāng)樣本距離平均值大于3d,認(rèn)為該樣本為異常值。13.6%叩一n叩一1r一丿4e1-命那么可以計(jì)算每個(gè)維度的均值K2i1%0.1%假設(shè)門(mén)維的數(shù)據(jù)集合形如叫和方差附巧r.具體來(lái)說(shuō)對(duì)于丿e1一;f可以計(jì)算分=澤血_血7機(jī)在正態(tài)分布的假設(shè)下,如果育一個(gè)新的數(shù)據(jù)&可以計(jì)算概率卩門(mén)如下:根據(jù)概率值的大小可以判斷是否屬于異常值。疔)=空二叫(_氣牡.)3使用距離檢測(cè)多元離群點(diǎn)當(dāng)數(shù)據(jù)不服從正態(tài)分布時(shí),可以通過(guò)遠(yuǎn)離平均距離多
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 健康產(chǎn)業(yè)智能化醫(yī)療設(shè)備研發(fā)方案設(shè)計(jì)
- 《化學(xué)元素周期表制作技巧分享》
- 基于物聯(lián)網(wǎng)技術(shù)的農(nóng)產(chǎn)品供應(yīng)鏈管理優(yōu)化方案
- 洞身開(kāi)挖工程 現(xiàn)場(chǎng)質(zhì)量檢驗(yàn)報(bào)告單
- 農(nóng)業(yè)科技園區(qū)綜合開(kāi)發(fā)項(xiàng)目合同
- 獨(dú)家代理銷售合作協(xié)議
- 數(shù)字信號(hào)處理算法及應(yīng)用試題庫(kù)
- 季度財(cái)務(wù)分析報(bào)告展示
- 食物中能量的釋放課件-2024-2025學(xué)年北師大版生物七年級(jí)下冊(cè)
- 醫(yī)療器械技術(shù)創(chuàng)新合同
- 【MOOC】隧道工程-中南大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 2024解析:第九章液體壓強(qiáng)-基礎(chǔ)練(解析版)
- 第31課《為升學(xué)做準(zhǔn)備》課件心理健康六年級(jí)下冊(cè)北師大版
- 2024解析:第十章 浮力、阿基米德原理及其應(yīng)用-講核心(解析版)
- 華東師范大學(xué)《社會(huì)學(xué)概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年四川省公務(wù)員錄用考試《行測(cè)》真題及答案解析
- 防彈衣市場(chǎng)分析及投資價(jià)值研究報(bào)告
- 3.1《中國(guó)科學(xué)技術(shù)史序言(節(jié)選)》課件
- 生態(tài)旅游學(xué)課程設(shè)計(jì)
- 《管理研究方法》教學(xué)大綱
- 食材配送總體服務(wù)計(jì)劃方案
評(píng)論
0/150
提交評(píng)論