




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
數(shù)據(jù)分析如何處理數(shù)據(jù)缺失問題造成數(shù)據(jù)缺失的原因在各種實用的數(shù)據(jù)庫中,屬性值缺失的情況時常發(fā)全甚至是不可避免的。因此,在大多數(shù)情況下,信息系統(tǒng)是不完備的,或者者說存在某種程度的不完備。造成數(shù)據(jù)缺失的原因是多方面的,主要可能有以下幾種:1)有些信息暫時無法獲取。例如在醫(yī)療數(shù)據(jù)庫中,并非所有病人的所有臨床檢驗結(jié)果都能在給定的時間內(nèi)得到,就導致一部分屬性值空缺出來。又如在申請表數(shù)據(jù)中,對某些問題的反映依賴于對其他問題的回答。2)有些信息是被遺漏的??赡苁且驗檩斎霑r認為不重要、忘記填寫了或者對數(shù)據(jù)理解錯誤而遺漏,也可能是由于數(shù)據(jù)采集設備的故障、存儲介質(zhì)的故障、傳輸媒體的故障、一些人為因素等原于是丟失了。3)有些對象的某個或者某些屬性是不可用的。也就是說,對于這個對象來說,該屬性值是不存在的,如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。4)有些信息(被認為)是不重要的。如一個屬性的取值與給定語境是無關(guān)的,或者訓練數(shù)據(jù)庫的設計者并不在乎某個屬性的取值(稱為dont-carevalue)o5)獲取這些信息的代價太大。6)系統(tǒng)實時性能要求較高,即要求得到這些信息前迅速做出判斷或者決策。處理數(shù)據(jù)缺失的機制在對缺失數(shù)據(jù)進行處理前,了解數(shù)據(jù)缺失的機制和形式是十分必要的。將數(shù)據(jù)集中不含缺失值的變量(屬性)稱為徹底變量,數(shù)據(jù)集中含有缺失值的變量稱為不徹底變量,Little和Rubin定義了以下三種不同的數(shù)據(jù)缺失機制:1)徹底隨機缺失(MissingCompletelyatRandom,MCAR)□數(shù)據(jù)的缺失與不完全變量以及徹底變量都是無關(guān)的。2)隨機缺失(MissingatRandom,MAR)。數(shù)據(jù)的缺失僅僅依賴于徹底變量。3)非隨機、不可忽略缺失(NotMissingatRandom,NMAR,ornonignorable)o不徹底變量中數(shù)據(jù)的缺失依賴于不徹底變量本身,這種缺失是不可忽略的??罩嫡Z義對于某個對象的屬性值未知的情況,我們稱它在該屬性的取值為空值(nullvalue)o空值的來源有許多種,因此現(xiàn)實世界中的空值語義也比較復雜??偟恼f來,可以把空值分成以下三類:1)不存在型空值。即無法填入的值,或者稱對象在該屬性上無法取值,如一個未婚者的配偶姓名等。2)存在型空值。即對象在該屬性上取值是存在的,但暫時無法知道。一旦對象在該屬性上的實際值被確知以后,人們就可以用相應的實際值來取代原來的空值,使信息趨于徹底。存在型空值是不確定性的一種表征,該類空值的實際值在當前是未知的。但它有確定性的一面,諸如它的實際值確實存在,總是落在一個人們可以確定的區(qū)間內(nèi)。普通情況下,空值是指存在型空值。3)占位型空值。即無法確定是不存在型空值還是存在型空值,這要隨著時間的推移才干夠清晰,是最不確定的一類。這種空值除填充空位外,并不代表任何其他信息??罩堤幚淼闹匾院蛷碗s性數(shù)據(jù)缺失在許多研究領域都是一個復雜的問題。對數(shù)據(jù)挖掘來說,空值的存在,造成為了以下影響:首先,系統(tǒng)丟失了大量的實用信息;第二,系統(tǒng)中所表現(xiàn)出的不確定性更加顯著,系統(tǒng)中蘊涵的確定性成分更難把握;第三,包含空值的數(shù)據(jù)會使挖掘過程陷入混亂,導致不可靠的輸出。數(shù)據(jù)挖掘算法本身更致力于避免數(shù)據(jù)過分適合所建的模型,這一特性使得它難以通過自身的算法去很好地處理不完整數(shù)據(jù)。因止匕,空缺的數(shù)據(jù)需要通過專門的方法進行推導、填充等,以減少數(shù)據(jù)挖掘算法與實際應用之間的差距??罩堤幚矸椒ǖ姆治霰容^處理不完備數(shù)據(jù)集的方法主要有以下三大類:(一)刪除元組也就是將存在遺漏信息屬性值的對象(元組,記錄)刪除,從而得到一個完備的信息表。這種方法簡單易行,在對象有多個屬性缺失值、被刪除的含缺失值的對象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常有效的,類標號(假設是分類任務)缺少時通常使用。然而,這種方法卻有很大的局限性。它是以減少歷史數(shù)據(jù)來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些對象中的信息。在信息表中本來包含的對象很少的情況下,刪除少量對象就足以嚴重影響到信息表信息的客觀性和結(jié)果的正確性;當每一個屬性空值的百分比變化很大時,它的性能非常差。因此,當遺漏數(shù)據(jù)所占比例較大,特殊當遺漏數(shù)據(jù)非隨機分布時,這種方法可能導致數(shù)據(jù)發(fā)生偏離,從而引出錯誤的結(jié)論。(二)數(shù)據(jù)補齊這種方法是用一定的值去填充空值,從而使信息表完備化。通常基于統(tǒng)計學原理,根據(jù)決策表中其余對象取值的分布情況來對一個空值進行填充,譬如用其余屬性的平均值來進行補充等。數(shù)據(jù)挖掘中常用的有以下幾種補齊方法:(1)人工填寫(fillingmanually)由于最了解數(shù)據(jù)的還是用戶自己,因此這個方法產(chǎn)生數(shù)據(jù)偏離最小,可能是填充效果最好的一種。然而普通來說,該方法很費時,當數(shù)據(jù)規(guī)模很大、空值不少的時候,該方法是不可行的。(2)特殊值填充(TreatingMissingAttributevaluesasSpecialvalues)將空值作為一種特殊的屬性值來處理,它不同于其他的任何屬性值。如所有的空值都用“unknown”填充。這樣將形成另一個有趣的概念,可能導致嚴重的數(shù)據(jù)偏離,普通不推薦使用。(3)平均值填充(Mean/ModeCompleter)將信息表中的屬性分為數(shù)值屬性和非數(shù)值屬性來分別進行處理。如果空值是數(shù)值型的,就根據(jù)該屬性在其他所有對象的取值的平均值來填充該缺失的屬性值;如果空值是非數(shù)值型的,就根據(jù)統(tǒng)計學中的眾數(shù)原理,用該屬性在其他所有對象的取值次數(shù)最多的值(即浮現(xiàn)頻率最高的值)來補齊該缺失的屬性值。此外有一種與其相似的方法叫條件平均值填充法(ConditionalMeanCompleter)0在該方法中,缺失屬性值的補齊同樣是靠該屬性在其他對象中的取值求平均得到,但不同的是用于求平均的值并非從信息表所有對象中取,而是從與該對象具有相同決策屬性值的對象中取得。這兩種數(shù)據(jù)的補齊方法,其基本的出發(fā)點都是一樣的,以最大概率可能的取值來補充缺失的屬性值,只是在具體方法上有一點不同。與其他方法相比,它是用現(xiàn)存數(shù)據(jù)的多數(shù)信息來推測缺失值。(4)熱卡填充(Hotdeckimputation,或者就近補齊)對于一個包含空值的對象,熱卡填充法在完整數(shù)據(jù)中找到一個與它最相似的對象,然后用這個相似對象的值來進行填充。不同的問題可能會選用不同的標準來對相似進行判定。該方法概念上很簡單,且利用了數(shù)據(jù)間的關(guān)系來進行空值估計。這個方法的缺點在于難以定義相似標準,主觀因素較多。(5)K最近距離鄰法(K-meansclustering)先根據(jù)歐式距離或者相關(guān)分析來確定距離具有缺失數(shù)據(jù)樣本最近的K個樣本,將這K個值加權(quán)平均來估計該樣本的缺失數(shù)據(jù)。(6)使用所有可能的值填充(AssigningAllPossiblevaluesoftheAttribute)這種方法是用空缺屬性值的所有可能的屬性取值來填充,能夠得到較好的補齊效果。但是,當數(shù)據(jù)量很大或者遺漏的屬性值較多時,其計算的代價很大,可能的測試方案不少。另有一種方法,填補遺漏屬性值的原則是一樣的,不同的只是從決策相同的對象中嘗試所有的屬性值的可能情況,而不是根據(jù)信息表中所有對象進行嘗試,這樣能夠在一定程度上減小原方法的代價。(7)組合完整化方法(CombinatorialCompleter)這種方法是用空缺屬性值的所有可能的屬性取值來試,并從最終屬性的約簡結(jié)果中選擇最好的一個作為填補的屬性值。這是以約簡為目的的數(shù)據(jù)補齊方法,能夠得到好的約簡結(jié)果;但是,當數(shù)據(jù)量很大或者者遺漏的屬性值較多時,其計算的代價很大。另一種稱為條件組合完整化方法(ConditionalCombinatorialComplete),填補遺漏屬性值的原則是一樣的,不同的只是從決策相同的對象中嘗試所有的屬性值的可能情況,而不是根據(jù)信息表中所有對象進行嘗試。條件組合完整化方法能夠在一定程度上減小組合完整化方法的代價。在信息表包含不完整數(shù)據(jù)較多的情況下,可能的測試方案將巨增。(8)回歸(Regression)基于完整的數(shù)據(jù)集,建立回歸方程(模型)。對于包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充。當變量不是線性相關(guān)或者預測變量高度相關(guān)時會導致有偏差的估計。(9)期望值最大化方法(Expectationmaximization,EM)EM算法是一種在不徹底數(shù)據(jù)情況下計算極大似然估計或者后驗分布的迭代算法[43]。在每一迭代循環(huán)過程中交替執(zhí)行兩個步驟:E步(Excepctaionstep,期望步),在給定徹底數(shù)據(jù)和前一次迭代所得到的參數(shù)估計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湛河區(qū)噴淋塔施工方案
- 岸上種植施工方案
- 精神病培訓課件
- 大同樓房糾偏施工方案
- 急診科用藥安全管理
- 塌陷處理施工方案
- 花卉支架施工方案
- 交通安全教育第一
- 南京別墅裝飾施工方案
- 貴州2024公務員真題
- TD-T 1066-2021 不動產(chǎn)登記數(shù)據(jù)庫標準
- 把未來點亮歌詞打印版
- 污水處理設備調(diào)試方案
- 中國郵政集團公司人才發(fā)展規(guī)劃
- GB/T 4348.3-2012工業(yè)用氫氧化鈉鐵含量的測定1,10-菲啰啉分光光度法
- 靜配中心崗前培訓測試題附答案
- 《土壤污染與防治》教學課件
- 《公共營養(yǎng)師》課件
- 課標版高中《音樂鑒賞》學業(yè)水平測試題庫(含答案)
- 第13課 現(xiàn)代戰(zhàn)爭與不同文化的碰撞和交流 課件(17張PPT)
- DB32∕T 3158-2016 內(nèi)河水上服務區(qū)建設標準
評論
0/150
提交評論