數(shù)據(jù)中異常值的處理方法總_第1頁
數(shù)據(jù)中異常值的處理方法總_第2頁
數(shù)據(jù)中異常值的處理方法總_第3頁
數(shù)據(jù)中異常值的處理方法總_第4頁
數(shù)據(jù)中異常值的處理方法總_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)中異常值的檢測與處理方法1、 數(shù)據(jù)中的異常值各種類型的異常值:· 數(shù)據(jù)輸入錯誤:數(shù)據(jù)收集,記錄或輸入過程中出現(xiàn)的人為錯誤可能導(dǎo)致數(shù)據(jù)異常。例如:一個客戶的年收入是$ 100,000。數(shù)據(jù)輸入運算符偶然會在圖中增加一個零?,F(xiàn)在收入是100萬美元,是現(xiàn)在的10倍。顯然,與其他人口相比,這將是異常值。· 測量誤差: 這是最常見的異常值來源。這是在使用的測量儀器出現(xiàn)故障時引起的。例如:有10臺稱重機。其中9個是正確的,1個是錯誤的。有問題的機器上的人測量的重量將比組中其他人的更高/更低。在錯誤的機器上測量的重量可能導(dǎo)致異常值。· 實驗錯誤:異常值的另一個原因

2、是實驗錯誤。舉例來說:在七名跑步者的100米短跑中,一名跑步者錯過了專注于“出發(fā)”的信號,導(dǎo)致他遲到。因此,這導(dǎo)致跑步者的跑步時間比其他跑步者多。他的總運行時間可能是一個離群值。· 故意的異常值: 這在涉及敏感數(shù)據(jù)的自我報告的度量中通常被發(fā)現(xiàn)。例如:青少年通常會假報他們消耗的酒精量。只有一小部分會報告實際價值。這里的實際值可能看起來像異常值,因為其余的青少年正在假報消費量。· 數(shù)據(jù)處理錯誤:當(dāng)我們進行數(shù)據(jù)挖掘時,我們從多個來源提取數(shù)據(jù)。某些操作或提取錯誤可能會導(dǎo)致數(shù)據(jù)集中的異常值。· 抽樣錯誤:  例如,我們必須測量運動員的身高。錯誤

3、地,我們在樣本中包括一些籃球運動員。這個包含可能會導(dǎo)致數(shù)據(jù)集中的異常值。· 自然異常值: 當(dāng)異常值不是人為的(由于錯誤),這是一個自然的異常值。例如:保險公司的前50名理財顧問的表現(xiàn)遠遠高于其他人。令人驚訝的是,這不是由于任何錯誤。因此,進行任何數(shù)據(jù)挖掘時,我們會分別處理這個細分的數(shù)據(jù)。在以上的異常值類型中,對于房地產(chǎn)數(shù)據(jù),可能出現(xiàn)的異常值類型主要有:(1)數(shù)據(jù)輸入錯誤,例如房產(chǎn)經(jīng)紀人在發(fā)布房源信息時由于輸入錯誤,而導(dǎo)致房價、面積等相關(guān)信息的異常;在數(shù)據(jù)的提取過程中也可能會出現(xiàn)異常值,比如在提取出售二手房單價時,遇到“1室7800元/m2”,提取其中的數(shù)字結(jié)果為“17800

4、”,這樣就造成了該條案例的單價遠遠異常于同一小區(qū)的其他房源價格,如果沒有去掉這個異常值,將會導(dǎo)致整個小區(qū)的房屋單價均值偏高,與實際不符。(2)故意的異常值,可能會存在一些人,為了吸引別人來電詢問房源,故意把價格壓低,比如房屋單價為1元等等;(3)自然異常值。房價中也會有一些實際就是比普通住宅價格高很多的真實價格,這個就需要根據(jù)實際請況進行判斷,或在有需求時單獨分析。2、 數(shù)據(jù)中異常值的檢測各種類型的異常值檢測:1、 四分位數(shù)展布法方法1:大于下四分位數(shù)加1.5倍四分位距或小于上四分位數(shù)減1.5倍。把數(shù)據(jù)按照從小到大排序,其中25%為下四分位用fl表示,75%處為上四分位用fu表示。計算展布為:

5、,展布(間距)為上四分位數(shù)減去下四分位數(shù)。最小估計值(下截斷點):最大估計值(上截斷點):數(shù)據(jù)集中任意數(shù)用表示,上面的參數(shù)1.5不是絕對的,而是根據(jù)經(jīng)驗,但是效果很好。計算的是中度異常,參數(shù)等于3時,計算的是極度異常。我們把異常值定義為小于下截斷點,或者大于上截斷點的數(shù)據(jù)稱為異常值。優(yōu)點:與方差和極差相比,更加不容易受極端值的影響,且處理大規(guī)模數(shù)據(jù)效果很好。缺點:小規(guī)模處理略顯粗糙。而且只適合單個屬相的檢測。2、 識別不遵守分布或回歸方程的值方法:雙變量和多變量離群值通常使用影響力或杠桿指數(shù)或距離來衡量,像mahalanobis的距離和cooks d這樣的流行指數(shù)經(jīng)常被用來檢測異常值。在sas

6、中,我們可以使用proc univariate, proc sgplot,為了識別異常值和有影響力的觀測,我們還研究了student、cookd、rstudent等統(tǒng)計指標。馬氏距離法1:假設(shè)兩個變量xi和xj具有較高的正相關(guān)關(guān)系,某樣本xk在這兩個變量上的取值為(xki,xkj),若xki遠遠大于xi的平均值,而xkj卻遠小于xj的平均值,則這個樣品就很可能是異常的。檢驗這種異常品可以采用馬氏平方距離法。主要思想是:把n個p維樣品看作p維空間中的n個點,則第i個樣品所對應(yīng)的坐標為(xi1,xi2,xip)。樣品在空間中的相對位置可通過各樣品與總體重心(以各變量均值(x1,x2,xp)為坐標的

7、點)之間的距離來求得。設(shè)x(1),x(2),x(p)(其中(xi1,xi2,xip)為來自np中的n個樣品,其中則樣品x(i)到重心的馬氏平方距離定義為其中可由樣本協(xié)方差陣來估計容易證明,當(dāng)n較大時,近似服從其臨界值可由分布表來查出、當(dāng)時,將第i個樣品判為異常。穩(wěn)健馬氏距離:由于異常值的存在會顯著影響中心值和協(xié)方差矩陣的估計,使一般馬氏距離不能正確反映各個觀測的偏離程度。對于這類數(shù)據(jù),需要通過穩(wěn)健統(tǒng)計的方法,構(gòu)建穩(wěn)定的均值和協(xié)方差矩陣統(tǒng)計量。具體算法:設(shè)數(shù)據(jù)集為一個n行p列的矩陣xn×p,從中隨機抽取h個樣本數(shù)據(jù),并計算這個樣本數(shù)據(jù)的樣本均值t1和協(xié)方差矩陣s1。 然后通過計算這 n

8、個樣本數(shù)據(jù)到中心t1的馬氏距離,選出這n個距離中最小的h個,再通過這個h個樣本計算樣本均值t2和協(xié)方差矩陣s2。根據(jù)rousseeuw,van driessen(1999)可以證明 det(s2) det(s1),僅當(dāng)t1=t2時候等號成立。這樣子不斷迭代下去,當(dāng) det(sm) det(sm-1)停止迭代。這時再通過sm進行加權(quán)計算就能求出穩(wěn)健的協(xié)方差矩陣估計量。(1)確定h的值。h值在0.5n和n之間,一般來說h越小,它的抵抗異常值能力越強,但是最小不能少于50%,因為少于50%已經(jīng)不能分辨哪些是正常值哪些是異常值,所以作為一種折中,h默認是取h=0.75*n,而當(dāng)樣本數(shù)量比較少時,h一般

9、取0.9n。(2)如果h=n,這時計算的是整個樣本數(shù)據(jù)的均值向量和協(xié)方差矩陣,返回計算結(jié)果并停止。(3)從n個樣本中隨機抽取p+1個樣本構(gòu)造協(xié)方差矩陣,并計算其行列式,如果行列式為0,再隨機加入一個樣本直到行列式不為0,這時這個協(xié)方差矩陣為初始協(xié)方差矩陣s0,并利用隨機選擇出來的樣本計算初始樣本均值 t0。(4)當(dāng)n值較小(小于600)時,直接從t0、s0計算得到t1、s1并開始迭代,迭代兩次得到s3。重復(fù) 500 次這個過程,得到500個 s3,從中選取最小的10個繼續(xù)迭代直到收斂,返回最小行列式值的t和s,記為 tmcd和smcd。(5)當(dāng)n值較大時,由于每次迭代都要把n個樣本的距離計算一

10、次,非常耗時。所以把n個樣本分成幾個部分,例如當(dāng)n等于900 時,可以把n分成3個子樣本,每個子樣本包含300個 樣本。每個子樣本也是從各自 t0、s0計算得到 t1、s1并開始迭代,迭代兩次得到s3,每個子樣本重復(fù)500/3=167次,各自得到167個s3。每個子樣本從中選取最小的 10個s3。然后把子樣本合并重新合成一個整體樣本,并也把子樣本中的10個s3合并,得到30個s3。從這30個s3迭代兩次,保留最小的10個結(jié)果并繼續(xù)迭代下去直到收斂,返回最小行列式值的t和s,記為 tmcd和smcd。(6)根據(jù) tmcd和smcd計算每個樣本的穩(wěn)定馬氏距離d(i)。因為計算出來的距離值近似服從一

11、個自由度為p的卡方分布,假設(shè)置信度為97.5%時,當(dāng)時,記 wi=0否則wi=1.然后根據(jù) wi再 重 新 計 算。這時< 就是最后所求的穩(wěn)定協(xié)方差矩陣。在此穩(wěn)健協(xié)方差矩陣和穩(wěn)健樣本均值基礎(chǔ)上,便能得出穩(wěn)健的馬氏距離。 3、 cooks dcooks d:在你的數(shù)據(jù)資料中,如果某一條數(shù)據(jù)記錄被排除在外,那么由此造成的回歸系數(shù)變化有多大.顯然,如果這個值過大,那么就表明這條數(shù)據(jù)對回歸系數(shù)的計算產(chǎn)生了明顯的影響,這條數(shù)據(jù)就是異常數(shù)據(jù).4、 覆蓋法 方法:將所有不在5%到95%范圍的值當(dāng)作異常值。5、 標準偏差方法:偏離平均值三個或以上標準差的數(shù)據(jù)點。6、 因子方法:單變量或多變量異常值通常是

12、用影響因子、水平因子、距離因子其中的一個指標來判斷是否是異常值?;貧w系數(shù)的影響力。陳強,高級計量經(jīng)濟學(xué)及stata應(yīng)用,高等教育出版社。7、 簡單規(guī)則庫    |-從正常的行為中學(xué)習(xí)規(guī)則,測試數(shù)據(jù)若是沒有被任何規(guī)則包括則認為是異常            利用規(guī)則學(xué)習(xí)算法學(xué)習(xí)規(guī)則,例如重復(fù)增量修枝( ripper )、決策樹( decision trees )8、 聚類一種利用聚類檢測離群

13、點的方法是丟棄原理其他簇的小簇。這種方法可以與任何聚類技術(shù)一起使用,但是需要最小簇大小和小簇與其他簇之間距離的閾值,通常,該過程可以簡化為丟棄小于某個最小尺寸的所有簇。一種更系統(tǒng)的方法是,首先聚類所有對象,然后評估對象屬于簇的程度。對于基于原型的簇類,可以用對象到它的簇中心的距離來度量對象屬于簇的程度。更一般地,對于基于目標函數(shù)的聚類技術(shù),可以使用該目標函數(shù)來評估對象屬于任意簇的程度。特殊情況下,如果刪除一個對象導(dǎo)致該目標的顯著改進,則我們可以將該對象分類為離群點。優(yōu)點與缺點:有些聚類技術(shù)(如k均值)的時間和空間復(fù)雜度是線性或接近線性的,因而基于這種算法的離群點檢測技術(shù)可能是高度有效的。此外,

14、簇的定義通常是離群點的補,因此可能同時發(fā)現(xiàn)簇和離群點。缺點方面,產(chǎn)生的離群點集和它們的得分可能非常依賴所用的簇的個數(shù)和數(shù)據(jù)總離群點的存在性。例如,基于原型的算法產(chǎn)生的簇可能因數(shù)據(jù)中存在離群點而扭曲。聚類算法產(chǎn)生的簇的質(zhì)量對該算法產(chǎn)生的離群點的質(zhì)量影響非常大。每種聚類算法只適合特定的數(shù)據(jù)類型;因此,應(yīng)當(dāng)小心地選擇聚類算法。9、 貝葉斯依據(jù)已有的數(shù)據(jù),然后建立模型,得到正常的模型的特征庫,然后對新來的數(shù)據(jù)點進行判斷。從而認定其是否與整體偏離,如果偏離,那么這個就是異常值。10、 降維:主成分分析法基于矩陣分解的異常點檢測方法的關(guān)鍵思想是利用主成分分析去尋找那些違背了數(shù)據(jù)之間相關(guān)性的異常點。為了發(fā)現(xiàn)

15、這些異常點,基于主成分分析(pca)的算法會把原始數(shù)據(jù)從原始的空間投影到主成分空間,然后再把投影拉回到原始的空間。如果只使用第一主成分來進行投影和重構(gòu),對于大多數(shù)的數(shù)據(jù)而言,重構(gòu)之后的誤差是小的;但是對于異常點而言,重構(gòu)之后的誤差依然相對大。這是因為第一主成分反映了正常值的方差,最后一個主成分反映了異常點的方差。網(wǎng)址:11、 模型許多異常檢測技術(shù)首先建立一個數(shù)據(jù)模型。異常是那些同模型不能完美擬合的對象。三、數(shù)據(jù)中異常值的處理1、 刪除輸入錯誤,數(shù)據(jù)處理錯誤或異常值數(shù)目少,修剪兩端刪除異常值。2、 數(shù)據(jù)轉(zhuǎn)換或聚類轉(zhuǎn)換數(shù)據(jù)取對數(shù),減少極端值的變化。用決策樹直接處理帶有異常值的數(shù)據(jù),(決策樹不受異常和缺失的影響)或是對不同觀測值分配權(quán)重。3、 替換類似替換缺失值,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論