數(shù)據(jù)清洗離群點(diǎn)與異常值檢查97課件講解

上傳人：1*** IP屬地：陜西上傳時(shí)間：2025-01-13 格式：PPTX 頁數(shù)：34 大?。?63.13KB 積分：11.88 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩29頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)清洗——離群點(diǎn)與異常值檢查內(nèi)容圖示法（適合初學(xué)者）統(tǒng)計(jì)分析法判斷異常原因處理方法：刪除，均值代替，趨勢(shì)填補(bǔ)，糾偏等離群點(diǎn)、異常值離群點(diǎn)是一個(gè)數(shù)據(jù)對(duì)象，它顯著不同于其他數(shù)據(jù)對(duì)象，好像它是被不同的機(jī)制產(chǎn)生的一樣。有時(shí)也稱非離群點(diǎn)為“正常數(shù)據(jù)”，離群點(diǎn)為“異常數(shù)據(jù)”。離群點(diǎn)不同于噪聲數(shù)據(jù)。噪聲是被觀測(cè)變量的隨機(jī)誤差或方差。一般而言，噪聲在數(shù)據(jù)分析（包括離群點(diǎn)分析）中不是令人感興趣的。如在信用卡欺詐檢測(cè)，顧客的購買行為可以用一個(gè)隨機(jī)變量建模。一位顧客可能會(huì)產(chǎn)生某些看上去像“隨機(jī)誤差”或“方差”的噪聲交易，如買一份較豐盛的午餐，或比通常多要了一杯咖啡。這種交易不應(yīng)該視為離群點(diǎn)，否則信用卡公司將因驗(yàn)證太多的交易而付出沉重代價(jià)。因此，與許多其他數(shù)據(jù)分析和數(shù)據(jù)挖掘任務(wù)一樣，應(yīng)該在離群點(diǎn)檢測(cè)前就刪除噪聲。離群點(diǎn)檢測(cè)是有趣的，因?yàn)閼岩僧a(chǎn)生它們的機(jī)制不同于產(chǎn)生其他數(shù)據(jù)的機(jī)制。因此，在離群點(diǎn)檢測(cè)時(shí)，重要的是搞清楚為什么檢測(cè)到的離群點(diǎn)被某種其他機(jī)制產(chǎn)生。通常，在其余數(shù)據(jù)上做各種假設(shè)，并且證明檢測(cè)到的離群點(diǎn)顯著違反了這些假設(shè)。【原文鏈接：https:///mw21501050/article/details/75389267】離群點(diǎn)的類型一般而言，離群點(diǎn)可以分成三類：全局離群點(diǎn)、情境（或條件）離群點(diǎn)和集體離群點(diǎn)。全局離群點(diǎn)：在給定的數(shù)據(jù)集中，一個(gè)數(shù)據(jù)對(duì)象是全局離群點(diǎn)，如果它顯著的偏離數(shù)據(jù)集中的其他對(duì)象。全局離群點(diǎn)是最簡(jiǎn)單的一類離群點(diǎn)，大部分的離群點(diǎn)檢測(cè)方法都旨在找出全局離群點(diǎn)。原文鏈接：/mw21501050/article/details/75389267情境離群點(diǎn)：在給定的數(shù)據(jù)集中，一個(gè)數(shù)據(jù)對(duì)象是情境離群點(diǎn)，如果關(guān)于對(duì)象的特定情境，它顯著的偏離其他對(duì)象。情境離群點(diǎn)又稱為條件離群點(diǎn)，因?yàn)樗鼈儣l件的依賴于選定的情境。一般地，在情境離群點(diǎn)檢測(cè)中，所考慮數(shù)據(jù)對(duì)象的屬性劃分成兩組：?

情境屬性：數(shù)據(jù)對(duì)象的情境屬性定義對(duì)象的情境。一般為靜態(tài)屬性變量，如信用卡欺詐檢測(cè)中，不同年齡、不同地區(qū)的人消費(fèi)情況是不同的，先按照靜態(tài)屬性將人群大致分類，再檢測(cè)每一類的離群點(diǎn)，會(huì)得到更好的結(jié)果。?

行為屬性：定義對(duì)象的特征，并用來評(píng)估對(duì)象關(guān)于它所處的情境是否為離群點(diǎn)。在上述例子中，行為屬性可以是消費(fèi)金額，消費(fèi)頻率等情境離群點(diǎn)分析為用戶提供了靈活性，因?yàn)橛脩艨梢栽诓煌榫诚驴疾祀x群點(diǎn)，這在許多應(yīng)用中都是非常期望的。集體離群點(diǎn)：給定一個(gè)數(shù)據(jù)集，數(shù)據(jù)對(duì)象的一個(gè)子集形成集體離群點(diǎn)，如果這些對(duì)象作為整體顯著的偏離整個(gè)數(shù)據(jù)集。如一家供應(yīng)鏈公司，每天處理數(shù)以千計(jì)的訂單和出貨。如果一個(gè)訂單的出貨延誤，則可能不是離群點(diǎn)，因?yàn)榻y(tǒng)計(jì)表明延誤時(shí)常發(fā)生。然而，如果有一天有100個(gè)訂單延誤，則必須注意。這100個(gè)訂單整體來看，形成一個(gè)離群點(diǎn)，盡管如果單個(gè)考慮，它們每個(gè)或許都不是離群點(diǎn)。你可能需要更詳細(xì)地整個(gè)考察這些訂單，搞清楚出貨問題。與全局和情境離群點(diǎn)檢測(cè)不同，在集體離群點(diǎn)檢測(cè)中，不僅必須考慮個(gè)體對(duì)象的行為，而且還要考慮對(duì)象組群的行為。因此，為了檢測(cè)集體離群點(diǎn)，需要關(guān)于對(duì)象之間聯(lián)系的背景知識(shí)，如對(duì)象之間的距離或相似性測(cè)量方法。https:///mw21501050/article/details/75389267（如能否通過檢測(cè)集體離群點(diǎn)來劃分不同的運(yùn)行工況？）離群點(diǎn)檢測(cè)方法異常檢測(cè)也稱偏差檢測(cè)和例外挖掘。異常檢測(cè)的方法：（1）基于模型的技術(shù)：首先建立一個(gè)數(shù)據(jù)模型，異常是那些同模型不能完美擬合的對(duì)象；如果模型是簇的集合，則異常是不顯著屬于任何簇的對(duì)象；在使用回歸模型時(shí)，異常是相對(duì)遠(yuǎn)離預(yù)測(cè)值的對(duì)象。（2）基于鄰近度的技術(shù)：通?？梢栽趯?duì)象之間定義鄰近性度量，異常對(duì)象是那些遠(yuǎn)離其他對(duì)象的對(duì)象。（3）基于密度的技術(shù)：僅當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)才將其分類為離群點(diǎn)。常用方法主要有：人工操作——圖示法（可視化數(shù)據(jù)探索）統(tǒng)計(jì)學(xué)方法基于鄰近性的方法基于聚類的方法基于分類的方法挖掘情境離群點(diǎn)和集體離群點(diǎn)高維數(shù)據(jù)中的離群點(diǎn)檢測(cè)1、人工操作——圖示法（可視化數(shù)據(jù)探索）繪制參數(shù)的趨勢(shì)曲線或散點(diǎn)圖，觀察數(shù)據(jù)范圍，發(fā)現(xiàn)異常值（通常為0值、相對(duì)的巨正或巨負(fù)值——離群值）簡(jiǎn)潔、直觀適合低維度數(shù)據(jù)適合人工參與處理而非自動(dòng)處理示例0值異常；離群值；（示例錄像）非正常參數(shù)（數(shù)值不符合正常邏輯值要求）——依賴于初步數(shù)據(jù)處理及專業(yè)知識(shí)分析（如冷凍水進(jìn)出水溫差極小或極大）0值異常有2臺(tái)冷水機(jī)組運(yùn)行，但所有冷凍泵、冷卻泵運(yùn)行功率為0——異常！離群值非正常參數(shù)（異常值，含異常0值）2、統(tǒng)計(jì)學(xué)方法統(tǒng)計(jì)學(xué)方法是基于模型的方法，即為數(shù)據(jù)創(chuàng)建一個(gè)模型，并且根據(jù)對(duì)象擬合模型的情況來評(píng)估它們。大部分用于離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法都是構(gòu)建一個(gè)概率分布模型，并考慮對(duì)象有多大可能符合該模型。離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)的正常性做假定。假定數(shù)據(jù)集中的正常對(duì)象由一個(gè)隨機(jī)過程（生成模型）產(chǎn)生。因此，正常對(duì)象出現(xiàn)在該隨機(jī)模型的高概率區(qū)域中，而低概率區(qū)域中的對(duì)象是離群點(diǎn)。離群點(diǎn)的概率定義：離群點(diǎn)是一個(gè)對(duì)象，關(guān)于數(shù)據(jù)的概率分布模型，它具有低概率。離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法的一般思想是：學(xué)習(xí)一個(gè)擬合給定數(shù)據(jù)集的生成模型，然后識(shí)別該模型低概率區(qū)域中的對(duì)象，把它們作為離群點(diǎn)。有許多不同方法來學(xué)習(xí)生成模型，一般而言，根據(jù)如何指定和如何學(xué)習(xí)模型，離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法可以劃分成兩個(gè)主要類型：參數(shù)方法和非參數(shù)方法。參數(shù)方法假定正常的數(shù)據(jù)對(duì)象被一個(gè)以為參數(shù)的參數(shù)分布產(chǎn)生。該參數(shù)分布的概率密度函數(shù)給出對(duì)象被該分布產(chǎn)生的概率。該值越小，越可能是離群點(diǎn)。非參數(shù)方法并不假定先驗(yàn)統(tǒng)計(jì)模型，而是試圖從輸入數(shù)據(jù)確定模型。非參數(shù)方法的例子包括直方圖和核密度估計(jì)。優(yōu)缺點(diǎn)：（1）有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ)，當(dāng)存在充分的數(shù)據(jù)和所用的檢驗(yàn)類型的知識(shí)時(shí)，這些檢驗(yàn)可能非常有效；（2）對(duì)于多元數(shù)據(jù)，可用的選擇少一些，并且對(duì)于高維數(shù)據(jù)，這些檢測(cè)可能性很差。參數(shù)方法基于正態(tài)分布的一元離群點(diǎn)檢測(cè)：假定數(shù)據(jù)集由一個(gè)正態(tài)分布產(chǎn)生，然后，可以由輸入數(shù)據(jù)學(xué)習(xí)正態(tài)分布的參數(shù)，并把低概率的點(diǎn)識(shí)別為離群點(diǎn)。在正態(tài)分布的假定下，區(qū)域包含99.7%的數(shù)據(jù)，包含95.4%的數(shù)據(jù)，包含68.3%的數(shù)據(jù)。視具體情況而定，將其區(qū)域外的數(shù)據(jù)視為離群點(diǎn)。

這種直截了當(dāng)?shù)慕y(tǒng)計(jì)學(xué)離群點(diǎn)檢測(cè)方法也可以用于可視化。例如盒圖方法使用五數(shù)概況繪制一元輸入數(shù)據(jù)：最小的非離群點(diǎn)值（Min）、第一個(gè)四分位數(shù)（Q1）、中位數(shù)（Q2）、第三個(gè)四分位數(shù)（Q3）和最大的非離群點(diǎn)值（Max）。四分位數(shù)極差（IQR）定義為Q3-Q1。比Q1小1.5倍的IQR或者比Q3大1.5倍的IQR的任何對(duì)象都視為離群點(diǎn)，因?yàn)镼1-1.5*IQR和Q3+1.5*IQR之間的區(qū)域包含了99.3%的對(duì)象。多元離群點(diǎn)檢測(cè)（1）使用馬哈拉諾比斯距離檢測(cè)多元離群點(diǎn)。對(duì)于一個(gè)多元數(shù)據(jù)集，設(shè)為均值向量。對(duì)于數(shù)據(jù)集中的對(duì)象，從到的馬哈拉諾比斯（Mahalanobis）距離（其中S是協(xié)方差矩陣）是一元數(shù)據(jù)，可以對(duì)它進(jìn)行離群點(diǎn)檢測(cè)。如果被確定為離群點(diǎn)，則也被視為離群點(diǎn)。（2）使用統(tǒng)計(jì)量的多元離群點(diǎn)檢測(cè)。在正態(tài)分布的假設(shè)下，統(tǒng)計(jì)量可以用來捕獲多元離群點(diǎn)。對(duì)于對(duì)象，如果對(duì)象的統(tǒng)計(jì)量很大，則該對(duì)象是離群點(diǎn)。（3）使用混合參數(shù)分布。在許多情況下，數(shù)據(jù)是由正態(tài)分布產(chǎn)生的假定很有效。然而，當(dāng)實(shí)際數(shù)據(jù)很復(fù)雜時(shí)，這種假定過于簡(jiǎn)單。在這種情況下，假定數(shù)據(jù)是被混合參數(shù)分布產(chǎn)生的?；旌蠀?shù)分布中用期望最大化（EM）算法來估計(jì)參數(shù)。具體情況比較復(fù)雜，可以參考韓家煒的《數(shù)據(jù)挖掘：概念與技術(shù)》一書。

非參數(shù)方法在離群點(diǎn)檢測(cè)的非參數(shù)方法中，“正常數(shù)據(jù)”的模型從輸入數(shù)據(jù)學(xué)習(xí)，而不是假定一個(gè)先驗(yàn)。通常，非參數(shù)方法對(duì)數(shù)據(jù)做較少假定，因而在更多情況下都可以使用。使用直方圖檢測(cè)離群點(diǎn)，包括如下兩步：步驟1：構(gòu)造直方圖。盡管非參數(shù)方法并不假定任何先驗(yàn)統(tǒng)計(jì)模型，但是通常確實(shí)要求用戶提供參數(shù)，以便由數(shù)據(jù)學(xué)習(xí)。如指定直方圖的類型（等寬或等深的）和其他參數(shù)（如直方圖中的箱數(shù)或每個(gè)箱的大小）。與參數(shù)方法不同，這些參數(shù)并不指定數(shù)據(jù)分布的類型（如高斯分布）。步驟2：檢測(cè)離群點(diǎn)。為了確定一個(gè)對(duì)象是否是離群點(diǎn)，可以對(duì)照直方圖檢驗(yàn)它。在最簡(jiǎn)單的方法中，如果該對(duì)象落入直方圖的一個(gè)箱中，則該對(duì)象被看做是正常的，否則被認(rèn)為是離群點(diǎn)。對(duì)于更復(fù)雜的方法，可以使用直方圖賦予每個(gè)對(duì)象一個(gè)離群點(diǎn)得分。一般可以令對(duì)象的離群點(diǎn)得分為該對(duì)象落入的箱的容積的倒數(shù)。得分越高，表明是離群點(diǎn)的概率越大。使用直方圖作為離群點(diǎn)檢測(cè)的非參數(shù)模型的一個(gè)缺點(diǎn)是，很難選擇一個(gè)合適的箱尺寸。一方面，如箱尺寸太小，則由很多正常對(duì)象都會(huì)落入空的或稀疏箱，因而被誤識(shí)別為離群點(diǎn)。這將導(dǎo)致很高的假正例率或低精度。相反，如果箱尺寸太大，則離群點(diǎn)對(duì)象可能滲入某些頻繁的箱中，這將導(dǎo)致很高的假負(fù)例率或召回率。為了解決這些問題，使用核密度估計(jì)來估計(jì)數(shù)據(jù)的概率密度分布。具體參考韓家煒的《數(shù)據(jù)挖掘：概念與技術(shù)》。3、基于鄰近性的方法給定特征空間中的對(duì)象集，可以使用距離度量來量化對(duì)象間的相似性?；卩徑缘姆椒俣ǎ弘x群點(diǎn)對(duì)象與它最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對(duì)象與它們近鄰之間的鄰近性。有兩種類型的基于鄰近性的離群點(diǎn)檢測(cè)方法：基于距離的和基于密度的方法?；诰嚯x的離群點(diǎn)檢測(cè)方法考慮對(duì)象給定半徑的鄰域。一個(gè)對(duì)象被認(rèn)為是離群點(diǎn)，如果它的鄰域內(nèi)沒有足夠多的其他點(diǎn)。基于密度的離群點(diǎn)檢測(cè)方法考察對(duì)象和它近鄰的密度。這里，一個(gè)對(duì)象被識(shí)別為離群點(diǎn)，如果它的密度相對(duì)于它的近鄰低得多?；诰嚯x的離群點(diǎn)檢測(cè)對(duì)于待分析的數(shù)據(jù)對(duì)象集D，用戶可以指定一個(gè)距離閾值r來定義對(duì)象的合理鄰域。對(duì)于每個(gè)對(duì)象o，可以考察o的r-鄰域中的其他對(duì)象的個(gè)數(shù)。如果D中大多數(shù)對(duì)象都遠(yuǎn)離o，即都不在o的r-鄰域中，則o可以被視為一個(gè)離群點(diǎn)。當(dāng)數(shù)據(jù)集很大時(shí)，該方法的開銷很大。為了改進(jìn)性能，可以用基于網(wǎng)格的方法來實(shí)現(xiàn)。具體見韓家煒《數(shù)據(jù)挖掘》一書。原文鏈接：https:///mw21501050/article/details/75389267

基于密度的離群點(diǎn)檢測(cè)基于距離的離群點(diǎn)檢測(cè)從全局考慮數(shù)據(jù)集。由于以下兩個(gè)原因，這種離群點(diǎn)被看成“全局離群點(diǎn)”：

例如，一個(gè)-離群點(diǎn)至少遠(yuǎn)離（用參數(shù)r定量）數(shù)據(jù)集中的對(duì)象。換言之，這種離群點(diǎn)遠(yuǎn)離數(shù)據(jù)的大多數(shù)。為了檢測(cè)基于距離的離群點(diǎn)，需要兩個(gè)距離參數(shù)，它們用于每個(gè)離群點(diǎn)對(duì)象。

現(xiàn)實(shí)世界的許多數(shù)據(jù)集都呈現(xiàn)更復(fù)雜的結(jié)構(gòu)，那里對(duì)象可能關(guān)于其局部鄰域，而不是關(guān)于整個(gè)數(shù)據(jù)分布而被視為離群點(diǎn)。如下圖，基于距離的離群點(diǎn)檢測(cè)方法不能捕獲像o1和o2這樣的局部離群點(diǎn)。那么，如何確切地定義如圖所示的局部離群點(diǎn)？這里關(guān)鍵的思想是，需要把對(duì)象周圍的密度與對(duì)象鄰域周圍的密度進(jìn)行比較?；诿芏鹊碾x群點(diǎn)檢測(cè)方法的基本假定是：非離群點(diǎn)對(duì)象周圍的密度與其鄰域周圍的密度類似，而離群點(diǎn)對(duì)象周圍的密度顯著不同于其鄰域周圍的密度。4、基于聚類的方法基于聚類的方法通過考察對(duì)象與簇之間的關(guān)系檢測(cè)離群點(diǎn)。直觀地，離群點(diǎn)是一個(gè)對(duì)象，它屬于小的偏遠(yuǎn)簇，或不屬于任何簇，這導(dǎo)致三種基于聚類的離群點(diǎn)檢測(cè)的一般方法?？紤]一個(gè)對(duì)象：該對(duì)象屬于某個(gè)簇嗎？如果不，則它被識(shí)別為離群點(diǎn)。該對(duì)象與最近的簇之間的距離很遠(yuǎn)嗎？如果是，則它是離群點(diǎn)。該對(duì)象是小簇或稀疏簇的一部分嗎?如果是，則該簇中的所有對(duì)象都是離群點(diǎn)。例1把離群點(diǎn)檢測(cè)為不屬于任何簇的對(duì)象。如圖1所示，使用基于密度的聚類方法，如DBSCAN,注意到黑色點(diǎn)都屬于簇，白色點(diǎn)a不屬于任何簇，因而被認(rèn)為是離群點(diǎn)。圖1對(duì)象a是離群點(diǎn)，因?yàn)?/p>

它不屬于任何簇例2使用到最近簇的距離的基于聚類的離群點(diǎn)檢測(cè)。如圖2所示，使用k-均值聚類方法，可以把圖2中的數(shù)據(jù)點(diǎn)劃分成3個(gè)簇，如圖中不同符號(hào)所示，每個(gè)簇中心用“+”標(biāo)記。對(duì)于每個(gè)對(duì)象o，都可以根據(jù)該對(duì)象與最近簇中心的距離，賦予該對(duì)象一個(gè)離群點(diǎn)得分。假設(shè)到o的最近中心為c,則o與c之間的距離為dist(o,c)，c與指派到c的對(duì)象之間的平均距離為L(zhǎng),比率度量與平均值的差異程度。在圖2中，點(diǎn)a,b和c都相對(duì)遠(yuǎn)離它們的對(duì)應(yīng)中心，因而被懷疑是離群點(diǎn)。圖2離群點(diǎn)（a,b,c）都（關(guān)于簇中心）遠(yuǎn)離距它們最近的簇例3檢測(cè)小簇中的離群點(diǎn)迄今為止我們看到的每種方法都只檢測(cè)個(gè)體離群點(diǎn)，因?yàn)樗鼈円淮伟岩粋€(gè)對(duì)象與數(shù)據(jù)集中的簇進(jìn)行比較。然而，在大型數(shù)據(jù)中，一些離群點(diǎn)可能是類似的，并且形成一個(gè)小簇。例如，在入侵檢測(cè)中，使用相同手段攻擊系統(tǒng)的黑客可能形成一個(gè)簇，迄今為止所討論的方法可能被這種離群點(diǎn)所欺騙。為了解決這一問題，第三種基于聚類的離群點(diǎn)檢測(cè)方法識(shí)別小簇或稀疏簇，并宣告這些簇中的對(duì)象也是離群點(diǎn)。這種方法的一個(gè)例子是FindCBLOF算法，其方法如下：（1）找出數(shù)據(jù)集中的簇，并把它們按大小降序排列。該算法假定大部分?jǐn)?shù)據(jù)點(diǎn)都不是離群點(diǎn)，它使用一個(gè)參數(shù)來區(qū)別大簇和小簇。任何至少包含數(shù)據(jù)集中百分之（如，=90%）數(shù)據(jù)點(diǎn)的簇都被視為大簇，而其余的簇被看成小簇。（2）

對(duì)于每個(gè)數(shù)據(jù)點(diǎn)賦予基于簇的局部離群點(diǎn)因子（CBLOF），對(duì)于屬于大簇的點(diǎn)，它的CBLOF是簇的大小和該點(diǎn)與簇的相似性的乘積。對(duì)于屬于小簇的點(diǎn)，它的CBLOF用小簇的大小和該點(diǎn)與最近的大簇的相似性的乘積計(jì)算。CBLOF用統(tǒng)計(jì)學(xué)方法定義點(diǎn)和簇之間的相似性，代表點(diǎn)屬于簇的概率。該值越大，點(diǎn)與簇越相似。CBLOF值可以檢測(cè)遠(yuǎn)離任何簇的離群點(diǎn)?；诰垲惖碾x群點(diǎn)檢測(cè)方法具有如下優(yōu)點(diǎn)：它們可以檢測(cè)離群點(diǎn)，而不要求數(shù)據(jù)是有標(biāo)號(hào)的，即它們以無監(jiān)督方式檢測(cè)。它們對(duì)許多類型的數(shù)據(jù)都有效。簇可以看成是數(shù)據(jù)的概括，一旦得到簇，基于聚類的方法只需要把對(duì)象與簇進(jìn)行比較，以確定該對(duì)象是否是離群點(diǎn)，這一過程通常很快，因?yàn)榕c對(duì)象總數(shù)相比，簇的個(gè)數(shù)通常很小?；诰垲惖姆椒ǖ娜秉c(diǎn)是：它的有效性高度依賴于所使用的聚類方法。這些方法對(duì)于離群點(diǎn)檢測(cè)而言可能不是最優(yōu)的。對(duì)于大型數(shù)據(jù)集，聚類方法通常開銷很大，這可能成為一個(gè)瓶頸。5、基于分類的方法如果訓(xùn)練數(shù)據(jù)具有類標(biāo)號(hào)，則離群點(diǎn)檢測(cè)可以看做分類問題。基于分類的離群點(diǎn)檢測(cè)方法的一般思想是，訓(xùn)練一個(gè)可以區(qū)分“正?！睌?shù)據(jù)和離群點(diǎn)的分類模型?；诜诸惖碾x群點(diǎn)檢測(cè)方法通常使用一類模型（單分類模型SVDD），即構(gòu)造一個(gè)僅描述正常類的分類器，不屬于正常類的任何樣本都被視為離群點(diǎn)?；诜诸惖姆椒ê突诰垲惖姆椒梢月?lián)合使用，以半監(jiān)督的方式檢測(cè)離群點(diǎn)。例通過半監(jiān)督學(xué)習(xí)檢測(cè)離群點(diǎn)：如上圖所示，其中對(duì)象被標(biāo)記為“正常”或“離群點(diǎn)”，或者沒有標(biāo)號(hào)。使用基于聚類的方法，發(fā)現(xiàn)一個(gè)大簇C和一個(gè)小簇C1。因?yàn)镃中的某些對(duì)象攜帶了標(biāo)號(hào)“正?！?，因此可以把該簇的所有對(duì)象（包括沒有標(biāo)號(hào)的對(duì)象）都看做正常對(duì)象。在離群點(diǎn)檢測(cè)中，使用這個(gè)簇的一類模型來識(shí)別離群點(diǎn)。類似的，因?yàn)榇谻1中的某些對(duì)象攜帶標(biāo)號(hào)“離群點(diǎn)”，因此宣布C1中的所有對(duì)象都是離群點(diǎn)。未落入C模型中的任何對(duì)象（如a）也被視為離群點(diǎn)。6、挖掘情境離群點(diǎn)和集體離群點(diǎn)與一般的離群點(diǎn)檢測(cè)相比，識(shí)別情境離群點(diǎn)需要分析對(duì)應(yīng)的情境信息。情境離群點(diǎn)檢測(cè)方法可以根據(jù)情境是否可以清楚地識(shí)別而分成兩類。把情境離群點(diǎn)檢測(cè)轉(zhuǎn)換成傳統(tǒng)的離群點(diǎn)檢測(cè)這類方法適用于情境可以被清楚識(shí)別的情況，其基本思想是把情境離群點(diǎn)檢測(cè)問題轉(zhuǎn)換成典型的離群點(diǎn)檢測(cè)問題。具體地說，對(duì)于給定的數(shù)據(jù)對(duì)象，用兩步來評(píng)估該對(duì)象是否是離群點(diǎn)。第一步，使用對(duì)象的情境屬性識(shí)別對(duì)象的情境。第二步，使用一種傳統(tǒng)的離群點(diǎn)檢測(cè)方法，估計(jì)該對(duì)象的離群點(diǎn)得分。關(guān)于情境對(duì)正常行為建模在某些應(yīng)用中，清楚地把數(shù)據(jù)劃分成情境是不方便的或不可行的。這時(shí)，可以關(guān)于情境對(duì)正常行為建模。使用一個(gè)訓(xùn)練數(shù)據(jù)集，這種方法訓(xùn)練一個(gè)模型，關(guān)于情境屬性的值，預(yù)測(cè)期望的行為屬性值。然后，為了確定一個(gè)數(shù)據(jù)對(duì)象是否是情境離群點(diǎn)，可以在該對(duì)象的情境屬性上使用該模型。如果該對(duì)象的行為屬性值顯著地偏離該模型的預(yù)測(cè)值，則該對(duì)象被宣布為情境離群點(diǎn)。通過使用連接情境和行為的預(yù)測(cè)模型，這些方法避免直接識(shí)別具體情境。許多分類和預(yù)測(cè)技術(shù)都可以用來構(gòu)建這種模型，如回歸、馬爾科夫模型和有窮狀態(tài)自動(dòng)機(jī)等等。挖掘集體離群點(diǎn)與情境離群點(diǎn)檢測(cè)一樣，集體離群點(diǎn)檢測(cè)方法也可以劃分為兩類：第一類方法把問題歸結(jié)為傳統(tǒng)的離群點(diǎn)檢測(cè)。其策略是識(shí)別結(jié)構(gòu)單元，把每個(gè)結(jié)構(gòu)單元（例如，子序列、時(shí)間序列片段、局部區(qū)域或子圖）看做是一個(gè)數(shù)據(jù)對(duì)象，并提取特征。這樣，集體離群點(diǎn)檢測(cè)問題就轉(zhuǎn)換成在使用提取的特征構(gòu)造的“結(jié)構(gòu)化對(duì)象”集上的離群點(diǎn)檢測(cè)。一個(gè)結(jié)構(gòu)單元代表原數(shù)據(jù)集中的一組對(duì)象，如果該結(jié)構(gòu)單元顯著地偏離提取的特征空間中的期望趨勢(shì)，則它是一個(gè)集體離群點(diǎn)。

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)清洗離群點(diǎn)與異常值檢查97課件講解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)清洗離群點(diǎn)與異常值檢查97課件講解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔