離群點(diǎn)分析ppt課件_第1頁(yè)
離群點(diǎn)分析ppt課件_第2頁(yè)
離群點(diǎn)分析ppt課件_第3頁(yè)
離群點(diǎn)分析ppt課件_第4頁(yè)
離群點(diǎn)分析ppt課件_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Page 1離群點(diǎn)分析Page 2主要內(nèi)容Page 3離群點(diǎn)簡(jiǎn)介n 1.什么是離群點(diǎn)?什么是離群點(diǎn)?n 在樣本空間中,與其他樣本點(diǎn)的普通行為或特征不一致的在樣本空間中,與其他樣本點(diǎn)的普通行為或特征不一致的點(diǎn),我們稱為離群點(diǎn)點(diǎn),我們稱為離群點(diǎn)n 2.離群點(diǎn)的來(lái)源離群點(diǎn)的來(lái)源n 數(shù)據(jù)來(lái)源于異類,如欺詐、入侵、不尋常的實(shí)驗(yàn)結(jié)果數(shù)據(jù)來(lái)源于異類,如欺詐、入侵、不尋常的實(shí)驗(yàn)結(jié)果等等n 數(shù)據(jù)變量固有變化引起,如顧客的新的購(gòu)買(mǎi)方式、基數(shù)據(jù)變量固有變化引起,如顧客的新的購(gòu)買(mǎi)方式、基因突變等因突變等n 數(shù)據(jù)丈量和搜集誤差數(shù)據(jù)丈量和搜集誤差n 3.為什么要進(jìn)展離群點(diǎn)檢測(cè)?為什么要進(jìn)展離群點(diǎn)檢測(cè)?n “一個(gè)人的噪聲也

2、許是其他人的信號(hào)一個(gè)人的噪聲也許是其他人的信號(hào)Page 4離群點(diǎn)簡(jiǎn)介n 4.離群點(diǎn)檢測(cè)中的困難n 1在時(shí)間序列樣本中發(fā)現(xiàn)離群點(diǎn)普通比較困難,由于這些離群點(diǎn)能夠會(huì)隱藏在趨勢(shì)、季節(jié)性或者其他變化中;n 2對(duì)于維度為非數(shù)值型的樣本,在檢測(cè)過(guò)程中需求多加思索,比如對(duì)維度進(jìn)展預(yù)處置等;n 3針對(duì)多維數(shù)據(jù),離群點(diǎn)的異常特征能夠是多維度的組合,而不是單一維度就能表達(dá)的。n 5.離群點(diǎn)檢測(cè)的主要運(yùn)用領(lǐng)域入侵檢測(cè)入侵檢測(cè)欺詐檢測(cè)欺詐檢測(cè)醫(yī)療醫(yī)療公共衛(wèi)生公共衛(wèi)生生態(tài)系統(tǒng)生態(tài)系統(tǒng)Page 5四種常見(jiàn)的離群點(diǎn)檢測(cè)方法Page 6四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 一.基于統(tǒng)計(jì)的離群點(diǎn)檢測(cè)n 離群點(diǎn)的概率定義:離群點(diǎn)是一個(gè)對(duì)象

3、,關(guān)于數(shù)據(jù)的概率分布模型,它具有低概率。n 基于統(tǒng)計(jì)的離群點(diǎn)檢測(cè)的思緒Page 7四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 不調(diào)和檢驗(yàn)的兩個(gè)過(guò)程:任務(wù)假設(shè)、備擇假設(shè)n 假設(shè)某個(gè)樣本點(diǎn)不符合任務(wù)假設(shè),那么我們以為它是離群點(diǎn)。假設(shè)它符合備選假設(shè),我們以為它是符合某一備選假設(shè)分布的離群點(diǎn)。n 實(shí)例:n 例如我們?cè)O(shè)兒童上學(xué)的詳細(xì)年齡總體服從正態(tài)分布,所給的數(shù)據(jù)集是某地域隨機(jī)選取的開(kāi)場(chǎng)上學(xué)的20名兒童的年齡詳細(xì)的年齡特征如下:n 年齡=6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12n 那么.相應(yīng)的統(tǒng)計(jì)參數(shù)是:均值=9.1; 規(guī)范差=2.3。n 假設(shè)選擇數(shù)據(jù)分布的閾值為:閾

4、值=均值2規(guī)范差n 故在4.5 ,13.7區(qū)間以外的數(shù)據(jù)都是潛在的離群點(diǎn),n 將最大值取整為13。所以年齡為14的孩子能夠是個(gè)例外。而且由均值可知,此地的 孩子普遍上學(xué)較晚.教育部門(mén)以后可據(jù)此作一些政策上的改良。Page 8四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 基于統(tǒng)計(jì)的離群點(diǎn)檢測(cè)的優(yōu)缺陷Page 9四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 二.基于間隔的離群點(diǎn)檢測(cè)基于基于間間隔的離群點(diǎn)定隔的離群點(diǎn)定義義: 假假設(shè)數(shù)設(shè)數(shù)據(jù)集合據(jù)集合D D中,中,對(duì)對(duì)象至少有象至少有pctpct部分部分與對(duì)與對(duì)象象o o的的間間隔大于隔大于dmindmin,那,那么稱對(duì)么稱對(duì)象象o o是以是以pctpct和和dmindmin為參數(shù)為參

5、數(shù)的基于的基于間間隔的離群點(diǎn)。即隔的離群點(diǎn)。即DBDBpctpct,dmindmin離群點(diǎn)離群點(diǎn)三三種種有效的有效的發(fā)發(fā)掘基于掘基于間間隔的離群點(diǎn)隔的離群點(diǎn)檢測(cè)檢測(cè)的算法:的算法: 1 1基于索引的算法基于索引的算法 2 2嵌套循嵌套循環(huán)環(huán)算法算法 3 3基于基于單單元的算法元的算法Page 10四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 基于間隔和(distance sum-based, DS)檢測(cè)算法:n與DB (p, d)孤立點(diǎn)一樣,DS孤立點(diǎn)發(fā)掘算法運(yùn)用同樣的間隔公式,如絕對(duì)間隔或歐式間隔,但不根據(jù)p和d來(lái)斷定孤立點(diǎn),而是先計(jì)算數(shù)據(jù)對(duì)象兩兩之間的間隔,再計(jì)算每個(gè)對(duì)象與其他對(duì)象的間隔之和。n設(shè)M為用戶期

6、望的孤立點(diǎn)個(gè)數(shù),那么間隔之和最大的前M個(gè)對(duì)象即為要發(fā)掘的孤立點(diǎn),這樣可消除用戶設(shè)置參數(shù)p和d的需求。Page 11四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 案例:孤立點(diǎn)發(fā)掘在高等學(xué)??萍冀y(tǒng)計(jì)數(shù)據(jù)分析中的運(yùn)用n 孤立點(diǎn)實(shí)驗(yàn)數(shù)據(jù)源:選自全國(guó)普通高等學(xué)校科技統(tǒng)計(jì)數(shù)據(jù)上報(bào)基表中的數(shù)據(jù)n 甘肅省2019年科技統(tǒng)計(jì)上報(bào)數(shù)據(jù)中的一所高校數(shù)據(jù)n n 對(duì)基表中的數(shù)據(jù),如選取科技人員職稱和學(xué)歷作為最終測(cè)試對(duì)象,因職稱只需院士、正高、副高、講師、助教和其它職稱共六種職稱,而學(xué)歷只需高中以下、中專、大專、本科、碩士和博士共六種職稱,職稱和學(xué)歷跨度小,檢測(cè)出來(lái)的孤立點(diǎn)孤立程度相對(duì)較低,應(yīng)選取跨度較大的出生年月作為測(cè)試對(duì)象。選取三個(gè)目

7、的:出生年月、學(xué)位和職稱作為檢測(cè)屬性。Page 12四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 實(shí)驗(yàn)及結(jié)果分析n 用DS算法時(shí),取M=20,算法前往間隔的值最大的20個(gè)教師信息如表1所示。n 經(jīng)過(guò)分析,可以發(fā)現(xiàn)孤立點(diǎn)數(shù)據(jù)中存在兩種典型的孤立點(diǎn)類別:n (1)孤立點(diǎn)數(shù)據(jù)遠(yuǎn)遠(yuǎn)偏離于正常值的范圍n 序號(hào)1-4 噪聲n (2)孤立點(diǎn)數(shù)據(jù)偏離于正常值的范圍n 能夠是錄入錯(cuò)誤,能夠是真實(shí)數(shù)據(jù)序號(hào)出生年月學(xué)歷職稱1198907大學(xué)本科正高級(jí)2198510碩士研究生副高級(jí)3196008博士研究生初級(jí)4197909??聘备呒?jí)5196002博士研究生中級(jí)6195511博士研究生副高級(jí)7198109碩士研究生副高級(jí)8197408博

8、士研究生初級(jí)9198109碩士研究生副高級(jí)10198206博士研究生副高級(jí)11198301博士研究生副高級(jí)12195706博士研究生副高級(jí)13195712博士研究生副高級(jí)14197302碩士研究生正高級(jí)15197211大學(xué)本科正高級(jí)16195001碩士研究生正高級(jí)17197304碩士研究生副高級(jí)18195011碩士研究生副高級(jí)19196911碩士研究生初級(jí)20197002碩士研究生初級(jí)Page 13四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 三.基于密度的離群點(diǎn)檢測(cè)n 部分離群點(diǎn):一個(gè)對(duì)象相對(duì)于它的部分鄰域,特別是關(guān)于部分密度,它是遠(yuǎn)離的。 圖1是二維數(shù)據(jù)集,圖中包含兩個(gè)簇C1 ,C2和兩個(gè)離群點(diǎn)o1 , o

9、2,其中C1稠密,C2稀疏。 o2是全局離群點(diǎn),o1是部分離群點(diǎn)。根據(jù)上述定義及發(fā)掘算法,o2離群點(diǎn)易于發(fā)掘,但o1卻難以發(fā)掘,假設(shè)為了發(fā)掘出o1;而調(diào)整參數(shù),那么C1中的大多數(shù)數(shù)據(jù)點(diǎn)都將被標(biāo)識(shí)為離群點(diǎn)。Page 14四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 基于密度的離群點(diǎn)檢測(cè)根本概念基于密度的離群點(diǎn)檢測(cè)根本概念n 1、對(duì)象、對(duì)象p的第的第k間隔間隔n 對(duì)于正整數(shù)對(duì)于正整數(shù)k,對(duì)象對(duì)象p的第的第k間隔可記作間隔可記作k-distance(p)。n 在樣本空間中,存在對(duì)象在樣本空間中,存在對(duì)象o,它與對(duì)象,它與對(duì)象p之間的間隔記之間的間隔記作作d(p,o)。假設(shè)滿足以下兩個(gè)條件,我們那么以為。假設(shè)滿足以下兩

10、個(gè)條件,我們那么以為k-distance(p)= d(p,o):n 1 在樣本空間中,至少存在在樣本空間中,至少存在k個(gè)對(duì)象個(gè)對(duì)象q,使得,使得d(p,q)= d(p,o);n 2 在樣本空間中,至多存在在樣本空間中,至多存在k-1個(gè)對(duì)象個(gè)對(duì)象q,使得,使得d(p,q)d(p,o)。 顯而易見(jiàn),假設(shè)運(yùn)用k-distance(p)來(lái)量化對(duì)象p的部分空間區(qū)域范圍,那么對(duì)于對(duì)象密度較大的區(qū)域,k-distance(p)值較小,而對(duì)象密度較小的區(qū)域,k-distance(p)值較大。Page 15四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 2、對(duì)象p的第k間隔領(lǐng)域k-distance neighborhood of

11、an object pn知對(duì)象p的第k間隔,那么,與對(duì)象p之間間隔小于等于k-distance(p)的對(duì)象集合稱為對(duì)象p的第k間隔領(lǐng)域,記作:Nkdis(p)(p)n該領(lǐng)域其實(shí)是以p為中心,k-distance(p)為半徑的區(qū)域內(nèi)一切對(duì)象的集合不包括P本身。由于能夠同時(shí)存在多個(gè)第k間隔的數(shù)據(jù),因此該集合至少包括k個(gè)對(duì)象。n可以想象,離群度較大的對(duì)象Nkdis(p)(p)范圍往往比較大,而離群度小的對(duì)象Nkdis(p)(p)范圍往往比較小。對(duì)于同一個(gè)類簇中的對(duì)象來(lái)說(shuō),它們涵蓋的區(qū)域面積大致相當(dāng)。Page 16四種常見(jiàn)的離群點(diǎn)檢測(cè)方法3 3、對(duì)對(duì)象象p p相相對(duì)對(duì)于于對(duì)對(duì)象象o o的可的可達(dá)間達(dá)間

12、隔隔公式:公式: 也就是也就是說(shuō)說(shuō),假,假設(shè)對(duì)設(shè)對(duì)象象p p遠(yuǎn)遠(yuǎn)離離對(duì)對(duì)象象o o,那,那么兩么兩者之者之間間的可的可達(dá)間達(dá)間隔就是隔就是它們它們之之間間的的實(shí)踐間實(shí)踐間隔,但是假隔,但是假設(shè)它們?cè)O(shè)它們足足夠夠近即近即p p在在o o的的k k間間隔隔鄰鄰域域內(nèi)內(nèi),那,那么實(shí)踐間么實(shí)踐間隔用隔用o o的的k k間間隔替代。隔替代。4 4、部分可、部分可達(dá)達(dá)密度密度 對(duì)對(duì)象象p p的部分可的部分可達(dá)達(dá)密度定密度定義為義為基于基于p p的的k-k-近近鄰鄰的平均可的平均可達(dá)達(dá)密度的密度的倒倒數(shù)數(shù)。 根據(jù)部分可根據(jù)部分可達(dá)達(dá)密度定密度定義義,假,假設(shè)對(duì)設(shè)對(duì)象象p p的周的周圍圍分布稀疏,即分布稀疏,

13、即對(duì)對(duì)象象p p遠(yuǎn)遠(yuǎn)離本人的離本人的k-k-近近鄰鄰,那,那么么p p與與其其k-k-近近鄰鄰的平均可的平均可達(dá)間達(dá)間隔隔較較大,大,而其部分可而其部分可達(dá)達(dá)密度密度會(huì)會(huì)相相應(yīng)應(yīng)比比較較小。小。Page 17四種常見(jiàn)的離群點(diǎn)檢測(cè)方法5 5、部分離群點(diǎn)因子、部分離群點(diǎn)因子LOFLOF它它代表了代表了p p為為離群點(diǎn)的程度。離群點(diǎn)的程度。公式:公式:假假設(shè)對(duì)設(shè)對(duì)象象p p的離群程度的離群程度較較大,那大,那么它么它k k領(lǐng)領(lǐng)域中大多域中大多數(shù)數(shù)是離是離對(duì)對(duì)象象p p較遠(yuǎn)較遠(yuǎn)且且處處于某一于某一個(gè)類個(gè)類簇的簇的數(shù)數(shù)據(jù)據(jù)對(duì)對(duì)象,那象,那么這么這些些數(shù)數(shù)據(jù)據(jù)對(duì)對(duì)象的象的lrdlrd應(yīng)該應(yīng)該是偏大,而是偏

14、大,而對(duì)對(duì)象象p p本身的本身的lrdlrd是偏小,最后所得的是偏小,最后所得的LOFLOF值值也也是偏大。反之,假是偏大。反之,假設(shè)對(duì)設(shè)對(duì)象象p p的離群程度的離群程度較較小,小,對(duì)對(duì)象象o o的的lrdlrd和和對(duì)對(duì)象象p p的的lrdlrd類類似,最后所得的似,最后所得的LOFLOF值應(yīng)該值應(yīng)該接近接近1 1。優(yōu)優(yōu)點(diǎn)點(diǎn)經(jīng)過(guò)經(jīng)過(guò)基于密度的部分離群點(diǎn)基于密度的部分離群點(diǎn)檢測(cè)檢測(cè)就能在就能在樣樣本空本空間數(shù)間數(shù)據(jù)分布不均據(jù)分布不均勻勻的情的情況況下也可以準(zhǔn)確下也可以準(zhǔn)確發(fā)現(xiàn)發(fā)現(xiàn)離群點(diǎn)。離群點(diǎn)。Page 18四種常見(jiàn)的離群點(diǎn)檢測(cè)方法n 四、基于偏向的離群點(diǎn)檢測(cè)根本思想根本思想基于偏離的孤立點(diǎn)檢測(cè)基于偏離的孤立點(diǎn)檢測(cè) deviation-based outlier deviation-based outlier detection detection 不采用統(tǒng)計(jì)檢驗(yàn)或基于間隔的度量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論