




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
主講教師:張鑫浙江經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院數(shù)據(jù)采集與處理異常數(shù)據(jù)處理案例導(dǎo)入異常數(shù)據(jù)的定義異常數(shù)據(jù)的成因異常數(shù)據(jù)的檢測01020304異常數(shù)據(jù)的處理051、案例導(dǎo)入小明在一家大型的電商企業(yè)做數(shù)據(jù)分析師工作,近期,他接到一個要分析企業(yè)銷售額為什么會下降的任務(wù),首先,小明通過外部以及內(nèi)部數(shù)據(jù)采集工具對銷售相關(guān)數(shù)據(jù)進行了采集,但是,他發(fā)現(xiàn)采集得到的數(shù)據(jù)中,有很多數(shù)據(jù)明顯不對,有異常,比如,客戶的年齡是300歲,產(chǎn)品的價格是-10,諸如此類,對此,他要對異常數(shù)據(jù)進行處理。2、異常數(shù)據(jù)的定義首先,我們來看一下異常值的定義,異常值是指一組測定值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值。而與平均值的偏差超過三倍標(biāo)準(zhǔn)差的測定值,稱為高度異常的異常值。異常值通常被稱為“離群點”,而異常值是如何產(chǎn)生的呢?3、異常數(shù)據(jù)的成因常見的異常成因有以下幾點:測量誤差01收集誤差02有意離群值03自然離群值04測量誤差01在數(shù)據(jù)測量的時候出現(xiàn)錯誤。有意離群值03在通常涉及到敏感的數(shù)據(jù)收集時會出現(xiàn)偏差,比如,青少年通常會隱瞞他們吸煙的情況。收集誤差02人工收集的時候出現(xiàn)了誤差,比如人工輸入數(shù)據(jù)的時候,手誤打了一個0自然離群值04當(dāng)異常數(shù)據(jù)不是人為錯誤導(dǎo)致,就是自然離群值,比如在看人均收入時,富豪榜上的人群收入水平明顯高于普通人。3、異常數(shù)據(jù)的檢測對于異常值,我們首先要將其檢測出來,異常檢測也稱偏差檢測和例外挖掘,通常的檢測方法有下面幾種:簡單的統(tǒng)計分析01基于模型檢測02箱型圖分析03基于密度檢測044、異常數(shù)據(jù)的檢測01簡單的統(tǒng)計分析拿到數(shù)據(jù)后可以對數(shù)據(jù)進行一個簡單的描述性統(tǒng)計分析,譬如最大最小值可以用來判斷這個變量的取值是否超過了合理的范圍,如客戶的年齡為-20歲或200歲,顯然是不合常理的,為異常值。02基于模型檢測首先建立一個數(shù)據(jù)模型,異常是那些同模型不能完美擬合的對象;如果模型是簇的集合,則異常是不顯著屬于任何簇的對象;如圖中剪頭所示數(shù)據(jù)點,在使用回歸模型時,異常是相對遠離預(yù)測值的對象。優(yōu)點:有堅實的統(tǒng)計學(xué)理論基礎(chǔ),當(dāng)存在充分的數(shù)據(jù)和所用的檢驗類型的知識時,這些檢驗可能非常有效。缺點:對于多元數(shù)據(jù),可用的選擇少一些,并且對于高維數(shù)據(jù),這些檢測可能性很差。4、異常數(shù)據(jù)的檢測03箱型圖分析箱型圖提供了一個識別異常值的標(biāo)準(zhǔn),即大于或小于箱型圖設(shè)定的上下界的數(shù)值即為異常值,箱型圖如圖所示:定義上下四分位:上
四分位我們設(shè)為U,表示的是所有樣本中只有1/4的數(shù)值大于U下四分位我們設(shè)為L,表示的是所有樣本中只有1/4的數(shù)值小于L定義上下界:設(shè)上四分位與下四分位的差值為IQR,即:IQR=U-L那么,上界為U+1.5IQR,下界為:L-1.5IQR箱型圖選取異常值比較客觀,在識別異常值方面有一定的優(yōu)越性。4、異常數(shù)據(jù)的檢測03基于密度檢測當(dāng)一個點的局部密度顯著低于它的大部分近鄰時才將其分類為離群點。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數(shù)。如果該距離小,則密度高,這種方法適合非均勻分布的數(shù)據(jù)。優(yōu)點:給出了對象是離群點的定量度量,并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理。缺點:與基于距離的方法一樣,對于大數(shù)據(jù)集所花費的時間較長。參數(shù)選擇困難。雖然算法通過觀察不同的k值,取得最大離群點得分來處理該問題。但是,仍然需要選擇這些值的上下界。那應(yīng)該怎樣處理“異常值”呢?4、異常數(shù)據(jù)的檢測01020301刪除明顯看出是異常且數(shù)量較少可以直接刪除02平均值替代該方法損失信息小,簡單高效03視為缺失值可以按照處理缺失值的方法來處理5、異常
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 吉林工業(yè)職業(yè)技術(shù)學(xué)院《文化與翻譯》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海農(nóng)林職業(yè)技術(shù)學(xué)院《大數(shù)據(jù)技術(shù)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 常州工學(xué)院《中小學(xué)管理學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 泰州2025年江蘇泰州市第二人民醫(yī)院招聘衛(wèi)生專業(yè)技術(shù)人員21人筆試歷年參考題庫附帶答案詳解-1
- 2025年熱壓硫化鋅(ZNS)晶體合作協(xié)議書
- 溫州大學(xué)《結(jié)構(gòu)力學(xué)上》2023-2024學(xué)年第二學(xué)期期末試卷
- 泉州輕工職業(yè)學(xué)院《微生物資源開發(fā)與利用》2023-2024學(xué)年第二學(xué)期期末試卷
- 清遠職業(yè)技術(shù)學(xué)院《學(xué)校心理學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 重慶商務(wù)職業(yè)學(xué)院《數(shù)據(jù)新聞與數(shù)據(jù)可視化》2023-2024學(xué)年第二學(xué)期期末試卷
- 福建信息職業(yè)技術(shù)學(xué)院《海商法學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024屆江蘇省南通市如皋市高三下學(xué)期二模物理試題
- 2024年春學(xué)期人教版pep版小學(xué)英語五年級下冊教學(xué)進度表
- 2024年知識競賽-《民用爆炸物品安全管理條例》知識競賽筆試參考題庫含答案
- 出師表(選擇題)答案版
- (正式版)JBT 9229-2024 剪叉式升降工作平臺
- (高清版)DZT 0208-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 金屬砂礦類
- (高清版)DZT 0368-2021 巖礦石標(biāo)本物性測量技術(shù)規(guī)程
- 礦山開采與環(huán)境保護
- 企業(yè)事業(yè)部制的管理與監(jiān)督機制
- 兒童體液平衡及液體療法課件
- 勞動防護用品培訓(xùn)試卷帶答案
評論
0/150
提交評論