第六講-1-異常值處理_第1頁
第六講-1-異常值處理_第2頁
第六講-1-異常值處理_第3頁
第六講-1-異常值處理_第4頁
第六講-1-異常值處理_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1異常值檢驗和處理2異常值檢驗廣義定義:在所獲統(tǒng)計數(shù)據(jù)中相對誤差較大的觀察數(shù)據(jù)稱之為異常值(outlier),或稱奇異值。狹義定義:一批數(shù)據(jù)中有部分數(shù)據(jù)與其余數(shù)據(jù)相比明顯不一致的稱為異常值,或稱離群值。一個樣本中出現(xiàn)概率很小的值叫做異常值(outlier)。

對可疑值的取舍實質(zhì)是區(qū)分可疑值與其它測定值之間的差異到底是由過失、還是隨機誤差引起的。如果已經(jīng)確證測定中發(fā)生過失,則無論此數(shù)據(jù)是否異常,一概都應(yīng)舍去;而在原因不明的情況下,就必須按照一定的統(tǒng)計方法進行檢驗,然后再作出判斷。根據(jù)隨機誤差分布規(guī)律,在為數(shù)不多的測定值中,出現(xiàn)大偏差的概率是極小的,因此通常就認為這樣的可疑值是由過失所引起的,而應(yīng)將其舍去,否則就予以保留。4異常值檢驗方法概述對于正態(tài)、指數(shù)、Weibull、對數(shù)正態(tài)分布等均已構(gòu)造了一些異常數(shù)據(jù)檢驗方法。其中,正態(tài)分布是統(tǒng)計學(xué)中最常見也是最重要的一種分布,許多分布都可經(jīng)適當(dāng)變換化為正態(tài)分布,例如:泊松分布可通過平方根變換化為正態(tài)分布。正態(tài)分布數(shù)據(jù)的異常值檢驗方法:格魯布斯法、狄克遜檢驗法、羅馬諾夫斯基t檢驗法與偏度——峰度檢驗法。

5數(shù)據(jù)異常值剔除的可能性和必要性采樣誤差分析誤差操作誤差……已經(jīng)有公認的方法

由小至大排序,可疑值Xi可能為x1或xn;計算該組數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差;計算統(tǒng)計量Gi。若xi可疑,格魯布斯法(Grubbs)式中:s—包括可疑樣本在內(nèi)的標(biāo)準(zhǔn)差;—包括可疑值在內(nèi)的全部樣本的平均值。(4)查臨界值表G(α,n),根據(jù)事先確定的置信度和測定次數(shù)查表。7N樣品數(shù)Α顯著性水平Nα0.010.050.010.0531.1551.153122.5502.28541.4921.463132.6072.33151.7491.672142.6592.37161.9441.822152.7052.40972.0971.938162.7472.44382.2212.032172.7852.47592.3232.110182.8212.504格魯布斯檢驗臨界值G(α,n)表(5)比較Gi和G(α,n)。若Gi>G(α,n),可疑值為異常值;若Gi≤G(α,n),則Gi不是異常值而保留

。故該方法的準(zhǔn)確度較Q法高,因此得到普遍采用。8

檢驗步驟:

(1)從小到大排列數(shù)據(jù),可疑值為兩個端值

狄克遜(Dixon)檢驗法檢驗法-極差比法,Q法當(dāng)3≤n≤7時:或

當(dāng)8≤n≤10時:或

(2)根據(jù)n數(shù)目的不同,計算出相應(yīng)的r值。注意:N不同,計算公式不同分段計算公式……9(3)根據(jù)n和α查表;(4)將計算求得的r大和r小分別與查得的r(0.05,n)或r(0.01,n)進行比較。

如果r大(或r小)>r(0.05,n)或r(0.01,n),則最大(或最小)的可疑值為異常值,不可信。如果r大(或r小)<r(0.05,n)或r(0.01,n),則最大(或最小)的可疑值不是異常值,應(yīng)保留。適于3<n<30n34567891011r(0.05,n)0.9410.7650.6420.5600.5070.5540.5120.4770.576r(0.01,n)0.9880.8890.7800.6980.6370.6830.6350.5970.679狄克遜(Dixon)檢驗法Q值表10例7

測定某溶液濃度(mol·L-1),得結(jié)果:

0.1014,0.1012,0.1016,0.1025,

問:0.1025是否應(yīng)棄去?

(置信度為90%)0.1025應(yīng)該保留.x=0.1015~n=411t分布檢驗法(湯姆遜法)

在測量列xj(j=1,2,3,……,n)中選擇可疑值xj,將其剔除后計算平均值和標(biāo)準(zhǔn)差s(不包括可疑值xj)。根據(jù)測量次數(shù)n選取顯著水平0.05或0.01,查表得到t檢驗系數(shù)K(0.05,n)或K(0.01,n)。t檢驗法臨界值K(α,n)n45678910111213K(0.05,n)4.973.563.042.782.622.512.432.372.332.29K(0.01,n)11.466.535.044.363.963.713.543.413.313.23如果測量值xj為異常值

事先將可疑值xj排除在外,保證了計算出的標(biāo)準(zhǔn)差s的獨立性與正確性,在理論上是比較嚴(yán)格的。有可能將一些正常的測定值判定為異常值,為了避免發(fā)生這種“判無為有”與“判少為多”的錯誤,應(yīng)選較小的檢出水平。12[例4]測藥物中的Co(μg/g)結(jié)果為:1.25,1.27,1.31,1.40.問:1.40是否為可疑值? __

[解]去掉1.40求余下數(shù)據(jù)

X=1.28d=0.023_則:|x

可疑-x

好|=|1.40-1.28|=0.12>4×0.023說明:1.40為離群值檢驗步驟(1)去掉可疑值xj,求余下值的平均值

4d法和平均偏差>4dn-1,xj為異常值(2)求差值并與4d比較132-13[例5]某學(xué)生測N(%):20.48;20.55;20.60;20.53;20.50問:

(1)用Q檢驗20.60是否保留___

(2)報告分析結(jié)果n,S

,x

,d/x

(3)若xT=20.56計算Er%

(4)P=0.95時平均值的置信區(qū)間并說明含義

|20.60-20.55|[解](1)Q計=—————

=0.42(20.60-20.48)

Q表

=0.86>Q計

20.60保留14 ___

(2)x=20.53%(d/x)×10000/00=1.70/00

S=0.035% _

x–xT20.53-20.56

(3)Er%=——·100=————·100=-0.14

xT

20.56這說明在20.53±0.043區(qū)間中包括總體平均值μ的把握性為95%15平均值加減三倍標(biāo)準(zhǔn)差法163倍四分位間距法17五數(shù)概括法-非參數(shù)檢驗法“五數(shù)”指中位數(shù)M,上四分位數(shù)QU、下四分位數(shù)QL和上、下極值。識別數(shù)據(jù)中的異常值需要有對于異常值不敏感的展布度,而且它要強調(diào)數(shù)據(jù)中心部分的行為而不是強調(diào)極端值,所以選擇四分展布(記為H=QU-QL),而不能選極差與標(biāo)準(zhǔn)差。通常人們認為在區(qū)間(QL-1.5H,QU+1.5H)之外的數(shù)據(jù)可看作異常值。這種方法簡單易操作,對大樣本檢驗功效較高,但對小樣本則略顯粗糙。在實際問題中,我們只能對這些數(shù)據(jù)分隔出來加以特別注意,根據(jù)實際情況仔細檢查它們是否確為異常值。18在統(tǒng)計數(shù)據(jù)中,有時發(fā)現(xiàn)個別測定數(shù)據(jù)離群,統(tǒng)計檢驗判為異常值,但若它與其它測定值的差異仍在儀器的精度范圍之內(nèi),這種數(shù)據(jù)不應(yīng)舍棄,可以保留這些異常的測定值,并在數(shù)據(jù)處理結(jié)果中加以必要的說明,這可能更合理。19異常值的處理直接剔除顯著異常值,條件?用中位值來代替稍有異常的數(shù)據(jù)的平均值,接近臨界值,?因舍棄和保留可疑數(shù)據(jù)對中位值的影響最小。替代顯著異常值:無原因的顯著異常值用正常值最大值代替異常值、用正常值最小值代替異常值或用總體平均值代替異常值。20替代顯著異常值的兩個公式(不能替代極小值):

影響系數(shù)法GL=M*[(nk+1)/(k+1)]式中:k—人為賦值的影響系數(shù),通常取k=0.1或k=0.05;

M—包括可疑值在內(nèi)的均值;

GL—替代值。式中:I—F

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論