版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1異常值檢驗和處理2異常值檢驗廣義定義:在所獲統(tǒng)計數(shù)據(jù)中相對誤差較大的觀察數(shù)據(jù)稱之為異常值(outlier),或稱奇異值。狹義定義:一批數(shù)據(jù)中有部分數(shù)據(jù)與其余數(shù)據(jù)相比明顯不一致的稱為異常值,或稱離群值。一個樣本中出現(xiàn)概率很小的值叫做異常值(outlier)。
對可疑值的取舍實質(zhì)是區(qū)分可疑值與其它測定值之間的差異到底是由過失、還是隨機誤差引起的。如果已經(jīng)確證測定中發(fā)生過失,則無論此數(shù)據(jù)是否異常,一概都應(yīng)舍去;而在原因不明的情況下,就必須按照一定的統(tǒng)計方法進行檢驗,然后再作出判斷。根據(jù)隨機誤差分布規(guī)律,在為數(shù)不多的測定值中,出現(xiàn)大偏差的概率是極小的,因此通常就認為這樣的可疑值是由過失所引起的,而應(yīng)將其舍去,否則就予以保留。4異常值檢驗方法概述對于正態(tài)、指數(shù)、Weibull、對數(shù)正態(tài)分布等均已構(gòu)造了一些異常數(shù)據(jù)檢驗方法。其中,正態(tài)分布是統(tǒng)計學(xué)中最常見也是最重要的一種分布,許多分布都可經(jīng)適當(dāng)變換化為正態(tài)分布,例如:泊松分布可通過平方根變換化為正態(tài)分布。正態(tài)分布數(shù)據(jù)的異常值檢驗方法:格魯布斯法、狄克遜檢驗法、羅馬諾夫斯基t檢驗法與偏度——峰度檢驗法。
5數(shù)據(jù)異常值剔除的可能性和必要性采樣誤差分析誤差操作誤差……已經(jīng)有公認的方法
由小至大排序,可疑值Xi可能為x1或xn;計算該組數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差;計算統(tǒng)計量Gi。若xi可疑,格魯布斯法(Grubbs)式中:s—包括可疑樣本在內(nèi)的標(biāo)準(zhǔn)差;—包括可疑值在內(nèi)的全部樣本的平均值。(4)查臨界值表G(α,n),根據(jù)事先確定的置信度和測定次數(shù)查表。7N樣品數(shù)Α顯著性水平Nα0.010.050.010.0531.1551.153122.5502.28541.4921.463132.6072.33151.7491.672142.6592.37161.9441.822152.7052.40972.0971.938162.7472.44382.2212.032172.7852.47592.3232.110182.8212.504格魯布斯檢驗臨界值G(α,n)表(5)比較Gi和G(α,n)。若Gi>G(α,n),可疑值為異常值;若Gi≤G(α,n),則Gi不是異常值而保留
。故該方法的準(zhǔn)確度較Q法高,因此得到普遍采用。8
檢驗步驟:
(1)從小到大排列數(shù)據(jù),可疑值為兩個端值
狄克遜(Dixon)檢驗法檢驗法-極差比法,Q法當(dāng)3≤n≤7時:或
當(dāng)8≤n≤10時:或
(2)根據(jù)n數(shù)目的不同,計算出相應(yīng)的r值。注意:N不同,計算公式不同分段計算公式……9(3)根據(jù)n和α查表;(4)將計算求得的r大和r小分別與查得的r(0.05,n)或r(0.01,n)進行比較。
如果r大(或r小)>r(0.05,n)或r(0.01,n),則最大(或最小)的可疑值為異常值,不可信。如果r大(或r小)<r(0.05,n)或r(0.01,n),則最大(或最小)的可疑值不是異常值,應(yīng)保留。適于3<n<30n34567891011r(0.05,n)0.9410.7650.6420.5600.5070.5540.5120.4770.576r(0.01,n)0.9880.8890.7800.6980.6370.6830.6350.5970.679狄克遜(Dixon)檢驗法Q值表10例7
測定某溶液濃度(mol·L-1),得結(jié)果:
0.1014,0.1012,0.1016,0.1025,
問:0.1025是否應(yīng)棄去?
(置信度為90%)0.1025應(yīng)該保留.x=0.1015~n=411t分布檢驗法(湯姆遜法)
在測量列xj(j=1,2,3,……,n)中選擇可疑值xj,將其剔除后計算平均值和標(biāo)準(zhǔn)差s(不包括可疑值xj)。根據(jù)測量次數(shù)n選取顯著水平0.05或0.01,查表得到t檢驗系數(shù)K(0.05,n)或K(0.01,n)。t檢驗法臨界值K(α,n)n45678910111213K(0.05,n)4.973.563.042.782.622.512.432.372.332.29K(0.01,n)11.466.535.044.363.963.713.543.413.313.23如果測量值xj為異常值
事先將可疑值xj排除在外,保證了計算出的標(biāo)準(zhǔn)差s的獨立性與正確性,在理論上是比較嚴(yán)格的。有可能將一些正常的測定值判定為異常值,為了避免發(fā)生這種“判無為有”與“判少為多”的錯誤,應(yīng)選較小的檢出水平。12[例4]測藥物中的Co(μg/g)結(jié)果為:1.25,1.27,1.31,1.40.問:1.40是否為可疑值? __
[解]去掉1.40求余下數(shù)據(jù)
X=1.28d=0.023_則:|x
可疑-x
好|=|1.40-1.28|=0.12>4×0.023說明:1.40為離群值檢驗步驟(1)去掉可疑值xj,求余下值的平均值
4d法和平均偏差>4dn-1,xj為異常值(2)求差值并與4d比較132-13[例5]某學(xué)生測N(%):20.48;20.55;20.60;20.53;20.50問:
(1)用Q檢驗20.60是否保留___
(2)報告分析結(jié)果n,S
,x
,d/x
(3)若xT=20.56計算Er%
(4)P=0.95時平均值的置信區(qū)間并說明含義
|20.60-20.55|[解](1)Q計=—————
=0.42(20.60-20.48)
Q表
=0.86>Q計
20.60保留14 ___
(2)x=20.53%(d/x)×10000/00=1.70/00
S=0.035% _
x–xT20.53-20.56
(3)Er%=——·100=————·100=-0.14
xT
20.56這說明在20.53±0.043區(qū)間中包括總體平均值μ的把握性為95%15平均值加減三倍標(biāo)準(zhǔn)差法163倍四分位間距法17五數(shù)概括法-非參數(shù)檢驗法“五數(shù)”指中位數(shù)M,上四分位數(shù)QU、下四分位數(shù)QL和上、下極值。識別數(shù)據(jù)中的異常值需要有對于異常值不敏感的展布度,而且它要強調(diào)數(shù)據(jù)中心部分的行為而不是強調(diào)極端值,所以選擇四分展布(記為H=QU-QL),而不能選極差與標(biāo)準(zhǔn)差。通常人們認為在區(qū)間(QL-1.5H,QU+1.5H)之外的數(shù)據(jù)可看作異常值。這種方法簡單易操作,對大樣本檢驗功效較高,但對小樣本則略顯粗糙。在實際問題中,我們只能對這些數(shù)據(jù)分隔出來加以特別注意,根據(jù)實際情況仔細檢查它們是否確為異常值。18在統(tǒng)計數(shù)據(jù)中,有時發(fā)現(xiàn)個別測定數(shù)據(jù)離群,統(tǒng)計檢驗判為異常值,但若它與其它測定值的差異仍在儀器的精度范圍之內(nèi),這種數(shù)據(jù)不應(yīng)舍棄,可以保留這些異常的測定值,并在數(shù)據(jù)處理結(jié)果中加以必要的說明,這可能更合理。19異常值的處理直接剔除顯著異常值,條件?用中位值來代替稍有異常的數(shù)據(jù)的平均值,接近臨界值,?因舍棄和保留可疑數(shù)據(jù)對中位值的影響最小。替代顯著異常值:無原因的顯著異常值用正常值最大值代替異常值、用正常值最小值代替異常值或用總體平均值代替異常值。20替代顯著異常值的兩個公式(不能替代極小值):
影響系數(shù)法GL=M*[(nk+1)/(k+1)]式中:k—人為賦值的影響系數(shù),通常取k=0.1或k=0.05;
M—包括可疑值在內(nèi)的均值;
GL—替代值。式中:I—F
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)灌溉壓縮空氣管道方案
- 工業(yè)廢棄物管理與處理方案
- LED顯示屏廣告投放合同
- 除四害合同(2篇)
- 物流行業(yè)服務(wù)質(zhì)量績效評價方案
- 家委會工作中的挑戰(zhàn)與解決方案總結(jié)
- 2022檢驗科醫(yī)院感染暴發(fā)應(yīng)急制度
- 一校一案德育教育創(chuàng)新方案
- 工程材料庫房移交協(xié)議書(2篇)
- 青島2024年03版小學(xué)5年級英語第1單元暑期作業(yè)
- 羊水過少課件
- 完美著裝智慧樹知到期末考試答案章節(jié)答案2024年武漢紡織大學(xué)
- 櫻桃栽培技術(shù)(共85張課件)
- AED使用指南培訓(xùn)課件
- 北京科技大學(xué)輔導(dǎo)員考試試題2024
- (高清版)WST 311-2023 醫(yī)院隔離技術(shù)標(biāo)準(zhǔn)
- 2023年魯迅美術(shù)學(xué)院附屬中學(xué)(魯美附中)中考招生語文數(shù)學(xué)英語試卷
- 第十七課《拒絕誘惑》課件心理健康六年級上冊北師大版
- 如何在企業(yè)管理中融入可持續(xù)發(fā)展理念
- 山東省臨沂市羅莊區(qū)2023-2024學(xué)年高二上學(xué)期期中考試語文試題(含答案解析)
- 財務(wù)管理的財務(wù)風(fēng)險管理
評論
0/150
提交評論