正態(tài)樣本異常值的判斷和處理_第1頁
正態(tài)樣本異常值的判斷和處理_第2頁
正態(tài)樣本異常值的判斷和處理_第3頁
正態(tài)樣本異常值的判斷和處理_第4頁
正態(tài)樣本異常值的判斷和處理_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

關(guān)于正態(tài)樣本異常值的判斷和處理異常值(或異常觀測值)是指樣本中的個別值,其數(shù)值明顯偏離它(或它們)所屬樣本的其余觀測值。異常值可能是總體固有的隨機變異性的極端表現(xiàn)。這種異常值和樣本中其余觀測值屬于同一總體。異常值也可能是由于試驗條件和試驗方法的偶然偏離所產(chǎn)生的后果,或產(chǎn)生于觀測、計算、記錄中的失誤。這種異常值和樣本中其余觀測值不屬于同一總體。第2頁,共29頁,2024年2月25日,星期天應(yīng)用條件:所考查樣本中諸觀測值(或經(jīng)過一定的函數(shù)變換后得到的值),除了個別異常值外,其余大部分值(樣本主體)來自同一正態(tài)總體或近似正態(tài)總體。第3頁,共29頁,2024年2月25日,星期天判斷異常值的統(tǒng)計學(xué)原則本標(biāo)準(zhǔn)在下述不同情形下判斷樣本中的異常值:上側(cè)情形:根據(jù)以往經(jīng)驗,異常值都為高端值;下側(cè)情形:根據(jù)以往經(jīng)驗,異常值都為低端值;雙側(cè)情形:異常值是在兩端都可能出現(xiàn)的極端值。注:上側(cè)情形和下側(cè)情形統(tǒng)稱單側(cè)情形。第4頁,共29頁,2024年2月25日,星期天判斷單個異常值的檢驗規(guī)則根據(jù)實際情況,選定適宜的異常值檢驗規(guī)則;指定為檢出異常值的統(tǒng)計檢驗的顯著性水平α,簡稱檢出水平;根據(jù)α和觀測值個數(shù)n確定統(tǒng)計量的臨界值;將各觀測值代入檢驗規(guī)則中給出的統(tǒng)計量,所得值若超過臨界值,則判斷事先確定待查的極端觀測值為異常值;否則就判斷“沒有異常值”。檢出水平α的宜取值是5%,1%(或10%)。第5頁,共29頁,2024年2月25日,星期天判斷多個異常值的檢驗規(guī)則在允許檢出異常值個數(shù)可大于1的情形,本標(biāo)準(zhǔn)規(guī)定的方法是重復(fù)使用同一種判斷單個異常值的檢驗規(guī)則,即用指定的檢出水平和符合2.3規(guī)定的規(guī)則首先檢驗全體觀測值,若不能檢出異常值,則整個檢驗停止;若檢出一個異常值,就再用相同的檢出水平和相同的規(guī)則,對除去已檢出的異常值后余下的觀測值繼續(xù)檢驗……直到不能檢出異常值,或檢出的異常值個數(shù)超過上限為止。第6頁,共29頁,2024年2月25日,星期天處理異常值的一般規(guī)則對檢出的異常值,應(yīng)盡可能尋找產(chǎn)生異常值的技術(shù)上的、物理上的原因,作為處理異常值的依據(jù)。處理異常值的方式有:異常值保留在樣本中參加其后的數(shù)據(jù)分析;允許剔除異常值,即把異常值從樣本中排出;允許剔除異常值,并追加適宜的觀測值計入樣本;在找到實際原因時修正異常值。第7頁,共29頁,2024年2月25日,星期天a.對任何異常值,若無充分的技術(shù)上的、物理上的說明其異常的理由,則不得剔除或進行修正。b.異常值中除有充分的技術(shù)上的、物理上的說明其異常的理由外,表現(xiàn)統(tǒng)計上高度異常的,也允許剔除或進行修正,其意義是:指定為判斷異常值是否高度異常的統(tǒng)計檢驗的顯著性水平α*,簡稱剔除水平,其值小于檢出水平α;實施時,按2.3規(guī)定進行檢驗后,立即對檢出的異常值,再按2.3規(guī)定以剔除水平α*代替檢出水平α進行檢驗,若在剔除水平下此檢驗是顯著的,則判第8頁,共29頁,2024年2月25日,星期天此異常值高度異常。在重復(fù)使用同一檢驗規(guī)則的情況下,每次檢出了異常值后都要檢驗它在剔除水平下是否高度異常。若某次檢驗中檢出的異常值為高度異常,則這個異常值及其它前面檢出的異常值都可被剔除或進行修正。除特殊情況外,剔除水平一般采用1%或更小,而不宜采用大于5%的值。在選用剔除水平的情況下,檢出水平可取5%或再大些。c.檢出的異常值都可被剔除或進行修正。第9頁,共29頁,2024年2月25日,星期天未知標(biāo)準(zhǔn)差情形下判斷和處理異常值的規(guī)則

----檢出異常值的個數(shù)不超過1格拉布斯檢驗法1上側(cè)情形檢驗法a.對于觀測值x1,…xn,計算統(tǒng)計量

Gn=(x(n)-

)/s

的值,這里x(n)是最大觀測值,和s是樣本均值和樣本標(biāo)準(zhǔn)差,即=(x1+…+

xn)/n,s=…;b.確定檢出水平α,在表A2查出對應(yīng)n,α的臨界值G(1-α(

n));

c.當(dāng)Gn>G(1-α(

n)),判最大值x(n)為異常值,

第10頁,共29頁,2024年2月25日,星期天

否則,判斷“沒有異常值”;d.在給出剔除水平α*的情況下,在表A2查出對應(yīng)n,α*的臨界值G(1-α*(

n))。當(dāng)Gn>G(1-α*(

n)),判斷最大值x(n)高度異常;否則,判斷“沒有高度異常的異常值”。2下側(cè)情形檢驗法與上側(cè)情形檢驗法規(guī)則相同,但要使用統(tǒng)計量G′n=(-x(1))/s

代替Gn,要判斷的是最小值x(1)。第11頁,共29頁,2024年2月25日,星期天3雙側(cè)情形檢驗法a.計算Gn和G′n的值;b.確定檢出水平α,在表A2查出對應(yīng)n,

α/2的臨界值G(1-α/2(

n));c.當(dāng)Gn>G′n,且Gn>G(1-α/2(

n)),判斷x(n)為異常值;當(dāng)G′n>Gn,且G′n>G(1-α/2(

n)),判斷x(1)為異常值;否則,判斷“沒有異常值”;第12頁,共29頁,2024年2月25日,星期天d.在給出剔除水平α*的情況下,在表A2查出對應(yīng)n,α*的臨界值G(1-α*(

n))。當(dāng)Gn>G′n,且Gn>G(1-α*(

n)),判斷x(n)高度異常;當(dāng)G′n>Gn,且G′n>G(1-α/2(

n)),判斷x(1)為異常值;否則,判斷“沒有高度異常的異常值”。第13頁,共29頁,2024年2月25日,星期天

使用格拉布斯檢驗法的示例例一、檢驗?zāi)撤N磚的一個交付批的10個樣品的抗壓強度數(shù)據(jù)(從小而大排列)4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0(單位:MPa)。檢驗最大值是否異常,取檢出水平α=5%。計算=7.89s=2.704

G10=(x(10)-)/s=(14.0-7.89)/2.704=2.260

對n=10,G(1-α(10))=G0.95(10)=2.176,因G10>G0.95(10),判斷x(10)=14.0為異常值。第14頁,共29頁,2024年2月25日,星期天例二:我站在一工程鑒定中采用鉆芯法評定一構(gòu)筑物混凝土強度。測得19個芯樣混凝土抗壓強度為:26.7、27.6、29.9、30.5、31.7、31.9、33.3、33.3、33.5、34.8、34.8、35.0、35.0、35.3、35.7、36.0、38.2、40.5、61.3(單位:MPa)檢驗最大值是否異常,取檢出水平α=5%,剔除水平α*=1%。計算=35.0S=7.197

G19=(X(19)-)/s=(61.3-35.0)/7.197=3.654

對n=19,G(1-α(19))=G0.95(19)=2.532,因G19>G0.95(19),判斷x(19)=61.3為異常值。第15頁,共29頁,2024年2月25日,星期天G(1-α*(19))=G0.99(19)=2.854,因G19>G0.99(19),判斷x(19)=61.3高度異常,剔除。格拉布斯檢驗法重復(fù)使用:

n=18=33.5S=3.448G18=(40.5-33.5)/3.448=2.030G0.95(18)=2.504,因G18<G0.95(18),判斷沒有異常值。第16頁,共29頁,2024年2月25日,星期天

表A2格拉布斯檢驗法的臨界值表n90%95%97.5%99%99.5%31.1481.1531.1551.1551.15541.4251.4631.4811.4921.49651.6021.6721.7151.7491.76461.7291.8221.8871.9441.97371.8281.9382.0202.0972.13981.9092.0322.1262.2212.27491.9772.1102.2152.3232.387102.0362.1762.2902.4102.482112.0882.2342.3552.4852.564第17頁,共29頁,2024年2月25日,星期天n90%95%97.5%99%99.5%122.1342.2852.4122.5502.636132.1752.3312.4622.6072.699142.2132.3712.5072.6592.755152.2472.4092.5492.7052.806162.2792.4432.5852.7472.852172.3092.4752.6202.7852.894182.3352.5042.6512.8212.932192.3612.5322.6812.8542.968202.3852.5572.7092.8843.001212.4082.5802.7332.9123.031222.4292.6032.7582.9393.060232.4482.6242.7812.9633.087242.4672.6442.8022.9873.112252.4862.6632.8223.0093.135第18頁,共29頁,2024年2月25日,星期天n90%95%97.5%99%99.5%262.5022.6812.8413.0293.157272.5192.6982.8593.0493.178282.5342.7142.8763.0683.199292.5492.7302.8933.0853.218302.5632.7452.9083.1033.236312.5772.7592.9243.1193.253322.5912.7732.9383.1353.270332.6042.7862.9523.1503.286342.6162.7992.9653.1643.301352.6282.8112.9793.1783.316362.6392.8232.9913.1913.330372.6502.8353.0033.2043.343382.6612.8463.0143.2163.356392.6712.8573.0253.2283.369402.6822.8663.0363.2403.381412.6922.8773.0463.2513.393第19頁,共29頁,2024年2月25日,星期天n90%95%97.5%99%99.5%422.7002.8873.0573.2613.404432.7102.8963.0673.2713.415442.7192.9053.0753.2823.425452.7272.9143.0853.2923.435462.7362.9233.0943.3023.445472.7442.9313.1033.3103.455482.7532.9403.1113.3193.464492.7602.9483.1203.3293.474502.7682.9563.1283.3363.483512.7752.9643.1363.3453.491522.7832.9713.1433.3533.500532.7902.9783.1513.3613.507542.7982.9863.1583.3683.516552.8042.9923.1663.3763.524562.8113.0003.1723.3833.531572.8183.0063.1803.3913.539第20頁,共29頁,2024年2月25日,星期天標(biāo)準(zhǔn)還介紹了:已知標(biāo)準(zhǔn)差情形下判斷和處理異常值的規(guī)則---奈爾(Nair)檢驗法或奈爾檢驗法的重復(fù)使用方法;未知標(biāo)準(zhǔn)差情形下判斷和處理異常值的規(guī)則(Ⅰ)---檢出異常值的個數(shù)不超過1,狄克遜檢驗法;未知標(biāo)準(zhǔn)差情形下判斷和處理異常值的規(guī)則(Ⅱ)----檢出異常值的個數(shù)上限超過1,偏度—峰度檢驗法和狄克遜檢驗的重復(fù)使用方法;

第21頁,共29頁,2024年2月25日,星期天狄克遜檢驗法1、單側(cè)情形檢驗法

a、對于按大小排列的觀測值x⑴≤x⑵≤…≤x(n),計算統(tǒng)計量

樣本大小檢驗高端異常值檢驗低端異常值

n:3~7D=r10=

〔x(n)-x(n-1)〕/〔x(n)-x(1)〕D′=r′10=

〔x(2)-x(1)〕/〔x(n)-x(1)〕n:8~10D=r11=〔x(n)-x(n-1)〕/〔x(n)-x(2)〕D′=r′11=〔x(2)-x(1)〕/〔x(n-1)-x(1)〕第22頁,共29頁,2024年2月25日,星期天

樣本大小檢驗高端異常值檢驗低端異常值

n:11~13D=

r21=〔x(n)-x(n-2)〕/〔x(n)-x(2)〕

D′=r′21=〔x(3)-x(1)〕/〔x(n-1)-x(1)〕n:14~30D=

r22=〔x(n)-x(n-2)〕/〔x(n)-x(3)〕

D′=r′22=〔x(3)-x(1)〕/〔x(n-2)-x(1)〕

b.確定檢出水平α,在表A3查出對應(yīng)n,α的臨界值D1-α(n);

c.檢驗高端值時,當(dāng)D

>D1-α(n),判斷x(n)為異常值;檢驗低端值時,當(dāng)D’

>D1-α(n),判斷x(1)為異常值;否則,判斷“沒有異常值”;

第23頁,共29頁,2024年2月25日,星期天d.在給出剔除水平α*的情況下,在表A3查出對應(yīng)n,α*的臨界值D1-α*(n)。檢驗高端值時,當(dāng)D>D1-α*(n),判斷x(n)為高度異常;檢驗低端值時,當(dāng)D′>D1-α*(n),判斷x(1)為高度異常;否則,判斷“沒有高度異常的異常值”;2、雙側(cè)情形檢驗法

a.計算D和D’的值;

b.確定檢出水平α,在表A3’查出對應(yīng)n,

α的臨界值1-α(n);第24頁,共29頁,2024年2月25日,星期天C、當(dāng)D>D’,D>

1-α(n),判斷x(n)為異常值;當(dāng)D’>D,D’>

1-α(n),判斷x(1)為異常值;否則,判斷“沒有異常值”;

d、在給出剔除水平α*的情況下,在表A3’查出對應(yīng)n,α*的臨界值1-α*(n)。當(dāng)D>D′,D>

1-α*(n),判斷x(n)為高度異常;當(dāng)D′>D,D’>

1-α*(n),判斷x(1)為高度異常;否則,判斷“沒有高度異常的異常值”。第25頁,共29頁,2024年2月25日,星期天使用狄克遜檢驗法的實例射擊16發(fā)子彈,射程(自小到大排列)分別為:1125,1248,1250,1259,1273,1279,1285,1285,1293,1300,1305,1312,1315,1324,1325,1350(單位:m)

a、檢驗低端值是否異常。指定α=1%對n=16,使用D′=r′22=〔x(3)-x(1)〕/〔x(14)-x(1)〕=(1250-1125)/(1324-1125)=0.6614

因D0.99(16)=0.595,D′>D0.99(16),故判斷最小值1125為異常值。

第26頁,共29頁,2024年2月25日,星期天

b.雙側(cè)情形對n=16,計算D′=0.6614和

D=r22=〔x(16)-x(14)〕/〔x(16)-x(3)〕=(1350-1324)/(1350-1250)=0.26

由查表3′得0.99(16)=0.627。因r′22

r22,r′2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論