




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、非參數(shù)統(tǒng)計(jì)學(xué)講義主講:統(tǒng)計(jì)系 袁靖 第六章 分布檢驗(yàn)和某些卡方檢驗(yàn)§1 引 言本章屬于擬合優(yōu)度檢驗(yàn)問題,即模型檢驗(yàn)或分布的檢驗(yàn),屬于非參數(shù)檢驗(yàn)的范疇。在初等統(tǒng)計(jì)中,人們要想知道數(shù)據(jù)是否服從某一特定分布,可以通過直方圖,或P-P圖,Q-Q圖來直接判斷,但這種直觀的方式很不精確。本章將介紹幾種分布的檢驗(yàn):K-S檢驗(yàn),Lilliefors檢驗(yàn)和檢驗(yàn)。實(shí)際上,K-S檢驗(yàn)是在針對檢驗(yàn)的缺點(diǎn) 檢驗(yàn)與K-S檢驗(yàn)均屬擬合優(yōu)度檢驗(yàn),但檢驗(yàn)常用于定類尺度測量數(shù)據(jù),K-S檢驗(yàn)還用于定序尺度測量數(shù)據(jù);當(dāng)預(yù)期頻數(shù)較小時,檢驗(yàn)常需要合并鄰近的類別才能計(jì)算,K-S檢驗(yàn)則不需要,因此它能比檢驗(yàn)保留更多的信息;對于特
2、別小的樣本數(shù)目,檢驗(yàn)不能應(yīng)用,而K-S檢驗(yàn)則不受限制。此外,檢驗(yàn)需要人為對總體分布的支撐集進(jìn)行劃分,將總體分布轉(zhuǎn)化成一種導(dǎo)出分布,后果:樣本信息利用不充分;實(shí)際檢驗(yàn)的是導(dǎo)出分布對數(shù)據(jù)的擬合優(yōu)度,而不是假設(shè)分布對數(shù)據(jù)的擬合優(yōu)度。上提出的。它們是建立在經(jīng)驗(yàn)分布函數(shù)基礎(chǔ)上的檢驗(yàn)結(jié)果。§2 Kolmogorov檢驗(yàn)一、 基本假設(shè)一般地要檢驗(yàn)手中的樣本是否來自某個已知,假定其真實(shí)分布為,對應(yīng)的檢驗(yàn)類型有 對 至少有一個x 對 至少有一個x 對 至少有一個x設(shè)為該組數(shù)據(jù)的經(jīng)驗(yàn)分布函數(shù),則二、 基本方法Kolmogorov于三十年代提出了一種基于經(jīng)驗(yàn)分布的檢驗(yàn)方法,基本思想是:由格里文科定理,當(dāng)時
3、,樣本經(jīng)驗(yàn)分布以概率1一致收斂到總體分布F,為此可以定義到的距離為當(dāng)H0成立時,由格氏定理,D以概率1收斂到0,因此D的大小可以度量對總體分布擬合的好壞??晒┻x擇的檢驗(yàn)統(tǒng)計(jì)量分別為;類型A 類型B 類型C 在實(shí)際操作時,如果有n個觀察值,用下面的統(tǒng)計(jì)量代替上面的DNOTE:由的取值是離散的,考慮到跳躍性,該能夠保證S與F0之間取得最大距離;在H0下的分布有表可查,P201在大樣本時,有近似分布,這里的分布函數(shù)有表達(dá)式,P122,該分布有表可查P203:三、 應(yīng)用舉例【例6-1】軸承的內(nèi)徑檢驗(yàn)檢驗(yàn)?zāi)耻囬g生產(chǎn)的20個軸承外座圈的內(nèi)徑,測得數(shù)據(jù)如下(單位:mm)表6-1 軸承內(nèi)徑數(shù)據(jù)15.0415.
4、3614.5714.5315.5714.6915.3714.6614.5215.4115.3414.2815.0114.7614.3815.8713.6614.9715.2914.95按照設(shè)計(jì)要求,這個內(nèi)徑應(yīng)在15±0.2mm,檢驗(yàn)是否符合標(biāo)準(zhǔn),即檢驗(yàn)該數(shù)據(jù)是否來自均值,方差的正態(tài)分布。分析:方法一,可以利用直方圖、Q-Q圖、P-P圖進(jìn)行直觀判斷;方法二,利用Kolmogorov檢驗(yàn)由P122表中數(shù)據(jù)得:,拒絕H0,認(rèn)為不滿足要求。近似,P-值=0.9790.05,接受H0?!纠?-2】數(shù)理統(tǒng)計(jì)與管理論文作者服從洛特卡分布 洛特卡定律是1926年6月19日洛特卡(Vlachy)在美國
5、頗有影響的學(xué)術(shù)刊物華盛頓科學(xué)院雜志上首先提出,它第一次提示了作者與文獻(xiàn)量的統(tǒng)計(jì)規(guī)律性。在這之后,洛特卡進(jìn)一步發(fā)展了洛特卡定律,得出這樣的一個關(guān)系:若以x表示每一作者所著的論文數(shù),與其相應(yīng)的寫x篇論文的作者數(shù)為y,則y與x成反比關(guān)系。將46期的數(shù)理統(tǒng)計(jì)與管理的文章按第一作者統(tǒng)計(jì),得到表7-2的結(jié)果。論文作者數(shù)是否服從洛特卡分布。表6-2 論文數(shù)目與作者數(shù)的統(tǒng)計(jì)表論文數(shù)(x)1234567作者(y)3432791112分析:洛特卡得出這樣的一個關(guān)系:若以x表示每一作者所著的論文數(shù),與其相應(yīng)的寫x篇論文的作者數(shù)為y,則y與x成反比關(guān)系。即有式中,N為論文總數(shù),m、C為兩個特定的常數(shù),在不同的學(xué)科領(lǐng)域
6、數(shù)值不同。假定根據(jù)表62提供的數(shù)據(jù),認(rèn)為論文作者服從洛特卡分布,并對其真實(shí)性進(jìn)行檢驗(yàn),首先必須確定它的理論分布,即計(jì)算出m、C的值。估計(jì)m的值,通常采用最小二乘法。將(6.1)式進(jìn)行對數(shù)變換,使其線性化,得到:m相當(dāng)于一元線性回歸方程中的回歸系數(shù)b,根據(jù)表中的數(shù)據(jù)運(yùn)用最小二乘法,得到m=3.0550。關(guān)于C值,可以用這樣一個公式進(jìn)行近似計(jì)算。這是1985年美國情報學(xué)家M.L.Pao教授在數(shù)學(xué)家的協(xié)助之下提出的。計(jì)算式為:經(jīng)計(jì)算,。因此46期數(shù)理統(tǒng)計(jì)與管理的論文與作者數(shù)的理論洛特卡分布為 為了判定數(shù)理統(tǒng)計(jì)與管理論文作者的實(shí)際分布是否與理論分布一致,可以采用Kolmogorov檢驗(yàn)。建立的假設(shè)組為
7、 對 至少有一個x理論累積頻率的各個值,可以將x分別代入(6.3)式計(jì)算得到,實(shí)際累積頻率是將累計(jì)的作者數(shù)分別除以作者總?cè)藬?shù)得到。計(jì)算結(jié)果,作者實(shí)際累積頻率及理論累積頻率及各個差值如表6-3。表6-3 作者實(shí)際累積頻率與理論累積頻率表12345670.83890.93980.96900.98110.98720.99070.99290.89320.96350.98700.98960.99220.99481.00000.05430.02370.01800.00850.00500.00410.0071根據(jù)顯著性水平,作者人數(shù),查表,由于,得臨界值。顯然因此數(shù)據(jù)在1%的顯著性水平上不能拒絕H0,若顯著
8、性水平,查表得臨界值。顯然因此,數(shù)據(jù)在5%的顯著性水平上也不能拒絕H0,可以認(rèn)為,數(shù)理統(tǒng)計(jì)與管理作者的分布服從洛特卡分布。§3 Lilliefors正態(tài)性檢驗(yàn)Lilliefors正態(tài)性檢驗(yàn)實(shí)質(zhì)上是對Kolmogorov檢驗(yàn)的一個改進(jìn)。當(dāng)用Kolmogorov檢驗(yàn)?zāi)硺颖臼欠駚碜砸徽龖B(tài)總體時,當(dāng)和未知時,就會用樣本均值作為總體均值的估計(jì),樣本方差作為總體方差的估計(jì),從而將數(shù)據(jù)標(biāo)準(zhǔn)化為:,再用標(biāo)準(zhǔn)正態(tài)分布作來計(jì)算K氏統(tǒng)計(jì)量。但這時統(tǒng)計(jì)量在H0下的分布發(fā)生了改變,Lilliefors(1976)對Kolmogorov的檢驗(yàn)臨界值表作了修正?!纠?-3】以例6-1為例在該例中,對于5%的顯著性
9、水平,不能拒絕原假設(shè)。而按照Kolmogorov的臨界值表,在5%顯著性水平下的臨界值為0.294,要比Lilliefors檢驗(yàn)保守。§4 Smirnov兩樣本檢驗(yàn)一、 Smirnov檢驗(yàn)主要用來檢驗(yàn)兩個樣本是否同時來自于某一總體,設(shè)樣本來自分布,而樣本來自分布為的總體。Smirnov檢驗(yàn)的基本思想和Kolmogorov檢驗(yàn)一樣,因此經(jīng)常通稱這兩個檢驗(yàn)為Kolmogorov-Smirnov擬合優(yōu)度檢驗(yàn),簡稱K-S檢驗(yàn)。1 基本假設(shè)檢驗(yàn)類型為:類型A 對 至少有一個x類型B 對 至少有一個x類型C 對 至少有一個x2 基本方法設(shè)和分別為這兩個樣本的經(jīng)驗(yàn)分布函數(shù)。則檢驗(yàn)A的統(tǒng)計(jì)量可以取式
10、中NOTE:含義其它檢驗(yàn)類型的統(tǒng)計(jì)量仿此可以寫出的分布有表可查,P204,P205大樣本時,有近似分布二、 應(yīng)用舉例【例6-4】檢驗(yàn)兩個地區(qū)的GDP指數(shù)是否具有相同的分布華北五省市區(qū)和華東七省市1996年的GDP指數(shù)(前一年為100)數(shù)據(jù)如下:表6-4 兩個地區(qū)的GDP指數(shù)華北109.2114.3113.5111.0112.7華東113.0112.2112.7114.4115.4113.4112.2檢驗(yàn)這兩個地區(qū)的GDP指數(shù)的分布是否相同。分析:數(shù)據(jù)的計(jì)算過程詳見P126接受H0。§5 2擬合優(yōu)度檢驗(yàn)檢驗(yàn)?zāi)康模簷z驗(yàn)樣本是否來自于某一特定的分布或總體。在20世紀(jì)初,Pearson提出了
11、擬合優(yōu)度的統(tǒng)計(jì)量。其基本做法是:首先將樣本區(qū)間進(jìn)行分割,抽取n個觀察值(相當(dāng)于做了n次試驗(yàn)),則X落在每個區(qū)間中的數(shù)目服從多項(xiàng)分布,我們就是讓這個多項(xiàng)分布去逼近X的分布其中:r為總體分布里待估參數(shù)的個數(shù),k為劃分的組數(shù)??ǚ綌M合優(yōu)度檢驗(yàn)就是用來檢驗(yàn)一批分類數(shù)據(jù)所來自的總體分布是否與某種理論分布相一致,即檢驗(yàn)。其基本思想是:設(shè)總體可以分成類,現(xiàn)對總體作了n次觀察,各類出現(xiàn)的頻數(shù)分別為,且,則在成立時,應(yīng)有實(shí)際頻數(shù)與理論頻數(shù)相差不大。為此,在20世紀(jì)初,Pearson提出了擬合優(yōu)度的統(tǒng)計(jì)量。【例6-5】檢驗(yàn)顧客使用電話是否服從泊松分布詳見P128。§6 二維列聯(lián)表的齊性和獨(dú)立性的檢驗(yàn)統(tǒng)計(jì)
12、量特別適合于分類數(shù)據(jù)的各種模型的檢驗(yàn)。因?yàn)樵诜诸悢?shù)據(jù)的場合不存在假設(shè)分布與由對總體支撐集的劃分所導(dǎo)出分布的區(qū)別。雖然檢驗(yàn)統(tǒng)計(jì)量的形式一樣,但對不同的目的和不同的數(shù)據(jù)結(jié)構(gòu)的解釋是不一樣的。一、 列聯(lián)表的齊性檢驗(yàn)實(shí)際問題中,常遇到:有n組從不同來源得到的數(shù)據(jù),要判定這些數(shù)據(jù)的來源是否相同 如:有來自不同地區(qū)的地質(zhì)樣品,通過這些樣品來了解這些地區(qū)的地質(zhì)結(jié)構(gòu)是否相同。(有相同的分布),統(tǒng)計(jì)上我們可以將這些問題表述為:假定有組樣本,分別取自k個總體,要檢驗(yàn)這k個總體的分布是否相同。這樣的假設(shè)檢驗(yàn)問題稱為“齊次性檢驗(yàn)”。對一般的二維列聯(lián)表P130,可以提出假設(shè)不全相等在H0下,這些概率與j無關(guān),因此的期望
13、值(理論頻數(shù))為,因此期望值,則檢驗(yàn)統(tǒng)計(jì)量為二、 列聯(lián)表的獨(dú)立性檢驗(yàn)關(guān)心的目標(biāo)是兩個變量是否相互影響(獨(dú)立)至少有一個不相等式中,NOTE:對立聯(lián)表的齊次性檢驗(yàn)和獨(dú)立性檢驗(yàn),雖然檢驗(yàn)的統(tǒng)計(jì)量均為統(tǒng)計(jì)量且有相同的分布形式。但兩者之間有一些實(shí)質(zhì)性區(qū)別獨(dú)立性檢驗(yàn)中的數(shù)據(jù)是取自一個總體的二維樣本,而齊次性檢驗(yàn)中的數(shù)據(jù)是取自多個總體的一維樣本;獨(dú)立性檢驗(yàn)是要檢驗(yàn)兩個變量的獨(dú)立性,而齊次性檢驗(yàn)則是要檢驗(yàn)多個總體分布的齊次性;在獨(dú)立性檢驗(yàn)中是隨機(jī)變量,而齊次性檢驗(yàn)中的不是隨機(jī)變量;獨(dú)立性檢驗(yàn)中的統(tǒng)計(jì)量的極限分布只要在時,就成立,而齊次性檢驗(yàn)中的統(tǒng)計(jì)量的極限分布要在都趨于無窮時才成立。三、 應(yīng)用舉例【例6-7】人們?nèi)ト齻€商場的概率是否一樣在一個有三個主要百貨商場的商貿(mào)中心,調(diào)查者問479個不同年齡段的人首先去三個商場中的哪個,結(jié)果如下表表6-6 調(diào)查結(jié)果年齡段商場1商場2商場3總和3083704519831509186151925041381089總和21519470479問:人們?nèi)ミ@三個商場的概率是否一樣。分析:列聯(lián)表的齊次性檢驗(yàn)不全相等拒絕H0?!纠?-8】在喪偶問題上的性別因素和地區(qū)因素是否獨(dú)立按照1996年一個抽樣,我國華北五省市區(qū)的喪偶人數(shù)按性別分為表6
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年慶祝婦女節(jié)活動方案
- 高三上學(xué)期誠實(shí)考試主題班會課件
- 2025年電子式熱過載繼電器項(xiàng)目可行性研究報告
- 2025年電化鋁包裝材料項(xiàng)目可行性研究報告
- 商丘師范學(xué)院《衛(wèi)生微生物學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海民航職業(yè)技術(shù)學(xué)院《新媒體產(chǎn)品設(shè)計(jì)與項(xiàng)目管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 洛陽文化旅游職業(yè)學(xué)院《中醫(yī)體質(zhì)學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東省濟(jì)寧市濟(jì)寧一中2025屆高考生物試題模擬(三診)試題含解析
- 湖南省新化縣2025屆初三下學(xué)期3月練習(xí)卷化學(xué)試題試卷含解析
- 湖北中醫(yī)藥大學(xué)《經(jīng)濟(jì)學(xué)原理》2023-2024學(xué)年第二學(xué)期期末試卷
- 改裝店管理制度
- 醫(yī)療器械生產(chǎn)企業(yè)質(zhì)量控制與成品放行指南
- 常見腫瘤AJCC分期手冊第八版(中文版)
- 高考新課標(biāo)Ⅰ卷語文現(xiàn)代文閱讀Ⅰ試題《后真相時代》講評課件41張
- 幼兒英語卡片-食物系列
- 恒力石化(惠州)有限公司通用碼頭項(xiàng)目竣工驗(yàn)收報告
- rpa財務(wù)機(jī)器人實(shí)訓(xùn)總結(jié)1000字
- 設(shè)備供應(yīng)進(jìn)度計(jì)劃供貨進(jìn)度及保證方案1
- 幼兒疾病預(yù)防與照護(hù)(嬰幼兒照護(hù))PPT完整全套教學(xué)課件
- 日本動漫產(chǎn)業(yè)的發(fā)展歷程及其特點(diǎn)
- 新能源汽車火災(zāi)事故處置程序及方法
評論
0/150
提交評論