




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、非參數(shù)統(tǒng)計學講義主講:統(tǒng)計系 袁靖 第六章 分布檢驗和某些卡方檢驗§1 引 言本章屬于擬合優(yōu)度檢驗問題,即模型檢驗或分布的檢驗,屬于非參數(shù)檢驗的范疇。在初等統(tǒng)計中,人們要想知道數(shù)據(jù)是否服從某一特定分布,可以通過直方圖,或P-P圖,Q-Q圖來直接判斷,但這種直觀的方式很不精確。本章將介紹幾種分布的檢驗:K-S檢驗,Lilliefors檢驗和檢驗。實際上,K-S檢驗是在針對檢驗的缺點 檢驗與K-S檢驗均屬擬合優(yōu)度檢驗,但檢驗常用于定類尺度測量數(shù)據(jù),K-S檢驗還用于定序尺度測量數(shù)據(jù);當預期頻數(shù)較小時,檢驗常需要合并鄰近的類別才能計算,K-S檢驗則不需要,因此它能比檢驗保留更多的信息;對于特
2、別小的樣本數(shù)目,檢驗不能應用,而K-S檢驗則不受限制。此外,檢驗需要人為對總體分布的支撐集進行劃分,將總體分布轉(zhuǎn)化成一種導出分布,后果:樣本信息利用不充分;實際檢驗的是導出分布對數(shù)據(jù)的擬合優(yōu)度,而不是假設(shè)分布對數(shù)據(jù)的擬合優(yōu)度。上提出的。它們是建立在經(jīng)驗分布函數(shù)基礎(chǔ)上的檢驗結(jié)果。§2 Kolmogorov檢驗一、 基本假設(shè)一般地要檢驗手中的樣本是否來自某個已知,假定其真實分布為,對應的檢驗類型有 對 至少有一個x 對 至少有一個x 對 至少有一個x設(shè)為該組數(shù)據(jù)的經(jīng)驗分布函數(shù),則二、 基本方法Kolmogorov于三十年代提出了一種基于經(jīng)驗分布的檢驗方法,基本思想是:由格里文科定理,當時
3、,樣本經(jīng)驗分布以概率1一致收斂到總體分布F,為此可以定義到的距離為當H0成立時,由格氏定理,D以概率1收斂到0,因此D的大小可以度量對總體分布擬合的好壞。可供選擇的檢驗統(tǒng)計量分別為;類型A 類型B 類型C 在實際操作時,如果有n個觀察值,用下面的統(tǒng)計量代替上面的DNOTE:由的取值是離散的,考慮到跳躍性,該能夠保證S與F0之間取得最大距離;在H0下的分布有表可查,P201在大樣本時,有近似分布,這里的分布函數(shù)有表達式,P122,該分布有表可查P203:三、 應用舉例【例6-1】軸承的內(nèi)徑檢驗檢驗某車間生產(chǎn)的20個軸承外座圈的內(nèi)徑,測得數(shù)據(jù)如下(單位:mm)表6-1 軸承內(nèi)徑數(shù)據(jù)15.0415.
4、3614.5714.5315.5714.6915.3714.6614.5215.4115.3414.2815.0114.7614.3815.8713.6614.9715.2914.95按照設(shè)計要求,這個內(nèi)徑應在15±0.2mm,檢驗是否符合標準,即檢驗該數(shù)據(jù)是否來自均值,方差的正態(tài)分布。分析:方法一,可以利用直方圖、Q-Q圖、P-P圖進行直觀判斷;方法二,利用Kolmogorov檢驗由P122表中數(shù)據(jù)得:,拒絕H0,認為不滿足要求。近似,P-值=0.9790.05,接受H0。【例6-2】數(shù)理統(tǒng)計與管理論文作者服從洛特卡分布 洛特卡定律是1926年6月19日洛特卡(Vlachy)在美國
5、頗有影響的學術(shù)刊物華盛頓科學院雜志上首先提出,它第一次提示了作者與文獻量的統(tǒng)計規(guī)律性。在這之后,洛特卡進一步發(fā)展了洛特卡定律,得出這樣的一個關(guān)系:若以x表示每一作者所著的論文數(shù),與其相應的寫x篇論文的作者數(shù)為y,則y與x成反比關(guān)系。將46期的數(shù)理統(tǒng)計與管理的文章按第一作者統(tǒng)計,得到表7-2的結(jié)果。論文作者數(shù)是否服從洛特卡分布。表6-2 論文數(shù)目與作者數(shù)的統(tǒng)計表論文數(shù)(x)1234567作者(y)3432791112分析:洛特卡得出這樣的一個關(guān)系:若以x表示每一作者所著的論文數(shù),與其相應的寫x篇論文的作者數(shù)為y,則y與x成反比關(guān)系。即有式中,N為論文總數(shù),m、C為兩個特定的常數(shù),在不同的學科領(lǐng)域
6、數(shù)值不同。假定根據(jù)表62提供的數(shù)據(jù),認為論文作者服從洛特卡分布,并對其真實性進行檢驗,首先必須確定它的理論分布,即計算出m、C的值。估計m的值,通常采用最小二乘法。將(6.1)式進行對數(shù)變換,使其線性化,得到:m相當于一元線性回歸方程中的回歸系數(shù)b,根據(jù)表中的數(shù)據(jù)運用最小二乘法,得到m=3.0550。關(guān)于C值,可以用這樣一個公式進行近似計算。這是1985年美國情報學家M.L.Pao教授在數(shù)學家的協(xié)助之下提出的。計算式為:經(jīng)計算,。因此46期數(shù)理統(tǒng)計與管理的論文與作者數(shù)的理論洛特卡分布為 為了判定數(shù)理統(tǒng)計與管理論文作者的實際分布是否與理論分布一致,可以采用Kolmogorov檢驗。建立的假設(shè)組為
7、 對 至少有一個x理論累積頻率的各個值,可以將x分別代入(6.3)式計算得到,實際累積頻率是將累計的作者數(shù)分別除以作者總?cè)藬?shù)得到。計算結(jié)果,作者實際累積頻率及理論累積頻率及各個差值如表6-3。表6-3 作者實際累積頻率與理論累積頻率表12345670.83890.93980.96900.98110.98720.99070.99290.89320.96350.98700.98960.99220.99481.00000.05430.02370.01800.00850.00500.00410.0071根據(jù)顯著性水平,作者人數(shù),查表,由于,得臨界值。顯然因此數(shù)據(jù)在1%的顯著性水平上不能拒絕H0,若顯著
8、性水平,查表得臨界值。顯然因此,數(shù)據(jù)在5%的顯著性水平上也不能拒絕H0,可以認為,數(shù)理統(tǒng)計與管理作者的分布服從洛特卡分布。§3 Lilliefors正態(tài)性檢驗Lilliefors正態(tài)性檢驗實質(zhì)上是對Kolmogorov檢驗的一個改進。當用Kolmogorov檢驗某樣本是否來自一正態(tài)總體時,當和未知時,就會用樣本均值作為總體均值的估計,樣本方差作為總體方差的估計,從而將數(shù)據(jù)標準化為:,再用標準正態(tài)分布作來計算K氏統(tǒng)計量。但這時統(tǒng)計量在H0下的分布發(fā)生了改變,Lilliefors(1976)對Kolmogorov的檢驗臨界值表作了修正?!纠?-3】以例6-1為例在該例中,對于5%的顯著性
9、水平,不能拒絕原假設(shè)。而按照Kolmogorov的臨界值表,在5%顯著性水平下的臨界值為0.294,要比Lilliefors檢驗保守。§4 Smirnov兩樣本檢驗一、 Smirnov檢驗主要用來檢驗兩個樣本是否同時來自于某一總體,設(shè)樣本來自分布,而樣本來自分布為的總體。Smirnov檢驗的基本思想和Kolmogorov檢驗一樣,因此經(jīng)常通稱這兩個檢驗為Kolmogorov-Smirnov擬合優(yōu)度檢驗,簡稱K-S檢驗。1 基本假設(shè)檢驗類型為:類型A 對 至少有一個x類型B 對 至少有一個x類型C 對 至少有一個x2 基本方法設(shè)和分別為這兩個樣本的經(jīng)驗分布函數(shù)。則檢驗A的統(tǒng)計量可以取式
10、中NOTE:含義其它檢驗類型的統(tǒng)計量仿此可以寫出的分布有表可查,P204,P205大樣本時,有近似分布二、 應用舉例【例6-4】檢驗兩個地區(qū)的GDP指數(shù)是否具有相同的分布華北五省市區(qū)和華東七省市1996年的GDP指數(shù)(前一年為100)數(shù)據(jù)如下:表6-4 兩個地區(qū)的GDP指數(shù)華北109.2114.3113.5111.0112.7華東113.0112.2112.7114.4115.4113.4112.2檢驗這兩個地區(qū)的GDP指數(shù)的分布是否相同。分析:數(shù)據(jù)的計算過程詳見P126接受H0。§5 2擬合優(yōu)度檢驗檢驗目的:檢驗樣本是否來自于某一特定的分布或總體。在20世紀初,Pearson提出了
11、擬合優(yōu)度的統(tǒng)計量。其基本做法是:首先將樣本區(qū)間進行分割,抽取n個觀察值(相當于做了n次試驗),則X落在每個區(qū)間中的數(shù)目服從多項分布,我們就是讓這個多項分布去逼近X的分布其中:r為總體分布里待估參數(shù)的個數(shù),k為劃分的組數(shù)??ǚ綌M合優(yōu)度檢驗就是用來檢驗一批分類數(shù)據(jù)所來自的總體分布是否與某種理論分布相一致,即檢驗。其基本思想是:設(shè)總體可以分成類,現(xiàn)對總體作了n次觀察,各類出現(xiàn)的頻數(shù)分別為,且,則在成立時,應有實際頻數(shù)與理論頻數(shù)相差不大。為此,在20世紀初,Pearson提出了擬合優(yōu)度的統(tǒng)計量?!纠?-5】檢驗顧客使用電話是否服從泊松分布詳見P128。§6 二維列聯(lián)表的齊性和獨立性的檢驗統(tǒng)計
12、量特別適合于分類數(shù)據(jù)的各種模型的檢驗。因為在分類數(shù)據(jù)的場合不存在假設(shè)分布與由對總體支撐集的劃分所導出分布的區(qū)別。雖然檢驗統(tǒng)計量的形式一樣,但對不同的目的和不同的數(shù)據(jù)結(jié)構(gòu)的解釋是不一樣的。一、 列聯(lián)表的齊性檢驗實際問題中,常遇到:有n組從不同來源得到的數(shù)據(jù),要判定這些數(shù)據(jù)的來源是否相同 如:有來自不同地區(qū)的地質(zhì)樣品,通過這些樣品來了解這些地區(qū)的地質(zhì)結(jié)構(gòu)是否相同。(有相同的分布),統(tǒng)計上我們可以將這些問題表述為:假定有組樣本,分別取自k個總體,要檢驗這k個總體的分布是否相同。這樣的假設(shè)檢驗問題稱為“齊次性檢驗”。對一般的二維列聯(lián)表P130,可以提出假設(shè)不全相等在H0下,這些概率與j無關(guān),因此的期望
13、值(理論頻數(shù))為,因此期望值,則檢驗統(tǒng)計量為二、 列聯(lián)表的獨立性檢驗關(guān)心的目標是兩個變量是否相互影響(獨立)至少有一個不相等式中,NOTE:對立聯(lián)表的齊次性檢驗和獨立性檢驗,雖然檢驗的統(tǒng)計量均為統(tǒng)計量且有相同的分布形式。但兩者之間有一些實質(zhì)性區(qū)別獨立性檢驗中的數(shù)據(jù)是取自一個總體的二維樣本,而齊次性檢驗中的數(shù)據(jù)是取自多個總體的一維樣本;獨立性檢驗是要檢驗兩個變量的獨立性,而齊次性檢驗則是要檢驗多個總體分布的齊次性;在獨立性檢驗中是隨機變量,而齊次性檢驗中的不是隨機變量;獨立性檢驗中的統(tǒng)計量的極限分布只要在時,就成立,而齊次性檢驗中的統(tǒng)計量的極限分布要在都趨于無窮時才成立。三、 應用舉例【例6-7】人們?nèi)ト齻€商場的概率是否一樣在一個有三個主要百貨商場的商貿(mào)中心,調(diào)查者問479個不同年齡段的人首先去三個商場中的哪個,結(jié)果如下表表6-6 調(diào)查結(jié)果年齡段商場1商場2商場3總和3083704519831509186151925041381089總和21519470479問:人們?nèi)ミ@三個商場的概率是否一樣。分析:列聯(lián)表的齊次性檢驗不全相等拒絕H0。【例6-8】在喪偶問題上的性別因素和地區(qū)因素是否獨立按照1996年一個抽樣,我國華北五省市區(qū)的喪偶人數(shù)按性別分為表6
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程承包勞務(wù)合同范本
- 員工福利保險合同條款協(xié)議書
- 農(nóng)村個人購房合同模板版
- 土地使用權(quán)出讓合同標準文本
- 校際聯(lián)賽參賽學生合同條款
- 戰(zhàn)略合作合同模板:油品采購
- 度廣告宣傳合同范本
- 合作開發(fā)項目合同終止協(xié)議
- 辦公室裝修工程設(shè)計合同
- 合同范本:房地產(chǎn)企業(yè)項目貸款合同
- Unit 3 Environmental Protection Reading and Thinking 選擇性必修第三冊
- 小學道德與法治課堂教學中提升學生核心素養(yǎng)策略
- 中水回用項目可行性研究報告
- 基于主題式教學法的初級漢語綜合課《我的低碳生活》教學設(shè)計
- 微信公眾號運營及推廣合同
- 2025年浙江長興文旅集團招聘筆試參考題庫含答案解析
- 醫(yī)院臨床科研大數(shù)據(jù)平臺方案
- 2024年北京市中考生物真題卷及答案解析
- 2023年涼山州西昌市人民醫(yī)院招聘衛(wèi)生專業(yè)技術(shù)人員考試真題
- (2024)湖南省公務(wù)員考試《行測》真題卷及答案解析
- 2025年部編教材的網(wǎng)絡(luò)培訓心得體會
評論
0/150
提交評論