




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、非參數(shù)統(tǒng)計(jì)分析第一章 引言§1.1 關(guān)于非參數(shù)統(tǒng)計(jì) 在初等統(tǒng)計(jì)學(xué)中,最基本的概念是總體,樣本,隨機(jī)變量,分布,估計(jì)和假設(shè)檢驗(yàn)等其很大一部分內(nèi)容是和正態(tài)理論相關(guān)的。在那里,總體的分布形式或分布族往往是給定的或者是假定了的,所不知道的僅僅是一些參數(shù)的值或他們的范圍。于是,人們的任務(wù)就是對一些參數(shù),比如均值和方差(或標(biāo)準(zhǔn)差),進(jìn)行點(diǎn)估計(jì)或區(qū)間估計(jì),或者是對某些參數(shù)值進(jìn)行各種檢驗(yàn),比如檢驗(yàn)正態(tài)分布的均值是否相等或等于零等等最常見的檢驗(yàn)為對正態(tài)總體的t檢驗(yàn),F(xiàn)檢驗(yàn),和最大似然比檢驗(yàn)等 然而,在實(shí)際生活中,那種對總體的分布的假定并不是能隨便做出的。有時(shí),數(shù)據(jù)并不是來自所假定分布的總體;或者,數(shù)據(jù)
2、根本不是來自一個總體;還有可能,數(shù)據(jù)因?yàn)榉N種原因被嚴(yán)重污染。這樣,在假定總體分布的情況下進(jìn)行推斷的做法就可能產(chǎn)生錯誤的結(jié)論。于是,人們希望在不假定總體分布的情況下,盡量從數(shù)據(jù)本身來獲得所需要的信息。這就是非參數(shù)統(tǒng)計(jì)的宗旨。因?yàn)榉菂?shù)統(tǒng)計(jì)方法不利用關(guān)于總體分布的知識,所以,就是在對于總體分布的任何知識都沒有的情況下,它也能很容易而又很可靠地獲得結(jié)論這時(shí),非參數(shù)方法往往優(yōu)于參數(shù)方法。然而,在總體的分布族已知的情況下,不需要任何先驗(yàn)知識就成為它的缺點(diǎn);因?yàn)樗鼪]有充分利用已知的關(guān)于總體分布的信息,所做出的結(jié)論就不如參數(shù)方法得到的精確 在不知總體分布的情況下如何利用數(shù)據(jù)所包含的信息呢?一組數(shù)據(jù)的最基本的
3、信息就是次序如果可以把數(shù)據(jù)點(diǎn)按大小次序排隊(duì),每一個具體數(shù)目都有它的在整個數(shù)據(jù)中(從最小的數(shù)起)的位置或次序,稱為該數(shù)據(jù)的秩(rank)數(shù)據(jù)有多少個觀察值,就有多少個秩在一定的假定下,這些秩和它們的統(tǒng)計(jì)量的分布是求得出來的,而且和原來的總體分布無關(guān)這樣就可以進(jìn)行所需要的統(tǒng)計(jì)推斷。注意,非參數(shù)統(tǒng)計(jì)的名字中的“非參數(shù)(nonparametric)”意味著其方法不涉及描述總體分布的有關(guān)參數(shù);它被稱為和分布無關(guān)(distributionfree),是因?yàn)槠渫茢喾椒ê涂傮w分布無關(guān);不應(yīng)理解為與所有分布(例如有關(guān)秩的分布)無關(guān)§1.2 順序統(tǒng)計(jì)量,秩和線性秩統(tǒng)計(jì)量一、順序統(tǒng)計(jì)量因?yàn)榉菂?shù)方法通常并
4、不假定總體分布。因此,觀測值的順序及性質(zhì)則作為研究的對象。1、順序統(tǒng)計(jì)量:對于樣本X1,X2,X3,Xn,如果按照升冪排列,得到稱為第個順序統(tǒng)計(jì)量。2、 基于順序統(tǒng)計(jì)量的統(tǒng)計(jì)量 中位數(shù)極差3、順序統(tǒng)計(jì)量分布函數(shù) 設(shè)總體的分布函數(shù)F(X),則第r個順序統(tǒng)計(jì)量的分布函數(shù)為(4)順序統(tǒng)計(jì)量密度函數(shù)二、秩統(tǒng)計(jì)量1、秩統(tǒng)計(jì)量設(shè)X1,X2,X3,Xn 來自總體的樣本,記為樣本點(diǎn)的 秩,即=其中 是固定的。它等于小于或等于的的個數(shù)。例如:原始觀測值5.61.42.75.22.64.82.3秩71463522、秩統(tǒng)計(jì)量的分布和數(shù)字特征的聯(lián)合分布為:的概率分布為: 的數(shù)學(xué)期望:的方差:3、線性符號秩統(tǒng)計(jì)量:設(shè)為
5、|X1|,|X2|,|X3|,|Xn|中的秩,定義為整數(shù)1,2,n上的非降函數(shù),滿足,則稱如果X1,X2,X3,Xn為獨(dú)立同分布的連續(xù)隨機(jī)變量,并有關(guān)于0的對稱分布,則4、線性秩統(tǒng)計(jì)量:設(shè)X1,X2,X3,XN為樣本,Ri為Xi在X1,X2,X3,XN中的秩。又定義和為定義在1,2,N上的函數(shù),則稱為線性秩統(tǒng)計(jì)量。稱為記分函數(shù)。稱為回歸常數(shù)。定理 記和,則,。證 因?yàn)?所以 又因?yàn)槔?設(shè)X1,X2,X3,XN為樣本,對秩和統(tǒng)計(jì)量W,有,0或1,視或否,有故5、正態(tài)記分線性秩統(tǒng)計(jì)量令中的,是標(biāo)準(zhǔn)正態(tài)分布函數(shù)的的反函數(shù)。則稱為正態(tài)記分線性秩統(tǒng)計(jì)量。第二章 單樣本非參數(shù)檢驗(yàn)在有了一個樣本之后,很自然
6、地想要知道它所代表的總體的“中心”在哪里例如,在對人們的收入進(jìn)行了抽樣之后,就自然要涉及“人均收入”和“中間收入”等概念這就與統(tǒng)計(jì)中的對總體的均值(mean),中位數(shù)(median)和眾數(shù)(mode)等位置參數(shù)的推斷有關(guān)。例如,在知道總體是正態(tài)分布時(shí),要檢驗(yàn)其均值是否為;一個傳統(tǒng)的基于正態(tài)理論的典型方法是t檢驗(yàn)它的檢驗(yàn)統(tǒng)計(jì)量定義為 這里為樣本均值,而為樣本標(biāo)準(zhǔn)差。t檢驗(yàn)的統(tǒng)計(jì)量在零假設(shè)下有n1個自由度的t分布。檢驗(yàn)統(tǒng)計(jì)量是用樣本標(biāo)準(zhǔn)差s代替了有標(biāo)準(zhǔn)正態(tài)分布的檢驗(yàn)統(tǒng)計(jì)量的總體標(biāo)準(zhǔn)差后而產(chǎn)生的在大樣本時(shí),二者幾乎相等。t檢驗(yàn)也許是世界上用得最廣泛的檢驗(yàn)之一。但是,t檢驗(yàn)并不穩(wěn)健,在不知總體分布時(shí),
7、特別是小樣本時(shí),應(yīng)用t檢驗(yàn)就可能有風(fēng)險(xiǎn)。這時(shí)就要考慮使用非參數(shù)方法。對于本章所要介紹的數(shù)據(jù)趨勢或隨機(jī)性檢驗(yàn),就不存在簡單的參數(shù)方法非參數(shù)方法總是簡單實(shí)用的。 本章所介紹的一些檢驗(yàn)有代表性,因此這里的討論將比其它章節(jié)更為仔細(xì)一旦熟悉了非參數(shù)方法的一些基本思路,后面的內(nèi)容就很容易理解了§2.1 符號檢驗(yàn)和中位數(shù)的置信區(qū)間一、符號檢驗(yàn)(SING TEST)符號檢驗(yàn)(SING TEST)是利用正號和負(fù)號的數(shù)目某假設(shè)做出判定的非參數(shù)方法。 符號檢驗(yàn)雖然是最簡單的非參數(shù)檢驗(yàn),但它體現(xiàn)了非參數(shù)統(tǒng)計(jì)的一些基本思路首先看一個例子。聯(lián)合國人員在世界上66個大城市的生活花費(fèi)指數(shù)(以紐約市1996年12月為
8、100)按自小至大的次序排列如下(這里北京的指數(shù)為99): 66 75 78 80 81 81 82 83 83 83 83 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109110 110 110 111 113 115 116 117 118 155 192這個總體的中間水平是多少?北京使在該水平之上還是之下?(北京為99) 可以假定這個樣本是從世界許多大城
9、市中隨機(jī)抽樣而得的所有大城市的指數(shù)組成總體可能出現(xiàn)的問題是:這個總體的平均(或者中間)水平是多少?北京是在該水平之上還是之下?這里的平均(或中間)水平是一個位置參數(shù)。一般的統(tǒng)計(jì)書中的均值就是一個位置參數(shù)中位數(shù)是另一個位置參數(shù)它們都是數(shù)據(jù)總體中心位置的度量和位置參數(shù)相對的一個參數(shù)為尺度參數(shù);比如在標(biāo)準(zhǔn)統(tǒng)計(jì)課本中的描述數(shù)據(jù)集中和分散程度的方差或標(biāo)準(zhǔn)差 這個例子經(jīng)過簡單計(jì)算,得到樣本均值為96.45,而樣本中位數(shù)為91;它們都可作為總體的中心的估計(jì),除此之外,眾數(shù)(頻率最大的點(diǎn),本例是88)可作為中間位置 通常在正態(tài)總體分布的假設(shè)下,關(guān)于總體均值的假設(shè)檢驗(yàn)和區(qū)間估計(jì)是用與t檢驗(yàn)有關(guān)的方法進(jìn)行的。然而
10、,在本例中,總體分布是未知的為此首先看該數(shù)據(jù)的直方圖從圖中很難說這是什么分布。在右邊的兩個點(diǎn)分別是東京和香港。假定用總體中位數(shù)來表示中間位置,著意味著樣本點(diǎn),取大于M的的概率應(yīng)該與取小于M的概率相等。所研究的問題,可以看作是只有兩種可能“成功”或“失敗”。成功為“+”, 即大于中位數(shù)M;失敗為“-”,即小于中位數(shù)M。令S+=得正符號的數(shù)目S=得負(fù)符號得數(shù)目可以知道S+或S 均服從二項(xiàng)分布B(66,0.5)。則和可以用來作檢驗(yàn)的統(tǒng)計(jì)量。:;: :;: :;: 對于左側(cè)檢驗(yàn):;: ,當(dāng)零假設(shè)為真的下,應(yīng)該不大不小。當(dāng)過小,即只有少數(shù)的觀測值大于,則可能太大,目前總體的中位數(shù)可能要小一些。如果,則拒
11、絕原假設(shè)。對于右側(cè)檢驗(yàn):;: ,當(dāng)零假設(shè)為真的下,應(yīng)該不大不小。當(dāng)過大,即有多數(shù)的觀測值大于,則可能太小,目前總體的中位數(shù)可能要大一些。如果,則拒絕原假設(shè)。雙側(cè)檢驗(yàn)對備擇假設(shè)H1來說關(guān)心的是等于正的次數(shù)是否與等于負(fù)的次數(shù)有差異。所以當(dāng)小于顯著性水平則拒絕原假設(shè)。 我們來看上面的例:備擇檢驗(yàn):M<99。一般來說,備擇假設(shè)采用我們覺得有道理的方向。因?yàn)橹挥幸稽c(diǎn)為99,舍去這一點(diǎn),于是從66減少到65。而=23,在零假設(shè)下(下面概率p=0.5),二項(xiàng)分布的概率:。 如果很小就可以拒絕零假設(shè)上面這個概率就是該檢驗(yàn)的p值。在這里的例子中n65,k23,p=0.5。查表p值為0.0124。 也就是說
12、,在零假設(shè)下,目前由該樣本所代表的事件的發(fā)生的概率僅為0.0124,所以不大可能。也就是說,北京的生活指數(shù)(99)不可能小于世界大城市的中間水準(zhǔn) 對于雙邊假設(shè)檢驗(yàn),為計(jì)算方便,一般取相應(yīng)于和中較小的一個做檢驗(yàn)統(tǒng)計(jì)量;如用K表示,則K=min(,)。在本例子中,因?yàn)槭请p邊檢驗(yàn),這P值應(yīng)該二倍于單側(cè)檢驗(yàn)的。為0.0248。 :;: :;: 檢驗(yàn)統(tǒng)計(jì)量(=23)(=23)P-值=0.01242=0.0248檢驗(yàn)的結(jié)果拒絕零假設(shè)拒絕零假設(shè)結(jié)論中位數(shù)小于99中位數(shù)不等于99下面說一下具體的計(jì)算問題在n比較小時(shí),可以用前面的二項(xiàng)分布的公式來計(jì)算精確p值利用查表。但是當(dāng)n較大時(shí),就要用正態(tài)分布來近似。如果又
13、是二項(xiàng)隨機(jī)變量,當(dāng)n較大時(shí), 比如大于25,則可近似地認(rèn)為在零假設(shè)下服從正態(tài)N(0,1)分布。但是由于正態(tài)分布是連續(xù)分布,所以要連續(xù)修正當(dāng)取正號,反之取負(fù)號。例 生產(chǎn)過程是否需要調(diào)整。 某企業(yè)生產(chǎn)一種鋼管,規(guī)定長度的中位數(shù)是l0米?,F(xiàn)隨機(jī)地:從正在生產(chǎn)的生產(chǎn)線上選取10根進(jìn)行測量,結(jié)果: 9.8 10.1 9.7 9.9 9.8,10.0,9.7 10.0,9.9 9.8分析:中位數(shù)是這個問題中所關(guān)心的一個位置參數(shù)。若產(chǎn)品長度真正的中位數(shù)大于或小于10米,則生產(chǎn)過程需要調(diào)整。這是一個雙側(cè)檢驗(yàn),應(yīng)建立假設(shè):;: 為了對假設(shè)作出判定,先要得到檢驗(yàn)統(tǒng)計(jì)量或。將調(diào)查得到數(shù)據(jù)分別與10比較,算出各個符號
14、的數(shù)目:=1,=7,=8。, P值=0.704大于顯著性水平0.05。表明調(diào)查數(shù)據(jù)支持原假設(shè)。即生產(chǎn)過程不需要調(diào)整。二、基于符號檢驗(yàn)的中位數(shù)置信區(qū)間例 我國國有經(jīng)濟(jì)15個行業(yè)的1996年職工平均工資按從小到大的次序?yàn)椋▎挝唬涸?038 4940 5798 6161 6344 6610 6695 67096967 6992 7897 7987 8546 8679 8701求中位數(shù)的置信區(qū)間。把n個樣本點(diǎn)按從小達(dá)到的順序排列,得假設(shè)順序統(tǒng)計(jì)量,由構(gòu)成區(qū)間作為中位數(shù)的置信區(qū)間。由于大于和小于中位數(shù)M的樣本點(diǎn)數(shù)服從B(N,0.5)由于得到的區(qū)域是以中位數(shù)位對稱的,故kP(K<k)1-2
15、5;P(K<k)置信區(qū)間區(qū)間長00.00000001.00000004038,8701466310.00003050.99993904940,8679373920.00048830.99902345789,8546275730.00369260.99261476161,7987182640.01757810.96484386344,699264850.05923460.88153086610,6967357在區(qū)間估計(jì)中,區(qū)間的長度(估計(jì)精度)和置信度(概率保證度)是刻畫估計(jì)優(yōu)劣的兩個指標(biāo),我們要求精度越高,保證度越大越好,但二者是相互矛盾的,故選擇6344,6992,其區(qū)間較短,而概率保
16、證度較大。§2.2 Wilcoxon符號秩檢驗(yàn)Wilcoxon符號秩檢驗(yàn)是對符號檢驗(yàn)的一種改進(jìn),前面的符號檢驗(yàn)只利用了樣本差異方向上的信息,并未考慮到差別的大小,所以Wilcoxon符號秩檢驗(yàn)彌補(bǔ)了符號檢驗(yàn)的不足。一、Wilcoxon符號秩檢驗(yàn)的思想Wilcoxon符號秩檢驗(yàn)是檢驗(yàn)關(guān)于中位數(shù)對稱的總體的中位數(shù)是否等于某個特定值,檢驗(yàn)假設(shè): :;: :;: :;: 為了對假設(shè)作出判定,需要從總體中隨機(jī)抽取一個樣本得到n個觀察值。這n個數(shù)據(jù)至少是定距尺度測量,若是定序尺度測量,則檢驗(yàn)所需的等級、符號都應(yīng)能被得到n個觀察值記作x1,x2,xn,它們分別與的差值記為, (il,2,n)。如果
17、為真,那么觀察值圍繞分布,即關(guān)于0對稱分布。這時(shí),對于來說,正的差值和負(fù)的差值應(yīng)近似地相等。為了借助等級大小作判定,先忽略的符號,而取絕對值|,對|按大小順序分等級。再按本身符號的正、負(fù)分別加總它們的等級即秩次,得到正等級的總和與負(fù)等級的總和。雖然等級本身都是正的,但這里是按的符號計(jì)算的等級和。為真時(shí),正等級的總和與負(fù)等級的總和應(yīng)該近似相等。如果正等級的總和遠(yuǎn)遠(yuǎn)大于負(fù)等級的總和,表明大部分大的等級是正的差值,即為正的等級大。這時(shí),數(shù)據(jù)支持備擇假設(shè): ,即實(shí)際的中位數(shù)比M0大。類似的,如果負(fù)等級的總和遠(yuǎn)遠(yuǎn)大于正等級的總和,表明大部分大的等級是負(fù)的差值,即為負(fù)的等級大。這時(shí),數(shù)據(jù)支持備擇假設(shè): ,
18、即實(shí)際的中位數(shù)比M0小。因?yàn)檎燃壓拓?fù)等級的總和是個恒定的值,即 l十2十十n2(n十1)2,因此對于雙側(cè)備擇: 來說,兩個總和中無論哪一個太大,都可以被支持。檢驗(yàn)統(tǒng)計(jì)量。Wilcoxon符號秩檢驗(yàn)所定義的檢驗(yàn)統(tǒng)計(jì)量為 正等級的總和即正秩次總和 負(fù)等級的總和即負(fù)秩次總和二、檢驗(yàn)的步驟(1) 計(jì)算,它們代表這些樣本點(diǎn)到從的距離; (2) 把上面的n個絕對值排序,并找出它們的n個秩;如果有相同的樣本點(diǎn),每個點(diǎn)取平均秩(如1,4,4,5的秩為1,2.5,2.5,4);(3) 令等于的的秩和;等于的的秩和。注意:n(n+1)2;(4) 對雙邊檢驗(yàn):;: ,在零假設(shè)下,應(yīng)差不多因而,當(dāng)其中之一非常小時(shí),
19、應(yīng)懷疑零假設(shè);在此,取檢驗(yàn)統(tǒng)計(jì)量T=min(,)。類似地,對:;: ,取T=;對:;: ,取T= 。 (5) 根據(jù)得到的T值,查Wilcoxon符號秩檢驗(yàn)的分布表以得到在零假設(shè)下P值如果n很大要用正態(tài)近似:得到一個與T有關(guān)的正態(tài)隨機(jī)變量Z的值,再查表得P值?;蛑苯佑糜?jì)算機(jī)得到P值。(6) 如P值較小(比如小于或等于給定的顯著性水平0.05)則可以拒絕零假設(shè)特別,當(dāng)樣本容量很大時(shí),可利用正態(tài)近似,利用線性符號秩的概念有同理:;于是統(tǒng)計(jì)量為 做為比較,現(xiàn)在利用正態(tài)近似對世界大城市再做Wilcoxon符號秩檢驗(yàn):;: :;: 檢驗(yàn)統(tǒng)計(jì)量Z=-2.5725Z=-2.5725P-值=0.0052=0.0
20、1檢驗(yàn)的結(jié)果拒絕零假設(shè)拒絕零假設(shè)結(jié)論中位數(shù)小于99中位數(shù)不等于99注意,該例利用Wilcoxon符號秩檢驗(yàn)所得得結(jié)論與符號檢驗(yàn)結(jié)論一樣,但P值是符號檢驗(yàn)的一半,這是因?yàn)閃ilcoxon符號秩檢驗(yàn)利用符號檢驗(yàn)沒有用的信息,但Wilcoxon符號秩檢驗(yàn)假設(shè)分布是對稱的,如果對稱性不成立,則還是符號檢驗(yàn)號。Wilcoxon符號秩檢驗(yàn)表假設(shè)檢驗(yàn)的統(tǒng)計(jì)量P值:;: :;: :;: 需要說明的是,這里看上去是按照備擇假設(shè)的方向選作為檢驗(yàn)統(tǒng)計(jì)量 但是實(shí)際上往往是按照實(shí)際觀察的的大小來確定備擇假設(shè)。在選定備擇假設(shè)(比如: )之后,我們之所以選作為檢驗(yàn)統(tǒng)計(jì)量,是因?yàn)樗鼈兊挠^察值比的小,因而計(jì)算或查表(表只有一個
21、方向)要方便些如果利用統(tǒng)計(jì)軟件或大樣本正態(tài)近似,則選哪一個都沒有關(guān)系打結(jié)的情況在許多情況下,數(shù)據(jù)中有相同的數(shù)字,稱為結(jié)(tie)結(jié)中數(shù)字的秩為它們按升冪排列后位置的平均值比如2.5,3.1,3.1,6.3,10.4這五個數(shù)的秩為1,2.5,2.5,4,5。也就是說,處于第二和第三位置的兩個3.1得到秩(2十3)22.5這樣的秩稱為中間秩。如果結(jié)多了,零分布的大樣本公式就不準(zhǔn)了。因此,在公式中往往要作修正。其中用i表示第i個結(jié)的性同觀測值的個數(shù)。用g表示結(jié)的個數(shù)。觀測值2 247 7 789 9 9 910秩1.5 1.535 5 579.5 9.5 9.5 9.512結(jié)統(tǒng)計(jì)量i234§
22、;2.3 正態(tài)記分檢驗(yàn)另一種檢驗(yàn)的統(tǒng)計(jì)量是正態(tài)記分檢驗(yàn)。一、思想在各種各樣的秩檢驗(yàn)中,檢驗(yàn)的統(tǒng)計(jì)量為秩的函數(shù),而秩本身在沒有結(jié)時(shí)是有窮個自然數(shù)的排列,它的分布是均勻分布。人們自然會用其他分布的樣本。自然我們會想到正態(tài)分布。正態(tài)記分檢驗(yàn)的基本思想就是:首先將按升冪排列,記為的秩,把升冪排列的秩用升冪排列的正態(tài)分位點(diǎn)來替代,并賦予其符號。二、檢驗(yàn)我們在Wilcoxon符號檢驗(yàn)的基礎(chǔ)上,建立線性符號秩統(tǒng)計(jì)量由于要求,我們用()記分, 檢驗(yàn)的假設(shè)為:;: :;: :;: 則檢驗(yàn)的統(tǒng)計(jì)量為 或例、下面的數(shù)據(jù)是亞洲10個國家的新生兒死亡率()33 36 31 15 9 6 4 65 77 88:;: 秩符
23、號記分33-110.5454550.114185-0.114180.01303836220.5909090.2298840.229880.05284731-330.6363640.348756-0.348760.12163115-1940.6818180.472789-0.472790.223539-2550.7272730.604584-0.604580.3655226-2860.7727270.747859-0.747860.5592944-3070.8181820.908458-0.908460.825296653180.8636361.0968031.0968031.202977774
24、390.9090911.3351791.3351791.7827038854100.9545451.6906231.6906232.858207合計(jì)0.6968.005V=(0.229884+1.096803+1.335179+1.690623)=4.3520.407從結(jié)論可以看出不能拒絕原假設(shè)。注:一種等價(jià)的統(tǒng)計(jì)量。 將按升冪排列,記為的秩,把升冪排列的秩用升冪排列的正態(tài)分位點(diǎn)來替代,并賦予其符號,得符號正態(tài)記分為:新的統(tǒng)計(jì)量實(shí)際上, 可以證明, 所以§2.4 Cox-Stuart趨勢檢驗(yàn) 人們經(jīng)常要看某項(xiàng)發(fā)展的趨勢但是從圖表上很難看出是遞增,遞減,還是大致持平。我國自1985年到
25、1996年出口和進(jìn)口的差額(balance)為(以億美元為單位) 149.0 119.7 37.7 77.5 66.0 87.4 80.5 43.5 122.2 54.0 167.0 122.2 從這個數(shù)字,我們能否說這個差額總的趨勢是增長,還是減,還是都不明顯呢?下圖為該數(shù)據(jù)的散點(diǎn)圖。從圖可以看出,總趨勢似乎是增長,但1993年有個低谷;這個低谷能否說明總趨勢并不是增長的呢?我們希望能進(jìn)行檢驗(yàn) 類似于前面的檢驗(yàn),這里有三種假設(shè): 1、:無增長趨勢 :有增長趨勢 2、:無減少趨勢 :有減少趨勢 3、:無趨勢 :有增長或減少趨勢 形式上,該檢驗(yàn)問題可以重新敘述為:假定獨(dú)立觀察跳x1,x2,,xn
26、分別來自分布為的總體,這里F(·)對稱于零點(diǎn)。上面第一個單邊檢驗(yàn)為 :,:不盡相同。怎么進(jìn)行這些檢驗(yàn)?zāi)?可以把每一個觀察值和相隔大約n2的另一個觀察值配對比較;因此大約有n2個對子然后看增長的對子和減少的對子各有多少來判斷總的趨勢具體做法為,取和。這里 在這個例子中n=12,因而c6。這6個對子為(x1,x7),(x2,x8),(x3;,x9),(x4,x10),(x5,xl1),(x6,n12) 用每一對的兩元素差的符號來衡量增減令為正的數(shù)目,而令為負(fù)的的數(shù)顯然當(dāng)正號太多時(shí),即很大時(shí)(或很小時(shí)),有下降趨勢,反之,則有增長趨勢在沒有趨勢的零假設(shè)下它們應(yīng)服從二項(xiàng)分布b(6,0.5),
27、這里n為對子的數(shù)目(不包含差為0的對子)該檢驗(yàn)在某種意義上是符號檢驗(yàn)的一個特例類似于符號檢驗(yàn),對于上面1,2,3三種檢驗(yàn),分別取檢驗(yàn)統(tǒng)計(jì)量,和在本例中,這6個數(shù)據(jù)對的符號為 5負(fù)1正,這表明可能有增長的趨勢因此需要檢驗(yàn) :無增長趨勢 :有增長趨勢假設(shè)檢驗(yàn)的統(tǒng)計(jì)量P值:無增長趨勢 :有增長趨勢:無減少趨勢 :有減少趨勢:無趨勢 :有增長或減少趨勢2§2.5 游程檢驗(yàn)一、游程的概念一個可以屬性總體,如按性別區(qū)分的人群,按產(chǎn)品是否有毛病區(qū)分的總體等等,隨機(jī)從中拍取一個樣本,樣本也可以分為兩類;類型I和類型E。若凡屬類型L的給以符號A,類型E的給以符號月,則當(dāng)樣本按某種順序排列(如按抽取時(shí)間
28、先后排列)時(shí),一個或者一個以上相同符號連續(xù)出現(xiàn)的段,就被稱作游程,也就是說,游程是在一個兩種類型的符號的有序排列中,相同符號連續(xù)出現(xiàn)的段。例如,將某售票處排隊(duì)等候購票的人按性別區(qū)分,男以A表示,女以月表示。按到來的時(shí)間先后觀察序列為:AABABB。在這個序列中,AA為一個游程,連續(xù)出現(xiàn)兩個A;及是一個游程,領(lǐng)先它的是符號A,跟隨它的也是符號山顯然,A也是一個游程,BB也是一個游程。于是,在這個序列中,A的游程有2個,B的游程也有2個,序列共有4個游程。每一個游程所包含的符號的個數(shù),稱為游程的長度。如上面的序列中,有一個長度為2的A游程、一個長度為2的B游程,長度為1的A游程、B游程也各有1個。
29、二、原理1、假設(shè)隨機(jī)抽取的一個樣本,其觀察值按某種順序排列,如果研究所關(guān)心的問題是:被有序排列的兩種類型符號是否隨機(jī)排列,則可以建立雙側(cè)備擇假設(shè)組為H0: 序列是隨機(jī)的 H1: 序列不是隨機(jī)的如果關(guān)心的是序列是否具有某種傾向,則應(yīng)建立單側(cè)備擇,假設(shè)組為H0: 序列是隨機(jī)的 H1: 序列具有混合的傾向 H。:序列是隨機(jī)的H1: 序列具有成群的傾向 為了對假沒作出判定,被收集的樣本數(shù)據(jù)僅需定類尺度測量,但要求進(jìn)行有意義的排序,按一定次序排列的樣本觀察值能夠被變換為兩種類型的符號。如某售票處按到來的先后順序排隊(duì)購票的人,按性別分別記作A、B兩種類型的符號,可以得到一個序列:AABABB。第一種類型的
30、符號數(shù)目記作m,第二種記作n,Nm+n。2、檢驗(yàn)統(tǒng)計(jì)量在H0為真的情況下,兩種類型符號出現(xiàn)的可能性相等,其在序列中是交互的。相對于一定的m和n,序列游程的總數(shù)應(yīng)在一個范圍內(nèi)。若游程的總數(shù)過少,表明某一游程的長度過長,意味著有較多的同一符號相連,序列存在成群的傾向;若游程總數(shù)過多,表明游程長度很短,意味著兩個符號頻繁交替,序列具有混合的傾向。因此,無論游程的總數(shù)過多或過少,都表明序列不是隨機(jī)的。根據(jù)兩種類型符號的變化。選擇的檢驗(yàn)統(tǒng)計(jì)量為U游程的總數(shù)目游程R分布的證明是比較麻煩的。先在m+n個抽屜里隨機(jī)選擇m個,有種方法。如果游程數(shù)為奇數(shù)R=2K1,這意味著: 1、必定有k+1個由“1”構(gòu)成的游程
31、和k個 由“0”構(gòu)成的游程; 2、或必定有k+1個由“0”構(gòu)成的游程和k個 “1”構(gòu)成的游程。 這就必須在m1個位置中插入K個“隔離元”,使有 “1”有k+1個游程,可以有 種,同樣可以在n-1個“0”的n-1個空位上插入K-1個“隔離元”,有種。共有有利基本事件數(shù)。所以如果游程數(shù)為偶數(shù)R=2K,這意味著“0”和“1”各有k個游程,則當(dāng)N足夠大,則3、確定P值若p相對于給定的顯著性水平小,則數(shù)據(jù)不支持H0;若足夠大,則不拒絕H0。下表是判定的指導(dǎo)表。備擇假設(shè)P值序列具有混合的傾向(游程大)Z的右尾概率序列具有聚類的傾向(游程?。㈱的左尾概率序列是非隨機(jī)的Z的較小的尾巴概率的兩倍三、應(yīng)用1、用于
32、檢驗(yàn)兩個總體的分布的位置參數(shù)是否相同設(shè)X和Y分別具有分布函數(shù)和,檢驗(yàn):。在我國的工業(yè)和商業(yè)企業(yè)中隨機(jī)抽取22家企業(yè)進(jìn)行資產(chǎn)負(fù)債率行業(yè)差異分析,其1999年底的資產(chǎn)負(fù)債率()如下:工業(yè)647655825982707561647383商業(yè)77808065939184918486兩個行業(yè)的負(fù)債水平是否有顯著性差異。順序12345678910111213141516171819202122負(fù)債率55596164646570737576778080828283848486919193組別111112111122211122222211111,2,1111,222,111,222222共有6各游程。如果原
33、假設(shè)成立,則兩個行業(yè)的負(fù)債水平的分布使相同的,將其混合后,應(yīng)能較為充分、均勻地混合,游程數(shù)R應(yīng)該比較大,反之當(dāng)游程數(shù)R較小,則說明兩個總體的分布可能不同。2、檢驗(yàn)單樣本的隨機(jī)性從生產(chǎn)線上抽取產(chǎn)品檢驗(yàn),是否應(yīng)采用頻繁抽取小樣本的方法。在一個剛剛建成的制造廠內(nèi),質(zhì)檢員需要設(shè)計(jì)一種抽樣方法,以保證質(zhì)量檢驗(yàn)的可靠性。生產(chǎn)線上抽取的產(chǎn)品可以分成兩類,有瑕疵,無瑕疵。檢驗(yàn)非用與受檢產(chǎn)品數(shù)量有關(guān)。一般情況下,有毛病的產(chǎn)品如果是成群出現(xiàn)的,則要頻繁抽取小樣本,進(jìn)行檢驗(yàn)。如果有毛病的產(chǎn)品是隨機(jī)產(chǎn)生的,則每天以間隔較長地抽取一個大樣本?,F(xiàn)隨機(jī)抽了30件產(chǎn)品,按生產(chǎn)線抽取的順序排列:檢驗(yàn)瑕疵的產(chǎn)品是隨機(jī)出現(xiàn)的嗎?有
34、瑕疵的產(chǎn)品是隨機(jī)出現(xiàn) 有瑕疵的產(chǎn)品是成群出現(xiàn)VAR00002Test Value1.0000Cases < Test Value7Cases >= Test Value23Total Cases30Number of Runs4Z-3.811Asymp. Sig. (2-tailed).000 -2.84316當(dāng), Runs Test VAR00001Test Value(a)1.00Cases < Test Value7Cases >= Test Value13Total Cases20Number of Runs4Z-2.843Asymp. Sig. (2-tail
35、ed).004a Median第三章 兩相關(guān)樣本的非參數(shù)檢驗(yàn)在實(shí)際生活中,常常要比較成對數(shù)據(jù)。比如比較兩種處理,如藥物,飲食,材料,管理方法等等。有時(shí)要同時(shí)比較,有時(shí)要比較處理前后的區(qū)別.例如,某鞋廠比較兩種材料的耐磨性,如果讓兩組不同的人來實(shí)驗(yàn),則因?yàn)槿藗兊男袨椴町惡艽?,所以,不能進(jìn)行公平的比較,如果讓某個樣本的左右兩只鞋分別用不同的材料作成,實(shí)驗(yàn)的條件就很相似了。所謂兩個相關(guān)樣本,是指兩樣本之間存在著某種內(nèi)在聯(lián)系。§3.1 符號檢驗(yàn)一、 基本方法設(shè)X和Y分別具有分布函數(shù)F(x)和f(y),從兩個總體得隨機(jī)配對樣本數(shù)據(jù),研究X和Y是否具有相同得分布函數(shù)。即檢驗(yàn):。如果兩個總體具有相
36、同的分布,則其中位數(shù)應(yīng)該相等,所以檢驗(yàn)的假設(shè)為:配對資料符號檢驗(yàn)的計(jì)算步驟為:與單樣本的符號檢驗(yàn)一樣,也定義S+和S-為檢驗(yàn)的統(tǒng)計(jì)量。由于S+和S-的抽樣分布為二項(xiàng)分布,如果S+大小適中,則支持原假設(shè),否則S+太大,S-太小,則支持;S+太小,S-太大,則支持。令,則檢驗(yàn)的準(zhǔn)則如下表:; ; ; 例 從實(shí)行適時(shí)管理(JIT)的企業(yè)中,隨機(jī)抽取20家進(jìn)行效益分析,它們在實(shí)施JIT前后三年的平均資產(chǎn)報(bào)酬率。問在5的顯著性水平下,企業(yè)在實(shí)施JIT前后的資產(chǎn)報(bào)酬率是否有顯著差異?實(shí)施JIT前15.814.915.215.815.514.61514.915.115.5實(shí)施JIT后14.615.515.5
37、14.715.214.814.814.615.315.5符號+-+-+-0實(shí)施JIT前14.714.714.71514.914.915.314.615.515.5實(shí)施JIT后14.414.314.915.514.314.514.614.815.215符號+-+-+應(yīng)該接受原假設(shè),即企業(yè)在實(shí)施JIT前后的資產(chǎn)報(bào)酬率沒有顯著差異?§3.2 兩樣本配對Wilcoxon檢驗(yàn)前面的符號檢驗(yàn)只用到它們差異的符號,而對數(shù)字大小所包含的信息未能考慮。因此為改進(jìn)信息的利用效率,可采用兩樣本配對Wilcoxon檢驗(yàn)。配對Wilcoxon檢驗(yàn)既考慮了正、負(fù)號,又考慮了兩者差值的大小。Wilcoxon符號秩
38、檢驗(yàn)的步驟:1、 計(jì)算各觀察值對的偏差Di=Xi-Yi;2、 求偏差的絕對值|Di|=|Xi-Yi|;3、 按偏差絕對值的大小排序4、 考慮各偏差的符號,由絕對值偏差秩得到符號值;5、 分別計(jì)算正、負(fù)符號秩的和和;6、 統(tǒng)計(jì)量7、 結(jié)論于是統(tǒng)計(jì)量為 假設(shè)檢驗(yàn)的統(tǒng)計(jì)量(k) P值 2例如, 現(xiàn)從上海證券交易所的上市公司隨機(jī)抽取10家,觀察其1999年年終財(cái)務(wù)報(bào)告公布前后三日的品軍股價(jià),試問:我國上市公司公報(bào)對股價(jià)是否有顯著性影響?上市公司序號12345678910年報(bào)公布前15211813351017231425年報(bào)公布后1718251640821312225Xi1521181335101723
39、1425Yi1718251640821312225Di= Xi-Yi-23-7-3-52-4-8-80Di的符號2373524880|Di|的秩1.53.573.561.558.58.5應(yīng)該拒絕原假設(shè)。第四章 兩獨(dú)立樣本的非參數(shù)檢驗(yàn) 在單樣本位置問題中,人們想要檢驗(yàn)的是總體的中心是否等于一個已知的值但在實(shí)際問題中,更受注意的往往是比較兩個總體的位置參數(shù);比如。兩種訓(xùn)練方法中哪一種更出成績,兩種汽 油中哪一個污染更少,兩種市場營銷策略中那種更有效等等 作為一個例子我國沿海和非沿海省市區(qū)的人均國內(nèi)生產(chǎn)總值(GDP)的1997年抽樣數(shù)據(jù)如下(單位為元)沿海省市區(qū)為(Y1,Y2,Y12): 15044
40、 12270 5345 7730 22275 84479455 8136 6834 9513 4081 5500而非沿海的為對(x1,x2,,x18): 5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167 人們想要知道沿海和非沿海省市區(qū)的人均GDP的中位數(shù)是否一樣這就是檢驗(yàn)兩個總體的位置參數(shù)是否相等的問題假定代表兩個獨(dú)立總體的隨機(jī)樣本(Y1,Y2,Y12)和(x1,x2,,x18),則問題歸結(jié)為檢驗(yàn)它們總體的均值(或中位數(shù))的差是否相等,或是否等于某個已知值換言之,即
41、檢驗(yàn) :;: :;: :;: 在正態(tài)假定下,這些問題化為:t檢驗(yàn)并不穩(wěn)健,在不知總體分布時(shí),應(yīng)用t檢驗(yàn)時(shí)會有風(fēng)險(xiǎn)的。§4.1 Brown-Mood 中位數(shù)檢驗(yàn)令沿海地區(qū)的人均GDP的中位數(shù)為MX,而內(nèi)地的為MY。零假設(shè)為:;: 顯然,在零假設(shè)下,中位數(shù)如果一樣的話,它們共同的中位數(shù),即這(12十18)=30個數(shù)的樣本中位數(shù)(記為此),應(yīng)該對于每一列數(shù)據(jù)來說都處于中間位置也就是說,(Y1,Y2,Y12)和(x1,x2,,x18)中大于或小于的樣本點(diǎn)應(yīng)該大致一樣多,計(jì)算他們的混合樣本中位數(shù)為4690.5。在用兩個樣本和比較之后得到各個樣本中大于和小于它的數(shù)目XY總和觀察值大于Mxy的數(shù)目
42、11415觀察值小于Mxy的數(shù)目11415121830可以看出上面的表是一個2x2列聯(lián)表。 由初等概率可知,對于一般的2x2列聯(lián)表。 XY 總和 MxyabT=a+bMxy m-an-b(m+n)-(a+b)總和mnm十n 在原假設(shè)成立的條件下,這個結(jié)果有一點(diǎn)象超幾何分布。 A=在樣本中大于的樣本點(diǎn)數(shù),則取在樣本中大于的樣本點(diǎn)數(shù)作為檢驗(yàn)的統(tǒng)計(jì)量,則應(yīng)該不大不小,如果太大或太小,則應(yīng)該懷疑原假設(shè)。 假設(shè)檢驗(yàn)的統(tǒng)計(jì)量 P值 AAA2(,)總體容量:30總體中成功的次數(shù):15樣本容量:12樣本中成功的次數(shù):11= =0.000237+0.00000526=0.000242=4.5/1.34=3.36
43、假設(shè)檢驗(yàn)的統(tǒng)計(jì)量P值A(chǔ)=0.00242§4.2 Wlicoxon(Mann-Whitney)秩和檢驗(yàn)在前面一節(jié),比較兩個總體的中位數(shù)的檢驗(yàn)時(shí),只利用了樣本大于或小于共同中位數(shù)的數(shù)目,如同前面的單獨(dú)符號秩檢驗(yàn)一樣,只有方向的信息,沒有差異大小的信息。作為單樣本的Wlicoxon秩和檢驗(yàn)的推廣,下面我們討論兩個樣本的Wlicoxon秩和檢驗(yàn)。設(shè)(X1,X2,X3,Xm)和(Y1,Y2,Yn)分別為兩個連續(xù)總體Fx和Fy中隨機(jī)抽取出來的樣本,我們關(guān)心兩個總體是否有相同的分布形狀,或者他們的中位數(shù)是否相等。為了對假設(shè)作出判定, 如果H0為真,那么將m個x、n個y的數(shù)據(jù),按數(shù)值的相對大小從小到
44、大排序,X、y的值應(yīng)該期望被很好地混合,這m十nN個觀察值能夠被看作來自于共同總體的一個單一的隨機(jī)樣本。若大部分的y大于X,或大部分的x大于y,將不能證實(shí)這個有序的序列是一個隨機(jī)的混合,將拒絕X、y來自一個相同總體的零假設(shè)。在X、y混合排列的序列中,X占有的位置是相對于y的相對位置,因此等級或秩是表示位置的一個極為方便的方法。在x、y的混合排列中,等級1是最小的觀察值,等級N是最大的。若X的等級大部分大于y的等級,那么數(shù)據(jù)將支持H1:Mx>My,而x的等級大部分小于y的等級,則數(shù)據(jù)將支持H1:Mx<My。檢驗(yàn)統(tǒng)計(jì)量。根據(jù)上面的基本原理,檢驗(yàn)統(tǒng)計(jì)量為的秩和的秩和由于X、y的混合序列的
45、等級和為:1+2+N=N(N+1)/2 所以檢驗(yàn)的統(tǒng)計(jì)量: 的秩和注:等價(jià)的統(tǒng)計(jì)量:如有第一個總體的樣本:x1,x2,,xm和第二個總體的樣本:以y1,y2, ,yn,N=m+n。令使把所有的y觀測值與x觀測值做比較后,x大于y的個數(shù)。令使把所有的x觀測值與y觀測值做比較后,y大于x的個數(shù)有 我們來說明兩個公式的成立。如僅僅將x1,x2,,xn排序后,其秩和為:m(m+1)/2。比如某個Xi是最小的,即。但是如果是兩個總體的合在一起排序,不妨假設(shè)故x大于y的個數(shù)為2,所以Xi的混合秩為??紤]所有的,則可得上面兩式??梢宰C明:則當(dāng)n足夠大時(shí),假設(shè)檢驗(yàn)的統(tǒng)計(jì)量(k)P值或或2用前面的例題作為一個例
46、子我國沿海和非沿海省市區(qū)的人均國內(nèi)生產(chǎn)總值(GDP)的1997年抽樣數(shù)據(jù)如下(單位為元)沿海省市區(qū)為(Y1,Y2,Y12): 15044 12270 5345 7730 22275 84479456 8136 6834 9513 4081 5500而非沿海的為對(x1,x2,,x18): 5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167 人們想要知道沿海和非沿海省市區(qū)的人均GDP的中位數(shù)是否一樣這就是檢驗(yàn)兩個總體的位置參數(shù)是否相等的問題150441227053457730222758
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030管道煙霧探測器行業(yè)市場現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評估規(guī)劃分析研究報(bào)告
- 2025-2030空氣絕緣開關(guān)柜(AIS)行業(yè)市場現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評估規(guī)劃分析研究報(bào)告
- 2025-2030科技中介行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告
- 2025-2030白酒項(xiàng)目可行性研究報(bào)告
- 2025-2030電動和非電動輪椅行業(yè)市場現(xiàn)狀供需分析及重點(diǎn)企業(yè)投資評估規(guī)劃分析研究報(bào)告
- 2025-2030玻璃酒瓶市場前景分析及投資策略與風(fēng)險(xiǎn)管理研究報(bào)告
- 2025-2030物流中心產(chǎn)業(yè)市場發(fā)展分析及發(fā)展趨勢與投資研究報(bào)告
- 2025-2030煤油行業(yè)行業(yè)風(fēng)險(xiǎn)投資發(fā)展分析及投資融資策略研究報(bào)告
- 2025-2030滅蚊燈行業(yè)行業(yè)風(fēng)險(xiǎn)投資發(fā)展分析及投資融資策略研究報(bào)告
- 2025-2030汽柴油清潔劑產(chǎn)業(yè)發(fā)展分析及發(fā)展趨勢與投資前景預(yù)測報(bào)告
- 吉林省吉林市2024-2025學(xué)年高三下學(xué)期3月三模試題 歷史 含答案
- 2023年河南單招職測真題(帶答案)
- (一模)2025年廣東省高三高考模擬測試 (一) 英語試卷(含官方答案)
- T-CALC 007-2025 重癥監(jiān)護(hù)病房成人患者人文關(guān)懷規(guī)范
- 中學(xué)教育基礎(chǔ)(上)知到課后答案智慧樹章節(jié)測試答案2025年春陜西師范大學(xué)
- 《鴻門宴》課本?。撼h風(fēng)云震撼開場看英雄如何對決
- 工程機(jī)械租賃服務(wù)方案及保障措施投標(biāo)方案文件
- 儲能站施工組織設(shè)計(jì)施工技術(shù)方案(技術(shù)標(biāo))
- 人工智能驅(qū)動的科學(xué)研究第五范式:演進(jìn)、機(jī)制與影響
- 移動場景下TCP自適應(yīng)控制-洞察分析
- DB33T 841-2023 橋梁鋼結(jié)構(gòu)防腐蝕工程施工工藝及質(zhì)量驗(yàn)收規(guī)范
評論
0/150
提交評論