第四講-非參數(shù)檢驗(yàn)_第1頁
第四講-非參數(shù)檢驗(yàn)_第2頁
第四講-非參數(shù)檢驗(yàn)_第3頁
第四講-非參數(shù)檢驗(yàn)_第4頁
第四講-非參數(shù)檢驗(yàn)_第5頁
已閱讀5頁,還剩75頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

非參數(shù)檢驗(yàn)方法第一節(jié)非參數(shù)檢驗(yàn)的一般問題第二節(jié)單樣本非參數(shù)檢驗(yàn)第三節(jié)列聯(lián)表與的獨(dú)立性檢驗(yàn)第四節(jié)等級(jí)相關(guān)分析第五節(jié)兩個(gè)相關(guān)樣本的非參數(shù)檢驗(yàn)第六節(jié)兩個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn)第七節(jié)多個(gè)相關(guān)樣本的非參數(shù)檢驗(yàn)第八節(jié)多個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn)第一節(jié)

非參數(shù)檢驗(yàn)的一般問題在統(tǒng)計(jì)學(xué)中,如果總體的精確率分布形式已知,而只是其中的某些參數(shù)未知時(shí),通常是從總體中隨機(jī)取樣本,根據(jù)樣本信息對(duì)總體參數(shù)進(jìn)行估計(jì)或假設(shè)檢驗(yàn),這就是一般所說的參數(shù)檢驗(yàn)。但在許多實(shí)際問題中,我們對(duì)總體分布的具體形式是未知或知之甚少的,只知道總體為連續(xù)分布還是離散分布,也不能對(duì)總體的分布形式作進(jìn)一步的假定(如假定總體為近似正態(tài)分布等),這時(shí)要對(duì)總體的某些性質(zhì)進(jìn)行統(tǒng)計(jì)估計(jì)或假設(shè)檢驗(yàn),就要采用非參數(shù)檢驗(yàn)。非參數(shù)檢驗(yàn)方法的特點(diǎn)從參數(shù)檢驗(yàn)的前提條件看,僅要求觀察值是獨(dú)立的、變量是連續(xù)的等簡單假設(shè),不要求確保樣本所屬的總體符合某種理論分布。非參數(shù)檢驗(yàn)不受總體分布形狀的限制,使得其應(yīng)用范圍更為廣泛。從非參數(shù)檢驗(yàn)對(duì)原始數(shù)據(jù)的要求看,它部要求有精確的計(jì)量值,可以使用分類數(shù)據(jù)和順序數(shù)據(jù),非參數(shù)檢驗(yàn)的處理方法都基于低精度數(shù)據(jù),因而它幾乎可以處理任何類型的數(shù)據(jù)。從非參數(shù)檢驗(yàn)的效率看,雖然非參數(shù)檢驗(yàn)的計(jì)算方法種類繁多,有時(shí)對(duì)某類數(shù)據(jù)的算法就有多種,但其表現(xiàn)形式一般比較簡單并易于理解,依照不同類型數(shù)據(jù)的不同算法,效率也不同。研究表明,非參數(shù)的檢驗(yàn)精度大約是參數(shù)檢驗(yàn)的95%。也就是說,非參數(shù)檢驗(yàn)需要更大的樣本容量來保證所要求的檢驗(yàn)精度。非參數(shù)檢驗(yàn)的常用方法

擬合優(yōu)度檢驗(yàn)K-S檢驗(yàn)符號(hào)檢驗(yàn)游程檢驗(yàn)列聯(lián)表與的獨(dú)立性檢驗(yàn)第二節(jié)單樣本非參數(shù)檢驗(yàn)擬合優(yōu)度檢驗(yàn)單樣本K-S檢驗(yàn)符號(hào)檢驗(yàn)單樣本游程檢驗(yàn)(二分類)一、擬合優(yōu)度檢驗(yàn)(適應(yīng)性檢驗(yàn))分布在參數(shù)統(tǒng)計(jì)中可用于方差估計(jì)檢驗(yàn),但在非參數(shù)統(tǒng)計(jì)領(lǐng)域,它有更加廣泛的應(yīng)用。在單樣本情況之下,它主要用于檢驗(yàn)客觀現(xiàn)象是否服從于某種理論分布(稱為吻合性或適應(yīng)性檢驗(yàn)),或者檢驗(yàn)?zāi)撤N理論分布是否正確(稱一致性檢驗(yàn)或同質(zhì)性檢驗(yàn))。我們將兩者合稱為“擬合優(yōu)度檢驗(yàn)”。原假設(shè)及備擇假設(shè)為:H0:觀察值的頻數(shù)Oi與期望(理論)頻數(shù)Ei相吻合Hi:觀察值的頻數(shù)Oi與期望(理論)頻數(shù)Ei不相吻合擬合優(yōu)度檢驗(yàn)原理以及計(jì)算

類別12….K總和觀測(cè)頻數(shù)

假設(shè)檢驗(yàn)問題:觀測(cè)頻數(shù)和理論頻數(shù)的差別作為檢驗(yàn)總體分布和理論分布是否一致的標(biāo)準(zhǔn),定義Pearson統(tǒng)計(jì)量:擬合優(yōu)度檢驗(yàn)原理以及計(jì)算

如果觀察頻數(shù)與設(shè)定頻數(shù)越接近,則值越小,根據(jù)皮爾遜定理,當(dāng)n充分大時(shí),統(tǒng)計(jì)量漸近服從于k-1個(gè)自由度的分布。我們可以計(jì)算出統(tǒng)計(jì)量,判斷有以下兩種方法:依據(jù)的分布表,給出所對(duì)應(yīng)的概率值,如果該概率值<給定的顯著水平α,則拒絕Ho,即樣本所屬的總體分布形態(tài)與設(shè)定的分布存在顯著差異;反之則不能拒絕Ho。依據(jù)的分布表,給出α所對(duì)應(yīng)的臨界值,如果統(tǒng)計(jì)值>臨界值,則拒絕Ho;反之則不能拒絕Ho。[例12.1]某企業(yè)開發(fā)了一種新型的食品,初步設(shè)想出五種不同的包裝方式(每種包裝方式的含量相同),現(xiàn)欲了解消費(fèi)者對(duì)這些不同包裝方式的偏好是否有差異,經(jīng)過市場(chǎng)實(shí)驗(yàn),得到如表12-2所示的銷售數(shù)據(jù)。

表12-2各種包裝方式的飲料銷售量

單位:瓶包裝方式甲乙丙丁戊合計(jì)銷售量3253843203263451700H0:對(duì)不同包裝方式的偏好無差異H1:對(duì)不同包裝方式的偏好有差異在H0成立之下,應(yīng)有:E1=E2=E3=E4=E5=1700/5=340故統(tǒng)計(jì)量值為:故不拒絕,即不能認(rèn)為五種不同包裝方式之間銷售有顯著差異。

二、單樣本K-S檢驗(yàn)單樣本K-S檢驗(yàn),也稱Kolmogorov-Smirnov正態(tài)性檢驗(yàn)。K-S檢驗(yàn)也是一種擬合度檢驗(yàn),研究樣本觀測(cè)值的分布和設(shè)定的理論分布間是否吻合,通過對(duì)兩個(gè)分布差異的分析確定是否有理由認(rèn)為樣本的觀測(cè)結(jié)果來自設(shè)定的理論分布總體。假設(shè)樣本的經(jīng)驗(yàn)分布函數(shù)為,定義當(dāng)時(shí),拒絕零假設(shè)。

Ho:H1:[例12.3]某茶葉公司的產(chǎn)品灌裝生產(chǎn)線在灌裝過程中,會(huì)出現(xiàn)重量(份量)的偏差。根據(jù)質(zhì)量要求,一定范圍之內(nèi)的誤差是允許的。質(zhì)量標(biāo)準(zhǔn)是:平均盒重(凈)500g,允許極限誤差(99.73%的可靠性)為12g?,F(xiàn)隨機(jī)抽取1000盒產(chǎn)品進(jìn)行檢驗(yàn),結(jié)果重量資料如表12-3所示(已分組)?,F(xiàn)欲想證明該灌裝生產(chǎn)線所包裝的產(chǎn)品重量是否服從于均值500g,方差為16g的正態(tài)分布。表12-3灌裝產(chǎn)品重量的樣本資料按重量分組盒數(shù)累計(jì)盒數(shù)累計(jì)頻數(shù)按正態(tài)分布計(jì)算Z值理論累計(jì)頻數(shù)絕對(duì)差異

以下110.001-3.50.00020.0008486-488120.002-3.00.00130.0007488-490460.006-2.50.00620.0002490-49216220.022-2.00.02280.0008492-49447690.069-1.50.06680.0022494-496861550.155-1.00.15870.0037496-4981372920.292-0.50.30850.0165498-5002054970.4970.00.50000.0003500-5022107070.7070.50.69150.0155502-5041418480.8481.00.84130.0067504-506829300.9301.50.93320.0032506-508469760.9762.00.97720.0012508-510189940.9942.50.99380.0002510-51249980.9983.00.99870.0007512-51419990.9993.50.99980.0008以上110001.0004.01.00000.0000合計(jì)1000此列原假設(shè)H0為:產(chǎn)品包裝凈重服從均值為500g,標(biāo)準(zhǔn)差為4g的正態(tài)分布。有關(guān)中間過程列在表12-3中。因本例理論分布的總體參數(shù)μ與σ均已知,故可計(jì)算出每一組上限為止的“理論頻率”。D統(tǒng)計(jì)量值為:D=max{|Sn(x)-Fn(x)|}=0.0165查D分布表。因本例n大大超過40,我們采用近似的公式計(jì)算臨界值,即:由于D=0.0165<D0.05(1000)=0.04301故不能拒絕H0,即可認(rèn)為該生產(chǎn)線產(chǎn)品的包裝凈重服從正態(tài)分布。三、符號(hào)檢驗(yàn)符號(hào)檢驗(yàn)是一種利用正、負(fù)號(hào)的數(shù)目對(duì)某種假設(shè)做出判定的非參數(shù)檢驗(yàn)方法。它部要求知道被檢驗(yàn)量的分布規(guī)律,僅依據(jù)某種特定的正負(fù)號(hào)數(shù)目多少來對(duì)某種假設(shè)做出檢驗(yàn)。常用于檢驗(yàn)總體的均值、中位數(shù)等參數(shù)是否為某一數(shù)值,或判斷總體分布有無變化。有配對(duì)樣本(x1,y1),(x2,y2),…(xn,yn)將記為“+”,記為“-”,記為“0”,記P+

為“+”比例,P-

為“-”比例,那么假設(shè)檢驗(yàn)問題:可以用符號(hào)秩檢驗(yàn)。H0:P+=P-

H1:P+=P-[例12.7]某企業(yè)生產(chǎn)一種月餅,有A、B兩種口味,為確定哪種口味更加適合消費(fèi)者青睞,此前特作一次市場(chǎng)研究。經(jīng)市場(chǎng)實(shí)驗(yàn),被調(diào)查者對(duì)兩種月餅的的偏好如表12-6所示。表12-6月餅口味偏愛情況調(diào)查表被調(diào)查者(評(píng)價(jià)者)序號(hào)更喜歡A口味(+)更喜歡B口味(-)無所謂12345678910√√√√√√√√√√合計(jì)721顯然,若評(píng)價(jià)者對(duì)兩種口味無顯著偏好,則+號(hào)與-號(hào)個(gè)數(shù)應(yīng)該是相近的。本例中

n+=7,n-=2,n=9,l=min(n+

,n-)=2,結(jié)點(diǎn)舍去,則由二項(xiàng)分布,可計(jì)算出“-”號(hào)小于等于2的概率P,即

若取顯著性水平為0.1,則拒絕H0

,認(rèn)為消費(fèi)者更喜歡A種月餅的口味。四、單樣本隨機(jī)游程檢驗(yàn)隨機(jī)性是抽樣調(diào)查方案設(shè)計(jì)中的一條重要原則。但在現(xiàn)實(shí)生活中,我們經(jīng)常會(huì)遇到一些非隨機(jī)的序列。游程檢驗(yàn)(也稱連貫檢驗(yàn))就是為了檢驗(yàn)樣本觀察值出現(xiàn)次序的隨機(jī)性而發(fā)展起來的一種非參數(shù)統(tǒng)計(jì)方法,有著十分廣泛的應(yīng)用。例如檢驗(yàn)股票價(jià)格波動(dòng)的隨機(jī)性,檢驗(yàn)樣本的隨機(jī)性,檢驗(yàn)生產(chǎn)過程是否處于隨機(jī)控制狀態(tài)等等。如果一個(gè)變量的取值只有兩種情況(如記為M與F),即是非標(biāo)志(若不是“是非標(biāo)志”,我們可以將之轉(zhuǎn)化成“是非標(biāo)志”)。變量值按一定次序出現(xiàn)(即有順序的),則就可能有如下形式的序列:MMM

FFF

M

FF

MM

FF

MFFF

MMM

FFFF所謂游程,就是由同類事物(符號(hào),如M)連續(xù)構(gòu)成的一個(gè)子序列,它的前面和后面有另外的事物(符號(hào),如F),或前后根本沒有別的事物。顯然,上面列出的變量值序列就有十個(gè)游程。第一個(gè)游程是由3個(gè)M構(gòu)成,第二個(gè)游程是由3個(gè)F構(gòu)成,第三個(gè)游程則由一個(gè)M構(gòu)成,第四個(gè)游程由兩個(gè)F松成……游程檢驗(yàn)中最常用的方法是游程個(gè)數(shù)檢驗(yàn)。其原假設(shè)及備擇假設(shè)為:

H0:現(xiàn)象(序列)是隨機(jī)的H1:序列是非隨機(jī)的[例12.4]在證券價(jià)格理論中,有一種叫“隨機(jī)漫步”理論,認(rèn)為股市價(jià)格變化是隨機(jī)的。人們經(jīng)常采用游程檢驗(yàn)來驗(yàn)證這一理論。設(shè)某種股票在過去的38個(gè)交易日中價(jià)格變動(dòng)情況如下(+表示價(jià)格上升,-表示價(jià)格下降):+++--+---++-+--++++---++++-++--++-+---計(jì)算得

n1=20,n2=18,R=18。查游程總數(shù)臨界值表,在0.05顯著性水平下,

,,顯然

,即實(shí)際序列中游程個(gè)數(shù)“不多也不少”,故不能拒絕

H0,即認(rèn)為該股票價(jià)格變化是隨機(jī)的。第三節(jié)列聯(lián)表與的獨(dú)立性檢驗(yàn)連列表又稱交互分類表,指抽自某一總體的樣本同時(shí)按照兩個(gè)或兩個(gè)以上標(biāo)志進(jìn)行分類,一下以量個(gè)分類標(biāo)志位例。[例]下表是一個(gè)由220名飲酒者組成的隨機(jī)樣本,對(duì)飲酒者進(jìn)行酒的類型偏好的調(diào)查。橫向看,反映了再固定性別的條件下,對(duì)白酒與啤酒的偏好;總向看,反映了再固定酒類型的條件下,各性別的人數(shù)。性別飲酒偏好合計(jì)白酒啤酒男性6050110女性4070110合計(jì)100120220直觀看似乎飲酒偏好與性別有關(guān),是這樣嗎?利用統(tǒng)計(jì)量可以完成對(duì)分類數(shù)據(jù)或順序數(shù)據(jù)之間是否獨(dú)立的檢驗(yàn)。建立假設(shè):Ho:兩個(gè)分類變量之間獨(dú)立(性別與飲酒偏好無關(guān));H1:兩個(gè)分類變量之間不獨(dú)立(性別與飲酒偏好有關(guān))計(jì)算與列聯(lián)表中實(shí)際次數(shù)相對(duì)應(yīng)的期望次數(shù):每一個(gè)條件次數(shù)的理論次數(shù)即期望次數(shù)記作則構(gòu)建統(tǒng)計(jì)量:實(shí)際次數(shù)與理論預(yù)期次數(shù)有差異,這是可以用其差值的大小來度量兩個(gè)變量相關(guān)程度,相差越大,表明HO為真的可能性就越??;反之則HO為真的可能性就越大。為避免差值的正負(fù)抵消,可以采用差值的平方和,這就是統(tǒng)計(jì)量:檢驗(yàn)判斷:若則拒絕假設(shè)Ho,即認(rèn)為性別與飲酒偏好有關(guān)系;反之則不能拒絕Ho。第四節(jié)等級(jí)相關(guān)分析有時(shí)候我們?cè)谘芯康膬蓚€(gè)變量中得到兩組順序數(shù)據(jù),如學(xué)生的考試成績與老師為學(xué)生排出的工作能力大小順序。要研究學(xué)生的學(xué)習(xí)能力與工作能力是否一致,就要用啊等級(jí)相關(guān)分析。對(duì)等級(jí)數(shù)據(jù)的相關(guān)性的測(cè)度主要用等級(jí)相關(guān)系數(shù),它是把相關(guān)的兩個(gè)變量按等級(jí)次序排列,形成與兩個(gè)等級(jí)序列,然后測(cè)定與這兩個(gè)等級(jí)序列之間的相關(guān)程度。Spearman等級(jí)相關(guān)系數(shù)學(xué)生編號(hào)考試總分工作能力排名

13509109112360878-113358686244369747-395378131246395212-117388525-39835410910-11936835324103664642411

合計(jì)38

=-Spearman等級(jí)相關(guān)系數(shù)Spearman等級(jí)相關(guān)系數(shù)是歷史上最早(1904)測(cè)定兩個(gè)樣本相關(guān)強(qiáng)度的重要指標(biāo),記為:Spearman等級(jí)相關(guān)系數(shù)Spearman等級(jí)相關(guān)系數(shù)檢驗(yàn)的步驟

1.建立假設(shè):

Ho:兩樣本相關(guān)程度無統(tǒng)計(jì)意義,即兩樣本不相關(guān)

H1:兩樣本相關(guān)程度有統(tǒng)計(jì)意義,即兩樣本相關(guān)

2.計(jì)算,差表確定

3.比較

4.若>,則拒絕Ho,兩樣本相關(guān)程度有統(tǒng)計(jì)意義,兩

樣本相關(guān),學(xué)習(xí)能力與工作能力有關(guān)。反之則學(xué)習(xí)能力與工作能力無關(guān)。第五節(jié)兩個(gè)相關(guān)樣本的非參數(shù)檢驗(yàn)麥克勒瑪檢驗(yàn)威爾克遜配對(duì)符秩檢驗(yàn)一、麥克勒瑪檢驗(yàn)基本原理

麥克勒瑪(McNemar)檢驗(yàn)是適用于研究現(xiàn)象“前后”情況有無顯著變化的一種非參數(shù)統(tǒng)計(jì)方法。設(shè)n個(gè)樣本單位在某一條件下(即變化前)的觀察值為第一個(gè)樣本(觀察值為“是非標(biāo)志”),在另一個(gè)條件下(即變化后)的觀察值為第二個(gè)樣本,則可以得到如表12-4所示的頻數(shù)統(tǒng)計(jì)表。表12-4麥克勒瑪檢驗(yàn)頻數(shù)表這里,A是前后均為“非”的次數(shù)。D為前后均為“是”的次數(shù),B是從“非”變?yōu)椤笆恰钡拇螖?shù),C是從“是”變?yōu)椤胺恰钡拇螖?shù)。顯然,前后情況有無變化,就是指C、B兩格子內(nèi)次數(shù)的變動(dòng)情況。麥克勒瑪檢驗(yàn)關(guān)心的也正是這一點(diǎn),故統(tǒng)計(jì)假設(shè)為:H0:事件在兩個(gè)方向上的變化可能性相同

H1:事件在兩個(gè)方向上的變化可能性不同變化后變化前010AB1CD[例12.6]某高校欲研究某系學(xué)生專業(yè)態(tài)度的變化情況,以驗(yàn)證新生入學(xué)專業(yè)教育的效果。從整個(gè)專業(yè)的100名新生中隨機(jī)抽取80名學(xué)生進(jìn)行態(tài)度調(diào)查:在剛?cè)胄r(shí),記載學(xué)生們對(duì)所學(xué)專業(yè)的態(tài)度(喜歡或不喜歡),經(jīng)過一段時(shí)間的專業(yè)教育,在新生入學(xué)后第三個(gè)月對(duì)這80名學(xué)生的專業(yè)態(tài)度再次作訪問調(diào)查,兩次專業(yè)態(tài)度整理成下表12-5。表12-5大學(xué)生專業(yè)態(tài)度變化頻數(shù)統(tǒng)計(jì)表入學(xué)三個(gè)月后的專業(yè)態(tài)度合計(jì)不喜歡喜歡入學(xué)初的專業(yè)態(tài)度不喜歡20(A)40(B)60喜歡6(C)14(D)20合計(jì)265480計(jì)算卡方統(tǒng)計(jì)量值為:

在顯著性水平

0.05時(shí)

。因?yàn)?/p>

故拒絕H0

,認(rèn)為學(xué)生專業(yè)態(tài)度有明顯變化(即更多的學(xué)生培養(yǎng)起了專業(yè)興趣)。二、Wilcoxon符號(hào)秩檢驗(yàn)

對(duì)稱分布的中心一定是中位數(shù),在對(duì)稱分布情況下,中位數(shù)不唯一,研究對(duì)稱中心比中位數(shù)更有意義例:下面的數(shù)據(jù)中,O是對(duì)稱中心嗎?0Wilcoxon符號(hào)秩檢驗(yàn)原理以及性質(zhì)用表示在絕對(duì)值樣本中的秩,反秩由定義。表示的符號(hào),稱為符號(hào)秩統(tǒng)計(jì)量。Wilcoxon符號(hào)秩統(tǒng)計(jì)量定義為:首先,設(shè)樣本絕對(duì)值的順序統(tǒng)計(jì)量,如果數(shù)據(jù)關(guān)于0點(diǎn)對(duì)稱,那么對(duì)稱中心兩側(cè)的數(shù)據(jù)疏密程度應(yīng)該一樣,整數(shù)在取絕對(duì)值以后的樣本中的秩應(yīng)該和負(fù)數(shù)在絕對(duì)值樣本中的秩和相近。

表12-7方案設(shè)計(jì)效果調(diào)查表達(dá)式消費(fèi)者老方案評(píng)分新方案評(píng)分前后評(píng)分差的秩次符號(hào)還原后正秩負(fù)秩ABCDEFGHIJKLMNOPQRST80708586607090657080608595809250705540908560968876729568767565809088988077806070+5-10+11+2+16+2+5+3+6-5+5-5+5+8+6+30+7+25+20-206.514151.5161.56.5310.56.56.56.56.51310.520121917.517.56.5151.5161.56.5310.56.56.51310.520121917.5-14-6.5-6.5-17.5[例12.8]某房地產(chǎn)公司為了驗(yàn)證其新的設(shè)計(jì)方案是否有效,在新設(shè)計(jì)方案之前與新設(shè)計(jì)方案之后作了一次對(duì)比調(diào)查,從消費(fèi)者中隨機(jī)抽取20名進(jìn)行了解,記錄了他們?cè)谠O(shè)計(jì)方案前后對(duì)該公司房產(chǎn)產(chǎn)品的評(píng)分,如表12-7所示。要求檢驗(yàn):

H0:新設(shè)計(jì)方案有效;

H1

:新設(shè)計(jì)方案無效。有關(guān)中間過程的表12-7所示。Wilcoxon-T統(tǒng)計(jì)量值為T=44.5。查表(雙側(cè)):拒絕H0

,即認(rèn)為設(shè)計(jì)方案是顯著有效的。第六節(jié)

兩個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn)曼—惠特尼U檢驗(yàn)中位數(shù)檢驗(yàn)斯米爾諾夫檢驗(yàn)雙樣本游程檢驗(yàn)獨(dú)立雙樣本卡方檢驗(yàn)一、曼—惠特尼U檢驗(yàn)

這是檢驗(yàn)兩個(gè)獨(dú)立樣本是否來自具有相同均值的總體的非參數(shù)檢驗(yàn)方法,又稱秩和檢驗(yàn)法。它與配對(duì)Wilcoxon檢驗(yàn)相類似,要考慮到每一個(gè)樣本中各觀察值所處的次序(秩),故為一種功效較強(qiáng)的檢驗(yàn)方法。設(shè)第一樣本n1個(gè)觀察值為xi,i=1,2,…,n2;第二樣本n2個(gè)觀察值為xj,j=1,2,…,n2。則其基本步驟為(1)將兩個(gè)樣本合并成一個(gè)樣本再評(píng)秩??梢园瓷蛟u(píng)秩,也可按降序評(píng)秩。若多個(gè)觀察點(diǎn)數(shù)值相同,則取其平均秩次。(2)計(jì)算每個(gè)樣本觀察點(diǎn)所得的秩和。記為TR1與TR2。(3)計(jì)算U統(tǒng)計(jì)量。如果兩個(gè)樣本的確抽自同一個(gè)總體(H0),則可以設(shè)想樣本1所得到的平均秩次與樣本2所得到的平均秩次大致相同。故定義統(tǒng)計(jì)量U為:其中(4)查U統(tǒng)計(jì)量分布表。若

,則拒絕H0

,認(rèn)為兩個(gè)樣本的均值有顯著差異,即抽自不同的總體。[例12.10]對(duì)兩所大學(xué)入學(xué)新生的智能進(jìn)行測(cè)驗(yàn),結(jié)果如表12-8所示?,F(xiàn)要檢驗(yàn)這兩所大學(xué)新生的智能水平是否有顯著差異。

表12-8兩所大學(xué)新生智能抽樣測(cè)驗(yàn)分?jǐn)?shù)甲大學(xué)學(xué)生編號(hào)智能分?jǐn)?shù)乙大學(xué)學(xué)生編號(hào)智能分?jǐn)?shù)12345678910111275818795908665789297868212345678910119097827986879491808488取顯著性水平0.05。則統(tǒng)計(jì)假設(shè)為:H0:兩校新生智能水平無顯著差異H1:兩校新生智能水平有顯著差異n1=12,n2=11。將這兩個(gè)樣本混合之后評(píng)秩,結(jié)果如表12-9所示。表12-9兩所大學(xué)新生智能分?jǐn)?shù)抽樣評(píng)秩秩次分?jǐn)?shù)學(xué)校秩次分?jǐn)?shù)學(xué)校1234567.57.5910.510.512.5657578798081828284868687甲甲甲乙乙甲甲乙乙甲乙甲12.514.514.516.516.51819202122.522.58788889090919294959797乙甲乙甲乙乙甲乙甲甲乙二、中位數(shù)檢驗(yàn)

(一)基本原理

這是檢驗(yàn)兩個(gè)彼此獨(dú)立樣本是否來自有相同中位數(shù)的總體。由于在社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)中,我們遇到的變量可能是“定序變量”,若檢驗(yàn)兩個(gè)樣本在該變量值上的“一般水平”(統(tǒng)計(jì)平均數(shù))是否相同,采用參數(shù)統(tǒng)計(jì)中“兩個(gè)均值差異性”的檢驗(yàn)可能行不通,這時(shí)可采用中位數(shù)檢驗(yàn)法,因?yàn)橹形粩?shù)也是一種平均數(shù)。中位數(shù)檢驗(yàn)的原假設(shè)及備擇假設(shè)為:H

0:兩個(gè)獨(dú)立樣本來自有相同中位數(shù)的總體H

1:兩個(gè)獨(dú)立樣本來自的有不同中位數(shù)的總體[例12.14

]設(shè)有兩批不同廠家的燈泡,經(jīng)質(zhì)量檢驗(yàn),它們的壽命如下(小時(shí)):甲廠家:1208,1406,1250,1622,1326,1414,1500,1480,1251,1262,1365,1462,1518,1610,1285,1382

乙廠家:1428,1579,1325,1328,1685,1476,1490,1588,1442,1578,1369,1479,1465,1672,1587,1592,1581

要求檢驗(yàn)兩廠該燈泡壽命的中位數(shù)是否相同。此例若假定該燈泡的壽命服從正態(tài)分布,則就可用參數(shù)統(tǒng)計(jì)中的t檢驗(yàn)法進(jìn)行檢驗(yàn)。我們現(xiàn)在采用中位數(shù)法進(jìn)行檢驗(yàn)。由所給資料可計(jì)算知,n1=16,

n2=17,混合中位數(shù)的中數(shù)為Me=1465小時(shí)。則x(甲廠燈泡壽命超過混合中位數(shù)的個(gè)數(shù))為5,y(乙廠燈泡壽命超過混合中位數(shù)的個(gè)數(shù))為11。于是可計(jì)算出累積的一伴隨概率為:顯然,P<α=0.01。故我們認(rèn)為兩個(gè)廠的燈泡壽命中位數(shù)顯著不同。三、斯米爾諾夫檢驗(yàn)

(一)基本原理這是在柯爾莫洛夫檢驗(yàn)(單樣本,見第二節(jié))的基礎(chǔ)之上推廣到兩個(gè)獨(dú)立樣本之間的比較,判斷兩個(gè)總體分布是否相等的方法。有時(shí)也稱K-S雙樣本檢驗(yàn)。第一個(gè)樣本有n

1個(gè)觀察值,隨機(jī)抽自某一分布函數(shù)為F

(

x

)(但未知具體形式)的總體,第二個(gè)樣本有n

2個(gè)觀察值,隨機(jī)抽自另一分布函數(shù)為G

(

y

)(也未知其具體形式)的總體。現(xiàn)要通過兩個(gè)樣本的比較,對(duì)以下假設(shè)進(jìn)行檢驗(yàn)H

0

:

F

(

x

)

=G

(

y

),即兩總體分布相同(-∞<x

,

y<∞)H

1

:

F

(

x

)

≠G

(

y

),即兩總體分布不同(-∞<x

,

y<∞)[例12.16]設(shè)男、女兩類消費(fèi)者對(duì)某餐廳風(fēng)味的評(píng)分(10分制)資料如下表12-11所示?,F(xiàn)欲知兩類消費(fèi)者的評(píng)分分布是否相同。表12-11男、女兩類消費(fèi)者的評(píng)分男消費(fèi)者評(píng)分女消費(fèi)者評(píng)分序號(hào)評(píng)分序號(hào)評(píng)分123456789101112138.010.09.09.08.59.57.57.08.56.56.09.56.0123456789101112137.56.56.06.07.58.08.59.08.56.57.09.09.5先將上述樣本資料混合編制單項(xiàng)式分布數(shù)列,如表12-12所示。表12-12斯米爾諾夫檢驗(yàn)計(jì)算過程故不拒絕

H0,即認(rèn)為男女兩類消費(fèi)者對(duì)該餐廳風(fēng)味的評(píng)分分布沒有顯著差異。按評(píng)分值分組消費(fèi)者人數(shù)累計(jì)人數(shù)累計(jì)頻率(經(jīng)驗(yàn)分布)偏差男女男女男女6.06.57.07.58.08.59.09.510.021111222122121221023456810121324578101213130.1538460.2307690.3076920.3846150.4615380.6153850.7692310.9230771.0000000.1538460.3076920.3846150.5384620.6153850.7692310.9230771.0000001.0000000.0000000.0769230.0769230.1538410.1538470.1538460.1538460.0769230.000000合計(jì)1313四、雙樣本游程檢驗(yàn)

(一)基本原理和和步驟

這是單樣本游程檢驗(yàn)的推廣,用來檢驗(yàn)兩個(gè)獨(dú)立樣本是否有相同的總體分布,也稱“瓦爾德-沃夫維茨”的檢驗(yàn)(Wals-Wolflwitz檢驗(yàn),簡記W-W游程檢驗(yàn))。其基本步驟如下:

(1)將兩個(gè)樣本的觀察值混合,并按大小順序從小到大排列。并以符號(hào)

表示第一樣本的元素,以符號(hào)y表示第二樣本的元素。

(2)計(jì)算

,y序列中的游程總數(shù),方法與單樣本游程檢驗(yàn)完全相同。(3)查游程總數(shù)檢驗(yàn)臨界值表。在單樣本情況下,游程個(gè)數(shù)太多太少都表示

不成立。但在雙樣本情況之下,游程個(gè)數(shù)越多,表示兩個(gè)樣本值的混合越理想,

越不能拒絕。故此時(shí)要查游程總數(shù)檢驗(yàn)的下限臨界值

。若

,則拒絕

,認(rèn)為游程個(gè)數(shù)太少,從而兩個(gè)樣本來自不同的總體。值得指出的是,當(dāng)

超過20時(shí),可用正態(tài)分布來檢驗(yàn)。

[例12.17]假設(shè)要比較兩個(gè)醫(yī)院滿月新生兒重量是否有顯著差異,從兩個(gè)醫(yī)院抽得的滿月新生兒重量分別為(單位:KG):

醫(yī)院1:4.975.214.304.785.094.834.525.344.904.94醫(yī)院2:4.884.555.364.434.934.705.284.535.464.954.98要求檢驗(yàn)這些新生兒的重量分布是否來自同一總體(或來自有相同分布函數(shù)的兩個(gè)總體)。先將上述兩組數(shù)據(jù)混合排序,并在第二樣本的數(shù)據(jù)之下劃一橫線:4.304.434.524.534.554.704.784.834.884.904.934.944.954.974.985.095.215.285.345.365.46可見,游程總個(gè)數(shù)R=14。由所給得游程總數(shù)臨界值(下限)為

,因?yàn)?/p>

,故不否定

,認(rèn)為兩個(gè)總體有相同的分布。五、獨(dú)立雙樣本卡方檢驗(yàn)

該法是單樣本卡方檢驗(yàn)的推廣,也是列聯(lián)表分析的應(yīng)用。主要用于檢驗(yàn)兩個(gè)彼此獨(dú)立的樣本的頻率分布是否有差異,或是行變量與列變量之間是否具有相關(guān)性。檢驗(yàn)步驟如下:

(1)獨(dú)立隨機(jī)抽取兩個(gè)樣本,將全部可能觀察值進(jìn)行分組,得到如表12-13所示的頻數(shù)資料(分布數(shù)列)。表12-13樣本頻數(shù)分布樣本觀察值…合

計(jì)樣本1頻率樣本2頻率…合

計(jì)…(2)計(jì)算期望頻數(shù)。若兩個(gè)樣本對(duì)應(yīng)于具體觀察值的出現(xiàn)概率是相同的(即

為真,兩個(gè)總體無差異),則在實(shí)際的調(diào)查中,全部n個(gè)樣本單位中屬于第i樣品的估計(jì)概率為

,全部n個(gè)樣本單位中,出現(xiàn)第j個(gè)觀察結(jié)果的估計(jì)概率應(yīng)為

。按聯(lián)合概率,即可推知在全部的n個(gè)單位中,出現(xiàn)上述表格每一格子中的期望次數(shù)

為:(3)計(jì)算卡方統(tǒng)計(jì)量:(4)作檢驗(yàn)。若,則拒絕

,認(rèn)為兩個(gè)總體有顯著差異。[例12.18]某市場(chǎng)研究公司對(duì)某國際體育產(chǎn)品公司生產(chǎn)的A、B兩種品牌產(chǎn)品的消費(fèi)群進(jìn)行了一次體育節(jié)目收視情況調(diào)查,以了解他們喜歡收看哪些體育節(jié)目,從而為該企業(yè)提供選擇廣告時(shí)段的參考資料。調(diào)查結(jié)果如表12-14所示。表12-14樣本中A、B兩品牌消費(fèi)者觀看不同電視節(jié)目的人數(shù)電視節(jié)目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論