多元統(tǒng)計估計與檢驗_第1頁
多元統(tǒng)計估計與檢驗_第2頁
多元統(tǒng)計估計與檢驗_第3頁
多元統(tǒng)計估計與檢驗_第4頁
多元統(tǒng)計估計與檢驗_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多元統(tǒng)計估計與檢驗

第二章估計與檢驗

§2.1假設(shè)檢驗的基本概念與方法(復習,教材p703.1)

一、假設(shè)檢驗所要解決的問題

籠統(tǒng)地說假設(shè)檢驗是先假設(shè)總體具有某種特征,然后根據(jù)來自總體的

樣本,建立統(tǒng)計量,對假設(shè)的正確性做出推斷.這些假設(shè)以后統(tǒng)稱為統(tǒng)計

假設(shè),簡稱假設(shè),用字母H表示.

二.假設(shè)檢驗的基本思想、概念和方法

1.假設(shè)檢驗的推理方法及其原理

實際推斷原理,即:“小概率事件在一次試驗中是幾乎不可能發(fā)生的”.

“反證法”的思想.為了檢驗原假設(shè)H0是否成立,我們就先假

定原假設(shè)H0成立,然后運用統(tǒng)計分析方法進行推理,如果導致小概

率事件在一次事件中發(fā)生了,則應當認為這是“不合理”的現(xiàn)象,表

明原假設(shè)H0很可能不正確,從而拒絕H0;無論是接受還是拒絕H0都是

要冒一定風險的.

2.假設(shè)檢驗的兩類錯誤及顯著性檢驗

由于樣本的隨機性,在假設(shè)檢驗中可能會出現(xiàn)以下四種情況:

(1)H0為真且檢驗接受了H0;

(2)H0為假且檢驗拒絕了H0;

(3)H0為真但檢驗拒絕了H0;

(4)H0為假但檢驗接受了H0.

情況(3)的錯誤為棄真的錯誤也叫第一類錯誤,犯第一類錯誤的概

率記為a(0<a<1),即a=p(拒絕H0|HO為真).

情況(4)的錯誤為納偽的錯誤也叫第二類錯誤,犯第二類錯誤的概

率記為B(0VBV1),即B=P(接受HO|HO為假).

僅對犯第一類錯誤的概率加以限制(不考慮犯第二類錯誤的概率),

即取定犯第一類錯誤概率的一個上界a(0<a<1).對于給定的樣本容

量n和a來選定檢驗法則即確定拒絕域,使

P(拒絕HO|HO為真)=a.

在這種原則下所制定的檢驗稱為顯著性檢驗,a稱為顯著性水平.

3.假設(shè)檢驗的步驟

由1我們可得假設(shè)檢驗大致可分如下幾步進行:

(1)提出原假設(shè)H0與備擇假設(shè)H1;

(2)選取適當?shù)慕y(tǒng)計量,使其在H0成立的條件下服從某種確定的

分布;

(3)取定顯著性水平a(0<a<<1),一般依實際問題的需要

而定,習慣常取a=0.01,0.05,0.10;

(4)根據(jù)統(tǒng)計量的分布和顯著性水平a,確定拒絕域,即確定臨界

值,一般多是利用現(xiàn)有的分布函數(shù)表,求出臨界值,確定拒絕域;

(5)計算統(tǒng)計量的觀測值,若其落入拒絕域則拒絕H0;否則接受

H0.

§2.2參數(shù)假設(shè)檢驗(復習)

假設(shè)檢驗根據(jù)其檢驗的對象可分為參數(shù)假設(shè)檢驗和非參數(shù)假設(shè)1

檢驗.當總體的分布類型已知,僅對其中的未知參數(shù)提出假設(shè),進行

檢驗,則稱為參數(shù)假設(shè)檢驗,

總體分布類型未知,對未知總體分布的類型或它的某些特征提出假設(shè),

進行檢驗,則稱為非參數(shù)假設(shè)檢驗,正態(tài)總體下參數(shù)的假設(shè)檢驗

例221一家食品廠以生產(chǎn)袋裝食品為主,每天的產(chǎn)量大約為8000袋,

每袋重量規(guī)定為100克。為了分析每袋重量是否符合要求,質(zhì)檢部門經(jīng)常

進行抽檢。現(xiàn)從某天生產(chǎn)的一批食品中隨機抽取了25袋,測得每袋重量

如表下表所示。25袋食品的重量(單位:克)

設(shè)該食品廠以生產(chǎn)的袋裝食品的每袋重量為X,假設(shè)X?N(U,o2),

在如上假設(shè)下,問題歸結(jié)為統(tǒng)計上的假設(shè)檢驗問題(單個正態(tài)總體,

。2未知時,11的假設(shè)檢驗),檢驗假設(shè)為

HO:U=U0=100;Hl:

t=

X-|1O

=2.78S

n

對于給定的顯著性水平a=0.05,查t分布分位數(shù)表,得臨界值

tl-a(n-l)=t0.975(24)=2.06392

拒絕域為:|t|22.0639.

由于t=2.78>2.0639.落入拒絕域,則拒絕H0,即認為該天生產(chǎn)的食

品袋重量不符合要求。

臨界值tl-a(n-l)與拒絕域關(guān)系的示意圖.2

假設(shè)檢驗的P值

2

2問題為:已知總體X?N(H,。2),且。2=。0,檢驗假設(shè)為

HO:U=U0;Hl:UWU0

X-U0記U=。0

n的觀測值為u0

當|u0|2ul-a

2即可拒絕H0①

而|u0|2ul-a

2?P{|U|2|u0|}Wa

記P{|U|2|u0|}為p值,即

當pWa時即可拒絕HO②

若已計算得U=X-UO

n的觀測值u0比2.10,ul-a2=U0.975=1.96

|uO|=2,1O>ul-a

2=1.96,故拒絕HO

而P{IU|2|uO|}=P{|U|22.10}=2X(l-0.9821)=0.0358<0.05

故拒絕HO

若是單側(cè)檢驗

HO:RW口;Hl:U>U00

當u0與ul-a即可拒絕HO③

而uO^ul-a?P{U2uO}Wa

記P{U>uO}為p值,即

當p<a時即可拒絕HO@

①③在統(tǒng)計量取值范圍內(nèi)進行比較查統(tǒng)計量分布表

②④在概率取值范圍內(nèi)進行比較利用統(tǒng)計軟件的計算功能練

習題:教材p79例3.5,

p81例3.6

pl31習題三3.6(講完上機后布置)

§2.3非參數(shù)假設(shè)檢驗

在前面所介紹的估計和檢驗問題中,我們總是假定總體分布的類型已

知,且主要是服從正態(tài)分布,所用的統(tǒng)計量的分布都依賴于總體的分布.但

是在實際遇到的許多問題中,總體的分布類型往往是未知的,在這種情況

下,我們就要利用樣本所提供的信息,對有關(guān)總體分布的相關(guān)論斷進行檢

驗,即非參數(shù)假設(shè)檢驗.本節(jié)主要介紹有關(guān)推斷總體分布的一些常用的檢

驗方法:皮爾遜x擬合檢驗、柯爾莫哥洛2

3

夫檢驗和夏皮洛-威爾克(shapior—wilk)檢驗(W檢驗);判斷兩總

體是否獨立的:列聯(lián)表的獨立性檢驗.

一、皮爾遜x擬合檢驗(教材pl02)2

x擬合檢驗是單變量的非參數(shù)檢驗,它屬于擬合優(yōu)度型檢驗,2

所謂擬合優(yōu)度型檢驗,即是利用樣本去擬合檢驗的總體是否服從某種

指定的分布。常見的總體簡單可以分為三類:

可取連續(xù)值的連續(xù)型總體、僅取有限個值的離散型總體與取無限個值

的離散型總體。

X擬合檢驗比較適用于僅取有限個值的離散型總體大樣本下的2

分布擬合檢驗。

在介紹該方法前,先介紹該方法的理論依據(jù)一皮爾遜定理及其推廣.

1.皮爾遜定理及其推廣

定理2.3.1(皮爾遜定理):假設(shè)一隨機試驗有k種不同的結(jié)果A1,A2,,Ak,

它們出現(xiàn)的概率分別為pl,p2,,pk是已知數(shù),且有

£pi=l,ni表Ai(i=l,2,?,k)在n次獨立重復試驗中出現(xiàn)的次ik

數(shù),£ni=n.則當n-*80寸,統(tǒng)計量

i

kk

xn=S2(ni-npi)npi2k2=Zinnpi—n(2.3.1)i

的極限分布是x(k—1).其中npi可理解為Ai發(fā)生的理論頻數(shù).2

證明參看中山大學《概率論及數(shù)理統(tǒng)計》下冊

皮爾遜定理中的假定pl,p2,,pk是已知數(shù),在實際應用中這個

條件往往不能滿足.例如,假設(shè)總體X?N(U,。2),但U,。2未知,

這時只能由樣本求出估計值口,。,然后再根據(jù)分布N(R,。)計算出定

理中所需要的各個概率值pl,p2,,pk的估計值

AAAAA2AA2

pl,p2,,pk.根據(jù)這種情況,費歇(Fisher)將皮爾遜定理作了如

下推廣.

皮爾遜定理的推廣:假定總體X的分布依賴于r個未知參數(shù)

,由樣本求出這些參數(shù)的極大似然估計o1,。2,9r(r<k)

,一Ak出現(xiàn)的概率01,02,9r,并依這些參數(shù)的估計值求出A1A2AA

A

4

AAA

的估計值pl,p2,,pk,則當r)f8時,統(tǒng)計量

k

xn=E

i2(ni-npi)npi

2A2k2A=ZininpiA-n(2.3.2)的極限分布是x(k

—r—1).

2.皮爾遜x擬合檢驗(擬合優(yōu)度檢驗)2

皮爾遜x擬合檢驗,就是用皮爾遜x統(tǒng)計量檢驗試驗結(jié)果與某22

理論分布FO(x)(完全已知,或形式已知僅含有若干未知參數(shù))是否吻

合.即原假設(shè)為

H0:總體X的分布函數(shù)為FO(x;0)

該方法的理論基礎(chǔ)為皮爾遜定理及其推廣.

用皮爾遜x統(tǒng)計量進行檢驗的方法稱為皮爾遜x檢驗法.使用22

該檢驗法時要注意兩點:

1取大樣本,一般要求n>50.

則應將總體取值的范圍適當2若試驗的結(jié)果不是僅取有限個值,

地分為k個組(或區(qū)間),Al,A2,,Ak.分組不宜過多也不宜過少,一

般取5WkW12,樣本容量大時k可取大些,樣本容量小時k可取小些.皮

爾遜x檢驗法要求分成的組(或區(qū)間)Ai盡可能地滿足npi2>5(i=

l,2,?,k).否則可將不滿足npi25的組(或區(qū)間)與相

臨的組(或區(qū)間)合并,使合并后的各組(或區(qū)間)能滿足npi25.這

時,分組(或區(qū)間)個數(shù)按合并后的個數(shù)計算.如果樣本容量n很大,

則依實際情況可將k取得更大些,并不限定kW12.

在實際使用時.,對理論頻數(shù)npi的要求還可以放寬,當自由度26

時,各理論頻數(shù)不少于2.

用皮爾遜x統(tǒng)計量進行檢驗時,拒絕域應如何選取?2

觀察皮爾遜x統(tǒng)計量2

5

k

x=£2

n(ni-npi)npi2i

表示觀察頻數(shù)ni與理論頻數(shù)npi相對差異的總和.因此可以設(shè)想在

H0成立時,X2的值應比較小,否則應較大。事實上,有n

E(ni-npi)=npi(l-pi),當HO成立時;2

E(ni-npi)>npi(l-pi),當HO不成立時.2

由pearson定理知,在H0成立的條件下,當n-8時,x2的極限n

分布為x(k-1)2

因此對給定的顯著性水平a檢驗規(guī)則為:

x2x1-a(k-1)時,拒絕HO;n

xn<x1-a(k-1)時,接受HO.222

現(xiàn)在我們通過幾個例子來說明分布擬合的x檢驗法.2

例2.3.1x檢驗的一個著名的應用例子是用于孟德爾(Mendel著名2

生物學家)的豌豆實驗結(jié)果.這個實驗導致了近代遺傳學上起決定作

用的基因?qū)W說的產(chǎn)生.孟德爾在豌豆培養(yǎng)試驗中觀察到,把黃色圓形與綠

色皺縮型純種豌豆雜交,可能得到的子代類型為:黃圓、黃皺、綠圓和綠

皺.在n=556個豌豆中觀察到這四類豌豆的個數(shù)分別為315、101、108、

32.利用這個觀察值檢驗孟德爾的理論:黃圓:黃皺:綠圓:綠皺=9:

3:3:1的結(jié)論.

解:令X=1表示豌豆為黃圓,X=2表示豌豆為黃皺,

X=3表示豌豆為綠圓,X=4表示豌豆為綠皺.

P(X=i)=pi,i=l,2,3,4

總體X為只能取4個值的離散性隨機變量.問題為檢驗

HO:pl=916,p2=316,p3=

2316,p4=2116.由于n=556較大可用x檢驗法,x統(tǒng)計量的計算

過程見表2.3.1

表2.3.1

6

x=£

i2n2kninpi-n=556.47-556=0.47

2

0.95當a=0.05時,查表得x⑶=7.815>0,47,因此在a=0.05的

水平下接受HO,,即認為孟德爾的理論是正確的.例232(教材例

3.14,P99)某工廠生產(chǎn)一種220伏25瓦的白熾燈泡,其光通量(單位:流明)

用X表示,為檢驗X是否服從N(U,o2),現(xiàn)從總體X中有返回地抽取11=

120的樣本,進行觀察得光通量X的120個觀測值列于表2.3.2中.

表2.3,2

216203197208206209206208202203206213

218207208

202194203213211193213208208204206204

206208209

213203206207196201208207213208210208

211211214

220211203216224211209218214219211208

221

211218

218190219211208199214207207214206217

214

201212

213211212216206210216204221208209214

214

199204

211201216211209208209202211207202205

206

216206

213206207200198200202203208216206222

213

209219

解:我們采用皮爾遜x擬合檢驗,2

HO:F(x)=F0(x);Hl:F(x)WFO(x).

其中F0(x)==?-°°xl2noe(t-U)-

22o2dt,H,。2都是未知參數(shù),

求得U,。2的極大似然估計量分別為

□=A1

n£xi=x,

i=ln

7

o=

A2

In

i=l

£(xi-x)=M2.

A

n

2

再根據(jù)表2.3.2中的數(shù)據(jù)求出x=209,M2=42.77,因此有H=209,

A2

0=42.77.則F0(x)服從N(209,42.77).因此取統(tǒng)計量

k

x2=£n

i

ni

2

npi

A

—n.

然后,根據(jù)觀測數(shù)據(jù),把X的一切可能值x依情況分成9組.分組情

況已標在表2.3.3中.

計算當H0成立時各組的概率(這里只能是求各組概率的估計值).可

計算得pl=F0(198.5)-F0(-0°)=P(-°°<X<198.5)

=①

?198.5-209?

?一中(一8)?

42.77??

A

=0(—1,62)——

=1-0(1.62)=1-0.9474=0.0526,

p2=F0(210.5)-F0(198.5)=P(198.5<X<210.5)

7210.5-209?

?一中?

42.77??

7198.5-209

42.77?

?

???

A

=0(-1,15)-0(-1.62)=0(1.62)-0(1.15)

=0.9474-0.8749=0.0725.

類似于pl,p2的算法,逐一計算出p3?p9的值,從而計算出

A

A

A

A

npi,列于表2.3.3中

表2.3.3

A

8

計算出統(tǒng)計量

9

x2=£n

i=l

ni

2

npi

A

-120g0.347.

因為共分k=9組,有兩個估計參數(shù),所以x2分布的自由度為9—2

-1=6.對a=0.05,查出臨界值x0.95⑹=12.59.

由于統(tǒng)計量xn=0.347<12.59=xQ95⑹,所以不能拒絕H0,即認為在

實際工作中光通量X服從N(209,42.77).

例2.3.3根據(jù)某地區(qū)六十三年的氣象觀察,該地區(qū)夏季共有180天發(fā)

生過暴雨.這里將5—9月看作夏季,每年夏季共計

2

2

2

n=31+30+31+31+30=153天.表2.3.3第2列記錄了一年的夏季中有i

天發(fā)生過暴雨的年數(shù)ni(i=0,1,?).問觀察結(jié)果是否說明一年

夏季發(fā)生暴雨的天數(shù)服從泊松分布?(a=0.05)

解:以X表示每年夏季發(fā)生暴雨的天數(shù),依題意可假設(shè)

HO:X服從泊松分布P(入).

因為在假設(shè)H0中參數(shù)X未知,由實際觀測值求出X的極大似然估計

值入=x=

A

18063

處2.86.因此取統(tǒng)計量

A

2

xn=£

i

2

k

(ni-npi)

A

=£

i

k

ni

2

A

—n

npinpi

根據(jù)觀測的數(shù)據(jù),把X的一切可能值x={0,1,2,?}依情況分成7組.分

組情況已標在表2.3.2中.計算當H0成立時各組的概率(這里只能是求各

組概率的估計值).

A

XX-A

p=e-X,j=0,1,?,5;p6=P(g26)=£eii!i!i26

A

A

Ai

A

Ai

9

求得p0,pl,,p6的值,xA

2

ki

AAA

2

統(tǒng)計量的計算過程見表2.3.4.

xn=E

2

(ni-npi)

A

=£

k

ni

2

A

-n=2.8946.

npinpi

A

因為共分k=7組,有一個估計參數(shù)入,所以x2分布的自由度為7—1

-1=5.對a=0.05,查出臨界值x0.95⑸=11.07.

由于統(tǒng)計量xn=2.8946<11.07=x0,95(5),所以不能拒絕H0,即認為

該地區(qū)每年夏天出現(xiàn)暴雨的天數(shù)服從泊松分布.二、柯爾莫哥洛夫檢

皮爾遜x擬合檢驗適用于任何分布的檢驗,但它依賴于區(qū)間的

2

2

22

劃分.俄國數(shù)學家柯爾莫哥洛夫(KoriMoropoB)1933年證

明了著名的柯爾莫哥洛夫定理,并由此建立了一個分布擬和檢驗一一柯爾

莫哥洛夫檢驗.

用于檢驗

HO:F(x)=FO(x)(完全已知的連續(xù)性分布函數(shù)).

10

由格列紋科定理知:當樣本容量n充分大時,經(jīng)驗分布函數(shù)Fn(x)與理

論分布F(x)相當接近.所以,當H0成立且n較大時Fn(x)與FO(x)的差距不

應太大.故用統(tǒng)計量

Dn=sup|Fn(x)—FO(x)|(2.3.3)

-8&|t;x<;8

作為HO的檢驗統(tǒng)計量,并導出了Dn的精確分布和nDn的極限分布.

我們在此只給出Dn的具體求法和拒絕域的確定方法:

①將樣本觀測值xl,x2,?,xn,按不降次序排列成:x(l)(x(2)W?Wx(n);

?i-ln?-FO(x(i))?,n?i②計算di的值,di=max?F0(x(i))-,

i=l,2,?,n

Dn=max{dl,d2,?,dn};(2.3.4)

①對給定的顯著性水平a,按nWlOO和n>100,在表6中查臨

界Dn,a;

②若Dn2Dn,a,則拒絕原假設(shè)HO,即認為樣本不是取自分布為

FO(x)的總體;否則接受H0,即認為樣本是取自分布為FO(x)的總體.

與皮爾遜x檢驗相比,該檢驗法充分利用樣本所提供的信息,2

在所有點上考慮了經(jīng)驗分布函數(shù)與總體分布函數(shù)之間的差異,克服了

x擬合檢驗依賴于區(qū)間的劃分的缺點.但是,只有當總體為一維且2

理論分布完全已知時,柯爾莫哥洛夫檢驗優(yōu)于皮爾遜x檢驗.對于2

理論分布中含有未知參數(shù)時,柯爾莫哥洛夫檢驗需要做特殊處理,目

前只對正態(tài)分布與指數(shù)分布作了出來.

例2.3.4(教材例3.18,P114)對一臺設(shè)備進行壽命試驗,記錄了10次無

故障工作時間,并從小到大排列得

420,500,920,1380,1510,1650,1760,2100,2300,2350.問

此設(shè)備的無故障工作時間X是否服從參數(shù)為1/1500的指數(shù)分布?解

HO:F(x)=F0(x)=l-e

2.3.5中.-X1500,(x>;0).用柯爾莫哥洛夫檢驗進行這

個檢驗,統(tǒng)計量Dn的計算過程列于表11

表2.3,5

Dn查得D10,0.05=0.409>Dn,故接受H0,認為此設(shè)備的無故障工作

時間服從參數(shù)為1/1500的指數(shù)分布.

三、夏皮洛一威爾克(shapior-wilk)檢驗(W檢驗)

W檢驗是Sh理iro和Wilk于1965年提出的,用于檢驗一批觀測值是

否來自同一正態(tài)分布總體.理論上要求樣本容量在3到50之間,實際上

有些計算機軟件,當樣本容量小于或等于2000時,都使用W檢驗.W檢

驗的優(yōu)勢是它可以檢驗小樣本的總體是否服從正態(tài)分布.設(shè)總體X的分

布函數(shù)為F(x),xl,x2,,xn為樣本觀測值,檢驗假設(shè)為

HO:X-N(U,o2).步驟如下:

①將xl,x2,,xn按不降次序排列成:x(l)Wx(2)?Wx(n);②按下面

的公式計算樣本統(tǒng)計量W的值;

W=

?⑵?

??

(W)[-]x(n+l-k)x(k)??Eak

k=l????

nk=l

n

2

Zx(k)-x

0

2

.(2.3.5)

其中ak(W)可由附表10查到.W值在0?1之間,W值越小越拒絕

H0.;

12

③對給定的顯著性水平a和樣本容量n,由附表11查到臨界值W

a;

④若W<Wa,則拒絕H0,否則不拒絕H0,即可認為總體X服

從正態(tài)分布.

統(tǒng)計量W中系數(shù)的意義及所取拒絕域的根據(jù)可參考教材pl24-pl25.

例2.3.5現(xiàn)隨機抽取12名新生男嬰,測其體重(單位:公斤)如下:

3.10,2.52,3.00,3.00,3.60,3.16,3.56,3.32,2.88,2.60,

3.40,2.54.

試檢驗新生男嬰的體重是否服從正態(tài)分布(a=0.05).

解將樣本觀測值按不降次序排列,列出x(k)和x(13-k)并計算出x(13-k)

—x(k),結(jié)果見表2.3.6.

表2.3.6

其中ak(W)的值由附表10查得.

由上表中的值,經(jīng)計算得

12

k=lEx(k)-x

6()2=1.5736,Zak(W)[x(13-k)-x(k)]=1.191.

k=l

所以

W-1.191

1.57362=0.9104.

對給定的顯著性水平a=0.05和樣本容量n=12,由附表11查到臨界

值W0.05=0.859.

由于0.9104>0.859,所以接受H0,即可認為新生男嬰的體重服

從正態(tài)分布.

四、秩和檢驗

在許多實際問題中我們需要通過分別來自兩個總體(分別看作接受兩

種不同處理方法的個體的全體)的樣本的信息,來比較兩總體的分布是否

相同。

1945年Wilcoxon提出了一個檢驗兩總體是否相同的一種方法,13

稱為秩和檢驗。這個檢驗在社會科學中廣泛應用,而且在許多書中介

紹.

設(shè)總體X的分布函數(shù)為Fl(x),總體Y的分布函數(shù)為F2(x),Fl(x)和F2(x)

均為連續(xù)函數(shù),但未知,要檢驗的原假設(shè)為

HO:Fl(x)=F2(x).

從這兩總體中分別抽取容量為nl和n2的樣本X1,X2,?,X和Y1,Y2,?,Y

記為

Zl,Z2,?,Zn+n12

如果Xk=Zi,則記rk(X)=i,稱為Xk在混合樣本中的秩,它表示

如果Yk=Zj,則記rk(Y)=j,稱為Yk在Xk在混合樣本中的位置。

混合樣本中的秩,它表示Yk在混合樣本中的位置。令

Tl=Erk(X),T2=Lrk(Y)

k=lk=lnln2,將它們混合在一起按從小大大的次序重新排列,nln2

分別稱為Xl,X2,?,Xnl的秩和與Yl,Y2,?,Yn2的秩和,令

?T1,當nl〈n2T=?,,當>nln2?T2

顯然T是一個統(tǒng)計量。直觀上可以看出,如果Fl(x)2F2(x),則

P(X>Y)<l

2,因此,T2應有偏大的趨勢;反之如果Fl(x)<

1

2F2(x),則P(X>Y)>,因此,T1應有偏大的趨勢。所以,若

H0成立,則T的值既不應該太大也不應該太小。人們根據(jù)T的分布編

制了秩和檢驗表,表中給出了滿足P(Tl<T<T2)<l-a的兩個數(shù)

(l)(2)Ta和Ta,分別稱為秩和下限和秩和上限。從而得到H0的拒絕

域為

(l)T<Ta或T<Ta。(2)

例236(教材例3.25,P128)

nl,n2均W10時可查表得結(jié)果。

14

注:可以證明當n22nl,在HO的成立時有

u=T-nl(nl+n2+l)/2

nln2(nl+n2+l)/12

漸近于正態(tài)分布N(0,1),實際上在nl,n2均大于7時,u的分布近

似于正態(tài)分布N(0,1)已十分精確。這時,對給定的顯著性水平a,查正

態(tài)分布表得ul-a/2,當|u|2ul-a/2時拒絕HOo

例2.3.7(教材例3.26,P129)

練習題教材習題311、13、20、(講完上機后布置)

五、屬性數(shù)據(jù)分析

1.屬性變量與屬性數(shù)據(jù)分析

從變量的測量水平來看分為兩類:連續(xù)變量和屬性(Categorical)變量,

屬性變量又可分為有序的(Ordinal)和無序的變量。對屬性數(shù)據(jù)進行分析,

將達到以下幾方面的目的:

1)產(chǎn)生匯總分類數(shù)據(jù)一一列聯(lián)表;

2)檢驗屬性變量間的獨立性(無關(guān)聯(lián)性);

3)計算屬性變量間的關(guān)聯(lián)性統(tǒng)計量;

4)對高維數(shù)據(jù)進行分層分析和建模。

在實際中,我們經(jīng)常遇到判斷兩個或多個屬性變量之間是否獨立的問

題,如:吸煙與患肺癌是否有關(guān)?色盲與性別是否有關(guān)?上網(wǎng)時間與學習

成績是否有關(guān)等等.解決這類問題常用到建立列聯(lián)表,利用X統(tǒng)計量作顯

著性檢驗來完成.2

2.歹U聯(lián)表(ContingencyTable)

列聯(lián)表是由兩個以上的屬性變量進行交叉分類的頻數(shù)分布表。設(shè)二

維隨機變量(X,Y),X可能取得值為xl,x2,,xr,Y可能取得值為yl,y2,,ys.現(xiàn)

從總體中抽取容量為n的樣本,其中事件(X=xiY=yj)發(fā)生的頻率為ni

sj(i=1,2,?,r,r

j=l,2,?,s,)記ni?=Enij

j=l,n?j=Eniji=l,則有n

rsrs

=EEnij=Eni?=En?j,將這些數(shù)據(jù)排列成如下的表:

i=lj=li=lj=l

表2.3.7

15

這是一張rXs列聯(lián)表.

2.屬性變量的關(guān)聯(lián)性分析

對于不同的屬性變量,從列聯(lián)表中可以得到它們聯(lián)合分布的信息。但

有時還想知道形成列聯(lián)表的行和列變量間是否有某種關(guān)聯(lián)性,即一個變量

取不同數(shù)值時,另一個變量的分布是否有顯著的不同,這就是屬性變量關(guān)

聯(lián)性分析的內(nèi)容。

屬性變量關(guān)聯(lián)性檢驗的假設(shè)為

H0:變量之間無關(guān)聯(lián)性;H1:變量之間有關(guān)聯(lián)性

由于變量之間無關(guān)聯(lián)性說明變量互相獨立,所以原假設(shè)和備擇假設(shè)可

以寫為:

H0:變量之間獨立;H1:變量之間不獨立

x檢驗2

HO:X與Y獨立.

記P(X=xi,n=yj)=pij,i=1,2,?,r,,j=l,2,?,

s,

P(X=xi)=pi.,i=1,2,?,r,P(Y=yj)=p.j,j=1,2,?,s.

由離散性隨機變量相互獨立的定義,則原假設(shè)等價于

HO:pij=pi.p,j,i=1,2,?,r,,j=l,2,?,s.若pij已知,我們

可以建立皮爾遜x統(tǒng)計量2

x=EX2rs(nij-npij)

npij2.i=lij=l

16

由皮爾遜定理知,x的極限分布為x(rs-l).但這里pij未知,因22

A

此用它的極大似然估計pij代替,這時檢驗統(tǒng)計量為

rsx=£S2(nij-np)ij

npiAjA2.i=lij=l

在HO成立的條件下,pij=pi.p,j,即等價于用pi?和p.?j的極大似

AA

然估計pi?和p?j的積去代替.可以求得

Api?=ni?n?j,i=1,2,?,r,p?j=,j=l,2,?,nnAs,

ni?n?j則pij=.i=1,2,?,r,,j=l,2,?,s,nn八從

而得到統(tǒng)計量

rsx=£S2(nij-npp)i??j

nppi??jAAAA2i=lij=l?rsnij2?-1?.(2.3.6)=n££

i=lij=lni?n?j???

2在HO成立的條件下,當n-8時,x的極限分布為

x(rs*(r+s-2)-1)=x((r-l)(s-l)).

對給定的顯著性水平a,當x>xl-a((r-l)(s-l)),則拒絕HO,2222

否則接受HO.

特別,當r=s=2時,得至U2X2歹U聯(lián)表,常被稱為四格表,是應用最

廣的一種列聯(lián)表.這時檢驗統(tǒng)計量為

2

X2=n(nlln22-nl2n21)

n?ln2?nl?n?2

(2.3.7)

它的極限分布為x(1).2

對于二維隨機變量(X,Y)是連續(xù)取值的情況,我們可采用如下方法

將其離散化.

①將X的取值范圍(-8,+8)分成r個互不相交的區(qū)間,將Y

的取值范圍(-8,+8)分成s個互不相交的區(qū)間,于是整個平面分

成了rs個互不相交的小矩形;

17

②求出樣本落入小矩形中的頻數(shù)niji=l,2,?,r,,j=l,2,?,

s;

③建立統(tǒng)計量

?rsnij2x=nEEi=lij=lni?n??22j?-l?,??2在HO成立時且n充分大

時,x的極限分布為x((r-l)(s-l)),拒

絕域的確定同離散型的情況.

例2.3.8(教材P71例3.2,)某研究所研制了一種治療感冒的新藥,為

了檢驗其療效,現(xiàn)征集了200名患者為志愿者,將他們隨機地分為相等的

兩組,一組服藥另一組不服藥,觀察3日后痊愈的情況得到如下數(shù)據(jù):

解設(shè)X表示是否痊愈,只取兩個值:痊愈,未痊愈;

Y表示是否服藥,只取兩個值:服藥,未服藥.

所要研究的問題是X與Y是否獨立,即檢驗

HO:X與Y獨立.

已給數(shù)據(jù)構(gòu)成一個四格表,n=200,nll=48,nl2=52,n

n2221=56,=44,

nl?=100,n?l=104,n2?=100,n?2=96,則

(-)x=nnlln22nl2n21=200?(48?44-56?52)^1.282.22

n?ln2?nl?n?2100?100?104?96

2若給定a=0.25,查表得x0.75(1)=1.323>1.282,所以接受HO,

認為X與Y獨立,即認為這種感冒藥并無明顯療效.

3.屬性變量的關(guān)聯(lián)度計算

18

2x檢驗的結(jié)果只能說明變量之間是否獨立,如果不獨立,并不

能由x2的值說明它們之間關(guān)系的強弱,這可以由?系數(shù)來說明

???系數(shù)=?

???nlln22-nl2n21nl?+n2?+n?ln?22,n=p=2其它x

n,

其中當n=p=2即2X2列聯(lián)表時其它|?|越

接近1,它們之間關(guān)聯(lián)性越強,反之越弱。主要用于2義2列聯(lián)表

(講完上機后布置)

練習題教材習題314、15(講完上機后布置)

§2.4估計與檢驗的SPSS實現(xiàn)

一、正態(tài)總體參數(shù)的區(qū)間估計和假設(shè)檢驗

1.數(shù)學模型

正態(tài)總體參數(shù)的區(qū)間估計(見概率統(tǒng)計教材)

正態(tài)總體參數(shù)的假設(shè)檢驗

單總體N(U,。2)中口的假設(shè)檢驗

19

單總體N(口,。2)中。2的假設(shè)檢驗

兩正態(tài)總體的均值差與方差比的假設(shè)檢驗

2.正態(tài)總體參數(shù)的區(qū)間估計和假設(shè)檢驗的SPSS實現(xiàn)

(1)單總體N(U,。2)中口的區(qū)間估計

(2)單總體N(U,。2)中U的假設(shè)檢驗

設(shè)總體X?N(R,O2),當。2未知時,檢驗

HO:U=H0;H1:11110(kt>口0或口<HO)

在SPSS中完成上述工作,是利用單樣本T檢驗對話框,輸入檢驗值口

。和置信度1-a即可。

例2.4.1檢驗我國上市公司的平均資產(chǎn)負債率是否為0.5

(數(shù)據(jù)存放在數(shù)據(jù)集“上市公司財務數(shù)據(jù).sav”中)

操作:

①選擇菜單分析(Analyze)=>比較均值(Comparemeans)=>

單樣本T檢驗(OneSampleTTest),打開單樣本T檢驗(OneSampleTTest)

對話框

單樣本T檢驗(OneSampleTTest)對話框:

將lev移入TestVariables列表框中;

在TestValue輸入框中輸入原假設(shè)的檢驗值,此處為0.5。

②單擊選項(Options)按鈕,打開選項(Options)子對話框

在置信區(qū)間(ConfidenceInterval)框輸入置信度,默認為95%。

在缺失值(MissingValues)單選框組定義分析中對缺失值的處理方法,

按分析順序排除個案(Excludescasesanalysis

by20

analysis):是具體分析用到的變量有缺失值才去除該觀測;

按列表排除個案(Excludescaseslistwise):只要相關(guān)變量有缺失值,

則在所有分析中均將該記錄去除。

默認為前者,以充分利用數(shù)據(jù)。

輸出結(jié)果:

對單側(cè)假設(shè)檢驗

HO:U=U0;Hl:U>U0

根據(jù)p(Sig.(2-tailed))值,判斷拒絕H0的方法:

①t>O;

②p/2<a

(3)兩樣本總體均值的比較:成對匹配樣本

例242(SPSSzjpP53例)檢驗某校學生進行培訓前后學生學習成績21

有無顯著差異。(數(shù)據(jù)存放在數(shù)據(jù)集“學生培訓.sav”中)

這是一個(成對匹配)雙樣本均值檢驗問題,若口1和口2分別表示

培訓前后學生的平均成績,則檢驗的是:

HO:U1-U=O,2

操作:

①擇菜單Analyze=>Comparemeans=>Paired-SampleTTest,

打開Paired-SampleTTest對話框

將兩個配對變量移入PairedVariables列表框中;

②單擊Options按鈕,打開Paired-SamplesTTest:對話框

在ConfidenceInterval框輸入置信度,默認為95%。

MissingValues單選框組定義分析中對缺失值的處理方法,Excludes

casesanalysisbyanalysis是具體分析用到的變量有缺失值才去除該觀測;

Excludescaseslistwise只要相關(guān)變量有缺失值,則在所有分析中均將該

記錄去除。

默認為前者,以充分利用數(shù)據(jù)。

③單擊Continue,回到Paired-SampleTTest對話框,單擊ok.

Hl:U1-U2W0;

22

(4)兩樣本總體均值的比較:獨立樣本

例243檢驗在滬市和在深市上市的公司平均資產(chǎn)負債率是否存在顯

著差異

(數(shù)據(jù)存放在數(shù)據(jù)集“上市公司財務數(shù)據(jù).sav”中)數(shù)據(jù)集

注:在做此檢驗前,應先做(7)中的兩樣本總體方差的比較的檢

驗。如果方差相等,在做此檢驗后取方差相等的結(jié)果,如果方差不

等〃在做此檢驗后取方差不等的結(jié)果,

操作:

③選擇菜單Analyze=>Comparemeans=>Independent-SampleT

Test,打開Independent-SampleTTest對話框?qū)ev移入TestVariables

列表框中;④設(shè)置分類變量:將分類變量jys(“O”表深圳上市公司,“1”

表在滬上市公司)移入GroupingVariables列表框中,則下

面的DefineGroups按鈕被激活,單擊該按鈕,打開DefineGroups子

對話框

選項UsespecifiedValues輸入分類變量代表兩個總體的取值,這里分

別輸入0和1;

選項CutPoint輸入分類變量的一個取值,系統(tǒng)根據(jù)分類變量的取值

大于還是小于這個值將樣本分為兩類。23

單擊Continue,回到Independent-SampleTTest對話框,單擊ok

可見該結(jié)果分為兩大部分:第一部分為Levene's方差齊性檢驗,

用于判斷兩總體方差是否相等,這里的檢驗結(jié)果為F=1.515,P=0,219,

可見在本例中方差是齊的;第二部分則分別給出兩組所在總體方差齊和方

差不齊時的t檢驗結(jié)果,由于前面的方差齊性檢驗結(jié)果為方差齊,第二部

分就應選用方差齊時的t檢驗結(jié)果,即上面一行列出的t=1.287v=313,

P=0.199o從而最終的統(tǒng)計結(jié)論為按a=0.05水準,不能拒絕H0,認為在滬

市和在深市上市的公司平均資產(chǎn)負債率不存在顯

24

二、有關(guān)總體分布的擬合與假設(shè)檢驗

1.分布密度函數(shù)擬合圖、P-P圖和Q-Q圖(楊小平SPSS教程P84)

(1)分布密度函數(shù)擬合圖就是在限定的參數(shù)分布類中通過對參數(shù)的

估計,用估計得到的參數(shù)所對應的密度曲線去擬合密度直方圖頂部的形態(tài)。

例2.4.4借助80名16歲女生身高調(diào)查數(shù)據(jù),用SPSS生成身高數(shù)據(jù)的

直方圖并給出分布密度函數(shù)擬合曲線。(數(shù)據(jù)存放在數(shù)據(jù)集“Student.sav”

中)

(2)P-P概率圖

P-P概率圖是一種常用的檢驗概率分布的統(tǒng)計圖形,它是根據(jù)變量分

布累積比和指定的某種概率分布累積比生成的圖形。利用P-P概率圖可以

直觀檢驗觀測變量是否符合指定的概率分布。如果符合的好,圖中所有的

點將沿直線排列,與直線近似吻合。否則,可以通過對原數(shù)據(jù)進行變換,

使得變換后的數(shù)據(jù)符合指定的分布。

例2.4.5對例2.4.4中的身高數(shù)據(jù),用SPSS生成身高數(shù)據(jù)的P-P概率圖

操作:

①打開數(shù)據(jù)文件Student.sav;

25

②選擇菜單Analyze=>DescriptiveStatitics=>P-PPlots打開P-P

Plots對話框

將“身高”變量添加到Variables框中,系統(tǒng)對Variables框中的變量生

成P-P概率圖。

檢驗分布(TestDistribution)框:它的下拉框中列出了13種分布作為

檢驗的指定分布,其中包括常見的正態(tài)分布(Normal),T分布(Studentt)、

指數(shù)分布(Exponential)和卡方分布(Chi-square)等。分布參數(shù)(Distribution

Parameters)為分布參數(shù)選項,用于指定分布中未知參數(shù)的選擇方式,默

認項為從數(shù)據(jù)中估計(Estimatefromdata)標識系統(tǒng)自動利用變量的觀測

數(shù)據(jù)估計未知參數(shù)。轉(zhuǎn)換(Transform)框:為變量轉(zhuǎn)換框,提供了3

種變量轉(zhuǎn)換方式

?NaturallogTransform自然對數(shù)

?StandardizeValues進行標準化,將原變量轉(zhuǎn)換成均值為0,方差為

1的標準變量;

Difference差分轉(zhuǎn)換,利用變量中連續(xù)兩個數(shù)據(jù)之差來轉(zhuǎn)換原變量。

比例估計公式(ProportionEstimationFormuta)計算正態(tài)概率?分

布期望的方法

方法,公式為

?Blom(r-3/8)/(n+(l/4))o

方法,公式為。方法,

?Rankit(r-1/2)Tukey(r-1/3)/(n+(l/3))o

方法,

VanderWaerden(r/(n+l))o

單擊ok

26

(3)Q-Q圖是一種散點圖。

Q-Q圖與P-P圖一樣,也是一種檢驗概率分布的統(tǒng)計圖形。所不同的

是,它是根據(jù)變量分布的分位數(shù)和指定的某種概率分布的分位數(shù)生成的圖

形。

Q-Q圖的創(chuàng)建方式與P-P圖完全相同,其對話框的形式和操作方式也

與P-P圖完全一致

27

對應于正態(tài)分布的QQ圖由點O??-l(i-0.375?),x(i)?構(gòu)成,其n+0.25?

橫坐標為標準正態(tài)分布的分位數(shù),縱坐標x(i)(i=l,2,?,n)是將

xl,?,xn從小到大排序后的數(shù)列,為總體i/n分位數(shù)的點估計。若觀測數(shù)

據(jù)近似正態(tài)分布N(口,。),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論