第7部分假設(shè)檢驗(yàn)_第1頁(yè)
第7部分假設(shè)檢驗(yàn)_第2頁(yè)
第7部分假設(shè)檢驗(yàn)_第3頁(yè)
第7部分假設(shè)檢驗(yàn)_第4頁(yè)
第7部分假設(shè)檢驗(yàn)_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第7部分假設(shè)檢驗(yàn) 第一節(jié) 二項(xiàng)分布 二項(xiàng)分布是從著名的貝努里試驗(yàn)中推導(dǎo)而來(lái)。所謂貝努里試驗(yàn),是指只有兩種可能結(jié)果的隨機(jī)試驗(yàn)。在實(shí)際問(wèn)題中,有許多隨機(jī)現(xiàn)象只包含兩個(gè)結(jié)果,如男與女,是與非,生與死,同意與不同意,贊成與反對(duì)等等。通常,我們把其中比較關(guān)注那個(gè)結(jié)果稱為“成功”,另一個(gè)結(jié)果則稱為“失敗”。每當(dāng)情況如同貝努里試驗(yàn),是在相同的條件下重復(fù)n次,考慮的是“成功”的概率,且各次試驗(yàn)相互獨(dú)立,就可利用與二項(xiàng)分布有關(guān)的統(tǒng)計(jì)檢驗(yàn)。雖然許多分布較之二項(xiàng)分布更實(shí)用,但二項(xiàng)分布簡(jiǎn)單明了,況且其他概率分布的使用和計(jì)算邏輯與之相同。所以要理解統(tǒng)計(jì)檢驗(yàn)以及它所涉及的許多新概念,人們幾乎都樂(lè)意從二項(xiàng)分布的討論入手。

2、7/20/202221. 二項(xiàng)分布的數(shù)學(xué)形式 從擲硬幣的試驗(yàn)入手。假定二項(xiàng)試驗(yàn)由重復(fù)拋擲n次硬幣組成,已知硬幣面朝上(成功)的概率是p,面朝下(失敗)的概率是q (顯然有 q1p)。這樣,對(duì)試驗(yàn)結(jié)果而言,成功的次數(shù)(即硬幣面朝上的次數(shù))X是一個(gè)離散型隨機(jī)變量,它的可能取值是0,1,2,3,n。而對(duì)X的一個(gè)具體取值x而言,根據(jù)乘法規(guī)則,我們立刻可以就試驗(yàn)結(jié)果計(jì)算出一種特定排列方式(先x次面朝上,而后nx次面朝下)實(shí)現(xiàn)的概率,即 ppppqqqqpxqn-x7/20/20223 由于正確解決概率問(wèn)題,光考慮乘法規(guī)則是不夠的,還要考慮加法規(guī)則,于是就x次成功和(nx)次失敗這個(gè)宏觀結(jié)果而言所包含的所

3、有排列的方式數(shù),用符號(hào)表示 這樣,我們就得到了二項(xiàng)試驗(yàn)中隨機(jī)變量X的概率分布,即 7/20/20224 譬如,二項(xiàng)試驗(yàn)是將一枚硬幣重復(fù)做8次拋擲,假設(shè)這枚硬幣是無(wú)偏的,即pq0.5,那么恰好得到5次面朝上的概率是 硬幣面朝上數(shù)x 概率P(X=x) 012345678 1/256= .004 8/256= .031 28/256= .109 56/256= .219 70/256= .274 56/256= .219 28/256= .109 8/256= .031 1/256= .004合 計(jì) 1.000 同理,我們也可以求出這個(gè)二項(xiàng)試驗(yàn)中硬幣剛好為0,1,2,8次面朝上的各種宏觀結(jié)果的概率,

4、全部寫(xiě)出來(lái)就是右表。 7/20/202252. 二項(xiàng)分布討論X 0 1 2 n合計(jì)P(X) 二項(xiàng)分布為離散型隨機(jī)變量的分布。每當(dāng)試驗(yàn)做的是在相同的條件下n次重復(fù)的貝努利試驗(yàn)時(shí),隨機(jī)變量X共有n+1個(gè)取值。二項(xiàng)分布可以用分布律(見(jiàn)上表)和折線圖(見(jiàn)右圖)來(lái)表示。 當(dāng)P=0.5時(shí)二項(xiàng)分布的圖形是對(duì)稱的。7/20/20226 E(X)=np, D(X)= 2= npq 二項(xiàng)分布受 p 和 n 變化的影響,只要確定了 p和 n,成功次數(shù) X 的分布也隨之確定。因此,二項(xiàng)分布還可簡(jiǎn)寫(xiě)作 B(x;n,p)。 二項(xiàng)分布的概率值除了根據(jù)公式直接進(jìn)行計(jì)算外,還可查表求得。二項(xiàng)分布表的編制方法有兩種:一種依據(jù)概率

5、分布律 P(x) 編制(見(jiàn)附表2);另一種依據(jù)分布函數(shù) F(x) 編制(見(jiàn)附表3)。 其中7/20/20227 例 某特定社區(qū)人口的10%是少數(shù)民族,現(xiàn)隨機(jī)抽取6人,問(wèn)其中恰好2人是少數(shù)民族的概率是多少? 解 解法一:根據(jù)(7.3)式直接計(jì)算 解法二:根據(jù)附表2中縱列n6和橫行p0.1所對(duì)應(yīng)x值,可直接查得B(x;6,0.1)的概率值 B (2;6,0.1)00984 解法三:根據(jù)附表3求得 B (2;6,0.1)F(2) F(3 ) 0.11430.01590.0984 7/20/20228第二節(jié) 統(tǒng)計(jì)檢驗(yàn)的基本步驟 二項(xiàng)分布是用數(shù)學(xué)或演繹推理的方法求得的一種理論分布。認(rèn)識(shí)到概率分布是先驗(yàn)的

6、理論分布這一點(diǎn)很重要,因?yàn)槲覀儾唤獑?wèn),既然試驗(yàn)或抽樣調(diào)查的結(jié)果僅與隨機(jī)變量可能取值中的一個(gè)相聯(lián)系,那么實(shí)際試驗(yàn)或樣本調(diào)查對(duì)結(jié)果的概率分布及前提假設(shè)有沒(méi)有一個(gè)檢驗(yàn)的問(wèn)題?具體來(lái)講,對(duì)于一枚硬幣被重復(fù)拋擲8次的二項(xiàng)試驗(yàn),經(jīng)驗(yàn)告訴我們,一共有9種可能的結(jié)果,而且實(shí)現(xiàn)這些結(jié)果的機(jī)會(huì)是大不相同的。研究者實(shí)際上從來(lái)不用經(jīng)驗(yàn)的方法求得概率分布,因?yàn)橥ǔN覀冎粚?duì)一項(xiàng)試驗(yàn)進(jìn)行一次或幾次,抽取樣本也是一個(gè)或至多不過(guò)幾個(gè)。既然二項(xiàng)分布是按照數(shù)學(xué)規(guī)則得到的,那么對(duì)這9種結(jié)果的可能性我們應(yīng)該作出何種評(píng)價(jià)呢?如果實(shí)際試驗(yàn)(或抽樣)得到的結(jié)果偏巧就是先驗(yàn)概率預(yù)示的最不可能出現(xiàn)的結(jié)果,那么我們是認(rèn)定純屬巧合,還是開(kāi)始對(duì)用數(shù)

7、學(xué)或演繹推理方法求得的概率以及理想試驗(yàn)的種種前提假設(shè)產(chǎn)生懷疑?更準(zhǔn)確地說(shuō),在一枚硬幣被重復(fù)拋擲8次的這個(gè)二項(xiàng)試驗(yàn)中,究竟出現(xiàn)什么結(jié)果時(shí),我們應(yīng)該對(duì)二項(xiàng)分布及其前提假設(shè)產(chǎn)生懷疑呢?是不是只要不是得到4次成功4次失敗這個(gè)最大可能性結(jié)果就開(kāi)始懷疑,還是僅當(dāng)出現(xiàn)8次成功或一次也不成功這兩個(gè)極端情況時(shí)才產(chǎn)生懷疑呢?這就是統(tǒng)計(jì)檢驗(yàn)的核心問(wèn)題。 7/20/20229大數(shù)定理表明:就大量觀察而言,事件的發(fā)生具有一定的規(guī)律性。根據(jù)概率的大小,人們處理的態(tài)度和方式很不一樣。在日常生活中,人們往往習(xí)慣于把概率很小的事件,當(dāng)作一次觀察中是極不可能看到的事件。例如,人們出門(mén)做事就有可能遇到不測(cè)事故,但卻很少人因此而不敢

8、出門(mén)。原因是:小概率事件極不可能發(fā)生。 統(tǒng)計(jì)檢驗(yàn)是指先建立一個(gè)關(guān)于總體情況的假設(shè),繼而抽取一個(gè)隨機(jī)樣本,然后以樣本的統(tǒng)計(jì)量或者統(tǒng)計(jì)性質(zhì)來(lái)檢定假設(shè)。 統(tǒng)計(jì)檢驗(yàn)的依據(jù)是小概率原理:一是認(rèn)為小概率事件在一次觀察中是極少出現(xiàn)的;二是如果在一次觀察中出現(xiàn)了小概率事件,那么應(yīng)該否定原有事件具有小概率的說(shuō)法或者假設(shè)。7/20/202210(1)建立假設(shè)(2)求抽樣分布(4)計(jì)算檢驗(yàn)統(tǒng)計(jì)量(3)選擇顯著性水平和否定域(5)判定所所包有含統(tǒng)的計(jì)步檢驟驗(yàn) 根據(jù)以往多年的統(tǒng)計(jì)表明,上海財(cái)大英語(yǔ)的平均成績(jī)?yōu)?0分,隨機(jī)抽取100個(gè)學(xué)生,其平均成績(jī)?yōu)?0分,問(wèn)今年財(cái)大學(xué)生的英語(yǔ)成績(jī)是否下降?7/20/202211 1建

9、立假設(shè) 統(tǒng)計(jì)檢驗(yàn)是將抽樣結(jié)果和抽樣分布相對(duì)照而作出判斷的工作。取得抽樣結(jié)果,依據(jù)描述性統(tǒng)計(jì)的方法就足夠了。抽樣分布則不然,它無(wú)法從資料中得到,非利用概率論不可。而不對(duì)待概括的總體和使用的抽樣程序做某種必要的假設(shè),這項(xiàng)工作將無(wú)法進(jìn)行。比如通過(guò)擲硬幣的實(shí)驗(yàn)得到二項(xiàng)分布,必須假設(shè):樣本是隨機(jī)的,試驗(yàn)中各次拋擲相互獨(dú)立;硬幣是無(wú)偏的(或稱是誠(chéng)實(shí)的),即pq05。概括地說(shuō),必須首先就研究總體和抽樣方案都做出假設(shè),再加上概率論,我們就可以對(duì)各種可能結(jié)果做具體的概率陳述了。 7/20/202212 2求抽樣分布 在做了必要的假設(shè)之后,我們就能用數(shù)學(xué)推理過(guò)程來(lái)求抽樣分布了。比如在這一章開(kāi)頭,在硬幣重復(fù)拋擲n次

10、的理想實(shí)驗(yàn)中,我們計(jì)算了成功次數(shù)為x的宏觀結(jié)果所具有的概率,得到二項(xiàng)分布。如果前提假設(shè)變動(dòng)了,還可以求出其他形式的概率分布,如正態(tài)分布、泊松分布、卡方分布等等,它們都有特定的方程式。由于數(shù)學(xué)上已經(jīng)取得的成果,實(shí)際上統(tǒng)計(jì)工作者要做的這項(xiàng)工作往往并不是真的去求抽樣分布的數(shù)學(xué)形式,而是根據(jù)具體需要,確定特定問(wèn)題的統(tǒng)計(jì)檢驗(yàn)應(yīng)該采用哪種分布的現(xiàn)成的數(shù)學(xué)用表。 7/20/202213 3選擇顯著性水平和否定域 在統(tǒng)計(jì)檢驗(yàn)中,那些不大可能的結(jié)果稱為否定域。如果這類結(jié)果真的發(fā)生了,我們將否定假設(shè);反之就不否定假設(shè)。 在統(tǒng)計(jì)檢驗(yàn)中,通常把被檢驗(yàn)的那個(gè)假設(shè)稱為零假設(shè)(用符號(hào)H0表示),并用它和其他備擇假設(shè)(用符號(hào)

11、H1表示)相對(duì)比。零假設(shè)與備擇假設(shè)否定域7/20/202214 在統(tǒng)計(jì)檢驗(yàn)中,無(wú)論是拒絕或者接受原假設(shè),都不可能做到百分之百的正確,都有一定的錯(cuò)誤。第一類錯(cuò)誤是,零假設(shè)H0實(shí)際上是正確的,卻被否定了。第二類錯(cuò)誤則是,H0實(shí)際上是錯(cuò)的,卻沒(méi)有被否定。 遺憾的是,不管我們?nèi)绾芜x擇否定域,都不可能完全避免第一類錯(cuò)誤和第二類錯(cuò)誤,也不可能同時(shí)把犯兩類錯(cuò)誤的危險(xiǎn)壓縮到最小。對(duì)任何一個(gè)給定的檢驗(yàn)而言,第一類錯(cuò)誤的危險(xiǎn)越小,第二類錯(cuò)誤的概率就越大;反之亦然。一般來(lái)講,不可能具體估計(jì)出第二類錯(cuò)誤的概率值。第一類錯(cuò)誤則不然,犯第一類錯(cuò)誤的概率是否定域內(nèi)各種結(jié)果的概率之和。 兩類錯(cuò)誤及其關(guān)系7/20/202215

12、 被我們事先選定的可以犯第一類錯(cuò)誤的概率,叫做檢驗(yàn)的顯著性水平(用表示),它決定了否定域的大小。因此,有人也把第一類錯(cuò)誤稱之錯(cuò)誤 。相應(yīng)地第二類錯(cuò)誤被人稱為 錯(cuò)誤。 在原假設(shè)成立的條件下,統(tǒng)計(jì)檢驗(yàn)中所規(guī)定的小概率標(biāo)準(zhǔn)一般取為=0.05或=0.01。 由所決定的否定域與接受域之間的分界值被稱為臨界值, 如Z 。 如果抽樣分布是連續(xù)的,否定域可以建立在想要建立的任何水平上,否定域的大小可以和顯著性水平的要求一致起來(lái)(后面的正態(tài)檢驗(yàn)就如此)。如果抽樣分布是非連續(xù)的,就要用累計(jì)概率的方法找出一組構(gòu)成否定域的結(jié)果。顯著性水平7/20/202216 根據(jù)否定域位置的不同,可以將假設(shè)檢驗(yàn)分為雙側(cè)檢驗(yàn)和單側(cè)檢

13、驗(yàn)。 在統(tǒng)計(jì)中,必須把否定域分配到抽樣分布的兩端的檢驗(yàn),被稱為雙側(cè)檢驗(yàn)。 在統(tǒng)計(jì)中,可以事先能預(yù)測(cè)偏差方向,因而可以把否定域集中到抽樣分布更合適的一端的檢驗(yàn),被稱為單側(cè)檢驗(yàn)。 雙側(cè)檢驗(yàn)和單側(cè)檢驗(yàn)7/20/202217 奈曼皮爾遜 (NeymanPearson)提出了一個(gè)原則 “在控制犯第一類錯(cuò)誤的概率不超過(guò)指定值的條件下, 盡量使犯第二類錯(cuò)誤 小”按這種法則做出的檢驗(yàn)稱為“顯著性檢驗(yàn)”, 稱為顯著性水平或檢驗(yàn)水平。 在同樣顯著性水平的條件下,單側(cè)檢驗(yàn)比雙側(cè)檢驗(yàn)更合適。因?yàn)榉穸ㄓ虮患械匠闃臃植几线m的一側(cè),這樣在犯第一類錯(cuò)誤的危險(xiǎn)不變的情況下,減少了犯第二類錯(cuò)誤的危險(xiǎn)。 7/20/202218

14、4計(jì)算檢驗(yàn)統(tǒng)計(jì)量 在完成了上述工作之后,接下來(lái)就是做一次與理想試驗(yàn)盡量相同的實(shí)際抽樣(比如實(shí)際做一次重復(fù)拋擲硬幣的試驗(yàn)),并從獲取的樣本資料算出檢驗(yàn)統(tǒng)計(jì)量。檢驗(yàn)統(tǒng)計(jì)量是關(guān)于樣本的一個(gè)綜合指標(biāo),但與我們后面參數(shù)估計(jì)中將要討論的統(tǒng)計(jì)量有所不同,它不用作估測(cè),而只用作檢驗(yàn)。 5判定 假設(shè)檢驗(yàn)系指拒絕或保留零假設(shè)的判斷,又稱顯著性檢定。在選擇否定域并計(jì)算檢驗(yàn)統(tǒng)計(jì)量之后,我們完成最后一道手續(xù),即根據(jù)試驗(yàn)或樣本結(jié)果決定假設(shè)的取與舍。如果結(jié)果落在否定域內(nèi),我們將在已知犯第一類錯(cuò)誤概率的條件下,否定零假設(shè)。反之,如果結(jié)果落在否定域外,則不否定零假設(shè),與此同時(shí),我們就有了犯第二類錯(cuò)誤的危險(xiǎn)。 7/20/2022

15、19 例 若想通過(guò)拋擲10次硬幣的實(shí)驗(yàn)來(lái)檢驗(yàn)這個(gè)硬幣無(wú)偏的零假設(shè),通過(guò)雙側(cè)檢驗(yàn)0.10顯著性水平,請(qǐng)指出否定域。如果單側(cè)檢驗(yàn)(p0.4)7/20/202220第三節(jié) 正態(tài)分布 如果說(shuō)二項(xiàng)分布是離散型隨機(jī)變量最具典型意義的概率分布,那么連續(xù)型隨機(jī)變量最具典型意義的概率分布就是正態(tài)分布了。一般地講,若影響某一變量的隨機(jī)因素很多,而每個(gè)因素所起的作用不太大且相互獨(dú)立,則這個(gè)變量服從正態(tài)分布。更為重要的是,不論總體是否服從正態(tài)分布,只要樣本容量n足夠大,樣本平均數(shù)的抽樣分布就趨于正態(tài)分布。 正態(tài)分布是最重要的概率分布:(1)許多自然現(xiàn)象和社會(huì)現(xiàn)象,都可用正態(tài)分布加以敘述;(2)當(dāng)樣本足夠大時(shí),都可用正

16、態(tài)近似法解決變量的概率分布問(wèn)題;(3)許多統(tǒng)計(jì)量的抽樣分布呈正態(tài)分布。7/20/2022211. 正態(tài)分布的數(shù)學(xué)形式正態(tài)分布性質(zhì): (1)正態(tài)曲線以x=呈鐘型對(duì)稱 均值=中位數(shù)=眾數(shù) (2)在x=處,概率密度最大;當(dāng)區(qū)間離越遠(yuǎn),x落在這個(gè)區(qū)間的概率越小。 7/20/202222 (3)正態(tài)曲線的外形由值確定。對(duì)于固定的值,不同均值的正態(tài)曲線的外形完全相同,差別只在于曲線在橫軸方向上整體平移了一個(gè)位置 。 (5)E(X)= D(X)= 2 (4)對(duì)于固定的值,改變值,值越小,正態(tài)曲線越陡峭;值越大,正態(tài)曲線越低平。 (總之,正態(tài)分布曲線的位置是由決定的,而正態(tài)分布曲線的“高、矮、胖、瘦” 由決定

17、的。) 7/20/202223 2. 標(biāo)準(zhǔn)正態(tài)分布 Z分?jǐn)?shù)(標(biāo)準(zhǔn)正態(tài)變量)用Z分?jǐn)?shù)表達(dá)的標(biāo)準(zhǔn)正態(tài)分布,其概率密度為一般正態(tài)分布的表示標(biāo)準(zhǔn)正態(tài)分布的表示7/20/2022243. 正態(tài)曲線下的面積 但積分畢竟太麻煩了,更何況許多人對(duì)積分運(yùn)算不熟悉,為此須計(jì)算出現(xiàn)成的數(shù)值表供使用者查找。由于正態(tài)曲線的優(yōu)良性質(zhì),這項(xiàng)工作可以卓有成效地完成:經(jīng)過(guò)X的標(biāo)準(zhǔn)分 ,可以將任何正態(tài)分布N(,2)轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布N(0,1);運(yùn)用分布函數(shù)的定義,并利用正態(tài)曲線的對(duì)稱性,通過(guò)下式(分布函數(shù))可以計(jì)算編制出正態(tài)分布表(見(jiàn)附4)。 7/20/202225 采用標(biāo)準(zhǔn)正態(tài)變量表達(dá)正態(tài)分布,使標(biāo)準(zhǔn)差得到了進(jìn)一步闡明。我們

18、看到,標(biāo)準(zhǔn)差是計(jì)算總體單位分布及其標(biāo)志值變異范圍的主要依據(jù),下圖說(shuō)明了這一點(diǎn)。(1)變量值在【 -, + 】之間的概率為0.6826。(2)變量值在【 -2, +2 】之間的概率為0.9546。(3)變量值在【 -3, +3 】之間的概率為0.9973。7/20/202226 例 設(shè)隨機(jī)變量X服從正態(tài)分布N(168,122),試求P(X143)。 總之,決定任意兩點(diǎn)間的面積都完全是可能的。比如向均值兩側(cè)移1.96個(gè)標(biāo)準(zhǔn)差,曲線下方便包含了大約95的面積;如移動(dòng)2.58個(gè)標(biāo)準(zhǔn)差,則面積幾乎是99。附錄4已編制了關(guān)于Z和標(biāo)準(zhǔn)正態(tài)曲線所含面積之間關(guān)系的精確數(shù)值表,即Z從0到+變化,相應(yīng)區(qū)間含的面積從

19、0變至0.5。7/20/202227 解 已知168,12 z 是負(fù)值,表示X的取值處于均值左邊。由于曲線完全對(duì)稱,所以使用正態(tài)分布表時(shí)可以忽略 z 的正負(fù)號(hào)。查表可知,正態(tài)曲線在均值與z2.08之間所含面積是0.4812。由于總面積的一半是0.5,因P(X143)可以由下面計(jì)算求得 P(X143)0.5P(0Z2.08) 0.50.4812 1.88 這說(shuō)明,X的取值小于或等于143的概率大約是2。由于即將討論的正態(tài)檢驗(yàn)幾乎都要涉及概率分布的尾端,所以此例說(shuō)明的是一個(gè)非常普遍的問(wèn)題。 7/20/202228 4. 二項(xiàng)分布的正態(tài)近似法 通過(guò)前面的討論,我們已經(jīng)知道二項(xiàng)分布受成功事件概率p和重

20、復(fù)次數(shù)n兩個(gè)參數(shù)的影響,只要確定了p和n,二項(xiàng)分布也隨之確定了。 但是,二項(xiàng)分布的應(yīng)用價(jià)值實(shí)際上受到了n的很大限制。也就是說(shuō),只有當(dāng)n較小時(shí),我們才能比較方便地計(jì)算二項(xiàng)分布。所幸的是,二項(xiàng)分布是以正態(tài)分布為極限的。所以當(dāng)n很大時(shí),只要p或q不近于零,我們就可以用正態(tài)近似來(lái)解決二項(xiàng)分布的計(jì)算問(wèn)題。即以n p、n p q2,將B(x;n,p)視為N(n p,n p q)進(jìn)行計(jì)算。在社會(huì)統(tǒng)計(jì)中,當(dāng)n 30,n p、n q均不小于5時(shí),對(duì)二項(xiàng)分布作正態(tài)近似是可靠的。 7/20/202229 第四節(jié) 中心極限定理 一旦統(tǒng)計(jì)的學(xué)習(xí)進(jìn)入到推論統(tǒng)計(jì),我們就必須同時(shí)與三種不同的分布概念打交道,即總體分布、樣本分

21、布、抽樣分布。為了不產(chǎn)生混淆,視分布不同,將統(tǒng)計(jì)指標(biāo)的符號(hào)加以區(qū)別是完全必要的。對(duì)那些反映標(biāo)志值集中趨勢(shì)和離中趨勢(shì)的綜合指標(biāo),尤其對(duì)均值和標(biāo)準(zhǔn)差(或方差)。均值標(biāo)準(zhǔn)差總體分布樣本分布抽樣分布 抽樣分布特指樣本統(tǒng)計(jì)量作為隨機(jī)變量的概率分布。用數(shù)學(xué)語(yǔ)言來(lái)說(shuō),抽樣分布是運(yùn)用數(shù)理統(tǒng)計(jì)的方法,把具體概率賦予樣本的所有可能結(jié)果的一種理論分布。 在一個(gè)總體中可以產(chǎn)生無(wú)數(shù)個(gè)樣本,所以樣本統(tǒng)計(jì)量(比如均值 )必定是隨機(jī)變量。 這樣就提出一個(gè)問(wèn)題:如果樣本統(tǒng)計(jì)量作為隨機(jī)變量,它的概率分布是什么樣呢?7/20/202230 1中心極限定理 我們知道,概率論中用來(lái)闡明大量隨機(jī)現(xiàn)象平均結(jié)果的穩(wěn)定性的定理,是著名的大數(shù)定

22、理。其具體內(nèi)容是:頻率穩(wěn)定于概率,平均值穩(wěn)定于期望值。但是,大量隨機(jī)現(xiàn)象的穩(wěn)定性不僅表現(xiàn)在平均結(jié)果上,同時(shí)也表現(xiàn)在分布上,這就是中心極限定理所要闡明的內(nèi)容。顯然,推論統(tǒng)計(jì)需要有一座能夠架通抽樣調(diào)查和抽樣分布的橋梁。中心極限定理告訴我們:如果從任何一個(gè)具有均值和方差2的總體(可以具有任何分布形式)中重復(fù)抽取容量為n的隨機(jī)樣本,那么當(dāng)n變得很大時(shí),樣本均值的抽樣分布接近正態(tài),并具有均值和方差 。 7/20/202231 (2)由于抽樣分布的標(biāo)準(zhǔn)差要比總體標(biāo)準(zhǔn)差小,并且 ,所以如右圖所示,樣本容量越大,抽樣分布的峰態(tài)愈陡峭,由樣本結(jié)果來(lái)推斷總體參數(shù)的可靠性也隨之提高。 無(wú)疑,中心極限定理大大拓展了正

23、態(tài)分布的適用面,同時(shí)我們得到了以下重要信息: (1)雖然樣本的均值可能和總體均值有差別,但我們可期望這些將聚集在的周圍。因此均值抽樣分布的算術(shù)平均數(shù)能和總體的均值很好地重合,這就是為什么總體均值和抽樣分布的均值用同一個(gè)來(lái)表示的緣故。7/20/202232 統(tǒng)計(jì)檢驗(yàn)應(yīng)用正態(tài)分布和二項(xiàng)分布有兩點(diǎn)區(qū)別:抽樣分布在這里是連續(xù)的而非離散的,否定域的大小可以和顯著性水平的要求精確地一致起來(lái)。計(jì)算檢驗(yàn)統(tǒng)計(jì)量不再像在應(yīng)用二項(xiàng)分布時(shí)那樣,可以不勞而獲了。很顯然,為了能使用現(xiàn)成的正態(tài)分布表,關(guān)鍵是要從樣本資料中計(jì)算出在N(0,1)形式下的統(tǒng)計(jì)量Z,再根據(jù)Z是否落在否定城內(nèi)而對(duì)被檢驗(yàn)假設(shè)的取舍作出決定。 在上一節(jié)我

24、們?cè)?。Z 的這種形式適用于N(,2)的總體,但并不適用于取正態(tài)的抽樣分布。正如我們反復(fù)強(qiáng)調(diào)的那樣,統(tǒng)計(jì)檢驗(yàn)單純依靠樣本自身是得不出結(jié)果的,必須首先在一系列假設(shè)的基礎(chǔ)上求出抽樣分布。如果這些假設(shè)實(shí)際上正確,那么抽樣分布將告訴我們得到一個(gè)給定的的可能性是多少。在抽樣分布中,隨機(jī)變量的取值是每個(gè) ,均值是,標(biāo)準(zhǔn)差是 。因此 Z 如果作為檢驗(yàn)統(tǒng)計(jì)量,應(yīng)該用替換X,用 替換,不動(dòng),因而有 。7/20/202233 一個(gè)完整的假設(shè)應(yīng)該包括零假設(shè)和備擇假設(shè)。在Z檢驗(yàn)中,假設(shè)有三種寫(xiě)法:第一種:H0: =90 H1: 90第二種:H0: =90 H1: 90雙側(cè)檢驗(yàn)單側(cè)檢驗(yàn)(右)單側(cè)檢驗(yàn)(左)7/20/

25、202234思考題1、如何理解兩類錯(cuò)誤及其關(guān)系?2、如何理解小概率原理在假設(shè)檢驗(yàn)中的重要性?3、假設(shè)檢驗(yàn)的基本原理和步驟是什么?4、什么是原假設(shè)域備擇假設(shè)?5、如何理解雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)?7/20/202235 例 一位研究者試圖檢驗(yàn)?zāi)骋簧鐣?huì)調(diào)查所運(yùn)用的抽樣程序,該項(xiàng)調(diào)查是由一些缺乏經(jīng)驗(yàn)的訪問(wèn)員進(jìn)行的。研究者懷疑屬于干部和知識(shí)分子的家庭抽得過(guò)多。過(guò)去的統(tǒng)計(jì)資料表明,該街區(qū)的家庭收入是7500元,標(biāo)準(zhǔn)差是1500元;此次調(diào)查共抽取100個(gè)家庭,樣本平均收入是7900元。問(wèn):該研究人員是否有理由懷疑該樣本有偏估?(選用=0.05)第五節(jié) 總體均值和成數(shù)的單樣本檢驗(yàn)1已知,對(duì)總體均值的檢驗(yàn)實(shí)際上是要

26、檢驗(yàn)“隨機(jī)抽樣”這個(gè)零假設(shè) 7/20/202236 解 根據(jù)題意,可做如下假設(shè),并做單側(cè)檢驗(yàn) 因=0.05,查表得Z 0.05=1.65,故否定域?yàn)楦鶕?jù)中心極限定理,檢驗(yàn)統(tǒng)計(jì)量計(jì)算得 檢驗(yàn)統(tǒng)計(jì)量Z的計(jì)算表明,樣本均值比總體均值大267個(gè)標(biāo)準(zhǔn)差( ),超過(guò)了顯著性水平規(guī)定的臨界值,調(diào)查者應(yīng)該否定“隨機(jī)抽樣”的零假設(shè)。也就是說(shuō),由于抽樣在程序上不合要求,這項(xiàng)社會(huì)調(diào)查有必要重新組織。 7/20/202237 中心極限定理實(shí)際解決了大樣本均值的檢驗(yàn)問(wèn)題。假定樣本比較大(n50,這在社會(huì)調(diào)查中一般都能得到滿足),樣本均值的抽樣分布就與總體分布無(wú)關(guān),而服從正態(tài)分布。當(dāng)H0成立時(shí),樣本均值的觀察值比較集中地

27、分布在總體均值周圍;當(dāng)H0不成立時(shí), 將對(duì)有明顯偏離的趨勢(shì)。因而,我們可以在選定的顯著性水平上,通過(guò)計(jì)算檢驗(yàn)統(tǒng)計(jì)量Z,對(duì)零假設(shè)進(jìn)行檢定。 注:當(dāng)未知時(shí),只要樣本量很大,就可用S來(lái)代替 。但對(duì)于小樣本,Z檢驗(yàn)就要用 t 檢驗(yàn)來(lái)替代了,而且還必須嚴(yán)格限于正態(tài)總體。7/20/202238 解 根據(jù)題意,可作如下的假設(shè),并做雙側(cè)檢驗(yàn) H0:2330元 H1:2330元因0.05,查正態(tài)分布表得Z/21.96,故否定域|Z|1.96 計(jì)算檢驗(yàn)統(tǒng)計(jì)量 Z 1.20196 所以,不能認(rèn)為該單位人均月收入不是2330元,即不能認(rèn)為該統(tǒng)計(jì)報(bào)表有誤。 例 某單位統(tǒng)計(jì)報(bào)表顯示,人均月收入為2330元,為了驗(yàn)證該統(tǒng)計(jì)

28、報(bào)表的正確性,作了共81人的抽樣調(diào)查,樣本人均月收入為2350元,標(biāo)準(zhǔn)差為150元,問(wèn)能否說(shuō)明該統(tǒng)計(jì)報(bào)表顯示的人均 收入的數(shù)字有誤(取顯著性水平0.05)。 此乃“總體均值”零假設(shè)的檢驗(yàn)7/20/202239提醒:?jiǎn)蝹?cè) Z 雙側(cè) Z /20.050.010.0011.652.333.091.962.583.307/20/202240 2.小樣本總體均值的檢驗(yàn)(學(xué)生t分布) 中心極限定理解決了大樣本均值的檢驗(yàn)問(wèn)題。但是當(dāng)n較小時(shí),用這種方法求出的概率可能是錯(cuò)誤的,有必要做某種修正。于是有人設(shè)計(jì)了另一種檢驗(yàn)統(tǒng)計(jì)量 這個(gè)統(tǒng)計(jì)量最初是由戈塞特(1876一1937)用筆名“學(xué)生”發(fā)表,所以這個(gè)統(tǒng)計(jì)量的抽

29、樣分布稱為學(xué)生t分布。比較t和Z,我們注意到它們的分子相同,而分母卻稍有不同:為S所代替(這一點(diǎn)無(wú)須解釋);根號(hào)下是n1。7/20/202241 當(dāng)Z為t替代時(shí),雖用因子nI所導(dǎo)致的修正看起來(lái)不大,但在樣本容量較小時(shí),這種修正就會(huì)起很大作用了。所以當(dāng)不知道值、且樣本容量較小時(shí),我們應(yīng)該考慮應(yīng)用t分布而不是Z分布。 采用n1的原因:樣本數(shù)據(jù)的離散程度小于總體數(shù)據(jù)的離散程度。 n1實(shí)際為自由度數(shù)k 。7/20/202242通過(guò)下式可以編制出t 分布表(見(jiàn)附錄5) 注意t(k)寫(xiě)法的含義,它表示自由度數(shù)為k的t分布當(dāng)分布函數(shù) 時(shí)隨機(jī)變量t的臨界值。當(dāng)n變大,t 分布將越來(lái)越接近正態(tài)分布,應(yīng)用t分布還

30、是Z分布就無(wú)所謂了。事實(shí)上隨著n變大,S逐漸變成的精確估計(jì)量,因而分母項(xiàng)無(wú)論使用S還是,差別都非常小。但特別要留意,使用t 分布的條件比使用Z分布的條件苛刻,即必須假定總體為正態(tài)。 7/20/202243 例 已知初婚年齡服從正態(tài)分布。根據(jù)10人的調(diào)查有 = 23.5歲,S=3歲,問(wèn)是否可以認(rèn)為該地區(qū)的平均初婚年齡已超過(guò)20歲?(=0.01) 解 H0:=20;H1:20 因?yàn)閚小,又不知值,因此用t檢驗(yàn) 對(duì)自由度9來(lái)講,單側(cè)檢驗(yàn)和顯著性水平0.01,查表知否定域?yàn)閠值等于或大于 2.821。再計(jì)算檢驗(yàn)統(tǒng)計(jì)量 因此拒絕H0,即可以認(rèn)為在顯著性水平為0.01的條件下,該地區(qū)的初婚年齡已超過(guò)20歲

31、。7/20/202244 3.大樣本成數(shù)的檢驗(yàn) 有時(shí),需要對(duì)總體中具有某種特征的單位在總體中所占的的比例 p(即總體成數(shù))作顯著性檢驗(yàn),如人口中的失業(yè)率、學(xué)齡兒童中的失學(xué)率等等。成數(shù)檢驗(yàn)與二項(xiàng)檢驗(yàn)的聯(lián)系是不言而愈的。因?yàn)樵诙?xiàng)檢驗(yàn)中,隨機(jī)變量是樣本的“成功”次數(shù)x。而在成數(shù)檢驗(yàn)中,隨機(jī)變量是樣本的“成功”比例 (即樣本成數(shù)),這樣在 n 一定的情況下,顯然有 7/20/202245 既然 是一個(gè)隨機(jī)變量,那么把具體概率賦予樣本成數(shù)的每一個(gè)取值,我們就得到了樣本成數(shù)的抽樣分布。根據(jù)中心極限定理,我們不難想見(jiàn),當(dāng)n足夠大時(shí),樣本成數(shù)的抽樣分布也服從正態(tài)分布。由于數(shù)學(xué)上很容易證明 , ,這樣一來(lái),對(duì)于大樣本(n30,np5),成數(shù)的檢驗(yàn)統(tǒng)計(jì)量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論