抽樣誤差與假設(shè)檢驗(yàn)課件_第1頁
抽樣誤差與假設(shè)檢驗(yàn)課件_第2頁
抽樣誤差與假設(shè)檢驗(yàn)課件_第3頁
抽樣誤差與假設(shè)檢驗(yàn)課件_第4頁
抽樣誤差與假設(shè)檢驗(yàn)課件_第5頁
已閱讀5頁,還剩103頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤差第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤1參數(shù)估計(jì)和假設(shè)檢驗(yàn)隨機(jī)原則總體樣本總體參數(shù)統(tǒng)計(jì)量推斷估計(jì)參數(shù)估計(jì)檢驗(yàn)假設(shè)檢驗(yàn)參數(shù)估計(jì)和假設(shè)檢驗(yàn)隨機(jī)原則總體樣本總體參數(shù)統(tǒng)計(jì)量推斷估計(jì)參數(shù)2一、抽樣誤差從總體當(dāng)中隨機(jī)抽取一份樣本,計(jì)算均數(shù)。這個(gè)均數(shù)不同于總體的均數(shù)。為什么?再從該總體中隨機(jī)抽取一份樣本,再計(jì)算均數(shù)。前后兩個(gè)均數(shù)不等。為什么?——抽樣誤差!一、抽樣誤差從總體當(dāng)中隨機(jī)抽取一份樣本,計(jì)算均數(shù)。再從該3例:某市1999年18歲男生身高服從μ=167.7cm、σ=5.3cm正態(tài)分布,從該總體中隨機(jī)抽樣。每次抽取10人,得到一個(gè)樣本均數(shù)記為一共抽取100次,就得到了100本樣本的均數(shù)將上述100個(gè)樣本均數(shù)看成新變量值,這100個(gè)樣本均數(shù)構(gòu)成了一個(gè)新的分布。抽樣分布:某一統(tǒng)計(jì)量所有可能的樣本的取值形成的分布。例:某市1999年18歲男生身高服從μ=167.7cm、每次4抽樣誤差與假設(shè)檢驗(yàn)課件5抽樣誤差與假設(shè)檢驗(yàn)課件6抽樣誤差與假設(shè)檢驗(yàn)課件7樣本均數(shù)抽樣分布具有如下特點(diǎn):1、各樣本均數(shù)未必等于總體均數(shù);2、各樣本均數(shù)間存在差異;3、樣本均數(shù)圍繞總體均數(shù)呈正態(tài)分布;4、樣本均數(shù)變異范圍較原變量變異范圍大大縮小,這100個(gè)樣本均數(shù)的均數(shù)為167.69cm,標(biāo)準(zhǔn)差為1.69cm。在非正態(tài)分布總體中可進(jìn)行類似抽樣。樣本均數(shù)抽樣分布具有如下特點(diǎn):1、各樣本均數(shù)未必等于總體8抽樣誤差與假設(shè)檢驗(yàn)課件9抽樣誤差與假設(shè)檢驗(yàn)課件10可得到如下結(jié)論:若變量服從正態(tài)分布,則各樣本均數(shù)也服從正態(tài)分布。若變量不服從正態(tài)分布,當(dāng)樣本量足夠大時(shí),各樣本均數(shù)近似服從正態(tài)分布,當(dāng)樣本量很小時(shí),則樣本均數(shù)為非正態(tài)分布??傻玫饺缦陆Y(jié)論:若變量服從正態(tài)分布,則各樣本均數(shù)也服從正11樣本均數(shù)的總體均數(shù)為μ,而樣本均數(shù)的標(biāo)準(zhǔn)差比原來個(gè)體值的標(biāo)準(zhǔn)差要小,為區(qū)別兩者,我們用來表示,其計(jì)算公式為(標(biāo)準(zhǔn)誤)反映樣本均數(shù)間的離散程度。(標(biāo)準(zhǔn)誤的估計(jì)值)樣本均數(shù)的總體均數(shù)為μ,而樣本均數(shù)的標(biāo)準(zhǔn)差比(標(biāo)準(zhǔn)誤)反映樣12例12000年某研究所隨機(jī)調(diào)查某地健康成年男子27人,得到血紅蛋白的均數(shù)為125g/L,標(biāo)準(zhǔn)差為15g/L。試估計(jì)該樣本均數(shù)的抽樣誤差。例12000年某研究所隨機(jī)調(diào)查某地健康13標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤的區(qū)別與聯(lián)系標(biāo)準(zhǔn)差:描述個(gè)體值間的變異,標(biāo)準(zhǔn)差較小,表示觀察值圍繞均數(shù)的波動較小,說明樣本均數(shù)的代表性就越好。標(biāo)準(zhǔn)誤:描述樣本均數(shù)的抽樣誤差,標(biāo)準(zhǔn)誤較小,表示樣本均數(shù)與總體均數(shù)較接近。說明樣本均數(shù)的可靠性。標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤的區(qū)別與聯(lián)系標(biāo)準(zhǔn)差:描述個(gè)體值間的變異,標(biāo)準(zhǔn)差14用途標(biāo)準(zhǔn)差:表示變量值離散程度的大小,結(jié)合均數(shù)估計(jì)參考值范圍。標(biāo)準(zhǔn)誤:表示抽樣誤差的大小,估計(jì)總體均數(shù)的可信區(qū)間。與樣本含量的關(guān)系標(biāo)準(zhǔn)差:隨樣本含量的增多,逐漸趨于穩(wěn)定標(biāo)準(zhǔn)誤:隨樣本含量的增多逐漸減小。用途標(biāo)準(zhǔn)差:表示變量值離散程度的大小,結(jié)合均數(shù)估計(jì)標(biāo)準(zhǔn)誤15聯(lián)系1、標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤都是變異指標(biāo),說明個(gè)體值之間差異是用標(biāo)準(zhǔn)差,說明樣本均數(shù)之間差異時(shí)用標(biāo)準(zhǔn)誤。2、當(dāng)樣本含量不變時(shí),標(biāo)準(zhǔn)差越大,標(biāo)準(zhǔn)誤越大。聯(lián)系1、標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤都是變異指標(biāo),說明個(gè)體值之間2、當(dāng)16標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤的區(qū)別

標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤的區(qū)別17隨機(jī)變量XN(m,s2)標(biāo)準(zhǔn)正態(tài)分布N(0,12)Z變換標(biāo)準(zhǔn)正態(tài)分布N(0,12)均數(shù)Studentt分布自由度:n-1t分布一、t分布的概念隨機(jī)變量X標(biāo)準(zhǔn)正態(tài)分布Z變換標(biāo)準(zhǔn)正態(tài)分布均數(shù)Student18

從正態(tài)總體N(μ,σ2)中進(jìn)行無數(shù)次樣本含量為n的隨機(jī)抽樣,每次均可得到一個(gè)和一個(gè)S,通過公式轉(zhuǎn)換,可得無數(shù)個(gè)t值,t值的分布即為含量為n的t值的總體或稱t-分布。從正態(tài)總體N(μ,σ2)中進(jìn)行無數(shù)次樣本含量為n19t值的分布與自由度

有關(guān)(實(shí)際是樣本含量n不同)。t分布的圖形不是一條曲線,而是一簇曲線。t值的分布與自由度有關(guān)(實(shí)際是樣本含量n不同)。20t分布曲線是單峰分布,以0為中心,左右兩側(cè)對稱曲線的中間比標(biāo)準(zhǔn)正態(tài)曲線(Z分布曲線)低,兩側(cè)翹得比標(biāo)準(zhǔn)正態(tài)曲線略高。t分布曲線隨自由度υ而變化,當(dāng)樣本含量越小(嚴(yán)格地說是自由度υ=n-1越?。?,t分布與Z分布差別越大;當(dāng)逐漸增大時(shí),t分布逐漸逼近于Z分布,當(dāng)υ=∞時(shí),t分布就完全成正態(tài)分布。t分布曲線是一簇曲線,而不是一條曲線。t分布下面積分布規(guī)律:查t分布表。t-分布曲線下面積為1二、t分布的圖形和t分布表t分布曲線特點(diǎn):t分布曲線是單峰分布,以0為中心,左右兩側(cè)對稱二、t分布的21同標(biāo)準(zhǔn)正態(tài)分布曲線一樣,統(tǒng)計(jì)應(yīng)用中最為關(guān)心的是t分布曲線下的尾部面積(即概率p)與橫軸t值間的關(guān)系。

為使用方便,統(tǒng)計(jì)學(xué)家編制了不同自由度v下的t界值表(附表2)。

在t界值表中,橫標(biāo)目為自由度v,縱標(biāo)目為概率p。表中數(shù)字表示當(dāng)v和p確定時(shí),對應(yīng)的t臨界值(criticalvalue)。

t分布表同標(biāo)準(zhǔn)正態(tài)分布曲線一樣,統(tǒng)計(jì)應(yīng)用中最為關(guān)心的是t分布22該表中分別給出了單側(cè)概率和兩側(cè)尾部面積之和的雙側(cè)概率所對應(yīng)的t臨界值。

單側(cè)概率相對應(yīng)的t臨界值用符號表示。

雙側(cè)概率相對應(yīng)的t臨界值用符號表示。

例如:

當(dāng)單側(cè)概率p=0.05時(shí),v=16,單側(cè)

當(dāng)雙側(cè)概率p=0.05時(shí),v=16,雙側(cè)

該表中分別給出了單側(cè)概率和兩側(cè)尾部面積之和的雙側(cè)概率23α/20(b)-tα/2tα/2α/2單雙側(cè)t分布示意圖Tα為單側(cè)臨界值Tα/2為單側(cè)臨界值0(a)αtα在相同自由度時(shí),值越大,概率p越?。?/p>

從t界值表中亦可看出:

而在相同t值時(shí),雙側(cè)概率p為單側(cè)概率p的兩倍。

即:

α/20(b)-tα/2tα/2α/2單雙側(cè)t分布示意圖24第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤差第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤25

統(tǒng)計(jì)推斷包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)。參數(shù)估計(jì)就是用樣本指標(biāo)(統(tǒng)計(jì)量)來估計(jì)總體指標(biāo)(參數(shù))。第二節(jié)總體均數(shù)的估計(jì)參數(shù)估計(jì)點(diǎn)估計(jì)(pointestimation)區(qū)間估計(jì)(intervalestimation)一、參數(shù)估計(jì)的概念統(tǒng)計(jì)推斷包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)。參數(shù)估計(jì)就是用樣本26,即認(rèn)為2000年該地所有健康成年男性血紅蛋白量的總體均數(shù)為125g/L。1.點(diǎn)估計(jì):

用樣本統(tǒng)計(jì)量直接作為總體參數(shù)的估計(jì)值。

例如于2000年測得某地27例健康成年男性血紅蛋白量的樣本均數(shù)為125g/L,試估計(jì)其總體均數(shù)。,即認(rèn)為2000年該地所有健康成年男27

按預(yù)先給定的概率(1-α)估計(jì)總體參數(shù)的可能范圍,該范圍就稱為總體參數(shù)的1-α可信區(qū)間。

可信區(qū)間由兩個(gè)數(shù)值即可信限構(gòu)成,其中最小值稱為下限,最大值稱為上限。嚴(yán)格講,可信區(qū)間不包括上下限兩個(gè)端點(diǎn)值。2、區(qū)間估計(jì)預(yù)先給定的概率(1-α)稱為可信度,常取95%或99%。如無特別說明,一般取雙側(cè)95%。按預(yù)先給定的概率(1-α)估計(jì)總體參數(shù)的可能范28

可信區(qū)間的含義是:有(1-α)的把握認(rèn)為總體參數(shù)位于該區(qū)間內(nèi)。而不是總體參數(shù)落在該范圍的可能性為α。

從總體中作隨機(jī)抽樣,根據(jù)每個(gè)樣本可以算得一個(gè)置信區(qū)間。95%的置信區(qū)間,意味著作100次抽樣,算得100個(gè)置信區(qū)間,平均有95個(gè)置信區(qū)間包括了總體均數(shù),只有5個(gè)不包括。5%是小概率事件,在一次試驗(yàn)中出現(xiàn)的可能性很小。因此就認(rèn)為總體均數(shù)在算得的置信區(qū)間內(nèi),可信度是95%,犯錯(cuò)誤的概率是5%??尚艆^(qū)間的含義是:有(1-α)的把握認(rèn)為總29總體均數(shù)可信區(qū)間的計(jì)算1.σ未知且樣本例數(shù)n較小時(shí),按t分布原理:tа/2,ν是按自由度ν=n-1,由附表2查得的t值。99%的雙側(cè)置信區(qū)間:95%的雙側(cè)置信區(qū)間:總體均數(shù)可信區(qū)間的計(jì)算1.σ未知且樣本例數(shù)n較小時(shí),按t30例2已知某地27例健康成年男性血紅蛋白量的均數(shù)為

,標(biāo)準(zhǔn)差S=15g/L,試問該地健康成年男性血紅蛋白量的95%和99%置信區(qū)間。95%CI:99%CI:本例n=27,S=15例2已知某地27例健康成年男性血紅蛋白量的均數(shù)為312.σ已知,按標(biāo)準(zhǔn)正態(tài)分布原理計(jì)算Zа/2為標(biāo)準(zhǔn)正態(tài)變量,Zа/2相當(dāng)于按ν=∞時(shí)及P取α,由附表2查的的t界值。

95%的雙側(cè)置信區(qū)間:99%的雙側(cè)置信區(qū)間:2.σ已知,按標(biāo)準(zhǔn)正態(tài)分布原理計(jì)算Zа/2為標(biāo)準(zhǔn)正態(tài)323.若σ未知,但樣本例數(shù)n足夠大(n>50)時(shí)由t分布可知,自由度越大,t分布越逼近標(biāo)準(zhǔn)正態(tài)分布,此時(shí)t曲線下有95%的t值約在±1.96之間,即99%的雙側(cè)置信區(qū)間:95%的雙側(cè)置信區(qū)間:3.若σ未知,但樣本例數(shù)n足夠大(n>50)時(shí)由t分布可33例3某市2000年隨機(jī)測量了90名19歲健康男大學(xué)生的身高,其均數(shù)為172.2cm,標(biāo)準(zhǔn)差為4.5cm,,試估計(jì)該地19歲健康男大學(xué)生的身高的95%置信區(qū)間。該市19歲健康男大學(xué)生的身高的95%置信區(qū)間(171.3,173.1)cm例3某市2000年隨機(jī)測量了90名19歲健康男大學(xué)生的身高34可信區(qū)間的確切含義95%的可信區(qū)間的理解:1、所要估計(jì)的總體參數(shù)有95%的可能在我們所估計(jì)的可信區(qū)間內(nèi)。2、從正態(tài)總體中隨機(jī)抽取100個(gè)樣本,可算得100個(gè)樣本均數(shù)和標(biāo)準(zhǔn)差,也可算得100個(gè)均數(shù)的可信區(qū)間,平均約有95個(gè)可信區(qū)間包含了總體均數(shù)。3、但在實(shí)際工作中,只能根據(jù)一次試驗(yàn)結(jié)果估計(jì)可信區(qū)間,我們就認(rèn)為該區(qū)間包含了總體均數(shù)μ??尚艆^(qū)間的確切含義95%的可信區(qū)間的理解:1、所要估35意義:

95%的參考值范圍是指同質(zhì)總體內(nèi)包括95%個(gè)體值的估計(jì)范圍。若總體為正態(tài)分布,常按計(jì)算。

95%的可信區(qū)間是指按95%的置信度估計(jì)的總體參數(shù)的所在范圍。若為大樣本,按計(jì)算。計(jì)算上:

置信區(qū)間用標(biāo)準(zhǔn)誤,參考值范圍用標(biāo)準(zhǔn)差。思考!

均數(shù)置信區(qū)間與參考值范圍的區(qū)別意義:思考!均數(shù)置信區(qū)間與參考值范圍的區(qū)別36思考!

均數(shù)置信區(qū)間與參考值范圍的區(qū)別思考!均數(shù)置信區(qū)間與參考值范圍的區(qū)別37計(jì)算上:置信區(qū)間用標(biāo)準(zhǔn)誤,參考值范圍用標(biāo)準(zhǔn)差。計(jì)算上:置信區(qū)間用標(biāo)準(zhǔn)誤,參考值范圍用標(biāo)準(zhǔn)差。38抽樣誤差與假設(shè)檢驗(yàn)課件39第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤差第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤40一、假設(shè)檢驗(yàn)的概念:一般科研程序:假說----驗(yàn)證----對假說作出結(jié)論統(tǒng)計(jì)上的假設(shè)檢驗(yàn):

假設(shè)檢驗(yàn)亦稱為顯著性檢驗(yàn),是先對總體的參數(shù)或分布作出某種假設(shè),然后用適當(dāng)?shù)姆椒?,根?jù)樣本對總體提供的信息,推斷此假設(shè)應(yīng)當(dāng)被拒絕或不拒絕。一、假設(shè)檢驗(yàn)的概念:統(tǒng)計(jì)上的假設(shè)檢驗(yàn):41什么是假設(shè)檢驗(yàn)?3.特點(diǎn)

(1)采用邏輯上的反證法(2)依據(jù)統(tǒng)計(jì)上的小概率原理1.概念事先對總體參數(shù)或分布形式作出某種假設(shè)然后利用樣本信息來判斷原假設(shè)是否成立2.類型

(1)參數(shù)假設(shè)檢驗(yàn)(2)非參數(shù)假設(shè)檢驗(yàn)什么是假設(shè)檢驗(yàn)?3.特點(diǎn)1.概念2.類型42兩均數(shù)兩率不等﹡假設(shè)檢驗(yàn)的基本原理抽樣誤差所致(來自同一總體)P>0.05=α?假設(shè)檢驗(yàn)回答P<0.05=α環(huán)境條件影響(來自不同總體)反證法小概率思想先對總體的參數(shù)或分布作出某種假設(shè),再用適當(dāng)?shù)姆椒ǜ鶕?jù)樣本對總體提供的信息,推斷此假設(shè)應(yīng)當(dāng)拒絕或不拒絕。兩均數(shù)兩率不等﹡假設(shè)檢驗(yàn)的基本原理抽樣誤差所致P>0.043抽樣誤差與假設(shè)檢驗(yàn)課件44如果第一種可能性較小時(shí),可以拒絕它而接受后者,統(tǒng)計(jì)上稱差異有統(tǒng)計(jì)學(xué)意義。本例兩個(gè)均數(shù)不等有兩種可能性:①山區(qū)成年男子的脈搏總體均數(shù)與一般健康成年男子的脈搏總體均數(shù)是相同的,差別僅僅由于抽樣誤差所致,來自同一總體;②受山區(qū)某些因素的影響,兩個(gè)總體的均數(shù)是不相同的,有本質(zhì)性區(qū)別,不是來自同一總體。如果第一種可能性較大時(shí),可以接受它,統(tǒng)計(jì)上稱差異無統(tǒng)計(jì)學(xué)意義;如何作出判斷呢?按照邏輯推理:如果第一種可能性較小時(shí),可以拒絕它而接受后者,統(tǒng)45假設(shè)檢驗(yàn)的基本步驟:檢驗(yàn)水準(zhǔn)(亦稱顯著性水準(zhǔn))符號為α,是一個(gè)預(yù)先給定概率值。1.建立檢驗(yàn)假設(shè)、確定檢驗(yàn)水準(zhǔn)和單雙側(cè)檢驗(yàn)假設(shè)無效假設(shè)備擇假設(shè)符號為H0:μ1=μ2

符號為H1:μ1≠μ2即假設(shè)均數(shù)來自同一總體,它們的總體均數(shù)相同,樣本均數(shù)間無本質(zhì)的不同,差別僅由抽樣誤差引起;即假設(shè)均數(shù)來自不同總體,它們之間的差別存在本質(zhì)的不同,并非僅由抽樣誤差引起。假設(shè)檢驗(yàn)的基本步驟:檢驗(yàn)水準(zhǔn)(亦稱顯著性水準(zhǔn))符號為α46確定檢驗(yàn)水準(zhǔn):亦稱為顯著性水準(zhǔn),符號為α,是預(yù)先給定的概率值。是判定樣本指標(biāo)與總體指標(biāo)或兩樣本指標(biāo)間的差異有無統(tǒng)計(jì)學(xué)顯著性意義的概率水準(zhǔn),在實(shí)際工作中,α常取0.05。α可根據(jù)不同的研究目的給予不同的設(shè)置,如方差齊性檢驗(yàn),正態(tài)性檢驗(yàn)α常取0.1或0.2。

確定檢驗(yàn)水準(zhǔn):亦稱為顯著性水準(zhǔn),符號為α,是預(yù)先給定的概率值47雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)

(假設(shè)的形式)假設(shè)研究的問題雙側(cè)檢驗(yàn)左側(cè)檢驗(yàn)右側(cè)檢驗(yàn)H0m=m0H1m≠m0m<m0m>m0H1的內(nèi)容反映出檢驗(yàn)的單雙側(cè)。雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn)

(假設(shè)的形式)假設(shè)研究的問題雙側(cè)檢驗(yàn)左482、選定檢驗(yàn)方法和計(jì)算檢驗(yàn)統(tǒng)計(jì)量(1)根據(jù)資料的類型、設(shè)計(jì)類型、檢驗(yàn)方法的適用條件等選擇檢驗(yàn)方法(2)不同的檢驗(yàn)方法要用不同的公式計(jì)算檢驗(yàn)統(tǒng)計(jì)量(3)不同的設(shè)計(jì)類型要用不同的公式(t值、u值、2值等)2、選定檢驗(yàn)方法和計(jì)算檢驗(yàn)統(tǒng)計(jì)量(1)根據(jù)資料的類型、設(shè)494、確定P值和作出推斷結(jié)論(1)P值:指從H0所規(guī)定的總體中進(jìn)行隨機(jī)抽樣,抽得等于及大于(或等于及小于)現(xiàn)有樣本獲得的檢驗(yàn)統(tǒng)計(jì)量值(如t值或u值)的概率。(2)方法:①查表②將P與預(yù)先規(guī)定的概率(檢驗(yàn)水準(zhǔn)α)比較③作出結(jié)論4、確定P值和作出推斷結(jié)論(1)P值:指從H0所規(guī)定的總50若P≤α結(jié)論:按所取α檢驗(yàn)水準(zhǔn),拒絕H0,接受H1,有統(tǒng)計(jì)學(xué)意義(差異有顯著性),可認(rèn)為…不同或不等(高于或低于);若P>α結(jié)論:按按所取α檢驗(yàn)水準(zhǔn),不拒絕H0,無統(tǒng)計(jì)學(xué)意義(差異無顯著性),還不能認(rèn)為…不同或不等。注意:下結(jié)論時(shí),對H0只能說拒絕或不拒絕;對H1只能說接受H1。若P≤α結(jié)論:按所取α檢驗(yàn)水準(zhǔn),拒絕H0,接51作出推斷結(jié)論當(dāng):t<t0.05(υ)P>0.05(差異無顯著性)t0.01(υ)>t≥t0.05(υ)0.01<P≤0.05(差異有顯著性)t≥t0.01(υ)P≤0.01(差異有高度顯著性)推斷結(jié)論:

當(dāng) P>

按所取檢驗(yàn)水準(zhǔn)不拒絕H0 P

按所取檢驗(yàn)水準(zhǔn)拒絕H0作出推斷結(jié)論52抽樣誤差與假設(shè)檢驗(yàn)課件531、表示均數(shù)抽樣誤差大小的統(tǒng)計(jì)指標(biāo)是()A、標(biāo)準(zhǔn)差B、方差C、均數(shù)標(biāo)準(zhǔn)誤D、變異系數(shù)E、樣本標(biāo)準(zhǔn)誤2、表示()A、總體均數(shù)B、樣本均數(shù)的標(biāo)準(zhǔn)差C、總體均數(shù)的離散程度D、變量值x的離散程度E、變量值x的可靠程度CB1、表示均數(shù)抽樣誤差大小的統(tǒng)計(jì)指標(biāo)是()CB54C3、標(biāo)準(zhǔn)誤越大,則表示此次抽樣得到的樣本頻率()A、系統(tǒng)誤差越大B、可靠程度越大C、抽樣誤差越大D、可比性差E、代表性差C3、標(biāo)準(zhǔn)誤越大,則表示此次抽樣得到的樣本頻率554、要減少抽樣誤差,通常的做法是()A、適當(dāng)增加樣本例數(shù)B、將個(gè)體變異控制在一個(gè)范圍內(nèi)C、嚴(yán)格挑選觀察對象D、增加抽樣次數(shù)E、減少系統(tǒng)誤差A(yù)4、要減少抽樣誤差,通常的做法是()A56第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤差第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤57參數(shù)估計(jì)和假設(shè)檢驗(yàn)隨機(jī)原則總體樣本總體參數(shù)統(tǒng)計(jì)量推斷估計(jì)參數(shù)估計(jì)檢驗(yàn)假設(shè)檢驗(yàn)參數(shù)估計(jì)和假設(shè)檢驗(yàn)隨機(jī)原則總體樣本總體參數(shù)統(tǒng)計(jì)量推斷估計(jì)參數(shù)58一、抽樣誤差從總體當(dāng)中隨機(jī)抽取一份樣本,計(jì)算均數(shù)。這個(gè)均數(shù)不同于總體的均數(shù)。為什么?再從該總體中隨機(jī)抽取一份樣本,再計(jì)算均數(shù)。前后兩個(gè)均數(shù)不等。為什么?——抽樣誤差!一、抽樣誤差從總體當(dāng)中隨機(jī)抽取一份樣本,計(jì)算均數(shù)。再從該59例:某市1999年18歲男生身高服從μ=167.7cm、σ=5.3cm正態(tài)分布,從該總體中隨機(jī)抽樣。每次抽取10人,得到一個(gè)樣本均數(shù)記為一共抽取100次,就得到了100本樣本的均數(shù)將上述100個(gè)樣本均數(shù)看成新變量值,這100個(gè)樣本均數(shù)構(gòu)成了一個(gè)新的分布。抽樣分布:某一統(tǒng)計(jì)量所有可能的樣本的取值形成的分布。例:某市1999年18歲男生身高服從μ=167.7cm、每次60抽樣誤差與假設(shè)檢驗(yàn)課件61抽樣誤差與假設(shè)檢驗(yàn)課件62抽樣誤差與假設(shè)檢驗(yàn)課件63樣本均數(shù)抽樣分布具有如下特點(diǎn):1、各樣本均數(shù)未必等于總體均數(shù);2、各樣本均數(shù)間存在差異;3、樣本均數(shù)圍繞總體均數(shù)呈正態(tài)分布;4、樣本均數(shù)變異范圍較原變量變異范圍大大縮小,這100個(gè)樣本均數(shù)的均數(shù)為167.69cm,標(biāo)準(zhǔn)差為1.69cm。在非正態(tài)分布總體中可進(jìn)行類似抽樣。樣本均數(shù)抽樣分布具有如下特點(diǎn):1、各樣本均數(shù)未必等于總體64抽樣誤差與假設(shè)檢驗(yàn)課件65抽樣誤差與假設(shè)檢驗(yàn)課件66可得到如下結(jié)論:若變量服從正態(tài)分布,則各樣本均數(shù)也服從正態(tài)分布。若變量不服從正態(tài)分布,當(dāng)樣本量足夠大時(shí),各樣本均數(shù)近似服從正態(tài)分布,當(dāng)樣本量很小時(shí),則樣本均數(shù)為非正態(tài)分布??傻玫饺缦陆Y(jié)論:若變量服從正態(tài)分布,則各樣本均數(shù)也服從正67樣本均數(shù)的總體均數(shù)為μ,而樣本均數(shù)的標(biāo)準(zhǔn)差比原來個(gè)體值的標(biāo)準(zhǔn)差要小,為區(qū)別兩者,我們用來表示,其計(jì)算公式為(標(biāo)準(zhǔn)誤)反映樣本均數(shù)間的離散程度。(標(biāo)準(zhǔn)誤的估計(jì)值)樣本均數(shù)的總體均數(shù)為μ,而樣本均數(shù)的標(biāo)準(zhǔn)差比(標(biāo)準(zhǔn)誤)反映樣68例12000年某研究所隨機(jī)調(diào)查某地健康成年男子27人,得到血紅蛋白的均數(shù)為125g/L,標(biāo)準(zhǔn)差為15g/L。試估計(jì)該樣本均數(shù)的抽樣誤差。例12000年某研究所隨機(jī)調(diào)查某地健康69標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤的區(qū)別與聯(lián)系標(biāo)準(zhǔn)差:描述個(gè)體值間的變異,標(biāo)準(zhǔn)差較小,表示觀察值圍繞均數(shù)的波動較小,說明樣本均數(shù)的代表性就越好。標(biāo)準(zhǔn)誤:描述樣本均數(shù)的抽樣誤差,標(biāo)準(zhǔn)誤較小,表示樣本均數(shù)與總體均數(shù)較接近。說明樣本均數(shù)的可靠性。標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤的區(qū)別與聯(lián)系標(biāo)準(zhǔn)差:描述個(gè)體值間的變異,標(biāo)準(zhǔn)差70用途標(biāo)準(zhǔn)差:表示變量值離散程度的大小,結(jié)合均數(shù)估計(jì)參考值范圍。標(biāo)準(zhǔn)誤:表示抽樣誤差的大小,估計(jì)總體均數(shù)的可信區(qū)間。與樣本含量的關(guān)系標(biāo)準(zhǔn)差:隨樣本含量的增多,逐漸趨于穩(wěn)定標(biāo)準(zhǔn)誤:隨樣本含量的增多逐漸減小。用途標(biāo)準(zhǔn)差:表示變量值離散程度的大小,結(jié)合均數(shù)估計(jì)標(biāo)準(zhǔn)誤71聯(lián)系1、標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤都是變異指標(biāo),說明個(gè)體值之間差異是用標(biāo)準(zhǔn)差,說明樣本均數(shù)之間差異時(shí)用標(biāo)準(zhǔn)誤。2、當(dāng)樣本含量不變時(shí),標(biāo)準(zhǔn)差越大,標(biāo)準(zhǔn)誤越大。聯(lián)系1、標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤都是變異指標(biāo),說明個(gè)體值之間2、當(dāng)72標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤的區(qū)別

標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤的區(qū)別73隨機(jī)變量XN(m,s2)標(biāo)準(zhǔn)正態(tài)分布N(0,12)Z變換標(biāo)準(zhǔn)正態(tài)分布N(0,12)均數(shù)Studentt分布自由度:n-1t分布一、t分布的概念隨機(jī)變量X標(biāo)準(zhǔn)正態(tài)分布Z變換標(biāo)準(zhǔn)正態(tài)分布均數(shù)Student74

從正態(tài)總體N(μ,σ2)中進(jìn)行無數(shù)次樣本含量為n的隨機(jī)抽樣,每次均可得到一個(gè)和一個(gè)S,通過公式轉(zhuǎn)換,可得無數(shù)個(gè)t值,t值的分布即為含量為n的t值的總體或稱t-分布。從正態(tài)總體N(μ,σ2)中進(jìn)行無數(shù)次樣本含量為n75t值的分布與自由度

有關(guān)(實(shí)際是樣本含量n不同)。t分布的圖形不是一條曲線,而是一簇曲線。t值的分布與自由度有關(guān)(實(shí)際是樣本含量n不同)。76t分布曲線是單峰分布,以0為中心,左右兩側(cè)對稱曲線的中間比標(biāo)準(zhǔn)正態(tài)曲線(Z分布曲線)低,兩側(cè)翹得比標(biāo)準(zhǔn)正態(tài)曲線略高。t分布曲線隨自由度υ而變化,當(dāng)樣本含量越?。▏?yán)格地說是自由度υ=n-1越小),t分布與Z分布差別越大;當(dāng)逐漸增大時(shí),t分布逐漸逼近于Z分布,當(dāng)υ=∞時(shí),t分布就完全成正態(tài)分布。t分布曲線是一簇曲線,而不是一條曲線。t分布下面積分布規(guī)律:查t分布表。t-分布曲線下面積為1二、t分布的圖形和t分布表t分布曲線特點(diǎn):t分布曲線是單峰分布,以0為中心,左右兩側(cè)對稱二、t分布的77同標(biāo)準(zhǔn)正態(tài)分布曲線一樣,統(tǒng)計(jì)應(yīng)用中最為關(guān)心的是t分布曲線下的尾部面積(即概率p)與橫軸t值間的關(guān)系。

為使用方便,統(tǒng)計(jì)學(xué)家編制了不同自由度v下的t界值表(附表2)。

在t界值表中,橫標(biāo)目為自由度v,縱標(biāo)目為概率p。表中數(shù)字表示當(dāng)v和p確定時(shí),對應(yīng)的t臨界值(criticalvalue)。

t分布表同標(biāo)準(zhǔn)正態(tài)分布曲線一樣,統(tǒng)計(jì)應(yīng)用中最為關(guān)心的是t分布78該表中分別給出了單側(cè)概率和兩側(cè)尾部面積之和的雙側(cè)概率所對應(yīng)的t臨界值。

單側(cè)概率相對應(yīng)的t臨界值用符號表示。

雙側(cè)概率相對應(yīng)的t臨界值用符號表示。

例如:

當(dāng)單側(cè)概率p=0.05時(shí),v=16,單側(cè)

當(dāng)雙側(cè)概率p=0.05時(shí),v=16,雙側(cè)

該表中分別給出了單側(cè)概率和兩側(cè)尾部面積之和的雙側(cè)概率79α/20(b)-tα/2tα/2α/2單雙側(cè)t分布示意圖Tα為單側(cè)臨界值Tα/2為單側(cè)臨界值0(a)αtα在相同自由度時(shí),值越大,概率p越??;

從t界值表中亦可看出:

而在相同t值時(shí),雙側(cè)概率p為單側(cè)概率p的兩倍。

即:

α/20(b)-tα/2tα/2α/2單雙側(cè)t分布示意圖80第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤差第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤81

統(tǒng)計(jì)推斷包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)。參數(shù)估計(jì)就是用樣本指標(biāo)(統(tǒng)計(jì)量)來估計(jì)總體指標(biāo)(參數(shù))。第二節(jié)總體均數(shù)的估計(jì)參數(shù)估計(jì)點(diǎn)估計(jì)(pointestimation)區(qū)間估計(jì)(intervalestimation)一、參數(shù)估計(jì)的概念統(tǒng)計(jì)推斷包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)。參數(shù)估計(jì)就是用樣本82,即認(rèn)為2000年該地所有健康成年男性血紅蛋白量的總體均數(shù)為125g/L。1.點(diǎn)估計(jì):

用樣本統(tǒng)計(jì)量直接作為總體參數(shù)的估計(jì)值。

例如于2000年測得某地27例健康成年男性血紅蛋白量的樣本均數(shù)為125g/L,試估計(jì)其總體均數(shù)。,即認(rèn)為2000年該地所有健康成年男83

按預(yù)先給定的概率(1-α)估計(jì)總體參數(shù)的可能范圍,該范圍就稱為總體參數(shù)的1-α可信區(qū)間。

可信區(qū)間由兩個(gè)數(shù)值即可信限構(gòu)成,其中最小值稱為下限,最大值稱為上限。嚴(yán)格講,可信區(qū)間不包括上下限兩個(gè)端點(diǎn)值。2、區(qū)間估計(jì)預(yù)先給定的概率(1-α)稱為可信度,常取95%或99%。如無特別說明,一般取雙側(cè)95%。按預(yù)先給定的概率(1-α)估計(jì)總體參數(shù)的可能范84

可信區(qū)間的含義是:有(1-α)的把握認(rèn)為總體參數(shù)位于該區(qū)間內(nèi)。而不是總體參數(shù)落在該范圍的可能性為α。

從總體中作隨機(jī)抽樣,根據(jù)每個(gè)樣本可以算得一個(gè)置信區(qū)間。95%的置信區(qū)間,意味著作100次抽樣,算得100個(gè)置信區(qū)間,平均有95個(gè)置信區(qū)間包括了總體均數(shù),只有5個(gè)不包括。5%是小概率事件,在一次試驗(yàn)中出現(xiàn)的可能性很小。因此就認(rèn)為總體均數(shù)在算得的置信區(qū)間內(nèi),可信度是95%,犯錯(cuò)誤的概率是5%??尚艆^(qū)間的含義是:有(1-α)的把握認(rèn)為總85總體均數(shù)可信區(qū)間的計(jì)算1.σ未知且樣本例數(shù)n較小時(shí),按t分布原理:tа/2,ν是按自由度ν=n-1,由附表2查得的t值。99%的雙側(cè)置信區(qū)間:95%的雙側(cè)置信區(qū)間:總體均數(shù)可信區(qū)間的計(jì)算1.σ未知且樣本例數(shù)n較小時(shí),按t86例2已知某地27例健康成年男性血紅蛋白量的均數(shù)為

,標(biāo)準(zhǔn)差S=15g/L,試問該地健康成年男性血紅蛋白量的95%和99%置信區(qū)間。95%CI:99%CI:本例n=27,S=15例2已知某地27例健康成年男性血紅蛋白量的均數(shù)為872.σ已知,按標(biāo)準(zhǔn)正態(tài)分布原理計(jì)算Zа/2為標(biāo)準(zhǔn)正態(tài)變量,Zа/2相當(dāng)于按ν=∞時(shí)及P取α,由附表2查的的t界值。

95%的雙側(cè)置信區(qū)間:99%的雙側(cè)置信區(qū)間:2.σ已知,按標(biāo)準(zhǔn)正態(tài)分布原理計(jì)算Zа/2為標(biāo)準(zhǔn)正態(tài)883.若σ未知,但樣本例數(shù)n足夠大(n>50)時(shí)由t分布可知,自由度越大,t分布越逼近標(biāo)準(zhǔn)正態(tài)分布,此時(shí)t曲線下有95%的t值約在±1.96之間,即99%的雙側(cè)置信區(qū)間:95%的雙側(cè)置信區(qū)間:3.若σ未知,但樣本例數(shù)n足夠大(n>50)時(shí)由t分布可89例3某市2000年隨機(jī)測量了90名19歲健康男大學(xué)生的身高,其均數(shù)為172.2cm,標(biāo)準(zhǔn)差為4.5cm,,試估計(jì)該地19歲健康男大學(xué)生的身高的95%置信區(qū)間。該市19歲健康男大學(xué)生的身高的95%置信區(qū)間(171.3,173.1)cm例3某市2000年隨機(jī)測量了90名19歲健康男大學(xué)生的身高90可信區(qū)間的確切含義95%的可信區(qū)間的理解:1、所要估計(jì)的總體參數(shù)有95%的可能在我們所估計(jì)的可信區(qū)間內(nèi)。2、從正態(tài)總體中隨機(jī)抽取100個(gè)樣本,可算得100個(gè)樣本均數(shù)和標(biāo)準(zhǔn)差,也可算得100個(gè)均數(shù)的可信區(qū)間,平均約有95個(gè)可信區(qū)間包含了總體均數(shù)。3、但在實(shí)際工作中,只能根據(jù)一次試驗(yàn)結(jié)果估計(jì)可信區(qū)間,我們就認(rèn)為該區(qū)間包含了總體均數(shù)μ??尚艆^(qū)間的確切含義95%的可信區(qū)間的理解:1、所要估91意義:

95%的參考值范圍是指同質(zhì)總體內(nèi)包括95%個(gè)體值的估計(jì)范圍。若總體為正態(tài)分布,常按計(jì)算。

95%的可信區(qū)間是指按95%的置信度估計(jì)的總體參數(shù)的所在范圍。若為大樣本,按計(jì)算。計(jì)算上:

置信區(qū)間用標(biāo)準(zhǔn)誤,參考值范圍用標(biāo)準(zhǔn)差。思考!

均數(shù)置信區(qū)間與參考值范圍的區(qū)別意義:思考!均數(shù)置信區(qū)間與參考值范圍的區(qū)別92思考!

均數(shù)置信區(qū)間與參考值范圍的區(qū)別思考!均數(shù)置信區(qū)間與參考值范圍的區(qū)別93計(jì)算上:置信區(qū)間用標(biāo)準(zhǔn)誤,參考值范圍用標(biāo)準(zhǔn)差。計(jì)算上:置信區(qū)間用標(biāo)準(zhǔn)誤,參考值范圍用標(biāo)準(zhǔn)差。94抽樣誤差與假設(shè)檢驗(yàn)課件95第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤差第四章抽樣誤差與假設(shè)檢驗(yàn)第一節(jié)均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤96一、假設(shè)檢驗(yàn)的概念:一般科研程序:假說----驗(yàn)證----對假說作出結(jié)論統(tǒng)計(jì)上的假設(shè)檢驗(yàn):

假設(shè)檢驗(yàn)亦稱為顯著性檢驗(yàn),是先對總體的參數(shù)或分布作出某種假設(shè),然后用適當(dāng)?shù)姆椒ǎ鶕?jù)樣本對總體提供的信息,推斷此假設(shè)應(yīng)當(dāng)被拒絕或不拒絕。一、假設(shè)檢驗(yàn)的概念:統(tǒng)計(jì)上的假設(shè)檢驗(yàn):97什么是假設(shè)檢驗(yàn)?3.特點(diǎn)

(1)采用邏輯上的反證法(2)依據(jù)統(tǒng)計(jì)上的小概率原理1.概念事先對總體參數(shù)或分布形式作出某種假設(shè)然后利用樣本信息來判斷原假設(shè)是否成立2.類型

(1)參數(shù)假設(shè)檢驗(yàn)(2)非參數(shù)假設(shè)檢驗(yàn)什么是假設(shè)檢驗(yàn)?3.特點(diǎn)1.概念2.類型98兩均數(shù)兩率不等﹡假設(shè)檢驗(yàn)的基本原理抽樣誤差所致(來自同一總體)P>0.05=α?假設(shè)檢驗(yàn)回答P<0.05=α環(huán)境條件影響(來自不同總體)反證法小概率思想先對總體的參數(shù)或分布作出某種假設(shè),再用適當(dāng)?shù)姆椒ǜ鶕?jù)樣本對總體提供的信息,推斷此假設(shè)應(yīng)當(dāng)拒絕或不拒絕。兩均數(shù)兩率不等﹡假設(shè)檢驗(yàn)的基本原理抽樣誤差所致P>0.099抽樣誤差與假設(shè)檢驗(yàn)課件100如果第一種可能性較小時(shí),可以拒絕它而接受后者,統(tǒng)計(jì)上稱差異有統(tǒng)計(jì)學(xué)意義。本例兩個(gè)均數(shù)不等有兩種可能性:①山區(qū)成年男子的脈搏總體均數(shù)與一般健康成年男子的脈搏總體均數(shù)是相同的,差別僅僅由于抽樣誤差所致,來自同一總體;②受山區(qū)某些因素的影響,兩個(gè)總體的均數(shù)是不相同的,有本質(zhì)性區(qū)別,不是來自同一總體。如果第一種可能性較大時(shí),可以接受它,統(tǒng)計(jì)上稱差異無統(tǒng)計(jì)學(xué)意義;如何作出判斷呢?按照邏輯推理:如果第一種可能性較小時(shí),可以拒絕它而接受后者,統(tǒng)101假設(shè)檢驗(yàn)的基本步驟:檢驗(yàn)水準(zhǔn)(亦稱顯著性水準(zhǔn))符號為α,是一個(gè)預(yù)先給定概率值。1.建立檢驗(yàn)假設(shè)、確定檢驗(yàn)水準(zhǔn)和單雙側(cè)檢驗(yàn)假設(shè)無效假設(shè)備擇假設(shè)符號為H0:μ1=μ2

符號為H1:μ1≠μ2即假設(shè)均數(shù)來自同一總體,它們的總體均數(shù)相同,樣本均數(shù)間無本質(zhì)的不同,差別僅由抽樣誤差引起;即假設(shè)均數(shù)來自不同總體,它們之間的差別存在本質(zhì)的不同,并非僅由抽樣誤差引起。假設(shè)檢驗(yàn)的基本步驟:檢驗(yàn)水準(zhǔn)(亦稱顯著性水準(zhǔn))符號為α102確定檢驗(yàn)水準(zhǔn):亦稱為顯著性水準(zhǔn),符號為α,是預(yù)先給定的概率值。是判定樣本指標(biāo)與總體指標(biāo)或兩樣本指標(biāo)間的差異有無統(tǒng)計(jì)學(xué)顯著性意義的概率水準(zhǔn),在實(shí)際工作中,α常取0.0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論