估計與假設(shè)檢驗_第1頁
估計與假設(shè)檢驗_第2頁
估計與假設(shè)檢驗_第3頁
估計與假設(shè)檢驗_第4頁
估計與假設(shè)檢驗_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第一節(jié) 參數(shù)估計一、參數(shù)估計概述在許多實際問題中,總體被理解為我們所研究的那個統(tǒng)計指標(biāo),它在一定范圍內(nèi)取數(shù)值,而且是以一定的概率取各種數(shù)值的,從而形成一個概率分布,但是這個概率分布往往是未知的。例如為了制定綠色食品的有關(guān)規(guī)定,我們需要研究蔬菜中殘留農(nóng)藥的分布狀況,對這個分布我們知之甚少,以致它屬于何種類型我們都不清楚。有時我們可以斷定分布的類型,例如在農(nóng)民收入調(diào)查中,根據(jù)實際經(jīng)驗和理論分析如概率論中的中心極限定理,我們斷定收入服從正態(tài)分布,但分布中的參數(shù)取何值卻是未知的。這就導(dǎo)致統(tǒng)計估計問題。統(tǒng)計估計問題專門研究由樣本估計總體的未知分布或分布中的未知參數(shù)。直接對總體的未知分布進(jìn)行估計的問題稱為

2、非參數(shù)估計;當(dāng)總體分布類型已知,僅需對分布的未知參數(shù)進(jìn)行估計的問題稱為參數(shù)估計。本節(jié)我們研究參數(shù)估計問題。本節(jié)及以后假定抽樣方法為放回簡單隨機(jī)抽樣,樣本的每個分量都與總體同分布,它們之間相互獨立。二、參數(shù)估計的基本方法(一)估計量與估計值2.用來估計總體參數(shù)的統(tǒng)計量的名稱稱為估計量,如樣本均值、樣本比例、樣本方差等都可以是一個估計量。(二)點估計與區(qū)間估計參數(shù)估計方法有點估計與區(qū)間估計兩種方法。(1)設(shè)總體的分布類型已知,但包含有未知參數(shù),從總體中抽取一個簡單隨機(jī)樣本,欲利用樣本提供的信息對總體未知參數(shù)進(jìn)行估計。構(gòu)造一個適當(dāng)?shù)慕y(tǒng)計量作為的估計,稱為未知參數(shù)的點估計量(Point estimat

3、e)。當(dāng)有了一個具體的樣本觀察值后,將其代入估計量中就得到估計量的一個具體觀察值,稱為參數(shù)的一個點估計值。今后點估計量和點估計值這兩個名詞將不強調(diào)它們的區(qū)別,通稱為點估計,根據(jù)上下文不難知道此處的點估計究竟是點估計量還是點估計值。通俗地說,用樣本估計量的值直接作為總體參數(shù)的估計值稱為點估計。常用的點估計量有:2、估計的評價標(biāo)準(zhǔn):(1)無偏性: 設(shè)是未知參數(shù)的一個點估計量,若滿足即估計量的數(shù)學(xué)期望等于被估計參數(shù)則稱是的無偏估計量(Unbiased estimate),否則稱為有偏估計量。需要注意的是,由于估計量是樣本的函數(shù),樣本量是維隨機(jī)變量,所以對求平均是按樣本的概率分布求平均。無偏性是我們衡

4、量點估計量好壞的一個評價標(biāo)準(zhǔn),這個評價標(biāo)準(zhǔn)的直觀意義如下。由于樣本的出現(xiàn)帶有隨機(jī)性,所以基于一次具體抽樣所得的參數(shù)估計值未必等于參數(shù)真值,這是由樣本的隨機(jī)性造成的。我們希望當(dāng)大量使用這個估計量對參數(shù)進(jìn)行估計時,一系列估計值的平均值應(yīng)該與待估參數(shù)真值相等。這就從平均效果上對估計量的優(yōu)劣給出一個評價標(biāo)準(zhǔn)。(2)有效性:設(shè),均為未知參數(shù)的無偏估計量,如果對參數(shù)的一切可能取值有且嚴(yán)格不等號至少對參數(shù)的某個可能值成立,則稱無偏估計量比有效(Efficiency)。一個無偏估計量并不意味著他就非常接近被估計的參數(shù),他還必須與總體參數(shù)的離散程度比較小。對同一總體參數(shù)的兩個無偏點估計量,方差小者更有效。(3)

5、一次性:設(shè)對容量為的樣本,是參數(shù)的一個估計量,若對任意0,則稱是的一個一致的估計量序列,或稱此估計量序列具有一致性。隨著樣本容量的增大,點估計量的值越來越接近總體參數(shù)在參數(shù)估計中,雖然點估計可以給出未知參數(shù)的一個估計,但不能給出估計的精度。為此人們希望利用樣本給出一個范圍,要求它以足夠大的概率包含待估參數(shù)真值。這就是導(dǎo)致區(qū)間估計(Interval estimation)問題。所謂區(qū)間估計,就是估計總體參數(shù)的區(qū)間范圍,并要求給出區(qū)間估計成立的概率值。設(shè)是未知參數(shù),是來自總體的樣本,構(gòu)造兩個統(tǒng)計量,對于給定的(01),若、滿足則稱隨機(jī)區(qū)間,是參數(shù)的置信水平(Confidence level)為的置

6、信區(qū)間(Confidence interval), 稱為,的置信度,稱為置信限(Confidence limit)。這里有幾點需要說明:(1)區(qū)間,的端點,及長度都是樣本的函數(shù),從而都是隨機(jī)變量,因此,是一個隨機(jī)區(qū)間。(2)是說隨機(jī)區(qū)間,以的概率包含未知參數(shù)真值,區(qū)間長度描述估計的精度,置信水平描述了估計的可靠度。(3)因為未知參數(shù)是非隨機(jī)變量,所以不能說落入?yún)^(qū)間,的概率是,而應(yīng)是隨機(jī)區(qū)間,包含的概率是。通俗地說,在點估計的基礎(chǔ)上,給出總體參數(shù)的一個范圍稱為區(qū)間估計。三、總體均值的區(qū)間估計(一)正態(tài)總體且方差已知;或非正態(tài)總體、方差未知、大樣本情況下在這種情況下,樣本均值的抽樣分布呈正態(tài)分布,

7、其數(shù)學(xué)期望為總體均值,方差為。則稱為總體均值在置信水平下的置信區(qū)間。設(shè)樣本來自正態(tài)總體是總體均值,當(dāng)已知時數(shù)理統(tǒng)計證明服從正態(tài)分布,從而服從標(biāo)準(zhǔn)正態(tài)分布,對給定的置信度查表可得,使得從而有取則即是的置信水平為的置信區(qū)間。例6.5保險公司從投保人中隨機(jī)抽取36人,計算得36人的平均年齡歲,已知投保人平均年齡近似服從正態(tài)分布,標(biāo)準(zhǔn)差為歲,試求全體投保人平均年齡的置信水平為99%的置信區(qū)間。解:查表得故全體投保人平均年齡的置信水平為99%的置信區(qū)間為36.41,42.59在不重復(fù)抽樣條件下,置信區(qū)間為: (6.17)例6.6一家食品公司,每天大約生產(chǎn)袋裝食品若干,按規(guī)定每袋的重量應(yīng)為100g。為對產(chǎn)

8、品質(zhì)量進(jìn)行檢測,該企業(yè)質(zhì)檢部門采用抽樣技術(shù),每天抽取一定數(shù)量的食品,以分析每袋重量是否符合質(zhì)量要求。現(xiàn)從某一天生產(chǎn)的一批食品8000袋中隨機(jī)抽取了25袋(不重復(fù)抽樣),測得它們的重量如表6.3所示。表6.3 25袋食品重量已知產(chǎn)品重量服從正態(tài)分布,且總體方差為100g。試估計該批產(chǎn)品平均重量的置信區(qū)間,置信水平為95。解:已知100g,n=25,95,根據(jù)樣本資料,計算的樣本均值為:根據(jù)(6.17)式得±××±=(,),該批產(chǎn)品平均重量在95置信水平下的置信區(qū)間為:。若總體方差未知,可用樣本方差S2代替例6.7承例6.5假定保險公司從投保人中隨機(jī)抽取36

9、人,得到他們的年齡數(shù)據(jù)如表6.4所示。36名投保人的年齡若總體方差未知,試建立投保人年齡90的置信區(qū)間。解:已知n=36,90,1.645,由于總體方差未知,但為大樣本,故可用樣本方差代替。根據(jù)樣本資料計算的樣本均值和樣本標(biāo)準(zhǔn)差為:(樣本均值和樣本標(biāo)準(zhǔn)差的計算,也可直接通過Excel軟件中的描述統(tǒng)計功能計算,計算結(jié)果如圖6.3所示)圖6.3 描述統(tǒng)計運行結(jié)果則置信區(qū)間為:±2.13=(37.37,41.63),投保人平均年齡在90的置信水平下的置信區(qū)間為37.37歲41.63歲。(二)正態(tài)總體、方差未知、小樣本情況下如果總體服從正態(tài)分布,無論樣本容量大小,樣本均值的抽樣分布都服從正態(tài)

10、分布。只要總體方差已知,即使在小樣本情況下,也可以計算總體均值的置信區(qū)間。如果總體方差未知,需用樣本方差S2代替,在小樣本情況下,應(yīng)用分布來建立總體均值的置信區(qū)間。分布是類似正態(tài)分布的一種對稱分布,他通常要比正態(tài)分布平坦和分散。隨著自由度的增大,分布逐漸趨于正態(tài)分布。正態(tài)總體、方差未知、小樣本情況下,總體均值在置信水平下的置信區(qū)間為: (重復(fù)抽樣條件下) (6.18) (不重復(fù)抽樣條件下) (6.19)其中為t分布臨界值,可以查t分布臨界值表得到,也可由Excel計算得到。Excel計算,可使用粘貼函數(shù) “Tinv”完成。操作步驟依次為:Tinvdf確定例6.8已知某種電子元件的壽命服從正態(tài)分

11、布,現(xiàn)從一批電子元件中隨機(jī)抽取16只,測得其壽命如圖6.4中的原始數(shù)據(jù)部分。圖6.4 16只電子元件壽命原始數(shù)據(jù)及描述統(tǒng)計部分結(jié)果試建立該批電子元件使用壽命95的置信區(qū)間。根據(jù)樣本資料計算的樣本均值和樣本標(biāo)準(zhǔn)差為:(樣本均值和樣本標(biāo)準(zhǔn)差的計算,也可直接通過Excel軟件中的描述統(tǒng)計功能計算,計算結(jié)果如圖6.4所示)由95知,則該批電子元件平均使用壽命95的置信區(qū)間為:即=(1476.8,1503.2),該批電子元件平均使用壽命在95的置信水平下的置信區(qū)間為1476.8小時1503.2小時?,F(xiàn)將總體均值的區(qū)間估計總結(jié)如表6.5所示.表6.5 不同情況下總體均值的區(qū)間估計四、總體比例的區(qū)間估計在大

12、樣本(一般經(jīng)驗規(guī)則:)條件下,樣本比例的抽樣分布可用正態(tài)分布近似。在這種情況下,數(shù)理統(tǒng)計已經(jīng)證明如下結(jié)論:置信水平為的置信區(qū)間為: (重復(fù)抽樣) (不重復(fù)抽樣) 例6.9某城市想要估計下崗職工中女性所占的比例,采取重復(fù)抽樣方法隨機(jī)抽取了100名下崗職工,其中65人為女性。試以95的置信水平估計該城市下崗職工中女性所占比例的置信區(qū)間。解:已知,根據(jù)公式得:即65±9.35%=(55.65%,74.35%),95的置信水平下估計該城市下崗職工中女性所占比例的置信區(qū)間為55.65%74.35%。例6.10某企業(yè)共有職工1000人,企業(yè)準(zhǔn)備實行一項改革,在職工中征求意見,采用不重復(fù)抽樣方法,

13、隨機(jī)抽取200人作為樣本,調(diào)查結(jié)果顯示,由150人表示贊成這項改革,有50人表示反對。試以95的置信水平確定贊成改革的人數(shù)比例的置信區(qū)間。解:已知,根據(jù)公式得:即75±5.37%=(69.63%,80.37%),95的置信水平下估計贊成改革的人數(shù)比例的置信區(qū)間為69.63%80.37%。五 、 樣本容量的確定(一)影響樣本容量的因素在抽取樣本時樣本容量應(yīng)多大是一個很實際的問題。樣本容量取得比較大,收集的信息就比較多,從而估計精度比較高,但進(jìn)行觀測所投入的費用、人力及時間就比較多;樣本容量取得比較小,則投入的費用、人力及時間就比較少,但收集的信息也比較少,從而估計精度比較低。這說明精度

14、和費用對樣本量的影響是矛盾的,不存在既使精度最高又使費用最省的樣本量。一個常用的準(zhǔn)則是在使精度得到保證的前提下尋求使費用最省的樣本量。由于費用通常是樣本量的正向線性函數(shù),故使費用最省的樣本量也就是使精度得到保證的最小樣本量。(二)估計總體均值時樣本容量的確定在簡單隨機(jī)重復(fù)抽樣下,設(shè)樣本來自正態(tài)總體,總體均值的點估計為樣本均值。如果要求以估計時的絕對誤差為,可靠度為,即要求由知故只要需取絕對誤差從而解得(重復(fù)抽樣條件下) 同理,在簡單隨機(jī)不重復(fù)抽樣條件下,我們可以得出估計總體均值時樣本容量的計算公式為:(不重復(fù)抽樣條件下) 例6.12在某企業(yè)中采用簡單隨機(jī)抽樣調(diào)查職工月平均獎金額,設(shè)職工月獎金額

15、服從標(biāo)準(zhǔn)差為10元的正態(tài)分布,要求估計的絕對誤差為3元,可靠度為95%,試問應(yīng)抽多少職工?解:已知則即需抽取43名職工作為樣本進(jìn)行調(diào)查。(三)估計總體比例時樣本大小的確定在簡單隨機(jī)重復(fù)抽樣條件下,估計總體比例時,我們可以定義絕對誤差為:從而得到樣本容量:(重復(fù)抽樣條件下) (6.25)同理,在簡單隨機(jī)不重復(fù)抽樣條件下,我們可以得出估計總體比例時樣本容量的計算公式為:(不重復(fù)抽樣條件下) (6.26)例6.13根據(jù)以往的生產(chǎn)統(tǒng)計,某種產(chǎn)品的合格率為90%,現(xiàn)要求絕對誤差為5%,在置信水平為95%的置信區(qū)間時,應(yīng)抽取多少個產(chǎn)品作為樣本?已知,則=第二節(jié) 假設(shè)檢驗一、假設(shè)檢驗的基本思想1、小概率原理

16、如果對總體的某種假設(shè)是真實的,那么不利于或不能支持這一假設(shè)的事件A(小概率事件)在一次試驗中幾乎不可能發(fā)生的;要是在一次試驗中A竟然發(fā)生了,就有理由懷疑該假設(shè)的真實性,拒絕這一假設(shè)。抽樣總 體 樣 本 (某種假設(shè)) 觀察結(jié)果檢驗 (接受) (拒絕) 小概率事件 小概率事 未 發(fā) 生 件 發(fā) 生2、假設(shè)的形式原假設(shè), H1備擇假設(shè) 雙尾檢驗:H0:=0 , H1:0 單尾檢驗:H0:0 , H1:0 H0:0 , H1:0 假設(shè)檢驗就是根據(jù)樣本觀察結(jié)果對原假設(shè)(H0)進(jìn)行檢驗,接受H0,就否定H1;拒絕H0,就接受H1。二、假設(shè)檢驗規(guī)則與兩類錯誤1、確定檢驗規(guī)則檢驗過程是比較樣本觀察結(jié)果與總體假

17、設(shè)的差異。差異顯著,超過了臨界點,拒絕H0;反之,差異不顯著,接受H0。 差 異臨界點判 斷c拒絕H0c接受H0 怎樣確定c?2、兩類錯誤接受或拒絕H0,都可能犯錯誤 I類錯誤棄真錯誤,發(fā)生的概率為 II類錯誤取偽錯誤,發(fā)生的概率為檢驗決策H0為真H0非真拒絕H0犯I類錯誤()正確接受H0正確犯II類錯誤()大就小,小就大 基本原則:力求在控制前提下減少顯著性水平,取值:0.1, 0.05, 0.001, 等。如果犯I類錯誤損失更大,為減少損失,值取小;如果犯II類錯誤損失更大,值取大。 確定,就確定了臨界點c。設(shè)有總體:X,2已知。隨機(jī)抽樣:樣本均值 。接受域 標(biāo)準(zhǔn)化: 。拒絕域拒絕域確定值

18、,查概率表,Z 知臨界值0計算Z值,作出判斷。三、假設(shè)檢驗的一般步驟(1)建立總體假設(shè)H0,H1 (2) (3) (4)抽樣得到樣 選擇統(tǒng)計量 根據(jù)具體決策 本觀察值 確定H0為真 要求確定 (6) 時的抽樣分布 (5) 計算檢驗統(tǒng)計量 確定分布上的臨界(7) 的數(shù)值 點C和檢驗規(guī)則比較并作出檢驗判斷三、總體均值的檢驗Z類型條件檢驗統(tǒng)計量H0、H1拒絕域000ZZttt-ZZZZI正態(tài)總體2已知(1) H0:=0 H1:0(2) H0:0 H1:0(3) H0:0 H1:0000-ttII正態(tài)總體2未知(n30)(1) H0:=0 H1:0(2) H0:0 H1:0(3) H0:0 H1:000-ZZ0ZIII非正態(tài)總體n302已知或未知(1) H0:=0 H1:0(2) H0:0 H1:0(3) H0:0 H1:0四、總體成數(shù)的檢驗條件檢驗統(tǒng)計量H0、H1拒絕域-Z0Z0ZZ0Z1(P)np5nq5(1) H0:P=P0 H1:PP0(2)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論