第三章簡單隨機(jī)抽樣抽樣調(diào)查理論與方法北京商學(xué)院_第1頁
第三章簡單隨機(jī)抽樣抽樣調(diào)查理論與方法北京商學(xué)院_第2頁
第三章簡單隨機(jī)抽樣抽樣調(diào)查理論與方法北京商學(xué)院_第3頁
第三章簡單隨機(jī)抽樣抽樣調(diào)查理論與方法北京商學(xué)院_第4頁
第三章簡單隨機(jī)抽樣抽樣調(diào)查理論與方法北京商學(xué)院_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

§1簡單隨機(jī)抽樣及實(shí)施方法簡單隨機(jī)抽樣就是從裝有N張票子的盒子里隨機(jī)無放回地摸取n張票子,它可以有兩種摸取方法:第三章簡單隨機(jī)抽樣(1)從盒子中一次摸取n張票。這樣摸取共有種可能性,每種可能的概率為。抽到的樣本稱為簡單隨機(jī)樣本。(2)從盒子中隨機(jī)摸取1張票,相應(yīng)該票的單元入樣后,票并不放回盒子,從余下的票中再隨機(jī)摸取1張票,相應(yīng)此票的單元也入樣且票也不返回盒子;依此實(shí)施,直到第n個樣本入樣。這兩種方法都使用了隨機(jī)的方法,而且樣本并不重復(fù),那么這兩種方法是否都算是簡單隨機(jī)抽樣呢?要檢驗(yàn)一下這兩種方法中每一單元的入樣概率是否相等。只要驗(yàn)證第二種方法中總體的每n個單元一組的樣本入樣的可能性等于第一種方法中的即可。利用條件概率即可得到驗(yàn)證。也就是說,兩種操作方法是等價的。都是簡單隨機(jī)抽樣但由于N、n一般都很大,第二種操作方案較方便。現(xiàn)在介紹一下具體實(shí)施簡單隨機(jī)抽樣的做法:首先將N個總體元素編號為:1,2,,N,每一單元對應(yīng)一個號碼,若抽到某號,則相應(yīng)單元入樣。(1)抽簽法:實(shí)際上就是一個盒子模型,將編號為1~N的N個形狀與質(zhì)地完全相同的紙簽放在盒子里,用上述兩種方法之一從盒子中摸出n張簽。(2)隨機(jī)數(shù)法:設(shè)想N相當(dāng)大,你會做那么多的簽放在盒子里以供抽取嗎?隨機(jī)數(shù)法用來解決這個困難。利用隨機(jī)數(shù)表、隨機(jī)數(shù)骰子或計算機(jī)可以獲得隨機(jī)數(shù)。①隨機(jī)數(shù)表:本書最后附有隨機(jī)數(shù)表,它應(yīng)當(dāng)被看成0~9數(shù)字隨機(jī)地橫豎排列,我們可以隨機(jī)地從某行某列的數(shù)字開始如果需要一至二位數(shù)字,則從該數(shù)字開始從左向右接連地截取,該行不夠則換下一行開始;如果需要三位或三位以上數(shù)字,則從開頭數(shù)字開始向右取三位或三位以上的數(shù)從該數(shù)縱向往下接連獲取其它隨機(jī)數(shù),不夠可另換列執(zhí)行,直到取到我們所需要的個數(shù)n,當(dāng)然這中間應(yīng)該去掉可能發(fā)生重復(fù)的數(shù)以及超出N的數(shù)字。③利用計算機(jī)產(chǎn)生隨機(jī)數(shù):不少現(xiàn)成的統(tǒng)計軟件都可提供此類服務(wù)。但必須指出,這樣產(chǎn)生的隨機(jī)數(shù)一般不能保證其隨機(jī)性,稱為“偽隨機(jī)數(shù)”。因此,提倡前述方法產(chǎn)生隨機(jī)數(shù)。②隨機(jī)數(shù)骰子:隨機(jī)數(shù)骰子是由均質(zhì)材料制成的正二十面體面上標(biāo)有0~9數(shù)字各兩個。如圖所示。通常用3~6個隨機(jī)骰子,視所需要的隨機(jī)數(shù)的位數(shù)而定。骰子用不同的顏色染成可事先規(guī)定好哪種顏色的骰子產(chǎn)生個位數(shù),哪種顏色的骰子產(chǎn)生十位數(shù),依次下去。將所需骰子在盒內(nèi)搖勻等穩(wěn)定后揭蓋讀取朝上面的數(shù)字,即獲取一組隨機(jī)數(shù)。所搖的骰子數(shù)m通常取決于總體單元個數(shù)N,滿足。記m個骰子按約定顏色而確定的順序讀得隨機(jī)數(shù),若,則此即為一次合格的隨機(jī)數(shù);否則予以放棄,重新?lián)u取,直到取到n個合格的隨機(jī)數(shù)為止?!?總體平均數(shù)與總和的估計設(shè)總體元素為,為來自該總體的簡單隨機(jī)樣本,有時也記樣本為為中的某個組合。在后者的表示中隨機(jī)性體現(xiàn)在下標(biāo)上。樣本是總體的一個有代表性的剖面。

總體平均數(shù)的估計為:總體總和的估計自然為:由于這兩個估計之間僅差一個常數(shù)因子N,因而只要重點(diǎn)研究的估計量的若干性質(zhì)即可。是樣本平均數(shù),由于樣本的隨機(jī)性,樣本平均值也是隨機(jī)變量,理論上的平均值即數(shù)學(xué)期望為:其中表示對中所有組合求和對于中的每個元素,比如,它與其它元素構(gòu)成樣本的可能次數(shù)顯然為,因此,乃至在中出現(xiàn)的次數(shù)均為,于是即是的無偏估計。同樣也是總體總量的無偏估計例3.1某班第一小組10人的數(shù)學(xué)考試成績分別為:

100,95,92,88,83,75,71,62,60,50平均分為77.6。先從中任選3個為一組樣本,其選法共有120種每種選法都有概率1/120。以4組樣本為例(100,95,92),(100,83,50),(88,83,62),(62,60,50)它們的樣本平均數(shù)分別為95.67,77.67,77.67,57.33。從抽樣調(diào)查的角度來看,我們希望抽到第二或第三組樣本,根據(jù)它們來估計總體平均數(shù)相當(dāng)準(zhǔn)確。而第一和第四組樣本的估計相當(dāng)糟糕。但它們?nèi)霕优c第二第三組具有同樣的可能性,這是否與的無偏性相矛盾呢?其實(shí)并不相矛盾。我們關(guān)心的是,盡管每一組樣本入樣的概率相同,像第二第三組這樣的“良好”情況就大體而言是否會多于像第一第四那樣的“糟糕”情況呢?如果肯定的話,那么就能指望在一次隨機(jī)抽樣中發(fā)生的估計誤差較小。該問題的解決將由下一節(jié)的討論給出。§3估計量的方差及其估計下面求的無偏估計的方差其中表示對中所有組合求和(或)(3.6)對隨機(jī)有放回抽樣,由于各次抽取是相互獨(dú)立的,由概率論的知識可以求得,此時:(或)(3.7)比較(3.6)式與(3.7)式,發(fā)現(xiàn)同樣用樣本平均數(shù)來估計總體平均數(shù),它們都是無偏估計,但隨機(jī)無放回時的方差小于隨機(jī)有放回時的方差。的方差表示新盒子的離散程度,也就是表示了取值范圍的大小,方差小表明取值遠(yuǎn)離中心的可能性較小,這樣隨機(jī)的一組樣本得到的實(shí)現(xiàn)值距很近的可能性就較大,這正是我們所期望的。因此,在實(shí)際抽樣中我們采用無放回抽樣方式。(3.6)式中的因子(N-n)/(N-1),稱為為隨機(jī)機(jī)無放放回的的校正正系數(shù),,它是是對隨隨機(jī)有有放回回情況況的校校正。。如果N相當(dāng)?shù)牡拇螅?,則總總體可可視為為無限限總體體,由由(3.7)式,即為的方差,這是無限總體情況樣本平均數(shù)的方差。而有限總體的的方差為:因此稱1-f為有限限總體體校正正系數(shù)數(shù),其中中f=n/N,稱為為抽樣樣比抽樣比就是樣本所占總體的比例。f越大,越接近1,則樣本越接近總體,與的隨機(jī)誤差就越??;當(dāng)f=1時,抽樣變成全面普查,此時誤差消失。一般情況下f比較小,由于N是固定的,也就意味著n相當(dāng)小,此時(3.6)式告訴我們的方差將隨著n的減少而增大,此時1-f在1附近,對的影響不大。事實(shí)上,抽取樣本越少,抽樣誤差越大。當(dāng)然,影響的方差的另一個重要因素是或。設(shè)想,當(dāng)相當(dāng)大時,原盒子中的數(shù)據(jù)相當(dāng)?shù)胤稚?,從一個很分散的盒子中隨機(jī)取一樣本來代替總體,你不可能指望誤差很小。對于的方差,n的影響是可以由人們主觀控制的,只要多花費(fèi)一些,多抽取一些就能適當(dāng)降低誤差,當(dāng)然這只能控制在一定范圍內(nèi)??梢妼?shí)際抽樣調(diào)查中用估計所產(chǎn)生的隨機(jī)誤差,也即的方差,主要受到樣本容量n的影響,因子1-f的影響幾乎可以忽略。的影響是客觀存在的,盒子中數(shù)據(jù)越分散,總體就變得越難捉摸。實(shí)際上,本身就是一個待估參數(shù),必須對的大小給出估計,不估計就無法評價所產(chǎn)生的誤差可能有多大。設(shè)為來自總體的樣本,既然它是總體的一個縮影,那么這些值的離散程度應(yīng)該反映了盒子的離散程度,因此采用統(tǒng)計量(樣本方差):來估計。為了研究統(tǒng)計量的性質(zhì),將改寫為:可以證明:即是的無偏估計用作為的估計,利用正態(tài)近似理論可以建立的置信區(qū)間當(dāng)N,n,N-n相當(dāng)大時,的分布近似可用正態(tài)曲線表示,由于所以取置信水平為()注意到標(biāo)準(zhǔn)正態(tài)曲線關(guān)于0點(diǎn)的對稱性,我們有其中是標(biāo)準(zhǔn)正態(tài)曲線的分位點(diǎn),任何一本概率統(tǒng)計的書上都提供有標(biāo)準(zhǔn)正態(tài)分布表以供查取分位點(diǎn)。這樣,的置信區(qū)間為:其中為未知參數(shù),用其無偏估計來代替,則得置信區(qū)間或例3.2某鎮(zhèn)有3250名職工,為調(diào)查該鎮(zhèn)職工收入情況,用簡單隨機(jī)抽樣方式從中抽取30名,調(diào)查結(jié)果如教材53頁表3-1。試估計該鎮(zhèn)職工的平均月收入,并求置信水平為95%的近似置信區(qū)間。解:N=3250,n=30查標(biāo)準(zhǔn)正態(tài)分布表得分位點(diǎn):于是該該鎮(zhèn)職職工月月平均均收入入的估估計值值為672.23元,它它的95%近似置信信區(qū)間間為::本節(jié)主要介紹了估計的隨機(jī)誤差以及置信區(qū)間的估計,對于總體總和的情況,從平均數(shù)的情況很容易導(dǎo)出有關(guān)結(jié)果?!?百分?jǐn)?shù)數(shù)的估估計及及其誤誤差在介紹盒子模型時已經(jīng)指出,對于總體中具有某種特性的單元所占比例的抽樣調(diào)查,可建立0-1盒子模型。即個具有某種特性的單元相應(yīng)的票上全標(biāo)上1,其余全標(biāo)上0。10是未知數(shù)。盒子中1所占的比例是待估參數(shù):。由于該參數(shù)恰為0-1盒子的平均數(shù),在簡單隨機(jī)抽樣理論中自然地采用這個無偏估計。為與參數(shù)記號相配,記:由第二二章第第七節(jié)節(jié)的討討論可可知,,盒子子的方方差為為:因此:其中PQ為未知參數(shù)的乘積,只有對進(jìn)行估計才有可能獲得P的置信區(qū)間。盡管P,Q各有它們的無偏估計但它們的乘積并非PQ的無偏估計。這里需要借助于的無偏估計,并且容易計算得:這樣可得的無偏估計為:(或?qū)憺椋┢鋵?shí)當(dāng)當(dāng)N比較大大時,,樣本本中1的個數(shù)數(shù)服從從二項項分布布,因因此當(dāng)當(dāng)n不是很很大時時,近近似置置信區(qū)區(qū)間(3.26)會發(fā)生生一定定差錯錯,應(yīng)應(yīng)當(dāng)考考慮必要要的修修正。。p的修正正置信信區(qū)間間為::現(xiàn)在可以構(gòu)造百分?jǐn)?shù)或比例p的置信度為的置信區(qū)間當(dāng)N,n,N-n都比較大時,置信區(qū)間為:(3.26)(3.27)例3.4某地區(qū)區(qū)有30587人,為為調(diào)查查其中中吸煙煙者所所占比比例而而從中中隨機(jī)無無放回回抽取取2000人進(jìn)行行訪問問,得得知其其中煙煙民785人。試試估計該地地區(qū)吸吸煙者者比例例,并并給出出吸煙煙比例例的置置信水水平為為90%的近似置置信區(qū)區(qū)間。。解:N=30587,n=2000置信水平為90%,則,查表得又故置近近似信信區(qū)間間為=(37.52%,40.98%)§5樣本容容量n的確定定抽樣調(diào)調(diào)查理理論中中,樣樣本容容量n的確定定具有有實(shí)實(shí)實(shí)在在在的意意義。n過大,,違背背抽樣樣調(diào)查查的宗宗旨,,n過小,,則抽抽樣誤誤差偏偏大,無無法作作出精精確的的估計計。一般情情況,,總費(fèi)費(fèi)用是是固定定的,,在固固定的的費(fèi)用用下盡盡量提提高精度或或在必必需的的精度度下使使費(fèi)用用盡可可能減減少,,是我我們確確定n的基本本原原則則。。下下面面主主要要研研究究簡簡單單隨隨機(jī)機(jī)抽抽樣樣下下如如何何確確定定n。設(shè)選取n個樣本,訪問每個單元所需的平均費(fèi)用為,另外除了樣本調(diào)查所需的費(fèi)用以外,還需要一筆基本費(fèi)用,例如辦公費(fèi)、設(shè)計問卷的費(fèi)用等,用表示。這樣總費(fèi)用為我們們主主要要考考慮慮n與精精度度的的關(guān)關(guān)系系::精度要求主要涉及到估計的方差(或相應(yīng)的標(biāo)準(zhǔn)差),或估計量與參數(shù)的絕對誤差或相對誤差。若記為基于簡單隨機(jī)樣本的關(guān)于參數(shù)的估計量。是一個隨機(jī)變量,要使此絕對誤差控制在一定數(shù)之內(nèi),只能以概率加以描述,假設(shè)置信水平為,那么:同樣樣,,若若以以相相對對誤誤差差r作為為標(biāo)標(biāo)準(zhǔn)準(zhǔn),則則有有假設(shè)n相當(dāng)大時,可以利用正態(tài)近似,我們有這樣:或(3.31)再利利用用正正態(tài)態(tài)近近似似的的手手段段,,得得:這里我們定義:我們稱之為統(tǒng)計量的變異系數(shù),它在抽樣調(diào)查中也是一個比較重要的量,尤其是在評價統(tǒng)計量的精度時常常用到。將(3.31)式中的取為為例,,如果調(diào)查時有一定要求,那么由(3.31)式以及額定的,只要已知,我們完全可以求得n的值。如果是未知的,我們可以先作少量抽樣以估計,然后再確定n,當(dāng)然這個確定的n比少量抽樣的容量通常要大。如果果問問題題是是估估計計總總體體的的具具有有某某種種特特征征的的子子總總體體所所占占的的百分分?jǐn)?shù)數(shù)P,,那么么代入入(3.31)式式,,并并解解得得::(3.35)由于P未知,仍然必須事先利用少量抽樣加以估計。但在實(shí)際操作中,當(dāng)時,PQ很接近P=0.5時的最大值,以P=0.5代入入,,此此時時得到到n約為為如果調(diào)查對有一定要求,自然也能得到n的大約數(shù)值。(3.36)以(3.36)式式確確定定n,,建立立在在P不大大不不小小的的基基礎(chǔ)礎(chǔ)之之上上。。這這種信信息息有有時時在在抽抽樣樣之之前前事事先先感感覺覺得得到到。。有有時時事事先先也也可可能能感感覺覺P相當(dāng)當(dāng)小?。ǎɑ蚧騋相當(dāng)當(dāng)小?。?。。例例如如,,要要估估計計流流水水線線上上生生產(chǎn)產(chǎn)一一批批精密密元元件件的的廢廢品品率率,,此此時時廢廢品品率率往往往往很很小小,,P<0.1是最最起起碼碼的。。對對此此廢廢品品率率的的抽抽樣樣調(diào)調(diào)查查所所需需的的n就不不能能用用(3.36)式式了了。。這種種場場合合下下如如何何確確定定n呢??一一個個可可供供選選擇擇的的方方法法就就是是逆抽樣樣。思思路路很很簡簡單單,,我我們們事事先先估估計計P很小小,,此此時時確確定定的的n次抽樣樣中中必必須須含含有有廢廢品品,,否否則則很很難難估估計計P。。于是是逆逆抽抽樣樣方方法法建建議我我們們事事先先確確定定一一個個大大于于1的的整整數(shù)數(shù)m,,從總總體體中中隨隨機(jī)機(jī)逐逐次次抽抽取樣樣本本,,直直到到出出現(xiàn)現(xiàn)第第m個““廢廢品品””((或或具具有有某某種種特特征征的的單單元元))為止止。。此此時時,,我我們們實(shí)實(shí)際際抽抽取取的的樣樣本本容容量量n是一一個個隨隨機(jī)機(jī)變變量量,,我們們使使用用::來估計P。逆抽樣的特點(diǎn)是n為隨機(jī)變量,與P及m有相當(dāng)?shù)年P(guān)系,的精度就與m有密切的關(guān)系。我們的問題是根據(jù)調(diào)查的需要去確定事先指定的“廢品”數(shù)m。(3.37)一般地,由于欲估計的P相當(dāng)小,因此可以認(rèn)為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論