版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1第六章不等概率抽樣第一節(jié)不等概率抽樣概述第二節(jié)放回不等概率抽樣第三節(jié)不放回不等概率抽樣2第一節(jié)不不等等概率抽抽樣概述述一、不等等概率抽抽樣的必必要性在簡單隨隨機抽樣樣中,總總體(或?qū)?中的每個個單元入入樣的概概率都相相等。如如果總體體中的每每個單元元在該總總體中的的地位(或重要性性)相差不多多,則這這種基于于等概率率的抽樣樣是理所所當(dāng)然的的選擇。。等概率率抽樣不不僅實施施簡單,,而且相相應(yīng)的數(shù)數(shù)據(jù)處理理公式也也簡單。。但是在在許多實實際問題題中,我我們還需需要使用用不等概概率抽樣樣(samplingwithunequalprobabilities))。3一種情況況是調(diào)查查的總體體單元與與抽樣總總體的單單元可能能不一致致。另一種需需要用到到不等概概率抽樣樣的情況況是,抽抽樣單元元在總體體中所占占的地位位不一致致。最重要的的一種不不等概率率抽樣乃乃是使每每個單元元入樣的的概率與與該單元元的大小小成比例例的抽樣樣(samplingwithprobabilitiesproportionaltosizes,簡稱PPS抽樣)。4第三種需需用不等等概率抽抽樣的情情況是為為了改善善估計量量的特性性。每個個可能的的樣本若若被抽的的概率與與樣本中中單元的的輔助變變量之和和成正比比的話,,則按此此進行不不等概率率抽樣所所得到的的樣本,,用通常常的比估估計方法法所得的的估計量量是無偏偏的。5總之,在在實際工工作中需需要我們們經(jīng)常采采用不等等概率抽抽樣。另另外,從從上面列列舉的情情況也可可看到,,凡需使使用不等等概率抽抽樣的場場合,必必須提供供總體單單元的某某種輔助助信息,,例如每每個單元元的“大大小”度度量Mi或輔助變變量Xi等。6二、不等等概率抽抽樣的主主要分類類不等概率率抽樣可可按多種種原則進進行分類類。鑒于于不等概概率抽樣樣同時會會帶來目目標(biāo)量估估計及其其方差估估計的復(fù)復(fù)雜性,,可分為為放回抽樣樣:每次次在總體體(或?qū)?中按一定定概率抽抽取一個個單元,,抽取后后放回總總體,再再進行下下一次抽抽樣,每每次抽樣樣都是獨獨立的。。不放回抽抽樣。其其代價是是:由于于喪失了了獨立性性,無論論是抽樣樣方法還還是方差差估計,,都要比比放回抽抽樣繁復(fù)復(fù)得多。。7另一種分分類是::視每次次抽樣(放回抽樣樣的情形形)概率或每每個單元元的入樣樣概率(不放回抽抽樣的情情形)是否嚴(yán)格格地與單單元的大大小成比比例。另另外,看看樣本量量n是固定的的還是隨隨機的。。最重要要的情形形乃是當(dāng)當(dāng)n固定,且且上述概概率與單單元大小小嚴(yán)格成成比例的的不等概概率抽樣樣。以后后我們將將這種情情形的放放回抽樣樣稱為PPS抽樣,稱稱相應(yīng)的的不放回回抽樣為為πPS抽樣。8對于不放放回抽樣樣,按其其樣本單單元抽取取方式的的不同又又可分為為以下幾幾種方法法:1.逐個抽取取法。每每次從尚尚未入樣樣的單元元中以一一定概率率抽取一一個單元元,這個個概率通通常與已已經(jīng)入樣樣的單元元有關(guān),,2.重抽法。。以一定定概率逐逐個進行行放回抽抽樣,若若一旦抽抽到重復(fù)復(fù)單元,,則放棄棄所有已已抽到的的單元而而重新抽抽取,直直到抽到到規(guī)定單單元數(shù)且且所有入入樣單元元都不同同為止。。Back93.系統(tǒng)抽取取法。將將總體單單元按某某種順序序排列,,且將規(guī)規(guī)定的單單元入樣樣(或其其倍數(shù)))累計起起來,并并確定抽抽樣間隔隔,在這這個范圍圍內(nèi)產(chǎn)生生一個隨隨機數(shù)以以確定初初始入樣樣單元,,然后按按上述抽抽樣間隔隔確定其其余的樣樣本單元元。4.全樣本方方法。對對每個可可能樣本本規(guī)定一一個被抽抽中的概概率,按按這個概概率一次次抽取整整個樣本本。Back10三、不等等概率抽抽樣的特特點不等概率率抽樣的的主要優(yōu)優(yōu)點是由由于使用用了輔助助信息,,提高了了抽樣策策略的統(tǒng)統(tǒng)計效率率,與簡簡單隨機機抽樣甚甚至與分分層抽樣樣相比,,能顯著著地減少少抽樣誤誤差。11不等概率率抽樣有有以下的的缺點::抽樣框中中的所有有單元,,都要有有高質(zhì)量量的、能能用作大大小度量量的輔助助信息;;抽樣框的的創(chuàng)建比比簡單隨隨機抽樣樣和系統(tǒng)統(tǒng)抽樣成成本高,,更復(fù)雜雜,因為為需要度度量和存存儲總體體中每一一個單元元的大小??;并非在任任何情況況下都能能使用,,因為并并不是每每一個總總體都有有穩(wěn)定且且與主要要調(diào)查變變量相關(guān)關(guān)的有關(guān)關(guān)大小或或規(guī)模的的度量;;抽樣及估估計(特特別對不不放回抽抽樣)相相當(dāng)復(fù)雜雜;當(dāng)單元大大小度量量不準(zhǔn)確確或不穩(wěn)穩(wěn)定時不不適用,,此時更更好的辦辦法是將將單元按按大小分分組并使使用分層層抽樣。Back12第二節(jié)放回不等等概率抽抽樣一、多項項抽樣多項抽樣樣是一種種最簡單單的不等等概率抽抽樣。它它是從容容量為N的總體中中有放回回地進行行獨立抽抽樣,每每次抽樣樣中,使使抽到第第i個單元的的概率為為Zi,i=1,2,…,N,,,連連續(xù)抽n次,從而而抽到n個單元。。13若記為總總體中第第i個單元在在n次抽樣中中被抽到到的次數(shù)數(shù),顯然然對每個個i都有:,,且。。作為為隨機變變量(,,,,…),它的聯(lián)合合分布即即是以下下的多項項分布::這就是多多項抽樣樣這個術(shù)術(shù)語的來來源。14根據(jù)多項項分布的的性質(zhì),,有當(dāng)每個單單元具有有一個說說明其大大小或規(guī)規(guī)模的的度量量時,每每個單元元在每次次抽樣中中的入樣樣概率與與單元大大小成比比例,稱稱這種特特殊的多多項抽樣樣為放回回的與大大小成比比例的概概率抽樣樣,簡稱稱PPS抽樣。15二、PPS抽樣PPS抽樣是與與大?。ǎɑ蛞?guī)模模)成比比例的概概率抽樣樣,是一一種使用用輔助信信息從而而使入樣樣概率不不相等的的抽樣技技術(shù)。如果總體體單元的的大小或或規(guī)模變變化很大大,且這這些大小小是已知知的,這這樣的信信息就可可以用在在抽樣中中,以提提高統(tǒng)計計效率。。如果單單元大小小的度量量是準(zhǔn)確確的,而而且所研研究的變變量與單單元的大大小相關(guān)關(guān),PPS抽樣能極極大地提提高精度度。但如如果大小小的度量量不大準(zhǔn)準(zhǔn)確,最最好按大大小分組組并使用用分層抽抽樣。16PPS抽樣的入入樣概率率。如上上所述,,PPS抽樣時可可取為第i個單元的的入樣概概率,其其中是是總體體中所有有單元的的“大小小”之和和,為為第i個單元的的大小。。17有時,關(guān)關(guān)于單元元的大小小只只是是約略知知道或這這個“大大小”并并不是用用單元所所含的次次級單元元數(shù)來表表示的,,而是用用其它有有關(guān)尺度度來計量量。此時時,設(shè)第第i單元大小小的計量量尺度為為,,則有::這時的PPS抽樣也稱稱作PPZ抽樣。18三、多項項抽樣的的實施方方法如何抽取取一個不不等概率率樣本呢呢?有三三種主要要方法::代碼法法、系統(tǒng)統(tǒng)法及隨隨機系統(tǒng)統(tǒng)法。以以下的討討論以PPS抽樣為例例,并假假定單元元大小皆皆為整數(shù)數(shù)。19(1)代碼法法(累計和法法,隨機機法或漢漢森—赫維茨法法)設(shè)N不太大,,且((或))為第i單元大小小的度量量,且為為整數(shù),,對總體體中的每每個單元元計算累累計大小小,得到到總體所所有單元元代碼的的累計和和,,對對總體中中每個單單元確定定與它相相對應(yīng)的的代碼范范圍;在在1到總的累累計大小小范范圍圍內(nèi)抽取取一個隨隨機數(shù),,該隨機機數(shù)相應(yīng)應(yīng)的代碼碼范圍中中的單元元即為入入樣單元元。重復(fù)復(fù)上述步步驟,直直到抽得得n個單元為為止。20PPS抽樣時,,單元的的代碼如如下表::21(2)拉希里里法(二二次抽樣樣法)代碼法要要將累累計,在在N不太大時時是適用用的,但但當(dāng)N很大時,,就很不不方便。。此時可可用Lahiri(拉希里里)1951年提出的的方法。。令每每次抽取取一個范范圍內(nèi)的的隨機數(shù)數(shù)及范圍內(nèi)的的隨機數(shù)數(shù)m,若,,則則第單單元入入樣;否否則,重抽。。此此時,第第i個單元的的入樣概概率與成成正比,,從而。。重重復(fù)這一一過程,,直到抽抽夠所需需的個個單單元。22(3)系統(tǒng)PPS抽樣方法法對總體中中的每個個單元,,計算累累計大小??;對總體中中每個單單元確定定與它相相對應(yīng)的的代碼范范圍;確定抽樣樣間隔k=總累計大大小/n;在1和k的范圍內(nèi)內(nèi)確定一一個隨機機起點r;與代碼r,r+k,r+2k,…,r+(n-1)k所在范圍圍相對應(yīng)應(yīng)的單元元入樣。注意,當(dāng)當(dāng)r+(n-1)k超過總累累計大小小時,應(yīng)應(yīng)使用圓圓形系統(tǒng)統(tǒng)抽樣中中的模余余數(shù)法。。23(4)隨機系系統(tǒng)抽樣樣法在這種方方法中,,名錄在在系統(tǒng)抽抽樣前要要進行隨隨機排序序。如果果完全按按原來的的排序,,會把一一些可能能的樣本本排除在在外。在在上面介介紹的系系統(tǒng)抽樣樣的例子子中,不不可能把把單元3和4同時抽入入同一個個樣本。。把名錄錄重新隨隨機排列列后會增增加潛在在的可能能抽到的的樣本數(shù)數(shù)量。實際上這這些方法法都有些些問題。。例如,,對系統(tǒng)統(tǒng)抽樣法法或隨機機系統(tǒng)抽抽樣法,,一個大大小大于于抽樣間間隔的單單元,就就有重復(fù)復(fù)被抽中中的可能能。只有有把這些些大單元元放入單單獨的一一個層,,并獨立立地對它它們進行行抽樣,,才能克克服這個個問題。。另一個個問題是是估計值值的抽樣樣方差估估計比較較困難。。24四、估計計量對于多項項抽樣,,由于抽抽樣是不不等概率率的,每每個樣本本單元的的觀測值值就不再再是“平平等的””,因此此對于總總體參數(shù)數(shù)的估計計與等概概率抽樣樣不同。。漢森—赫維茨提提出,如如果是是按為為入樣概概率的多多項抽樣樣抽得的的樣本指指標(biāo)值,,相應(yīng)的的為,,則則總體總總和Y的無偏估估計量如如下:25且若n〉1,則的的無無偏估計計量為26對于PPS抽樣,,所以有有其中是是第第i個樣本單單元的觀觀測值,,例如商商店的年年銷售額額,而是是該單元元的大小小,例如如商店的的員工人人數(shù),則則即即是是第i個商店人人均年銷銷售額。。對n個取取平平均即是是樣本商商業(yè)網(wǎng)點點人均年年銷售額額的平均均,將此此數(shù)乘以以,,即該地地所有商商業(yè)網(wǎng)點點的員工工總數(shù),,即可獲獲得該地地商業(yè)銷銷售總額額的估計計。27舉例:下表是某某系統(tǒng)全全部N=36個單位上上一年職職工人數(shù)數(shù)及當(dāng)年年職工人人數(shù)的數(shù)數(shù)據(jù),以以為單位位大小的的度量,,對單位位進行PPS抽樣,n=6,估計全全系統(tǒng)當(dāng)當(dāng)年職工工總?cè)藬?shù)數(shù)Y,并與簡簡單隨機機抽樣做做精度比比較。28第三節(jié)不放回不不等概率率抽樣一、包含含概率與與πPS抽樣放回不等等概率抽抽樣實施施簡單,,數(shù)據(jù)處處理也不不復(fù)雜,,在不等等概率抽抽樣中占占有一定定的地位位。但是是由于放放回抽樣樣有可能能重復(fù)抽抽到同一一單元,,特別是是個別大大單元被被重復(fù)抽抽到的可可能性比比較大,,這就在在一定程程度上影影響了樣樣本的代代表性,,降低了了抽樣效效率,也也不易被被實際工工作者所所接受。。即使在在相同樣樣本量下下,放回回抽樣的的精度比比不放回回抽樣的的差。因因此,我我們?nèi)杂杏斜匾醒芯坎环欧呕夭坏鹊雀怕食槌闃?。事實上,,由于不不放回抽抽樣的樣樣本不是是獨立的的,因此此無論是是實施還還是數(shù)據(jù)據(jù)處理,,特別是是方差估估計,都都要比放放回的多多項抽樣樣復(fù)雜得得多。29在放回的的不等概概率抽樣樣中,每每個單元元的入樣樣概率起起著關(guān)鍵鍵作用。。在不放放回抽樣樣中,每每個單元元被包含含到樣本本的概率率也即入入樣概率率及任意意兩個單單元都包包含到樣樣本的概概率都起起著十分分重要的的作用,,它們通通稱為包包含概率率。對于固定定的n包含概率率滿足以以下性質(zhì)質(zhì):(1)(2)(3)其中性質(zhì)質(zhì)1是顯然的的。性質(zhì)質(zhì)2是對每個個已在樣樣本中的的單元而而言的,,固定了了這個特特定單元元,總體體中其它它N-1個單元在在樣本中中只可能能有n-1個單元,,因此其中最后后一個等等式利用用了性質(zhì)質(zhì)1。性質(zhì)3則直接利利用性質(zhì)質(zhì)2:與放回的的PPS抽樣類似似,對于于不放回回不等概概率抽樣樣,我們們最感興興趣的是是與與單元元大小成成比例的的情形。。若仍記,,則由由性質(zhì)1有:以后我們們將這種種不放回回的與單單元大小小成比例例的概率率抽樣稱稱為πPS抽樣。嚴(yán)格的πPS抽樣實施施起來非非常復(fù)雜雜。事實實上,只只有當(dāng)n=2時,才有有一些簡簡單且實實用的方方法。在在不放回回抽樣的的情形,,如果抽抽選的單單元多于于一個,,要使入入樣概率率與單元元大小成成正比以以及對調(diào)調(diào)查估計計值的誤誤差進行行估計都都比較復(fù)復(fù)雜。在在用不放放回πPS抽樣抽取取多于兩兩個單元元時,情情況就更更加復(fù)雜雜。實際際上,這這仍是一一個需要要進行認認真研究究的問題題。除了了實施方方面的原原因外,,當(dāng)n大時,的的計算也也極其困困難,而而這對于于方差估估計是不不可少的的。二、霍維維茨—湯普森估估計量及及其性質(zhì)質(zhì)對不放回回的不等等概率抽抽樣,總總體總和和Y的估計采采用霍維維茨(Horvitz)與湯普普森(Thompson)提出的的以下估估計量::注意這個個估計量量與多項項抽樣的的漢森—赫維茨估估計量非非常常相似。。事實上上,對于于πPS抽樣,由由于,,與與相應(yīng)應(yīng)PPS抽樣的完完全一一致?;艟S茨—湯普森估估計量具具有如下下性質(zhì)::(1)若,,則是是Y的無偏估估計,且且它的方方差為::當(dāng)n固定時,,又有(2)若,,則是的的無偏偏估計。。又當(dāng)n固定時,,以下的的耶茨((Yates)—格倫迪((Grundy)—森(Sen)估計量量也也是是的的無無偏估計計:37三、n=2的嚴(yán)格πPS抽樣對于πPS抽樣,由由于作為為總體總總和的霍霍維茨—湯普森估估計量的的形式相相當(dāng)簡單單,因此此就應(yīng)用用角度來來說,是是否便利利主要在在于它的的實施方方法以及及的計算。。當(dāng)n=2時,有幾幾種比較較實用的的方法((但在具具體應(yīng)用用中,n=2并不是一一個十分分嚴(yán)重的的限制))。這些些方法常常用在對對總體分分層,在在每層中中抽取兩兩個樣本本單元的的情況。。38(1)布魯爾爾(Brewer)方法該方法要要求對每每個i,都滿足足,,即總總體(層層)中的的最大單單元必須須小于全全部單元元大小總總和的1/2(若不然然可以將將這個““特大””單元作作為必調(diào)調(diào)查的單單元)。。兩個樣樣本單元元采用逐逐個抽取取法抽取?。旱谝灰粋€單元元按與成比例的的概率抽抽??;第第二個單單元則在在剩下的的N-1個單元中中按與成成比例的的概率抽抽取。39(2)德賓((Durbin)方法兩個樣本本單元仍仍用逐個個抽取法法抽取。。第一個個樣本單單元以概概率抽取取,設(shè)抽抽到的是是單元i;第二個個樣本單單元則按按與成成比例的的概率抽抽取。由于此時時的,,且與與布魯爾爾方法的的相等,,因此德德賓方法法與布魯魯爾方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 地擲球產(chǎn)業(yè)鏈招商引資的調(diào)研報告
- 滾齒機產(chǎn)品供應(yīng)鏈分析
- 冰刀保護套產(chǎn)品供應(yīng)鏈分析
- 安排動物選美比賽行業(yè)營銷策略方案
- 大數(shù)據(jù)分析及應(yīng)用項目教程(Spark SQL)(微課版) 實訓(xùn)單 實訓(xùn)5 房產(chǎn)大數(shù)據(jù)分析與探索
- 云監(jiān)控和管理行業(yè)營銷策略方案
- 電子日記本用盒細分市場深度研究報告
- 室外冷卻噴霧設(shè)備出租行業(yè)市場調(diào)研分析報告
- 裝飾圣誕樹用閃亮金屬片項目運營指導(dǎo)方案
- 動物清潔行業(yè)營銷策略方案
- 2024中國東方航空技術(shù)限公司全球校園招聘高頻難、易錯點500題模擬試題附帶答案詳解
- 2024年西藏自治區(qū)中考道德與法治試題卷(含答案解析)
- 小學(xué)高年級課后服務(wù) scratch3.0編程教學(xué)設(shè)計 一階第6課 憤怒的小鳥3.0 教學(xué)設(shè)計
- 《糖尿病足感染診斷治療指南》解讀及進展課件
- 小學(xué)生主題班會奧運精神開學(xué)第一課(課件)
- 新解讀《JTG 5120-2021公路橋涵養(yǎng)護規(guī)范》
- 我們喜歡的動畫片(課件)三年級上冊綜合實踐活動教科版
- 2024年秋季學(xué)期新人教版七年級上冊英語課件 Unit 4 My Favourite Subject(第4課時)SectionB 1a-1d
- 讀書分享課件:《一句頂一萬句》
- 2024年黑龍江哈爾濱市文化廣電和旅游局“丁香人才周”(春季)事業(yè)單位引才招聘24人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 教案模板電子版
評論
0/150
提交評論