分層隨機(jī)抽樣概括課件_第1頁
分層隨機(jī)抽樣概括課件_第2頁
分層隨機(jī)抽樣概括課件_第3頁
分層隨機(jī)抽樣概括課件_第4頁
分層隨機(jī)抽樣概括課件_第5頁
已閱讀5頁,還剩143頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第三章分層隨機(jī)抽樣 3.1 概述 3.2簡單估計量及其性質(zhì) 3.3樣本量在各層的分配 3.4 回歸估計量及其性質(zhì) 3.5 各層樣本量的分配 3.6總樣本量的確定2022/7/191簡單隨機(jī)抽樣只適合小型的抽樣調(diào)查: 1. 抽樣框 2. 代表性 如:了解中國各民族的情況:(鄂倫春族)2022/7/192第一節(jié)概述 一定義與作用 (一)分層抽樣和分層隨機(jī)抽樣 先將總體個單元劃分成個互不重復(fù)的子總體,每個子 總體稱為層,它們的大小分為別,這個層 合起來就是整個總體()。 然后,在每個層中分別獨(dú)立進(jìn)行抽樣,這種抽樣就是分層抽樣,所得到的樣本稱為分層樣本。如果每層都是簡單隨機(jī)抽樣,則稱為分層隨機(jī)抽樣,所

2、得到的樣本稱為分層隨機(jī)樣本。不重不漏2022/7/193 各層中的抽樣是獨(dú)立進(jìn)行的,因此,在各層中所采取的抽樣手段完全可以不相同,在一個層進(jìn)行簡單隨機(jī)抽樣,在另一層則可采用更復(fù)雜一些的抽樣,完全視各層的情況不同而定,這種因地制宜的手段將使樣本盡可能反映總體的特性以及子總體的特性。 分層抽樣有時也稱為類型抽樣或分類抽樣。2022/7/194 分層隨機(jī)抽樣三原則:(1)每層都抽樣;(2)各層都獨(dú)立地抽樣;(3)各層的抽樣都是簡單隨機(jī)抽樣。2022/7/195 (二)特點(diǎn): .分層抽樣的抽樣效率較高,也就是說分層抽樣的估計精度較高。 注意: 分層抽樣估計量的方差只和層內(nèi)方差有關(guān),和層間方差無關(guān)。 .

3、分層抽樣不僅能對總體指標(biāo)進(jìn)行推算, 而且能對各層指標(biāo)進(jìn)行推算。 如:消費(fèi)物價指數(shù)(全國和各省) .層內(nèi)抽樣方法可以不同,而且便于抽樣 工作的組織。2022/7/196(三)作用 可以對各層的參數(shù)進(jìn)行估計, 有助于提高估計精度。2022/7/197二使用場合 應(yīng)用條件: 適合于各層差異較大,有進(jìn)行分層的輔助信息。 層的劃分原則:層內(nèi)單元具有相同性質(zhì),通常按調(diào)查對象的不同類型進(jìn) 行劃分,這時,分層抽樣能夠?qū)γ恳活惖哪繕?biāo)量進(jìn)行估 計。盡可能使層內(nèi)單元的標(biāo)志值相近,層間單元的差異盡可 能大,從而達(dá)到提高抽樣估計精度的目的。既按類型又按層內(nèi)單元標(biāo)志值相近的原則進(jìn)行多重分 層,同時達(dá)到實(shí)現(xiàn)估計類值以及提高

4、估計精度的目的。為了抽樣組織實(shí)施的方便,通常按行政管理機(jī)構(gòu)設(shè)置進(jìn) 行分層。2022/7/198如:對全國汽車貨運(yùn)量調(diào)查,目的是不僅要了解全國貨運(yùn)量,而且推算不同經(jīng)濟(jì)成分貨運(yùn)量。 首先為組織方便,按省分層;各省再按經(jīng)濟(jì)成分分層;為提高抽樣效率,再按噸位分層。2022/7/199三符號說明層號:h(h=1,2,L) 第h層的記號如下: 單元總數(shù):樣本單位數(shù):第i個單元標(biāo)志值為: 從該層中抽取的樣本的單元值為: 層權(quán): 抽樣比:總體均值: 樣本均值:2022/7/1910 層內(nèi)方差:樣本方差:2022/7/1911第二節(jié)簡單估計量及其性質(zhì) 一總體均值的估計 (一)簡單估計量的定義 對于分層樣本,對總

5、體均值 的估計是通過對各層的 的估計,按層權(quán) 加權(quán)平均得到的。公式為: 2022/7/1912 如果得到的是分層隨機(jī)樣本,則總體均值 的簡單估計為: (二)估計量的性質(zhì) 性質(zhì)1 對于一般的分層隨機(jī)抽樣,如果 是 的無偏估計(h=1,2,L),則 是 的無偏估計。即對各層估計是無偏的,則對總體的估計也是無偏的。 的方差為: 由于各層的抽樣是相互獨(dú)立的2022/7/1913證明:因各層抽樣是相互獨(dú)立,則 也相互獨(dú)立,則有2022/7/1914性質(zhì)2 對于分層隨機(jī)抽樣 , 是 的無偏估計, 的方差為: 2022/7/1915 性質(zhì)3 對于分層隨機(jī)抽樣, 的一個無偏估計為:2022/7/1916注:

6、當(dāng) 適當(dāng)?shù)拇螅鲗訕颖酒骄鶖?shù) 均可適用正態(tài)近似,因此一般地 也適用于正態(tài)近似其置信區(qū)間。2022/7/1917二總體總量的估計 (一)簡單估計量的定義 總體總量Y的估計為: 分層隨機(jī)樣本: (二)估計量的性質(zhì)性質(zhì)對于一般的分層抽樣,如果是 偏估計,則是Y的無偏估計。的方差為:2022/7/19182022/7/1919 性質(zhì)對于分層隨機(jī)抽樣,的方差為: 性質(zhì)對于分層隨機(jī)抽樣, 的一個無偏估計為: 2022/7/1920【例3.1】調(diào)查某地區(qū)的居民奶制品年 消費(fèi)支出,以居民戶為抽樣單元,根據(jù)經(jīng)濟(jì)及收入水平將居民戶劃分為層,每層按簡單隨機(jī)抽樣抽取戶,調(diào)查獲得如下數(shù)據(jù)(單位:元),估計該地區(qū)居民奶制

7、品年消費(fèi)總支出及估計的標(biāo)準(zhǔn)差。2022/7/1921樣本戶奶制品年消費(fèi)支出層居民戶總數(shù)樣本戶奶制品年消費(fèi)支出2022/7/1922解: N = 200+400+750+1500=2850 =10( h=1,2,3,4)各層的層權(quán)及抽樣比為: 2022/7/1923各層樣本均值及樣本方差為:2022/7/1924該地區(qū)居民奶制品年消費(fèi)總支出:估計量方差及標(biāo)準(zhǔn)差的樣本估計為:2022/7/1925 在95%的概率保證下該地區(qū)居民奶制品年消費(fèi)總支出區(qū)間為:2022/7/1926 【例3.2】某市進(jìn)行家庭收入調(diào)查,分城鎮(zhèn)居民和農(nóng)村居民兩部分抽樣,在全部城鎮(zhèn)23560戶中抽取300戶,在全部農(nóng)村1484

8、20戶中抽取250戶(均按簡單隨機(jī)抽樣進(jìn)行),調(diào)查結(jié)果是城鎮(zhèn)年平均戶收入為15180元,標(biāo)準(zhǔn)差為2972元;農(nóng)村年平均收入為9856元,標(biāo)準(zhǔn)差為2546元。求全市年平均戶收入的估計及其90%的置信區(qū)間。2022/7/1927解:2022/7/19282022/7/1929全市年戶均收入的置信區(qū)間: 10585.39 1.645 142.287,即 10351.33 10819.45(元)注:由于城鎮(zhèn)居民與農(nóng)村居民收入水平,抽樣比不同(前者大于后者)。如果不分層,計算樣本平均數(shù)作為全市戶均年收入是不合理的:2022/7/1930三. 總體比例的估計 (一)簡單估計量的定義 總體比例P的估計為:(

9、二)估計量的性質(zhì) 如果定義 1, 第i個單元具有所考慮的特征 0, 其他 i=1,2N 2022/7/1931性質(zhì)7 對于一般的分層抽樣,如果是 的無偏估計(h=1,2,L),則 是P的無偏估計. 的方差為: 性質(zhì)8 對于分層隨機(jī)抽樣,是P的一個無偏估計, 的方差為: 因?yàn)? 及 2022/7/1932 2022/7/1933 性質(zhì)對于分層隨機(jī)抽樣, 的一個無偏估計為:2022/7/1934【例3.3】了解某地區(qū)居民戶擁有家庭電腦的情況如下,估計該地區(qū)家庭擁有電腦的比例及估計的標(biāo)準(zhǔn)差。 樣本戶擁有家庭電腦情況層居民戶總數(shù)樣本戶擁有家庭電腦情況 2022/7/1935解:2022/7/1936

10、該地區(qū)家庭擁有電腦的比例的估計、估計量的方差、估計的標(biāo)準(zhǔn)差為:2022/7/1937(三) 總體具有所考慮特征單元總數(shù)A的估計它的方差 及方差估計 分別是:2022/7/1938 【例3.4】為調(diào)查某個高血壓高發(fā)病地區(qū)青少年與成年人高血壓的患病率,對14歲以上的人分四個年齡組進(jìn)行分層隨機(jī)抽樣,調(diào)查結(jié)果如下,求總體高血壓的患病率P的估計及其標(biāo)準(zhǔn)差的估計。 高血壓患病率調(diào)查數(shù)據(jù)年齡組(歲)層權(quán)層樣本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.5362022/7/19

11、39解: P的估計量為: 為求 的方差估計,取2022/7/19402022/7/19413.3 比率估計及其性質(zhì)(一)分別比率估計 條件: 各層的樣本量都比較大的情況下 方法:各層分別進(jìn)行比率估計,將各層加權(quán)匯總得到總體指標(biāo)的估計。(先比后加權(quán))總體均值 和總體總量Y的分別比率估計量:已知各層的均值和總量2022/7/1942對分別比估計,若各層樣本量都比較大,則有:為第h層X與Y的相關(guān)系數(shù)注:公式中S、R、 用樣本數(shù)據(jù)替代2022/7/1943證明:根據(jù)比估計量的性質(zhì),當(dāng) 比較大時,則有: 所以2022/7/1944總量:2022/7/1945(二) 聯(lián)合比率估計條件:各層的樣本量不是都很

12、大的情況方法:先分別對 作分層估計,然后再采用比估計方法。(先加權(quán)后比)總體均值 和總體總量Y的聯(lián)合比率估計量:已知總體的均值和總量2022/7/1946的均方誤差為:對聯(lián)合比估計,若總樣本量 n比較大,則有:證明:p75注意與分別比估計方差公式的差異(Rh)2022/7/1947(三) 分別比率估計量與聯(lián)合比率估計量的比較如果各層的樣本量都較大,且有理由認(rèn)為各層的比率 差異較大,則分別比率估計優(yōu)于聯(lián)合比率估計。當(dāng)各層的樣本量不大,或各層比率 差異很小,則聯(lián)合比率估計更好些。 【例4.4】某市1996年對950家港口生產(chǎn)單位完成的吞吐量進(jìn)行了調(diào)查,1997年欲對全市港口生產(chǎn)單位完成的吞吐量進(jìn)行

13、抽樣調(diào)查。對港口生產(chǎn)單位按非國有(h=1)和國有(h=2)分為兩層,單位數(shù)分別為800家和150家,分別在兩層中調(diào)查了10家、15家港口生產(chǎn)單位,調(diào)查數(shù)據(jù)如下表,試估計1997年全市港口生產(chǎn)單位完成的吞吐量。2022/7/1949 1997年非國有和國有企業(yè)調(diào)查數(shù)據(jù)ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465接上表128176501391

14、911601411601070157356982022/7/1951h=1,非國有H=2,國有合計1015258001509500.8421050.15789510.01250.1171400102900274300214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.0497252022/7/19521.按分別比率估計量估計:2022/7/19532.按聯(lián)合比率估計量估計2022/7/1954兩種途徑:分別回歸估計:對每層樣本分別求取回歸估計量,然后對各層的回歸估計量進(jìn)行加權(quán)平

15、均,即先“回歸”后“加權(quán)”;聯(lián)合回歸估計:對兩個變量先分別計算出總體總值或總體均值的分層簡單估計量,然后再對它們的分層估計量來構(gòu)造回歸估計,即先“加權(quán)”后“回歸”。3.3回歸估計量及其性質(zhì)分別回歸估計量同樣要求每層的樣本量都比較大,如果達(dá)不到這個要求,加之各層的簡單隨機(jī)抽樣誤差較大,整個分層隨機(jī)抽樣就會產(chǎn)生較大的偏差,這時要使用聯(lián)合比估計量。2022/7/19563.3分層隨機(jī)抽樣下的回歸估計 (一) 分別回歸估計 適用: 各層樣本量不小的情況 方法: 先對各層的平均數(shù)或總和作回歸估計,然后按層權(quán)平均或相加,得到總體指標(biāo)的估計。(先回歸再加權(quán))定義 3.6 分別回歸估計是指在分層隨機(jī)抽樣中,先

16、在每層中對層均值或?qū)涌偤妥龌貧w估計,然后再對各層的回歸估計按總體層權(quán)進(jìn)行加權(quán)平均。對 的分別回歸估計為:2022/7/1957總體均值的分別估計量:總體總量的分別估計量: 1、當(dāng)各層的回歸系數(shù)為給定的常數(shù)時,分別估計量是無偏的,其方差為:2022/7/1958并且當(dāng) 時, 達(dá)到最小,即2、通常 未知,可以用樣本回歸系數(shù) 作為 的估計:這時分別估計量是有偏的,但當(dāng)每一層的樣本量2022/7/1959都較大時,估計的偏倚可以忽略,其方差近似為:方差 的樣本估計為:式中,第h層樣本相關(guān)系數(shù)的平方2022/7/1961(二) 聯(lián)合回歸估計條件:各層樣本量不大 聯(lián)合回歸估計是對 作分層估計;然后構(gòu)造總體

17、均值和總量的聯(lián)合估計量。(先分層再回歸) 總體均值、總量的聯(lián)合估計量: 其中:2022/7/1962 1、當(dāng)回歸系數(shù)為事先給定的常數(shù)時,聯(lián)合估計量 是無偏的,其方差為:2022/7/1963當(dāng) 取 時, 達(dá)到最小。 2、當(dāng)回歸系數(shù)未知時,取 為 的樣本估計: 第h層樣本相關(guān)系數(shù)的平方2022/7/1965這時聯(lián)合估計是有偏的,但當(dāng)樣本量n 較大時,估計量的偏倚趨于零,回歸估計是漸近無偏的,且方差 的樣本估計為:2022/7/1966(三)分別回歸估計與聯(lián)合回歸估計的比較 當(dāng)回歸系數(shù)事先設(shè)定時,分別回歸估優(yōu)于聯(lián)合回歸估計,尤其在各層回歸系數(shù)相差較大時,分別回歸估計更好。 當(dāng)回歸系數(shù)由樣本估計時,

18、如果各層的樣本量不太小,且各層的回歸系數(shù)相差較大,還是采用分別回歸估計為宜。若各層的樣本量不太大,且各層的回歸系數(shù)大致相同,則采用聯(lián)合回歸估計較好。若層內(nèi)的回歸系數(shù)差別不太大,而每層的樣本量并非都相當(dāng)大時,聯(lián)合回歸估計可能更保險些。2022/7/1967【例4.6】P45 :(續(xù)前例)利用回歸估計量估計該市港口生產(chǎn)單位1997年完成的吞吐量。解: 樣本回歸系數(shù):(1)按分別回歸估計量估計:=163421.10+107135.19=270556.30h=1,非國有h=2,國有1.070170.8564022022/7/1968(2)按聯(lián)合回歸估計量估計:2022/7/19692022/7/197

19、0小結(jié)比估計量與回歸估計量的異同:1.從形式上看,比估計量是一個簡單估計量 的線性組合,而回歸估計量兩個簡單估計量 的線性組合;但實(shí)質(zhì)上都是利用兩個簡單估計量和輔助變量來估計總體指標(biāo)。2.比估計量借助主要變量與輔助變量之間的比值關(guān)系;回歸估計量借助兩者之間的線性相關(guān)關(guān)系。 第四節(jié) 樣本量在各層的分配 簡單隨機(jī)抽樣只需要根據(jù)調(diào)查精度的要求與費(fèi)用的限制來確定抽樣容量的大小,而分層抽樣則提出另一個重要的問題,一旦確定n,又如何在各層中分配抽樣容量 ,其中有些問題要考慮,比如在各層中各有精度的要求以及費(fèi)用的限制,由于各層具有各自的鮮明特征,其花費(fèi)自然不同,因而在樣本容量分配上必須帶有經(jīng)濟(jì)觀點(diǎn)。另一個重

20、要考慮因素是由于 的不同而帶來數(shù)據(jù)處理的困難。 樣本量的分配必須盡可能地使估計量及其方差具有較簡單的形式,從而使數(shù)據(jù)匯總工作量小,做到省時省力。2022/7/1971樣本量分配對精度的影響2022/7/1972 某個總體分為三層,其層權(quán) 及層標(biāo)準(zhǔn)差 見下表,設(shè)總樣本量為300,考慮四種不同的樣本量分配,并計算出每一種分配下,總體均值估計量的方差: 樣本量的不同分配對方差的影響h常數(shù)分配與 成正比與 成正比與 成正比 10.22010049604020.330100110909030.5341001411501703.863.113.093.002022/7/19732022/7/1974 (一

21、)比例分配(proportional allocation ) 即在分層抽樣中,若每層的樣本量nh 都與層的大小Nh 成比例,即 也就是按各層的層權(quán)進(jìn)行分配,即大的子總體多抽一些,小的子總體少抽一些。 比例分配時, 也與層權(quán) 成比例。 簡單隨機(jī)抽樣中總體的每一個單元入樣的概率即為抽樣比f 。因而按比例分配而在各層中進(jìn)行簡單隨機(jī)抽樣的分層方法,任何一層中的樣本被抽中的概率都為f。因此比例分配的分層隨機(jī)抽樣是一種等概率抽樣?;?022/7/1975總體均值 的估計是:顯然估計量有相當(dāng)簡單的形式。2022/7/1976自加權(quán):如果總體總量(或均值)的無偏估計量可以寫成樣本觀測值的總和(或平均數(shù))的常

22、數(shù)倍(如:Y=ky或 ),那么這種樣本(或估計量)稱作自加權(quán)的或等加權(quán)的。按比例分配的分層抽樣就是自加權(quán)的。簡單隨機(jī)抽樣(放回的和不放回的)也是自加權(quán)的。2022/7/1977的方差為:注意:是各層方差按層權(quán)的加權(quán)平均!2022/7/1978二. 最優(yōu)分配 (一) 最優(yōu)分配 在分層隨機(jī)抽樣中, 在總費(fèi)用給定的條件下,估計量的方差達(dá)到最??;或在給定估計量方差的條件下,使總費(fèi)用最小的各層樣本量的分配稱為最優(yōu)分配(optimum allocation)。 簡單線性費(fèi)用函數(shù):2022/7/1979建立目標(biāo)函數(shù):根據(jù)柯西-許瓦茲(Cauchy-Schwarz)不等式,對于任意的 ,有 通過極小化目標(biāo)函數(shù)

23、,可同時達(dá)到給定方差下費(fèi)用最小和給定費(fèi)用下方差最小的效果。2022/7/1980當(dāng)且僅當(dāng) (K為常數(shù))時,上式等號成立。所以對于目標(biāo)函數(shù)則有:上式成立的條件是:2022/7/1981所以則使目標(biāo)函數(shù)達(dá)到最小時的最優(yōu)分配為:2022/7/1982 上式表明, 越大(即層越大),則層內(nèi)抽樣應(yīng)越多;又若 越大(即層內(nèi)變差越大),則層內(nèi)抽樣也應(yīng)越多;但如果 越大(即層內(nèi)平均每單元費(fèi)用越大),則在該層中的抽樣應(yīng)少一些。即最優(yōu)分配的 與 或 成正比,與 成反比。2022/7/1983 由此得出下面的行為準(zhǔn)則,如果某一層:單元數(shù)較多內(nèi)部差異較大費(fèi)用比較省 則對這一層的樣本量分配較多些。2022/7/1984

24、 (二) Neyman(內(nèi)曼)分配 條件: 如果每層抽樣的費(fèi)用相同,即 時,最優(yōu)分配可簡化為:將 代入 即得:2022/7/1985達(dá)到最小: 【例3.5】(續(xù)例3.1)p69如果樣本量為 n = 40,則按比例分配和Neyman分配,各層的樣本量應(yīng)為多少? 解: 按比例分配時,各層的樣本量為:即各層的樣本量分別為:3,6,11,20(公式計算結(jié)果如果帶小數(shù),這時樣本容量不按四舍五入法則取整數(shù),取比這個數(shù)大的最小整數(shù)代替。如:n=56.03 則n=57)2022/7/1986按Neyman分配:2022/7/1987各層的樣本量為:即各層的樣本量分別為:3,7,23,7。2022/7/1988

25、 【例3.6】在例3.2中若固定n=550不變,城鎮(zhèn)居民與農(nóng)村居民年收入的標(biāo)準(zhǔn)差估計分別為 元, 元,對城鎮(zhèn)居民與農(nóng)村居民抽樣平均每戶的費(fèi)用比1:2,試求城鎮(zhèn)與農(nóng)村兩層比例分配與最優(yōu)分配的樣本量。又若不考慮費(fèi)用因素,那么最優(yōu)分配的結(jié)果又有何變化?如何計算呢?2022/7/1989解: 城鎮(zhèn)與農(nóng)村居民年收入調(diào)查樣本量分配的計算h12356000411.021484200.863250022157.51525.61719802568.51936.62022/7/1990(1)比例分配(2)最優(yōu)分配(3)內(nèi)曼分配 2022/7/1991 不考慮費(fèi)用的內(nèi)曼分配在農(nóng)村的樣本量比

26、考慮費(fèi)用的最優(yōu)分配在農(nóng)村的樣本量更大。這是因?yàn)檗r(nóng)村調(diào)查費(fèi)用較高,因此最優(yōu)原則是適當(dāng)增加城鎮(zhèn)樣本量,減少農(nóng)村樣本量。2022/7/1992(三)某些層要求大于100%抽樣時的修正 按最優(yōu)分配時,當(dāng)某些層的標(biāo)準(zhǔn)差 特別大,而層的大小 相對指定的總樣本量n又小很多,若加上對這些層抽樣的平均單位費(fèi)用 又很低,而抽樣比f比較大,則可能出現(xiàn)按最優(yōu)分配計算的這個層的樣本量 超過 的情況。 實(shí)際工作中,如果第k層出現(xiàn)這種情況,最優(yōu)分配是對這個層進(jìn)行100%的抽樣,即取 ,然后,將剩下的樣本量 按最優(yōu)分配分到各層。2022/7/1993以不考慮費(fèi)用的內(nèi)曼分配為例,實(shí)際操作步驟如下:2022/7/1994 在這種

27、情況下,對于方差 的一般公式,可以直接將修正后的最優(yōu)分配所得的 帶入,而內(nèi)曼分配最小方差公式則需必要的調(diào)整: 其中, 是僅對最后實(shí)際分配的樣本量 嚴(yán)格小于 的各層求和, 也只是這些層中抽取的單元總數(shù)。 修正的含義可理解為:因?yàn)閷τ谀切?shí)施普查( )的層來說,已經(jīng)不存在所謂的抽樣誤差了,自然需要從原來的公式中將它們舍去。2022/7/1995【例3.7】某個模擬的總體分為4層, 和 的值見下表,設(shè)n=80,請問該如何進(jìn)行內(nèi)曼分配? 一個模擬總體的分配情況h154002000210500500032001020004400208000合計615170002022/7/1996解:計算各層的樣本量:

28、(1)第一層樣本量的分配: 而 ,可見 ,則(2)將 個待分配的樣本量分到24層:2022/7/1997而 ,可見 , 則(3)將 個待分配的樣本量分到3、4層:因?yàn)?, ,所以(4)將個待分配的樣本量分到第4層: 2022/7/1998因?yàn)?, ,所以 因此,各層所分配的樣本量是: 5,10,13,52 此時上題計算總體均值估計量的最小方差為:對第三、四層計算2022/7/1999第五節(jié) 總樣本量的確定 一.影響樣本總量n的因素 1. 估計量精度的要求: (1)對總體參數(shù)估計的精度 (2)對各層參數(shù)估計的精度 2.費(fèi)用的限制 (1)總費(fèi)用的限制 (2)不同層中平均抽取一個單元的費(fèi)用 3. 層

29、的劃分和層的樣本量的分配形式2022/7/19100 由于估計量的精度實(shí)際上取決于每層樣本量的大小,因此在總樣本量給定的情況下,對層樣本量的不同分配,其精度也不同。反之對同一精度要求,對不同的樣本量分配形式,計算得到的總樣本量也有差異,因此在確定總樣本時,要求先確定樣本量的分配形式。2022/7/19101 二. 估計總體均值情形 1. 一般公式令 其中 已經(jīng)選定,在調(diào)查的目標(biāo)是估計總體均值 時,當(dāng)給定方差V的上限或d時,2022/7/19102如果估計精度是由誤差限的形式給出,則這時上式可以表示為:由上式可得:2022/7/19103(1)當(dāng)按比例分配時,即 則上式為:2022/7/1910

30、4實(shí)際工作中,n的計算可以分兩步: 先計算 ,當(dāng) 不能忽略不計 時,再計算:(2)當(dāng)按內(nèi)曼分配時,即2022/7/19105【例3.7】(續(xù)例3.1) 如果在95%置信度下,相對誤差不超過10%,則按比例分配和Neyman分配時,總樣本量分別為多少? 解: 按比例分配時:2022/7/191062022/7/19107對 進(jìn)行修正得n:按Neyman分配時:2022/7/19108(3) 最優(yōu)分配需要考慮費(fèi)用時簡單線性函數(shù): C =將 代入n的一般公式,得:2022/7/19109當(dāng)總費(fèi)用C給定時:(P92 式3.139)2022/7/191102022/7/19111第六節(jié) 分層時的若干問題

31、 一.抽樣效果分析 與簡單隨機(jī)抽樣相比。分層隨機(jī)抽樣的精度與樣本量的分配及各層的方差有關(guān)。 在固定樣本的情況下,如果 相對1可以忽略,則 分別為分層隨機(jī)抽樣最優(yōu)分配、分層隨機(jī)抽樣按比例分配、簡單隨機(jī)抽樣簡單估計的方差。2022/7/19112 如果各層的均值差異越大,則用比例分配法較好,而當(dāng)各層的標(biāo)準(zhǔn)差較大時,用最優(yōu)分配法較好。在調(diào)查多個目標(biāo)量時,按比例分配的分層抽樣可能更好些。 通常用比例分配法較多,因?yàn)椋海?)最優(yōu)分配并不是對每個指標(biāo)都是最優(yōu)的。(2)由于最優(yōu)分配時需對層標(biāo)準(zhǔn)差進(jìn)行估計,估計又不可能十分精確,加上計算時樣本量必須取整數(shù),因此理論上的最優(yōu)分配的最小方差并不一定能達(dá)到。(3)而

32、且當(dāng)實(shí)際分配偏離最優(yōu)分配時,方差增加并不明顯??紤]到比例分配樣本的自加權(quán)性質(zhì)的簡單性,除非層標(biāo)準(zhǔn)差異十分明顯從而考慮最優(yōu)分配有較大的改進(jìn),否則還是可以采用比例分配法。 對于最優(yōu)分配,需要各層標(biāo)準(zhǔn)差Sh的值,可以用調(diào)查指標(biāo)的歷史數(shù)據(jù)或通過輔助指標(biāo)的信息推算。2022/7/191131.簡單隨機(jī)抽樣與分層隨機(jī)抽樣的效果比較(1)與比例分配的分層隨機(jī)抽樣的效果比較前提:相同樣本量的情況下 簡單隨機(jī)抽樣(對均值估計量)的方差: 比例分配的分層隨機(jī)抽樣相應(yīng)估計量的方差:2022/7/19114根據(jù)總體單元指標(biāo)的平方和分解,簡單隨機(jī)抽樣的方差分解如下:層內(nèi)方差層間方差2022/7/19115 故 若所有的

33、 都比較大,則 從而2022/7/19116 上式右邊的第二項(xiàng)是層間平方和,它一定是非負(fù)的,因此有 上式意味著,當(dāng)所有的 都比較大時,比例分配的分層隨機(jī)抽樣的方差小于簡單隨機(jī)抽樣的方差,也就是說,比例分配分層隨機(jī)抽樣的精度比后者高,設(shè)計效應(yīng)小于1。2022/7/19117 方差差值為: 這表明層平均數(shù) 的差異越大,分層的效果就越好,若層平均數(shù)都相等,那么分層的效果與不分層的一樣。事實(shí)上正因?yàn)閷娱g的這種變異不進(jìn)入分層隨機(jī)抽樣的方差,因此才有分層隨機(jī)抽樣精度高于簡單隨機(jī)抽樣的結(jié)果。2022/7/19118(2)與最優(yōu)分配的分層隨機(jī)抽樣的比較按定義,最優(yōu)分配的精度應(yīng)高于相同樣本量的任何其他分配,當(dāng)然

34、也高于比例分配的精度,但最優(yōu)分配在精度上的改進(jìn)究竟有多大?為此比較比例分配方差與最優(yōu)分配(內(nèi)曼情形)方差之差2022/7/19119從上式可以看出,最優(yōu)分配在精度取決于各層標(biāo)準(zhǔn)差的差異,差異越大,最優(yōu)分配的效果越好,反之若各層間標(biāo)準(zhǔn)差(方差)差別不大,那么最優(yōu)分配的效果就不會比比例分配的效果好很多。2022/7/19120 使用條件: 最優(yōu)分配: 各層標(biāo)準(zhǔn)差差異大,尤其是調(diào)查多個目標(biāo)量時。 比例分配: 各層的均值差異大二. 層的劃分 基本原則: 使層內(nèi)差異盡可能小-各層有自己鮮明特色, 使層間差異明顯地較大-各層之間有顯著不同。 在多指標(biāo)問題中可采用聚類分析的手段進(jìn)行分層,在此我們考慮單指標(biāo)如

35、何分層。2022/7/19121 (一)最優(yōu)分層 目的不同,分層方法不同,構(gòu)造層的原則如下:若為了便于組織、估計子總體的參數(shù),則按自然 層或單元的類型劃分。 若是提高抽樣效率,減少估計量的方差,則按目標(biāo) 量 分層,但在調(diào)查之間目標(biāo)量是未知的,因此 分層通常選擇一個與調(diào)查指較大線性相關(guān)的指標(biāo) 來進(jìn)行。這個標(biāo)志可以是目標(biāo)量的前期值,也可 以完全是另一個變量。2022/7/19122 如何利用一個分層標(biāo)志具體分層呢?實(shí)際上也就是說如何確定各層的分點(diǎn)。思路: 設(shè)總體分成h層,假定 與 分別為總體的最小與最大可能值。按數(shù)值分層即為在 與 之間插上(h-1)個分點(diǎn): 如果各層的抽樣分配方案已定,即設(shè)法求這

36、些分點(diǎn)以使得 達(dá)到最小。2022/7/19123 確定層界的快速近似法:累積平方根法: 由戴倫紐斯(Daleniues )與霍捷斯(Hodges)提出的根據(jù)等分分層變量分布的累積平方根的最優(yōu)分層方法,簡稱累積平方根法。累積平方根法2022/7/19124【例3.】某地區(qū)電信部門在對利用電話上網(wǎng)的居民家庭安裝ADSL意愿進(jìn)行調(diào)查時,以轄區(qū)內(nèi)最近三個月有電話上網(wǎng)支出的居民用戶為總體(上網(wǎng)電話費(fèi)為0.02元/分鐘),并準(zhǔn)備按上網(wǎng)電話支出(x)進(jìn)行分層,試確定各層的分點(diǎn)。2022/7/19125范圍x 頻數(shù)f累計0565328255.5934255.593451089240298.7306554.32

37、41101536128190.0737744.3977152077525278.43311022.831202562407249.81391272.645253024591156.81521429.46304024586221.74761651.20840509582138.43411789.642506015761177.54441967.18660708099127.27142094.45770805676106.54582201.003不等距678135620342022/7/191268090345383.102352284.10690100425692.26052376.366100

38、1501246111.62442487.9915020080089.442722577.43320025036560.415232637.84825030090302667.8483003503518.708292686.55735040057.0710682693.6284004501210.954452704.582450以上78.36662712.9492022/7/19127 最終累計頻數(shù)是2712.949,如果取層數(shù)為4,則應(yīng)每隔 分一層.因此應(yīng)該使得累 計 最接近678.237, 1356.474, 2034.712,即較合理的分層是:2022/7/19128(二)層數(shù)的確定 層數(shù)

39、的增加能提高估計的精度,但當(dāng)層數(shù)增加到一定的時候,在精度上的收益將很?。蝗魳颖玖縩已確定,由于每層至少必須抽取一個樣本單元,因此最多的層數(shù)為n,如果要給出估計量方差的無偏估計,則每層至少2個樣本單元,那么層數(shù)不能超過n/2。 分層時應(yīng)考慮:分層考慮精度的要求。 一般以目標(biāo)量 作為分層指標(biāo),但 未知,一般 通過與高度相關(guān)的輔助指標(biāo) 來進(jìn)行。根據(jù)研究,除非Y與X的相關(guān)系數(shù) ,層數(shù)一般不超過6為宜。 分層考慮費(fèi)用。2022/7/19129三. 事后分層(或抽樣后分層) 前面討論的分層抽樣是建立在抽樣之前總體已經(jīng)分好層,但有時這種事先分層會遇到較大困難,而我們又很想利用分層抽樣的優(yōu)勢之處,此時可以采用事后分層的方法。 適用情況: 沒有層的抽樣框,或總體特別大來不及事先分層,或幾個變量都適合于分層?;?存在極大(小)值。條件: 需知各層的大小 或?qū)訖?quán) 。 不適合:層權(quán)與實(shí)際情況相差很大 層權(quán) :用近似層權(quán)進(jìn)行校正或重新抽樣 2022/7/19130,則用估計量 來替代先抽取一個樣本量n的簡單隨機(jī)樣本,然后將樣本按某個特征進(jìn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論