分層隨機抽樣概述(共148頁).ppt_第1頁
分層隨機抽樣概述(共148頁).ppt_第2頁
分層隨機抽樣概述(共148頁).ppt_第3頁
分層隨機抽樣概述(共148頁).ppt_第4頁
分層隨機抽樣概述(共148頁).ppt_第5頁
已閱讀5頁,還剩143頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2022-2-101第三章分層隨機抽樣第三章分層隨機抽樣 3.1 概述概述 3.2簡單估計量及其性質簡單估計量及其性質 3.3樣本量在各層的分配樣本量在各層的分配 3.4 回歸估計量及其性質回歸估計量及其性質 3.5 各層樣本量的分配各層樣本量的分配 3.6總樣本量的確定總樣本量的確定2022-2-102 簡單隨機抽樣只適合小型的抽樣調查簡單隨機抽樣只適合小型的抽樣調查: 1. 抽樣框抽樣框 2. 代表性代表性 如如:了解中國各民族的情況了解中國各民族的情況:(鄂倫春族鄂倫春族)2022-2-103第一節(jié)概述第一節(jié)概述 一定義與作用一定義與作用 (一一)分層抽樣和分層隨機抽樣分層抽樣和分層隨機

2、抽樣 先將總體個單元劃分成個互不重復的子總體,每個子先將總體個單元劃分成個互不重復的子總體,每個子 總體稱為層,它們的大小分為別,這個層總體稱為層,它們的大小分為別,這個層 合起來就是整個總體()。合起來就是整個總體()。 然后,在每個層中分別然后,在每個層中分別獨立獨立進行抽樣,這種抽樣就是分層抽樣,進行抽樣,這種抽樣就是分層抽樣,所得到的樣本稱為分層樣本。如果每層都是簡單隨機抽樣,則所得到的樣本稱為分層樣本。如果每層都是簡單隨機抽樣,則稱為分層隨機抽樣,所得到的樣本稱為分層隨機樣本。稱為分層隨機抽樣,所得到的樣本稱為分層隨機樣本。LNNN,.,21LhhN1不重不漏2022-2-104 各

3、層中的抽樣是獨立進行的,因此,在各各層中的抽樣是獨立進行的,因此,在各層中所采取的抽樣手段完全可以不相同,層中所采取的抽樣手段完全可以不相同,在一個層進行簡單隨機抽樣,在另一層則在一個層進行簡單隨機抽樣,在另一層則可采用更復雜一些的抽樣,完全視各層的可采用更復雜一些的抽樣,完全視各層的情況不同而定,這種因地制宜的手段將使情況不同而定,這種因地制宜的手段將使樣本盡可能反映總體的特性以及子總體的樣本盡可能反映總體的特性以及子總體的特性。特性。 分層抽樣有時也稱為分層抽樣有時也稱為類型抽樣或分類抽樣類型抽樣或分類抽樣。2022-2-105 分層隨機抽樣三原則:分層隨機抽樣三原則:(1)每層都抽樣每層

4、都抽樣;(2)各層都)各層都獨立獨立地抽樣;地抽樣;(3)各層的抽樣都是)各層的抽樣都是簡單隨機抽樣簡單隨機抽樣。2022-2-106 (二)特點:(二)特點: .分層抽樣的抽樣效率較高,也就是說分層分層抽樣的抽樣效率較高,也就是說分層抽樣的估計精度較高。抽樣的估計精度較高。 注意:注意: 分層抽樣估計量的方差只和層內方差有關,分層抽樣估計量的方差只和層內方差有關,和層間方差無關。和層間方差無關。 .分層抽樣不僅能對總體指標進行推算,分層抽樣不僅能對總體指標進行推算, 而且能對各層指標進行推算。而且能對各層指標進行推算。 如如:消費物價指數(shù)消費物價指數(shù)(全國和各省全國和各省) .層內抽樣方法可

5、以不同,而且便于抽樣層內抽樣方法可以不同,而且便于抽樣 工作的組織。工作的組織。2022-2-107(三三)作用作用 可以對各層的參數(shù)進行估計可以對各層的參數(shù)進行估計, 有助于提有助于提高估計精度高估計精度。2022-2-108二使用場合二使用場合 應用條件:應用條件: 適合于適合于各層差異較大各層差異較大,有進行分層的輔助信息有進行分層的輔助信息。 層的劃分原則:層的劃分原則:層內單元具有相同性質,通常按調查對象的不同類型進層內單元具有相同性質,通常按調查對象的不同類型進 行劃分,這時,分層抽樣能夠對每一類的目標量進行估行劃分,這時,分層抽樣能夠對每一類的目標量進行估 計。計。盡可能使層內單

6、元的標志值相近,層間單元的差異盡可盡可能使層內單元的標志值相近,層間單元的差異盡可 能大,從而達到提高抽樣估計精度的目的。能大,從而達到提高抽樣估計精度的目的。既按類型又按層內單元標志值相近的原則進行多重分既按類型又按層內單元標志值相近的原則進行多重分 層,同時達到實現(xiàn)估計類值以及提高估計精度的目的。層,同時達到實現(xiàn)估計類值以及提高估計精度的目的。為了抽樣組織實施的方便,通常按行政管理機構設置進為了抽樣組織實施的方便,通常按行政管理機構設置進 行分層。行分層。2022-2-109如:對全國汽車貨運量調查,目的是不僅要如:對全國汽車貨運量調查,目的是不僅要了解全國貨運量,而且推算不同經(jīng)濟成分了解

7、全國貨運量,而且推算不同經(jīng)濟成分貨運量。貨運量。 首先為組織方便首先為組織方便,按省分層;各省再按按省分層;各省再按經(jīng)濟成分分層;為提高抽樣效率經(jīng)濟成分分層;為提高抽樣效率,再按噸位再按噸位分層。分層。2022-2-1010三符號說明三符號說明層號:層號:h(h=1,2,L) 第第h層的記號如下層的記號如下: 單元總數(shù):單元總數(shù):樣本單位數(shù):第樣本單位數(shù):第i個單元標志值為個單元標志值為: 從該層中抽取的樣本的單元值為從該層中抽取的樣本的單元值為: 層權:層權: 抽樣比:抽樣比:總體均值:總體均值: 樣本均值:樣本均值:hNhn),.,2, 1(hhiniyNNWhhhhhNnfhNihihh

8、YNY11hnihihhyny11),.,2 , 1(hhiNiY2022-2-1011 層內方差:層內方差: 樣本方差:樣本方差:212)(11hNihhihhYYNShnihhihhyyns122)(112022-2-1012第二節(jié)簡單估計量及其性質第二節(jié)簡單估計量及其性質 一總體均值的估計一總體均值的估計 (一一)簡單估計量的定義簡單估計量的定義 對于分層樣本,對總體均值對于分層樣本,對總體均值 的估計是通過對的估計是通過對各層的各層的 的估計的估計,按層權按層權 加權平均得到的。加權平均得到的。公式為公式為: YhYhWLhhhhLhhstYNNYWY1112022-2-1013 如果

9、得到的是如果得到的是分層隨機樣本分層隨機樣本,則總體均值則總體均值 的簡單的簡單估計為估計為: (二二)估計量的性質估計量的性質 性質性質1 對于對于一般的分層隨機抽樣一般的分層隨機抽樣,如果如果 是是 的無偏估計的無偏估計(h=1,2,L),則則 是是 的無偏估計。的無偏估計。即對各層估計是無偏的,則對總體的估計也是無即對各層估計是無偏的,則對總體的估計也是無偏的。偏的。 的方差為的方差為: YLhhhhLhhstyNNyWy111hYhYstYYstY LhhhstYVWYV12由于各層的抽樣由于各層的抽樣是相互獨立的是相互獨立的2022-2-1014證明:因各層抽樣是相互獨立,則證明:因

10、各層抽樣是相互獨立,則 也相互獨立,也相互獨立,則有則有 LhhhLhLjhhLhhstYVWWWWVYV121hjjhL1h2h1hY,Ycov2YVWYhY0Y,covjhY2022-2-1015性質性質2 對于對于分層隨機抽樣分層隨機抽樣 , 是是 的無偏估計的無偏估計, 的方差為的方差為: styYLhhhLhhhhhLhhhhLhhhhhLhhhstNSWnSWSNnWSnfWyVWyV1212221212212111)()(sty2022-2-1016 性質性質3 對于分層隨機抽樣對于分層隨機抽樣, 的一個無偏估的一個無偏估計為:計為:)(styVLhhhLhhhhhLhhhhLh

11、hhstNsWnsWsnfWyvWyv12122212121)()(2022-2-1017 注注: 當當 適當?shù)拇?,各層樣本適當?shù)拇螅鲗訕颖酒骄鶖?shù)平均數(shù) 均可適用正態(tài)近似,因此一般地均可適用正態(tài)近似,因此一般地 也適用于正態(tài)近似其置信區(qū)間。也適用于正態(tài)近似其置信區(qū)間。hhhhnNnN與,styhy2022-2-1018二總體總量的估計二總體總量的估計 (一)簡單估計量的定義(一)簡單估計量的定義 總體總量總體總量Y的估計為:的估計為: 分層隨機樣本分層隨機樣本: (二)估計量的性質(二)估計量的性質性質對于性質對于一般的分層抽樣一般的分層抽樣,如果是,如果是 偏估計,則偏估計,則是是Y的無偏

12、估計。的無偏估計。的方差為:的方差為:LhhstYYNY1YYYstYstyNY 2022-2-1019LhhststYVYVNYNVYV12)()()(LhhhLhhhYVNYVWN12122)()(2022-2-1020 性質對于性質對于分層隨機抽樣分層隨機抽樣,的方差為:的方差為: 性質對于分層隨機抽樣性質對于分層隨機抽樣, 的一個無偏估計為:的一個無偏估計為: Y)(YV212121)()(hLhhhhLhhhSnfNYVNYV212121)()(hLhhhhLhhhsnfNyvNYv2022-2-1021【例例3.1】調查某地區(qū)的居民奶制品年調查某地區(qū)的居民奶制品年 消費支出,以居民

13、戶為抽樣單元,根據(jù)經(jīng)消費支出,以居民戶為抽樣單元,根據(jù)經(jīng)濟及收入水平將居民戶劃分為層,每層濟及收入水平將居民戶劃分為層,每層按簡單隨機抽樣抽取戶,調查獲得如按簡單隨機抽樣抽取戶,調查獲得如下數(shù)據(jù)(單位:元),估計該地區(qū)居民奶下數(shù)據(jù)(單位:元),估計該地區(qū)居民奶制品年消費總支出及估計的標準差。制品年消費總支出及估計的標準差。69P2022-2-1022樣本戶奶制品年消費支出樣本戶奶制品年消費支出層層 居民戶居民戶總數(shù)總數(shù)樣本戶奶制品年消費支出樣本戶奶制品年消費支出2022-2-1023 解: N = 200+400+750+1500=2850 =10( h=1,2,3,4)各層的層權及抽樣比為:

14、 hn52632. 02850150026316. 0285075014035. 0285040007018. 0285020044332211NNWNNWNNWNNW0067.01500100133.075010025.04001005.020010444333222111NnfNnfNnfNnf2022-2-1024各層樣本均值及樣本方差為:各層樣本均值及樣本方差為:241651055 .39143211111yyyynynii333.193556.8205667.2166722.1624)y(1124232212111211sssynsnii2022-2-1025 該地區(qū)居民奶制品年消費

15、總支出該地區(qū)居民奶制品年消費總支出: : 估計量方差及標準差的樣本估計為估計量方差及標準差的樣本估計為: :2096502415001657501054005 .3920041hhhyNY82h41hhh2h41221039. 5snf1N)()(hhhyvWNYv2022-2-1026 在在95%的概率保證下的概率保證下該地區(qū)居民該地區(qū)居民奶制品年消費總支出區(qū)間為奶制品年消費總支出區(qū)間為: :)(23208)()(元YvYs元之間即在2551381641622320896. 1209650)(YtsY2022-2-1027 【例例3.2】某市進行家庭收入調查某市進行家庭收入調查, ,分城鎮(zhèn)居

16、民分城鎮(zhèn)居民和農(nóng)村居民兩部分抽樣和農(nóng)村居民兩部分抽樣, ,在全部城鎮(zhèn)在全部城鎮(zhèn)2356023560戶戶中抽取中抽取300300戶戶, ,在全部農(nóng)村在全部農(nóng)村148420148420戶中抽取戶中抽取250250戶戶( (均按簡單隨機抽樣進行均按簡單隨機抽樣進行),),調查結果是城鎮(zhèn)調查結果是城鎮(zhèn)年平均戶收入為年平均戶收入為1518015180元元, ,標準差為標準差為29722972元;元;農(nóng)村年平均收入為農(nóng)村年平均收入為98569856元元, ,標準差為標準差為25462546元。元。求全市年平均戶收入的估計及其求全市年平均戶收入的估計及其90%90%的置信區(qū)的置信區(qū)間。間。2022-2-10

17、28解:)(39.1058573.850566.20799856863. 015180137. 0863. 0171980/148420137. 0171980/23560171980,148420,235602211212121元yWyWyWWNNNNNst2022-2-102920245.5225.5277.2029725.52)72.1931005.987(171980/2546863. 02972137. 0)2502546863. 03002972137. 0(22222212122LhhhLhhhhstNsWnsWyv2022-2-1030 全市年戶均收入的置信區(qū)間全市年戶均收入的

18、置信區(qū)間: 10585.39 1.645 142.287,即即 10351.33 10819.45(元元)注注:由于城鎮(zhèn)居民與農(nóng)村居民收入水平,抽樣由于城鎮(zhèn)居民與農(nóng)村居民收入水平,抽樣比不同比不同(前者大于后者前者大于后者)。如果不分層,計算。如果不分層,計算樣本平均數(shù)作為全市戶均年收入是不合理樣本平均數(shù)作為全市戶均年收入是不合理的的:287.142ststyvys12760550/250985630015180y2022-2-1031三三. . 總體比例的估計總體比例的估計 (一一)簡單估計量的定義簡單估計量的定義 總體比例總體比例P的估計為的估計為:(二二)估計量的性質估計量的性質 如果定

19、義如果定義 1, 第第i個單元具有所考慮的特征個單元具有所考慮的特征 0, 其他其他 i=1,2N LhhhstpWp1iY2022-2-1032 性質性質7 對于對于一般的分層抽樣一般的分層抽樣,如果是,如果是 的無偏估計的無偏估計(h=1,2,L),則則 是是P的無偏估的無偏估計計. 的方差為的方差為: 性質性質8 對于對于分層隨機抽樣分層隨機抽樣,是是P的一個無偏估的一個無偏估計計, 的方差為的方差為: 因為因為: 及及 hphPstpstpLhhhstpVWpV12)(stphhhhhhhnQPNnNpV1)(hhNN1stp2022-2-1033 LhhhstpVWpV12)(hhh

20、LhhhhhhLhhhhhLhhhhhhhhnQPfWnQPNnNWnQPNnNW121212)1 ()(1)(2022-2-1034 性質性質對于分層隨機抽樣,對于分層隨機抽樣, 的一個無偏估計為:的一個無偏估計為:)(stpV1)1 (11)()()(121212hhhLhhhhhhLhhhhhLhhhstnqpfWnqpNnNWpvWpv2022-2-1035【例例3.3】 了解某地區(qū)居民戶擁有家庭電腦的情況如下,估計該了解某地區(qū)居民戶擁有家庭電腦的情況如下,估計該地區(qū)家庭擁有電腦的比例及估計的標準差。地區(qū)家庭擁有電腦的比例及估計的標準差。 樣本戶擁有家庭電腦情況樣本戶擁有家庭電腦情況層

21、層居民戶居民戶總數(shù)總數(shù)樣本戶擁有家庭電腦情況樣本戶擁有家庭電腦情況 2022-2-1036解:, 2 . 01021p2 . 02p, 4 . 0,3p1 . 01014p0099.01)1()(0263.01)1()(0173.01)1()(0169.01)1()(44444333332222211111nqpfpvnqpfpvnqpfpvnqpfpv2022-2-1037 該地區(qū)家庭擁有電腦的比例的估計、估計量的方差、該地區(qū)家庭擁有電腦的比例的估計、估計量的方差、估計的標準差為估計的標準差為:2 . 0) 1 . 015004 . 07502 . 04002 . 0200(28501141

22、41hhhhhhstpNNpWp005. 0)0099. 015000263. 07500173. 04000169. 0200(28501)(1)(222224122hhhstpvNNpv2022-2-1038(三三) 總體具有所考慮特征單元總數(shù)總體具有所考慮特征單元總數(shù)A的估計的估計 它的方差 及方差估計 分別是:07. 0)()(ststpvpshLhhststpNNpA1stAVstAvhhLhhhhhstLhhhhhhhhstqpnnNNAvnQPNnNNAV112112022-2-1039 【例例3.4】為調查某個高血壓高發(fā)病地區(qū)青少年與成年人高血為調查某個高血壓高發(fā)病地區(qū)青少年與

23、成年人高血壓的患病率壓的患病率, ,對對1414歲以上的人分四個年齡組進行歲以上的人分四個年齡組進行分層隨機抽樣分層隨機抽樣, ,調查結果如下調查結果如下, ,求總體高血壓的患病率求總體高血壓的患病率P P的估計及其標準差的的估計及其標準差的估計。估計。 高血壓患病率調查數(shù)據(jù)高血壓患病率調查數(shù)據(jù)年齡組年齡組(歲歲)層權層權層樣本量層樣本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.536hWhnhphq2022-2-1040解: P的估計量為: 為求為求 的方差估

24、計的方差估計,取取%08.232308. 0464. 0184. 0310. 0213. 0174. 0322. 0083. 0281. 01LhhhstpWpstp的近似公式為:則LhhhhhhsthhhnqpfWpvnnf12,111, 11%884. 000884. 000007818. 012ststLhhhhhstpvpsnqpWpv2022-2-10413.3 比率估計及其性質比率估計及其性質 (一一)分別比率估計分別比率估計 條件:條件: 各層的樣本量都比較大各層的樣本量都比較大的情況下的情況下 方法:各層分別進行比率估計,將各層加權匯總得方法:各層分別進行比率估計,將各層加權匯

25、總得到總體指標的估計。到總體指標的估計。(先比后加權先比后加權)總體均值總體均值 和總體總量和總體總量Y的分別比率估計量的分別比率估計量:LhRhhLhhhRsRshLhhhhLhRhhRsYXxyyNYXxyWyWy1111Y已知已知各層各層的的均值和總量均值和總量2022-2-1042 對分別比估計,若各層樣本量都比較大,則有對分別比估計,若各層樣本量都比較大,則有:xhyhhhxhhyhLhhhhLhRhhRsRSRSSSRSRSnfWyWVyVyMSEYyE21)(222121h為第為第h層層X與與Y的相關系數(shù)的相關系數(shù)注:公式中注:公式中S、R、 用樣本數(shù)據(jù)替代用樣本數(shù)據(jù)替代2022

26、-2-1043 證明:根據(jù)比估計量的性質,當證明:根據(jù)比估計量的性質,當 比較大時,則有:比較大時,則有: 所以所以hnxhyhhhxhhyhhhRhRhhRhSSRSRSnfyVyMSEYyE21222xhyhhhxhhyhLhhhhRSLhRhhLhRhhLhRhhRSLhhhRhLhhRSSSRSRSnfWyVyVWyMSEWyWMSEyMSEYYWyEWyE21)(2221212121112022-2-1044 總量:總量: xhyhhhxhhyhLhhhhRsRsSSRSRSnfNyNVYV21)(222122022-2-1045 (二二) 聯(lián)合比率估計聯(lián)合比率估計條件:條件:各層的

27、樣本量不是都很大各層的樣本量不是都很大的情況的情況方法:先分別對方法:先分別對 作分層估計,然后再采用比估計作分層估計,然后再采用比估計方法。(先加權后比)方法。(先加權后比)總體均值總體均值 和總體總量和總體總量Y的聯(lián)合比率估計量:的聯(lián)合比率估計量:XRXxyYXRXxyycststRccststRc的分層估計。和分別為和XYxyststXY、Y已知已知總體總體的的均值和總量均值和總量2022-2-1046的均方誤差為的均方誤差為:RcRcYy ,yxhxhyhhhhhRcRcyxhxhyhhhhhRcRcRSSRSnfNYVYMSERSSRSnfyVyMSE2121W22222222v對聯(lián)

28、合比估計,若總樣本量對聯(lián)合比估計,若總樣本量 n比較大,則有比較大,則有:YyERc證明:證明:p75注意與分別比估計方差公式的差異注意與分別比估計方差公式的差異(Rh)2022-2-1047(三三) 分別比率估計量與聯(lián)合比率估計量的比較分別比率估計量與聯(lián)合比率估計量的比較 如果如果各層的樣本量都較大各層的樣本量都較大,且有理由認為,且有理由認為各層的比率各層的比率 差異較大差異較大,則,則分別比率估計分別比率估計優(yōu)于聯(lián)合比率估計。優(yōu)于聯(lián)合比率估計。 當當各層的樣本量不大各層的樣本量不大,或,或各層比率各層比率 差異很小差異很小,則,則聯(lián)合比率估計聯(lián)合比率估計更好些。更好些。 hRhR【例例4

29、.4】某市某市1996年對年對950家港口生產(chǎn)單家港口生產(chǎn)單位完成的吞吐量進行了調查,位完成的吞吐量進行了調查,1997年欲對年欲對全市港口生產(chǎn)單位完成的吞吐量進行抽樣全市港口生產(chǎn)單位完成的吞吐量進行抽樣調查。對港口生產(chǎn)單位按非國有調查。對港口生產(chǎn)單位按非國有(h=1)和和國有國有(h=2)分為兩層,單位數(shù)分別為分為兩層,單位數(shù)分別為800家家和和150家,分別在兩層中調查了家,分別在兩層中調查了10家、家、15家港口生產(chǎn)單位,調查數(shù)據(jù)如下表,試估家港口生產(chǎn)單位,調查數(shù)據(jù)如下表,試估計計1997年全市港口生產(chǎn)單位完成的吞吐量。年全市港口生產(chǎn)單位完成的吞吐量。2022-2-1049 1997年非

30、國有和國有企業(yè)調查數(shù)據(jù)年非國有和國有企業(yè)調查數(shù)據(jù)ii195801495530222021022103203359384336049641201174230400517718056006516253258610008807302349770056083322868110012309272215972082310137971031039011478465ixiyixiy接上表接上表128176501391911601411601070157356982022-2-1051h=1,非國有H=2,國有合計1015258001509500.8421050.15789510.01250.117140010

31、2900274300214.25686226.7655.6217.6688.28477.34494665.2610704.7182541.899072.281071.510.9598591.049725hnhNhWhfhXhXhxhy2xhs2yhshRyxhs2022-2-1052 1.按分別比率估計量估計按分別比率估計量估計:5 .272536102900049725. 1171400959859. 021hhhRSXRY68.9193895253.2247762815.6946132421222212yxhhxhhhyhhhhRSSRsRsnfNYv48.9588RSRSYvYs2022

32、-2-10532.按聯(lián)合比率估計量估計按聯(lián)合比率估計量估計212773102 .6881506 .217800hhhstyNY2797006 .6551507 .22680021hhhstxNX1 .271956274300279700277310XXYYststRC2022-2-105484.8629369819.2003236265.6626143621222212yxhxhyhhhhhRCsRsRsnfNYv44.9289RCRCYvYsn兩種途徑:兩種途徑:n分別回歸估計:分別回歸估計:對每層樣本分別求取回歸估計量,對每層樣本分別求取回歸估計量,然后對各層的回歸估計量進行加權平均,即先

33、然后對各層的回歸估計量進行加權平均,即先“回歸回歸”后后“加權加權”;n聯(lián)合回歸估計:聯(lián)合回歸估計:對兩個變量先分別計算出總體總對兩個變量先分別計算出總體總值或總體均值的分層簡單估計量,然后再對它們值或總體均值的分層簡單估計量,然后再對它們的分層估計量來構造回歸估計,即先的分層估計量來構造回歸估計,即先“加權加權”后后“回歸回歸”。3.3回歸估計量及其性質回歸估計量及其性質2022-2-10563.3分層隨機抽樣下的回歸估計分層隨機抽樣下的回歸估計 ( (一一) ) 分別回歸估計分別回歸估計 適用適用: 各層樣本量不小的情況各層樣本量不小的情況 方法方法: 先對各層的平均數(shù)或總和作回歸估計,然

34、先對各層的平均數(shù)或總和作回歸估計,然后按層權平均或相加,得到總體指標的估計后按層權平均或相加,得到總體指標的估計。(先。(先回歸再加權)回歸再加權)定義定義 3.6 分別回歸估計是指在分層隨機抽樣中,分別回歸估計是指在分層隨機抽樣中,先在每層中對層均值或層總和做回歸估計,然后再先在每層中對層均值或層總和做回歸估計,然后再對各層的回歸估計按總體層權進行加權平均。對對各層的回歸估計按總體層權進行加權平均。對 的分別回歸估計為:的分別回歸估計為:2022-2-1057 總體均值的分別估計量:總體均值的分別估計量: 總體總量的分別估計量:總體總量的分別估計量: 1、當各層的回歸系數(shù)為給定的常數(shù)時,分別

35、估計、當各層的回歸系數(shù)為給定的常數(shù)時,分別估計量是無偏的,其方差為:量是無偏的,其方差為:hhhhLhhLhlrshlrsxXyWyWy11LhhhhhhlrslrsxXyNyNY1yxhhxhhyhhhhlrsSSSnfWYV2122222022-2-1058 并且當并且當 時時, 達到最小達到最小,即即 2、通常、通常 未知未知,可以用樣本回歸系數(shù)可以用樣本回歸系數(shù) 作為作為 的估計的估計: 這時分別估計量是有偏的,但當每一層的樣本量這時分別估計量是有偏的,但當每一層的樣本量LhSSBxhyxhhh,.2 , 1,2lrsyVLhhyhhhhlrsSnfWyV1222min11hhbhhh

36、nihhinihhihhihxxxxyyb121hn2022-2-1059 都較大時,估計的偏倚可以忽略,其方差近似都較大時,估計的偏倚可以忽略,其方差近似為為: 方差方差 的樣本估計為的樣本估計為: 式中式中,212211hLhyhhhhlrsSnfWyVlrsyV2121)(ehLhhhhlrssnfWyv21221hnihhihhhihehxxbyyns2221(1)()(1)LhhlrsyhhhhWfV ySn121()()()hhnhihhihihnhihiyyxxbxx2221(1)()1(1)(2)LhhlrshyhhhhhWfv ynsrn n2:hr第第h層樣層樣本相關系本相

37、關系數(shù)的平方數(shù)的平方2022-2-1061(二二) 聯(lián)合回歸估計聯(lián)合回歸估計 條件:各層樣本量不大條件:各層樣本量不大 聯(lián)合回歸估計是對聯(lián)合回歸估計是對 作分層估計;然作分層估計;然后構造總體均值和總量的聯(lián)合估計量。后構造總體均值和總量的聯(lián)合估計量。(先分層(先分層再回歸)再回歸) 總體均值、總量的聯(lián)合估計量:總體均值、總量的聯(lián)合估計量: ststlrcxXyyststlrclrcXXYyNYXY與其中:hhhstyWyhhhstxWx2022-2-1062 1、當回歸系數(shù)為事先給定的常數(shù)時,聯(lián)合估計量、當回歸系數(shù)為事先給定的常數(shù)時,聯(lián)合估計量 是無偏的,其方差為:是無偏的,其方差為:yxhx

38、hyhhhhhlrcSSSnNfNyV2122222 hyxhxhyhhhhlrcSSSnfNYV212222lrclrcYy及2022-2-1063 當當 取取 時時, 達到最小。達到最小。 2、當回歸系數(shù)未知時,取、當回歸系數(shù)未知時,取 為為 的樣本估計:的樣本估計: LhhxhhhLhhyxhhhcnSfWnSfWB1221211lrcyVcBhxhhhhhyxhhhhhniihhhhhnihhihhihhhhcsnfWsnfWxxnnfWxxyynnfWbhh222122111111122221(1)()(2)LhhlrcyhcxhcxyhhhWfV ySB SB Sn222 21(1

39、)()(2)Lhhlrcyhcxhc xyhhhWfv ysb sbsn2:hr第第h層層樣本相樣本相關系數(shù)關系數(shù)的平方的平方21221(1)/(1)/LhhxyhhhcLhhxhhhWfsnbWfsn2022-2-1065這時聯(lián)合估計是有偏的這時聯(lián)合估計是有偏的,但當樣本量但當樣本量n 較大時較大時,估估計量的偏倚趨于零計量的偏倚趨于零,回歸估計是漸近無偏的,且回歸估計是漸近無偏的,且yxhcxhcyhhhhhlrcSBSBSnfWyV212222lrcyVyxhcxhcyhhhhhlrcsbsbsnfWyv212222方差方差 的樣本估計為的樣本估計為:2022-2-1066(三三)分別回

40、歸估計與聯(lián)合回歸估計的比較分別回歸估計與聯(lián)合回歸估計的比較 當回歸系數(shù)當回歸系數(shù)事先設定事先設定時,分別回歸估優(yōu)于聯(lián)合時,分別回歸估優(yōu)于聯(lián)合回歸估計,尤其在回歸估計,尤其在各層回歸系數(shù)相差較大時,分別各層回歸系數(shù)相差較大時,分別回歸估計更好?;貧w估計更好。 當回歸系數(shù)由當回歸系數(shù)由樣本估計樣本估計時,如果各層的時,如果各層的樣本量樣本量不太小,且各層的不太小,且各層的回歸系數(shù)回歸系數(shù)相差較大,還是采用分相差較大,還是采用分別回歸估計為宜。若各層的樣本量不太大,且各層別回歸估計為宜。若各層的樣本量不太大,且各層的回歸系數(shù)大致相同,則采用聯(lián)合回歸估計較好。的回歸系數(shù)大致相同,則采用聯(lián)合回歸估計較好

41、。若層內的回歸系數(shù)差別不太大,而每層的樣本量并若層內的回歸系數(shù)差別不太大,而每層的樣本量并非都相當大時,聯(lián)合回歸估計可能更保險些。非都相當大時,聯(lián)合回歸估計可能更保險些。2022-2-1067 【例例4.6】P P4545 :(續(xù)前例續(xù)前例)利用回歸估計量估利用回歸估計量估計該市港口生產(chǎn)單位計該市港口生產(chǎn)單位1997年完成的吞吐年完成的吞吐量。量。解解: 樣本回歸系數(shù)樣本回歸系數(shù): (1)按分別回歸估計量估計按分別回歸估計量估計: =163421.10+107135.19=270556.30h=1,非國有 h=2,國有1.070170.856402hb2121hhhhhhlrhhhlrsxXb

42、yNyNY2022-2-106822.8987246981.190629464 .70809522211222212xhhyhhhhhhhlrssbsnnnfNYv11.9480lrslrsYvYs0290.12535.7355757.75611222hxhhhhhyxhhhhcsnfWsnfWb(2)按聯(lián)合回歸估計量估計按聯(lián)合回歸估計量估計:2022-2-10694 .271753279700274300029. 1277310stcstlrcXXbYY17.8535833267.215084155 .63849916212222yxhcxhcyhhhhhlrcsbsbsnfNYv96.92

43、38lrclrcYvYs2022-2-1070小結小結比估計量與回歸估計量的異同:比估計量與回歸估計量的異同: 1.從形式上看,比估計量是一個簡單估計量從形式上看,比估計量是一個簡單估計量 的的線性組合,而回歸估計量兩個簡單估計量線性組合,而回歸估計量兩個簡單估計量 的的線性組合;但實質上都是利用兩個簡單估計量和線性組合;但實質上都是利用兩個簡單估計量和輔助變量來估計總體指標。輔助變量來估計總體指標。 2.比估計量借助主要變量與輔助變量之間的比值比估計量借助主要變量與輔助變量之間的比值關系;回歸估計量借助兩者之間的線性相關關系。關系;回歸估計量借助兩者之間的線性相關關系。Ryx、2022-2-

44、1071 第四節(jié)第四節(jié) 樣本量在各層的分配樣本量在各層的分配 簡單隨機抽樣只需要根據(jù)調查精度的要求與簡單隨機抽樣只需要根據(jù)調查精度的要求與費用的限制來確定抽樣容量的大小,而分層抽樣費用的限制來確定抽樣容量的大小,而分層抽樣則提出另一個重要的問題,一旦確定則提出另一個重要的問題,一旦確定n,又如何,又如何在各層中分配抽樣容量在各層中分配抽樣容量 ,其中有些問題要考,其中有些問題要考慮,比如在各層中各有精度的要求以及費用的限慮,比如在各層中各有精度的要求以及費用的限制,由于各層具有各自的鮮明特征,其花費自然制,由于各層具有各自的鮮明特征,其花費自然不同,因而在樣本容量分配上必須帶有經(jīng)濟觀點。不同,

45、因而在樣本容量分配上必須帶有經(jīng)濟觀點。另一個重要考慮因素是由于另一個重要考慮因素是由于 的不同而帶來數(shù)據(jù)的不同而帶來數(shù)據(jù)處理的困難。處理的困難。 樣本量的分配必須盡可能地使估計量及其方樣本量的分配必須盡可能地使估計量及其方差具有較簡單的形式,從而使數(shù)據(jù)匯總工作量小,差具有較簡單的形式,從而使數(shù)據(jù)匯總工作量小,做到省時省力。做到省時省力。hnhn2022-2-1072樣本量分配對精度的影響樣本量分配對精度的影響2022-2-1073 某個總體分為三層,其層權某個總體分為三層,其層權 及層標準差及層標準差 見下表,見下表,設總樣本量為設總樣本量為300,考慮四種不同的樣本量分配,并,考慮四種不同的

46、樣本量分配,并計算出每一種分配下,總體均值估計量的方差:計算出每一種分配下,總體均值估計量的方差: 樣本量的不同分配對方差的影響樣本量的不同分配對方差的影響hWhSh常數(shù)分配與 成正比與 成正比與 成正比 10.22010049604020.330100110909030.5341001411501703.863.113.093.00hWhS yV2hShWhhSW2022-2-10742022-2-1075 (一一)比例分配(比例分配(proportional allocation ) 即在分層抽樣中,若每層的樣本量nh 都與層的大小Nh 成比例,即 也就是按各層的層權進行分配,即大的子總體

47、多抽一些,小的子總體少抽一些。 比例分配時, 也與層權 成比例。 簡單隨機抽樣中總體的每一個單元入樣的概率即為抽樣比f 。因而按比例分配而在各層中進行簡單隨機抽樣的分層方法,任何一層中的樣本被抽中的概率都為f。因此比例分配的分層隨機抽樣是一種等概率抽樣。hhhWNNnnfNnNnfhhhhnhWhw2022-2-1076總體均值 的估計是:YyynynynnnynnyWyniiLhnihinihihLhhhLhhLhhhprophh1111111111LhhpropanppP11的估計:總體比例顯然估計量有相當簡單的形式。2022-2-1077 自加權:自加權:如果總體總量(或均值)的無偏估計

48、量可以寫成樣本觀測值的總和(或平均數(shù))的常數(shù)倍(如:Y=ky或 ),那么這種樣本(或估計量)稱作自加權自加權的或等加權等加權的。 按比例分配的分層抽樣就是自加權的。簡單隨機抽樣(放回的和不放回的)也是自加權的。ynNyNyNyproppropykY 2022-2-1078的方差為:LhhhLhhhhhhLhhhpropSWnfSnfnnWyVWyV12121211)()(propyLhhhhLhhhhhpropQPWnfNQPNNnfpV112111)(的方差為:proppLhhhSW122022-2-1079二二. 最優(yōu)分配最優(yōu)分配 (一) 最優(yōu)分配 在分層隨機抽樣中, 在總費用給定的條件下

49、,估計量的方差達到最小;或在給定估計量方差的條件下,使總費用最小的各層樣本量的分配稱為最優(yōu)分配(optimum allocation)。 簡單線性費用函數(shù):LhhhTnccC102022-2-1080 建立目標函數(shù): 根據(jù)柯西-許瓦茲(Cauchy-Schwarz)不等式,對于任意的 ,有 , 0, 0hhba221221120hhhhhLhhhhLhhhLhhhnSWncnSWncNSWVCCVC222hhhhbabaLhhhLhhhhstNSWnSWyV12122)(通過極小化目標函數(shù),可同時達到給定方差下費用最小和給定費用下方差最小的效果。2022-2-1081 當且僅當 (K為常數(shù))時

50、,上式等號成立。所以對于目標函數(shù)則有: 上式成立的條件是:Kbahh22hhhhhhhhSWcnSWncVCKSWncnSWnchhhhhhhhh/2022-2-1082 所以則使目標函數(shù)達到最小時的最優(yōu)分配為:hhhhcSKWn/hhhhcSWKnn/hhhhhhhhhhhhhcSNcSNcSWcSWnn/2022-2-1083 上式表明, 越大(即層越大),則層內抽樣應越多;又若 越大(即層內變差越大),則層內抽樣也應越多;但如果 越大(即層內平均每單元費用越大),則在該層中的抽樣應少一些。即最優(yōu)分配的 與 或 成正比,與 成反比。LhhhhhhhLhhhhhhhhcSNcSNcSWcSW

51、nn11Lh.,2, 1hNhShchnhhSWhhSNhc2022-2-1084 由此得出下面的行為準則,如果某一層: 單元數(shù)較多 內部差異較大 費用比較省 則對這一層的樣本量分配較多些。2022-2-1085 (二) Neyman(內曼)分配 條件: 如果每層抽樣的費用相同,即 時,最優(yōu)分配可簡化為:將 代入 即得:cchLhhhhhLhhhhhhSNSNnSWSWnn11Lh,.2 , 1hnLhhhLhhhNSWnSWVh121222022-2-1086達到最小: 【例例3.5】( (續(xù)例續(xù)例3.1)p693.1)p69如果樣本量為如果樣本量為 n = 40,n = 40,則按比則按比

52、例分配和例分配和NeymanNeyman分配分配, ,各層的樣本量應為多少各層的樣本量應為多少? ? 解解: : 按比例分配時按比例分配時, ,各層的樣本量為各層的樣本量為: :即各層的樣本量分別為:3,6,11,20 (公式計算結果如果帶小數(shù),這時樣本容量不按四舍五入法則取整數(shù),取比這個數(shù)大的最小整數(shù)代替。如:n=56.03 則n=57))(styV05.214052632.053.104026316.061.54014035.081.24007018.044332211nWnnWnnWnnWnLhhhLhhhstSWNSWnyV1221min1)(1)(2022-2-1087按Neyman

53、分配:3181.7333.19352632.08380.23556.820526316.05330.6667.216614035.08286.2722.162407018.044332211sWsWsWsW4151775.403181. 78380.235330. 68286. 2hhhsW2022-2-1088各層的樣本量為各層的樣本量為: :即各層的樣本量分別為:3,7,23,7。45. 679. 251775.408286. 240241111nsWsWnnhhh53.233n23. 74n2022-2-1089 【例例3.6】在例3.2中若固定n=550不變,城鎮(zhèn)居民與農(nóng)村居民年收入的

54、標準差估計分別為 元, 元,對城鎮(zhèn)居民與農(nóng)村居民抽樣平均每戶的費用比1:2,試求城鎮(zhèn)與農(nóng)村兩層比例分配與最優(yōu)分配的樣本量。又若不考慮費用因素,那么最優(yōu)分配的結果又有何變化?30001S25002S如何計如何計算呢?算呢?2022-2-1090解: 城鎮(zhèn)與農(nóng)村居民年收入調查樣本量分配的計算h1235600.137 30001411.0411.02148420 0.863 250022157.5 1525.61719802568.5 1936.6hNhWhShchhSWhhhcSW/2022-2-1091 (1)比例分配 (2)最優(yōu)分配 (3)內曼分配 47565.474550863. 07535

55、.75550137. 021nn43327.4335506 .19366 .152511773.1165506 .19360 .41121nn46299.4615505 .25685 .21578801.885505 .25680 .41121nn2022-2-1092 不考慮費用的內曼分配在農(nóng)村的樣本量比考慮費用的最優(yōu)分配在農(nóng)村的樣本量更大。這是因為農(nóng)村調查費用較高,因此最優(yōu)原則是適當增加城鎮(zhèn)樣本量,減少農(nóng)村樣本量。2022-2-1093(三)某些層要求大于100%抽樣時的修正 按最優(yōu)分配時,當某些層的標準差 特別大,而層的大小 相對指定的總樣本量n又小很多,若加上對這些層抽樣的平均單位費用

56、 又很低,而抽樣比f比較大,則可能出現(xiàn)按最優(yōu)分配計算的這個層的樣本量 超過 的情況。 實際工作中,如果第k層出現(xiàn)這種情況,最優(yōu)分配是對這個層進行100%的抽樣,即取 ,然后,將剩下的樣本量 按最優(yōu)分配分到各層。hnhNhhNn knn hchShNLhhhhhhhhcSNcSNnn12022-2-1094以不考慮費用的內曼分配為例,實際操作步驟如下:2022-2-1095 在這種情況下,對于方差 的一般公式,可以直接將修正后的最優(yōu)分配所得的 帶入,而內曼分配最小方差公式則需必要的調整: 其中, 是僅對最后實際分配的樣本量 嚴格小于 的各層求和, 也只是這些層中抽取的單元總數(shù)。 修正的含義可理解

57、為:因為對于那些實施普查( )的層來說,已經(jīng)不存在所謂的抽樣誤差了,自然需要從原來的公式中將它們舍去。)(styV/hn)(1)(1)(2/2/hhhhhhstSWNSWnyV/hnhNhhNn/n2022-2-1096【例例3.7】某個模擬的總體分為4層, 和 的值見下表,設n=80,請問該如何進行內曼分配? 一個模擬總體的分配情況hNhShhSNh154002000210500500032001020004400208000合計合計61517000hNhS2022-2-1097解:解:計算各層的樣本量:(1)第一層樣本量的分配: 而 ,可見 ,則(2)將 個待分配的樣本量分到24層:941

58、. 91700020008041111hhhSNSNnn51N11Nn 5/1n75580/1nn2515000500075)(4222/12hhhSNSNnnn2022-2-1098而 ,可見 , 則 (3)將 個待分配的樣本量分到3、4層:因為 , ,所以102N22Nn 10/2n6510580/2/1nnn1310000200065)(4333/2/13hhhSNSNnnnn2003N33Nn 13/3n(4)將6510580/2/1nnn個待分配的樣本量分到第4層: 2022-2-1099因為 , ,所以 因此,各層所分配的樣本量是: 5,10,13,525210000800065)

59、(4344/2/14hhhSNSNnnnn4004N44Nn 52/4n 此時上題計算總體均值估計量的最小方差為:5917. 34759. 00676. 4)2061540010615200(6151)2061540010615200(651)(1)(1)(222/2/hhhhhhstSWNSWnyV對第三、四層計算2022-2-10100第五節(jié)第五節(jié) 總樣本量的確定總樣本量的確定 一一.影響樣本總量影響樣本總量n的因素的因素 1. 估計量精度的要求: (1)對總體參數(shù)估計的精度 (2)對各層參數(shù)估計的精度 2.費用的限制 (1)總費用的限制 (2)不同層中平均抽取一個單元的費用 3. 層的劃

60、分和層的樣本量的分配形式2022-2-10101 由于估計量的精度實際上取決于每層樣本量的大小,因此在總樣本量給定的情況下,對層樣本量的不同分配,其精度也不同。反之對同一精度要求,對不同的樣本量分配形式,計算得到的總樣本量也有差異,因此在確定總樣本時,要求先確定樣本量的分配形式。2022-2-10102 二二. 估計總體均值情形估計總體均值情形 1. 一般公式一般公式令 其中 已經(jīng)選定,在調查的目標是估計總體均值 時,當給定方差V的上限或d時,hhnwn hw212212212212212111hLhhhhLhhhhLhhhhLhhhhLhhhhSWWNSwWnSNWSnWSnfWVY2022

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論