版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第四章分層隨機抽樣第一節(jié)概述一、什么是分層抽樣和分層隨機抽樣分層抽樣有時也稱為類型抽樣或分類抽樣。各層中的抽樣是獨立進行的,因此,在各層中所采取的抽樣手段完全可以不相同,在一個層進行簡單隨機抽樣,在另一層則可采用更復(fù)雜一些的抽樣,完全視各層的情況不同而定,這種因地制宜的手段將使樣本盡可能反映總體的特性以及子總體的特性。二、分層抽樣的特點和使用場合(一)特點
(二).使用場合(PP42)在對層進行具體劃分時,通??紤]如下原則:1.層內(nèi)單元具有相同性質(zhì),通常按調(diào)查對象的不同類型進行劃分,這時,分層抽樣能夠?qū)γ恳活惖哪繕肆窟M行估計。2.盡可能使層內(nèi)單元的標志值相近,層間單元的差異盡可能大,從而達到提高抽樣估計精度的目的.3.既按類型又按層內(nèi)單元標志值相近的原則進行多重分層,同時達到實現(xiàn)估計類值以及提高估計精度的目的.4.為了抽樣組織實施的方便,通常按行政管理機構(gòu)設(shè)置進行分層第二節(jié)估計量
一.總體均值的估計(一)簡單估計量的定義對于分層樣本,對總體均值的估計是通過對各層的的估計,按層權(quán)加權(quán)平均得到的。公式為:如果得到的是分層隨機樣本,則總體均值的簡單估計為:
(二)簡單估計量的性質(zhì)
性質(zhì)1對于一般的分層抽樣,如果是的無偏估計(h=1,2,…L),則是的無偏估計.即對各層估計是無偏的,則對總體的估計也是無偏的.的方差為:
由于各層的抽樣是相互獨立的性質(zhì)2對于分層隨機抽樣,是的無偏估計,差為:性質(zhì)3對于分層隨機抽樣,的一個無偏估計為:二、總體總量的估計
(一)簡單估計量的定義
總體總量Y的估計為:
對于分層隨機樣本:
(二)估計量的性質(zhì)性質(zhì)4對于一般的分層抽樣,如果是的無偏估計,則是Y的無偏估計.的方差為:性質(zhì)5對于分層隨機抽樣,的方差為:性質(zhì)6對于分層隨機抽樣,的一個無偏估計為:【例3.1】調(diào)查某地區(qū)的居民奶制品年消費支出,以居民戶為抽樣單元,根據(jù)經(jīng)濟及收入水平將居民戶劃分為4層,每層按簡單隨機抽樣抽取10戶,調(diào)查獲得如下數(shù)據(jù)(單位:元),估計該地區(qū)居民奶制品年消費總支出及估計的標準差.課本P44頁例樣本戶奶制品年消費支出層居民戶總數(shù)樣本戶奶制品年消費支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025解:N=200+400+750+1500=2580=10(h=1,2,3,4)各層的層權(quán)及抽樣比為:
各層樣本均值及樣本方差為:該地區(qū)居民奶制品年消費總支出:估計量方差及標準差的樣本估計為:
在95%的概率保證下該地區(qū)居民奶制品年消費總支出區(qū)間為:【例3.2】某市進行家庭收入調(diào)查,分城鎮(zhèn)居民和農(nóng)村居民兩部分抽樣,在全部城鎮(zhèn)23560戶中抽取300戶,在全部農(nóng)村148420戶中抽取250戶(均按簡單隨機抽樣進行),調(diào)查結(jié)果是城鎮(zhèn)年平均戶收入為15180元,標準差為2972元;農(nóng)村年平均收入為9856元,標準差為2546元.求全市年平均戶收入的估計及其90%的置信區(qū)間.解:全市年戶均收入的置信區(qū)間:10585.391.645142.287,即10351.33—10819.45(元)注:由于城鎮(zhèn)居民與農(nóng)村居民收入水平和抽樣比不同(前者大于后者),如果不分層,計算樣本平均數(shù)作為全市戶均年收入是不合理的:三.總體比例的估計
(一)簡單估計量的定義總體比例P的估計為:(二)估計量的性質(zhì)如果定義,第i個單元具有所考慮的特征,其他i=1,2…N
性質(zhì)7對于一般的分層抽樣,如果是的無偏估計(h=1,2,…L),則是P的無偏估計.的方差為:
性質(zhì)8對于分層隨機抽樣,是P的一個無偏估計,的方差為:
性質(zhì)9對于分層隨機抽樣,的一個無偏估計為:
【例3.3】P46了解某地區(qū)居民戶擁有家庭電腦的情況如下,估計該地區(qū)家庭擁有電腦的比例及估計的標準差.樣本戶擁有家庭電腦情況層
居民戶總數(shù)樣本戶擁有家庭電腦情況12345678910120000010001002400010000001037501100001010415001000000000解:
該地區(qū)家庭擁有電腦的比例的估計、估計量的方差、估計的標準差為:(三)總體具有所考慮特征單元總數(shù)A的估計它的方差及方差估計分別是:【例3.4】為調(diào)查某個高血壓高發(fā)病地區(qū)青少年與成年人高血壓的患病率,對14歲以上的人分四個年齡組進行分層隨機抽樣,調(diào)查結(jié)果如下,求總體高血壓的患病率P的估計及其標準差的估計.
高血壓患病率調(diào)查數(shù)據(jù)年齡組(歲)層權(quán)層樣本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.536解:
P的估計量為:為求的方差估計,取第三節(jié)樣本量在各層的分配簡單隨機抽樣只需要根據(jù)調(diào)查精度的要求與費用的限制來確定抽樣容量的大小,而分層抽樣則提出另一個重要的問題,一旦確定n,又如何在各層中分配抽樣容量nh一、樣本量分配對精度的影響某個總體分為三層,其層權(quán)及層標準差見下表,設(shè)總樣本量為300,考慮四種不同的樣本量分配,并計算出每一種分配下,總體均值估計量的方差:樣本量的不同分配對方差的影響h常數(shù)分配與成正比與成正比與成正比10.22010049604020.330100110909030.5341001411501703.863.113.093.00二、比例分配(proportionalallocation)即按各層單元數(shù)占整體單元數(shù)的比例進行分配,也就是按各層的層權(quán)進行分配,即大的子總體多抽一些,小的子總體少抽一些:比例分配時,也與層權(quán)成比例.
或由上式可以看出,當比例分配時,無論是哪一層,總體單元被抽中的概率皆為f,因此比例分配的分層隨機抽樣是一種等概率抽樣。說明此時分層估計即是樣本均值,顯然估計量有相當簡單的形式,而在通常情況下,比例分配時,總體均值的估計是:比例分配時,總體總量Y的估計也很簡單:不管哪種抽樣方法,如果總體總量(或均值)的一個估計量可以寫成樣本觀測值的總和(或平均數(shù))的常數(shù)倍,那么這種估計(或相應(yīng)的樣本)稱作自加權(quán)的或等加權(quán)的.按比例分配的分層抽樣就是自加權(quán)的.簡單隨機抽樣(放回的和不放回的)也是自加權(quán)的.的方差為:注意:是各層方差按層權(quán)的加權(quán)平均!二.最優(yōu)分配在分層隨機抽樣中,在總費用給定的條件下,使估計量的方差達到最??;或在給定估計量方差的條件下,使總費用最小的各層樣本量的分配稱為最優(yōu)分配(optimumallocation).
考慮簡單線性費用函數(shù)的情形,總費用為:這時的最優(yōu)分配為(參見PP61~62的證明):上式表明,越大(即層越大),則層內(nèi)抽樣應(yīng)越多;又若越大(即層內(nèi)變差越大),則層內(nèi)抽樣也應(yīng)越多;但如果越大(即層內(nèi)平均每單元費用越大),則在該層中的抽樣應(yīng)少一些.即最優(yōu)分配的與或成正比,與成反比.(二)Neyman(內(nèi)曼)分配條件:如果每層的單位抽樣費用相同,即時,最優(yōu)分配可簡化為:將代入即得:使得達到最小:【例3.5】(續(xù)例3.1)如果樣本量為n=40,則按比例分配和Neyman分配,各層的樣本量應(yīng)為多少?
解:按比例分配時,各層的樣本量為:
即按比例分配時,各層的樣本量分別為:3,6,11,20按Neyman分配時:各層的樣本量為:即各層的樣本量分別為:3,7,23,7【例3.6】在例3.2中若固定n=550不變,城鎮(zhèn)居民與農(nóng)村居民年收入的標準差估計分別為元,元,對城鎮(zhèn)居民與農(nóng)村居民抽樣平均每戶的費用比1:2,試求城鎮(zhèn)與農(nóng)村兩層比例分配與最優(yōu)分配的樣本量.又若不考慮費用因素,那么最優(yōu)分配的結(jié)果又有何變化?如何計算呢?解:
城鎮(zhèn)與農(nóng)村居民年收入調(diào)查樣本量分配的計算h12356000411.021484200.863250022157.51525.6∑171980———2568.51936.6(1)比例分配(2)最優(yōu)分配(3)內(nèi)曼分配
不考慮費用的內(nèi)曼分配在農(nóng)村的樣本量比考慮費用的最優(yōu)分配在農(nóng)村的樣本量更大.這是因為農(nóng)村調(diào)查費用較高,因此最優(yōu)原則是適當增加城鎮(zhèn)樣本量,減少農(nóng)村樣本量.(三)某些層要求大于100%抽樣時的修正以不考慮費用的內(nèi)曼分配為例,實際操作步驟如下:第四節(jié)樣本量的確定一.影響樣本總量n的因素
1.估計量精度的要求:(1)對總體參數(shù)估計的精度(2)對各層參數(shù)估計的精度2.費用的限制(1)總費用的限制(2)不同層中平均抽取一個單元的費用由于估計量的精度實際上取決于每層樣本量的大小,因此在總樣本量給定的情況下,對層樣本量的不同分配,其精度也不同.反之,對同一精度要求,對不同的樣本量分配形式,計算得到的總樣本量也有差異,因此,在確定總樣本時,要求先確定樣本量的分配形式.3.層的劃分和層的樣本量的分配形式二.估計總體均值情形則有:從而可以解出n:1、當按比例分配時,有則上式為:在實際工作中,上式計算可分為兩步,a.先計算:b.當不能忽略不計時,再計算:2、當按Neyman分配時,有則:令:有:3、如果精度是以誤差限的形式給出的,則其中,d為絕對誤差限,r為相對誤差限,t為標準正態(tài)分布的雙側(cè)分位數(shù),為總體均值.這時上式可以表示為:【例3.7】(續(xù)例3.1)如果在95%置信度下,相對誤差不超過10%,則按比例分配和Neyman分配時,總樣本量分別為多少?解:按比例分配時:2679.22對進行修正得n:95%置信度時,對應(yīng)的又:得:按Neyman分配時:簡單線性函數(shù):C=將代入n的一般公式,(1)當方差V給定時,可得:三、最優(yōu)分配需要考慮費用時則:(2)而當總費用C給定時,有:四.估計總體比例P的情形當方差V給定時,如果都比較大,使得
將代入一般公式,得總樣本量:(一)按比例分配令得:(二)Neyman分配(三)最優(yōu)分配
計算樣本量之前,需要對作預(yù)估計.【例3.8】(續(xù)PP49例3.3)
如果在95%置信度下,絕對誤差不超過5%,則按比例分配和Neyman分配時,總樣本量分別為多少?
解:t=1.96d=5%按比例分配時:Neyman分配時:第五節(jié)分層時的若干問題一.抽樣效果分析與簡單隨機抽樣相比.分層隨機抽樣的精度與樣本量的分配及各層的方差有關(guān).在固定樣本的情況下,如果相對1可以忽略,則分別為分層隨機抽樣最優(yōu)分配、分層隨機抽樣按比例分配、簡單隨機抽樣簡單估計的方差.簡單隨機抽樣和按比例分配隨機抽樣比較:最優(yōu)分配與按比例分配比較:如果各層的均值差異越大,則用比例分配法較好,而當各層的標準差較大時,用最優(yōu)分配法較好。通常用比例分配法較多,因為:(1)最優(yōu)分配并不是對每個指標都是最優(yōu)的。(2)由于最優(yōu)分配時需對層標準差進行估計,估計又不可能十分精確,加上計算時樣本量必須取整數(shù),因此理論上的最優(yōu)分配的最小方差并不一定能達到。(3)按比例分配簡單易行,估計量自加權(quán),有時即使相對最優(yōu)分配增加20%的方差,也被采用。對于最優(yōu)分配,需要各層標準差Sh的值,可以用調(diào)查指標的歷史數(shù)據(jù)或通過輔助指標的信息推算有沒有可能簡單隨機抽樣優(yōu)于分層隨機抽樣?層間方差小于層內(nèi)方差時<0二.層的劃分
基本原則:
使層內(nèi)差異盡可能小—各層有自己鮮明特色,使層間差異明顯地較大---各層之間有顯著不同.
(一)分幾層
1.分層數(shù)目與估計量方差大體成如下關(guān)系
假設(shè)按y分層,y均勻分布Sy2=d2/12均分為L層,各層層內(nèi)方差為Syh2=d2/12L2V(yst)=VSRS/L2L2345678Deff0.250.110.060.040.0280.020.016L=6層數(shù)方差2.在實踐中,由于目標量Y未知,因此,分層變量往往并非Y,而是選擇與Y高度相關(guān)的輔助指標XLr=0.99r=0.95r=0.90r=0.8520.260.320.390.4630.130.200.280.3640.080.150.240.3250.060.130.220.3160.050.120.210.30∞0.020.100.190.28除非xy相關(guān)系數(shù)r大于0.95,超過6層后方差減少比較少Deff3.如何確定各層的分點.(1)根據(jù)自然標志確定(2)按數(shù)量標志分層思路:設(shè)總體分成h層,假定與分別為總體的最小與最大可能值.按數(shù)值分層即為在與之間插上(k-1)個分點:如果各層的抽樣分配方案已定,即設(shè)法求這些分點以使得達到最小.確定層界的快速近似法:累積平方根法:由戴倫紐斯(Daleniues)與霍捷斯(Hodges)提出的根據(jù)等分分層變量分布的累積平方根的最優(yōu)分層方法,簡稱累積平方根法.累積平方根法【例3.9】p56
某地區(qū)電信部門在對利用電話上網(wǎng)的居民家庭安裝ADSL意愿進行調(diào)查時,以轄區(qū)內(nèi)最近三個月有電話上網(wǎng)支出的居民用戶為總體(上網(wǎng)電話費為0.02元/分鐘),并準備按上網(wǎng)電話支出(x)進行分層,試確定各層的分點.范圍x頻數(shù)f累計0~565328255.5934255.59345~1089240298.7306554.324110~1536128190.0737744.397715~2077525278.43311022.83120~2562407249.81391272.64525~3024591156.81521429.4630~4024586221.74761651.20840~509582138.43411789.64250~6015761177.54441967.18660~708099127.27142094.45770~805676106.54582201.00380~90345383.102352284.10690~100425692.26052376.366100~1501246111.62442487.99150~20080089.442722577.433200~25036560.415232637.848250~30090302667.848300~3503518.708292686.557350~40057.0710682693.628400~4501210.954452704.582450以上78.36662712.949最終累計頻數(shù)是2712.949,如果取層數(shù)為4,則應(yīng)每隔2712.04/4=678.237分一層.因此應(yīng)該使得累計最接近678.237
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人心理咨詢與輔導(dǎo)服務(wù)合同3篇
- 2025年度林業(yè)權(quán)屬林權(quán)登記與林業(yè)碳匯項目實施合同4篇
- 2025年福建貨運從業(yè)資格證新政
- 七夕節(jié)趣味活動策劃方案
- 二零二五年度高速鐵路鋁合金門窗安全檢測與安裝合同4篇
- 二零二五年度0號柴油環(huán)保油品居間服務(wù)合同3篇
- 2025年度個人房產(chǎn)交易過戶手續(xù)辦理協(xié)議3篇
- 二零二五年度土地租賃及經(jīng)營權(quán)轉(zhuǎn)讓合同樣本-@-1
- 二零二五年度離婚房產(chǎn)分割與子女醫(yī)療費用承擔合同3篇
- 二零二五年度企業(yè)員工培訓(xùn)課程版權(quán)購買協(xié)議4篇
- 2024年社區(qū)警務(wù)規(guī)范考試題庫
- 2024年食用牛脂項目可行性研究報告
- 2024-2030年中國戶外音箱行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 家務(wù)分工與責任保證書
- 消防安全隱患等級
- (新版)國民經(jīng)濟行業(yè)分類代碼表(八大行業(yè))
- 北京地鐵13號線
- 2023山東春季高考數(shù)學(xué)真題(含答案)
- 為加入燒火佬協(xié)會致辭(7篇)
- 職業(yè)衛(wèi)生法律法規(guī)和標準培訓(xùn)課件
- 高二下學(xué)期英語閱讀提升練習(xí)(二)
評論
0/150
提交評論