第五章參數(shù)估計基礎_第1頁
第五章參數(shù)估計基礎_第2頁
第五章參數(shù)估計基礎_第3頁
第五章參數(shù)估計基礎_第4頁
第五章參數(shù)估計基礎_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第五章參數(shù)估計基礎第一頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差

抽樣研究的目的是用樣本信息推斷總體特征,即用樣本資料計算的統(tǒng)計指標推斷總體參數(shù)常用的統(tǒng)計推斷方法有參數(shù)估計(總體均數(shù)和總體概率的估計)和假設檢驗第二頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差

樣本均數(shù)的抽樣分布與抽樣誤差

假定某年某地所有13歲女學生身高服從總體均數(shù)=155.4cm,總體標準差=5.3cm的正態(tài)分布N(,2)。在這樣一個有限的總體中作隨機抽樣,共抽100次。每次均抽取30例(ni=30)組成一份樣本,可以算出每一份樣本的平均身高.最終計算得到153.6,153.1,154.9,····157.7等100個樣本均數(shù),列于表5-1第2欄?,F(xiàn)將這100個樣本均數(shù)看成新的隨機變量繪制頻數(shù)分布表,如表5-2所示第三頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差樣本均數(shù)的抽樣分布具有以下特點:1.各樣本均數(shù)未必等于總體均數(shù);2.樣本均數(shù)之間存在差異;3.樣本均數(shù)的分布很有規(guī)律,圍繞著總體均數(shù)(155.4cm),中間多、兩邊少,左右基本對稱,也服從正態(tài)分布。4.樣本均數(shù)的變異較之原變量的變異大大縮小第四頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差

抽樣誤差:抽樣造成的這種樣本均數(shù)與樣本均數(shù)之間、樣本均數(shù)與總體均數(shù)之間的差異。標準誤:用于表示均數(shù)抽樣誤差大小的指標,也叫樣本均數(shù)的標準差,它反映了樣本均數(shù)之間的離散程度。第五頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差

第六頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差

表5-2從正態(tài)總體N(155.4,5.32)抽樣得到中的100個樣本均數(shù)的頻數(shù)分布(ni=30)組段下限值(cm)頻數(shù)頻率%152.6~153.2~153.8~154.4~155.0~155.6~156.2~156.8~157.4~158.0~144222521173211.04.04.022.025.021.017.03.02.01.0合計100100.0第七頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差標準誤的計算公式(5-1),(5-2):樣本均數(shù)標準誤的大小與標準差成正比,則與樣本含量n的平方根成反比,即在同一總體中隨機抽樣,樣本含量n越大,抽樣誤差越小。所以在實際應用中可通過增加樣本含量n來減小樣本均數(shù)的標準誤,從而降低抽樣誤差。第八頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差非正態(tài)總體樣本均數(shù)的抽樣實驗(實驗5-2)。圖5-1(a)是一個正偏峰的分布,用電腦從中隨機抽取樣本含量分別為5,10,30和50的樣本各1000次,計算樣本均數(shù)并繪制4個直方圖第九頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差圖5-1(b)~(e)顯示,樣本均數(shù)的總體均數(shù)也為仍等于原來的總體均數(shù),樣本均數(shù)的標準誤為仍滿足(5-1)式;當樣本量n較小時,樣本均數(shù)的分布當然并非正態(tài)分布,樣本量足夠大時(例如,n

50),樣本均數(shù)的分布近似于正態(tài)分布。第十頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差第十一頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差第十二頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差第十三頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差第十四頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差第十五頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差例5-12000年某研究者隨機調查某地健康成年男子27人,得到血紅蛋白量的均數(shù)為125g/L,標準差為15g/L。試估計該樣本均數(shù)的抽樣誤差。

===2.89g/L

第十六頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差樣本頻率的抽樣分布與抽樣誤差

實驗4.2:在一口袋內裝有形狀、重量完全相同的黑球和白球,已知黑球比例為20%(總體概率π=20%),從口袋中每摸一次看清顏色后放回去,攪勻后再摸,重復摸球35次(n=35),計算摸到黑球的百分比(樣本頻率p

i)。重復這樣的實驗100次,每次得到100個黑球的比例分別為14.4%,19.8%,20.2%,22.5%,······等,將其頻數(shù)分布列于表5-3。第十七頁,共五十頁,編輯于2023年,星期四

表5-3總體概率為20%時的隨機抽樣結果(ni=35)黑球比例%樣本頻數(shù)%5.0~33.08.0~77.011.0~55.014.0~88.017.0~1616.020.0~2222.022.0~1515.025.0~77.028.0~77.031.0~55.034.0~33.040.0~22.0合計100100.0第十八頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差頻率的抽樣誤差:這種樣本率樣本頻率與樣本率樣本頻率之間、樣本率樣本頻率與總體率總體概率之間的差異。頻率的標準誤:表示頻率的抽樣誤差的指標第十九頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差樣本頻率的總體均數(shù)參數(shù)為π,

率的標準誤計算公式(5-3):公式(5-4)第二十頁,共五十頁,編輯于2023年,星期四抽樣分布與抽樣誤差例5-2某市隨機調查了50歲以上的中老年婦女776人,其中患有骨質疏松癥者322人,患病率為41.5%,試估計該樣本頻率的抽樣誤差。p=41.5%=0.415,n=776=第二十一頁,共五十頁,編輯于2023年,星期四

t分布t分布的概念從正態(tài)分布N(,2)抽得樣本的均數(shù)也服從正態(tài)分布,記為N(,)。對正態(tài)變量作變換實際工作中,當未知時,常用來代替對正態(tài)變量采用的不是z變換,而是t變換第二十二頁,共五十頁,編輯于2023年,星期四t分布英國統(tǒng)計學家W.S.Gosset于1908年以“Student”筆名發(fā)表論文,證明它服從自由度=n

1的t分布,即

~t分布,

=n

1(5-7)

又稱Studentt分布(Student’st-distribution)。實際上,t分布十分有用,它是總體均數(shù)的區(qū)間估計和假設檢驗的理論基礎。第二十三頁,共五十頁,編輯于2023年,星期四t分布t分布的圖形和t分布表從前述實驗4.1的13歲女學生身高這個正態(tài)總體中分別作樣本量為3和50的隨機抽樣,各抽取1000份樣本,并分別得到1000個樣本均數(shù)及其標準誤。對它們分別作(5-6)式的t轉變換,并將t值繪制相應的直方圖(見實驗5-4)。如圖5-12(a)、(b)所示??梢钥闯?,這兩個t值分布圖并不完全一樣,樣本量為3的圖(a)較之樣本量為50的圖(b)顯得矮胖,兩側尾部稍高。第二十四頁,共五十頁,編輯于2023年,星期四t分布第二十五頁,共五十頁,編輯于2023年,星期四t分布第二十六頁,共五十頁,編輯于2023年,星期四t分布t值的分布與自由度

有關(實際是樣本含量n不同)。t分布的圖形不是一條曲線,而是一簇曲線。υ=∞(標準正態(tài)分布)υ=5υ=1012345-1-2-3-4-5f(t)0.10.20.3圖5-3不同自由度下的t分布圖第二十七頁,共五十頁,編輯于2023年,星期四t分布t分布的圖形有如下特征:①單峰分布,以0為中心,左右對稱,類似于標準正態(tài)分布。②自由度

越小,則越大,t值越分散,曲線的峰部越矮,尾部越高;③隨著自由度

逐漸增大,t分布逐漸逼近標準正態(tài)分布;當趨于時,t分布就完全成為標準正態(tài)分布,故標準正態(tài)分布是t分布的特例。第二十八頁,共五十頁,編輯于2023年,星期四t分布統(tǒng)計學家將t分布曲線下的尾部面積(即概率P)與橫軸t值間的關系編制了不同自由度下的t界值表(附表2)。

t界值表:橫標目為自由度,縱標目為概率P。

t臨界值:表中數(shù)字表示當和P確定時,對應的值。

單側概率(one-tailedprobability):用t,υ表示雙側概率(two-tailedprobability):用t/2,υ表示第二十九頁,共五十頁,編輯于2023年,星期四t分布例如,當=16,單側概率P=0.05時,由表中查得單側t0.05,16=1.746;而當=16,雙側概率P=0.05時,由表中查得雙側t0.05/2,16=2.120。按t分布的規(guī)律,理論上有 單側:P(t

t0.05,16)=0.05和P(t

t0.05,16)=0.05雙側:P(t

t0.05/2,16)+P(t

t0.05/2,16)=0.05第三十頁,共五十頁,編輯于2023年,星期四t分布更一般的表示方法如圖5-4(a)和(b)中陰影部分所示為:單側:P(t

t,

)=和P(t

t,

)=雙側:P(t

t/2,

)+P(t

t/2,

)=第三十一頁,共五十頁,編輯于2023年,星期四t分布從t界值表中或表的右上角圖列亦可看出:①在相同自由度時,│t│值越大,概率P越?。虎诙谙嗤瑃值時,雙側概率P為單側概率P的兩倍,即t0.10/2,16=t0.05,16=1.746。第三十二頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計參數(shù)估計的概念參數(shù)估計:指用樣本指標(統(tǒng)計量)估計總體指標(參數(shù))。參數(shù)估計有點估計(pointestimation)區(qū)間估計(intervalestimation)第三十三頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計點估計:用樣本統(tǒng)計量直接作為總體參數(shù)的點估計值,即直接用隨機樣本的樣本均數(shù)作為總體均數(shù)的點估計值,用樣本頻率p作為總體概率

的點估計值。用27例健康成年男性血紅蛋白量的樣本均數(shù)作為總體均數(shù)的點估計值,用776名50歲以上的中老年婦女骨質疏松癥的樣本患病率作為總體患病率的點估計值缺點:沒有考慮抽樣誤差,無法評價其可信度估計值它與真值之間的差距。第三十四頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計區(qū)間估計:結合樣本統(tǒng)計量和標準誤可以確定一個具有較大的可信度置信度(如95%或99%)的包含總體參數(shù)的區(qū)間,該區(qū)間稱為總體參數(shù)的1

可信區(qū)間或置信區(qū)間(confidenceinterval,CI)。置信度:

值一般取0.05或0.01,故1

為0.95或0.99。通常用樣本均數(shù)和均數(shù)的標準誤估計總體均數(shù)的95%(或99%)置信區(qū)間,或用樣本頻率和率的及其標準誤估計總體概率的95%(或99%)置信區(qū)間。如果沒有特別說明,一般作雙側的區(qū)間估計第三十五頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計置信區(qū)間的計算總體均數(shù)的置信區(qū)間根據(jù)總體標準差是否已知及樣本含量n的大小,總體均數(shù)置信區(qū)間的計算有t分布和Z分布(標準正態(tài)分布)兩種方法。1.t分布方法當總體標準差未知時,正態(tài)總體N(,2)的樣本均數(shù)的t變換結果第三十六頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計服從t分布,若“砍去”t分布雙側尾部面積

=0.05=5%,故有95%的t值滿足不等式:

t0.05/2,<<t0.05/2,

t0.05/2,

<<+t0.05/2,

:(t0.05/2,,+t0.05/2,)第三十七頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計總體均數(shù)

的(1-)可信區(qū)間置信區(qū)間的一般計算式為t/2,

均數(shù)的單側置信區(qū)間為

>t/2,

或<+t/2,

第三十八頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計例5-3:已知某地27名健康成年男子的血紅蛋白量均數(shù)=125g/L,標準差S=15g/L。試問該市地健康正常成年男子血紅蛋白血清膽固醇平均含量的95%置信區(qū)間和99%置信區(qū)間各是多少?解:本例n=27,

=27–1=26,查t界值表(附表2),

=0.05時,雙側t0.05/2,26=2.056,

=0.01時,t0.01/2,26=2.779;按公式(5-9)第三十九頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計95%CL:1252.056=(119.06,130.94)g/L99%CL:1252.779=(116.98,133.02)g/L該市健康成年男子血紅蛋白平均含量:95%置信區(qū)間為(119.06,130.94)g/L,99%置信區(qū)間為(116.98,133.02)g/L。第四十頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計正態(tài)分布近似方法(1)當總體標準差已知時總體均數(shù)的雙側置信區(qū)間為

z/2

第四十一頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計(2)當未知但n足夠大時(n50),t分布的極限分布是標準正態(tài)分布,可用z/2代替公式(5-9)中的t/2,,則總體均數(shù)的雙側置信區(qū)間為

z/2

第四十二頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計同理,與(5-8)和(5-9)式相對應,單側置信區(qū)間則為z

z

+z

或+z

第四十三頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計例5-4某市2000年隨機測量了90名19歲健康男大學生的身高,其均數(shù)為172.2cm,標準差為4.5cm,試估計該市2000年19歲健康男大學生平均身高的95%置信區(qū)間。1.96=172.21.96=(171.3,173.1)

該市2000年19歲健康男大學生平均身高的95%置信區(qū)間為(171.3,173.1)cm。第四十四頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計總體概率的置信區(qū)間根據(jù)樣本含量n和樣本頻率p的大小,可以采用查表法和正態(tài)近似法計算總體概率的置信區(qū)間。查表法當樣本含量n較小,比如n50,特別是p很接近0或100%時,可以通過查相應統(tǒng)計用表(附表3),確定總體概率的置信區(qū)間。第四十五頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計例5-6某醫(yī)院對39名前列腺癌患者實施開放手術治療,術后有合并癥者2人,試估計該手術合并癥發(fā)生概率的95%置信區(qū)間查概率的置信區(qū)間表(附表3),在n=39的橫行,X=2的縱列交叉處的數(shù)值為1~17即該手術合并癥發(fā)生概率的95%置信區(qū)間為1%~17%第四十六頁,共五十頁,編輯于2023年,星期四總體均數(shù)及總體概率的估計注意:附表3中僅列出X

n/2部分;當X>n/2時,應以nX值查表,然后從100中減去查得的數(shù)值即為所求的置信區(qū)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論