




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、抽樣誤差及可信區(qū)間Sampling Error & Confidence IntervalMedical Statistics醫(yī)學統(tǒng)計學 第四講主要內(nèi)容抽樣誤差t 分布均數(shù)的可信區(qū)間 2主要內(nèi)容抽樣誤差抽樣誤差的定義抽樣誤差的表現(xiàn)抽樣誤差的規(guī)律性標準誤t 分布均數(shù)的可信區(qū)間 3抽樣誤差的定義假如某地成年男子血紅蛋白的總體均數(shù)為137.6g/L,標準差為10.8g/L。某研究者從該地所有成年男子中進行了兩次隨機抽樣,每次抽取100人。結果如下:樣本1:132.811.2樣本2:140.312.8 4抽樣誤差的定義兩次抽樣得到了不同的結果,原因何在?個體變異隨機抽樣不同成人的血紅蛋白水平不同每次抽
2、到的人幾乎不同抽樣誤差 5抽樣誤差的定義由于個體變異的存在,在抽樣研究中產(chǎn)生樣本統(tǒng)計量和總體參數(shù)之間的差異,稱為抽樣誤差(sampling error)。注意:各種參數(shù)都有抽樣誤差,我們以均數(shù)為研究對象。 6主要內(nèi)容抽樣誤差抽樣誤差的定義抽樣誤差的表現(xiàn)抽樣誤差的規(guī)律性標準誤t 分布均數(shù)的可信區(qū)間 7抽樣誤差的表現(xiàn)抽樣誤差的表現(xiàn)樣本均數(shù)和總體均數(shù)間的差別樣本均數(shù)和樣本均數(shù)間的差別 8抽樣誤差的重要性總體同質(zhì)個體、個體變異總體參數(shù)未知樣本代表性、抽樣誤差隨機抽樣 樣本統(tǒng)計量 已知統(tǒng)計推斷風 險 9主要內(nèi)容抽樣誤差抽樣誤差的定義抽樣誤差的表現(xiàn)抽樣誤差的規(guī)律性標準誤t 分布均數(shù)的可信區(qū)間 10抽樣誤差
3、的規(guī)律性 既然抽樣誤差是有規(guī)律的,那么到底它的分布規(guī)律到底是怎樣的? 11蒙特-卡洛實驗 (Monte-Carlo Method) 12SAMPLE 1:x11 x12 x13 x14.x1nSAMPLE 2:x21 x22 x23 x24.x2nSAMPLE k:xk1 xk2 xk3 xk4.xkn原始總體k個樣本均數(shù)的頻數(shù)分布圖我們觀察到:從正態(tài)總體中隨機抽樣,其樣本均數(shù)服從正態(tài)分布;從任意總體中隨機抽樣,當樣本含量足夠大時,其樣本均數(shù)的分布逐漸逼近正態(tài)分布;樣本均數(shù)之均數(shù)的位置始終在總體均數(shù)的附近;隨著樣本含量的增加,樣本均數(shù)的離散程度越來越小,表現(xiàn)為樣本均數(shù)的分布范圍越來越窄,其高峰
4、越來越尖。 13樣本均數(shù)是總體均數(shù)的無偏估計;樣本均數(shù)的標準差是抽樣誤差的度量; 14中心極限定理 (central limit theorem)從均數(shù)為,標準差為的正態(tài)總體中隨機抽樣,樣本均數(shù)服從均數(shù)為,標準差為 的正態(tài)分布。從均數(shù)為,標準差為的任意總體中隨機抽樣,當樣本含量足夠大時,樣本均數(shù)近似服從均數(shù)為,標準差為 的正態(tài)分布。 15主要內(nèi)容抽樣誤差抽樣誤差的定義抽樣誤差的表現(xiàn)抽樣誤差的規(guī)律性標準誤t 分布均數(shù)的可信區(qū)間 16標準誤的定義樣本統(tǒng)計量(如均數(shù))也服從一定的分布;與描述觀測值離散趨勢的指標類似,樣本統(tǒng)計量的標準差就反映了從某個總體中隨機抽樣所得樣本之統(tǒng)計量分布的離散程度。用樣本
5、統(tǒng)計量的標準差來反映抽樣誤差的大小。又稱標準誤(standard error)。 17樣本均數(shù)的標準誤的計算其中,為總體標準差,n為抽樣的樣本例數(shù)在研究工作時,由于總體標準差常常未知,可以利用樣本標準差近似估計 18標準誤的意義反映了樣本統(tǒng)計量(樣本均數(shù),樣本率)分布的離散程度,體現(xiàn)了抽樣誤差的大小。標準誤越大,說明樣本統(tǒng)計量(樣本均數(shù),樣本率)的離散程度越大,即用樣本統(tǒng)計量來直接估計總體參數(shù)越不可靠。反之亦然。標準誤的大小與標準差有關,在例數(shù)n一定時,從標準差大的總體中抽樣,標準誤較大;而當總體一定時,樣本例數(shù)越多,標準誤越小。說明我們可以通過增加樣本含量來減少抽樣誤差的大小。 19主要內(nèi)容
6、抽樣誤差t 分布均數(shù)的可信區(qū)間 20中心極限定理 (central limit theorem)從均數(shù)為 ,標準差為 的正態(tài)總體中隨機抽樣,樣本均數(shù)服從均數(shù)為 ,標準差為 的正態(tài)分布。從均數(shù)為 ,標準差為 的任意總體中隨機抽樣,當樣本含量足夠大時,樣本均數(shù)近似服從均數(shù)為 ,標準差為 的正態(tài)分布。 21根據(jù)中心極限定理的內(nèi)容,當樣本含量足夠大時,對從均數(shù)為,標準差為的任意總體中隨機抽樣所得的樣本均數(shù)進行標準化變換,有t 分布由于總體標準差往往是未知的,此時往往用樣本標準差代替總體標準差,這里,為自由度,取值為n-1由W. S. Gosset (以筆名 Student)提出,W.S. Gosset
7、, 1876-1937t 分布的圖形 24 f(t) = (標準正態(tài)曲線) =5 =10.10.2-4-3-2-1012340.3t 分布的性質(zhì)t分布為一簇單峰分布曲線,高峰在0的位置上,說明從正態(tài)總體中隨機抽樣所得樣本計算出的t值接近0的可能性較大。t分布以0為中心,左右對稱。分布的高峰位置比 u 分布低,尾部高。t分布與自由度有關,自由度越小,t分布的峰越低,而兩側尾部翹得越高;自由度逐漸增大時,t分布逐漸逼近標準正態(tài)分布;當自由度為無窮大時,t分布就是標準正態(tài)分布。每一自由度下的t分布曲線都有其自身分布規(guī)律。t界值表 。單側: P(t =t,)= 雙側: P(t =t,)= 即:P(-t
8、,t t,)= 1-例 查 t 界值表得 t 值表達式 t 0.05,10=2.228 (雙側) t 0.05,10=1.812 (單側)-tt0/2/2t 界值表主要內(nèi)容抽樣誤差t 分布均數(shù)的可信區(qū)間參數(shù)估計均數(shù)的可信區(qū)間均數(shù)之差的可信區(qū)間正確應用 27統(tǒng)計推斷所謂統(tǒng)計推斷(statistical inference),是指如何抽樣,以及如何用樣本性質(zhì)推斷總體特征。參數(shù)估計(parameter estimation)假設檢驗(hypothesis testing)參數(shù)估計點估計(Point Estimation)區(qū)間估計 (Interval Estimation)參數(shù)估計之一:點估計用樣本統(tǒng)
9、計量作為總體參數(shù)的估計。 例如: 用樣本均數(shù)作為總體均數(shù)的一個估計 =142.72 S= 9.25 x1,x2,x3x10=?cm =?cm x1,x2,x3,x4N =143.37 S= 5.23x1,x2,x3x10 =144.07 S= 4.72 x1,x2,x3x10樣本含量n =10點估計的缺陷主要內(nèi)容抽樣誤差t 分布均數(shù)的可信區(qū)間參數(shù)估計均數(shù)的可信區(qū)間均數(shù)之差的可信區(qū)間正確應用 32區(qū)間估計的定義【例4.1】 隨機抽取12名口腔癌患者,測得該樣本的發(fā)鋅含量為253.05g/g,標準差為85.95g/g ,估計口腔癌患者發(fā)鋅含量的總體均數(shù)。區(qū)間估計的實質(zhì)假設某個總體的均數(shù)為,需要找到
10、兩個量A和B,使得在一個比較高的可信度下(如95%),區(qū)間(A,B)能包含。即P(A100)下限:上限: 37實例按一定的概率或可信度(1-)用一個區(qū)間來估計總體參數(shù)所在的范圍,該范圍通常稱為參數(shù)的可信區(qū)間或者置信區(qū)間(confidence interval,CI),預先給定的概率(1-)稱為可信度或者置信度(confidence level),常取95%或99%。 可信區(qū)間(CL, CU )是一開區(qū)間 CL、CU 稱為可信限。例:【例4.1】隨機抽取12名口腔癌患者,測得該樣本的發(fā)鋅含量為253.05g/g,標準差為85.95g/g,估計口腔癌患者發(fā)鋅含量的總體均數(shù)?!纠?.2】 某地120
11、名12歲男孩身高均數(shù)142.67cm,標準差0.5477cm,計算該市12歲男童總體均數(shù)90%的可信區(qū)間。主要內(nèi)容抽樣誤差t 分布均數(shù)的可信區(qū)間參數(shù)估計均數(shù)的可信區(qū)間均數(shù)之差的可信區(qū)間正確應用 40均數(shù)之差可信區(qū)間的計算 正常組 肝炎組 2?均 數(shù): 231.86ug/dL標準差:12.17ug/dL 1?均 數(shù):273.18ug/dL標準差:9.77ug/dL 1- 2 ?與均數(shù)之差有關的抽樣分布“均數(shù)之差”與“均數(shù)之差的標準誤”之比,服從自由度 = n1+n2 -2的 t 分布。樣本含量較大時,服從標準正態(tài)分布。 42合并方差(方差的加權平均)均數(shù)之差的標準誤 43 44主要內(nèi)容抽樣誤差t
12、 分布均數(shù)的可信區(qū)間參數(shù)估計均數(shù)的可信區(qū)間均數(shù)之差的可信區(qū)間正確應用 45可信區(qū)間的兩個要素可信度(Confidence):準確性,可靠性,即1-。一般取90%,95,可人為控制精確性(Precision):區(qū)間的大小,越小越好。必須二者兼顧可信區(qū)間的寬度可信度越大,可信區(qū)間越寬,說明用該區(qū)間來估計總體參數(shù)(總體均數(shù))越可靠。標準差越小,可信區(qū)間就越窄,意味著如果總體內(nèi)變異程度較小時,在相同的可信度下,只需要一個比較窄的可信區(qū)間就可以估計總體均數(shù)。隨著樣本含量的增加,可信區(qū)間逐漸變窄。正確理解可信區(qū)間可信度為95%的CI的涵義:每100個樣本,按同樣方法計算95%的CI,平均有95%的CI包含了總體參數(shù)。這里的95%,指的是方法本身!而不是某個區(qū)間!總體參數(shù)雖未知,但卻是固定的值,而不是隨機變量值 。95%可信區(qū)間的含義-2 -1 0 1 2 按這種方法構建的可信區(qū)間,理論上平均每100次,有95次可以估計到總體參數(shù)??偨Y個體變異和抽樣誤差標準差和標準誤: 50總結抽樣誤差的規(guī)律性抽樣分布統(tǒng)計推斷均數(shù)的可信區(qū)間 51下列說法正確嗎?算得某95%的可信區(qū)間,則: 總體參數(shù)有95%的可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 倉單質(zhì)押貸款協(xié)議二零二五年
- 公司項目部安全培訓考試題(參考)
- 旅游規(guī)劃項目會議紀要范文
- 鴻合電子白板在在線教育中的應用心得體會
- 電信行業(yè)員工入職合同樣本
- 外研版英語三年級下學期項目式學習計劃
- 2025初中數(shù)學教研組工作計劃
- 度礦產(chǎn)勘探與采礦權轉讓合同書
- 建筑安全生產(chǎn)責任合同書
- 信息技術合作與咨詢服務合同模板
- 個人ip打造經(jīng)紀服務協(xié)議-模板
- 某中型制造業(yè)財務部職責及人員編制說明書
- 渦街流量計選型參數(shù)表
- 實習證明模板(紅頭文件)
- 隱患排查獎勵制度
- 廣東佛山生育保險待遇申請表
- 電子課件《英語(第一冊)(第三版)》A013820英語第一冊第三版Unit5
- IPQC制程檢驗作業(yè)流程
- 《航空氣象》課件1.4 空氣的垂直運動
- XX小學體育期末考試方案
- 高鐵站智能化設計方案
評論
0/150
提交評論