




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、本科生必修課:概率論與數(shù)理統(tǒng)計第六章 樣本及抽樣分布 主講教師:董慶寬 副教授研究方向:密碼學(xué)與信息安全電子郵件:qkdong個人主頁:/qkdong/ 2/82第六章 樣本及抽樣分布6.1 隨機(jī)樣本 6.2 直方圖和箱線圖6.3 抽樣分布 3/82數(shù)理統(tǒng)計中的問題概率論和數(shù)理統(tǒng)計的關(guān)系概率論:提供了一套分析和解決隨機(jī)現(xiàn)象統(tǒng)計規(guī)律的基本理論和方法數(shù)理統(tǒng)計:以概率論為基本理論,根據(jù)試驗(yàn)或觀察得到的數(shù)據(jù)來研究隨機(jī)現(xiàn)象,對客觀規(guī)律性作出合理的估計和判斷,以解決實(shí)際問題。研究的問題在概率論中,通常研究的是隨機(jī)變量的概率分布已知的情況下的性質(zhì)、特點(diǎn)和規(guī)律性。在數(shù)理統(tǒng)計中,隨機(jī)變量的分布是未知的,或不能完
2、全知道的,人們通過對所研究的隨機(jī)變量的重復(fù)獨(dú)立的觀察,得到許多觀察值,對這些數(shù)據(jù)進(jìn)行分析,進(jìn)而對隨機(jī)變量的分布作出種種推斷。4/826.1 隨機(jī)樣本1總體和樣本定義 在數(shù)理統(tǒng)計研究中,常常關(guān)心(一批)研究對象的某項(xiàng)數(shù)量指標(biāo),為此,考慮與這一數(shù)量指標(biāo)聯(lián)系的隨機(jī)試驗(yàn),對這一數(shù)量指標(biāo)進(jìn)行試驗(yàn)或觀察,則將試驗(yàn)的全部可能的觀察值稱為總體把每一個可能的觀察值稱為一個個體總體中所包含的個體的個數(shù)稱為總體的容量容量為有限的稱為有限總體,容量為無限的稱為無限總體測量一湖泊中魚的含汞量有限總體 (魚的個數(shù)有限)測量一湖泊中任一地點(diǎn)的深度無限總體(連續(xù)的)5/826.1 隨機(jī)樣本例:考察某工廠生產(chǎn)的一批燈泡的壽命這
3、一試驗(yàn)研究對象:某工廠生產(chǎn)的一批燈泡 關(guān)心的數(shù)量指標(biāo):壽命X個 體:每一個燈泡的壽命xi是一個可能的 觀察值,形成個體,它是存在的總 體:所有這批燈泡的壽命,共含有 10000個可能觀察值,是有限總體 (x1, x2, , x10000) 每一個個體xi不一定都不同樣本空間:任意挑選一燈泡,其所有可能壽命 構(gòu)成樣本空間,可映射到隨機(jī)變量X(假設(shè)10000個)6/826.1 隨機(jī)樣本總體和樣本空間的區(qū)別和聯(lián)系樣本空間是一次隨機(jī)試驗(yàn)中的所有可能結(jié)果它不一定是數(shù)量的,也不一定是實(shí)際存在的。針對任意一個對象的觀察的所有可能結(jié)果就構(gòu)成樣本空間它可以映射到隨機(jī)變量X,它滿足一定分布??傮w是大量具有相同性質(zhì)
4、的研究對象的某一個數(shù)量指標(biāo)總體是數(shù)理統(tǒng)計中研究大量對象的相關(guān)概念,是這些研究對象的數(shù)量指標(biāo)構(gòu)成的集合,是存在的多數(shù)情況下,總體是X的部分取值的集合(其中取值可以重復(fù))總體中對象取值的情況會反映相應(yīng)隨機(jī)變量的分布特點(diǎn)7/826.1 隨機(jī)樣本2總體與隨機(jī)變量的關(guān)系一個總體對應(yīng)于一個隨機(jī)變量X將樣本空間映射到隨機(jī)變量,這對應(yīng)于研究對象的數(shù)量指標(biāo)那么總體的每一個體的數(shù)理指標(biāo)是一個隨機(jī)試驗(yàn)的觀察值,即相應(yīng)隨機(jī)變量X的某一取值。含義:總體的分布不是這些個體構(gòu)成的空間的分布(這些取值往往是確定存在的),而是指每一個個體的取值所來自的隨機(jī)變量X的分布對總體的研究就是對相應(yīng)的隨機(jī)變量X的研究,X的分布函數(shù)和數(shù)字
5、特征就是總體的分布函數(shù)和數(shù)字特征。今后將不區(qū)分總體和相應(yīng)的隨機(jī)變量,籠統(tǒng)稱為總體X在統(tǒng)計學(xué)中,總體這個概念的要旨是: 總體就是一個概率分布8/826.1 隨機(jī)樣本例:檢查生產(chǎn)的一批零件的正品和次品問題正品表示為0,次品為1對應(yīng)于所有生產(chǎn)出來的零件的取值構(gòu)成總體其中有若干個零件為正品0,若干個為次品1。現(xiàn)在生產(chǎn)一個零件是正品或次品的情況可用一個符合(01)分布的隨機(jī)變量X來描述,設(shè)次品率為p,則X的分布為 X 0 1 pk 1p p可知:這批零件中每一個零件的關(guān)于正品或次品的取值來自于隨機(jī)變量X而且在這批總體中,取1的個體個數(shù)與總體中個體總數(shù)之比,當(dāng)總體容量很大時應(yīng)接近p,這時的總體可近似看作無
6、限總體。9/826.1 隨機(jī)樣本顯然,無限總體的特性更接近X的分布無限總體是人們對具體事務(wù)的抽象,分布形式較為簡明,便于數(shù)學(xué)處理,是研究的主要對象需要說明的是在實(shí)際中大量的總體都是有限總體,這與人們通??疾炷骋环秶鷥?nèi)的個體有關(guān),但如果數(shù)量大,可以近似為無限總體,或抽象為無限總體的情況。因?yàn)閭€體少量的有限總體與其所對應(yīng)的X的真實(shí)分布一般相差很大,比如一個總數(shù)為2的總體(燈泡的壽命),很難從中看出它與指數(shù)分布有什么關(guān)系。10/826.1 隨機(jī)樣本3樣本數(shù)理統(tǒng)計目的就是如何推斷總體的分布和性質(zhì)。而即使掌握了所有個體的取值情況,那么由于這些取值可能僅是對應(yīng)的隨機(jī)變量X的部分取值或總體容量不充足,仍很難
7、十分準(zhǔn)確的判定總體性質(zhì)因此,通常從總體中抽取一部分個體,來對總體的分布和性質(zhì)進(jìn)行推斷,更具有可行性,被抽取的部分個體叫做總體的一個樣本抽取樣本,特別是對于以下情況更有意義:無限總體,無法實(shí)際獲得全部個體有破壞性的試驗(yàn),如燈泡壽命測試,炮彈的可靠性等有時間或空間上的限制,如觀察或測試耗時太多,可能使工作無意義了等情況,采用樣本來考察總體的辦法是十分必要和有效的11/826.1 隨機(jī)樣本4與樣本相關(guān)的問題樣本的描述:從總體中抽取一個個體,就是對總體X進(jìn)行一次觀察,并記錄其結(jié)果。在相同條件下對總體X進(jìn)行n次重復(fù)的、獨(dú)立的觀察,將n次觀察結(jié)果按試驗(yàn)次序記為X1,X2,Xn。對于每一次觀察,其可能結(jié)果構(gòu)
8、成的隨機(jī)變量Xi與總體X是相同的比如考察一個燈泡的壽命值,該考察可能出現(xiàn)的結(jié)果對應(yīng)的隨機(jī)變量就是總體X12/826.1 隨機(jī)樣本X1,X2,Xn都是對X的觀察的結(jié)果,且各次觀察在相同條件下獨(dú)立進(jìn)行,所以X1,X2,Xn相互獨(dú)立且與總體X具有相同分布的隨機(jī)變量。這樣X1,X2,Xn稱為來自總體X的一個簡單隨機(jī)樣本,n稱為這個樣本的容量n次觀察一經(jīng)完成,得到一組實(shí)數(shù)x1, x2, xn來,它們依次為隨機(jī)變量X1,X2,Xn的觀察值,稱為樣本值13/826.1 隨機(jī)樣本簡單隨機(jī)樣本的獲得:對于有限總體采用放回抽樣(相互獨(dú)立)但不方便,每次要放回攪勻。當(dāng)個體總數(shù)N比要得到的樣本的容量n大得多時,可將不
9、放回抽樣近似當(dāng)作放回抽樣處理對于無限總體,因抽取一個個體不影響它的分布,所以總是用不放回抽樣例:在生產(chǎn)中每隔一定時間抽取一個個體,抽取n個就得到一個簡單隨機(jī)樣本試制新產(chǎn)品得到的樣品的質(zhì)量指標(biāo),也常被認(rèn)為是樣本14/826.1 隨機(jī)樣本定義 設(shè)X是具有分布函數(shù)F的隨機(jī)變量,若X1,X2,Xn是具有同一分布函數(shù)F的、相互獨(dú)立的隨機(jī)變量,則稱X1,X2,Xn為從分布函數(shù)F(或總體F,或總體X)得到的容量為n的簡單隨機(jī)樣本,簡稱樣本,他們的觀察值x1, x2, xn稱為樣本值,又稱為X的n個獨(dú)立的觀察值。樣本看成一個隨機(jī)向量(X1,X2,Xn),樣本值相應(yīng)的寫成(x1, x2, xn),一個樣本可以有
10、多個不同的樣本值15/826.1 隨機(jī)樣本樣本的分布函數(shù)和概率密度由定義得:若X1,X2,Xn為F的一個樣本,則X1,X2,Xn相互獨(dú)立,且它們的分布函數(shù)都是F,所以(X1,X2,Xn)的分布函數(shù)為 F*(x1, x2, xn)=又若X具有概率密度f,則(X1,X2,Xn)的概率密度為 f*(x1, x2, xn)=聯(lián)合分布律 p*(x1, x2, xn)=16/826.2 直方圖和箱線圖為了研究總體分布的性質(zhì),人們通過試驗(yàn)得到許多觀察值,一般來說這些數(shù)據(jù)是雜亂無章的。為了利用它們進(jìn)行統(tǒng)計分析,將這些數(shù)據(jù)加以整理,還常借助于表格或圖形對它們加以描述。本節(jié)將通過例子對連續(xù)型隨機(jī)變量X引入“頻率直
11、方圖”。接著介紹數(shù)據(jù)的箱線圖。它們使人們對總體X的分布有一個粗略的了解。17/826.2 直方圖和箱線圖(一)直方圖例1 下面列出了84個伊特拉斯坎(Etruscan)人男子的頭顱的最大寬度(mm),現(xiàn)在來畫這些數(shù)據(jù)的”頻率直方圖”141 148 132 138 154 142 150 146 155 158 150 140 147 148 144 150 149 145 149 158 143 141 144 144 126 140 144 142141 140 145 135 147 146 141 136 140 146 142 137 148 154137 139 143 140 13
12、1 143 141 149 148 135 148 152 143 144141 143 147 146 150 132 142 142 143 153 149 146 149 138142 149 142 137 134 144 146 147 140 142 140 137 152 14518/826.2 直方圖和箱線圖解 這些數(shù)據(jù)雜亂無章,先要將它們進(jìn)行整理。最小值和最大值分別是126,158,即所有數(shù)據(jù)都落在區(qū)間126,158上現(xiàn)取區(qū)間124.5,159.5能覆蓋上述區(qū)間,并將124.5,159.5等分為7個小區(qū)間,等分區(qū)間長度不宜過小,以免小區(qū)間內(nèi)頻率為0 n較大時等分區(qū)間數(shù)k取10
13、到20,n50時取5到6。小區(qū)間的長度記為,(159.5-124.5)/7=5。 稱為組距,小區(qū)間的端點(diǎn)稱為組限。 19/826.2 直方圖和箱線圖數(shù)出落在每個小區(qū)間內(nèi)的數(shù)據(jù)的頻數(shù)f,算出頻率fi/n(n=84,i=1,2,7)如下表: 組限頻數(shù)fi頻率fi/n累積頻率124.5129.5129.5134.5134.5139.5139.5144.5144.5149.5149.5154.5154.5159.514103324930.01190.04760.11910.39290.28570.10710.03570.01190.05950.17860.57150.85720.9643120/826
14、.2 直方圖和箱線圖自左至右依次在各小區(qū)間上作以(fi/n)/為高的小矩形。所得圖形叫頻率直方圖。這種小矩形的面積就等于數(shù)據(jù)落在該小區(qū)間的頻率fi/n。由于當(dāng)n很大時,頻率就接近于概率,因而一般來說,每個小區(qū)間上的小矩形面積接近于概率密度曲線之下該小區(qū)間上的曲邊梯形的面積。于是,一般來說,直方圖的外廓曲線接近于總體X的概率密度曲線。本例的直方圖看起來很像來自于某一正態(tài)總體X。從直方圖上可以直接估計X落在某一區(qū)間的概率21/826.2 直方圖和箱線圖(二)箱線圖先介紹樣本分位數(shù)。定義 設(shè)有容量為n的樣本觀察值x1,x2,xn,樣本p分位數(shù)(0pnp, 滿足至少有np個數(shù)小于等于該值而從第np+1
15、個數(shù)開始,共有n-(np+1)+1= n-npn(1-p)個數(shù)大于等于該值,所以xp= x(np+1)當(dāng)np為整數(shù)時,考慮第np和第np+ 1個數(shù)x(np)與x(np+1),均滿足上述兩個條件,取其平均值所以有23/826.2 直方圖和箱線圖例如:n12,p0.9則np10.8,xp =x(11)例如:n20,p0.95np=19和np+1=20的數(shù)據(jù)均符合要求,就取這兩個數(shù)的平均值作為xp24/826.2 直方圖和箱線圖特別,當(dāng)p0.5時,0.5分位數(shù)x0.5也即為Q2或M,稱為樣本中位數(shù),即有Q2 易知,當(dāng)n是奇數(shù)時中位數(shù)x0.5就是x(1) x(2) x(n)這一數(shù)組最中間的一個數(shù);而當(dāng)
16、n是偶數(shù)時中位數(shù)x0.5就是x(1) x(2) x(n)這一數(shù)組中最中間的兩個數(shù)的平均值。0.25分位數(shù)x0.25稱為第一四分位數(shù),又記為Q1;0.75分位數(shù)x0.75稱為第三四分位數(shù),又記為Q3;x0.25,x0.5,x0.75,在統(tǒng)計中是很有用的25/826.2 直方圖和箱線圖例2 設(shè)有一組容量為18的樣本值如下(已經(jīng)過排序) 122 126 133 140 145 145 149 150 157 162 166 175 177 177 183 188 199 212求樣本分位數(shù):x0.2,x0.25,x0.5.解 (1) 因?yàn)閚p=180.2=3.6,x0.2位于第3.6+1=4處即有x
17、0.2x(4)=140 (2) 因?yàn)閚p=180.25=4.5,x0.25位于第4.5+1=5處,即有x0.25=145 (3) 因?yàn)閚p=180.5=9,x0.5是這組數(shù)中間兩個數(shù)的平均值,即有x0.25(157+162)/2=159.526/826.2 直方圖和箱線圖下面介紹箱線圖數(shù)據(jù)集的箱線圖是由箱子和直線組成的圖形,基于以下5個數(shù)的圖形概括;最小值Min,第一四分位數(shù)Q1,中位數(shù)M,第三四分位數(shù)Q3,和最大值Max。它的做法如下:(1) 畫一水平數(shù)軸,在數(shù)軸上標(biāo)上Min,Q1,M,Q3,Max,在數(shù)軸上方畫一個上、下側(cè)平行于數(shù)軸的矩形箱子,在箱子的左右兩側(cè)分別位于Q1,Q3的上方。在M
18、點(diǎn)的上方畫一條垂直線段,線段位于箱子內(nèi)部(2) 自箱子左側(cè)引一條水平線直至最小值Min;在同一水平高度自箱子右側(cè)引一條水平線直至最大值。這樣就將箱線圖做好了,如圖62所示,箱線圖也可沿垂直數(shù)軸來作27/826.2 直方圖和箱線圖自箱線圖可以形象地看出數(shù)據(jù)集的以下重要性質(zhì)中心位置:中位數(shù)所在的位置就是數(shù)據(jù)集的中心。散布程度:全部數(shù)據(jù)都落在Min, Max內(nèi),在區(qū)間Min, Q1,Q1, M,M, Q3,Q3, Max的數(shù)據(jù)個數(shù)各占1/4。區(qū)間較短時,表示落在該區(qū)間的點(diǎn)較集中,反之較為分散。(3) 關(guān)于對稱性:若中位數(shù)位于箱子的中間位置。則數(shù)據(jù)分布較為對稱。又若Min離M的距離較Max離M的距離大
19、,則表示數(shù)據(jù)分布向左傾斜,反之表示數(shù)據(jù)向右傾斜,且能看出分布尾部的長短。箱線圖特別適合于比較兩個或兩個以上數(shù)據(jù)集的性質(zhì),為此我們將幾個數(shù)據(jù)集的箱線圖畫在同一個數(shù)軸上。例如在例3中可以明顯地看到男子的肺活量要比女子大,男子的肺活量較女子的肺活量為分散28/826.2 直方圖和箱線圖例3 下面分別給出了25個男子和25個女子的肺活量(以升計。數(shù)據(jù)已經(jīng)過排序),試分別畫出這兩組數(shù)據(jù)的箱線圖女子組 2.7 2.8 2.9 3.1 3.1 3.1 3.2 3.4 3.4 3.4 3.4 3.4 3.5 3.5 3.5 3.6 3.7 3.7 3.7 3.8 3.8 4.0 4.1 4.2 4.2男子組
20、4.1 4.1 4.3 4.3 4.5 4.6 4.7 4.8 4.8 5.1 5.3 5.3 5.3 5.4 5.4 5.5 5.6 5.7 5.8 5.8 6.0 6.1 6.3 6.7 6.7解: 女子組Min2.7,Max4.2,M3.5 因np250.256.25,Q13.2 因np250.7518.75,Q33.7 男子組Min4.1,Max6.7,M5.3 因np250.256.25,Q14.7 因np250.7518.75,Q35.8。作出箱線圖如圖64所示。29/826.2 直方圖和箱線圖疑似異常值在數(shù)據(jù)集中某一個觀察值不尋常地大于或小于該數(shù)據(jù)集中的其他數(shù)據(jù),稱為疑似異常值。
21、疑似異常值的存在,會對隨后的計算結(jié)果產(chǎn)生不適當(dāng)?shù)挠绊?,檢查疑似異常值并加以適當(dāng)?shù)奶幚硎鞘种匾摹O渚€圖只要稍加修改,就能用來檢測數(shù)據(jù)集是否存在疑似異常值。30/826.2 直方圖和箱線圖第一四分位數(shù)Q1與第三四分位數(shù)Q3之間的距離:Q3Q1IQR,稱為四分位數(shù)間距。若數(shù)據(jù)小于Q11.5IQR或大于Q3+1.5IQR,就認(rèn)為它是疑似異常值。我們將上述箱線圖的做法(1)、(2)、(3)作如下的改變:(1)同(1) (2)計算IQRQ3Q1,若一個數(shù)據(jù)小于Q11.5IQR或大于Q3+1.5IQR,則認(rèn)為它是一個疑似異常值。畫出疑似異常值,并以*表示(3)自箱子左側(cè)引一水平線段直至數(shù)據(jù)集中除去疑似異
22、常值后的最小值,又自箱子右側(cè)引出一水平線直至數(shù)據(jù)集中除去疑似異常值后的最大值。按(1)、(2)、(3)作出的圖形稱為修正箱線圖。31/826.2 直方圖和箱線圖例5 下面給出了某醫(yī)院21個病人的住院時間(以天計),畫出修正箱線圖(數(shù)據(jù)已經(jīng)過排序) 1 2 3 3 4 4 5 6 6 7 7 9 9 10 12 12 13 15 18 23 55解:Min1,Max55,M7,因210.255.25,得Q14。又210.7515.75,得Q312,故IQR=Q3Q1=8,Q3+1.5IQR12+1.5824,大于Q11.5IQR4128觀察值5524,故55是疑似異常值,且僅此一個疑似異常值,作
23、出修正箱線圖如圖65所示,可見數(shù)據(jù)分布不對稱,而向右傾斜,在中位數(shù)的右邊較為分散。 32/826.2 直方圖和箱線圖數(shù)據(jù)集中,疑似近似值的產(chǎn)生源于(1)數(shù)據(jù)的測量、記錄或輸入計算機(jī)時的錯誤;(2)數(shù)據(jù)來自不同的總體;(3)數(shù)據(jù)是正確的,但它只體現(xiàn)小概率事件。當(dāng)檢測出疑似異常值時,人們需要對疑似異常值出現(xiàn)的原因加以分析。如果是由于測量或記錄的錯誤,或某些其他明顯的原因造成的,將這些疑似異常值從數(shù)據(jù)集中丟棄就可以了。然而當(dāng)出現(xiàn)的原因無法解釋時要作出丟棄或保留這些值的決策無疑是困難的,此時我們在對數(shù)據(jù)集作分析時盡量選用穩(wěn)健的方法,使得疑似異常值對我們的結(jié)論的影響較小。例如我們采用中位數(shù)來描述數(shù)據(jù)集的
24、中心趨勢,而不使用數(shù)據(jù)集的平均值,因?yàn)楹笳呤芤伤飘惓V档挠绊戄^大。33/826.3 抽樣分布利用樣本來進(jìn)行統(tǒng)計推斷或估計,往往不是直接使用樣本本身,而是針對不同的問題構(gòu)造樣本的適當(dāng)函數(shù),利用這些樣本函數(shù)進(jìn)行統(tǒng)計推斷 統(tǒng)計量:定義 設(shè)X1,X2,Xn是來自總體X的一個樣本,g(X1,X2,Xn)是X1,X2,Xn的函數(shù),若g中不含未知參數(shù),則稱g(X1,X2,Xn)是一統(tǒng)計量顯然統(tǒng)計量是一隨機(jī)變量,因其是隨機(jī)變量X1,X2,Xn的函數(shù)設(shè)x1, x2, xn是相應(yīng)于X1,X2,Xn的一組樣本值,則稱g(x1, x2, xn)是g(X1,X2,Xn)的觀察值34/822. 幾個常用統(tǒng)計量(樣本矩)的
25、定義(1)樣本平均值(2)樣本方差其觀察值它反映了總體均值的信息它反映了總體方差的信息6.3 抽樣分布其觀察值35/82(3) 樣本 k 階(原點(diǎn))矩其觀察值(4)樣本 k 階中心矩其觀察值6.3 抽樣分布36/82樣本矩具有下列性質(zhì):性質(zhì)證明6.3 抽樣分布37/826.3 抽樣分布38/82證明性質(zhì)6.3 抽樣分布39/82由第五章關(guān)于依概率收斂的序列的性質(zhì)知 以上結(jié)論是下一章所要介紹的矩估計法的理論根據(jù). 6.3 抽樣分布再根據(jù)第五章辛欽定理知40/826.3 抽樣分布3. 經(jīng)驗(yàn)分布函數(shù)與總體分布函數(shù)F(x)相應(yīng)的統(tǒng)計量設(shè)X1,X2,Xn是總體F的一個樣本,用S(x)表示X1,X2,Xn
26、中不大于x的隨機(jī)變量的個數(shù),定義經(jīng)驗(yàn)函數(shù)為 Fn(x)=S(x)/n,xx(k)時,由升序排列,小于等于x的元素個數(shù)剛好是k個43/826.3 抽樣分布對于經(jīng)驗(yàn)分布函數(shù)Fn(x),格里汶科(Glivenko)在1933年證明了以下的結(jié)果 P 1x,當(dāng)n時經(jīng)驗(yàn)分布函數(shù)的任一觀察值Fn(x)與總體分布函數(shù)F(x)只有微小差別,從而在實(shí)際上可以當(dāng)作F(x)來使用這是一種依分布收斂的性質(zhì)44/826.3 抽樣分布作為F(x)的統(tǒng)計量,Fn(x)其取值的數(shù)學(xué)期望等于F(x)這是因?yàn)椋瑢τ谌我獾膞,S(x)是隨機(jī)變量落在到x的次數(shù),引入隨機(jī)變量Xi,當(dāng)取值落在到x內(nèi)時為1,否則為0,則由總體X的分布函數(shù)知
27、Xi滿足01分布,其中Xi=1的概率p=F(x)S(x)=X1+X2+Xn 正好滿足二項(xiàng)分布b(n, F(x)于是E(Fn(x)=1/nE(S(x)=1/n(nF(x)=F(x)可見這種估計的合理性。45/826.3 抽樣分布統(tǒng)計量的分布統(tǒng)計量是隨機(jī)樣本的函數(shù),因此也是一個隨機(jī)變量,統(tǒng)計量的分布稱為抽樣分布,在使用統(tǒng)計量進(jìn)行統(tǒng)計推斷時需要知道它的概率分布。當(dāng)總體分布函數(shù)已知時抽樣分布是確定的,但要求出統(tǒng)計量的精確分布往往是困難的。本節(jié)介紹來自正態(tài)總體的幾個常用統(tǒng)計量的分布。46/826.3 抽樣分布(一)2分布 設(shè)X1,X2,Xn是來自總體N(0,1)的樣本,則稱統(tǒng)計量 2 服從自由度為n的2
28、分布, 記為2 2(n)自由度是指右端獨(dú)立變量的個數(shù)2(n)分布的概率密度為 f(y)= 47/826.3 抽樣分布2(n)分布的概率密度求解首先求解2(1)的分布,即已知X1N(0, 1),求X1的函數(shù)2(1)=X12的分布,(1/2)= 由第二章5例3(64頁上方)2(1)的概率密度又(,)分布概率表達(dá)式為比較兩式有:2(1)=X12 (1/2,2)48/826.3 抽樣分布49/82性質(zhì)1(此性質(zhì)可以推廣到多個隨機(jī)變量的情形)2(n)分布的性質(zhì)6.3 抽樣分布50/82性質(zhì)2證明6.3 抽樣分布51/82性質(zhì)36.3 抽樣分布52/826.3 抽樣分布53/826.3 抽樣分布性質(zhì)4 2
29、(n) 分布的上分位點(diǎn)對于給定正數(shù) ,0 2(n) = =的點(diǎn) 為2(n)分布的上分位點(diǎn)對于不同的 ,n,點(diǎn)2(n)的值可查表, 如: 0.025,n8時, 17.53554/82= 0.250.100.050.0250.010.005123456789101112131415161.3232.7734.1085.3856.6267.8419.03710.21911.38912.54913.70114.84515.98417.11718.24519.3692.7064.6056.2517.7799.23610.64512.01713.36214.68415.98717.27518.54919.
30、81220.06422.30723.5423.8415.9917.8159.48811.07112.59214.06715.50716.91918.30719.67521.02622.36223.68524.99626.2965.0247.3789.34811.14312.83314.44916.01317.53519.02320.48321.92023.33724.73626.11927.48828.8456.6359.21011.34513.27715.08616.81218.47520.09021.66623.20924.72526.21727.68829.14130.57832.000
31、7.87910.59712.83814.86016.75018.54820.27821.95523.58925.18826.75728.29929.89131.31932.80134.267分布表17.5356.3 抽樣分布55/826.3 抽樣分布表中僅給出了n45時的情況,費(fèi)舍爾(P.A.Fisher)曾經(jīng)證明,當(dāng)n充分大時 2(n) 其中z是標(biāo)準(zhǔn)正態(tài)分布的上分位點(diǎn),由此可求得n45時2(n)分布上分位點(diǎn),例如由詳表查得 67.505,非常接近56/82正態(tài)分布的上分位點(diǎn)z(見第2.4節(jié))根據(jù)正態(tài)分布的對稱性知6.3 抽樣分布57/82標(biāo)準(zhǔn)正態(tài)分布表z0.000.010.020.030.0
32、40.050.060.070.080.090.00.10.20.30.40.50.60.70.80.91.01.11.21.31.41.51.60.50000.53980.57930.61790.65540.69150.72570.75800.78810.81590.84130.86430.88490.90320.91920.93320.94520.50400.54380.58320.62170.65910.69500.72910.76110.79100.81860.84380.86650.88690.90490.92070.93450.94630.50800.54780.58710.6255
33、0.66280.69850.73240.76420.79390.82120.84610.86860.88880.90660.92220.93570.94740.51200.55170.59100.62930.66640.70190.73570.76730.79670.82380.84850.87080.89070.90820.92360.93700.94840.51600.55570.59480.63310.67000.70540.73890.77030.79950.82640.85080.87290.89250.90990.92510.93820.94950.51990.55960.5987
34、0.63680.67360.70880.74220.77340.80230.82890.85310.87490.89440.91150.92650.93940.95050.52390.56360.60260.64060.67720.71230.74540.77640.80510.83150.85540.87700.89620.91310.92780.94060.95150.52790.56750.60640.64430.68080.71570.74860.77940.80780.83400.85770.87900.89800.91470.92920.94180.95250.53190.5714
35、0.61030.64800.68440.71900.75170.78230.81060.83650.85990.88100.89970.91620.93060.94300.95350.53590.57530.61410.65170.68790.72240.75490.78520.81330.83890.86210.88300.90150.91770.93190.94410.95451.6456.3 抽樣分布58/82同理與相互獨(dú)立6.3 抽樣分布59/82(二) t 分布,又稱學(xué)生氏(Student)分布6.3 抽樣分布1908年由William S. Gosset以Student的筆名所發(fā)表
36、的 60/826.3 抽樣分布t分布的概率密度曲線如圖實(shí)際上,利用函數(shù)的性質(zhì)有, ,當(dāng)n足夠大時,t分布近似于N(0,1) 也就是說,t分布的極限分布是標(biāo)準(zhǔn)正態(tài)分布t=0為對稱軸,當(dāng)n時,圖形類似于標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)的圖形61/826.3 抽樣分布從另一個角度,由于Y/n相當(dāng)于平方和的算術(shù)平均值,當(dāng)n充分大時,該值趨于X2的數(shù)學(xué)期望,由于X服從N(0, 1),該期望為1,即當(dāng)n充分大時分母趨于穩(wěn)定的常數(shù)1,從而t無限接近分子XN(0,1),當(dāng)n, t較小時,兩種分布相差較大概率密度的求解方法,先求解U 的分布函數(shù),再求解tX/U的分布函數(shù),比較繁瑣。t分布的數(shù)學(xué)期望和方差(n2時,方差不
37、存在) 設(shè) tt(n),當(dāng)n2時,E(t(n)=0,D(t(n)=n/(n-2)62/826.3 抽樣分布t分布的上分位點(diǎn)對于給定正數(shù) ,0 t(n)= =的點(diǎn)t(n)為t(n)分布的上分位點(diǎn)由t分布的對稱性知當(dāng)n45時,對于常用的值就 用標(biāo)準(zhǔn)正態(tài)分布的上分位點(diǎn) 來近似,即t(n)z63/82 =0.250.100.050.0250.010.005123456789101112131415161.00000.81650.76490.74070.72670.71760.71110.70640.70270.69980.69740.69550.69380.69240.69120.69013.07771.88561.63771.53321.47591.43981.41491.39681.38301.37221.36341.35621.35021.34501.34061.33686.31382.92002.35342.13182.01501.94321.89461.85951.83311.81251.79591.78231.77091.76131.75311.745912.7062 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 2.2281 2.2010 2.1788 2.1604 2.1448 2.1315
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公共衛(wèi)生事件應(yīng)急預(yù)案(30篇)
- 九年級語文第二學(xué)期教學(xué)工作總結(jié)(3篇)
- 2025年新學(xué)期八年級班主任工作計劃(28篇)
- 橋梁建設(shè)工地安全生產(chǎn)培訓(xùn)
- 科研創(chuàng)新安全生產(chǎn)培訓(xùn)
- DBT29-93-2004 土壓平衡和泥水平衡頂管工程施工技術(shù)規(guī)程
- 2024-2025學(xué)年高中數(shù)學(xué)課時分層作業(yè)15不等關(guān)系不等關(guān)系與不等式含解析北師大版必修5
- 2024-2025學(xué)年高中生物課時分層作業(yè)3通過神經(jīng)系統(tǒng)的調(diào)節(jié)一含解析新人教版必修3
- 2024-2025學(xué)年高中政治第一單元公民的政治生活第二課第二課時民主決策:作出最佳選擇作業(yè)含解析新人教版必修2
- 2024-2025學(xué)年高中語文第二單元思想之光3狂人日記鞏固提升案魯人版選修中國現(xiàn)當(dāng)代小說蚜
- 中藥抗骨質(zhì)疏松作用
- 中建綜合支吊架施工方案
- 建筑施工規(guī)范大全
- 幼兒園開學(xué)家長會PPT模板(含完整內(nèi)容)
- 表冷器更換施工方案
- 瀝青集料篩分反算計算表格(自動計算)
- 哲學(xué)與人生(中職)PPT完整全套教學(xué)課件
- 惡性高熱課件
- 一年級語文下冊《我多想去看看》教案
- 真空滅弧室基本知識課件
- 工程EPC總承包項(xiàng)目安全生產(chǎn)管理辦法
評論
0/150
提交評論