第6章連續(xù)型隨機變量的分布_第1頁
第6章連續(xù)型隨機變量的分布_第2頁
第6章連續(xù)型隨機變量的分布_第3頁
第6章連續(xù)型隨機變量的分布_第4頁
第6章連續(xù)型隨機變量的分布_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六章

連續(xù)型隨機變量的概率分布正態(tài)分布卡方分布t分布F分布第一節(jié)正態(tài)分布一、正態(tài)分布的定義和性質(zhì)在自然、社會和經(jīng)濟等領(lǐng)域內(nèi),有許多現(xiàn)象服從一定的分布規(guī)律,例如身高、體重、一片森林的高度、學(xué)生成績、人的智商、測量誤差、海浪高度等等隨機變量,我們將這類分布叫做正態(tài)分布(Normaldistribution),又叫常態(tài)分布、高斯分布。正態(tài)分布是參數(shù)估計和假設(shè)檢驗的理論基礎(chǔ)。不論總體是否服從正態(tài)分布,只要樣本容量n足夠大,其樣本平均數(shù)的抽樣分布也必然接近正態(tài)分布,這就是有名的中心極限定理??梢哉f,在各類分布中,正態(tài)分布居于首要的地位。正態(tài)分布的圖形與數(shù)學(xué)形式從數(shù)學(xué)表達式可以看出,當

確定之后,正態(tài)曲線的圖形也就唯一的被確定了。一般正態(tài)分布記為正態(tài)分布的性質(zhì):P109二、正態(tài)曲線下的面積可見,對于所有的正態(tài)分布而言,約三分之二的個案散落在

一個標準差的范圍內(nèi),而超過95%的個體聚集在兩個標準差的范圍內(nèi)?!纠?】班里語文考試成績服從正態(tài)分布,平均成績80分,標準差10分,學(xué)生甲70分,學(xué)生乙得60分,問分別有百分之多少的學(xué)生比甲、乙分數(shù)低?【解】對于甲學(xué)生而言,與平均成績的差距=10分=S則有34.13%的同學(xué)在70分-80分之間,因為只有50%的同學(xué)低于80分,所以低于70分的同學(xué)的百分比為:50%-34.13%=15.87%同理,乙離開平均分的差距=20分=2S則有47.72%的同學(xué)在60分到80分之間,因為只有50%的同學(xué)地域80分,所以低于60分的同學(xué)的百分比為:50%-47.73%=2.27%【例2】高考在山東和甘肅是統(tǒng)一命題考試的。某高校計劃在山東、甘肅各錄取前0.13%的考生。假設(shè)考生的成績在兩個省都呈正態(tài)分布,山東平均分=75分,標準差=6分,甘肅平均分=65分,標準差=8分。如果一名考生靠了90分,那么他會被錄取嗎?【解】錄取前0.13%的學(xué)生,即錄取位于高于平均分3個標準差的考生。則山東:75+18=93甘肅:65+24=89在山東不會被錄取,在甘肅則會被錄取。三、標準正態(tài)分布在上個例題中,我們發(fā)現(xiàn),要確定變量值的相對位置,要先確定這個值到均值的距離可以換算為幾個標準差。標準正態(tài)分布的變量值的單位是標準差,是以距離均值的標準差的比例數(shù)來衡量。所有的變量值都可以通過這個公式轉(zhuǎn)換成標準正態(tài)分布的變量值。這里的變量X變成了Z。標準差就是Z的單位。Z可以稱之為標準分(StandardScores)。標準正態(tài)分布的公式為:比較原來的正態(tài)分布公式,我們可以看出,標準正態(tài)分布的均值等于0,標準差=1,簡單記作Z~N(0,1)。標準正態(tài)分布是沒有參數(shù)的,永遠是一個已知的分布。對于任何一個正態(tài)分布而言,只要知道均值和標準差,都可以和標準正態(tài)分布之間來回轉(zhuǎn)化。p(-1≤z≤1)=0.6827p(-2≤z≤2)=0.9545p(-3≤z≤3)=0.9973【討論】將取值轉(zhuǎn)換成標準分,關(guān)鍵在于保留原取值的“相對位置”的因素,當然標準分無法描述絕對水平的高低。以考試成績?yōu)槔瑯藴史譄o法直接描述考試成績,而是描述該成績的相對位置。換句話說,甲學(xué)生比乙學(xué)生標準分高1分,只是說明甲在分數(shù)分布中的位置比乙高出一定的百分數(shù),并不表示甲的絕對成績就比乙高1分,而是高一個標準差。如果原分布的標準差小,1分表示一個比較大的差距,如果原分布的標準差大,則1分表示一個相對小的差距。對于兩個不同的原初分布,比如不同學(xué)科,標準分相同,不代表原始分相同。因為在標準分中,只要是第一名就是100分,而不管原始分是多少?!纠?】高考在山東和甘肅是統(tǒng)一命題考試的。某高校計劃在山東、甘肅各錄取前0.13%的考生。假設(shè)考生的成績在兩個省都呈正態(tài)分布,山東平均分=75分,標準差=6分,甘肅平均分=65分,標準差=8分。如果一名考生靠了90分,那么他會被錄取嗎?【解】我們先計算標準分:山東:甘肅:查標準正態(tài)分布表,p325,因為每一個Z值都可以直接找到正態(tài)分布表中的面積。查表得,山東的考生位于前0.62%的位置,而甘肅的考試位于高于0.13%的位置,所以在山東不會被錄取,在甘肅則會被錄取。四、正態(tài)分布表在各種統(tǒng)計學(xué)教科書的附錄中以及數(shù)學(xué)手冊中,都列有正態(tài)分布表,表中以某種形式詳細給出了服從標準正態(tài)分布的變量Z的各種值的分布頻率,即給出了變量Z小于各待查值的頻率,但是具體的又不盡相同,比如盧淑華的教材Z分布表是指負無窮到Z的概率分布,而張彥教材是從0-Z。正態(tài)分布的計算方式(1)負值概率P(-Z0)=0.5-F(Z0)

如P(Z≤-1.3)=1-P(1.3)=1-0.9032=0.0968(2)任意區(qū)間:P(Z1≤Z≤Z2)=F(Z2)-F(Z1)(3)P(Z≥Z0)=0.5-F(Z0)(4)P(Z≥-Z0)=0.5+F(Z0)【例題1】【例2】

首先求0.5-0.05=0.45然后查表可得對應(yīng)的Z值,介于1.6到1.7之間?!纠?】或者0.05的一半為0.025,0.5-0.025=0.975查表,得Z0=1.96【例4】根據(jù)統(tǒng)計,濟南市初婚年齡服從正態(tài)分布,其均值是25歲,標準差為5歲,問25到30歲之間結(jié)婚的人,其百分數(shù)是多少?【解】為了使用正態(tài)分布表,首先必須將年齡換算為標準分:

查表得

所以濟南市25歲到30歲之間結(jié)婚的人百分比是34.13%。五、二項分布的正態(tài)近似法二項分布的應(yīng)用受到了樣本n的很大限制,只有當n很小的時候我們才能方便的使用公式計算二項分布。所幸的是,二項分布是以正態(tài)分布為極限的。當n很大(≥30)時,只要p或q不近于零,(np,nq都不小于5)我們都可以用正態(tài)分布近似的解決二項分布的計算問題。令

,將B(n,p)視為N(np,npq)來計算。參見張彥教材的例題,P114-115頁,【7.3.4】【7.3.5】【例7.3.4】在拋擲一枚硬幣10次的二項實驗中,試以二項分布與二項分布的正態(tài)近似法,求成功3到6次的概率。

【例7.3.5】鐵路部門預(yù)計在有車票的旅客中有5%趕不上該列車,該列車有座位600個,但卻售出了620張票,求每位旅客都有座位的概率。

第二節(jié)卡方分布

(Chi-squaredistribution)

第三節(jié)t分布(t-distribution)1900年左右,統(tǒng)計學(xué)家開始覺得標準正態(tài)分布并不總是用來尋找概率的正確分布。WilliamGosset是一名為愛爾蘭的都柏林一家啤酒廠GuinnessBreweries工作的化學(xué)家,數(shù)學(xué)是他的副科;他是對此感到懷疑的人之一。他決定經(jīng)驗地檢驗在概率問題中使用標準正態(tài)分布是否總是對的。有些不可思議地,Gosset以收集3000個犯人的身高和左手中指長度來開始他的探索。從這兩個數(shù)據(jù)集(身高和手指長度),他對每一個變量各選擇了四個觀察值,因此他有了750個不同的樣本。對于每一個樣本他都計算了一個叫做t的值。然后他制作了兩個直方圖,想看一看每一個樣本的所有的t值的分布是什么樣的?它們與標準正態(tài)分布有多類似?Gosset發(fā)現(xiàn)他的兩個直方圖的形狀非常接近,但是與標準正態(tài)分布有很大不同。他將這個新分布叫作t分布(t-distribution),他計算得出的值也叫t值。他在發(fā)表這個結(jié)果時,因為他們公司的老板不愿意讓員工發(fā)表文章,害怕他們會將釀造啤酒的秘密泄露出去,所以他署了一個假名叫做“學(xué)生”,因此t分布有時也叫做學(xué)生分布(Student'st),后來,F(xiàn)isher將Gosset的經(jīng)驗結(jié)論進行了數(shù)學(xué)化;他對t分布的曲線導(dǎo)出了相應(yīng)的數(shù)學(xué)函數(shù)。今天,這個分布已經(jīng)是迄今最常用的分布了。

下圖是自由度為10的t分布圖。t曲線下的總面積是1.00,與正態(tài)分布相同。分布是單峰和對稱于t=0的。這看起來和正態(tài)分布類似,并且我們很難看出t圖與正態(tài)分布圖有什么不同。但實際上它們確實是有區(qū)別的。正態(tài)分布和t分布這兩個曲線的基本形狀相同,但是正態(tài)分布的中部較高,t分布在水平軸上的收斂不像正態(tài)分布那么快。這個區(qū)別表明t分布在其均值周圍的聚集程度比正態(tài)分布要差一些。例如,z變量大于2.5的概率等于0.0062,但自曲度為10的t變量大于2.5的概率等于0.0152。換句話說,10000個z值中只有62個比2.5大,但是在10000個t值中有152個大于2.5。仍然,自由度為10的t值有95%落在-2.228和+2.228的區(qū)間內(nèi)。這就意味著,和正態(tài)分布相比,我們必須到離中點更遠的地方去獲得95%的t值。而回顧正態(tài)分布,有95%的取值落在一1.96和+1.96的區(qū)間內(nèi)。

t分布的自由度越大,則該t分布的曲線就越接近正態(tài)分布。在自由度大于30以后就很難說出這兩種曲線的差異了。在自由度等于50時這兩種曲線就幾乎相同了。這就是為什么統(tǒng)計表中列出的t分布的自由度只到120的原因;此后就可以使用正態(tài)分布表來代替了。第四節(jié)F分布(FDistribution)F分布族的命名是為了紀念偉大的英國統(tǒng)計學(xué)家RonaldFisher爵士。F分部是一種常見的連續(xù)型隨機變量的概率分布,被廣泛應(yīng)用于似然比率檢驗,特別是ANOVA中。定義設(shè)X1服從自由度為k1的卡方分布,X2服從自由度為k2的卡方分布,且X1和X2相互獨立,則稱變量

服從F分布,用F(k1,k2)來表示,其中第一自由度是k1,第二自由度是k2。一個F分布的隨機變量是兩個卡方分布變量的比率。還是設(shè)想一些裝滿了寫有數(shù)字紙片的桶。每一個桶都代表一種F分布并且有一對標號,例如4和40。則這個桶代表了自由度為4和40的F分布。

一個比較詳細的F分布表應(yīng)有1000個不同F(xiàn)分布的信息。所以我們教材后面用了厚厚幾頁紙列出了常用的F統(tǒng)計量值。下圖是自由度為4和40的F分布的圖形。

從圖上我們知道和卡方變量一樣,F(xiàn)變量也是非負的,F(xiàn)分布中的取值大部分在0到5之間變化。在自由度小時,F(xiàn)值要大些。對這個特定的F分布,大多數(shù)F變量的取值看來都小于3。由F分布表,5%的F值大于2.45,而只有1%的F值大于3.83。因此,隨機選擇一個自由度為4和40的F分布

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論