版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)分析
(方法與案例)
作者賈俊平統(tǒng)計(jì)學(xué)統(tǒng)
計(jì)
學(xué)
Statisticsyyyy-M-數(shù)學(xué)定律不能百分之百確切地用在現(xiàn)實(shí)生活里;能百分之百確切地用數(shù)學(xué)定律描述的,就不是現(xiàn)實(shí)生活
——AlberEinstein統(tǒng)計(jì)名言yyyy-M-第4
章概率分布4.1度量事件發(fā)生的可能性3.2隨機(jī)變量概率分布3.3由正態(tài)分布導(dǎo)出的幾個(gè)重要分布3.4樣本統(tǒng)計(jì)量的概率分布probabilityyyyy-M-學(xué)習(xí)目標(biāo)度量事件發(fā)生的可能性—概率離散型概率分布二項(xiàng)分布,泊松分布,超幾何分布連續(xù)型概率分布正態(tài)分布由正態(tài)分布導(dǎo)出的幾個(gè)重要分布c2-分布,t-分布,F(xiàn)-分布樣本統(tǒng)計(jì)量的概率分布yyyy-M-神州七號(hào)飛船遭遇空間碎片的概率有多大?2008年9月25日21:10分,搭載著神舟七號(hào)載人飛船的長(zhǎng)征二號(hào)F型運(yùn)載火箭,在酒泉衛(wèi)星發(fā)射中心成功發(fā)射升空,并在完成中國航天員首次太空行走和各項(xiàng)科學(xué)試驗(yàn)任務(wù)后,于2008年9月28日17時(shí)38分安全返回太空中充斥著難以計(jì)數(shù)的空間碎片,隨時(shí)會(huì)給飛船帶來致命的沖擊。據(jù)中國科學(xué)院空間環(huán)境研究預(yù)報(bào)中心預(yù)測(cè),神州七號(hào)載人航天飛船在飛行期間遭遇空間碎片的概率在百萬分之一以下yyyy-M-神州七號(hào)飛船遭遇空間碎片的概率有多大?空間碎片是人類空間活動(dòng)的產(chǎn)物,包括完成任務(wù)的火箭箭體和衛(wèi)星本體、火箭的噴射物、航天員的拋棄物、空間物體之間碰撞產(chǎn)生的碎塊等,是空間環(huán)境的主要污染源??臻g碎片的飛行速度平均每秒10公里,最高時(shí)速達(dá)每秒16公里。在這樣的速度下,一個(gè)1厘米的碎片就可以把擁有各種防護(hù)功能的飛船打穿一個(gè)洞。航天員的艙外航天服更經(jīng)不起碰撞據(jù)中國科學(xué)院空間環(huán)境研究預(yù)報(bào)中心預(yù)測(cè)專家說,世界各國聯(lián)合起來對(duì)10厘米至30厘米的大塊碎片進(jìn)行監(jiān)測(cè),是能夠發(fā)現(xiàn)它的軌跡的。但對(duì)于較小的碎片,人類的觀測(cè)設(shè)備沒有辦法觀測(cè)得到,因此還沒有辦法較為準(zhǔn)確地掌握它的運(yùn)行軌跡,只能通過它碰撞、破碎的演化規(guī)律來盡可能多地了解它的運(yùn)行yyyy-M-神州七號(hào)飛船遭遇空間碎片的概率有多大?目前可被地面觀測(cè)設(shè)備觀測(cè)并測(cè)定其軌道的空間物體超過9000個(gè),其中只有6%是仍在工作的航天器,其余為空間碎片在神舟七號(hào)載人航天飛行期間,預(yù)計(jì)將有10個(gè)左右的危險(xiǎn)時(shí)段可能會(huì)遭遇空間碎片的碰撞,只要避開這些危險(xiǎn)時(shí)段,碰撞的概率都是在百萬分之一以下。即使是在那幾個(gè)危險(xiǎn)的時(shí)段,飛船或航天員與空間碎片碰撞的概率也在萬分之一以下?lián)袊茖W(xué)院空間環(huán)境研究預(yù)報(bào)中心專家稱,這種小概率事件意味著我們幾乎可以保證飛船不會(huì)與空間碎片相撞yyyy-M-4.1度量事件發(fā)生的可能性概率是什么?怎樣獲得概率?怎樣理解概率?第4章概率分布yyyy-M-什么是概率?
(probability)概率是對(duì)事件發(fā)生的可能性大小的度量明天降水的概率是80%。這里的80%就是對(duì)降水這一事件發(fā)生的可能性大小的一種數(shù)值度量你購買一只股票明天上漲的可能性是30%,這也是一個(gè)概率一個(gè)介于0和1之間的一個(gè)值事件A的概率記為P(A)yyyy-M-怎樣獲得概率?重復(fù)試驗(yàn)獲得概率當(dāng)試驗(yàn)的次數(shù)很多時(shí),概率P(A)可以由所觀察到的事件A發(fā)生次數(shù)(頻數(shù))的比例來逼近在相同條件下,重復(fù)進(jìn)行n次試驗(yàn),事件A發(fā)生了m次,則事件A發(fā)生的概率可以寫為
用類似的比例來逼近一家餐館將生存5年的概率,可以用已經(jīng)生存了5年的類似餐館所占的比例作為所求概率一個(gè)近似值主觀概率yyyy-M-怎樣理解概率?投擲一枚硬幣,出現(xiàn)正面和反面的頻率,隨著投擲次數(shù)n的增大,出現(xiàn)正面和反面的頻率穩(wěn)定在1/2左右(注意:拋擲完成后,其結(jié)果就是一個(gè)數(shù)據(jù),要么一定是正面,要么一定是反面,就不是概率問題了)試驗(yàn)的次數(shù)正面/試驗(yàn)次數(shù)1.000.000.250.500.750255075100125yyyy-M-4.2隨機(jī)變量的概率分布
4.2.1隨機(jī)變量及其概括性度量
4.2.2離散型概率分布
4.2.3連續(xù)型概率分布第4章概率分布yyyy-M-4.2.1隨機(jī)變量及其概括性度量4.2隨機(jī)變量的概率分布yyyy-M-什么是隨機(jī)變量?
(randomvariables)事先不知道會(huì)出現(xiàn)什么結(jié)果投擲兩枚硬幣出現(xiàn)正面的數(shù)量一座寫字樓,每平方米的出租價(jià)格一個(gè)消費(fèi)者對(duì)某一特定品牌飲料的偏好一般用X,Y,Z來表示根據(jù)取值情況的不同分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量yyyy-M-離散型隨機(jī)變量
(discreterandomvariables)隨機(jī)變量X
取有限個(gè)值或所有取值都可以逐個(gè)列舉出來x1,x2,…以確定的概率取這些不同的值離散型隨機(jī)變量的一些例子試驗(yàn)隨機(jī)變量可能的取值抽查100個(gè)產(chǎn)品一家餐館營業(yè)一天電腦公司一個(gè)月的銷售銷售一輛汽車取到次品的個(gè)數(shù)顧客數(shù)銷售量顧客性別0,1,2,…,1000,1,2,…0,1,2,…男性為0,女性為1yyyy-M-連續(xù)型隨機(jī)變量
(continuousrandomvariables)可以取一個(gè)或多個(gè)區(qū)間中任何值所有可能取值不可以逐個(gè)列舉出來,而是取數(shù)軸上某一區(qū)間內(nèi)的任意點(diǎn)連續(xù)型隨機(jī)變量的一些例子試驗(yàn)隨機(jī)變量可能的取值抽查一批電子元件新建一座住宅樓測(cè)量一個(gè)產(chǎn)品的長(zhǎng)度使用壽命(小時(shí))半年后完工的百分比測(cè)量誤差(cm)X00
X100X0yyyy-M-離散型隨機(jī)變量的期望值
(expectedvalue)描述離散型隨機(jī)變量取值的集中程度離散型隨機(jī)變量X的所有可能取值xi與其取相對(duì)應(yīng)的概率pi乘積之和記為或E(X),計(jì)算公式為yyyy-M-離散型隨機(jī)變量的方差
(variance)隨機(jī)變量X的每一個(gè)取值與期望值的離差平方和的數(shù)學(xué)期望,記為2
或D(X)描述離散型隨機(jī)變量取值的分散程度計(jì)算公式為方差的平方根稱為標(biāo)準(zhǔn)差,記為或D(X)yyyy-M-離散型數(shù)學(xué)期望和方差
(例題分析)
【例4-1】一家電腦配件供應(yīng)商聲稱,他所提供的配件100個(gè)中擁有次品的個(gè)數(shù)及概率如下表。求該供應(yīng)商次品數(shù)的數(shù)學(xué)期望和標(biāo)準(zhǔn)差次品數(shù)X=xi0123概率P(X=xi)pi0.750.120.080.05yyyy-M-連續(xù)型隨機(jī)變量的期望和方差連續(xù)型隨機(jī)變量的期望值方差yyyy-M-4.2.2離散型概率分布4.2隨機(jī)變量的概率分布yyyy-M-離散型隨機(jī)變量的概率分布列出離散型隨機(jī)變量X的所有可能取值列出隨機(jī)變量取這些值的概率通常用下面的表格來表示X=xix1,x2
,…,xnP(X=xi)=pip1,p2
,…,pn
P(X=xi)=pi稱為離散型隨機(jī)變量的概率函數(shù)pi0;常用的有二項(xiàng)分布、泊松分布、超幾何分布等yyyy-M-二項(xiàng)試驗(yàn)
(Bernoulli試驗(yàn))
二項(xiàng)分布建立在Bernoulli試驗(yàn)基礎(chǔ)上貝努里試驗(yàn)滿足下列條件一次試驗(yàn)只有兩個(gè)可能結(jié)果,即“成功”和“失敗”“成功”是指我們感興趣的某種特征一次試驗(yàn)“成功”的概率為p,失敗的概率為q=1-p,且概率p對(duì)每次試驗(yàn)都是相同的
試驗(yàn)是相互獨(dú)立的,并可以重復(fù)進(jìn)行n次
在n次試驗(yàn)中,“成功”的次數(shù)對(duì)應(yīng)一個(gè)離散型隨機(jī)變量X
yyyy-M-二項(xiàng)分布
(Binomialdistribution)重復(fù)進(jìn)行
n
次試驗(yàn),出現(xiàn)“成功”的次數(shù)的概率分布稱為二項(xiàng)分布,記為X~B(n,p)設(shè)X為n次重復(fù)試驗(yàn)中出現(xiàn)成功的次數(shù),X取x
的概率為yyyy-M-二項(xiàng)分布
(期望值和方差)期望值
=E(X)=np方差
2
=D(X)=npq0.00.20.40.6012345XP(X)n=5p=0.50.20.40.6012345XP(X)n=5p=0.1yyyy-M-二項(xiàng)分布
(例題分析)
【例4-2】已知一批產(chǎn)品的次品率為4%,從中任意有放回地抽取5個(gè)。求5個(gè)產(chǎn)品中
(1)沒有次品的概率是多少?
(2)恰好有1個(gè)次品的概率是多少?
(3)有3個(gè)以下次品的概率是多少?yyyy-M-二項(xiàng)分布
(用Excel計(jì)算概率)第1步:在Excel表格界面,直接點(diǎn)擊【fx】(插入函數(shù))命令
第2步:在【選擇類別】中點(diǎn)擊【統(tǒng)計(jì)】,并在【選擇函數(shù)】
中點(diǎn)擊【BINOMDIST】,然后單擊【確定】第3步:在【Number_s】后填入試驗(yàn)成功次數(shù)(本例為1)
在【Trials】后填入總試驗(yàn)次數(shù)(本例為5)
在【Probability_s】后填入試驗(yàn)的成功概率(本例為
0.04)
在【Cumulative】后填入0(或FALSE),表示計(jì)算成功次數(shù)恰好等于指定數(shù)值的概率(填入1或TRUE表示計(jì)算成功次數(shù)小于或等于指定數(shù)值的累積概率值)計(jì)算二項(xiàng)分布的概率Excelyyyy-M-泊松分布
(Poissondistribution)1837年法國數(shù)學(xué)家泊松(D.Poisson,1781—1840)首次提出用于描述在一指定時(shí)間范圍內(nèi)或在一定的長(zhǎng)度、面積、體積之內(nèi)每一事件出現(xiàn)次數(shù)的分布泊松分布的例子一定時(shí)間段內(nèi),某航空公司接到的訂票電話數(shù)一定時(shí)間內(nèi),到車站等候公共汽車的人數(shù)一定路段內(nèi),路面出現(xiàn)大損壞的次數(shù)一定時(shí)間段內(nèi),放射性物質(zhì)放射的粒子數(shù)一匹布上發(fā)現(xiàn)的疵點(diǎn)個(gè)數(shù)一定頁數(shù)的書刊上出現(xiàn)的錯(cuò)別字個(gè)數(shù)
yyyy-M-泊松分布
(概率分布函數(shù))—給定的時(shí)間間隔、長(zhǎng)度、面積、體積內(nèi)“成功”的平均數(shù)e=2.71828x—給定的時(shí)間間隔、長(zhǎng)度、面積、體積內(nèi)“成功”的次數(shù)yyyy-M-泊松分布
(期望值和方差)期望值
E(X)=方差
D(X)=
0.00.20.40.6012345XP(X)0.00.20.40.60246810XP(X)l
=6l
=0.5yyyy-M-泊松分布
(例題分析)【例4-3】假定某航空公司預(yù)訂票處平均每小時(shí)接到42次訂票電話,那么10分鐘內(nèi)恰好接到6次電話的概率是多少?解:設(shè)X=10分鐘內(nèi)航空公司預(yù)訂票處接到的電話次數(shù)
yyyy-M-泊松分布
(用Excel計(jì)算概率)第1步:在Excel表格界面,直接點(diǎn)擊【fx】(插入函數(shù))命令
第2步:在【選擇類別】中點(diǎn)擊【統(tǒng)計(jì)】,并在【選擇函數(shù)】
中點(diǎn)擊【POISSON
】,然后單擊【確定】第3步:在【X】后填入事件出現(xiàn)的次數(shù)(本例為6)
在【Means】后填入泊松分布的均值(本例為7)
在【Cumulative】后填入0(或FALSE),表示計(jì)算成功次數(shù)恰好等于指定數(shù)值的概率(填入1或TRUE表示計(jì)算成功次數(shù)小于或等于指定數(shù)值的累積概率值)計(jì)算泊松分布的概率Excelyyyy-M-幾何分布幾何分布(Geometricdistribution)是離散型概率分布。其中一種定義為:在第n次伯努利試驗(yàn),才得到第一次成功的機(jī)率。詳細(xì)的說,是:n次伯努利試驗(yàn),前n-1次皆失敗,第n次才成功的概率。yyyy-M-例:袋中有紅球,黃球,藍(lán)球各一個(gè).從中有放回地每次任取一個(gè),直到取到紅球?yàn)橹?試求取球次數(shù)X的概率分布,以及第4次首次取到紅球的概率yyyy-M-超幾何分布
(hypergeometricdistribution)采用不重復(fù)抽樣,各次試驗(yàn)并不獨(dú)立,成功的概率也互不相等總體元素的數(shù)目N很小,或樣本容量n相對(duì)于N來說較大時(shí),樣本中“成功”的次數(shù)則服從超幾何概率分布概率分布函數(shù)為yyyy-M-超幾何分布
(例題分析)【例4-4】假定有10支股票,其中有3支購買后可以獲利,另外7支購買后將會(huì)虧損。如果你打算從10支股票中選擇4支購買,但你并不知道哪3支是獲利的,哪7支是虧損的。求
(1)有3支能獲利的股票都被你選中的概率有多大?
(2)3支可獲利的股票中有2支被你選中的概率有多大?解:設(shè)N=10,M=3,n=4yyyy-M-超幾何分布
(用Excel計(jì)算概率)第1步:在Excel表格界面,直接點(diǎn)擊【fx】(插入函數(shù))命令
第2步:在【選擇類別】中點(diǎn)擊【統(tǒng)計(jì)】,并在【選擇函數(shù)】
中點(diǎn)擊【HYPGEOMDIST】,然后單擊【確定】第3步:在【Sample_s】后填入樣本中成功的次數(shù)x(本例為3)
在【Number_sample】后填入樣本容量n(本例為4)
在【Population_s】后填入總體中成功的次數(shù)M(本例為3)
在【Number_pop】后填入總體中的個(gè)體總數(shù)N
(本例為10)計(jì)算超幾何分布的概率Excelyyyy-M-4.2.3連續(xù)型概率分布4.2隨機(jī)變量的概率分布yyyy-M-連續(xù)型隨機(jī)變量的概率分布連續(xù)型隨機(jī)變量可以取某一區(qū)間或整個(gè)實(shí)數(shù)軸上的任意一個(gè)值它取任何一個(gè)特定的值的概率都等于0不能列出每一個(gè)值及其相應(yīng)的概率通常研究它取某一區(qū)間值的概率用概率密度函數(shù)的形式和分布函數(shù)的形式來描述yyyy-M-常用連續(xù)型概率分布yyyy-M-連續(xù)型隨機(jī)變量的期望和方差連續(xù)型隨機(jī)變量的數(shù)學(xué)期望方差yyyy-M-例:設(shè)隨機(jī)變量X的概率密度函數(shù)為試求X的數(shù)學(xué)期望解yyyy-M-例:設(shè)隨機(jī)變量X概率密度為p(x),求D(X)。解于是,D(X)=E(X2)-[E(X)]2=1/6yyyy-M-正態(tài)分布
(normaldistribution)設(shè)A到B的真實(shí)距離為U,X為測(cè)量值,則服從什么分布?yyyy-M-正態(tài)分布
(normaldistribution)由C.F.高斯(CarlFriedrichGauss,1777—1855)作為描述誤差相對(duì)頻數(shù)分布的模型而提出描述連續(xù)型隨機(jī)變量的最重要的分布許多現(xiàn)象都可以由正態(tài)分布來描述可用于近似離散型隨機(jī)變量的分布例如:二項(xiàng)分布經(jīng)典統(tǒng)計(jì)推斷的基礎(chǔ)xf(x)yyyy-M-概率密度函數(shù)f(x)=隨機(jī)變量X的頻數(shù)
=正態(tài)隨機(jī)變量X的均值=正態(tài)隨機(jī)變量X的方差
=3.1415926;e=2.71828x=隨機(jī)變量的取值(-<x<+)yyyy-M-正態(tài)分布函數(shù)的性質(zhì)圖形是關(guān)于x=對(duì)稱鐘形曲線,且峰值在x=處均值和標(biāo)準(zhǔn)差一旦確定,分布的具體形式也惟一確定,不同參數(shù)正態(tài)分布構(gòu)成一個(gè)完整的“正態(tài)分布族”均值可取實(shí)數(shù)軸上的任意數(shù)值,決定正態(tài)曲線的具體位置;標(biāo)準(zhǔn)差決定曲線的“陡峭”或“扁平”程度。越大,正態(tài)曲線扁平;越小,正態(tài)曲線越高陡峭當(dāng)X的取值向橫軸左右兩個(gè)方向無限延伸時(shí),曲線的兩個(gè)尾端也無限漸近橫軸,理論上永遠(yuǎn)不會(huì)與之相交正態(tài)隨機(jī)變量在特定區(qū)間上的取值概率由正態(tài)曲線下的面積給出,而且其曲線下的總面積等于1
yyyy-M-和對(duì)正態(tài)曲線的影響xf(x)CAB=1/212=1yyyy-M-正態(tài)分布的概率概率是曲線下的面積!abxf(x)yyyy-M-標(biāo)準(zhǔn)正態(tài)分布
(standardizenormaldistribution)標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)隨機(jī)變量具有均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布任何一個(gè)一般的正態(tài)分布,可通過下面的線性變換轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)yyyy-M-正態(tài)分布
(用Excel計(jì)算正態(tài)分布的概率)第1步:在Excel表格界面中,點(diǎn)擊“fx
”(插入函數(shù))命令第2步:在【選擇類別】中點(diǎn)擊【統(tǒng)計(jì)】,并在【選擇函數(shù)】
中點(diǎn)擊【NORMDIST】,然后單擊【確定】第3步:在【X】后輸入正態(tài)分布函數(shù)計(jì)算的區(qū)間點(diǎn)(即x值)
在【Mean】后輸入正態(tài)分布的均值在【Standard_dev】后輸入正態(tài)分布的標(biāo)準(zhǔn)差在【Cumulative】后輸入1(或TRUE)表示計(jì)算事件出現(xiàn)次數(shù)小于或等于指定數(shù)值的累概率單擊【確定】yyyy-M-正態(tài)分布
(計(jì)算標(biāo)準(zhǔn)正態(tài)分布的概率和反函數(shù)值)第1步:在Excel表格界面中,點(diǎn)擊“fx
”(插入函數(shù))命令第2步:在【選擇類別】中點(diǎn)擊【統(tǒng)計(jì)】,并在【選擇函數(shù)】中點(diǎn)擊
【NORMSDIST】,單擊【確定】第3步:在【Z】后輸入Z的值。單擊【確定】第1步:在Excel表格界面中,點(diǎn)擊“fx
”(插入函數(shù))命令第2步:在【選擇類別】中點(diǎn)擊【統(tǒng)計(jì)】,并在【選擇函數(shù)】中點(diǎn)擊
【NORMSINV】,然后單擊【確定】第3步:在【Probability】后輸入給定的概率值。單擊【確定】計(jì)算概率計(jì)算z值yyyy-M-正態(tài)分布
(例題分析)【例4-5】計(jì)算以下概率
(1)
X~N(50,102),求和
(2)
Z~N(0,1),求和
(3)正態(tài)分布概率為0.05時(shí),求標(biāo)準(zhǔn)正態(tài)累積分布函數(shù)的反函數(shù)值z(mì)
正態(tài)分布的計(jì)算概率
Excelyyyy-M-某市準(zhǔn)備通過考試招聘300名公務(wù)員,其中280名正式工,20名實(shí)習(xí)工。實(shí)際報(bào)考人數(shù)為1657名,考試滿分400分,考后不久,通過當(dāng)?shù)匦侣劽襟w得到如下信息:考試平均成績(jī)是166分,360分以上的高分考生31名。某考生A的成績(jī)?yōu)?56分。他能被錄取嗎?若被錄取,能否是正式工?yyyy-M-數(shù)據(jù)正態(tài)性的評(píng)估對(duì)數(shù)據(jù)畫出頻數(shù)分布的直方圖或莖葉圖若數(shù)據(jù)近似服從正態(tài)分布,則圖形的形狀與上面給出的正態(tài)曲線應(yīng)該相似繪制正態(tài)概率圖。有時(shí)也稱為分位數(shù)—分位數(shù)圖或稱Q-Q圖或稱為P-P圖用于考察觀測(cè)數(shù)據(jù)是否符合某一理論分布,如正態(tài)分布、指數(shù)分布、t分布等等P-P圖是根據(jù)觀測(cè)數(shù)據(jù)的累積概率與理論分布(如正態(tài)分布)的累積概率的符合程度繪制的Q-Q圖則是根據(jù)觀測(cè)值的實(shí)際分位數(shù)與理論分布(如正態(tài)分布)的分位數(shù)繪制的使用非參數(shù)檢驗(yàn)中的Kolmogorov-Smirnov檢驗(yàn)(K-S檢驗(yàn))yyyy-M-用SPSS繪制正態(tài)概率圖
第1步:選擇【Graphs】下拉菜單,并選擇【P-P】
或【Q-Q】選項(xiàng)進(jìn)入主對(duì)話框第2步:在主對(duì)話框中將變量選入【Variables】
,點(diǎn)擊【OK】繪制正態(tài)概率圖SPSSyyyy-M-正態(tài)概率圖的繪制
(例題分析)P-P圖
Q-Q圖
【例4-6】第2章中電腦銷售額的正態(tài)概率圖yyyy-M-正態(tài)概率圖的分析
(normalprobabilityplots)實(shí)際應(yīng)用中,只有樣本數(shù)據(jù)較多時(shí)正態(tài)概率圖的效果才比較好。當(dāng)然也可以用于小樣本,但此時(shí)可能會(huì)出現(xiàn)與正態(tài)性有較大偏差的情況在分析正態(tài)概率圖時(shí),最好不要用嚴(yán)格的標(biāo)準(zhǔn)去衡量數(shù)據(jù)點(diǎn)是否在一條直線上,只要近似在一條直線上即可對(duì)于樣本點(diǎn)中數(shù)值最大或最小的點(diǎn)也可以不用太關(guān)注,除非這些點(diǎn)偏離直線特別遠(yuǎn),因?yàn)檫@些點(diǎn)通常會(huì)與直線有偏離。如果某個(gè)點(diǎn)偏離直線特別遠(yuǎn),而其他點(diǎn)又基本上在直線上時(shí),這個(gè)點(diǎn)可能是離群點(diǎn),可不必考慮yyyy-M-4.3由正態(tài)分布導(dǎo)出的幾個(gè)重要分布
4.3.1t
分布
4.3.22
分布
4.3.3F
分布第4章概率分布yyyy-M-4.3.1t
分布4.3由正態(tài)分布導(dǎo)出的幾個(gè)重要分布yyyy-M-t-分布
(t-distribution)提出者是WilliamGosset,也被稱為學(xué)生分布(student’st)
t分布是類似正態(tài)分布的一種對(duì)稱分布,通常要比正態(tài)分布平坦和分散。一個(gè)特定的分布依賴于稱之為自由度的參數(shù)。隨著自由度的增大,分布也逐漸趨于正態(tài)分布xt
分布與標(biāo)準(zhǔn)正態(tài)分布的比較t分布標(biāo)準(zhǔn)正態(tài)分布t不同自由度的t分布標(biāo)準(zhǔn)正態(tài)分布t(df=13)t(df=5)zyyyy-M-t-分布
(用Excel計(jì)算t分布的概率和臨界值)利用Excel中的【TDIST】統(tǒng)計(jì)函數(shù),可以計(jì)算給定值和自由度時(shí)分布的概率值語法:TDIST(x,degrees_freedom,tails)
利用【TINV】函數(shù)則可以計(jì)算給定概率和自由度時(shí)的相應(yīng)
語法:TINV(probability,degrees_freedom)計(jì)算t分布的臨界值Excelyyyy-M-4.3.22
分布4.3由正態(tài)分布導(dǎo)出的幾個(gè)重要分布yyyy-M-由阿貝(Abbe)
于1863年首先給出,后來由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson)
分別于1875年和1900年推導(dǎo)出來設(shè),則令,則y服從自由度為1的2分布,即對(duì)于n個(gè)正態(tài)隨機(jī)變量y1
,y2
,yn,則隨機(jī)變量稱為具有n個(gè)自由度的2分布,記為c2-分布
(2-distribution)yyyy-M-分布的變量值始終為正分布的形狀取決于其自由度n的大小,通常為不對(duì)稱的正偏分布,但隨著自由度的增大逐漸趨于對(duì)稱期望為:E(2)=n,方差為:D(2)=2n(n為自由度)可加性:若U和V為兩個(gè)獨(dú)立的2分布隨機(jī)變量,U~2(n1),V~2(n2),則U+V這一隨機(jī)變量服從自由度為n1+n2的2分布c2-分布
(性質(zhì)和特點(diǎn))yyyy-M-不同自由度的c2-分布c2n=1n=4n=10n=20yyyy-M-c2-分布
(用Excel計(jì)算c2分布的概率)利用Excel提供的【CHIDIST】統(tǒng)計(jì)函數(shù),計(jì)算c2分布右單尾的概率值語法:CHIDIST(x,degrees_freedom)
,其中df為自由度,x,是隨機(jī)變量的取值利用【CHIINV】函數(shù)則可以計(jì)算給定右尾概率和自由度時(shí)相應(yīng)的反函數(shù)值語法:CHIINV(probability,degrees_freedom)
計(jì)算c2
分布的概率Excelyyyy-M-4.3.3F
分布4.3由正態(tài)分布導(dǎo)出的幾個(gè)重要分布yyyy-M-為紀(jì)念統(tǒng)計(jì)學(xué)家費(fèi)希爾(R.A.Fisher)
以其姓氏的第一個(gè)字母來命名則設(shè)若U為服從自由度為n1的2分布,即U~2(n1),V為服從自由度為n2的2分布,即V~2(n2),且U和V相互獨(dú)立,則稱F為服從自由度n1和n2的F分布,記為F-分布
(F
distribution)yyyy-M-不同自由度的F分布F(1,10)(5,10)(10,10)yyyy-M-F-分布
(用Excel計(jì)算F分布的概率和臨街值)利用Excel提供的【FDIST】統(tǒng)計(jì)函數(shù),計(jì)算分布右單尾的概率值語法:FDIST(x,degrees_freedom1,degrees_freedom2)利用【FINV】函數(shù)則可以計(jì)算給定單尾概率和自由度時(shí)的相應(yīng)
語法:
FINV(probability,degrees_freedom1,degrees_freedom2)
計(jì)算F分布的概率Excelyyyy-M-4.4樣本統(tǒng)計(jì)量的概率分布
4.4.1統(tǒng)計(jì)量及其分布
4.4.2樣本均值的分布
4.4.3其他統(tǒng)計(jì)量的分布
4.4.4統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤差第4章概率分布yyyy-M-4.4.1統(tǒng)計(jì)量及其分布4.4樣本統(tǒng)計(jì)量的概率分布yyyy-M-參數(shù)和統(tǒng)計(jì)量參數(shù)(parameter)描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值一個(gè)總體的參數(shù):總體均值()、標(biāo)準(zhǔn)差()、總體比例();兩個(gè)總體參數(shù):(1-2)、(1-2)、(1/2)總體參數(shù)通常用希臘字母表示統(tǒng)計(jì)量(statistic)用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計(jì)算出來的一些量,是樣本的函數(shù)一個(gè)總體參數(shù)推斷時(shí)的統(tǒng)計(jì)量:樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等兩個(gè)總體參數(shù)推斷時(shí)的統(tǒng)計(jì)量:(x1-x2)、(p1-p2)、(s1/s2)樣本統(tǒng)計(jì)量通常用小寫英文字母來表示yyyy-M-樣本統(tǒng)計(jì)量的概率分布,是一種理論分布在重復(fù)選取容量為n的樣本時(shí),由該統(tǒng)計(jì)量的所有可能取值形成的相對(duì)頻數(shù)分布
隨機(jī)變量是樣本統(tǒng)計(jì)量樣本均值,樣本比例,樣本方差等結(jié)果來自容量相同的所有可能樣本提供了樣本統(tǒng)計(jì)量長(zhǎng)遠(yuǎn)而穩(wěn)定的信息,是進(jìn)行推斷的理論基礎(chǔ),也是抽樣推斷科學(xué)性的重要依據(jù)
抽樣分布
(samplingdistribution)yyyy-M-抽樣分布的形成過程
(samplingdistribution)總體樣本計(jì)算樣本統(tǒng)計(jì)量如:樣本均值、比例、方差yyyy-M-4.4.2樣本均值的分布4.4樣本統(tǒng)計(jì)量的概率分布yyyy-M-在重復(fù)選取容量為n的樣本時(shí),由樣本均值的所有可能取值形成的相對(duì)頻數(shù)分布一種理論概率分布推斷總體均值的理論基礎(chǔ)
樣本均值的分布yyyy-M-樣本均值的分布
(例題分析)【例4-10】設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體)
,即總體單位數(shù)N=4。4
個(gè)個(gè)體分別為x1=1,x2=2,x3=3,x4=4
??傮w的均值、方差及分布如下總體分布14230.1.2.3均值和方差yyyy-M-樣本均值的分布
(例題分析)
現(xiàn)從總體中抽取n=2的簡(jiǎn)單隨機(jī)樣本,在重復(fù)抽樣條件下,共有42=16個(gè)樣本。所有樣本的結(jié)果為3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個(gè)觀察值第一個(gè)觀察值所有可能的n=2的樣本(共16個(gè))yyyy-M-樣本均值的分布
(例題分析)計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個(gè)觀察值第一個(gè)觀察值16個(gè)樣本的均值(x)x樣本均值的抽樣分布1.000.10.20.3P
(x)1.53.04.03.52.02.5yyyy-M-樣本均值的分布與總體分布的比較
(例題分析)=2.5σ2=1.25總體分布樣本均值分布yyyy-M-樣本均值的分布
與中心極限定理=50
=10X總體分布n=4抽樣分布xn=16當(dāng)總體服從正態(tài)分布N(μ,σ2)時(shí),來自該總體的所有容量為n的樣本的均值x也服從正態(tài)分布,x
的期望值為μ,方差為σ2/n。即x~N(μ,σ2/n)y
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中音樂教學(xué)論文六篇
- 小班清明節(jié)語言課程設(shè)計(jì)
- 自控課程設(shè)計(jì)校正概論
- 2024綜合安全生產(chǎn)年終個(gè)人工作總結(jié)(30篇)
- 《高科技武器》課件
- 2024年職業(yè)技能鑒定中級(jí)題庫
- 種植睫毛自然課程設(shè)計(jì)
- 沿渡河水文預(yù)報(bào)課程設(shè)計(jì)
- 七年級(jí)下《認(rèn)識(shí)事件的可能性》浙教版-課件
- 制造業(yè)職工技能培訓(xùn)總結(jié)
- 土建定額培訓(xùn)課件
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實(shí)踐指導(dǎo)材料之13:“6策劃-6.2創(chuàng)新目標(biāo)及其實(shí)現(xiàn)的策劃”(雷澤佳編制-2025B0)
- 二年級(jí)上冊(cè)《語文園地八》日積月累
- ICD-10疾病編碼完整版
- 畢業(yè)設(shè)計(jì)(論文)安徽汽車產(chǎn)業(yè)的現(xiàn)狀分析及發(fā)展戰(zhàn)略研究
- 帆軟BIFineBI技術(shù)白皮書
- 絞車斜巷提升能力計(jì)算及絞車選型核算方法
- 6_背景調(diào)查表
- 畢業(yè)設(shè)計(jì)(論文)礦泉水瓶吹塑模設(shè)計(jì)
- 在離退休老干部迎新春座談會(huì)上的講話(通用)
- 圍擋計(jì)算書版
評(píng)論
0/150
提交評(píng)論