大學(xué)統(tǒng)計學(xué)第6章假設(shè)檢驗與方差分析課件_第1頁
大學(xué)統(tǒng)計學(xué)第6章假設(shè)檢驗與方差分析課件_第2頁
大學(xué)統(tǒng)計學(xué)第6章假設(shè)檢驗與方差分析課件_第3頁
大學(xué)統(tǒng)計學(xué)第6章假設(shè)檢驗與方差分析課件_第4頁
大學(xué)統(tǒng)計學(xué)第6章假設(shè)檢驗與方差分析課件_第5頁
已閱讀5頁,還剩121頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計學(xué)導(dǎo)論3-1第六章 假設(shè)檢驗與方差分析第一節(jié) 假設(shè)檢驗的基本原理 第二節(jié) 總體均值的假設(shè)檢驗 第三節(jié) 總體比例的假設(shè)檢驗 第四節(jié) 單因子方差分析第五節(jié) 雙因子方差分析第六節(jié) Excel在假設(shè)檢驗與方差分析 中的應(yīng)用2第一節(jié) 假設(shè)檢驗的基本原理一、什么是假設(shè)檢驗二、原假設(shè)與備擇假設(shè)三、檢驗統(tǒng)計量四、顯著性水平、P-值與臨界值五、雙側(cè)檢驗和單側(cè)檢驗六、假設(shè)檢驗的兩類錯誤七、關(guān)于假設(shè)檢驗結(jié)論的理解3一、什么是假設(shè)檢驗【例6-1】假定咖啡的分袋包裝生產(chǎn)線的裝袋重量服從正態(tài)分布N(,2)。生產(chǎn)線按每袋凈重150克的技術(shù)標(biāo)準(zhǔn)控制操作。現(xiàn)從生產(chǎn)線抽取簡單隨機樣本n=100袋,測得其平均重量為 =149.

2、8克,樣本標(biāo)準(zhǔn)差s=0.872克。問該生產(chǎn)線的裝袋凈重的期望值是否為150克(即問生產(chǎn)線是否處于控制狀態(tài))?4 所謂假設(shè)檢驗,就是事先對總體的參數(shù)或總體分布形式做出一個假設(shè),然后利用抽取的樣本信息來判斷這個假設(shè)(原假設(shè))是否合理,即判斷總體的真實情況與原假設(shè)是否存在顯著的系統(tǒng)性差異,所以假設(shè)檢驗又被稱為顯著性檢驗。5 一個完整的假設(shè)檢驗過程,包括以下幾個步驟:(1)提出假設(shè);(2)構(gòu)造適當(dāng)?shù)臋z驗統(tǒng)計量,并根據(jù)樣本計 算統(tǒng)計量的具體數(shù)值;(3)規(guī)定顯著性水平,建立檢驗規(guī)則;(4)做出判斷。6二、原假設(shè)與備擇假設(shè)原假設(shè)一般用H0表示,通常是設(shè)定總體參數(shù)等于某值,或服從某個分布函數(shù)等備擇假設(shè)是與原假

3、設(shè)互相排斥的假設(shè),原假設(shè)與備擇假設(shè)不可能同時成立。所謂假設(shè)檢驗問題實質(zhì)上就是要判斷H0是否正確,若拒絕原假設(shè)H0 ,則意味著接受備擇假設(shè)H1 。 如在例6-1中,我們可以提出兩個假設(shè):假設(shè)平均袋裝咖啡重量與所要控制的標(biāo)準(zhǔn)沒有顯著差異,記為 ;假設(shè)平均袋裝咖啡重量與所要控制的標(biāo)準(zhǔn)有顯著差異,記為 。7三、檢驗統(tǒng)計量所謂檢驗統(tǒng)計量,就是根據(jù)所抽取的樣本計算的用于檢驗原假設(shè)是否成立的隨機變量。檢驗統(tǒng)計量中應(yīng)當(dāng)含有所要檢驗的總體參數(shù),以便在“總體參數(shù)等于某數(shù)值”的假定下研究樣本統(tǒng)計量的觀測結(jié)果。檢驗統(tǒng)計量還應(yīng)該在“H0成立”的前提下有已知的分布,從而便于計算出現(xiàn)某種特定的觀測結(jié)果的概率。 8910四、

4、顯著性水平、P-值與臨界值1、判斷的依據(jù):小概率原理:小概率事件在單獨一次的試驗中基本上不會發(fā)生,可以不予考慮。2、判斷的邏輯:如果在原假設(shè)正確的前提下,檢驗統(tǒng)計量的樣本觀測值的出現(xiàn)屬于小概率事件,那么可以認(rèn)為原假設(shè)不可信,從而否定它,轉(zhuǎn)而接受備擇假設(shè)。11什么是小概率?這要根據(jù)實際問題而定。假設(shè)檢驗中,通常取=0.01,=0.05 ,最大到=0.10 。又稱為顯著性水平。3、判斷規(guī)則:一是P-值規(guī)則;二是臨界值規(guī)則。121)P-值規(guī)則 所謂P-值,實際上是檢驗統(tǒng)計量超過(大于或小于)具體樣本觀測值的概率。單側(cè)檢驗若p-值 ,不拒絕 H0若p-值 /2, 不拒絕 H0若p-值 /2, 拒絕 H

5、013【例6-3】假定,根據(jù)例6-2的結(jié)果,計算該問題的P-值,并做出判斷。 解:查標(biāo)準(zhǔn)正態(tài)概率表, 當(dāng)z=2.29時,(0.9774+0.9786)/2=0.9780, 尾部面積為(10.9780)/2=0.011, 由對稱性可知,當(dāng)z= 2.29時,左側(cè)面積為0.011。 0.011/2=0.025 0.011這個數(shù)字意味著,假若我們反復(fù)抽取n=100的樣本,在100個樣本中僅有可能出現(xiàn)一個使檢驗統(tǒng)計量等于或小于2.29的樣本。該事件發(fā)生的概率小于給定的顯著性水平,所以,可以判斷=150的假定是錯誤的,也就是說,根據(jù)觀測的樣本,有理由表明總體均值與150克的差異是顯著存在的。14(二)臨界

6、值規(guī)則 假設(shè)檢驗中,根據(jù)所提出的顯著性水平標(biāo)準(zhǔn)(它是概率密度曲線的尾部面積)查表得到相應(yīng)的檢驗統(tǒng)計量的數(shù)值,稱作臨界值,直接用檢驗統(tǒng)計量的觀測值與臨界值作比較,觀測值落在臨界值所劃定的尾部(稱之為拒絕域)內(nèi),便拒絕原假設(shè);觀測值落在臨界值所劃定的尾部之外(稱之為不能拒絕域)的范圍內(nèi),則認(rèn)為拒絕原假設(shè)的證據(jù)不足。15注意:1)P-值規(guī)則和臨界值規(guī)則是等價的。在做檢驗的時候,只用其中一個規(guī)則即可。2)P-值規(guī)則較之臨界值規(guī)則具有更明顯的優(yōu)點。第一,它更加簡捷;第二,在P-值規(guī)則的檢驗結(jié)論中,對于犯第一類錯誤的概率的表述更加精確。推薦使用P-值規(guī)則。16【例6-4】假定,根據(jù)例6-2的結(jié)果,用臨界值

7、規(guī)則做出判斷。 解:查表得到,臨界值z0.025= 1.96。由于 z= 2.29 1.96,即,檢驗統(tǒng)計量的觀測值落在臨界值所劃定的左側(cè)(即落在拒絕域),因而拒絕150克的原假設(shè)。上面的檢驗結(jié)果意味著,由樣本數(shù)據(jù)得到的觀測值的差異提醒我們:裝袋生產(chǎn)線的生產(chǎn)過程已經(jīng)偏離了控制狀態(tài),正在向裝袋重量低于技術(shù)標(biāo)準(zhǔn)的狀態(tài)傾斜。17五、雙側(cè)檢驗和單側(cè)檢驗 圖6-1 雙側(cè)、單側(cè)檢驗的拒絕域分配/21 /2Z/2 Z/2 Z 0 0 Z (a)雙側(cè)檢驗(b)左側(cè)檢驗 (c)右側(cè)檢驗 18 表6-1 拒絕域的單、雙側(cè)與備擇假設(shè)之間的對應(yīng)關(guān)系拒絕域位置P-值檢驗的顯著性水平判斷標(biāo)準(zhǔn)原假設(shè)備擇假設(shè)雙側(cè)/2H0:0

8、H1:0左單側(cè)H0:0H1:019六、假設(shè)檢驗的兩類錯誤20212223例;某工廠準(zhǔn)備購買一批較便宜的原材料,要是這批原材料的次品率大到5%以上,就拒絕購買。當(dāng)假設(shè)檢驗后拒絕購買,就會犯第一類錯誤,失去購買便宜原材料,而出高價購買,增加產(chǎn)品成本;當(dāng)假設(shè)檢驗后接受購買,就會犯第二類錯誤,不合格原材料使產(chǎn)品的次品率上升。怎么辦?工廠決策者有必要搞清楚哪一類錯誤造成的損失小,以減少成本。24七、關(guān)于假設(shè)檢驗結(jié)論的理解在假設(shè)檢驗中,當(dāng)原假設(shè)被拒絕時,我們能夠以較大的把握肯定備擇假設(shè)的成立。而當(dāng)原假設(shè)未被拒絕時,我們并不能認(rèn)為原假設(shè)確實成立。 25第二節(jié) 總體均值的假設(shè)檢驗一、單個總體均值的檢驗二、雙總

9、體均值是否相等的檢驗26一、單個總體均值的檢驗27282930313233例:某車間生產(chǎn)一種機器零件,已知其直徑平均長度為32.05,方差為1.21。現(xiàn)進行工藝改革,如果質(zhì)量不下降,可以進行全面改革,如果質(zhì)量下降則暫不改革。現(xiàn)隨機抽取6個零件,測得其直徑為:32.56,29.66,31.64,30.00,31.87,31.03。試以95%的顯著水平檢驗該改革是否可以實行?34解:假設(shè)為:臨界值:接受域:否定域:Z1.96或Z-1.96檢驗統(tǒng)計量:判斷:Z值落在否定域內(nèi),故拒絕H0。表明工藝改革前后,零件的平均直徑有顯著的差別,對生產(chǎn)影響是顯著。該改革是不可以實行35例:已知總體服從N(90,

10、502 )。從該總體中隨機抽取容量為25的樣本,得出樣本平均值為70。試以95%的顯著水平檢驗原假設(shè) 。36解:結(jié)論:否定原假設(shè)37例:某廠生產(chǎn)一種產(chǎn)品,原月產(chǎn)量服從N(75,14)。設(shè)備更新后,為了考察產(chǎn)量是否提高,抽查了六個月產(chǎn)量,得到平均月產(chǎn)量為78。問在顯著水平95%下,設(shè)備更新后月產(chǎn)量是否有顯著的提高?38解:為什么是單側(cè)檢驗?結(jié)論:否定原假設(shè),說明設(shè)備更新后,月產(chǎn)量有所提高。39例:已知某種汽油用二某種型號的汽車,每公升油可行駛18公里?,F(xiàn)研制出一種添加劑以后,每公升汽油行駛的里程是否有變化?現(xiàn)隨機抽取25輛汽車作試驗,結(jié)果平均行駛里程為18.5公里,方差為2.2。試作出檢驗。40

11、解:結(jié)論:接受原假設(shè),有95%把握預(yù)言加入添加劑后每公升汽油行駛的里程無顯著變化。雙側(cè)41例:已知某種柴油發(fā)動機,使用柴油每升運轉(zhuǎn)時間服從正態(tài)分布。現(xiàn)測試裝配好的6臺,它們運轉(zhuǎn)時間分別為28,27,31,29,30,27(分鐘)。按設(shè)計要求應(yīng)在30分鐘以上。據(jù)測試結(jié)果,在95%的顯著水平時,能否說明這種發(fā)動機是否符合設(shè)計要求?42解: 接受域:單側(cè)43檢驗統(tǒng)計量的值:結(jié)論:接受原假設(shè),即認(rèn)為裝配的這種發(fā)動機符合設(shè)計要求。44二、雙總體均值是否相等的檢驗45然后,從總體A和B中各選一個可能樣本配成對,計算每一對樣本平均數(shù)之差兩個樣本平均數(shù)之差的抽樣分布就是指來自兩個總體成對樣本平均數(shù)之關(guān)的分布。

12、2)性質(zhì):總體A: 樣本:總體B: 樣本:則:為什么是取加號?46假設(shè)檢驗形式:47(1)兩個總體是正態(tài)分布,且方差已知,則檢驗統(tǒng)計量為:48(2)兩個總體是正態(tài)分布,且方差未知但相等,若為小樣本(即 ),則檢驗統(tǒng)計量為:493)兩個總體是正態(tài)分布,且方差未知但相等,若為大樣本(即 ),則檢驗統(tǒng)計量為:50例:某農(nóng)業(yè)研究所試驗磷肥和氮肥能否提高小麥產(chǎn)量,為此做了兩種試驗:(1)選八塊試驗田不施磷肥和氮肥;(2)選取十塊試驗田在播種前施磷肥,播種后分三次加施氮肥,而其它條件相同。成熟后,分別測量了它們的畝產(chǎn),數(shù)據(jù)如下:試驗1 252,204,234,246,222,210,212,244;試驗2

13、 172,158,186,214,224,228,196,190,202,170試以95%的顯著水平檢驗施肥與不施肥的平均產(chǎn)量有沒有差異?51解:設(shè)兩個總體服從正態(tài)分布,且方差未知但相等。試驗1的數(shù)據(jù)計算如下:試驗2:52提出假設(shè):臨界值:接受域:(-2.12,2.12)統(tǒng)計檢驗量的值為:53結(jié)論:t值落在拒絕域,故拒絕H0接受H1。即說明適當(dāng)施肥對小麥增產(chǎn)有顯著的作用。54例:假定有人作一次調(diào)查,評判甲、乙兩個城市的工人單位時間工資是否相同。資料如下:城市 樣本平均 樣本 樣本 小時的收入 (元) 標(biāo)準(zhǔn)差 容量 甲 6.95 0.40 200 乙 7.10 0.60 175試在95%的顯著水

14、平下檢驗兩個城市工人單位時間平均工資是否有差別?55解:假設(shè)檢驗統(tǒng)計量的值為:56臨界值:結(jié)論:Z值落在否定域中,故拒絕H0,接受H1,說明兩個城市工人單位時間工資之間明顯的差異。57例:某工廠為了比較兩種裝配方法的效率,分別組織了兩組員工,每組9人,一組采用新的裝配方法,另外一組采用舊的裝配方法。假設(shè)兩組員工設(shè)備的裝配時間均服從正態(tài)分布,兩總體的方差相等但未知?,F(xiàn)有18個員工的設(shè)備裝配時間見表6-2,根據(jù)這些數(shù)據(jù),是否有理由認(rèn)為新的裝配方法更節(jié)約時間?(顯著性水平0.05) 表6-2 兩組員工設(shè)備的裝配時間 單位:小時 新方法(x2)353129253440273231舊方法(x1)3237

15、3538414435313458596061第三節(jié) 總體比例的假設(shè)檢驗一、單個總體比例的假設(shè)檢驗二、兩個總體的比例是否相等的檢驗62一、單個總體比例的假設(shè)檢驗6364 【例6-7】一項調(diào)查結(jié)果聲稱,某市小學(xué)生每月零花錢達到200元的比例為40%,某科研機構(gòu)為了檢驗這個調(diào)查是否可靠,隨機抽選了100名小學(xué)生,發(fā)現(xiàn)有47人每月零花錢達到200元,調(diào)查結(jié)果能否證實早先調(diào)查40%的看法?( )6566例:某工廠領(lǐng)導(dǎo)認(rèn)為超過35%的工人滿意該廠的工作環(huán)境。為了證實該結(jié)論,有關(guān)部門作了一次調(diào)查,隨機抽取了150名工人,其中有69人對工作環(huán)境滿意。試以95%的顯著水平檢驗 的假設(shè)。67解:假設(shè):臨界值:接受

16、域:檢驗統(tǒng)計量的值:68結(jié)論:Z值落在拒絕域內(nèi),故拒絕原假設(shè),接受備擇假設(shè),說明該廠工人對工作環(huán)境的滿意程度確實超過了35%。例:某公司推出一種男女均宜的飲料,認(rèn)為這種飲料的消費者性別比例各為50%。對消費者抽樣調(diào)查結(jié)果表明:100名接受調(diào)查的消費者中,男性飲用者55人,女性有45人。當(dāng) 時,問該飲料消費者的性別比例相等的看法是否成立?69解:接受域:(-1.96,1.96)P=0.5,則:結(jié)論:Z值落在拒絕域內(nèi),故拒絕原假設(shè),接受備擇假設(shè),說明該飲料消費者的性別比例相等的看法是成立的。(當(dāng)然用女性資料也可得出相同結(jié)論)70二、兩個總體的比例是否相等的檢驗 7172第四節(jié) 單因子方差分析一、問

17、題的提出二、方差分析的檢驗統(tǒng)計量三、關(guān)于方差分析的兩點說明One-Factor ANOVA73一、問題的提出【例6-8】已知在一組給定的條件下飼養(yǎng)小雞所增加的體重服從正態(tài)分布。某養(yǎng)雞場欲檢驗四種飼料配方對小雞增重的影響是否不相同(假定已經(jīng)經(jīng)過檢驗表明不同飼料配方下的小雞增重方差相等)。為此,他們對四組初始條件完全相同的小雞,在完全相同的其他飼養(yǎng)條件下,分別使用四種不同的飼料配方進行喂養(yǎng)。所得到的增重數(shù)據(jù)如表6-3。 表6-3 四種不同飼料配方下小雞的增重情況飼料配方 i小雞序號 j38周后小雞個體增重yij(克) 123456配方13704204504901730配方2490380400390

18、5004102570配方33303404003804701920配方4410480400420380410250016001620165016801350820872074對于類似本例的問題,一般地,把隨機變量分組的數(shù)目記作m,我們可建立下列假設(shè):75方差分析Analysis of Variance (ANOVA ) 因素也稱為處理因素(factor)(名義分類變量),每一處理因素至少有兩個水平(level)(也稱“處理組”)。 一個因素(水平間獨立) 單因素方差分析 兩個因素(水平間獨立或相關(guān))雙因素方差分析 一個個體多個測量值可重復(fù)測量資料的方差分析 ANOVA與回歸分析相結(jié)合協(xié)方差分析

19、目的:用這類資料的樣本信息來推斷各處理組間多個總體均數(shù)的差別有無統(tǒng)計學(xué)意義。76 ANOVA 由英國統(tǒng)計學(xué)家R.A.Fisher首創(chuàng),為紀(jì)念Fisher,以F命名,故方差分析又稱 F 檢驗 (F test)。用于推斷多個總體均數(shù)有無差異 77組間變異總變異組內(nèi)變異二、方差分析的檢驗統(tǒng)計量所有測量值之間總的變異程度各組均數(shù)與總均數(shù)的離均差平方和用各組內(nèi)各測量值Yij與其所在組的均數(shù)差值的平方和來表示787980(mean square,MS)818283【例6-9】利用表6-3中的數(shù)據(jù)進行單因子方差分析(顯著水平為=0.05)。84858687 表6-4 方差分析表變異來源離差平方和自由度均方差

20、值P-值臨界值組間7112.1432370.7141.012320.4115733.196774組內(nèi)39811.67172341.863總計46923.812088(一)方差分析中變量的類型 方差分析中的因變量是數(shù)量型變量。自變量可以是品質(zhì)型變量,也可以是數(shù)量型變量。當(dāng)自變量是數(shù)量型變量的時候,也要對其作統(tǒng)計分組設(shè)計,也就是將它按品質(zhì)型變量來處理。 (二)總體的正態(tài)性和同方差 方差分析適用于多個正態(tài)總體Yi(i=1,2,m)均值的比較,且要求它們具有相同的方差。不過在實際應(yīng)用中,即使對于正態(tài)性和同方差性都存在很大背離的數(shù)據(jù),方差分析仍不失為一種提供有用的近似信息的技術(shù)。 三、關(guān)于方差分析的兩點

21、說明89第五節(jié) 雙因子方差分析一、問題的提出二、有交互作用的雙因子方差分析90一、問題的提出 方差分析中的“因子”,也稱因素。它是一個獨立的變量(自變量)。在上一節(jié)的例子中,我們要分析飼料是否為影響增重產(chǎn)生差異的原因,所以飼料是因子。該例中所考察的因子只有“飼料”一個,而其他因子如雞的品種,飼養(yǎng)條件等保持不變,我們稱這種方差分析為單因子方差分析。如果要同時考察飼料和雞的品種兩個因子對小雞的增重是否有影響,則稱之為雙因子方差分析。919293 在這里要注意,不能把A的r個處理和B的c個處理看成“隨機樣本”?,F(xiàn)在的rc個處理是rc個總體,即Ai和Bj的每一種搭配形成的組格都是一個總體(隨機變量Yi

22、j)。對一個組格總體的nij個觀測yij1,yij2,yij 才是隨機樣本。 我們把Ai與Bj的搭配所形成的組格總體即隨機變量Yij的期望值記作 ,于是可以寫出與表6-5(樣本)相應(yīng)的總體期望值表如表6-6。 949596979899二、有交互作用的雙因子方差分析 樣本數(shù)據(jù)的方差分析恒等式。SST=SSA+SSB+SSAB+SSE (6.24) 式中,SST是總離差平方和, SSA 是A因子處理間的離差平方和, SSB 是B因子處理間的離差平方和, SSAB 是AB交互作用處理間的離差平方和, SSE 是組格內(nèi)離差平方和。 100101102103104105106107108109第六節(jié) Excel在假設(shè)檢驗與方差分析中的應(yīng)用一、假設(shè)檢驗二、方差分析110一、假設(shè)檢驗 【例6-11】使用例6-1的數(shù)據(jù)進行假設(shè)檢驗(顯著性水平0.05,雙側(cè)檢驗)。 解:操作步驟如下。1.構(gòu)造工作表,見圖6-2。圖中方框內(nèi)為計算所得數(shù)據(jù),方框外為原始輸入數(shù)據(jù)。注意,如果給出了具體的樣本中每袋咖啡的重量,則樣本均值、標(biāo)準(zhǔn)差、樣本容量分別可以用AVERAGE函數(shù)、STDEV函數(shù)和COUNT函數(shù)進行計算。2.計算檢驗統(tǒng)計量Z(由于樣本容量較大,所以使用Z統(tǒng)計量)。在B6單元格輸入公

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論