方差分析與回歸分析_第1頁
方差分析與回歸分析_第2頁
方差分析與回歸分析_第3頁
方差分析與回歸分析_第4頁
方差分析與回歸分析_第5頁
已閱讀5頁,還剩133頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

關于方差分析與回歸分析第1頁,共138頁,2023年,2月20日,星期四2方差分析(Analysisofvariance,簡稱:ANOVA),是由英國統(tǒng)計學家費歇爾(Fisher)在20世紀20年代提出的,可用于推斷兩個或兩個以上總體均值是否有差異的顯著性檢驗.第2頁,共138頁,2023年,2月20日,星期四39.1單因素方差分析例1.1

為了比較三種不同類型日光燈管的壽命(小時),現(xiàn)將從每種類型日光燈管中抽取8個,總共24個日光燈管進行老化試驗,根據(jù)下面經(jīng)老化試驗后測算得出的各個日光燈管的壽命(小時),試判斷三種不同類型日光燈管的壽命是不是有存在差異.第3頁,共138頁,2023年,2月20日,星期四4日光燈管的壽命(小時)類型壽命(小時)類型I52906210574050005930612060805310類型II58405500598062506470599054705840類型.III71306660634064707580656072906730引起日光燈管壽命不同的原因有二個方面:其一,由于日光燈類型不同,而引起壽命不同.其二,同一種類型日光燈管,由于其它隨機因素的影響,也使其壽命不同.第4頁,共138頁,2023年,2月20日,星期四5在方差分析中,通常把研究對象的特征值,即所考察的試驗結果(例如日光燈管的壽命)稱為試驗指標.對試驗指標產(chǎn)生影響的原因稱為因素,“日光燈管類型”即為因素.因素中各個不同狀態(tài)稱為水平,如日光燈管三個不同的類型,即為三個水平.第5頁,共138頁,2023年,2月20日,星期四6單因素方差分析僅考慮有一個因素A對試驗指標的影響.假如因素A有r個水平,分別在第i水平下進行了多次獨立觀測,所得到的試驗指標的數(shù)據(jù)第6頁,共138頁,2023年,2月20日,星期四7各個總體相互獨立.因此,可寫成如下的數(shù)學模型:第7頁,共138頁,2023年,2月20日,星期四8

方差分析的目的就是要比較因素A

的r個水平下試驗指標理論均值的差異,問題可歸結為比較這r個總體的均值差異.第8頁,共138頁,2023年,2月20日,星期四9檢驗假設不全相等.第9頁,共138頁,2023年,2月20日,星期四10假設等價于不全為零.第10頁,共138頁,2023年,2月20日,星期四11為給出上面的檢驗,主要采用的方法是平方和分解。即假設數(shù)據(jù)總的差異用總離差平方和分解為二個部分:

一部分是由于因素A引起的差異,即效應平方和;另一部分則由隨機誤差所引起的差異,即誤差平方和

.第11頁,共138頁,2023年,2月20日,星期四12第12頁,共138頁,2023年,2月20日,星期四13證明:

第13頁,共138頁,2023年,2月20日,星期四14第14頁,共138頁,2023年,2月20日,星期四15第15頁,共138頁,2023年,2月20日,星期四16第16頁,共138頁,2023年,2月20日,星期四17第17頁,共138頁,2023年,2月20日,星期四18定理9.1.1第18頁,共138頁,2023年,2月20日,星期四19方差來源平方和自由度均方F因素Ar-1誤差n-r總和n-1單因素試驗方差分析表第19頁,共138頁,2023年,2月20日,星期四20第20頁,共138頁,2023年,2月20日,星期四21

例1.2設有5種治療蕁麻疹的藥,要比較它們的療效。假設將30個病人分成5組,每組6人,令同組病人使用一種藥,并記錄病人從使用藥物開始到痊愈所需時間,得到下面的記錄:(=0.05)第21頁,共138頁,2023年,2月20日,星期四22藥物類型治愈所需天數(shù)x15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,6第22頁,共138頁,2023年,2月20日,星期四23這里藥物是因子,共有5個水平,這是一個單因素方差分析問題,要檢驗的假設是“所有藥物的效果都沒有差別”。

第23頁,共138頁,2023年,2月20日,星期四24第24頁,共138頁,2023年,2月20日,星期四25方差來源平方和自由度均方F因素A36.46749.1173.90誤差58.500252.334總和94.96729第25頁,共138頁,2023年,2月20日,星期四26未知參數(shù)的估計第26頁,共138頁,2023年,2月20日,星期四27第27頁,共138頁,2023年,2月20日,星期四28置信區(qū)間第28頁,共138頁,2023年,2月20日,星期四29第29頁,共138頁,2023年,2月20日,星期四30第30頁,共138頁,2023年,2月20日,星期四31假設檢驗第31頁,共138頁,2023年,2月20日,星期四32第32頁,共138頁,2023年,2月20日,星期四33例1.4(續(xù)1.2)(1)判斷第一種、第二種藥物的差異;

(2)判斷第一種、第三種藥物的差異;

(3)判斷第三種、第五種藥物的差異;解:僅檢驗(1),(2)和(3)留作思考題.第33頁,共138頁,2023年,2月20日,星期四34第34頁,共138頁,2023年,2月20日,星期四35在Excel上實現(xiàn)方差分析先加載''數(shù)據(jù)分析"這個模塊,方法如下:在excel工作表中點擊主菜單中“工具”點擊下拉式菜單中“加載宏”就會出現(xiàn)一個“加載宏”的框.

在“分析工具庫”前的框內(nèi)打勾點擊“確定”.這時候再點擊下拉式菜單會新出現(xiàn)“數(shù)據(jù)分析”.然后就可以進行統(tǒng)計分析了.第35頁,共138頁,2023年,2月20日,星期四36以下面的例子來說明用Excel進行方差分析的方法:保險公司某一險種在四個不同地區(qū)一年的索賠額情況記錄如表所示.試判斷在四個不同地區(qū)索賠額有無顯著的差異?第36頁,共138頁,2023年,2月20日,星期四37保險索賠記錄地區(qū)索賠額(萬元)A11.601.611.651.681.701.701.78A21.501.641.401.701.75A31.641.551.601.621.641.601.741.80A41.511.521.531.571.641.60第37頁,共138頁,2023年,2月20日,星期四38在Excel工作表中輸入上面的數(shù)據(jù)點擊主菜單中“工具”點擊下拉式菜單中“數(shù)據(jù)分析”就會出現(xiàn)一個“數(shù)據(jù)分析”的框.

點擊菜單中“方差分析:單因素方差分析”點擊“確定”,出現(xiàn)“方差分析:單因素方差分析”框.第38頁,共138頁,2023年,2月20日,星期四39在“輸入?yún)^(qū)域”中標定你已經(jīng)輸入的數(shù)據(jù)的位置(本例為$B$3:$I$6),根據(jù)你輸入數(shù)據(jù)分組情況(是按行分或按列分,本例點擊“行”)確定分組.選定方差分析中F檢驗的顯著水平選定輸出結果的位置點擊“確定”.

在你指定的區(qū)域中出現(xiàn)如下兩張表:第39頁,共138頁,2023年,2月20日,星期四40組觀測數(shù)求和平均方差行1行2行3行4758611.727.9913.199.371.6741.5981.6491.5620.00380.02100.00670.0026表一:摘要第40頁,共138頁,2023年,2月20日,星期四41方差來源平方和自由度均方FP-valueFcrit組間0.049230.01642.16590.12083.0491

組內(nèi)0.1666220.0076總計0.215825表二:方差分析表第41頁,共138頁,2023年,2月20日,星期四42根據(jù)Excel給出的方差分析表,假設H0的判別有二種方法:第42頁,共138頁,2023年,2月20日,星期四43第43頁,共138頁,2023年,2月20日,星期四44第44頁,共138頁,2023年,2月20日,星期四45方差分析的前提進行方差分析必須具備三個基本的條件:(1)獨立性.數(shù)據(jù)是來自r個獨立總體的簡單隨機樣本;(2)正態(tài)性.r個獨立總體均為正態(tài)總體;(3)方差齊性.r個獨立總體的方差相等.如何判斷這些條件是否成立?這些條件對于方差分析的結論影響又是如何?第45頁,共138頁,2023年,2月20日,星期四46方差分析和其它統(tǒng)計推斷一樣,樣本的獨立性對方差分析是非常重要的,在實際應用中會經(jīng)常遇到非隨機樣本的情況,這時使用方差分析得出的結論不可靠.因此,在安排試驗或采集數(shù)據(jù)的過程中,一定要注意樣本的獨立性問題.第46頁,共138頁,2023年,2月20日,星期四47在實際中,沒有一個總體真正服從正態(tài)分布的,而方差分析卻依賴于正態(tài)性的假設.不過由經(jīng)驗可知,方差分析F檢驗對正態(tài)性的假設并不是非常敏感,即,實際所得到的數(shù)據(jù),若沒有異常值和偏性,或者說,數(shù)據(jù)顯示的分布比較對稱的話,即使樣本容量比較小(如每個水平下的樣本容量僅為5左右),方差分析的結果仍是值得信賴的.第47頁,共138頁,2023年,2月20日,星期四48方差齊性對于方差分析是非常重要的,因此在方差分析之前往往要進行方差齊性的診斷,檢驗方差齊性假設通常采用Barlett檢驗.不過,也可采用如下的經(jīng)驗準則:當最大樣本標準差不超過最小樣本標準差的兩倍時,方差分析F檢驗結果近似正確.第48頁,共138頁,2023年,2月20日,星期四499.4一元線性回歸一、確定性關系:當自變量給定一個值時,就確定應變量的值與之對應。如:在自由落體中,物體下落的高度h與下落時間t之間有函數(shù)關系:

變量與變量之間的關系

第49頁,共138頁,2023年,2月20日,星期四50二、相關性關系:

變量之間的關系并不確定,而是表現(xiàn)為具有隨機性的一種“趨勢”。即對自變量x的同一值,在不同的觀測中,因變量Y可以取不同的值,而且取值是隨機的,但對應x在一定范圍的不同值,對Y進行觀測時,可以觀察到Y隨x的變化而呈現(xiàn)有一定趨勢的變化。為統(tǒng)一記號,后面一律用y表示因變量.第50頁,共138頁,2023年,2月20日,星期四51如:身高與體重,不存在這樣的函數(shù)可以由身高計算出體重,但從統(tǒng)計意義上來說,身高者,體也重。如:父親的身高與兒子的身高之間也有一定聯(lián)系,通常父親高,兒子也高。第51頁,共138頁,2023年,2月20日,星期四52我們以一個例子來建立回歸模型某戶人家打算安裝太陽能熱水器.為了了解加熱溫度與燃氣消耗的關系,記錄了16個月燃氣的消耗量,數(shù)據(jù)見下表.第52頁,共138頁,2023年,2月20日,星期四53

月份平均加熱溫度燃氣用量

月份平均加熱溫度燃氣用量Nov.246.3Jul.01.2Dec.5110.9Aug.11.2Jan.438.9Sep.62.1Feb.337.5Oct.123.1Mar.265.3Nov.306.4Apr.134Dec.327.2May.41.7Jan.5211Jun.01.2Feb.306.9第53頁,共138頁,2023年,2月20日,星期四54第54頁,共138頁,2023年,2月20日,星期四55如果以加熱溫度作為橫軸,以消耗燃氣量作為縱軸,得到散點圖的形狀大致呈線性.如果假設中間有一條直線,這些點均勻地散布在直線的兩側.表示除了溫度外還有其它的因素影響燃氣消耗量.第55頁,共138頁,2023年,2月20日,星期四56在回歸分析時,我們稱“燃氣消耗量”為響應變量記為y,“加熱溫度”為解釋變量記為x,由所得數(shù)據(jù)計算相關系數(shù)得r=0.995,表明加熱溫度與燃氣消耗之間有非常好的線性相關性.第56頁,共138頁,2023年,2月20日,星期四57加熱溫度x的變化是引起燃氣消耗量y變化的主要因素,還有其他一些因素對燃氣消耗量y也起著影響,但這些因素是次要的.從數(shù)學形式來考慮,由于加熱溫度x的變化而引起燃氣消耗量y變化的主要部分記為β0+β1x,其中β0,β1是未知參數(shù),另一部分是由其他隨機因素引起的記為ε,即y=β0+β1x+ε.第57頁,共138頁,2023年,2月20日,星期四58對從總體(x,y)中抽取的一個樣本(x1,y1),(x2,y2),…,(xn,yn)一元線性回歸模型:第58頁,共138頁,2023年,2月20日,星期四59在模型假定下yi(i=1,2,…,n)也是相互獨立,服從正態(tài)分布N(β0+β1xi,σ2)

.由所得樣本可給出未知參數(shù)β0,β1的點估計,分別記為稱為y關于x的一元線性回歸方程.第59頁,共138頁,2023年,2月20日,星期四60第60頁,共138頁,2023年,2月20日,星期四61一元線性回歸要解決的問題:第61頁,共138頁,2023年,2月20日,星期四62參數(shù)估計第62頁,共138頁,2023年,2月20日,星期四63整理得正規(guī)方程系數(shù)行列式第63頁,共138頁,2023年,2月20日,星期四64第64頁,共138頁,2023年,2月20日,星期四65第65頁,共138頁,2023年,2月20日,星期四66

在誤差為正態(tài)分布假定下,的最小二乘估計等價于極大似然估計。第66頁,共138頁,2023年,2月20日,星期四67采用最大似然估計給出參數(shù)的估計與最小二乘法給出的估計完全一致。采用最大似然估計給出誤差的估計如下:此估計不是的無偏估計。第67頁,共138頁,2023年,2月20日,星期四68例3.1K.Pearson收集了大量父親身高與兒子身高的資料。其中十對如下:父親身高x(吋)60626465666768707274兒子身高y(吋)63.665.26665.566.967.167.468.370.170求y關于x的線性回歸方程。第68頁,共138頁,2023年,2月20日,星期四69第69頁,共138頁,2023年,2月20日,星期四70參數(shù)性質(zhì)第70頁,共138頁,2023年,2月20日,星期四71即為正態(tài)隨機變量的線性組合,所以服從正態(tài)分布。證明(1)第71頁,共138頁,2023年,2月20日,星期四72(2)類似可得。第72頁,共138頁,2023年,2月20日,星期四73(3)回歸方程顯著性檢驗

采用最小二乘法估計參數(shù),并不需要事先知道y與x之間一定具有相關關系。因此μ(x)是否為x的線性函數(shù):一要根據(jù)專業(yè)知識和實踐來判斷,二要根據(jù)實際觀察得到的數(shù)據(jù)用假設檢驗方法來判斷。第73頁,共138頁,2023年,2月20日,星期四74(1)影響y取值的,除了x,還有其他不可忽略的因素;(2)E(y)與x的關系不是線性關系,而是其他關系;(3)y與x不存在關系。若原假設被拒絕,說明回歸效果是顯著的,否則,若接受原假設,說明y與x不是線性關系,回歸方程無意義。回歸效果不顯著的原因可能有以下幾種:第74頁,共138頁,2023年,2月20日,星期四75第75頁,共138頁,2023年,2月20日,星期四76第76頁,共138頁,2023年,2月20日,星期四77回歸方程的檢驗采用方差分析方法:令描述之間的總的差異大小,稱SST為總平方和。第77頁,共138頁,2023年,2月20日,星期四78將總平方和分解為兩部分:可以證明:SST=SSR+SSE稱為回歸平方和稱為殘差平方和第78頁,共138頁,2023年,2月20日,星期四79第79頁,共138頁,2023年,2月20日,星期四80第80頁,共138頁,2023年,2月20日,星期四81第81頁,共138頁,2023年,2月20日,星期四82第82頁,共138頁,2023年,2月20日,星期四83采用t檢驗回歸系數(shù)的檢驗第83頁,共138頁,2023年,2月20日,星期四84例3.2檢驗例3.1中回歸效果是否顯著,取α=0.05。第84頁,共138頁,2023年,2月20日,星期四85(4)回歸系數(shù)的置信區(qū)間由第85頁,共138頁,2023年,2月20日,星期四86第86頁,共138頁,2023年,2月20日,星期四87回歸參數(shù)估計和顯著性檢驗的Excel實現(xiàn)

例3.3(續(xù))前面我們已經(jīng)分析了加熱溫度與燃氣消耗量之間的關系,認為兩者具有較好的線性關系,下面我們進一步建立燃氣消耗量(響應變量)與加熱溫度(解釋變量)之間的回歸方程.采用Excel中的“數(shù)據(jù)分析”模塊.第87頁,共138頁,2023年,2月20日,星期四88平均加熱溫度燃氣用量接前行

平均加熱溫度燃氣用量1246.3901.225110.91011.23438.91162.14337.512123.15265.313306.4613414327.2741.7155211801.216306.9在Excel的A1:C17輸入下標:

第88頁,共138頁,2023年,2月20日,星期四89在Excel工作表中輸入上面的數(shù)據(jù)點擊主菜單中“工具”點擊下拉式菜單中“數(shù)據(jù)分析”就會出現(xiàn)一個“數(shù)據(jù)分析”的框,點擊菜單中“回歸”,點擊“確定”,出現(xiàn)“回歸”框.第89頁,共138頁,2023年,2月20日,星期四90在“Y值輸入?yún)^(qū)域”中標定你已經(jīng)輸入的響應變量數(shù)據(jù)的位置(本例為$C$2:$C$17),在“X值輸入?yún)^(qū)域”中標定你已經(jīng)輸入的解釋變量數(shù)據(jù)的位置(注意:數(shù)據(jù)按“列”輸入)(本例為$B$2:$B$17),“置信度”中輸入你已經(jīng)確定置信度的值選定輸出結果的位置點擊“確定”.在指定位置輸出相應的方差分析表和回歸系數(shù)輸出結果,例3.3的輸出結果如下所示,第90頁,共138頁,2023年,2月20日,星期四91

自由度平方和均方F值P_值

回歸1168.581168.5811467.5511.415E-15顯著!誤差141.6080.115總的15170.189方差分析表第91頁,共138頁,2023年,2月20日,星期四92

Coef.標準誤差tStatPvalueLower95%Upper95%Intercept1.0890.1397.8411.729E-060.7911.387X0.1890.00538.3091.415E-150.1780.200與方差分析中P-值一致!第92頁,共138頁,2023年,2月20日,星期四93預測預測一般有兩種意義.第93頁,共138頁,2023年,2月20日,星期四94(5)E(y0)的點估計及置信區(qū)間故作為E(y0)的點估計,是無偏估計.E(y0)的置信水平為1-α的置信區(qū)間為第94頁,共138頁,2023年,2月20日,星期四95因此,根據(jù)觀測結果,點預測為(6)y0的點預測及區(qū)間預測第95頁,共138頁,2023年,2月20日,星期四96第96頁,共138頁,2023年,2月20日,星期四97第97頁,共138頁,2023年,2月20日,星期四98第98頁,共138頁,2023年,2月20日,星期四99第99頁,共138頁,2023年,2月20日,星期四100Excel只能輸出預測值,無法輸出預測區(qū)間.預測區(qū)間計算如下:上例中x值置于B2:B17,y值置于C2:C17,在Excel第18行,B18,C18,D18,E18,F18,G18分別為52.034222.313299.7234719.4382.145第100頁,共138頁,2023年,2月20日,星期四10152.034222.313299.7234719.4382.145第101頁,共138頁,2023年,2月20日,星期四102例3.5合金鋼的強度y與鋼材中碳的含量x有密切關系。為了冶煉出符合要求強度的鋼常常通過控制鋼水中的碳含量來達到目的,為此需要了解y與x之間的關系。其中x:碳含量(%)y:鋼的強度(kg/mm2)數(shù)據(jù)見右表:yxx240.50.030.000939.50.040.0016410.050.002541.50.070.0049430.090.0081420.10.01450.120.014447.50.150.0225530.170.0289560.20.04第102頁,共138頁,2023年,2月20日,星期四103(1)畫出散點圖;(2)設μ(x)=β0+β1x,求β0,β1的估計;(3)求誤差方差的估計,畫出殘差圖;(4)檢驗回歸系數(shù)β1是否為零(取α=0.05);(5)求回歸系數(shù)β1的95%置信區(qū)間;(6)求在x=0.06點,回歸函數(shù)的點估計和95%置信區(qū)間;(7)求在x=0.06點,y的點預測和95%區(qū)間預測。(8)模型還可以改進嗎?第103頁,共138頁,2023年,2月20日,星期四104(1)合金鋼的強度y與鋼材中碳的含量x的散點圖第104頁,共138頁,2023年,2月20日,星期四105方差分析

dfSSMSFSignificanceF回歸1255.4116255.411674.332892.54E-05殘差827.488413.436051顯著總計9282.9

Coefficients標準誤差tStatP-valueLower95%Upper95%Intercept35.45061.2429228.52222.47E-09顯著32.584438.3168XVar.192.641110.74528.621652.54E-05顯著67.8627117.420第105頁,共138頁,2023年,2月20日,星期四106第106頁,共138頁,2023年,2月20日,星期四107第107頁,共138頁,2023年,2月20日,星期四108顯著水平為0.05第108頁,共138頁,2023年,2月20日,星期四109第109頁,共138頁,2023年,2月20日,星期四110方差分析

dfSSMSFSignificanceF回歸分析2276.3151138.1576146.86691.92E-06殘差76.5848940.940699顯著總計9282.9

Coefficients標準誤差tStatP-valueLower95%Upper95%Intercept40.6441.2793231.76997.91E-0937.618843.6691XVar.1-30.48326.7175-1.140950.29142-93.6632.6935XVar.2550.475116.7764.713940.00217274.344826.606不顯著第110頁,共138頁,2023年,2月20日,星期四111方差分析

dfSSMSFSignificanceF回歸分析1275.0905275.0905281.80221.61E-07殘差87.8094650.976183總計9282.9

Coefficients標準誤差tStatP-valueLower95%Upper95%Intercept39.27740.4580485.75093.82E-1338.221240.3337XVar.1420.22325.032716.78701.61E-07362.497477.948第111頁,共138頁,2023年,2月20日,星期四112回歸函數(shù)線性的診斷誤差方差齊性診斷誤差的獨立性診斷誤差的正態(tài)性診斷9.6回歸診斷第112頁,共138頁,2023年,2月20日,星期四113一、回歸函數(shù)線性的診斷第113頁,共138頁,2023年,2月20日,星期四114第114頁,共138頁,2023年,2月20日,星期四115第115頁,共138頁,2023年,2月20日,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論