概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析.ppt_第1頁
概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析.ppt_第2頁
概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析.ppt_第3頁
概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析.ppt_第4頁
概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析.ppt_第5頁
已閱讀5頁,還剩71頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2019/7/12,版權所有 BY 張學毅,1,第 九 章 第一節(jié),單因素試驗的方差分析,2019/7/12,版權所有 BY 張學毅,2,一、方差分析的有關概念,1.方差分析(Analysis of Variance,ANOVA)是一種檢驗多 個正態(tài)總體均值是否相等的統(tǒng)計方法。 2.因素的水平:指試驗因素的某種特定狀態(tài)或數(shù)量等級,簡 稱水平。 3.試驗指標:衡量實驗結果好壞程度的試驗數(shù)據(jù) 。 在單因素方差分析中,將因素的任何一個水平看作是一個總體,該水平下試驗得到的數(shù)據(jù)可看成是從總體中抽出的一個樣本。 若方差分析中考察的因素只有一個時,稱為單因素方差分析;若同時研究兩個因素對試驗指標的影響時,則稱為兩因素試驗。同時針對兩個因素進行,則稱為雙因素方差分析。,2019/7/12,版權所有 BY 統(tǒng)計學課程組,3,二、單因素方差分析的數(shù)據(jù)結構,2019/7/12,版權所有 BY 張學毅,4,2019/7/12,版權所有 BY 張學毅,5,表中: 為第 i個水平的第j個觀測值。 記第j個水平觀測值的均值為 ,則有 記所有觀測值的均值為 ,則有,2019/7/12,版權所有 BY 張學毅,6,三、方差分析中的三個基本假設,(1)各個總體都服從正態(tài)分布; (2)各個總體的方差都相等; (3)各個觀測值之間是相互獨立的。,2019/7/12,版權所有 BY 張學毅,7,四、單因素方差分析的數(shù)學模型,由于 則有單因素方差分析的數(shù)學模型1:,2019/7/12,版權所有 BY 張學毅,8,四、單因素方差分析的數(shù)學模型,記 , 為 Aj 的效應。 則有單因素方差分析的數(shù)學模型2:,2019/7/12,版權所有 BY 張學毅,9,從散點圖上可以看出:不同的水平的數(shù)據(jù)是有明顯差異的;同一個水平的數(shù)據(jù)也明顯不同; 不同水平的觀察值與試驗指標值之間可能有一定的關系。 3. 僅從散點圖上觀察還不能提供充分的證據(jù)證明不同水平與試驗指標值之間有顯著差異。這種差異可能是由于抽樣的隨機性所造成的,也有可能是系統(tǒng)性影響因素造成的。,五、方差分析的基本思想,2019/7/12,版權所有 BY 張學毅,10,4.需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析。 5.隨機誤差 因素的同一水平(總體)下,樣本各觀察值之間的 差異,可以看成是隨機因素的影響,稱為隨機誤差 ; 6.系統(tǒng)誤差 因素的不同水平(不同總體)下,各觀察值之間的差 異可能是由于抽樣的隨機性所造成的,也可能是由于 水平本身所造成的,后者所形成的誤差是由系統(tǒng)性因 素造成的,稱為系統(tǒng)誤差。,2019/7/12,版權所有 BY 張學毅,11,方差分析的基本思想,7.若不同水平對試驗指標值沒有影響,則組間誤差中只包含隨機誤差,沒有系統(tǒng)誤差。這時,組間誤差與組內誤差經過平均后的數(shù)值就應該很接近,它們的比值就會接近1; 8.若不同水平對試驗指標值有影響,則在組間誤差中除了包含隨機誤差外,還會包含有系統(tǒng)誤差,這時組間誤差平均后的數(shù)值就會大于組內誤差平均后的數(shù)值,它們之間的比值就會大于1; 9.當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,也就是自變量對因變量有影響。,總離差平方和 ( sum of squares for total),1)全部觀察值 與總均值 的離差平方和; 2)反映全部觀察值的離散狀況。 其計算公式為:,六、離差平方和與自由度的分解,效應平方和(組間平方和) :Sum of squares for factor A,1)各組平均值 與總平均值 的離差平方和; 2)反映各總體的樣本均值之間的差異程度,又稱組間平方和; 3)該平方和既包括隨機誤差,也包括系統(tǒng)誤差。 計算公式為:,誤差平方和(組內平方和) :Sum of squares for error,1)每個水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和; 2)反映每個樣本各觀察值的離散狀況,又稱組內離差平方和; 3)該平方和反映的是隨機誤差的大小。 計算公式為 :,三個離差平方和的關系,總離差平方和=組間平方和+組內平方和,三個離差平方和的自由度之間的關系: 均方,2019/7/12,版權所有 BY 張學毅,17,七、 的統(tǒng)計特征P228,根據(jù)概率論與數(shù)理統(tǒng)計學知識 : 1) 是總體方差 的無偏估計量,且與原假設成立與否無關。 即 2) 是否是總體方差 的無偏估計量,與原假設成立與否有關 。當且僅當原假設成立時, 才是總體方差 的無偏估計量。,八、方差分析表,通常將上述計算過程列成一張表格,稱為方差分析表。,2019/7/12,版權所有 BY 張學毅,19,例9.1 熱帶雨林,一份研究伐木業(yè)對熱帶雨林影響的統(tǒng)計研究報告指出,“環(huán)保主義者對于林木采伐、開墾和焚燒導致的熱帶雨林的破壞幾近絕望”。這項研究比較了類似地塊上樹木的數(shù)量,這些地塊有的從未采伐過,有的1年前采伐過,有的8年前采伐過。根據(jù)數(shù)據(jù),采伐對樹木數(shù)量有顯著影響嗎?顯著性水平=0.05。,2019/7/12,20,2、提出零假設和備擇假設 H0:u1=u2=u3 H1: u1,u2,u3不全相等。,2019/7/12,版權所有 BY 張學毅,21,方差分析表 結論: F值=11.433.32,p-值=0.00020.05,因此檢驗的結論是采伐對林木數(shù)量有顯著影響。,2019/7/12,版權所有 BY 張學毅,22,【例9.2】 某市消費者協(xié)會為了評價該地旅游業(yè)、居民服務業(yè)、公路客運業(yè)和保險業(yè)的服務質量,從這4個行業(yè)中分別抽取了不同數(shù)量的企業(yè)。經統(tǒng)計,最近一年消費者對這23家企業(yè)投訴的次數(shù)資料如下表所示。這4個行業(yè)之間服務質量是否有顯著差異?如果有,究竟是在哪些行業(yè)之間?,解(1) 建立假設 (2) 列方差分析表 (3)統(tǒng)計決策 因為 ,所以拒絕 。即有99%的把握 認為不同行業(yè)之間的服務質量有高度顯著的差異。,2019/7/12,版權所有 BY 張學毅,24,第二節(jié) 兩因素試驗數(shù)據(jù)的方差分析,一、無交互作用的雙因素方差分析 若記一因素為因素A,另一因素為因素B,對A與B同時進行分析,就屬于雙因素方差分,即判斷是否有某一個或兩個因素對試驗指標有顯著影響,兩個因素結合后是否有新效應。在統(tǒng)計學中將各個因素的不同水平的搭配所產生的新的影響稱為交互作用。我們先討論無交互作用的雙因素方差分析問題,對于有交互作用的雙因素方差分析問題稍后再討論。,2019/7/12,版權所有 BY 張學毅,25,無交互作用的雙因素方差分析數(shù)據(jù)結構,2019/7/12,版權所有 BY 張學毅,26,雙因素無交互作用的方差分析,又稱為雙因素無重復試驗的方差分析;雙因素有交互作用的方差分析,又稱為雙因素等重復試驗的方差分析;,判斷因素A的影響是否顯著等價于檢驗假設: 判斷因素B的影響是否顯著等價于檢驗假設: 其中, 表示A的第i個水平所構成的總體均值, 表示的B第j個水平所構成的總體均值。,對離差總平方和進行分解。與單因素情況類似,能夠證明下列公式成立: 總離差平方和的自由度分解為: F統(tǒng)計量:,2019/7/12,版權所有 BY 張學毅,28,例9.3 為提高某種產品的合格率,考察原料來源地和用量對其是否有影響。原料來源地有三個:甲、乙、丙;原料用量有三種:現(xiàn)有量、增加5%、增加8%。每個水平組合各作一次試驗,得到的數(shù)據(jù)如下表所示。試分析原料來源地和用量對產品合格率的影響是否顯著?,2019/7/12,版權所有 BY 張學毅,30,【例題】,解:(1) 建立假設 (2) 列方差分析表,2019/7/12,版權所有 BY 張學毅,31,(3) 統(tǒng)計決策,對于顯著性水平 0.05,查表得臨界值 因為 , ,故不拒絕 , 拒絕 。即根據(jù)現(xiàn)有數(shù)據(jù),有95%的把握可以推斷原料來源地對產品合格率的影響不大,而原料用量對合格率有顯著影響。 由于 為最優(yōu)水平。既然原料來源地對產品合格率的影響不顯著,在保證質量的前提下,可以選擇運費最省的地方作為原料來源地選擇時的首選。如果丙地的運費最省,則最優(yōu)方案為 。,2019/7/12,版權所有 BY 張學毅,32,【例9.4】 某種火箭使用了四種燃料,三種推進器做試驗。每種燃料和每種推進器的組合各做一次試驗,得火箭射程數(shù)據(jù)如下表所示。試問不同的燃料、不同的推進器分別對火箭射程有無顯著影響?,2019/7/12,版權所有 BY 張學毅,33,列方差分析表:,2019/7/12,版權所有 BY 張學毅,34,2019/7/12,版權所有 BY 張學毅,35,2019/7/12,版權所有 BY 張學毅,36,二、有交互作用的雙因素方差分析,所謂交互作用,簡單來說就是不同因素對試驗指標的復合作用,因素A和B的綜合效應不是二因素效應的簡單相加。為了能分辨出兩個因素的交互作用,一般每組試驗至少作兩次。,2019/7/12,版權所有 BY 張學毅,37,有交互作用的雙因素方差分析數(shù)據(jù)結構,2019/7/12,版權所有 BY 張學毅,38,2建立假設,2019/7/12,版權所有 BY 張學毅,39,這就是有交互作用的雙因素方差分析的數(shù)學模型。,2019/7/12,版權所有 BY 張學毅,40,對這一模型可設如下三個假設:,2019/7/12,版權所有 BY 張學毅,41,3方差分析,與單因素方差分析的平方和分解類似,有,2019/7/12,版權所有 BY 張學毅,42,2019/7/12,版權所有 BY 張學毅,43,雙因素(有交互作用)方差分析表,2019/7/12,版權所有 BY 張學毅,44,例9.5 某公司想將橡膠、塑料和軟木的板材沖壓成密封墊片出售。市場上有兩種不同型號的沖壓機可供選擇。為了能對沖壓機每小時所生產的墊片數(shù)進行比較,并確定哪種機器使用何種材料生產墊片的能力更強,該公司使用每臺機器對每一種材料分別運行三段時間,得到的試驗數(shù)據(jù)(每小時生產的墊片數(shù))如下表所示,試運用方差分析確定最優(yōu)方案。,2019/7/12,版權所有 BY 張學毅,45,2019/7/12,版權所有 BY 張學毅,46,解 (1) 建立假設: (2) 計算相應的均值和平方和:,2019/7/12,版權所有 BY 張學毅,47,2019/7/12,版權所有 BY 張學毅,48,(3) 列方差分析表,2019/7/12,版權所有 BY 張學毅,49,(4) 統(tǒng)計決策 由于 , 說明不僅沖壓機的型號和墊片材料對墊片數(shù)量有顯著影響,而且其交互作用也是顯著的。由結構均值表可知,在沖壓機中,第一種的均值較大;墊片材料中,軟木的均值較大,故最優(yōu)方案是 。,2019/7/12,50,第三節(jié) 一元線性回歸,一、一元線性回歸 二、a,b的估計 三、總體方差的估計 四、線性假設的顯著性檢驗 五、系數(shù)b的置信區(qū)間 六、回歸預測 七、可化為一元線性回歸的例子(自學),回歸模型的類型,一、一元線性回歸,只涉及一個自變量的回歸; 因變量y與自變量x之間為線性關系。 被預測或被解釋的變量稱為因變量(dependent variable),用y表示; 用來預測或用來解釋因變量的一個或多個變量稱為自變量(independent variable),用x表示。 因變量與自變量之間的關系用一個線性方程來表示。,一元線性回歸模型的基本形式,描述因變量 y 如何依賴于自變量 x 和誤差項 的方程稱為理論回歸模型 一元線性回歸模型可表示為 y 是 x 的線性函數(shù)(部分)加上隨機誤差項 線性部分反映了由于 x 的變化而引起的 y 的變化;誤差項 是隨機變量(未納入模型但對y有影響的諸多因素的綜合影響),反映了除 x 和 y 之間的線性關系之外的隨機因素對 y 的影響,是不能由 x 和 y 之間的線性關系所解釋的變異性。 a和 b稱為模型的參數(shù),理論回歸 模型,在抽樣中,自變量x的取值是固定的,即x是非隨機的;因變量y是隨機的。 即當解釋變量X取某固定值時,Y的值不確定,Y的不同取值形成一定的分布,這是Y的條件分布。 回歸線,描述的是Y的條件期望E(Y/xi)與之對應xi,代表這些Y的條件期望的點的軌跡所形成的直線或曲線。 如 注意: 由于單個數(shù)據(jù)點是從y的 分布中抽出來的,可能不在 這條回歸線上,因此必須包含 隨機誤差項e來描述模型數(shù)據(jù)點.,x,y,回歸線,回歸模型的基本假設,假設1:誤差項的期望值為0,即對所有的i有 假設2:誤差項的方差為常數(shù),即對所有的i有 假設3:誤差項之間不存在自相關關系,其協(xié)方差為0, 即當 時,有 ; 假設4:自變量是給定的變量,與隨機誤差項線性無關; 假設5:隨機誤差項服從正態(tài)分布。即N( 0 ,2 ) 以上這些基本假設是德國數(shù)學家高斯最早提出的,故也稱為高斯假定或標準假定。,回歸方程(regression equation),描述 y 的平均值或期望值如何依賴于 x 的方程稱為回歸方程 一元線性回歸方程的形式如下:,方程的圖示是一條直線,也稱為直線回歸方程。 a是回歸直線在 y 軸上的截距,是當 x=0 時 y 的期望值; b是直線的斜率,稱為回歸系數(shù),表示當 x 每變動一個單位時,y 的平均變動值。,.估計的回歸方程(estimated regression equation),一元線性回歸中估計的回歸方程為,用樣本統(tǒng)計量 , 代替回歸方程中的未知參數(shù) 和 ,就得到了估計的回歸方程.,總體回歸參數(shù) 和 是未知的,必須利用樣本數(shù)據(jù)去估計;,其中: 是估計的回歸直線在 y 軸上的截距, 是直線的斜率,它表示對于一個給定的 x 的值, 是 y 的估計值,也表示 x 每變動一個單位時, y 的平均變動值 。,.二、a,b的估計( 普通最小二乘估計法) (ordinary least squares estimators),使因變量的觀察值與估計值之間的離差平方和達到最小來求得 和 的方法。即,用最小平方法擬合的直線來代表x與y之間的關系與實際數(shù)據(jù)的誤差比其他任何直線的誤差都小。,2019/7/12,59,參數(shù)的最小二乘估計P246-247,2019/7/12,60,例9.6,【例10.7】一家大型商業(yè)銀行在多個地區(qū)設有分行,其業(yè)務主要是進行基礎設施建設、國家重點項目建設、固定資產投資等項目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的增長,這給銀行業(yè)務的發(fā)展帶來較大壓力。為弄清不良貸款形成的原因,管理者希望利用銀行業(yè)務的有關數(shù)據(jù)進行定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行2002年的有關業(yè)務數(shù)據(jù),2019/7/12,61,2019/7/12,62,不良貸款對其他變量的散點圖,2019/7/12,63,用Excel計算相關系數(shù),2019/7/12,64,2019/7/12,65,經驗回歸方程的求法,回歸方程為: y = -1.38473 + 0.087411 x 回歸系數(shù) =0.087411 表示,貸款余額每增加1億元,不良貸款平均增加0.087411億元,2019/7/12,66,估計回歸方程的求法,不良貸款對貸款

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論