殘差分析實用學習教案_第1頁
殘差分析實用學習教案_第2頁
殘差分析實用學習教案_第3頁
殘差分析實用學習教案_第4頁
殘差分析實用學習教案_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、會計學1殘差分析殘差分析(fnx)實用實用第一頁,共21頁。1、求回歸直線(zhxin)方程的步驟:1111(2),nniiiixxyynn求均值(3)代入公式1122211()(),(),.(1)nniiiiiinniiiixx yyxnxybxxxnxa y bxy (4)寫出直線方程為y=bx+a,即為所求的回歸直線方程。(1)畫散點圖第1頁/共21頁第二頁,共21頁。例1 從某大學中隨機(su j)選取8名女大學生,其身高和體重數據如表1-1所示。編號12345678身高身高/cm 165 165 157 170 175 165 155 170體重體重/kg48575054646143

2、59求根據一名女大學生的身高(shn o)預報她的體重的回歸方程,并預報一名身高(shn o)為172cm的女大學生的體重。3、從散點圖還看到,樣本點散布在某一條(y tio)直線的附近,而不是在一條(y tio)直線上,所以不能用一次函數y=bx+a描述它們關系。思考產生隨機誤差項e的原因是什么? 我們可以用下面的線性回歸模型來表示:y=bx+a+e,其中a和b為模型的未知參數,e稱為隨機誤差。第2頁/共21頁第三頁,共21頁。思考產生(chnshng)隨機誤差項e的原因是什么?隨機誤差e的來源(可以推廣到一般(ybn)):1、其它因素的影響:影響身高 y 的因素不只是體重 x,可能 還包括

3、遺傳基因、飲食習慣、生長環(huán)境等因素;2、用線性回歸模型近似真實模型所引起的誤差;3、身高 y 的觀測誤差。第3頁/共21頁第四頁,共21頁。5943616454505748體重/kg170155165175170157165165身高/cm87654321編號 假設隨機誤差對體重沒有影響,也就是說,體重僅受身高的影響,那么散點圖中所有的點將完全落在回歸直線(zhxin)上。但是,在圖中,數據點并沒有完全落在回歸直線(zhxin)上。這些點散布在回歸直線(zhxin)附近,所以一定是隨機誤差把這些點從回歸直線(zhxin)上“推”開了。在例1中,殘差平方和約為128.361。 因此,數據點和它在

4、回歸直線上相應位置的差異 是隨機誤差的效應,稱 為殘差。)iiyy(iiieyy=例如,編號(bin ho)為6的女大學生,計算殘差為:61 (0.849 16585.712)6.627對每名女大學生計算這個差異,然后分別將所得的值平方后加起來,用數學符號21()niiiyy稱為殘差平方和,表示為:類似于方差(fn ch)的定義第4頁/共21頁第五頁,共21頁。表1-4列出了女大學生身高和體重的原始數據以及(yj)相應的殘差數據。 在研究兩個變量間的關系時,首先要根據散點圖來粗略判斷它們是否(sh fu)線性相關,是否(sh fu)可以用回歸模型來擬合數據。殘差分析(fnx)與殘差圖的定義:

5、然后,我們可以通過殘差 來判斷模型擬合的效果,判斷原始數據中是否存在可疑數據,這方面的分析工作稱為殘差分析。12,ne ee 編號編號12345678身高身高/cm165165157170175165155170體重體重/kg4857505464614359殘差殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數據,或體重估計值等,這樣作出的圖形稱為殘差圖。第5頁/共21頁第六頁,共21頁。殘差圖的制作及作用。坐標縱軸為殘差變量,橫軸可以有不同的選擇;若模型選擇的正確,殘

6、差圖中的點應該(ynggi)分布在以橫軸為心的帶形區(qū)域;對于遠離橫軸的點,要特別注意。身高與體重殘差圖異常點 錯誤數據 模型問題 幾點說明: 第一個樣本點和第6個樣本點的殘差比較大,需要確認在采集過程中是否有人為的錯誤。如果數據采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數據;如果數據采集沒有錯誤,則需要尋找其他的原因。 另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型計較合適,這樣(zhyng)的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。第6頁/共21頁第七頁,共21頁。我們可以用相關指數R2來刻畫回歸的效果,其計算公式是22121()1()1ni

7、iiniiyyRyy殘 差 平 方 和???偏 差 平 方 和 R2越接近(jijn)1,表示回歸的效果越好(因為R2越接近(jijn)1,表示解析變量和預報變量的線性相關性越強)。 如果(rgu)某組數據可能采取幾種不同回歸方程進行回歸分析,則可以通過比較R2的值來做出選擇,即選取R2較大的模型作為這組數據的模型??偟膩碚f:相關指數R2是度量模型擬合效果的一種(y zhn)指標。在線性模型中,它代表自變量刻畫預報變量的能力。第7頁/共21頁第八頁,共21頁。例 關于x與y有如下(rxi)數據: 有如下(rxi)的兩個線性模型:(1) ;(2) 試比較哪一個擬合效果更好。x24568y3040

8、6050706.517.5yx717.yx22121()1()niiiniiyyRyy 21()niiiyy第一個好第8頁/共21頁第九頁,共21頁。一般地,建立回歸模型的基本(jbn)步驟為:(1)確定研究對象,明確哪個變量(binling)是解析變量(binling),哪個變量(binling)是預報變量(binling)。(2)畫出確定好的解析變量和預報(ybo)變量的散點圖,觀察它們之間的關系(如是否存在線性關系等)。(3)由經驗確定回歸方程的類型(如我們觀察到數據呈線性關系,則選用線性回歸方程y=bx+a).(4)按一定規(guī)則估計回歸方程中的參數(如最小二乘法)。(5)得出結果后分析殘

9、差圖是否有異常(個別數據對應殘差過大,或殘差呈現(xiàn)不隨機的規(guī)律性,等等),過存在異常,則檢查數據是否有誤,或模型是 否合適等。第9頁/共21頁第十頁,共21頁。案例(n l)2 一只紅鈴蟲的產卵數y和溫度x有關?,F(xiàn)收集了7組觀測數據列于表中:(1)試建立產卵數y與溫度x之間的回歸方程;并預測溫度為28oC時產卵數目(shm)。(2)你所建立的模型中溫度在多大程度上解釋了產卵數的變化? 溫度xoC21232527293235產卵數y/個711212466115325第10頁/共21頁第十一頁,共21頁。選變量 解:選取氣溫為解析變量x,產卵數 為預報變量y。畫散點圖假設(jish)線性回歸方程為

10、:=bx+a選 模 型分析和預測當x=28時,y =19.8728-463.73 93估計參數由計算器得:線性回歸方程為y=19.87x-463.73 相關指數R2=r20.8642=0.7464所以,一次函數模型中溫度(wnd)解釋了74.64%的產卵數變化。探索(tn su)新知050100150200250300350036912151821242730333639方案1當x=28時,y =19.8728-463.73 93線性模型第11頁/共21頁第十二頁,共21頁。奇怪?9366 ?模型(mxng)不好?第12頁/共21頁第十三頁,共21頁。 y=bx2+a 變換 y=bt+a非線性

11、關系 線性關系方案(fng n)2問題選用y=bx2+a ,還是y=bx2+cx+a ?問題(wnt)3 產卵數氣溫問題2如何求a、b ?合作(hzu)探究 t=x2二次函數模型第13頁/共21頁第十四頁,共21頁。方案(fng n)2解答平方變換:令t=x2,產卵(chn lun)數y和溫度x之間二次函數模型y=bx2+a就轉化為產卵(chn lun)數y和溫度的平方t之間線性回歸模型y=bt+a溫度21232527293235溫度的平方t44152962572984110241225產卵數y/個711212466115325作散點圖,并由計算器得:y和t之間的線性回歸方程為y = 0 .

12、3 6 7 t - 2 0 2 . 5 4 , 相 關 ( x i n g g u n ) 指 數R2=r20.8962=0.802將t=x2代入線性回歸方程得: y=0.367x2 -202.54當x=28時,y=0.367282-202.5485,且R2=0.802,所以,二次函數模型中溫度解釋了80.2%的產卵數變化。t第14頁/共21頁第十五頁,共21頁。問題 變換 y=bx+a非線性關系 線性關系2110c xyc問題如何選取指數函數的底?產卵(chn lun)數氣溫(qwn)指數函數(zh sh hn sh)模型方案3合作探究對數第15頁/共21頁第十六頁,共21頁。方案(fng

13、n)3解答溫度xoC21232527293235z=lgy0 . 851 . 041 . 321 . 381 . 822 . 062 . 51產卵數y/個711212466115325xz當x=28oC 時,y 44 ,指數回歸模型中溫度(wnd)解釋了98.5%的產卵數的變化由計算器得:z關于x的線性回歸方程為z=0.118x-1.665 ,相關指數R2=r20.99252=0.9850.118x-1.665 10y 對數變換:在 中兩邊取常用對數得令 ,則 就轉換為z=bx+a22111221lglg( 10)lglg10lglg10lgc xc xycccc xc xc2110c xyc

14、12lg ,lg,zy ac bc2110c xyc第16頁/共21頁第十七頁,共21頁。最好的模型(mxng)是哪個? 產卵數氣溫產卵數氣溫線性模型(mxng)二次函數(hnsh)模型指數函數模型第17頁/共21頁第十八頁,共21頁。比一比函數模型函數模型相關指數相關指數R2線性回歸模型線性回歸模型0.7464二次函數模型二次函數模型0.802指數函數模型指數函數模型0.985最好的模型(mxng)是哪個?第18頁/共21頁第十九頁,共21頁???結1122( ,),(,),.,(,),nnx yxyxy 對于給定的樣本點兩個含有未知參數的模型:(1)(2)( , )( , ),yf x ayg x b和其中a和b都是未知參數。擬合效果比較的步驟為:(1)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論