數(shù)學建模簡明教程第八章統(tǒng)計回歸模型_第1頁
數(shù)學建模簡明教程第八章統(tǒng)計回歸模型_第2頁
數(shù)學建模簡明教程第八章統(tǒng)計回歸模型_第3頁
數(shù)學建模簡明教程第八章統(tǒng)計回歸模型_第4頁
數(shù)學建模簡明教程第八章統(tǒng)計回歸模型_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第八章統(tǒng)計回歸模型第八章統(tǒng)計回歸模型8.1

一元線性回歸模型8.2

多元線性回歸模型8.3

非線性回歸模型

1第八章統(tǒng)計回歸模型回歸分析(RegressionAnalysis)方法是數(shù)理統(tǒng)計中最常見的一類方法.該方法利用大量統(tǒng)計數(shù)據(jù),建立自變量與因變量之間因果關系的回歸方程數(shù)學模型.這類模型廣泛應用于社會、經(jīng)濟、醫(yī)學等領域的定量分析和估值、預測.1第八章統(tǒng)計回歸模型12).一元線性回歸分析的主要任務是:用試驗值(樣本值)對β0、β1和σ作點估計;對回歸系數(shù)β0、β1作假設檢驗;在x=x0處對y做出預測,給出y的區(qū)間估計.對于自變8量.x1的每一一元個值線,性因變回量歸是一模個型隨機變量y,若x對y的影響是線性的,則可表示為y=β0+β1x+ε,稱為一元線性歸模型,其中β0,β1為待定回歸系數(shù),ε為隨機誤差,ε~N(0,σ第八章統(tǒng)計回歸模型1.回歸系數(shù)的最小二乘估計對于一組觀測值(xi,yi)(i=1,2,…,n),利用最小二乘可得到回歸系數(shù).設1第八章統(tǒng)計回歸模型記最小二乘法就是選擇β0和β1的估計 、 ,使得記1第八章統(tǒng)計回歸模型則有1第八章統(tǒng)計回歸模型直線為數(shù)據(jù)點(xi,yi)(i=1,2,…,n回歸直線(方程),對于給出的x,可由此方程對y進行預測.1第八章統(tǒng)計回歸模型2.σ2的無偏估計一元線性回歸模型中的參數(shù)σ2的無偏估計值為:由數(shù)據(jù)點xi(i=1,2,…,n)可計算因變量y的理論值,觀測數(shù)據(jù)yi(i=1,2,…,n)對數(shù)據(jù)均值的偏差 -可表示為:1第八章統(tǒng)計回歸模型式(8.1.1)的第一項是殘差,表示隨機誤差引起的因變量的變化;第二項表示自變量在x=xi時引起的因變量相對于平均值的變化.對式(8.1.1)兩邊平方并求和,有:1第八章統(tǒng)計回歸模型式(8.1.2)記為S=Q+U,稱S為總偏差平方和,Q為殘差平方,U為回歸平方和.定義 ,稱為決定系數(shù),R稱為相關系數(shù)(0<R2<1).決定系數(shù)表示在因變量的總變化量中,由自變量引起的那部分變化的比例.R越大,說明自變量對因變量起的決定作用越大,R反映了回歸方程的精確程度.1第八章統(tǒng)計回歸模型3.回歸系數(shù)的置信區(qū)間下面給出回歸系數(shù)β0、β1的區(qū)間估計(在顯著性水平α下).β1的置信區(qū)間為:β0的置信區(qū)間為:1第八章統(tǒng)計回歸模型14.回歸方程的顯著性檢驗對回歸方程Y=β0+β1x的顯著性檢驗,歸結為對假設H0:β1=;H1:β1≠0進行檢驗.假設H0:β1=0被拒絕,則回歸顯著,認為y與x存在線性關系,所求的線性回歸方程有意義;否則回歸不顯著,y與x的關系不能用一元線性回歸模型來描述,所得的回歸方程也無意義.第八章統(tǒng)計回歸模型1)F檢驗法當H0成立時,故F>F1-α(1,n-2)時,拒絕H0,否則就接受H0.1第八章統(tǒng)計回歸模型2)t檢驗法當H0成立時,故時,拒絕H0,否則就接受H0.1第八章統(tǒng)計回歸模型5.預測作為y0的預測值,y0的置信用y0的回歸值水平為1-α的預測區(qū)間為.其中,特別地,當n很大且x0在附近取值時,y的置信水平為1-α的預測區(qū)間近似為:1第八章統(tǒng)計回歸模型例1血壓與年齡問題:為了研究血壓隨年齡的增長而升高的關系,調查了30個成年人的血壓(收縮壓,單位mmHg)如下表,利用這些數(shù)據(jù)給出血壓與年齡的關系,并預測不同年齡人群的血壓.1第八章統(tǒng)計回歸模型解記血壓(因變量)為y,年齡(自變量)為x,畫出30個數(shù)據(jù)點的散點圖.直觀地,y與x大致呈線性關系,記為y=β0+β1x.利用一元線性回歸模型,由MATLAB計算出結果如下:血壓隨年齡的變化關系為y=96.86+0.953x,決定系數(shù)為0.7123,顯示血壓與年齡有較強的線性關系.利用上述回歸方程,可預測不同年齡人群的血壓規(guī)律,如表8-1所示.1第八章統(tǒng)計回歸模型表8-11第八章統(tǒng)計回歸模型由表8-1的預測可知,對于50歲的人來說,我們有95%的把握認為其血壓(收縮壓)在區(qū)間[124.5,163.2].1第八章統(tǒng)計回歸模型1若與因變量y有關聯(lián)的自變量不止一個,則可建立多元線1

2…,xm),則y=β0+β1x1+β2x2+…+βmxm+ε(8.2.1)性回歸模型.設影8.響2變多量y元的主線要性因素回有歸m個模,記型為x=(x,x,第八章統(tǒng)計回歸模型根據(jù)n個獨立觀測數(shù)據(jù)yi,xi1,…,xim(i=1,2,…,n;n>m),得記1第八章統(tǒng)計回歸模型則式(8.2.2)可表示為矩陣形式Y=Xβ+ε,利用最小二乘法可確定參數(shù),其參數(shù)β為:并稱 為回歸平面方程, 為經(jīng)驗回歸系數(shù).1第八章統(tǒng)計回歸模型1多元線性回歸模型討論的主要問題是:用試驗值(樣本值)對未知參數(shù)β和σ2作點估計和假設檢驗,從而建立y與x1,x2,…,xm之間的數(shù)量關系;在x1=x01,x2=x02,…,xm=x0m處對y的值作預測與控制,即對y作區(qū)間估計.第八章統(tǒng)計回歸模型1.多元線性回歸中的檢驗首先假設H0:β0=β1=…=βn=0.1)F檢驗當H0成立時,其中, (回歸平方和);(殘差平方和).1第八章統(tǒng)計回歸模型1如果F>F1-α(k,n-m-1),則拒絕H0,認為y與x1,x2,…,xm之間顯著地有線性關系;否則就接受H0,認為y與x1,x2,…,xm之間的線性關系不顯著.第八章統(tǒng)計回歸模型2)R檢驗定義為y與x1,x2,…,xm的多元相關系數(shù)或復相關系數(shù).由于故用F和用R檢驗是等效的.1第八章統(tǒng)計回歸模型2.多元線性回歸中的預測,對于給定自變量的值1)點預測求出回歸方程,用來預測y*=β0+β1x*1+…+βmx*m+ε.稱為y*的點預測.1第八章統(tǒng)計回歸模型2)區(qū)間估計y的1-α的預測區(qū)間(置信區(qū)間)為,其中1第八章統(tǒng)計回歸模型1例1

城市公交客運量的回歸預測問題.據(jù)相關分析,城市公共交通年客運量y與城市職工人數(shù)x1、居民零售額x2.職工年收入x3統(tǒng)計相關.現(xiàn)有北京市1968~1980年的統(tǒng)計數(shù)據(jù)如表8-2所示,試對2000年該市的城市公交客運量做出預測.第八章統(tǒng)計回歸模型表8-21第八章統(tǒng)計回歸模型續(xù)表1第八章統(tǒng)計回歸模型解建立多元線性回歸模型,由MATLAB計算回歸方程為,表明公共交通年客運量y與城市職工人數(shù)x1、居民零售額x2.職工年收入x3具有很高的線性關聯(lián)性.根據(jù)有關規(guī)劃,2000年該城市職工人數(shù)x1=4.5(百萬人),居民零售額x2=15.0(10億元),職工年收入x3=5.7(10億元),則測北京市公共交通年客運量y=58.067(億次).1第八章統(tǒng)計回歸模型1在客觀現(xiàn)象中,預報量y與自變量x之間存在的關系式往往不是線性的.我們8.可3依非據(jù)假線設性或經(jīng)回驗歸,構模造型特定的函數(shù)如多項式、指數(shù)函數(shù)、三角函數(shù)等描述其關系,但其參數(shù)的確定和檢驗目前還無統(tǒng)一方法.下面以Y與x具有多項式關系為例加以說明.第八章統(tǒng)計回歸模型1設變量x,Y多項式關系的回歸模型為:Y=β0+β1x+β2x2+…+βpxp+ε其中p是已知的,βi(i=1,2,…,p)是未知參數(shù),ε服從正分布N(0,σ2).則Y=β0+β1x+β2x2+…+βkxk稱為回歸多項式.若令xi=xi(i=1,2,…,k),則多項式回歸模型可變?yōu)槎嗑€性回歸模型.第八章統(tǒng)計回歸模型例1

藥物療效的評價與預測問題.現(xiàn)在得到了美國艾滋病醫(yī)療試驗機構ACTG公布的兩組數(shù)據(jù).ACTG320(見建模競 題2006)是同時服用zidovudine(齊多夫定)、lamivudine(拉美夫定)和indinavir(茚地那韋)3種藥物的多名病人每隔幾周測試的CD4和HIV的濃度(每毫升血液里的數(shù)量).利用給定的數(shù)據(jù),預測繼續(xù)治療的效果,或者確定最佳治療終止時間(繼續(xù)治療指在測試終止后繼續(xù)服藥,如果認為繼續(xù)服藥效果不好,則可選擇提前終止治療).1第八章統(tǒng)計回歸模型1解數(shù)據(jù)的完善與規(guī)范化:由于病人測試的時間間斷性,不同病人的測試間隔、次數(shù)不同,以及部分數(shù)據(jù)缺失,無法對樣本數(shù)據(jù)進行直接處理,需先對數(shù)據(jù)進行完善與規(guī)范化預處理.先對個別缺失數(shù)據(jù)嚴重(測試不足30周)的樣本進行刪除,最終得到有效樣本333個.考慮到病人體內HIV和CD4兩個指標變化的連續(xù)性,利用已測周數(shù)據(jù)對未知周數(shù)據(jù)進行線性插值,得到所有病人整數(shù)周的兩個指標數(shù)據(jù).第八章統(tǒng)計回歸模型(1)線性插值方法:如果在不相鄰的兩周M1和M2內,測量得到CD4的含量為C1和C2,HIV的含量為H1和H2,則在M1和M2之間插入M2-M1個周的數(shù)據(jù),即在M1+N(0<N<M2-M1)周的CD4含量為:1第八章統(tǒng)計回歸模型以23424編號的病員為例,原始數(shù)據(jù)如下:1第八章統(tǒng)計回歸模型經(jīng)插值后的改進數(shù)據(jù)為:1第八章統(tǒng)計回歸模型1(2)數(shù)據(jù)處理方法:對區(qū)間[0,40]整數(shù)節(jié)點的CD4和HIV指標數(shù)據(jù)進行簡單求和平均,得到該療法治療后CD4指標和HIV指標的統(tǒng)計規(guī)律如下:第八章統(tǒng)計回歸模型1第八章統(tǒng)計回歸模型CD4的含量隨時間(周)的變化曲線如圖8-1所示.圖8-1中的曲線是對圖中的散點進行一個擬合,得出的病人體內CD4的平均含量Y隨周t變化的二次函數(shù)為:1第八章統(tǒng)計回歸模型圖8-11第八章統(tǒng)計回歸模型參數(shù)和其置信區(qū)間如下表:1第八章統(tǒng)計回歸模型1根據(jù)以上分析可以得出CD4的平均含量的大致走向是在0~23周以前是較快上升,顯示療效確切;在23~24周左右達到一個峰值,在24~28周之間有個小的波動,之后有個緩慢的上升期,在38周達到一個最大值,但以后卻急劇地下降,藥品產(chǎn)生耐藥性.由此確定:如果以CD4指標為標準,24周為最佳的停藥時間.類似可處理HIV的指標數(shù)據(jù),得到HIV的含量隨時間(周)的變化曲線如圖8-2所示.第八章統(tǒng)計回歸模型圖8-21第八章統(tǒng)計回歸模型圖8-2中的曲線是對圖中的散點進行一個擬合,得出的病人體內HIV的平均含量Z隨周t變化的二次函數(shù)為:Z(t)=4.1442t2-0.1217t+0.0025參數(shù)和置信區(qū)間如下表:1第八章統(tǒng)計回歸模型1根據(jù)以上分析可以得出HIV的平均含量的大致走向是在0~10周以前是急劇下降的,顯示療效確切,在10~4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論