版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)學(xué)實(shí)驗(yàn)國(guó)家“十二五”規(guī)劃教材山東省優(yōu)秀教材一等獎(jiǎng)2第七章回歸分析實(shí)驗(yàn)7.1一元回歸分析實(shí)驗(yàn)7.2多元回歸分析數(shù)學(xué)實(shí)驗(yàn)3實(shí)驗(yàn)7.1一元回歸分析一、一元線性回歸分析二一元非線性回歸分析數(shù)學(xué)實(shí)驗(yàn)4一、一元線性回歸分析模型兩個(gè)變量x與y可以表示為:稱為一元線性回歸模型,
y稱為響應(yīng)變量自變量x是可以控制的變量,稱為未知參數(shù)a,b稱為回歸系數(shù),回歸變量;(7.1)
一元線性回歸分析實(shí)驗(yàn)的主要任務(wù)是:(1)用試驗(yàn)值(樣本觀測(cè)值)對(duì)未知參a,b做出估計(jì);或因變量,(2)對(duì)建立的回歸方程進(jìn)行顯著性檢驗(yàn);(3)利用建立的回歸方程進(jìn)行預(yù)測(cè)或控制。
是隨機(jī)誤差.
假設(shè)均服從正態(tài)分布5(7.1)式,得這里是相互獨(dú)立的隨機(jī)變量,假設(shè)均服從正態(tài)分布,,.即,
使用最小二乘方法,求得a,b的值,可得到回歸方程:1.模型回歸系數(shù)的估計(jì)
假定試驗(yàn)得到兩個(gè)變量x與y
的n個(gè)數(shù)據(jù)對(duì),我們將這n對(duì)觀測(cè)值代入62.回歸方程的顯著性檢驗(yàn)剩余(殘差)平方和它是由觀測(cè)誤差等其他因素引起的誤差.它反映了回歸變量x對(duì)變量y線性關(guān)系的密切程度.回歸平方和它表示觀測(cè)值總的分散程度.檢驗(yàn)中常用的幾個(gè)統(tǒng)計(jì)量:偏差平方和7(1)擬合優(yōu)度檢驗(yàn)(2)回歸方程的顯著性檢驗(yàn)反映了回歸直線與觀測(cè)值的擬合程度,值越大,說(shuō)明直線對(duì)數(shù)據(jù)的擬合程度越好.在實(shí)際應(yīng)用中也可通過(guò)F的統(tǒng)計(jì)值對(duì)應(yīng)的概率P<a來(lái)說(shuō)明y與x之間的線性相關(guān)性顯著.當(dāng)P<0.01時(shí),稱回歸方程高度顯著;當(dāng)0.01<P<0.05時(shí),稱回歸方程顯著;當(dāng)P>0.05時(shí),稱回歸方程不顯著.83.利用模型預(yù)測(cè)和控制把的值代入回歸方程得到預(yù)測(cè)值.當(dāng)n很大時(shí),99%的預(yù)測(cè)區(qū)間可分別近似為這里s是剩余標(biāo)準(zhǔn)差,它表示觀測(cè)值偏離回歸直線的平均誤差.觀測(cè)值與回歸值之差稱為殘差.
如果模型的假定成立,那么殘差數(shù)據(jù)散點(diǎn)圖應(yīng)該以0為均值,呈寬度一致的帶狀分布.9函數(shù)功能regress(y,x,alpha)計(jì)算回歸系數(shù)及其區(qū)間估計(jì),殘差及其置信區(qū)間,并給出檢驗(yàn)回歸模型的參數(shù)(決定系數(shù),F(xiàn)統(tǒng)計(jì)量等),alpha缺省為0.05rcoplot(r,rint)畫(huà)出殘差及其置信區(qū)間fitlm(x,y,model)以x為數(shù)據(jù)矩陣,以y為響應(yīng)變量,用model的方式建立一個(gè)線性回歸模型.Modelspec方式見(jiàn)軟件說(shuō)明,可缺省.plotDiagnostics(mdl,plottype)以plottype選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的數(shù)據(jù)診斷圖plotResiduals(mdl,plottype)以plottype指定選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的誤差圖predict(mdl,Xnew)返回(線性、非線性)模型mdl在Xnew的預(yù)測(cè)值和99%置信區(qū)間相關(guān)matlab命令函數(shù)4.一元回歸分析的matlab實(shí)現(xiàn)10例1
設(shè)為x某個(gè)時(shí)期的家庭人均收入,y為該時(shí)期內(nèi)平均每十戶擁有照相機(jī)的數(shù)量.統(tǒng)計(jì)數(shù)據(jù)如下表7-2所示,求y與x的回歸方程,并畫(huà)出參差及用回歸方程進(jìn)行預(yù)測(cè).表7-2家庭人均收入與需照相機(jī)的關(guān)系(百元)1.51.82.43.03.53.94.44.85.0(臺(tái)/十戶)2.83.75.06.38.810.511.011.613.2用regress函數(shù)執(zhí)行實(shí)驗(yàn)實(shí)驗(yàn)方法如下:11(1)輸入數(shù)據(jù),觀察x與y是否線性關(guān)系x=[1.51.82.43.03.53.94.44.85.0]’Y=[2.83.75.06.38.810.511.011.613.2]’;plot(x,Y,'*')↙在命令窗口輸入:12(2)求回歸方程在命令窗口輸入:X=[ones(9,1)x];[b,bint,r,rint,stats]=regress(Y,X)↙b=-1.70702.9130bint=-2.9748-0.43932.55853.2675r=….rint=…stats=0.9818377.57990.00000.2944決定系數(shù)R^2F統(tǒng)計(jì)值F的值對(duì)應(yīng)的概率誤差平方的均值s2回歸系數(shù)的估計(jì)值回歸系數(shù)的置信區(qū)間殘差(此處略)殘差的100(1-alpha)%置信區(qū)間13(3)相關(guān)的檢驗(yàn)可得回歸方程:決定系數(shù)R2=0.9818,F=377.5799,對(duì)應(yīng)的概率P=0.000<0.01因此線性相關(guān)性高度顯著.(4)殘差分析在命令窗口輸入:rcoplot(r,rint)↙檢驗(yàn)擬合效果,以進(jìn)一步優(yōu)化和改進(jìn)模型。必要時(shí)可以剔除異常數(shù)據(jù)。14生成右邊的殘差圖,可以看出,數(shù)據(jù)的殘差離零點(diǎn)均較近,且殘差的置信區(qū)間均包含零點(diǎn),這說(shuō)明回歸模型能很好的擬合原始數(shù)據(jù).(5)利用回歸方程預(yù)測(cè)及作圖在命令窗口輸入:z=b(1)+b(2)*x;plot(x,Y,'k+',x,z,'r')↙圖7-315給定x=4.5,利用回歸方程可以預(yù)測(cè):注意
一般情況下,建立模型后還要對(duì)模型的假定——
隨機(jī)誤差是服從正態(tài)分布且相互獨(dú)立——進(jìn)行一定的檢驗(yàn),以進(jìn)一步優(yōu)化和改進(jìn)模型。常用的方法是殘差分析法
當(dāng)然也可利用模型對(duì)預(yù)測(cè)目標(biāo)進(jìn)行區(qū)間估計(jì),對(duì)給定的置信度其預(yù)測(cè)區(qū)間為:16運(yùn)行matlab:(1)錄入數(shù)據(jù)同實(shí)驗(yàn)方法一(1).(2)求回歸方程在命令窗口輸入:lmf=fitlm(x,Y)↙注意,此處是用x,而非X.否則出錯(cuò).lmf=線性回歸模型:y~1+x1估計(jì)系數(shù):EstimateSEtStatpValue(Intercept)-1.7070.53613-3.1840.015405x12.9130.1499119.4312.3846e-07
這是回歸模型的說(shuō)明,lmf是自己定義的.實(shí)驗(yàn)方法二:用fitlm函數(shù)來(lái)執(zhí)行17lmf=線性回歸模型:(這是回歸模型的說(shuō)明).y~1+x1估計(jì)系數(shù):EstimateSEtStatpValue(Intercept)-1.7070.53613-3.1840.015405x12.9130.1499119.4312.3846e-07所求的回歸方程為:系數(shù)估計(jì)值
從以上運(yùn)行結(jié)果可知,系數(shù)的t統(tǒng)計(jì)值和對(duì)應(yīng)的概率,而regress命令則沒(méi)有這個(gè)。所求的回歸方程為:18
從以上運(yùn)行結(jié)果可知,決定系數(shù)=0.982,F=378,對(duì)應(yīng)的概率P=2.38e-07<0.01,可知回歸方程:線性相關(guān)性高度顯著.觀測(cè)值數(shù)目:9,誤差自由度:7均方根誤差:0.543R-方:0.982,調(diào)整R-方0.979F統(tǒng)計(jì)量(常量模型):378,p值=2.38e-07
可知:剩余標(biāo)準(zhǔn)差是s=0.543,決定系數(shù)R2=0.982,F統(tǒng)計(jì)量的值是:378,對(duì)應(yīng)的概率是:2.38e-07.(注意,在用regress中得到的是s2=0.2944.即stats的第四個(gè)參數(shù).)(3)回歸方程的顯著性檢驗(yàn)19(4)殘差分析在命令窗口輸入:plotResiduals(lmf,'probability')↙該命令可畫(huà)出殘差與回歸擬合分布圖●可見(jiàn)沒(méi)有殘差明顯偏離回歸擬合直線.模型無(wú)需改進(jìn).●可用下列命令找到殘差大于0.8的數(shù)據(jù)位置:find(lmf.Residuals.Raw>0.8)↙ans=620(5)點(diǎn)預(yù)測(cè)與95%的置信區(qū)間預(yù)測(cè)x=4.5的值.在命令窗口輸入:[NewlmfNewCI]=predict(lmf,4.5)↙Newlmf=11.4014NewCI=10.814611.9881
可得到回歸預(yù)測(cè)值為11.4014,其置信區(qū)間為[10.8146,11.9881].思考題:如何利用該命令畫(huà)出回歸方程的95%置信區(qū)間的圖形?或者用feval(lmf,4.5)也可.21二一元非線性回歸分析選擇適當(dāng)?shù)那€求回歸方程其中a,b為未知參數(shù)。常見(jiàn)的可化為一元線性回歸的非線性(即曲線型)問(wèn)題詳見(jiàn)教材,此處略去.
兩個(gè)變量之間的相關(guān)關(guān)系不是線性的,可以根據(jù)專業(yè)知識(shí)或散點(diǎn)圖,22非線性回歸Matlab命令函數(shù)函數(shù)功能nlinfit(x,y,’model’beta0)計(jì)算非線性回歸的系數(shù),殘差,估計(jì)預(yù)測(cè)誤差的數(shù)據(jù)nlintool(x,y,’model’,beta0,alpha)產(chǎn)生擬合曲線和y的置信區(qū)間等信息的交互畫(huà)面nlpredci(‘model’,x,beta,r,J)求回歸函數(shù)在x處的預(yù)測(cè)值y及其置信區(qū)間nlparci(beta,r,J)計(jì)算回歸系數(shù)的置信區(qū)間fitnlm(x,y,fun,beta0)與nlinfit函數(shù)采用相同算法的另一個(gè)非線性回歸命令plotDiagnostics(mdl,plottype)以plottype選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的數(shù)據(jù)診斷圖plotResiduals(mdl,plottype)以plottype指定選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的誤差圖predict(mdl,Xnew)返回(線性、非線性)模型mdl在Xnew的預(yù)測(cè)值和99%置信區(qū)間23例2
在彩色顯影中,根據(jù)經(jīng)驗(yàn)形成燃料光學(xué)密度y與析出銀的光學(xué)密度x由公式表7-3光學(xué)密度與析出銀的光學(xué)密度實(shí)驗(yàn)數(shù)據(jù)xi0.050.060.070.100.140.200.250.310.380.430.47yi0.100.140.230.370.590.791.001.121.191.251.29求y關(guān)于x的回歸方程.表示,測(cè)得實(shí)驗(yàn)數(shù)據(jù)如下:24實(shí)驗(yàn)流程如下:(2)對(duì)要擬合對(duì)非線性模型建立M文件volum.m如下(1)輸入數(shù)據(jù)x=[0.050.060.070.100.140.200.250.310.380.430.47]';
y=[0.100.140.230.370.590.791.001.121.191.251.29]‘;beta0=[0.10.1];在命令行窗口輸入:這里初始?xì)垟?shù)的設(shè)定沒(méi)有一般的方法.該初值的選取直接影響到計(jì)算和擬合的質(zhì)量,在沒(méi)有相關(guān)信息的情況下可用beta0=randn(nVars,1).
functionyhat=volum(beta,x)yhat=beta(1)*exp(beta(2)./x);25(3)求回歸系數(shù)[beta,r,J]=nlinfit(x,y,'volum',beta0);可得非線性回歸方程(4)回歸方程的預(yù)測(cè)及作圖[yy,delta]=nlpredci('volum1',x,beta,r,J);beta=↙1.7924-0.153426plot(x,y,'k+',x,yy,'r')↙可見(jiàn)回歸曲線與原始數(shù)據(jù)擬合的很好??梢杂檬S鄻?biāo)準(zhǔn)差來(lái)定量的判定擬合效果。27實(shí)驗(yàn)方法二:用fitnlm命令流程如下:(1)輸入數(shù)據(jù)在命令窗口輸入x,y的數(shù)據(jù).同上(2)模型選擇模型也可以用匿名函數(shù).yhat=@(b,x)b(1)*exp(b(2)./x);(3)回歸與檢驗(yàn)在命令窗口輸入:nlf=fitnlm(x,y,yhat,beta0)↙得到如下結(jié)果:在命令窗口輸入:28nlf=非線性回歸模型:y~b1*exp(b2/x)估計(jì)系數(shù):EstimateSEtStatpValueb11.79240.03026159.2315.6151e-13b2-0.153390.0043739-35.0696.1601e-11觀測(cè)值數(shù)目:11,誤差自由度:9均方根誤差:0.0236R-方:0.998,調(diào)整R-方0.997F-statisticvs.zeromodel:7.25e+03,p值=3.68e-15這是回歸模型的說(shuō)明,nlf是自己定義的.可得非線性回歸方程29我們還可知道:決定系數(shù),F(xiàn)統(tǒng)計(jì)值對(duì)應(yīng)概率P=3.68e-15<0.01.系數(shù)的統(tǒng)計(jì)值對(duì)應(yīng)概率很小.此外,剩余標(biāo)準(zhǔn)差為0.0236相比y的數(shù)據(jù)范圍小的多,也說(shuō)明模型擬合較好.(4)回歸方程的預(yù)測(cè)在命令行窗口輸入:[yhat,yci]=predict(nlf,x);↙plot(x,y,'k+',x,yhat,'r')↙此函數(shù)線性和非線性通用30
下表為1980~1991年間以1987年不變價(jià)計(jì)算的美國(guó)個(gè)人消費(fèi)支出Y與國(guó)內(nèi)生產(chǎn)支出X數(shù)據(jù)(單位:10億美元)年份YX年份YX19802447.13776.319862969.14404.519812476.93843.119873052.24539.919822503.73760.319883162.44718.619832619.43906.619893223.34838.019842746.14148.519903260.44877.519852865.84279.819913240.84821.0(1)在直角坐標(biāo)系下,作X與Y的散點(diǎn)圖,并判斷Y與X是否存在線性相關(guān)關(guān)系.(2)試求Y與X的一元線性回歸方程.三應(yīng)用實(shí)例31(3)對(duì)所得回歸方程作顯著性檢驗(yàn)(a=0.05).(4)若國(guó)內(nèi)生產(chǎn)支出為x0=4500,試求對(duì)應(yīng)的消費(fèi)支出y0的點(diǎn)預(yù)測(cè)和包含概率為的95%區(qū)間預(yù)測(cè).實(shí)驗(yàn)流程(1)輸入數(shù)據(jù),觀察散點(diǎn)圖.x=[3776.33843.13760.33906.64148.54279.84404.54539.94718.64838.04877.54821.0]’;y=[2447.12476.92503.72619.42746.12865.82969.13052.23162.43223.33260.43240.8]’;plot(y,x,'+')↙在命令窗口輸入:圖7-5632(2)求回歸方程在命令窗口輸入:lmf=fitlm(x,y)↙lmf=線性回歸模型:y~1+x1估計(jì)系數(shù):EstimateSEtStatpValue(Intercept)-231.894.528-2.45210.034132x10.719430.0217533.0781.5052e-11觀測(cè)值數(shù)目:12,誤差自由度:10均方根誤差:31.4R-方:0.991,調(diào)整R-方0.99F統(tǒng)計(jì)量(常量模型):1.09e+03,p值=1.51e-11注意,此處x首行不用添加1.否則出錯(cuò).這是回歸模型的說(shuō)明33可知回歸系數(shù)y
=-231.7951+0.7194x
(3)回歸方程(系數(shù))顯著性檢驗(yàn)R2=0.991,F(xiàn)=1.09e+03,p=1.51e-11,由p<0.01知回歸方程線性關(guān)系高度顯著.此外,兩個(gè)系數(shù)的統(tǒng)計(jì)量對(duì)應(yīng)概率均小于0.05,也說(shuō)明回歸變量與因變量y線性關(guān)系顯著.(4)殘差分析在命令行窗口輸入:plotResiduals(lmf,'probability')↙故回歸方程為34發(fā)現(xiàn)有一個(gè)殘差大于40的數(shù)據(jù)偏離正態(tài)分布.定位該數(shù)據(jù):find(lmf.Residuals.Raw>40)↙ans=4剔除該數(shù)據(jù)重新進(jìn)行回歸計(jì)算。思考題:請(qǐng)大家自己計(jì)算提出異常數(shù)據(jù)后結(jié)果,并分析模型是否需要改進(jìn)?35(5)模型預(yù)測(cè)當(dāng)x0=4500時(shí),點(diǎn)預(yù)測(cè):y0=feval(lmf,4500)↙y0=3005.7.包含概率為95%的區(qū)間預(yù)測(cè)的MATLAB實(shí)現(xiàn):[a,b]=predict(lmf,x);↙plot(x,y,'.',x,a,'r',x,b,'b-')↙legend(‘原始數(shù)據(jù)','回歸數(shù)據(jù)','置信區(qū)間')↙
數(shù)學(xué)實(shí)驗(yàn)國(guó)家“十二五”規(guī)劃教材山東省優(yōu)秀教材一等獎(jiǎng)主編:李秀珍龐常詞37第七章回歸分析實(shí)驗(yàn)7.1一元回歸分析實(shí)驗(yàn)7.2多元回歸分析數(shù)學(xué)實(shí)驗(yàn)38實(shí)驗(yàn)7.1一元回歸分析一、一元線性回歸分析二一元非線性回歸分析數(shù)學(xué)實(shí)驗(yàn)39一、一元線性回歸分析模型兩個(gè)變量x與y可以表示為:稱為一元線性回歸模型,
y稱為響應(yīng)變量自變量x是可以控制的變量,稱為未知參數(shù)a,b稱為回歸系數(shù),回歸變量;(7.1)
一元線性回歸分析實(shí)驗(yàn)的主要任務(wù)是:(1)用試驗(yàn)值(樣本觀測(cè)值)對(duì)未知參a,b做出估計(jì);或因變量,(2)對(duì)建立的回歸方程進(jìn)行顯著性檢驗(yàn);(3)利用建立的回歸方程進(jìn)行預(yù)測(cè)或控制。
是隨機(jī)誤差.
假設(shè)均服從正態(tài)分布40(7.1)式,得這里是相互獨(dú)立的隨機(jī)變量,假設(shè)均服從正態(tài)分布,,.即,
使用最小二乘方法,求得a,b的值,可得到回歸方程:1.模型回歸系數(shù)的估計(jì)
假定試驗(yàn)得到兩個(gè)變量x與y
的n個(gè)數(shù)據(jù)對(duì),我們將這n對(duì)觀測(cè)值代入412.回歸方程的顯著性檢驗(yàn)剩余(殘差)平方和它是由觀測(cè)誤差等其他因素引起的誤差.它反映了回歸變量x對(duì)變量y線性關(guān)系的密切程度.回歸平方和它表示觀測(cè)值總的分散程度.檢驗(yàn)中常用的幾個(gè)統(tǒng)計(jì)量:偏差平方和42(1)擬合優(yōu)度檢驗(yàn)(2)回歸方程的顯著性檢驗(yàn)反映了回歸直線與觀測(cè)值的擬合程度,值越大,說(shuō)明直線對(duì)數(shù)據(jù)的擬合程度越好.在實(shí)際應(yīng)用中也可通過(guò)F的統(tǒng)計(jì)值對(duì)應(yīng)的概率P<a來(lái)說(shuō)明y與x之間的線性相關(guān)性顯著.當(dāng)P<0.01時(shí),稱回歸方程高度顯著;當(dāng)0.01<P<0.05時(shí),稱回歸方程顯著;當(dāng)P>0.05時(shí),稱回歸方程不顯著.433.利用模型預(yù)測(cè)和控制把的值代入回歸方程得到預(yù)測(cè)值.當(dāng)n很大時(shí),99%的預(yù)測(cè)區(qū)間可分別近似為這里s是剩余標(biāo)準(zhǔn)差,它表示觀測(cè)值偏離回歸直線的平均誤差.觀測(cè)值與回歸值之差稱為殘差.
如果模型的假定成立,那么殘差數(shù)據(jù)散點(diǎn)圖應(yīng)該以0為均值,呈寬度一致的帶狀分布.44函數(shù)功能regress(y,x,alpha)計(jì)算回歸系數(shù)及其區(qū)間估計(jì),殘差及其置信區(qū)間,并給出檢驗(yàn)回歸模型的參數(shù)(決定系數(shù),F(xiàn)統(tǒng)計(jì)量等),alpha缺省為0.05rcoplot(r,rint)畫(huà)出殘差及其置信區(qū)間fitlm(x,y,model)以x為數(shù)據(jù)矩陣,以y為響應(yīng)變量,用model的方式建立一個(gè)線性回歸模型.Modelspec方式見(jiàn)軟件說(shuō)明,可缺省.plotDiagnostics(mdl,plottype)以plottype選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的數(shù)據(jù)診斷圖plotResiduals(mdl,plottype)以plottype指定選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的誤差圖predict(mdl,Xnew)返回(線性、非線性)模型mdl在Xnew的預(yù)測(cè)值和99%置信區(qū)間相關(guān)matlab命令函數(shù)4.一元回歸分析的matlab實(shí)現(xiàn)45例1
設(shè)為x某個(gè)時(shí)期的家庭人均收入,y為該時(shí)期內(nèi)平均每十戶擁有照相機(jī)的數(shù)量.統(tǒng)計(jì)數(shù)據(jù)如下表7-2所示,求y與x的回歸方程,并畫(huà)出參差及用回歸方程進(jìn)行預(yù)測(cè).表7-2家庭人均收入與需照相機(jī)的關(guān)系(百元)1.51.82.43.03.53.94.44.85.0(臺(tái)/十戶)2.83.75.06.38.810.511.011.613.2用regress函數(shù)執(zhí)行實(shí)驗(yàn)實(shí)驗(yàn)方法如下:46(1)輸入數(shù)據(jù),觀察x與y是否線性關(guān)系x=[1.51.82.43.03.53.94.44.85.0]’Y=[2.83.75.06.38.810.511.011.613.2]’;plot(x,Y,'*')↙在命令窗口輸入:47(2)求回歸方程在命令窗口輸入:X=[ones(9,1)x];[b,bint,r,rint,stats]=regress(Y,X)↙b=-1.70702.9130bint=-2.9748-0.43932.55853.2675r=….rint=…stats=0.9818377.57990.00000.2944決定系數(shù)R^2F統(tǒng)計(jì)值F的值對(duì)應(yīng)的概率誤差平方的均值s2回歸系數(shù)的估計(jì)值回歸系數(shù)的置信區(qū)間殘差(此處略)殘差的100(1-alpha)%置信區(qū)間48(3)相關(guān)的檢驗(yàn)可得回歸方程:決定系數(shù)R2=0.9818,F=377.5799,對(duì)應(yīng)的概率P=0.000<0.01因此線性相關(guān)性高度顯著.(4)殘差分析在命令窗口輸入:rcoplot(r,rint)↙檢驗(yàn)擬合效果,以進(jìn)一步優(yōu)化和改進(jìn)模型。必要時(shí)可以剔除異常數(shù)據(jù)。49生成右邊的殘差圖,可以看出,數(shù)據(jù)的殘差離零點(diǎn)均較近,且殘差的置信區(qū)間均包含零點(diǎn),這說(shuō)明回歸模型能很好的擬合原始數(shù)據(jù).(5)利用回歸方程預(yù)測(cè)及作圖在命令窗口輸入:z=b(1)+b(2)*x;plot(x,Y,'k+',x,z,'r')↙圖7-350給定x=4.5,利用回歸方程可以預(yù)測(cè):注意
一般情況下,建立模型后還要對(duì)模型的假定——
隨機(jī)誤差是服從正態(tài)分布且相互獨(dú)立——進(jìn)行一定的檢驗(yàn),以進(jìn)一步優(yōu)化和改進(jìn)模型。常用的方法是殘差分析法
當(dāng)然也可利用模型對(duì)預(yù)測(cè)目標(biāo)進(jìn)行區(qū)間估計(jì),對(duì)給定的置信度其預(yù)測(cè)區(qū)間為:51運(yùn)行matlab:(1)錄入數(shù)據(jù)同實(shí)驗(yàn)方法一(1)。略(2)求回歸方程在命令窗口輸入:lmf=fitlm(x,Y)↙注意,此處是用x,而非X.否則出錯(cuò).lmf=線性回歸模型:y~1+x1估計(jì)系數(shù):EstimateSEtStatpValue(Intercept)-1.7070.53613-3.1840.015405x12.9130.1499119.4312.3846e-07
這是回歸模型的說(shuō)明,lmf是自己定義的.實(shí)驗(yàn)方法二:用fitlm函數(shù)來(lái)執(zhí)行52lmf=線性回歸模型:(這是回歸模型的說(shuō)明).y~1+x1估計(jì)系數(shù):EstimateSEtStatpValue(Intercept)-1.7070.53613-3.1840.015405x12.9130.1499119.4312.3846e-07所求的回歸方程為:系數(shù)估計(jì)值
從以上運(yùn)行結(jié)果可知,系數(shù)的t統(tǒng)計(jì)值和對(duì)應(yīng)的概率,而regress命令則沒(méi)有這個(gè)。所求的回歸方程為:53
從以上運(yùn)行結(jié)果可知,決定系數(shù)=0.982,F=378,對(duì)應(yīng)的概率P=2.38e-07<0.01,可知回歸方程:線性相關(guān)性高度顯著.觀測(cè)值數(shù)目:9,誤差自由度:7均方根誤差:0.543R-方:0.982,調(diào)整R-方0.979F統(tǒng)計(jì)量(常量模型):378,p值=2.38e-07
可知:剩余標(biāo)準(zhǔn)差是s=0.543,決定系數(shù)R2=0.982,F統(tǒng)計(jì)量的值是:378,對(duì)應(yīng)的概率是:2.38e-07.(注意,在用regress中得到的是s2=0.2944.即stats的第四個(gè)參數(shù).)(3)回歸方程的顯著性檢驗(yàn)54(4)殘差分析在命令窗口輸入:plotResiduals(lmf,'probability')↙該命令可畫(huà)出殘差與回歸擬合分布圖●可見(jiàn)沒(méi)有殘差明顯偏離回歸擬合直線.模型無(wú)需改進(jìn).●可用下列命令找到殘差大于0.8的數(shù)據(jù)位置:find(lmf.Residuals.Raw>0.8)↙ans=6此函數(shù)得不到與regress等價(jià)的參數(shù)55(5)點(diǎn)預(yù)測(cè)與95%的置信區(qū)間預(yù)測(cè)x=4.5的值.在命令窗口輸入:[NewlmfNewCI]=predict(lmf,4.5)↙Newlmf=11.4014NewCI=10.814611.9881
可得到回歸預(yù)測(cè)值為11.4014,其置信區(qū)間為[10.8146,11.9881].思考題:如何利用該命令畫(huà)出回歸方程的95%置信區(qū)間的圖形?或者用feval(lmf,4.5)也可.56二一元非線性回歸分析選擇適當(dāng)?shù)那€求回歸方程其中a,b為未知參數(shù)。常見(jiàn)的可化為一元線性回歸的非線性(即曲線型)問(wèn)題詳見(jiàn)教材,此處略去.
兩個(gè)變量之間的相關(guān)關(guān)系不是線性的,我們可以根據(jù)專業(yè)知識(shí)或散點(diǎn)圖,57非線性回歸Matlab命令函數(shù)函數(shù)功能nlinfit(x,y,’model’beta0)計(jì)算非線性回歸的系數(shù),殘差,估計(jì)預(yù)測(cè)誤差的數(shù)據(jù)nlintool(x,y,’model’,beta0,alpha)產(chǎn)生擬合曲線和y的置信區(qū)間等信息的交互畫(huà)面nlpredci(‘model’,x,beta,r,J)求回歸函數(shù)在x處的預(yù)測(cè)值y及其置信區(qū)間nlparci(beta,r,J)計(jì)算回歸系數(shù)的置信區(qū)間fitnlm(x,y,fun,beta0)與nlinfit函數(shù)采用相同算法的另一個(gè)非線性回歸命令plotDiagnostics(mdl,plottype)以plottype選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的數(shù)據(jù)診斷圖plotResiduals(mdl,plottype)以plottype指定選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的誤差圖predict(mdl,Xnew)返回(線性、非線性)模型mdl在Xnew的預(yù)測(cè)值和99%置信區(qū)間58例2
在彩色顯影中,根據(jù)經(jīng)驗(yàn)形成燃料光學(xué)密度y與析出銀的光學(xué)密度x由公式表7-3光學(xué)密度與析出銀的光學(xué)密度實(shí)驗(yàn)數(shù)據(jù)xi0.050.060.070.100.140.200.250.310.380.430.47yi0.100.140.230.370.590.791.001.121.191.251.29求y關(guān)于x的回歸方程.表示,測(cè)得實(shí)驗(yàn)數(shù)據(jù)如下:59實(shí)驗(yàn)流程如下:(2)對(duì)要擬合對(duì)非線性模型建立M文件volum.m如下(1)輸入數(shù)據(jù)x=[0.050.060.070.100.140.200.250.310.380.430.47]';
y=[0.100.140.230.370.590.791.001.121.191.251.29]‘;beta0=[0.10.1];在命令行窗口輸入:這里初始?xì)垟?shù)的設(shè)定沒(méi)有一般的方法.該初值的選取直接影響到計(jì)算和擬合的質(zhì)量,在沒(méi)有相關(guān)信息的情況下可用beta0=randn(nVars,1).
functionyhat=volum(beta,x)yhat=beta(1)*exp(beta(2)./x);60(3)求回歸系數(shù)[beta,r,J]=nlinfit(x,y,'volum',beta0);可得非線性回歸方程(4)回歸方程的預(yù)測(cè)及作圖[yy,delta]=nlpredci('volum1',x,beta,r,J);beta=↙1.7924-0.153461plot(x,y,'k+',x,yy,'r')↙可見(jiàn)回歸曲線與原始數(shù)據(jù)擬合的很好。可以用剩余標(biāo)準(zhǔn)差來(lái)定量的判定擬合效果。62實(shí)驗(yàn)方法二:用fitnlm命令流程如下:(1)輸入數(shù)據(jù)在命令窗口輸入x,y的數(shù)據(jù).同上(2)模型選擇模型也可以用匿名函數(shù).yhat=@(b,x)b(1)*exp(b(2)./x);(3)回歸與檢驗(yàn)在命令窗口輸入:nlf=fitnlm(x,y,yhat,beta0)↙得到如下結(jié)果:在命令窗口輸入:63nlf=非線性回歸模型:y~b1*exp(b2/x)估計(jì)系數(shù):EstimateSEtStatpValueb11.79240.03026159.2315.6151e-13b2-0.153390.0043739-35.0696.1601e-11觀測(cè)值數(shù)目:11,誤差自由度:9均方根誤差:0.0236R-方:0.998,調(diào)整R-方0.997F-statisticvs.zeromodel:7.25e+03,p值=3.68e-15這是回歸模型的說(shuō)明,nlf是自己定義的.可得非線性回歸方程64我們還可知道:決定系數(shù),F(xiàn)統(tǒng)計(jì)值對(duì)應(yīng)概率P=3.68e-15<0.01.系數(shù)的統(tǒng)計(jì)值對(duì)應(yīng)概率很小.此外,剩余標(biāo)準(zhǔn)差為0.0236相比y的數(shù)據(jù)范圍小的多,也說(shuō)明模型擬合較好.(4)回歸方程的預(yù)測(cè)在命令行窗口輸入:[yhat,yci]=predict(nlf,x);↙plot(x,y,'k+',x,yhat,'r')↙此函數(shù)線性和非線性通用65
下表為1980~1991年間以1987年不變價(jià)計(jì)算的美國(guó)個(gè)人消費(fèi)支出Y與國(guó)內(nèi)生產(chǎn)支出X數(shù)據(jù)(單位:10億美元)年份YX年份YX19802447.13776.319862969.14404.519812476.93843.119873052.24539.919822503.73760.319883162.44718.619832619.43906.619893223.34838.019842746.14148.519903260.44877.519852865.84279.819913240.84821.0(1)在直角坐標(biāo)系下,作X與Y的散點(diǎn)圖,并判斷Y與X是否存在線性相關(guān)關(guān)系.(2)試求Y與X的一元線性回歸方程.三應(yīng)用實(shí)例66(3)對(duì)所得回歸方程作顯著性檢驗(yàn)(a=0.05).(4)若國(guó)內(nèi)生產(chǎn)支出為x0=4500,試求對(duì)應(yīng)的消費(fèi)支出y0的點(diǎn)預(yù)測(cè)和包含概率為的95%區(qū)間預(yù)測(cè).實(shí)驗(yàn)流程(1)輸入數(shù)據(jù),觀察散點(diǎn)圖.x=[3776.33843.13760.33906.64148.54279.84404.54539.94718.64838.04877.54821.0]’;y=[2447.12476.92503.72619.42746.12865.82969.13052.23162.43223.33260.43240.8]’;plot(y,x,'+')↙在命令窗口輸入:圖7-5667(2)求回歸方程在命令窗口輸入:lmf=fitlm(x,y)↙lmf=線性回歸模型:y~1+x1估計(jì)系數(shù):EstimateSEtStatpValue(Intercept)-231.894.528-2.45210.034132x10.719430.0217533.0781.5052e-11觀測(cè)值數(shù)目:12,誤差自由度:10均方根誤差:31.4R-方:0.991,調(diào)整R-方0.99F統(tǒng)計(jì)量(常量模型):1.09e+03,p值=1.51e-11注意,此處x首行不用添加1.否則出錯(cuò).這是回歸模型的說(shuō)明68可知回歸系數(shù)y
=-231.7951+0.7194x
(3)回歸方程(系數(shù))顯著性檢驗(yàn)R2=0.991,F(xiàn)=1.09e+03,p=1.51e-11,由p<0.01知回歸方程線性關(guān)系高度顯著.此外,兩個(gè)系數(shù)的統(tǒng)計(jì)量對(duì)應(yīng)概率均小于0.05,也說(shuō)明回歸變量與因變量y線性關(guān)系顯著.(4)殘差分析在命令行窗口輸入:plotResiduals(lmf,'probability')↙故回歸方程為69發(fā)現(xiàn)有一個(gè)殘差大于40的數(shù)據(jù)偏離正態(tài)分布.定位該數(shù)據(jù):find(lmf.Residuals.Raw>40)↙ans=4剔除該數(shù)據(jù)重新進(jìn)行回歸計(jì)算。思考題:請(qǐng)大家自己計(jì)算提出異常數(shù)據(jù)后結(jié)果,并分析模型是否需要改進(jìn)?70(5)模型預(yù)測(cè)當(dāng)x0=4500時(shí),點(diǎn)預(yù)測(cè):y0=feval(lmf,4500)↙y0=3005.7.包含概率為95%的區(qū)間預(yù)測(cè)的MATLAB實(shí)現(xiàn):[a,b]=predict(lmf,x);↙plot(x,y,'.',x,a,'r',x,b,'b-')↙
legend(‘原始數(shù)據(jù)','回歸數(shù)據(jù)','置信區(qū)間')↙71第七章回歸分析實(shí)驗(yàn)7.1一元回歸分析實(shí)驗(yàn)7.2多元回歸分析數(shù)學(xué)實(shí)驗(yàn)72實(shí)驗(yàn)7.2多元回歸分析數(shù)學(xué)實(shí)驗(yàn)一、多元線性回歸分析二、多元線性回歸分析的matlab實(shí)現(xiàn)四、多元非線性回歸分析三、逐步回歸分析73一、多元線性回歸分析
(7.3)稱(7.3)多元線性回歸模型,假設(shè)預(yù)測(cè)對(duì)象為y與m(m≥2)個(gè)影響因素之間有以下線性關(guān)系其中y稱為因變量或響應(yīng)變量,稱為回歸變量,
稱為回歸系數(shù).
是隨機(jī)誤差,一般假設(shè),是未知參數(shù).
更一般地有,是未知的待定系數(shù),(7.4)其中
是已知的函數(shù),
也稱為(廣義)多元線性回歸模型.74多元線性回歸分析實(shí)驗(yàn)的主要任務(wù)是:1.用試驗(yàn)值(樣本觀測(cè)值)對(duì)待定系數(shù)做出估計(jì);2.對(duì)建立的回歸方程和每個(gè)回歸變量進(jìn)行顯著性檢驗(yàn);3.利用回歸方程對(duì)y作預(yù)測(cè),或給定y值,對(duì)回歸變量作控制.751.回歸系數(shù)的估計(jì)為了估計(jì)回歸系數(shù),做了n組實(shí)驗(yàn)得到數(shù)據(jù)代入多元線性回歸模型得到矩陣形式為其中矩陣X為已知的樣本數(shù)據(jù)矩陣,稱為資料矩陣;76B為未知的列向量(回歸系數(shù));服從獨(dú)立同分布,即應(yīng)用最小二乘法估計(jì)可得到回歸系數(shù)的估計(jì)值,
設(shè)為
可得(樣本)多元線性回歸方程:代入一組觀測(cè)值
,通過(guò)回歸方程可計(jì)算出,稱之為回歸預(yù)測(cè)值.772.線性回歸方程的顯著性檢驗(yàn)多元線性回歸模型的檢驗(yàn)包括:(1)回歸方程的顯著性檢驗(yàn);(2)檢驗(yàn)每個(gè)回歸變量與因變量之間的相關(guān)程度;(3)檢驗(yàn)?zāi)P捅旧硎欠翊嬖谧韵嚓P(guān)等.首先看回歸方程的整體顯著性檢驗(yàn)方法.多元線性回歸分析選取的統(tǒng)計(jì)量同實(shí)驗(yàn)7.1,此處略.(1)回歸方程的擬合優(yōu)度(R2檢驗(yàn)法)R這里被稱為復(fù)相關(guān)系數(shù)或全相關(guān)系數(shù),即決定系數(shù)的算術(shù)平方根。
復(fù)相關(guān)系數(shù)R用來(lái)解釋,這一組影響因素與y的線性相關(guān)程度.78R值越接近1,說(shuō)明因變量y與回歸變量之間的函數(shù)關(guān)系越密切;
反之,則說(shuō)明因變量y與回歸變量之間的函數(shù)關(guān)系不密切或不存在線性函數(shù)關(guān)系.通常R大于0.8(或0.9)才認(rèn)為相關(guān)關(guān)系成立.多重判定系數(shù)R2在多元線性回歸分析是度量多元回歸方程擬合程度的一個(gè)統(tǒng)計(jì)量,反映了在因變量y的變差中被估計(jì)的回歸方程所解釋的比例.79給定顯著水平,
通常通過(guò)F的統(tǒng)計(jì)值對(duì)應(yīng)的概率P
<來(lái)說(shuō)明因變量y與全體回歸變量之間的當(dāng)
時(shí),稱回歸方程高度顯著;當(dāng)
時(shí),稱回歸方程顯著;當(dāng)
時(shí),稱回歸方程不顯著.(2)F檢驗(yàn)法構(gòu)造統(tǒng)計(jì)量F則,F
服從第一自由度為m,第二自由度為n-m-1的F分布,線性相關(guān)性:803.每個(gè)變量的顯著性檢驗(yàn)
即使回歸方程的整體線性相關(guān)性顯著,仍然要對(duì)關(guān)每個(gè)回歸變量與因變量之間的線性相關(guān)的顯著性進(jìn)行檢驗(yàn).常用t-檢驗(yàn)法.(1)可以根據(jù)軟件計(jì)算出的t統(tǒng)計(jì)量的統(tǒng)計(jì)值對(duì)應(yīng)的概率大小來(lái)定性的判斷該回歸變量的顯著性.(2)也可以通過(guò)對(duì)回歸系數(shù)的置信區(qū)間來(lái)定性的判斷每個(gè)變量的影響顯著.如果某個(gè)變量的置信區(qū)間包含0點(diǎn),則說(shuō)明該變量對(duì)因變量影響不顯著.(3)若存在不顯著的變量,剔除后再進(jìn)行其余變量的回歸,直至余下的變量全部顯著為止.方法如下:814.殘差分析與模型診斷觀測(cè)值與回歸值之差稱為殘差.在回歸模型定義中,我們假設(shè)隨機(jī)誤差不服從正態(tài)分布,則說(shuō)明建立回歸模型不夠好,自相關(guān)等其他因素所致,需要
對(duì)于通過(guò)檢驗(yàn)的模型,殘差圖中置信區(qū)間不經(jīng)過(guò)0直線的殘差所對(duì)應(yīng)的個(gè)別數(shù)據(jù),可從原數(shù)據(jù)中刪除后再重新進(jìn)行回歸,這一點(diǎn)有時(shí)候很重要,直接影響到模型的結(jié)構(gòu),如例5中建立的模型.
除了利用殘差外,由于剩余標(biāo)準(zhǔn)差
,如果殘差也可能是數(shù)據(jù)存在進(jìn)一步改進(jìn)模型.82顯然,s越接近0,說(shuō)明回歸預(yù)測(cè)值與原始數(shù)據(jù)擬合的越好.表示觀測(cè)值偏離回歸直線的平均誤差,利用它也可以判斷回歸方程擬合的效果.5.預(yù)測(cè)
當(dāng)我們獲得顯著的回歸方程,就可以運(yùn)用該回歸方程進(jìn)行分析預(yù)測(cè)了.給出自變量的一組觀測(cè)值,代入回歸方程即可得到的回歸預(yù)測(cè)值.給定置信度,我們還可以得y的的預(yù)測(cè)區(qū)間(置信區(qū)間).83函數(shù)功能regress(y,x,alpha)計(jì)算回歸系數(shù)及其區(qū)間估計(jì),殘差及其置信區(qū)間,并g給出檢驗(yàn)回歸模型的參數(shù)(決定系數(shù),F(xiàn)統(tǒng)計(jì)量等),alpha缺省為0.05rcoplot(r,rint)畫(huà)出殘差及其置信區(qū)間fitlm(x,y,modelspec)以x為數(shù)據(jù)矩陣,以y為相應(yīng)變量,用modelspec的方式建立一個(gè)線性回歸模型.Modelspec方式見(jiàn)軟件說(shuō)明,可缺省.plotDiagnostics(mdl,plottype)以plottype選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的數(shù)據(jù)診斷圖plotResiduals(mdl,plottype)以plottype指定選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的誤差圖predict(mdl,Xnew)返回(線性、非線性)模型mdl在Xnew的預(yù)測(cè)值和99%置信區(qū)間相關(guān)matlab的命令函數(shù)二、多元線性回歸分析的matlab實(shí)現(xiàn)實(shí)驗(yàn)7.2多元線性回歸分析84例3
某公司調(diào)查某種商品的兩種廣告費(fèi)用1和廣告費(fèi)用2對(duì)該產(chǎn)品銷(xiāo)售量的影響,得到如下數(shù)據(jù),試建立線性回歸模型并進(jìn)行檢驗(yàn),診斷是否有異常點(diǎn).表7-8數(shù)據(jù)表銷(xiāo)量Y9690959295959494廣告費(fèi)1(x1)1.52.01.52.53.32.34.22.5廣告費(fèi)2(x2)5.02.04.02.53.03.52.53.085(1)輸入數(shù)據(jù),觀察x與y是否線性關(guān)系X=[1.5 2.0 1.5 2.5 3.3 2.3 4.2 2.5;5.02.04.0 2.5 3.0 3.5 2.5 3.0];Y=[96 90 95 92 95 95 94 94]’;plot(X(:,1),Y,’r*’)↙plot(X(:,2),Y,’k*’)↙用fitlm函數(shù)執(zhí)行實(shí)驗(yàn)實(shí)驗(yàn)方法如下:在命令窗口輸入:(2)求回歸方程首先觀察數(shù)據(jù)的散點(diǎn)圖,在命令行窗口輸入:86
如上圖所示,Y與x1,x2“大致”呈線性關(guān)系,我們可首先建立線性回歸模型.87在命令行窗口輸入:dlmf=fitlm(X,Y)↙dlmf=
線性回歸模型:y~1+x1+x2估計(jì)系數(shù):EstimateSEtStatpValue(Intercept)83.2121.713948.557.0048e-08x11.29850.349243.71790.013742x22.33720.331137.05820.00088245觀測(cè)值數(shù)目:8,誤差自由度:5均方根誤差:0.7R-方:0.909,調(diào)整R-方0.872統(tǒng)計(jì)模型(常量模型):24.9,p-值=0.0025188因此,回歸方程為y=83.212+1.2985+2.3372(3)顯著性檢驗(yàn)方程顯著性的整體檢驗(yàn):統(tǒng)計(jì)量R2=0.909的數(shù)值較大,說(shuō)明方程擬合數(shù)據(jù)較好.F=24.94,對(duì)應(yīng)于F的概率P=0.00251<0.01,總體上說(shuō)明模型線性整體線性相關(guān)(4)診斷分析剩余標(biāo)準(zhǔn)差s=0.7相對(duì)因變量的值較小.性高度顯著.所以回歸方程與原數(shù)據(jù)擬合的較好.進(jìn)一步觀察是否有異常數(shù)據(jù).89在命令窗口輸入:plotDiagnostics(dlmf,'cookd')↙如圖可見(jiàn)第一個(gè)數(shù)據(jù)的殘差大于平均值.90[~,larg]=max(dlmf.Diagnostics.CooksDistance);↙dlmf2=LinearModel.fit(X,Y,'Exclude',larg)↙dlmf2=(略)剔除該異常數(shù)據(jù),重新回歸:
可見(jiàn)各項(xiàng)統(tǒng)計(jì)指標(biāo)R2和F檢驗(yàn)概率都顯著增大,剩余標(biāo)準(zhǔn)差變得更小,模型擬合效果得到進(jìn)一步改善.注:
如果使用Regress命令,還可以利用rcoplot(r,rint)得到殘差及置信區(qū)間的圖.91
兩種廣告費(fèi)用之間會(huì)不會(huì)有影響呢?大家可以深入考慮模型應(yīng)該如何改進(jìn).也可以利用
LinearModel.fit(X,Y,'interactions')試一試.這里‘interactions’選項(xiàng)表示上述模型的基礎(chǔ)上引入x1*x2交叉項(xiàng).92例4.
某產(chǎn)品的收率Y(%)與處理壓強(qiáng)X1(1.0e+5Pa)及溫度x2(攝氏度)有關(guān),測(cè)的實(shí)驗(yàn)數(shù)據(jù)如下;
請(qǐng)檢驗(yàn)產(chǎn)品收率Y與處理壓強(qiáng)X1及溫度X2之間是否存在顯著的線性相關(guān)關(guān)系;如果存在,求Y關(guān)于X1及X2的線性回歸方程.X1X2YX1X2Y6.8665409.1700657.2685499.3680587.6690559.5685598700639.7700678.26956510650568.46705710.3690728.66755810.5670688.86906293(1)輸入數(shù)據(jù)觀察散點(diǎn)圖在命令窗口輸入:X1=[6.87.27.68.08.28.48.68.89.19.39.59.710.010.310.5]’;X2=[665685690700695670675690700680685700650690670]’;Y=[404955636557586265585967567268]’;plot(X1,Y,'*'),plot(X2,Y,'*')↙94(2)計(jì)算回歸系數(shù)在命令窗口輸入:X=[ones(15,1)X1X2];[b,bint,r,rint,stats]=regress(Y,X)↙b=-200.45545.68340.3075bint=-290.7876-110.12313.99987.36700.17900.4360……stats=0.862137.50020.000010.3172此處省略了r,rint參數(shù)的顯示。95(3)回歸方程的顯著性檢驗(yàn)(4)殘差分析在命令窗口輸入:rcoplot(r,rint)↙檢驗(yàn)擬合效果,以進(jìn)一步優(yōu)化和改進(jìn)模型。必要時(shí)可以剔除異常數(shù)據(jù)。
回歸系數(shù)的置信區(qū)間都不包含0,統(tǒng)計(jì)量R2=0.8621數(shù)值較大,F=37.5002,P<0.05.說(shuō)明模型線性相關(guān)性顯著.線性回歸方程結(jié)果為+0.3075y=-200.4554+5.683496
從殘差圖7-12可以看出,殘差分布在0直線附近,且殘差的置信區(qū)間均包含零點(diǎn),分布正常,但是有的數(shù)據(jù)的殘差較大,而且誤差方差的估計(jì)值s2=10.3172較大,殘差分布呈現(xiàn)一定的趨勢(shì)性,模型有待進(jìn)一步改進(jìn).請(qǐng)大家思考.圖7.1397
此外,一元多項(xiàng)式回歸和多元多項(xiàng)式回歸也是比較常用的線性回歸模型,相關(guān)MATLAB命令有確定多項(xiàng)式系數(shù)的命令polyfit,一元多項(xiàng)式回歸交互式命令polytool和求預(yù)測(cè)及預(yù)測(cè)誤差估計(jì)的polyval,polyconf,以及曲線擬合工具箱cftool等.多元二項(xiàng)式回歸命令有rstool,具體用法可參與其他資料.
多元回歸分析建模是一個(gè)復(fù)雜的過(guò)程,多元回歸分析有著豐富的數(shù)學(xué)理論,有興趣的同學(xué)可以進(jìn)一步深入學(xué)習(xí)相關(guān)知識(shí).98三、逐步回歸分析
為了得到“最優(yōu)”的回歸模型,我們要保留對(duì)因變量影響大的變量,剔除對(duì)因變量影響小的變量.這里最有效的方法是逐步回歸法.(1)從一個(gè)自變量開(kāi)始,根據(jù)對(duì)因變量y的影響程度,從大到小地依次逐個(gè)引入回歸方程.但當(dāng)引入的自變量由于后面的自變量的引入而變得不明顯時(shí),要將其除掉.(2)每引入或剔除一個(gè)自變量,都要對(duì)y進(jìn)行一次檢驗(yàn),以確保每次引入新變量前回歸方程中只包含對(duì)y作用顯著的變量.(3)這個(gè)過(guò)程反復(fù)進(jìn)行,直至沒(méi)有顯著影響變量引入,也沒(méi)有不顯著影響變量剔除為止.99
通過(guò)觀察決定系數(shù)R2、F統(tǒng)計(jì)量和剩余標(biāo)準(zhǔn)差(RMSE)、回歸系數(shù)的區(qū)間的變化來(lái)判斷該判定變量對(duì)模型的影響的顯著性.可用剩余標(biāo)準(zhǔn)差(RMSE)最小作為衡量變量選擇的一個(gè)數(shù)量標(biāo)準(zhǔn).引入或剔除變量的依據(jù):命令函數(shù)用法介紹stepwise(x,y,inmodel,alpha)x是自變量數(shù)據(jù)矩陣,y是因變量數(shù)據(jù)矩陣;alpha是顯著性水平(缺省時(shí)為0.05),inmode是自變量初始集合的指標(biāo).stepwiselm(x,y,modelspec)x和y的意義同stepwise,modelspec用來(lái)提供模型的類(lèi)別,詳見(jiàn)matlab2012的軟件幫助.100例5
表中數(shù)據(jù)是某建筑公司去年20個(gè)地區(qū)是銷(xiāo)售量(Y千元),推銷(xiāo)開(kāi)支、實(shí)際帳目數(shù)、同類(lèi)商品競(jìng)爭(zhēng)數(shù)和地區(qū)潛力分別是影響建筑材料銷(xiāo)售量的因素,試分析哪些是主要的影響因素,并建立該因素的線性回歸模型.地區(qū)I推銷(xiāo)開(kāi)支(x1)實(shí)際帳目數(shù)(x2)同類(lèi)商品競(jìng)爭(zhēng)數(shù)(x3)地區(qū)銷(xiāo)售潛力(x4)銷(xiāo)售量y15.53110879.322.55586200.138.067129163.2…..........203.038815146.0101利用MATLAB中逐步回歸命令解決問(wèn)題:(1)輸入數(shù)據(jù)Y=[79.3200.1163.2200.1146.0177.730.9291.9160.0339.4159.686.3237.5107.2155.0201.4100.2135.8223.3195.0]’;X=[5.531.010.08.02.555.08.06.0
…………..7.059.09.011.0];此處省略了部分?jǐn)?shù)據(jù)(2)逐步回歸
為簡(jiǎn)單起見(jiàn),先在模型中考慮全部變量,然后逐個(gè)加入對(duì)y影響不顯著的變量.在命令窗口輸入:stepwise(X,Y)↙102點(diǎn)擊左側(cè)的按鈕nextstep,X3的置信區(qū)間線段變?yōu)樗{(lán)色,表示變量X3已經(jīng)進(jìn)入模型中.如下圖103再點(diǎn)擊左側(cè)的按鈕nextstep,X2的置信區(qū)間線段變?yōu)樗{(lán)色.104在以上過(guò)程中,決定系數(shù)R2增大,F(xiàn)的值增加,對(duì)應(yīng)的概率P值明顯減小,剩余標(biāo)準(zhǔn)差RMSE明顯減小.105
也可以直接點(diǎn)擊右側(cè)的Allsteps按鈕一次完成變量的自動(dòng)選擇.
如果再加入變量X1,X4時(shí),決定系數(shù)幾乎沒(méi)變化,但F的值明顯減小了,RMSE的值增大了.這兩個(gè)變量不宜留在模型中,因此可以忽略X1和X4對(duì)y的影響!因此X2、X3是Y的主要影響因素.下面使用另一個(gè)命令函數(shù)再做這個(gè)實(shí)驗(yàn).
如果使用stepwiselm(x,y)命令,并不出現(xiàn)交互的窗口,而是在命令窗口直接動(dòng)態(tài)地給出結(jié)果.106在命令窗口輸入:mdl=stepwiselm(X,Y)↙1.正在添加x3,FStat=29.0275,pValue=4.04289e-052.正在添加x2,FStat=49.6984,pValue=1.95221e-06mdl=線性回歸模型:y~1+x2+x3估計(jì)系數(shù):EstimateSEtStatpValue(Intercept)186.0535.8435.19067.3688e-05x23.09070.438417.04971.9522e-06x3-19.5142.3915-8.15962.7862e-07觀測(cè)值數(shù)目:20,誤差自由度:17均方根誤差:24R-方:0.902,調(diào)整R-方0.891統(tǒng)計(jì)模型(常量模型):78.6,p-值=2.56e-09107(3)變量Y和X2、X3的回歸方程
回歸模型的常數(shù)項(xiàng)Intercept為186.0484,X2的系數(shù)為3.0907,X3的系數(shù)為-19.5140,故模型為
以上計(jì)算的結(jié)果并沒(méi)有把變量X1引入模型,和我們的直觀感覺(jué)不一致。X1表示推銷(xiāo)的開(kāi)支,推銷(xiāo)應(yīng)該是有利于銷(xiāo)售的.下面我們對(duì)模型做進(jìn)一步的診斷.
用X2和X3建立的上述回歸模型中,剩余標(biāo)準(zhǔn)差s=24相對(duì)y的值來(lái)說(shuō)較大.下面分析殘差:(4)模型的分析與診斷108在命令窗口輸入:plotResiduals(mdl,'probability')↙可見(jiàn)有一個(gè)殘差小于-80(圖省略)且嚴(yán)重偏離擬合直線.找到對(duì)應(yīng)的數(shù)據(jù):在命令窗口輸入:find(mdl.Residuals.Raw<-80)↙ans=16排除第16個(gè)數(shù)據(jù)重新擬合:
在命令窗口輸入:109stepwiselm(X,Y,'Exclude',16)↙1.Addingx3,FStat=29.4601,pValue=4.5237e-052.Addingx2,FStat=587.0139,pValue=4.882293e-143.Addingx1,FStat=5.9635,pValue=0.0274684.Addingx1:x3,FStat=8.3808,pValue=0.011759mdl=線性回歸模型:(模型為:y~1+x2+x1*x3估計(jì)系數(shù):EstimateSEtStatpValue(Intercept)135.9317.0157.98891.3918e-06x19.56172.69763.54460.0032357x23.44060.1106531.0932.5454e-14x3-16.5521.8891-8.76184.6777e-07x1:x3-0.852220.29438-2.8950.011759觀測(cè)值數(shù)目:19,誤差自由度:14均方根誤差:5.54R-方:0.996,調(diào)整R-方0.994統(tǒng)計(jì)模型(常量模型):802,p-值=2.33e-16110所以回歸方程為:結(jié)果分析:
變量x1可以進(jìn)入模型(P=0.03208<0.05),這與我們的常識(shí)相符合:推銷(xiāo)總是有利于銷(xiāo)售的;X1*X3的交互項(xiàng)也進(jìn)入模型,說(shuō)明推銷(xiāo)開(kāi)支和同類(lèi)商品的競(jìng)爭(zhēng)的交互作用和銷(xiāo)售量y有線性相關(guān)性,這也符合我們的常識(shí)——該公司的推銷(xiāo)必然會(huì)影響同類(lèi)商品的銷(xiāo)售,最終會(huì)反映到該公司的銷(xiāo)售量上;
銷(xiāo)售潛力X4未進(jìn)入了模型,說(shuō)明潛力和銷(xiāo)量沒(méi)有顯著地線性關(guān)系.進(jìn)一步的分析,留給讀者自己去完成.通過(guò)這個(gè)例子也再次說(shuō)明了殘差分析的重要性.111注意:
在(4)這一步如果用stepwise函數(shù)得不到X1與X3的交互項(xiàng).如果想要得到含交叉項(xiàng)的模型,就需要重新設(shè)計(jì)數(shù)據(jù)矩陣X,在其中加入該交叉項(xiàng)的數(shù)據(jù)列后再做回歸.我們將在最后一個(gè)例子來(lái)具體說(shuō)明.112四、多元非線性回歸分析多元非線性回歸模型可以表示為是隨機(jī)變量(是向量).其中y是因變量(是向量),X是回歸變量(是向量或矩陣),是待定系數(shù)(是向量),
通過(guò)一個(gè)例子主要來(lái)說(shuō)明利用Matlab軟件進(jìn)行非線性回歸分析的參數(shù)估計(jì)方法以及利用回歸方程進(jìn)行預(yù)測(cè)的方法.113非線性回歸Matlab命令函數(shù)函數(shù)功能nlinfit(x,y,’model’beta0)計(jì)算非線性回歸的系數(shù),殘差,估計(jì)預(yù)測(cè)誤差的數(shù)據(jù)nlintool(x,y,’model’,beta0,alpha)產(chǎn)生擬合曲線和y的置信區(qū)間等信息的交互畫(huà)面nlpredci(‘model’,x,beta,r,J)求回歸函數(shù)在x處的預(yù)測(cè)值y及其置信區(qū)間nlparci(beta,r,J)計(jì)算回歸系數(shù)的置信區(qū)間fitnlm(x,y,fun,beta0)與nlinfit函數(shù)采用相同算法的另一個(gè)非線性回歸命令plotDiagnostics(mdl,plottype)以plottype選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的數(shù)據(jù)診斷圖plotResiduals(mdl,plottype)以plottype指定選項(xiàng)的方式顯示數(shù)據(jù)與回歸模型的誤差圖predict(mdl,Xnew)返回(線性、非線性)模型mdl在Xnew的預(yù)測(cè)值和99%置信區(qū)間實(shí)驗(yàn)7.1一元回歸分析114例6
在研究化學(xué)動(dòng)力學(xué)反應(yīng)過(guò)程中,建立了一個(gè)反應(yīng)速度和反應(yīng)物含量的數(shù)學(xué)模型.其中是未知的參數(shù),是三種反應(yīng)物(氫,n戊烷,異構(gòu)戊烷)的含量,y是反應(yīng)速度.今測(cè)得一組數(shù)據(jù)如下表,試由此確定參數(shù)區(qū)間.,并給出其置信參數(shù)的參考值為(0.1,0.05,0.02,1,2).序號(hào)反應(yīng)速度y氫x1n戊烷x2異構(gòu)戊烷x318.554703001023.79285801011534.8247030012040.024708012052.754708010614.391001901072.54100806584.3547019065913.0010030054108.50100300120110.05100801201211.3228530010133.13285190120116下面用fitnlm來(lái)處理上述非線性回歸問(wèn)題:(1)首先以回歸系數(shù)和自變量為輸入變量,將要擬合的模型寫(xiě)成函數(shù)huaxue.m文件functionyhat=huaxue(beta,x);yhat=(beta(4)*x(:,2)-x(:,3)/beta(5))./(1+beta(1)*x(:,1)+...beta(2)*x(:,2)+beta(3)*x(:,3));(2)輸入數(shù)據(jù)在命令窗口輸入:x0=[18.5547030010;23.792858010;34.82470300120;40.0247080120;52.754708010;614.3910019010;7
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 最高額度抵押借款合同樣本
- 2024個(gè)人物品買(mǎi)賣(mài)合同范文
- 地鐵隧道廣告投放協(xié)議
- 個(gè)人私人借款協(xié)議
- 店鋪合作經(jīng)營(yíng)合同范例
- 2024年購(gòu)銷(xiāo)合同定義
- 勞動(dòng)合同書(shū)樣式范本
- 企業(yè)委托資產(chǎn)管理協(xié)議書(shū)
- 合租房屋合同樣本
- 設(shè)計(jì)委托協(xié)議書(shū)模板
- 中國(guó)佛教文化課件
- 民用無(wú)人駕駛航空器飛行題庫(kù)(判斷100)
- 氣管插管術(shù) 氣管插管術(shù)
- DB32T 4301-2022《裝配式結(jié)構(gòu)工程施工質(zhì)量驗(yàn)收規(guī)程》(修訂)
- BIM工程師題庫(kù)500道及參考答案(完整版)
- SB/T 10412-2007速凍面米食品
- 材料力學(xué)06章13彎曲變形課件
- 煙草病蟲(chóng)害圖片(修改)課件
- 三年級(jí)語(yǔ)文小學(xué)家長(zhǎng)會(huì)
- 青島版六三制科學(xué)二年級(jí)上冊(cè)12《我們的食物》課件
- 2023年唐山國(guó)控集團(tuán)有限公司招聘筆試題庫(kù)及答案解析
評(píng)論
0/150
提交評(píng)論