統(tǒng)計回歸模型舉例_第1頁
統(tǒng)計回歸模型舉例_第2頁
統(tǒng)計回歸模型舉例_第3頁
統(tǒng)計回歸模型舉例_第4頁
統(tǒng)計回歸模型舉例_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、多元線性回歸命令:[b,bint,r,rint,stats]=regress(y,x,alpha)2、一元多項式回歸命令:[p,s]=polyfit(x,y,m)3、多元二項式回歸命令:rstool(x,y,’model’,alpha)線性(linear),完全二次(quadratic),純二次(purequadratic),交叉(interaction)4、非線性回歸命令:[beta,r,j]=nlinfit(x,y,’model’,beta0)幾個常見回歸命令例1牙膏的銷售量

問題建立牙膏銷售量與價格、廣告投入之間的模型

預測在不同價格和廣告費用下的牙膏銷售量

收集了30個銷售周期本公司牙膏銷售量、價格、廣告費用,及同期其它廠家同類牙膏的平均售價

9.260.556.804.253.70307.930.055.803.853.8029

8.510.256.754.003.7527.38-0.055.503.803.851銷售量(百萬支)價格差(元)廣告費用(百萬元)其它廠家價格(元)本公司價格(元)銷售周期

令y表示公司牙膏的銷售量,x1表示其它廠家與本公司價格差,

x2表示公司廣告費用,則數(shù)據(jù)如下:>>x1=[-0.050.250.600.250.20.150.05-0.150.150.20.10.40.450.350.30.50.50.4-0.05-0.05-0.10.20.10.50.6-0.0500.050.55];x2=[5.56.757.255.576.56.755.255.2566.56.2576.96.86.87.176.86.56.2566.576.86.86.55.755.86.8];>>y=[7.388.519.527.59.338.288.757.877.187.898.159.18.868.98.879.2698.757.957.657.2788.58.759.218.277.677.939.26];

下面探討y與x1、x2的關系:用matlab軟件作圖:plot(x1,y,’*’);plot(x2,y,’*’)運行得如下圖形:x1y從右圖看出,y與x1成線性關系,y與x2成二次曲線關系。x2y

>>x3=x2.^2;>>x=[ones(30,1)x1'x2'x3'];>>[b,bint,r,rint,stats]=regress(y',x)運行結果:b=17.3244,1.3070,-3.6956,0.3486bint=5.728228.92060.68291.9311-7.49890.10770.03790.6594stats=0.9054,82.9409,0.0000,0.0490模型求解MATLAB統(tǒng)計工具箱

結果分析y的90.54%可由模型確定參數(shù)參數(shù)估計值置信區(qū)間17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.0000

0

1

2

3F遠超過F檢驗的臨界值P<<

=0.05

2的置信區(qū)間包含零點(右端點距零點很近)x2對因變量y的影響不太顯著由于x22項顯著可將x2保留在模型中模型從整體上看成立銷售量預測價格差x1=其它廠家價格x3-本公司價格x4估計x3調(diào)整x4控制價格差x1=0.2元,投入廣告費x2=650萬元控制x1通過x1,x2預測yx1=0.2;x2=6.5;Y=b(1)+b(2)*x1+b(3)*x2+b(4)*(x2.^2)運行結果:Y=8.2933即預測牙膏銷售量為8.2933百萬支。

上述模型中的回歸變量x1,x2對因變量y的影響是相互獨立的。即牙膏銷售量y的均值與廣告費x2的二次關系由回歸系數(shù)β2和β3確定,而不必依賴于差價x1,同樣y的均值與x1的線性關系僅由回歸系數(shù)β1確定,不依賴于x2.根據(jù)直覺和經(jīng)驗可以猜想,x1和x2之間的交互作用也會對y有影響,不妨簡單地用x1,x2的乘積來表示他們的相互作用,于是上述模型中增加一項,得到:模型改進

>>x=[ones(30,1)x1',x2'(x2.^2)'(x1.*x2)'];>>[b,bint,r,rint,stats]=regress(y',x)b=29.113311.1342-7.60800.6712-1.4777bint=3.701344.52521.977820.2906-12.6932-2.52280.25381.0887-2.8518-0.1037stats=0.9209,72.7771,0.0000,0.0426模型比較x1和x2對y的影響獨立

參數(shù)參數(shù)估計值置信區(qū)間17.3244[5.728228.9206]1.3070[0.68291.9311]-3.6956[-7.49890.1077]0.3486[0.03790.6594]R2=0.9054F=82.9409p=0.0000

0

1

2

3參數(shù)參數(shù)估計值置信區(qū)間29.1133[13.701344.5252]11.1342[1.977820.2906]-7.6080[-12.6932-2.5228]0.6712[0.25381.0887]-1.4777[-2.8518-0.1037]R2=0.9209F=72.7771p=0.0000

3

0

1

2

4x1和x2對y的影響有交互作用

由于R2有所提高,所以模型(**)比模型(*)有所改進,并且參數(shù)的置信區(qū)間不再包含0點,所以有理由認為模型(**)比模型(*)更符合實際。預測比較:x1=0.2;x2=6.5;Y=b(1)+b(2)*x1+b(3)*x2+b(4)*(x2.^2)+b(5)*(x1.*x2)Y=8.3272兩模型銷售量預測比較(百萬支)區(qū)間[7.8230,8.7636]區(qū)間[7.8953,8.7592](百萬支)控制價格差x1=0.2元,投入廣告費x2=6.5百萬元預測區(qū)間長度更短略有增加完全二次多項式模型>>

x=[x1'x2'];>>rstool(x,y','quadratic')運行結果:beta=2.098414.7436-8.6367-2.10381.10740.7594rmse=0.2083剩余標準差為0.2.83較小,說明回歸模型的顯著性比較好。問題:一家高技術公司人事部門為研究軟件開發(fā)人員的薪金與他們的資歷、管理責任、教育程度等因素之間的關系,要建立一個數(shù)學模型,以便分析公司人事策略的合理性,并作為新聘人員的薪金的參考。他們認為目前公司人員的薪金總體上是合理的,可以作為建模的依據(jù)。于是調(diào)查了46名軟件開發(fā)人員的檔案資料,如下表,其中資歷一列指從事專業(yè)工作的年數(shù),管理一列中:1表示管理人員,0表示非管理人員,教育一列中:1表示中學程度,2表示大學程度,3表示更高程度(研究生)。例2軟件開發(fā)人員的薪金

編號薪金資歷管理教育編號薪金資歷管理教育113876111131980031321160810314114174013187011131520263413411283102161323140351176710317128844026208722121813245502711772202191367750381053520120159655119121952032112366601101231330222213526131114975311231383960212213713122422884612編號薪金資歷管理教育編號薪金資歷管理教育251697871136168821202261480380237241701213271740481138159901301282218481339263301312291354880140179491402301446710014125685151331159421002422783716123223174101343188381602332378010124417483160134254101112451920717023514861110146193462001

分析與假設——按照常識,薪金自然隨著資歷(年)的增長而增加,管理人員的薪金應高于非管理人員,教育程度越高薪金也越高。令y表示薪金,x1表示資歷,x2表示是否管理人員,x3表示學歷

基本模型——假設薪金y與資歷x1、管理x2、學歷x3成線性關系:

y=[13876116081870111283117672087211772105351219512313149752137119800114172026313231128841324513677159651236621352138392288416978148031740422184135481446715942231742378025410148611688224170159902633017949256852783718838174831920719346];x1=[111112222333344445556666788881010101011111212131314151616161720];

x2=[1010010000111010000101011011000111001010110000];x3=[1332322132123133223113221213112323123122322121];x=[ones(46,1),x1',x2',x3'];>>[b,bint,r,rint,stats]=regress(y',x)b=1.0e+003*6.9333,0.5659,6.5936,1.6134bint=1.0e+003*5.66128.20540.49110.64065.81347.37371.11112.1156stats=0.9327194.016901603719.76601

由于R2=0.9327接近于1,F(xiàn)=194.0169大于臨界值,p<<0.05所以模型的顯著性較好。回歸模型為:殘差分析:Rcoplot(r,rint)

模型修正在上述模型中,資歷、管理、學歷對薪金的影響都是獨立的。事實上,管理與學歷對薪金應具有交叉影響,為此增加交叉項x2x3,得模型:模型求解——

x=[ones(46,1),x1',x2',x3',(x2.*x3)'];>>[b,bint,r,rint,stats]=regress(y',x)b=8135.915538.3664525.2491077.1391019.748bint=6410.8499860.982461.000615.7322311.7486738.750351.3631802.914-6.3142045.810stats=0.9387157.01201495857.511

R2=0.9387>0.9327,所以,該模型較好。

為了表示三種教育程度,也可引進兩個0——1變量來表示:

y=[13876116081870111283117672087211772105351219512313149752137119800114172026313231128841324513677159651236621352138392288416978148031740422184135481446715942231742378025410148611688224170159902633017949256852783718838174831920719346];x1=[111112222333344445556666788881010101011111212131314151616161720];x2=[1010010000111010000101011011000111001010110000];

X3=[1000000100100100000110001010110000100100000101];X4=[0001011001010000110000110100001011010011011010];x=[ones(46,1),x1',x2',x3‘,x4‘];[b,bint,r,rint,stats]=regress(y',x)

b=11032.7343011281546.12764929776882.53291698754-2994.17834433349147.737980069428stats=0.956691811962102226.42579883577701057144.84841479

R2=0.956691811962102F=226.425798835777p<<0.05所以模型的顯著性較好。殘差分析:rcoplot(r,rint)

模型修正在上述模型中,資歷、管理、學歷對薪金的影響都是獨立的。事實上,管理與學歷對薪金應具有交叉影響,為此增加交叉項x2x3,x2x4,得模型模型求解:X=[x(x2.*x3)'(x2.*x4)'];>>[b,bint,r,rint,stats]=regress(y',X)

b=11203.753782227896.8639299123927047.99973466834-1726.5041924628-348.392543178968-3070.596188012791835.9676370463stats=0.998829102890402,5544.79903960134,030047.093445917

R2=0.998829102890402>0.956691811962102

所以,該模型較好。例3投資額與國民生產(chǎn)總值和物價指數(shù)

問題建立投資額模型,研究某地區(qū)實際投資額與國民生產(chǎn)總值(GNP)及物價指數(shù)(PI)的關系2.06883073.0424.5201.00001185.9195.0101.95142954.7474.9190.96011077.6166.491.78422631.7401.9180.9145992.7144.281.63422417.8423.0170.8679944.0149.371.50422163.9386.6160.8254873.4133.361.40051918.3324.1150.7906799.0122.851.32341718.0257.9140.7676756.0125.741.25791549.2206.1130.7436691.1113.531.15081434.2228.7120.7277637.797.421.05751326.4229.8110.7167596.790.91物價指數(shù)國民生產(chǎn)總值投資額年份序號物價指數(shù)國民生產(chǎn)總值投資額年份序號根據(jù)對未來GNP及PI的估計,預測未來投資額該地區(qū)連續(xù)20年的統(tǒng)計數(shù)據(jù)

時間序列中同一變量的順序觀測值之間存在自相關以時間為序的數(shù)據(jù),稱為時間序列

分析許多經(jīng)濟數(shù)據(jù)在時間上有一定的滯后性

需要診斷并消除數(shù)據(jù)的自相關性,建立新的模型若采用普通回歸模型直接處理,將會出現(xiàn)不良后果

投資額與國民生產(chǎn)總值和物價指數(shù)

……………………1.32341718.0257.9140.7676756.0125.741.25791549.2206.1130.7436691.1113.531.15081434.2228.7120.7277637.797.421.05751326.4229.8110.7167596.790.91物價指數(shù)國民生產(chǎn)總值投資額年份序號物價指數(shù)國民生產(chǎn)總值投資額年份序號

y=[90.997.4113.5125.7122.8133.3149.3144.2166.4195.0229.8228.7206.1257.9324.1386.6423.0401.9474.9424.5];>>x1=[596.7637.7691.1756.0799.0873.4944.0992.71077.61185.91326.41434.21549.21718.01918.32163.92417.82631.72954.73073.0];>>x2=[0.71670.72770.74360.76760.79060.82540.86790.91450.96011.01.05751.15081.25791.32341.40051.50421.63421.78421.95142.0688];t~年份,yt~投資額,x1t~GNP,x2t~物價指數(shù)畫出散點圖投資額與GNP及物價指數(shù)間均有很強的線性關系

0,1,2~回歸系數(shù)x1tytx2tyt

t~對t相互獨立的零均值正態(tài)隨機變量Plot(x1,y,’*’)Plot(x2,y,’*’)

x=[ones(20,1)x1‘x2’];[b,bint,r,rint,stats]=regress(y',x)b=322.724963028216;0.618456651396034;-859.478998026578bint=224.338557066255;421.1113689901780.477272347881124;0.759640954910943-1121.47567088142;-597.482325171736stats=0.990843999027999919.8528940192380161.707321609199基本回歸模型的結果與分析

MATLAB統(tǒng)計工具箱

參數(shù)參數(shù)估計值置信區(qū)間

0322.7250[224.3386421.1114]

10.6185[0.47730.7596]

2-859.4790[-1121.48,-597.48]R2=0.9908F=919.8529p=0.0000剩余標準差

s=12.7164

沒有考慮時間序列數(shù)據(jù)的滯后性影響R2=0.9908,擬合度高模型優(yōu)點模型缺點可能忽視了隨機誤差存在自相關;如果存在自相關性,用此模型會有不良后果

例4、教學評估問題:為了考評教師的教學質(zhì)量,教學研究部門設計了一個教學評估表,對學生進行一次問卷調(diào)查,要求學生對12名教師的15門課程(其中3位教師有2門課)按以下7項內(nèi)容打分,分值為1—5分(5分最好,1分最差)。X1—課程內(nèi)容的合理性;x2—主要問題展開的邏輯性;X3—回答學生問題的有效性;x4—課下交流的有助性;X5—教科書的幫助性;x6—考試平分的公平性;y—對教師的總體評價。

收回問卷調(diào)查后,得到了學生對12位教師15門課的各項評分的平均值,見下表:教師編號課程編號x1x2x3x4x5x6y12014.464.424.234.14.564.374.1122244.113.823.293.63.993.823.3833013.583.313.243.764.393.753.1743014.424.374.344.43.634.274.3953014.624.474.534.674.634.574.6963093.183.823.923.623.54.143.2573112.472.793.583.52.843.842.8483114.293.924.053.762.764.113.9593124.414.364.274.754.594.114.18103124.594.344.244.392.644.384.44113334.554.454.434.574.454.44.47124244.674.644.524.393.484.214.6133513.713.413.394.184.084.063.1744114.284.454.14.073.764.434.1594244.244.384.354.484.154.54.33

教學研究部門認為,所列各項具體內(nèi)容x1——x6不一定每項都對教師總體評價y有顯著影響,并且各項內(nèi)容之間也可能存在很強的相關性,他們希望得到一個總體評價與各項具體內(nèi)容之間的模型,這個模型應盡量簡單和有效,并且由由此能給教師一個合理的建議,以提高總體評價。逐步回歸的基本思想——先確定一個包含若干自變量的初始集合,然后每次從集合外的變量中引入一個對因變量影響最大的,再對集合中的變量進行檢驗,從變得不顯著的變量中移出一個影響最小的。依次進行,直到不能引入和移出為止。引入和移出都以給定的顯著性水平為標準。雖然給出了6個變量,但是我們希望從中挑選出對因變量y有顯著影響的哪些來建立回歸模型。為此我們采用逐步回歸方法。

MATLAB統(tǒng)計工具箱中逐步回歸命令為:stepwise通常的用法為:Stepwise(x,y,inmdel,penter,premove)x:自變量數(shù)據(jù)矩陣;y:因變量數(shù)據(jù);Inmodel:自變量初始集合的指標(即矩陣x中哪些列進入初始集合),缺省時設定為沒有選取任何x的列向量;Penter:引入變量時設定的最大p值,缺省時為0.05;Premove:移出變量時設定的最小p值,缺省時為0.10。注意:Premove的值不能小于Penter的值。

x1=[4.464.113.584.424.623.182.474.294.414.594.554.673.714.284.24];x2=[4.423.823.314.374.473.822.793.924.364.344.454.643.414.454.38];x3=[4.233.293.244.344.533.923.584.054.274.244.434.523.394.104.35];x4=[4.103.603.764.404.673.623.503.764.754.394.574.394.184.074.48];x5=[4.563.994.393.634.633.502.842.764.592.644.453.484.063.764.15];x6=[4.373.823.754.274.574.143.844.114.114.384.404.214.064.434.50];y=[4.113.383.174.394.693.252.843.954.184.444.474.613.174.154.33];x=[x1'x2'x3'x4'x5'x6'];

模型解釋:在最終模型里回歸變量只有x1,x2,是一個簡單易用的模型。據(jù)此可把課程內(nèi)容組織的合理性(x1)和回答學生問題的有效性(x3),列入考評的重點,模型(*)表明,x1的分值每增加一分,對教師的總體評價就增加0.5分;x3的每增加1分,對教師的總體評價就增加0.77分,應建議教師注重這兩方面的工作。為了分析其他自變量沒有最終進入模型的原因,可以計算x1~x6,y的相關系數(shù)。

>>

A=[xy'];>>corrcoef(A)ans=1.0000,0.9008,0.6752,0.7361,0.2910,0.6471,0.89730.9008,1.0000,0.8504,0.7399,0.2775,0.8026,0.93630.6752,0.8504,1.0000,0.7499,0.0808,0.8490,0.91160.7361,0.7399,0.7499,1.0000,0.4370,0.7041,0.82190.2910,0.2775,0.0808,0.4370,1.0000,0.1872,0.17830.6471,0.8026,0.8490,0.7041,0.1872,1.0000,0.82460.8973,0.9363,0.9116,0.8219,0.1783,0.8246,1.0000一般認為,兩個變量的相關系數(shù)超過0.85時才具有顯著的相關性。由上面結果知道,與y相關性顯著的只有x1,x2,x3,而X2未進入最終模型,是由于它與x1,x3的相關性顯著(r12=0.9008,r23=0.8504),可以說,模型中有了x1,x3之后,變量X2是多余的,應該去掉。

例6冠心病與年齡問題:冠心病簡稱CHD,是一種常見的心臟疾病,嚴重地危害著人類的健康。到目前為止,其疾病尚未完全研究清楚,醫(yī)學界普遍認同的、重要的易患因素是高領、高血壓、糖尿病、動脈粥樣硬化及家族史等。多項研究表明,冠心病發(fā)病率隨著年齡的增加而上升,在冠心病的流行病學研究中,年齡也最常見的混雜因素之一。為了更好地說明冠心病發(fā)病率與年齡的關系,醫(yī)學界對100名不同年齡的人進行觀察,表1給出了這100名被觀察者的年齡及是否患冠心病的數(shù)據(jù)。

表1100名被觀察者的年齡與是否患冠心病的觀察數(shù)據(jù)序號年齡冠心病序號年齡冠心病序號年齡冠心病序號年齡冠心病120026350514417655122302735052441775613240283605345078561425029361544517956152513036055460805706260313705646181570726032371574708257182803337058470835719280343805947184571102903538060480855711130036390614818658012300373916248187581133003840063490885811430039401644908959115300404106549190591163014141066500916001732042420675019260118320434206851093611193304442069520946212033045421705219562121340464307153196631223404743072531976402334148431735419864124340494407455099651253405044075551100691

表1冠心病一欄中,1代表患冠心病,0表示不患冠心病。試根據(jù)這些數(shù)據(jù)建立數(shù)學模型,來分析冠心病發(fā)病率與年齡的關系,并進行統(tǒng)計預測。分析與假設——假設這100名被觀察者是獨立選取的,記x被觀察者的年齡,Y為觀察者患冠心病的情況(Y=1表示患冠心病,Y=0表示未患)x=[20232425252626282829303030303030323233333434343434353536363637373738383939404041414242424243434344444444454546464747474848484949495050515252535354555555565656575757575757585858595960606162626364646569;

Y=[0000100000000001000000100000100100001010000010010011010100101100101001111011111001111011110111110111];作出Y對x的散點圖Plot(x,Y.’*’)從右圖可以看出,直接對上述數(shù)據(jù)建立回歸模型是行不通的,需要對數(shù)據(jù)進行處理。

數(shù)據(jù)處理的一種常見方法是將被觀察者按年齡進行分組,并統(tǒng)計各年齡段中患冠心病的人數(shù),及患病人數(shù)占該組人數(shù)的比例(以下簡稱患病比例)為方便起見,將年齡分成8個年齡段,分組數(shù)據(jù)如下表:表2各年齡段的冠心病患病人數(shù)及比例年齡段組中值人數(shù)患病人數(shù)患病比例20-2924.51010.130-34321520.1335-39371230.2540-44421550.3345-49471360.4650-5452850.6355-5957171

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論