版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多元回歸模型與建模
2005年5月12/15/20221AppliedStatforMBA05D1多元回歸模型與建模
12/13/20221Applied一、多元線性回歸問題
1.一元回歸問題的困惑—巴特勒(Butler)運(yùn)輸公司的例子(p661):行駛距離(英里) 運(yùn)送貨物次數(shù) 行駛時(shí)間(小時(shí))100 49.350 3 4.81004 8.9100 2 6.550 2 4.280 2 6.275 37.4654 6903 7.690 2 6.112/15/20222AppliedStatforMBA05D1一、多元線性回歸問題
1.一元回歸問題的困惑—巴2.做行駛時(shí)間-行駛距離的一元回歸
CoefficientstStat P-valueIntercept1.273913
0.9094540.389687行駛距離(英里)0.0678263.976755 0.00408回歸方程為可以看出方程整體檢驗(yàn)和自變量檢驗(yàn)的P值為0.0041,一元回歸能夠顯著成立。但是判定系數(shù)偏小,說明有些因變量的解釋因素(例如運(yùn)貨次數(shù))沒有引入。12/15/20223AppliedStatforMBA05D12.做行駛時(shí)間-行駛距離的一元回歸12/15/20224AppliedStatforMBA05D112/13/20224AppliedStatforMB4.來自p元回歸模型的容量為n的樣本注意:的第1個(gè)腳碼k表示變量編號(hào),k=1,…,p;第2個(gè)腳碼i=1,…,n表示樣本編號(hào)。12/15/20225AppliedStatforMBA05D14.來自p元回歸模型的容量為n的樣本注意:的第1個(gè)5.多元回歸總體模型和古典假定總體模型表示式為古典假定
1)E(ei)=0;(E(yi)=x1i+?+pxpi);2)對(duì)于所有的i,Var(ei)=;3)ei
是服從正態(tài)分布N(0,)的;4)對(duì)于不同的ei,ej(ij)
是相互獨(dú)立的。12/15/20226AppliedStatforMBA05D15.多元回歸總體模型和古典假定總體模型表示式為12/13/6.多元線性回歸方程的估計(jì)12/15/20227AppliedStatforMBA05D16.多元線性回歸方程的估計(jì)12/13/20227Applie巴特勒公司二元線性回歸模型的估計(jì)自變量:x1-行駛距離,x2-運(yùn)貨次數(shù)。回歸方程:12/15/20228AppliedStatforMBA05D1巴特勒公司二元線性回歸模型的估計(jì)自變量:x1-行駛距離,x7.多元回歸方程變差分解和判定系數(shù)R2總變差的分解:SST=SSR+SSE;多元判定系數(shù):R2=SSR/SST;多重相關(guān)系數(shù)r;調(diào)整(修正)的判定系數(shù):巴特勒公司二元線性回歸模型的判定系數(shù)12/15/20229AppliedStatforMBA05D17.多元回歸方程變差分解和判定系數(shù)R2總變差的分解:SST=8.對(duì)回歸方程的檢驗(yàn):FTestforOverallSignificance問題:因變量和所有自變量之間是否存在顯著的關(guān)系?判定系數(shù)R2可以
做方程的整體檢驗(yàn),但是遇到分布的困難。檢驗(yàn)假設(shè)拒絕域
F和R2的關(guān)系:R2=pF/(n-p-1+pF)。?12/15/202210AppliedStatforMBA05D18.對(duì)回歸方程的檢驗(yàn):FTestforOverall9.對(duì)回歸系數(shù)的檢驗(yàn):tTestforIndividualSignificance檢驗(yàn)假設(shè)檢驗(yàn)統(tǒng)計(jì)量拒絕域
12/15/202211AppliedStatforMBA05D19.對(duì)回歸系數(shù)的檢驗(yàn):tTestforIndivid10.巴特勒公司線性回歸模型的Excel輸出
回歸統(tǒng)計(jì)
R=0.951R2=0.904adjR2=0.876s=0.573n=10方差分析
df SSMS F SignificanceF回歸2 21.60110.80032.878 0.00027624殘差 7 2.299 0.328 總計(jì)9 23.9
Here:SSR=21.601,SSE=2.299,SST=23.9.
系數(shù)估計(jì)和檢驗(yàn)Coefficients標(biāo)準(zhǔn)誤差tStat p-valueIntercept -0.86870.9515 -0.9129 0.39163行駛距離(英里)0.06110.0099 6.1824 0.00045運(yùn)送貨物次數(shù)0.9234 0.2211 4.1763 0.0041612/15/202212AppliedStatforMBA05D110.巴特勒公司線性回歸模型的Excel輸出
回歸統(tǒng)計(jì)11.多重共線性(Multicollinearity)
(1)巴特勒運(yùn)輸公司例題的修改行駛距離 運(yùn)送貨物次數(shù)(修改數(shù)) 行駛時(shí)間100 4(4)9.350 3(2) 4.81004(4) 8.9100 2(4) 6.550 2(2) 4.280 2(3) 6.275 3(3)7.4654(3) 6903(4) 7.690 2(4) 6.112/15/202213AppliedStatforMBA05D111.多重共線性(Multicollinearity)
(2)巴特勒運(yùn)輸公司例題的回歸結(jié)果一元回歸方程二元回歸方程運(yùn)輸次數(shù)修改后的二元回歸方程(F檢驗(yàn)p值:0.021)*括弧內(nèi)表示系數(shù)的p-值。12/15/202214AppliedStatforMBA05D1(2)巴特勒運(yùn)輸公司例題的回歸結(jié)果一元回歸方程12/13/2(3)多重共線性問題討論巴特勒運(yùn)輸回歸結(jié)果說明:增加解釋變量不會(huì)降低R2的值,但是adjR2的值卻會(huì)降低.前兩個(gè)回歸方程的系數(shù)p-值都很低(說明甚麼?),后一個(gè)修改運(yùn)輸次數(shù)的二元回歸的兩個(gè)系數(shù)p-值都很高,以至通不過檢驗(yàn).但是后一個(gè)方程總體檢驗(yàn)的F值的p-值卻為0.021(0.05水平下方程成立)原因是修改運(yùn)輸次數(shù)數(shù)據(jù),使得x1,x2的相關(guān)系數(shù)由0.16升至0.97,發(fā)生了共線性.自變量發(fā)生多重共線性,會(huì)出現(xiàn)一些(甚至全部)變量通不過檢驗(yàn),但是方程總體檢驗(yàn)卻能通過.此時(shí)的解釋變量系數(shù)估計(jì)值很不可靠.經(jīng)驗(yàn)表明:解釋變量數(shù)據(jù)彼此的相關(guān)系數(shù)絕對(duì)值大于0.7,回歸結(jié)果就不可信,處理辦法就是剔除p-值高的變量.對(duì)2個(gè)以上解釋變量,自變量的相關(guān)矩陣和方差膨脹因子(VarianceInflationFactors,
簡(jiǎn)記作VIF)是識(shí)別多重共線性的有效方法,有專門軟件加以精確檢驗(yàn).12/15/202215AppliedStatforMBA05D1(3)多重共線性問題討論巴特勒運(yùn)輸回歸結(jié)果說12.利用模型進(jìn)行預(yù)測(cè)使用計(jì)算機(jī)軟件產(chǎn)生回歸模型;通過檢驗(yàn)判斷你的模型;直接利用模型可以預(yù)測(cè)自變量(x01,x02,…,x0p)對(duì)應(yīng)的因變量期望值E(y0)的估計(jì)。預(yù)測(cè)E(y0)和y0的置信區(qū)域需要某些專門軟件。12/15/202216AppliedStatforMBA05D112.利用模型進(jìn)行預(yù)測(cè)使用計(jì)算機(jī)軟件產(chǎn)生回歸模型;12/1313.多元回歸的殘差分析多元回歸的殘差分析作用方法和一元基本相同。主要的差異在于:多自變量的觀測(cè)值的杠桿率hi的計(jì)算比較復(fù)雜,需要使用專門軟件。回歸分析建模應(yīng)用中可以看到殘差分析的應(yīng)用12/15/202217AppliedStatforMBA05D113.多元回歸的殘差分析多元回歸的殘差分析作用方法和一元基本二、定性自變量(QualitativeIndependentVariable)1.虛擬變量(Dummyvariable)方差分析中定性變量的解決方案:引入因子,處理?;貧w分析的解決方案:引入虛擬變量如何定義虛擬變量?例:x2=0(女性),x2=1(男性)如何解釋回歸模型?期望值模型為:女性:男性:截距變化,斜率相同。12/15/202218AppliedStatforMBA05D1二、定性自變量(QualitativeIndepende2.Johnson過濾水股份公司例子Johnson公司對(duì)遍布南弗羅里達(dá)州的水過濾系統(tǒng)提供維修服務(wù)。為了估計(jì)服務(wù)時(shí)間和成本,公司希望能夠?qū)︻櫩偷拿恳淮尉S修請(qǐng)求預(yù)測(cè)必要的維修時(shí)間。他們收集的數(shù)據(jù)中包含就近一次維修至今的時(shí)間(月數(shù))、故障的類型(電子和機(jī)械)以及相應(yīng)的維修時(shí)間(小時(shí))。你能夠建立起一個(gè)預(yù)測(cè)方程嗎?12/15/202219AppliedStatforMBA05D12.Johnson過濾水股份公司例子Jo(1)Johnson公司數(shù)據(jù)維修時(shí)間/小時(shí)最后維修至本次維修請(qǐng)求時(shí)間/月 故障類型 2.92 電子13.0 6 機(jī)械0 4.8 8 電子1 1.8 3 機(jī)械02.92 電子1 4.97 電子1 4.2 9 機(jī)械0 4.8 8 機(jī)械0 4.4 4 電子14.5 6 電子112/15/202220AppliedStatforMBA05D1(1)Johnson公司數(shù)據(jù)12/13/202220Appl散點(diǎn)圖有正相關(guān)的關(guān)系,可做一元回歸。但是似乎可以看出有兩條接近平行的直線擬合這些散點(diǎn)。12/15/202221AppliedStatforMBA05D1散點(diǎn)圖有正相關(guān)的關(guān)系,可做一元回歸。但是似乎可以看出有兩條接(2)建立維修時(shí)間-上次維修間隔,故障性質(zhì)的回歸方程第一個(gè)回歸方程第二個(gè)回歸方程解釋你得到的回歸方程!討論x2的作用。*括弧內(nèi)表示系數(shù)的p-值。二元比一元的判定系數(shù)增大許多。
12/15/202222AppliedStatforMBA05D1(2)建立維修時(shí)間-上次維修間隔,故障性質(zhì)的回歸方程第一個(gè)回(3)更復(fù)雜的定性變量如果有3種定性狀態(tài),如何設(shè)虛擬變量?例:復(fù)印機(jī)銷售地區(qū)是A、B、C三個(gè)地區(qū),已知不同地區(qū)銷售量不但與價(jià)格有關(guān)而且與地區(qū)也有關(guān)系,利用回歸分析建立銷售量模型。設(shè)x1是價(jià)格,還需要2個(gè)虛擬變量:回歸方程期望值表示為:地區(qū)A方程:地區(qū)B方程:地區(qū)C方程:注意:k種狀態(tài),需要引入k-1個(gè)虛擬變量。12/15/202223AppliedStatforMBA05D1(3)更復(fù)雜的定性變量如果有3種定性狀態(tài),如何設(shè)虛擬變量?1三、廣義線性模型有些復(fù)雜的曲線關(guān)系也可以用多元回歸方法擬合。1.模擬高階曲線關(guān)系(CurvilinearRelationships)(1)Reynolds公司是一家生產(chǎn)工業(yè)天平和實(shí)驗(yàn)室設(shè)備的企業(yè)。公司管理人員想要對(duì)公司銷售人員的工作年限和天平的銷售數(shù)量之間的關(guān)系進(jìn)行研究。他們隨機(jī)抽取了15名銷售人員,得到相應(yīng)的數(shù)據(jù):12/15/202224AppliedStatforMBA05D1三、廣義線性模型有些復(fù)雜的曲線關(guān)系也可以用多元回歸方法擬合Reynolds公司天平銷售量與人員雇用月數(shù)
天
平
銷售人員
天
平
銷售人員銷售量
雇用月數(shù)
銷售量
雇用月數(shù)275 4189 40296 106235 51317 7683 9376 10411212162 2267 6150 12325 56367 85189 19308 11112/15/202225AppliedStatforMBA05D1Reynolds公司天平銷售量與人員雇用月數(shù)12(2)散點(diǎn)圖和一元回歸結(jié)果12/15/202226AppliedStatforMBA05D1(2)散點(diǎn)圖和一元回歸結(jié)果12/13/202226AppliR2=
0.781174
可以看出銷售量和人員雇用月數(shù)的回歸方程為
Sale=111.23+2.38Months
(0.00012)方程的顯著性也很高。但是從散點(diǎn)圖看出似乎有非線性趨勢(shì),而且判定系數(shù)也不算大。從下頁(yè)殘差表和殘差圖看出有明顯非線性特征,考慮加入二次項(xiàng)x2做為第二個(gè)解釋變量,做二階回歸:12/15/202227AppliedStatforMBA05D1R2=0.781174可以看出銷售量和人員雇用月數(shù)的Reynolds公司案例殘差表預(yù)測(cè)天平銷售量 殘差 標(biāo)準(zhǔn)殘差208.6756926 66.32430742 1.390020675363.166061 -67.16606097 -1.407662093291.862814 25.13718598 0.526823567358.4125112 17.58748883 0.368597488163.5169695 -1.516969516 -0.031792552139.7492205 10.25077947 0.214835193313.2537881 53.7462119 1.126409738375.0499355 -67.04993546 -1.405228342206.2989177 -17.29891768 -0.362549632232.4434416 2.556558435 0.053580191132.6188958 -49.61889584 -1.039909707139.7492205 -27.74922053 -0.581566423125.4885711 -58.48857114 -1.225799805244.3273161 80.67268394 1.69073305156.3866448 32.61335518 0.68350865212/15/202228AppliedStatforMBA05D1Reynolds公司案例殘差表預(yù)測(cè)天平銷售量 Reynolds公司案例殘差圖12/15/202229AppliedStatforMBA05D1Reynolds公司案例殘差圖12/13/202229App(3)二階回歸結(jié)果R2=0.90 Coefficients標(biāo)準(zhǔn)誤差 tStatp-value Intercept 45.34758 22.77465 1.991140.0697 雇用月數(shù) 6.344807 1.057851 5.997826.24E-05月數(shù)平方-0.03449 0.008948-3.853880.0023
回歸方程為Sale=45.35+6.34(Months)-0.35(Months)2(0.000)(0.002)整個(gè)方程F檢驗(yàn)的p-值為0.000,無(wú)論系數(shù)和方程高度顯著通過檢驗(yàn),下頁(yè)給出二階回歸的標(biāo)準(zhǔn)化殘差,相當(dāng)規(guī)范。12/15/202230AppliedStatforMBA05D1(3)二階回歸結(jié)果R2=0.9012/13/20212/15/202231AppliedStatforMBA05D112/13/202231AppliedStatforM2.因變量對(duì)數(shù)模型1)汽車耗油問題2)散點(diǎn)圖有負(fù)線性相關(guān)趨勢(shì)12/15/202232AppliedStatforMBA05D12.因變量對(duì)數(shù)模型1)汽車耗油問題12/13/202232A3)一元回歸
判定系數(shù)和變量系數(shù)都很顯著,方程應(yīng)該可以被接受。
12/15/202233AppliedStatforMBA05D13)一元回歸
判定系數(shù)和變量系數(shù)都很顯著,方程應(yīng)4)一元回歸殘差分析
殘差呈楔形,有隨汽車重量增加而增大的異方差趨勢(shì)。12/15/202234AppliedStatforMBA05D14)一元回歸殘差分析
殘差呈楔形,有隨汽車重量增加而5)因變量對(duì)數(shù)一元回歸分析
E(lnY)=0+1x系數(shù)顯著性有提高12/15/202235AppliedStatforMBA05D15)因變量對(duì)數(shù)一元回歸分析
E(lnY)=6)因變量對(duì)數(shù)一元回歸分析殘差分析
標(biāo)準(zhǔn)殘差分布比較均勻,方程可以更好的被接受。12/15/202236AppliedStatforMBA05D16)因變量對(duì)數(shù)一元回歸分析殘差分析
標(biāo)準(zhǔn)殘差分3.其他常用的非線性變換為線性的公式
12/15/202237AppliedStatforMBA05D13.其他常用的非線性變換為線性的公式四.變量選取方法
上面一些例子說明選取合適的解釋變量至關(guān)重要.對(duì)于一組備選的解釋變量進(jìn)行挑選,逐步回歸(Stepwise)是十分有效的方法。逐步回歸建立在向前選擇和向后消元的基礎(chǔ)之上。逐步回歸的基本思想是:備選的解釋變量依照對(duì)因變量的相關(guān)程度和在回歸方程中的地位,按照一定的規(guī)則逐步吸納和剔除,直到不能吸納和剔除為止。不少統(tǒng)計(jì)軟件都具有逐步回歸功能,例如:SAS、SPSS、Minitab、StaPro等。12/15/202238AppliedStatforMBA05D1四.變量選取方法上面一些例子說明選取合適的解釋1.增加或刪除變量的F檢驗(yàn)F檢驗(yàn)用來檢驗(yàn)已含x1┅xk
的模型再增加自變量xk+1
(或者從已含x1┅xkxk+1刪除xk+1)。若F>F[1,n-(k+1)-1]則應(yīng)該增加(或不刪除)xk+1,否則不應(yīng)增加(或刪除)xk+1。
k=1則有12/15/202239AppliedStatforMBA05D11.增加或刪除變量的F檢驗(yàn)F檢驗(yàn)用來檢驗(yàn)已含x1增加或刪除變量的F檢驗(yàn)的巴特勒例題巴特勒例題的一元回歸和二元回歸方程分別為
(0.0041)括號(hào)內(nèi)為變量系數(shù)的p-值(0.0004)(0.0042)F檢驗(yàn)中的分子分母分別為
F統(tǒng)計(jì)量的p-值=0.0042,x2應(yīng)該增加(或不應(yīng)刪除)。可以看出F統(tǒng)計(jì)量的p-值就是二元中x2系數(shù)的p-值。12/15/202240AppliedStatforMBA05D1增加或刪除變量的F檢驗(yàn)的巴特勒例題巴特勒例題的一元回歸和二2.逐步回歸的基本步驟1)給定顯著性水平。2)選擇與被解釋變量相關(guān)系數(shù)最高的變量做一元回歸;如果該變量p-值不顯著,則回歸失敗結(jié)束;否則一元回歸方程成立,進(jìn)入3)。3)在一元回歸基礎(chǔ)上利用F-檢驗(yàn)篩選其余變量,選擇其中顯著性水平(p-值)小于且F值最大的一個(gè)變量做二元回歸;如果不存在這種變量,只能得出一元回歸方程,回歸結(jié)束;否則二元回歸成立,進(jìn)入4)。4)在二元回歸基礎(chǔ)上利用F-檢驗(yàn)篩選其余變量,選擇其中顯著性水平小于且F值最大的一個(gè)變量做3元回歸;如果不存在這種變量,只能得出二元回歸方程,回歸結(jié)束;否則在引入3元基礎(chǔ)上進(jìn)入第5)步。12/15/202241AppliedStatforMBA05D12.逐步回歸的基本步驟1)給定顯著性水平。12/13/20逐步回歸的基本步驟(續(xù))5)已有k個(gè)變量被引入基礎(chǔ)上利用F-檢驗(yàn)對(duì)已被引入的變量做檢驗(yàn),刪除其中顯著性水平(p-值)大于且F值最小的一個(gè)變量,做k-1元回歸,然后繼續(xù)做刪除檢驗(yàn)(每次刪除1個(gè)變量),直到?jīng)]有符合被刪除條件的變量為止,進(jìn)入第6)步。6)在m個(gè)變量被引入基礎(chǔ)上利用F-檢驗(yàn)篩選未被引入的變量,選擇其中顯著性水平小于且F值最大的一個(gè)變量做m+1元?dú)w,然后回到第5)步;否則如果不存在這種變量,只能得出m元回歸方程,回歸結(jié)束。123456結(jié)束12/15/202242AppliedStatforMBA05D1逐步回歸的基本步驟(續(xù))5)已有k個(gè)變量被引入基礎(chǔ)上利用F-3.逐步回歸的幾個(gè)問題1)對(duì)于給定的顯著性水平,逐步回歸一定會(huì)結(jié)束,其結(jié)果唯一;不同的回歸結(jié)果不同。2)前三步只引進(jìn)變量,不剔除變量。3)可以分別設(shè)定不同的進(jìn)和出,但是要求進(jìn)≤出,否則可能形成死循環(huán)不能結(jié)束回歸。12/15/202243AppliedStatforMBA05D13.逐步回歸的幾個(gè)問題1)對(duì)于給定的顯著性水平,逐步回歸一4.大型問題分析-逐步回歸的應(yīng)用教材740頁(yè)提供9個(gè)變量的Cravens數(shù)據(jù),討論8個(gè)自變量對(duì)因變量SALES的多元回歸問題。相關(guān)系數(shù)陣為利用StaPro軟件做逐步回歸,結(jié)果在以下各片12/15/202244AppliedStatforMBA05D14.大型問題分析-逐步回歸的應(yīng)用教材740頁(yè)提供9個(gè)變量的C逐步回歸的應(yīng)用—第一步12/15/202245AppliedStatforMBA05D1逐步回歸的應(yīng)用—第一步12/13/202245Applied逐步回歸的應(yīng)用—第二步12/15/202246AppliedStatforMBA05D1逐步回歸的應(yīng)用—第二步12/13/202246Applied逐步回歸的應(yīng)用—第三步12/15/202247AppliedStatforMBA05D1逐步回歸的應(yīng)用—第三步12/13/202247Applied逐步回歸的應(yīng)用—第四步
如果設(shè)置α進(jìn)=α出=0.01,則第二步就結(jié)束,一般設(shè)α較大,多得到幾步,再根據(jù)系數(shù)p-值決定到哪步結(jié)束。12/15/202248AppliedStatforMBA05D1逐步回歸的應(yīng)用—第四步如果設(shè)置α進(jìn)=α出=0.06.最佳子集回歸-逐步回歸方法是通過每次增加或者刪除自變量來選擇回歸模型,對(duì)于一組已知變量,方法并不能保證得到最佳的模型。不少統(tǒng)計(jì)軟件都具有最佳子集回歸過程,例如:SAS、SPSS、Minitab等。對(duì)于一組給定的自變量,這一過程能夠得到最佳回歸模型。12/15/202249AppliedStatforMBA05D16.最佳子集回歸-逐步回歸方法是通過每次增加或者刪除自總結(jié):如何建立一個(gè)回歸模型?1、正確選擇自變量和因變量(需要虛擬變量嗎?需要引入非線性因素嗎?);2、正確使用計(jì)算機(jī)軟件建立回歸模型;3、查看殘差圖(線性假設(shè)成立嗎?存在異方差嗎?有異常值或影響點(diǎn)存在嗎?是否存在多重共線性問題?)12/15/202250AppliedStatforMBA05D1總結(jié):如何建立一個(gè)回歸模型?1、正確選擇自變量和因變量(需要總結(jié):如何建立一個(gè)回歸模型?5、小心地處理系數(shù)的p值比較大的變量,切記:你不應(yīng)該馬上把那些p值較大的自變量都消除!6、你可以嘗試使用軟件提供的變量選擇過程建立模型。(但是你要明白選擇出什么樣的模型仍然是由你來控制的。)7、無(wú)論如何再回到逐步回歸第5步都是有益的!
12/15/202251AppliedStatforMBA05D1總結(jié):如何建立一個(gè)回歸模型?5、小心地處理系數(shù)的p值比較大的總結(jié):分析你得到的模型1、你必須回到你具體問題的情景中去!2、如何對(duì)你的模型和系數(shù)進(jìn)行解釋?3、使用你的模型進(jìn)行預(yù)測(cè)。此時(shí),你要注意很多問題!4、把具體的問題化成模型中的假設(shè)?嘗試著去找到檢驗(yàn)的方法。5、體會(huì)使用模型輔助你進(jìn)行決策!12/15/202252AppliedStatforMBA05D1總結(jié):分析你得到的模型1、你必須回到你具體問題的情景中去!1作業(yè)6
DueDate:May28,2005.教材704頁(yè):47題
教材704頁(yè):案例研究2。說明:你只需運(yùn)用逐步回歸選取高爾夫球手比賽成績(jī)的影響因素。12/15/202253AppliedStatforMBA05D1作業(yè)6
DueDate:May28,2005.教多元回歸模型與建模
2005年5月12/15/202254AppliedStatforMBA05D1多元回歸模型與建模
12/13/20221Applied一、多元線性回歸問題
1.一元回歸問題的困惑—巴特勒(Butler)運(yùn)輸公司的例子(p661):行駛距離(英里) 運(yùn)送貨物次數(shù) 行駛時(shí)間(小時(shí))100 49.350 3 4.81004 8.9100 2 6.550 2 4.280 2 6.275 37.4654 6903 7.690 2 6.112/15/202255AppliedStatforMBA05D1一、多元線性回歸問題
1.一元回歸問題的困惑—巴2.做行駛時(shí)間-行駛距離的一元回歸
CoefficientstStat P-valueIntercept1.273913
0.9094540.389687行駛距離(英里)0.0678263.976755 0.00408回歸方程為可以看出方程整體檢驗(yàn)和自變量檢驗(yàn)的P值為0.0041,一元回歸能夠顯著成立。但是判定系數(shù)偏小,說明有些因變量的解釋因素(例如運(yùn)貨次數(shù))沒有引入。12/15/202256AppliedStatforMBA05D12.做行駛時(shí)間-行駛距離的一元回歸12/15/202257AppliedStatforMBA05D112/13/20224AppliedStatforMB4.來自p元回歸模型的容量為n的樣本注意:的第1個(gè)腳碼k表示變量編號(hào),k=1,…,p;第2個(gè)腳碼i=1,…,n表示樣本編號(hào)。12/15/202258AppliedStatforMBA05D14.來自p元回歸模型的容量為n的樣本注意:的第1個(gè)5.多元回歸總體模型和古典假定總體模型表示式為古典假定
1)E(ei)=0;(E(yi)=x1i+?+pxpi);2)對(duì)于所有的i,Var(ei)=;3)ei
是服從正態(tài)分布N(0,)的;4)對(duì)于不同的ei,ej(ij)
是相互獨(dú)立的。12/15/202259AppliedStatforMBA05D15.多元回歸總體模型和古典假定總體模型表示式為12/13/6.多元線性回歸方程的估計(jì)12/15/202260AppliedStatforMBA05D16.多元線性回歸方程的估計(jì)12/13/20227Applie巴特勒公司二元線性回歸模型的估計(jì)自變量:x1-行駛距離,x2-運(yùn)貨次數(shù)?;貧w方程:12/15/202261AppliedStatforMBA05D1巴特勒公司二元線性回歸模型的估計(jì)自變量:x1-行駛距離,x7.多元回歸方程變差分解和判定系數(shù)R2總變差的分解:SST=SSR+SSE;多元判定系數(shù):R2=SSR/SST;多重相關(guān)系數(shù)r;調(diào)整(修正)的判定系數(shù):巴特勒公司二元線性回歸模型的判定系數(shù)12/15/202262AppliedStatforMBA05D17.多元回歸方程變差分解和判定系數(shù)R2總變差的分解:SST=8.對(duì)回歸方程的檢驗(yàn):FTestforOverallSignificance問題:因變量和所有自變量之間是否存在顯著的關(guān)系?判定系數(shù)R2可以
做方程的整體檢驗(yàn),但是遇到分布的困難。檢驗(yàn)假設(shè)拒絕域
F和R2的關(guān)系:R2=pF/(n-p-1+pF)。?12/15/202263AppliedStatforMBA05D18.對(duì)回歸方程的檢驗(yàn):FTestforOverall9.對(duì)回歸系數(shù)的檢驗(yàn):tTestforIndividualSignificance檢驗(yàn)假設(shè)檢驗(yàn)統(tǒng)計(jì)量拒絕域
12/15/202264AppliedStatforMBA05D19.對(duì)回歸系數(shù)的檢驗(yàn):tTestforIndivid10.巴特勒公司線性回歸模型的Excel輸出
回歸統(tǒng)計(jì)
R=0.951R2=0.904adjR2=0.876s=0.573n=10方差分析
df SSMS F SignificanceF回歸2 21.60110.80032.878 0.00027624殘差 7 2.299 0.328 總計(jì)9 23.9
Here:SSR=21.601,SSE=2.299,SST=23.9.
系數(shù)估計(jì)和檢驗(yàn)Coefficients標(biāo)準(zhǔn)誤差tStat p-valueIntercept -0.86870.9515 -0.9129 0.39163行駛距離(英里)0.06110.0099 6.1824 0.00045運(yùn)送貨物次數(shù)0.9234 0.2211 4.1763 0.0041612/15/202265AppliedStatforMBA05D110.巴特勒公司線性回歸模型的Excel輸出
回歸統(tǒng)計(jì)11.多重共線性(Multicollinearity)
(1)巴特勒運(yùn)輸公司例題的修改行駛距離 運(yùn)送貨物次數(shù)(修改數(shù)) 行駛時(shí)間100 4(4)9.350 3(2) 4.81004(4) 8.9100 2(4) 6.550 2(2) 4.280 2(3) 6.275 3(3)7.4654(3) 6903(4) 7.690 2(4) 6.112/15/202266AppliedStatforMBA05D111.多重共線性(Multicollinearity)
(2)巴特勒運(yùn)輸公司例題的回歸結(jié)果一元回歸方程二元回歸方程運(yùn)輸次數(shù)修改后的二元回歸方程(F檢驗(yàn)p值:0.021)*括弧內(nèi)表示系數(shù)的p-值。12/15/202267AppliedStatforMBA05D1(2)巴特勒運(yùn)輸公司例題的回歸結(jié)果一元回歸方程12/13/2(3)多重共線性問題討論巴特勒運(yùn)輸回歸結(jié)果說明:增加解釋變量不會(huì)降低R2的值,但是adjR2的值卻會(huì)降低.前兩個(gè)回歸方程的系數(shù)p-值都很低(說明甚麼?),后一個(gè)修改運(yùn)輸次數(shù)的二元回歸的兩個(gè)系數(shù)p-值都很高,以至通不過檢驗(yàn).但是后一個(gè)方程總體檢驗(yàn)的F值的p-值卻為0.021(0.05水平下方程成立)原因是修改運(yùn)輸次數(shù)數(shù)據(jù),使得x1,x2的相關(guān)系數(shù)由0.16升至0.97,發(fā)生了共線性.自變量發(fā)生多重共線性,會(huì)出現(xiàn)一些(甚至全部)變量通不過檢驗(yàn),但是方程總體檢驗(yàn)卻能通過.此時(shí)的解釋變量系數(shù)估計(jì)值很不可靠.經(jīng)驗(yàn)表明:解釋變量數(shù)據(jù)彼此的相關(guān)系數(shù)絕對(duì)值大于0.7,回歸結(jié)果就不可信,處理辦法就是剔除p-值高的變量.對(duì)2個(gè)以上解釋變量,自變量的相關(guān)矩陣和方差膨脹因子(VarianceInflationFactors,
簡(jiǎn)記作VIF)是識(shí)別多重共線性的有效方法,有專門軟件加以精確檢驗(yàn).12/15/202268AppliedStatforMBA05D1(3)多重共線性問題討論巴特勒運(yùn)輸回歸結(jié)果說12.利用模型進(jìn)行預(yù)測(cè)使用計(jì)算機(jī)軟件產(chǎn)生回歸模型;通過檢驗(yàn)判斷你的模型;直接利用模型可以預(yù)測(cè)自變量(x01,x02,…,x0p)對(duì)應(yīng)的因變量期望值E(y0)的估計(jì)。預(yù)測(cè)E(y0)和y0的置信區(qū)域需要某些專門軟件。12/15/202269AppliedStatforMBA05D112.利用模型進(jìn)行預(yù)測(cè)使用計(jì)算機(jī)軟件產(chǎn)生回歸模型;12/1313.多元回歸的殘差分析多元回歸的殘差分析作用方法和一元基本相同。主要的差異在于:多自變量的觀測(cè)值的杠桿率hi的計(jì)算比較復(fù)雜,需要使用專門軟件?;貧w分析建模應(yīng)用中可以看到殘差分析的應(yīng)用12/15/202270AppliedStatforMBA05D113.多元回歸的殘差分析多元回歸的殘差分析作用方法和一元基本二、定性自變量(QualitativeIndependentVariable)1.虛擬變量(Dummyvariable)方差分析中定性變量的解決方案:引入因子,處理?;貧w分析的解決方案:引入虛擬變量如何定義虛擬變量?例:x2=0(女性),x2=1(男性)如何解釋回歸模型?期望值模型為:女性:男性:截距變化,斜率相同。12/15/202271AppliedStatforMBA05D1二、定性自變量(QualitativeIndepende2.Johnson過濾水股份公司例子Johnson公司對(duì)遍布南弗羅里達(dá)州的水過濾系統(tǒng)提供維修服務(wù)。為了估計(jì)服務(wù)時(shí)間和成本,公司希望能夠?qū)︻櫩偷拿恳淮尉S修請(qǐng)求預(yù)測(cè)必要的維修時(shí)間。他們收集的數(shù)據(jù)中包含就近一次維修至今的時(shí)間(月數(shù))、故障的類型(電子和機(jī)械)以及相應(yīng)的維修時(shí)間(小時(shí))。你能夠建立起一個(gè)預(yù)測(cè)方程嗎?12/15/202272AppliedStatforMBA05D12.Johnson過濾水股份公司例子Jo(1)Johnson公司數(shù)據(jù)維修時(shí)間/小時(shí)最后維修至本次維修請(qǐng)求時(shí)間/月 故障類型 2.92 電子13.0 6 機(jī)械0 4.8 8 電子1 1.8 3 機(jī)械02.92 電子1 4.97 電子1 4.2 9 機(jī)械0 4.8 8 機(jī)械0 4.4 4 電子14.5 6 電子112/15/202273AppliedStatforMBA05D1(1)Johnson公司數(shù)據(jù)12/13/202220Appl散點(diǎn)圖有正相關(guān)的關(guān)系,可做一元回歸。但是似乎可以看出有兩條接近平行的直線擬合這些散點(diǎn)。12/15/202274AppliedStatforMBA05D1散點(diǎn)圖有正相關(guān)的關(guān)系,可做一元回歸。但是似乎可以看出有兩條接(2)建立維修時(shí)間-上次維修間隔,故障性質(zhì)的回歸方程第一個(gè)回歸方程第二個(gè)回歸方程解釋你得到的回歸方程!討論x2的作用。*括弧內(nèi)表示系數(shù)的p-值。二元比一元的判定系數(shù)增大許多。
12/15/202275AppliedStatforMBA05D1(2)建立維修時(shí)間-上次維修間隔,故障性質(zhì)的回歸方程第一個(gè)回(3)更復(fù)雜的定性變量如果有3種定性狀態(tài),如何設(shè)虛擬變量?例:復(fù)印機(jī)銷售地區(qū)是A、B、C三個(gè)地區(qū),已知不同地區(qū)銷售量不但與價(jià)格有關(guān)而且與地區(qū)也有關(guān)系,利用回歸分析建立銷售量模型。設(shè)x1是價(jià)格,還需要2個(gè)虛擬變量:回歸方程期望值表示為:地區(qū)A方程:地區(qū)B方程:地區(qū)C方程:注意:k種狀態(tài),需要引入k-1個(gè)虛擬變量。12/15/202276AppliedStatforMBA05D1(3)更復(fù)雜的定性變量如果有3種定性狀態(tài),如何設(shè)虛擬變量?1三、廣義線性模型有些復(fù)雜的曲線關(guān)系也可以用多元回歸方法擬合。1.模擬高階曲線關(guān)系(CurvilinearRelationships)(1)Reynolds公司是一家生產(chǎn)工業(yè)天平和實(shí)驗(yàn)室設(shè)備的企業(yè)。公司管理人員想要對(duì)公司銷售人員的工作年限和天平的銷售數(shù)量之間的關(guān)系進(jìn)行研究。他們隨機(jī)抽取了15名銷售人員,得到相應(yīng)的數(shù)據(jù):12/15/202277AppliedStatforMBA05D1三、廣義線性模型有些復(fù)雜的曲線關(guān)系也可以用多元回歸方法擬合Reynolds公司天平銷售量與人員雇用月數(shù)
天
平
銷售人員
天
平
銷售人員銷售量
雇用月數(shù)
銷售量
雇用月數(shù)275 4189 40296 106235 51317 7683 9376 10411212162 2267 6150 12325 56367 85189 19308 11112/15/202278AppliedStatforMBA05D1Reynolds公司天平銷售量與人員雇用月數(shù)12(2)散點(diǎn)圖和一元回歸結(jié)果12/15/202279AppliedStatforMBA05D1(2)散點(diǎn)圖和一元回歸結(jié)果12/13/202226AppliR2=
0.781174
可以看出銷售量和人員雇用月數(shù)的回歸方程為
Sale=111.23+2.38Months
(0.00012)方程的顯著性也很高。但是從散點(diǎn)圖看出似乎有非線性趨勢(shì),而且判定系數(shù)也不算大。從下頁(yè)殘差表和殘差圖看出有明顯非線性特征,考慮加入二次項(xiàng)x2做為第二個(gè)解釋變量,做二階回歸:12/15/202280AppliedStatforMBA05D1R2=0.781174可以看出銷售量和人員雇用月數(shù)的Reynolds公司案例殘差表預(yù)測(cè)天平銷售量 殘差 標(biāo)準(zhǔn)殘差208.6756926 66.32430742 1.390020675363.166061 -67.16606097 -1.407662093291.862814 25.13718598 0.526823567358.4125112 17.58748883 0.368597488163.5169695 -1.516969516 -0.031792552139.7492205 10.25077947 0.214835193313.2537881 53.7462119 1.126409738375.0499355 -67.04993546 -1.405228342206.2989177 -17.29891768 -0.362549632232.4434416 2.556558435 0.053580191132.6188958 -49.61889584 -1.039909707139.7492205 -27.74922053 -0.581566423125.4885711 -58.48857114 -1.225799805244.3273161 80.67268394 1.69073305156.3866448 32.61335518 0.68350865212/15/202281AppliedStatforMBA05D1Reynolds公司案例殘差表預(yù)測(cè)天平銷售量 Reynolds公司案例殘差圖12/15/202282AppliedStatforMBA05D1Reynolds公司案例殘差圖12/13/202229App(3)二階回歸結(jié)果R2=0.90 Coefficients標(biāo)準(zhǔn)誤差 tStatp-value Intercept 45.34758 22.77465 1.991140.0697 雇用月數(shù) 6.344807 1.057851 5.997826.24E-05月數(shù)平方-0.03449 0.008948-3.853880.0023
回歸方程為Sale=45.35+6.34(Months)-0.35(Months)2(0.000)(0.002)整個(gè)方程F檢驗(yàn)的p-值為0.000,無(wú)論系數(shù)和方程高度顯著通過檢驗(yàn),下頁(yè)給出二階回歸的標(biāo)準(zhǔn)化殘差,相當(dāng)規(guī)范。12/15/202283AppliedStatforMBA05D1(3)二階回歸結(jié)果R2=0.9012/13/20212/15/202284AppliedStatforMBA05D112/13/202231AppliedStatforM2.因變量對(duì)數(shù)模型1)汽車耗油問題2)散點(diǎn)圖有負(fù)線性相關(guān)趨勢(shì)12/15/202285AppliedStatforMBA05D12.因變量對(duì)數(shù)模型1)汽車耗油問題12/13/202232A3)一元回歸
判定系數(shù)和變量系數(shù)都很顯著,方程應(yīng)該可以被接受。
12/15/202286AppliedStatforMBA05D13)一元回歸
判定系數(shù)和變量系數(shù)都很顯著,方程應(yīng)4)一元回歸殘差分析
殘差呈楔形,有隨汽車重量增加而增大的異方差趨勢(shì)。12/15/202287AppliedStatforMBA05D14)一元回歸殘差分析
殘差呈楔形,有隨汽車重量增加而5)因變量對(duì)數(shù)一元回歸分析
E(lnY)=0+1x系數(shù)顯著性有提高12/15/202288AppliedStatforMBA05D15)因變量對(duì)數(shù)一元回歸分析
E(lnY)=6)因變量對(duì)數(shù)一元回歸分析殘差分析
標(biāo)準(zhǔn)殘差分布比較均勻,方程可以更好的被接受。12/15/202289AppliedStatforMBA05D16)因變量對(duì)數(shù)一元回歸分析殘差分析
標(biāo)準(zhǔn)殘差分3.其他常用的非線性變換為線性的公式
12/15/202290AppliedStatforMBA05D13.其他常用的非線性變換為線性的公式四.變量選取方法
上面一些例子說明選取合適的解釋變量至關(guān)重要.對(duì)于一組備選的解釋變量進(jìn)行挑選,逐步回歸(Stepwise)是十分有效的方法。逐步回歸建立在向前選擇和向后消元的基礎(chǔ)之上。逐步回歸的基本思想是:備選的解釋變量依照對(duì)因變量的相關(guān)程度和在回歸方程中的地位,按照一定的規(guī)則逐步吸納和剔除,直到不能吸納和剔除為止。不少統(tǒng)計(jì)軟件都具有逐步回歸功能,例如:SAS、SPSS、Minitab、StaPro等。12/15/202291AppliedStatforMBA05D1四.變量選取方法上面一些例子說明選取合適的解釋1.增加或刪除變量的F檢驗(yàn)F檢驗(yàn)用來檢驗(yàn)已含x1┅xk
的模型再
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧省大連市中山區(qū)20232024學(xué)年九年級(jí)上學(xué)期期末考試物理化學(xué)試題-初中化學(xué)
- 銀行業(yè)務(wù)發(fā)展策略總結(jié)
- 化妝行業(yè)營(yíng)業(yè)員崗位總結(jié)
- 浙江省杭州市余杭區(qū)、蕭山區(qū)2023-2024學(xué)年六年級(jí)上學(xué)期英語(yǔ)期末試卷
- 《保險(xiǎn)經(jīng)營(yíng)篇》課件
- 2021年湖北省恩施自治州公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2023年廣西壯族自治區(qū)梧州市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2021年安徽省六安市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2021年四川省遂寧市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2021年山西省晉中市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 江蘇省蘇州市2023-2024學(xué)年高一上學(xué)期期末學(xué)業(yè)質(zhì)量陽(yáng)光指標(biāo)調(diào)研試題+物理 含解析
- 農(nóng)業(yè)合作社線上線下營(yíng)銷方案
- 兼職客服簽約合同范例
- 【初中地理】《世界的聚落》課件-2024-2025學(xué)年湘教版地理七年級(jí)上冊(cè)
- 2鍋爐爐膛內(nèi)腳手架搭設(shè)及拆除施工方案
- 注冊(cè)安全工程師管理制度
- 2023年黑龍江民族職業(yè)學(xué)院招聘工作人員筆試真題
- 以諾書-中英對(duì)照
- 卵巢黃體破裂的護(hù)理
- 供應(yīng)鏈管理師(三級(jí))認(rèn)證備考試題及答案
- 自然科學(xué)基金項(xiàng)目申報(bào)書(模板)
評(píng)論
0/150
提交評(píng)論