線性回歸理論_第1頁
線性回歸理論_第2頁
線性回歸理論_第3頁
線性回歸理論_第4頁
線性回歸理論_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

#第七章線性回歸分析管理中經(jīng)常要研究變量與變量之間的關(guān)系,并據(jù)以做出決策。前面介紹的檢驗(yàn)可以確定兩個(gè)變量之間是否存在著某種統(tǒng)計(jì)關(guān)系,但是如果檢驗(yàn)說明兩個(gè)變量之間存在著某種關(guān)系,我們還是不能說明它們之間究竟存在什么樣的關(guān)系。本章介紹的回歸分析能夠確定兩個(gè)變量之間的具體關(guān)系和這種關(guān)系的強(qiáng)度。回歸分析以對一種變量同其他變量相互關(guān)系的過去的觀察值為基礎(chǔ),并在某種精確度下,預(yù)測未知變量的值。社會經(jīng)濟(jì)現(xiàn)象中的許多變量之間存在著因果關(guān)系。這些變量之間的關(guān)系一般可以分為兩類:一類是變量之間存在著完全確定的關(guān)系,即一個(gè)變量能被一個(gè)或若干個(gè)其他變量按某種規(guī)律唯一地確定,例如,在價(jià)格P確定的條件下,銷售收入Y與所銷售的產(chǎn)品數(shù)量之間的關(guān)系就是一種確定性的關(guān)系:Y=P?X。另一類是變量之間存在著某種程度的不確定關(guān)系。例如,糧食產(chǎn)量與施肥量之間的關(guān)系就屬于這種關(guān)系。一般地說,施肥多產(chǎn)量就高,但是,即使是在相鄰的地塊,采用同樣的種子,施相同的肥料,糧食產(chǎn)量仍會有所差異。統(tǒng)計(jì)上我們把這種不確定關(guān)系稱為相關(guān)關(guān)系。確定性關(guān)系和相關(guān)關(guān)系之間往往沒有嚴(yán)格的界限。由于測量誤差等原因,確定性關(guān)系在實(shí)際中往往通過相關(guān)關(guān)系表現(xiàn)出來;另一方面,通過對事物內(nèi)部發(fā)展變化規(guī)律的更深刻的認(rèn)識,相關(guān)關(guān)系又可能轉(zhuǎn)化為確定性關(guān)系。兩個(gè)相關(guān)的變量之間的相關(guān)關(guān)系盡管是不確定的,但是我們可以通過對現(xiàn)象的不斷觀察,探索出它們之間的統(tǒng)計(jì)規(guī)律性。對這類統(tǒng)計(jì)規(guī)律性的研究就稱為回歸分析?;貧w分析研究的主要內(nèi)容有:確定變量之間的相關(guān)關(guān)系和相關(guān)程度,建立回歸模型,檢驗(yàn)變量之間的相關(guān)程度,應(yīng)用回歸模型進(jìn)行估計(jì)和預(yù)測等。第一節(jié)一元線性回歸分析、問題的由來和一元線性回歸模型例7-1。某地區(qū)的人均月收入與同期某種耐用消費(fèi)品的銷售額之間的統(tǒng)計(jì)資料如表7-1所示?,F(xiàn)要求確定兩者之間是否存在相關(guān)關(guān)系。表7-1年份1987198819891990199119921993199419951996人均收入1.61.82.33.03.43.84.54.85.25.4銷售額(百萬兀)4.75.97.08.210.5121313.51415如果作一直角坐標(biāo)系,以人均收入x為橫軸,銷售額y為縱軸,把表7-1中的數(shù)ii據(jù)畫在這個(gè)坐標(biāo)系上,我們可以看出兩者的變化有近似于直線的關(guān)系,因此,可以用一元線性回歸方程,以人均收入為自變量,以銷售額為因變量來描述它們之間的關(guān)系。即:y=a+bx+e(i=1,2,,n)iii其中:y是因變量y的第i個(gè)觀察值,ix是自變量X的第i個(gè)觀察值ia與b是回歸系數(shù),

n是樣本容量,e為對應(yīng)于Y的第i個(gè)觀察值的隨機(jī)誤差,這是一個(gè)隨機(jī)變量。i在上述線性模型中,自變量X是個(gè)非隨機(jī)變量,對于X的第i個(gè)觀察值X,Y的i觀察值y是由兩個(gè)部分所組成的:bx和e,前者是一個(gè)常數(shù),后者是一個(gè)隨機(jī)變量,iii所以也是一個(gè)隨機(jī)變量。對于上述回歸模型中的隨機(jī)誤差e要求滿足如下的假設(shè)條件:i1、應(yīng)當(dāng)是服從正態(tài)分布的隨機(jī)變量,即e滿足“正態(tài)性”的假設(shè)。i2、e的均值為零,即玖e)=0,我們稱e滿足“無偏性”的假設(shè)。iii3、e的方差等于b2(e丿=e2,這就是說,所有的e分布的方差都相同,即滿足“共iiii方差性”的假設(shè)。4、各個(gè)£間相互獨(dú)立,即對于任何兩個(gè)隨機(jī)誤差e和:(豐j)其協(xié)方差等于零,即,Cov(e,e)=0,(i豐j))這稱之為滿足“獨(dú)立性”的假設(shè)。ij綜上所述,隨機(jī)誤差必須服從獨(dú)立的相同分布?;谏鲜黾俣?,隨機(jī)變量的數(shù)學(xué)期望和方差分別是:E(y)=a+bxb2(ie)=e2iii由此:y?N(a+bx,e2)iii這就意味著,當(dāng)X=x時(shí),y是一個(gè)服從正態(tài)分布的隨機(jī)變量的某一個(gè)取值。如果ii不考慮式中的誤差項(xiàng),我們就得到簡單的式子:y=a+bxii這一式子稱為Y對X的回歸方程。依據(jù)這一方程在直角坐標(biāo)系中所作的直線就稱為回歸直線。二、模型參數(shù)的估計(jì)和估計(jì)平均誤差1、回歸參數(shù)的估計(jì)回歸模型中的參數(shù)a與b在一般情況下都是未知數(shù),必須根據(jù)樣本數(shù)據(jù)(x,y)ii來估計(jì)。確定參數(shù)a與b值的原則是要使得樣本的回歸直線同觀察值的擬合狀態(tài)最好,即要使得偏差最小。為此,可以采用“最小二乘法”的辦法來解決。對應(yīng)于每一個(gè)x,根據(jù)回歸直線方程(7-1)可以求出一個(gè)y,它就是y的一個(gè)估計(jì)iii值。估計(jì)值和觀察值之間的偏差e=(y-y丿。有n個(gè)觀察值就有相應(yīng)的n個(gè)偏差。iii要使模型的擬合狀態(tài)最好,就是說要使n個(gè)偏差的總和最小。但為了計(jì)算方便起見,我們以誤差的平方和最小為標(biāo)準(zhǔn)來確定回歸模型。這就要求ii-a-ii-a-bx是個(gè)極小值。I根據(jù)微積分中的極值定理,要使上式取極值,其對a與b所求的偏導(dǎo)數(shù)應(yīng)為0,即

-a-bx)=0i-a--a-bx)=0i-a-bx)xii經(jīng)整理后可得:Zy=na+bZxZxiyxyii解上式Z^-b=''n=aZx+bZx2ii

可得:1(Zx)Zy)iZx2-1(Zx)2

inZyZxa=--biX"=CZx)/=Z(x-xl=ZY=y)nX2-1(Zx)XXSXY=Z(x-x)(-y)=Zi1(Zx匕)niiSYY1@JSYYni于是,得到參數(shù)a與b的簡單表達(dá)形式如下:b=S/S_XY_XXa=y-bx求出參數(shù)a與b以后,就可以得到回歸模型y=a+bx由此,只要給定了一個(gè)x值,就可以根據(jù)回歸模型求得一個(gè)y來作為實(shí)際值y.的iii預(yù)測值。2、估計(jì)平均誤差的計(jì)算對于給定的x,根據(jù)回歸模型就可以求出y的預(yù)測值。但是用$來預(yù)測y的精iii入、入、y-yiiS=e1Z(,n-2S=e值得注意的是上式中分母是用(n-2)而不是(n-1)或n去除,這是因?yàn)閚個(gè)觀察值的數(shù)據(jù)點(diǎn)用于計(jì)算參數(shù)a與b時(shí)失去了2個(gè)自由度,還余下(n-2)個(gè)自由度。運(yùn)用估計(jì)平均誤差可以對回歸方程的預(yù)測結(jié)果進(jìn)行區(qū)間估計(jì)。若觀察值圍繞回歸直線服從正態(tài)分布,且方差相等,則有68.27%的點(diǎn)落在土S的范圍內(nèi),有95.45%的點(diǎn)e落在土2S的范圍內(nèi),有99.73%的點(diǎn)落在土3S的范圍內(nèi)。ee三、回歸模型的檢驗(yàn)回歸方程建立以后還需要檢驗(yàn)變量之間是否確實(shí)存在線性相關(guān)關(guān)系,因?yàn)閷貧w參數(shù)的求解過程并不需要事先知道兩個(gè)變量一定存在相關(guān)關(guān)系。對一元線性回歸模型的統(tǒng)計(jì)檢驗(yàn)包括兩個(gè)內(nèi)容:一是線性回歸方程的顯著性檢驗(yàn),二是對回歸系數(shù)進(jìn)行統(tǒng)計(jì)推斷。下面我們分別討論這兩個(gè)問題。線性回歸方程的顯著性檢驗(yàn)1、方差分解回歸分析中需要分析使用Y與X之間的線性相關(guān)關(guān)系的估計(jì)模型y=a+bx來估計(jì)y時(shí)所產(chǎn)生的誤差和所減少的誤差,這稱為回歸中的方差分析。若沒有利用Y與X之間的相關(guān)關(guān)系來估計(jì)總體的均值,我們就會選擇y的平均值y作為總體的估計(jì)值。由此而產(chǎn)生的誤差是工(y-y)2,我們稱之為“總離差平方和”,記為sst。若利ii用Y與X之間的線性相關(guān)關(guān)系的估計(jì)模型去估計(jì)總體均值,則所產(chǎn)生的誤差是:工(y-y)2,我們稱之為殘差平方和,記為SSE。為了說明SST與SSE之間的關(guān)系,ii我們對SST進(jìn)彳(分解。、SST=E(y-亍X=式-亍)+(y-y)]=工G-y)+工(y-y)2+iii=工t-yX+工(y-y)2+0iii=工《—y丄+工(y—y?iii-yii若記SSR=Nty-y丄SSE=工(y-yiiii則SST=SSR+SSE圖7-1:三種誤差之間的關(guān)系SSR反映了由于利用Y和X之間的線性回歸模型y來估計(jì)Y的均值時(shí),而不是簡i單地利用y來估計(jì)Y的均值時(shí),使得總誤差SST減少的部分,因此統(tǒng)計(jì)上稱之為“可解釋誤差”。SSE是利用Y與X之間的線性回歸模型來估計(jì)Y的均值時(shí)仍然存在的誤差,因此稱之為“不可解釋誤差”。于是,上式實(shí)際上就表示:總誤差=可解釋誤差+不可解釋誤差圖7-1直觀地表示了三種誤差之間的相互關(guān)系。2、相關(guān)分析對于任何給定的一組樣本(xy)(i=1,2,…口)都可以用最小二乘法建立起一個(gè)線性ii回歸模型,相應(yīng)地就可以得到一條回歸直線。但是,這樣的一條回歸直線并不是總有意義的。只有當(dāng)變量X與Y之間確實(shí)存在某種因果關(guān)系時(shí),其回歸直線才有意義。統(tǒng)計(jì)學(xué)中要確定變量X和Y之間是否確實(shí)存在線性相關(guān),通常利用相關(guān)系數(shù)來檢驗(yàn)。相關(guān)系數(shù)記作r或r2,它能夠較精確地描述兩個(gè)變量之間線性相關(guān)的密切程度。相關(guān)系數(shù)可以定義為可解釋誤差SSR和總誤差SST之比,即:r2=SSR/SST=1-SSE/SST它反映了由于使用了Y與X之間線性回歸模型來估計(jì)y.的均值而使離差平方和iSST減少的程度,從而表明Y與X之間線性相關(guān)程度及擬合模型的優(yōu)良程度。r2與SSR成正比。r2越大,說明Y與X之間的線性相關(guān)程度越高,也就說明模型的擬合性能較優(yōu);r2越小,說明Y與X之間的線性相關(guān)程度越低,說明模型的擬合性能較差。當(dāng)相關(guān)系數(shù)用r來表示時(shí)不僅可以測定Y與X之間的相關(guān)程度,而且也可以表示相關(guān)的方向。事實(shí)上,相關(guān)系數(shù)r也可以定義為:r=S—亍XYXXYY從上述兩個(gè)公式計(jì)算所得到的結(jié)果完全相同,意義也相同。但從r2計(jì)算r時(shí)為:r=±\:r2要確定r的符號,就需要利用以下的關(guān)系:S■廠r=xy=b跖JS-S\SVXXYY1YY由此可見,r與b同號,可以根據(jù)b的符號來決定r的符號。從r2的計(jì)算公式可以看出:r2總是界于0與1之間的,即0<r2<1O如果y=y,則SST=SSR,SSE=O,ii此時(shí),r2=1o這時(shí)稱為完全線性相關(guān),模型的擬合程度最優(yōu)。用Y與X之間的線性回歸模型來估計(jì)y時(shí)的總離差和完全可以用ssr來解釋。如果y.二y,則sst=sse,iiSSR=0,因此,r2=0o這時(shí),使用Y與X之間的線性回歸模型沒有能對任何的總離差平方和SST作出任何解釋,說明Y與X之間事實(shí)上無線性相關(guān),模型的擬合程度最差。對r的不同的具體值,Y與X之間的相關(guān)關(guān)系分析如下:當(dāng)r=1時(shí),稱為完全線性正相關(guān);當(dāng)r=-1時(shí),稱為完全線性負(fù)相關(guān)。當(dāng)0<|r|<1時(shí),Y與X存在一定的線性相關(guān)。當(dāng)r>0時(shí)稱Y與X正相關(guān)。當(dāng)r<0時(shí)稱Y與X是負(fù)相關(guān)。一般地說,r2>0.9時(shí),估計(jì)模型為”優(yōu)”;0.8<r2<0.9時(shí),估計(jì)模型為”良”;0.6<r2<0.8時(shí),估計(jì)模型為”一般”。r2<05時(shí)估計(jì)模型為”差”。但是,要精確地說明兩個(gè)變量是否確實(shí)具有線性相關(guān)關(guān)系,一般還需要作其他的一些檢驗(yàn)。3、F檢驗(yàn)法

在一元線性回歸模型中,若b=0,則X的變化不會引起Y的變化,即Y與X不具有線性相關(guān)關(guān)系。因此,線性回歸方程的顯著性檢驗(yàn)可以通過回歸方程的F檢驗(yàn)來完成。我們提出H:b=0,H:b主0,01則在H成立,即Y與X之間不存在線性相關(guān)的條件下,統(tǒng)計(jì)量1-r2服從自由度為1,n-2的F分布。在給定了檢驗(yàn)的顯著性水平以后,可由F分布表得到H成立時(shí)的臨界值F,如果對于一組樣本計(jì)算得出的統(tǒng)計(jì)量F的值大于F,則否000定H,即b豐0,說明X與Y之間確定存在線性相關(guān)關(guān)系。0因此,對回歸方程的相關(guān)性檢驗(yàn)可按下列步驟作F檢驗(yàn):1)提出假設(shè)H:b=0,H:b豐0,01在H成立時(shí),統(tǒng)計(jì)量,n-2)對于給定的顯著性水平a,查F分0SSE布表得到檢驗(yàn)的臨界值F。0對于一組樣本計(jì)算SSR和SSE,并由此得到F值。比較F與F的值,若F>F,則拒絕零假設(shè)。我們認(rèn)為X與Y之間存在線性相00關(guān)關(guān)系,否則接受H,認(rèn)為X與Y之間沒有線性相關(guān)關(guān)系。04、t檢驗(yàn)盡管相關(guān)系數(shù)r是對變量Y與x之間的線性關(guān)系密切程度的一個(gè)度量,但是相關(guān)系數(shù)r是根據(jù)樣本數(shù)據(jù)計(jì)算得到的,因而具有一定的隨機(jī)性,樣本容量越小,其隨機(jī)性就越大。因此也需要通過樣本相關(guān)系數(shù)r對總體的相關(guān)系數(shù)P作出推斷。由于相關(guān)系數(shù)r的分布密度函數(shù)比較復(fù)雜,實(shí)際應(yīng)用中需要對r作變換。令rJn-2t二廠則統(tǒng)計(jì)量t服從t(n-2)分布。于是關(guān)于總體是否線性相關(guān)的問題就變成對總體相關(guān)系數(shù)P=0的假設(shè)檢驗(yàn),也就只要對統(tǒng)計(jì)量t進(jìn)行t檢驗(yàn)就行了。根據(jù)一組樣本計(jì)算出上述t值,再根據(jù)問題所給定的顯著性水平a和自由度n-2,查t分布表,找到相應(yīng)的臨界值t。若2“-J表明t在統(tǒng)計(jì)上是顯著的,即總體的兩個(gè)變量間存在線性關(guān)系。否則就認(rèn)為兩個(gè)變量間不存在線性關(guān)系。5、D?W檢驗(yàn)回歸模型中假設(shè)Cov(e.,ej)=0,即隨機(jī)項(xiàng)是獨(dú)立的。這一假設(shè)是否成立,可以通ij過回歸模型的誤差序列是否相互獨(dú)立來進(jìn)行檢驗(yàn)。若誤差序列各項(xiàng)間相互獨(dú)立,則序列各項(xiàng)之間沒有相關(guān)關(guān)系。若序列各項(xiàng)之間有相關(guān)關(guān)系,誤差序列不滿足線性回歸模型的基本假設(shè),回歸模型就不能表達(dá)變量Y與X之間的真實(shí)變動關(guān)系。DW(Durbin-Watson)檢驗(yàn)可以檢驗(yàn)殘差序列的相關(guān)性。其檢驗(yàn)辦法如下:

1)計(jì)算誤差序列的d統(tǒng)計(jì)量(D?W值)d二工(e-eii-i2)根據(jù)給定的顯著性水平a(通常為a=0.05或0.01),自變量個(gè)數(shù)k和樣本數(shù)據(jù)個(gè)數(shù)n查D、W表,得到d的下限值d和上限值d。lu3)判斷。若d<d<4-du則殘差序列無自相關(guān),各項(xiàng)間相互獨(dú)立;若0<d<d或4-d<d<4ll表明殘差序列存在正自相關(guān)或負(fù)自相關(guān),各項(xiàng)之間不相互獨(dú)立,D?W檢驗(yàn)未通過;若d<d<d或4-d<d<4-dluul則無法斷定是否存在自相關(guān)。線性回歸模型產(chǎn)生殘差序列自相關(guān)的原因有三種,第一是所選擇的數(shù)學(xué)模型不適合,變量間不是線性關(guān)系而建立了線性模型。此時(shí)應(yīng)進(jìn)一步選擇合適的數(shù)學(xué)模型。第二是模型中所包含的自變量數(shù)目不合適,或是遺漏了某些重要的影響因素,或是包含了不必要的其他因素。第三是序列中包含有很強(qiáng)的趨勢分量。通??梢杂玫ɑ虿罘址ㄟM(jìn)行修正。經(jīng)濟(jì)指標(biāo)的時(shí)間序列常常存在自相關(guān)現(xiàn)象,這一點(diǎn)特別要注意。(二)關(guān)于回歸系數(shù)b的統(tǒng)計(jì)推斷由于樣本不同,回歸系數(shù)a與b的值也不同,因此?;貧w系數(shù)a和b也是隨機(jī)變量。同時(shí)a和b是正態(tài)隨機(jī)變量Y的線性組合,所以a和b也是服從于正態(tài)分布的隨機(jī)變量。關(guān)于回歸系數(shù)b的假設(shè)檢驗(yàn)對正態(tài)隨機(jī)變量b求數(shù)學(xué)期望和方差,可得E?丿=b(入)C2CJ20=e—Sxx一般情況下b2未知,需要用其無偏估計(jì)量S2來代替:ee譏(?)"()根據(jù)t分布原理,樣本統(tǒng)計(jì)量t=黑-b/:b°丿服從于自由度為(n-2)的t分布。于是要檢驗(yàn)回歸參數(shù)b是否等于某一假設(shè)值b的問題,也就轉(zhuǎn)化為假設(shè)檢驗(yàn)問題。0設(shè)H設(shè)H:b=bo,竹:、勿豐bo,計(jì)算統(tǒng)計(jì)量t=V?—b0)b(b)判斷原假設(shè)是否成立。當(dāng)顯著性水平為a時(shí),查t分布表得t和t,若a21-a22)3)2)3)t、t或t<t,則拒絕H,反之接受H。i-a2a2oob的置信區(qū)間根據(jù)抽樣分布定理,可以確定b的置信區(qū)間。因?yàn)镻(tWtJt)=1—a1-bTOC\o"1-5"\h\za1-a1-b'21'2所以,當(dāng)置信度為1—a時(shí),b的置信區(qū)間是b-1--c?(b),b+t;?c?(b)La21-a2」第二節(jié)多元線性回歸分析一、多元線性回歸模型多元線性回歸分析是研究一個(gè)因變量與多個(gè)自變量之間線性相關(guān)關(guān)系的統(tǒng)計(jì)分析方法。事實(shí)上,大量社會經(jīng)濟(jì)現(xiàn)象總是多個(gè)因素作用的結(jié)果。多元線性回歸考慮到多個(gè)自變量對因變量的影響,能夠更真實(shí)地反映現(xiàn)象之間的相互關(guān)系,因此在實(shí)踐中應(yīng)用更廣。假設(shè)一個(gè)隨機(jī)變量Y與m個(gè)非隨機(jī)變量X之間存在線性相關(guān)關(guān)系,則它們之間的關(guān)系可以用以下的線性回歸模型來表示:Y=卩+卩X+卩X+???+卩X+e01122mm其中:Y是因變量,)Xi(=1,2,…m)是自變量,卩(=0,1,2,…m)是模型的參數(shù),稱為偏相關(guān)系數(shù)。ie是隨機(jī)誤差。對于上述模型中的非隨機(jī)變量X.的第j個(gè)取值XY的觀察值Y由兩部分組成:iijj(卩+卩X+卩X+???+卩X)和e。前者是個(gè)常數(shù),后者是個(gè)隨機(jī)變量,所以Y也

01122mmjj是個(gè)隨機(jī)變量。與一元線性回歸模型同樣地,我們也必須假設(shè)多元線性回(歸模型)中的誤差項(xiàng)必須滿足正態(tài)性、無偏性、共方差性和獨(dú)立性的條件。假設(shè)e?NV),c2丿,則E(Y)=(P+卩X+卩X+???+卩X+e)01122mm=卩+卩X+卩X+???+卩X01122mmc2(Y)=c2(p+卩X+卩X+???+卩X+e)01122mm=0+c2(e)=c2由此可見:Y?N(p+pX+pX+-+PX,c201122mme二、參數(shù)估計(jì)般情況下都是未知數(shù),多元線性回歸模型的參數(shù)P(=)丄2,…m)及c2在須根據(jù)樣本數(shù)據(jù)(yj,jy%)來估計(jì)。

般情況下都是未知數(shù),x,x1j回歸參數(shù)B,(=0,1,2,-m)的估計(jì)方法還是”最小二乘法”。根據(jù)樣本數(shù)據(jù)Q,x,x,…,x丿來估計(jì)卩(Z=0,1,2,x,x1jJ1j2jmjiQ=巧-Jjj+Bxx011jmmj取極小值。為此,對Q分別求B到m+1個(gè)方程。QQ

0QB+Bxx011jmmj取極小值。為此,對Q分別求B到m+1個(gè)方程。QQ

0QB0dQ=0QB1i=0,1,2,…m)的偏導(dǎo)數(shù),并令其等于零,由此,可以得QQ0k因書寫較煩,不一一列出。若對于自變量X,X,…,X和因變量Y共有n組觀察數(shù)據(jù)。x表示自變量X的12miki第k次觀察值,-.表示因變量Y的第i次觀察值。令:lij=^(x-xXx-x)C,j=1,2,…m)ikk1ijkjli0l00亍(x一丁)(一-)ik1Yn(ykikikC=1,2,…m)k=1-1另X=—厶兀inik

k1-1另y=nyk=1,2,...m)(i=0,1,2,…(i=0,1,2,…m)可以由下列方程組求出:110120£2=Y(y—yejj一m一1)則回歸系數(shù)BiTOC\o"1-5"\h\zB+1B+???+/B11221mm1B+1B+…+1B2112222mm=lm01B+1B+…=lm0m11m22mmm常數(shù)項(xiàng)B=Y-YB-X0ii多元線性回歸模型中的另一個(gè)常數(shù)是Y的方差C2。因?yàn)槎嘣€性回歸模型中有jem+1個(gè)回歸參數(shù)要估計(jì),所以Q2的無偏估計(jì)量應(yīng)當(dāng)是:e三、多元回歸中的方差分析和顯著性檢驗(yàn)與一元線性回歸模型同樣地,我們在得到多元線性回歸模型以后也需要對模型中所包含的變量是否確實(shí)與因變量之間存在線性相關(guān)關(guān)系,以及回歸模型的擬合效果如何進(jìn)行分析檢驗(yàn)。多元回歸中的方差分析和顯著性檢驗(yàn)可分為幾個(gè)部分,首先是對總離差平方和以及回歸離差平方和進(jìn)行分解,分別測定Y與m個(gè)自變量X之間總體上的相關(guān)程度?以及Y與某個(gè)或者若干個(gè)自變量X的相關(guān)程度,并分別引進(jìn)多元相關(guān)系數(shù)和偏相關(guān)系數(shù)的概念。然后,用F檢驗(yàn)進(jìn)行總相關(guān)檢驗(yàn)和偏相關(guān)的檢驗(yàn)。在此基礎(chǔ)上再進(jìn)行殘差分析。(一)總離差平方和的分解和多元相關(guān)系數(shù)與一元線性回歸時(shí)一樣,我們也可以定義多元線性回歸的總離差平方和SST,并把它分解為SSR和SSE兩部分SST=Y&-Y》=mY)+》(Y-Y)與一元線性回歸時(shí)一樣我們也把上式記作SST=SSR+SSETOC\o"1-5"\h\z其中:Y=B+px+Bxxj011j22jmmj根據(jù)上述分解式我們也可以定義多元相關(guān)系數(shù)r2:r2=SSR-Y)?工C-Y)=1-Y(y-y》/工(y-y)2SSTjj'jjiiiiSSE=1—SST.(A它反映了由于使用Y與m個(gè)X之間的線性回歸模型用Y.來估計(jì)E*丿,而使總離差平方和SST減少的程度,從而表明了Y與X之間的線性相關(guān)程度及擬合模型的優(yōu)良程度.SSR越大,r2越大,說明Y與X之間的線性相關(guān)程度越高,說明線性模型的擬合優(yōu)度越高;反之SSR越小,r2越小,說明Y與m個(gè)X的線性相關(guān)度越低,即線性模型的擬合優(yōu)度越低。r2的計(jì)算公式說明0<r2<1,若9=丫,則SST=SSR,SSE=0,r2=1.說明用估計(jì)模型Y估計(jì)E(Y)解釋了所有的總離差平方和SST,擬合值與實(shí)際值無差異,此時(shí)變量間完全線性相關(guān)。八如果Y=Y,則SST=SSE,SSR=0,r2=1.說明回歸模型Y估計(jì)Y不能解釋任何的總離差平方和SST,擬合模型無效,說明變量間完全線性無關(guān)。在一元線性回歸的情形r=±"r2,但在多元線性回歸的情形下,自變量的個(gè)數(shù)m>2時(shí),回歸系數(shù)的符號可能有正有負(fù),難以確定,因此,我們規(guī)定多元相關(guān)系數(shù)總是為正的,』r=+\;r2由此說明多元相關(guān)系數(shù)不能說明Y與K個(gè)X之間的線性相關(guān)方向,僅僅說明了它們之間的線性相關(guān)程度.

(二)回歸離差平方和與偏相關(guān)系數(shù)在多元線性回歸模型中,如果增加與Y相關(guān)的某個(gè)自變量X,貝ySSR隨之增加,而SSE隨之減少.因此,SSR還可以被進(jìn)一步分解.例如,若原回歸模型中只包括自變量x,x,…x,若模型中增加了與Y相關(guān)的另一個(gè)自變量x以后,使SSR增加的那部TOC\o"1-5"\h\z12kk+1分稱為“x的凈增回歸平方和”,并定義為SSR(x/x,x,…x)。于是k+1.k+112kSSRVxx,x,…x丿=SSR(x,x,…x)—SSR(x,x,…x)k+1'12k12k+r12k=SSE(x,x,…x)—SSE(x,x,…x)12k12k+1由此我們得出對于變量x的偏相關(guān)系數(shù)的計(jì)算公式:k+1??x)—k+1—SSE(x,x,…x)—SSE(x??x)—k+1—r=、1——2k12-+1yxk+iSSE\x,x,…x+1*12k它反映了把自變量x納入模型以后使得原模型的殘差平方和SSR(x,x,…x)k+112k減少的程度。某一變量的偏相關(guān)系數(shù)越大,說明Y與這一變量的偏相關(guān)程度越大,反之,某一變量的偏相關(guān)系數(shù)越小,說明Y與這一變量的偏相關(guān)程度越小。多元回歸模型的F檢驗(yàn)對于一元回歸方程而言,對自變量X的系數(shù)作是否為零的假設(shè)檢驗(yàn)也就等價(jià)于對整個(gè)回歸模型進(jìn)行了顯著性檢驗(yàn)。但對多元回歸模型而言,對回歸模型中各個(gè)系數(shù)分別進(jìn)行的顯著性檢驗(yàn)與對整個(gè)回歸方程的顯著性檢驗(yàn)是不同的。因此,我們既需要對整個(gè)回歸方程進(jìn)行顯著性檢驗(yàn),也需要對回歸模型中各個(gè)系數(shù)分別進(jìn)行顯著性檢驗(yàn)。1、總相關(guān)的F檢驗(yàn)對整個(gè)回歸方程進(jìn)行顯著性檢驗(yàn)通常采用F檢驗(yàn),即檢驗(yàn)Y與K個(gè)X之間整體上是否存在顯著的線性相關(guān)關(guān)系,此時(shí)檢驗(yàn)的步驟如下:建立假設(shè)原假設(shè)H0:卩]二卩2二…二卩二0備擇假設(shè)H:¥不全為0(i二1,2,…,n丿1i事實(shí)上,在所有的自變量X中,只要有一個(gè)X與Y之間存在顯著線性相關(guān),那么Y與K個(gè)X之間的相關(guān)系數(shù)就不等于0.反過來若Y與K個(gè)X之間的相關(guān)系數(shù)不是零,在K個(gè)中必有一個(gè)不為零。計(jì)算檢驗(yàn)統(tǒng)計(jì)量F-1)MSRMSESSR。-1)MSRMSESSEC,x,…12F是兩個(gè)平均離差平方和(方差)之比,可以證明如果代正確,分子MSR的數(shù)學(xué)期望等于MSE的數(shù)學(xué)期望,即E(MSR)=E(MSE)=2,F(xiàn)服從自由度為K和(N-M-1)的F分布?!耆绻鸋為假,E(MSR)>E(MSE)。因此,如果H。正確,F(xiàn)值將接近于1;如H。為假,則F值將大大超過1?!恪闩袛郒o是否成立。當(dāng)顯著性水平確定為a,自由度為K和N-K-1時(shí),查F分布表得F。如果F三F,則拒絕H。說明Y與K個(gè)X之間總的來說存在顯著性相關(guān),接受H。aa00說明Y與K個(gè)X之間不存在顯著性相關(guān)。2、偏相關(guān)的F檢驗(yàn)

偏相關(guān)檢驗(yàn)的目的在于檢驗(yàn)新加入模型的X是否與Y存在顯著的線性相關(guān)。通過總相關(guān)的F檢驗(yàn)表明Y與K個(gè)自變量X在整體上存在顯著的線性相關(guān),但并不意味著各個(gè)X都與Y存在顯著的線性相關(guān),偏相關(guān)是檢驗(yàn)在丫與(K-1)個(gè)乂存在顯著的線性相關(guān)的條件下,X是否與Y存在顯著的線性相關(guān),即X進(jìn)入模型后對減少模型的殘差平方和是否KK有顯著的作用。偏相關(guān)檢驗(yàn)的步驟是:1)提出原假設(shè)H:備擇假設(shè)H:0上述假設(shè)也可寫作H:0=0,H:p豐00K1K)-SSR(x,x,)-SSR(x,x,…x)k_112L,x,…x丿12k(n-k-1)SSR\xx,x,…x)=k——12k-1SSE(x,x,…x丿12k(n-k-1)SSRxx,x,…xF=i__2SSE3)判斷H是否成立。當(dāng)顯著性水平為a時(shí),查F分布表求出F(分子自由度為1,0a分母自由度為N-K-1)。如果F三F,則拒絕原假設(shè),說明Y與X之間存在顯著偏相關(guān),aK反之,接受原假設(shè),說明Y與X之間不存在顯著偏相關(guān)。K四、多元回歸模型的殘差分析前面關(guān)于回歸模型的參數(shù)估計(jì)和檢驗(yàn)都是建立在一系列的理論假設(shè)基礎(chǔ)之上的,但是在實(shí)際問題中,總體的實(shí)際情況是否與基本假設(shè)相符還需要驗(yàn)證。此時(shí)最簡單的方法就是殘差散點(diǎn)圖分析。1、線性與非線性前面所討論的回歸模型都是假設(shè)Y與X之間存在線性相關(guān)關(guān)系,然后應(yīng)用樣本數(shù)據(jù)建立起它們之間的線性回歸模型的。但是如果總體中Y與乂尺之間的相關(guān)關(guān)系并非是線性的,則模型的假設(shè)就不成立。應(yīng)用模型來進(jìn)行估計(jì)和預(yù)測就不可能得出有用的結(jié)果。要檢驗(yàn)Y與X之間是否存在線性相關(guān)關(guān)系,可以用殘差散點(diǎn)圖來分析殘差e=Ki(Y?-)的散布情況。我們以殘差e為縱座標(biāo),以估計(jì)值Y為橫座標(biāo),在直角座標(biāo)jjij系上依次繪出點(diǎn)(Y,e)o分析觀察點(diǎn)的散布情況。如果觀察點(diǎn)隨機(jī)地散布在橫線e=0jii的周圍,說明總體符合線性相關(guān)關(guān)系的假設(shè)是正確的。如果觀察點(diǎn)的散布顯示一定的規(guī)律性或系統(tǒng)性,則說明總體變量不符合線性相關(guān)關(guān)系的假設(shè)。圖7-2就是用來分析線性與非線性的一個(gè)殘差散點(diǎn)圖。如果總體變量不符合線性相關(guān)關(guān)系的假設(shè)則應(yīng)根據(jù)具體情況重新建立模型。此時(shí)可考慮建立合適的非線性模型。對于某些非線性模型可以進(jìn)行變量轉(zhuǎn)換,轉(zhuǎn)換成線性模型再重新進(jìn)行估計(jì)。圖7-2線性與非線性的殘差散點(diǎn)圖比較2、共方差與異方差在建立線性回歸模型時(shí),我們假設(shè)隨機(jī)誤差e具有相同的方差,即共方差。我們i也可以通過殘差散點(diǎn)圖來驗(yàn)證總體是否符合共方差性的假設(shè)。以殘差e為縱座標(biāo),以i估計(jì)值為橫座標(biāo),在直角座標(biāo)系上依次繪出點(diǎn)(Y,e)。分析觀察點(diǎn)的散布情況。如ji果觀察點(diǎn)隨機(jī)地散布橫線e=0的周圍,說明總體基本符合共方差性的假設(shè)。如果觀察i點(diǎn)隨的增大而擴(kuò)散或聚集,說明總體不符合共方差性的假設(shè)。圖7-3就是用來分析共方差與異方差的一個(gè)殘差散點(diǎn)圖。圖7-3共方差與異方差的殘差散點(diǎn)圖比較如果總體出現(xiàn)異方差跡象就需要通過采用適當(dāng)?shù)淖兞哭D(zhuǎn)換可望使方差趨于穩(wěn)定,再利用回歸模型進(jìn)行估計(jì)和預(yù)測。3、獨(dú)立與非獨(dú)立回歸模型還假設(shè)隨機(jī)誤差e之間相互獨(dú)立,即Cov(e,e)=0(i豐j)。我們也可以iij通過殘差散點(diǎn)圖來驗(yàn)證總體是否符合獨(dú)立性的假設(shè)。以殘差e為縱座標(biāo),以估計(jì)值為i橫座標(biāo),在直角座標(biāo)系上依次繪出點(diǎn)(Y,e)。對于與時(shí)間有關(guān)的樣本數(shù)據(jù)則最好以ji時(shí)間t為橫軸。分析觀察點(diǎn)的散布情況。如果觀察點(diǎn)隨機(jī)地、無規(guī)則地散布在橫線e=0i的周圍,說明總體基本符合獨(dú)立性的假設(shè)。如果觀察點(diǎn)在橫線e=0的周圍顯示出周期i性或趨勢性的變化,則說明總體不符合獨(dú)立性的假設(shè)。圖7-4就是用來分析獨(dú)立與非獨(dú)立的一個(gè)殘差散點(diǎn)圖。圖7-4獨(dú)立與非獨(dú)立的殘差散點(diǎn)圖比較如殘差散點(diǎn)圖顯示殘差之間不獨(dú)立,則可以尋求把合適的自變量加入模型以消除殘差的非獨(dú)立現(xiàn)象。如果這一辦法仍無法消除殘差間的非獨(dú)立性,則可以采用“一價(jià)差分法”,做變量轉(zhuǎn)換,然后重新估計(jì)模型的參數(shù)。4、正態(tài)與非正態(tài)回歸模型還假設(shè)隨機(jī)誤差e服從正態(tài)分布。要檢驗(yàn)總體殘差是否滿足正態(tài)分布的i要求要通過建立標(biāo)準(zhǔn)殘差E=j的直方圖來檢驗(yàn)。從理論上說,E應(yīng)服從標(biāo)準(zhǔn)正態(tài)分布,即E?N(0,1)。所以應(yīng)有近50%的E為正,50%的E為負(fù);68%的E落在-1與+1之間,96%的E落在-2與+2之間。如果畫出標(biāo)準(zhǔn)殘差的直方圖則應(yīng)如圖7-5的標(biāo)準(zhǔn)正態(tài)殘差分布圖所示。若這一條件滿足就說明總體基本符合正態(tài)性的假設(shè)。如果樣本的容量不大時(shí),&在理論上應(yīng)服從于自由度為(N-K-1)的t分布。所以,對應(yīng)于(N-K-1)的t分布,如果有50%的值位于t和t之間,有95%的值位于t和t之間,說0.250.750.0250.975明總體基本符合正態(tài)性的假設(shè)。圖7-5標(biāo)準(zhǔn)正態(tài)殘差分布圖5、多重共線性在應(yīng)用回歸模型時(shí),如果自變量中有兩個(gè)或兩個(gè)以上的自變量之間存在著線性或幾乎完全線性相關(guān)的關(guān)系就會產(chǎn)生多重共線性現(xiàn)象。在多重共線性現(xiàn)象的情況下用最小二乘法估計(jì)模型的參數(shù)就會不穩(wěn)定。此時(shí)當(dāng)模型中增加或減少一個(gè)變量時(shí)已在模型中的變量的系數(shù)也會變化。在多重共線性現(xiàn)象較嚴(yán)重的情況下,解釋回歸參數(shù)估計(jì)量的含義就沒有什

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論