統(tǒng)計(jì)學(xué)多元回歸分析方法(最新整理)

上傳人：曠*** IP屬地：上海上傳時(shí)間：2022-04-24 格式：DOCX 頁數(shù)：32 大小：503.98KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、多元線性回歸分析在數(shù)量分析中，經(jīng)常會(huì)看到變量與變量之間存在著一定的聯(lián)系。要了解變量之間如何發(fā)生相互影響的，就需要利用相關(guān)分析和回歸分析?；貧w分析的主要類型：一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計(jì)、時(shí)間序列的曲線估計(jì)、含虛擬自變量的回歸分析以及邏輯回歸分析等。1.1 回歸分析基本概念相關(guān)分析和回歸分析都是研究變量間關(guān)系的統(tǒng)計(jì)學(xué)課題。在應(yīng)用中，兩種分析方法經(jīng)常相互結(jié)合和滲透，但它們研究的側(cè)重點(diǎn)和應(yīng)用面不同。在回歸分析中，變量 y 稱為因變量，處于被解釋的特殊地位；而在相關(guān)分析中，變量 y 與變量 x 處于平等的地位，研究變量 y 與變量 x 的密切程度和研究變量 x 與變量

2、 y 的密切程度是一樣的。在回歸分析中，因變量 y 是隨機(jī)變量，自變量 x 可以是隨機(jī)變量，也可以是非隨機(jī)的確定變量；而在相關(guān)分析中，變量 x 和變量 y 都是隨機(jī)變量。相關(guān)分析是測定變量之間的關(guān)系密切程度，所使用的工具是相關(guān)系數(shù)；而回歸分析則是側(cè)重于考察變量之間的數(shù)量變化規(guī)律，并通過一定的數(shù)學(xué)表達(dá)式來描述變量之間的關(guān)系，進(jìn)而確定一個(gè)或者幾個(gè)變量的變化對另一個(gè)特定變量的影響程度。具體地說，回歸分析主要解決以下幾方面的問題。（1）通過分析大量的樣本數(shù)據(jù)，確定變量之間的數(shù)學(xué)關(guān)系式。（2）對所確定的數(shù)學(xué)關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn)，并區(qū)分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。（

3、3）利用所確定的數(shù)學(xué)關(guān)系式，根據(jù)一個(gè)或幾個(gè)變量的值來預(yù)測或控制另一個(gè)特定變量的取值，并給出這種預(yù)測或控制的精確度。作為處理變量之間關(guān)系的一種統(tǒng)計(jì)方法和技術(shù)，回歸分析的基本思想和方法以及“回歸（Regression）”名稱的由來都要?dú)w功于英國統(tǒng)計(jì)學(xué) FGalton（18221911）。在實(shí)際中，根據(jù)變量的個(gè)數(shù)、變量的類型以及變量之間的相關(guān)關(guān)系，回歸分析通常分為一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計(jì)、時(shí)間序列的曲線估計(jì)、含虛擬自變量的回歸分析和邏輯回歸分析等類型。1.2 多元線性回歸多元線性回歸的定義一元線性回歸分析是在排除其他影響因素或假定其他影響因素確定的條件下，分析某一

4、個(gè)因素（自變量）是如何影響另一事物（因變量）的過程，所進(jìn)行的分析是比較理想化的。其實(shí)，在現(xiàn)實(shí)社會(huì)生活中，任何一個(gè)事物（因變量）總是受到其他多種事物（多個(gè)自變量）的影響。一元線性回歸分析討論的回歸問題只涉及了一個(gè)自變量，但在實(shí)際問題中，影響因變量的因素往往有多個(gè)。例如，商品的需求除了受自身價(jià)格的影響外，還要受到消費(fèi)者收入、其他商品的價(jià)格、消費(fèi)者偏好等因素的影響；影響水果產(chǎn)量的外界因素有平均氣溫、平均日照時(shí)數(shù)、平均濕度等。因此，在許多場合，僅僅考慮單個(gè)變量是不夠的，還需要就一個(gè)因變量與多個(gè)自變量的聯(lián)系來進(jìn)行考察，才能獲得比較滿意的結(jié)果。這就產(chǎn)生了測定多因素之間相關(guān)關(guān)系的問題。研究在線性相關(guān)條件下

5、，兩個(gè)或兩個(gè)以上自變量對一個(gè)因變量的數(shù)量變化關(guān)系，稱為多元線性回歸分析，表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式，稱為多元線性回歸模型。多元線性回歸模型是一元線性回歸模型的擴(kuò)展，其基本原理與一元線性回歸模型類似，只是在計(jì)算上更為復(fù)雜，一般需借助計(jì)算機(jī)來完成。多元線性回歸模型.1 元線性回歸模型及其矩陣表示設(shè) 是一個(gè)可觀測的隨機(jī)變量，它受到個(gè)非隨機(jī)因索yp, , 和隨機(jī)因素的影響，若與 , , 有如下線性關(guān)ex x1xpyx x1x22p系：（1.1）y = + x + + x +L b eb b01 1pp其中 , , 是個(gè)未知參數(shù)，是不可測的隨機(jī)誤差，且通p+1ebbb01p常假定為被解釋變量（

6、因變量），為解釋e （，s ） N 0 2 y= Lx (i 1,2, , p)i變量（自變量）.稱b bL bE(y) = + x + + x01 1pp（1.2）為理論回歸方程. 對于一個(gè)實(shí)際問題，要建立多元回歸方程，首先要估計(jì)出未知參數(shù) , ，bb10, ,為此我們要進(jìn)行次獨(dú)立觀測，得到組樣本數(shù)據(jù)bnnp，=1,2,L,n，他們滿足式（1.1），即有(x , x ,L, x ; y ) ii1i2ipib bb+L b+ +x+e = +y1x1 11x2 120p 1p1b bbL bey = + x + x + + x +（1.3）201 21222p2 p2LLLb bbL b

7、 ey = + x + x + + x +n01 n12n2pnpn其中相互獨(dú)立且都服從 .s2e e L e, , ,N(0, )12n式（1.3）又可表示成矩陣形式：（1.4）這里，b eY = X +，=Lb = b b L be = e e L e( , , , )Y (y , y , , y )( , , , )TTT12n01p12n，為階單位矩陣.es N (0, I )2InnnnLL1 xx12x22Mx1px2 pM 111 xX =21M ML1 xxx n1n2np階矩陣稱為資料矩陣或設(shè)計(jì)矩陣，并假設(shè)它是列滿秩的，n(p +1)X即rank(X ) = p +1.

8、由模型（1.3）以及多元正態(tài)分布的性質(zhì)可知，仍服從維正態(tài)Yn分布，它的期望向量為，方差和協(xié)方差陣為，即Xbs I2n.b sY N (X , I )2nn.2 參數(shù)的最小二乘估計(jì)及其表示1. 參數(shù)的最小二乘估計(jì) 與一元線性回歸時(shí)的一樣，多元線性回歸方程中的未知參數(shù)仍然可用最小二乘法來估計(jì)，即我們選擇b b L b, , ,01p使誤差平方和b b b L b= ( , , , )T01pr rTnbee ebTb-Q( ) =(Y X ) (Y X )= -2ii=1nb bbL b= (y - - x - x - - x )2i01i12i2pipi=1達(dá)到最小.由于Q(b )是關(guān)于

9、的非負(fù)二次函數(shù)，因而必定存在最b b L b, , ,01p小值，利用微積分的極值求法，得bQ( ) nb bbL b= -2 (y - - x - x - - x ) = 0bi01 i12 i2p ipi=10 bQ( ) b bbnL b= -2 (y - - x - x - - x )x = 0bi01 i12 i2pipi1i=11LLLLLL bQ( ) nbb bL b= -2 (y - - x - x - - x )x = 0 bi01 i12 i2pipiki=1kLLLLLLbQ( ) bnbbL b= -2 (y - - x - x - - x )x = 0b i01 i

10、12 i2pipipi=1p這里是的最小二乘估計(jì) .上述對求Q(b )= Lb (i 0 ,1, , p)(i = 0,1,L, p)bii偏導(dǎo)，求得正規(guī)方程組的過程可用矩陣代數(shù)運(yùn)算進(jìn)行，得到正規(guī)方程組的矩陣表示：X (Y - Xb ) = 0T移項(xiàng)得（.）X Xb = X YTT稱此方程組為正規(guī)方程組依據(jù)假定 R(X ) = p +1，所以故存在解-1R(X X ) = R(X ) = p +1(X X )TT 正規(guī)方程組（.）得= (X X ) X YbT-1T（.）稱為經(jīng)驗(yàn)回歸方程 = b bbL by+ x + x + + x01 122pp誤差方差的估計(jì)s2將自變量的各組觀測值

11、代入回歸方程，可得因變量的估計(jì)量（擬合值）為bY = (y , y ,L, y ) = X212pr向量b稱為殘差向量，e = Y -Y =Y - X =I - X(X X ) X Y = (I - H)YT-1Tnn其中為階對稱冪等矩陣，為階單位陣TH = X (X X )- XnInT1nr rT稱數(shù)為殘差平方和（rror Sum ofe e = Y (I - H)Y = Y Y - b X YTTTTnSquares,簡寫為 SSE）由于且(I - H )X = 0 ，則E(Y) = Xbnr rTrrrreeeeE(e e) = Etr (I - H ) = tr(I - H )

12、E()TTnn= trI - X (X X ) X s2T-1Tn= n - tr(X X ) X X s2T-1T= (n - p -1)s2r rT1從而為的一個(gè)無偏估計(jì)s2 =se e2n - p -1估計(jì)量的性質(zhì)性質(zhì)證為的線性無偏估計(jì)，且 -1bb s) = Var( ) = (X X )bbD(2T由于是的線性函數(shù)，故其為線性估計(jì)，且Y= (X X ) X YbT-1T 有bbb bE( ) = (X X ) X E(Y) = = (X X ) X X =T-1TT-1Tbs2D( ) = (X X ) X D(Y )X (X X ) = (X X )T-1TTT-1T-1這

13、一性質(zhì)說明為的線性無偏估計(jì)，又由于一般為非對-1b b(X X )T角陣，故的各個(gè)分量間一般是相關(guān)的brr性質(zhì)證E(e) = O, D(e) = s (I - H )2rr由于，故e = (I - H)YE(e) = (I - H)E(Y) = (I - H)Xb = OrD(e) = (I - H )D(Y )(I - H ) = s (I - H )T2這一性質(zhì)表明殘差向量的各個(gè)分量間一般也是相關(guān)的r性質(zhì)證Cov(e,b ) = OrCov(e, b ) = Cov(I - H )Y,(X X ) X Y)T-1T= (I - H )D(Y )X (X X ) = OT-1re這一性

14、質(zhì)表明殘差與的最小二乘估計(jì) 是不相關(guān)的，又由于殘差bbre平方和 SSE 是的函數(shù)，故它與也不相關(guān)在正態(tài)假定下不相關(guān)與b獨(dú)立等價(jià)，因而 SSE 與獨(dú)立b性質(zhì)E(SSE) = (n - p -1)s2證明略性質(zhì)（auss-Markov 定理）在假定，E(Y) = XbD(Y) = s I2n時(shí)，的任一線性函數(shù) 的最小方差線性無偏估計(jì)（BLUE）為，bbTbT其中是任一p+1a維向量，是的最小二乘估計(jì)b b性質(zhì) 6當(dāng)，有以下幾點(diǎn)結(jié)論：b sY N (X , I)2n （1）；bb sN( , (X X ) )2T-1（2）SSE 與獨(dú)立；b（3）SSE c 2(n - p

15、-1)性質(zhì)、性質(zhì) 6 的證明參見周紀(jì)薌回歸分析或方開泰實(shí)用回歸分析回歸方程和回歸系數(shù)的顯著性檢驗(yàn)給定因變量與 , , 的組觀測值，利用前述方法確定線yxxxnp12性回歸方程是否有意義，還有待于顯著性檢驗(yàn)下面分別介紹回歸方程顯著性的檢驗(yàn)和回歸系數(shù)的檢驗(yàn)，同時(shí)介紹衡量回歸擬合程度Ft的擬合優(yōu)度檢驗(yàn).1 回歸方程顯著性的檢驗(yàn) 對多元線性回歸方程作顯著性檢驗(yàn)就是要看自變量 , ,x xx12p從整體上對隨機(jī)變量是否有明顯的影響，即檢驗(yàn)假設(shè)：yb bb= = = =H:0012pb 0,1 i pH :1i如果被接受，則表明與 , , 之間不存在線性關(guān)系.為了說Hyx xx012p明如何

16、進(jìn)行檢驗(yàn)，我們首先建立方差分析表. 離差平方和的分解我們知道：觀測值 , , 之所以有差異，是由于下述兩y yy12n個(gè)原因引起的，一是與 , , 之間確有線性關(guān)系時(shí)，由于yx xx12p, , 取值的不同而引起值的變化；另一方面是x x1xy (i =1,2,., n)i2p除去與 , , 的線性關(guān)系以外的因素，如 , , 對yx xxx xx12p12p1，則數(shù)據(jù)的總離差平方和（Total Sum of Squares）ny y =yini=1(1.7)nSST = (y - y)2ii=1反映了數(shù)據(jù)的波動(dòng)性的大小殘差平方和(1.)n=(y - y )2SSTiii=1反映了除去與

17、, , 之間的線性關(guān)系以外的因素引起的數(shù)yx xx12p據(jù) , , 的波動(dòng)若，則每個(gè)觀測值可由線性關(guān)系精y yySSE = 012n確擬合，SSE 越大，觀測值和線性擬合值間的偏差也越大回歸平方和（Regression Sum of Squres）(1.9)n=(y - y)2SSRii=1 1由于可證明，故 SSR 反映了線性擬合值與它們的平均n =y yini=1值的宗偏差，即由變量 , , 的變化引起 , , 的x xxy yy12p12n波動(dòng)若，則每一個(gè)擬合值均相當(dāng)，即不隨 , ,ySSR = 0xx xi12p而變化，這意味著.利用代數(shù)運(yùn)算和正規(guī)方程b bb= 0= = =12p

18、組（4.8）可以證明：nnn- y =(y - y)2+- (y y )2(y)2iiiii=1i=1i=1即SST = SSR + SSE(1.10)因此，SSR 越大，說明由線性回歸關(guān)系所描述的 , , 的y yy12n波動(dòng)性的比例就越大即與 , , 的線性關(guān)系就越顯著 .yx xx12p線性模型的擬合效果越好.另外，通過矩陣運(yùn)算可以證明 SST、SSE、SSR，有如下形式的矩陣表示：11SST = Y Y - Y JY = Y (I - J)YTTTnnn(1.11)b= e e = Y Y - X Y = Y (I - H)YSSETTTTn11= b-Y JY Y (H-=SSRX

19、 YTJ)YTTnn其中表示一個(gè)元素全為 1 的階方陣.Jn2. 自由度的分解對應(yīng)于 SST 的分解，其自由度也有相應(yīng)的分解，這里的自由度是指平方中獨(dú)立變化項(xiàng)的數(shù)目.在 SST 中，由于有一個(gè)關(guān)系式，即彼此并不是獨(dú)立變化的，故n(y - y) = 0y - y(i =1,2, ,n)iii=1 其自由度為 .n -1可以證明，SSE 的自由度為，SSR 的自由度為，因n - p -1p此對應(yīng)于的分解，也有自由度的分解關(guān)系SST（1.12）n -1= (n - p -1)+ p3. 方差分析表方差來平方和自由度均方差1pTpnMSRSSESSTMSET1Y (I - J)Y-1nTn.2

20、線性回歸方程的顯著性檢驗(yàn)與一元線性回歸時(shí)一樣，可以用統(tǒng)計(jì)量檢驗(yàn)回歸方程的顯著性，F(xiàn)也可以用值法（P-Value）作檢驗(yàn). 統(tǒng)計(jì)量是PFMSRSSR / p（1.13）F =MSE SSE / (n - p -1)當(dāng) 為真時(shí)，給定顯著性水平，查分布表得臨a- p -1)FHF F( p,n0界值，計(jì)算的觀測值，若，則接受F ( p,n - p -1)FF F ( p,n - p -1)0Faa0，即在顯著性水平之下，認(rèn)為與 , , 的線性關(guān)系就不顯Hayxxxp012著；當(dāng)值法作顯著性檢驗(yàn)性檢驗(yàn)十分方便：這里的F F ( p,n - p -1) P0a值是，表示第一、第二自由度

21、分別為，的變量n p 1 F- -PP(F F )p0 取值大于的概率，利用計(jì)算機(jī)很容易計(jì)算出這個(gè)概率，很多統(tǒng)計(jì)軟F0件（如 SPSS）都給出了檢驗(yàn)的值，這省去了查分布表的麻煩，對P于給定的顯著性水平，若，則拒絕，反之，接受 .t (n p 1)- -tian - p -12拒絕；反之，則接受在SPSS 軟件的輸出結(jié)果中，可以直接從HH00值看出檢驗(yàn)結(jié)果p對于估計(jì)量，我們還想了解它與的接近程度如何這就需要bbiib b確定的置信區(qū) 間由于-，因而有bii- -t(n p 1)isciib - bi，即得的置信度為的置信區(qū)間為 t (n - p -1)=

22、1-ab-a1piasci2iibisbis( - tc , + tiic )iiaa22.4 因變量的預(yù)測建立回歸方程，除了解自變量與因變量之間的相依關(guān)系之外，還有一項(xiàng)重要的應(yīng)用就是預(yù)測，即對給定的自變量的值，預(yù)測對應(yīng)的因變量的值對于線性回歸模型y =b + b + + b + exx01 1pp當(dāng)我們要預(yù)測的點(diǎn)預(yù)測值所對應(yīng)的因變量值時(shí)，我們可以用他x = (1, x , x , x )y001 020 p0，但我們一般更感興趣的是的區(qū)間b bby = + x + + xy001 01p0 p0估計(jì)可以證明：y - y0t(n - p -1)0s+1 x (X X ) x-100因而對給

23、定的，有a y - yt n p ( - -1)=1-aps +00a1 x (X X ) x2-100由此可得的置信度為的預(yù)測區(qū)間為y1-a0ss(y - t (n - p -1) 1+ x (X X ) x , y + t (n - p -1) 1+ x (X X ) x )-1-1a0a0000022.5 擬合優(yōu)度擬合優(yōu)度用于檢驗(yàn)?zāi)Ｐ蛯颖居^測值的擬合程度在前面的方差分析中，我們已經(jīng)指出，在總離差平方和中，若回歸平方和占的比例越大，則說明擬合效果越好于是，就用回歸平方和與總離差平方和的比例作為評判一個(gè)模型擬合優(yōu)度的標(biāo)準(zhǔn)，稱為樣本決定系數(shù)（coefficient of determi

24、nation）(或稱為復(fù)相關(guān)系數(shù))，記為 R2SSRSSTSSESSTR2 =1-由的意義看來，其他越接近于 1，意味著模型的擬合優(yōu)度越高。R2于是，如果在模型中增加一個(gè)自變量，的值也會(huì)隨之增加，這會(huì)給R2人一種錯(cuò)覺：要想模型擬合效果好，就得盡可能多引進(jìn)自變量為了防止這種傾向，人們考慮到，增加自變量必定使得自由度減少，于是又定義了引入自由度的修正的復(fù)相關(guān)系數(shù)，記為 2RaMSEMSTR2 =1-aSSE(n - p -1)=1-SST(n -1)在實(shí)際應(yīng)用中，達(dá)到多大才算通過了擬合優(yōu)度檢驗(yàn)，沒有絕R2對的標(biāo)準(zhǔn)，要看具體情況而定。模型擬合優(yōu)度并不是判斷模型質(zhì)量的唯一標(biāo)準(zhǔn)，有時(shí)為了追求模型的

25、實(shí)際意義，可以在一定程度上放寬對擬合優(yōu)度的要求 .6 數(shù)據(jù)的中心化和標(biāo)準(zhǔn)化在多元線性回歸分析中，所涉及道德諸多自變量往往量綱不同，甚至差別很大，這給利用回歸方程分析實(shí)際問題帶來一定困難為此，我們可以將數(shù)據(jù)進(jìn)行中心化和標(biāo)準(zhǔn)化處理，然后再建立回歸方程數(shù)據(jù)的中心化處理方法是：記、為各個(gè)自變量與因變量的樣xyj本中心值，令x = x - x , i =1,2, ,n; j =1,2, , pijijj = -y y y, i 1,2, ,n=ii如果利用沒有中心化處理之前的數(shù)據(jù)建立的多元回歸方程為 = b b（4.19）b+ bxy+ x + x +01 12 2pp那么經(jīng)過中心化處理的數(shù)據(jù)建立的

26、回歸方程即為（4.20） = b b b + b y+ x + x +x01 12 2pp這一點(diǎn)不難理解：數(shù)據(jù)的中心化處理相當(dāng)于將坐標(biāo)原點(diǎn)移至樣本中心，而坐標(biāo)系的平移不改變直線的斜率，只改變了截距數(shù)據(jù)的標(biāo)準(zhǔn)化處理公式是：x - xijx*=, i =1,2, ,n; j =1,2, , pjij(x x )2-ijji=1y - yiy*=, i =1,2, ,ni(y y)-2ii=1標(biāo)準(zhǔn)化的數(shù)據(jù)建立的回歸方程記為（4.21） = bb+ bxy*x*+ x +*1122pp容易驗(yàn)證方程（4.21）與（4.19）的系數(shù)之間存在關(guān)系式 n(x - x )2bijjb , j =1,2, ,

27、p=*i=1jjn(y - y)2ii=1殘差分析在前面討論線性回歸問題時(shí)，我們做了回歸模型的線性假定、誤差的正態(tài)性和同方差性假定等，而實(shí)際問題中所得的數(shù)據(jù)是否符合這些假定，還有待于檢驗(yàn).在本節(jié)和下一節(jié)中，將要解決兩個(gè)問題：首先是如何驗(yàn)證這些假定是否得到滿足？如果符合假定的話，那么參數(shù)的估計(jì)和有關(guān)的假設(shè)檢驗(yàn)都是可靠的；如果假定不滿足，我們要解決另一個(gè)重要的問題，即我們需采取怎樣的措施呢？在對模型的假定進(jìn)行診斷時(shí)，殘差分析（又稱回歸診斷）起著十分重要的作用.殘差向量，這里，前面已經(jīng)介紹Te= y - y =(I H )y-H X (X X ) X=T-1n過殘差的基本性質(zhì)，如等，由于E(e) 0

28、, ( ) (= Var e = I - HCov y =( ,e) O)s ,2n實(shí)際問題中，真正的觀測誤差e我們并不知道，= y - E(y ) (i =1,2, ,n)iii但如果模型正確，則可將近似看作為，此時(shí)殘差應(yīng)該能夠大致eeeiii反映誤差的特性.因而我們可以利用殘差的特點(diǎn)來考察模型的可靠ei性.通過對殘差進(jìn)行分析，可以在一定程度上回答下列問題：（1）回歸函數(shù)線性假定的可行性；（2）誤差項(xiàng)的等方差假設(shè)的合理性；（3）誤差項(xiàng)獨(dú)立性假設(shè)的合理性；（4）誤差項(xiàng)是否符合正態(tài)分布；（5）觀測值中是否存在異常值；（6）是否在模型中遺漏了某些重要的自變量.yxi2nZRE= e ii

29、hiHiiiiii陳希孺等人曾指出，SRE ,SRE , ,SRE 近似獨(dú)立，且近似服從12n12n1p(y ,e )ii項(xiàng)，或者考慮是否可先將 y 和某些（a）、(b)，通常有三種可以采用的處圖 4.3 誤差方差隨自變量變化圖 nb bb bQ( , ) = (y - - x )201i01 ii=1加權(quán)最小二乘法是在平方和中加入一個(gè)適當(dāng)?shù)臋?quán)數(shù) ，以消除方差非wi齊性的影響，即（4.22）nb bwb b(y - - x )2Q ( , ) =w01ii01 ii=1這里觀測值的權(quán)數(shù)應(yīng)該是誤差項(xiàng)方差的倒數(shù)，即 .在實(shí)際ws2=1ii問題的研究中，通常是未知的，但是，當(dāng)誤差項(xiàng)方差隨自變量水

30、s2i平以系統(tǒng)的形式變化時(shí)，我們可以利用這種關(guān)系.例如，若，s= kx22ii其中為比例系數(shù)，由于這個(gè)系數(shù)在參數(shù)估計(jì)中可以消除，所以我們k取權(quán)數(shù)為 .如果某個(gè)實(shí)際問題的誤差方差與的冪函數(shù) 成w=1 x2xmxii比例，其中，為待定參數(shù)，此時(shí)可取權(quán)數(shù)為，利用 SPSSwm=1 xmii軟件包可以確定冪函數(shù)的最優(yōu)取值.在打開一個(gè)數(shù)據(jù)文件之后，依次點(diǎn)選 StatisticsRegressionWeight Estimation 進(jìn)入估計(jì)權(quán)函數(shù)對話框，默認(rèn)的冪指數(shù) 的取值為自變量mm = -2,-1.5,-1,-0.5,0,0.5,1,1.5,2與因變量選入各自的變量框，再把選入Weig

31、ht 變量框，可得最xyx優(yōu)冪指數(shù)值.多元線性回歸模型的加權(quán)離差平方和為（4.23）i=nwb b b(y - - x - - x )Q =2wii01 i1p ipi=1多元線性回歸模型中有多個(gè)自變量，通常取權(quán)函數(shù) 為某個(gè)自變w量的冪函數(shù)，即取，在這 p mx (i =1,2, , p)iw = xmx , x , , x1i2p.3 誤差獨(dú)立性的檢驗(yàn) 在回歸模型中，我們總是堅(jiān)定誤差項(xiàng)是不相關(guān)的，即如果某個(gè)回歸模型的誤差項(xiàng)不滿足這一點(diǎn)，則我們e eCov( , ) = 0,i jij稱其存在自相關(guān)（或序列相關(guān)）現(xiàn)象當(dāng)一個(gè)回歸模型的隨機(jī)誤差項(xiàng)存在自相關(guān)時(shí)，會(huì)產(chǎn)生以下不良的后果：（1）參數(shù)的估

32、計(jì)量不再具有最小方差線性無偏性；（2）變量的顯著性檢驗(yàn)失去意義；（3）模型的預(yù)測失效.自相關(guān)性的檢驗(yàn)方法有多種，目前比較常用的有 Durbin-Watson，但它僅適用于一階自相關(guān)的情況，即隨機(jī)擾動(dòng)項(xiàng)具有如下形式（4.24）e rei=+ ui-1i由于實(shí)際問題中的未知，所以我們首先采用普通最小二乘法估ei計(jì)模型，然后用殘差近似代替來判斷是否存在自相關(guān)性.為了檢eeii驗(yàn)自相關(guān)性，構(gòu)造的假設(shè)是H : r = 00而構(gòu)造的統(tǒng)計(jì)量為：n(e - e )2ii-1（4.25）DW =i=2ne2ii=2計(jì)算出該統(tǒng)計(jì)量的數(shù)值之后，根據(jù)樣本容量和自變量數(shù)目查npDW 分布表,得到臨界值和，

33、然后按照下列準(zhǔn)則考察計(jì)算得到的 DWddlu值，可以判斷模型的自相關(guān)狀態(tài).準(zhǔn)則：若若，則存在正自相關(guān)不能確定0 DW dl，d DW dlu 若若，不能確定4 - d DW 4 - dul，存在負(fù)自相關(guān)4 - d DW 4l從上面的準(zhǔn)則可以看出，當(dāng)值為 2 左右時(shí)，模型一般不存在一階自相關(guān).而且，經(jīng)驗(yàn)表明，如果模型不存在一階自相關(guān)，一般也不存在高階序列相關(guān).如果模型存在自相關(guān)，首先要查明原因.如果是回歸模型選用不當(dāng)，則應(yīng)該用適當(dāng)?shù)幕貧w模型；如果是缺少重要的自變量，則應(yīng)加入相應(yīng)的自變量.如果以上方法都不能消除自相關(guān)性，則需要采用新的方法估計(jì)模型，如廣義最小二乘法、差分法、迭代法、移動(dòng)平均法等

34、等，在此只介紹一階差分法和迭代法.對其他方法有興趣的讀者可以參閱時(shí)間序列方面的教材或著作.差分法用增量數(shù)據(jù)代替原來的樣本數(shù)據(jù)，將原來的回歸模型變?yōu)椴罘中问降哪Ｐ?一階差分法適用于原模型存在較高程度的一階自相關(guān)的情況.令Dy = y - y ,Dx = x- x ,k =1,2, , p;i =1,2, ,n -1k ,iii+1ik ,ik ,i+1建立關(guān)于的線性回歸方程DymDy = Dx + Dx + + Dx +Dxk(4.26)bbb1122pp如果這個(gè)差分模型通過了各種檢驗(yàn)和診斷，就可以利用它代替原模型做預(yù)測.關(guān)于的一元線性回歸方程，計(jì)算出殘差e ,e ,之間的b by = +

35、 xyx,e0112n一階自相關(guān)系數(shù) ，再令rrry = y - y , x = x - x , i =1,2, ,n -1*ii+1iii+1i 建立關(guān)于的一元線性回歸方程，通過殘差b b*yxy*=+x*01檢驗(yàn)這個(gè)回歸方程是否存在自相關(guān)，如果之間不相關(guān)，e ,e , ,e*y*12n-1則迭代結(jié)束；如果存在自相關(guān)，則需計(jì)算殘差之間的自e ,e , ,e*12n-1相關(guān)系數(shù)，重復(fù)上述步驟，直到因變量序列不存在自相關(guān)性為止.4 誤差項(xiàng)正態(tài)性的檢驗(yàn)檢驗(yàn)總體分布是否為正態(tài)分布的方法比較多，下面介紹其中的兩種.在前面我們指出過，當(dāng)時(shí)，標(biāo)準(zhǔn)化殘差b sy N(X , I )2n可近似看成來自

36、的隨機(jī)子樣，從而可通過檢驗(yàn)N(0,1)SRE ,SRE , ,SRE21n所屬總體是否為來檢驗(yàn)?zāi)Ｐ驼`差的正態(tài)性.N(0,1)SRE ,SRE , ,SRE21n方法一：頻率檢驗(yàn)法.可以粗略的統(tǒng)計(jì)一下中正負(fù)個(gè)數(shù)是否大致各占SRE ,SRE , ,SRE21n一半，介于(-1,1)間的比例是否約為 68%，介于(-2,2)間的比例是否為 95%，介于(-3,3) 間的比例是否約為 99%，不過這種方法比較粗糙.方法二：正態(tài)概率圖檢驗(yàn)法.首先，將殘差從小到大排列為；其次，對于（n）e ,e , ,e1e ,e , ,e（1）（2）2n每個(gè)i =1,2, ,n,計(jì)算，其中為標(biāo)準(zhǔn)正態(tài)分布=s Z(i

37、 - 0.5 n)Z(i - 0.5 n)q(i)的下側(cè) 分位數(shù)，即滿足i - 0.5 ni 0.5-x2i 0.5-1e-= Z ()n22pn-然后，以為縱坐標(biāo)，為橫坐標(biāo)做散點(diǎn)圖，即為殘差的正態(tài)概率圖.qe從直觀上看，如果點(diǎn)和q之間的相=1,2, ,n)(i =1,2, ,n)(q ,e ) (i(i) (i)e(i)(i) 關(guān)系數(shù)來判斷它們之間的線性關(guān)系的強(qiáng)弱，若相關(guān)系數(shù)接近于 1，則說明點(diǎn) 近似落在一條直線上.(q ,e )(i)(i).5 多重共線性的處理多元線性回歸模型中，假定自變量之間線性無關(guān)，因而資料矩陣個(gè)常數(shù) ，使得X pc , ,c1pc x + c x + + c x

38、 = 0, i =1,2, ,n1 i12i2p ip則自變量之間存在著完全的多重共線x , x , , x12p（Multicollinearity）.在實(shí)際問題中完全共線性的情況并不多見，常見的是近似的多重共線關(guān)系，即存在不全為零的個(gè)常數(shù) ，pc , ,c1p使得c x + c x + + c x 0, i =1,2, ,n1 i12i2p ip如果回歸模型存在完的多重共線性，則資ey = + x + + x +b bb01 1pp料陣的秩，故不存在,無法得到回歸參數(shù)的估(X X )T-1Xrank(X ) p +1計(jì)量.對于近似多重共線性的情況，此時(shí)雖有rank(X ) = p +

39、1，但，從而矩陣的主對角線上的元素很大，使得估計(jì)的參X TX 0(X X )T-1數(shù)向量的協(xié)方差陣的對角線上元素也很大，導(dǎo)致普-1) = (X X )D(b sb2T通最小二乘參數(shù)估計(jì)量并非有效.如何檢驗(yàn)是否存在多重共線性？已經(jīng)由不少的可行的方法，目前常用的有方差擴(kuò)大因子法和特征根判別法.在此只介紹方差擴(kuò)大因子（VIF）法.對自變量做中心標(biāo)準(zhǔn)化處理，則為自變量的相關(guān)矩陣，X X = (r )*T*ij 記C = (c ) = (X X )*T* -1ij稱其對角線元素為自變量的方差VIF = c =1 (1- R ) ( j =1,2, , p)x2jijjj擴(kuò)大因子（Variance

40、 Inflation Factor），其中是把作為因變Rx2jj量與其余個(gè)自變量做線性回歸所得到的復(fù)相關(guān)系數(shù). ，都有p -1VIFxjj1.也可以用p遠(yuǎn)遠(yuǎn)大于 1 時(shí)，就表示存在嚴(yán)重的多VIF 1p VIF =VIFjpjj=1重共線性問題.當(dāng)發(fā)現(xiàn)自變量存在嚴(yán)重的多重共線性時(shí)，可以通過剔除一些不重要的自變量、增大樣本容量、對回歸系數(shù)做有偏估計(jì)（如采用嶺回法、主成分法、偏最小二乘法等）等方法來克服多重共線性.自變量的選擇與逐步回歸在前面討論了線性回歸模型的估計(jì)方法和檢驗(yàn)問題，但在應(yīng)用回歸分析處理實(shí)際問題時(shí)，首先要解決的問題是自變量的選擇和回歸函數(shù)的選擇.由于本書中，我們只介紹線性回歸模型

41、，在此，我們主要考慮自變量的選擇問題.在多元線性回歸分析中，一方面，為了獲得較全面的信息，我們總是希望模型中包含盡可能多的自變量；另一方面，考慮到自變量越多，收集數(shù)據(jù)存在困難以及成本大大增加，加之，有些自變量與其他自變量作用重疊.如果把它們都引入模型，不只是增加了計(jì)算量，還對模型參數(shù)的估計(jì)和模型的預(yù)測帶來不利影響.這樣一來，我們自然希望模型中選人最合適的自變量，建立起既合理又簡單實(shí)用的回歸模型.下面我們介紹一些自變量選擇的準(zhǔn)則，以及相應(yīng)的“最優(yōu)”自變量子集的計(jì)算方法.1 自變量選擇對估計(jì)和預(yù)測的影響設(shè)我們研究某一實(shí)際問題時(shí)，根據(jù)經(jīng)驗(yàn)或?qū)I(yè)知識(shí)，確定一切可能對因變量有影響的因素共有個(gè)，記為

42、，它們與一起ypx1, x , , x2yp構(gòu)成線性回歸模型（4.33）b bbey = + x + + x +01 1pp我們稱這個(gè) 與所有自變量的回歸模型為全模型.y如果我們從所有可供選擇的個(gè)變量中挑出個(gè)，記為，x, x , , x2pq1q建立如下的回歸模型（4.34）b bbey = + x + + x +01 1qq我們稱其為選模型.利用回歸分析解決問題時(shí)，自變量的選擇問題可以看成是應(yīng)該采用全模型還是選模型去描述實(shí)際問題.下面我們不加證明的給出幾個(gè)結(jié)論，說明自變量的選擇對參數(shù)估計(jì)和對因變量預(yù)測的影響.(1) 模型正確而誤用選模型的情況.結(jié)論 1：當(dāng)全模型正確時(shí)，選模型的回歸系數(shù)的最小二乘估計(jì)是全模型相應(yīng)參數(shù)的有偏估計(jì)，選模型的預(yù)測也有偏的.結(jié)論 2：當(dāng)全模型正確時(shí)，選模型的參數(shù)估計(jì)和預(yù)測殘差以及均方誤差都有較小的方差.（2）選模型正確而誤用全模型的情況.如果選模型正確，怎其參數(shù)估計(jì)和預(yù)測值都是無偏的，此時(shí)全模型的參數(shù)估計(jì)和預(yù)測都是有偏估計(jì).而且，全模型的預(yù)測值的方差和均方差都要

人人文庫> 全部分類> 教育資料 > 中學(xué)教育

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

統(tǒng)計(jì)學(xué)多元回歸分析方法(最新整理)

文檔簡介

溫馨提示

最新文檔

評論

統(tǒng)計(jì)學(xué)多元回歸分析方法(最新整理)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔