



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 多元線性回歸分析在數(shù)量分析中,經(jīng)常會(huì)看到變量與變量之間存在著一定的聯(lián)系。要了解變量之間如何發(fā)生相互影響的,就需要利用相關(guān)分析和回歸分析?;貧w分析的主要類型:一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計(jì)、時(shí)間序列的曲線估計(jì)、含虛擬自變量的回歸分析以及邏輯回歸分析等。1.1 回歸分析基本概念相關(guān)分析和回歸分析都是研究變量間關(guān)系的統(tǒng)計(jì)學(xué)課題。在應(yīng)用中,兩種分析方法經(jīng)常相互結(jié)合和滲透,但它們研究的側(cè)重點(diǎn)和應(yīng)用面不同。在回歸分析中,變量 y 稱為因變量,處于被解釋的特殊地位;而在相關(guān)分析中,變量 y 與變量 x 處于平等的地位,研究變量 y 與變量 x 的密切程度和研究變量 x 與變量
2、 y 的密切程度是一樣的。在回歸分析中,因變量 y 是隨機(jī)變量,自變量 x 可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量;而在相關(guān)分析中,變量 x 和變量 y 都是隨機(jī)變量。相關(guān)分析是測定變量之間的關(guān)系密切程度,所使用的工具是相關(guān)系數(shù);而回歸分析則是側(cè)重于考察變量之間的數(shù)量變化規(guī)律,并通過一定的數(shù)學(xué)表達(dá)式來描述變量之間的關(guān)系,進(jìn)而確定一個(gè)或者幾個(gè)變量的變化對另一個(gè)特定變量的影響程度。具體地說,回歸分析主要解決以下幾方面的問題。(1)通過分析大量的樣本數(shù)據(jù),確定變量之間的數(shù)學(xué)關(guān)系式。 (2)對所確定的數(shù)學(xué)關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并區(qū)分出對某一特定變量影響較為顯著的變量和影響不顯著的變量。(
3、3)利用所確定的數(shù)學(xué)關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的值來預(yù)測或控制另一個(gè)特定變量的取值,并給出這種預(yù)測或控制的精確度。作為處理變量之間關(guān)系的一種統(tǒng)計(jì)方法和技術(shù),回歸分析的基本思想和方法以及“回歸(Regression)”名稱的由來都要?dú)w功于英國統(tǒng)計(jì)學(xué) FGalton(18221911)。在實(shí)際中,根據(jù)變量的個(gè)數(shù)、變量的類型以及變量之間的相關(guān)關(guān)系,回歸分析通常分為一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計(jì)、時(shí)間序列的曲線估計(jì)、含虛擬自變量的回歸分析和邏輯回歸分析等類型。1.2 多元線性回歸多元線性回歸的定義一元線性回歸分析是在排除其他影響因素或假定其他影響因素確定的條件下,分析某一
4、個(gè)因素(自變量)是如何影響另一事物(因變量)的過程,所進(jìn)行的分析是比較理想化的。其實(shí),在現(xiàn)實(shí)社會(huì)生活中,任何一個(gè)事物(因變量)總是受到其他多種事物(多個(gè)自變量)的影響。一元線性回歸分析討論的回歸問題只涉及了一個(gè)自變量,但在實(shí)際問題中,影響因變量的因素往往有多個(gè)。例如,商品的需求除了受自身價(jià)格的影響外,還要受到消費(fèi)者收入、其他商品的價(jià)格、消費(fèi)者偏好等因素的影響;影響水果產(chǎn)量的外界因素有平均氣溫、平均日照 時(shí)數(shù)、平均濕度等。因此,在許多場合,僅僅考慮單個(gè)變量是不夠的,還需要就一個(gè)因變量與多個(gè)自變量的聯(lián)系來進(jìn)行考察,才能獲得比較滿意的結(jié)果。這就產(chǎn)生了測定多因素之間相關(guān)關(guān)系的問題。研究在線性相關(guān)條件下
5、,兩個(gè)或兩個(gè)以上自變量對一個(gè)因變量的數(shù)量變化關(guān)系,稱為多元線性回歸分析,表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式,稱為多元線性回歸模型。多元線性回歸模型是一元線性回歸模型的擴(kuò)展,其基本原理與一元線性回歸模型類似,只是在計(jì)算上更為復(fù)雜,一般需借助計(jì)算機(jī)來完成。多元線性回歸模型.1 元線性回歸模型及其矩陣表示設(shè) 是一個(gè)可觀測的隨機(jī)變量,它受到 個(gè)非隨機(jī)因索yp, , 和隨機(jī)因素 的影響,若 與 , , 有如下線性關(guān)ex x1xpyx x1x22p系:(1.1)y = + x + + x +L b eb b01 1pp其中 , , 是 個(gè)未知參數(shù), 是不可測的隨機(jī)誤差,且通p+1ebbb01p常假定為被解釋變量(
6、因變量),為解釋e (,s ) N 0 2 y= Lx (i 1,2, , p)i變量(自變量).稱b bL bE(y) = + x + + x01 1pp(1.2)為理論回歸方程. 對于一個(gè)實(shí)際問題,要建立多元回歸方程,首先要估計(jì)出未知參數(shù) , ,bb10, ,為此我們要進(jìn)行 次獨(dú)立觀測,得到 組樣本數(shù)據(jù)bnnp,=1,2,L,n,他們滿足式(1.1),即有(x , x ,L, x ; y ) ii1i2ipib bb+L b+ +x+e = +y1x1 11x2 120p 1p1b bbL bey = + x + x + + x +(1.3)201 21222p2 p2LLLb bbL b
7、 ey = + x + x + + x +n01 n12n2pnpn其中相互獨(dú)立且都服從 .s2e e L e, , ,N(0, )12n式(1.3)又可表示成矩陣形式:(1.4)這里,b eY = X +,=Lb = b b L be = e e L e( , , , )Y (y , y , , y )( , , , )TTT12n01p12n, 為 階單位矩陣.es N (0, I )2InnnnLL1 xx12x22Mx1px2 pM 111 xX =21M ML1 xxx n1n2np階矩陣 稱為資料矩陣或設(shè)計(jì)矩陣,并假設(shè)它是列滿秩的,n(p +1)X即rank(X ) = p +1.
8、由模型(1.3)以及多元正態(tài)分布的性質(zhì)可知, 仍服從 維正態(tài)Yn分布,它的期望向量為 ,方差和協(xié)方差陣為 ,即Xbs I2n.b sY N (X , I )2nn.2 參數(shù)的最小二乘估計(jì)及其表示1. 參數(shù)的最小二乘估計(jì) 與一元線性回歸時(shí)的一樣,多元線性回歸方程中的未知參數(shù)仍然可用最小二乘法來估計(jì),即我們選擇b b L b, , ,01p使誤差平方和b b b L b= ( , , , )T01pr rTnbee ebTb-Q( ) =(Y X ) (Y X )= -2ii=1nb bbL b= (y - - x - x - - x )2i01i12i2pipi=1達(dá)到最小.由于Q(b )是關(guān)于
9、的非負(fù)二次函數(shù),因而必定存在最b b L b, , ,01p小值,利用微積分的極值求法,得bQ( ) nb bbL b= -2 (y - - x - x - - x ) = 0bi01 i12 i2p ipi=10 bQ( ) b bbnL b= -2 (y - - x - x - - x )x = 0bi01 i12 i2pipi1i=11LLLLLL bQ( ) nbb bL b= -2 (y - - x - x - - x )x = 0 bi01 i12 i2pipiki=1kLLLLLLbQ( ) bnbbL b= -2 (y - - x - x - - x )x = 0b i01 i
10、12 i2pipipi=1p這里 是的最小二乘估計(jì) .上述對求Q(b )= Lb (i 0 ,1, , p)(i = 0,1,L, p)bii偏導(dǎo),求得正規(guī)方程組的過程可用矩陣代數(shù)運(yùn)算進(jìn)行,得到正規(guī)方程組的矩陣表示:X (Y - Xb ) = 0T移項(xiàng)得(.)X Xb = X YTT稱此方程組為正規(guī)方程組依據(jù)假定 R(X ) = p +1,所以故存在解-1R(X X ) = R(X ) = p +1(X X )TT 正規(guī)方程組(.)得= (X X ) X YbT-1T(.)稱 為經(jīng)驗(yàn)回歸方程 = b bbL by+ x + x + + x01 122pp誤差方差 的估計(jì)s2將自變量的各組觀測值
11、代入回歸方程,可得因變量的估計(jì)量(擬合值)為bY = (y , y ,L, y ) = X212pr向量b稱為殘差向量,e = Y -Y =Y - X =I - X(X X ) X Y = (I - H)YT-1Tnn其中為 階對稱冪等矩陣, 為 階單位陣TH = X (X X )- XnInT1nr rT稱數(shù)為殘差平方和(rror Sum ofe e = Y (I - H)Y = Y Y - b X YTTTTnSquares,簡寫為 SSE)由于且(I - H )X = 0 ,則E(Y) = Xbnr rTrrrreeeeE(e e) = Etr (I - H ) = tr(I - H )
12、E()TTnn= trI - X (X X ) X s2T-1Tn= n - tr(X X ) X X s2T-1T= (n - p -1)s2r rT1從而為 的一個(gè)無偏估計(jì)s2 =se e2n - p -1估計(jì)量的性質(zhì)性質(zhì)證為 的線性無偏估計(jì),且 -1bb s) = Var( ) = (X X )bbD(2T由于 是 的線性函數(shù),故其為線性估計(jì),且Y= (X X ) X YbT-1T 有bbb bE( ) = (X X ) X E(Y) = = (X X ) X X =T-1TT-1Tbs2D( ) = (X X ) X D(Y )X (X X ) = (X X )T-1TTT-1T-1這
13、一性質(zhì)說明 為 的線性無偏估計(jì),又由于一般為非對-1b b(X X )T角陣,故 的各個(gè)分量間一般是相關(guān)的brr性質(zhì)證E(e) = O, D(e) = s (I - H )2rr由于,故e = (I - H)YE(e) = (I - H)E(Y) = (I - H)Xb = OrD(e) = (I - H )D(Y )(I - H ) = s (I - H )T2這一性質(zhì)表明殘差向量的各個(gè)分量間一般也是相關(guān)的r性質(zhì)證Cov(e,b ) = OrCov(e, b ) = Cov(I - H )Y,(X X ) X Y)T-1T= (I - H )D(Y )X (X X ) = OT-1re這一性
14、質(zhì)表明殘差 與 的最小二乘估計(jì) 是不相關(guān)的,又由于殘差bbre平方和 SSE 是 的函數(shù),故它與 也不相關(guān)在正態(tài)假定下不相關(guān)與b獨(dú)立等價(jià),因而 SSE 與 獨(dú)立b性質(zhì)E(SSE) = (n - p -1)s2證明略性質(zhì)(auss-Markov 定理)在假定,E(Y) = XbD(Y) = s I2n時(shí), 的任一線性函數(shù) 的最小方差線性無偏估計(jì)(BLUE)為 ,bbTbT其中 是任一p+1a維向量, 是 的最小二乘估計(jì)b b性質(zhì) 6當(dāng),有以下幾點(diǎn)結(jié)論:b sY N (X , I)2n (1) ;bb sN( , (X X ) )2T-1(2)SSE 與 獨(dú)立;b(3)SSE c 2(n - p
15、-1)性質(zhì)、性質(zhì) 6 的證明參見周紀(jì)薌回歸分析或方開泰實(shí)用回歸分析回歸方程和回歸系數(shù)的顯著性檢驗(yàn)給定因變量 與 , , 的 組觀測值,利用前述方法確定線yxxxnp12性回歸方程是否有意義,還有待于顯著性檢驗(yàn)下面分別介紹回歸方程顯著性的 檢驗(yàn)和回歸系數(shù)的 檢驗(yàn),同時(shí)介紹衡量回歸擬合程度Ft的擬合優(yōu)度檢驗(yàn).1 回歸方程顯著性的檢驗(yàn) 對多元線性回歸方程作顯著性檢驗(yàn)就是要看自變量 , ,x xx12p從整體上對隨機(jī)變量 是否有明顯的影響,即檢驗(yàn)假設(shè):yb bb= = = =H:0012pb 0,1 i pH :1i如果 被接受,則表明 與 , , 之間不存在線性關(guān)系.為了說Hyx xx012p明如何
16、進(jìn)行檢驗(yàn),我們首先建立方差分析表. 離差平方和的分解我們知道:觀測值 , , 之所以有差異,是由于下述兩y yy12n個(gè)原因引起的,一是 與 , , 之間確有線性關(guān)系時(shí),由于yx xx12p, , 取值的不同而引起值的變化;另一方面是x x1xy (i =1,2,., n)i2p除去 與 , , 的線性關(guān)系以外的因素,如 , , 對yx xxx xx12p12p1,則數(shù)據(jù)的總離差平方和(Total Sum of Squares)ny y =yini=1(1.7)nSST = (y - y)2ii=1反映了數(shù)據(jù)的波動(dòng)性的大小殘差平方和(1.)n=(y - y )2SSTiii=1反映了除去 與
17、, , 之間的線性關(guān)系以外的因素引起的數(shù)yx xx12p據(jù) , , 的波動(dòng)若 ,則每個(gè)觀測值可由線性關(guān)系精y yySSE = 012n確擬合,SSE 越大,觀測值和線性擬合值間的偏差也越大回歸平方和(Regression Sum of Squres)(1.9)n=(y - y)2SSRii=1 1由于可證明,故 SSR 反映了線性擬合值與它們的平均n =y yini=1值的宗偏差,即由變量 , , 的變化引起 , , 的x xxy yy12p12n波動(dòng)若,則每一個(gè)擬合值均相當(dāng),即 不隨 , ,ySSR = 0xx xi12p而變化,這意味著.利用代數(shù)運(yùn)算和正規(guī)方程b bb= 0= = =12p
18、組(4.8)可以證明:nnn- y =(y - y)2+- (y y )2(y)2iiiii=1i=1i=1即SST = SSR + SSE(1.10)因此,SSR 越大,說明由線性回歸關(guān)系所描述的 , , 的y yy12n波動(dòng)性的比例就越大即 與 , , 的線性關(guān)系就越顯著 .yx xx12p線性模型的擬合效果越好.另外,通過矩陣運(yùn)算可以證明 SST、SSE、SSR,有如下形式的矩陣表示:11SST = Y Y - Y JY = Y (I - J)YTTTnnn(1.11)b= e e = Y Y - X Y = Y (I - H)YSSETTTTn11= b-Y JY Y (H-=SSRX
19、 YTJ)YTTnn其中 表示一個(gè)元素全為 1 的 階方陣.Jn2. 自由度的分解對應(yīng)于 SST 的分解,其自由度也有相應(yīng)的分解,這里的自由度是指平方中獨(dú)立變化項(xiàng)的數(shù)目.在 SST 中,由于有一個(gè)關(guān)系式,即彼此并不是獨(dú)立變化的,故n(y - y) = 0y - y(i =1,2, ,n)iii=1 其自由度為 .n -1可以證明,SSE 的自由度為,SSR 的自由度為 ,因n - p -1p此對應(yīng)于 的分解,也有自由度的分解關(guān)系SST(1.12)n -1= (n - p -1)+ p3. 方差分析表方差來平方和自由度均方差1pTpnMSRSSESSTMSET1Y (I - J)Y-1nTn.2
20、 線性回歸方程的顯著性檢驗(yàn)與一元線性回歸時(shí)一樣,可以用 統(tǒng)計(jì)量檢驗(yàn)回歸方程的顯著性,F(xiàn)也可以用 值法(P-Value)作檢驗(yàn). 統(tǒng)計(jì)量是PFMSRSSR / p(1.13)F =MSE SSE / (n - p -1)當(dāng) 為真時(shí),給定顯著性水平 ,查 分布表得臨a- p -1)FHF F( p,n0界值,計(jì)算 的觀測值 ,若,則接受F ( p,n - p -1)FF F ( p,n - p -1)0Faa0,即在顯著性水平 之下,認(rèn)為 與 , , 的線性關(guān)系就不顯Hayxxxp012著;當(dāng)值法作顯著性檢驗(yàn)性檢驗(yàn)十分方便:這里的F F ( p,n - p -1) P0a值是,表示第一、第二自由度
21、分別為 ,的 變量n p 1 F- -PP(F F )p0 取值大于 的概率,利用計(jì)算機(jī)很容易計(jì)算出這個(gè)概率,很多統(tǒng)計(jì)軟F0件(如 SPSS)都給出了檢驗(yàn)的 值,這省去了查分布表的麻煩,對P于給定的顯著性水平 ,若,則拒絕 ,反之,接受 .t (n p 1)- -tian - p -12拒絕 ;反之,則接受 在SPSS 軟件的輸出結(jié)果中,可以直接從HH00值看出檢驗(yàn)結(jié)果p對于估計(jì)量 ,我們還想了解它與 的接近程度如何這就需要bbiib b確 定的 置 信 區(qū) 間 由 于-, 因 而 有bii- -t(n p 1)isciib - bi,即得 的置信度為 的置信區(qū)間為 t (n - p -1)=
22、1-ab-a1piasci2iibisbis( - tc , + tiic )iiaa22.4 因變量的預(yù)測建立回歸方程,除了解自變量與因變量之間的相依關(guān)系之外,還有一項(xiàng)重要的應(yīng)用就是預(yù)測,即對給定的自變量的值,預(yù)測對應(yīng)的因變量的值對于線性回歸模型y =b + b + + b + exx01 1pp當(dāng)我們要預(yù)測的點(diǎn)預(yù)測值所對應(yīng)的因變量值 時(shí),我們可以用他x = (1, x , x , x )y001 020 p0,但我們一般更感興趣的是 的區(qū)間b bby = + x + + xy001 01p0 p0估計(jì)可以證明:y - y0t(n - p -1)0s+1 x (X X ) x-100因而對給
23、定的 ,有a y - yt n p ( - -1)=1-aps +00a1 x (X X ) x2-100由此可得 的置信度為 的預(yù)測區(qū)間為y1-a0ss(y - t (n - p -1) 1+ x (X X ) x , y + t (n - p -1) 1+ x (X X ) x )-1-1a0a0000022.5 擬合優(yōu)度擬合優(yōu)度用于檢驗(yàn)?zāi)P蛯颖居^測值的擬合程度在前面的方差分析中,我們已經(jīng)指出,在總離差平方和中,若回歸平方和占的比例越大,則說明擬合效果越好于是,就用回歸平方和與總離差平方和的比例作為評判一個(gè)模型擬合優(yōu)度的標(biāo)準(zhǔn),稱為樣本決定系數(shù)(coefficient of determi
24、nation)(或稱為復(fù)相關(guān)系數(shù)),記為 R2SSRSSTSSESSTR2 =1-由 的意義看來,其他越接近于 1,意味著模型的擬合優(yōu)度越高。R2于是,如果在模型中增加一個(gè)自變量, 的值也會(huì)隨之增加,這會(huì)給R2人一種錯(cuò)覺:要想模型擬合效果好,就得盡可能多引進(jìn)自變量為了防止這種傾向,人們考慮到,增加自變量必定使得自由度減少,于是又定義了引入自由度的修正的復(fù)相關(guān)系數(shù),記為 2RaMSEMSTR2 =1-aSSE(n - p -1)=1-SST(n -1)在實(shí)際應(yīng)用中, 達(dá)到多大才算通過了擬合優(yōu)度檢驗(yàn),沒有絕R2對的標(biāo)準(zhǔn),要看具體情況而定。模型擬合優(yōu)度并不是判斷模型質(zhì)量的唯一標(biāo)準(zhǔn),有時(shí)為了追求模型的
25、實(shí)際意義,可以在一定程度上放寬對擬合優(yōu)度的要求 .6 數(shù)據(jù)的中心化和標(biāo)準(zhǔn)化在多元線性回歸分析中,所涉及道德諸多自變量往往量綱不同,甚至差別很大,這給利用回歸方程分析實(shí)際問題帶來一定困難為此,我們可以將數(shù)據(jù)進(jìn)行中心化和標(biāo)準(zhǔn)化處理,然后再建立回歸方程數(shù)據(jù)的中心化處理方法是:記 、 為各個(gè)自變量與因變量的樣xyj本中心值,令x = x - x , i =1,2, ,n; j =1,2, , pijijj = -y y y, i 1,2, ,n=ii如果利用沒有中心化處理之前的數(shù)據(jù)建立的多元回歸方程為 = b b(4.19)b+ bxy+ x + x +01 12 2pp那么經(jīng)過中心化處理的數(shù)據(jù)建立的
26、回歸方程即為 (4.20) = b b b + b y+ x + x +x01 12 2pp這一點(diǎn)不難理解:數(shù)據(jù)的中心化處理相當(dāng)于將坐標(biāo)原點(diǎn)移至樣本中心,而坐標(biāo)系的平移不改變直線的斜率,只改變了截距數(shù)據(jù)的標(biāo)準(zhǔn)化處理公式是:x - xijx*=, i =1,2, ,n; j =1,2, , pjij(x x )2-ijji=1y - yiy*=, i =1,2, ,ni(y y)-2ii=1標(biāo)準(zhǔn)化的數(shù)據(jù)建立的回歸方程記為(4.21) = bb+ bxy*x*+ x +*1122pp容易驗(yàn)證方程(4.21)與(4.19)的系數(shù)之間存在關(guān)系式 n(x - x )2bijjb , j =1,2, ,
27、p=*i=1jjn(y - y)2ii=1殘差分析在前面討論線性回歸問題時(shí),我們做了回歸模型的線性假定、誤差的正態(tài)性和同方差性假定等,而實(shí)際問題中所得的數(shù)據(jù)是否符合這些假定,還有待于檢驗(yàn).在本節(jié)和下一節(jié)中,將要解決兩個(gè)問題:首先是如何驗(yàn)證這些假定是否得到滿足?如果符合假定的話,那么參數(shù)的估計(jì)和有關(guān)的假設(shè)檢驗(yàn)都是可靠的;如果假定不滿足,我們要解決另一個(gè)重要的問題,即我們需采取怎樣的措施呢?在對模型的假定進(jìn)行診斷時(shí),殘差分析(又稱回歸診斷)起著十分重要的作用.殘差向量,這里,前面已經(jīng)介紹Te= y - y =(I H )y-H X (X X ) X=T-1n過殘差的基本性質(zhì),如等,由于E(e) 0
28、, ( ) (= Var e = I - HCov y =( ,e) O)s ,2n實(shí)際問題中,真正的觀測誤差e我們并不知道,= y - E(y ) (i =1,2, ,n)iii但如果模型正確,則可將 近似看作為 ,此時(shí)殘差 應(yīng)該能夠大致eeeiii反映誤差 的特性.因而我們可以利用殘差的特點(diǎn)來考察模型的可靠ei性.通過對殘差進(jìn)行分析,可以在一定程度上回答下列問題:(1)回歸函數(shù)線性假定的可行性;(2)誤差項(xiàng)的等方差假設(shè)的合理性;(3)誤差項(xiàng)獨(dú)立性假設(shè)的合理性;(4)誤差項(xiàng)是否符合正態(tài)分布;(5)觀測值中是否存在異常值; (6)是否在模型中遺漏了某些重要的自變量.yxi2nZRE= e ii
29、hiHiiiiii陳希孺等人曾指出,SRE ,SRE , ,SRE 近似獨(dú)立,且近似服從12n12n1p(y ,e )ii項(xiàng),或者考慮是否可先將 y 和某些 (a)、(b),通常有三種可以采用的處圖 4.3 誤差方差隨自變量變化圖 nb bb bQ( , ) = (y - - x )201i01 ii=1加權(quán)最小二乘法是在平方和中加入一個(gè)適當(dāng)?shù)臋?quán)數(shù) ,以消除方差非wi齊性的影響,即(4.22)nb bwb b(y - - x )2Q ( , ) =w01ii01 ii=1這里觀測值的權(quán)數(shù)應(yīng)該是誤差項(xiàng)方差的倒數(shù),即 .在實(shí)際ws2=1ii問題的研究中, 通常是未知的,但是,當(dāng)誤差項(xiàng)方差隨自變量水
30、s2i平以系統(tǒng)的形式變化時(shí),我們可以利用這種關(guān)系.例如,若 ,s= kx22ii其中 為比例系數(shù),由于這個(gè)系數(shù)在參數(shù)估計(jì)中可以消除,所以我們k取權(quán)數(shù)為 .如果某個(gè)實(shí)際問題的誤差方差與 的冪函數(shù) 成w=1 x2xmxii比例,其中, 為待定參數(shù),此時(shí)可取權(quán)數(shù)為 ,利用 SPSSwm=1 xmii軟件包可以確定冪函數(shù)的最優(yōu)取值.在打開一個(gè)數(shù)據(jù)文件之后,依次點(diǎn)選 StatisticsRegressionWeight Estimation 進(jìn)入估計(jì)權(quán)函數(shù)對話框,默認(rèn)的冪指數(shù) 的取值為自變量mm = -2,-1.5,-1,-0.5,0,0.5,1,1.5,2與因變量 選入各自的變量框,再把 選入Weig
31、ht 變量框,可得最xyx優(yōu)冪指數(shù)值.多元線性回歸模型的加權(quán)離差平方和為(4.23)i=nwb b b(y - - x - - x )Q =2wii01 i1p ipi=1多元線性回歸模型中有多個(gè)自變量,通常取權(quán)函數(shù) 為某個(gè)自變w量的冪函數(shù),即取 ,在這 p mx (i =1,2, , p)iw = xmx , x , , x1i2p.3 誤差獨(dú)立性的檢驗(yàn) 在回歸模型中,我們總是堅(jiān)定誤差項(xiàng)是不相關(guān)的,即如果某個(gè)回歸模型的誤差項(xiàng)不滿足這一點(diǎn),則我們e eCov( , ) = 0,i jij稱其存在自相關(guān)(或序列相關(guān))現(xiàn)象當(dāng)一個(gè)回歸模型的隨機(jī)誤差項(xiàng)存在自相關(guān)時(shí),會(huì)產(chǎn)生以下不良的后果:(1)參數(shù)的估
32、計(jì)量不再具有最小方差線性無偏性;(2)變量的顯著性檢驗(yàn)失去意義;(3)模型的預(yù)測失效.自相關(guān)性的檢驗(yàn)方法有多種,目前比較常用的有 Durbin-Watson,但它僅適用于一階自相關(guān)的情況,即隨機(jī)擾動(dòng)項(xiàng)具有如下形式(4.24)e rei=+ ui-1i由于實(shí)際問題中的 未知,所以我們首先采用普通最小二乘法估ei計(jì)模型,然后用殘差 近似代替 來判斷是否存在自相關(guān)性.為了檢eeii驗(yàn)自相關(guān)性,構(gòu)造的假設(shè)是H : r = 00而構(gòu)造的統(tǒng)計(jì)量為:n(e - e )2ii-1(4.25)DW =i=2ne2ii=2計(jì)算出該統(tǒng)計(jì)量的數(shù)值之后,根據(jù)樣本容量 和自變量數(shù)目 查npDW 分布表,得到臨界值 和 ,
33、然后按照下列準(zhǔn)則考察計(jì)算得到的 DWddlu值,可以判斷模型的自相關(guān)狀態(tài).準(zhǔn)則:若若,則存在正自相關(guān)不能確定0 DW dl,d DW dlu 若若, 不能確定4 - d DW 4 - dul, 存在負(fù)自相關(guān)4 - d DW 4l從上面的準(zhǔn)則可以看出,當(dāng)值為 2 左右時(shí),模型一般不存在一階自相關(guān).而且,經(jīng)驗(yàn)表明,如果模型不存在一階自相關(guān),一般也不存在高階序列相關(guān).如果模型存在自相關(guān),首先要查明原因.如果是回歸模型選用不當(dāng),則應(yīng)該用適當(dāng)?shù)幕貧w模型;如果是缺少重要的自變量,則應(yīng)加入相應(yīng)的自變量.如果以上方法都不能消除自相關(guān)性,則需要采用新的方法估計(jì)模型,如廣義最小二乘法、差分法、迭代法、移動(dòng)平均法等
34、等,在此只介紹一階差分法和迭代法.對其他方法有興趣的讀者可以參閱時(shí)間序列方面的教材或著作.差分法用增量數(shù)據(jù)代替原來的樣本數(shù)據(jù),將原來的回歸模型變?yōu)椴罘中问降哪P?一階差分法適用于原模型存在較高程度的一階自相關(guān)的情況.令Dy = y - y ,Dx = x- x ,k =1,2, , p;i =1,2, ,n -1k ,iii+1ik ,ik ,i+1建立 關(guān)于 的線性回歸方程DymDy = Dx + Dx + + Dx +Dxk(4.26)bbb1122pp如果這個(gè)差分模型通過了各種檢驗(yàn)和診斷,就可以利用它代替原模型做預(yù)測.關(guān)于 的一元線性回歸方程,計(jì)算出殘差e ,e ,之間的b by = +
35、 xyx,e0112n一階自相關(guān)系數(shù) ,再令rrry = y - y , x = x - x , i =1,2, ,n -1*ii+1iii+1i 建立 關(guān)于 的一元線性回歸方程,通過殘差b b*yxy*=+x*01檢驗(yàn)這個(gè)回歸方程是否存在自相關(guān),如果 之間不相關(guān),e ,e , ,e*y*12n-1則迭代結(jié)束;如果存在自相關(guān),則需計(jì)算殘差之間的自e ,e , ,e*12n-1相關(guān)系數(shù),重復(fù)上述步驟,直到因變量序列不存在自相關(guān)性為止.4 誤差項(xiàng)正態(tài)性的檢驗(yàn)檢驗(yàn)總體分布是否為正態(tài)分布的方法比較多,下面介紹其中的兩種.在前面我們指出過,當(dāng)時(shí),標(biāo)準(zhǔn)化殘差b sy N(X , I )2n可近似看成來自
36、的隨機(jī)子樣,從而可通過檢驗(yàn)N(0,1)SRE ,SRE , ,SRE21n所屬總體是否為 來檢驗(yàn)?zāi)P驼`差的正態(tài)性.N(0,1)SRE ,SRE , ,SRE21n方法一:頻率檢驗(yàn)法.可以粗略的統(tǒng)計(jì)一下中正負(fù)個(gè)數(shù)是否大致各占SRE ,SRE , ,SRE21n一半,介于(-1,1)間的比例是否約為 68%,介于(-2,2)間的比例是否為 95%,介于(-3,3) 間的比例是否約為 99%,不過這種方法比較粗糙.方法二:正態(tài)概率圖檢驗(yàn)法.首先,將殘差從小到大排列為;其次,對于(n)e ,e , ,e1e ,e , ,e(1) (2)2n每個(gè)i =1,2, ,n,計(jì)算,其中為標(biāo)準(zhǔn)正態(tài)分布=s Z(i
37、 - 0.5 n)Z(i - 0.5 n)q(i)的下側(cè) 分位數(shù),即滿足i - 0.5 ni 0.5-x2i 0.5-1e-= Z ()n22pn-然后,以 為縱坐標(biāo), 為橫坐標(biāo)做散點(diǎn)圖,即為殘差的正態(tài)概率圖.qe從直觀上看,如果點(diǎn)和q之間的相=1,2, ,n)(i =1,2, ,n)(q ,e ) (i(i) (i)e(i)(i) 關(guān)系數(shù)來判斷它們之間的線性關(guān)系的強(qiáng)弱,若相關(guān)系數(shù)接近于 1,則說明點(diǎn) 近似落在一條直線上.(q ,e )(i)(i).5 多重共線性的處理多元線性回歸模型中,假定自變量之間線性無關(guān),因而資料矩陣個(gè)常數(shù) ,使得X pc , ,c1pc x + c x + + c x
38、 = 0, i =1,2, ,n1 i12i2p ip則自變量之間存在著完全的多重共線x , x , , x12p(Multicollinearity).在實(shí)際問題中完全共線性的情況并不多見,常見的是近似的多重共線關(guān)系,即存在不全為零的 個(gè)常數(shù) ,pc , ,c1p使得c x + c x + + c x 0, i =1,2, ,n1 i12i2p ip如果回歸模型存在完的多重共線性,則資ey = + x + + x +b bb01 1pp料陣 的秩,故 不存在,無法得到回歸參數(shù)的估(X X )T-1Xrank(X ) p +1計(jì)量.對于近似多重共線性的情況,此時(shí)雖有rank(X ) = p +
39、1,但,從而矩陣 的主對角線上的元素很大,使得估計(jì)的參X TX 0(X X )T-1數(shù)向量 的協(xié)方差陣 的對角線上元素也很大,導(dǎo)致普-1) = (X X )D(b sb2T通最小二乘參數(shù)估計(jì)量并非有效.如何檢驗(yàn)是否存在多重共線性?已經(jīng)由不少的可行的方法,目前常用的有方差擴(kuò)大因子法和特征根判別法.在此只介紹方差擴(kuò)大因子(VIF)法.對自變量做中心標(biāo)準(zhǔn)化處理,則為自變量的相關(guān)矩陣,X X = (r )*T*ij 記C = (c ) = (X X )*T* -1ij稱其對角線元素為自變量 的方差VIF = c =1 (1- R ) ( j =1,2, , p)x2jijjj擴(kuò)大因子(Variance
40、 Inflation Factor),其中 是把 作為因變Rx2jj量與其余 個(gè)自變量做線性回歸所得到的復(fù)相關(guān)系數(shù). ,都有p -1VIFxjj1.也可以用p遠(yuǎn)遠(yuǎn)大于 1 時(shí),就表示存在嚴(yán)重的多VIF 1p VIF =VIFjpjj=1重共線性問題.當(dāng)發(fā)現(xiàn)自變量存在嚴(yán)重的多重共線性時(shí),可以通過剔除一些不重要的自變量、增大樣本容量、對回歸系數(shù)做有偏估計(jì)(如采用嶺回法、主成分法、偏最小二乘法等)等方法來克服多重共線性.自變量的選擇與逐步回歸在前面討論了線性回歸模型的估計(jì)方法和檢驗(yàn)問題,但在應(yīng)用回歸分析處理實(shí)際問題時(shí),首先要解決的問題是自變量的選擇和回歸函數(shù)的選擇.由于本書中,我們只介紹線性回歸模型
41、,在此,我們主要考慮自變量的選擇問題.在多元線性回歸分析中,一方面,為了獲得較全面的信息,我們總是希望模型中包含盡可能多的自變量;另一方面,考慮到自變量越多,收集數(shù)據(jù)存在困難以及成本大大增加,加之,有些自變量與其他自變量作用重疊.如果把它們都引入模型,不只是增加了計(jì)算量,還對模型參數(shù)的估計(jì)和模型的預(yù)測帶來不利影響.這樣一來,我們自然希望模型中選人最合適的自變量,建立起既合理又簡單實(shí)用的回歸模 型.下面我們介紹一些自變量選擇的準(zhǔn)則,以及相應(yīng)的“最優(yōu)”自變量子集的計(jì)算方法.1 自變量選擇對估計(jì)和預(yù)測的影響設(shè)我們研究某一實(shí)際問題時(shí),根據(jù)經(jīng)驗(yàn)或?qū)I(yè)知識(shí),確定一切可能對因變量 有影響的因素共有 個(gè),記為
42、,它們與 一起ypx1, x , , x2yp構(gòu)成線性回歸模型(4.33)b bbey = + x + + x +01 1pp我們稱這個(gè) 與所有自變量的回歸模型為全模型.y如果我們從所有可供選擇的 個(gè)變量中挑出 個(gè),記為,x, x , , x2pq1q建立如下的回歸模型(4.34)b bbey = + x + + x +01 1qq我們稱其為選模型.利用回歸分析解決問題時(shí),自變量的選擇問題可以看成是應(yīng)該采用全模型還是選模型去描述實(shí)際問題.下面我們不加證明的給出幾個(gè)結(jié)論,說明自變量的選擇對參數(shù)估計(jì)和對因變量預(yù)測的影響.(1) 模型正確而誤用選模型的情況.結(jié)論 1:當(dāng)全模型正確時(shí),選模型的回歸系數(shù)的最小二乘 估計(jì)是全模型相應(yīng)參數(shù)的有偏估計(jì),選模型的預(yù)測也有偏的.結(jié)論 2:當(dāng)全模型正確時(shí),選模型的參數(shù)估計(jì)和預(yù)測殘差以及均方誤差都有較小的方差.(2)選模型正確而誤用全模型的情況.如果選模型正確,怎其參 數(shù)估計(jì)和預(yù)測值都是無偏的,此時(shí)全模型的參數(shù)估計(jì)和預(yù)測都是有偏估計(jì).而且,全模型的預(yù)測值的方差和均方差都要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專用施工合同范本模板
- 會(huì)展投資合同范本
- 農(nóng)村土方 工程合同范本
- 化工產(chǎn)品營銷合同范本
- Starter Section 3 Saying Hello 教學(xué)設(shè)計(jì)2024-2025學(xué)年北師大版(2024)七年級(jí)英語上冊
- 企業(yè)質(zhì)押合同范本
- 供車協(xié)議合同范本
- 2024年寧波市消防救援支隊(duì)社會(huì)招錄政府專職消防員考試真題
- 2024年南平市建陽區(qū)社會(huì)統(tǒng)一教師招聘考試真題
- 勞動(dòng)派遣居間合同范本
- 垃圾清運(yùn)管理制度12篇
- 【跨境電商零售進(jìn)口稅收征管對策及建議16000字(論文)】
- DZ∕T 0332-2020 碳酸鹽巖油氣藏縫洞體雕刻法資源儲(chǔ)量估算規(guī)范(正式版)
- 社會(huì)學(xué)(高校社會(huì)學(xué)入門課程)全套教學(xué)課件
- 2024年湖南有色金屬職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案
- 心血管介入護(hù)士進(jìn)修匯報(bào)
- 創(chuàng)傷中心匯報(bào)
- 施工組織設(shè)計(jì)內(nèi)部審批表
- 與醫(yī)保有關(guān)的信息系統(tǒng)相關(guān)材料-模板
- 《企業(yè)的可持續(xù)發(fā)展》課件
- 零至三歲兒童及老年人中醫(yī)保健指導(dǎo)專業(yè)知識(shí)講座培訓(xùn)課件
評論
0/150
提交評論