《回歸分析》 課件 第5章 多重共線性_第1頁
《回歸分析》 課件 第5章 多重共線性_第2頁
《回歸分析》 課件 第5章 多重共線性_第3頁
《回歸分析》 課件 第5章 多重共線性_第4頁
《回歸分析》 課件 第5章 多重共線性_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注回歸分析之緒論應用回歸分析李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院1

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注目錄多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院2

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院3

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響多重共線性在回歸分析中,

由變量間強相關性引發(fā)的問題被稱為多重共線性,

該問題用數(shù)學語言也可以表示為,

存在一組不全為零的常數(shù)a0,a1,·

·

·

,ap

,使得a0

+

a1xi

1

+

a2xi

2

+

·

·

·

+

apxip

0, i

=

1,

2,

·

·

·

,

n成立,或者有a0

+

a1xi

1

+

a2xi

2

+

·

·

·

+

apxip

=

0, i

=

1,

2,

·

·

·

,

n李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院4

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響多重共線性例5.1:

美國新客車出售量的相關數(shù)據(jù)下表。試建立新客車出售量(Y,單位:十萬輛)與新車消費價格指數(shù)(X1,未經(jīng)季節(jié)調(diào)整,1967年為100%)、消費者價格指數(shù)(X2,全部項目,1967年為100%)、個人可支配收入(X3,單位:百億美元)、利率(X4)和民間就業(yè)勞動人數(shù)(X5,單位:百萬人)的線性回歸方程,并簡要分析結(jié)果。(數(shù)據(jù)來源于Gujarati(2009))李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院5

/

57年份YX1X2X3X4X51971102.27112.0121.377.684.8979.3671972108.72111.0125.383.964.5582.1531973113.50111.1133.194.987.3885.064197487.75117.5147.7103.848.6186.794197585.39127.6161.2114.286.1685.846197699.94135.7170.5125.265.2288.7521977110.46142.9181.5137.935.5092.0171978111.64153.8195.3155.127.7896.0481979105.59166.0217.7172.9310.2598.824198089.79179.3247.0191.8011.2899.303198185.35190.2272.3212.7613.73100.397198279.80197.6286.6226.1411.2099.526198391.79202.6297.4242.818.69100.8341984103.94208.5307.6267.069.65105.0051985110.39215.2318.5284.117.75107.1501986114.50224.4323.4302.216.31109.597診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響多重共線性表

1:新車銷量數(shù)據(jù)李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院6

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響多重共線性圖

1:各變量矩陣散點圖李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院7

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響多重共線性在此基礎上,利用軟件R建立回歸方程,得到:Y?

=

26.526

+

0.482X1

?

1.012X2

+

0.603X3

?

1.090X4

+

1.288X5.表

2:系數(shù)檢驗a變量名稱系數(shù)的估計量標準誤差t

值P

值截距x1

x2

x326.5260.482-1.0120.60383.6320.7070.5200.3750.3170.681-1.9601.6070.7580.5110.0780.139x4

x5-1.0901.2881.5331.265-0.7121.0190.4930.332n=16R2=0.755R2=0.632F

=

6.161P=0.007李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院8

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響多重共線性模型整體通過了F檢驗,但是五個自變量的系數(shù)卻未通過t檢驗(α

=0.05)。從解釋的角度看,新車消費者價格指數(shù)(X1)系數(shù)為0.482, 意味著當其他三個自變量不變時,

新車消費者價格指數(shù)每 增加1單位,新客車銷售量Y

會平均增加0.482個單位。這似乎 與散點圖顯示的內(nèi)容并不相符,與經(jīng)濟學解釋也存在著矛盾。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院9

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院10

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注來源抽樣方法使用不當可能引起多重共線性。比如,在研究變量X1、X2對Y的影響時,圖2中顯示兩個自變量間存在較強的正相關關系。但是假如由于抽樣方法使用不當,獲取的樣本只是來自總體中滿足公式(1)或者(2)的一個子空間,該圖左上、右下部分對應的樣本有可能未被抽到,

即數(shù)據(jù)缺少了X1較低X2較高(或X1較高X2較低)

的信息,才導致兩者間呈現(xiàn)出這樣的關系。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院11

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注來源a0

+

a1xi

1

+

a2xi

2

+

·

·

·

+

apxip

0,a0

+

a1xi

1

+

a2xi

2

+

·

·

·

+

apxip

=

0,i

=

1,

2,

·

·

·

,

n

(1)i

=

1,

2,

·

·

·

,

n

(2)但是事實上,只有信息完整、樣本分布與總體相一致的情況下,才能得出自變量間的真實關系以及它們對因變量的真實效應。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院12

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注來源?2?1012?2?1120x1x2圖

2:變量間散點圖李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院13

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注來源對模型或者研究總體的約束可能導致多重共線性。比如,

研究人的身高、體重對其血壓的影響時,

一般來講身高越高,

人體重的取值也會越大,

這是變量間自然存在的關系,只要引入這兩項變量,無論使用什么抽樣方法都不能避免多重共線性。特別是在一些帶有滯后變量的時間序列數(shù)據(jù)、或者關系密切的經(jīng)濟類截面數(shù)據(jù)中,這種現(xiàn)象更為普遍。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院14

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對估計的影響多重共線性的存在使得系數(shù)的估計量的方差急劇增大,有效性降低。記λ1

≥λ2

≥·

·

·≥λp

>0

為矩陣X

?X

的特征根,則有當存在多重共線性時,必有某些特征根λi

很接近于0,從而使1

變得非常大。此時如果繼續(xù)使用最小二乘法估計回歸系λi數(shù),容易造成系數(shù)的估計量的方差之和急劇增大。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院15

/

57

診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對估計的影響李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院16

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對估計的影響李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院17

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對估計的影響由此可得,?1var

)

=σ2(1

?

r

)L12

11?2var

)

=σ2(1

?

r

)L12

22即隨著兩個自變量間的相關性增強,系數(shù)估計量β?1與β?2的方差將逐漸增大。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院18

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對估計的影響多重共線性容易導致系數(shù)的估計量的符號與現(xiàn)實相悖。假定有四個自變量X1、X2、X3、X4,研究者試圖建立因變量Y

與這四個自變量間的線性回歸模型,估計方程為Y?

=

β?1X1

+

β?2X2

+

β?3X3

+

β?4X4.不失一般性,不妨令β?i

>0,i

=1,2,3,4,如果X2、X3兩個自變量間存在完全多重共線性,有等式X2

=?3X3

成立,則在利用最小二乘法對系數(shù)進行估計時,有李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院19

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對估計的影響Y?

=

β?1X1

+

β?2X2

+

β?3X3

+

β?4X4=

β?1X1

+

(β?3

?

3β?2)X3

+

β?4X4=

β?1X1

+

(β?2

?

1/3β?3)X2

+

β?4X4.顯然X2、X3對應系數(shù)估計量的符號可能發(fā)生變化,與實際情況不符。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院20

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對估計的影響多重共線性容易使回歸系數(shù)難以通過t檢驗。對系數(shù)的估計量進行顯著性檢驗時,檢驗統(tǒng)計量具有如下形式:多重共線性的存在導致檢驗統(tǒng)計量中分母較大,容易使得系數(shù)難以通過顯著性檢驗。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院21

/

57

診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對預測的影響李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院22

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對預測的影響分別在R2取值(0.1,0.9)時按照ρ

=0.2、ρ

=0.5生成數(shù)據(jù),樣本量為n=1000,其中70%的樣本作為訓練集,30%

的樣本作為測試集。在訓練集上建立回歸模型,測試集上按照公式(3)計算平均預測誤差。重復該過程200次。(3)李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院23

/

57

診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對預測的影響比較在變量間相關性較弱(ρ

=0.2)與相關性較強(ρ

= 0.5)的情況下,如果保持變量間相關性不變,預測效果的 差異;當變量間相關性較強(ρ

=0.5)時,令測試集數(shù)據(jù)n0

=300, 改變X1、X2相關性為0.7,比較其預測結(jié)果與相關性保持不 變時有何不同。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院24

/

57診斷方法處理方法

嶺估計小結(jié)與評注多重共線性

來源與影響對預測的影響01020300.250.750.50SNRPEmethodrho=0.2rho=0.5rho=0.7圖

3:預測誤差圖李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院25

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響對預測的影響與X1、X2相關性較弱(ρ

=0.2)時相比,即使X1、X2相關 性為ρ

=0.5的情況下,只要保證預測時變量間相關性與建模 時期一致,就可以利用該模型進行預測,但是預測效果會受 到一定程度的影響;同樣的,如果在預測時,變量X1、X2相關性由建模時期的0.5轉(zhuǎn) 變?yōu)?.7(或者相關類型發(fā)生變化),預測誤差也會因此有所 上升;隨著擬合優(yōu)度R2的提升,這種預測效果的差異會逐漸減小。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院26

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院27

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注診斷方法以下幾類方法可以用來對多重共線性進行診斷:方差膨脹因子診斷法特征根診斷法其他診斷法李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院28

/

57處理方法嶺估計小結(jié)與評注多重共線性

來源與影響

診斷方法診斷方法:方差膨脹因子診斷法該診斷方法的主要思想是,

當回歸系數(shù)估計量的方差“膨脹”的幅度較大時,模型中就可能存在多重共線性。所謂方差膨脹因子,是指用來度量由于自變量間高度相關導致的β?方差增加幅度的一種工具。假定現(xiàn)對自變量X

進行標準化得到X?,則R

=X??X?表示自變量的協(xié)方差矩陣(也是相關陣)。令L

=

(lij

)

=

(X??X?)?1那么矩陣L主對角線上的元素就被稱為各個自變量的方差膨脹因子(Variance

Inflation

Factor,VIF)。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院29

/

57處理方法嶺估計小結(jié)與評注多重共線性

來源與影響

診斷方法診斷方法:方差膨脹因子診斷法根據(jù)上述公式,有Var

(β?i

)

=

lii

σ2,i

=

1,

2,

·

·

·,

p第i

個自變量Xi

的方差膨脹因子為iil

=11

?

R2i2i式中R

表示自變量iX

對其余p

?1

個自變量的復決定系數(shù),反映了第i

個自變量對其余p

?1個自變量的線性相關程度。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院30

/

57處理方法嶺估計小結(jié)與評注多重共線性

來源與影響

診斷方法診斷方法:方差膨脹因子診斷法經(jīng)驗表明,當某個自變量的VIF超過5

或10時,可認為與其他自變量間存在多重共線性。此外,當p個自變量的VIF

遠遠大于1時,也可以說明存在嚴重的多重共線性。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院31

/

57

處理方法嶺估計小結(jié)與評注多重共線性

來源與影響

診斷方法診斷方法:方差膨脹因子診斷法以例5.1為例,分別計算四個自變量的方差膨脹因子VIF,見表表

3:方差膨脹因子變量名稱

X1

X2

X3

X4

X5VIF

250.000

434.783

232.558

4.941

40.984四個自變量方差膨脹因子的平均值VIF

≈192.653。由此可以作出判斷,模型中確實存在多重共線性。該模型的多重共線性可能是由X1,X2,X3,X5這幾個自變量引起的。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院32

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響診斷方法:特征根診斷法李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院33

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響診斷方法:特征根診斷法但是在什么情況下可以認為特征值近似為0

呢?為此,首先引入條件數(shù)的概念。令λm表示矩陣X?X的最大特征值,則

一般地,ki

小于100時,認為X沒有明顯的多重共線性;當ki

在100到時,認為X

具有較強的多重共線性;而當ki

超過1000時,說明存在嚴重的多重共線性。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院34

/

57

診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響診斷方法:特征根診斷法但是需要注意的是,與方差膨脹因子不同,僅僅根據(jù)條件數(shù) 無法確定在哪幾個變量間存在多重共線性。令c

=(c1,c2,·

·

·

,cp

)表示矩陣X?X

特征值,對應的特征向

量可以用λ

=(λ1,λ2,·

·

·

,λp

)表示,在多重共線性下有X?Xc

= λc

≈0(或者=0),進而可以得出Xc≈0(或者=0),故根 據(jù)特征向量研究者可以判斷多重共線性發(fā)生在哪些變量。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院35

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響診斷方法:特征根診斷法??i將p維特征向量c,i

=1,2,·

·

·

,p按照特征值大小排列成一個p

×p的矩陣,矩陣中每一個元素平方后除以其對應的特征值,然后按照列進行歸一化可得每個特征值下,各個自變量對應的方差比例。若有幾個自變量的方差比例值在某一行同時較大,則可以認為這幾個自變量存在多重共線性。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院36

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響診斷方法:其他自變量的協(xié)方差矩陣中包含較大元素時需要警惕多重共線性 問題。但是協(xié)方差矩陣只是用來初步探測兩兩自變量間的相 關程度,元素取值較小并不意味著多重共線性一定不存在。 詳見書中舉例。回歸系數(shù)估計量的正負號以及意義解釋。當方程中某些系數(shù) 估計量的符號、意義解釋與實際相違背時,警惕多重共線性 問題。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院37

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響診斷方法:其他系數(shù)估計量的標準誤差與t檢驗。當系數(shù)估計量的標準誤差 較大時,或者一些在實際意義中重要的自變量在方程中卻并 不顯著,可能存在多重共線性?;貧w系數(shù)的估計量對數(shù)據(jù)的敏感程度。比如,當在方程中增 加、剔除自變量或者改變觀測值時,回歸系數(shù)估計量的取值 發(fā)生較大變化,也需要注意回歸方程的多重共線性問題。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院38

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院39

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注處理方法以下三類方法有助于處理回歸分析中的多重共線性問題:重新設定模型。由于模型引入的自變量間本身可能就具有相關性,對模型進行重設可以降低其帶來的影響。重新定義回歸變量。比如在例5.1

中,可以設法找到一個關于X1,

X2,

X3這三個變量的函數(shù),

如X

=X1

×X2

×X3、X

=(X1

+X2)/X3

等,使得既能保留變量原有的大部分信息,又能降低多重共線性的影響。進行變量剔除??梢愿鶕?jù)方差膨脹因子VIF大小依次對變量進行剔除,直到消除多重共線性為止。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院40

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注處理方法增加樣本數(shù)量。當多重共線性是由抽樣方法使用不當引起時 ,通過增大樣本數(shù)量更加容易避免只在總體的某個子空間中 抽樣,從而獲取到與總體分布相一致的樣本,消除多重共線 性。使用回歸系數(shù)的有偏估計。這類方法是以犧牲估計量的無偏 性為代價來達到提高其有效性的目的,常見的方法有主成分 法、偏最小二乘法、嶺回歸法等。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院41

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院42

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注嶺估計嶺估計最早由霍爾(A.E.Hoerl)在1962年提出,是一種對普通最小二乘法的改進。其解決多重共線性問題的思路是,

既然多重共線性帶來的 估計問題源于|X?X|

=0

(或者|X?X|≈0),

那么給矩 陣X?X添加一項正常數(shù)矩陣,kI(k>0),使得|X?X

+kI| 接近0的程度與|X?X|相比更小。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院43

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注嶺估計此時,得到的估計β?(k)

=

(X?X

+

kI)?1X?Y就是回歸系數(shù)β的嶺回歸估計,這顯然是個有偏估計。并且參數(shù)k決定了其偏差的大小,研究者稱其為嶺參數(shù)。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院44

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注嶺估計李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院45

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注嶺估計為什么使用有偏估計?令Y

、X1、X2、X3、X4分別表示因變量和四個自變量,X1從 均值為1,方差為2的正態(tài)分布中生成,X2

從(?0.5,0.5)的均 勻分布中生成,其余兩個變量X3

=0.9X1

+0.3X2

+e1、X4

=

0.5X2

+e2因變量Y

=X1

+X2

+X3

+X4

+e3,其中e1、e2是兩個與X1同分布的隨機干擾項,e3服從均值為2,方差為4的正態(tài)分布。然后分別利用最小二乘法、嶺回歸法對生成的模擬數(shù)據(jù)擬合 回歸模型。重復上述過程1000次,觀察自變量X2對應系數(shù)的 最小二乘估計、嶺回歸估計的近似抽樣分布。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院46

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注嶺估計為什么使用有偏估計?圖

4:嶺回歸估計與最小二乘估計抽樣分布圖李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院47

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注性質(zhì)李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院48

/

57多重共線性來源與影響診斷方法處理方法嶺估計小結(jié)與評注性質(zhì)性質(zhì)3:當k>0時,隨著k增加,β?(k)的偏差會增加,但是

方差會隨之減小。并且當β?β有界時,存在非零的k值使得嶺 回歸估計量β?(k)的均方誤差MSE小于最小二乘估計的MSE。李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院49

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響嶺參數(shù)的選擇原則上希望k可以使估計量的均方誤差達到最小,但這種最 優(yōu)的k值往往依賴于未知參數(shù)β和σ2,

并且這種依賴關系具 體有怎樣的函數(shù)形式還尚未清楚。常用的有以下三種方法:嶺跡法方差膨脹因子法殘差平方和法李揚/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學統(tǒng)計學院50

/

57診斷方法處理方法嶺估計小結(jié)與評注多重共線性

來源與影響嶺參數(shù)的選擇:嶺跡法嶺回歸估計隨著嶺參數(shù)的變化而變化的曲線,稱為嶺跡。當模型中存在著嚴重的多重共線性時,回歸系數(shù)的不穩(wěn)定性 將通過嶺跡明顯表現(xiàn)出來。研究者的目的就是找到一個合理 的較小k值,在該取值處,嶺回歸估計量β?(k)是穩(wěn)定的。同 時,也可以結(jié)合系數(shù)估計量的符號、解釋、殘差平方和的變 化等信息進行選擇。通過審

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論