復回歸分析估計問題_第1頁
復回歸分析估計問題_第2頁
復回歸分析估計問題_第3頁
復回歸分析估計問題_第4頁
復回歸分析估計問題_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、復回歸分析估計問題第1頁,共49頁,2022年,5月20日,13點23分,星期二復回歸分析,也就是多元線性回歸分析,討論應變量或回歸子Y,依賴于兩個或更多個解釋變量或回歸元的模型。本章主要討論有兩個解釋變量的情形。7.1 三變量模型:符號與假定 三變量的PRF為: () 其中 是截距項, 表示所有未包含到模型中來的變量對Y的平均影響。 和 被稱為偏回歸系數(shù)(partial regression coefficients)。 貴州財經大學經濟研究所 白萬平 教授第2頁,共49頁,2022年,5月20日,13點23分,星期二 在經典線性回歸模型(CLRM)的框架下,我們對()作如下假定: ui的均

2、值為零,即: 對每一個i ()無序列相關: ()同方差性: ()ui與每一個X變量之間都有零協(xié)方差: ()貴州財經大學經濟研究所 白萬平 教授第3頁,共49頁,2022年,5月20日,13點23分,星期二 其實,只要X2和X3是非隨機的,并且有()成立,則這個假定就自動得到滿足。 無設定偏誤,或: 模型被正確地設定 () X諸變量間無精確的共線性,或 X2與X3之間無精確的線性關系 () (No exact linear relationship between X2 and X3) 另外,還假定:多元回歸模型對參數(shù)而言是線性的;回歸元的值在重復抽樣中是被固定的,以及回歸元的取值有足夠的變異性

3、(variability)。貴州財經大學經濟研究所 白萬平 教授第4頁,共49頁,2022年,5月20日,13點23分,星期二 ()式要求X2和X3之間無精確的線性關系,用專業(yè)術語講就是無共線性(no collinearity)或無多重共線性(no multicollinearity)。簡單地說,就是沒有一個解釋變量可以寫成其余解釋變量的線性組合。 從數(shù)學上看,無共線性的含義是,不存在一組不全為零的 和 ,使得: () 如果這一關系式存在,則說明X2和X3是共線的(collinear)或線性相關的(linearly dependent)。 如果()式僅當 時成立,則說X2和X3是線性獨立的。

4、貴州財經大學經濟研究所 白萬平 教授第5頁,共49頁,2022年,5月20日,13點23分,星期二 如果 ,這會不會破壞無共線性的假定呢?不會,因為這里的兩個變量的關系是非線性的,并不違背回歸元之間沒有精確線性關系的要求。 在極端情形下,如果X2和X3存在精確的線性關系,比如 ,則獨立的解釋變量實際上只有一個,而不是兩個了:貴州財經大學經濟研究所 白萬平 教授第6頁,共49頁,2022年,5月20日,13點23分,星期二7.2 對復回歸方程的解釋 把()的兩邊對Y求條件期望得: () 可見,復回歸分析是以多個解釋變量的固定值為條件的回歸分析。我們所獲得的,是各個自變量X值固定時,Y的平均值或Y

5、的平均響應(mean response)。7.3 偏回歸系數(shù)的含義 偏回歸系數(shù)的含義: 度量著在保持X3不變的情況下,X2每變化1個單位時,Y的均值 的變化。換一句話說, 給出X2的單位變化對Y均值的“直接”或“凈”影響(凈在不染有X3的影響)。 則給出了X3的單位變化對Y均值的“直接”或“凈”影響,凈在不沾有X2的影響。貴州財經大學經濟研究所 白萬平 教授第7頁,共49頁,2022年,5月20日,13點23分,星期二 如何分離出X2對Y的“真實”或凈影響呢?(雙殘差方法) 第一步:Y僅對X3回歸: () 其中 是樣本殘差項,b13的下標1指變量Y只對X3 回歸。 第二步:X2對X3回歸: (

6、) 其中 也是殘差項。于是: ()貴州財經大學經濟研究所 白萬平 教授第8頁,共49頁,2022年,5月20日,13點23分,星期二 () 其中 和 是分別從回歸()和()得來的估計值。 殘差 和 的含義: 表示去掉 X3 對 Y 的(線性)影響后的Yi值; 表示除去 X3 對 X2 的(線性)影響后的 X2i 的值。 這樣一來, 和 就代表是“凈化了的(purified)” Yi 和X2i 。即除去了X3 的影響(沾染)的 Yi 和 X2i 。 具體例子見P194關于兒童死亡率與人均收入、婦女識字率的關系。貴州財經大學經濟研究所 白萬平 教授第9頁,共49頁,2022年,5月20日,13點2

7、3分,星期二 第三步:做 對 的回歸: () 其中, 是樣本殘差項。 那么, 就是 X2 對 Y 的“真實”或凈影響的一個估計,或者說, 是Y 對 X2 的真實斜率 的一個估計。7.4 偏回歸系數(shù)的OLS估計一、OLS估計量 ()式的PRF相對應的樣本回歸函數(shù)(SRF)為: ()其中 是殘差項,是總體隨機擾動項ui的相應部分。貴州財經大學經濟研究所 白萬平 教授第10頁,共49頁,2022年,5月20日,13點23分,星期二 OLS方法的實質就是,通過殘差平方和(RSS) 的一階條件求未知參數(shù)的估計值: ()貴州財經大學經濟研究所 白萬平 教授第11頁,共49頁,2022年,5月20日,13點

8、23分,星期二 于是,得正規(guī)方程: 從而, 的OLS估計量為: () ()貴州財經大學經濟研究所 白萬平 教授第12頁,共49頁,2022年,5月20日,13點23分,星期二 () 如果2和3無關,會怎樣?OLS估計量的特點: 可以從方程()和()中的一個通過x2和x3的對調而得到另一個,所以,它們本質上是對稱的。 兩個方程的分母完全相同。 三變量情形是雙變量情形的自然而然的推廣。 二、OLS估計量的方差和標準誤 我們計算出標準誤主要有兩個作用:建立置信區(qū)間檢驗統(tǒng)計假設。公式如下,證明見第九章。 貴州財經大學經濟研究所 白萬平 教授第13頁,共49頁,2022年,5月20日,13點23分,星期

9、二 () () () 或者: ()其中,r23是X2和X3的樣本相關系數(shù):貴州財經大學經濟研究所 白萬平 教授第14頁,共49頁,2022年,5月20日,13點23分,星期二 () () 或者: () () () 在上述公式中 是總體干擾項ui的方差, 的無偏估計量是:貴州財經大學經濟研究所 白萬平 教授第15頁,共49頁,2022年,5月20日,13點23分,星期二 () 注:自由度為(n-3),這是因為在估計 之前,必須先估計 和 。從而損失了3個自由度。四變量中自由度為(n-4)等。而 () 課堂作業(yè):證明上式貴州財經大學經濟研究所 白萬平 教授第16頁,共49頁,2022年,5月20日

10、,13點23分,星期二貴州財經大學經濟研究所 白萬平 教授第17頁,共49頁,2022年,5月20日,13點23分,星期二 三、OLS估計量的性質1三變量回歸面通過均值 , 和 。因為,()告訴我們:這個性質可以推廣到一般情形,如在K變量回歸中有:2估計的 (即 )的均值等于真實 的均值。由和 得:貴州財經大學經濟研究所 白萬平 教授第18頁,共49頁,2022年,5月20日,13點23分,星期二 ()將上式兩邊對所有樣本值求和,再除以樣本容量n得: ( )從而有:(由于() ()其中貴州財經大學經濟研究所 白萬平 教授第19頁,共49頁,2022年,5月20日,13點23分,星期二因此,SR

11、F: 的離差形式表達為: ()3 在求解OLS估計量的過程中,曾經有: 這就是4殘差 與 和 都不相關,就是貴州財經大學經濟研究所 白萬平 教授第20頁,共49頁,2022年,5月20日,13點23分,星期二 這也是求解OLS估計量的副產品: 即是所求。5殘差 與 不相關,即貴州財經大學經濟研究所 白萬平 教授第21頁,共49頁,2022年,5月20日,13點23分,星期二 () 貴州財經大學經濟研究所 白萬平 教授第22頁,共49頁,2022年,5月20日,13點23分,星期二6由 ()和 ( )可見, 越大(越接近1), 和 越大。 ,它們 將很難估計 和 的真值。7由()和(), 與 成

12、反比,即X2的樣本值變化越大, 的方差越小,對 的估計的精度越高。對 的方差也如此。8偏回歸系數(shù)的OLS估計量是BLUE(最佳線性無偏估計)。證明略(用矩陣證明更簡單,見第9章)。貴州財經大學經濟研究所 白萬平 教授第23頁,共49頁,2022年,5月20日,13點23分,星期二ML估計在總體擾動項服從 的假定下,ML與OLS所得的回歸系數(shù)估計相同。但是, 的估計有區(qū)別,前者所得估計是無偏的,后者是漸近無偏的。ML估計的方差貴州財經大學經濟研究所 白萬平 教授第24頁,共49頁,2022年,5月20日,13點23分,星期二7.5 復判定系數(shù) 與復相關系數(shù)R (The Multiple coef

13、ficient of Determination and the Multiple coefficient of Correlation R) 復判定系數(shù):在三變量(或者更多變量)的模型中,衡量Y的變異由變量 、 等聯(lián)合解釋的比重,記作 。在概念上, 近似于 。 的推導: () 是從所擬合的回歸線(SRF)估計的 值,它是真實 的一個估計量。()可以變換為: ()貴州財經大學經濟研究所 白萬平 教授第25頁,共49頁,2022年,5月20日,13點23分,星期二 上式兩邊平方,再對i求和,得: () ()表明: 總平方和解釋平方和殘差平方和 即:TSSESSRSS ()表明: 貴州財經大學經濟

14、研究所 白萬平 教授第26頁,共49頁,2022年,5月20日,13點23分,星期二 代入()有: 整理得: () 于是,由定義有: () , 越接近于1,我們說模型“擬合”優(yōu)度越高。貴州財經大學經濟研究所 白萬平 教授第27頁,共49頁,2022年,5月20日,13點23分,星期二 復相關系數(shù)R:度量Y和所有解釋變量在一起的關聯(lián)程度。在一元回歸中,r可正可負;但是,在多元回歸中,R永遠取正值。實際上,R沒有太大的意義,用途不大。7.6 例子 說明標準化后的優(yōu)勢7.7 從復回歸的角度看簡單回歸:設定偏誤初探()模型試圖用人均收入 和婦女識字率 去解釋兒童死亡率的變化: () 如果采用雙變量模型

15、去擬合的話,則為: () 貴州財經大學經濟研究所 白萬平 教授第28頁,共49頁,2022年,5月20日,13點23分,星期二 既然()是“正確”的模型,那么,()就必然是一個有偏誤的模型,其偏誤在于丟失了一個不應該省略的變量。 如果()的 是真實 的一個無偏估計,即 ,那么,在一元回歸中的簡單回歸系數(shù) 將不會是 的無偏估計量。事實上,有以下關系式:() 其中, 是 對 回歸中的斜率系數(shù),即 或者,有:貴州財經大學經濟研究所 白萬平 教授第29頁,共49頁,2022年,5月20日,13點23分,星期二證明:離差形式的三變量總體回歸模型可以表述為: (1)先乘以 ,再乘以 ,得到通常的正規(guī)方程:

16、 (2) (3)用 除(2)的兩邊得: (4)貴州財經大學經濟研究所 白萬平 教授第30頁,共49頁,2022年,5月20日,13點23分,星期二 而 ( 是固定量) 方程(4)便可以寫為: (5) (5)式兩邊取期望值,得: (6) ( 與 , 不相關, , 是常數(shù)) 其實,不僅 有偏誤, 的方差也很可能有偏誤。 貴州財經大學經濟研究所 白萬平 教授第31頁,共49頁,2022年,5月20日,13點23分,星期二這是因為: (7) 把(5)式和(6)式代入(7)式并化簡得: (8)貴州財經大學經濟研究所 白萬平 教授第32頁,共49頁,2022年,5月20日,13點23分,星期二 由()式我

17、們知道: () 可見,(8)式和()不同, 是一個有偏估計量。 。 結論:簡單回歸系數(shù) 不僅度量了 對Y的“直接”或“凈”影響,而且也度量了通過它 對所忽略變量 的影響而影響Y的間接或誘發(fā)(induced)影響。 簡單地說, 度量著 對Y的總影響(直接影響加間接影響),而 僅度量了 對Y的直接或凈影響。貴州財經大學經濟研究所 白萬平 教授第33頁,共49頁,2022年,5月20日,13點23分,星期二結論:如果需要一個三變量回歸,就不要嘗試簡單或雙變量回歸?;蛘哒f得更一般,如果你認定某個特殊的回歸模型是“正確”模型,就不要從中略去一個或多 個變量,而把它加以修改。如果你忽視這條原則,你就會得到

18、有偏誤的參數(shù)估計。不僅如此,你還可能低估了真實的方差 并因而低估了回歸系數(shù)的估計標準誤。貴州財經大學經濟研究所 白萬平 教授第34頁,共49頁,2022年,5月20日,13點23分,星期二7.8 與調整(校正) ( and the Adjusted ) 我們知道: 其中, ,與模型中X變量的個數(shù)無關。但是, 則與模型中的回歸元個數(shù)相關。隨著X變量個數(shù)的增加, 很可能減小,至少不會增大,從而 將會增大。因此,在比較具有相同的因變量但有著不同個數(shù)的X變量的兩個回歸模型時,選擇有最高 值的模型就必須小心。這時,較高的 可能來自解釋變量個數(shù)的增加,并不能說明模型更好。 貴州財經大學經濟研究所 白萬平

19、教授第35頁,共49頁,2022年,5月20日,13點23分,星期二 考慮有關的自由度數(shù),采用方差而不用變異,對 的表達式進行修正,可以導出校正 (校正判定系數(shù),校正可決系數(shù)): () 其中,k代表模型中包括截距項在內的參數(shù)個數(shù)。顯然,在三變量回歸(二元回歸)中k3。 為校正 (adjusted )?!靶U敝傅氖?,利用相應的自由度對()式中的平方和進行校正。 有 個自由度,而 有 個自由度。貴州財經大學經濟研究所 白萬平 教授第36頁,共49頁,2022年,5月20日,13點23分,星期二貴州財經大學經濟研究所 白萬平 教授第37頁,共49頁,2022年,5月20日,13點23分,星期二 需

20、要指出的是,回歸分析的目的并不是要追求較高的 之值,而是要取得總體回歸系數(shù)的可信任的估計量,以便作出統(tǒng)計推斷。因此,研究人員應當更多地從理論上探討解釋變量與因變量之間的關系,而不能單憑最高的 之值來選擇模型。換言之,某個解釋變量是否應列入模型,在很大程度上取決于事前的理論分析。 PK PK此外,還有AIC ,APC等評價模型的標準貴州財經大學經濟研究所 白萬平 教授第38頁,共49頁,2022年,5月20日,13點23分,星期二貴州財經大學經濟研究所 白萬平 教授第39頁,共49頁,2022年,5月20日,13點23分,星期二貴州財經大學經濟研究所 白萬平 教授第40頁,共49頁,2022年,

21、5月20日,13點23分,星期二貴州財經大學經濟研究所 白萬平 教授第41頁,共49頁,2022年,5月20日,13點23分,星期二7.11 偏相關系數(shù)一、簡單與偏相關系數(shù)的釋義 對于三變量回歸模型,有三個簡單相關系數(shù): Y與 之間的相關系數(shù): Y與 之間的相關系數(shù):貴州財經大學經濟研究所 白萬平 教授第42頁,共49頁,2022年,5月20日,13點23分,星期二 與 之間的相關系數(shù): 這些相關系數(shù)可稱毛(gross)或簡單(simple)相關系數(shù)(correlation coefficients),或稱零階相關系數(shù)(correlation coefficients of zero order)。 在多變量的情況下,簡單相關系數(shù)不可能表明兩個變量之間的線性關系的真實程度。例如,上述 并不能反映Y和 之間的真實相關程度,因為Y還受到 的影響。 我們還需要一個不依賴于 對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論