版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一講 普通最小二乘法的代數(shù)一、 問題假定y與x具有近似的線性關系:,其中是隨機誤差項。我們對這兩個參數(shù)的值一無所知。我們的任務是利用樣本數(shù)據(jù)去猜測的取值?,F(xiàn)在,我們手中就有一個樣本容量為N的樣本,其觀測值是:。問題是,如何利用該樣本來猜測的取值?為了回答上述問題,我們可以首先畫出這些觀察值的散點圖(橫軸x,縱軸y)。既然y與x具有近似的線性關系,那么我們就在圖中擬合一條直線:。該直線是對y與x的真實關系的近似,而分別是對的猜測(估計)。問題是,如何確定與,以使我們的猜測看起來是合理的呢?筆記:1、為什么要假定y與x的關系是呢?一種合理的解釋是,某一經(jīng)濟學理論認為x與y具有線性的因果關系。該理
2、論在討論x與y的關系時認為影響y的其他因素是不重要的,這些因素對y的影響即為模型中的誤差項。1 / 272、被稱為總體回歸模型。由該模型有:。既然代表其他不重要因素對y的影響,因此標準假定是:。故進而有:,這被稱為總體回歸方程(函數(shù)),而相應地被稱為樣本回歸方程。由樣本回歸方程確定的與是有差異的,被稱為殘差。進而有:,這被稱為樣本回歸模型。 二、 兩種思考方法法一:與是N維空間的兩點,與的選擇應該是這兩點的距離最短。這可以歸結為求解一個數(shù)學問題:由于是殘差的定義,因此上述獲得與的方法即是與的值應該使殘差平方和最小。法二:給定,看起來與越近越好(最近距離是0)。然而,當你選擇擬合直線使得與是相當
3、近的時候,與的距離也許變遠了,因此存在一個權衡。一種簡單的權衡方式是,給定,擬合直線的選擇應該使與、與、.、與的距離的平均值是最小的。距離是一個絕對值,數(shù)學處理較為麻煩,因此,我們把第二種思考方法轉化求解數(shù)學問題:由于N為常數(shù),因此法一與法二對于求解與的值是無差異的。三、 求解定義,利用一階條件,有:由(1)也有:在這里、筆記:這表明:1、樣本回歸函數(shù)過點,即穿過數(shù)據(jù)集的中心位置;2、(你能證明嗎?),這意味著,盡管的取值不能保證,但的取值能夠保證的平均值與的平均值相等;3、雖然不能保證每一個殘差都為0,但我們可以保證殘差的平均值為0。從直覺上看,作為對的一個良好的猜測,它們應該滿足這樣的性質
4、。筆記:對于簡單線性回歸模型:,在OLS法下,由正規(guī)方程(1)可知,殘差之和為零【注意:只有擬合直線帶有截距時才存在正規(guī)方程(1)】。由正規(guī)方程(2),并結合正規(guī)方程(1)有:無論用何種估計方法,我們都希望殘差所包含的信息價值很小,如果殘差還含有大量的信息價值,那么該估計方法是需要改進的!對模型利用OLS,我們能保證(1):殘差均值為零;(2)殘差與解釋變量x不相關【一個變量與另一個變量相關是一個重要的信息】。方程(1)與(2)被稱為正規(guī)方程,把帶入(2),有:上述獲得的方法就是普通最小二乘法(OLS)。練習:(1)驗證:提示:定義的離差為,則離差之和必為零。利用這個簡單的代數(shù)性質,不難得到:
5、筆記:定義y與x的樣本協(xié)方差、x的樣本方差分別為:,則。上述定義的樣本協(xié)方差及其樣本方差分別是對總體協(xié)方差及其總體方差的有偏估計。相應的無偏估計是:基于前述對與的定義,可以驗證:其中a,b是常數(shù)。值得指出的是,在本講義中,在沒有引起混淆的情況下,我們有時也用、來表示總體方差與協(xié)方差,不過上述公式同樣成立。(2)假定,用OLS法擬合一個過原點的直線:,求證在OLS法下有:并驗證: 筆記:1、現(xiàn)在只有一個正規(guī)方程,該正規(guī)方程同樣表明。然而,由于模型無截距,因此在OLS法下我們不能保證恒成立。所以,盡管成立,但現(xiàn)在該式并不意味著成立。2、無截距回歸公式的一個應用:定義、,則。按照OLS無截距回歸公式
6、,有:(3)假定,用OLS法擬合一水平直線,即:,求證。筆記:證明上式有兩種思路,一種思路是求解一個最優(yōu)化問題,我們所獲得的一個正規(guī)方程同樣是;另外一種思路是,模型是模型的特例,利用的結論,注意到此時,因此同樣有。(4)對模型進OLS估計,證明殘差與樣本不相關,即。四、 擬合程度的判斷(一)方差分解及其R2的定義可以證明,。證明:方差表示一個變量波動的信息。方差分解亦是信息分解。建立樣本回歸函數(shù)時,從直覺上看,我們當然希望關于的波動信息能夠最大程度地體現(xiàn)關于的波動信息。因此,我們定義判定系數(shù),顯然,。如果R2大,則的波動信息就越能夠被的波動信息所體現(xiàn)。R2也被稱為擬合優(yōu)度。當時,而殘差均值又為
7、零,因此著各殘差必都為零,故樣本回歸直線與樣本數(shù)據(jù)完全擬合。(二)總平方和、解釋平方和與殘差平方和定義:其中TSS、ESS、RSS分別被稱為總平方和、解釋平方和與殘差平方和。根據(jù)方差分解,必有:TSS=ESS+RSS。因此,(三)關于R2的基本結論1、R2也是與的樣本相關系數(shù)r的平方。證明:2、對于簡單線性回歸模型:, R2是y與x的樣本相關系數(shù)的平方。證明:練習:(1)對于模型:,證明在OLS法下R2=0。(2)對于模型:,證明在OLS法 警告!軟件包通常是利用公式,其中來計算R2。應該注意到,我們在得到結論時利用了的性質,而該性質只有在擬合直線帶有截距時才成立,因此,如果擬合直線無截距,則
8、上述結論并不一定成立,因此,此時我們不能保證R2為一非負值??偠灾?,在利用R2時,我們的模型一定要帶有截距。當然,還有一個大前提,即我們所采用的估計方法是OLS。五、 自由度與調整的R2如果在模型中增加解釋變量,那么總的平方和不變,但殘差平方和至少不會增加,一般是減少的。為什么呢?舉一個例子。假如我們用OLS法得到的模型估計結果是:, 此時,OLS法估計等價于求解最小化問題:令最后所獲得的目標函數(shù)值(也就是殘差平方和)為RSS1?,F(xiàn)在考慮對該優(yōu)化問題施加約束:并求解,則得到目標函數(shù)值RSS2。比較上述兩種情況,相對于RSS1, RSS2是局部最小。因此,RSS1小于或等于RSS2。應該注意到
9、,原優(yōu)化問題施加約束后對應于模型估計結果:因此,如果單純依據(jù)R2標準,我們應該增加解釋變量以使模型擬合得更好。增加解釋變量將增加待估計的參數(shù),在樣本容量有限的情況下,這并不一定是明智之舉。這涉及到自由度問題。什么叫自由度?假設變量x可以自由地取N個值,那么x的自由度就是N。然而,如果施加一個約束,為常數(shù),那么x的自由度就減少了,新的自由度就是N-1。考慮在樣本回歸直線下殘差的自由度問題。對殘差有多少約束?根據(jù)正規(guī)方程(1)(2),有:,因此存在兩個約束。故殘差的自由度是N-2。如果當樣本回歸函數(shù)是:,則殘差的自由度為N-3。顯然,待估計的參數(shù)越多,則殘差的自由度越小。自由度過少會帶來什么問題?
10、簡單來說,自由度過少會使估計精度很低。例如,我們從總體中隨機抽取來計算以作總體均值的估計,現(xiàn)在x的自由度是N,顯然N越大則以作為總體均值的估計越精確。 根據(jù)正規(guī)方程,我們是通過殘差來獲得對參數(shù)的估計,因此,殘差自由度過少意味著我們對參數(shù)的估計也是不精確的。筆記:舉一個極端的例子,對簡單線性回歸模型,假定我們只有兩次觀測、。顯然,我們可以保證R2=1,即完全擬合。但我們得到的這個擬合直線很可能與y與x的真實關系相去甚遠,畢竟我們只有兩次觀測。事實上,此時殘差的自由度為0!我們經(jīng)常需要對估計方法進行自由度調整。 例如,當利用公式來估計總體方差時,我們實際上是對變量求樣本均值。然而應該注意到,約束條
11、件恒成立,這意味著變量的自由度是N-1而不是N?,F(xiàn)在對估計方法進行自由度調整,利用作為對總體方差的估計。上述兩種估計具有什么不同的后果呢?可以證明, 是有偏估計而是無偏估計。筆記:什么叫有偏估計?如果我們無限次重復抽取樣本容量為N的樣本,針對每一個樣本都可以依據(jù)公式計算總體方差的一個估計值。然后,對這些方差的估計值計算平均值,如果該平均值不等于總體方差,那么我們就稱是對總體方差的一個有偏估計。抽象一點,即。R2忽視了自由度調整,這由下面的推導可以看出:在這里,與都是對相應總體方差的有偏估計?,F(xiàn)在我們對自由度作調整,重新定義一個指標,即所謂的調整的R2():應該注意到,如果是針對多元線性回歸模型
12、,待估計的斜率參數(shù)有k個,另外還有1個截距(即總的待估計系數(shù)參數(shù)的個數(shù)為k+1個),那么上述公式就是:,且可能為負數(shù)。思考題:如果用增加解釋變量的方法來提高R2,這一定會提高嗎?筆記:假設甲同學的回歸結果是,而乙同學的回歸結果是。甲同學足夠幸運,他獲得的確實比乙同學所獲得的高,但這是否就意味著,依據(jù)已有的樣本,甲同學所選取的模型就一定優(yōu)于乙同學所選取的呢?答案是“不一定!”。對模型的選取不能僅僅依靠這個指標,其他的因素應該被考慮,例如,模型是否符合經(jīng)濟學理論,估計參數(shù)是否有符合預期的符號,這些因素在模型選擇時都十分重要。另外一點也特別要引起重視,即被解釋變量不同的模型(例如一個模型的被解釋變量
13、是,而另一個模型其被解釋變量是)其(或者)是不可比的??偠灾?,初學者要堅決抵制僅僅依靠來進行模型選擇的誘惑!六、 簡單線性回歸模型的拓展:多元線性回歸模型考慮,各系數(shù)的估計按照OLS是求解數(shù)學問題:因此,存在三個正規(guī)方程:第一個方程意味著殘差之和為零,也意味著及其筆記:第一個正規(guī)方程可以被改寫為。第二個方程結合第一個正規(guī)方程意味著殘差與x1樣本不相關;第三個方程結合第一個正規(guī)方程意味著殘差與x2樣本不相關。根據(jù)上述三個方程,可以獲得、,在此不給出具體公式。筆記:對于估計結果,是不是的數(shù)值大于就一定意味著在解釋變量時比更加重要呢?答案是“不一定!”。這是因為,通過對與取不同的測量單位,那么與前
14、面的估計系數(shù)值將發(fā)生改變。有一種辦法可以使估計系數(shù)不隨解釋變量的測度單位變化而變化,其基本原理如下: 在這里表示變量的樣本標準差。定義:則有:。在新模型中,解釋變量是原變量的標準化,它是無量綱的。保持其他因素不變,當時,。注意到,當樣本容量很大時與分別和總體均值及其總體標準差近似,因此。類似,。意味著,因此對的一個翻譯是,保持其他因素不變,當變化一個標準差時,約將變化個標準差。類似可以對進行翻譯。被稱為標準化系數(shù)或者系數(shù)。在實踐中,我們可以先利用標準化變量進行無截距回歸得到標準化系數(shù),然后反推出非標準化變量回歸模型中的各個斜率系數(shù)的估計值。七、 OLS的矩陣代數(shù)(一)矩陣表示總體多元回歸模型是
15、:如果用矩陣來描述,首先定義下列向量與矩陣:模型的矩陣表示: (二)如何得到OLS估計量?求解一個最小化問題:,有:而根據(jù)矩陣微分的知識(見下面的筆記),有:故,則筆記:1、。在這里,是向量,是對稱矩陣,與都是標量。重要規(guī)則是:一個標量關于一個列向量的導數(shù)仍是列向量,并且維數(shù)保持不變。2、矩陣微分規(guī)則與標準的微積分學中的微分規(guī)則具有一定的對應性。假定,則。注意到:,在這里之所以要取轉置,是因為按照規(guī)則:一個標量關于一個列向量的導數(shù)仍是列向量,而是一個行向量。注意,為了保證的存在,OLS法假設X列滿秩,即解釋變量不是完全共線的【應該注意,截距對應的解釋變量取值恒為1】。筆記:1、為什么假設列滿秩?是矩陣。為了保證的存在,那么?;诰仃囍R點:,因此這也要求。是矩陣,因此列滿秩。2、對于模型:,如果恒成立,則X不是列滿秩的,因此不存在,故無法估計。換一種思路考慮
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 旅游景區(qū)民宿租賃權轉讓協(xié)議
- 洗煤廠設備維護租賃協(xié)議
- 保健食品質量承諾書示例
- 機械設備招投標授權委托書模板
- 客戶資料保護法律法規(guī)
- 農(nóng)業(yè)顧問服務合同樣本
- 醫(yī)藥連鎖店銷售員勞動合同
- 家具公司銷售顧問聘用合同范本
- 水力發(fā)電合同招標管理辦法
- 軌道交通項目招投標廉潔合同
- 創(chuàng)作志愿者文化衫
- 國開2024秋《形勢與政策》專題測驗1-5參考答案
- 2024秋期國家開放大學本科《國際私法》一平臺在線形考(形考任務1至5)試題及答案
- 新生兒黃疸課件
- 【PPP項目風險評估與控制探究的國內外文獻綜述3900字】
- 異常情況報告制度-異常情況處理制度
- 《新課標引領、新教材啟航》初中化學講座 課件
- 人教版初中化學九年級上冊第六單元課題1 碳單質的多樣性(第一課時)
- 綜合實踐活動《社會公益活動我參與》-四年級下冊課件
- 2024體育賽事承辦轉委托合同
- 期中測試卷(試題)-2024-2025學年人教版數(shù)學六年級上冊
評論
0/150
提交評論