02一元線性回歸模型_第1頁
02一元線性回歸模型_第2頁
02一元線性回歸模型_第3頁
02一元線性回歸模型_第4頁
02一元線性回歸模型_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

PAGE1PAGE29經(jīng)濟學參考書目:高鴻業(yè),《西方經(jīng)濟學:微觀部分(第三版)--21世紀經(jīng)濟學系列教材》,《西方經(jīng)濟學:宏觀部分(第三版)--21世紀經(jīng)濟學系列教材》,中國人民大學出版社,2005年1月?!段鞣浇?jīng)濟學學習與教學手冊(21世紀經(jīng)濟學系列教材)》,中國人民大學出版社,2005年6月。\o"搜索\"高鴻業(yè)\"的圖書"高鴻業(yè)\o"搜索\"劉鳳良\"的圖書"、劉鳳良,《20世紀西方經(jīng)濟學的發(fā)展》,商務印書館,2004年4月尹伯成,《西方經(jīng)濟學簡明教程(第5版)》,世紀出版集團、上海人民出版社,2006年3月。4、伍柏麟、尹伯成,《經(jīng)濟學基礎教程--復旦博學·經(jīng)濟學系列》,復旦大學出版社,2002年3月。5、\o"搜索\"姚開建\"的圖書"姚開建\o"搜索\"梁小明\"的圖書"、梁小明,《西方經(jīng)濟學名著導讀--經(jīng)濟學經(jīng)典著作讀叢書》,中國經(jīng)濟出版社,2005年1月。6、\o"搜索\"梁小民\"的圖書"梁小民,《西方經(jīng)濟學教程(修訂版)》,中國統(tǒng)計出版社,2005年12月。7、方福前,《當代西方經(jīng)濟學主要流派》,中國人民大學出版社,2004年12月。8、\o"搜索\"王志偉\"的圖書"王志偉,《現(xiàn)代西方經(jīng)濟學主要思潮及流派》,高等教育出版社,2004年9月。數(shù)學參考書目:9、趙萍,《經(jīng)濟數(shù)學基礎及應用線性代數(shù)及概率論》,哈爾濱工業(yè)大學出版社,2006年10月。10、李尚志,《線性代數(shù)》,高等教育出版社,2006年5月。11、盧剛,《線性代數(shù)》,北京大學出版社,2006年。12、陳維新,《線性代數(shù)(第2版)》,北京科學出版社,2006年。13、冉兆平,《微積分》,上海財經(jīng)大學出版社,2006年。14、田長生,《概率統(tǒng)計與微積分》,北京科學出版社,2006年。15、李林曙,《微積分》,中國人民大學出版社,2006年。16、王雪標、王拉娣、聶高輝,《微積分》,高等教育出版社,2006年。17、馬恩林,《概率論與數(shù)理統(tǒng)計》,人民教育出版社,2006年。18、吳贛昌,《概率論與數(shù)理統(tǒng)計》,中國人民大學出版社,2006年。19、葛余博等著,《概率論與數(shù)理統(tǒng)計通用輔導講義》,清華大學出版社,2006年。統(tǒng)計學參考書目:20、邢哲,《統(tǒng)計學原理》,中國金融出版社,2006年8月。21、李榮平,《統(tǒng)計學》,天津大學出版社,2006年。22、吳梅村,《數(shù)理統(tǒng)計學基本原理和方法》,西南財經(jīng)大學出版社,2006年。23、曾五一,《統(tǒng)計學》,中國金融出版社,2006年。24、(美)A.M.穆德、F.A.格雷比爾著、史定華譯,《統(tǒng)計學導論》,北京科學出版社,1978年。補充材料一、隨機變量及其數(shù)字特征隨機變量及其分布的研究是以事件及其概率的研究為基礎展開的。它是統(tǒng)計推斷的理論基礎。隨機變量定義:按一定的概率取不同實數(shù)值的變量稱為隨機變量,用x,y等表示。如(1)天津站每日的客流人數(shù)。(2)某商場日銷售電視機臺數(shù)。(3)某儲蓄所的日存款余額。(4)某地區(qū)居民的日用水量。(5)高速公路上單位時間內(nèi)通過的機動車數(shù)量。(6)流水線上生產(chǎn)的罐裝啤酒的凈重值。若隨機變量x可能取的值為有限個或可列個,則稱x為離散型隨機變量。若隨機變量x可能取的值是整個數(shù)軸,或數(shù)軸上的某個區(qū)間,則稱x為連續(xù)型隨機變量。連續(xù)型隨機變量的概率分布是通過隨機變量在一切可能區(qū)域內(nèi)取值的概率定義的。最常用和最簡便的形式是通過概率密度函數(shù)表示。對于隨機變量x,若存在非負可積函數(shù)f(x),(-<x<),使對任意實數(shù)a,b,(a<b)有P{axb}=則稱x為連續(xù)型隨機變量。f(x)為x的概率密度函數(shù)(簡稱概率密度或密度)。由上式知f(x)在[a,b]區(qū)間上的積分等于隨機變量x在[a,b]區(qū)間取值的概率。研究經(jīng)濟問題為什么還要學習隨機變量?因為許多經(jīng)濟問題都符合隨機變量的要求。通過隨機變量把經(jīng)濟問題上升到統(tǒng)計理論高度進行研究,有利于找到經(jīng)濟變量變化的一般規(guī)律。1.1隨機變量的數(shù)學期望對于離散型隨機變量x,若有概率分布P{x=xi}=pi,(i=1,2,…,)則稱xipi為x的數(shù)學期望,簡稱為期望或均值。記作E(x)。對于連續(xù)型隨機變量x,若密度函數(shù)為f(x),則稱為x的數(shù)學期望。記作E(x)。期望屬于位置特征。用來描述隨機變量取值的集中位置。體現(xiàn)了隨機變量取值的平均大小。期望就是隨機變量取一切可能值的加權平均。其中的權數(shù)就是概率值。數(shù)學期望的性質(zhì)如下:(1)常量的期望就是這個常量本身。E(k)=k(2)常量與隨機變量和的期望等于這個隨機變量的期望與這個常量的和。E(x+k)=E(x)+k(3)常量與隨機變量乘積的期望等于這個常量與隨機變量期望的乘積。E(kx)=kE(x)(4)隨機變量的線性函數(shù)的期望等于這個隨機變量期望的同一線性函數(shù)。E(kx+c)=kE(x)+c(5)兩個隨機變量和(或差)的期望等于這兩個隨機變量期望的和(或差)。E(xy)=E(x)E(y)(6)兩個相互獨立隨機變量乘積的期望等于這兩個隨機變量期望的乘積。E(xy)=E(x)E(y)例:5個學生的英語考試分數(shù)是80,70,85,90,82。則平均考試分數(shù)E(x)==81.41.2隨機變量的方差、標準差隨機變量x對其均值的離差平方的數(shù)學期望,E[x-E(x)]2稱作隨機變量x的方差。記作Var(x)。則稱作x的標準差。方差和標準差用來描述隨機變量的離散特征。它們反映了隨機變量取值離散程度的大小。對于離散型隨機變量x,方差的定義是Var(x)=xi-E(x))2pi其中pi表示x取xi值時的概率。對于連續(xù)型隨機變量x,方差的定義是Var(x)=x-E(x)]2f(x)dx其中f(x)是x的概率密度函數(shù)。注意:(1)Var(x)的量綱是x的量綱的平方。(2)的量綱與x的量綱相同。隨機變量方差的性質(zhì):(1)常量的方差為零。Var(k)=0(2)隨機變量與常量之和的方差等于這個隨機變量的方差。Var(x+k)=Var(x)其中x為隨機變量,k為常量。(3)常量與隨機變量乘積的方差等于這個常量的平方與隨機變量方差的乘積。Var(kx)=k2Var(x)其中k為常量。證明:由方差定義Var(kx)=E[kx-E(kx)]2=E[kx-kE(x)]2=k2E[x-E(x)]2=k2Var(x)(4)隨機變量的方差等于這個隨機變量平方的期望減其期望的平方。Var(x)=E(x2)–[E(x)]2證明:由方差定義Var(x)=E[x-E(x)]2=E[x2–2xE(x)+[E(x)]2]=E(x2)–2E(x)E(x)+(E(x))2=E(x2)–(E(x))2(5)兩個相互獨立隨機變量之和(或差)的方差等于這兩個隨機變量方差的和。Var(xy)=Var(x)+Var(y)下面證明隨機變量之差情形。證明:由方差定義Var(x-y)=E[(x-y)–E(x-y)]2=E[x-y–E(x)-E(y)]2=E[(x–E(x))-(y-E(y))]2=E[(x–E(x))2+(y-E(y))2–2(x–E(x))(y-E(y))]=Var(x)+Var(y)–2E[(x–E(x))(y-E(y))]其中E(x–E(x))(y-E(y))是隨機變量x與y的協(xié)方差。因為x與y相互獨立,所以E[(x–E(x))(y-E(y))]=0(見下面第3小節(jié),隨機變量的協(xié)方差)。上式的結(jié)果是Var(x-y)=Var(x)+Var(y)注意:兩個相互獨立隨機變量差的方差不等于這兩個隨機變量方差的差。(6)由性質(zhì)(5)有如下結(jié)論:若兩個隨機變量是相互非獨立的,其和與差的方差公式是,Var(x+y)=Var(x)+Var(y)+2Cov(x,y)Var(x-y)=Var(x)+Var(y)-2Cov(x,y)其中Cov(x,y)表示x與y的協(xié)方差(協(xié)方差概念見下)。1.3隨機變量的協(xié)方差協(xié)方差定義:隨機變量x,y分別對其均值的離差乘積的數(shù)學期望E[(x-E(x))(y-E(y))]稱作隨機變量x,y的協(xié)方差,記作Cov(x,y)。其中E(x),E(y)分別表示x,y的期望。協(xié)方差用來描述兩個隨機變量關系的緊密程度。對于離散型隨機變量x,y,協(xié)方差定義為Cov(x,y)=xi-E(x))(yj-E(y))p(xi,yj)其中p(xi,yj)=P(x=xi,y=yj)表示x=xi,y=yj條件下的概率。上式是協(xié)偏差[xi-E(x)][yj-E(y)]的加權平均。對于連續(xù)型隨機變量x,y,協(xié)方差定義為Cov(x,y)=x-E(x))(y-E(y))p(x,y)dxdy其中p(x,y)是x,y的概率密度函數(shù)。當x,y相互獨立時,Cov(x,y)=0。協(xié)方差的大小與x,y的量綱有關。一般來說,改變x,y的量綱,則x,y協(xié)方差的值也要改變。因此協(xié)方差所提供的主要信息是正值、負值還是零。注意:雖然兩個變量相互獨立,意味著協(xié)方差為零,但反過來不一定成立,即協(xié)方差為零,該兩個變量未必獨立(但肯定不存在線性相關)。二、正態(tài)分布2.1正態(tài)分布與標準正態(tài)分布正態(tài)分布定義:若連續(xù)型隨機變量x的概率密度函數(shù)為f(x)=exp(-)其中,為常量,>0,則稱x服從正態(tài)分布。記作xN(,2)。,分別是x的數(shù)學期望和標準差??梢宰C明E(x)=xf(x)dx=xexp(-)dx=Var(x)=(x-)2f(x)dx=(x-)2exp(-)dx=2=三種不同參數(shù)的正態(tài)分布曲線見圖1。概率密度函數(shù)f(x)呈鐘形。最大值點在x=處。曲線以x=對稱。在x=處密度函數(shù)曲線有拐點。當x時,f(x)以x軸為漸近線。當較大時,f(x)曲線較平緩;當較小時,f(x)曲線較陡峭。已知和的值,就可以完全確定正態(tài)分布密度函數(shù)。對某產(chǎn)品的物理量測量常服從于正態(tài)分布。標準正態(tài)分布定義:對于正態(tài)分布密度函數(shù)f(x),當=0,=1時,即f0(x)=exp(-)稱連續(xù)型隨機變量x服從標準正態(tài)分布。記作xN(0,1)。對于標準正態(tài)分布E(x)=0,Var(x)==1。標準正態(tài)分布曲線見圖2。標準正態(tài)分布密度函數(shù)f0(x)有如下性質(zhì):(1)f0(x)以縱軸對稱;(2)x=0時,f0(x)的極大值是1/=0.3989;(3)f0(x)在x=1處有兩個拐點;(4)f0(x)=0。N(0,1)N(3,1.5)N(2,1)N(1,0.5)N(0,1)N(3,1.5)N(2,1)N(1,0.5)圖1正態(tài)分布曲線圖2標準正態(tài)分布曲線正態(tài)分布隨機變量的標準化。若xN(,2),a,b為任意實數(shù),且a<b,則P{axb}=exp(-)dx設Z=(x-)/,則(參見微積分中換元積分法)P{axb}=P{Z}=exp(-)dZ顯然Z是一個服從標準正態(tài)分布的隨機變量。當xN(,2)時,則Z=N(0,1)可見對一般正態(tài)分布隨機變量x做變換Z=(x-)/,則可以把x轉(zhuǎn)化為服從標準正態(tài)分布的隨機變量Z。對一般正態(tài)分布隨機變量x計算概率非常不方便。通過標準化變換,利用標準正態(tài)分布累計概率表,則很容易計算出x取任意兩個值之間的概率。正態(tài)分布的線性性質(zhì):①若xiN(i,i2),(i=1,2,…,n),且相互獨立,則N(,)②若xiN(i,i2),(i=1,2,…,n)且相互獨立,ai0為常數(shù),則aixiN(aii,ai2i2)一元線性回歸模型對于經(jīng)濟變量之間的關系,一般分為兩類:一類是變量之間存在確定的函數(shù)關系。例如某企業(yè)t時期的銷售收入yt等于產(chǎn)品價格p與銷售量xt的乘積,用數(shù)學表達式表示為:yt=pxt另一類是變量之間存在著非確定的依賴關系。例如某家庭的收入和支出之間的關系,一般來講,家庭收入越多,支出也相應越多。但是由于各種不確定的因素,使得不同時間內(nèi)同樣的收入會有不同的支出。這就造成了收入和支出之間關系的不確定性,因而不能給出類似于函數(shù)的精確表達式。用ut表示其他影響因素,將這兩個變量間非確定的依賴關系表示成下列形式:yt=f(xt)+ut為了分析和利用變量之間非確定的依賴關系,人們建立了各種統(tǒng)計分析方法,其中回歸分析是最常用的經(jīng)典方法之一。需要注意的是,回歸分析是用來處理一個被解釋變量(因變量)與另一個解釋變量(自變量)之間的關系,但它并不一定表明因果關系的存在;也就是說,它并不意味著自變量是原因,而因變量是結(jié)果。兩個變量是否存在因果關系,必須以(經(jīng)濟)理論為判定基礎,正如前面講到的需求法則,它表明:當所有其他變量保持不變時,一種商品的需求量依賴于(反向)該商品的價格。這里,微觀經(jīng)濟理論暗示了價格是原因,而需求量是結(jié)果??傊?,回歸并不意味著存在因果關系,因果關系的判定或推斷必須依據(jù)經(jīng)過實踐檢驗的相關理論。1.一元線性回歸模型有一元線性回歸模型(統(tǒng)計模型)如下, yt=0+1xt+ut上式表示變量yt和xt之間的真實關系。其中yt稱被解釋變量(因變量),xt稱解釋變量(自變量),ut稱隨機誤差項,0稱常數(shù)項,1稱回歸系數(shù)(通常未知)。上面的模型可以分為兩部分。(1)回歸函數(shù)部分,E(yt)=0+1xt,(2)隨機部分,ut。圖2.1真實的回歸直線這種模型可以賦予各種實際意義,收入與支出的關系;如脈搏與血壓的關系;商品價格與供給量的關系;文件容量與保存時間的關系;林區(qū)木材采伐量與木材剩余物的關系;身高與體重的關系等。以收入與支出的關系為例。假設固定對一個家庭進行觀察,隨著收入水平的不同,與支出呈線性函數(shù)關系。但實際上數(shù)據(jù)來自各個家庭,來自各個不同收入水平,使其他條件不變成為不可能,所以由數(shù)據(jù)得到的散點圖不在一條直線上(不呈函數(shù)關系),而是散在直線周圍,服從統(tǒng)計關系。隨機誤差項ut中可能包括家庭人口數(shù)不同,消費習慣不同,不同地域的消費指數(shù)不同,不同家庭的外來收入不同等因素。所以在經(jīng)濟問題上“控制其他因素不變”是不可能的。回歸模型的隨機誤差項中一般包括如下幾項內(nèi)容,(1)非重要解釋變量的省略(在需求的例子中,如消費者收入、同類競爭產(chǎn)品的價格等因素),(2)人們的隨機行為,(3)數(shù)學模型形式欠妥,(4)歸并誤差(糧食的歸并)(5)測量誤差等(數(shù)據(jù)統(tǒng)計)。所以為了把上述產(chǎn)生的誤差考慮在內(nèi),在計量經(jīng)濟模型中引進了隨機變量ut,認為它對假定存在于x和y之間的精確線性關系進行擾動?;貧w模型存在兩個特點。(1)建立在某些假定條件不變前提下抽象出來的回歸函數(shù)不能百分之百地再現(xiàn)所研究的經(jīng)濟過程。(2)也正是由于這些假定與抽象,才使我們能夠透過復雜的經(jīng)濟現(xiàn)象,深刻認識到該經(jīng)濟過程的本質(zhì)。通常線性回歸函數(shù)E(yt)=0+1xt是觀察不到的,利用樣本得到的只是對E(yt)=0+1xt的估計,即對0和1的估計。在對回歸函數(shù)進行估計之前應該對隨機誤差項ut做出如下假定。(1)ut是一個隨機變量,ut的取值服從概率分布。(2)E(ut)=0。該假定表明:平均地看,隨機擾動項對yt沒有任何影響,也就是說,正值與負值相互抵消。(3)D(ut)=E[ut-E(ut)]2=E(ut)2=2。稱ui具有同方差性。該假定表示,每個y值以相同的方差分布在其均值周圍。這是由于x值是給定的或是非隨機的,因此,y中唯一變化的部分來自于u。因此,在給定x值的條件下,ut與yt同方差。(4)ut為正態(tài)分布(根據(jù)中心極限定理)。以上四個假定可作如下表達。utN(0,)。(5)Cov(ui,uj)=E[(ui-E(ui))(uj-E(uj))]=E(ui,uj)=0,(ij)。含義是不同觀測值所對應的隨機項相互獨立。稱為ui的非自相關性。該假定表明ui是隨機的。(6)xi是非隨機的。(7)Cov(ui,xi)=E[(ui-E(ui))(xi-E(xi))]=E[ui(xi-E(xi)]=E[uixi-uiE(xi)]=E(uixi)=0.ui與xi相互獨立。否則,分不清是誰對yt的貢獻。(8)對于多元線性回歸模型,解釋變量之間不能完全相關或高度相關(非多重共線性)。在假定(1),(2)成立條件下有E(yt)=E(0+1xt+ut)=0+1xt。同學們或許會對這些假定感到迷惑,為什么需要這些假定?它們的現(xiàn)實意義如何呢?如果這些假定不為真,情況又會怎樣呢?如何知道某一回歸模型卻是滿足說有這些假定呢?2.最小二乘估計(OLS)對于所研究的經(jīng)濟問題,通常真實的回歸直線是觀測不到的。收集樣本的目的就是要對這條真實的回歸直線做出估計。怎樣估計這條直線呢?顯然綜合起來看,這條直線處于樣本數(shù)據(jù)的中心位置最合理。怎樣用數(shù)學語言描述“處于樣本數(shù)據(jù)的中心位置”?設估計的直線用=+xt表示。其中稱yt的擬合值(fittedvalue),和分別是0和1的估計量。觀測值到這條直線的縱向距離用表示,稱為殘差(residual),是ut的估計量。yt=+=+xt+稱為估計的模型。假定樣本容量為T。(1)用“殘差和最小”確定直線位置是一個途徑。但很快發(fā)現(xiàn)計算“殘差和”存在相互抵消的問題。(2)用“殘差絕對值和最小”確定直線位置也是一個途徑。但絕對值的計算比較麻煩。(3)最小二乘法的原則是以“殘差平方和最小”確定直線位置。用最小二乘法除了計算比較方便外,得到的估計量還具有優(yōu)良特性。(這種方法對異常值非常敏感)設殘差平方和用Q表示,Q===,則通過Q最小確定這條直線,即確定和的估計值。以和為變量,把Q看作是和的函數(shù),這是一個求極值的問題。求Q對和的偏導數(shù)并令其為零,得正規(guī)方程,=2(-1)=0(1)=2(-xt)=0(2)下面用代數(shù)和矩陣兩種形式推導計算結(jié)果。首先用代數(shù)形式推導。由(1)、(2)式得,=0(3)xt=0(4)(3)式兩側(cè)用T除,并整理得,=(5)把上式代入(4)式并整理,得,xt=0(6)=0(7)=(8)因為=0,=0,分別在(8)式的分子和分母上減和得,=(9)=(10)下面用矩陣形式推導首先正規(guī)方程為=2(-1)=0(1)=2(-xt)=0(2)T+()=+()====這種形式在單位根檢驗的理論分析中非常有用。3.最小二乘估計量和的特性線性特性這里指和分別是yt的線性函數(shù)。===令kt=,代入上式得=ktyt可見是yt的線性函數(shù),是1的線性估計量。同理0也具有線性特性。無偏性:是指估計量的數(shù)學期望值等于總體回歸系數(shù)的真值。利用上式E()=E(ktyt)=E[kt(0+1xt+ut)]=E(0kt+1ktxt+ktut)=E[1kt(xt-)+ktut]=1+E(ktut)=1因為kt===0;并且ktxt=xt同樣可以證得E()=0所以,和的分布中心是1和0,那么方差或者標準差是衡量和是否接近1和0的重要參數(shù)。方差或者標準差越小,估計量和就越可靠。(3)有效性0,1的OLS估計量的方差比其他估計量的方差小。證明不需要掌握。Gauss-Marcov定理:若ut滿足E(ut)=0,D(ut)=2,那么用OLS法得到的估計量就具有最佳線性無偏性。估計量稱最佳線性無偏估計量(TheBestLinearUnbiasedEstimator)。最佳線性無偏估計特性保證估計值最大限度的集中在真值周圍,估計值的置信區(qū)間最小。注意:分清4個式子的關系。(1)真實的統(tǒng)計模型,yt=0+1xt+ut(2)估計的統(tǒng)計模型,yt=+xt+(3)真實的回歸直線,E(yt)=0+1xt(4)估計的回歸直線,=+xt4.OLS回歸直線的性質(zhì)(1)殘差和等于零,=0由正規(guī)方程2(yt--xt)(-1)=0得(yt--xt)=(yt-)=()=0(2)估計的回歸直線=+xt過(,)點。正規(guī)方程(yt--xt)=0兩側(cè)同除樣本容量T,得=+。得證。(3)yt的擬合值的平均數(shù)等于其樣本觀測值的平均數(shù),=。==(+xt)=+=。得證。(4)Cov(,xt)=0只需證明(xt-)=xt-=xt=xt(--xt)=0。上式為正規(guī)方程之一。(5)Cov(,)=0只需證明(-)=-==(+xt)=+xt=05.的估計在參數(shù)估計量和的方差中均含有隨機變量u的方差u2。由于u是一個無法測量的量,因而也不可能計算出u的方差。定義=其中2表示待估參數(shù)的個數(shù)。可以證明E()=。是的無偏估計量。因為是殘差,所以又稱作誤差均方??捎脕砜疾煊^測值對回歸直線的離散程度。和的估計的方差是()=S2()=,()=S2()=6.yt的分布和的分布了解估計量的抽樣分布,是為了判別這些估計量接近其總體真實值的程度如何。根據(jù)假定條件utN(0,),E(yt)=E(0+1xt+ut)=0+1xt+E(ut)=0+1xt。Var(yt)=Var(0+1xt+ut)=Var(0+1xt)+Var(ut)=yt是ut的線性函數(shù),所以ytN(0+1xt,)??梢宰C明E()=1,Var()=,E()=0,Var()=和是yt的線性函數(shù),所以N(1,),N(0,)7.擬合優(yōu)度的測量擬合優(yōu)度是指回歸直線對觀測值的擬合程度。顯然若觀測值離回歸直線近,則擬合程度好;反之則擬合程度差。圖2.3三種離差示意圖可以證明(yt-)2=(-)2+(yt-)2=(-)2+()2。SST(總離差平方和)=SSR(回歸平方和)+SSE(殘差平方和)證明(yt-)2=[(yt-)+(-)]2=(yt-)2+(-)2+2(yt-)(-)其中(yt-)(-)=(yt-)(xt-)=(yt-)xt-(yt-)=xt=0度量擬合優(yōu)度的統(tǒng)計量是可決系數(shù)(也稱作決定系數(shù)或者判定系數(shù))。R2==(回歸平方和)/(總離差平方和)=SSR/SST所以R2的取值范圍是[0,1]。對于一組數(shù)據(jù),SST是不變的,所以SSR↑(↓),SSE↓(↑)。SSR:舊指回歸平方和(regressionsumofsquares),現(xiàn)指殘差平方和(sumofsquaredresiduals)SSE:舊指殘差平方和(errorsumofsquares(sumofsquarederrors)),現(xiàn)指回歸平方和(explainedsumofsquares)8.回歸參數(shù)的顯著性檢驗及其置信區(qū)間最小二乘估計值和是由x和y的樣本觀測值求出的,為了確定它們的可靠程度,有必要進行顯著性檢驗。這種檢驗是確定和是否顯著的不等于零,亦即檢驗樣本是否取自其真實參數(shù)為零的總體。主要是檢驗1是否為零。通常用樣本計算的不等于零,但應檢驗這是否有統(tǒng)計顯著性。原假設H0:1=0;備擇假設H1:10在H0成立條件下,t===-t(T-2)0t(T-2)若t>t(T-2),則接受備擇假設H1:10,表明x對y有顯著影響;若t<t(T-2),則接受原假設H0:1=0,表明x對y沒有顯著影響,一元線性回歸模型無意義。對0是否為零的檢驗。原假設H0:0=0;備擇假設H1:00在H0成立條件下,t===若t>t/2(T-2),則接受備擇假設H1:00,表明模型中應該保留截距項;若t<t/2(T-2),則接受原假設H0:0=0,表明一元線性回歸模型中不應該包括截距項。上面的顯著性檢驗如果得出拒絕j=0(j=0,1)的原假設,只能說明估計值是由取自參數(shù)j不為零的總體中的一組樣本觀測值所確定的。為了確定接近總體j的程度,我們需要構(gòu)造一個以為中心的區(qū)間,總體參數(shù)j在一定的置信度下落在這個區(qū)間之內(nèi)。計量經(jīng)濟學中選擇的置信度(置信水平)一般為95%,說明總體參數(shù)j以95%的概率落在的置信區(qū)間內(nèi),當然還有5%的可能落在置信區(qū)間外。置信區(qū)間越小,說明估計值越接近總體參數(shù)j??蛇x擇的置信度還有90%和99%。根據(jù)t分布來構(gòu)造置信區(qū)間。在原假設H0:1=0成立條件下,t=(具有T-2個自由度)那么我們根據(jù)置信度1-,查自由度為f=T-2的t分布表,得臨界值t,,t值落在(-t,t)的概率是1-,即P{t/2,(T-2)}=1-由大括號內(nèi)不等式得1的置信區(qū)間-t/2,(T-2)1+t/2,(T-2)可記作其中是=的算術根,而其中的是的算術根。0的置信區(qū)間同理可得。由此可以看出,置信區(qū)間的大小取決于回歸系數(shù)估計值的標準差,標準差越小,置信區(qū)間越小,越接近j,估計結(jié)果就越可靠。9.yF的點預測及其區(qū)間預測下面以時間序列數(shù)據(jù)為例介紹預測問題。預測可分為事前預測和事后預測。兩種預測都是在樣本區(qū)間之外進行,如圖所示。對于事后預測,被解釋變量和解釋變量的值在預測區(qū)間都是已知的??梢灾苯佑脤嶋H發(fā)生值評價模型的預測能力。對于事前預測,解釋變量是未發(fā)生的。當預測被解釋變量時,則首先應該預測解釋變量的值。對于解釋變量的預測,通常采用時間序列模型。預測式中所有解釋變量的值都是已知的稱為事后預測。T1T2T3(目前)樣本區(qū)間(1980-2005)事后預測事前預測(2007)對于模型yt=0+1xt+ut如果給定樣本以外的解釋變量的觀測值xF,有:yF=0+1xF+uF因為xF不是原來回歸方程中的樣本,所以uF和原模型中的{ut}不相關。如何求出yF的合理的值或范圍,就是回歸分析中預測的內(nèi)容。具體分為點預測和區(qū)間預測二類。yF的點預測。假定已知解釋變量x的一個特定值xF,代入樣本回歸方程:=+xt,可得=+xF則是yF的預測值,由于求出的是單個預測值,故稱為“點預測”。特定值xF是可以任意給定的。如果xF在樣本區(qū)間內(nèi),則點預測過程稱為內(nèi)插預測,人們常常用內(nèi)插預測檢驗樣本回歸方程的預測能力。如果在樣本區(qū)間之內(nèi)預測值接近樣本值yF,則說明在樣本區(qū)間內(nèi)的預測功效是好的。如果xF是樣本區(qū)間之外的點,則點預測過程稱為外推預測。實際預測時,常常做的是外推預測。單個yF的區(qū)間預測一個好的預測結(jié)果,一是無偏,二是預測的方差要小。我們可以證明點估計值有以下兩種不同的概念:①是總體真值yF的無偏估計值;②是總體回歸直線E(yF)的無偏估計值。的分布是N(0+1xF,(1++))所以,在置信度1-下,yF的區(qū)間預測是[t/2(T-2)]可知,當置信水平1-給定之后,yF的預測區(qū)間的大小實際由絕對值的大小決定。xF越接近樣本區(qū)間內(nèi)解釋變量x的平均值,yF的置信區(qū)間就越小,預測結(jié)果就越可靠。E(yF)的區(qū)間預測E()的分布是E()N(0+1xF,(+))則E(yF)在置信度1-下的區(qū)間預測是[t/2(T-2)]yF和E(yF)的置信區(qū)間(置信帶或置信域)圖示如下:(1)樣本容量T越大,預測精度越高,反之預測精度越低;(2)樣本容量一定時,置信帶的寬度當在x均值處最小,其附近進行預測(插值預測)精度越大;x越遠離其均值,置信帶越寬,預測可信度下降。10.案例:用回歸模型預測木材剩余物(file:b1c3)伊春林區(qū)位于黑龍江省東北部。全區(qū)有森林面積218.9732萬公頃,木材蓄積量為2.324602億m3。森林覆蓋率為62.5%,是我國主要的木材工業(yè)基地之一。1999年伊春林區(qū)木材采伐量為532萬m3。按此速度44年之后,1999年的蓄積量將被采伐一空。所以目前亟待調(diào)整木材采伐規(guī)劃與方式,保護森林生態(tài)環(huán)境。為緩解森林資源危機,并解決部分職工就業(yè)問題,除了做好木材的深加工外,還要充分利用木材剩余物生產(chǎn)林業(yè)產(chǎn)品,如紙漿、紙袋、紙板等。因此預測林區(qū)的年木材剩余物是安排木材剩余物加工生產(chǎn)的一個關鍵環(huán)節(jié)。下面,利用一元線性回歸模型預測林區(qū)每年的木材剩余物。顯然引起木材剩余物變化的關鍵因素是年木材采伐量。給出伊春林區(qū)16個林業(yè)局1999年木材剩余物和年木材采伐量數(shù)據(jù)如表2.1。散點圖見圖2.14。觀測點近似服從線性關系。建立一元線性回歸模型如下:yt=0+1xt+ut表2.1年剩余物yt和年木材采伐量xt數(shù)據(jù)林業(yè)局名年木材剩余物yt(萬m3)年木材采伐量xt(萬m3)烏伊嶺26.1361.4東風23.4948.3新青21.9751.8紅星11.5335.9五營7.1817.8上甘嶺6.8017.0友好18.4355.0翠巒11.6932.7烏馬河6.8017.0美溪9.6927.3大豐7.9921.5南岔12.1535.5帶嶺6.8017.0朗鄉(xiāng)17.2050.0桃山9.5030.0雙豐5.5213.8合計202.87532.00圖2.14年剩余物yt和年木材采伐量xt散點圖圖2.15EViews輸出結(jié)果EViews估計結(jié)果見圖2.15。建立EViews數(shù)據(jù)文件的方法見附錄1。在已建立Eviews數(shù)據(jù)文件的基礎上,進行OLS估計的操作步驟如下:打開工作文件,從主菜單上點擊Quick鍵,選EstimateEquation功能。在出現(xiàn)的對話框中輸入ycx。點擊Ok鍵。立即會得到如圖2.15所示的結(jié)果。下面分析EViews輸出結(jié)果。先看圖2.15的最上部分。被解釋變量是yt。估計方法是最小二乘法。本次估計用了16對樣本觀測值。輸出格式的中間部分給出5列。第1列給出截距項(C)和解釋變量xt。第2列給出第1列相應項的回歸參數(shù)估計值(和)。第3列給出相應回歸參數(shù)估計值的樣本標準差(s(),s())。第4列給出相應t值。第5列給出t統(tǒng)計量取值大于用樣本計算的t值(絕對值)的概率值。以t=12.11266為例,相應概率0.0000表示統(tǒng)計量t取值(絕對值)大于12.1的概率是一個比萬分之一還小的數(shù)。換句話說,若給定檢驗水平為0.05,則臨界值為t0.05/2(14)=2.15。t=12.1>2.15落在了H0的拒絕域,所以結(jié)論是1不為零。輸出格式的最下部分給出了評價估計的回歸函數(shù)的若干個統(tǒng)計量的值。依縱向順序,這些統(tǒng)計量依次是可決系數(shù)R2、調(diào)整的可決系數(shù)(第3章介紹)、回歸函數(shù)的標準差(s.e.,即均方誤差的算術根)、殘差平方和、對數(shù)極大似然函數(shù)值(第2章介紹)、DW統(tǒng)計量的值、被解釋變量的平均數(shù)()、被解釋變量的標準差()、赤池(Akaike)信息準則(是一個選擇變量最優(yōu)滯后期的統(tǒng)計量)、施瓦茨(Schwatz)準則(是一個選擇變量最優(yōu)滯后期的統(tǒng)計量)、F統(tǒng)計量(第3章介紹)的值以及F統(tǒng)計量取值大于該值的概率。注意:S.D.(被解釋變量的標準差)和s.e.(均方誤差的算術根)的區(qū)別。s.e.和SSE的關系。因為=,而(2)就是SSE(殘差平方和),所以已知其中的一個就可以推算出另外一個。根據(jù)EViews輸出結(jié)果(圖2.15),寫出OLS估計式如下:=-0.7629+0.4043xt(2.64)(-0.6)(12.1)R2=0.91,s.e.=2.04其中括號內(nèi)數(shù)字是相應t統(tǒng)計量的值。s.e.是回歸函數(shù)的標準誤差,即=。R2是可決系數(shù)。R2=0.91說明上式的擬合情況較好。yt變差的91%由變量xt解釋。檢驗回歸系數(shù)顯著性的原假設和備擇假設是(給定=0.05)H0:1=0;H1:10因為t=12.1>t0.05(14)=2.15,所以檢驗結(jié)果是拒絕1=0,即認為年木材剩余物和年木材采伐量之間存在回歸關系。上述模型的經(jīng)濟解釋是,對于伊春林區(qū)每采伐1m3木材,將平均產(chǎn)生0.4m3的剩余物。圖2.16給出相應的殘差圖。Actual表示yt的實際觀測值,F(xiàn)itted表示yt的擬合值,Residual表示殘差。殘差圖中的兩條虛線與中心線的距離表示殘差的一個標準差,即s.e.。通過殘差圖可以看到,大部分殘差值都落在了正、負一個標準差(s.e.=2.04)之內(nèi)。圖2.16殘差圖估計1的置信區(qū)間。由t=P{t0.05/2(14)}=0.95得t0.05/2(14)1的置信區(qū)間是[-t0.05/2(14),+t0.05/2(14)][0.4043-2.150.0334,0.4043+2.150.0334][0.3325,0.4761](2.65)以95%的置信度認為,1的真值范圍應在[0.3325,0.4761]范圍中。下面求yt的點預測和平均木材剩余物產(chǎn)出量E(yt)的置信區(qū)間預測。假設烏伊嶺林業(yè)局2000年計劃采伐木材20萬m3,求木材剩余物的點預測值。2000=-0.7629+0.4043x2000=-0.7629+0.404320=7.3231萬m3(2.66)s2(E(2000))=(+)=4.1453(+)=0.4546 s(E(2000))==0.6742因為E(2000)=E(+x2000)=0+1x2000=E(y2000)t=t(T-2)則置信度為0.95的2000年平均木材剩余物E(y2000)的置信區(qū)間是2000t0.05/2(14)s(E(2000))=7.32312.150.6742=[5.8736,8.7726](2.67)從而得出預測結(jié)果,2000年若采伐木材20萬m3,產(chǎn)生木材剩余物的點估計值是7.3231萬m3。平均木材剩余物產(chǎn)出量的置信區(qū)間估計是在[5.8736,8.7726]萬m3之間。從而為恰當安排2000年木材剩余物的加工生產(chǎn)提供依據(jù)。木材剩余物產(chǎn)出量單點的置信區(qū)間的計算。s2(2000)=(1++)=4.1453(1++)=4.5999 s(2000)==2.1447EViews通過預測程序計算的結(jié)果是,木材剩余物產(chǎn)出量單點的置信區(qū)間的估計結(jié)果是2000t0.05/2(14)s(2000)=7.32312.152.145=[2.71,11.93]問題:估計結(jié)果中沒有顯著性,去掉截距項0可以嗎?答:依據(jù)實際意義可知,沒有木材采伐量就沒有木材剩余物,所以理論上0是可以取零的。而有些問題就不可以。例如家庭消費和收入的關系。即使家庭收入為零,消費仍然非零。一般來說,截距項的估計量沒有顯著性時,也不做剔出處理。本案例剔出截距項后的估計結(jié)果是=0.3853xt(28.3)R2=0.91,s.e.=2.0點預測值是2000=0.3853x2000=0.385320=7.7060萬m3附錄1:怎樣用EViews通過鍵盤輸入數(shù)據(jù)建立新工作文件的方法是從EViews主菜單中單擊File鍵,選擇New,Workfile。則打開一個數(shù)據(jù)范圍選擇框(WorkfileRange)。需要做出3項選擇。①選擇數(shù)據(jù)性質(zhì)。②啟始期(Startdate)。③終止期(Enddate)。3項選擇完畢后,點擊“OK”鍵。這時,會建立起一個尚未命名的工作文件(Workfile),且處于打開狀態(tài)。當打開新工作文件或現(xiàn)有工作文件后,可以通過鍵盤輸入數(shù)據(jù)和追加數(shù)據(jù)。具體操作如下:從EViews主菜單中點擊Quick鍵,選擇EmptyGroup功能。這時會打開一個空白表格數(shù)據(jù)窗口(Group)如圖3所示。每一個空格代表一個觀測值位置。按列依次輸入每一個變量(或序列)的觀測值。鍵入每一個觀測值后,可通過按回車鍵(Enter鍵)或方向指示鍵()進行確認。按方向指示鍵()的好處是在確認了當前輸入的觀測值的同時,還把光標移到了下一個待輸入位置。每一列數(shù)據(jù)上方的灰色空格是用于輸入變量名的。給變量命名時,字符不得超過16個。注意:下列名字具有特殊意義,給變量命名時,應避免使用。它們是:ABS,ACOS,AR,ASIN,C,CON,CNORM,COEF,COS,D,DLOG,DNORM,ELSE,ENDIF,EXP,LOG,LOGIT,LPT1,LPT2,MA,NA,NRND,PDL,RESID,RND,SAR,SIN,SMA,SQR,THEN。附錄2:怎樣用EViews預測。以案例1為例,給定xt=20,求=?EViews預測步驟如下。(1)點擊Procs鍵選Changeworkfilerange功能。在彈出的對話框的Enddata選擇框處改為17。點擊OK鍵。(2)雙擊工作文件的Sample:117區(qū)域,在彈出的對話框的Samplerangepairs選擇框處把16改為117。(3)雙擊工作文件窗口中的x序列,打開x數(shù)據(jù)窗口。點擊Edit+/-鍵,使x數(shù)據(jù)窗口處于可編輯狀態(tài)。在t=17的x的觀測值位置輸入20。相當于給定x=20。(4)打開估計式eq01窗口,點擊Forecast鍵。在S.E.選擇框處填入yfse,表示要yt的預測值(用YF表示)也要yt的預測標準差(用yfse表示)。點擊OK鍵,工作文件窗口中已經(jīng)出現(xiàn)一個yf序列。雙擊yf序列,可以看到。y17=7.322668。1.相關理論相關分析是研究變量間相互關系的最基本方法。從相關分析中引出的相關系數(shù)是回歸分析的一個基本統(tǒng)計量。掌握它有助于對經(jīng)濟問題和經(jīng)濟計量模型的分析與理解。1.1相關的定義與分類定義:相關(correlation)指兩個或兩個以上變量間相互關系的程度或強度。分類:①按強度分完全相關:變量間存在函數(shù)關系。例,圓的周長,L=2πr。高度相關(強相關):變量間近似存在函數(shù)關系。例,我國家庭收入與支出的關系。弱相關:變量間有關系但不明顯。例,近年來我國耕種面積與產(chǎn)量。零相關:變量間不存在任何關系。例,某班學生的學習成績與年齡。完全相關高度相關、線性相關、正相關弱相關②按變量個數(shù)分按形式分:線性相關,非線性相關簡單相關:指兩個變量間相關按符號分:正相關,負相關,零相關復相關(多重相關和偏相關):指三個或三個以上變量間的相關。非線性相關負相關零相關因非線性相關可以轉(zhuǎn)化為線性相關處理,而復相關又可看作是簡單相關基礎上的拓展,所以后面重點介紹簡單線性相關。1.2簡單線性相關的度量用簡單線性相關系數(shù),簡稱相關系數(shù)(correlationcoefficient)度量兩個變量間的線性相關強度,用表示。的隨機變量表達式是=。的統(tǒng)計表達式是==其中T,總體容量;xt,yt,變量的觀測值;x,y,變量觀測值的均值。下面解釋為什么能對變量間的線性相關強度進行定量度量。因為表達式的分子是協(xié)方差,Cov(xt,yt);分母是xi和yt的標準差之積。而xt和yt的標準差不會為零,所以Cov(xt,yt)是否為零,就決定了是否為零,即標志著變量xt,yt間是否存在線性相關關系。但Cov(xt,yt)有兩個缺點:①它是一個有量綱的量,取值容易受測量單位的影響;②取值范圍寬,相關性越強,Cov(xt,yt)取值越大。為克服上述缺點,用xt,yt的標準差除Cov(xt,yt),于是就得到相關系數(shù)的統(tǒng)計表達式。它是一個無量綱量。相關系數(shù)是對總體而言。當研究某個問題時,所得數(shù)據(jù)常是一個樣本。對樣本來說,相關系數(shù)常用r表示,即r是總體相關系數(shù)的估計值。r===其中T,樣本容量;xt,yt,變量的觀測值;,,變量觀測值的均值。1.3相關系數(shù)的取值范圍當兩個變量嚴格服從線性關系時,∣∣=1。證:設直線斜率為k,即y=a+kx。則有===1當兩個變量不存在線性關系時,=0。(3)上述是兩種極端情形,所以相關系數(shù)的取值范圍是[-1,1]。當Cov(xt,yt)>0時,則>0(正相關);當Cov(xt,yt)<0時,則<0(負相關);若Cov(xt,yt)=0,則=0(零相關)。為什么圖1為正相關?為什么圖2為負相關?用(xt–)(yt–)解釋。圖1正相關圖2負相關例1:考察1986年中國29個省市自治區(qū)農(nóng)作物種植業(yè)產(chǎn)值yt(億元)和農(nóng)作物播種面積xt(萬畝)的相關性(見圖1.9)。例2:考察1978~2000年天津市城鎮(zhèn)居民人均消費與人均可支配收入的相關性性(見圖1.10)。圖1.9r=0.92圖1.10r=0.991.4線性相關系數(shù)的局限性(1)只適用于考察變量間的線性相關關系。也就是說當=0時,只說明二變量間不存在線性相關關系,但不能保證不存在其它非線性相關關系。所以變量不相關與變量相互獨立在概念上是不同的。(2)相關系數(shù)的計算是一個數(shù)學過程。它只說明二變量間的相關強度,但不能揭示這種相關性的原因,不能揭示變量間關系的實質(zhì),即變量間是否真正存在內(nèi)在聯(lián)系,因果關系。所以在計算r的同時,還要強調(diào)對實際問題的分析與理解。(3)一般說二變量相關時,可能屬于如下一種關系。單向因果關系。如施肥量與農(nóng)作物產(chǎn)量;對金屬的加熱時間與溫度值。雙向因果關系。如工業(yè)生產(chǎn)與農(nóng)業(yè)生產(chǎn);商品供給量與商品價格。③另有隱含因素影響二變量變化。如市場上計算機銷量與電視機銷量呈正相關。顯然人均收入的增加是一個隱含因素。④虛假相關。如年國民生產(chǎn)總值與刑事案件數(shù)呈正相關。顯然二變量間不存在因果關系。應屬虛假相關。中國和美國某個經(jīng)濟指標高度相關,顯然這沒有可比性,毫無意義。(1997-2001,file:5correlation1)1.5簡單相關系數(shù)的檢驗(1)直接檢驗(查相關系數(shù)臨界值表)H0:=0;H1:0用xt和yt的樣本計算相關系數(shù)r,以自由度f=T-2查臨界值表。檢驗規(guī)則是,若r>r(T-2)(臨界值),則xt和yt相關;若r<r(T-2)(臨界值),則xt和yt不相關。(2)t檢驗H0:=0;H1:0t==t(T-2)其中2表示涉及兩個變量。若t>t(T-2),則xt和yt相關;若t<t(T-2),則xt和yt不相關。附錄:相關系數(shù)臨界值表f0.100.050.020.010.00110.987690.996920.9995070.9998770.999998820.900000.950000.980000.990000.9990030.80540.87830.934330.958730.9911640.72930.81140.88220.917200.9740650.66940.75450.83290.87450.9507460.62150.70670.78870.83430.9249370.58220.66640.74980.79770.898280.54940.63190.71550.76460.872190.52140.60210.68510.73480.8471100.49330.57600.65810.70790.8233110.47620.55290.63390.68350.8010120.45750.53240.61200.66140.7800130.44090.51390.59230.64110.7603140.42590.49730.57420.62260.7420150.41240.48210.55770.60550.7246160.40000.46830.54250.58970.7084170

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論