




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、計(jì)量經(jīng)濟(jì)學(xué)講稿王貽志教材:經(jīng)濟(jì)計(jì)量學(xué)精要Essentials of Econometrics Damodar N. Gujarti,1999, 2nd Edition 張濤等譯, 機(jī)械工業(yè)出版社,2000年5月經(jīng)濟(jì)預(yù)測(cè)Elements of ForecastingFrancis X. Diebold, 2nd Edition, 2001 張濤譯,中信出版社,2003年9月 第一講序言: 用計(jì)量經(jīng)濟(jì)學(xué)方法研究經(jīng)濟(jì)問(wèn)題的步驟:理論或假說(shuō)的陳述收集數(shù)據(jù)建立數(shù)學(xué)模型建立統(tǒng)計(jì)或計(jì)量經(jīng)濟(jì)模型經(jīng)濟(jì)計(jì)量模型參數(shù)的估計(jì)檢驗(yàn)?zāi)P偷臏?zhǔn)確性:模型的假設(shè)檢驗(yàn)檢驗(yàn)來(lái)自模型的假說(shuō)運(yùn)用模型進(jìn)行預(yù)測(cè)或結(jié)構(gòu)分析第一局部 概率與統(tǒng)
2、計(jì)根底 隨機(jī)試驗(yàn)樣本空間隨機(jī)變量概率密度函數(shù)數(shù)字特征正態(tài)分布中心極限定理其他重要分布統(tǒng)計(jì)推斷:估計(jì)無(wú)偏/有效/一致+假設(shè)檢驗(yàn)。根本統(tǒng)計(jì)概念回憶試驗(yàn) 隨機(jī)試驗(yàn)或統(tǒng)計(jì)試驗(yàn):至少有兩個(gè)以上的可能結(jié)果,但不確定哪一個(gè)結(jié)果會(huì)出現(xiàn)的過(guò)程。例如:拋一枚硬幣隱含條件該硬幣是正規(guī)的,出現(xiàn)正面朝上或朝下是一個(gè)隨機(jī)試驗(yàn)。樣本空間或總體 樣本空間:隨機(jī)試驗(yàn)所有可能的結(jié)果的集合。 例如:在以上這個(gè)隨機(jī)試驗(yàn)中,樣本空間為:硬幣正面朝上,硬幣正面朝下。事件 事件:隨機(jī)試驗(yàn)的可能結(jié)果組成的集合,它是樣本空間的一個(gè)子集。 例如:拋兩枚同樣的硬幣。H代表正面朝上, T代表正面朝下。樣本空間HH,HT,TH,TT。事件A表示:拋兩
3、枚硬幣,一枚朝上,一枚朝下。HT,TH屬于事件A。事件A是樣本空間的一個(gè)子集。 事件的互斥性:如果兩個(gè)事件不可能同時(shí)發(fā)生。14 隨機(jī)變量 隨機(jī)變量:取值由試驗(yàn)結(jié)果斷定的變量。例如,在上例中,我們不以HH,HT,TH,TT來(lái)描述試驗(yàn)結(jié)果,如果“變量表示拋兩枚硬幣正面朝上的個(gè)數(shù), 第一枚硬幣 第二枚硬幣 正面朝上的次數(shù) T T 0 T H 1 H T 1 H H 2變量“正面朝上的個(gè)數(shù)為一個(gè)隨機(jī)變量。隨機(jī)變量實(shí)際上是樣本空間到實(shí)數(shù)集的一個(gè)對(duì)應(yīng)關(guān)系映射。 隨機(jī)變量可以是離散型的或連續(xù)型的。5概率古典先驗(yàn)概率:如果一個(gè)隨機(jī)試驗(yàn)共有n個(gè)結(jié)果,它們是互斥的且每個(gè)結(jié)果等可能發(fā)生。事件A有m個(gè)根本結(jié)果,那么m
4、/n為事件A的發(fā)生概率。記著 P(A)=(有利于事件A的根本結(jié)果)/所有根本結(jié)果的總數(shù) =m/n例如,拋一枚硬幣,正面朝上的概率為1/2。 古典概率定義有局限性。如果試驗(yàn)的結(jié)果不是有限的,或不是等可能發(fā)生的,例如明年國(guó)民生產(chǎn)總值的概率為多少?古典概率無(wú)法答復(fù)類似問(wèn)題。概率的頻率定義(經(jīng)驗(yàn)定義)例. 表1給出了200個(gè)學(xué)生經(jīng)濟(jì)學(xué)考試成績(jī)的分布表1分?jǐn)?shù) 區(qū)間均值點(diǎn) 頻數(shù)1 頻率1/200 0-9 5 0 010-19 15 0 020-29 25 0 090-99 95 10 我們能夠?qū)㈩l率當(dāng)概率嗎?如果觀察的次數(shù)足夠多技術(shù)上講是有限的,頻率可以很好地側(cè)度真實(shí)的概率。須注意的是,這里無(wú)需要求試驗(yàn)結(jié)
5、果是互斥的,也不要求每種結(jié)果是等可能發(fā)生的。 概率的性質(zhì):事件的概率在0-1之間,即事件A的概率滿足0P(A)1可加性:假設(shè)事件A,B,C,為互斥事件,那么事件和的概率等于事件概率之和。即P(A+B+C+)=P(A)+P(B)+P(C)+完備性:假設(shè)事件A,B,C,為互斥事件,且為一個(gè)完備事件組,那么事件和的概率為1。即P(A+B+C+)=P(A)+P(B)+P(C)+=1一些其他常用的性質(zhì)事件積的概率:A, B事件為互斥事件,事件同時(shí)發(fā)生的概率等于事件概率的積, P(AB)=P(A)P(B)。 例如同時(shí)拋兩枚硬幣,兩枚硬幣正面同時(shí)朝上的概率為1/21/2=1/4 事件和的概率:A, B事件不
6、是互斥事件,那末,P(A+B)=P(A)+P(B)-P(AB),其中P(AB)為事件A, B同時(shí)發(fā)生的聯(lián)合概率。 例如從一副撲克牌中任意抽取一張,這張牌是紅心或是皇后的概率為多少?13/52+4/521/52=4/52條件概率:假設(shè)有事件A,B。在事件B發(fā)生的情況下,事件A發(fā)生的概率,稱為事件B發(fā)生條件下事件A發(fā)生的條件概率。記作PA|B。可以用以下公式進(jìn)行計(jì)算: 即給定事件B前提下,事件A發(fā)生的條件概率等于事件A、B的聯(lián)合概率與事件B的邊緣密度之比。隨機(jī)變量的概率:前面我們給出了樣本結(jié)果或樣本空間中事件的概率,而在本書(shū)中我們主要關(guān)心的是隨機(jī)變量比方GNP、貨幣供應(yīng)、價(jià)格、工資等的概率。離散型
7、隨機(jī)變量的概率密度函數(shù):繼續(xù)以上面拋硬幣為例,考慮表2正面朝上的次數(shù) PDF X f(X) 0 1/4 1 1/2 2 1/4 累積 1 上表給出了變量X可能值以及與之相對(duì)應(yīng)的概率值。用函數(shù)f(X)表示概率分布或者叫概率密度函數(shù)PDF它給出了變量X取不同值的概率。這個(gè)表中的PDF稱為離散型隨機(jī)變量地概率密度函數(shù)。標(biāo)準(zhǔn)描述 其中, 表示離散型隨機(jī)變量X取時(shí)的概率值。連續(xù)型隨機(jī)變量的概率密度函數(shù):連續(xù)性隨機(jī)變量密度函數(shù)與離散型類似,不同的是連續(xù)型度量的是隨機(jī)變量在某特定區(qū)間范圍內(nèi)的概率。一個(gè)定義在實(shí)數(shù)集上的函數(shù)要滿足以下三個(gè)條件,就能成為某連續(xù)隨機(jī)變量地概率密度函數(shù): = 1 * roman i
8、對(duì)于所有的有; = 2 * roman ii = 3 * roman iii 對(duì)于任意兩個(gè)實(shí)數(shù)有 累積分布函數(shù):稱為隨機(jī)變量X的累積分布函數(shù)(CDF),表示隨機(jī)變量取小于或者等于X的概率。表3 拋幣四次,求隨機(jī)變量正面朝上次數(shù)的概率密度和累積分布函數(shù): PDF CDF 正面朝上的次數(shù) X f(x) X F(x)0 1/16 1/161 4/16 5/162 6/16 11/163 4/16 15/164 1/16 1 根據(jù)累積分布函數(shù)定義,它是X的值小于或者等于某一給定x時(shí)的概率函數(shù)的求和或者積分。對(duì)于一個(gè)離散的隨機(jī)變量X,累積分布函數(shù)為對(duì)于一個(gè)連續(xù)隨機(jī)變量X,累積分布函數(shù)為 如果隨機(jī)變量是離
9、散型的,累積函數(shù)是非連續(xù)的為分段函數(shù)。如隨機(jī)變量是連續(xù)的,那么其累積分布函數(shù)是一條連續(xù)的曲線。累積分布函數(shù)是實(shí)數(shù)域上的單調(diào)遞增函數(shù)且有如下性質(zhì):多元隨機(jī)變量的概率函數(shù)1概率密度函數(shù)與累積分布函數(shù)當(dāng)我們用不止一個(gè)隨機(jī)變量來(lái)描述一個(gè)試驗(yàn)的結(jié)果的情況下,對(duì)應(yīng)的概率密度函數(shù)成為多元多維概率密度函數(shù)。最簡(jiǎn)單的多元概率密度函數(shù)是雙變量概率密度函數(shù)。表4給出了50支債券的債權(quán)等級(jí)(X)及收益率Y數(shù)據(jù),其中X有三個(gè)不同水平:X=1(Bbb) X=2(Bb) X=3(B) 分別代表不同的信用等級(jí)。表4等級(jí)(X)收益(Y)%1Bbb2(Bb)3(B)總計(jì)135018214218011314合計(jì)15201550表5
10、等級(jí)(X)收益(Y)%1Bbb2(Bb)3(B)總計(jì)合計(jì)把表4的每一個(gè)數(shù)值除以50,將頻數(shù)轉(zhuǎn)化為頻率,結(jié)果見(jiàn)表5。這樣表5就提供了一個(gè)雙變量或聯(lián)合概率密度函數(shù)。表中每一個(gè)數(shù)值均為聯(lián)合概率即變量X取一給定值同時(shí)變量Y也取一給定值時(shí)的概率。通常用表示聯(lián)合密度函數(shù)。如果X、Y是兩個(gè)離散型隨機(jī)變量,那么函數(shù): =0, 當(dāng)Xx, Yy時(shí) 為離散型聯(lián)合概率密度函數(shù)。如果這個(gè)函數(shù)滿足離散隨機(jī)變量的聯(lián)合累積分布函數(shù)為:如果X、Y是兩個(gè)連續(xù)型隨機(jī)變量,那么聯(lián)合概率密度函數(shù)滿足: = 1 * roman i = 2 * roman ii 任意有 = 3 * roman iii 相應(yīng)地2邊緣概率密度函數(shù) 在聯(lián)合概率
11、分布中,當(dāng)其中一個(gè)變量X取某給定值,無(wú)論其他變量取值如何時(shí)的概率稱為這個(gè)變量X的邊緣概率,其概率密度就叫X的邊緣密度函數(shù)。3條件概率密度函數(shù)概率P稱為條件概率,它代表隨機(jī)變量X在給定條件Y=y下的概率分布。計(jì)算條件分布概率密度的簡(jiǎn)單方法為:在回歸分析中,我們經(jīng)常要關(guān)注研究一個(gè)變量在給定另一個(gè)(或者多個(gè))變量取值條件下的行為。因此,條件概率密度函數(shù)的知識(shí)對(duì)于建立回歸分析非常重要。第二講統(tǒng)計(jì)獨(dú)立性在回歸分析中,另一個(gè)非常重要的概念是獨(dú)立隨機(jī)變量。兩個(gè)變量X和Y稱為統(tǒng)計(jì)獨(dú)立的,當(dāng)且僅當(dāng)它們的聯(lián)合概率密度函數(shù)可以表示為其邊緣概率密度函數(shù)之積。用符號(hào)表示:例:在上文的例子中,債券等級(jí)與債券收益是獨(dú)立的隨
12、機(jī)變量嗎?由表5可知,f(x=1,y=8.5)=0.26,f(x=1)=0.30,f(y=8.5)=0.36, f(x=1,y=8.5)f(x=1)f(y=8.5)因此,債券等級(jí)與債券收益不是獨(dú)立的隨機(jī)變量。概率密度的特征期望值:集中趨勢(shì)的度量離散隨機(jī)變量的期望值用符號(hào)E(X)表示,其定義為,隨機(jī)變量的期望值也稱均值,更準(zhǔn)確地講應(yīng)稱為總體均值。期望的性質(zhì): = 1 * roman i 常數(shù)的期望值是其本身。 = 2 * roman ii 兩隨機(jī)變量和的期望值等于兩變量期望值之和。 = 3 * roman iii 兩隨機(jī)變量的期望值之積或比,不一定等于積或比的期望值。 = 4 * roman i
13、v 隨機(jī)變量得常數(shù)倍的期望值等于該期望值的常數(shù)倍。方差:離散程度的度量隨機(jī)變量期望值為E(X),那么方差定義為:通常我們用下面的公式計(jì)算方差:方差的正方根稱為標(biāo)準(zhǔn)差,記作x 方差的性質(zhì) = 1 * roman i 常數(shù)的方差為零。 = 2 * roman ii 兩獨(dú)立隨機(jī)變量和或者差的方差等于兩變量方差之和。 = 3 * roman iii 隨機(jī)變量的常數(shù)倍方差等于該變量方差的常數(shù)平方倍。例Var(aX+b)=? 多維隨機(jī)變量概率分布函數(shù)的數(shù)字特征協(xié)方差、相關(guān)系數(shù)都系多維隨機(jī)變量概率分布函數(shù)的數(shù)字特征,用于度量?jī)蓚€(gè)隨機(jī)變量的變化關(guān)系。 1協(xié)方差設(shè)隨機(jī)變量X和Y的期望分別為ux 和 uy,其協(xié)方
14、差為cov(X,Y)=E(X-ux )(Y- uy)問(wèn)題,試給出X和Y為離散型和連續(xù)型隨機(jī)變量時(shí)的協(xié)方差計(jì)算公式。一般而言,兩個(gè)隨機(jī)變量的協(xié)方差可以為正兩個(gè)隨機(jī)變量同方向變動(dòng),也可以為負(fù)兩個(gè)隨機(jī)變量反方向變動(dòng)。協(xié)方差在研究投資通過(guò)資產(chǎn)組合來(lái)控制風(fēng)險(xiǎn)中有重要的應(yīng)用。 協(xié)方差的性質(zhì):cov(X,X)=Var(X) cov(a+bX,c+dY)=bdcov(X,Y) 2相關(guān)系數(shù)相關(guān)系數(shù)將協(xié)方差進(jìn)行“規(guī)一化,以刻畫(huà)兩個(gè)隨機(jī)變量之間的相關(guān)程度具體公式如下: xy= cov(X,Y)/ xy 相關(guān)系數(shù)的性質(zhì):-1xy1 如果相關(guān)系數(shù)為1,表示兩個(gè)變量完全正相關(guān);相關(guān)系數(shù)為-1,那么表示兩個(gè)變量完全負(fù)相關(guān)。
15、條件期望值在回歸分析中,另一個(gè)特別重要的概念是條件期望值:這里給出的是離散型隨機(jī)變量的條件期望值計(jì)算公式。是隨機(jī)變量X的條件概率密度函數(shù)。一般而講,在求條件期望的時(shí)候,無(wú)論是離散型還是連續(xù)型隨機(jī)變量,與非條件期望求值公式不同的僅僅是,其密度函數(shù)是條件概率密度函數(shù)。9 高階中心炬E(X- ux)rX的一階中心炬即為隨機(jī)變量的均值 X的二階中心炬r=2為X的方差X的三階中心炬r=3X的四階中心炬r=4估計(jì)偏度的計(jì)算公式=三階中心炬2/兩階中心炬3估計(jì)峰度的計(jì)算公式=四階中心炬/兩階中心炬210、從樣本到總體為了計(jì)算概率分布的期望、方差等特征,我們顯然需要知道概率密度函數(shù)或累計(jì)分布函數(shù),即整個(gè)樣本空
16、間或總體。但是在實(shí)踐中,有很多事件我們很難精確地描述其總體,所能做到的只能是總體中抽出的一個(gè)“有代表性的或“隨機(jī)的樣本。然后去計(jì)算這個(gè)樣本的各個(gè)數(shù)字特征。從樣本中計(jì)算得到的期望、方差等于總體的期望、方差嗎?很可能不同。但是二者之間又存在必然的聯(lián)系,一般,樣本的數(shù)字特征依賴于總體特征,而且我們可以通過(guò)樣本數(shù)字特征估計(jì)總體特征。隨機(jī)變量X的樣本均值通常用符號(hào)表示,定義如下: ,n為樣本容量。這里定義的樣本均值即是總體均值期望的估計(jì)量。估計(jì)量可以簡(jiǎn)單理解為估計(jì)總體的數(shù)字特征的規(guī)那么或者公式。10.2 樣本方差樣本方差同總體方差類似,用來(lái)描述樣本值對(duì)樣本均值的離散程度,定義為:即樣本方差等于每個(gè)X與其
17、均值差的平方和除以n-1,n-1稱為自由度。樣本方差的正的平方根稱為樣本標(biāo)準(zhǔn)差。樣本方差是總體方差的估計(jì)值,樣本標(biāo)準(zhǔn)差是總體標(biāo)準(zhǔn)差的估計(jì)值。10.3 樣本協(xié)方差類似總體協(xié)方差的定義,兩隨機(jī)變量之間樣本協(xié)方差的定義如下:樣本即樣本協(xié)方差為兩隨機(jī)變量與其各自的樣本均值求差,然后對(duì)其差積求和,再除以自由度n-1。這里樣本協(xié)方差的值即為總體協(xié)方差的估計(jì)值。10.4 樣本相關(guān)系數(shù)通常用r表示樣本相關(guān)系數(shù),定義: 其中,分別代表X,Y的樣本標(biāo)準(zhǔn)差。樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的估計(jì)值,并且與總體相關(guān)系數(shù)有相同的性質(zhì),它們的值總是位于-1,+1之間。 105樣本偏度和樣本峰度可用樣本的三階炬估計(jì)樣本偏度,樣本
18、的四階炬估計(jì)樣本峰度。 一些重要的概率分布本章我們討論的4種概率分布是:正態(tài)分布2分布3t分布4F布這些概率分布是經(jīng)濟(jì)計(jì)量理論和實(shí)踐的核心內(nèi)容。1、正態(tài)分布通常用表示隨機(jī)變量X服從正態(tài)分布。括號(hào)內(nèi)的參數(shù)分別成為正態(tài)分布總體的均值期望和方差。X是連續(xù)性隨機(jī)變量,取值范圍正態(tài)隨機(jī)變量的概率密度函數(shù)為:1.1 正態(tài)分布的性質(zhì) 正態(tài)分布曲線以均值為中心,呈對(duì)稱分布。正態(tài)分布的概率密度函數(shù)曲線呈中間高、兩邊低均值處到達(dá)最高,即隨機(jī)變量在遠(yuǎn)離均值處取值的概率逐漸變小。正態(tài)分布曲線下的面積約有68%位于之間;約有95%的面積位于之間;而約有99。7%的面積位于之間。這些區(qū)域可用作概率的度量。正態(tài)分布可由兩個(gè)
19、參數(shù)唯一確定。兩個(gè)或多個(gè)正態(tài)分布的線性組合仍然服從正態(tài)分布在經(jīng)濟(jì)計(jì)量學(xué)中,這是正態(tài)分布的一個(gè)特別重要的性質(zhì)。如果兩個(gè)正態(tài)隨機(jī)變量的聯(lián)合概率密度函數(shù)等于各自邊緣概率密度函數(shù)乘積,那么這兩個(gè)變量相互獨(dú)立。即對(duì)所有的X、Y,成立。兩個(gè)正態(tài)隨機(jī)變量不相關(guān)和相互獨(dú)立是等價(jià)的。 雖然兩個(gè)正態(tài)分布完全可由兩個(gè)數(shù)字特征期望和方差描述,但兩個(gè)分布還是會(huì)因?yàn)槠谕蚍讲畹牟煌鄥^(qū)別。 假設(shè)隨機(jī)變量,定義新變量,那么變量Z的均值為0,方差為1。我們稱之為單位或標(biāo)準(zhǔn)正態(tài)變量。記為: ,我們可以通過(guò)使用標(biāo)準(zhǔn)正態(tài)分布表來(lái)求任意隨機(jī)變量大于或小于某一實(shí)數(shù)值的概率。反之,對(duì)于給定的概率值可以查變量Z的取值范圍。 1.3 樣本
20、均值的抽樣分布或概率分布 隨機(jī)抽樣是指樣本隨即抽取,總體中每一個(gè)體都有同等的時(shí)機(jī)被選入樣本。如果所有的是從同一概率密度中獨(dú)立抽取得到的,這樣一組稱為容量為n的隨機(jī)樣本。 稱為獨(dú)立同分布隨機(jī)變量。以后隨機(jī)樣本都表示獨(dú)立同分布隨機(jī)樣本,用i.i.d.表示。 假設(shè)是來(lái)自于滿足總體的隨機(jī)樣本,那么樣本均值,也服從正態(tài)分布,。 1.4 中心極限定理 如果是來(lái)自均值為,方差為的任一總體注意這里并不要求總體服從正態(tài)分布的隨機(jī)樣本,隨著樣本容量無(wú)限增大,那么其樣本均值趨于正態(tài)分布,其均值為,方差為 。 根據(jù)經(jīng)驗(yàn),理論上的樣本容量n無(wú)窮大在實(shí)際中能到達(dá)30,正態(tài)近似就已經(jīng)很好了。 為了說(shuō)明中心極限定理,從均勻分
21、布U(0,1)總體中抽取20個(gè)隨機(jī)樣本,每個(gè)樣本有25個(gè)觀察值。對(duì)每個(gè)樣本計(jì)算樣本均值,得到20個(gè)均值。 0.54.57, 0.41169 ,0.43446 ,0.51356 ,0.46010 ,0.47047 ,0.46534 ,0.42592 ,0.57220 ,0.47909 ,0.41617 ,0.48899 ,0.51373 ,0.51264 ,0.57346 ,0.51848 ,0.48087 ,0.58560 ,0.56843 ,0.41683 然后計(jì)算的均值和方差: 樣本方差 我們可以計(jì)算,來(lái)自標(biāo)準(zhǔn)均勻分布總體的實(shí)際均值為0.5,方差為0.833,根據(jù)中心極限定理. 上述進(jìn)行的
22、抽樣試驗(yàn),叫蒙特卡洛試驗(yàn)。 1.5 蒙特卡洛模擬法的概念蒙特卡洛模擬法也叫隨機(jī)模擬法,它是一種通過(guò)對(duì)隨機(jī)變量的統(tǒng)計(jì)試驗(yàn)、隨機(jī)模擬,估計(jì)總體數(shù)字特征的方法。其特點(diǎn)是用數(shù)學(xué)方法在計(jì)算機(jī)上模擬實(shí)際概率過(guò)程,然后加以統(tǒng)計(jì)處理。隨著模擬次數(shù)的增多,其估計(jì)精度也逐漸增高。 2、分布 統(tǒng)計(jì)理論證明,標(biāo)準(zhǔn)正態(tài)變量的平方服從自由度為1的分布。用符號(hào)表示:,下標(biāo)1表示自由度為1。 另為K個(gè)相互獨(dú)立的標(biāo)準(zhǔn)正態(tài)變量,那么他們的平方和服從自由度為K的分布。 分布的性質(zhì) 1分布只取正值,取值范圍所有正實(shí)數(shù)。 2分布不是對(duì)稱分布。但隨著自由度增大,逐漸呈對(duì)稱狀態(tài),接近正態(tài)分布。 3分布的期望值為自由度k,方差為2k。方差永
23、遠(yuǎn)是均值的兩倍。 4假設(shè)隨機(jī)變量是相互獨(dú)立且分別服從自由度為的分布,那么其和也服從分布,自由度為 5可以證明,假設(shè)隨機(jī)樣本來(lái)自方差為的正態(tài)總體,樣本容量為n,樣本方差為,可以證明: t分布前面知道假設(shè),那么變量Z服從標(biāo)準(zhǔn)正態(tài)分布:上面是假定樣本總體的均值、方差,假設(shè)我們只有方差的估計(jì)值,而不知道總體的均值。我們可以用樣本標(biāo)準(zhǔn)差代替總體標(biāo)準(zhǔn)差得到一個(gè)新的變量:統(tǒng)計(jì)理論證明,t服從自由度為n-1的學(xué)生t分布。 t分布的性質(zhì):t分布于正態(tài)分布類似,具有對(duì)稱性。t分布均值為0,方差為k/(k-2)。K為自由度。在自由度無(wú)限增大的條件下,t分布近似正態(tài)分布。經(jīng)驗(yàn)認(rèn)為,大約k=30,就可以有很好的近似。
24、F分布如果變量獨(dú)立,分別服從自由度為的分布,那么,即服從自由度為的F分布。F分布的性質(zhì)F分布為非對(duì)稱分布,取值范圍為正實(shí)數(shù)。當(dāng)自由度逐漸增大時(shí),F(xiàn)分布近似正態(tài)分布。如隨機(jī)變量F服從自由度為的F分布,其倒數(shù)服從自由度為的F分布自由度為k的t分布變量的平方服從自由度為1,k的F分布。隨機(jī)樣本來(lái)自均值為方差為的正態(tài)總體。來(lái)自均值為方差為的正態(tài)總體。兩個(gè)樣本相互獨(dú)立,那么:F分布常用來(lái)比擬兩總體的方差,所以也叫方差比分布。 第三章 估計(jì)與假設(shè)檢驗(yàn) 統(tǒng)計(jì)推斷的含義總體和樣本是兩個(gè)非常重要,有聯(lián)系卻不同的概念。統(tǒng)計(jì)推斷研究的是總體與來(lái)自總體的樣本之間的關(guān)系。主要是通過(guò)研究樣本的統(tǒng)計(jì)量歸納出總體的數(shù)字特征。
25、 2、 估計(jì)和假設(shè)檢驗(yàn):統(tǒng)計(jì)推斷的兩個(gè)孿生分支 對(duì)于某個(gè)關(guān)注的總體,我們想要研究它的一個(gè)或多個(gè)統(tǒng)計(jì)特征參數(shù)。那么我們可以取其中的一個(gè)樣本,并利用這個(gè)樣本的統(tǒng)計(jì)量對(duì)總體的統(tǒng)計(jì)特征進(jìn)行估計(jì),然后總體可由其各個(gè)統(tǒng)計(jì)特征進(jìn)行描述。估計(jì)是總體推斷的第一步。得到參數(shù)的估計(jì)值后, 接下來(lái)要判斷估計(jì)值的“優(yōu)度,因?yàn)楣烙?jì)值很可能并不等于真實(shí)的參數(shù)值:比方,如果有兩個(gè)或多個(gè)不同的隨機(jī)樣本,計(jì)算出來(lái)的均值很可能是不同的。我們把不同樣本估計(jì)值的差異稱為抽樣誤差。估計(jì)是統(tǒng)計(jì)推斷的一個(gè)方面,假設(shè)檢驗(yàn)?zāi)敲词墙y(tǒng)計(jì)推斷的另一個(gè)方面。在假設(shè)檢驗(yàn)中,我們可對(duì)某一參數(shù)的假定值進(jìn)行先驗(yàn)判斷和預(yù)期,比方經(jīng)驗(yàn)或者專家的意見(jiàn)告訴我們,目前上
26、市公司的平均資產(chǎn)收益率ROA為8%,假定根據(jù)某一隨機(jī)樣本容量為50,計(jì)算得到對(duì)ROA的估計(jì)值為7.5%,顯然跟估計(jì)有差異。但是有個(gè)問(wèn)題,由于抽樣的差異很可能導(dǎo)致樣本估計(jì)值與總體真值不同。那么,從統(tǒng)計(jì)上說(shuō),估計(jì)值與假設(shè)值是不是顯著不同?如何判定?就是假設(shè)檢驗(yàn)的內(nèi)容。參數(shù)估計(jì)我們?cè)诂F(xiàn)實(shí)中研究概率密度的時(shí)候,經(jīng)??梢约俣骋浑S機(jī)變量X服從某種概率分布,但不知道其分布的參數(shù)值。如X服從正態(tài)分布,我們想知道兩個(gè)參數(shù)均值以及方差。為了估計(jì)這兩個(gè)未知參數(shù),一般的步驟是:假定有來(lái)自于總體的樣本容量為n的隨機(jī)樣本,根據(jù)樣本估計(jì)總體的未知參數(shù)。如可將樣本均值作為總體均值或期望的估計(jì)量,樣本方差作為總體方差的估計(jì)量
27、。這個(gè)過(guò)程稱為估計(jì)問(wèn)題,估計(jì)問(wèn)題有兩類:點(diǎn)估計(jì)和區(qū)間估計(jì)。當(dāng)我們用一個(gè)樣本的統(tǒng)計(jì)量直接估計(jì)總體參數(shù)數(shù)值的時(shí)候,譬如選擇作為總體均值的估計(jì)值,顯然對(duì)于給定的樣本,估計(jì)值是單一的,我們稱這個(gè)估計(jì)值是點(diǎn)估計(jì)值,這種估計(jì)方法為點(diǎn)估計(jì)。這里需要注意:點(diǎn)估計(jì)量是隨機(jī)變量,它將隨著選取樣本的不同而不同。點(diǎn)估計(jì)值的可信度有多大呢?雖然可能較好地近似了總體均值,但我們給定一個(gè)包含估計(jì)值的區(qū)間,那么更可能包含總體均值,這就是區(qū)間估計(jì)的思想。與點(diǎn)估計(jì)相比,區(qū)間估計(jì)提供了在某個(gè)置信度下真實(shí)參數(shù)的取值范圍。假定隨機(jī)變量X服從某概率分布,假設(shè)要對(duì)其某參數(shù)進(jìn)行估計(jì),比方說(shuō)總體均值。選擇容量為n的隨機(jī)樣本根據(jù)樣本計(jì)算兩個(gè)統(tǒng)計(jì)
28、量L和U使得: 即從L到U的隨機(jī)區(qū)間包括真值的概率為。L稱為區(qū)間的下限,U稱為區(qū)間的上限。這個(gè)區(qū)間稱為的置信區(qū)間,為置信系數(shù)。在實(shí)踐中通常把寫(xiě)成百分比的形式如95% 。統(tǒng)計(jì)學(xué)中稱為顯著水平。點(diǎn)估計(jì)量的性質(zhì)線性假設(shè)估計(jì)量是樣本觀察值的線性函數(shù),那么稱該估計(jì)量是線性估計(jì)量。顯然樣本均值是線性估計(jì)量。在統(tǒng)計(jì)學(xué)中處理線性估計(jì)量比非線性的更為容易。無(wú)偏性如果某個(gè)估計(jì)量的期望與真實(shí)參數(shù)值的真值一致,那么這個(gè)估計(jì)量就是無(wú)偏估計(jì)量。比方稱為總體均值的無(wú)偏估計(jì)量,如果有: 反之,那么該估計(jì)量就是有偏的估計(jì)量。有效性一個(gè)估計(jì)量是無(wú)偏的,但我們不能確定估計(jì)量與真值之間的離散程度。一般,我們希望一個(gè)估計(jì)量是無(wú)偏的,也
29、希望他與真值之間的離散程度很小。對(duì)于所有的無(wú)偏估計(jì)量而言,方差最小的估計(jì)量是相對(duì)真值的離散程度最小的,我們認(rèn)為是最有效的,稱為有效估計(jì)量。同時(shí)兩個(gè)無(wú)偏估計(jì)量,方差小的比方差大的有效。 在所有線性無(wú)偏估計(jì)量中方差最小的一個(gè),我們稱其為最優(yōu)線性無(wú)偏估計(jì)量。一致性如果隨著樣本容量的逐漸增大,估計(jì)量可以接近參數(shù)的真值,那么此估計(jì)量叫做一致估計(jì)量。估計(jì)量的一致性很重要,它能保證我們?cè)谛畔⒘吭龃蟮那闆r下使得估計(jì)量趨近于真值。作為一個(gè)法那么,計(jì)量經(jīng)濟(jì)學(xué)家更關(guān)心一致性而不是無(wú)偏性。統(tǒng)計(jì)推斷:假設(shè)檢驗(yàn)前面已經(jīng)簡(jiǎn)單介紹了假設(shè)檢驗(yàn)的一般屬性。這里主要討論假設(shè)檢驗(yàn)的判定規(guī)那么和方法。我們首先對(duì)參數(shù)有個(gè)取特定值的假設(shè):
30、譬如,這個(gè)假設(shè)稱之為零假設(shè)。零假設(shè)通常與備擇假設(shè)成對(duì)出現(xiàn)。備擇假設(shè)有如下形式: 前兩個(gè)叫單邊備擇假設(shè),后一個(gè)叫雙邊備擇假設(shè)。 為了檢驗(yàn)零假設(shè),我們根據(jù)樣本數(shù)據(jù)以及統(tǒng)計(jì)理論建立判定規(guī)那么來(lái)判斷樣本信息是否支持零假設(shè)。如果樣本信息支持零假設(shè),我們就不拒絕 ,否那么我們就拒絕同時(shí)接受的備擇假設(shè)。如何建立判定規(guī)那么呢?我們主要通過(guò)兩個(gè)互補(bǔ)的方法:置信區(qū)間法和顯著性檢驗(yàn)法。置信區(qū)間法置信區(qū)間提供了在一定的置信度下的真值的取值范圍,那么如果這個(gè)區(qū)間不包括零假設(shè)中的值,我們就拒絕零假設(shè),接受備擇假設(shè)。反之亦反。上面的置信區(qū)間稱為零假設(shè)的接受區(qū)域,接受區(qū)域以外的稱為零假設(shè)的臨界區(qū)域或拒絕區(qū)域。接受區(qū)域的上下界
31、稱為臨界值。 第一類錯(cuò)誤和第二類錯(cuò)誤假設(shè)上面置信區(qū)間的置信度為95%,那么我們拒絕因?yàn)榱慵僭O(shè)的值不在置信區(qū)間內(nèi)就拒絕還是可能會(huì)錯(cuò)誤,這種情況下我們稱犯了第一類錯(cuò)誤,亦即拒真錯(cuò)誤。同樣的道理,假定零假設(shè)的值在置信區(qū)間內(nèi),我們接受,也有可能真值并不是的取值,那么我們會(huì)犯第二類錯(cuò)誤,也叫取偽錯(cuò)誤。我們希望盡可能地減少這兩種錯(cuò)誤,但是給定一個(gè)樣本,我們不能夠同時(shí)做到犯這兩種錯(cuò)誤的概率都很小。解決這個(gè)矛盾傳統(tǒng)的方法是假定在實(shí)際中犯第一類錯(cuò)誤比第二類錯(cuò)誤帶來(lái)的后果更嚴(yán)重。因此先固定犯第一類錯(cuò)誤的概率在一定的較低水平上,然后考慮如何減少犯第二類錯(cuò)誤的概率。犯第一類錯(cuò)誤的概率通常用符號(hào)表示,稱為顯著性水平。犯
32、第二類錯(cuò)誤的概率用符號(hào)表示:第一類錯(cuò)誤犯拒真錯(cuò)誤的概率第二類錯(cuò)誤犯受偽錯(cuò)誤的概率不犯第二類錯(cuò)誤的概率即當(dāng)為假是拒絕,稱為檢驗(yàn)的成效。我們可以發(fā)現(xiàn),前面用的置信系數(shù)就是用1減去犯第一類錯(cuò)誤的概率。 也就是說(shuō)5%的顯著性水平與95%的置信系數(shù)的意義是相同的。顯著性檢驗(yàn) = 1 * ROMAN I t檢驗(yàn) 通過(guò)前面的內(nèi)容我們知道: 服從自由度為(n-1)的t分布。對(duì)給定的樣本是的,唯一未知的是。但我們?cè)O(shè)定為一給定值零假設(shè)中的值,那么可以求出t值。根據(jù)t分布,我們很容易求得獲得此t值的概率,如果與的差異不大,|t|也會(huì)很小。在此情況下,我們接受零假設(shè)。隨著|t|越來(lái)越偏離0,我們將逐漸地趨向拒絕零假設(shè)
33、。在拒絕零假設(shè)前最大的|t|值是多少?答案取決于置信水平,即犯第一類錯(cuò)誤的概率和自由度。例如:自由度為49時(shí),在5%的顯著性水平下,臨界的t值為-2.0096和2.0096。也即當(dāng)計(jì)算的t值在此之間的時(shí)候我們接受零假設(shè)。用顯著性檢驗(yàn)的語(yǔ)言,經(jīng)常遇到下面兩個(gè)術(shù)語(yǔ): = 1 * roman i 檢驗(yàn)統(tǒng)計(jì)量是統(tǒng)計(jì)顯著的。 = 2 * roman ii 檢驗(yàn)統(tǒng)計(jì)量是統(tǒng)計(jì)不顯著的 我們說(shuō)檢驗(yàn)是統(tǒng)計(jì)顯著的,一般是指能夠拒絕零假設(shè)。即觀察到的樣本值與假設(shè)值不同的概率非常小,小于犯第一類錯(cuò)誤的概率。同樣,我們說(shuō)檢驗(yàn)是統(tǒng)計(jì)不顯著的,是指不能拒絕零假設(shè)。在此情況下,觀察到的樣本值與真實(shí)值不同的概率大于。當(dāng)拒絕零假
34、設(shè)時(shí),我們就說(shuō)是統(tǒng)計(jì)顯著的。當(dāng)不能拒絕零假設(shè),我們就說(shuō)是統(tǒng)計(jì)不顯著的。 = 2 * ROMAN II檢驗(yàn)假設(shè)隨機(jī)樣本來(lái)自方差為的正態(tài)總體,樣本容量為n,樣本方差為,可以證明: 與t檢驗(yàn)的機(jī)制類似,給定一個(gè)具體的值,利用上式 可以計(jì)算的值,并根據(jù)分布表進(jìn)行顯著性檢驗(yàn)。 = 3 * ROMAN III隨機(jī)樣本來(lái)自均值為方差為的正態(tài)總體。來(lái)自均值為方差為的正態(tài)總體。兩個(gè)樣本相互獨(dú)立,那么:假設(shè)零假設(shè)是與相等,我們可以算出F值,并根據(jù)F分布表進(jìn)行顯著性檢驗(yàn)。 = 4 * ROMAN IV顯著水平的選擇與p值假設(shè)檢驗(yàn)的古典方法中,一般常用的值有1%,5%,10%但這些值并不是固定不變的。在實(shí)踐中我們最好
35、使用p值。P值也稱為統(tǒng)計(jì)量的精確置信水平。舉例說(shuō)明,當(dāng)自由度為20時(shí),計(jì)算得到t=3.552。根據(jù)t分布表,求得此t值的概率值p值為0.002,也即在0.002水平下,t值是統(tǒng)計(jì)顯著的。在顯著性小于p的條件下,我們都可以拒絕零假設(shè)。用P值的有點(diǎn)是防止了在選擇顯著水平時(shí)的任意性。如果檢驗(yàn)統(tǒng)計(jì)量的。單邊檢驗(yàn)與雙邊檢驗(yàn)前面我們一直討論的是雙邊檢驗(yàn)。單邊檢驗(yàn)與雙邊檢驗(yàn)類似,只是在單邊檢驗(yàn)中僅僅需要決定統(tǒng)計(jì)量的單一臨界值。犯第一類錯(cuò)誤的概率僅僅集中在概率分布的一側(cè)。在以后例子中,我們?cè)僭敿?xì)說(shuō)明。第二局部 線性回歸模型根本思想回歸的定義:研究一個(gè)變量被解釋變量/應(yīng)變量與另一個(gè)或多個(gè)變量解釋變量/自變量之間
36、的關(guān)系?;貧w分析的應(yīng)用:估計(jì)應(yīng)變量的值;進(jìn)行假設(shè)檢驗(yàn)對(duì)應(yīng)變量的均值進(jìn)行預(yù)測(cè)總體回歸函數(shù)(PRF): E(Y|x)=B1+B2x 非隨機(jī)的總體回歸函數(shù)隨機(jī)的總體回歸函數(shù):Y= B1+B2x + u 系統(tǒng)局部 隨機(jī)局部由x以外的因數(shù)所決定 或決定局部 隨機(jī)誤差項(xiàng)在回歸分析中具有至關(guān)重要的作用,其性質(zhì):可能代表模型中并未包括的變量包括主觀或客觀忽略的次要的因數(shù)的影響人類行為中的一些內(nèi)在隨機(jī)性可能的測(cè)量誤差實(shí)踐中,我們很少會(huì)擁有整個(gè)總體數(shù)據(jù),一般僅有來(lái)自總體的一個(gè)樣本,而由樣本來(lái)估計(jì)總體回歸函數(shù),得到樣本回歸函數(shù)Y= b1+b2x+e, 其中Y是E(Y|x)的估計(jì)量,bi 是Bi的估計(jì)量,e是u的估計(jì)
37、量。 回歸分析即如何建立樣本回歸函數(shù),使bi 盡可能接近Bi線性模型參數(shù)的估計(jì):普通最小二乘法(OLS)OLS估計(jì)量的性質(zhì):運(yùn)用OLS法得到的樣本回歸線經(jīng)過(guò)樣本均值點(diǎn)。殘差的均值為零對(duì)殘差和解釋變量的積求和,其值為零即殘差和解釋變量不相關(guān)。雙變量模型的假設(shè)檢驗(yàn)在前面一章,我們介紹了最小二乘法。這是統(tǒng)計(jì)推斷的估計(jì)階段,現(xiàn)在我們把注意力轉(zhuǎn)向統(tǒng)計(jì)推斷的另一個(gè)階段 假設(shè)檢驗(yàn)。1 古典線性回歸模型古典線性回歸模型有如下一些根本假定:A6.1 解釋變量X與擾動(dòng)誤差項(xiàng)不相關(guān)。A6.2 擾動(dòng)項(xiàng)的期望為零。該假定說(shuō)明,平均地看,隨機(jī)擾動(dòng)項(xiàng)對(duì)Y沒(méi)有任何影響。A6.3 同方差假定,即每個(gè)誤差項(xiàng)的方差為一常數(shù)。A6.
38、4 無(wú)自相關(guān)假定,即兩個(gè)誤差項(xiàng)之間不相關(guān)。 2 普通最小二乘估計(jì)量的方差與標(biāo)準(zhǔn)差有了1的這些假定,我們就能夠估計(jì)OLS估計(jì)量的方差及標(biāo)準(zhǔn)差: 注意公式中X有大小寫(xiě) 方差可由下式估計(jì): ,是殘差平方和RSS,即Y真實(shí)值與估計(jì)值差的平方和的正平方根稱為估計(jì)值得標(biāo)準(zhǔn)差或是回歸標(biāo)準(zhǔn)差。3 普通最小二乘估計(jì)量的性質(zhì)假設(shè)滿足古典線性回歸模型的根本假定,那么在所有無(wú)偏估計(jì)量中,OLS估計(jì)量具有最小方差性。即OLS估計(jì)量是最優(yōu)線性無(wú)偏估計(jì)量。線性:即b1,b2是隨機(jī)變量Y的線性函數(shù)。無(wú)偏性最小方差性即:b1的方差小于其他任何一個(gè)B1的無(wú)偏估計(jì)量的方差。b2的方差小于其他任何一個(gè)B2的無(wú)偏估計(jì)量的方差。4 OL
39、S估計(jì)量的抽樣分布或概率分布我們需要在古典線性回歸模型的根本假定上再增加一條假定: 在總體回歸函數(shù)中,誤差項(xiàng)服從均值為零,方差為的正態(tài)分布。這個(gè)假定的理論根底是概率統(tǒng)計(jì)中著名的中心極限定理:獨(dú)立同分布隨機(jī)變量,隨著變量個(gè)數(shù)的無(wú)限增加,其和的分布近似服從正態(tài)分布。誤差項(xiàng)Ui代表了回歸模型中沒(méi)有列出的所有其他影響因數(shù),而每個(gè)影響因數(shù)對(duì)Y的影響可能都很微弱。如果所有這些因數(shù)都是隨機(jī)的,Ui代表所有這些因數(shù)之和,那么可以作以上假定。5、估計(jì)參數(shù)的顯著性檢驗(yàn)以對(duì)B2的參數(shù)估計(jì)b2的假設(shè)檢驗(yàn)來(lái)說(shuō)明。由于b2服從均值為B2,方差為2/Xi2的正態(tài)分布, 那么變量Z服從標(biāo)準(zhǔn)正態(tài)分布 Z=( b2 B2)/ /
40、Xi2)N(0,1)由于2是知參數(shù),我們用的估計(jì)來(lái)代替,即 ( b2 B2)/ /Xi2)tn-2 可以提出雙邊檢驗(yàn)如下; Ho: B2 =0, H1: B20擬合優(yōu)度的檢驗(yàn):判定系數(shù)可以證明TSS=ESS+RSS,這說(shuō)明 總離差平方和=回歸平方和+殘差平方和即Y與其均值的總離差的平方和可以分解為兩局部:一局部歸于回歸線產(chǎn)生的,另一局部歸于隨機(jī)因數(shù)產(chǎn)生的。1=ESS/TSS+RSS/TSS定義r2=ESS/TSS一般的情況是:ESS和RSS均不為零。如果ESS明顯比RSS大,那么樣本回歸函數(shù)將在很大程度上解釋了Y的變動(dòng),這時(shí)r2接近于1。正態(tài)性檢驗(yàn):JB檢驗(yàn)回歸估計(jì)的一項(xiàng)重要假定是誤差項(xiàng)服從正
41、態(tài)分布,Jarqe和Bera建立了如下的檢驗(yàn)統(tǒng)計(jì)量: JB=n(S2+(K-3)2/4) /6其中,n為樣本容量,S為偏度,K為蜂度。他們證明了在正態(tài)性假定下,JB統(tǒng)計(jì)量漸近地服從自由度為2的2分布, JBsay2(2)其中say表示漸近地。因此這是一種基于大樣本的對(duì)OLS殘差是否服從正態(tài)性的檢驗(yàn)方法。許多統(tǒng)計(jì)軟件中都包括這種檢驗(yàn)方法。 我們可以看到,如果變量服從正態(tài)分布零假設(shè),那么其偏度S為0,蜂度K為3,因此JB統(tǒng)計(jì)量的值為零,如果變量不是正態(tài)分布,那么JB統(tǒng)計(jì)量將是一個(gè)逐步增大的值。在某一顯著水平下,根據(jù)計(jì)算的JB值,如果超過(guò)臨界的2值,那么將拒絕正態(tài)分布的零假設(shè);但如果沒(méi)有超過(guò)臨界的2
42、值,那么不能拒絕零假設(shè)。當(dāng)然,如果計(jì)算出2的p值,那么可以知道得到這一2值的精確概率。三、多元回歸假設(shè)檢驗(yàn)多元回歸模型的假設(shè):零均值假定:E(ui)=0 (2) 同方差假定:Var(ui)=2 (3) 白噪聲假定: uiN(0, 2) (4) 無(wú)自相關(guān)假定:Cov(ui,uj)=0, ij解釋變量之間不存在線性關(guān)系,稱為非多重共線性。估計(jì)多元回歸方程的擬合優(yōu)度:多元判定系數(shù)R2 r2的概念可以推廣到包含假設(shè)干個(gè)解釋變量的回歸模型。多元判定系數(shù)(Multiple Coefficient of Determination)R2與單回歸模型的判定系數(shù)r2 的公式是一樣的, R2 =ESS/TSS其中
43、ESS為回歸平方和,TSS為總離差平方和,與一元回歸模型不同在于:現(xiàn)在的ESS表示所有解釋變量對(duì)應(yīng)變量變動(dòng)的解釋程度,其值與多個(gè)解釋變量有關(guān)。R稱為多元相關(guān)系數(shù)(coefficient of multiple correlation)。對(duì)回歸參數(shù)的假設(shè)檢驗(yàn)單參數(shù)的假設(shè)檢驗(yàn)多元回歸參數(shù)的檢驗(yàn)中,單參數(shù)的假設(shè)檢驗(yàn)與一元回歸方程的參數(shù)估計(jì)根本是一樣的,Z=(bi-Bi)/se(bi) N(0,1) 那么 (bi-Bi)/ /(xi2)t(n-k-1)其中是的估計(jì)量,n是樣本數(shù),k是解釋變量數(shù)。運(yùn)用t檢驗(yàn)可以進(jìn)行顯著性檢驗(yàn)。對(duì)參數(shù)的聯(lián)合假設(shè)的檢驗(yàn)在實(shí)踐中的許多多元回歸模型中,檢驗(yàn)回歸系數(shù)是顯著的,但是
44、它們聯(lián)合或集體對(duì)應(yīng)變量的影響卻是不顯著的這在多重共線性的討論中將更詳細(xì)進(jìn)行討論,因此,除了考慮單個(gè)參數(shù)的顯著性檢驗(yàn)以外,還需要考慮總體回歸線的顯著性檢驗(yàn),即作以下的零假設(shè): H0: B1=B2=Bk =0為此,我們構(gòu)造檢驗(yàn)統(tǒng)計(jì)量 F=(ESS/(k-1)/(RSS/(n-k) Fk-1,n-k其中,ESS為來(lái)自回歸的方差被所有解釋變量解釋的應(yīng)變量的變動(dòng), RSS為來(lái)自殘差的方差未被解釋變量解釋的應(yīng)變量的變動(dòng), K為解釋變量的個(gè)數(shù)包括常數(shù),n為樣本觀察數(shù)。F值越大,表示解釋變量聯(lián)合對(duì)應(yīng)變量的變動(dòng)的解釋局部的比例越大,就越有理由拒絕上述的零假設(shè)。在實(shí)際中,由上式計(jì)算F值,在所選擇的顯著水平下,將其
45、與F的臨界值Fk-1,n-k進(jìn)行比擬。例如,模型有兩個(gè)解釋變量,觀察值個(gè)數(shù)為20,顯著水平為1%,由F分布表,可以查得F臨界值為F2,170.01=6.11。如果計(jì)算的F值超過(guò)F臨界值Fk-1,n-k,那么拒絕零假設(shè)。注意:F統(tǒng)計(jì)量還可以表為 F=(R2/(k-1)/(1-R2)/(n-k)4、設(shè)定誤差與校正判定系數(shù) 在多元回歸分析中,在構(gòu)建模型時(shí)我們可能增減解釋變量的個(gè)數(shù),在這個(gè)嘗試過(guò)程中,每次所得的判定系數(shù)可能是不同的,盡管看似差異不大,但這種有限的差異可能在統(tǒng)計(jì)上還是顯著的,如何看待這種差異呢? 1模型中的解釋變量的個(gè)數(shù)越多, R2就越大; 2由于R2的定義式中沒(méi)有考慮到自由度,而解釋變
46、量的增減,ESS或RSS的自由度都是變化的, 因此,在嚴(yán)格意義上我們無(wú)法比擬同一應(yīng)變量但不同個(gè)數(shù)解釋變量的回歸模型的樣本判定系數(shù)。 3校正判定系數(shù)=1-(1- R2)(n-1)/(n-k), 校正判定系數(shù)可以使我們對(duì)同應(yīng)變量不同解釋變量個(gè)數(shù)不同的回歸模型進(jìn)行比擬。 4一般而言,如果增加變量的系數(shù)的|t|值大于1這里的t值是在零假設(shè):總體的系數(shù)為零下計(jì)算得到的,校正判定系數(shù)就會(huì)增加;只要校正判定系數(shù)值增加,就可以增加解釋變量的個(gè)數(shù)。 5盡管我們有了校正判定系數(shù)這一比擬的工具。但在建摸時(shí),應(yīng)該以經(jīng)濟(jì)理論為依據(jù),并充分利用以往的工作經(jīng)驗(yàn),一旦建立了理論模型,不要任意地從模型中刪除某個(gè)解釋變量。 5
47、回歸模型的結(jié)構(gòu)穩(wěn)定性檢驗(yàn):Chow檢驗(yàn)當(dāng)回歸模型涉及時(shí)間序列數(shù)據(jù)時(shí),受突變或重大政策性因數(shù)的影響,應(yīng)變量和解釋變量之間可能會(huì)發(fā)生結(jié)構(gòu)變化。 如何發(fā)現(xiàn)模型中是否確實(shí)發(fā)生了這類變化呢?我們考慮以下的例子:討論美國(guó)個(gè)人儲(chǔ)蓄Y與個(gè)人可支配收入X之間的關(guān)系,觀測(cè)是1970-1995的時(shí)間序列數(shù)據(jù)。 如果根據(jù)這些數(shù)據(jù)直接進(jìn)行回歸,這實(shí)際上隱含地假定在這26年間個(gè)人儲(chǔ)蓄Y與個(gè)人可支配收入X之間的關(guān)系沒(méi)有發(fā)生太大的變化。這可能是過(guò)于理想的假定,事實(shí)上1982年美國(guó)遭遇了自1948年以來(lái)最嚴(yán)重的經(jīng)濟(jì)衰退,城市失業(yè)率高達(dá)約10%, 這是否會(huì)擾亂收入和儲(chǔ)蓄之間的關(guān)系。為此,我們將數(shù)據(jù)分為兩個(gè)階段,并得到相應(yīng)的回歸方
48、程如下: 時(shí)期:1970-1995 Yt=A+BXt+u1t n=26 1970-1981 Yt=A1+ A2Xt+u2t n=12 1982-1995 Yt= B1+B2Xt+u3t n=14 利用觀察數(shù)據(jù),得到回歸方程如下: Ytt 1 t=(4.89) (8.89) R2, d.f.=26-2=24 ,S1 Ytt 2 t=(0.09) (9.60) R2,d.f.=10 ,S2 Ytt 3 t=(4.69) (1.77) R2,d.f.=12,S3注:Si分別表示第i個(gè)回歸方程的殘差平方和RSS。上述回歸結(jié)果是否有所不同,我們?nèi)绾闻袛嗄兀?Chow檢驗(yàn)的假定:u2tN(0,2), u3
49、tN(0,2), 即第2和第3個(gè)回歸方程中的隨機(jī)誤差服從同方差的正態(tài)分布。兩個(gè)隨機(jī)誤差項(xiàng)u2t 和u3t相互獨(dú)立。 Chow檢驗(yàn)的思想: 由于S1是在假設(shè)Ai=Bi (i=1,2)的條件下得到的,我們稱S1為限制的殘差平方和, 記作RSSR。由于兩組樣本相互獨(dú)立,將S2和S3相加,稱S2+S3為非限制殘差平方和,記作RSSUR。 如果模型中確實(shí)不存在結(jié)構(gòu)變化,那么RSSR和RSSUR在統(tǒng)計(jì)意義上是相同的。于是,我們可以構(gòu)建如下的F統(tǒng)計(jì)量 F=(RSSR- RSSUR)/k)/ (RSSUR/(n1+n2-2k) ) 如果在置信水平下,計(jì)算的F值沒(méi)有超過(guò)臨界值F,我們不能拒絕參數(shù)是穩(wěn)定的零假設(shè);
50、相反,如果計(jì)算的F值超過(guò)了F臨界值F,那么拒絕參數(shù)是穩(wěn)定的假設(shè)。 運(yùn)用Chow檢驗(yàn)需要注意:運(yùn)用Chow檢驗(yàn)必須先檢驗(yàn)沒(méi)有異方差的情況。Chow檢驗(yàn)的結(jié)果只告訴我們回歸方程2和回歸方程3是否不同,而無(wú)法得知導(dǎo)致這種差異的原因。Chow檢驗(yàn)需要事先假定結(jié)構(gòu)發(fā)生變化的時(shí)間點(diǎn)。四、虛擬變量1定義:回歸分析中的定性的變量包括解釋變量或被解釋變量稱為虛擬變量。例如實(shí)踐中經(jīng)常會(huì)遇到的分類變量:性別、種族、膚色、宗教、民族、婚姻等,一般可以通過(guò)建立虛擬變量來(lái)將這些因數(shù)“定量化,并賦值0和1。即:具備某種屬性該虛擬變量取值為1;不具備這種屬性取值為0。2、如果解釋變量?jī)H僅是虛擬變量的模型稱為方差分析模型(AN
51、OVA)。我們考察以下模型 Y=B1+B2D+u其中Y表示初職年薪,D為虛擬變量取值為1,當(dāng)學(xué)歷是大學(xué)畢業(yè);取值為0,當(dāng)學(xué)歷為非大學(xué)畢業(yè)。其中B2表示大學(xué)畢業(yè)初職年薪與非大學(xué)畢業(yè)年薪的差距。 E(YD=1)-E(YD=0)= B1+B2 - B1= B2上述模型的一個(gè)實(shí)證的例子。 se=(0.31) (0.44) t=(57.7) (7.44) p=(0.000) (0.000) r23、虛擬變量的性質(zhì):一個(gè)因素的虛擬變量的個(gè)數(shù):如果一個(gè)因素有m類,那么需要引進(jìn)個(gè)m-1個(gè)虛擬變量,如果不遵循這個(gè)原那么,就可能陷入“虛擬變量陷阱即出現(xiàn)多重共線性。虛擬變量的賦值是任意的,賦值為0的一類稱為基準(zhǔn)類,
52、基準(zhǔn)類的選擇可以根據(jù)研究的目的而定。差異截距系數(shù)即虛擬變量的系數(shù)說(shuō)明了取值為1的類的截距值與基準(zhǔn)截距值的差距。4、虛擬變量的應(yīng)用在討論回歸模型結(jié)構(gòu)穩(wěn)定性中的應(yīng)用Chow檢驗(yàn)?zāi)茯?yàn)證樣本區(qū)間內(nèi)存在結(jié)構(gòu)變動(dòng),但并沒(méi)有揭示樣本的結(jié)構(gòu)性變動(dòng)究竟將會(huì)影響到回歸模型的截距值的不同,或斜率值的不同,還是兩者均不同。我們還是運(yùn)用討論Chow檢驗(yàn)時(shí)所用的例子。1970-1981: Yt=A1+A2Xt+u11982-1995: Yt=B1+B2Xt+u2其中:Yt為第t期的儲(chǔ)蓄,X t 為第t期的收入,u1或u2為隨機(jī)項(xiàng)。當(dāng)Ai =Bi ,i=1,2, 一致回歸當(dāng)A1B1, A2 =B2, 平行回歸當(dāng)A1=B1,
53、 A2B2, 并發(fā)回歸當(dāng)A1B1, A2B2, 相異回歸現(xiàn)在的問(wèn)題是如何知道儲(chǔ)蓄和收入的關(guān)系是上述哪一種情況。虛擬變量技術(shù)的解決方法:我們建立以下的模型 Yt=C1+C2Dt+C3Xt+C4 (Dt Xt)+ ut其中,Dt = 1,t=1982-1995,Dt = 0,t=1970-1981, 運(yùn)用表9-5的數(shù)據(jù),得到下面的回歸結(jié)果:Yttt-0.0655 (Dt Xt) se=(20.16) (33.08) (0.0145) (0.0159) t=(0.05) (4.61) (5.54) (-4.10) p=(0.960) (0.000) (0.000) (0.000) R2 容易驗(yàn)證差異
54、截距和差異斜率各自均是統(tǒng)計(jì)顯著的,這說(shuō)明經(jīng)濟(jì)蕭條前后的儲(chǔ)蓄函數(shù)是不同的。即 1970-1981美國(guó)的平均儲(chǔ)蓄函數(shù):Ytt 1982-1995美國(guó)的平均儲(chǔ)蓄函數(shù):Yt=153.5148Xt在季度分析中的應(yīng)用經(jīng)濟(jì)時(shí)間序列常呈現(xiàn)月度或季度變化的規(guī)律,虛擬變量法是從時(shí)間序列數(shù)據(jù)中消除季節(jié)性影響的一種方法其他方法有移動(dòng)平均法、聯(lián)系相關(guān)法等。我們通過(guò)一個(gè)例子來(lái)說(shuō)明著方面的應(yīng)用。Eric Sowey博士運(yùn)用以下模型來(lái)研究澳大利亞個(gè)人消費(fèi)與收入的關(guān)系:Yt=B1+B2D2t+B3D3t+B4D4t+B5Xt+ut 1Yt2t3t4tt Se=(0.9345) (0.3729) (0.3901) (0.4706
55、) (0.0055)t=(3.4998) (11.296) (3.0417) (7.5023) (17.278)p=(0.002) (0.000) (0.005) (0.000) (0.000)R2Yt=B1+B2D2t+B3D3t+B4D4t+B5Xt+B6(D2tXt)+B7(D3tXt)+B8(D4tXt)+ut 2Yt2t3t4t+t2tXtt=(1.8193)* (0.6933) (-0.1221) (0.7082) (5.8931)* (0.5208)R23tXt4tXt (0.8067) (0.4234)問(wèn)題是究竟采用那一個(gè)模型,值得注意的是1式基于假設(shè)不同季節(jié)是平行回歸,而2那
56、么是基于更一般的假設(shè),即不同季節(jié)的回歸線是不相似的。在實(shí)踐中,最好采用更為一般的2式,以防止犯模型設(shè)定偏差。如果差異斜率都是統(tǒng)計(jì)不顯著的,然后可以試用1式,看看差異截距是否是統(tǒng)計(jì)顯著的。當(dāng)然各差異截距是統(tǒng)計(jì)不顯著的,那么基準(zhǔn)類與其他類就沒(méi)有差異。在以上這個(gè)例子中,按照以上的順序,先對(duì)2進(jìn)行估計(jì),可見(jiàn)差異斜率都是統(tǒng)計(jì)不顯著的;然后采用1式進(jìn)行估計(jì),從而采用模型1。五、多重共線性 多重共線性的概念。古典線性回歸模型的假設(shè)之一:不存在完全的多重共線性,即多元回歸的各解釋變量之間不存在完全的線性關(guān)系。實(shí)際上,很少遇到完全多重共線性的情況如果這種情況出現(xiàn),無(wú)法進(jìn)行參數(shù)估計(jì);常見(jiàn)的是接近或高度多重共線性的
57、情況,這是我們不可能獲得所有參數(shù)的唯一估計(jì)值,也就是不能根據(jù)某一樣本做任何統(tǒng)計(jì)推斷例p. 202。 2、多重共線性的實(shí)際后果使OLS估計(jì)精確度下降。估計(jì)的方差標(biāo)準(zhǔn)差偏大,置信區(qū)間變寬。參數(shù)估計(jì)不顯著。由于標(biāo)準(zhǔn)差變大,導(dǎo)致t 值下降,不能拒絕系數(shù)為零的假設(shè)。估計(jì)的穩(wěn)定性下降。對(duì)于樣本數(shù)據(jù)的微小變化,估計(jì)量以及它的標(biāo)準(zhǔn)差非常敏感??赡艿玫藉e(cuò)誤的參數(shù)符號(hào)的估計(jì)。難以估計(jì)各個(gè)解釋變量對(duì)于回歸平方和(ESS)或R2的奉獻(xiàn)。如果研究的目的是用模型來(lái)預(yù)測(cè)解釋變量的未來(lái)均值,而且存在的共線性能一直保持即這種共線性并不易消除,我們還是可以采用R2選擇模型,具有一定共線性的模型的預(yù)測(cè)能力可能比共線性并沒(méi)有那么高,
58、但是解釋能力不強(qiáng)R2偏低的模型高。 但是,如果研究不僅是為了預(yù)測(cè),而且還要可靠地估計(jì)所選模型的各個(gè)參數(shù),那么嚴(yán)重的共線性將是一件“壞事。3、多重共線性的測(cè)定由于我們假設(shè)解釋變量是非隨機(jī)的,因此,多重共線性不是總體的特征,而是樣本的特征。多重共線性一般是一個(gè)程度的問(wèn)題,而不是存在與否的問(wèn)題。由于對(duì)于非實(shí)驗(yàn)數(shù)據(jù),我們無(wú)法確定其共線性的性質(zhì)和程度,因此,沒(méi)有針對(duì)共線性的單一的測(cè)定方法,我們所具有的是一些經(jīng)驗(yàn)法那么??晒┻x擇的一些討論多重共線性的方法:出現(xiàn)R2較高,但t 檢驗(yàn)不顯著零假設(shè):系數(shù)為零較多。檢驗(yàn)解釋變量相互之間的相關(guān)性通過(guò)樣本相關(guān)系數(shù)來(lái)測(cè)定。值得注意的是:一般來(lái)說(shuō),線性相關(guān)是共線性較高的充
59、分條件,但不是必要條件,即解釋變量之間的相關(guān)系數(shù)可能較低,但可能存在共線性更詳細(xì)的討論可以參閱 Damodar N Gujarati, Basic Econometrics, 3nd editor, McGraw-Hill, NY,1995, pp. 335-336。附屬subsidiary回歸或輔助(auxiliary)回歸。一般,在解釋變量之間存在一定的相關(guān)的情況下,往往R2較高,但解釋變量系數(shù)的t 檢驗(yàn)很少是統(tǒng)計(jì)顯著的,需要采用這一方法,進(jìn)一步討論哪些變量可能是其他變量的線性組合。即將解釋變量逐一對(duì)剩余解釋變量進(jìn)行回歸,然后對(duì)樣本的決定系數(shù)Ri2進(jìn)行F檢驗(yàn)(F= Ri2 (n-k)/(1
60、- Ri2)(k-1)。方差膨脹因素VIF, Variance Inflation Factor,首先讓我們考慮參數(shù)估計(jì)量的方差, Var(bi)=2/(1-Ri2)xik2 =(2/xik2)VIPi其中,VIPi=1/(1-Ri2)。由上式可見(jiàn),bi的方差不僅取決于VIPi,還取決于ui的方差2和xi的方差xik2。因此,以下的情況是可能發(fā)生的:Ri2的值很高,但是2較低或xik2較高,或者兩種情況同時(shí)出現(xiàn),以至Var(bi)較低,t值較高。這說(shuō)明輔助回歸中獲得的Ri2可能只是多重共線性的一個(gè)外表指標(biāo),共線性本身并不必然導(dǎo)致較高的標(biāo)準(zhǔn)差。但是,如果VIF值降至接近1,我們可以不必?fù)?dān)憂由于方
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園保健知識(shí)培訓(xùn)課件
- 金昌電梯裝修施工方案
- 干部法律知識(shí)培訓(xùn)課件
- 水塔工程施工方案
- 兒童租賃門(mén)店合同范例
- 個(gè)人勞務(wù)派遣工合同范例
- 個(gè)人田地出租合同范例
- 人工代加工合同范例
- 品牌引導(dǎo)消費(fèi)者行為的技巧計(jì)劃
- 秘書(shū)工作任務(wù)安排計(jì)劃表
- 電影院管理與運(yùn)營(yíng)服務(wù)流程手冊(cè)
- 8.2 二氧化碳的性質(zhì)和用途 同步練習(xí)
- GB/T 44536-2024CVD陶瓷涂層熱膨脹系數(shù)和殘余應(yīng)力試驗(yàn)方法
- 現(xiàn)代家政導(dǎo)論-課件 6.1.1認(rèn)識(shí)道德與職業(yè)道德
- 北京市東城區(qū)2022-2023學(xué)年高三上學(xué)期期末考試地理試卷 含答案
- 深圳益電通變頻器說(shuō)明書(shū)TD90
- 人教版初中八年級(jí)物理上冊(cè)課件-第1章-機(jī)械運(yùn)動(dòng)
- 《中小型無(wú)人駕駛航空器垂直起降場(chǎng)技術(shù)要求》編制說(shuō)明
- 國(guó)有企業(yè)內(nèi)部控制的問(wèn)題與改進(jìn)措施
- 企業(yè)員工健康管理與關(guān)懷計(jì)劃實(shí)施方案
- 爭(zhēng)做“四有好老師”-當(dāng)好“四個(gè)引路人”
評(píng)論
0/150
提交評(píng)論