一元線性回歸模型.ppt_第1頁
一元線性回歸模型.ppt_第2頁
一元線性回歸模型.ppt_第3頁
一元線性回歸模型.ppt_第4頁
一元線性回歸模型.ppt_第5頁
已閱讀5頁,還剩150頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章 一元線性回歸模型,第一節(jié) 相關(guān)分析和回歸分析 一.經(jīng)濟變量之間的相互關(guān)系: 經(jīng)濟變量之間的關(guān)系,大體可分為兩類,一類是函數(shù)關(guān)系;另一類是統(tǒng)計相關(guān)關(guān)系 函數(shù)關(guān)系是指變量之間存在著完全確定性的依存關(guān)系 。例如,當(dāng)價格不變時,銷售量X與銷售額Y之間的關(guān)系。 相關(guān)關(guān)系是指現(xiàn)象之間客觀存在的非確定性數(shù)量對應(yīng)依存關(guān)系 。例如,每畝耕地的施肥量X與畝產(chǎn)量Y之間的關(guān)系 。,函數(shù)關(guān)系與相關(guān)關(guān)系聯(lián)系,兩者雖有明顯區(qū)別,但兩者之間并無嚴(yán)格的界限,由于存在測量誤差等原因,函數(shù)關(guān)系在實際中往往通過相關(guān)關(guān)系表現(xiàn)出來; 在研究相關(guān)關(guān)系時,若要找出現(xiàn)象間數(shù)量的內(nèi)在聯(lián)系和表現(xiàn)形式,往往又需要借助函數(shù)關(guān)系的形式來加以描述; 因此,可以說,相關(guān)關(guān)系是相關(guān)分析的研究對象,函數(shù)關(guān)系是相關(guān)分析的工具。,二、相關(guān)分析,研究一個變量與另一個(組)變量之間 相關(guān)方向和相關(guān)密切程度的一種統(tǒng)計分析方 法。 相關(guān)分析目的: 明確變量之間有無關(guān)系, 確定相關(guān)關(guān)系的表現(xiàn)形式(曲線與直線), 判定相關(guān)關(guān)系的方向, 測定相關(guān)關(guān)系的密切程度等。,(一)、相關(guān)關(guān)系的分類,1.從變量之間相互關(guān)系的方向來看,可以成為正相關(guān)與負相關(guān); 2.按相關(guān)關(guān)系涉及的變量(或因素)的多少,可分為單相關(guān)與復(fù)相關(guān)、偏相關(guān); 3.按變量之間相關(guān)關(guān)系的表現(xiàn)形式來看,可以分成為直線相關(guān)和曲線相關(guān); 4.按相關(guān)的程度來分,可以分為不相關(guān),不完全相關(guān)和完全相關(guān)三類; 函數(shù)關(guān)系是相關(guān)關(guān)系的一種特殊情況。,(二)相關(guān)關(guān)系的度量,在相關(guān)分析中,通過繪制相關(guān)表和相關(guān)圖,可以對現(xiàn)象之間存在的相關(guān)關(guān)系的方向、形式和密切程度作直觀的、大致的判斷。 1.相關(guān)表:將現(xiàn)象之間的相關(guān)關(guān)系,用表格來反映,這種表稱為相關(guān)表,分為簡單相關(guān)表和分組相關(guān)表。例如,某農(nóng)場試驗田在七次試驗中,獲得的小麥產(chǎn)量與施肥量的觀察資料,表2-1 施肥量與小麥產(chǎn)量的觀察數(shù)據(jù),2.相關(guān)圖:,將變量之的關(guān)系,通過圖形來表示,這種圖形為相關(guān)圖。又稱為散點圖,通過相關(guān)圖,可以大致看出兩個變量之間有無相關(guān)關(guān)系、相關(guān)的形態(tài)、方向及密切程度。,圖2-1相關(guān)散點圖,3.相關(guān)系數(shù),通過線性相關(guān)圖、表可以粗略地觀察兩個變量之間相互關(guān)系的類型、方向以及相關(guān)的密切程度,但無法確切地表明兩個變量之間線性相關(guān)的程度。 英國著名統(tǒng)計學(xué)家卡爾皮爾遜(Karl Pearson)1890年設(shè)計了一個用于測定兩個變量之間線性相關(guān)程度和相關(guān)方向的指標(biāo)簡單相關(guān)系數(shù),也稱為Pearson相關(guān)系數(shù)。 (1)相關(guān)系數(shù)的定義 (2)相關(guān)系數(shù)的計算 (3)根據(jù)相關(guān)系數(shù)初步判定變量之間的關(guān)系 (4)簡單相關(guān)系數(shù)的缺陷,(1)相關(guān)系數(shù)的定義,離差,在、象限:,在、象限:,(x,y符號相同),(x,y符號相反),判斷,如果所有的觀測值落在、象限,離差之積 為正,則X、Y為正相關(guān),如果所有觀測值在、象限,離差之積 為負,則X,Y為負相關(guān),如果所有的觀測值散落在四個象限內(nèi),則正的和負的乘積 趨于互相抵消,其乘積之和將趨于0。 如果所有變量值X和Y與其平均數(shù)的離差乘積之和為正,則X和Y之間就是正相關(guān)。用符號表示為: 如果所有變量值X和Y與其平均數(shù)的離差乘積之和為負,則和之間是負相關(guān)。用符號表示為:,缺點:,離差乘積之和 提供了X和Y之間的一個相關(guān)度量。但是,這樣來度量相關(guān)關(guān)系,只能表示相關(guān)方向,要表示具體相關(guān)程度還有缺點: 受觀測值數(shù)目n影響,觀測值數(shù)目n越多, 越大,相關(guān)程度越強; 受X,Y計量單位的影響,如果將X和Y的單位改為噸,則X,Y數(shù)值就更小,同樣觀測值,相關(guān)度量結(jié)果不同。,為了克服第個缺點,用觀測值數(shù)目n除xy,即 叫做X和Y的協(xié)方差, 協(xié)方差不僅能直接顯示X與Y是正相關(guān)還是負相關(guān);而且能反映X與Y兩個變量的“共變性”。 Sxy消除了樣本單位數(shù)多少的影響,但仍然受觀測值計量單位的影響;,為了克服第缺點,給協(xié)方差除以X,Y各自的標(biāo)準(zhǔn)差: Sx , Sy 這樣便可消除變量計量量單位的影響。 標(biāo)準(zhǔn)差Sx和Sy的作用,在于對X,Y與各自平均數(shù)的離差,分別用各自的標(biāo)準(zhǔn)差為尺度,加以標(biāo)準(zhǔn)化,然后再求標(biāo)準(zhǔn)差的協(xié)方差,用符號 表示,即:,相關(guān)系數(shù)定義式,皮爾遜相關(guān)系數(shù)的最簡式,其中:,2.相關(guān)系數(shù)的計算,積差式,同理:,相關(guān)系數(shù)簡捷式,相關(guān)系數(shù)平均式,4.等級相關(guān)系數(shù),也稱為斯皮爾曼 (Spearman) 相關(guān)系數(shù),用來度量定序變量之間的線性相關(guān)關(guān)系,就是把有聯(lián)系的定量變量或定性變量的具體表現(xiàn)按等級次序排列,形成兩個定序數(shù)列,再測定標(biāo)志等級與標(biāo)志等級間的相關(guān)程度的一種方法,等級相關(guān)法又稱順位相關(guān)法. 用rs表示。 式中,n為樣本容量,D為序列等級之差,即d=X等級-Y等級 。Spearman相關(guān)系數(shù)的適用范圍較Pearson相關(guān)系數(shù)要廣得多。,(三)相關(guān)系數(shù)的范圍,1.相關(guān)系數(shù)的絕對值不超過1,即|r|1 2.根據(jù)相關(guān)系數(shù)的符號,判定正相關(guān)(正比例)r 0、負相關(guān)(反比例)r0. 3.根據(jù)相關(guān)系數(shù)的大小,判定: 當(dāng)r= 0時,稱為不相關(guān)。或者不存在直線相關(guān),但可能存在其他類型的關(guān)系。 當(dāng)0 |r| 0.3時, 稱為微弱相關(guān)。 當(dāng)0.3 |r| 0.5時,稱為低度相關(guān)。 當(dāng)0.5 |r| 0.8時,稱為中度相關(guān)。 當(dāng)0.8 |r| 1時,稱為高度相關(guān)。 當(dāng) |r| =1,完全相關(guān),即所有散點完全在一條直線上,也就是函數(shù)關(guān)系。,正相關(guān)(我國人均消費函數(shù)),X為我國人均國民收入,Y為我國人均消費, 相關(guān)系數(shù):0.98,負相關(guān),Y與X的相關(guān)系數(shù):-0.92,不相關(guān)(不排除存在曲線相關(guān)),相關(guān)系數(shù)為:4.24E-18,Y,X,(四)相關(guān)分析的特征,.兩個變量是對等關(guān)系,不分彼此,不反映任何自變量和因變量的關(guān)系,互換順序是一樣的,是雙向的關(guān)系。 . 相關(guān)系數(shù)的范圍是 -1r1,其值大小反映兩變量間相關(guān)的密切程度,正負號表示正相關(guān)或負相關(guān),其值的大小與尺度無關(guān)。 .兩個變量都是隨機變量,這也反映對等關(guān)系。而且相關(guān)關(guān)系要以定性分析為前提,不然就會出現(xiàn)“虛假相關(guān)”。,(五)簡單相關(guān)系數(shù)的缺陷,(1)只能度量兩個變量之間呈線性相關(guān)比例變化的關(guān)系,當(dāng)|r|很小甚至等于0時,不一定表明X與Y之間就不存在其他非線性類型的關(guān)系 (2)只能算出一個相關(guān)系數(shù);r表明兩變量之間的線性關(guān)系,只表明協(xié)變的存在,不揭示變異的原因,不能確定變量之間的因果關(guān)系。 (3)簡單相關(guān)系數(shù)只適用于兩個變量之間的相關(guān)關(guān)系,所以稱為簡單相關(guān)系數(shù)若變量為三個或三個以上時,就要用復(fù)相關(guān)系數(shù)計算。,(4)偏相關(guān)系數(shù),大千世界中復(fù)雜的、多種因素存在相互關(guān)聯(lián)。為了描述其間的關(guān)聯(lián),這里定義的相關(guān)系數(shù)雖然比協(xié)方差指標(biāo)優(yōu)越,但是仍然存在不足之處:它裹脅了其它變量的影響或者它們之間的關(guān)系乃是其它變量的變化所致. 要剔除其它變量的影響,只研究指定兩個變量的影響,必須再定義偏相關(guān)系數(shù)令其它變量保持不變,此時這兩個變量的相關(guān)系數(shù),稱為偏相關(guān)系數(shù)。,總體相關(guān)系數(shù),兩個變量X和Y之間真實的線性相關(guān)程度是用總體相關(guān)系數(shù)表示的。總體相關(guān)系數(shù)為: 式中, 分別是總體X和Y的協(xié)方差,X的總體標(biāo)準(zhǔn)差和Y的總體標(biāo)準(zhǔn)差。 由于總體未知,無法計算,我們可以利用樣本觀測值的相關(guān)系數(shù)r給出 的一個估計,即樣本相關(guān)系數(shù)r是總體相關(guān)系數(shù)的估計值。,三、回歸分析,回歸分析的主要內(nèi)容: (一).回歸的含義及特點 (二).回歸分析與相關(guān)分析的聯(lián)系 (三).回歸分析的基本概念 1.總體回歸函數(shù) 2.總體回歸模型 3.樣本回歸函數(shù) 4.樣本回歸模型,(一).回歸的含義,回歸分析的產(chǎn)生的歷史 回歸分析法最早由著名的英國生物學(xué)家、統(tǒng)計學(xué)家高爾登(F.Gallton)達爾文的表弟所創(chuàng)。早年,加爾頓致力于化學(xué)和遺傳學(xué)領(lǐng)域的研究。 1889年高爾登和他的朋友K.Pearson收集了上千個家庭的身高、臂長和腿長的記錄,企圖尋找出兒子們身高與父親們身高之間關(guān)系的具體表現(xiàn)形式,在研究父親們的身高與兒子們的身高之間的關(guān)系時,主要是想由此來探討人口的平均身高具有穩(wěn)定性的原因,建立了回歸分析法。,1.“回歸”一詞的由來,“回歸”見1889年F.Gallton的論文普用回歸定律。 他在研究中發(fā)現(xiàn);一群高個子的父親的子女的平均高度要低于其父輩的平均身高,一群矮個子父親的子女的平均身高要高于其父輩的平均身高。 或者說,高個子父親的子女的平均高度與矮個子父親的子女的平均高度都有“回歸”到全體父輩的平均高度的傾向(趨勢), 用高爾登的話說,這是“回歸到中等”。,2.回歸分析的現(xiàn)代含義:,現(xiàn)在回歸分析法已遠非高爾登的本意,而是研究子女的平均身高如何隨著其父親身高的變化而變化,即研究子女的平均身高對父親身高的依賴性。并探討如何根據(jù)父親的身高,來預(yù)測和估計子女的平均身高。 對于“父親身高”的每一水平,相應(yīng)得到的是“子女身高”的一個分布(這可以通過重復(fù)抽樣得到) 。而且,隨著“父親身高”的增加,子女的平均身高也在增加,可用一條直線近似地似合這些平均值點。如下圖:,這條直線近似地反映了子女身高對父親身高的依賴程度,而回歸分析所要研究的就是這種依賴性。,再例如,家庭的消費支出與家庭收入有著密切的關(guān)系,而回歸分析所要研究的就是家庭的平均消費支出如何隨著家庭收入水平的變化而變化,以及對應(yīng)于每一個特定的家庭收入水平,其相應(yīng)的平均消費支出水平是多少。 回歸分析用以找出變量之間關(guān)系的具體表現(xiàn)形式,成為探索變量之間關(guān)系的最重要方法。,3.回歸分析的定義,研究一個變量(被解釋變量或因變量)對一個或多個其他變量(解釋變量或自變量)的依賴關(guān)系,其目的在于根據(jù)已知的或固定解釋變量的數(shù)值,來估計或預(yù)測被解釋變量的總體平均值。 這個定義歸納起來為兩點:一是研究被解釋變量對解釋變量的依賴關(guān)系,采用的方法是配合直線或曲線。二是研究目的是用解釋變量的值來預(yù)測或估計總體的平均值。,4.回歸分析的分類,回歸分析是指對具有相關(guān)關(guān)系的變量,依據(jù)其關(guān)系的形態(tài),選擇一個合適的數(shù)學(xué)模型(回歸方程),用來近似地表示變量間數(shù)量平均變化關(guān)系的一種統(tǒng)計方法。 按分析變量的多少,可以分為一元回歸分析與多元回歸分析; 按分析變量間表現(xiàn)形態(tài)不同,可以分為線性回歸分析與非線性回歸分析等。 本章僅討論只有一個自變量的一元線性回歸分析的有關(guān)理論與方法。,5.回歸分析的特點,兩個變量之間不是對等關(guān)系。即必須根據(jù)研究目的,確定其中一個是自變量,另一個是因變量;是單向關(guān)系。 回歸方程反映的是變量間的具體的變動關(guān)系,不是抽象系數(shù),在X,Y兩個變量中,從方程式看,存在著兩個回歸式,是兩條斜率不同的回歸直線,其意義是不同的。其回歸系數(shù)有正負號,表示兩個變量變動的方向,大小表示在單位一定的情況下意義是明確的。 回歸分析對資料的要求是,因變量是隨機變量,而自變量是可控制的變量,是給定的數(shù)值。,(二).相關(guān)分析與回歸分析關(guān)系,相關(guān)分析是回歸分析的基礎(chǔ)和前提。如果缺少相關(guān)分析,沒有從定性上說明現(xiàn)象之間是否具有相關(guān)關(guān)系,沒有對相關(guān)關(guān)系的密切程度作出判斷,就不能進行回歸分析,即使勉強進行了回歸分析,也是沒有意義的。 回歸分析是相關(guān)分析的深入和繼續(xù)。僅僅說明現(xiàn)象間具有密切的相關(guān)關(guān)系是不夠的,只有進行了回歸分析,擬合了回歸方程,才可能進行有關(guān)的分析和預(yù)測,相關(guān)分析才有實際的意義,回歸分析和相關(guān)分析與因果關(guān)系,回歸分析是在相關(guān)分析和因果關(guān)系分析的基礎(chǔ)上,去研究解釋變量對應(yīng)變量(被解釋變量)的影響。 因果關(guān)系是指兩個或兩個以上變量在行為機制上的依賴性,即指一個(或一組)變量直接影響、決定另一個變量的水平,因果關(guān)系確立的前提是必須對經(jīng)濟行為進行定性分析和理論上的思考。 具有因果關(guān)系的變量之間一定具有數(shù)學(xué)上的相關(guān)關(guān)系,有相關(guān)關(guān)系的變量之間并不一定具有因果關(guān)系,因此,回歸分析正是研究具有因果關(guān)系的相關(guān)關(guān)系。,(三).回歸分析的基本概念,回歸分析是研究一個變量(被解釋變量)對一個或多個其它變量(解釋變量)的依存關(guān)系; 由于統(tǒng)計相關(guān)的隨機性,回歸分析關(guān)心的是當(dāng)一個或多個其它變量(解釋變量)取某個確定值(條件)時,與之相關(guān)的另一個變量(被解釋變量)所有可能出現(xiàn)的對應(yīng)值的平均值。 例如研究家庭消費支出對家庭可支配收入的依存關(guān)系:,例: 60戶家庭可支配收入和消費支出情況,每月家庭消 費支出,的條件均值,不同收入水平的家庭消費支出散點圖,1.總體回歸函數(shù),由散點圖可以看出,均值點恰好都落在一條直線上,稱這條描述條件均值變化情況的直線為總體回歸直線(函數(shù))。 一般地,對應(yīng)每一個收入水平X,都可以得到一個Y的條件均值,說明E(Y/x)是x的一個函數(shù),用公式表示即為: E(Y/Xi)=f(Xi) (2-10) 稱(2-10)式所代表的函數(shù)為總體回歸函數(shù),常記為PRF(Population Regression Function) PRF描述了總體的平均變化情況??傮w回歸函數(shù)具體取什么函數(shù)形式,需要根據(jù)實實踐經(jīng)驗和經(jīng)濟理論來確定,最簡單的是線性總體回歸函數(shù)。,2.隨機擾動項,總體回歸函數(shù)只是描述了總體變化情況,也就是說,回歸直線只是在其它條件保證不變的情況下,代表平均消費和收入之間的精確關(guān)系(函數(shù)關(guān)系) 但就個別家庭來說,其消費支出就不全在這條直線上,而是圍繞著這條直線上下波動,與該點的均值產(chǎn)生一個偏差。為了更完善地描述個別家庭消費者支出的變化情況,特引進一個變量 。 (2-11) 偏差ui是一個不可觀測的、可正可負的隨機變量,在計量經(jīng)濟學(xué)中稱作隨機擾動項(stochastic disturbance)或隨機誤差項(stochastic error),3.總體回歸模型,引入隨機擾動項ui之后,對應(yīng)每一個可支配收入Xi值就有多個家庭的消費支出Yi值,亦即Yi的值有一個概率分布,而不是一個確定的單一值,所以,其關(guān)系表示為: (2-11) 稱(2-11)式為總體回歸模型( PRM ,Population Regression Model) (2-11)式表明,給定可支配收入水平Xi,個別家庭的消費支出Yi由兩部分組成:一部分是 ,即由X的變化所引起的Yi(平均)變化部分,另一部分來自未包括在模型中的諸多隨機性因素的綜合影響部分。,在計量經(jīng)濟學(xué)中,可以這樣來解釋變量間聯(lián)系的真實關(guān)系,如果其他條件都保持不變,則Y的變化完全可以由X的變化來解釋。但是,在實際經(jīng)濟現(xiàn)象中,其他因素不能不保持不變,因此,在函數(shù)中引進隨機擾動項,用來說明未明顯包括在函數(shù)中的其他變量的變化。 誤差的隨機性使得Y與X之間呈現(xiàn)出一種隨機的因果關(guān)系,由于經(jīng)濟變量之間大多數(shù)量是不確定的相關(guān)關(guān)系,因此,用這種形式描述經(jīng)濟關(guān)系更加準(zhǔn)確。 隨機擾動項ui具有非常豐富的內(nèi)容,起著重要的作用,隨機擾動項的性質(zhì)決定著計量經(jīng)濟方法的選擇和使用,因此,將要專門討論隨機誤差項的特性。,隨機擾動項意義:,4.樣本回歸函數(shù)(SRF),隨機樣本(一),隨機樣本(二),例圖,4.樣本回歸函數(shù),為了反映總體的變化情況,我們只能由樣本“信息”來估計總體,根據(jù)樣本資料所做出的,用以估計總體回歸函數(shù)的函數(shù),就稱為樣本回歸函數(shù),記為SRF(Sample Regression Function)。 顯然,樣本回歸線的函數(shù)形式應(yīng)與總體回歸線的函數(shù)形式一致。若是總體回歸線為 , 則樣本回歸線可表示為: (2-12) 其中 是樣本回歸線上與X相對應(yīng)的值,可視為總體條件均值的估計; 是樣本回歸函數(shù)的截距系數(shù), 是樣本回歸函數(shù)的斜率系數(shù)。,5.樣本回歸模型,由于隨機性,實際觀測到的被解釋變量值,并不完全等于其樣本條件均值,也即散點圖中,樣本點與其樣本回歸直線之間的距離,叫做剩余項或殘差(residual),記作ei,那么: 從概念上講,ei與ui類似,代表了其他影響Yi隨機因素的集合,因此可以看出ui的估計量,從而有 即 (2-13) (2-13)式稱為樣本回歸模型Sample Regression Model,簡記為 SRM 。,樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系,進行回歸分析的主要目的,就是要根據(jù)樣本回歸模型作出對總體回歸模型的估計,在所舉家庭收入的例子中,也就是要用 來估計 更確切地,就是根據(jù)有可能獲得的樣本回歸函數(shù)對總體回歸函數(shù)做出合理的估計 可是,樣本終究不等于總體,樣本回歸函數(shù)SRF幾乎總是和總體回歸函數(shù)PRF存在著差異,這從圖2.6可以清楚看出,,樣本回歸函數(shù)與總體回歸函數(shù)的區(qū)別,首先,總體回歸模型描述總體中變量Y與X之間的關(guān)系,總體回歸函數(shù)雖然未知,但它是確定的(一條); 樣本回歸模型描述所觀測的樣本中變量Y與X之間的關(guān)系,而由于從總體中每次抽樣都能獲得一個樣本,就都可以擬合一條樣本回歸線; 對于不同的樣本,由于樣本波動,所得的擬合直線也不同,因此,樣本回歸線是隨抽樣波動而變化的,是不確定的,可以有許多條,所以,樣本回歸線還不是總體回歸線,至多只是未知的總體回歸線的近似反映。,樣本回歸函數(shù)與總體回歸函數(shù)的區(qū)別,其次,總體回歸函數(shù)是依據(jù)總體全體觀測資料建立的,其參數(shù) 是確定的常數(shù);而樣本回歸函數(shù)依據(jù)樣本觀測資料建立的,參數(shù) 是隨抽樣而變化的隨機變量。 再次,總體回歸函數(shù)中的 是不可直觀測的;而樣本回歸函數(shù)中的ei是只要估計出樣本回歸的參數(shù)就可以計算的值。 總之,由于樣本對總體存在代表性誤差,樣本回歸函數(shù)幾乎總是與總體回歸函數(shù)存在差異 。,圖中: A點左邊部分SRF過低估計了PRF, A點右邊部分義過高估計了PRF。,第二節(jié) 回歸模型的參數(shù)估計,一、普通最小二乘估計 二、擬合直線的性質(zhì) 三、回歸模型的基本假定 四、OLS估計式的特性 五、參數(shù)的估計誤差與置信區(qū)間,一.普通最小二乘估計 (Ordinary Least Square) 簡稱OLS ),問題的提出必要性,通過相關(guān)系數(shù)或協(xié)方差證實變量之間存在關(guān)系,僅僅只是知道變量之間線性相關(guān)的性質(zhì)正(負)相關(guān)和相關(guān)程度的大小。 既然它們之間存在線性關(guān)系,接下來必須探求它們之間關(guān)系的具體表現(xiàn)形式是什么? 最好用數(shù)學(xué)表達式將這種關(guān)系盡可能準(zhǔn)確、嚴(yán)謹?shù)谋硎境鰜鞾=0+1X+u把它們之間的內(nèi)在聯(lián)系挖掘出來。也就是直線中的截距0=?;直線的斜率1=?,解決問題的思路可能性,由于Y=0+1X+u中的截距和斜率不可能得到,只能獲得來自于總體的樣本,假設(shè)從總體中獲取了一組(Xi,Yi)的樣本觀察值(X1,Y1),(X2,Y2),(Xn,Yn); 于是,可采用不同的方法確定樣本回歸直線以擬合樣本觀察值, 尋找變量之間直線關(guān)系的方法很多,比如直觀畫線法,幾何劃線法(兩點連線),半數(shù)平均法等; 那么如何從這些曲線中選擇一條最佳擬合直線?,最小二乘法的思路,1為了精確地描述Y與X之間的關(guān)系,必須使用這兩個變量的每一對觀察值,才不至于以點概面。 2在Y與X的散點圖上畫出直線的方法很多。任務(wù)?找出一條能夠最好地描述Y與X(代表所有點)之間的直線。 3什么是最好?找出判斷“最好”的原則。 直觀地,從幾何意義上講,應(yīng)該使樣本回歸曲線盡量靠近這些數(shù)據(jù)點。,三種距離,距離是度量實際值與擬合值是否相符的有效手段,點到直線的距離點到直線的垂直線的長度。 橫向距離點沿(平行)X軸方向到直線的距離。 縱向距離點沿(平行)Y軸方向到直線的距離。也就是實際觀察點的Y坐標(biāo)減去根據(jù)直線方程計算出來的Y的擬合值。即是Y的實際值與擬合值之差,差異大擬合不好,差異小擬合好,所以又稱為擬合誤差或殘差。,最小二乘法的數(shù)學(xué)原理,最好也就是使剩余ei(或殘差)都很小,可是,因為ei有正有負,簡單代數(shù)和 相互抵消 將所有縱向距離平方后相加,即得誤差平方和,“最好”直線就是使誤差平方和最小的直線“擬合總誤差達到最小”; 公式: 于是可以運用微分學(xué)中求極小值的原理,將求最好擬合直線問題轉(zhuǎn)換為求誤差平方和最小。,數(shù)學(xué)推證過程,最小二乘法原理:要求各個散點到回歸直線的離差的平方和最小。即 (2-19) 是 的二次函數(shù)并且是非負的,連續(xù)可微的,所以存在極小值; 根據(jù)微分學(xué)分別對 求一階偏導(dǎo)數(shù),并令其等于零,就可以得到求 的正規(guī)方程,解方程,根據(jù)正規(guī)方程,可解得 , 如下: 稱為回歸參數(shù)的最小二乘估計式(Ordinary Least squares Estimator)簡稱為OLSE 其中:n為樣本容量,,回歸系數(shù) 與相關(guān)系數(shù)r關(guān)系,如果用變量值X和Y與其平均數(shù)的離差形式表示,則:,二、擬合直線的性質(zhì),樣本回歸直線經(jīng)過樣本均值點 估計殘差的均值為零 Y的真實值和擬合值有共同的均值 估計殘差與自變量不相關(guān) 估計殘差與擬合值不相關(guān),樣本回歸直線經(jīng)過樣本均值點,根據(jù)正規(guī)方程: 兩邊同除以n得: 因此有: 所以樣本回歸線 必然通過均值點( ),估計殘差和為零 ( ),由 因為 所以 即:,3Y的真實值和擬合值有共同的均值 ( ),因為 而 所以 即 這說明,對 的每一個預(yù)測值都可估計出 ,由各個樣本觀測值所估計的 的均值與實際樣本觀測值 的均值 相等。,4估計殘差與自變量不相關(guān) ( ),因為,由最小二乘法(2-21)式知:,所以: 從而 ,說明 不相關(guān),5估計殘差與擬合值不相關(guān) ( ),由此可見, 不相關(guān),關(guān)于回歸直線性質(zhì)的總結(jié),三、回歸模型的基本假定,(一)關(guān)于隨機項的假定 零均值假定 同方差假定 非自相關(guān)假定 解釋變量與隨機誤差項不相關(guān)假定 正態(tài)性假定,1. u是一個隨機變量,其均值為零,此假定表示對于每一個Xi, 的值可在其條件均值的上下波動, 與其均值的偏差有正有負,但在大量觀測下,平均來說其總和為零,(2.2.1),同時假定:,此假定表示對于每一個Xi,由于隨機擾動因素的存在,Yi的值在其條件均值E(Y/Xi)附近上下波動,如果模型設(shè)定正確,Yi相對于E(Yi/Xi)的正偏差和負偏差都會有,故此隨機擾動項可正可負,發(fā)生的概率大致相同,平均地看,這些隨機擾動項有互相抵消的趨勢。在此假定下,才有: E(Yi/Xi)=EE(Yi/Xi)+E(ui/Xi)=E(Yi/Xi)+ E(ui/ Xi)=E(Yi/ Xi)= 顯然,這里暗含著的假定條件,也就是假定總體回歸直線通過X與Y的條件均值組成的點。,2u的方差為常數(shù)(同方差假定),此假定表示對于所有的Xi,ui對其均值的分散程度都是相同的。且方差都等于某個常數(shù) ,如圖2.8所示。,同時假定:,可以推證:因變量Yi與ui具有相同的方差,這是因為,因此,該假定同時表明,被解釋變量Yi可能取值的 分散程度也是相同的。,3u的協(xié)方差等于零 (COV(ui,uj)=0 (ij),即隨機誤差項之間是互不相關(guān),互不影響的。 由于 即有: 此假定表示不同觀測值的隨機項是互不相關(guān)的,即不會出現(xiàn)圖2.9中(a)(b)情形,而呈現(xiàn)的是(c)的情況。,該假定同時表明,被解釋變量Yi的序列值 Y1,Y2,,Yn之間也是互不相關(guān)的。這是因為:,COV(Yi,Yj)=EYi -E(Yi/Xi) Yj -E(Yj/ Xi) = E(uiuj)=0。,4u與解釋變量無關(guān),此假定表示擾動項與解釋變量不相關(guān),即Xi項與ui項不趨向于共同變化,各自分別獨立對 Yi產(chǎn)生影響。 事實上,在回歸分析中,X在重復(fù)抽樣中固定取值,是確定性變量,因此,Xi與ui不相關(guān)的假定一般都能夠滿足。,5.正態(tài)性假定:uiN(0, ),即假定ui服從均值為零、方差為 的正態(tài)分布,假設(shè)5也表明被解釋變量Yi服從均值為 、方差為 的正態(tài)分布,即: YiN( , ) . 如果只利用最小二乘法進行參數(shù)估計,不需要誤差項ui服從正態(tài)分布這個假定條件,如果要進行假設(shè)檢驗和預(yù)測,就必須知道總體Yi的分布情況,如果Xi為非隨機變量,總體Yi與誤差項ui之間僅有均值E(Yi) 的差別。 由于被解釋變量分布的性質(zhì)決定于u,對于u的各項假定也適用于Yi的假定,中心極限定理,定理:獨立同分布隨機變量,當(dāng)隨著變量個數(shù)的無限增加,其和的分布趨向于服從正態(tài)分布。 擾動項代表大量未明確引入回歸模型的獨立變量(對于被解釋變量)的聯(lián)合影響,但這些被略去的變量所產(chǎn)生的影響都較小,有的可以度量,有的不可度量,可看作隨機因素 。 即使變量數(shù)目不是非常大或者這些變量不是嚴(yán)格獨立的,它們的和仍然可以服從正態(tài)分布。正是這個中心極限定理為的正態(tài)性假定提供了理論依據(jù),故正態(tài)性假定通常也不作檢驗。,高斯假定或古典假定,線性回歸模型如果滿足以上假定條件,就稱為古典的(或普通的)線性回歸模型,它是德國數(shù)學(xué)家Gauss于1921年首先提出的,所以也稱為高斯假定或古典假定。 直觀地看,這些假定的作用是便于分離回歸模型中每個因素的單獨影響,在回歸分析的參數(shù)估計和統(tǒng)計檢驗理論中,許多結(jié)論都以這些假定作為基礎(chǔ),換句話說,這些假定的成立與否將直接影響回歸分析中統(tǒng)計推斷的結(jié)論。 計量經(jīng)濟學(xué)正是對包括這些假定在內(nèi)的傳統(tǒng)回歸分析理論做了進一步的研究而有所發(fā)展,因此,也有人將計量經(jīng)濟方法稱為現(xiàn)代回歸分析。,(二)對變量和模型的假定,1解釋變量是非隨機的,即在重復(fù)抽樣時,解釋變量是一組固定的值,也就是說解釋變量無測量誤差。 2被解釋變量(對應(yīng)于某一固定的解釋變量)可以是隨機的,Y的值可能包含或者不包含測量誤差。 3,1解釋變量是非隨機的,即在重復(fù)抽樣時,解釋變量是一組固定的值,也就是說解釋變量無測量誤差。 2被解釋變量(對應(yīng)于某一固定的解釋變量)可以是隨機的,Y的值可能包含或者不包含測量誤差。 .正確地設(shè)定了回歸模型,即在經(jīng)驗分析中所用的模型沒有設(shè)定偏誤。,當(dāng)估計出模型參數(shù)后,接下來就要研究參估計值的精度,即樣本的估計值能否代表總體參數(shù)的真值。利用最小二乘法求得模型總體參數(shù) 和 的估計量 和 是樣本數(shù)據(jù)Xi和Yi的函數(shù),由于Yi 的隨機性以及抽樣時樣本的隨機波動,使參數(shù)的估計量和也是隨樣本而發(fā)生變化的隨機變量。 每次抽樣后,用最小二乘法估計的 和 與其總體參數(shù)值 和 總會有差異,但是在古典假定成立的情況下,最小二乘法估計的 和 是總體參數(shù)值 和 最佳線性無偏估計量(Best linear Unbiased Estimator簡稱BLUE),這就是著名的高斯馬爾可夫定理 .,四、最小二乘估計的特征,1無偏性(無偏估計式),(一)一個“優(yōu)良”的估計式應(yīng)具備的統(tǒng)計性質(zhì),2最小方差性(最佳估計式),設(shè) 是參數(shù) 的估計式,若對參數(shù) 的任意一個估計式都有 成立,則稱 是 的最小方差估計式。,3線性估計式,一個估計式如果是樣本觀測值的線性函數(shù),也就是說它決定于樣本數(shù)據(jù)的線性組合,它就是線性估計式,若樣本觀測為 ,則線性估計式將如以下形式:,4有效性(有效估計式),一個估計式與其它任何無偏估計式比較時,當(dāng)它具有無偏性且方差最小,它就是有效估計式,也就是說在所有無偏估計式中方差最小的估計式就是有效估計式。此性質(zhì)說明,“無偏性”和“最小方差性”,雖然都是一個“優(yōu)良”的估計式應(yīng)具有的重要特性,但對它們每一個孤立地來說,其本身并不重要,只有兩個結(jié)合起來使用才有意義。 一個估計式與真實參數(shù)的所有其他線性無偏估計式相比,如果它是線性的,無偏的,并且具有最小方差,它就是最佳線性無偏估計式BLUE(Best Linear Unbiased Estimator),(二)OLS估計式的特性,1、線性性:,同理可得:,2、無偏性,代人,所以,同理可得:,3、估計量方差最小的證明(思路),因為最小二乘估計量是線性的,設(shè)有一個任意的不等于最小二乘估計量的線性的無偏的估計量 。 如果證明這個任意的線性無偏估計量的方差大于最小二乘估計量的方差 那么,最小二乘估計量的方差就是一切線性無偏估計量中方差最小的,因而也是最好的。,(1)先求 和 的方差:,或:,(2)證最小方差性:,假設(shè) 是其它方法估計出的總體參數(shù)值 的線性無偏估計量,即 ,且 ,其中, 為不等于 的權(quán)數(shù)。,要使無偏性成立,必須滿足:,又因,因為,所以,即,而且等號只有當(dāng)ci=ki時才能成立,同理,五、參數(shù)的估計誤差與置信區(qū)間,1估計誤差 最小二乘估計得到的 和 ,只是總體回歸參數(shù) 和 的點估計值,這種點估計是由樣本得出的,由于存在抽樣波動,不同的樣本可能得出不同的點估計值,雖然其期望都為 和 ,即 和 是 和 的無偏估計量,但每個點估計值未必都等于 和 ,也就是說存在估計誤差,即估計值 與真值 有偏差 - 當(dāng)然,我們希望知道估計誤差究竟有多大,或者說 與 接近程度如何?,隨著抽樣的不同,誤差大小( - )是一個隨機變量,因此,需要考慮概率意義下的平均誤差,由于 所以不能直接對估計誤差取均值,而應(yīng)對誤差的平方取平均,即: 可以看出,這是估計量 的方差;這一點也容易理解,因為OLS估計是無偏估計,均值即為參數(shù)真值,所以估計量關(guān)于均值的平均偏差方差也就反映了估計量與參數(shù)真值的平均偏差。,標(biāo)準(zhǔn)誤差SE(Standard Error),由于方差的計量單位與原變量的不一致,因此,在計量經(jīng)濟分析中常用標(biāo)準(zhǔn)誤差去度量估計量的精確性,標(biāo)準(zhǔn)誤差是方差的平方根,用SE(Standard Error)表示,這樣,參數(shù)估計量的平均誤差為: 這說明:由于是的無偏估計量,均值即為參數(shù) 真值, 的分布中心是 。標(biāo)準(zhǔn)差SE( )可用來衡量估計量 接近真值 的程度,判定估計量 的可靠性。所以估計量關(guān)于均值的平均偏差標(biāo)準(zhǔn)差也就反映了參數(shù)估計量與參數(shù)真值的平均偏差.,總體方差 估計,由于總體方差 未知,和 的方差和標(biāo)準(zhǔn)差實際上無法計算。由于隨機擾動項ui不可觀測,我們只能從ui的估計量殘差ei出發(fā),對總體方差 進行估計。 可以證明(證明見本章附錄C):總體方差 的無偏估計量為: 即: 因此,可以用 代替 ,參數(shù)估計量的估計標(biāo)準(zhǔn)誤差就成為:,估計誤差,同理參數(shù)估計量 的估計標(biāo)準(zhǔn)誤差為: 把 簡稱為 和 的估計誤差。 參數(shù)的估計誤差只是反映了估計量與真值的平均相對偏離程度; 越小,則 與 的近似誤差越小,但不能認為 與 之間的絕對誤差就是 。 這可以從參數(shù)的置信區(qū)間得到進一步的說明。,2區(qū)間估計,利用普通最小二乘法得到的只是參數(shù)的點估計,只是待估參數(shù)的一個近似值,而點估計本身既沒有反映這種近似值的精確度,又不知道它的誤差范圍。 為了對參數(shù)的取值情況有更多的了解,可以按一定的可靠性確定參數(shù)真值的取值范圍,用統(tǒng)計術(shù)語來說,就是在一定置信度下,求參數(shù)的置信區(qū)間,這就是參數(shù)的區(qū)間估計。為了說明這些問題,需要先確定最小二乘估計量的概率分布。,的概率分布,總體回歸模型 根據(jù)基本假定5 可得:YiN( , ) . 由于 和 分別是Yi的線性組合函數(shù),根據(jù)數(shù)理統(tǒng)計中正態(tài)分布變量的性質(zhì),即正態(tài)變量的線性函數(shù)仍服從正態(tài)分布,其分布函數(shù)由其均值和方差唯一決定 。 因為E( )= 所以:,t分布,由數(shù)理統(tǒng)計的定理知:若 是 的無偏估計 ,則統(tǒng)計量: 將 作標(biāo)準(zhǔn)化變換得: 根據(jù)t檢驗的定義得:,置信度,對于給定的顯著性水平 ,即置信度為 時,當(dāng)自由度一定時,統(tǒng)計量t的置信區(qū)間即已確定。 由于t分布曲線對稱于縱軸,故隨機變量t落入?yún)^(qū)間 范圍內(nèi)的概率為 ,等于t分布曲線下由直線 及橫軸所圍的面積,如圖:,置信區(qū)間,即就是 代換 即 于是,對于給定顯著性水平 ,參數(shù)的置信度為1- 的置信區(qū)間為: 同理: 解釋,第三節(jié) 一元回歸模型的統(tǒng)計檢驗,一、回歸系數(shù)的顯著性 二、模型的擬合優(yōu)度檢驗R2檢驗 三、模型的顯著性檢驗F檢驗,一、回歸系數(shù)的顯著性,1. 假設(shè)檢驗的基本思想 為什么要作假設(shè)檢驗? 所估計的回歸系數(shù) 、 和方差 都是通過 樣本計算的,都是隨抽樣而變動的隨機變量,它們真值 和 之間的差異是否顯著還需要加以檢驗。 所謂假設(shè)檢驗,就是對于未知參數(shù),先假設(shè)一個確定值,然后根據(jù)隨機選取的樣本數(shù)據(jù),采用適當(dāng)?shù)姆椒?,檢驗參數(shù)的假設(shè)值與真實值是否一致,從而決定接受或拒絕假設(shè)值。,對回歸系數(shù)假設(shè)檢驗的基本思想,在所估計樣本回歸系數(shù)概率分布性質(zhì)已確定的基礎(chǔ)上,在對總體回歸系數(shù)某種原假設(shè)成立的條件下,利用適當(dāng)?shù)挠忻鞔_概率分布的統(tǒng)計量和給定的顯著性水平 ,構(gòu)造一個小概率事件,判斷原假設(shè)結(jié)果合理與否。 因為一個小概率事件在一次觀察中可以認為基本不發(fā)生,如果該事件發(fā)生,就認為原假設(shè)不真,從而拒絕原假設(shè)接受備擇假設(shè)。,對回歸系數(shù)假設(shè)檢驗的方式,由于總體參數(shù) 和 是未知的,因此,需要對這兩個總體參數(shù)進行假設(shè)檢驗; 計量經(jīng)濟學(xué)中,主要是針對變量的參數(shù)真值是否為零來進行顯著性檢驗的。 目的:對簡單線性回歸,判斷解釋變量X是否對被解釋變量 的顯著影響因素。 在一元線性模型中,就是要判斷X是否對Y具有顯著的線性影響。這就需要進行變量的顯著性檢驗。,回歸系數(shù)的檢驗方法,已知 的概率分布 ,就可以對進行顯著性檢驗, 在實際應(yīng)用時,由于 未知,只能用其無偏估計量 代替,這時 的標(biāo)準(zhǔn)化變量就服從自由度為n-2的t分布,而不是正態(tài)分布: 即:,總體參數(shù)顯著性進檢驗的步驟:,1對總體參數(shù)提出假設(shè):原假設(shè)H0: =0 備擇假設(shè)H1: ,因此,備擇假設(shè)是雙邊檢驗。 2構(gòu)造統(tǒng)計量, 3. 在原假設(shè)H0的條件下,由樣本觀測值計算統(tǒng)計量t的值。 4.給定顯著性水平 ,查自由度為n-2的t分布表,得臨界值 。 5作出推斷:若 則拒絕H0: =0;接受0,即 與0有顯著區(qū)別,所對應(yīng)的變量X對Y的影響不容忽視。,二、模型的擬合優(yōu)度檢驗R2檢驗,問題的提出 因為OLS估計式具有最小方差性和無偏性,只是反映了這樣一個事實,即相對于一切樣本回歸函數(shù)來說,由OLS估計式所確定的樣本回歸函數(shù)具有某些特性,但它并不能說明單個樣本回歸函數(shù)具有較高的擬合程度; 雖然最小二乘法已經(jīng)使所估計的樣本回歸函數(shù)具有最小殘差平方和即達到最小,但殘差平方和即的值本身可能會很大;因此,就需要有一個度量擬合優(yōu)度的相對指標(biāo)。 下圖可以幫助我們理解這個問題,點與直線擬合很差,1.總離差平方和的分解,設(shè)對于樣本觀察值 ,由OLS得到的樣本回歸直線為SRF,,總變差的分解,由圖可看出,Y的第i個觀察值與樣本均值的離差稱為總離差, 記 ,總離差可以分作兩部分: 一部分: 是通過樣本回歸直線計算的擬合值與觀察值的平均值之差。它是由樣本回歸直線(解釋變量)所解釋的部分,是由于X的變化而引起的Y的變化。 另一部分: ,是實際觀察值與回歸直線的擬合值之差,稱為殘差,是樣本回歸直線所不能解釋的部分,是由隨機因素,觀測誤差等綜合影響而產(chǎn)生的。,總變差平方和的分解,因為, , 因此,我們利用加總?cè)侩x差平方和來反映總離差。 又因為, 所以,,(TSS)( RSS )( ESS ),總變差平方和 (TSS)被解釋變量Y的觀測值與其平均值的離差平方和(總平方和) 殘差平方和 (RSS)被解釋變量觀測值與估計值之差的平方和(未解釋的平方和) 回歸平方和 (ESS)被解釋變量Y的估計值與其平均值的離差平方和(回歸平方和),總變差平方和的分解后的定義:,平方和分解圖,為什么回歸平方和是由X引起的變動,2.可決系數(shù),對于一組確定的樣本數(shù)據(jù),總離差平方和是一個確定的數(shù)值,因此,在總離差平方和中,如果回歸平方和所占比例越大,殘差平方和所占比例越小,表明回歸直線與樣本點( )擬合得越好。 定義:回歸平方和 (解釋了的變差ESS) 在總變差 (TSS)中所占的比重稱為可決系數(shù),用R2 表示:,作用:可決系數(shù)越大,說明在總變差中由模型作出了解釋的部分占的比重越大,樣本回歸模型對樣本觀測值擬合優(yōu)度越好。反之可決系數(shù)小,說明模型對樣本觀測值的擬合程度越差。 特點:可決系數(shù)取值范圍: 隨抽樣波動,樣本可決系數(shù) 是隨抽樣而變動的隨機變量 可決系數(shù)是非負的統(tǒng)計量,可決系數(shù)的作用和特點,3.可決系數(shù)與相關(guān)系數(shù)的關(guān)系,(1)聯(lián)系 數(shù)值上,可決系數(shù)等于應(yīng)變量與解釋變量之間簡單相關(guān)系數(shù)的平方:,可決系數(shù)與相關(guān)系數(shù)的關(guān)系,(2)區(qū)別,運用可決系數(shù)時應(yīng)注意,回歸的主要目的如果是經(jīng)濟結(jié)構(gòu)分析,不能只追求高的可決系數(shù),而是要得到總體回歸系數(shù)可信的估計量,可決系數(shù)高并不表示每個回歸系數(shù)都可信任 如果建模的目的只是為了預(yù)測因變量值,不是 為了正確估計回歸系數(shù),一般可考慮有較高的可決系數(shù) 可決系數(shù)只是說明列入模型的所有解釋變量對 被解釋變量的聯(lián)合的影響程度,不說明模型中每個解釋變量的影響程度(在多元中),三、模型的顯著性檢驗F檢驗,對回歸模型的顯著性檢驗,就是檢驗總體回歸模型對總體的近似程度,也就是對模型中被解釋變量與解釋變量之間的線性關(guān)系在總體上是否顯著成立作出推斷,能滿足這一要求的檢驗便是F檢驗。 對于 由 和 兩部分組成 ,因此,解釋變量Xi對被解釋變量Yi的線性作用,可用總離差平方和的分解的結(jié)果進行分析。,回歸模型的顯著性檢驗的意義,由 或TSS=ESS+RSS知,回歸平方和ESS= 是解釋變量X對被解釋變量Y的線性作用的結(jié)果。 考慮比值ESS/RSS= 。如果這個比值大,則解釋變量X對被解釋變量Y的解釋程度高,可以推測總體存在線性關(guān)系。反之,總體可能不存在線性關(guān)系。故利用這個比值對總體線性關(guān)系進行推斷。 對給定的樣本,利用這個比值ESS/RSS對總體線性情況進行推斷,必須建立在統(tǒng)計假設(shè)檢驗基礎(chǔ)上。,自由度的分解,總離差平方和 總自由度為dfT=n-1,由于這n個觀測值受 的約束,當(dāng)n-1個觀測值確定以后,最后一個觀測值就不能自由取值了 ,因此,總離差 的自由度為n-1。 因為 ,計算 和 的兩個式子實際是對n個觀測值附加了兩個約束條件,失去兩個自由度,因此, 自由度為n-2。 在一元線性回歸模型中,只有一個解釋變量,所以回歸平方和 的自由度為1; 自由度分解 dfT=dfR+dfE,方差分析,模型: 1.原假設(shè): 備擇假設(shè):,2.構(gòu)造檢驗統(tǒng)計量F 統(tǒng)計量,由于 ,則其標(biāo)準(zhǔn)化變量 根據(jù)統(tǒng)計理論可知:一個標(biāo)準(zhǔn)正態(tài)變量的平方服從自由度為1的 分布 ,則 又有: 根據(jù)數(shù)理統(tǒng)計中F檢驗的定義有 即:,F檢驗,3.在原假設(shè)成立的條件下 ,求 4.對于給定的顯著性水平 ,可查F分布表取得臨界值 , 5.值 則拒絕原假設(shè)H0,即認為所建立的模型較好的反映了總體的特征,表明總體回歸模型的線性關(guān)系是顯著的。 若 ,則接受原假設(shè)H0,即認為所建立的模型不能反映總體的真實特征,表明總體回歸模型中X與Y之間線性依存關(guān)系不顯著。 說明:如果F顯著地大于1,即FF,小概率事件發(fā)生了,根據(jù)小概率原理,小概率事件在一次試驗中是不可能發(fā)生的,于是H0不成立。就不能認為X沒有作用。則直線是有意義的??煽啃?1- ,F檢驗的意義,對這種假設(shè)進行F檢驗,實質(zhì)上就是對一元線性回歸模型進行顯著性檢驗。因為: 這說明,F(xiàn)統(tǒng)計量是在考慮自由度的條件下,已解釋變差的平方和相對于殘差平方和的倍數(shù),就回歸模型整體來說,F(xiàn)統(tǒng)計量越大,表明回歸模型中的所有解釋變量對被解釋變量的解釋程度越高。,擬合優(yōu)度與F統(tǒng)計量之間的聯(lián)系,F顯著擬合優(yōu)度必然顯著 可以直觀地看出,如果模型對樣本有較高的擬合優(yōu)度,則F檢驗一般都能通過,即越容易拒絕原假設(shè) ,換句話說,樣本回歸函數(shù)對樣本數(shù)據(jù)的擬合程度好,則模型越能準(zhǔn)確地反映總體特征。因此,用來判斷估計的回歸方程顯著性的F檢驗, 實際上也是判定系數(shù)的顯著性檢驗.實際應(yīng)用中不必過分苛求R2值的大小。,F檢驗與t檢驗的關(guān)系,在一元線性回歸中,F(xiàn)檢驗和t檢驗是一致的,這是因為它們有相同的原假設(shè) ,并且t統(tǒng)計量和F統(tǒng)計量之間存在如下關(guān)系: 此時,對參數(shù)的顯著性檢驗(t檢驗)與對回歸總體線性的顯著性檢驗(F檢驗)是等價的。,第四節(jié) 預(yù)測,一、預(yù)測的定義與種類 二、點預(yù)測 三、區(qū)間預(yù)測 四、預(yù)測的精度,一、預(yù)測的定義與分類,預(yù)測是對于未來或未知的預(yù)計(估計)與推測; 預(yù)測不是臆測,這里的預(yù)測是科學(xué)的預(yù)測,它是建立在對預(yù)測對象認識、分析和科學(xué)的推理基礎(chǔ)之上的。 預(yù)測是計量經(jīng)濟研究的目的之一,也是回歸分析應(yīng)用的主要方面。 一元線性回歸模型預(yù)測,就是指由已知的或預(yù)先測定的解釋變量的數(shù)值,去估計被解釋變量在所觀測的樣本數(shù)據(jù)以外的數(shù)值。,預(yù)測的分類,內(nèi)插預(yù)測和外推預(yù)測。在解釋變量值屬于已知的樣本區(qū)間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論