版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、統(tǒng)計學(xué)第九章相關(guān)與回歸分析目錄第九章相關(guān)與回歸分析_ 2第一節(jié)相關(guān)分析_ 3一、相關(guān)關(guān)系的概念及分類_3二、相關(guān)關(guān)系的識別_4第二節(jié) 一元線性回歸分析_ 11一、一元線性回歸_11二、參數(shù)0,1 的最小二乘估計_12三、對一元回歸方程的評價_14四、一元回歸方程的預(yù)測區(qū)間_19第三節(jié) 多元線性回歸分析_ 21一、多元線性回歸模型_21二、多元回歸模型的參數(shù)估計_23三、對多元線性回歸方程的評價_23第四節(jié) 非線性回歸模型_ 26一、直接代換法_26二、間接代換法_27英文摘要與關(guān)鍵詞_ 29習(xí) 題 _ 29第 1頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析第九章相關(guān)與回歸分析通過本章的學(xué)習(xí),我們應(yīng)該知道:1.
2、如何判別相關(guān)關(guān)系2.回歸分析的基本假定3.一元線性回歸分析的內(nèi)容4.如何做多元線性回歸分析5.如何將非線性回歸模型轉(zhuǎn)換成線性模型第 2頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析相關(guān)與回歸分析是現(xiàn)代統(tǒng)計學(xué)中非常重要的內(nèi)容,它在自然科學(xué)、管理科學(xué)和社會經(jīng)濟領(lǐng)域有著十分廣泛的應(yīng)用。本章從介紹相關(guān)分析與回歸分析的基本概念與分類入手,以一元線性回歸模型為基礎(chǔ),引出包括多元線性回歸分析及非線性回歸分析中模型識別、參數(shù)估計、模型檢驗與預(yù)測等內(nèi)容。在分析變量之間關(guān)系的時,常用的基本模型有兩個,一是相關(guān)模型(correlation model),一是回歸模型(regression model) 。實踐中到底使用哪種模型取決于
3、研究者的研究目的和數(shù)據(jù)的收集方式和條件。在相關(guān)分析中,變量 X 和 Y 都被視為隨機變量,( X ,Y ) 服從二元分布;而回歸分析中,變量x 不是隨機變量,它被假定為一般變量,在事先選好的已知值中取值,變量Y 是隨機變量,在變量 x 的給定取值處有相應(yīng)的觀測值。 例如,考慮太陽鏡的日銷售數(shù)量Y 與日最高氣溫X 之間的關(guān)系問題。 如果我們隨機地選擇 36 天,記錄下這 36 天的太陽鏡銷售量和日最高氣溫( X i ,Yi ) ,i1, 36 ,它們是來自二維總體(隨機變量 )(X ,Y)的獨立同分布樣本;在這種情況下,應(yīng)用相關(guān)模型進行分析。另一情況是,假如研究者決定只在日最高氣溫 x 25、
4、30、 33、 35、36、 37、38、 39、40的那些天收集數(shù)據(jù),在日最高氣溫為上述事先設(shè)定的溫度的那些天中隨機地抽取 36 天,然后測量記錄下相應(yīng)的太陽鏡日銷售量,如在每一個日最高氣溫取值處,隨機抽取 4 天進行測量記錄;此時變量 x 就不再是隨機變量,變量 Y 是隨機變量,往往應(yīng)用回歸模型進行分析。有時這種區(qū)別并不是這么明顯。第一節(jié)相關(guān)分析一、相關(guān)關(guān)系的概念及分類(一)相關(guān)關(guān)系的概念無論是在自然界還是社會經(jīng)濟領(lǐng)域,一種現(xiàn)象與另一種現(xiàn)象之間往往存在著依存關(guān)系,當(dāng)我們用變量來反映這些現(xiàn)象的特征時,便表現(xiàn)為變量之間的依存關(guān)系。如某種商品的銷售額(y)與銷售量( x)之間的關(guān)系、商品銷售額
5、( y)與廣告費支出 ( x)之間的關(guān)系以及糧食畝產(chǎn)量 ( y)與施肥量( x1)、降雨量( x2 ) 、溫度( x3 )之間的關(guān)系等。統(tǒng)計學(xué)的主要研究對象是隨機變量,在多個變量的時候,至少有一個變量是隨機變量,因此我們對變量之間關(guān)系的分析是隨機變量之間的關(guān)系或隨機變量與確定變量之間的關(guān)系。變量之間的依存關(guān)系可以分為兩種:一是函數(shù)關(guān)系,指變量之間保持的嚴(yán)格的、確定的關(guān)系。如圓的面積 (S)與半徑之間的關(guān)系可表示為S = R2 ,當(dāng)圓的半徑R 的值取定后,其圓的面積也隨之確定。二是相關(guān)關(guān)系,指變量之間保持著不確定的依存關(guān)系。即變量間關(guān)系不能用函數(shù)關(guān)系精確表達,一個變量的取值不能由另一個變量唯一確
6、定,當(dāng)變量x 取某個值時,變量y 的取值可能有幾個或無窮多個。例如人的身高與體重這兩個變量,一般而言是相互依存的,但它們并不表現(xiàn)為確定的函數(shù)的關(guān)系。因為制約這兩個變量的還有其他因素,如遺傳因素、營養(yǎng)狀況和運動水平等,以至于同一身高的人可以有不同的體重,同一體重的人又表現(xiàn)出不同身高。變量間的這種不嚴(yán)格的依存關(guān)系就構(gòu)成了相關(guān)與回歸分析的對象。(二)相關(guān)關(guān)系的分類1. 按相關(guān)的程度可分為完全相關(guān)、不完全相關(guān)和不相關(guān)第 3頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析當(dāng)一個變量的變化完全由另一個變量所決定時,稱變量間的這種關(guān)系為為完全相關(guān)關(guān)系,這種嚴(yán)格的依存關(guān)系實際上就是函數(shù)關(guān)系。當(dāng)兩個變量的變化相互獨立、互不影響時,
7、稱這兩個變量不相關(guān)(與下面的不線性相關(guān)或線性無關(guān)不同) ,實際上,這里的不相關(guān)就是 (概率中的 )獨立,即變量間沒有任何關(guān)系。當(dāng)變量之間存在不嚴(yán)格的依存關(guān)系時,稱為不完全相關(guān)。不完全相關(guān)關(guān)系是現(xiàn)實當(dāng)中相關(guān)關(guān)系的主要表現(xiàn)形式,也是相關(guān)分析的主要研究對象。2. 按相關(guān)的方向可分為正相關(guān)和負相關(guān)當(dāng)一個變量隨著另一個變量的增加(減少)而增加(減少),即兩者同向變化時,稱為正相關(guān),例如家庭收入與家庭支出之間的關(guān)系,一般隨著家庭收入的增加,家庭支出也會隨之增加。當(dāng)一個變量隨著另一個變量的增加(減少)而減少(增加),即兩者反向變化時,稱為負相關(guān),如產(chǎn)品產(chǎn)量與單位成本之間的關(guān)系,單位成本會隨著產(chǎn)量的增加而減少
8、。3. 按相關(guān)的形式可分為線性相關(guān)和非線性相關(guān)當(dāng)變量之間的依存關(guān)系大致呈現(xiàn)為線性形式,即當(dāng)一個變量變動一個單位時,另一個變量也按一個大致固定的增 (減) 量變動, 就稱為線性相關(guān)。當(dāng)變量間的關(guān)系不按固定比例變化時,就稱之為非線性相關(guān)。上述的這些相關(guān)關(guān)系我們可以用圖9.1 來示意。圖 9.1 相關(guān)關(guān)系分類示意圖4. 按研究變量的多少可分為單相關(guān)、偏相關(guān)和復(fù)相關(guān)兩個變量之間的相關(guān),稱為單相關(guān)。一個變量與兩個或兩個以上其他變量之間的相關(guān),稱為復(fù)相關(guān)。在復(fù)相關(guān)的研究中,假定其他變量不變,專門研究其中兩個變量之間的相關(guān)關(guān)系時稱其為偏相關(guān)。變量之間的相關(guān)關(guān)系需要用相關(guān)分析方法來識別和判斷。相關(guān)分析,就是借
9、助于圖形和若干分析指標(biāo)(如相關(guān)系數(shù))對變量之間的依存關(guān)系的密切程度進行測定的過程。二、相關(guān)關(guān)系的識別(一)散點圖識別變量間相關(guān)關(guān)系最簡單的方法是圖形法。所謂圖形法,就是將所研究變量的觀察值以散點的形式繪制在相應(yīng)的坐標(biāo)系中,通過它們呈現(xiàn)出的特征,來判斷變量之間是否存在相關(guān)關(guān)系,以及相關(guān)的形式、相關(guān)的方向和相關(guān)的程度等。第 4頁統(tǒng)計學(xué)第九章 相關(guān)與回歸分析【例 9.1】在研究我國人均消費水平的問題時,把全國人均消費記為y,把人均國內(nèi)生產(chǎn)總值(人均GDP)記為 x。根據(jù)數(shù)據(jù)集01 摘錄樣本數(shù)據(jù) ( xi , yi ), i =1,2,9,如表 9.1 所示,問兩者之間存在什么樣的相關(guān)關(guān)系。表 9.1
10、我國人均國內(nèi)生產(chǎn)總值與人均消費金額數(shù)據(jù)單位:元年份人均國內(nèi)生產(chǎn)總值人均消費金額199548542236199655762641199760542834199863082972199965513138200070863397200176513609200282143818200391014089【解】根據(jù)表9.1 ,畫出(xi , yi ), i=1 , 2, . , n 的散點圖,見圖 9.2 。圖 9.2反映相關(guān)關(guān)系的散點圖從上圖中我們看到本例的樣本數(shù)據(jù)(xi , yi )大致分別落在一條直線附近,這說明變量x 與 y 之間具有明顯的線性相關(guān)關(guān)系。另外,所繪制的散點圖呈現(xiàn)出從左至右的上升趨勢
11、,它表明x 與 y 之間存在著一定的正相關(guān)關(guān)系,即隨著人均GDP的上升,人均消費金額也會增加。圖形法雖然有助于識別變量間的相關(guān)關(guān)系,但它無法對這種關(guān)系進行精確的計量。因此在初步判定變量間存在相關(guān)關(guān)系的基礎(chǔ)上,通常還要計算相關(guān)關(guān)系的度量指標(biāo)。下面我們縮小研究的范圍,僅僅研究兩個變量間的 線性 相關(guān)關(guān)系。兩個變量間線性相關(guān)關(guān)系的度量指標(biāo)有很多,應(yīng)用最廣泛的是相關(guān)系數(shù)。(二)相關(guān)系數(shù)相關(guān)系數(shù)是度量兩個變量( 現(xiàn)象 ) 間線性關(guān)系強度的數(shù)量指標(biāo)。我們先從直觀上了解兩個變量之間的相關(guān)系數(shù)的基本思想, 然后給出相關(guān)系數(shù)的一般的、正式的定義, 再考慮在不知道總體精確分布的情況下,如何由樣本估計相關(guān)系數(shù),最后
12、給出相關(guān)系數(shù)是否等于0 的檢驗方法。第 5頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析1. 直線相關(guān)系數(shù)的設(shè)計思想為了從直觀上了解相關(guān)系數(shù)的設(shè)計思想,我們考慮二元離散總體比較簡單的一種情形。設(shè)二元離散總體 ( X ,Y ) 只有 N 對可能的取值(xi , yi ), i 1, N ,且 P( X xi , Y yi )1 / N ,由此可以計算出隨機變量 X 和Y 均值分別為 E(X)X 和E(Y)Y ,方差分別為 Var ( X )22X 和 Var (Y)Y 。通過點( X , Y )畫兩條平行于 X 軸和 Y 軸的直線,將散點圖分成四個部分,見圖9.3 。圖9.3 (X ,Y )分割散點圖分布在、 部
13、分的點有 ( xiX )( yiY )0 ,分布在、 部分的點滿足( xiX )( yiY ) 0 ,如 果 使 得 ( xiX )( yiY ) 為 較 大 正 值 的 點 (xi , yi ) 占 有 了 總 體 分 布 的 大 部 分 概 率 , 則 有N( xiX )( yiY ) / N 大于 0,且取值較大,這時全部可能的取值點中,大多數(shù)都分布在、部分,i 1所以 X 和 Y 是正相關(guān);如果使得 ( xiX )( yiY) 為較大負值的點 ( xi , yi ) 占有了總體分布的大部分概率,N則有( xiX )( yiY ) / N 小于 0,且其絕對值較大,這時全部可能的取值點中
14、,大多數(shù)都分布在、i1部分,所以X 和 Y 是負相關(guān);如果使得 (xiX )( yiY ) 為較大正值的點和較大負值的點占有的總體N分布的概率大致相等,則有( xiX )( yiY ) / N 很小或近似為 0,這時點不規(guī)則地( 有時是均勻地 )i 1N散布在四個部分,所以X 與 Y 不相關(guān)。因此( xiX )( yiY)/ N 可用來衡量X 與 Y 的相關(guān)方向與程i1N度,值大表示變量間關(guān)系密切,值小表示變量間關(guān)系不密切。但( xiX )( yiY) / N 的值與 X、Y的i 1計量單位及X、Y 自身的變異程度都有關(guān),為了使不同總體的相關(guān)系數(shù)可以互相對比,將N( xiX )( yiY )
15、除以 X 與 Y 的標(biāo)準(zhǔn)差X 、 Y 以消除變量值大小和離差值大小不等的影響。這樣得i1第 6頁統(tǒng)計學(xué)第九章 相關(guān)與回歸分析到,N( xiX )( yi Y ) / Ni 1.XYN在上述二元總體分布的假定下,( xiX )( yiY ) /N 正是 X 和 Y 的協(xié)方差 Cov ( X ,Y ) 。i 12. 相關(guān)系數(shù)與 Pearson 相關(guān)系數(shù)受到上述設(shè)計思想的啟發(fā),將其一般化為一般二維隨機變量( 包括離散型和連續(xù)型) 。設(shè)二維隨機變量( X ,Y ) 有二元分布,它可以視為總體;如果變量X 和 Y 的方差 Var ( X ) 和 Var (Y ) 都大于 0,則Cov( X ,Y )Co
16、rr ( X ,Y )( 9.1)Var ( X ) Var (Y )稱為變量 X 和 Y 的相關(guān)系數(shù)或總體相關(guān)系數(shù),常常簡記為或 XY ,其中 Cov( X ,Y ) E( XEX )(YEY )為變量 X 和 Y 的協(xié)方差。可以證明: ( 1) | 1;(2)| 1 的充分必要條件是存在常數(shù)和 (0) 使得 YX 以概率 1 成立。上述性質(zhì)說明:( 1)相關(guān)系數(shù)的取值范圍是從 -1 到 1; | |的大小揭示了變量X 和 Y 間線性相關(guān)關(guān)系的強弱,變量間的線性相關(guān)關(guān)系程度隨著| |的減小而減弱,1 時,變量X 和 Y 之間具有完全線性關(guān)系YX ,反之亦成立;0 說明變量 X 和 Y 之間沒
17、有線性相關(guān)關(guān)系, 稱為不線性相關(guān)或線性無關(guān)。( 2)的符號說明變量間的線性相關(guān)關(guān)系的方向,大于 0, X 和 Y 正線性相關(guān),小于 0,X和Y 負線性相關(guān)。( 3)相關(guān)系數(shù)是說明線性聯(lián)系程度的,相關(guān)系數(shù)很小的變量間可能存在非線性聯(lián)系,如圖 9.1 的第三幅圖的變量間相關(guān)系數(shù)的絕對值是很小的。( 4)需要注意的是,變量 X 和 Y 不線性相關(guān)與 X 和 Y 獨立是兩個不同的概念。如果X 和Y 獨立,則必有 X 和 Y 不線性相關(guān);但是若X 和 Y 不線性相關(guān),卻不一定有X 和 Y 獨立,它們之間可能存在著非線性相關(guān)關(guān)系。然而,若( X ,Y ) 服從二元正態(tài)分布, X 和 Y 不線性相關(guān)和獨立是
18、等價的。如果二維隨機變量 ( X ,Y ) 的概率分布完全知道,則變量X 和 Y 的相關(guān)系數(shù)可以由( 9.1)式計算出來,這只是理想的情況,實際問題中,我們往往不知道要研究變量( X , Y ) 的概率分布,有時至多知道它們的分布類型, 如僅知道服從二元正態(tài)分布,但分布中的參數(shù)卻不清楚(如果 ( X ,Y ) 的概率分布完全知道了,它們間的關(guān)系自然很清楚了,就不需要做什么相關(guān)分析了!),這時將無法利用(9.1)式計算出相關(guān)系數(shù) 。此時要得到變量X 和 Y 的相關(guān)系數(shù),可以從總體( X , Y ) 中隨機地抽取容量為n 的樣本( X1 ,Y1), ( Xn ,Yn ) ,它們獨立、 同分布,和總
19、體 ( X ,Y ) 的分布相同, 如何由該樣本估計總體變量X 和 Y的相關(guān)系數(shù)呢?變量 X 和 Y 間的相關(guān)系數(shù),可以由樣本通過第 7頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析Rn( X iX )(YiY )i1( 9.2)nn( XiX )2(YiY )2i 1i 1進行估計。( 9.2)式中的統(tǒng)計量R 是隨機變量 (注:相關(guān)系數(shù)只是一個常數(shù),不是隨機變量),它是的一致估計量 (相合估計量 ) 和漸進無偏估計量,稱為樣本相關(guān)系數(shù)。由于(9.2)式中的統(tǒng)計量R 是由英國統(tǒng)計學(xué)家皮爾遜 ( Pearson) 提出的,所以也常稱為Pearson 相關(guān)系數(shù)。( 9.2)式可以化為以下形式nnnnXiYiXiYi
20、Ri 1i1i1( 9.3)nnnnn X i 2(X i )2n Yi 2( Yi )2i 1i 1i1i 1( 9.3 )式在計算時較為簡單,經(jīng)常用于實際計算。該公式看上去復(fù)雜,但由于沒有了“積差”,計算要簡便得多,另外該公式也便于用計算器上的統(tǒng)計功能計算。 把樣本 (X1,Y1), ( X n ,Yn ) 的 觀 測 值( x1, y1), , ( xn , yn ) 代入( 9.3)式即得相關(guān)系數(shù)的估計值nnnnxi yixiyiri 1i1i1(9.4)nnnnxi 2n(xi )2nyi2( yi )2i1i1i1i 1樣本相關(guān)系數(shù)是根據(jù)樣本觀察值計算的,隨著取樣的不同,相關(guān)系數(shù)的
21、值也會有所變化。【例 9.2】根據(jù)例9.1 的資料,計算人均消費與人均國內(nèi)生產(chǎn)總值的直線相關(guān)系數(shù)?!窘狻坷肊xcel 表計算出公式(9.4)中所需要的有關(guān)數(shù)據(jù),見圖9.4,再帶入公式計算:圖 9.4相關(guān)系數(shù)的計算表rnxyxyx2222nxyn y920229985261395287340.993861395 2943305766799454749628734 2第 8頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析學(xué)生:哦,相關(guān)系數(shù)好大,這說明人均消費額與人均國內(nèi)生產(chǎn)總值高度相關(guān)吧。教師:現(xiàn)在可不能這樣說!至于原因嘛,且看下面分解。3. 相關(guān)系數(shù)的檢驗例 9.2 計算的 Pearson 相關(guān)系數(shù) r 0.99
22、38相對于 0 來說已經(jīng)相當(dāng)大了,是否說明人均消費與人均國內(nèi)生產(chǎn)總值之間線性相關(guān)呢?僅僅看這個數(shù)值是不能確定二者之間的線性相關(guān)關(guān)系的。不要忘了這個數(shù)值僅僅是基于9 個樣本點計算出來的,它要受到抽樣誤差的影響。為了說明抽樣誤差對Pearson 相關(guān)系數(shù)的影響,請考慮圖9.5 所給出的二元總體(圖中給出了總體的全部取值),實際上這兩個變量之間沒有線性相關(guān)關(guān)系,總體相關(guān)系數(shù)0。假如現(xiàn)在從總體中抽取了一個隨機樣本,在圖中用圓圈標(biāo)出,這個樣本顯示所考慮的兩個變量之間有很強的線性關(guān)系,根據(jù)這個樣本觀測值計算Pearson 相關(guān)系數(shù)為r0.98。在這種情況下,樣本相關(guān)系數(shù)的值很大,但是兩個總體變量卻是獨立的
23、。因此總體的相關(guān)系數(shù)需要經(jīng)過正式的假設(shè)檢驗, 才能做出比較可靠、 科學(xué)的判斷和結(jié)論。 在實際應(yīng)用中, 一般都是根據(jù)樣本數(shù)據(jù)計算 Pearson 相關(guān)系數(shù),然后在對總體相關(guān)系數(shù)進行檢驗。圖 9.5 從二元總體中抽取的一個隨機樣本假定總體變量( X ,Y ) 服從二元正態(tài)分布N( X, Y,X ,Y , ) , ( X1,Y1), ( X n ,Yn ) 是來自該總體的一個隨機樣本。 要檢驗的假設(shè)為 H 0 :0;H1 :0(備擇假設(shè)或者為H1:0,H1:0)。則檢驗統(tǒng)計量為第 9頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析R n2(9.5)tR21這里 R 為 (9.2) 或 (9.3)式中的統(tǒng)計量,可以證明在
24、原假設(shè)成立的條件下,(9.5)式的統(tǒng)計量t 服從自由度為n 2 的 t 分布。計算檢驗的 t 統(tǒng)計量 t r n2 / 1r 2,然后,根據(jù)給定的顯著性水平和自由度 n 2 ,查 t 分布表中的相應(yīng)臨界值 t / 2 ,若 tt / 2 ,就拒絕原假設(shè),接受備擇假設(shè),認為總體相關(guān)系數(shù)顯著不為零,總體變量間確實存在線性相關(guān)關(guān)系;反之,則不能拒絕原假設(shè)。或者計算p 值 PH0 (| T |t ) ,如果 p 值小于顯著性水平,則拒絕原假設(shè)。若備擇假設(shè)為H 1 :0 ,則當(dāng) tt 時,拒絕原假設(shè),接受備擇假設(shè),否則不能拒絕原假設(shè);若備擇假設(shè)為H 1 :0 ,則當(dāng) tt 時,拒絕原假設(shè),接受備擇假設(shè),
25、否則不能拒絕原假設(shè)?!纠?9.3】根據(jù)上例結(jié)果,檢驗在 =0.05 的顯著性水平下,人均消費額與人均國內(nèi)生產(chǎn)總值是否具有線性相關(guān)關(guān)系?!窘狻咳羧★@著性水平0.05,查表得到臨界值得:t / 2 (9 2) 2.3646 ,檢驗統(tǒng)計量的值為:0.993892t=23.6510.99382由于 tt / 2 ,所以否定原假設(shè),接受備擇假設(shè),表明總體相關(guān)系數(shù)不為零,即人均國內(nèi)生產(chǎn)總值與人均銷售金額之間確實存在著線性相關(guān)關(guān)系。自己試著檢驗:人均消費額與人均國內(nèi)生產(chǎn)總值是否具有正線性相關(guān)關(guān)系。由 (9.2)或 (9.3) 式可知,統(tǒng)計量R 是隨機變量,它有自己的分布,但是R 的分布與總體( X,Y) 的
26、二元分布有關(guān)。另外,由(9.5)式可知, R 是 t 的函數(shù),因此可以從 t 分布的分布密度推導(dǎo)出統(tǒng)計量R 的分布密度和分布函數(shù), 這里不再給出R 的分布密度表達式。 本書附表九相關(guān)系數(shù)臨界值表實際上就是統(tǒng)計量R 分布的臨界值表。總體相關(guān)系數(shù)檢驗更簡單的方法是,先計算Pearson 樣本相關(guān)系數(shù) r ,然后再查相關(guān)系數(shù)臨界值表,查表時,要根據(jù)備擇假設(shè)的情況和n 2 與,查出相應(yīng)的臨界值。(1)對備擇假設(shè) H 1 :0 ,若 rr / 2 (n2) ,則拒絕原假設(shè), 接受備擇假設(shè),否則不能拒絕原假設(shè);(2)對備擇假設(shè) H 1 :0 ,若 rr ( n2) ,則拒絕原假設(shè),接受備擇假設(shè),否則不能拒
27、絕原假設(shè);(3)對備擇假設(shè) H 1 :0 ,若 rr (n2) ,則拒絕原假設(shè), 接受備擇假設(shè), 否則不能拒絕原假設(shè)。n9,0.05;因為是雙邊檢驗, 查得r / 2 (n 2) r0.025 (7)0.666,由于 |r|=0.9938>0.666 ,對于例 9.3,故人均國內(nèi)生產(chǎn)總值與人均銷售金額之間確實存在著線性相關(guān)關(guān)系。教師:從相關(guān)系數(shù)檢驗表中我們可以看出,在為0.05 的水平下,當(dāng)樣本容量為3 時,即使相關(guān)系數(shù)是 0.996,也不能認為總體的兩個變量是相關(guān)的。而當(dāng)樣本容量為47 時,即使相關(guān)第10頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析系數(shù)為 0.288,也可以認為總體的兩個變量之間是相關(guān)
28、的。一切都是相對的哦。最后要給大家說明的是,線性相關(guān)關(guān)系與因果關(guān)系是不同的。相關(guān)系數(shù)很大未必表示變量間存在因果關(guān)系,也可能兩個變量同時受第三個變量的影響而使它們有很強的相關(guān)。比如,人的肺活量與人的身高會呈現(xiàn)高度相關(guān),其實肺活量和身高都受人的體重的影響,因此如果固定人的體重來研究肺活量與身高的關(guān)系,則會發(fā)現(xiàn)相關(guān)性很低。這涉及偏相關(guān)系數(shù)的計算。又如,我們計算 1980-2004 年期間某地豬肉銷售量與感冒片銷售量的相關(guān)系數(shù), 它可能很大, 但這并不說明豬肉銷售量與感冒片銷售量之間有線性相關(guān)關(guān)系,因為它們都受這個時期人口增長因素的影響,把兩個從邏輯上不存在聯(lián)系的兩個變量放在一起做相關(guān)分析,沒有意義,
29、在統(tǒng)計上稱之為“虛假相關(guān)”。第二節(jié)一元線性回歸分析一元線性回歸(linear regression)是描述兩個變量之間相互聯(lián)系的最簡單的回歸模型(regressionmodel )。一元線性回歸雖然簡單,但通過一元線性回歸模型的建立過程,我們可以了解回歸分析方法的基本統(tǒng)計思想以及它在經(jīng)濟問題研究中的應(yīng)用原理。本節(jié)將詳細討論一元線性回歸的建模思想、最小二乘估計及其性質(zhì)、回歸方程的有關(guān)檢驗、預(yù)測和控制的理論及應(yīng)用。一、一元線性回歸在許多問題的研究中,經(jīng)常需要研究某一現(xiàn)象與影響它的某一最主要因素之間的關(guān)系。譬如,在消費問題的研究中,影響消費的因素很多,但我們可以只研究國內(nèi)生產(chǎn)總值與消費額之間的關(guān)系,
30、因為它是影響消費的最主要因素;通常我們對所研究的問題首先要收集與它有關(guān)的n 組樣本數(shù)據(jù) ( xi , yi ),i=1,2, ,n。為了直觀地發(fā)現(xiàn)樣本數(shù)據(jù)的規(guī)律,我們把(xi , yi )看成是平面直角坐標(biāo)系中的點,畫出這n 個樣本點的散點圖。圖9.2 就是我國人均國內(nèi)生產(chǎn)總值與人均消費的散點圖,而隨后計算出的相關(guān)系數(shù)為0.9938,經(jīng)過檢驗表明人均消費Y 與人均國內(nèi)生產(chǎn)總值x 之間有著密切的相關(guān)關(guān)系。為進一步探討變量Y 與 x 之間的統(tǒng)計規(guī)律性,我們用下面的數(shù)學(xué)模型來描述它。Y01 x(9.6)( 9.6)式將問題中變量Y 與 x 之間的關(guān)系用兩個部分描述。一部分是由于x 的變化引起 Y 線
31、性變化的部分,即01 x ;另一部分是由其他一切隨機因素引起的,記為。( 9.6)式表達了變量x 與 Y 之間密切相關(guān),但密切程度又沒有到由x 唯一確定 Y 的這種特殊關(guān)系。 ( 9.6)式稱為變量 Y 對 x 的一元線性回歸總體模型。一般我們稱Y 為被解釋變量,或因變量(dependent variable ); x 為解釋變量,或自變量( independent variable )。式中0和1 是未知參數(shù),稱它們?yōu)榛貧w系數(shù)(regression coefficient) 。表示其他隨機因素的影響。在(9.6)式中一般假定是不可觀測的隨機誤差,它是一個隨機變量,通常假定服從期望為零、方差為
32、2 的正態(tài)分布。在這個假定下,進一步有Y x N ( 0 1 x,2 ) ,它表示在 x 給定時隨機變量 Y 也服從正態(tài)分布,且E Y xx ,2。()01var(Y )第11頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析( 9.6)式從平均意義上表達了變量 Y 與 x 的統(tǒng)計規(guī)律性。這一點在應(yīng)用上非常重要,因為我們經(jīng)常關(guān)心的正是這個平均值。 如上例在消費 Y 與國內(nèi)生產(chǎn)總值 x 的研究中, 我們所關(guān)心的正是當(dāng)國內(nèi)生產(chǎn)總值達到某個水平時,人均消費能達到多少。由(9.6)式,只要估計出回歸系數(shù)0 和1 就可以算出當(dāng)x 已知時 E(Y)01 x 的值。通常E (Y x)01x(9.7)稱為一元線性回歸方程,在圖形上
33、它表示一條截距為0 、斜率為 1 的直線,這條直線稱為一元線性回歸直線。如果 x=0,則 0 是 x=0 時 Y 概率分布的均值;1 表示 x 每變動一個單位時Y 概率分布的均值的變化,即當(dāng) x 每增加一個單位時,Y 平均變化 1 個單位?;貧w分析的主要任務(wù)之一就是通過n 樣本觀察值( xi , yi ),i=1,2, ,n,對 0 ,1 和2 進行估計。一般用?0 , ?1 和 ?2 分別表示0, 1和2的估計值;稱?1 x(9.8)Y0為 Y 關(guān)于 x 的一元線性經(jīng)驗回歸方程。二、參數(shù)0,1 的最小二乘估計為了由樣本數(shù)據(jù)得到回歸參數(shù)0 , 1 的估計值,我們將使用普通最小二乘估計(Ordi
34、naryLeast SquareEstimation ,簡記為 OLSE) 。對每一個樣本觀察值(xi , yi ),最小二乘法的基本思想就是希望線性回歸直線與所有樣本數(shù)據(jù)點都比較靠近,即要觀察值(Observed value) yi 與其期望值 E(Yi xxi )01xi 的差yi E(Yi x xi ) yi ( 01xi ) 越小越好 ( 圖 9.6是這種思想的直觀表現(xiàn)) ,為防止差值正負抵消,于是考慮這 n 個差值的平方和達到最小,即n1xi ) 2Q( 0,1 )( yi0(9.9)i 1達到最小。所謂最小二乘法,就是求?0 , ?1使得n2n2?yimin Q(0 ,1 )min
35、yi01xi(9.10)01 xii 1i1第12頁統(tǒng)計學(xué)第九章相關(guān)與回歸分析圖 9.6一元線性回歸示意圖求出( 9.10 )式中的?0 和 ?1 是一個求極值點的問題,這只需求(9.9) 式的關(guān)于0 和1 的二元函數(shù)n1xi )2Q( 0,1 )( yi0極小值點。 由于 Q 是關(guān)于0 和1 的非負二次函數(shù), 因而它的最小值總是i 1存在的。根據(jù)微積分中求極值的原理,讓Q (0, 1) 分別對0 和1 求偏導(dǎo),且令這兩個偏導(dǎo)等于0 得Qnyi1xi0200i1Qn2yi01 xixi01i1經(jīng)整理后,得正規(guī)方程組:n0xi1yixi0(xi2 ) 1xi yi求解正規(guī)方程組,得:?n xi
36、yixiyi( xix )( yiy)1nxi2xi2( xix)2?yi?xiy?(9.11)0n1n1 x(9.11) 式中的 ?0 , ?1 稱為 0 ,1 的普通最小二乘估計,簡稱0 ,1 的 OLSE 。可以證明,0 ,1 的最小二乘估計?0 , ?1 滿足無偏性,即E( ?0)0, E( ?1)1 。我們記 ei為實際觀察值yi 與其估計值?n2eiyiyi稱作殘差平方和(Residual Sum of Square)。y?i01xi的偏差,稱為殘差,即ei? ,i1把 (9.11)式中關(guān)于?1 的表達式和上節(jié)(9.4)比較易得第13頁統(tǒng)計學(xué)第九章 相關(guān)與回歸分析n xi22n yi22xi?r或yir? 。n yi221n xi221yixi回歸系數(shù)的最小二乘估計?1 和總體相關(guān)系數(shù)的估計Pearson相關(guān)系數(shù) r 具有上述關(guān)系式,從而可知?1 和 r同號,這和我們的直覺也是一致的。事實上,可以證明總體相關(guān)系數(shù)和線性回歸直線的斜率1 具有關(guān)系 Y r1 ,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024高考地理一輪復(fù)習(xí)第九章第2講工業(yè)地域的形成與工業(yè)區(qū)教案含解析新人教版
- 2024高考化學(xué)二輪復(fù)習(xí)專題突破練4B元素及其化合物含解析
- 二零二五年度股東分紅紅利分配與投資計劃合同3篇
- 第二章復(fù)合材料增強體2017上課講義
- 小學(xué)食品安全管理制度
- 分階段分層次全過程質(zhì)量管控機制
- 單病種填報要求(更新至20240911)
- 2024年河北軟件職業(yè)技術(shù)學(xué)院高職單招語文歷年參考題庫含答案解析
- 2024年閘北區(qū)市北醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 二零二五年度離婚協(xié)議中個人隱私保護協(xié)議
- Q∕GDW 10721-2020 電力通信現(xiàn)場標(biāo)準(zhǔn)化作業(yè)規(guī)范
- 公安警察工作匯報PPT模板課件
- 第二講VSP地震勘探
- 干砌石護坡工程施工組織設(shè)計方案
- 直腸癌個案護理范文結(jié)腸癌個案護理.doc
- 污水處理中常用的專業(yè)術(shù)語
- 石英砂過濾器說明書
- 物業(yè)品質(zhì)提升ppt課件
- -烏兔太陽擇日法表
- 施工人員安全告知書
- 篩分系統(tǒng)設(shè)備安裝施工方案正文
評論
0/150
提交評論