![第八章相關(guān)與回歸分析75142_第1頁(yè)](http://file4.renrendoc.com/view/07bb0c3f50735bc7b30d8665c4e09d04/07bb0c3f50735bc7b30d8665c4e09d041.gif)
![第八章相關(guān)與回歸分析75142_第2頁(yè)](http://file4.renrendoc.com/view/07bb0c3f50735bc7b30d8665c4e09d04/07bb0c3f50735bc7b30d8665c4e09d042.gif)
![第八章相關(guān)與回歸分析75142_第3頁(yè)](http://file4.renrendoc.com/view/07bb0c3f50735bc7b30d8665c4e09d04/07bb0c3f50735bc7b30d8665c4e09d043.gif)
![第八章相關(guān)與回歸分析75142_第4頁(yè)](http://file4.renrendoc.com/view/07bb0c3f50735bc7b30d8665c4e09d04/07bb0c3f50735bc7b30d8665c4e09d044.gif)
![第八章相關(guān)與回歸分析75142_第5頁(yè)](http://file4.renrendoc.com/view/07bb0c3f50735bc7b30d8665c4e09d04/07bb0c3f50735bc7b30d8665c4e09d045.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGE11PAGE17第八章相關(guān)與回歸分析客觀現(xiàn)象總是普遍聯(lián)系和相互依存的,分析認(rèn)識(shí)變量之間的依存關(guān)系是統(tǒng)計(jì)學(xué)研究的重要內(nèi)容之一。在方差分析中我們討論了分類型變量與數(shù)值型變量的關(guān)系,本章將討論數(shù)值型變量之間的關(guān)系,主要內(nèi)容是:測(cè)度數(shù)值型變量之間關(guān)系緊密程度的相關(guān)系數(shù)及其檢驗(yàn)、揭示變量間依存關(guān)系的回歸方程的建立及其顯著性檢驗(yàn)。第一節(jié)相關(guān)分析與回歸分析概述一、變量間的關(guān)系客觀現(xiàn)象總是相互聯(lián)系和相互依存的,客觀現(xiàn)象之間的數(shù)量聯(lián)系大致分為兩種:函數(shù)關(guān)系和相關(guān)關(guān)系。當(dāng)一個(gè)變量或幾個(gè)變量取一定的值時(shí),另一個(gè)變量有確定的值與之對(duì)應(yīng),我們稱這種關(guān)系為函數(shù)關(guān)系。例如,在價(jià)格P一定的情況下,某種商品的銷售收入Y與該商品的銷售量X之間的關(guān)系可用Y=PX表示,當(dāng)銷售量取一定的值時(shí),銷售收入有確定的值與之對(duì)應(yīng),這就是函數(shù)關(guān)系。一般把作為影響因素的變量稱為自變量,把發(fā)生對(duì)應(yīng)變化的變量稱為因變量。當(dāng)一個(gè)變量或幾個(gè)變量取一定的值時(shí),與之對(duì)應(yīng)的另一個(gè)變量的取值不確定,但它仍然按照某種規(guī)律在一定的范圍內(nèi)變化,這種變量之間非嚴(yán)格的依存關(guān)系我們稱為相關(guān)關(guān)系,記為,其中為自變量,為因變量。例如:人們的收入和消費(fèi)、勞動(dòng)生產(chǎn)率與工資水平、商品流通規(guī)模與流通費(fèi)用、企業(yè)的產(chǎn)值與投入的原材料、勞動(dòng)力、資金等之間都存在著相互依存關(guān)系,但卻不是絕對(duì)的唯一確定關(guān)系,它們都屬于相關(guān)關(guān)系。函數(shù)關(guān)系與相關(guān)關(guān)系之間并無(wú)嚴(yán)格的界限。由于有測(cè)量誤差及各種隨機(jī)因素的干擾,有函數(shù)關(guān)系的變量間可能表現(xiàn)為相關(guān)關(guān)系;在對(duì)變量之間的聯(lián)系有深刻了解之后,相關(guān)關(guān)系可用函數(shù)關(guān)系來(lái)描述。本章要討論的是現(xiàn)象之間的相關(guān)關(guān)系。二、相關(guān)關(guān)系的種類從不同的角度出發(fā),相關(guān)關(guān)系可做如下的分類。(一)根據(jù)自變量的多少可以分為單相關(guān)、復(fù)相關(guān)和偏相關(guān)兩個(gè)變量之間的相關(guān)關(guān)系,稱為單相關(guān);兩個(gè)以上變量的相關(guān)關(guān)系稱為復(fù)相關(guān)。例如,企業(yè)的產(chǎn)值與投入的原材料、勞動(dòng)力、資金等變量之間的關(guān)系就是一種復(fù)相關(guān)。在復(fù)相關(guān)關(guān)系討論中,若我們僅討論結(jié)果變量與某一個(gè)因素變量之間的關(guān)系而假定其它變量不變時(shí),稱關(guān)于這兩個(gè)因素之間的相關(guān)關(guān)系為偏相關(guān)。在本章,我們只討論單相關(guān)的有關(guān)問(wèn)題。(二)根據(jù)相關(guān)關(guān)系的形態(tài)不同分為線性相關(guān)和非線性相關(guān)當(dāng)一個(gè)變量X發(fā)生變動(dòng),另一個(gè)變量Y隨之發(fā)生大致均等的變動(dòng),從圖像上近似地表現(xiàn)為直線形式,這種相關(guān)稱為線性相關(guān)或直線相關(guān)。例如,在一定的范圍內(nèi),人均消費(fèi)水平與人均收入水平之間通常表現(xiàn)為直線相關(guān)關(guān)系。若變量之間的相關(guān)關(guān)系呈曲線形式則稱為非線性(或曲線)相關(guān)。例如:從人的生命全過(guò)程看,年齡與醫(yī)療費(fèi)支出呈非線性相關(guān)關(guān)系。在本章我們只討論線性相關(guān)的問(wèn)題。(三)根據(jù)根據(jù)變量間變化方向的不同可分為正相關(guān)和負(fù)相關(guān)若變量之間的變化方向一致,即一個(gè)變量的值增加(或減少),另一個(gè)變量的值也隨之增加(或減少),這樣的關(guān)系稱為正相關(guān)。例如工業(yè)總產(chǎn)值和利稅額、家庭消費(fèi)支出和收入等即為正相關(guān)。若變量之間變化方向相反,即一個(gè)變量的數(shù)值增大(或減?。硪粋€(gè)變量的數(shù)值卻減?。ɑ蛟龃螅?,這樣的關(guān)系稱為負(fù)相關(guān)。例如勞動(dòng)生產(chǎn)率提高則產(chǎn)品成本降低、產(chǎn)品成本降低則企業(yè)利潤(rùn)增加等。三、相關(guān)分析與回歸分析的內(nèi)容相關(guān)分析和回歸分析是研究相關(guān)關(guān)系的兩種基本方法。所謂相關(guān)分析,就是用一個(gè)指標(biāo)來(lái)表明現(xiàn)象間相互依存關(guān)系的密切程度。所謂回歸分析,就是根據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個(gè)合適的數(shù)學(xué)模型,來(lái)近似地表達(dá)變量間的平均變化關(guān)系。相關(guān)分析和回歸分析有密切的聯(lián)系,它們不僅具有共同的研究對(duì)象,而且在具體應(yīng)用時(shí),常常必須相互補(bǔ)充。相關(guān)分析需要回歸分析來(lái)表明現(xiàn)象數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來(lái)表明現(xiàn)象數(shù)量變化的相關(guān)程度。只能當(dāng)變量之間存在高度相關(guān)時(shí),進(jìn)行回歸分析尋求其相關(guān)的具體形式才有意義。(一)相關(guān)分析與回歸分析的內(nèi)容相關(guān)分析和回歸分析是研究相關(guān)關(guān)系的兩種基本方法。相關(guān)分析要討論的內(nèi)容是:判斷現(xiàn)象之間是否存在相關(guān)關(guān)系;如果存在相關(guān)關(guān)系,則要進(jìn)一步判斷相關(guān)關(guān)系的種類和關(guān)系的緊密程度;關(guān)系的緊密程度是用相關(guān)系數(shù)來(lái)刻劃,但往往我們是用樣本數(shù)據(jù)計(jì)算相關(guān)系數(shù),這種相關(guān)系數(shù)是否能真實(shí)地反映總體的相關(guān)程度,還必須進(jìn)行顯著性檢驗(yàn)?;貧w分析要研究的內(nèi)容是:在相關(guān)分析的基礎(chǔ)上,建立反映變量間依存關(guān)系的數(shù)學(xué)模型即回歸方程;對(duì)回歸方程進(jìn)行顯著性檢驗(yàn)。由于我們是在定性判斷的基礎(chǔ)上選擇的回歸模型,并且是根據(jù)樣本資料建立的回歸方程,可能定性判斷不恰當(dāng),可能樣本數(shù)據(jù)的隨機(jī)性影響回歸方程的真實(shí)性和可靠性,因此必須對(duì)回歸方程進(jìn)行顯著性檢驗(yàn)。(二)相關(guān)分析與回歸分析的區(qū)別與聯(lián)系回歸分析和相關(guān)分析相互聯(lián)系又存在明顯的區(qū)別,其區(qū)別主要表現(xiàn)在:1.分析的內(nèi)容不同。相關(guān)分析的主要研究?jī)?nèi)容是現(xiàn)象之間有無(wú)相關(guān)關(guān)系及關(guān)系的密切程度,而回歸分析主要研究現(xiàn)象之間數(shù)量關(guān)系的依存形式,即建立回歸方程,并用方程對(duì)現(xiàn)象進(jìn)行預(yù)測(cè)。2.變量的地位不同。進(jìn)行相關(guān)分析時(shí),兩個(gè)變量的地位是平等的,不必區(qū)分自變量和因變量,而回歸分析則一定要明確哪個(gè)是自變量,哪個(gè)是因變量。3.變量的性質(zhì)不同。相關(guān)分析中所有變量均為隨機(jī)變量,而回歸分析中因變量為隨機(jī)變量,自變量可以為確定性變量,也可以是隨機(jī)變量。相關(guān)分析和回歸分析之間的聯(lián)系表現(xiàn)為,它們的研究對(duì)象相同,都是對(duì)具有相關(guān)關(guān)系的現(xiàn)象進(jìn)行分析研究,而且在應(yīng)用時(shí)常常相互補(bǔ)充。相關(guān)分析需要回歸分析來(lái)表明現(xiàn)象數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來(lái)表明現(xiàn)象間數(shù)量變化的相關(guān)程度,只有在變量間存在較高的相關(guān)關(guān)系時(shí),進(jìn)行回歸分析才有意義。由于以上原因,一些統(tǒng)計(jì)學(xué)書籍將相關(guān)分析和回歸分析稱為相關(guān)關(guān)系分析或相關(guān)分析。以下我們將逐一討論簡(jiǎn)單的線性相關(guān)和一元線性回歸分析的基本理論和方法。第二節(jié)相關(guān)分析一、相關(guān)關(guān)系的描述相關(guān)分析是確定變量之間是否存在相關(guān)關(guān)系以及何如描述這種關(guān)系的強(qiáng)度。相關(guān)分析是根據(jù)已有的數(shù)據(jù)確定變量之間是否存在相關(guān)關(guān)系以及何如描述這種關(guān)系的強(qiáng)度。相關(guān)分析的方法主要分為定性判斷和定量分析兩類。定性判斷就是從定性角度分析和判斷現(xiàn)象之間是否具有相關(guān)關(guān)系以及相關(guān)關(guān)系的類型。這種分析和判斷所依據(jù)的是對(duì)現(xiàn)象的了解和對(duì)有關(guān)的理論知識(shí)、專業(yè)知識(shí)的掌握,以及一定的社會(huì)實(shí)踐經(jīng)驗(yàn)。定量分析就是在定性分析的基礎(chǔ)上,通過(guò)編制相關(guān)表、繪制相關(guān)圖、計(jì)算相關(guān)系數(shù)與判定系數(shù)等方法,來(lái)判斷現(xiàn)象之間相關(guān)的方向、形態(tài)及密切程度。(一)相關(guān)表相關(guān)表是一種反映變量相關(guān)關(guān)系的統(tǒng)計(jì)表。將某一變量按其取值的大小排列,然后再將與其相關(guān)的另一變量的對(duì)應(yīng)值平行排列,便可得到簡(jiǎn)單的相關(guān)表。【例8-1】根據(jù)表8-1的現(xiàn)金收入與現(xiàn)金支出數(shù)據(jù),我們選擇10個(gè)省份的人均現(xiàn)金支出和現(xiàn)金收入資料,編制的相關(guān)表如表8-2:表8-1全國(guó)各省區(qū)2006年1季度現(xiàn)金收入與現(xiàn)金支出數(shù)據(jù)億元地區(qū)支出收入地區(qū)支出收入地區(qū)支出收入北京1935.582878.71安徽864.28938.4四川824.16925.43天津1319.691895.23福建1210.781315.12貴州466.39468.55河北833.46986.11江西934.5928.82云南633.17601.8山西699.97700.87山東1090.841339.37西藏433.43400.75內(nèi)蒙古1025.461057.8河南697.77709.14陜西768.7726.62遼寧1247.111574.48湖北902.56935.9甘肅535.63524.06吉林1237.591298.59湖南1028.681069.96青海598.21573.33黑龍江1201.061338.75廣東1337.51609.43寧夏974.88768.49上海2358.164067.27廣西795.11862.41新疆930.69613.52江蘇1493.872250.33海南821.96946.96浙江2416.353030.71重慶711.39862.41資料來(lái)源:中國(guó)國(guó)家統(tǒng)計(jì)局網(wǎng)站表8-210個(gè)省現(xiàn)金支出和現(xiàn)金收入的相關(guān)表億元省份河北山西內(nèi)蒙古黑龍江吉林遼寧天津江蘇北京上海支出83370010251201123812471320149419362358收入98670110581339129915741895225028794067從表8-2可以看出:收入多則支出也多,兩者呈正相關(guān)關(guān)系。為了更明確直觀的反映現(xiàn)金收入和支出的依存關(guān)系,我們可以繪制相關(guān)圖。(二)相關(guān)圖以變量為橫軸,為縱軸建立的直角坐標(biāo)系,將相關(guān)表上每一對(duì)應(yīng)的具體數(shù)值用散點(diǎn)標(biāo)出來(lái)而形成的圖稱為相關(guān)圖稱或散點(diǎn)圖。利用散點(diǎn)圖,可以直觀、形象地表現(xiàn)變量之間的相互關(guān)系。圖8-1是表明現(xiàn)象間不同關(guān)系的散點(diǎn)圖。(A)正的線性相關(guān)(B)負(fù)的線性相關(guān)(A)正的線性相關(guān)(B)負(fù)的線性相關(guān)(C)曲線相關(guān)(D)不相關(guān)XXYYYXXY圖8-1不同關(guān)系形態(tài)的散點(diǎn)圖【例8-2】根據(jù)表8-1的資料繪制散點(diǎn)圖。解:用Excel繪制的散點(diǎn)圖如下(具體操作步驟參見第三章統(tǒng)計(jì)數(shù)據(jù)的整理)。圖8-22006年1季度現(xiàn)金支出與現(xiàn)金收入散點(diǎn)圖從散點(diǎn)圖可以看出,現(xiàn)金收入和現(xiàn)金支出之間存在正的線性相關(guān)關(guān)系。二、相關(guān)系數(shù)從散點(diǎn)圖可以直觀地判斷兩個(gè)變量之間有無(wú)相關(guān)關(guān)系,并對(duì)變量間的關(guān)系類型有大致的了解。但散點(diǎn)圖不能準(zhǔn)確反映變量之間的關(guān)系密切程度。當(dāng)變量之間呈線性關(guān)系時(shí),其相關(guān)關(guān)系的密切程度可用相關(guān)系數(shù)來(lái)刻劃。(一)相關(guān)系數(shù)的計(jì)算相關(guān)系數(shù)是一個(gè)相對(duì)指標(biāo),若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算得出,稱為總體相關(guān)系數(shù),記做;若是根據(jù)樣本數(shù)據(jù)計(jì)算得到的,則稱為樣本相關(guān)系數(shù),記做。樣本相關(guān)系數(shù)的計(jì)算公式為:(8.1)公式中的為和的協(xié)方差,為的方差,為的方差。公式(8.1)可以變形為以下計(jì)算公式:(8.2)【例8-3】根據(jù)表8-1的資料計(jì)算相關(guān)系數(shù)。解:相關(guān)系數(shù)r的計(jì)算復(fù)雜,一般用Excel計(jì)算,其具體步驟如下:第1步:順次點(diǎn)擊【工具】、【數(shù)據(jù)分析】、【相關(guān)系數(shù)】、【確定】;第2步:填寫相關(guān)系數(shù)對(duì)話框。在【輸入?yún)^(qū)域】引用輸入的數(shù)據(jù),本例為B1:C32;勾選【標(biāo)志位于第一行】;在【輸出區(qū)域】中引用一個(gè)單元格,本例為D1。見圖8-5。圖8-3填寫相關(guān)系數(shù)對(duì)話框第3步:點(diǎn)擊【確定】,得到相關(guān)系數(shù)的結(jié)果,見表8-3。表8-32006年1季度現(xiàn)金收入和現(xiàn)金支出相關(guān)系數(shù)表支出收入支出10.963744收入0.9637441(二)相關(guān)系數(shù)r的性質(zhì):為了充分認(rèn)識(shí)和運(yùn)用相關(guān)系數(shù)r,對(duì)其性質(zhì)做如下總結(jié)。1.相關(guān)系數(shù)r的取值范圍在-1和+1之間,即:–1≤≤1。2.若為正,則兩變量呈正線性相關(guān);若為負(fù),則兩變量呈負(fù)線性相關(guān)。3.如果,則表示兩個(gè)變量完全線性相關(guān),即為函數(shù)關(guān)系。如果,則表示兩個(gè)變量沒(méi)有線性關(guān)系。應(yīng)該注意:只能說(shuō)明兩個(gè)變量沒(méi)有線性關(guān)系,而不能說(shuō)明兩個(gè)變量沒(méi)有關(guān)系,因?yàn)橛锌赡芩鼈冎g存在曲線相關(guān)關(guān)系。4.相關(guān)系數(shù)的絕對(duì)值越接近于1,表示相關(guān)程度越強(qiáng);越接近于0,表示相關(guān)程度越弱。用相關(guān)系數(shù)判斷兩變量線性相關(guān)關(guān)系密切程度的具體標(biāo)準(zhǔn)為:,稱為微弱相關(guān);,稱為低度相關(guān);,稱為顯著相關(guān);,稱為高度相關(guān)。必須指出,以上關(guān)于相關(guān)系數(shù)的性質(zhì)和判斷變量關(guān)系密切程度的標(biāo)準(zhǔn)必須建立在對(duì)相關(guān)系數(shù)的顯著性檢驗(yàn)基礎(chǔ)之上。三、相關(guān)系數(shù)的顯著性檢驗(yàn)一般情況下,總體相關(guān)系數(shù)是未知的,通常根據(jù)樣本相關(guān)系數(shù)來(lái)近似估計(jì)。由于是根據(jù)樣本計(jì)算得到的,它受到抽樣誤差的影響,因此對(duì)于不同的樣本,計(jì)算出的也不同,因此r是一個(gè)隨機(jī)變量。能否根據(jù)樣本的相關(guān)系數(shù)說(shuō)明總體的相關(guān)程度?這就需要考察r的可靠程度,也就是要對(duì)r進(jìn)行顯著性檢驗(yàn)。為此,我們必須認(rèn)識(shí)r的抽樣分布。(一)的抽樣分布為了對(duì)樣本相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn),需要參考的抽樣分布。當(dāng)樣本數(shù)據(jù)來(lái)自正態(tài)總體,且樣本容量很大時(shí),的抽樣分布近似服從正態(tài)分布。當(dāng)總體相關(guān)系數(shù)的絕對(duì)值很小甚至等于時(shí),這種趨勢(shì)是明顯的,而當(dāng)值遠(yuǎn)離且樣本容量不夠大時(shí),的抽樣分布會(huì)呈現(xiàn)出一定的偏態(tài)。因?yàn)榈娜≈凳菄@在周圍的,當(dāng)?shù)慕^對(duì)值很大時(shí),例如,的值應(yīng)以0.99為中心分布。從的性質(zhì)知的取值范圍在+1到-1之間,所以一邊的變化以+1為限,離中心的變化距離為0.01,而另一邊的變化是以-1為限,距離為1.99,兩邊的變化距離不等,自然的抽樣分布就不對(duì)稱。但當(dāng)值接近0時(shí),兩邊的變化距離大致相等,此時(shí)的抽樣分布就接近對(duì)稱??梢?,的抽樣分布是隨著總體相關(guān)系數(shù)和樣本容量的大小而變化的。當(dāng)為較大的正數(shù)時(shí),呈現(xiàn)左偏分布;當(dāng)為較大的負(fù)數(shù)時(shí),呈現(xiàn)右偏分布。只有當(dāng)接近時(shí),才近似對(duì)稱。若樣本容量充分大后,是近似服從正態(tài)分布的隨機(jī)變量。而我們討論的往往是關(guān)系較強(qiáng)的,總體相關(guān)系數(shù)的絕對(duì)值都較大,而且樣本容量往往都不夠大,用樣本相關(guān)系數(shù)去估計(jì)時(shí),假定服從正態(tài)分布是不合適的。此時(shí)的分布服從費(fèi)歇爾提出的t分布假設(shè),且該檢驗(yàn)既適用于小樣本也適用于大樣本。應(yīng)當(dāng)注意,當(dāng)?shù)慕^對(duì)值很小而樣本容量又很大時(shí),總是能通過(guò)檢驗(yàn)的。這時(shí)并不能說(shuō)明兩變量之間具有線性關(guān)系。所以在相關(guān)程度很低時(shí),檢驗(yàn)沒(méi)有多大意義。(二)的顯著性檢驗(yàn)顯著性檢驗(yàn)的具體步驟如下:第一步:提出假設(shè):假設(shè)樣本是從一個(gè)不相關(guān)的總體中抽樣的,即:第二步:計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:(8.3)第三步:進(jìn)行統(tǒng)計(jì)決策。根據(jù)給定的顯著性水平和自由度,查分布表,得到臨界值。若,則拒絕原假設(shè),表明總體的兩個(gè)變量之間存在顯著的線性關(guān)系?!纠?-4】以5%的顯著性水平,檢驗(yàn)全國(guó)各省區(qū)2006年1季度現(xiàn)金收入與現(xiàn)金支出之間的相關(guān)系數(shù)是否顯著。第一步:提出假設(shè):假設(shè)樣本是從一個(gè)不相關(guān)的總體中抽樣的,第二步:計(jì)算檢驗(yàn)的統(tǒng)計(jì)量。將表8-3的數(shù)據(jù)代入t檢驗(yàn)統(tǒng)計(jì)量公式,得:第三步:進(jìn)行決策。根據(jù)給定的顯著性水平=0.05和自由度,查分布表,得到。由于,所以拒絕原假設(shè),表明現(xiàn)金支出和現(xiàn)金收入之間存在顯著的正線性相關(guān)關(guān)系。第三節(jié)一元線性回歸分析在變量之間的相關(guān)程度很高的基礎(chǔ)上,應(yīng)進(jìn)行回歸分析,以考察變量之間的因果關(guān)系,并通過(guò)建立數(shù)學(xué)模型——回歸方程來(lái)更深入的反映自變量變化對(duì)因變量的影響?;貧w分析將討論以下幾個(gè)方面的具體問(wèn)題:1.利用已知的樣本數(shù)據(jù),確定變量之間的數(shù)學(xué)模型——回歸方程;2.對(duì)模型中的參數(shù)以及模型的可靠程度進(jìn)行檢驗(yàn)。一、一元線性回歸模型在回歸分析中,我們把作為結(jié)果的變量稱為因變量,也就是在模型中被預(yù)測(cè)或被解釋的變量,用表示;把作為原因的變量稱為自變量,用表示。例如,在分析現(xiàn)金支出與現(xiàn)金收入的關(guān)系中,我們需要了解的是在將來(lái)一定現(xiàn)金收入的條件下,現(xiàn)金支出將達(dá)到的水平。因此,現(xiàn)金支出是被預(yù)測(cè)的變量即因變量y,而用來(lái)預(yù)測(cè)現(xiàn)金支出的現(xiàn)金收入就是自變量x。這里我們只討論一元線性回歸,即只有一個(gè)自變量,且因變量與自變量之間為線性相關(guān)關(guān)系。對(duì)于具有線性關(guān)系的變量,可以用一個(gè)線性方程即一元線性模型來(lái)刻劃它們之間的關(guān)系。一元線性模型為:(8.4)在這個(gè)模型中,線性主部反映由變化而引起的的線性變化;而隨機(jī)項(xiàng)反映了除此之外由隨機(jī)因素造成的對(duì)的影響,是不能由線性主部所能解釋的變異因素。(一)回歸的經(jīng)典假設(shè)1.自變量是確定性變量,不是隨機(jī)變量;如果不滿足這一假定,可能會(huì)產(chǎn)生隨機(jī)解釋變量。2.隨機(jī)誤差項(xiàng)服從0均值和等方差的正態(tài)分布:(8.5)(8.6)3.隨機(jī)誤差項(xiàng)在不同樣本點(diǎn)之間是獨(dú)立的,不存在序列相關(guān):(8.7)以上這些基本假定是德國(guó)數(shù)學(xué)家高斯最早提出的,也稱為高斯經(jīng)典假設(shè)。滿足以上標(biāo)準(zhǔn)假定的一元線性回歸模型稱為標(biāo)準(zhǔn)的一元線性回歸模型。(二)總體回歸方程模型根據(jù)回歸模型的經(jīng)典假設(shè),的期望值等于零,因此的期望值(8.8)也就是說(shuō)總體回歸模型是描述的取一定值,所對(duì)應(yīng)的的期望??傮w回歸模型的圖形是一條唯一確定的直線。是該直線的截距,也就是當(dāng)取0時(shí)的期望值;是直線的斜率,它表示當(dāng)每變動(dòng)一個(gè)單位,的平均變化量,通常稱為回歸系數(shù)。(三)樣本回歸方程總體回歸模型是我們需要求取的,而我們僅有樣本信息。所以我們首先用樣本信息估計(jì)出樣本回歸模型,然后用統(tǒng)計(jì)方法推斷出總體回歸模型。樣本回歸模型又稱為估計(jì)的回歸方程,樣本回歸模型如下:(8.9)公式中的和是樣本的統(tǒng)計(jì)量,用以推斷總體回歸方程的參數(shù)和。二、參數(shù)的最小二乘估計(jì)若能算出統(tǒng)計(jì)量和,樣本回歸方程就確定了。如何求取和呢,常用的是最小二乘法。在給定的一組樣本觀測(cè)值之下,要求樣本回歸方程盡可能好的擬合這組值,就是要求代表真實(shí)值的散點(diǎn)到樣本回歸直線的距離之和最小,即因變量的真值與回歸直線上的估計(jì)值之差的平方和最小:(8.10)當(dāng)樣本觀測(cè)值已知時(shí),上式是關(guān)于和的二元函數(shù)。對(duì)于多元函數(shù)最小值的求取,運(yùn)用多元微積分中的極值定理,容易得到:(8.11)在一組已知的樣本觀測(cè)值之下,運(yùn)用最小二乘法即可求得參數(shù)和,于是可得到最優(yōu)擬合直線——樣本的回歸方程。參數(shù)稱為回歸系數(shù),表示自變量每變動(dòng)一個(gè)單位因變量平均的變動(dòng)值?!纠?-5】根據(jù)表8-1全國(guó)各省2006年1季度現(xiàn)金收入與現(xiàn)金支出數(shù)據(jù),求現(xiàn)金支出對(duì)現(xiàn)金收入的估計(jì)回歸方程。根據(jù)公式(8.11)得:于是得到估計(jì)回歸方程:回歸系數(shù),表示現(xiàn)金收入每增加一億元,現(xiàn)金支出平均增加0.559621億元?;貧w分析的計(jì)算量大,用手工計(jì)算很麻煩,在實(shí)際工作中,可以運(yùn)用統(tǒng)計(jì)軟件來(lái)處理。下面我們結(jié)合上述例子,說(shuō)明Excel操作的具體步驟。我們將2006年1季度各區(qū)期內(nèi)現(xiàn)金支出和期內(nèi)現(xiàn)金收入輸入到Excel工作表中的B2:C32單元格,然后按以下步驟進(jìn)行操作:第1步:順次點(diǎn)擊【工具】、【數(shù)據(jù)分析】、【回歸】、【確定】。第2步:填寫“回歸”對(duì)話框。在【Y值輸入?yún)^(qū)域】中引用B1:B32;在【X值輸入?yún)^(qū)域】中引用C1:C32;勾選【標(biāo)志】;在【置信度】中給出所需的數(shù)值(默認(rèn)值為95%);在【輸出區(qū)域】中引用一個(gè)單元格,比如D1。見圖8-4。圖8-4填寫回歸對(duì)話框第3步:點(diǎn)擊【確定】,得到輸出的結(jié)果,見表8-6。表8-4Excel輸出的回歸分析結(jié)果Excel輸出的回歸分析結(jié)果包括以下三部分內(nèi)容:第一部分是“回歸統(tǒng)計(jì)”。該部分給出了回歸分析中的一些常用統(tǒng)計(jì)量,包括相關(guān)系數(shù)(MultipleR)、判定系數(shù)(RSquare)、調(diào)整后的判定系數(shù)(Adjusted)、標(biāo)準(zhǔn)誤差、觀察值的個(gè)數(shù)等。第二部分是“方差分析”,該部分給出了自由度(df),回歸平方和、殘差平方和、總平方和、回歸和殘差的均方、檢驗(yàn)統(tǒng)計(jì)量、F檢驗(yàn)的顯著性水平。“方差分析”部分的主要作用是對(duì)整個(gè)方程擬合程度做顯著性檢驗(yàn),后面我們會(huì)詳細(xì)介紹。第三部分列出了模型中參數(shù)的估計(jì)值以及對(duì)這些估計(jì)值進(jìn)行檢驗(yàn)的數(shù)值,包括回歸方程的截距、斜率以及截距和斜率的標(biāo)準(zhǔn)誤差、用于檢驗(yàn)回歸系數(shù)的統(tǒng)計(jì)量,值,以及截距和斜率的置信區(qū)間。我們要討論的內(nèi)容其計(jì)算結(jié)果在這里都有體現(xiàn)。三、回歸直線的擬合優(yōu)度回歸直線在一定程度上描述了變量和之間的數(shù)量關(guān)系,由此可根據(jù)自變量的取值來(lái)估計(jì)或預(yù)測(cè)因變量的取值。但估計(jì)或預(yù)測(cè)的精度將取決于回歸直線對(duì)觀測(cè)數(shù)據(jù)的擬合程度。如果各觀測(cè)數(shù)據(jù)的散點(diǎn)圍繞回歸直線越緊密,說(shuō)明回歸直線對(duì)觀測(cè)數(shù)據(jù)的擬合程度越好,反之越差。我們把回歸直線和各觀測(cè)點(diǎn)的接近程度稱為回歸直線對(duì)數(shù)據(jù)的擬合優(yōu)度。為了量化擬合優(yōu)度,需要計(jì)算判定系數(shù)。為了說(shuō)明判定系數(shù)的含義,我們需要對(duì)因變量的變差進(jìn)行分解。(一)因變量變差的分解因變量的取值是有差異的,取值的這種不同稱為變差。變差的產(chǎn)生來(lái)源于兩個(gè)方面:一是由于自變量的不同取值造成;二是除以外的其它因素(例如測(cè)量誤差等)的影響。對(duì)一個(gè)具體的觀測(cè)值來(lái)說(shuō),變差的大小可以用實(shí)際觀測(cè)值與因變量的均值之差()來(lái)表示。00圖8-5變差分解圖從圖8-7可以看出,每個(gè)觀測(cè)點(diǎn)的變差都可以分解為兩部分,即:(8.12)將等式兩邊平方,并對(duì)所有點(diǎn)求和,有可以證明,,因此有(8.13)式子的左邊的稱為總平方和,它可分解為兩部分,其中是回歸值與均值的離差平方和,根據(jù)樣本回歸方程,估計(jì)值,因此可以把看做由于自變量的變化引起的的變化,而其平方和反映了的總離差中由于與線性關(guān)系引起的的變化部分,它是可以由回歸直線來(lái)解釋的離差部分,稱為回歸平方和,記做。另一部分是各觀測(cè)值與回歸值的剩余誤差的平方和,它是除了對(duì)的線性影響之外的其它因素對(duì)離差的作用,稱為殘差平方和,記為。這三個(gè)平方和的關(guān)系為:總平方和=回歸平方和+殘差平方和,即(8.14)這是總變差的絕對(duì)數(shù)表達(dá)關(guān)系,其相對(duì)數(shù)表達(dá)為:(8.15)(二)判定系數(shù)回歸直線擬合的好壞取決于回歸平方和SSR和殘差平方和SSE的大小,或SSR和SSE在總平方和SST中所占比重的大小。對(duì)于確定的樣本,總平方和SST是常數(shù),則回歸平方和SSR和殘差平方和SSE是此消彼漲的關(guān)系。我們以回歸平方和SSR在總平方和SST中所占比重這個(gè)相對(duì)指標(biāo)作為判定回歸直線擬合好壞的指標(biāo),并將這一指標(biāo)定義為判定系數(shù),記做(8.16)若所有觀測(cè)點(diǎn)都落在回歸線上,殘差平方和=0,則=1,即是完全擬合;若的變化與無(wú)關(guān),與的離差完全沒(méi)有關(guān)系,那么此時(shí),且=0??梢姷娜≈捣秶荹0,1]。越接近1,表明回歸平方和占總平方和的比重越大,回歸直線與各觀測(cè)值越接近,用的變化解釋值離差的部分就越多,回歸直線的擬合效果就越好;反之,越接近0,回歸直線的擬合程度就越差。可以證明:在一元線性回歸時(shí),判定系數(shù)就是相關(guān)系數(shù)的平方(多元線性回歸不具有這一規(guī)律)。這一結(jié)論不僅可以使我們能從相關(guān)系數(shù)直接計(jì)算判定系數(shù),也可以使我們進(jìn)一步理解相關(guān)系數(shù)的意義。相關(guān)系數(shù)與回歸系數(shù)具有相同的正負(fù)號(hào),實(shí)際上,相關(guān)系數(shù)也從另一個(gè)角度說(shuō)明了回歸直線的擬合優(yōu)度。【例8-6】計(jì)算全國(guó)各省區(qū)2006年1季度現(xiàn)金收入與現(xiàn)金支出回歸方程的判定系數(shù),并解釋其意義。利用表8-4Excel輸出的回歸分析結(jié)果可知,總平方和=6946600,回歸平方和=6452023,殘差平方和=494576.8。根據(jù)公式(8.16)得到:也可以根據(jù)相關(guān)系數(shù)求得:判定系數(shù)的實(shí)際意義是:在現(xiàn)金支出中,有92.88%可以由現(xiàn)金收入與現(xiàn)金支出之間的線性關(guān)系來(lái)解釋?;蛘哒f(shuō),在現(xiàn)金支出的變動(dòng)中,有92.88%是由現(xiàn)金收入的變動(dòng)引起的,說(shuō)明現(xiàn)金支出和現(xiàn)金收入的回歸方程的擬合優(yōu)度很高。(三)估計(jì)標(biāo)準(zhǔn)誤差回歸直線的擬合優(yōu)度是由SSR在總平方和SST中的比重(判定系數(shù))來(lái)度量的。而殘差平方和SSE可以說(shuō)明樣本觀察值與回歸估計(jì)值之間的差異程度,從另一個(gè)角度說(shuō)明回歸直線的擬合優(yōu)度。將殘差平方和SSE除以其自由度n-2,可以得到殘差均方,記為MSE,MSE的平方根稱為估計(jì)標(biāo)準(zhǔn)誤差,記為。(8.17)由于回歸方程中用了兩個(gè)統(tǒng)計(jì)量和,故SSE的自由度為。估計(jì)標(biāo)準(zhǔn)誤差是對(duì)誤差項(xiàng)的標(biāo)準(zhǔn)差的估計(jì),即在排除了的影響后的隨機(jī)波動(dòng)的一個(gè)估計(jì)量。在對(duì)因變量進(jìn)行預(yù)測(cè)估計(jì)時(shí),它反映了用樣本回歸方程預(yù)測(cè)值的誤差大小。若樣本觀察值與回歸直線距離越近,則越小,回歸直線的代表性越好,運(yùn)用回歸方程做預(yù)測(cè)就越準(zhǔn)確??梢娝梢詮牧硪粋€(gè)角度來(lái)說(shuō)明回歸直線的擬合優(yōu)度。四、回歸模型的顯著性檢驗(yàn)在根據(jù)樣本數(shù)據(jù)建立一元線性回歸模型的過(guò)程中,我們是在一系列假設(shè)條件下進(jìn)行的。比如:兩變量間存在線性關(guān)系、隨機(jī)誤差項(xiàng)是一個(gè)服從0均值、等方差的正態(tài)分布隨機(jī)變量等。這些假設(shè)是否成立,需要通過(guò)檢驗(yàn)才能證實(shí)?;貧w模型顯著性檢驗(yàn)主要檢驗(yàn)兩個(gè)方面的內(nèi)容,一是線性關(guān)系的檢驗(yàn),二是回歸系數(shù)的檢驗(yàn)。顯著性檢驗(yàn)不僅說(shuō)明我們建立的回歸模型是否真實(shí)反映了兩個(gè)變量之間的關(guān)系,也關(guān)系到對(duì)因變量做預(yù)測(cè)的準(zhǔn)確程度。(一)線性關(guān)系的檢驗(yàn)線性關(guān)系的檢驗(yàn)就是要檢驗(yàn)兩個(gè)變量之間用線性模型表示是否合適。為檢驗(yàn)兩個(gè)變量之間的線性關(guān)系是否顯著,我們需要構(gòu)造用于檢驗(yàn)的統(tǒng)計(jì)量。兩個(gè)變量的線性關(guān)系是否顯著,其實(shí)質(zhì)就是討論因變量的總變差是不是主要由兩個(gè)變量的這種線性關(guān)系引起的,即總變差平方和中回歸平方和與殘差平方和的比值大小。該統(tǒng)計(jì)量的構(gòu)造是以回歸平方和()以及殘差平方和()為基礎(chǔ)的。將除以其自由度(自變量的個(gè)數(shù),一元線性回歸中自由度為1)的結(jié)果稱為回歸均方,記為;將除以其自由度(,一元線性回歸中自由度為)的結(jié)果稱為殘差均方,記為。如果原假設(shè)成立(,兩個(gè)變量之間的線性關(guān)系不顯著,即回歸方程設(shè)定不成立),則/的抽樣分布服從分子自由度為1、分母自由度為的分布,即(8.18)當(dāng)原假設(shè)成立時(shí),/的值應(yīng)接近1,即線性關(guān)系不顯著。若原假設(shè)不成立,/的值將變得無(wú)窮大。因此,較大的/值將導(dǎo)致拒絕原假設(shè),可以斷定變量和之間存在顯著的線性關(guān)系。線性關(guān)系檢驗(yàn)的具體步驟如下:第一步:提出假設(shè):兩個(gè)變量之間的線性關(guān)系不顯著;第二步:計(jì)算檢驗(yàn)統(tǒng)計(jì)量:第三步:做出決策。確定顯著性水平,并根據(jù)分子自由度和分母自由度查分布表,得到臨界值。若,拒絕,表明兩個(gè)變量之間的線性關(guān)系是顯著的;若,不拒絕,即沒(méi)有證據(jù)表明兩個(gè)變量之間的線性關(guān)系顯著?!纠?-7】檢驗(yàn)全國(guó)各省區(qū)2006年1季度現(xiàn)金支出和現(xiàn)金收入一元線性回歸模型線性關(guān)系的顯著性。(=0.05)解:第一步:提出假設(shè)現(xiàn)金支出和現(xiàn)金收入之間的線性關(guān)系不顯著第二步:計(jì)算檢驗(yàn)統(tǒng)計(jì)量F。第三步:做出決策。根據(jù)顯著性水平=0.05、分子自由度=1和分母自由度,查分布表,得到臨界值。由于,故拒絕,表明現(xiàn)金支出和現(xiàn)金收入之間的線性關(guān)系是顯著的。實(shí)際上,在Excel輸出結(jié)果的第二部分即方差分析表中,給出了線性關(guān)系顯著性檢驗(yàn)的全部結(jié)果。除了給出檢驗(yàn)統(tǒng)計(jì)量的值之外,還給出了SignificanceF,它相當(dāng)于用于檢驗(yàn)的P值。除了可以用F統(tǒng)計(jì)量進(jìn)行決策外,還可利用SignificanceF決策,具體方法是:將“SignificanceF”的值與給定的顯著性水平進(jìn)行比較,如果Significance,拒絕原假設(shè),表明因變量與自變量之間有顯著的線性關(guān)系;如果Significance,不拒絕原假設(shè),即沒(méi)有證據(jù)表明因變量與自變量之間有顯著的線性關(guān)系。在表8-4的輸出結(jié)果中,SignificanceF=3.48867E-18,說(shuō)明現(xiàn)金支出和現(xiàn)金收入之間存在顯著的線性關(guān)系,這與用F檢驗(yàn)統(tǒng)計(jì)量得到的結(jié)論相同。(二)回歸系數(shù)的檢驗(yàn)回歸系數(shù)的顯著性檢驗(yàn)是要檢驗(yàn)自變量對(duì)因變量的影響是否顯著。在一元線性回歸模型中,如果回歸系數(shù),回歸直線是一條水平線,表明因變量的取值不依賴自變量。但是若,也不能肯定地得出兩個(gè)變量之間存在線性關(guān)系的結(jié)論,這要看這種關(guān)系是否具有統(tǒng)計(jì)意義上的顯著性?;貧w系數(shù)的檢驗(yàn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球5C超快充電池行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)火藥量器行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025融資買賣合同范文
- 酒水購(gòu)銷合同模板
- 分期付款買賣合同參考范文
- 2025太原市購(gòu)房合同范本范文
- 水果長(zhǎng)期供應(yīng)購(gòu)銷合同范本
- 2025廚房設(shè)備購(gòu)買合同樣本
- 燈具購(gòu)銷合同書范本
- 探索未知世界主題班會(huì)
- 2024年中考語(yǔ)文 (湖北專用)專題一 字音、字形課件
- T-ACEF 095-2023 揮發(fā)性有機(jī)物泄漏檢測(cè)紅外成像儀(OGI)技術(shù)要求及監(jiān)測(cè)規(guī)范
- 2023年全國(guó)高考乙卷歷史真題試卷及答案
- 骨科手術(shù)的術(shù)后飲食和營(yíng)養(yǎng)指導(dǎo)
- 旅游定制師入行培訓(xùn)方案
- 2024年中國(guó)南方航空股份有限公司招聘筆試參考題庫(kù)含答案解析
- 六年級(jí)上冊(cè)數(shù)學(xué)應(yīng)用題100題
- 個(gè)人代賣協(xié)議
- 賞析小說(shuō)語(yǔ)言(二)
- 【立高食品公司的償債能力現(xiàn)狀及問(wèn)題分析(論文9000字)】
- 10.《運(yùn)動(dòng)技能學(xué)習(xí)與控制》李強(qiáng)
評(píng)論
0/150
提交評(píng)論