統(tǒng)計學(xué)相關(guān)與回歸分析_第1頁
統(tǒng)計學(xué)相關(guān)與回歸分析_第2頁
統(tǒng)計學(xué)相關(guān)與回歸分析_第3頁
統(tǒng)計學(xué)相關(guān)與回歸分析_第4頁
統(tǒng)計學(xué)相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1第六章 相關(guān)分析與回歸分析 本章內(nèi)容 第一節(jié) 相關(guān)分析 第二節(jié) 一元線性回歸分析 2第一節(jié) 相關(guān)分析本節(jié)內(nèi)容一、相關(guān)關(guān)系的概念二、相關(guān)關(guān)系的種類三、相關(guān)關(guān)系的測定四、相關(guān)分析中應(yīng)注意的問題 31.函數(shù)關(guān)系函數(shù)關(guān)系當(dāng)一個或幾個變量取一定的值時,另一個變量有確當(dāng)一個或幾個變量取一定的值時,另一個變量有確定值與之相對應(yīng),我們稱這種關(guān)系為確定性的函數(shù)定值與之相對應(yīng),我們稱這種關(guān)系為確定性的函數(shù)關(guān)系。關(guān)系。例例: :某種商品的銷售額某種商品的銷售額( (y y) )與銷售量與銷售量( (x x) )之間的關(guān)系可表示為之間的關(guān)系可表示為: : y y = = p x p x ( (p p 為單價為單價)

2、 )圓的面積圓的面積( (S)S)與半徑之間的關(guān)系可表示為與半徑之間的關(guān)系可表示為: :S S = = r r2 2 企業(yè)的原材料消耗額企業(yè)的原材料消耗額( (y y) )與產(chǎn)量與產(chǎn)量( (x x1 1) ) 、單位產(chǎn)量消耗單位產(chǎn)量消耗( (x x2 2) ) 、原材料價格原材料價格( (x x3 3) )之間的關(guān)系可表示為之間的關(guān)系可表示為: : y y = = x x1 1 x x2 2 x x3 3 一、相關(guān)關(guān)系的概念4(1)變量之間是一一對應(yīng)的確定關(guān)系;(2)設(shè)有兩個變量x 和 y ,變量 y 隨變量 x 一起變化,并完全依賴于 x ,當(dāng)變量 x 取某個數(shù)值時,y 依確定的關(guān)系取相應(yīng)的

3、值,則稱y 是 x 的函數(shù),記為y y = = f f ( (x x) ),其中x 稱為自變量,y 稱為因變量;(3)各觀測點落在一條線上 .函數(shù)關(guān)系的特點:52.相關(guān)關(guān)系相關(guān)關(guān)系指變量之間保持著不確定的數(shù)量依存關(guān)系。即變量指變量之間保持著不確定的數(shù)量依存關(guān)系。即變量間關(guān)系不能用函數(shù)關(guān)系精確表達,一個變量的取值間關(guān)系不能用函數(shù)關(guān)系精確表達,一個變量的取值不能由另一個變量唯一確定,當(dāng)變量不能由另一個變量唯一確定,當(dāng)變量x取某個值時,取某個值時,變量變量y的取值可能有幾個。的取值可能有幾個。例:商品的消費量例:商品的消費量( (y)y)與居民收入與居民收入( (x)x)之間的關(guān)系;之間的關(guān)系; 商

4、品的消費量商品的消費量( (y)y)與物價與物價( (x)x)之間的關(guān)系;之間的關(guān)系; 商品銷售額商品銷售額( (y)y)與廣告費支出與廣告費支出( (x)x)之間的關(guān)系;之間的關(guān)系; 糧食畝產(chǎn)量糧食畝產(chǎn)量( (y)y)與施肥量與施肥量( (x x1 1) ) 、降雨量降雨量( (x x2 2) ) 、溫度溫度( (x x3 3) )之之間的關(guān)系;間的關(guān)系; 收入水平收入水平( (y)y)與受教育程度與受教育程度( (x)x)之間的關(guān)系。之間的關(guān)系。6相關(guān)關(guān)系的特點:(1)變量間關(guān)系不能用函數(shù)關(guān)系精確表達;(2)一個變量的取值不能由另一個變量唯一確定;(3)當(dāng)變量 x 取某個值時,變量 y 的

5、取值可能有幾個;(4)各觀測點分布在直線周圍。7具有相關(guān)關(guān)系的某些現(xiàn)象可表現(xiàn)為因果關(guān)系。自變量:是引起某種結(jié)果變化的原因,它是可以控制、給定的值,常用x表示;因變量:是自變量變化的引起結(jié)果量,它是不確定的值,常用y表示。 它們的表現(xiàn)形式有多種:一種原因引起一種結(jié)果;多種原因引起一種結(jié)果;還有變量之間是互為因果的關(guān)系。相關(guān)分析時,一般不區(qū)分原因和結(jié)果。8二、相關(guān)關(guān)系的種類 1. 1. 按相關(guān)的程度可分為完全相關(guān)、不完全相關(guān)和不相關(guān)按相關(guān)的程度可分為完全相關(guān)、不完全相關(guān)和不相關(guān)n完全相關(guān):當(dāng)一個變量的變化完全由另一個變量所決定時,稱變量間的這種關(guān)系為為完全相關(guān)關(guān)系,這種嚴(yán)格的依存關(guān)系實際上就是函數(shù)

6、關(guān)系。n不相關(guān):當(dāng)兩個變量的變化相互獨立、互不影響時,稱這兩個變量不相關(guān)(或零相關(guān))。n不完全相關(guān):當(dāng)變量之間存在不嚴(yán)格的依存關(guān)系時,稱為不完全相關(guān)。不完全相關(guān)關(guān)系是現(xiàn)實當(dāng)中相關(guān)關(guān)系的主要表現(xiàn)形式,是相關(guān)分析的主要研究對象。92. 2. 按相關(guān)的方向可分為正相關(guān)和負相關(guān)按相關(guān)的方向可分為正相關(guān)和負相關(guān)正相關(guān):當(dāng)一個變量隨著另一個變量的增加(減少)而增加(減少),即兩者同向變化時,稱為正相關(guān)。 如家庭收入與家庭支出之間的關(guān)系。負相關(guān):當(dāng)一個變量隨著另一個變量的增加(減少)而減少(增加),即兩者反向變化時,稱為負相關(guān)。 如產(chǎn)品產(chǎn)量與單位成本之間的關(guān)系,單位成本會隨著產(chǎn)量的增加而減少。103、 按相

7、關(guān)的形式可分為線性相關(guān)和非線性相關(guān)按相關(guān)的形式可分為線性相關(guān)和非線性相關(guān)線性相關(guān):當(dāng)變量之間的依存關(guān)系大致呈現(xiàn)為線性形式,即當(dāng)一個變量變動一個單位時,另一個變量也按一個大致固定的增(減)量變動,就稱為線性相關(guān)。非線性相關(guān):當(dāng)變量間的關(guān)系不按固定比例變化時,就稱之為非線性相關(guān)。114. 4. 按研究變量的多少可分為單相關(guān)、偏相關(guān)和復(fù)按研究變量的多少可分為單相關(guān)、偏相關(guān)和復(fù)相關(guān)相關(guān)單相關(guān):兩個變量之間的相關(guān),稱為單相關(guān)。復(fù)相關(guān):一個變量與兩個或兩個以上其他變量之間的相關(guān),稱為復(fù)相關(guān)。偏相關(guān):在復(fù)相關(guān)的研究中,假定其他變量不變,專門研究其中兩個變量之間的相關(guān)關(guān)系時稱其為偏相關(guān)。12三、相關(guān)關(guān)系的測定

8、 注意:并非所有的變量之間都存在相關(guān)關(guān)系,因此需要用相關(guān)分析方法來識別和判斷。相關(guān)分析就是借助于圖表和分析指標(biāo)對變量之間的依存關(guān)系的密切程度進行測定的過程。定性分析定性分析定量分析定量分析13(一)相關(guān)表:(一)相關(guān)表:將自變量將自變量x x的數(shù)值按照從小到大的的數(shù)值按照從小到大的順序,并配合因變量順序,并配合因變量y y的數(shù)值一一對應(yīng)而平行排的數(shù)值一一對應(yīng)而平行排列的表。列的表。(二)相關(guān)圖(散點圖)(二)相關(guān)圖(散點圖) 識別變量間相關(guān)關(guān)系最簡單的方法是散點圖法。識別變量間相關(guān)關(guān)系最簡單的方法是散點圖法。 所謂散點圖法,就是將所研究變量的觀察值以散所謂散點圖法,就是將所研究變量的觀察值以散

9、點的形式繪制在相應(yīng)的坐標(biāo)系中,通過它們呈現(xiàn)點的形式繪制在相應(yīng)的坐標(biāo)系中,通過它們呈現(xiàn)出的特征,來判斷變量之間是否存在相關(guān)關(guān)系,出的特征,來判斷變量之間是否存在相關(guān)關(guān)系,以及相關(guān)的形式、相關(guān)的方向和相關(guān)的程度等。以及相關(guān)的形式、相關(guān)的方向和相關(guān)的程度等。14 【例】在研究我國人均消費水平的問題時,把全國人均消費記為y,把人均國內(nèi)生產(chǎn)總值(人均GDP)記為x。 我國人均國內(nèi)生產(chǎn)總值與人均消費金額數(shù)據(jù) 單位:元 年份人均國內(nèi)生產(chǎn)總值X人均消費金額Y19951996199719981999200020012002200348545576605463086551708676518214910122362

10、6412834297231383397360938184089從上表可以看出從上表可以看出X X和和Y Y這兩個變量之間存在什么樣的相關(guān)關(guān)系?這兩個變量之間存在什么樣的相關(guān)關(guān)系?將上表資料繪制散點圖如下:將上表資料繪制散點圖如下:15所繪制的散點圖呈現(xiàn)出從左至右的上升趨勢,它表明x與y之間存在著一定的正相關(guān)關(guān)系,即隨著人均GDP的上升,人均消費金額也會增加。有時也可通過表格來直接觀察變量之間是否存大相關(guān)關(guān)系。將上表資料繪制散點圖如下:將上表資料繪制散點圖如下:16(a)正相關(guān)直線相關(guān)(b)負相關(guān)直線相關(guān)(c)正相關(guān)曲線相關(guān)x與y關(guān)系散點圖的主要類型17(d)負相關(guān)曲線關(guān)系(e)負相關(guān)直線相關(guān)(

11、相關(guān)程度較小)(f )不相關(guān)18(二)相關(guān)系數(shù)相關(guān)圖表可反映兩個變量之間的相互關(guān)系及其相關(guān)方向,但無法確切地表明兩個變量之間相關(guān)的程度。統(tǒng)計學(xué)家卡爾皮爾遜設(shè)計了統(tǒng)計指標(biāo) 相關(guān)系數(shù)。簡單相關(guān)系數(shù):在線性條件下說明兩個變量之簡單相關(guān)系數(shù):在線性條件下說明兩個變量之間相關(guān)關(guān)系密切程度的統(tǒng)計分析指標(biāo),簡稱相間相關(guān)關(guān)系密切程度的統(tǒng)計分析指標(biāo),簡稱相關(guān)系數(shù)。關(guān)系數(shù)。根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為; 根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為 r。將反映兩變量間曲線相關(guān)關(guān)系的統(tǒng)計指標(biāo)稱為非線性相關(guān)系數(shù)

12、、非線性判定系數(shù);將反映多元線性相關(guān)關(guān)系的統(tǒng)計指標(biāo)稱為復(fù)相關(guān)系數(shù)、復(fù)判定系數(shù)等。19n1、由未分組資料計算相關(guān)系數(shù)公式:的協(xié)方差。與的標(biāo)準(zhǔn)差及、變量分別為變量和、其中:yxyxrxyyxyxxy22nxxx2)(nyyy2)(nyyxxxy)(22)()()(yyxxyyxxr上述公式還可以變換為其它形式,如:20nxxxnxxnxnnxxxnxxx22222222)(222)(yynyy22)( nyxxyyyxx)()2()(222xxxxxx212222)(1)(11ynyxnxyxnxyr2222)()(yynxxnyxxynr22【例】根據(jù)上述資料,計算人均消費與人均國內(nèi)生產(chǎn)總值的直

13、線相關(guān)系數(shù)。239938. 02873494547496961395433057667928734613952022998529222222 yynxxnyxxynr將上表計算結(jié)果代入公式為:相關(guān)系數(shù)較大,這說明人均消費額與人均國內(nèi)生產(chǎn)總值高度相關(guān)。 2、由分組資料計算相關(guān)系數(shù)的公式為: 2222)()(jjjjjiiiiijjiiijjiijfyfyffxfxffyfxfyxfr243、相關(guān)系數(shù)取值及其意義相關(guān)系數(shù)取值及其意義相關(guān)系數(shù)的值介于1與+1之間,即1r+1。25(1)當(dāng)r0時,表示兩變量正相關(guān),r0時,兩變量為負相關(guān)。(2)當(dāng)|r|=1時,表示兩變量為完全線性相關(guān),即為函數(shù)關(guān)系。(

14、3)當(dāng)r=0時,表示兩變量間無線性相關(guān)關(guān)系,它并不意味著與之間不存在其他類型的關(guān)系。 。(4)當(dāng)0|r|0 ,說明兩變量之間正線性相關(guān);2)所有相關(guān)點都為負相關(guān),則 0 ,說明兩變量之間負線性相關(guān);3)在全部相關(guān)點中,既有正相關(guān)、又有負相關(guān)和零相關(guān),這時計算協(xié)方差時就會出現(xiàn)正負抵消。抵消的結(jié)果為正數(shù),為正相關(guān);為負數(shù)就是負相關(guān).2xy2xy2xy27四、相關(guān)分析中應(yīng)注意的問題 (一)相關(guān)系數(shù)是說明線性聯(lián)系程度的,相關(guān)系數(shù)很小的變量間可能存在非線性聯(lián)系。(二)相關(guān)系數(shù)不能解釋兩變量間的因果關(guān)系,警惕虛假相關(guān)導(dǎo)致的錯誤結(jié)論。有人曾對教師工資提高和酒價上漲的數(shù)據(jù)計算相關(guān)系數(shù),得到的數(shù)值比較大,這是否

15、表明教師工資提高導(dǎo)致酒的消費量增加,從而導(dǎo)致酒價上漲呢?經(jīng)定性分析,事實是由于經(jīng)濟繁榮導(dǎo)致政府普遍增加工資,其中教師工資也隨之增加,同時人們收入提高增加了酒的消費導(dǎo)致酒價的上漲,而教師工資增長和酒價之間并沒有什么直接關(guān)系。(三)不要在相關(guān)關(guān)系據(jù)以成立的數(shù)據(jù)范圍以外,推論這種相關(guān)關(guān)系仍然保持。28第二節(jié) 一元線性回歸分析n本節(jié)內(nèi)容:n一、回歸分析的概念及種類n二、一元線性回歸模型n三、回歸估計標(biāo)標(biāo)準(zhǔn)誤差n四、可線性化的常用曲線類型 29一、回歸分析的概念1、什么是回歸分析“回歸”一詞是由英國生物學(xué)家F.Galton在研究人體身高的遺傳問題時首先提出的。回歸分析通過一個變量或一些變量的變化解釋另一

16、變量的變化,即從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式。302、相關(guān)分析與回歸分析的關(guān)系 相關(guān)分析是回歸分析的基礎(chǔ)和前提,回歸分析則是相關(guān)分析的深入和繼續(xù)。相關(guān)分析需要依靠回歸分析來表現(xiàn)變量之間數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來表現(xiàn)變量之間數(shù)量變化的相關(guān)程度。只有當(dāng)變量之間存在高度相關(guān)時,進行回歸分析尋求其相關(guān)的具體形式才有意義。31二者的區(qū)別: (1) 相關(guān)分析中變量之間的關(guān)系是對等的;回歸分析中,變量之間的關(guān)系是不對等的,將變量劃分自變量和因變量。 (2) 相關(guān)分析中變量都必須是隨機變量;回歸分析中,自變量是給定的,因變量是隨機的。 (3)相關(guān)分析主要是通過一個指標(biāo)即相

17、關(guān)系數(shù)來反映變量之間相關(guān)程度的大小,相關(guān)系數(shù)是惟一的。而在回歸分析中,對于互為因果的兩個變量 ,則有可能存在兩個或多個回歸方程。 323、回歸分析的種類回歸模型回歸模型多元回歸多元回歸一元回歸一元回歸線性線性回歸回歸非線性非線性回歸回歸線性線性回歸回歸非線性非線性回歸回歸334、回歸分析步驟:首先對變量之間的關(guān)系進行相關(guān)分析,并將變量分為自變量和因變量;其次,找出合適的回歸模型(即數(shù)學(xué)方程式),描述變量間的關(guān)系;再次,對回歸模型進行統(tǒng)計檢驗;最后,統(tǒng)計檢驗通過后,利用回歸模型,根據(jù)自變量去估計、預(yù)測因變量。本節(jié)僅討論一元線性回歸分析。34二、一元線性回歸模型如果變量x和y相關(guān),并且從相關(guān)圖表中

18、可以看出它們之間大致形成一種直線關(guān)系,我們就可在相關(guān)圖上求出一條與各點最相配合的直線。y=a+bx+式中x為自變量,通常由研究者事先選定數(shù)值。 a為樣本回歸直線在y軸上的截距; b為樣本回歸直線的斜率(又稱回歸系數(shù)),它表示當(dāng)x增加一個單位時y的平均增加數(shù)量;為誤差項。351. 當(dāng)只涉及一個自變量時稱為一元回歸,若因變量 y與自變量x之間為線性關(guān)系時稱為一元線性回歸。2. 對于具有線性關(guān)系的兩個變量,可以用一條直線方程來表示它們之間的關(guān)系。3. 描述因變量y如何依賴于自變量x和誤差項的方程稱為回歸模型。一元線性回歸概念要點一元線性回歸概念要點36在回歸分析中,欲使所求回歸直線 y=a+bx最適

19、合于實際資料,必須使每個xi對應(yīng)的指標(biāo)實測值yi與回歸直線確定的估計值yi的離差平方之和為最小。這樣便把尋找適當(dāng)直線問題轉(zhuǎn)化為使 Q(a, b)達到最小條件下求出a、b的問題。如何確定回歸直線方程呢?(怎樣確定參數(shù)a、b)最小值37滿足上述條件的a、b即為所求的未知參數(shù)。0)1)(20)(2bxayaQxbxaybQ由化簡得(yabx)=0(yabx)x=0即:y=na+bxxy=ax+bx2因為Q(a, b)是a、b的非負二元函數(shù),所以其最小值無疑是存在的。根據(jù)數(shù)學(xué)中的極值原理,令:0 0bQ aQ和38上述方程組稱為標(biāo)準(zhǔn)方程組。解之,得:,)(1122 xnxyxnxy-ba = y b

20、xynyxnx 1 ,1 :其中39將上述結(jié)果代入即可確定回歸方程式為:y=a+bx這個方程稱為在給定樣本條件下的一元線性回歸方程,對應(yīng)的直線稱為樣本回歸直線?;貧w方程對于不同的樣本是有差別的,因而,它具有經(jīng)驗的特征,所以在實用上,也將它叫做經(jīng)驗公式。40教育經(jīng)費(萬元)x在校學(xué)生數(shù)(萬人)y316343373393418455111618202225要求:(1)建立教育經(jīng)費x與高校學(xué)生人數(shù)回歸直線方程;(2)估計教育經(jīng)費為500萬元時的在校學(xué)生數(shù)。例:某地高校教育經(jīng)費x與高校學(xué)生人數(shù)y連續(xù)6年的統(tǒng)計資料如下表。41回 歸 分 析 計 算 表教育經(jīng)費x在校學(xué)生數(shù)y xy316343373393

21、4184551116182022253476548867147860919611375998561176491391291544491747242070251212563244004846252298112441098928322210 x2y242(1)建立回歸直線方程91061120955.0)2298(89283261122298441096222nxbnyaxxnyxxynb所以回歸方程為:Y-17.91+0.0955x(2)當(dāng)教育經(jīng)費為500萬元時,在校學(xué)生數(shù)可以為: Y-17.91+0.095550029.84(萬人)y=a+bx43為了簡化上述回歸系數(shù)b

22、的表達形式,引入如下離差乘積的和式: yxnxy1Lxy= (xx)(yy)Lxx= (xx)222)(1xnx于是,回歸系數(shù)可簡化為xxxyLLb 為了相關(guān)性檢驗的需要,順便引入關(guān)于 y 的離差平方和:22)(1ynyLyy= (y y )244三、回歸估計標(biāo)準(zhǔn)誤差n回歸方程的一個重要作用在于根據(jù)自變量的已知值估計因變量的理論值(估計值)。而理論值yc與實際值y存在著差距,這就產(chǎn)生了推算結(jié)果的準(zhǔn)確性問題。如果差距小,說明推算結(jié)果的準(zhǔn)確性高;反之,則低。n為了度量y的實際水平和估計值離差的一般水平,可計算估計標(biāo)準(zhǔn)誤差。n估計標(biāo)準(zhǔn)誤差是衡量回歸直線代表性大小的統(tǒng)計分析指標(biāo),它說明觀察值圍繞著回歸直線的變化程度或分散程度。45為了度量回歸方程的可靠性,通常計算估計標(biāo)準(zhǔn)誤差。它度量觀察值回繞著回歸直線的變化程度或分散程度。通常用Sy代表估計平均誤差,其計算公式為:22n)y(ySy注意,公式中根號內(nèi)的分母是n2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論