相關(guān)與一元線性回歸_第1頁
相關(guān)與一元線性回歸_第2頁
相關(guān)與一元線性回歸_第3頁
相關(guān)與一元線性回歸_第4頁
相關(guān)與一元線性回歸_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1第一頁,共七十一頁,2022年,8月28日學(xué)習(xí)內(nèi)容1.相關(guān)系數(shù)的分析方法線性回歸的基本原理和參數(shù)的最小二乘估計回歸直線的擬合優(yōu)度回歸方程的顯著性檢驗利用回歸方程進行估計和預(yù)測2第二頁,共七十一頁,2022年,8月28日8.1變量間關(guān)系的度量變量間的關(guān)系相關(guān)關(guān)系的描述與測度3第三頁,共七十一頁,2022年,8月28日一.變量間的關(guān)系函數(shù)關(guān)系是一一對應(yīng)的確定關(guān)系設(shè)有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x,當(dāng)變量x取某個數(shù)值時,y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量各觀測點落在一條線上xy4第四頁,共七十一頁,2022年,8月28日函數(shù)關(guān)系(幾個例子)函數(shù)關(guān)系的例子某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px(p為單價)圓的面積(S)與半徑之間的關(guān)系可表示為S=R2

企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關(guān)系可表示為y=x1x2x3

5第五頁,共七十一頁,2022年,8月28日相關(guān)關(guān)系(correlation)變量間關(guān)系不能用函數(shù)關(guān)系精確表達一個變量的取值不能由另一個變量唯一確定當(dāng)變量x取某個值時,變量y的取值可能有幾個各觀測點分布在直線周圍xy6第六頁,共七十一頁,2022年,8月28日相關(guān)關(guān)系(幾個例子)相關(guān)關(guān)系的例子父親身高(y)與子女身高(x)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系商品的消費量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費支出(x)之間的關(guān)系7第七頁,共七十一頁,2022年,8月28日相關(guān)關(guān)系(類型)8第八頁,共七十一頁,2022年,8月28日散點圖(scatterdiagram)不相關(guān)負線性相關(guān)正線性相關(guān)非線性相關(guān)完全負線性相關(guān)完全正線性相關(guān)9第九頁,共七十一頁,2022年,8月28日散點圖(例題分析)

【例】一家大型商業(yè)銀行在多個地區(qū)設(shè)有分行,其業(yè)務(wù)主要是進行基礎(chǔ)設(shè)施建設(shè)、國家重點項目建設(shè)、固定資產(chǎn)投資等項目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的增加,這給銀行業(yè)務(wù)的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù)10第十頁,共七十一頁,2022年,8月28日散點圖(例題分析)11第十一頁,共七十一頁,2022年,8月28日散點圖(例題分析)12第十二頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)(correlationcoefficient)對變量之間關(guān)系密切程度的度量對兩個變量之間線性相關(guān)程度的度量稱為簡單相關(guān)系數(shù)若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為r13第十三頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)(計算公式)樣本相關(guān)系數(shù)的計算公式14第十四頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)——協(xié)方差Ⅰ為正Ⅱ為負Ⅲ為正Ⅳ為負協(xié)方差為正值時,表示正線性相關(guān)關(guān)系。15第十五頁,共七十一頁,2022年,8月28日協(xié)方差為負值時,表示負線性相關(guān)關(guān)系。相關(guān)系數(shù)——協(xié)方差16第十六頁,共七十一頁,2022年,8月28日協(xié)方差接近于零時,表示很小,沒有線性相關(guān)關(guān)系。相關(guān)系數(shù)——協(xié)方差17第十七頁,共七十一頁,2022年,8月28日

協(xié)方差(covariance):兩個變量與其均值離差乘積的平均數(shù),是相互關(guān)系的一種度量??傮w協(xié)方差:樣本協(xié)方差:相關(guān)系數(shù)——協(xié)方差18第十八頁,共七十一頁,2022年,8月28日協(xié)方差為大的正值時,表示強的正線性相關(guān)關(guān)系。協(xié)方差接近于零時,表示很小,沒有線性相關(guān)關(guān)系。協(xié)方差為大的負值時,表示強的負線性相關(guān)關(guān)系。協(xié)方差相關(guān)系數(shù)——協(xié)方差19第十九頁,共七十一頁,2022年,8月28日cmkgmmkg大于基本結(jié)論:協(xié)方差受計量單位影響,從而不能真實反映相關(guān)的程度。相關(guān)系數(shù)——協(xié)方差20第二十頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)(correlationcoefficient):協(xié)方差與兩變量標(biāo)準(zhǔn)差乘積的比值,是沒有量綱的、標(biāo)準(zhǔn)化的協(xié)方差??傮w相關(guān)系數(shù)樣本相關(guān)系數(shù)相關(guān)系數(shù)——協(xié)方差21第二十一頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)(計算公式)樣本相關(guān)系數(shù)的計算公式22第二十二頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)(取值及其意義)

r

的取值范圍是[-1,1]|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負相關(guān)

r=0,不存在線性相關(guān)關(guān)系相關(guān)

-1r<0,為負相關(guān)

0<r1,為正相關(guān)

|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切23第二十三頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)(取值及其意義)-1.0+1.00-0.5+0.5完全負相關(guān)無線性相關(guān)完全正相關(guān)負相關(guān)程度增加r正相關(guān)程度增加24第二十四頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)的性質(zhì)性質(zhì)1:r具有對稱性。即x與y之間的相關(guān)系數(shù)和y與x之間的相關(guān)系數(shù)相等,即rxy=ryx性質(zhì)2:r數(shù)值大小與x和y原點及尺度無關(guān),即改變x和y的數(shù)據(jù)原點及計量尺度,并不改變r數(shù)值大小性質(zhì)3:僅僅是x與y之間線性關(guān)系的一個度量,它不能用于描述非線性關(guān)系。這意味著,r=0只表示兩個變量之間不存在線性相關(guān)關(guān)系,并不說明變量之間沒有任何關(guān)系性質(zhì)4:r雖然是兩個變量之間線性關(guān)系的一個度量,卻不一定意味著x與y一定有因果關(guān)系25第二十五頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)的經(jīng)驗解釋

|r|0.8時,可視為兩個變量之間高度相關(guān)0.5|r|<0.8時,可視為中度相關(guān)0.3|r|<0.5時,視為低度相關(guān)|r|<0.3時,說明兩個變量之間的相關(guān)程度極弱,可視為不相關(guān)上述解釋必須建立在對相關(guān)系數(shù)的顯著性進行檢驗的基礎(chǔ)之上26第二十六頁,共七十一頁,2022年,8月28日相關(guān)系數(shù)(例題分析)27第二十七頁,共七十一頁,2022年,8月28日8.2一元線性回歸一元線性回歸模型參數(shù)的最小二乘估計回歸直線的擬合優(yōu)度顯著性檢驗28第二十八頁,共七十一頁,2022年,8月28日什么是回歸分析?(Regression)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對這些關(guān)系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來預(yù)測或控制另一個特定變量的取值,并給出這種預(yù)測或控制的精確程度29第二十九頁,共七十一頁,2022年,8月28日回歸分析與相關(guān)分析的區(qū)別相關(guān)分析中,變量x變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測因變量的變化相關(guān)分析中所涉及的變量x和y都是隨機變量;回歸分析中,因變量y是隨機變量,自變量x可以是隨機變量,也可以是非隨機的確定變量相關(guān)分析主要是描述兩個變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預(yù)測和控制

30第三十頁,共七十一頁,2022年,8月28日回歸模型的類型31第三十一頁,共七十一頁,2022年,8月28日一元線性回歸涉及一個自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測或被解釋的變量稱為因變量(dependentvariable),用y表示用來預(yù)測或用來解釋因變量的一個或多個變量稱為自變量(independentvariable),用x表示因變量與自變量之間的關(guān)系用一條線性方程來表示32第三十二頁,共七十一頁,2022年,8月28日回歸模型(regressionmodel)回答“變量之間是什么樣的關(guān)系?”方程中運用1個數(shù)字的因變量(響應(yīng)變量)被預(yù)測的變量1個或多個數(shù)字的或分類的自變量(解釋變量)用于預(yù)測的變量3. 主要用于預(yù)測和估計33第三十三頁,共七十一頁,2022年,8月28日一元線性回歸模型描述因變量y如何依賴于自變量x和誤差項

的方程稱為回歸模型一元線性回歸模型可表示為

y=b0+b1x+

y是x的線性函數(shù)(部分)加上誤差項線性部分反映了由于x的變化而引起的y的變化誤差項

是隨機變量反映了除x和y之間的線性關(guān)系之外的隨機因素對y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性0和1稱為模型的參數(shù)34第三十四頁,共七十一頁,2022年,8月28日一元線性回歸模型(基本假定)

誤差項ε是一個期望值為0的隨機變量,即E(ε)=0。對于一個給定的x值,y的期望值為

E(y)=0+

1x對于所有的x值,ε的方差σ2都相同誤差項ε是一個服從正態(tài)分布的隨機變量,且相互獨立。即ε-N(0,σ2)獨立性意味著對于一個特定的x值,它所對應(yīng)的ε與其他x值所對應(yīng)的ε不相關(guān)對于一個特定的x值,它所對應(yīng)的y值與其他x所對應(yīng)的y值也不相關(guān)35第三十五頁,共七十一頁,2022年,8月28日回歸方程(regressionequation)描述y的平均值或期望值如何依賴于x的方程稱為回歸方程一元線性回歸方程的形式如下

E(y)=0+1x方程的圖示是一條直線,也稱為直線回歸方程0是回歸直線在y軸上的截距,是當(dāng)x=0時y的期望值1是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動一個單位時,y的平均變動值36第三十六頁,共七十一頁,2022年,8月28日估計的回歸方程(estimatedregressionequation)一元線性回歸中估計的回歸方程為:其中:是估計的回歸直線在y

軸上的截距,是直線的斜率,它表示對于一個給定的x

的值,是y

的估計值,也表示x

每變動一個單位時,y的平均變動值

37第三十七頁,共七十一頁,2022年,8月28日最小二乘估計使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實際數(shù)據(jù)的誤差比其他任何直線都小38第三十八頁,共七十一頁,2022年,8月28日最小二乘估計(圖示)

xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^39第三十九頁,共七十一頁,2022年,8月28日最小二乘法

(

的計算公式)

根據(jù)最小二乘法,可得求解和的公式如下40第四十頁,共七十一頁,2022年,8月28日最小二乘法

(

和的計算公式)

根據(jù)最小二乘法的要求,可得求解和的公式如下41第四十一頁,共七十一頁,2022年,8月28日估計方程的求法(例題分析)【例】求不良貸款對貸款余額的回歸方程回歸方程為:y=-0.8295+0.037895x回歸系數(shù)=0.037895表示,貸款余額每增加1億元,不良貸款平均增加0.037895億元

42第四十二頁,共七十一頁,2022年,8月28日估計方程的求法(例題分析)不良貸款對貸款余額回歸方程的圖示43第四十三頁,共七十一頁,2022年,8月28日變差因變量y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面由于自變量x的取值不同造成的除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差

來表示44第四十四頁,共七十一頁,2022年,8月28日變差的分解(圖示)

xy{}}45第四十五頁,共七十一頁,2022年,8月28日離差平方和的分解(三個平方和的關(guān)系)

SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{46第四十六頁,共七十一頁,2022年,8月28日離差平方和的分解(三個平方和的意義)總平方和(SST)反映因變量的n個觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和47第四十七頁,共七十一頁,2022年,8月28日判定系數(shù)r2(coefficientof

determination)回歸平方和占總離差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間R21,說明回歸方程擬合的越好;R20,說明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=(r)248第四十八頁,共七十一頁,2022年,8月28日判定系數(shù)R2

(例題分析)【例】計算不良貸款對貸款余額回歸的判定系數(shù),并解釋其意義

判定系數(shù)的實際意義是:在不良貸款取值的變差中,有71.16%可以由不良貸款與貸款余額之間的線性關(guān)系來解釋,或者說,在不良貸款取值的變動中,有71.16%是由貸款余額所決定的。也就是說,不良貸款取值的差異有2/3以上是由貸款余額決定的??梢姴涣假J款與貸款余額之間有較強的線性關(guān)系49第四十九頁,共七十一頁,2022年,8月28日估計標(biāo)準(zhǔn)誤差(standarderrorofestimate)實際觀察值與回歸估計值離差平方和的均方根反映實際觀察值在回歸直線周圍的分散狀況對誤差項的標(biāo)準(zhǔn)差的估計,是在排除了x對y的線性影響后,y隨機波動大小的一個估計量反映用估計的回歸方程預(yù)測y時預(yù)測誤差的大小計算公式為注:例題的計算結(jié)果為1.979950第五十頁,共七十一頁,2022年,8月28日線性關(guān)系檢驗檢驗自變量與因變量之間的線性關(guān)系是否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗來分析二者之間的差別是否顯著回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個數(shù)p)殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-p-1)51第五十一頁,共七十一頁,2022年,8月28日線性關(guān)系檢驗(檢驗的步驟)

提出假設(shè)H0:1=0線性關(guān)系不顯著2.計算檢驗統(tǒng)計量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F作出決策:若F>F,拒絕H0;若F<F,不能拒絕H052第五十二頁,共七十一頁,2022年,8月28日線性關(guān)系檢驗(例題分析)

提出假設(shè)H0:1=0不良貸款與貸款余額之間的線性關(guān)系不顯著計算檢驗統(tǒng)計量F確定顯著性水平=0.05,并根據(jù)分子自由度1和分母自由度25-2找出臨界值F=4.28作出決策:若F>F,拒絕H0,線性關(guān)系顯著53第五十三頁,共七十一頁,2022年,8月28日線性關(guān)系檢驗(方差分析表)

54第五十四頁,共七十一頁,2022年,8月28日回歸系數(shù)檢驗在一元線性回歸中,等價于線性關(guān)系的顯著性檢驗檢驗x與y之間是否具有線性關(guān)系,或者說,檢驗自變量x對因變量y的影響是否顯著理論基礎(chǔ)是回歸系數(shù)

的抽樣分布55第五十五頁,共七十一頁,2022年,8月28日回歸系數(shù)檢驗(檢驗步驟)

提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b1

0(有線性關(guān)系)計算檢驗的統(tǒng)計量確定顯著性水平,并進行決策t>t,拒絕H0;t<t,不能拒絕H056第五十六頁,共七十一頁,2022年,8月28日回歸系數(shù)檢驗(例題分析)對例題的回歸系數(shù)進行顯著性檢驗(=0.05)提出假設(shè)H0:b1=0H1:b1

0計算檢驗的統(tǒng)計量

t=7.533515>t=2.201,拒絕H0,表明不良貸款與貸款余額之間有線性關(guān)系57第五十七頁,共七十一頁,2022年,8月28日回歸系數(shù)檢驗(例題分析)P值的應(yīng)用P=0.000000<=0.05,拒絕原假設(shè),不良貸款與貸款余額之間有線性關(guān)系58第五十八頁,共七十一頁,2022年,8月28日8.3利用回歸方程進行估計和預(yù)測點估計區(qū)間估計59第五十九頁,共七十一頁,2022年,8月28日利用回歸方程進行估計和預(yù)測根據(jù)自變量x

的取值估計或預(yù)測因變量y的取值估計或預(yù)測的類型點估計y的平均值的點估計y的個別值的點估計區(qū)間估計y的平均值的置信區(qū)間估計y的個別值的預(yù)測區(qū)間估計60第六十頁,共七十一頁,2022年,8月28日點估計

2.

點估計值有y的平均值的點估計y的個別值的點估計在點估計條件下,平均值的點估計和個別值的的點估計是一樣的,但在區(qū)間估計中則不同對于自變量x的一個給定值x0

,根據(jù)回歸方程得到因變量y的一個估計值61第六十一頁,共七十一頁,2022年,8月28日

y的平均值的點估計利用估計的回歸方程,對于自變量x的一個給定值x0,求出因變量y的平均值的一個估計值E(y0),就是平均值的點估計在前面的例子中,假如我們要估計貸款余額為100億元時,所有分行不良貸款的平均值,就是平均值的點估計。根據(jù)估計的回歸方程得62第六十二頁,共七十一頁,2022年,8月28日y的個別值的點估計利用估計的回歸方程,對于自變量x的一個給定值x0,求出因變量y

的一個個別值的估計值,就是個別值的點估計比如,如果我們只是想知道貸款余額為72.8億元的那個分行(這里是編號為10的那個分行)的不良貸款是多少,則屬于個別值的點估計。根據(jù)估計的回歸方程得63第六十三頁,共七十一頁,2022年,8月28日區(qū)間估計點估計不能給出估計的精度,點估計值與實際值之間是有誤差的,因此需要進行區(qū)間估計對于自變量x的一個給定值x0,根據(jù)回歸方程得到因變量y的一個估計區(qū)間區(qū)間估計有兩種類型置信區(qū)間估計(confidenceintervalestimate)預(yù)測區(qū)間估計(predictionintervalestimate)64第六十四頁,共七十一頁,2022年,8月28日置信區(qū)間估計利用估計的回歸方程,對于自變量x的一個給定值x0

,求出因變量y

的平均值的估計區(qū)間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論