版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
實驗優(yōu)化設計Tel:1第3章一元線性回歸3.1變量間關系的度量3.2一元線性回歸3.3利用回歸方程進行估計和預測3.4殘差分析2隨機向量的數字特征期望3協(xié)方差及相關系數1、定義定理:若X,Y獨立,則X,Y不相關。證明:由數學期望的性質有
E(X-EX)(Y-EY)=E(X-EX)E(Y-EY)
又E(X-EX)=0,
E(Y-EY)=0
所以E(X-EX)(Y-EY)=0。即COV(X,Y)=0
稱COV(X,Y)=E(X-EX)(Y-EY)=EXY-EXEY為隨機變量X,Y的協(xié)方差.而COV(X,X)=DX.
為隨機變量X,Y的相關系數。42、協(xié)方差的性質注意:若E(X-EX)(Y-EY)0,即EXY-EXEY0,則X,Y一定相關,且X,Y一定不獨立。D(aX+bY)=53、相關系數的性質證明:令:6返回主目錄7說明X與Y之間沒有線性關系并不表示它們之間沒有關系。的量.之間線性關系緊密程度與量相關系數是表征隨機變YX存在著線性關系;之間以概率與時,當,11YXYX=r之間的線性關系越弱;與時,越接近于當,YXYX0r().不相關之間不存在線性關系與時,當,YXYX0=r85、例子解:9返回主目錄10X,Y獨立=0X,Y不相關。113.1變量間關系的度量1.變量間關系2.相關關系的描述與測度3.相關關系的顯著性檢驗121.變量間關系1)函數關系是一一對應的確定關系設有兩個變量
x和
y,變量
y隨變量
x一起變化,并完全依賴于
x
,當變量
x取某個數值時,
y依確定的關系取相應的值,則稱
y是
x的函數,記為
y=f(x),其中
x稱為自變量,y稱為因變量各觀測點落在一條線上
xy13函數關系(幾個例子)
函數關系的例子某種商品的銷售額y與銷售量x之間的關系可表示為
y=px(p為單價)圓的面積S與半徑之間的關系可表示為S=R2
企業(yè)的原材料消耗額y與產量x1
、單位產量消耗x2
、原材料價格x3之間的關系可表示為
y=x1x2x3
142)
相關關系(correlation)變量間關系不能用函數關系精確表達一個變量的取值不能由另一個變量唯一確定當變量
x取某個值時,變量
y的取值可能有幾個各觀測點分布在直線周圍
xy15相關關系(幾個例子)
相關關系的例子父親身高y與子女身高x之間的關系收入水平y(tǒng)與受教育程度x之間的關系糧食畝產量y與施肥量x1
、降雨量x2
、溫度x3之間的關系商品的消費量y與居民收入x之間的關系商品銷售額y與廣告費支出x之間的關系16相關關系(類型)172.相關關系的描述與測度1)散點圖(scatterdiagram)不相關負線性相關正線性相關非線性相關完全負線性相關完全正線性相關18散點圖(例題分析)【例】一家大型商業(yè)銀行在多個地區(qū)設有分行,其業(yè)務主要是進行基礎設施建設、國家重點項目建設、固定資產投資等項目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的增長,這給銀行業(yè)務的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務的有關數據做些定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行2002年的有關業(yè)務數據19散點圖(例題分析)20散點圖(例題分析)212)相關系數(correlationcoefficient)對變量之間關系密切程度的度量對兩個變量之間線性相關程度的度量稱為簡單相關系數若相關系數是根據總體全部數據計算的,稱為總體相關系數,記為若是根據樣本數據計算的,則稱為樣本相關系數,記為
r22相關系數的計算公式(記?。?/p>
樣本相關系數的計算公式或化簡為23相關系數取值及其意義
r
的取值范圍是[-1,1]
|r|=1,為完全相關r=1,為完全正相關r=-1,為完全負正相關
r=0,不存在線性相關關系
-1r<0,為負相關
0<r1,為正相關
|r|越趨于1表示關系越密切;|r|越趨于0表示關系越不密切24取值及其意義-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加25相關系數的例題分析263.相關關系的顯著性檢驗1)r
的抽樣分布r是依據樣本數據計算的,根據一個樣本的相關系數能否說明總體的相關性呢?這需對樣本相關系數的顯著性進行檢驗。樣本相關系數的理論分布函數是很復雜的。
r的抽樣分布隨總體相關系數和樣本容量的大小而變化。在進行這項檢驗時,通常假設x與y是正態(tài)變量,如果總體相關系數
=0,則樣本相關系數r服從t分布272)檢驗的步驟1. 檢驗兩個變量之間是否存在線性相關關系等價于對回歸系數b1的檢驗采用R.A.Fisher提出的
t檢驗檢驗的步驟為提出假設:H0:
;H1:
0
計算檢驗的統(tǒng)計量:
確定顯著性水平,并作出決策若t>t,拒絕H0
若t<t,不能拒絕H028相關系數的顯著性檢驗(例題分析)
對不良貸款與貸款余額之間的相關系數進行顯著性檢(0.05)提出假設:H0:
;H1:
0計算檢驗的統(tǒng)計量3.根據顯著性水平=0.05,查t分布表得t(n-2)=2.0687由于t=7.5344>t(25-2)=2.0687,拒絕H0,不良貸款與貸款余額之間存在著顯著的正線性相關關系
29相關系數的顯著性檢驗(例題分析)各相關系數檢驗的統(tǒng)計量301.一元線性回歸模型什么是回歸分析?(Regression)從一組樣本數據出發(fā),確定變量之間的數學關系式對這些關系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關系式,根據一個或幾個變量的取值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確程度31回歸分析與相關分析的區(qū)別相關分析中,變量x
變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預測因變量的變化相關分析中所涉及的變量x和y都是隨機變量;回歸分析中,因變量y是隨機變量,自變量x
可以是隨機變量,也可以是非隨機的確定變量相關分析主要是描述兩個變量之間線性關系的密切程度;回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預測和控制
32回歸模型的類型33一元線性回歸含義涉及一個自變量的回歸因變量y與自變量x之間為線性關系被預測或被解釋的變量稱為因變量(dependentvariable),用y表示用來預測或用來解釋因變量的一個或多個變量稱為自變量(independentvariable),用x表示
因變量與自變量之間的關系用一個線性方程來表示344.回答“變量之間是什么樣的關系?”5.方程中運用1個數字的因變量(響應變量)被預測的變量1個或多個數字的或分類的自變量(解釋變量)用于預測的變量(多元)6. 主要用于預測和估計一元線性回歸含義(續(xù)前)35一元線性回歸模型具體形式描述因變量y如何依賴于自變量
x和誤差項的方程稱為回歸模型一元線性回歸模型可表示為
y=b0+b1x+ey是
x的線性函數(部分)加上誤差項線性部分反映了由于
x的變化而引起的
y的變化誤差項
是隨機變量反映了除
x和
y之間的線性關系之外的隨機因素對
y的影響是不能由
x和
y之間的線性關系所解釋的變異性0和
1稱為模型的參數36一元線性回歸模型基本假定誤差項ε是一個期望值為0的隨機變量,即E(ε)=0。對于一個給定的
x值,y的期望值為
E(y)=
0+
1x對于所有的
x值,ε的方差σ2都相同誤差項ε是一個服從正態(tài)分布的隨機變量,且相互獨立。即ε~N(0,σ2)獨立性意味著對于一個特定的
x值,它所對應的ε與其他
x值所對應的ε不相關對于一個特定的
x值,它所對應的
y值與其他
x所對應的
y值也不相關37回歸方程(regressionequation)描述
y的平均值或期望值如何依賴于
x的方程稱為回歸方程一元線性回歸方程的形式如下
E(y)=0+1x方程的圖示是一條直線,也稱為直線回歸方程0是回歸直線在
y軸上的截距,是當
x=0時
y的期望值1是直線的斜率,稱為回歸系數,表示當
x每變動一個單位時,y的平均變動值38估計的回歸方程(estimatedregressionequation)一元線性回歸中估計的回歸方程為用樣本統(tǒng)計量
和
代替回歸方程中的未知參數
和
,就得到了估計的回歸方程總體回歸參數
和
是
未知的,必須利用樣本數據去估計其中:
是估計的回歸直線在
y
軸上的截距,
是直線的斜率,它表示對于一個給定的
x
的值,
是
y
的估計值,也表示
x
每變動一個單位時,
y的平均變動值392.參數的最小二乘估計使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關系與實際數據的誤差比其他任何直線都小40最小二乘估計的圖示xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^41
和的計算公式
根據最小二乘法的要求,可得求解
和的公式如下42
例3.2
合金的強度y(×107Pa)與合金中碳的含量x(%)有關。為研究兩個變量間的關系。首先是收集數據,我們把收集到的數據記為(xi,yi),i=1,2,,n。本例中,我們收集到12組數據,列于表3.2中
進行回歸分析首先是回歸函數形式的選擇。當只有一個自變量時,通常可采用畫散點圖的方法進行選擇。43表3.2合金鋼強度y與碳含量x的數據
序號x(%)y(×107Pa)序號x(%)y(×107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.044
為找出兩個量間存在的回歸函數的形式,可以畫一張圖:把每一對數(xi,yi)看成直角坐標系中的一個點,在圖上畫出n個點,稱這張圖為散點圖,見圖3.2
45
從散點圖我們發(fā)現(xiàn)12個點基本在一條直線附近,這說明兩個變量之間有一個線性相關關系,這個相關關系可以表示為
y=0+1x+(1)
這便是y關于x的一元線性回歸的數據結構式。通常假定
E()=0,Var()=
2(2)
在對未知參數作區(qū)間估計或假設檢驗時,還需要假定誤差服從正態(tài)分布,即
y~N(0+1x,
2)(3)顯然,假定(3)比(2)要強。
46
由于0,1均未知,需要我們從收集到的數據(xi,yi),i=1,2,…,n,出發(fā)進行估計。在收集數據時,我們一般要求觀察獨立地進行,即假定y1,y2,,yn,相互獨立。綜合上述諸項假定,我們可以給出最簡單、常用的一元線性回歸的數學模型:
47
由數據(xi,yi),i=1,2,…,n,可以獲得0,1的估計,稱
為y關于x的經驗回歸函數,簡稱為回歸方程,其圖形稱為回歸直線。給定x=x0后,稱為回歸值(在不同場合也稱其為擬合值、預測值)。
48表3例3.3的計算表
由此給出回歸方程為:
例3.3
使用例3.2種合金鋼強度和碳含量數據,我們可求得回歸方程,見下表.
49為了更清楚地理解相關和回歸的概念,我們來看一個具體的實例1其中X收入,Y消費50從上表中,我們很容易發(fā)現(xiàn):(1)隨著收入水平的提高,消費水平也在提高;(2)對于給定的收入(X),消費(Y)的取值不是唯一一個具體的值,而是一系列值,換句話說,消費(Y)是一個隨機變量,它不完全由收入確定決定,還受到其它因素的影響。因此,我們可以說變量X和Y具有因果關系。另一方面,消費是隨著收入水平的提高而提高,因此可以認為收入是因,而消費是果。因此變量X和Y具有回歸關系。51這一點,很容易從下圖中可以看出52估計方程的求法(例題分析)【例】求不良貸款對貸款余額的回歸方程回歸方程為:y=-0.8295
+0.037895
x回歸系數=0.037895表示,貸款余額每增加1億元,不良貸款平均增加0.037895億元
^53估計方程的求法(例題分析)不良貸款對貸款余額回歸方程的圖示54一元線性回歸模型的經典假設
(1)E(ui)=0(i=1,2,….,n),殘差分布均值為零。這個假設的具體涵義是:雖然隨機因素對因變量有影響,但從平均意義上來說,其影響為零,從而因變量的平均水平(期望)完全由解釋變量確定。由此可得:E(Y|X)=b0+b1X,稱為總體回歸函數。(2)Var(ui)=2(i=1,2,……,n)隨機擾動項方差恒定,稱為同方差。這個假設的具體涵義是:雖然各個隨機擾動項的取值是不同的,但是其方差是相同的。違背該假定就稱為異方差,我們后面專門對其進行研究。55(3)E(ui,uj)=0這個假定的具體涵義是:隨機擾動項(誤差)相互不相關,因而各個因變量之間也是不相關的,在正態(tài)分布的假定下,不相關等價與獨立。違背這個假定,就稱為序列相關。(4)Cov(Xui)=0這個假定的具體涵義是:解釋變量是可觀察的,確定的,因而與ui不相關。違背這個假定就稱為隨機解釋變量。以上假定就是著名的高斯——馬爾科夫假定或者是回歸的經典假定。56進一步,對ui假定如下:(5)
ui~N(0,2
)這個假定的具體涵義是:隨機項具有正態(tài)分布。以后我們可以看到這個假定的重要性。57用Excel進行回歸分析第1步:選擇“工具”下拉菜單第2步:選擇“數據分析”選項第3步:在分析工具中選擇“回歸”,然后選擇“確定”第4步:當對話框出現(xiàn)時
在“Y值輸入區(qū)域”設置框內鍵入Y的數據區(qū)域
在“X值輸入區(qū)域”設置框內鍵入X的數據區(qū)域
在“置信度”選項中給出所需的數值在“輸出選項”中選擇輸出區(qū)域在“殘差”分析選項中選擇所需的選項583.回歸直線的擬合優(yōu)度(1)變差因變量
y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面由于自變量
x的取值不同造成的除
x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差
來表示。59(2)變差的分解(圖示)xy{}}60(3)離差平方和的分解(三個平方和的關系)SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{611.總平方和(SST)反映因變量的
n個觀察值與其均值的總離差2.回歸平方和(SSR)(SSR:sumofsquaresforregression)反映自變量
x的變化對因變量
y取值變化的影響,或者說,是由于
x與
y之間的線性關系引起的
y的取值變化,也稱為可解釋的平方和3.殘差平方和(SSE)反映除
x以外的其他因素對
y取值的影響,也稱為不可解釋的平方和或剩余平方和(4)三個平方和的意義62(5)判定系數r2(coefficientofdetermination)回歸平方和占總離差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間
R21,說明回歸方程擬合的越好;
R20,說明回歸方程擬合的越差;判定系數等于相關系數的平方,即R2=r263例題分析【例】計算不良貸款對貸款余額回歸的判定系數,并解釋其意義
判定系數的實際意義是:在不良貸款取值的變差中,有71.16%可以由不良貸款與貸款余額之間的線性關系來解釋,或者說,在不良貸款取值的變動中,有71.16%是由貸款余額所決定的。也就是說,不良貸款取值的差異有2/3以上是由貸款余額決定的??梢姴涣假J款與貸款余額之間有較強的線性關系64(6)估計標準誤差(standarderrorofestimate)實際觀察值與回歸估計值離差平方和的均方根反映實際觀察值在回歸直線周圍的分散狀況對誤差項的標準差的估計,是在排除了x對y的線性影響后,y隨機波動大小的一個估計量反映用估計的回歸方程預測y時預測誤差的大小
計算公式為注:例題的計算結果為1.9799654.顯著性檢驗(1)線性關系的檢驗檢驗自變量與因變量之間的線性關系是否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著回歸均方:回歸平方和SSR除以相應的自由度(自變量的個數p)殘差均方(MSE)
:殘差平方和SSE除以相應的自由度(n-p-1)(注:P為字變量個數)66線性關系的檢驗的步驟提出假設H0:1=0線性關系不顯著2.計算檢驗統(tǒng)計量F確定顯著性水平,并根據分子自由度1和分母自由度n-2找出臨界值F
作出決策:若F>F
,拒絕H0;若F<F
,不能拒絕H067例題分析(以前面資料)提出假設H0:
1=0不良貸款與貸款余額之間的線性關系不顯著計算檢驗統(tǒng)計量F確定顯著性水平=0.05,并根據分子自由度1和分母自由度25-2找出臨界值F
=4.28作出決策:若F>F
,拒絕H0,線性關系顯著68方差分析表Excel輸出的方差分析表69(2)回歸系數的檢驗在一元線性回歸中,等價于線性關系的顯著性檢驗檢驗x與
y之間是否具有線性關系,或者說,檢驗自變量x對因變量y的影響是否顯著理論基礎是回歸系數
的抽樣分布70樣本統(tǒng)計量的分布
是根據最小二乘法求出的樣本統(tǒng)計量,它有自己的分布的分布具有如下性質分布形式:正態(tài)分布數學期望:標準差:由于
未知,需用其估計量sy來代替得到的估計的標準差71回歸系數的檢驗檢驗步驟提出假設H0:b1=0(沒有線性關系)H1:b1
0(有線性關系)計算檢驗的統(tǒng)計量
確定顯著性水平,并進行決策
t>t,拒絕H0;
t<t,不能拒絕H072例題分析對例題的回歸系數進行顯著性檢驗(=0.05)提出假設H0:b1=0H1:b1
0計算檢驗的統(tǒng)計量
t=7.533515>t=2.201,拒絕H0,表明不良貸款與貸款余額之間有線性關系73回歸系數的檢驗例題分析表P值的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024至2030年中國方形雙眼超薄爐行業(yè)投資前景及策略咨詢研究報告
- 2009年中國醋酸行業(yè)市場研究與競爭力分析報告
- 2024至2030年中國室外大型金屬構件雷電防護裝置行業(yè)投資前景及策略咨詢研究報告
- 2024年中國鉭鈮氧化物市場調查研究報告
- 2024年中國草藤編壁紙市場調查研究報告
- 2024年中國粉體回收濾芯市場調查研究報告
- 2024年中國溶劑回收系統(tǒng)市場調查研究報告
- 2024年中國核苷酸二鈉市場調查研究報告
- 2024年中國彩色鋁環(huán)市場調查研究報告
- 2024年中國雙螺桿擠出機減速箱市場調查研究報告
- 2024年江蘇鑫郵投資發(fā)展集團限公司(國企業(yè))公開招聘工作人員高頻難、易錯點500題模擬試題附帶答案詳解
- 統(tǒng)編版高二語文選擇性必修上冊同步備課第一單元專項練習(非連續(xù)文本閱讀)(原卷版+解析)
- 2024年區(qū)塊鏈應用操作員職業(yè)技能競賽理論參考試題庫(含答案)
- 《紅星照耀中國》知識點
- 2024年中國彈性塑膠跑道市場調查研究報告
- 2024新人教版初中七年級英語上冊UnitMyschool大單元整體教學設計
- 2024全國各地區(qū)語文中考真題匯編《第一期》
- 項目建筑智能化工程施工招標文件模板
- 輔助生殖技術并發(fā)癥的護理
- 校園綠化病蟲害防治服務合同2024年
- 2024-2030年中國煙熏香味劑行業(yè)市場深度調研及發(fā)展趨勢與投資前景研究報告
評論
0/150
提交評論