第五章回歸分析-統(tǒng)計計算及方法課件_第1頁
第五章回歸分析-統(tǒng)計計算及方法課件_第2頁
第五章回歸分析-統(tǒng)計計算及方法課件_第3頁
第五章回歸分析-統(tǒng)計計算及方法課件_第4頁
第五章回歸分析-統(tǒng)計計算及方法課件_第5頁
已閱讀5頁,還剩108頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第五章回歸分析回歸分析一元線性回歸多元線性回歸非線性回歸25.0引言回歸名稱的由來回歸分析是研究變量之間相互依賴關(guān)系的一種統(tǒng)計方法,是數(shù)理統(tǒng)計學(xué)中應(yīng)用最廣泛的分支之一.3

回歸分析的基本思想以及“回歸”名稱的由來最初是由英國生物學(xué)家兼統(tǒng)計學(xué)家高爾頓提出來的.

他從一千多對父母身高與其子女身高的數(shù)據(jù)分析中得出:當(dāng)父親身高很高時,兒子的身高并不像期待的那樣高,而要稍矮一些,有向同齡人平均身高靠攏的現(xiàn)象;而當(dāng)父親身高很矮時,兒子的身高要比預(yù)期的高,也有向同齡人平均身高靠攏的現(xiàn)象.4

正是因為兒子的身高有回到同齡人平均身高的這種趨勢,才使人類的身高在一定時間內(nèi)相對穩(wěn)定,沒有出現(xiàn)父輩個子高其子女更高,父輩個子矮其子女更矮的兩極分化現(xiàn)象,說明后代的平均身高向中心靠攏了,這種現(xiàn)象叫回歸,這就是“回歸”一詞的最初含義.現(xiàn)在的意思是:凡是利用一個變量或一組變量的變異來估計或預(yù)測另一個變量的變異情況都稱之為回歸。

在現(xiàn)實問題中處于同一個過程中的一些變量往往是相互依賴和相互制約的,它們之間的相互關(guān)系大致可分為兩種:(1)確定性關(guān)系--函數(shù)關(guān)系

(2)非確定性關(guān)系--相關(guān)關(guān)系:變量之間有一定的依賴關(guān)系,但這種關(guān)系并不完全確定??煽刈兞浚嚎梢栽谀撤秶鷥?nèi)隨意地取指定數(shù)值-自變量不可控變量:可以觀測但不可控制(隨機(jī)變量)--因變量6

例2

人的血壓y與年齡x之間的關(guān)系,不可能由一個人的年齡完全確定他的血壓.一般說人的年齡越大血壓越高,但年齡相同者,血壓未必相同.

例1人的體重y與身高x之間的關(guān)系一般來說,身高高一些,體重也要重一些,但身高不能嚴(yán)格地確定體重,即同樣身高的人,體重可能不同.7

這幾個例子中的兩個變量之間都有一定的關(guān)系,且是一種非確定性的關(guān)系,稱這類關(guān)系為相關(guān)關(guān)系.

例3水稻畝產(chǎn)量y與其施肥量x1、播種量x2、種子x3有關(guān)系,但x1、x2、x3

取相同的一組數(shù)值時,畝產(chǎn)量y可取不同數(shù)值.8

上述例子中身高x,年齡x,施肥量

x1、播種量x2

、種子

x3都是可以在一定范圍內(nèi)隨意的取指定數(shù)值,是可控變量稱之為自變量,而體重

y,血壓

y,畝產(chǎn)量

y都是不可控變量稱為因變量.

研究一個變量與一個(或幾個)可控變量之間相關(guān)關(guān)系的統(tǒng)計分析方法稱為回歸分析.回歸分析:研究一個隨機(jī)變量與一個(或幾個)可控變量之間相關(guān)關(guān)系地統(tǒng)計方法。

只有一個自變量的回歸分析叫做一元回歸分析;多于一個自變量的回歸分析叫做多元回歸分析。

回歸分析主要內(nèi)容:提供建立有相關(guān)關(guān)系的變量之間的數(shù)學(xué)關(guān)系式(經(jīng)驗公式)的一般方法;(2)判別所建立的經(jīng)驗公式是否有效;(3)利用所得到的經(jīng)驗公式進(jìn)行預(yù)測和控制.5.1一元線性回歸(一)一元線性回歸模型

設(shè)與有相關(guān)關(guān)系,當(dāng)自變量時,因變量并不取固定的值與其對應(yīng).如果要用函數(shù)關(guān)系近似與的相關(guān)關(guān)系,很自然想到,應(yīng)該以作為與相對應(yīng)的數(shù)值.(5-1)其中為常數(shù),則稱與之間存在線性相關(guān)關(guān)系,稱(5-1)為一元正態(tài)線性回歸模型,簡稱一元線性模型,其回歸函數(shù)記為稱為對的線性回歸,稱為回歸常數(shù),稱為回歸系數(shù)。

由(5-1)得,可知取不同數(shù)值時,便得到不同的正態(tài)變量。其中為未知的常數(shù)。由獨立知道也相互獨立,且稱為獨立樣本的一個(或一組)樣本觀測值,其中為取固定值時,對進(jìn)行一次試驗所得到的觀測值。利用獨立樣本及其樣本值可得的估計量及估計值和從而得到回歸函數(shù)的估計稱為對的經(jīng)驗回歸方程或經(jīng)驗公式。注:確定變量間相關(guān)關(guān)系數(shù)學(xué)關(guān)系式的三種方法1.經(jīng)驗公式。2.假設(shè)檢驗。3.散點圖法。把樣本值作為平面直角坐標(biāo)系的個點描出來,構(gòu)成實驗的散點圖。根據(jù)散點圖,適當(dāng)?shù)剡x擇一個函數(shù)使得在一定意義下最好地吻合于觀測結(jié)果常用的是最小二乘法,即.......二、未知參數(shù)的估計1.正規(guī)方程組、回歸系數(shù)的點估計根據(jù)最小二乘法求線性回歸函數(shù)的估計就是求使得取得最小值的即根據(jù)微分學(xué)中的二元函數(shù)極值的充分條件,將分別對求一階偏導(dǎo)數(shù)并令其為零經(jīng)過整理后得到線性方程組其中正規(guī)方程組解此方程組即得使取得最小值的分別稱為的最小二乘估計值.于是,得到對的經(jīng)驗回歸方程注:用最小二乘法得到的經(jīng)驗回歸直線通過已知個數(shù)據(jù)點的幾何重心把估計值中的分別用來代替,就得到了參數(shù)的估計量.為了方便,我們引進(jìn)幾個常用的記號則參數(shù)估計量回歸方程定理1:

在一元線性回歸模型中,

和相互獨立.證明:即與不相關(guān).但與都是獨立正態(tài)變量的線性組合,因此,與的聯(lián)合分布為正態(tài)分布.對于正態(tài)隨機(jī)向量來說不相關(guān)和相互獨立是等價的.證畢定理2:

在一元線性回歸模型中,的最小二乘估計量的數(shù)學(xué)期望和方差為證明:證畢.由定理2可看出,當(dāng)時,取最小值;與成反比.所以,為了提高和的估計精度,最好選擇使,并且應(yīng)比較分散.注:

的最小二乘估計量與極大似然估計量相等.24實際上:

,β0和

β1的最大似然估計為最小二乘估計2.參數(shù)的點估計當(dāng)?shù)臉O大似然估計量已得到后,的估計量可由似然方程可得的極大似然估計量為記即是的極大似然估計量.定理3:

在一元線性模型中證明:而又于是有證畢.由定理3可得是的無偏估計.3.估計量和的分布定理4:在一元線性模型中(1)(2)(3)(4)(5)相互獨立.4.未知參數(shù)和的區(qū)間估計定理5.

在一元線性模型中證明:由定理4,得由定理4的(5)可知,分別相互獨立,再由t分布的定義,即得證畢由定理5及t分布的分位數(shù),得即得的置信區(qū)間為類似,的置信區(qū)間為由易得的置信區(qū)間為三、線性回歸效果的顯著性檢驗

我們在求Y對x的線性回歸之前,必須判斷Y與x的關(guān)系是否滿足一元線性回歸模型。理論上講,這要求檢驗(1)對x取任一固定值時,Y都服從正態(tài)分布,而且方差相同;(2)x在某一范圍取值時,EY是x的線性函數(shù);(3)在x取各個不同值時,相應(yīng)的Y是相互獨立的。但要檢驗這三條不僅需要大量的試驗,還要進(jìn)行大量的計算,實際上很難辦到。(1)x對Y沒有顯著影響,應(yīng)丟掉自變量x;(2)x對Y有顯著影響,但不能用線性相關(guān)關(guān)系來表示;(3)除x外還有其它不可忽略的變量對Y也有顯著影響,從而削弱了x對Y的影響,應(yīng)考慮多元線性回歸。1.F檢驗法考慮令計算后可得一元線性模型中的平方和分解公式:總偏差平方和回歸平方和殘差平方和總偏差(離差)平方和回歸平方和因為剩余平方和(或殘差平方和)平方和分解公式:(1)由于x對Y的線性相關(guān)關(guān)系而引起的Y的分散性。(2)剩余因素引起的Y的分散性。定理6:證明:對于檢驗證畢2.t檢驗法由定理5知3.r檢驗法為了檢驗Y與x是否有線性相關(guān)性,也可用統(tǒng)計量相關(guān)系數(shù)進(jìn)行檢驗兩邊平方得于是得到即這說明Y與x之間不存在線性相關(guān)關(guān)系。(2)(3)檢驗假設(shè)r檢驗法與F檢驗實質(zhì)上是一回事,因為F檢驗法與r檢驗法的拒絕域是相同的。50對于一元線性回歸模型,上述3種檢驗的結(jié)果是完全一致的.4.三種檢驗的關(guān)系(1)由于t分布與F分布的關(guān)系因此t檢驗與F檢驗完全一致51r檢驗與F檢驗也一致因此等價于四、利用回歸方程進(jìn)行預(yù)測預(yù)測:對固定的x值預(yù)測它所對應(yīng)的Y的取值。考慮(1)點預(yù)測(2)區(qū)間預(yù)測定理7:由定理7知即其中其中56當(dāng)

x0越靠近,區(qū)間寬度越窄,預(yù)測就越精確

當(dāng)

x0

離不太遠(yuǎn)且n較大時,,而于是,y0的1-α置信區(qū)間可近似表示為57于是,y0的95%置信區(qū)間可近似表示為于是,y0的99%置信區(qū)間可近似表示為58控制問題對x的控制范圍

當(dāng)要求

y在某個區(qū)間范圍內(nèi)變化時,如

,如何求得

x的相應(yīng)控制范圍.

即要求以

1-α的置信度求出相應(yīng)的

使當(dāng)時,x所對應(yīng)的

y落在59

只考慮

n較大情形,令60

例在鋼線碳含量x對于電阻效應(yīng)y的研究中,得到了以下數(shù)據(jù):碳含量(%)0.100.300.400.550.700.800.95電阻(微歐)1518192122.623.826假設(shè)對于給定的x,y為正態(tài)變量,且方差與x無關(guān).如果x,y滿足經(jīng)驗公式

求線性回歸方程

設(shè)現(xiàn)在

所求的線性回歸方程為

的無偏估計.由例得

檢驗例中的線性回歸是否顯著.

檢驗假設(shè)

拒絕域為

由例2得

=>拒絕

即認(rèn)為線性回歸顯著例求上例中當(dāng)碳含量為0.50時,電阻的置信水平為0.95的置信區(qū)間

由例1和例2可得

685.2多元線性回歸分析一.多元線性回歸模型模型1模型26970在模型1下,有在模型2下,有7172稱模型3和模型4為y關(guān)于x的p元樣本線性回歸模型.73對多元線性回歸模型,需研究如下幾個問題:(2)對建立的關(guān)系式進(jìn)行統(tǒng)計假設(shè)檢驗(3)對變量y進(jìn)行預(yù)測和對自變量x進(jìn)行控制74n>p+1,記75模型3和模型4可表示為如下矩陣形式其中In為

n階單位矩陣,矩陣X是n×(p+1)矩陣稱為設(shè)計矩陣,且秩(X)=p+176二.未知參數(shù)的估計1.最小二乘估計

最小二乘法:求使誤差平方和77

求并令其都等于0,整理后得到如下正規(guī)方程組:78

正規(guī)方程組的解就是的最小二乘估計

由于79及于是正規(guī)方程組用矩陣表示為80

由于Rank(X)=p+1,因此必存在逆陣解正規(guī)方程組得到的估計為稱之為的最小二乘估計.于是線性回歸方程為812.最大似然估計

多元線性回歸系數(shù)的最大似然估計與一元線性回歸時求最大似然估計的想法一樣

823.參數(shù)估計的性質(zhì)性質(zhì)3性質(zhì)1

估計量是隨機(jī)變量的線性變換性質(zhì)2

估計量是的無偏估計在模型1下有如下性質(zhì)83性質(zhì)4(2)性質(zhì)4(1)在模型2下有如下性質(zhì)84三.回歸方程的顯著性檢驗檢驗問題:考慮模型2

因變量y的觀測值是不完全相同的,之所以不同,可能由于如下兩個原因:一是隨機(jī)因素引起的,如隨機(jī)誤差;另一個是由自變量的變化引起的變化.為此,考慮平方和分解85平方和分解交叉項為086稱為總變差平方和,反映數(shù)據(jù)的波動性,即這些數(shù)據(jù)的分散程度

越大表明n個觀測值的波動越大即之間越分散,反之越小表明的數(shù)值波動越小即之間越接近.87稱為殘差平方和.Se反映了除掉由

對y的影響之外的剩余因素對分散程度的作用,即隨機(jī)因素引起的波動.稱為回歸平方和反映了的波動程度88

而SR越小,Se越大,此時x對y的線性影響不顯著.ST給定后,SR越大,Se越小,x對y

的線性影響越顯著;

因此,F(xiàn)=SR/Se的比值反映了x對y

的線性影響的顯著性,進(jìn)而檢驗假設(shè).89定理:在p元線性回歸模型2下,有90根據(jù)定理構(gòu)造F檢驗統(tǒng)計量91對于給定的顯著性水平當(dāng)時,拒絕,認(rèn)為線性回歸效果顯著,即y與

之間存在顯著的線性相關(guān)關(guān)系;當(dāng)時,接受,認(rèn)為線性回歸效果不顯著,即y與之間不存在顯著的線性相關(guān)關(guān)系;92上述分析方法通過下表來描述n-1總變差pn-p-1回歸

殘差

F均方和自由度平方和方差來源93四.回歸系數(shù)的顯著性檢驗在多元線性回歸分析中,回歸方程的顯著性并不意味著每個自變量對因變量y的影響都是顯著的,實際上,某些回歸系數(shù)仍有可能接近于零,若某接近于零,說明的變化對y的影響很小,甚至我們可以把從回歸方程中去掉,從而得到更為簡單的線性回歸方程.因此在拒絕之后,需要進(jìn)一步對每個自變量進(jìn)行顯著性檢驗.94檢驗問題:考慮模型2

若接受,表明對y的影響不顯著;

若拒絕,表明對y有一定的影響95根據(jù)性質(zhì)4和定理,得到由此構(gòu)造t檢驗統(tǒng)計量96對于給定的顯著性水平當(dāng)時,拒絕,認(rèn)為

y的線性影響顯著;當(dāng)時,接受,認(rèn)為

y的線性影響不顯著;975.3非線性回歸在很多實際問題中,兩個或者多個變量之間的關(guān)系不一定是線性關(guān)系.若此時建立線性回歸方程,效果肯定不會好.而如果觀測值的散點圖大致呈某一曲線,又存在某種變換可將該曲線轉(zhuǎn)換成直線,于是就可以選擇該變換把問題轉(zhuǎn)換成線性回歸的問題,從而利用線性回歸的一些結(jié)果解決問題.我們主要介紹非線性回歸方法.具體做法:

1)根據(jù)樣本數(shù)據(jù),在直角坐標(biāo)系中畫出散點圖2)根據(jù)散點圖,推測出Y與x之間的函數(shù)關(guān)系3)選擇適當(dāng)?shù)淖鴺?biāo)變換,使之變成線性關(guān)系4)用線性回歸方法求出線性回歸方程5)返回到原來的函數(shù)關(guān)系,得到要求的回歸方程可線性化的一元非線性回歸1.雙曲線:

2.冪函數(shù):

3.指數(shù)曲線:

4.倒指數(shù)曲線:取對數(shù)得取對數(shù)得5.對數(shù)曲線:

6、S型(Logistic)曲線令變形1027、多項式模型任意連續(xù)函數(shù)都可由多項式逼近例1在彩色顯影中,根據(jù)以往經(jīng)驗,形成染料光學(xué)密度與析出銀的光學(xué)密度之間呈倒指數(shù)曲線關(guān)系:已測得11對數(shù)據(jù)見下表(1)求出經(jīng)驗回歸曲線方程;(2)對回歸曲線的顯著性進(jìn)行檢驗.x0.050.060.070.100.140.200.250.310.380.430.47

y0.100.140.230.370.590.791.001.121.191.251.29

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論