第五章回歸分析-統(tǒng)計(jì)計(jì)算及方法課件_第1頁
第五章回歸分析-統(tǒng)計(jì)計(jì)算及方法課件_第2頁
第五章回歸分析-統(tǒng)計(jì)計(jì)算及方法課件_第3頁
第五章回歸分析-統(tǒng)計(jì)計(jì)算及方法課件_第4頁
第五章回歸分析-統(tǒng)計(jì)計(jì)算及方法課件_第5頁
已閱讀5頁,還剩108頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第五章回歸分析回歸分析一元線性回歸多元線性回歸非線性回歸25.0引言回歸名稱的由來回歸分析是研究變量之間相互依賴關(guān)系的一種統(tǒng)計(jì)方法,是數(shù)理統(tǒng)計(jì)學(xué)中應(yīng)用最廣泛的分支之一.3

回歸分析的基本思想以及“回歸”名稱的由來最初是由英國生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓提出來的.

他從一千多對父母身高與其子女身高的數(shù)據(jù)分析中得出:當(dāng)父親身高很高時(shí),兒子的身高并不像期待的那樣高,而要稍矮一些,有向同齡人平均身高靠攏的現(xiàn)象;而當(dāng)父親身高很矮時(shí),兒子的身高要比預(yù)期的高,也有向同齡人平均身高靠攏的現(xiàn)象.4

正是因?yàn)閮鹤拥纳砀哂谢氐酵g人平均身高的這種趨勢,才使人類的身高在一定時(shí)間內(nèi)相對穩(wěn)定,沒有出現(xiàn)父輩個(gè)子高其子女更高,父輩個(gè)子矮其子女更矮的兩極分化現(xiàn)象,說明后代的平均身高向中心靠攏了,這種現(xiàn)象叫回歸,這就是“回歸”一詞的最初含義.現(xiàn)在的意思是:凡是利用一個(gè)變量或一組變量的變異來估計(jì)或預(yù)測另一個(gè)變量的變異情況都稱之為回歸。

在現(xiàn)實(shí)問題中處于同一個(gè)過程中的一些變量往往是相互依賴和相互制約的,它們之間的相互關(guān)系大致可分為兩種:(1)確定性關(guān)系--函數(shù)關(guān)系

(2)非確定性關(guān)系--相關(guān)關(guān)系:變量之間有一定的依賴關(guān)系,但這種關(guān)系并不完全確定??煽刈兞浚嚎梢栽谀撤秶鷥?nèi)隨意地取指定數(shù)值-自變量不可控變量:可以觀測但不可控制(隨機(jī)變量)--因變量6

例2

人的血壓y與年齡x之間的關(guān)系,不可能由一個(gè)人的年齡完全確定他的血壓.一般說人的年齡越大血壓越高,但年齡相同者,血壓未必相同.

例1人的體重y與身高x之間的關(guān)系一般來說,身高高一些,體重也要重一些,但身高不能嚴(yán)格地確定體重,即同樣身高的人,體重可能不同.7

這幾個(gè)例子中的兩個(gè)變量之間都有一定的關(guān)系,且是一種非確定性的關(guān)系,稱這類關(guān)系為相關(guān)關(guān)系.

例3水稻畝產(chǎn)量y與其施肥量x1、播種量x2、種子x3有關(guān)系,但x1、x2、x3

取相同的一組數(shù)值時(shí),畝產(chǎn)量y可取不同數(shù)值.8

上述例子中身高x,年齡x,施肥量

x1、播種量x2

、種子

x3都是可以在一定范圍內(nèi)隨意的取指定數(shù)值,是可控變量稱之為自變量,而體重

y,血壓

y,畝產(chǎn)量

y都是不可控變量稱為因變量.

研究一個(gè)變量與一個(gè)(或幾個(gè))可控變量之間相關(guān)關(guān)系的統(tǒng)計(jì)分析方法稱為回歸分析.回歸分析:研究一個(gè)隨機(jī)變量與一個(gè)(或幾個(gè))可控變量之間相關(guān)關(guān)系地統(tǒng)計(jì)方法。

只有一個(gè)自變量的回歸分析叫做一元回歸分析;多于一個(gè)自變量的回歸分析叫做多元回歸分析。

回歸分析主要內(nèi)容:提供建立有相關(guān)關(guān)系的變量之間的數(shù)學(xué)關(guān)系式(經(jīng)驗(yàn)公式)的一般方法;(2)判別所建立的經(jīng)驗(yàn)公式是否有效;(3)利用所得到的經(jīng)驗(yàn)公式進(jìn)行預(yù)測和控制.5.1一元線性回歸(一)一元線性回歸模型

設(shè)與有相關(guān)關(guān)系,當(dāng)自變量時(shí),因變量并不取固定的值與其對應(yīng).如果要用函數(shù)關(guān)系近似與的相關(guān)關(guān)系,很自然想到,應(yīng)該以作為與相對應(yīng)的數(shù)值.(5-1)其中為常數(shù),則稱與之間存在線性相關(guān)關(guān)系,稱(5-1)為一元正態(tài)線性回歸模型,簡稱一元線性模型,其回歸函數(shù)記為稱為對的線性回歸,稱為回歸常數(shù),稱為回歸系數(shù)。

由(5-1)得,可知取不同數(shù)值時(shí),便得到不同的正態(tài)變量。其中為未知的常數(shù)。由獨(dú)立知道也相互獨(dú)立,且稱為獨(dú)立樣本的一個(gè)(或一組)樣本觀測值,其中為取固定值時(shí),對進(jìn)行一次試驗(yàn)所得到的觀測值。利用獨(dú)立樣本及其樣本值可得的估計(jì)量及估計(jì)值和從而得到回歸函數(shù)的估計(jì)稱為對的經(jīng)驗(yàn)回歸方程或經(jīng)驗(yàn)公式。注:確定變量間相關(guān)關(guān)系數(shù)學(xué)關(guān)系式的三種方法1.經(jīng)驗(yàn)公式。2.假設(shè)檢驗(yàn)。3.散點(diǎn)圖法。把樣本值作為平面直角坐標(biāo)系的個(gè)點(diǎn)描出來,構(gòu)成實(shí)驗(yàn)的散點(diǎn)圖。根據(jù)散點(diǎn)圖,適當(dāng)?shù)剡x擇一個(gè)函數(shù)使得在一定意義下最好地吻合于觀測結(jié)果常用的是最小二乘法,即.......二、未知參數(shù)的估計(jì)1.正規(guī)方程組、回歸系數(shù)的點(diǎn)估計(jì)根據(jù)最小二乘法求線性回歸函數(shù)的估計(jì)就是求使得取得最小值的即根據(jù)微分學(xué)中的二元函數(shù)極值的充分條件,將分別對求一階偏導(dǎo)數(shù)并令其為零經(jīng)過整理后得到線性方程組其中正規(guī)方程組解此方程組即得使取得最小值的分別稱為的最小二乘估計(jì)值.于是,得到對的經(jīng)驗(yàn)回歸方程注:用最小二乘法得到的經(jīng)驗(yàn)回歸直線通過已知個(gè)數(shù)據(jù)點(diǎn)的幾何重心把估計(jì)值中的分別用來代替,就得到了參數(shù)的估計(jì)量.為了方便,我們引進(jìn)幾個(gè)常用的記號則參數(shù)估計(jì)量回歸方程定理1:

在一元線性回歸模型中,

和相互獨(dú)立.證明:即與不相關(guān).但與都是獨(dú)立正態(tài)變量的線性組合,因此,與的聯(lián)合分布為正態(tài)分布.對于正態(tài)隨機(jī)向量來說不相關(guān)和相互獨(dú)立是等價(jià)的.證畢定理2:

在一元線性回歸模型中,的最小二乘估計(jì)量的數(shù)學(xué)期望和方差為證明:證畢.由定理2可看出,當(dāng)時(shí),取最小值;與成反比.所以,為了提高和的估計(jì)精度,最好選擇使,并且應(yīng)比較分散.注:

的最小二乘估計(jì)量與極大似然估計(jì)量相等.24實(shí)際上:

,β0和

β1的最大似然估計(jì)為最小二乘估計(jì)2.參數(shù)的點(diǎn)估計(jì)當(dāng)?shù)臉O大似然估計(jì)量已得到后,的估計(jì)量可由似然方程可得的極大似然估計(jì)量為記即是的極大似然估計(jì)量.定理3:

在一元線性模型中證明:而又于是有證畢.由定理3可得是的無偏估計(jì).3.估計(jì)量和的分布定理4:在一元線性模型中(1)(2)(3)(4)(5)相互獨(dú)立.4.未知參數(shù)和的區(qū)間估計(jì)定理5.

在一元線性模型中證明:由定理4,得由定理4的(5)可知,分別相互獨(dú)立,再由t分布的定義,即得證畢由定理5及t分布的分位數(shù),得即得的置信區(qū)間為類似,的置信區(qū)間為由易得的置信區(qū)間為三、線性回歸效果的顯著性檢驗(yàn)

我們在求Y對x的線性回歸之前,必須判斷Y與x的關(guān)系是否滿足一元線性回歸模型。理論上講,這要求檢驗(yàn)(1)對x取任一固定值時(shí),Y都服從正態(tài)分布,而且方差相同;(2)x在某一范圍取值時(shí),EY是x的線性函數(shù);(3)在x取各個(gè)不同值時(shí),相應(yīng)的Y是相互獨(dú)立的。但要檢驗(yàn)這三條不僅需要大量的試驗(yàn),還要進(jìn)行大量的計(jì)算,實(shí)際上很難辦到。(1)x對Y沒有顯著影響,應(yīng)丟掉自變量x;(2)x對Y有顯著影響,但不能用線性相關(guān)關(guān)系來表示;(3)除x外還有其它不可忽略的變量對Y也有顯著影響,從而削弱了x對Y的影響,應(yīng)考慮多元線性回歸。1.F檢驗(yàn)法考慮令計(jì)算后可得一元線性模型中的平方和分解公式:總偏差平方和回歸平方和殘差平方和總偏差(離差)平方和回歸平方和因?yàn)槭S嗥椒胶停ɑ驓埐钇椒胶停┢椒胶头纸夤剑海?)由于x對Y的線性相關(guān)關(guān)系而引起的Y的分散性。(2)剩余因素引起的Y的分散性。定理6:證明:對于檢驗(yàn)證畢2.t檢驗(yàn)法由定理5知3.r檢驗(yàn)法為了檢驗(yàn)Y與x是否有線性相關(guān)性,也可用統(tǒng)計(jì)量相關(guān)系數(shù)進(jìn)行檢驗(yàn)兩邊平方得于是得到即這說明Y與x之間不存在線性相關(guān)關(guān)系。(2)(3)檢驗(yàn)假設(shè)r檢驗(yàn)法與F檢驗(yàn)實(shí)質(zhì)上是一回事,因?yàn)镕檢驗(yàn)法與r檢驗(yàn)法的拒絕域是相同的。50對于一元線性回歸模型,上述3種檢驗(yàn)的結(jié)果是完全一致的.4.三種檢驗(yàn)的關(guān)系(1)由于t分布與F分布的關(guān)系因此t檢驗(yàn)與F檢驗(yàn)完全一致51r檢驗(yàn)與F檢驗(yàn)也一致因此等價(jià)于四、利用回歸方程進(jìn)行預(yù)測預(yù)測:對固定的x值預(yù)測它所對應(yīng)的Y的取值??紤](1)點(diǎn)預(yù)測(2)區(qū)間預(yù)測定理7:由定理7知即其中其中56當(dāng)

x0越靠近,區(qū)間寬度越窄,預(yù)測就越精確

當(dāng)

x0

離不太遠(yuǎn)且n較大時(shí),,而于是,y0的1-α置信區(qū)間可近似表示為57于是,y0的95%置信區(qū)間可近似表示為于是,y0的99%置信區(qū)間可近似表示為58控制問題對x的控制范圍

當(dāng)要求

y在某個(gè)區(qū)間范圍內(nèi)變化時(shí),如

,如何求得

x的相應(yīng)控制范圍.

即要求以

1-α的置信度求出相應(yīng)的

使當(dāng)時(shí),x所對應(yīng)的

y落在59

只考慮

n較大情形,令60

例在鋼線碳含量x對于電阻效應(yīng)y的研究中,得到了以下數(shù)據(jù):碳含量(%)0.100.300.400.550.700.800.95電阻(微歐)1518192122.623.826假設(shè)對于給定的x,y為正態(tài)變量,且方差與x無關(guān).如果x,y滿足經(jīng)驗(yàn)公式

求線性回歸方程

設(shè)現(xiàn)在

所求的線性回歸方程為

的無偏估計(jì).由例得

檢驗(yàn)例中的線性回歸是否顯著.

檢驗(yàn)假設(shè)

拒絕域?yàn)?/p>

由例2得

=>拒絕

即認(rèn)為線性回歸顯著例求上例中當(dāng)碳含量為0.50時(shí),電阻的置信水平為0.95的置信區(qū)間

由例1和例2可得

685.2多元線性回歸分析一.多元線性回歸模型模型1模型26970在模型1下,有在模型2下,有7172稱模型3和模型4為y關(guān)于x的p元樣本線性回歸模型.73對多元線性回歸模型,需研究如下幾個(gè)問題:(2)對建立的關(guān)系式進(jìn)行統(tǒng)計(jì)假設(shè)檢驗(yàn)(3)對變量y進(jìn)行預(yù)測和對自變量x進(jìn)行控制74n>p+1,記75模型3和模型4可表示為如下矩陣形式其中In為

n階單位矩陣,矩陣X是n×(p+1)矩陣稱為設(shè)計(jì)矩陣,且秩(X)=p+176二.未知參數(shù)的估計(jì)1.最小二乘估計(jì)

最小二乘法:求使誤差平方和77

求并令其都等于0,整理后得到如下正規(guī)方程組:78

正規(guī)方程組的解就是的最小二乘估計(jì)

由于79及于是正規(guī)方程組用矩陣表示為80

由于Rank(X)=p+1,因此必存在逆陣解正規(guī)方程組得到的估計(jì)為稱之為的最小二乘估計(jì).于是線性回歸方程為812.最大似然估計(jì)

多元線性回歸系數(shù)的最大似然估計(jì)與一元線性回歸時(shí)求最大似然估計(jì)的想法一樣

823.參數(shù)估計(jì)的性質(zhì)性質(zhì)3性質(zhì)1

估計(jì)量是隨機(jī)變量的線性變換性質(zhì)2

估計(jì)量是的無偏估計(jì)在模型1下有如下性質(zhì)83性質(zhì)4(2)性質(zhì)4(1)在模型2下有如下性質(zhì)84三.回歸方程的顯著性檢驗(yàn)檢驗(yàn)問題:考慮模型2

因變量y的觀測值是不完全相同的,之所以不同,可能由于如下兩個(gè)原因:一是隨機(jī)因素引起的,如隨機(jī)誤差;另一個(gè)是由自變量的變化引起的變化.為此,考慮平方和分解85平方和分解交叉項(xiàng)為086稱為總變差平方和,反映數(shù)據(jù)的波動(dòng)性,即這些數(shù)據(jù)的分散程度

越大表明n個(gè)觀測值的波動(dòng)越大即之間越分散,反之越小表明的數(shù)值波動(dòng)越小即之間越接近.87稱為殘差平方和.Se反映了除掉由

對y的影響之外的剩余因素對分散程度的作用,即隨機(jī)因素引起的波動(dòng).稱為回歸平方和反映了的波動(dòng)程度88

而SR越小,Se越大,此時(shí)x對y的線性影響不顯著.ST給定后,SR越大,Se越小,x對y

的線性影響越顯著;

因此,F(xiàn)=SR/Se的比值反映了x對y

的線性影響的顯著性,進(jìn)而檢驗(yàn)假設(shè).89定理:在p元線性回歸模型2下,有90根據(jù)定理構(gòu)造F檢驗(yàn)統(tǒng)計(jì)量91對于給定的顯著性水平當(dāng)時(shí),拒絕,認(rèn)為線性回歸效果顯著,即y與

之間存在顯著的線性相關(guān)關(guān)系;當(dāng)時(shí),接受,認(rèn)為線性回歸效果不顯著,即y與之間不存在顯著的線性相關(guān)關(guān)系;92上述分析方法通過下表來描述n-1總變差pn-p-1回歸

殘差

F均方和自由度平方和方差來源93四.回歸系數(shù)的顯著性檢驗(yàn)在多元線性回歸分析中,回歸方程的顯著性并不意味著每個(gè)自變量對因變量y的影響都是顯著的,實(shí)際上,某些回歸系數(shù)仍有可能接近于零,若某接近于零,說明的變化對y的影響很小,甚至我們可以把從回歸方程中去掉,從而得到更為簡單的線性回歸方程.因此在拒絕之后,需要進(jìn)一步對每個(gè)自變量進(jìn)行顯著性檢驗(yàn).94檢驗(yàn)問題:考慮模型2

若接受,表明對y的影響不顯著;

若拒絕,表明對y有一定的影響95根據(jù)性質(zhì)4和定理,得到由此構(gòu)造t檢驗(yàn)統(tǒng)計(jì)量96對于給定的顯著性水平當(dāng)時(shí),拒絕,認(rèn)為

y的線性影響顯著;當(dāng)時(shí),接受,認(rèn)為

y的線性影響不顯著;975.3非線性回歸在很多實(shí)際問題中,兩個(gè)或者多個(gè)變量之間的關(guān)系不一定是線性關(guān)系.若此時(shí)建立線性回歸方程,效果肯定不會(huì)好.而如果觀測值的散點(diǎn)圖大致呈某一曲線,又存在某種變換可將該曲線轉(zhuǎn)換成直線,于是就可以選擇該變換把問題轉(zhuǎn)換成線性回歸的問題,從而利用線性回歸的一些結(jié)果解決問題.我們主要介紹非線性回歸方法.具體做法:

1)根據(jù)樣本數(shù)據(jù),在直角坐標(biāo)系中畫出散點(diǎn)圖2)根據(jù)散點(diǎn)圖,推測出Y與x之間的函數(shù)關(guān)系3)選擇適當(dāng)?shù)淖鴺?biāo)變換,使之變成線性關(guān)系4)用線性回歸方法求出線性回歸方程5)返回到原來的函數(shù)關(guān)系,得到要求的回歸方程可線性化的一元非線性回歸1.雙曲線:

2.冪函數(shù):

3.指數(shù)曲線:

4.倒指數(shù)曲線:取對數(shù)得取對數(shù)得5.對數(shù)曲線:

6、S型(Logistic)曲線令變形1027、多項(xiàng)式模型任意連續(xù)函數(shù)都可由多項(xiàng)式逼近例1在彩色顯影中,根據(jù)以往經(jīng)驗(yàn),形成染料光學(xué)密度與析出銀的光學(xué)密度之間呈倒指數(shù)曲線關(guān)系:已測得11對數(shù)據(jù)見下表(1)求出經(jīng)驗(yàn)回歸曲線方程;(2)對回歸曲線的顯著性進(jìn)行檢驗(yàn).x0.050.060.070.100.140.200.250.310.380.430.47

y0.100.140.230.370.590.791.001.121.191.251.29

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論