第五章回歸分析-統(tǒng)計(jì)計(jì)算及方法課件

上傳人：d*** IP屬地：貴州上傳時(shí)間：2023-06-08 格式：PPT 頁數(shù)：113 大?。?.85MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩108頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第五章回歸分析回歸分析一元線性回歸多元線性回歸非線性回歸25.0引言回歸名稱的由來回歸分析是研究變量之間相互依賴關(guān)系的一種統(tǒng)計(jì)方法，是數(shù)理統(tǒng)計(jì)學(xué)中應(yīng)用最廣泛的分支之一.3

回歸分析的基本思想以及“回歸”名稱的由來最初是由英國生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓提出來的.

他從一千多對父母身高與其子女身高的數(shù)據(jù)分析中得出：當(dāng)父親身高很高時(shí)，兒子的身高并不像期待的那樣高，而要稍矮一些，有向同齡人平均身高靠攏的現(xiàn)象；而當(dāng)父親身高很矮時(shí)，兒子的身高要比預(yù)期的高，也有向同齡人平均身高靠攏的現(xiàn)象.4

正是因?yàn)閮鹤拥纳砀哂谢氐酵g人平均身高的這種趨勢，才使人類的身高在一定時(shí)間內(nèi)相對穩(wěn)定，沒有出現(xiàn)父輩個(gè)子高其子女更高，父輩個(gè)子矮其子女更矮的兩極分化現(xiàn)象，說明后代的平均身高向中心靠攏了，這種現(xiàn)象叫回歸，這就是“回歸”一詞的最初含義.現(xiàn)在的意思是：凡是利用一個(gè)變量或一組變量的變異來估計(jì)或預(yù)測另一個(gè)變量的變異情況都稱之為回歸。

在現(xiàn)實(shí)問題中處于同一個(gè)過程中的一些變量往往是相互依賴和相互制約的，它們之間的相互關(guān)系大致可分為兩種：(1)確定性關(guān)系--函數(shù)關(guān)系

(2)非確定性關(guān)系--相關(guān)關(guān)系：變量之間有一定的依賴關(guān)系，但這種關(guān)系并不完全確定?？煽刈兞浚嚎梢栽谀撤秶鷥?nèi)隨意地取指定數(shù)值-自變量不可控變量:可以觀測但不可控制(隨機(jī)變量)--因變量6

例2

人的血壓y與年齡x之間的關(guān)系，不可能由一個(gè)人的年齡完全確定他的血壓.一般說人的年齡越大血壓越高，但年齡相同者，血壓未必相同.

例1人的體重y與身高x之間的關(guān)系一般來說，身高高一些，體重也要重一些，但身高不能嚴(yán)格地確定體重，即同樣身高的人，體重可能不同.7

這幾個(gè)例子中的兩個(gè)變量之間都有一定的關(guān)系，且是一種非確定性的關(guān)系，稱這類關(guān)系為相關(guān)關(guān)系.

例3水稻畝產(chǎn)量y與其施肥量x1、播種量x2、種子x3有關(guān)系，但x1、x2、x3

取相同的一組數(shù)值時(shí)，畝產(chǎn)量y可取不同數(shù)值.8

上述例子中身高x，年齡x，施肥量

x1、播種量x2

、種子

x3都是可以在一定范圍內(nèi)隨意的取指定數(shù)值，是可控變量稱之為自變量，而體重

y,血壓

y，畝產(chǎn)量

y都是不可控變量稱為因變量.

研究一個(gè)變量與一個(gè)(或幾個(gè))可控變量之間相關(guān)關(guān)系的統(tǒng)計(jì)分析方法稱為回歸分析.回歸分析：研究一個(gè)隨機(jī)變量與一個(gè)（或幾個(gè)）可控變量之間相關(guān)關(guān)系地統(tǒng)計(jì)方法。

只有一個(gè)自變量的回歸分析叫做一元回歸分析；多于一個(gè)自變量的回歸分析叫做多元回歸分析。

回歸分析主要內(nèi)容:提供建立有相關(guān)關(guān)系的變量之間的數(shù)學(xué)關(guān)系式(經(jīng)驗(yàn)公式)的一般方法;(2)判別所建立的經(jīng)驗(yàn)公式是否有效;(3)利用所得到的經(jīng)驗(yàn)公式進(jìn)行預(yù)測和控制.5.1一元線性回歸(一)一元線性回歸模型

設(shè)與有相關(guān)關(guān)系,當(dāng)自變量時(shí),因變量并不取固定的值與其對應(yīng).如果要用函數(shù)關(guān)系近似與的相關(guān)關(guān)系,很自然想到,應(yīng)該以作為與相對應(yīng)的數(shù)值.（5－1）其中為常數(shù)，則稱與之間存在線性相關(guān)關(guān)系，稱（5－1）為一元正態(tài)線性回歸模型，簡稱一元線性模型，其回歸函數(shù)記為稱為對的線性回歸，稱為回歸常數(shù)，稱為回歸系數(shù)。

由（5－1）得，可知取不同數(shù)值時(shí)，便得到不同的正態(tài)變量。其中為未知的常數(shù)。由獨(dú)立知道也相互獨(dú)立，且稱為獨(dú)立樣本的一個(gè)（或一組）樣本觀測值，其中為取固定值時(shí)，對進(jìn)行一次試驗(yàn)所得到的觀測值。利用獨(dú)立樣本及其樣本值可得的估計(jì)量及估計(jì)值和從而得到回歸函數(shù)的估計(jì)稱為對的經(jīng)驗(yàn)回歸方程或經(jīng)驗(yàn)公式。注：確定變量間相關(guān)關(guān)系數(shù)學(xué)關(guān)系式的三種方法1.經(jīng)驗(yàn)公式。2.假設(shè)檢驗(yàn)。3.散點(diǎn)圖法。把樣本值作為平面直角坐標(biāo)系的個(gè)點(diǎn)描出來，構(gòu)成實(shí)驗(yàn)的散點(diǎn)圖。根據(jù)散點(diǎn)圖，適當(dāng)?shù)剡x擇一個(gè)函數(shù)使得在一定意義下最好地吻合于觀測結(jié)果常用的是最小二乘法，即.......二、未知參數(shù)的估計(jì)1.正規(guī)方程組、回歸系數(shù)的點(diǎn)估計(jì)根據(jù)最小二乘法求線性回歸函數(shù)的估計(jì)就是求使得取得最小值的即根據(jù)微分學(xué)中的二元函數(shù)極值的充分條件,將分別對求一階偏導(dǎo)數(shù)并令其為零經(jīng)過整理后得到線性方程組其中正規(guī)方程組解此方程組即得使取得最小值的分別稱為的最小二乘估計(jì)值.于是,得到對的經(jīng)驗(yàn)回歸方程注:用最小二乘法得到的經(jīng)驗(yàn)回歸直線通過已知個(gè)數(shù)據(jù)點(diǎn)的幾何重心把估計(jì)值中的分別用來代替,就得到了參數(shù)的估計(jì)量.為了方便,我們引進(jìn)幾個(gè)常用的記號則參數(shù)估計(jì)量回歸方程定理1:

在一元線性回歸模型中,

和相互獨(dú)立.證明:即與不相關(guān).但與都是獨(dú)立正態(tài)變量的線性組合,因此,與的聯(lián)合分布為正態(tài)分布.對于正態(tài)隨機(jī)向量來說不相關(guān)和相互獨(dú)立是等價(jià)的.證畢定理2:

在一元線性回歸模型中,的最小二乘估計(jì)量的數(shù)學(xué)期望和方差為證明:證畢.由定理2可看出,當(dāng)時(shí),取最小值;與成反比.所以,為了提高和的估計(jì)精度,最好選擇使,并且應(yīng)比較分散.注:

的最小二乘估計(jì)量與極大似然估計(jì)量相等.24實(shí)際上：

在

，β0和

β1的最大似然估計(jì)為最小二乘估計(jì)2.參數(shù)的點(diǎn)估計(jì)當(dāng)?shù)臉O大似然估計(jì)量已得到后,的估計(jì)量可由似然方程可得的極大似然估計(jì)量為記即是的極大似然估計(jì)量.定理3:

在一元線性模型中證明:而又于是有證畢.由定理3可得是的無偏估計(jì).3.估計(jì)量和的分布定理4:在一元線性模型中(1)(2)(3)(4)(5)相互獨(dú)立.4.未知參數(shù)和的區(qū)間估計(jì)定理5.

在一元線性模型中證明:由定理4,得由定理4的(5)可知,分別相互獨(dú)立,再由t分布的定義,即得證畢由定理5及t分布的分位數(shù),得即得的置信區(qū)間為類似,的置信區(qū)間為由易得的置信區(qū)間為三、線性回歸效果的顯著性檢驗(yàn)

我們在求Y對x的線性回歸之前，必須判斷Y與x的關(guān)系是否滿足一元線性回歸模型。理論上講，這要求檢驗(yàn)（1）對x取任一固定值時(shí)，Y都服從正態(tài)分布，而且方差相同；（2）x在某一范圍取值時(shí)，EY是x的線性函數(shù)；（3）在x取各個(gè)不同值時(shí)，相應(yīng)的Y是相互獨(dú)立的。但要檢驗(yàn)這三條不僅需要大量的試驗(yàn)，還要進(jìn)行大量的計(jì)算，實(shí)際上很難辦到。（1）x對Y沒有顯著影響，應(yīng)丟掉自變量x；（2）x對Y有顯著影響，但不能用線性相關(guān)關(guān)系來表示；（3）除x外還有其它不可忽略的變量對Y也有顯著影響，從而削弱了x對Y的影響，應(yīng)考慮多元線性回歸。1.F檢驗(yàn)法考慮令計(jì)算后可得一元線性模型中的平方和分解公式：總偏差平方和回歸平方和殘差平方和總偏差（離差）平方和回歸平方和因?yàn)槭Ｓ嗥椒胶停ɑ驓埐钇椒胶停┢椒胶头纸夤剑海?）由于x對Y的線性相關(guān)關(guān)系而引起的Y的分散性。（2）剩余因素引起的Y的分散性。定理6：證明：對于檢驗(yàn)證畢2.t檢驗(yàn)法由定理5知3.r檢驗(yàn)法為了檢驗(yàn)Y與x是否有線性相關(guān)性，也可用統(tǒng)計(jì)量相關(guān)系數(shù)進(jìn)行檢驗(yàn)兩邊平方得于是得到即這說明Y與x之間不存在線性相關(guān)關(guān)系。(2)(3)檢驗(yàn)假設(shè)r檢驗(yàn)法與F檢驗(yàn)實(shí)質(zhì)上是一回事，因?yàn)镕檢驗(yàn)法與r檢驗(yàn)法的拒絕域是相同的。50對于一元線性回歸模型，上述3種檢驗(yàn)的結(jié)果是完全一致的.4.三種檢驗(yàn)的關(guān)系(1)由于t分布與F分布的關(guān)系因此t檢驗(yàn)與F檢驗(yàn)完全一致51r檢驗(yàn)與F檢驗(yàn)也一致因此等價(jià)于四、利用回歸方程進(jìn)行預(yù)測預(yù)測：對固定的x值預(yù)測它所對應(yīng)的Y的取值?？紤]（1）點(diǎn)預(yù)測（2）區(qū)間預(yù)測定理7：由定理7知即其中其中56當(dāng)

x0越靠近，區(qū)間寬度越窄，預(yù)測就越精確

當(dāng)

離不太遠(yuǎn)且n較大時(shí)，，而于是，y0的1－α置信區(qū)間可近似表示為57于是，y0的95%置信區(qū)間可近似表示為于是，y0的99%置信區(qū)間可近似表示為58控制問題對x的控制范圍

當(dāng)要求

y在某個(gè)區(qū)間范圍內(nèi)變化時(shí)，如

,如何求得

x的相應(yīng)控制范圍.

即要求以

1－α的置信度求出相應(yīng)的

使當(dāng)時(shí),x所對應(yīng)的

y落在59

只考慮

n較大情形，令60

例在鋼線碳含量x對于電阻效應(yīng)y的研究中,得到了以下數(shù)據(jù):碳含量（%）0.100.300.400.550.700.800.95電阻（微歐）1518192122.623.826假設(shè)對于給定的x,y為正態(tài)變量,且方差與x無關(guān).如果x,y滿足經(jīng)驗(yàn)公式

求線性回歸方程

解

設(shè)現(xiàn)在

所求的線性回歸方程為

的無偏估計(jì).由例得

檢驗(yàn)例中的線性回歸是否顯著.

解

檢驗(yàn)假設(shè)

拒絕域?yàn)?/p>

由例2得

=>拒絕

即認(rèn)為線性回歸顯著例求上例中當(dāng)碳含量為0.50時(shí),電阻的置信水平為0.95的置信區(qū)間

解

由例1和例2可得

685.2多元線性回歸分析一.多元線性回歸模型模型1模型26970在模型1下，有在模型2下，有7172稱模型3和模型4為y關(guān)于x的p元樣本線性回歸模型.73對多元線性回歸模型，需研究如下幾個(gè)問題：(2)對建立的關(guān)系式進(jìn)行統(tǒng)計(jì)假設(shè)檢驗(yàn)(3)對變量y進(jìn)行預(yù)測和對自變量x進(jìn)行控制74n>p＋1，記75模型3和模型4可表示為如下矩陣形式其中In為

n階單位矩陣，矩陣X是n×(p+1)矩陣稱為設(shè)計(jì)矩陣，且秩(X)=p+176二.未知參數(shù)的估計(jì)1.最小二乘估計(jì)

最小二乘法：求使誤差平方和77

求并令其都等于0，整理后得到如下正規(guī)方程組:78

正規(guī)方程組的解就是的最小二乘估計(jì)

由于79及于是正規(guī)方程組用矩陣表示為80

由于Rank(X)=p+1,因此必存在逆陣解正規(guī)方程組得到的估計(jì)為稱之為的最小二乘估計(jì).于是線性回歸方程為812.最大似然估計(jì)

多元線性回歸系數(shù)的最大似然估計(jì)與一元線性回歸時(shí)求最大似然估計(jì)的想法一樣

823.參數(shù)估計(jì)的性質(zhì)性質(zhì)3性質(zhì)1

估計(jì)量是隨機(jī)變量的線性變換性質(zhì)2

估計(jì)量是的無偏估計(jì)在模型1下有如下性質(zhì)83性質(zhì)4(2)性質(zhì)4(1)在模型2下有如下性質(zhì)84三.回歸方程的顯著性檢驗(yàn)檢驗(yàn)問題：考慮模型2

因變量y的觀測值是不完全相同的，之所以不同，可能由于如下兩個(gè)原因：一是隨機(jī)因素引起的，如隨機(jī)誤差；另一個(gè)是由自變量的變化引起的變化.為此，考慮平方和分解85平方和分解交叉項(xiàng)為086稱為總變差平方和，反映數(shù)據(jù)的波動(dòng)性，即這些數(shù)據(jù)的分散程度

越大表明n個(gè)觀測值的波動(dòng)越大即之間越分散，反之越小表明的數(shù)值波動(dòng)越小即之間越接近.87稱為殘差平方和.Se反映了除掉由

對y的影響之外的剩余因素對分散程度的作用，即隨機(jī)因素引起的波動(dòng).稱為回歸平方和反映了的波動(dòng)程度88

而SR越小，Se越大，此時(shí)x對y的線性影響不顯著.ST給定后，SR越大，Se越小，x對y

的線性影響越顯著；

因此，F(xiàn)=SR/Se的比值反映了x對y

的線性影響的顯著性，進(jìn)而檢驗(yàn)假設(shè).89定理：在p元線性回歸模型2下，有90根據(jù)定理構(gòu)造F檢驗(yàn)統(tǒng)計(jì)量91對于給定的顯著性水平當(dāng)時(shí)，拒絕，認(rèn)為線性回歸效果顯著，即y與

之間存在顯著的線性相關(guān)關(guān)系;當(dāng)時(shí)，接受，認(rèn)為線性回歸效果不顯著，即y與之間不存在顯著的線性相關(guān)關(guān)系;92上述分析方法通過下表來描述n-1總變差pn-p-1回歸

殘差

F均方和自由度平方和方差來源93四.回歸系數(shù)的顯著性檢驗(yàn)在多元線性回歸分析中，回歸方程的顯著性并不意味著每個(gè)自變量對因變量y的影響都是顯著的，實(shí)際上，某些回歸系數(shù)仍有可能接近于零，若某接近于零，說明的變化對y的影響很小，甚至我們可以把從回歸方程中去掉，從而得到更為簡單的線性回歸方程.因此在拒絕之后，需要進(jìn)一步對每個(gè)自變量進(jìn)行顯著性檢驗(yàn).94檢驗(yàn)問題：考慮模型2

若接受，表明對y的影響不顯著；

若拒絕，表明對y有一定的影響95根據(jù)性質(zhì)4和定理，得到由此構(gòu)造t檢驗(yàn)統(tǒng)計(jì)量96對于給定的顯著性水平當(dāng)時(shí)，拒絕，認(rèn)為

對

y的線性影響顯著；當(dāng)時(shí)，接受，認(rèn)為

對

y的線性影響不顯著；975.3非線性回歸在很多實(shí)際問題中，兩個(gè)或者多個(gè)變量之間的關(guān)系不一定是線性關(guān)系.若此時(shí)建立線性回歸方程，效果肯定不會(huì)好.而如果觀測值的散點(diǎn)圖大致呈某一曲線，又存在某種變換可將該曲線轉(zhuǎn)換成直線，于是就可以選擇該變換把問題轉(zhuǎn)換成線性回歸的問題，從而利用線性回歸的一些結(jié)果解決問題.我們主要介紹非線性回歸方法.具體做法：

1）根據(jù)樣本數(shù)據(jù)，在直角坐標(biāo)系中畫出散點(diǎn)圖2）根據(jù)散點(diǎn)圖，推測出Y與x之間的函數(shù)關(guān)系3）選擇適當(dāng)?shù)淖鴺?biāo)變換，使之變成線性關(guān)系4）用線性回歸方法求出線性回歸方程5）返回到原來的函數(shù)關(guān)系，得到要求的回歸方程可線性化的一元非線性回歸1.雙曲線:

2.冪函數(shù):

3.指數(shù)曲線:

4.倒指數(shù)曲線:取對數(shù)得取對數(shù)得5.對數(shù)曲線:

6、S型（Logistic）曲線令變形1027、多項(xiàng)式模型任意連續(xù)函數(shù)都可由多項(xiàng)式逼近例1在彩色顯影中,根據(jù)以往經(jīng)驗(yàn),形成染料光學(xué)密度與析出銀的光學(xué)密度之間呈倒指數(shù)曲線關(guān)系:已測得11對數(shù)據(jù)見下表（1）求出經(jīng)驗(yàn)回歸曲線方程；（2）對回歸曲線的顯著性進(jìn)行檢驗(yàn).x0.050.060.070.100.140.200.250.310.380.430.47

y0.100.140.230.370.590.791.001.121.191.251.29

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第五章回歸分析-統(tǒng)計(jì)計(jì)算及方法課件

文檔簡介

溫馨提示

最新文檔

評論

第五章回歸分析-統(tǒng)計(jì)計(jì)算及方法課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔