




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第五章回歸分析回歸分析一元線性回歸多元線性回歸非線性回歸25.0引言回歸名稱的由來回歸分析是研究變量之間相互依賴關(guān)系的一種統(tǒng)計(jì)方法,是數(shù)理統(tǒng)計(jì)學(xué)中應(yīng)用最廣泛的分支之一.3
回歸分析的基本思想以及“回歸”名稱的由來最初是由英國生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓提出來的.
他從一千多對父母身高與其子女身高的數(shù)據(jù)分析中得出:當(dāng)父親身高很高時(shí),兒子的身高并不像期待的那樣高,而要稍矮一些,有向同齡人平均身高靠攏的現(xiàn)象;而當(dāng)父親身高很矮時(shí),兒子的身高要比預(yù)期的高,也有向同齡人平均身高靠攏的現(xiàn)象.4
正是因?yàn)閮鹤拥纳砀哂谢氐酵g人平均身高的這種趨勢,才使人類的身高在一定時(shí)間內(nèi)相對穩(wěn)定,沒有出現(xiàn)父輩個(gè)子高其子女更高,父輩個(gè)子矮其子女更矮的兩極分化現(xiàn)象,說明后代的平均身高向中心靠攏了,這種現(xiàn)象叫回歸,這就是“回歸”一詞的最初含義.現(xiàn)在的意思是:凡是利用一個(gè)變量或一組變量的變異來估計(jì)或預(yù)測另一個(gè)變量的變異情況都稱之為回歸。
在現(xiàn)實(shí)問題中處于同一個(gè)過程中的一些變量往往是相互依賴和相互制約的,它們之間的相互關(guān)系大致可分為兩種:(1)確定性關(guān)系--函數(shù)關(guān)系
(2)非確定性關(guān)系--相關(guān)關(guān)系:變量之間有一定的依賴關(guān)系,但這種關(guān)系并不完全確定??煽刈兞浚嚎梢栽谀撤秶鷥?nèi)隨意地取指定數(shù)值-自變量不可控變量:可以觀測但不可控制(隨機(jī)變量)--因變量6
例2
人的血壓y與年齡x之間的關(guān)系,不可能由一個(gè)人的年齡完全確定他的血壓.一般說人的年齡越大血壓越高,但年齡相同者,血壓未必相同.
例1人的體重y與身高x之間的關(guān)系一般來說,身高高一些,體重也要重一些,但身高不能嚴(yán)格地確定體重,即同樣身高的人,體重可能不同.7
這幾個(gè)例子中的兩個(gè)變量之間都有一定的關(guān)系,且是一種非確定性的關(guān)系,稱這類關(guān)系為相關(guān)關(guān)系.
例3水稻畝產(chǎn)量y與其施肥量x1、播種量x2、種子x3有關(guān)系,但x1、x2、x3
取相同的一組數(shù)值時(shí),畝產(chǎn)量y可取不同數(shù)值.8
上述例子中身高x,年齡x,施肥量
x1、播種量x2
、種子
x3都是可以在一定范圍內(nèi)隨意的取指定數(shù)值,是可控變量稱之為自變量,而體重
y,血壓
y,畝產(chǎn)量
y都是不可控變量稱為因變量.
研究一個(gè)變量與一個(gè)(或幾個(gè))可控變量之間相關(guān)關(guān)系的統(tǒng)計(jì)分析方法稱為回歸分析.回歸分析:研究一個(gè)隨機(jī)變量與一個(gè)(或幾個(gè))可控變量之間相關(guān)關(guān)系地統(tǒng)計(jì)方法。
只有一個(gè)自變量的回歸分析叫做一元回歸分析;多于一個(gè)自變量的回歸分析叫做多元回歸分析。
回歸分析主要內(nèi)容:提供建立有相關(guān)關(guān)系的變量之間的數(shù)學(xué)關(guān)系式(經(jīng)驗(yàn)公式)的一般方法;(2)判別所建立的經(jīng)驗(yàn)公式是否有效;(3)利用所得到的經(jīng)驗(yàn)公式進(jìn)行預(yù)測和控制.5.1一元線性回歸(一)一元線性回歸模型
設(shè)與有相關(guān)關(guān)系,當(dāng)自變量時(shí),因變量并不取固定的值與其對應(yīng).如果要用函數(shù)關(guān)系近似與的相關(guān)關(guān)系,很自然想到,應(yīng)該以作為與相對應(yīng)的數(shù)值.(5-1)其中為常數(shù),則稱與之間存在線性相關(guān)關(guān)系,稱(5-1)為一元正態(tài)線性回歸模型,簡稱一元線性模型,其回歸函數(shù)記為稱為對的線性回歸,稱為回歸常數(shù),稱為回歸系數(shù)。
由(5-1)得,可知取不同數(shù)值時(shí),便得到不同的正態(tài)變量。其中為未知的常數(shù)。由獨(dú)立知道也相互獨(dú)立,且稱為獨(dú)立樣本的一個(gè)(或一組)樣本觀測值,其中為取固定值時(shí),對進(jìn)行一次試驗(yàn)所得到的觀測值。利用獨(dú)立樣本及其樣本值可得的估計(jì)量及估計(jì)值和從而得到回歸函數(shù)的估計(jì)稱為對的經(jīng)驗(yàn)回歸方程或經(jīng)驗(yàn)公式。注:確定變量間相關(guān)關(guān)系數(shù)學(xué)關(guān)系式的三種方法1.經(jīng)驗(yàn)公式。2.假設(shè)檢驗(yàn)。3.散點(diǎn)圖法。把樣本值作為平面直角坐標(biāo)系的個(gè)點(diǎn)描出來,構(gòu)成實(shí)驗(yàn)的散點(diǎn)圖。根據(jù)散點(diǎn)圖,適當(dāng)?shù)剡x擇一個(gè)函數(shù)使得在一定意義下最好地吻合于觀測結(jié)果常用的是最小二乘法,即.......二、未知參數(shù)的估計(jì)1.正規(guī)方程組、回歸系數(shù)的點(diǎn)估計(jì)根據(jù)最小二乘法求線性回歸函數(shù)的估計(jì)就是求使得取得最小值的即根據(jù)微分學(xué)中的二元函數(shù)極值的充分條件,將分別對求一階偏導(dǎo)數(shù)并令其為零經(jīng)過整理后得到線性方程組其中正規(guī)方程組解此方程組即得使取得最小值的分別稱為的最小二乘估計(jì)值.于是,得到對的經(jīng)驗(yàn)回歸方程注:用最小二乘法得到的經(jīng)驗(yàn)回歸直線通過已知個(gè)數(shù)據(jù)點(diǎn)的幾何重心把估計(jì)值中的分別用來代替,就得到了參數(shù)的估計(jì)量.為了方便,我們引進(jìn)幾個(gè)常用的記號則參數(shù)估計(jì)量回歸方程定理1:
在一元線性回歸模型中,
和相互獨(dú)立.證明:即與不相關(guān).但與都是獨(dú)立正態(tài)變量的線性組合,因此,與的聯(lián)合分布為正態(tài)分布.對于正態(tài)隨機(jī)向量來說不相關(guān)和相互獨(dú)立是等價(jià)的.證畢定理2:
在一元線性回歸模型中,的最小二乘估計(jì)量的數(shù)學(xué)期望和方差為證明:證畢.由定理2可看出,當(dāng)時(shí),取最小值;與成反比.所以,為了提高和的估計(jì)精度,最好選擇使,并且應(yīng)比較分散.注:
的最小二乘估計(jì)量與極大似然估計(jì)量相等.24實(shí)際上:
在
,β0和
β1的最大似然估計(jì)為最小二乘估計(jì)2.參數(shù)的點(diǎn)估計(jì)當(dāng)?shù)臉O大似然估計(jì)量已得到后,的估計(jì)量可由似然方程可得的極大似然估計(jì)量為記即是的極大似然估計(jì)量.定理3:
在一元線性模型中證明:而又于是有證畢.由定理3可得是的無偏估計(jì).3.估計(jì)量和的分布定理4:在一元線性模型中(1)(2)(3)(4)(5)相互獨(dú)立.4.未知參數(shù)和的區(qū)間估計(jì)定理5.
在一元線性模型中證明:由定理4,得由定理4的(5)可知,分別相互獨(dú)立,再由t分布的定義,即得證畢由定理5及t分布的分位數(shù),得即得的置信區(qū)間為類似,的置信區(qū)間為由易得的置信區(qū)間為三、線性回歸效果的顯著性檢驗(yàn)
我們在求Y對x的線性回歸之前,必須判斷Y與x的關(guān)系是否滿足一元線性回歸模型。理論上講,這要求檢驗(yàn)(1)對x取任一固定值時(shí),Y都服從正態(tài)分布,而且方差相同;(2)x在某一范圍取值時(shí),EY是x的線性函數(shù);(3)在x取各個(gè)不同值時(shí),相應(yīng)的Y是相互獨(dú)立的。但要檢驗(yàn)這三條不僅需要大量的試驗(yàn),還要進(jìn)行大量的計(jì)算,實(shí)際上很難辦到。(1)x對Y沒有顯著影響,應(yīng)丟掉自變量x;(2)x對Y有顯著影響,但不能用線性相關(guān)關(guān)系來表示;(3)除x外還有其它不可忽略的變量對Y也有顯著影響,從而削弱了x對Y的影響,應(yīng)考慮多元線性回歸。1.F檢驗(yàn)法考慮令計(jì)算后可得一元線性模型中的平方和分解公式:總偏差平方和回歸平方和殘差平方和總偏差(離差)平方和回歸平方和因?yàn)槭S嗥椒胶停ɑ驓埐钇椒胶停┢椒胶头纸夤剑海?)由于x對Y的線性相關(guān)關(guān)系而引起的Y的分散性。(2)剩余因素引起的Y的分散性。定理6:證明:對于檢驗(yàn)證畢2.t檢驗(yàn)法由定理5知3.r檢驗(yàn)法為了檢驗(yàn)Y與x是否有線性相關(guān)性,也可用統(tǒng)計(jì)量相關(guān)系數(shù)進(jìn)行檢驗(yàn)兩邊平方得于是得到即這說明Y與x之間不存在線性相關(guān)關(guān)系。(2)(3)檢驗(yàn)假設(shè)r檢驗(yàn)法與F檢驗(yàn)實(shí)質(zhì)上是一回事,因?yàn)镕檢驗(yàn)法與r檢驗(yàn)法的拒絕域是相同的。50對于一元線性回歸模型,上述3種檢驗(yàn)的結(jié)果是完全一致的.4.三種檢驗(yàn)的關(guān)系(1)由于t分布與F分布的關(guān)系因此t檢驗(yàn)與F檢驗(yàn)完全一致51r檢驗(yàn)與F檢驗(yàn)也一致因此等價(jià)于四、利用回歸方程進(jìn)行預(yù)測預(yù)測:對固定的x值預(yù)測它所對應(yīng)的Y的取值??紤](1)點(diǎn)預(yù)測(2)區(qū)間預(yù)測定理7:由定理7知即其中其中56當(dāng)
x0越靠近,區(qū)間寬度越窄,預(yù)測就越精確
當(dāng)
x0
離不太遠(yuǎn)且n較大時(shí),,而于是,y0的1-α置信區(qū)間可近似表示為57于是,y0的95%置信區(qū)間可近似表示為于是,y0的99%置信區(qū)間可近似表示為58控制問題對x的控制范圍
當(dāng)要求
y在某個(gè)區(qū)間范圍內(nèi)變化時(shí),如
,如何求得
x的相應(yīng)控制范圍.
即要求以
1-α的置信度求出相應(yīng)的
使當(dāng)時(shí),x所對應(yīng)的
y落在59
只考慮
n較大情形,令60
例在鋼線碳含量x對于電阻效應(yīng)y的研究中,得到了以下數(shù)據(jù):碳含量(%)0.100.300.400.550.700.800.95電阻(微歐)1518192122.623.826假設(shè)對于給定的x,y為正態(tài)變量,且方差與x無關(guān).如果x,y滿足經(jīng)驗(yàn)公式
求線性回歸方程
解
設(shè)現(xiàn)在
所求的線性回歸方程為
的無偏估計(jì).由例得
檢驗(yàn)例中的線性回歸是否顯著.
解
檢驗(yàn)假設(shè)
拒絕域?yàn)?/p>
由例2得
=>拒絕
即認(rèn)為線性回歸顯著例求上例中當(dāng)碳含量為0.50時(shí),電阻的置信水平為0.95的置信區(qū)間
解
由例1和例2可得
685.2多元線性回歸分析一.多元線性回歸模型模型1模型26970在模型1下,有在模型2下,有7172稱模型3和模型4為y關(guān)于x的p元樣本線性回歸模型.73對多元線性回歸模型,需研究如下幾個(gè)問題:(2)對建立的關(guān)系式進(jìn)行統(tǒng)計(jì)假設(shè)檢驗(yàn)(3)對變量y進(jìn)行預(yù)測和對自變量x進(jìn)行控制74n>p+1,記75模型3和模型4可表示為如下矩陣形式其中In為
n階單位矩陣,矩陣X是n×(p+1)矩陣稱為設(shè)計(jì)矩陣,且秩(X)=p+176二.未知參數(shù)的估計(jì)1.最小二乘估計(jì)
最小二乘法:求使誤差平方和77
求并令其都等于0,整理后得到如下正規(guī)方程組:78
正規(guī)方程組的解就是的最小二乘估計(jì)
由于79及于是正規(guī)方程組用矩陣表示為80
由于Rank(X)=p+1,因此必存在逆陣解正規(guī)方程組得到的估計(jì)為稱之為的最小二乘估計(jì).于是線性回歸方程為812.最大似然估計(jì)
多元線性回歸系數(shù)的最大似然估計(jì)與一元線性回歸時(shí)求最大似然估計(jì)的想法一樣
823.參數(shù)估計(jì)的性質(zhì)性質(zhì)3性質(zhì)1
估計(jì)量是隨機(jī)變量的線性變換性質(zhì)2
估計(jì)量是的無偏估計(jì)在模型1下有如下性質(zhì)83性質(zhì)4(2)性質(zhì)4(1)在模型2下有如下性質(zhì)84三.回歸方程的顯著性檢驗(yàn)檢驗(yàn)問題:考慮模型2
因變量y的觀測值是不完全相同的,之所以不同,可能由于如下兩個(gè)原因:一是隨機(jī)因素引起的,如隨機(jī)誤差;另一個(gè)是由自變量的變化引起的變化.為此,考慮平方和分解85平方和分解交叉項(xiàng)為086稱為總變差平方和,反映數(shù)據(jù)的波動(dòng)性,即這些數(shù)據(jù)的分散程度
越大表明n個(gè)觀測值的波動(dòng)越大即之間越分散,反之越小表明的數(shù)值波動(dòng)越小即之間越接近.87稱為殘差平方和.Se反映了除掉由
對y的影響之外的剩余因素對分散程度的作用,即隨機(jī)因素引起的波動(dòng).稱為回歸平方和反映了的波動(dòng)程度88
而SR越小,Se越大,此時(shí)x對y的線性影響不顯著.ST給定后,SR越大,Se越小,x對y
的線性影響越顯著;
因此,F(xiàn)=SR/Se的比值反映了x對y
的線性影響的顯著性,進(jìn)而檢驗(yàn)假設(shè).89定理:在p元線性回歸模型2下,有90根據(jù)定理構(gòu)造F檢驗(yàn)統(tǒng)計(jì)量91對于給定的顯著性水平當(dāng)時(shí),拒絕,認(rèn)為線性回歸效果顯著,即y與
之間存在顯著的線性相關(guān)關(guān)系;當(dāng)時(shí),接受,認(rèn)為線性回歸效果不顯著,即y與之間不存在顯著的線性相關(guān)關(guān)系;92上述分析方法通過下表來描述n-1總變差pn-p-1回歸
殘差
F均方和自由度平方和方差來源93四.回歸系數(shù)的顯著性檢驗(yàn)在多元線性回歸分析中,回歸方程的顯著性并不意味著每個(gè)自變量對因變量y的影響都是顯著的,實(shí)際上,某些回歸系數(shù)仍有可能接近于零,若某接近于零,說明的變化對y的影響很小,甚至我們可以把從回歸方程中去掉,從而得到更為簡單的線性回歸方程.因此在拒絕之后,需要進(jìn)一步對每個(gè)自變量進(jìn)行顯著性檢驗(yàn).94檢驗(yàn)問題:考慮模型2
若接受,表明對y的影響不顯著;
若拒絕,表明對y有一定的影響95根據(jù)性質(zhì)4和定理,得到由此構(gòu)造t檢驗(yàn)統(tǒng)計(jì)量96對于給定的顯著性水平當(dāng)時(shí),拒絕,認(rèn)為
對
y的線性影響顯著;當(dāng)時(shí),接受,認(rèn)為
對
y的線性影響不顯著;975.3非線性回歸在很多實(shí)際問題中,兩個(gè)或者多個(gè)變量之間的關(guān)系不一定是線性關(guān)系.若此時(shí)建立線性回歸方程,效果肯定不會(huì)好.而如果觀測值的散點(diǎn)圖大致呈某一曲線,又存在某種變換可將該曲線轉(zhuǎn)換成直線,于是就可以選擇該變換把問題轉(zhuǎn)換成線性回歸的問題,從而利用線性回歸的一些結(jié)果解決問題.我們主要介紹非線性回歸方法.具體做法:
1)根據(jù)樣本數(shù)據(jù),在直角坐標(biāo)系中畫出散點(diǎn)圖2)根據(jù)散點(diǎn)圖,推測出Y與x之間的函數(shù)關(guān)系3)選擇適當(dāng)?shù)淖鴺?biāo)變換,使之變成線性關(guān)系4)用線性回歸方法求出線性回歸方程5)返回到原來的函數(shù)關(guān)系,得到要求的回歸方程可線性化的一元非線性回歸1.雙曲線:
2.冪函數(shù):
3.指數(shù)曲線:
4.倒指數(shù)曲線:取對數(shù)得取對數(shù)得5.對數(shù)曲線:
6、S型(Logistic)曲線令變形1027、多項(xiàng)式模型任意連續(xù)函數(shù)都可由多項(xiàng)式逼近例1在彩色顯影中,根據(jù)以往經(jīng)驗(yàn),形成染料光學(xué)密度與析出銀的光學(xué)密度之間呈倒指數(shù)曲線關(guān)系:已測得11對數(shù)據(jù)見下表(1)求出經(jīng)驗(yàn)回歸曲線方程;(2)對回歸曲線的顯著性進(jìn)行檢驗(yàn).x0.050.060.070.100.140.200.250.310.380.430.47
y0.100.140.230.370.590.791.001.121.191.251.29
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國正戊烯行業(yè)市場前景預(yù)測及投資價(jià)值評估分析報(bào)告
- 深圳垃圾箱項(xiàng)目可行性研究報(bào)告范文
- 招工牛奶小工合同協(xié)議書
- 培訓(xùn)學(xué)校品牌升級計(jì)劃方案
- 校園康復(fù)創(chuàng)業(yè)項(xiàng)目計(jì)劃書
- 送餐人員合同協(xié)議書范本
- 天文學(xué)課件下載
- 管理承包合同協(xié)議書
- 音樂教育商業(yè)策劃書3
- 跨境電商運(yùn)營個(gè)人展望與目標(biāo)-概述說明以及解釋
- 產(chǎn)品代理合同協(xié)議書2024年
- 民航飛行員技能大賽理論考試題庫600題(含答案)
- 第四單元大單元整體教學(xué)設(shè)計(jì)部編版語文九年級上冊
- 《無衣》課件(共18張課件)-統(tǒng)編版高中語文選擇性必修上冊
- 中華詩詞之美學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- GB/T 44273-2024水力發(fā)電工程運(yùn)行管理規(guī)范
- 個(gè)人自愿選擇一次性繳納企業(yè)職工基本養(yǎng)老保險(xiǎn)費(fèi)申請表
- 2024年南京市中考?xì)v史試題及答案
- 2024年全國中學(xué)生數(shù)學(xué)奧林匹克競賽內(nèi)蒙古賽區(qū)初賽試卷(解析版)
- 國家電網(wǎng)招投標(biāo)培訓(xùn)
- DL∕T 1100.1-2018 電力系統(tǒng)的時(shí)間同步系統(tǒng) 第1部分:技術(shù)規(guī)范
評論
0/150
提交評論