一元回歸及相關(guān)分析課件_第1頁
一元回歸及相關(guān)分析課件_第2頁
一元回歸及相關(guān)分析課件_第3頁
一元回歸及相關(guān)分析課件_第4頁
一元回歸及相關(guān)分析課件_第5頁
已閱讀5頁,還剩111頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第七章一元回歸及相關(guān)分析第一節(jié)回歸和相關(guān)的概念第二節(jié)一元線性回歸分析第三節(jié)一元線性相關(guān)分析第七章一元回歸及相關(guān)分析第一節(jié)回歸和相關(guān)的概念1引言

這一章研究的對象:由一個變數(shù)兩個或多個變數(shù),因?yàn)樵趯?shí)際生產(chǎn)實(shí)踐和科學(xué)實(shí)驗(yàn)中所要研究的變數(shù)往往不止一個,例如:研究溫度高低和作物發(fā)育進(jìn)度快慢的關(guān)系,就有溫度和發(fā)育進(jìn)度兩個變數(shù);研究每畝穗數(shù)、每穗粒數(shù)和每畝產(chǎn)量的關(guān)系,就有穗數(shù)、粒數(shù)和產(chǎn)量三個變數(shù)。引言2第一節(jié)回歸和相關(guān)的概念1.函數(shù)關(guān)系與統(tǒng)計關(guān)系2.自變數(shù)與依變數(shù)3.回歸分析和相關(guān)分析4.兩個變數(shù)資料的散點(diǎn)圖第一節(jié)回歸和相關(guān)的概念1.函數(shù)關(guān)系與統(tǒng)計關(guān)系3

函數(shù)關(guān)系有精確的數(shù)學(xué)表達(dá)式(確定性的關(guān)系)直線回歸分析一元回歸分析變量間的關(guān)系因果關(guān)系曲線回歸分析(回歸分析)多元回歸分析多元線性回歸分析統(tǒng)計關(guān)系 多元非線性回歸分析(非確定性的關(guān)系)簡單相關(guān)分析——直線相關(guān)分析相關(guān)關(guān)系復(fù)相關(guān)分析(相關(guān)分析)多元相關(guān)分析偏相關(guān)分析

4函數(shù)關(guān)系是一種確定性的關(guān)系,例如圓面積與半徑的關(guān)系為。其不包含誤差的干擾。統(tǒng)計關(guān)系是一種非確定性的關(guān)系。例如,作物的產(chǎn)量與施肥量的關(guān)系,兩類變數(shù)受誤差的干擾表現(xiàn)為統(tǒng)計關(guān)系。函數(shù)關(guān)系是一種確定性的關(guān)系,例如圓面積與半徑的關(guān)系為5因果關(guān)系:兩個變數(shù)間的關(guān)系若具有原因和反應(yīng)(結(jié)果)的性質(zhì)。相關(guān)關(guān)系:呈現(xiàn)一種共同變化的特點(diǎn),則稱這兩個變數(shù)間存在?;貧w分析:計算回歸方程為基礎(chǔ)的統(tǒng)計分析方法。因果關(guān)系:兩個變數(shù)間的關(guān)系若具有原因和反應(yīng)(結(jié)果)的性質(zhì)。6為Y依X的回歸方程(regressionequationofYonX)。相關(guān)分析:計算相關(guān)系數(shù)為基礎(chǔ)的統(tǒng)計分析方法。計算表示Y和X相關(guān)密切程度的統(tǒng)計數(shù),并測驗(yàn)其顯著性。這個統(tǒng)計數(shù)在兩個變數(shù)為直線相關(guān)時稱為相關(guān)系數(shù)(correlationcoefficient),記為r;在多元相關(guān)時稱為復(fù)相關(guān)系數(shù)(multiplecorrelation),記作Ry·12…m;在兩個變數(shù)曲線相關(guān)時稱為相關(guān)指數(shù)(correlationindex),記作R。為Y依X的回歸方程(regres7一般規(guī)則:當(dāng)兩個變數(shù)中Y含有試驗(yàn)誤差而X不含試驗(yàn)誤差時著重進(jìn)行回歸分析;而當(dāng)Y和X均含有試驗(yàn)誤差時則著重去進(jìn)行相關(guān)分析。4.兩個變數(shù)資料的散點(diǎn)圖對具有統(tǒng)計關(guān)系的兩個變數(shù)的資料進(jìn)行初步考察的簡便而有效的方法,是將這兩個變數(shù)的n對觀察值(x1,y1)、(x2,y2)、…、(xn,yn)分別以坐標(biāo)點(diǎn)的形式標(biāo)記于同一直角坐標(biāo)平面上,獲得散點(diǎn)圖(scatterdiagram)。

一般規(guī)則:8根據(jù)散點(diǎn)圖可初步判定雙變數(shù)X和Y間的關(guān)系,包括:①X和Y相關(guān)的性質(zhì)(正或負(fù))和密切程度;②X和Y的關(guān)系是直線型的還是非直線型的;③是否有一些特殊的點(diǎn)表示著其他因素的干擾等。例如圖9.1是水稻方面的3幅散點(diǎn)圖,圖9.1A是單株的生物產(chǎn)量(X)和稻谷產(chǎn)量(Y),圖9.1B是每平方米土地上的總穎花數(shù)(X)和結(jié)實(shí)率(Y),圖9.1C是最高葉面積指數(shù)(X)和每畝稻谷產(chǎn)量(Y)。從中可以看出:①圖9.1A和9.1B都是直線型的,但方向根據(jù)散點(diǎn)圖可初步判定雙變數(shù)X和Y間的關(guān)系,包括:①X和9相反;前者Y隨X的增大而增大,表示兩個變數(shù)的關(guān)系是正的,后者Y隨X的增大而減小,表示關(guān)系是負(fù)的。②圖9.1A的各個點(diǎn)幾乎都落在一直線上,圖9.1B則較為分散;因此,圖9.1A中X和Y相關(guān)的密切程度必高于圖9.1B。③圖9.1C中X和Y的關(guān)系是非直線型的;大約在x≤(6—7)時,Y隨X的增大而增大,而當(dāng)x>(6—7)時,Y隨X的增大而減小。相反;前者Y隨X的增大而增大,表示兩個變數(shù)的關(guān)系是正10x,生物產(chǎn)量(g)

水稻單株生物產(chǎn)量與稻谷產(chǎn)量的散點(diǎn)圖

x,生物產(chǎn)量(g)

水稻單株生物產(chǎn)量與稻谷產(chǎn)量的散點(diǎn)圖11x,每m2穎花數(shù)(萬)

水稻每m2穎花數(shù)和結(jié)實(shí)率的散點(diǎn)圖x,每m2穎花數(shù)(萬)

水稻每m2穎花數(shù)和結(jié)實(shí)率的散點(diǎn)圖12x,最高葉面積指數(shù)

水稻最高葉面積指數(shù)和畝產(chǎn)量的散點(diǎn)圖x,最高葉面積指數(shù)

水稻最高葉面積指數(shù)和畝產(chǎn)量的散點(diǎn)圖13第二節(jié)一元線性回歸分析一、直線回歸方程二、直線回歸的假設(shè)測驗(yàn)和區(qū)間估計第二節(jié)一元線性回歸分析一、直線回歸方程14一、直線回歸方程(一)直線回歸方程式

(9·1)回歸截距(regressionintercept):a是x=0時的值,即回歸直線在y軸上的截距?;貧w系數(shù)(regressioncoefficient):b是x每增加一個單位數(shù)時,平均地將要增加(b>0時)或減少(b<0時)的單位數(shù)。一、直線回歸方程15

時,分別對a和b求偏導(dǎo)數(shù)并令其為0,可得正規(guī)方程組(normalequations):

(9·2)

16

(9·3)(9·4)將(9·2)代入(9·1)可得:(9·3)(9·4)將(9·2)代入(9·1)可得:17

y

②③

①a>0,b<0

②a>0,b>0③a<0,b>0x直線回歸方程的圖象由(9·4)可看到:①當(dāng)x以離均差(x-)為單位時,回歸直線的位置僅決定于

和b

;②當(dāng)將坐標(biāo)軸平移到以(,)為原點(diǎn)時,回歸直線的走向僅決定于b,所以一般又稱b為回歸斜率(regressionslope)。

一元回歸及相關(guān)分析課件18(二)直線回歸方程的計算[例9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇武進(jìn)連續(xù)9年測定3月下旬至4月中旬旬平均溫度累積值(x,旬·度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關(guān)系,得結(jié)果于表9.1。試計算其直線回歸方程。首先由表9.1算得回歸分析所必須的6個一級數(shù)據(jù)(即由觀察值直接算得的數(shù)據(jù)):(二)直線回歸方程的計算19

x累積溫y盛發(fā)期35.534.131.740.336.840.231.739.244.212169273139-1表9.1累積溫和一代三化螟盛發(fā)期的關(guān)系x累積溫y盛發(fā)期35.512表9.1累積溫和一代三化20

n=9=35.5+34.1+…+44.2=333.7=35.52+34.12+…+44.22=12517.49=12+16+…+(-1)=70=122+162+…+(-1)2=794=(35.5×12)+(34.1×16)+…+[44.2×(-1)]=2436.4然后,由一級數(shù)據(jù)算得5個二級數(shù)據(jù):n=9=35.5+34.1+…+44.2=333.21

SSx==12517.49-(333.7)2/9

=144.6356=794-(70)2/9

=249.55562436.4-(333.7×70)/9=-159.0444333.7/9=37.077870/9=7.7778*SSy=SP=因而有:

b=-159.0444/144.6356=-1.0996[天/(旬·度)]a==7.7778-(-1.0996×37.0778)=48.5485(天)SSx==12517.49-(333.7)2/9=122故得表9.1資料的回歸方程為:上述方程中回歸系數(shù)和回歸截距的意義為:當(dāng)3月下旬至4月中旬的積溫(x)每提高1旬·度時,一代三化螟的盛發(fā)期平均將提早1.1天;若積溫為0,則一代三化螟的盛發(fā)期將在6月27—28日(x=0時,=48.5;因y是以5月10日為0,故48.5為6月27—28日)。由于x變數(shù)的實(shí)測區(qū)間為[31.7,44.2],當(dāng)x<31.7或>44.2時,y的變化是否還符合=48.5-1.1x的規(guī)律,觀察數(shù)據(jù)中未曾得到任何信息。=48.5485-1.0996x故得表9.1資料的回歸方程為:=48.5485-1.099623所以,在應(yīng)用=48.5-1.1x于預(yù)測時,需限定x的區(qū)間為[31.7,44.2];如要在x<31.7或>44.2的區(qū)間外延,則必須有新的依據(jù)。

所以,在應(yīng)用=48.5-1.1x于預(yù)測時,需限定x的區(qū)間為[24(三)直線回歸方程的圖示直線回歸圖包括回歸直線的圖象和散點(diǎn)圖,它可以醒目地表示x和y的數(shù)量關(guān)系。方法:制作直線回歸圖時,首先以x為橫坐標(biāo),以y為縱坐標(biāo)構(gòu)建直角坐標(biāo)系(縱、橫坐標(biāo)皆需標(biāo)明名稱和單位);然后取x坐標(biāo)上的一個小值x1代入回歸方程得,取一個大值x2代入回歸方程得,連接坐標(biāo)點(diǎn)(x1,)和(x2,)即成一條回歸直線。如例9.1資料,以x1=31.7代入回歸方程得=13.69;(三)直線回歸方程的圖示25以x2=44.2代入回歸方程得=-0.05。在圖9.3上確定(31.7,13.69)和(44.2,-0.05)這兩個點(diǎn),再連接之,即為=48.5485-1.0996x的直線圖象。注意:此直線必通過點(diǎn)(,),它可作為制圖是否正確的核對。最后,將實(shí)測的各對(xi,yi)數(shù)值也用坐標(biāo)點(diǎn)標(biāo)于圖9.3上。以x2=44.2代入回歸方程得=-0.05。在圖9.326

x,3月下旬至4月中旬旬平均溫度累積值圖旬平均溫度累積值和一代三化螟盛發(fā)期的關(guān)系

27圖9.3的回歸直線是9個觀察坐標(biāo)點(diǎn)的代表,它不僅表示了例9.1資料的基本趨勢,也便于預(yù)測。如某年3月下旬至4月中旬的積溫為40旬·度,則在圖9.3上可查到一代三化螟盛發(fā)期的點(diǎn)估計值在5月14—15日,這和將x=40代入原方程得到=48.5485-(1.0996×40)=4.6是一致的。因?yàn)榛貧w直線是綜合9年結(jié)果而得出的一般趨勢,所以其代表性比任何一個實(shí)際的坐標(biāo)點(diǎn)都好。當(dāng)然,這種估計仍然有隨機(jī)誤差,下文再作討論。

圖9.3的回歸直線是9個觀察坐標(biāo)點(diǎn)的代表,它不僅表示了例9.28(四)直線回歸的估計標(biāo)準(zhǔn)誤Q就是誤差的一種度量,稱為離回歸平方和(sumofsquaresduetodeviationfromregression)或剩余平方和。建立回歸方程時用了a和b兩個統(tǒng)計數(shù),故Q的自由度

(四)直線回歸的估計標(biāo)準(zhǔn)誤29得

=SSy-b(SP)=SSy-b2(SSx)=∑y2-a∑y-b∑xy(9·5)(9·6A)(9·6B)(9·6C)(9·6D)得(9·5)(9·6A)(9·6B)(9·6C)30(五)直線回歸的數(shù)學(xué)模型和基本假定直線回歸模型中,Y總體的每一個值由以下三部分組成:①回歸截距,②回歸系數(shù),③Y變數(shù)的隨機(jī)誤差。總體直線回歸的數(shù)學(xué)模型:~N(0,)。相應(yīng)的樣本線性組成為:(9·7)(9·8)(五)直線回歸的數(shù)學(xué)模型和基本假定(9·7)(9·8)31回歸分析時的假定:(1)Y變數(shù)是隨機(jī)變數(shù),而X變數(shù)則是沒有誤差的固定變數(shù),至少和Y變數(shù)比較起來X的誤差小到可以忽略。(2)在任一X上都存在著一個Y總體(可稱為條件總體),它是作正態(tài)分布的,其平均數(shù)是X的線性函數(shù):(9·9)

回歸分析時的假定:(9·9)32

的樣本估計值,與X的關(guān)系就是線性回歸方程(9·1)。(3)所有的Y總體都具有共同的方差,而直線回歸總體具有。試驗(yàn)所得的一組觀察值(xi,yi

)只是中的一個隨機(jī)樣本。(4)隨機(jī)誤差相互獨(dú)立,并作正態(tài)分布,具有。

33二、直線回歸的假設(shè)測驗(yàn)和區(qū)間估計(一)直線回歸的假設(shè)測驗(yàn)1.回歸關(guān)系的假設(shè)測驗(yàn)(1)t測驗(yàn)H0:=0對HA:

(9·10)

二、直線回歸的假設(shè)測驗(yàn)和區(qū)間估計(9·10)34

遵循的t分布,故由t值即可知道樣本回歸系數(shù)b來自=0總體的概率大?。?)F測驗(yàn)當(dāng)僅以表示y資料時(不考慮x的影響),y變數(shù)具有平方和SSy和自由度當(dāng)以表示y資料時(考慮x的影響),則SSy將分解成兩個部分,即:(9·11)

35將記作U

回歸和離回歸的方差比遵循的F分布因?yàn)榈靡驗(yàn)?6(二)直線回歸的區(qū)間估計1.直線回歸的抽樣誤差在直線回歸總體中抽取若干個樣本時,由于,各樣本的a、b值都有誤差。因此,由=a+bx給出的點(diǎn)估計的精確性,決定于和a、b的誤差大小。比較科學(xué)的方法應(yīng)是考慮到誤差的大小和坐標(biāo)點(diǎn)的離散程度,給出一個區(qū)間估計,即給出對其總體的、、等的置信區(qū)間。

(二)直線回歸的區(qū)間估計37

2.回歸截距的置信區(qū)間

由(9·2),樣本回歸截距a,而和b的誤差方差分別為:。故根據(jù)誤差合成原理,a的標(biāo)準(zhǔn)誤為:由是遵循的t分布的??傮w回歸截距有95%可靠度的置信區(qū)間為:

[L1=a-t0.05,L2=a+t0.05

]

(9·17)(9·18)2.回歸截距的置信區(qū)間(9·17)(9·18)38

3.回歸系數(shù)的置信區(qū)間

由(9·11)可推得總體回歸系數(shù)的95%可靠度的置信區(qū)間為:[L1=b-t0.05,L2=b+t0.05]

4.條件總體平均數(shù)的置信區(qū)間

由,故的標(biāo)準(zhǔn)誤為:條件總體平均數(shù)

的95%置信區(qū)間為:

[L1=-t0.05,L2=+t0.05](9·21)

(9·20)(9·19)

3.回歸系數(shù)的置信區(qū)間(9·20)(9·19)395.條件總體觀察值Y的預(yù)測區(qū)間

將(9·4)代入(9·8)

yi=

+ei,

(9·22)5.條件總體觀察值Y的預(yù)測區(qū)間(9·22)40保證概率為0.95的Y或y的預(yù)測區(qū)間為:

[L1=-t0.05,L2=+t0.05](9·23)

6.置信區(qū)間和預(yù)測區(qū)間的圖示

首先取若干個等距的x值(x取值愈密,作圖愈準(zhǔn)確),算得與其相應(yīng)的、、和、的值;然后再由和算得各x上的L1和L2,并標(biāo)于圖上;最后將各個L1和L2分別連成曲線即可。

保證概率為0.95的Y或y的預(yù)測區(qū)間為:41

[例9.10]試制作例9.1資料的y估計值包括和y在內(nèi)有95%可靠度的置信區(qū)間圖。表9.6例9.1資料的置信區(qū)間和y的預(yù)測區(qū)間的計算(2)(3)(4)(6)(7)(8)[,(1)x的95%置信區(qū)間計算y的95%預(yù)測區(qū)間計算(5)[L1,L2]]3032343637384042444615.613.411.29.07.96.84.62.40.2-2.02.211.751.371.131.091.121.351.722.172.665.24.13.22.72.62.63.24.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.33.952.723.533.463.433.463.533.693.924.219.38.88.38.28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.911.19.57.9[例9.10]試制作例9.1資料的y估計值包括和y在內(nèi)42

一代三化螟盛發(fā)期估計及其95%置信限

畫出的圖像,依次標(biāo)出(x,L1)和(x,L2)坐標(biāo)點(diǎn),再連接各(x,L1)得線,連接各(x,L2)得線。連接各(x,L2)得線。和所夾的區(qū)間即包括在內(nèi)有95%可靠度的置信區(qū)間。

稱(x,)的連線,(x,)的連線。其所夾的區(qū)間即為y的95%的預(yù)測區(qū)間或預(yù)測帶。

3月下至4月中旬平均溫度累積值例9.1資料的y估計值及其95%置信帶

43第三節(jié)一元線性相關(guān)分析一、相關(guān)系數(shù)和決定系數(shù)二、相關(guān)系數(shù)的假設(shè)測驗(yàn)三、直線回歸和相關(guān)的應(yīng)用要點(diǎn)第三節(jié)一元線性相關(guān)分析一、相關(guān)系數(shù)和決定系數(shù)44一、相關(guān)系數(shù)和決定系數(shù)(一)相關(guān)系數(shù)(X,Y)總體沒有相關(guān),則落在象限Ⅰ、Ⅱ、Ⅲ、Ⅳ的點(diǎn)是均勻分散的,因而正負(fù)相消,=0。

一、相關(guān)系數(shù)和決定系數(shù)(一)相關(guān)系數(shù)45當(dāng)(X,Y)總體呈正相關(guān)時,落在象限Ⅰ、Ⅲ的點(diǎn)一定比落在象限Ⅱ、Ⅳ的多,故一定為正;同時落在象限Ⅰ、Ⅲ的點(diǎn)所占的比率愈大,此正值也愈大。

一元回歸及相關(guān)分析課件46當(dāng)(X,Y)總體呈負(fù)相關(guān)時,則落在象限Ⅱ、Ⅳ的點(diǎn)一定比落在象限Ⅰ、Ⅲ的為多,故一定為負(fù);且落在象限Ⅱ、Ⅳ的點(diǎn)所占的比率愈大,此負(fù)值的絕對值也愈大。

一元回歸及相關(guān)分析課件47的值可用來度量兩個變數(shù)直線相關(guān)的相關(guān)程度和性質(zhì)。但是,X和Y的變異程度、所取單位及N的大小都會影響其大小。這些因素的影響是可以消去的。方法就是將離均差轉(zhuǎn)換成以各自的標(biāo)準(zhǔn)差為單位,使成為標(biāo)準(zhǔn)化離差,再以N除之??啥x雙變數(shù)總體的相關(guān)系數(shù)為:

一元回歸及相關(guān)分析課件48

(9·33)(9·33)的已與兩個變數(shù)的變異程度、單位和N大小都沒有關(guān)系,是一個不帶單位的純數(shù),因而可用來比較不同雙變數(shù)總體的相關(guān)程度和性質(zhì)。相關(guān)系數(shù)是兩個變數(shù)標(biāo)準(zhǔn)化離差的乘積之和的平均數(shù)。

49樣本的相關(guān)系數(shù)r

(9·34)因?yàn)椋涸诨貧w分析時分成了兩個部分:一部分是離回歸平方和Q,另一部分是回歸平方和U=(SP)2/SSx。因此,又可有定義:樣本的相關(guān)系數(shù)r50r的取值區(qū)間是[-1,1]。雙變數(shù)的相關(guān)程度決定于|r|,|r|越接近于1,相關(guān)越密切;越接近于0,越可能無相關(guān)。

r的顯著與否還和自由度有關(guān),越大,受抽樣誤差的影響越小,r達(dá)到顯著水平的值就較小。正的r值表示正相關(guān),負(fù)的r值表示負(fù)相關(guān)。而相關(guān)系數(shù)r的正或負(fù)和回歸系數(shù)b是保持一致。r的取值區(qū)間是[-1,1]。雙變數(shù)的相關(guān)程度決定于51(二)決定系數(shù)決定系數(shù)(determinationcoefficient)定義為由x不同而引起的y的平方和占y總平方和SSy=的比率;也可定義為由y不同而引起的x的平方和占x總平方和SSx=的比率,其值為:

(9·35)

(二)決定系數(shù)決定系數(shù)(determinationc52所以決定系數(shù)即相關(guān)系數(shù)r的平方值。決定系數(shù)和相關(guān)系數(shù)的區(qū)別在于:①除掉|r|=1和0的情況外,r2總是小于|r|。這就可以防止對相關(guān)系數(shù)所表示的相關(guān)程度作夸張的解釋。例如,r=0.5,只是說明由x的不同而引起的y變異(或由y的不同而引起的x變異)平方和僅占y總變異(或x總變異)所以決定系數(shù)即相關(guān)系數(shù)r的平方值。53平方和的r2=0.25,即25%,而不是50%。②

r是可正可負(fù)的,而r2則一律取正值,其取值區(qū)間為[0,1]。因此,在相關(guān)分析由r的正或負(fù)表示相關(guān)的性質(zhì),由r2的大小表示相關(guān)的程度。(三)相關(guān)系數(shù)和決定系數(shù)的計算平方和的r2=0.25,即25%,而不是50%。54二、相關(guān)系數(shù)的假設(shè)測驗(yàn)

(一)的假設(shè)測驗(yàn)測驗(yàn)一個樣本相關(guān)系數(shù)r所來自的總體相關(guān)系數(shù)是否為0,所作的假設(shè)為H0:對HA:≠0。在的總體中抽樣,r的分布隨樣本容量n的不同而不同。r的抽樣誤差:(9·36)二、相關(guān)系數(shù)的假設(shè)測驗(yàn)

(一)的假設(shè)測55當(dāng)時:或

(9·37)此t值遵循的t分布,由之可測驗(yàn)H0:。對于同一資料,線性回歸的顯著性等價于線性相關(guān)的顯著性。將(9·37)移項,即可得到自由度和顯著水平一定時的臨界r值:

當(dāng)時:56三、直線回歸和相關(guān)的應(yīng)用要點(diǎn)(1)回歸和相關(guān)分析要有學(xué)科專業(yè)知識作指導(dǎo)。(2)要嚴(yán)格控制研究對象(X和Y)以外的有關(guān)因素,即要在X和Y的變化過程中盡量使其它因素保持穩(wěn)定一致。(3)直線回歸和相關(guān)分析結(jié)果不顯著,并不意味著X和Y沒有關(guān)系,而只說明X和Y沒有顯著的線性關(guān)系,它并不能排除兩變數(shù)間存在曲線關(guān)系的可能性。(4)一個顯著的r或b并不代表X和Y的關(guān)系就一定三、直線回歸和相關(guān)的應(yīng)用要點(diǎn)57是線性的,因?yàn)樗⒉慌懦饽軌蚋玫孛枋鯴和Y的各種曲線的存在。(5)在X和Y的一定區(qū)間內(nèi),用線性關(guān)系作近似描述是允許的,它的精確度至少要比僅用描述y變數(shù)有顯著提高。(6)一個顯著的相關(guān)或回歸并不一定具有實(shí)踐上的預(yù)測意義。

(7)為了提高回歸和相關(guān)分析的準(zhǔn)確性,兩個變數(shù)的樣本容量n(觀察值對數(shù))要盡可能大一些,至少應(yīng)有5對以上。

是線性的,因?yàn)樗⒉慌懦饽軌蚋玫孛枋鯴和Y的各種曲線的58第七章一元回歸及相關(guān)分析第一節(jié)回歸和相關(guān)的概念第二節(jié)一元線性回歸分析第三節(jié)一元線性相關(guān)分析第七章一元回歸及相關(guān)分析第一節(jié)回歸和相關(guān)的概念59引言

這一章研究的對象:由一個變數(shù)兩個或多個變數(shù),因?yàn)樵趯?shí)際生產(chǎn)實(shí)踐和科學(xué)實(shí)驗(yàn)中所要研究的變數(shù)往往不止一個,例如:研究溫度高低和作物發(fā)育進(jìn)度快慢的關(guān)系,就有溫度和發(fā)育進(jìn)度兩個變數(shù);研究每畝穗數(shù)、每穗粒數(shù)和每畝產(chǎn)量的關(guān)系,就有穗數(shù)、粒數(shù)和產(chǎn)量三個變數(shù)。引言60第一節(jié)回歸和相關(guān)的概念1.函數(shù)關(guān)系與統(tǒng)計關(guān)系2.自變數(shù)與依變數(shù)3.回歸分析和相關(guān)分析4.兩個變數(shù)資料的散點(diǎn)圖第一節(jié)回歸和相關(guān)的概念1.函數(shù)關(guān)系與統(tǒng)計關(guān)系61

函數(shù)關(guān)系有精確的數(shù)學(xué)表達(dá)式(確定性的關(guān)系)直線回歸分析一元回歸分析變量間的關(guān)系因果關(guān)系曲線回歸分析(回歸分析)多元回歸分析多元線性回歸分析統(tǒng)計關(guān)系 多元非線性回歸分析(非確定性的關(guān)系)簡單相關(guān)分析——直線相關(guān)分析相關(guān)關(guān)系復(fù)相關(guān)分析(相關(guān)分析)多元相關(guān)分析偏相關(guān)分析

62函數(shù)關(guān)系是一種確定性的關(guān)系,例如圓面積與半徑的關(guān)系為。其不包含誤差的干擾。統(tǒng)計關(guān)系是一種非確定性的關(guān)系。例如,作物的產(chǎn)量與施肥量的關(guān)系,兩類變數(shù)受誤差的干擾表現(xiàn)為統(tǒng)計關(guān)系。函數(shù)關(guān)系是一種確定性的關(guān)系,例如圓面積與半徑的關(guān)系為63因果關(guān)系:兩個變數(shù)間的關(guān)系若具有原因和反應(yīng)(結(jié)果)的性質(zhì)。相關(guān)關(guān)系:呈現(xiàn)一種共同變化的特點(diǎn),則稱這兩個變數(shù)間存在?;貧w分析:計算回歸方程為基礎(chǔ)的統(tǒng)計分析方法。因果關(guān)系:兩個變數(shù)間的關(guān)系若具有原因和反應(yīng)(結(jié)果)的性質(zhì)。64為Y依X的回歸方程(regressionequationofYonX)。相關(guān)分析:計算相關(guān)系數(shù)為基礎(chǔ)的統(tǒng)計分析方法。計算表示Y和X相關(guān)密切程度的統(tǒng)計數(shù),并測驗(yàn)其顯著性。這個統(tǒng)計數(shù)在兩個變數(shù)為直線相關(guān)時稱為相關(guān)系數(shù)(correlationcoefficient),記為r;在多元相關(guān)時稱為復(fù)相關(guān)系數(shù)(multiplecorrelation),記作Ry·12…m;在兩個變數(shù)曲線相關(guān)時稱為相關(guān)指數(shù)(correlationindex),記作R。為Y依X的回歸方程(regres65一般規(guī)則:當(dāng)兩個變數(shù)中Y含有試驗(yàn)誤差而X不含試驗(yàn)誤差時著重進(jìn)行回歸分析;而當(dāng)Y和X均含有試驗(yàn)誤差時則著重去進(jìn)行相關(guān)分析。4.兩個變數(shù)資料的散點(diǎn)圖對具有統(tǒng)計關(guān)系的兩個變數(shù)的資料進(jìn)行初步考察的簡便而有效的方法,是將這兩個變數(shù)的n對觀察值(x1,y1)、(x2,y2)、…、(xn,yn)分別以坐標(biāo)點(diǎn)的形式標(biāo)記于同一直角坐標(biāo)平面上,獲得散點(diǎn)圖(scatterdiagram)。

一般規(guī)則:66根據(jù)散點(diǎn)圖可初步判定雙變數(shù)X和Y間的關(guān)系,包括:①X和Y相關(guān)的性質(zhì)(正或負(fù))和密切程度;②X和Y的關(guān)系是直線型的還是非直線型的;③是否有一些特殊的點(diǎn)表示著其他因素的干擾等。例如圖9.1是水稻方面的3幅散點(diǎn)圖,圖9.1A是單株的生物產(chǎn)量(X)和稻谷產(chǎn)量(Y),圖9.1B是每平方米土地上的總穎花數(shù)(X)和結(jié)實(shí)率(Y),圖9.1C是最高葉面積指數(shù)(X)和每畝稻谷產(chǎn)量(Y)。從中可以看出:①圖9.1A和9.1B都是直線型的,但方向根據(jù)散點(diǎn)圖可初步判定雙變數(shù)X和Y間的關(guān)系,包括:①X和67相反;前者Y隨X的增大而增大,表示兩個變數(shù)的關(guān)系是正的,后者Y隨X的增大而減小,表示關(guān)系是負(fù)的。②圖9.1A的各個點(diǎn)幾乎都落在一直線上,圖9.1B則較為分散;因此,圖9.1A中X和Y相關(guān)的密切程度必高于圖9.1B。③圖9.1C中X和Y的關(guān)系是非直線型的;大約在x≤(6—7)時,Y隨X的增大而增大,而當(dāng)x>(6—7)時,Y隨X的增大而減小。相反;前者Y隨X的增大而增大,表示兩個變數(shù)的關(guān)系是正68x,生物產(chǎn)量(g)

水稻單株生物產(chǎn)量與稻谷產(chǎn)量的散點(diǎn)圖

x,生物產(chǎn)量(g)

水稻單株生物產(chǎn)量與稻谷產(chǎn)量的散點(diǎn)圖69x,每m2穎花數(shù)(萬)

水稻每m2穎花數(shù)和結(jié)實(shí)率的散點(diǎn)圖x,每m2穎花數(shù)(萬)

水稻每m2穎花數(shù)和結(jié)實(shí)率的散點(diǎn)圖70x,最高葉面積指數(shù)

水稻最高葉面積指數(shù)和畝產(chǎn)量的散點(diǎn)圖x,最高葉面積指數(shù)

水稻最高葉面積指數(shù)和畝產(chǎn)量的散點(diǎn)圖71第二節(jié)一元線性回歸分析一、直線回歸方程二、直線回歸的假設(shè)測驗(yàn)和區(qū)間估計第二節(jié)一元線性回歸分析一、直線回歸方程72一、直線回歸方程(一)直線回歸方程式

(9·1)回歸截距(regressionintercept):a是x=0時的值,即回歸直線在y軸上的截距?;貧w系數(shù)(regressioncoefficient):b是x每增加一個單位數(shù)時,平均地將要增加(b>0時)或減少(b<0時)的單位數(shù)。一、直線回歸方程73

時,分別對a和b求偏導(dǎo)數(shù)并令其為0,可得正規(guī)方程組(normalequations):

(9·2)

74

(9·3)(9·4)將(9·2)代入(9·1)可得:(9·3)(9·4)將(9·2)代入(9·1)可得:75

y

②③

①a>0,b<0

②a>0,b>0③a<0,b>0x直線回歸方程的圖象由(9·4)可看到:①當(dāng)x以離均差(x-)為單位時,回歸直線的位置僅決定于

和b

;②當(dāng)將坐標(biāo)軸平移到以(,)為原點(diǎn)時,回歸直線的走向僅決定于b,所以一般又稱b為回歸斜率(regressionslope)。

一元回歸及相關(guān)分析課件76(二)直線回歸方程的計算[例9.1]一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關(guān)。江蘇武進(jìn)連續(xù)9年測定3月下旬至4月中旬旬平均溫度累積值(x,旬·度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關(guān)系,得結(jié)果于表9.1。試計算其直線回歸方程。首先由表9.1算得回歸分析所必須的6個一級數(shù)據(jù)(即由觀察值直接算得的數(shù)據(jù)):(二)直線回歸方程的計算77

x累積溫y盛發(fā)期35.534.131.740.336.840.231.739.244.212169273139-1表9.1累積溫和一代三化螟盛發(fā)期的關(guān)系x累積溫y盛發(fā)期35.512表9.1累積溫和一代三化78

n=9=35.5+34.1+…+44.2=333.7=35.52+34.12+…+44.22=12517.49=12+16+…+(-1)=70=122+162+…+(-1)2=794=(35.5×12)+(34.1×16)+…+[44.2×(-1)]=2436.4然后,由一級數(shù)據(jù)算得5個二級數(shù)據(jù):n=9=35.5+34.1+…+44.2=333.79

SSx==12517.49-(333.7)2/9

=144.6356=794-(70)2/9

=249.55562436.4-(333.7×70)/9=-159.0444333.7/9=37.077870/9=7.7778*SSy=SP=因而有:

b=-159.0444/144.6356=-1.0996[天/(旬·度)]a==7.7778-(-1.0996×37.0778)=48.5485(天)SSx==12517.49-(333.7)2/9=180故得表9.1資料的回歸方程為:上述方程中回歸系數(shù)和回歸截距的意義為:當(dāng)3月下旬至4月中旬的積溫(x)每提高1旬·度時,一代三化螟的盛發(fā)期平均將提早1.1天;若積溫為0,則一代三化螟的盛發(fā)期將在6月27—28日(x=0時,=48.5;因y是以5月10日為0,故48.5為6月27—28日)。由于x變數(shù)的實(shí)測區(qū)間為[31.7,44.2],當(dāng)x<31.7或>44.2時,y的變化是否還符合=48.5-1.1x的規(guī)律,觀察數(shù)據(jù)中未曾得到任何信息。=48.5485-1.0996x故得表9.1資料的回歸方程為:=48.5485-1.099681所以,在應(yīng)用=48.5-1.1x于預(yù)測時,需限定x的區(qū)間為[31.7,44.2];如要在x<31.7或>44.2的區(qū)間外延,則必須有新的依據(jù)。

所以,在應(yīng)用=48.5-1.1x于預(yù)測時,需限定x的區(qū)間為[82(三)直線回歸方程的圖示直線回歸圖包括回歸直線的圖象和散點(diǎn)圖,它可以醒目地表示x和y的數(shù)量關(guān)系。方法:制作直線回歸圖時,首先以x為橫坐標(biāo),以y為縱坐標(biāo)構(gòu)建直角坐標(biāo)系(縱、橫坐標(biāo)皆需標(biāo)明名稱和單位);然后取x坐標(biāo)上的一個小值x1代入回歸方程得,取一個大值x2代入回歸方程得,連接坐標(biāo)點(diǎn)(x1,)和(x2,)即成一條回歸直線。如例9.1資料,以x1=31.7代入回歸方程得=13.69;(三)直線回歸方程的圖示83以x2=44.2代入回歸方程得=-0.05。在圖9.3上確定(31.7,13.69)和(44.2,-0.05)這兩個點(diǎn),再連接之,即為=48.5485-1.0996x的直線圖象。注意:此直線必通過點(diǎn)(,),它可作為制圖是否正確的核對。最后,將實(shí)測的各對(xi,yi)數(shù)值也用坐標(biāo)點(diǎn)標(biāo)于圖9.3上。以x2=44.2代入回歸方程得=-0.05。在圖9.384

x,3月下旬至4月中旬旬平均溫度累積值圖旬平均溫度累積值和一代三化螟盛發(fā)期的關(guān)系

85圖9.3的回歸直線是9個觀察坐標(biāo)點(diǎn)的代表,它不僅表示了例9.1資料的基本趨勢,也便于預(yù)測。如某年3月下旬至4月中旬的積溫為40旬·度,則在圖9.3上可查到一代三化螟盛發(fā)期的點(diǎn)估計值在5月14—15日,這和將x=40代入原方程得到=48.5485-(1.0996×40)=4.6是一致的。因?yàn)榛貧w直線是綜合9年結(jié)果而得出的一般趨勢,所以其代表性比任何一個實(shí)際的坐標(biāo)點(diǎn)都好。當(dāng)然,這種估計仍然有隨機(jī)誤差,下文再作討論。

圖9.3的回歸直線是9個觀察坐標(biāo)點(diǎn)的代表,它不僅表示了例9.86(四)直線回歸的估計標(biāo)準(zhǔn)誤Q就是誤差的一種度量,稱為離回歸平方和(sumofsquaresduetodeviationfromregression)或剩余平方和。建立回歸方程時用了a和b兩個統(tǒng)計數(shù),故Q的自由度

(四)直線回歸的估計標(biāo)準(zhǔn)誤87得

=SSy-b(SP)=SSy-b2(SSx)=∑y2-a∑y-b∑xy(9·5)(9·6A)(9·6B)(9·6C)(9·6D)得(9·5)(9·6A)(9·6B)(9·6C)88(五)直線回歸的數(shù)學(xué)模型和基本假定直線回歸模型中,Y總體的每一個值由以下三部分組成:①回歸截距,②回歸系數(shù),③Y變數(shù)的隨機(jī)誤差??傮w直線回歸的數(shù)學(xué)模型:~N(0,)。相應(yīng)的樣本線性組成為:(9·7)(9·8)(五)直線回歸的數(shù)學(xué)模型和基本假定(9·7)(9·8)89回歸分析時的假定:(1)Y變數(shù)是隨機(jī)變數(shù),而X變數(shù)則是沒有誤差的固定變數(shù),至少和Y變數(shù)比較起來X的誤差小到可以忽略。(2)在任一X上都存在著一個Y總體(可稱為條件總體),它是作正態(tài)分布的,其平均數(shù)是X的線性函數(shù):(9·9)

回歸分析時的假定:(9·9)90

的樣本估計值,與X的關(guān)系就是線性回歸方程(9·1)。(3)所有的Y總體都具有共同的方差,而直線回歸總體具有。試驗(yàn)所得的一組觀察值(xi,yi

)只是中的一個隨機(jī)樣本。(4)隨機(jī)誤差相互獨(dú)立,并作正態(tài)分布,具有。

91二、直線回歸的假設(shè)測驗(yàn)和區(qū)間估計(一)直線回歸的假設(shè)測驗(yàn)1.回歸關(guān)系的假設(shè)測驗(yàn)(1)t測驗(yàn)H0:=0對HA:

(9·10)

二、直線回歸的假設(shè)測驗(yàn)和區(qū)間估計(9·10)92

遵循的t分布,故由t值即可知道樣本回歸系數(shù)b來自=0總體的概率大小(2)F測驗(yàn)當(dāng)僅以表示y資料時(不考慮x的影響),y變數(shù)具有平方和SSy和自由度當(dāng)以表示y資料時(考慮x的影響),則SSy將分解成兩個部分,即:(9·11)

93將記作U

回歸和離回歸的方差比遵循的F分布因?yàn)榈靡驗(yàn)?4(二)直線回歸的區(qū)間估計1.直線回歸的抽樣誤差在直線回歸總體中抽取若干個樣本時,由于,各樣本的a、b值都有誤差。因此,由=a+bx給出的點(diǎn)估計的精確性,決定于和a、b的誤差大小。比較科學(xué)的方法應(yīng)是考慮到誤差的大小和坐標(biāo)點(diǎn)的離散程度,給出一個區(qū)間估計,即給出對其總體的、、等的置信區(qū)間。

(二)直線回歸的區(qū)間估計95

2.回歸截距的置信區(qū)間

由(9·2),樣本回歸截距a,而和b的誤差方差分別為:。故根據(jù)誤差合成原理,a的標(biāo)準(zhǔn)誤為:由是遵循的t分布的??傮w回歸截距有95%可靠度的置信區(qū)間為:

[L1=a-t0.05,L2=a+t0.05

]

(9·17)(9·18)2.回歸截距的置信區(qū)間(9·17)(9·18)96

3.回歸系數(shù)的置信區(qū)間

由(9·11)可推得總體回歸系數(shù)的95%可靠度的置信區(qū)間為:[L1=b-t0.05,L2=b+t0.05]

4.條件總體平均數(shù)的置信區(qū)間

由,故的標(biāo)準(zhǔn)誤為:條件總體平均數(shù)

的95%置信區(qū)間為:

[L1=-t0.05,L2=+t0.05](9·21)

(9·20)(9·19)

3.回歸系數(shù)的置信區(qū)間(9·20)(9·19)975.條件總體觀察值Y的預(yù)測區(qū)間

將(9·4)代入(9·8)

yi=

+ei,

(9·22)5.條件總體觀察值Y的預(yù)測區(qū)間(9·22)98保證概率為0.95的Y或y的預(yù)測區(qū)間為:

[L1=-t0.05,L2=+t0.05](9·23)

6.置信區(qū)間和預(yù)測區(qū)間的圖示

首先取若干個等距的x值(x取值愈密,作圖愈準(zhǔn)確),算得與其相應(yīng)的、、和、的值;然后再由和算得各x上的L1和L2,并標(biāo)于圖上;最后將各個L1和L2分別連成曲線即可。

保證概率為0.95的Y或y的預(yù)測區(qū)間為:99

[例9.10]試制作例9.1資料的y估計值包括和y在內(nèi)有95%可靠度的置信區(qū)間圖。表9.6例9.1資料的置信區(qū)間和y的預(yù)測區(qū)間的計算(2)(3)(4)(6)(7)(8)[,(1)x的95%置信區(qū)間計算y的95%預(yù)測區(qū)間計算(5)[L1,L2]]3032343637384042444615.613.411.29.07.96.84.62.40.2-2.02.211.751.371.131.091.121.351.722.172.665.24.13.22.72.62.63.24.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.33.952.723.533.463.433.463.533.693.924.219.38.88.38.28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.911.19.57.9[例9.10]試制作例9.1資料的y估計值包括和y在內(nèi)100

一代三化螟盛發(fā)期估計及其95%置信限

畫出的圖像,依次標(biāo)出(x,L1)和(x,L2)坐標(biāo)點(diǎn),再連接各(x,L1)得線,連接各(x,L2)得線。連接各(x,L2)得線。和所夾的區(qū)間即包括在內(nèi)有95%可靠度的置信區(qū)間。

稱(x,)的連線,(x,)的連線。其所夾的區(qū)間即為y的95%的預(yù)測區(qū)間或預(yù)測帶。

3月下至4月中旬平均溫度累積值例9.1資料的y估計值及其95%置信帶

101第三節(jié)一元線性相關(guān)分析一、相關(guān)系數(shù)和決定系數(shù)二、相關(guān)系數(shù)的假設(shè)測驗(yàn)三、直線回歸和相關(guān)的應(yīng)用要點(diǎn)第三節(jié)一元線性相關(guān)分析一、相關(guān)系數(shù)和決定系數(shù)102一、相關(guān)系數(shù)和決定系數(shù)(一)相關(guān)系數(shù)(X,Y)總體沒有相關(guān),則落在象限Ⅰ、Ⅱ、Ⅲ、Ⅳ的點(diǎn)是均勻分散的,因而正負(fù)相消,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論