絕密版-直線相關(guān)和直線回歸【可編輯的】課件_第1頁
絕密版-直線相關(guān)和直線回歸【可編輯的】課件_第2頁
絕密版-直線相關(guān)和直線回歸【可編輯的】課件_第3頁
絕密版-直線相關(guān)和直線回歸【可編輯的】課件_第4頁
絕密版-直線相關(guān)和直線回歸【可編輯的】課件_第5頁
已閱讀5頁,還剩135頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第十二章雙變量關(guān)聯(lián)性分析第十二章雙變量關(guān)聯(lián)性分析1

概述

變量間關(guān)系問題

兩個關(guān)系肺活量~體重、藥物劑量~療效等。年齡~身高、年齡~血壓、體溫~脈膊、互依關(guān)系:兩變量間的彼此關(guān)系

——相關(guān)分析依存關(guān)系:一變量隨另一變量變化而變化

——回歸分析概述變量間關(guān)系問題兩個關(guān)系肺活量~體重、藥物劑量~療2

主要內(nèi)容直線相關(guān)與回歸的概念直線回歸方程的建立相關(guān)系數(shù)與回歸系數(shù)的假設(shè)檢驗直線相關(guān)與回歸的區(qū)別與聯(lián)系直線相關(guān)與回歸的應(yīng)用主要內(nèi)容直線相關(guān)與回歸的概念直線回歸方程的建立相3

直線相關(guān)

(linearcorrelation)

又稱簡單相關(guān)或Pearson相關(guān)分析,用于研究兩個數(shù)值變量間是否存在線性相關(guān)關(guān)系統(tǒng)計分析方法。一、直線相關(guān)的概念直線相關(guān)(linearcorrelat4兩種事物或現(xiàn)象之間的相關(guān)關(guān)系基本上有下列四種情況:正相關(guān)負(fù)相關(guān)無關(guān)(零相關(guān))非線性相關(guān)二、相關(guān)的類型兩種事物或現(xiàn)象之間的相關(guān)關(guān)系基本上有下列四5正相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的增加而遞增,如圖11.6(a);若X、Y呈正比,那么散點(diǎn)基本上在一直線上,稱為完全正相關(guān)如圖11.6(b);負(fù)相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的增加而遞減,如圖11.6(c);若X、Y呈反比,那么散點(diǎn)基本上在一直線上,稱為完全負(fù)相關(guān)如圖11.6(d);相關(guān)性質(zhì)可由散點(diǎn)圖直觀的說明

正相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的負(fù)相關(guān):一種6

無關(guān)(零相關(guān)):

若變量x無論增加或減少,變量y不受到影響,如圖11.6(e);

非線性相關(guān):

變量x

與y的增減在坐標(biāo)上排列不呈直線性分布如弧形、拋物線形、S形等如圖11.6(f)反映兩變量間的相關(guān)關(guān)系的統(tǒng)計方法可用相關(guān)圖和相關(guān)系數(shù)兩種方法表示無關(guān)(零相關(guān)):若變量x無論增加或減少,變量y7三、直線相關(guān)的應(yīng)用條件又稱積差相關(guān)系數(shù)或Pearson相關(guān)系數(shù),說明具有直線關(guān)系的兩個變量間相關(guān)關(guān)系的密切程度與相關(guān)方向的指標(biāo)。要求兩個變量均呈正態(tài)分布(雙變量正態(tài)分布)四、相關(guān)系數(shù)(correlationcoefficient)及其意義r

表示樣本相關(guān)系數(shù),ρ表示總體相關(guān)系數(shù)。三、直線相關(guān)的應(yīng)用條件又稱積差相關(guān)系數(shù)或Pearso8相關(guān)系數(shù)(r)

意義:描述兩個變量直線相關(guān)的方向與密切程度的指標(biāo)。表示方法:-1≤

r

≤1

(無單位)

r值為正——正相關(guān)r值為負(fù)——負(fù)相關(guān)|r|=1——完全相關(guān)|r|=0——零相關(guān)相關(guān)系數(shù)(r)表示方法:-1≤r≤1(無單位)9五、直線相關(guān)分析的基本步驟繪制散點(diǎn)圖計算相關(guān)系數(shù)

相關(guān)系數(shù)的假設(shè)檢驗?zāi)康模孩俪醪搅私鈨蓚€變量間有無直線關(guān)系②有無可疑的異常點(diǎn)t-test,r-test五、直線相關(guān)分析的基本步驟繪制散點(diǎn)圖計算相關(guān)系數(shù)相關(guān)10P170例12-1表12-12000年某地16名7歲男孩體重與胸圍資料編號12345678910111213141516體重24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0

(Kg)胸圍61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0(cm)P170例12-1表12-12000年某地16名7歲男孩11

繪制散點(diǎn)圖:初步了解兩個變量間的相關(guān)關(guān)系2000年某地16名7歲男孩體重與胸圍散點(diǎn)圖繪制散點(diǎn)圖:初步了解兩個變量間的相關(guān)關(guān)系2000年某地1612

計算相關(guān)系數(shù)其中:公式

為X和Y的離均差積和為X的離均差平方和為Y的離均差平方和為x,y的均數(shù)計算相關(guān)系數(shù)其中:公式為X和Y的離均差積和為X的離均13絕密版-直線相關(guān)和直線回歸【可編輯的】課件14

r的計算結(jié)果說明了兩個變量X與Y之間關(guān)聯(lián)的

密切程度(絕對值大?。┡c關(guān)聯(lián)的性質(zhì)(正負(fù)號)r的計算結(jié)果說明了兩個變量X與Y之間關(guān)聯(lián)的15

從以上計算結(jié)果我們能否得出結(jié)論:

該地7歲男孩體重與胸圍之間呈正相關(guān)系,相關(guān)系數(shù)是0.8343。為什么?

問題?

本例中的相關(guān)系數(shù)r=0.8343,說明了含16例7歲男孩體重與胸圍之間存在相關(guān)關(guān)系。但是,這16例只是總體中的一個樣本,由此得到的相關(guān)系數(shù)會存在抽樣誤差。因為,當(dāng)總體相關(guān)系數(shù)()為零時,由于抽樣誤差,從總體抽出的16例,其r可能不等于零。從以上計算結(jié)果我們能否得出結(jié)論:

該地7歲男孩體重16總體相關(guān)系數(shù)的假設(shè)檢驗檢驗r是否來自總體相關(guān)系數(shù)為零的總體

(即ρ=0)目的:r≠0的兩種可能

①X、Y間確實(shí)有相關(guān)關(guān)系(ρ≠0)②抽樣誤差的影響(ρ=0)總體相關(guān)系數(shù)的假設(shè)檢驗檢驗r是否來自總體相關(guān)系數(shù)為零目17t檢驗

r檢驗:方法:r的標(biāo)準(zhǔn)誤r界值表t檢驗r檢驗:方法:r的標(biāo)準(zhǔn)誤r界值表18

相關(guān)關(guān)系密切程度的判斷

低度相關(guān)

中度相關(guān)

高度相關(guān)

一般說來,當(dāng)樣本量較大(n>100),并對r進(jìn)行假設(shè)檢驗,有統(tǒng)計學(xué)意義時(即),r絕對值越大,說明兩個變量之間關(guān)聯(lián)程度越強(qiáng)。相關(guān)關(guān)系密切程度的判斷低度相關(guān)中度相關(guān)高度相關(guān)19六、相關(guān)分析中應(yīng)用注意的問題

不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線相關(guān)分析資料要求兩變量x、y都應(yīng)是來自正態(tài)分布總體應(yīng)繪制散點(diǎn)圖,當(dāng)觀察點(diǎn)的分布有直線趨勢時,才適宜作直線相關(guān)分析。不能只根據(jù)r的絕對值的大小來判斷相關(guān)的密切程度若r很小,即使t檢驗有統(tǒng)計學(xué)意義,但專業(yè)上意義不大。相關(guān)關(guān)系可能是因果關(guān)系,

也可能是伴隨關(guān)系

相關(guān)分析主要為進(jìn)一步的研究提供線索。六、相關(guān)分析中應(yīng)用注意的問題不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線20在例12-1中我們討論了7歲男孩體重與胸圍之間的關(guān)系,知道了二者之間成正相關(guān)。如果我們知道了一位7歲男孩體重,能推斷出其胸圍嗎?或其胸圍可能在什么范圍內(nèi)?體重的增加,胸圍也在增加,假如體重增加

2Kg,那么胸圍增加多少cm?

問題?在例12-1中我們討論了7歲男孩體重與胸圍如果21

直線回歸

(linearregression)

又稱簡單回歸,用于研究兩個數(shù)值變量間的依存關(guān)系,從而預(yù)測或控制未知變量的一種統(tǒng)計分析方法。一、直線回歸的概念直線回歸(linearregression)22P180例13-1

兩種變量

自變量

(independentvariable)

應(yīng)變量

(dependentvariable)

兩種關(guān)系

函數(shù)關(guān)系——函數(shù)方程:

回歸關(guān)系——回歸方程:

欲用容易測定的體重來預(yù)測和估計心臟橫徑x,y呈確定性關(guān)系x,y呈非確定性關(guān)系P180例13-1兩種變量自變量(independ2313名8歲正常男童體重與心臟橫徑散點(diǎn)圖

直線回歸是分析兩變量間線性依存變化

的數(shù)量的關(guān)系。13名8歲正常男童體重與心臟橫徑散點(diǎn)圖直線24二、直線回歸的應(yīng)用條件

要求Y變量呈正態(tài)分布,X變量可以是精確測量和控制的變量。二、直線回歸的應(yīng)用條件要求Y變量呈正態(tài)分布25三、直線回歸方程式及回歸系數(shù):為Y的估計值,讀作‘Yhat’

a

:為截距,即時的值

b

:

為樣本回歸系數(shù)(直線的斜率);其統(tǒng)計學(xué)意義是X

每增加(減)一個單位Y

平均改變b個單位直線回歸方程的一般表達(dá)式為:即X取某一定數(shù)值時相應(yīng)Y的樣本均數(shù)(也是相應(yīng)Y的點(diǎn)估計值)

a、b是決定直線的兩個系數(shù)

三、直線回歸方程式及回歸系數(shù)26

回歸系數(shù)b

和截距a

的計算

根據(jù)最小二乘法原理(該法原理可保證各實(shí)測點(diǎn)至直線的縱向距離的平方和最小)可導(dǎo)出:為X和Y的離均差積和為X

的離均差平方和其中:回歸系數(shù)b和截距a的計算根據(jù)最小二乘法原27四、直線回歸分析的基本步驟繪制散點(diǎn)圖計算回歸系數(shù)b與截距a對回歸系數(shù)b進(jìn)行假設(shè)檢驗列出回歸方程

回歸直線的繪制四、直線回歸分析的基本步驟繪制散點(diǎn)圖計算回歸系數(shù)b與28五、回歸系數(shù)的統(tǒng)計推斷

回歸系數(shù)的假設(shè)檢驗

總體回歸系數(shù)β

的估計

五、回歸系數(shù)的統(tǒng)計推斷回歸系數(shù)的假設(shè)檢驗總體回歸系數(shù)β29回歸系數(shù)的假設(shè)檢驗

假設(shè)檢驗方法:t檢驗方差分析

r檢驗代替

回歸系數(shù)的假設(shè)檢驗假設(shè)檢驗方法:t檢驗方差分析r30

其中:

Sb

為回歸系數(shù)b的標(biāo)準(zhǔn)誤

SY.X

為剩余標(biāo)準(zhǔn)差,反映扣除了X

的影響后Y的變異

t檢驗其中:Sb為回歸系數(shù)b的標(biāo)準(zhǔn)誤t31例13-1

tb

檢驗步驟

H0

β=0,即體重和心臟橫徑間無直線回歸關(guān)系

H1:β≠0,即體重和心臟橫徑間有直線回歸關(guān)系

=0.05

b=0.2041,n=13,Sb=0.03098代入公式:查t值表,t0.05/2(11)=2.201,tb=6.59>2.201,則P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,可認(rèn)為該地8歲男孩體重與心臟橫徑間直線關(guān)系存在,所求線性回歸方程成立。

例13-1tb檢驗步驟H0:β=0,即32

r檢驗代替

在實(shí)際應(yīng)用中,如果已對相關(guān)系數(shù)進(jìn)行了假設(shè)檢驗,則可代替回歸系數(shù)的假設(shè)檢驗。對于同一資料,tr=tb即如果相關(guān)系數(shù)的假設(shè)檢驗有統(tǒng)計學(xué)意義,則回歸系數(shù)檢驗也有統(tǒng)計學(xué)意義,反之亦然。相關(guān)系數(shù)的假設(shè)檢驗方法比回歸系數(shù)假設(shè)檢驗方法簡便易做r檢驗代替在實(shí)際應(yīng)用中,如果已對相關(guān)系數(shù)進(jìn)行了33總體回歸系數(shù)的區(qū)間估計像樣本均數(shù)不一定恰好等于總體均數(shù)一樣,求得樣本回歸系數(shù)b以后,利用上述對回歸系數(shù)t檢驗的公式,可以較為容易的得到總體回歸系數(shù)β的1-α雙側(cè)可信區(qū)間為:

其中:

Sb

為回歸系數(shù)b的標(biāo)準(zhǔn)誤總體回歸系數(shù)的區(qū)間估計像樣本均數(shù)不一定恰好等于總體均34

其中:

SY.X

為剩余標(biāo)準(zhǔn)差,反映扣除了

X的影響后Y的變異

為殘差平方和

其中:SY.X為剩余標(biāo)準(zhǔn)差,反映扣除了35例13.1例13.136總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間:即總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間為:0.1359cm~0.2723cm

該區(qū)間不包括0,可按相應(yīng)的水準(zhǔn)同樣得到總體回歸系數(shù)不為0的結(jié)論,即用區(qū)間估計回答相同時的假設(shè)檢驗問題。總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間:即總體回歸系數(shù)β的37

描述兩變量的依存關(guān)系

利用回歸方程進(jìn)行預(yù)測

X—預(yù)報因子Y—預(yù)報量

利用個體Y值的容許區(qū)間方法進(jìn)行計算

利用回歸方程進(jìn)行統(tǒng)計控制

利用個體Y值的容許區(qū)間方法進(jìn)行計算五、直線回歸分析的應(yīng)用描述兩變量的依存關(guān)系五、直線回歸分析的應(yīng)用38不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線回歸分析應(yīng)繪制散點(diǎn)圖,當(dāng)觀察點(diǎn)的分布有直線趨勢時,才適宜作直線回歸分析。觀察異常點(diǎn)考慮回歸分析的應(yīng)用條件直線回歸方程的適用范圍一般以自變量的取值范圍為限,不可隨意外延。六、直線回歸分析的應(yīng)用注意事項不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線回歸分析六、直線回歸分析的應(yīng)用39直線相關(guān)與直線回歸的區(qū)別與聯(lián)系

回歸要求自變量X是可以精確測量和嚴(yán)格控制的選定變量,對確定的X,應(yīng)變量Y是服從正態(tài)分布的隨機(jī)變量,只能由推算出,不能顛倒。相關(guān)要求X和Y均呈正態(tài)分布的資料。1、應(yīng)用條件不同區(qū)別直線相關(guān)與直線回歸的區(qū)別與聯(lián)系回歸要求自變量X40

相關(guān)反映兩變量的相互關(guān)系,是一種雙向變化的關(guān)系(即在兩個變量中,任何一個的變化都會引起另一個的變化)。

回歸是反映兩個變量間數(shù)量上的依存關(guān)系,只是一種由自變量估計應(yīng)變量的單向關(guān)系。3、意義不同2、用途不同研究兩變量間的相關(guān)關(guān)系用相關(guān);研究兩變量間依存變化的數(shù)量關(guān)系用回歸。區(qū)別相關(guān)反映兩變量的相互關(guān)系,是一種雙向變化3、意義不同414、r與b的意義與取值范圍均不同,越大,散點(diǎn)圖中的各散點(diǎn)越趨向于回歸直線,表明兩變量間相關(guān)密切程度越強(qiáng);

b可以是任何實(shí)數(shù),越大,即回歸直線越陡,說明當(dāng)X變化一個單位時,Y的平均變化就越大。反之也是一樣。區(qū)別4、r與b的意義與取值范圍均不同42

r與b的方向一致

r與b的假設(shè)檢驗等價對同一組數(shù)據(jù)若同時計算r與b,其正負(fù)號是一致的。對同一樣本,r和b的假設(shè)檢驗得到的t值相等(即tr=tb

)。聯(lián)系r與b的方向一致r與b的假設(shè)檢驗等價43

r與b值可相互換算聯(lián)系r與b值可相互換算聯(lián)系44

用回歸解釋相關(guān)r2

的意義:

它反應(yīng)應(yīng)變量y的總變異中,可用回歸解釋的比例,反映回歸模型擬合效果的指標(biāo)聯(lián)系r的平方即為決定系數(shù)(coefficientofdetermination)用回歸解釋相關(guān)r2的意義:它反應(yīng)應(yīng)變量y的總變異中45小結(jié)直線相關(guān)直線回歸小結(jié)直線相關(guān)461、根據(jù)樣本算得一相關(guān)系數(shù)r,經(jīng)t檢驗,P<0.01,說明r來自高度相關(guān)的相關(guān)總體()思考題是非題1、根據(jù)樣本算得一相關(guān)系數(shù)r,經(jīng)t檢驗,思考題是非題472、兩變量間有直線回歸關(guān)系存在,即可認(rèn)為兩變量間有因果關(guān)系()思考題是非題2、兩變量間有直線回歸關(guān)系存在,即可思考題是非題48思考題3、相關(guān)分析和回歸分析有何不同?3、

回歸系數(shù)b和截距a分別表示什么意義?預(yù)習(xí):第十六章、常用的統(tǒng)計圖和統(tǒng)計表思考題3、相關(guān)分析和回歸分析有何不同?3、回歸系數(shù)b49謝謝!謝謝!50相關(guān)關(guān)系示意:0<r<1-1<r<0正相關(guān)負(fù)相關(guān)-1<r<00<r<1

-1<r<0

相關(guān)關(guān)系示意:0<r<1-1<r<0正相關(guān)負(fù)51相關(guān)關(guān)系示意:r=0r=0非線性相關(guān)非線性相關(guān)相關(guān)關(guān)系示意:r=0r=0非線性相關(guān)非線性相關(guān)52相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)53相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)r=0r=0r=0零相關(guān)零相關(guān)零相關(guān)相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)r54例12-1

tr

檢驗步驟

H0:

=0,即7歲男孩體重和胸圍間無直線相關(guān)關(guān)系

H1:

≠0,即7歲男孩體重和胸圍間有直線相關(guān)關(guān)系

=0.05

r=0.8343,n=16,代入公式:查t值表,t0.05/2(14)=2.145,tr=5.6623>2.145,則P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,差異有統(tǒng)計學(xué)意義,可認(rèn)為體重和胸圍之間有正相關(guān)關(guān)系。

例12-1tr檢驗步驟H0:=0,55

查表法r=0.8343,ν=16-2=14,查r界值表(P349附表14)

r0.05(14)=0.497r=0.8343>0.497,

P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,差異有統(tǒng)計學(xué)意義,可認(rèn)為該地男孩體重和胸圍之間有正相關(guān)關(guān)系。查表法r=0.8343,ν=16-2=14,查r界值56現(xiàn)有兩個樣本:r1=0.612,ν1=7;r2=0.435,ν2=50。不能根據(jù)r1>r2就說r1比r2相關(guān)更密切。因為查相關(guān)系數(shù)界值表,樣本1得

P>0.05,樣本2得P<0.01按檢驗水準(zhǔn)α=0.05,前者可認(rèn)為無相關(guān)而后者有相關(guān),可見正確推斷有無相關(guān)必須經(jīng)過假設(shè)檢驗。例:現(xiàn)有兩個樣本:r1=0.612,ν1=57a

為截距,即x=0時的y值a(a=0)(a>0)(a<0)a為截距,即x=0時的y值a(a=0)(a>058b為回歸系數(shù),即直線的斜率(b>0)(b<0)(b=0)b個單位1個單位b=0時X與Y無直線關(guān)系

X每增加(減)一個單位,Y平均改變b個單位

b為回歸系數(shù),即直線的斜率(b>0)(b<0)(59絕密版-直線相關(guān)和直線回歸【可編輯的】課件6013名8歲正常男童體重與心臟橫徑散點(diǎn)圖

a、b

是根據(jù)最小二乘法原理(各實(shí)測點(diǎn)至直線的縱向距離的平方和最?。┣蟮谩瘛馪1P2(殘差)●●●13名8歲正常男童體重與心臟橫徑散點(diǎn)圖a、b是根據(jù)最61例13-1例13-162

在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩個值,求出相應(yīng)Y的估計值,用直線連接。

13名8歲正常男童體重與心臟橫徑散點(diǎn)圖(0,a)●●●●●P1(20,8.29)P2(26,9.52)(59.26,142.87)y=4.2121+0.2041x在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩63SAH患者第一天血清和腦脊液IL-6(pg/ml)檢測結(jié)果散點(diǎn)圖●P1(23,100.1)●P2(96,186.24)●●●●●●●y=72.96+1.18x●●●(59.26,142.87)(0,a)

在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩個值,求出相應(yīng)Y的估計值,用直線連接。

●●SAH患者第一天血清和腦脊液IL-6(pg/ml)檢測結(jié)果散64利用回歸方程進(jìn)行預(yù)測即利用回歸方程,由一個容易測量的變量值(自變量X—預(yù)報因子)推算另一個不易測得的變量值(應(yīng)變量Y—預(yù)報量)。

如由兒童年齡推算其體重,將預(yù)報因子

X

(兒童年齡)代入回歸方程后,求得值為應(yīng)變量Y

(體重)的估計值,這屬于點(diǎn)值估計;其波動范圍可求個體Y值的容許區(qū)間,即為區(qū)間估計。

利用回歸方程進(jìn)行預(yù)測即利用回歸方程,由一個容易測量65利用回歸方程進(jìn)行統(tǒng)計控制

統(tǒng)計控制是指為了滿足Y最高不超過(或最低不低于)限定的某一個數(shù)值,X應(yīng)控制在多大范圍?這是利用回歸方程進(jìn)行逆估計。如:汽車的數(shù)量與大氣中的NO2濃度呈直線回歸關(guān)系,為了控制大氣污染,可通過限制汽車的數(shù)量來實(shí)現(xiàn)。如果大氣中NO2最大允許濃度一定,則通過直線回歸方程可求出汽車的最大允許流量。利用回歸方程進(jìn)行統(tǒng)計控制統(tǒng)計控制是指為了滿足Y最66

在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩個值,求出相應(yīng)Y的估計值,用直線連接。

繪制直線回歸圖

取易讀數(shù)且離得相對較遠(yuǎn)的兩個X

值代入直線回歸方程求得兩個Y

,得兩點(diǎn)并連線即可。在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩67直線回歸是分析兩變量間線性依存變化的數(shù)量的關(guān)系。

直線回歸是分析兩變量間線性依存變化的數(shù)量的關(guān)系。

68確定性關(guān)系(函數(shù)關(guān)系):兩變量的取值完全一一對應(yīng)如:y=2r非確定性的關(guān)系(回歸關(guān)系):兩變量的取值并非完全一一對應(yīng),而是具有隨機(jī)性的一種“趨勢”

兩變量間關(guān)系如:年齡~身高、年齡~血壓、體溫~脈膊等確定性關(guān)系(函數(shù)關(guān)系):兩變量的取值完全一一對應(yīng)如:y69絕密版-直線相關(guān)和直線回歸【可編輯的】課件70第十二章雙變量關(guān)聯(lián)性分析第十二章雙變量關(guān)聯(lián)性分析71

概述

變量間關(guān)系問題

兩個關(guān)系肺活量~體重、藥物劑量~療效等。年齡~身高、年齡~血壓、體溫~脈膊、互依關(guān)系:兩變量間的彼此關(guān)系

——相關(guān)分析依存關(guān)系:一變量隨另一變量變化而變化

——回歸分析概述變量間關(guān)系問題兩個關(guān)系肺活量~體重、藥物劑量~療72

主要內(nèi)容直線相關(guān)與回歸的概念直線回歸方程的建立相關(guān)系數(shù)與回歸系數(shù)的假設(shè)檢驗直線相關(guān)與回歸的區(qū)別與聯(lián)系直線相關(guān)與回歸的應(yīng)用主要內(nèi)容直線相關(guān)與回歸的概念直線回歸方程的建立相73

直線相關(guān)

(linearcorrelation)

又稱簡單相關(guān)或Pearson相關(guān)分析,用于研究兩個數(shù)值變量間是否存在線性相關(guān)關(guān)系統(tǒng)計分析方法。一、直線相關(guān)的概念直線相關(guān)(linearcorrelat74兩種事物或現(xiàn)象之間的相關(guān)關(guān)系基本上有下列四種情況:正相關(guān)負(fù)相關(guān)無關(guān)(零相關(guān))非線性相關(guān)二、相關(guān)的類型兩種事物或現(xiàn)象之間的相關(guān)關(guān)系基本上有下列四75正相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的增加而遞增,如圖11.6(a);若X、Y呈正比,那么散點(diǎn)基本上在一直線上,稱為完全正相關(guān)如圖11.6(b);負(fù)相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的增加而遞減,如圖11.6(c);若X、Y呈反比,那么散點(diǎn)基本上在一直線上,稱為完全負(fù)相關(guān)如圖11.6(d);相關(guān)性質(zhì)可由散點(diǎn)圖直觀的說明

正相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的負(fù)相關(guān):一種76

無關(guān)(零相關(guān)):

若變量x無論增加或減少,變量y不受到影響,如圖11.6(e);

非線性相關(guān):

變量x

與y的增減在坐標(biāo)上排列不呈直線性分布如弧形、拋物線形、S形等如圖11.6(f)反映兩變量間的相關(guān)關(guān)系的統(tǒng)計方法可用相關(guān)圖和相關(guān)系數(shù)兩種方法表示無關(guān)(零相關(guān)):若變量x無論增加或減少,變量y77三、直線相關(guān)的應(yīng)用條件又稱積差相關(guān)系數(shù)或Pearson相關(guān)系數(shù),說明具有直線關(guān)系的兩個變量間相關(guān)關(guān)系的密切程度與相關(guān)方向的指標(biāo)。要求兩個變量均呈正態(tài)分布(雙變量正態(tài)分布)四、相關(guān)系數(shù)(correlationcoefficient)及其意義r

表示樣本相關(guān)系數(shù),ρ表示總體相關(guān)系數(shù)。三、直線相關(guān)的應(yīng)用條件又稱積差相關(guān)系數(shù)或Pearso78相關(guān)系數(shù)(r)

意義:描述兩個變量直線相關(guān)的方向與密切程度的指標(biāo)。表示方法:-1≤

r

≤1

(無單位)

r值為正——正相關(guān)r值為負(fù)——負(fù)相關(guān)|r|=1——完全相關(guān)|r|=0——零相關(guān)相關(guān)系數(shù)(r)表示方法:-1≤r≤1(無單位)79五、直線相關(guān)分析的基本步驟繪制散點(diǎn)圖計算相關(guān)系數(shù)

相關(guān)系數(shù)的假設(shè)檢驗?zāi)康模孩俪醪搅私鈨蓚€變量間有無直線關(guān)系②有無可疑的異常點(diǎn)t-test,r-test五、直線相關(guān)分析的基本步驟繪制散點(diǎn)圖計算相關(guān)系數(shù)相關(guān)80P170例12-1表12-12000年某地16名7歲男孩體重與胸圍資料編號12345678910111213141516體重24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0

(Kg)胸圍61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0(cm)P170例12-1表12-12000年某地16名7歲男孩81

繪制散點(diǎn)圖:初步了解兩個變量間的相關(guān)關(guān)系2000年某地16名7歲男孩體重與胸圍散點(diǎn)圖繪制散點(diǎn)圖:初步了解兩個變量間的相關(guān)關(guān)系2000年某地1682

計算相關(guān)系數(shù)其中:公式

為X和Y的離均差積和為X的離均差平方和為Y的離均差平方和為x,y的均數(shù)計算相關(guān)系數(shù)其中:公式為X和Y的離均差積和為X的離均83絕密版-直線相關(guān)和直線回歸【可編輯的】課件84

r的計算結(jié)果說明了兩個變量X與Y之間關(guān)聯(lián)的

密切程度(絕對值大?。┡c關(guān)聯(lián)的性質(zhì)(正負(fù)號)r的計算結(jié)果說明了兩個變量X與Y之間關(guān)聯(lián)的85

從以上計算結(jié)果我們能否得出結(jié)論:

該地7歲男孩體重與胸圍之間呈正相關(guān)系,相關(guān)系數(shù)是0.8343。為什么?

問題?

本例中的相關(guān)系數(shù)r=0.8343,說明了含16例7歲男孩體重與胸圍之間存在相關(guān)關(guān)系。但是,這16例只是總體中的一個樣本,由此得到的相關(guān)系數(shù)會存在抽樣誤差。因為,當(dāng)總體相關(guān)系數(shù)()為零時,由于抽樣誤差,從總體抽出的16例,其r可能不等于零。從以上計算結(jié)果我們能否得出結(jié)論:

該地7歲男孩體重86總體相關(guān)系數(shù)的假設(shè)檢驗檢驗r是否來自總體相關(guān)系數(shù)為零的總體

(即ρ=0)目的:r≠0的兩種可能

①X、Y間確實(shí)有相關(guān)關(guān)系(ρ≠0)②抽樣誤差的影響(ρ=0)總體相關(guān)系數(shù)的假設(shè)檢驗檢驗r是否來自總體相關(guān)系數(shù)為零目87t檢驗

r檢驗:方法:r的標(biāo)準(zhǔn)誤r界值表t檢驗r檢驗:方法:r的標(biāo)準(zhǔn)誤r界值表88

相關(guān)關(guān)系密切程度的判斷

低度相關(guān)

中度相關(guān)

高度相關(guān)

一般說來,當(dāng)樣本量較大(n>100),并對r進(jìn)行假設(shè)檢驗,有統(tǒng)計學(xué)意義時(即),r絕對值越大,說明兩個變量之間關(guān)聯(lián)程度越強(qiáng)。相關(guān)關(guān)系密切程度的判斷低度相關(guān)中度相關(guān)高度相關(guān)89六、相關(guān)分析中應(yīng)用注意的問題

不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線相關(guān)分析資料要求兩變量x、y都應(yīng)是來自正態(tài)分布總體應(yīng)繪制散點(diǎn)圖,當(dāng)觀察點(diǎn)的分布有直線趨勢時,才適宜作直線相關(guān)分析。不能只根據(jù)r的絕對值的大小來判斷相關(guān)的密切程度若r很小,即使t檢驗有統(tǒng)計學(xué)意義,但專業(yè)上意義不大。相關(guān)關(guān)系可能是因果關(guān)系,

也可能是伴隨關(guān)系

相關(guān)分析主要為進(jìn)一步的研究提供線索。六、相關(guān)分析中應(yīng)用注意的問題不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線90在例12-1中我們討論了7歲男孩體重與胸圍之間的關(guān)系,知道了二者之間成正相關(guān)。如果我們知道了一位7歲男孩體重,能推斷出其胸圍嗎?或其胸圍可能在什么范圍內(nèi)?體重的增加,胸圍也在增加,假如體重增加

2Kg,那么胸圍增加多少cm?

問題?在例12-1中我們討論了7歲男孩體重與胸圍如果91

直線回歸

(linearregression)

又稱簡單回歸,用于研究兩個數(shù)值變量間的依存關(guān)系,從而預(yù)測或控制未知變量的一種統(tǒng)計分析方法。一、直線回歸的概念直線回歸(linearregression)92P180例13-1

兩種變量

自變量

(independentvariable)

應(yīng)變量

(dependentvariable)

兩種關(guān)系

函數(shù)關(guān)系——函數(shù)方程:

回歸關(guān)系——回歸方程:

欲用容易測定的體重來預(yù)測和估計心臟橫徑x,y呈確定性關(guān)系x,y呈非確定性關(guān)系P180例13-1兩種變量自變量(independ9313名8歲正常男童體重與心臟橫徑散點(diǎn)圖

直線回歸是分析兩變量間線性依存變化

的數(shù)量的關(guān)系。13名8歲正常男童體重與心臟橫徑散點(diǎn)圖直線94二、直線回歸的應(yīng)用條件

要求Y變量呈正態(tài)分布,X變量可以是精確測量和控制的變量。二、直線回歸的應(yīng)用條件要求Y變量呈正態(tài)分布95三、直線回歸方程式及回歸系數(shù):為Y的估計值,讀作‘Yhat’

a

:為截距,即時的值

b

:

為樣本回歸系數(shù)(直線的斜率);其統(tǒng)計學(xué)意義是X

每增加(減)一個單位Y

平均改變b個單位直線回歸方程的一般表達(dá)式為:即X取某一定數(shù)值時相應(yīng)Y的樣本均數(shù)(也是相應(yīng)Y的點(diǎn)估計值)

a、b是決定直線的兩個系數(shù)

三、直線回歸方程式及回歸系數(shù)96

回歸系數(shù)b

和截距a

的計算

根據(jù)最小二乘法原理(該法原理可保證各實(shí)測點(diǎn)至直線的縱向距離的平方和最小)可導(dǎo)出:為X和Y的離均差積和為X

的離均差平方和其中:回歸系數(shù)b和截距a的計算根據(jù)最小二乘法原97四、直線回歸分析的基本步驟繪制散點(diǎn)圖計算回歸系數(shù)b與截距a對回歸系數(shù)b進(jìn)行假設(shè)檢驗列出回歸方程

回歸直線的繪制四、直線回歸分析的基本步驟繪制散點(diǎn)圖計算回歸系數(shù)b與98五、回歸系數(shù)的統(tǒng)計推斷

回歸系數(shù)的假設(shè)檢驗

總體回歸系數(shù)β

的估計

五、回歸系數(shù)的統(tǒng)計推斷回歸系數(shù)的假設(shè)檢驗總體回歸系數(shù)β99回歸系數(shù)的假設(shè)檢驗

假設(shè)檢驗方法:t檢驗方差分析

r檢驗代替

回歸系數(shù)的假設(shè)檢驗假設(shè)檢驗方法:t檢驗方差分析r100

其中:

Sb

為回歸系數(shù)b的標(biāo)準(zhǔn)誤

SY.X

為剩余標(biāo)準(zhǔn)差,反映扣除了X

的影響后Y的變異

t檢驗其中:Sb為回歸系數(shù)b的標(biāo)準(zhǔn)誤t101例13-1

tb

檢驗步驟

H0

β=0,即體重和心臟橫徑間無直線回歸關(guān)系

H1:β≠0,即體重和心臟橫徑間有直線回歸關(guān)系

=0.05

b=0.2041,n=13,Sb=0.03098代入公式:查t值表,t0.05/2(11)=2.201,tb=6.59>2.201,則P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,可認(rèn)為該地8歲男孩體重與心臟橫徑間直線關(guān)系存在,所求線性回歸方程成立。

例13-1tb檢驗步驟H0:β=0,即102

r檢驗代替

在實(shí)際應(yīng)用中,如果已對相關(guān)系數(shù)進(jìn)行了假設(shè)檢驗,則可代替回歸系數(shù)的假設(shè)檢驗。對于同一資料,tr=tb即如果相關(guān)系數(shù)的假設(shè)檢驗有統(tǒng)計學(xué)意義,則回歸系數(shù)檢驗也有統(tǒng)計學(xué)意義,反之亦然。相關(guān)系數(shù)的假設(shè)檢驗方法比回歸系數(shù)假設(shè)檢驗方法簡便易做r檢驗代替在實(shí)際應(yīng)用中,如果已對相關(guān)系數(shù)進(jìn)行了103總體回歸系數(shù)的區(qū)間估計像樣本均數(shù)不一定恰好等于總體均數(shù)一樣,求得樣本回歸系數(shù)b以后,利用上述對回歸系數(shù)t檢驗的公式,可以較為容易的得到總體回歸系數(shù)β的1-α雙側(cè)可信區(qū)間為:

其中:

Sb

為回歸系數(shù)b的標(biāo)準(zhǔn)誤總體回歸系數(shù)的區(qū)間估計像樣本均數(shù)不一定恰好等于總體均104

其中:

SY.X

為剩余標(biāo)準(zhǔn)差,反映扣除了

X的影響后Y的變異

為殘差平方和

其中:SY.X為剩余標(biāo)準(zhǔn)差,反映扣除了105例13.1例13.1106總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間:即總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間為:0.1359cm~0.2723cm

該區(qū)間不包括0,可按相應(yīng)的水準(zhǔn)同樣得到總體回歸系數(shù)不為0的結(jié)論,即用區(qū)間估計回答相同時的假設(shè)檢驗問題??傮w回歸系數(shù)β的95%雙側(cè)可信區(qū)間:即總體回歸系數(shù)β的107

描述兩變量的依存關(guān)系

利用回歸方程進(jìn)行預(yù)測

X—預(yù)報因子Y—預(yù)報量

利用個體Y值的容許區(qū)間方法進(jìn)行計算

利用回歸方程進(jìn)行統(tǒng)計控制

利用個體Y值的容許區(qū)間方法進(jìn)行計算五、直線回歸分析的應(yīng)用描述兩變量的依存關(guān)系五、直線回歸分析的應(yīng)用108不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線回歸分析應(yīng)繪制散點(diǎn)圖,當(dāng)觀察點(diǎn)的分布有直線趨勢時,才適宜作直線回歸分析。觀察異常點(diǎn)考慮回歸分析的應(yīng)用條件直線回歸方程的適用范圍一般以自變量的取值范圍為限,不可隨意外延。六、直線回歸分析的應(yīng)用注意事項不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線回歸分析六、直線回歸分析的應(yīng)用109直線相關(guān)與直線回歸的區(qū)別與聯(lián)系

回歸要求自變量X是可以精確測量和嚴(yán)格控制的選定變量,對確定的X,應(yīng)變量Y是服從正態(tài)分布的隨機(jī)變量,只能由推算出,不能顛倒。相關(guān)要求X和Y均呈正態(tài)分布的資料。1、應(yīng)用條件不同區(qū)別直線相關(guān)與直線回歸的區(qū)別與聯(lián)系回歸要求自變量X110

相關(guān)反映兩變量的相互關(guān)系,是一種雙向變化的關(guān)系(即在兩個變量中,任何一個的變化都會引起另一個的變化)。

回歸是反映兩個變量間數(shù)量上的依存關(guān)系,只是一種由自變量估計應(yīng)變量的單向關(guān)系。3、意義不同2、用途不同研究兩變量間的相關(guān)關(guān)系用相關(guān);研究兩變量間依存變化的數(shù)量關(guān)系用回歸。區(qū)別相關(guān)反映兩變量的相互關(guān)系,是一種雙向變化3、意義不同1114、r與b的意義與取值范圍均不同,越大,散點(diǎn)圖中的各散點(diǎn)越趨向于回歸直線,表明兩變量間相關(guān)密切程度越強(qiáng);

b可以是任何實(shí)數(shù),越大,即回歸直線越陡,說明當(dāng)X變化一個單位時,Y的平均變化就越大。反之也是一樣。區(qū)別4、r與b的意義與取值范圍均不同112

r與b的方向一致

r與b的假設(shè)檢驗等價對同一組數(shù)據(jù)若同時計算r與b,其正負(fù)號是一致的。對同一樣本,r和b的假設(shè)檢驗得到的t值相等(即tr=tb

)。聯(lián)系r與b的方向一致r與b的假設(shè)檢驗等價113

r與b值可相互換算聯(lián)系r與b值可相互換算聯(lián)系114

用回歸解釋相關(guān)r2

的意義:

它反應(yīng)應(yīng)變量y的總變異中,可用回歸解釋的比例,反映回歸模型擬合效果的指標(biāo)聯(lián)系r的平方即為決定系數(shù)(coefficientofdetermination)用回歸解釋相關(guān)r2的意義:它反應(yīng)應(yīng)變量y的總變異中115小結(jié)直線相關(guān)直線回歸小結(jié)直線相關(guān)1161、根據(jù)樣本算得一相關(guān)系數(shù)r,經(jīng)t檢驗,P<0.01,說明r來自高度相關(guān)的相關(guān)總體()思考題是非題1、根據(jù)樣本算得一相關(guān)系數(shù)r,經(jīng)t檢驗,思考題是非題1172、兩變量間有直線回歸關(guān)系存在,即可認(rèn)為兩變量間有因果關(guān)系()思考題是非題2、兩變量間有直線回歸關(guān)系存在,即可思考題是非題118思考題3、相關(guān)分析和回歸分析有何不同?3、

回歸系數(shù)b和截距a分別表示什么意義?預(yù)習(xí):第十六章、常用的統(tǒng)計圖和統(tǒng)計表思考題3、相關(guān)分析和回歸分析有何不同?3、回歸系數(shù)b119謝謝!謝謝!120相關(guān)關(guān)系示意:0<r<1-1<r<0正相關(guān)負(fù)相關(guān)-1<r<00<r<1

-1<r<0

相關(guān)關(guān)系示意:0<r<1-1<r<0正相關(guān)負(fù)121相關(guān)關(guān)系示意:r=0r=0非線性相關(guān)非線性相關(guān)相關(guān)關(guān)系示意:r=0r=0非線性相關(guān)非線性相關(guān)122相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)123相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)r=0r=0r=0零相關(guān)零相關(guān)零相關(guān)相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)r124例12-1

tr

檢驗步驟

H0:

=0,即7歲男孩體重和胸圍間無直線相關(guān)關(guān)系

H1:

≠0,即7歲男孩體重和胸圍間有直線相關(guān)關(guān)系

=0.05

r=0.8343,n=16,代入公式:查t值表,t0.05/2(14)=2.145,tr=5.6623>2.145,則P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,差異有統(tǒng)計學(xué)意義,可認(rèn)為體重和胸圍之間有正相關(guān)關(guān)系。

例12-1tr檢驗步驟H0:=0,125

查表法r=0.8343,ν=16-2=14,查r界值表(P349附表14)

r0.05(14)=0.497r=0.8343

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論