版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第十二章雙變量關(guān)聯(lián)性分析第十二章雙變量關(guān)聯(lián)性分析1
概述
變量間關(guān)系問題
兩個關(guān)系肺活量~體重、藥物劑量~療效等。年齡~身高、年齡~血壓、體溫~脈膊、互依關(guān)系:兩變量間的彼此關(guān)系
——相關(guān)分析依存關(guān)系:一變量隨另一變量變化而變化
——回歸分析概述變量間關(guān)系問題兩個關(guān)系肺活量~體重、藥物劑量~療2
主要內(nèi)容直線相關(guān)與回歸的概念直線回歸方程的建立相關(guān)系數(shù)與回歸系數(shù)的假設(shè)檢驗直線相關(guān)與回歸的區(qū)別與聯(lián)系直線相關(guān)與回歸的應(yīng)用主要內(nèi)容直線相關(guān)與回歸的概念直線回歸方程的建立相3
直線相關(guān)
(linearcorrelation)
又稱簡單相關(guān)或Pearson相關(guān)分析,用于研究兩個數(shù)值變量間是否存在線性相關(guān)關(guān)系統(tǒng)計分析方法。一、直線相關(guān)的概念直線相關(guān)(linearcorrelat4兩種事物或現(xiàn)象之間的相關(guān)關(guān)系基本上有下列四種情況:正相關(guān)負(fù)相關(guān)無關(guān)(零相關(guān))非線性相關(guān)二、相關(guān)的類型兩種事物或現(xiàn)象之間的相關(guān)關(guān)系基本上有下列四5正相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的增加而遞增,如圖11.6(a);若X、Y呈正比,那么散點(diǎn)基本上在一直線上,稱為完全正相關(guān)如圖11.6(b);負(fù)相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的增加而遞減,如圖11.6(c);若X、Y呈反比,那么散點(diǎn)基本上在一直線上,稱為完全負(fù)相關(guān)如圖11.6(d);相關(guān)性質(zhì)可由散點(diǎn)圖直觀的說明
正相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的負(fù)相關(guān):一種6
無關(guān)(零相關(guān)):
若變量x無論增加或減少,變量y不受到影響,如圖11.6(e);
非線性相關(guān):
變量x
與y的增減在坐標(biāo)上排列不呈直線性分布如弧形、拋物線形、S形等如圖11.6(f)反映兩變量間的相關(guān)關(guān)系的統(tǒng)計方法可用相關(guān)圖和相關(guān)系數(shù)兩種方法表示無關(guān)(零相關(guān)):若變量x無論增加或減少,變量y7三、直線相關(guān)的應(yīng)用條件又稱積差相關(guān)系數(shù)或Pearson相關(guān)系數(shù),說明具有直線關(guān)系的兩個變量間相關(guān)關(guān)系的密切程度與相關(guān)方向的指標(biāo)。要求兩個變量均呈正態(tài)分布(雙變量正態(tài)分布)四、相關(guān)系數(shù)(correlationcoefficient)及其意義r
表示樣本相關(guān)系數(shù),ρ表示總體相關(guān)系數(shù)。三、直線相關(guān)的應(yīng)用條件又稱積差相關(guān)系數(shù)或Pearso8相關(guān)系數(shù)(r)
意義:描述兩個變量直線相關(guān)的方向與密切程度的指標(biāo)。表示方法:-1≤
r
≤1
(無單位)
r值為正——正相關(guān)r值為負(fù)——負(fù)相關(guān)|r|=1——完全相關(guān)|r|=0——零相關(guān)相關(guān)系數(shù)(r)表示方法:-1≤r≤1(無單位)9五、直線相關(guān)分析的基本步驟繪制散點(diǎn)圖計算相關(guān)系數(shù)
相關(guān)系數(shù)的假設(shè)檢驗?zāi)康模孩俪醪搅私鈨蓚€變量間有無直線關(guān)系②有無可疑的異常點(diǎn)t-test,r-test五、直線相關(guān)分析的基本步驟繪制散點(diǎn)圖計算相關(guān)系數(shù)相關(guān)10P170例12-1表12-12000年某地16名7歲男孩體重與胸圍資料編號12345678910111213141516體重24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0
(Kg)胸圍61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0(cm)P170例12-1表12-12000年某地16名7歲男孩11
繪制散點(diǎn)圖:初步了解兩個變量間的相關(guān)關(guān)系2000年某地16名7歲男孩體重與胸圍散點(diǎn)圖繪制散點(diǎn)圖:初步了解兩個變量間的相關(guān)關(guān)系2000年某地1612
計算相關(guān)系數(shù)其中:公式
為X和Y的離均差積和為X的離均差平方和為Y的離均差平方和為x,y的均數(shù)計算相關(guān)系數(shù)其中:公式為X和Y的離均差積和為X的離均13絕密版-直線相關(guān)和直線回歸【可編輯的】課件14
r的計算結(jié)果說明了兩個變量X與Y之間關(guān)聯(lián)的
密切程度(絕對值大?。┡c關(guān)聯(lián)的性質(zhì)(正負(fù)號)r的計算結(jié)果說明了兩個變量X與Y之間關(guān)聯(lián)的15
從以上計算結(jié)果我們能否得出結(jié)論:
該地7歲男孩體重與胸圍之間呈正相關(guān)系,相關(guān)系數(shù)是0.8343。為什么?
問題?
本例中的相關(guān)系數(shù)r=0.8343,說明了含16例7歲男孩體重與胸圍之間存在相關(guān)關(guān)系。但是,這16例只是總體中的一個樣本,由此得到的相關(guān)系數(shù)會存在抽樣誤差。因為,當(dāng)總體相關(guān)系數(shù)()為零時,由于抽樣誤差,從總體抽出的16例,其r可能不等于零。從以上計算結(jié)果我們能否得出結(jié)論:
該地7歲男孩體重16總體相關(guān)系數(shù)的假設(shè)檢驗檢驗r是否來自總體相關(guān)系數(shù)為零的總體
(即ρ=0)目的:r≠0的兩種可能
①X、Y間確實(shí)有相關(guān)關(guān)系(ρ≠0)②抽樣誤差的影響(ρ=0)總體相關(guān)系數(shù)的假設(shè)檢驗檢驗r是否來自總體相關(guān)系數(shù)為零目17t檢驗
r檢驗:方法:r的標(biāo)準(zhǔn)誤r界值表t檢驗r檢驗:方法:r的標(biāo)準(zhǔn)誤r界值表18
相關(guān)關(guān)系密切程度的判斷
低度相關(guān)
中度相關(guān)
高度相關(guān)
一般說來,當(dāng)樣本量較大(n>100),并對r進(jìn)行假設(shè)檢驗,有統(tǒng)計學(xué)意義時(即),r絕對值越大,說明兩個變量之間關(guān)聯(lián)程度越強(qiáng)。相關(guān)關(guān)系密切程度的判斷低度相關(guān)中度相關(guān)高度相關(guān)19六、相關(guān)分析中應(yīng)用注意的問題
不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線相關(guān)分析資料要求兩變量x、y都應(yīng)是來自正態(tài)分布總體應(yīng)繪制散點(diǎn)圖,當(dāng)觀察點(diǎn)的分布有直線趨勢時,才適宜作直線相關(guān)分析。不能只根據(jù)r的絕對值的大小來判斷相關(guān)的密切程度若r很小,即使t檢驗有統(tǒng)計學(xué)意義,但專業(yè)上意義不大。相關(guān)關(guān)系可能是因果關(guān)系,
也可能是伴隨關(guān)系
相關(guān)分析主要為進(jìn)一步的研究提供線索。六、相關(guān)分析中應(yīng)用注意的問題不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線20在例12-1中我們討論了7歲男孩體重與胸圍之間的關(guān)系,知道了二者之間成正相關(guān)。如果我們知道了一位7歲男孩體重,能推斷出其胸圍嗎?或其胸圍可能在什么范圍內(nèi)?體重的增加,胸圍也在增加,假如體重增加
2Kg,那么胸圍增加多少cm?
問題?在例12-1中我們討論了7歲男孩體重與胸圍如果21
直線回歸
(linearregression)
又稱簡單回歸,用于研究兩個數(shù)值變量間的依存關(guān)系,從而預(yù)測或控制未知變量的一種統(tǒng)計分析方法。一、直線回歸的概念直線回歸(linearregression)22P180例13-1
兩種變量
自變量
(independentvariable)
應(yīng)變量
(dependentvariable)
兩種關(guān)系
函數(shù)關(guān)系——函數(shù)方程:
回歸關(guān)系——回歸方程:
欲用容易測定的體重來預(yù)測和估計心臟橫徑x,y呈確定性關(guān)系x,y呈非確定性關(guān)系P180例13-1兩種變量自變量(independ2313名8歲正常男童體重與心臟橫徑散點(diǎn)圖
直線回歸是分析兩變量間線性依存變化
的數(shù)量的關(guān)系。13名8歲正常男童體重與心臟橫徑散點(diǎn)圖直線24二、直線回歸的應(yīng)用條件
要求Y變量呈正態(tài)分布,X變量可以是精確測量和控制的變量。二、直線回歸的應(yīng)用條件要求Y變量呈正態(tài)分布25三、直線回歸方程式及回歸系數(shù):為Y的估計值,讀作‘Yhat’
a
:為截距,即時的值
b
:
為樣本回歸系數(shù)(直線的斜率);其統(tǒng)計學(xué)意義是X
每增加(減)一個單位Y
平均改變b個單位直線回歸方程的一般表達(dá)式為:即X取某一定數(shù)值時相應(yīng)Y的樣本均數(shù)(也是相應(yīng)Y的點(diǎn)估計值)
a、b是決定直線的兩個系數(shù)
三、直線回歸方程式及回歸系數(shù)26
回歸系數(shù)b
和截距a
的計算
根據(jù)最小二乘法原理(該法原理可保證各實(shí)測點(diǎn)至直線的縱向距離的平方和最小)可導(dǎo)出:為X和Y的離均差積和為X
的離均差平方和其中:回歸系數(shù)b和截距a的計算根據(jù)最小二乘法原27四、直線回歸分析的基本步驟繪制散點(diǎn)圖計算回歸系數(shù)b與截距a對回歸系數(shù)b進(jìn)行假設(shè)檢驗列出回歸方程
回歸直線的繪制四、直線回歸分析的基本步驟繪制散點(diǎn)圖計算回歸系數(shù)b與28五、回歸系數(shù)的統(tǒng)計推斷
回歸系數(shù)的假設(shè)檢驗
總體回歸系數(shù)β
的估計
五、回歸系數(shù)的統(tǒng)計推斷回歸系數(shù)的假設(shè)檢驗總體回歸系數(shù)β29回歸系數(shù)的假設(shè)檢驗
假設(shè)檢驗方法:t檢驗方差分析
r檢驗代替
回歸系數(shù)的假設(shè)檢驗假設(shè)檢驗方法:t檢驗方差分析r30
其中:
Sb
為回歸系數(shù)b的標(biāo)準(zhǔn)誤
SY.X
為剩余標(biāo)準(zhǔn)差,反映扣除了X
的影響后Y的變異
t檢驗其中:Sb為回歸系數(shù)b的標(biāo)準(zhǔn)誤t31例13-1
tb
檢驗步驟
H0
:
β=0,即體重和心臟橫徑間無直線回歸關(guān)系
H1:β≠0,即體重和心臟橫徑間有直線回歸關(guān)系
=0.05
b=0.2041,n=13,Sb=0.03098代入公式:查t值表,t0.05/2(11)=2.201,tb=6.59>2.201,則P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,可認(rèn)為該地8歲男孩體重與心臟橫徑間直線關(guān)系存在,所求線性回歸方程成立。
例13-1tb檢驗步驟H0:β=0,即32
r檢驗代替
在實(shí)際應(yīng)用中,如果已對相關(guān)系數(shù)進(jìn)行了假設(shè)檢驗,則可代替回歸系數(shù)的假設(shè)檢驗。對于同一資料,tr=tb即如果相關(guān)系數(shù)的假設(shè)檢驗有統(tǒng)計學(xué)意義,則回歸系數(shù)檢驗也有統(tǒng)計學(xué)意義,反之亦然。相關(guān)系數(shù)的假設(shè)檢驗方法比回歸系數(shù)假設(shè)檢驗方法簡便易做r檢驗代替在實(shí)際應(yīng)用中,如果已對相關(guān)系數(shù)進(jìn)行了33總體回歸系數(shù)的區(qū)間估計像樣本均數(shù)不一定恰好等于總體均數(shù)一樣,求得樣本回歸系數(shù)b以后,利用上述對回歸系數(shù)t檢驗的公式,可以較為容易的得到總體回歸系數(shù)β的1-α雙側(cè)可信區(qū)間為:
其中:
Sb
為回歸系數(shù)b的標(biāo)準(zhǔn)誤總體回歸系數(shù)的區(qū)間估計像樣本均數(shù)不一定恰好等于總體均34
其中:
SY.X
為剩余標(biāo)準(zhǔn)差,反映扣除了
X的影響后Y的變異
為殘差平方和
其中:SY.X為剩余標(biāo)準(zhǔn)差,反映扣除了35例13.1例13.136總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間:即總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間為:0.1359cm~0.2723cm
該區(qū)間不包括0,可按相應(yīng)的水準(zhǔn)同樣得到總體回歸系數(shù)不為0的結(jié)論,即用區(qū)間估計回答相同時的假設(shè)檢驗問題。總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間:即總體回歸系數(shù)β的37
描述兩變量的依存關(guān)系
利用回歸方程進(jìn)行預(yù)測
X—預(yù)報因子Y—預(yù)報量
利用個體Y值的容許區(qū)間方法進(jìn)行計算
利用回歸方程進(jìn)行統(tǒng)計控制
利用個體Y值的容許區(qū)間方法進(jìn)行計算五、直線回歸分析的應(yīng)用描述兩變量的依存關(guān)系五、直線回歸分析的應(yīng)用38不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線回歸分析應(yīng)繪制散點(diǎn)圖,當(dāng)觀察點(diǎn)的分布有直線趨勢時,才適宜作直線回歸分析。觀察異常點(diǎn)考慮回歸分析的應(yīng)用條件直線回歸方程的適用范圍一般以自變量的取值范圍為限,不可隨意外延。六、直線回歸分析的應(yīng)用注意事項不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線回歸分析六、直線回歸分析的應(yīng)用39直線相關(guān)與直線回歸的區(qū)別與聯(lián)系
回歸要求自變量X是可以精確測量和嚴(yán)格控制的選定變量,對確定的X,應(yīng)變量Y是服從正態(tài)分布的隨機(jī)變量,只能由推算出,不能顛倒。相關(guān)要求X和Y均呈正態(tài)分布的資料。1、應(yīng)用條件不同區(qū)別直線相關(guān)與直線回歸的區(qū)別與聯(lián)系回歸要求自變量X40
相關(guān)反映兩變量的相互關(guān)系,是一種雙向變化的關(guān)系(即在兩個變量中,任何一個的變化都會引起另一個的變化)。
回歸是反映兩個變量間數(shù)量上的依存關(guān)系,只是一種由自變量估計應(yīng)變量的單向關(guān)系。3、意義不同2、用途不同研究兩變量間的相關(guān)關(guān)系用相關(guān);研究兩變量間依存變化的數(shù)量關(guān)系用回歸。區(qū)別相關(guān)反映兩變量的相互關(guān)系,是一種雙向變化3、意義不同414、r與b的意義與取值范圍均不同,越大,散點(diǎn)圖中的各散點(diǎn)越趨向于回歸直線,表明兩變量間相關(guān)密切程度越強(qiáng);
b可以是任何實(shí)數(shù),越大,即回歸直線越陡,說明當(dāng)X變化一個單位時,Y的平均變化就越大。反之也是一樣。區(qū)別4、r與b的意義與取值范圍均不同42
r與b的方向一致
r與b的假設(shè)檢驗等價對同一組數(shù)據(jù)若同時計算r與b,其正負(fù)號是一致的。對同一樣本,r和b的假設(shè)檢驗得到的t值相等(即tr=tb
)。聯(lián)系r與b的方向一致r與b的假設(shè)檢驗等價43
r與b值可相互換算聯(lián)系r與b值可相互換算聯(lián)系44
用回歸解釋相關(guān)r2
的意義:
它反應(yīng)應(yīng)變量y的總變異中,可用回歸解釋的比例,反映回歸模型擬合效果的指標(biāo)聯(lián)系r的平方即為決定系數(shù)(coefficientofdetermination)用回歸解釋相關(guān)r2的意義:它反應(yīng)應(yīng)變量y的總變異中45小結(jié)直線相關(guān)直線回歸小結(jié)直線相關(guān)461、根據(jù)樣本算得一相關(guān)系數(shù)r,經(jīng)t檢驗,P<0.01,說明r來自高度相關(guān)的相關(guān)總體()思考題是非題1、根據(jù)樣本算得一相關(guān)系數(shù)r,經(jīng)t檢驗,思考題是非題472、兩變量間有直線回歸關(guān)系存在,即可認(rèn)為兩變量間有因果關(guān)系()思考題是非題2、兩變量間有直線回歸關(guān)系存在,即可思考題是非題48思考題3、相關(guān)分析和回歸分析有何不同?3、
回歸系數(shù)b和截距a分別表示什么意義?預(yù)習(xí):第十六章、常用的統(tǒng)計圖和統(tǒng)計表思考題3、相關(guān)分析和回歸分析有何不同?3、回歸系數(shù)b49謝謝!謝謝!50相關(guān)關(guān)系示意:0<r<1-1<r<0正相關(guān)負(fù)相關(guān)-1<r<00<r<1
-1<r<0
相關(guān)關(guān)系示意:0<r<1-1<r<0正相關(guān)負(fù)51相關(guān)關(guān)系示意:r=0r=0非線性相關(guān)非線性相關(guān)相關(guān)關(guān)系示意:r=0r=0非線性相關(guān)非線性相關(guān)52相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)53相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)r=0r=0r=0零相關(guān)零相關(guān)零相關(guān)相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)r54例12-1
tr
檢驗步驟
H0:
=0,即7歲男孩體重和胸圍間無直線相關(guān)關(guān)系
H1:
≠0,即7歲男孩體重和胸圍間有直線相關(guān)關(guān)系
=0.05
r=0.8343,n=16,代入公式:查t值表,t0.05/2(14)=2.145,tr=5.6623>2.145,則P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,差異有統(tǒng)計學(xué)意義,可認(rèn)為體重和胸圍之間有正相關(guān)關(guān)系。
例12-1tr檢驗步驟H0:=0,55
查表法r=0.8343,ν=16-2=14,查r界值表(P349附表14)
r0.05(14)=0.497r=0.8343>0.497,
P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,差異有統(tǒng)計學(xué)意義,可認(rèn)為該地男孩體重和胸圍之間有正相關(guān)關(guān)系。查表法r=0.8343,ν=16-2=14,查r界值56現(xiàn)有兩個樣本:r1=0.612,ν1=7;r2=0.435,ν2=50。不能根據(jù)r1>r2就說r1比r2相關(guān)更密切。因為查相關(guān)系數(shù)界值表,樣本1得
P>0.05,樣本2得P<0.01按檢驗水準(zhǔn)α=0.05,前者可認(rèn)為無相關(guān)而后者有相關(guān),可見正確推斷有無相關(guān)必須經(jīng)過假設(shè)檢驗。例:現(xiàn)有兩個樣本:r1=0.612,ν1=57a
為截距,即x=0時的y值a(a=0)(a>0)(a<0)a為截距,即x=0時的y值a(a=0)(a>058b為回歸系數(shù),即直線的斜率(b>0)(b<0)(b=0)b個單位1個單位b=0時X與Y無直線關(guān)系
X每增加(減)一個單位,Y平均改變b個單位
b為回歸系數(shù),即直線的斜率(b>0)(b<0)(59絕密版-直線相關(guān)和直線回歸【可編輯的】課件6013名8歲正常男童體重與心臟橫徑散點(diǎn)圖
a、b
是根據(jù)最小二乘法原理(各實(shí)測點(diǎn)至直線的縱向距離的平方和最?。┣蟮谩瘛馪1P2(殘差)●●●13名8歲正常男童體重與心臟橫徑散點(diǎn)圖a、b是根據(jù)最61例13-1例13-162
在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩個值,求出相應(yīng)Y的估計值,用直線連接。
13名8歲正常男童體重與心臟橫徑散點(diǎn)圖(0,a)●●●●●P1(20,8.29)P2(26,9.52)(59.26,142.87)y=4.2121+0.2041x在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩63SAH患者第一天血清和腦脊液IL-6(pg/ml)檢測結(jié)果散點(diǎn)圖●P1(23,100.1)●P2(96,186.24)●●●●●●●y=72.96+1.18x●●●(59.26,142.87)(0,a)
在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩個值,求出相應(yīng)Y的估計值,用直線連接。
●●SAH患者第一天血清和腦脊液IL-6(pg/ml)檢測結(jié)果散64利用回歸方程進(jìn)行預(yù)測即利用回歸方程,由一個容易測量的變量值(自變量X—預(yù)報因子)推算另一個不易測得的變量值(應(yīng)變量Y—預(yù)報量)。
如由兒童年齡推算其體重,將預(yù)報因子
X
(兒童年齡)代入回歸方程后,求得值為應(yīng)變量Y
(體重)的估計值,這屬于點(diǎn)值估計;其波動范圍可求個體Y值的容許區(qū)間,即為區(qū)間估計。
利用回歸方程進(jìn)行預(yù)測即利用回歸方程,由一個容易測量65利用回歸方程進(jìn)行統(tǒng)計控制
統(tǒng)計控制是指為了滿足Y最高不超過(或最低不低于)限定的某一個數(shù)值,X應(yīng)控制在多大范圍?這是利用回歸方程進(jìn)行逆估計。如:汽車的數(shù)量與大氣中的NO2濃度呈直線回歸關(guān)系,為了控制大氣污染,可通過限制汽車的數(shù)量來實(shí)現(xiàn)。如果大氣中NO2最大允許濃度一定,則通過直線回歸方程可求出汽車的最大允許流量。利用回歸方程進(jìn)行統(tǒng)計控制統(tǒng)計控制是指為了滿足Y最66
在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩個值,求出相應(yīng)Y的估計值,用直線連接。
繪制直線回歸圖
取易讀數(shù)且離得相對較遠(yuǎn)的兩個X
值代入直線回歸方程求得兩個Y
,得兩點(diǎn)并連線即可。在自變量X的實(shí)測范圍內(nèi)任取相距較遠(yuǎn)易讀的兩67直線回歸是分析兩變量間線性依存變化的數(shù)量的關(guān)系。
直線回歸是分析兩變量間線性依存變化的數(shù)量的關(guān)系。
68確定性關(guān)系(函數(shù)關(guān)系):兩變量的取值完全一一對應(yīng)如:y=2r非確定性的關(guān)系(回歸關(guān)系):兩變量的取值并非完全一一對應(yīng),而是具有隨機(jī)性的一種“趨勢”
兩變量間關(guān)系如:年齡~身高、年齡~血壓、體溫~脈膊等確定性關(guān)系(函數(shù)關(guān)系):兩變量的取值完全一一對應(yīng)如:y69絕密版-直線相關(guān)和直線回歸【可編輯的】課件70第十二章雙變量關(guān)聯(lián)性分析第十二章雙變量關(guān)聯(lián)性分析71
概述
變量間關(guān)系問題
兩個關(guān)系肺活量~體重、藥物劑量~療效等。年齡~身高、年齡~血壓、體溫~脈膊、互依關(guān)系:兩變量間的彼此關(guān)系
——相關(guān)分析依存關(guān)系:一變量隨另一變量變化而變化
——回歸分析概述變量間關(guān)系問題兩個關(guān)系肺活量~體重、藥物劑量~療72
主要內(nèi)容直線相關(guān)與回歸的概念直線回歸方程的建立相關(guān)系數(shù)與回歸系數(shù)的假設(shè)檢驗直線相關(guān)與回歸的區(qū)別與聯(lián)系直線相關(guān)與回歸的應(yīng)用主要內(nèi)容直線相關(guān)與回歸的概念直線回歸方程的建立相73
直線相關(guān)
(linearcorrelation)
又稱簡單相關(guān)或Pearson相關(guān)分析,用于研究兩個數(shù)值變量間是否存在線性相關(guān)關(guān)系統(tǒng)計分析方法。一、直線相關(guān)的概念直線相關(guān)(linearcorrelat74兩種事物或現(xiàn)象之間的相關(guān)關(guān)系基本上有下列四種情況:正相關(guān)負(fù)相關(guān)無關(guān)(零相關(guān))非線性相關(guān)二、相關(guān)的類型兩種事物或現(xiàn)象之間的相關(guān)關(guān)系基本上有下列四75正相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的增加而遞增,如圖11.6(a);若X、Y呈正比,那么散點(diǎn)基本上在一直線上,稱為完全正相關(guān)如圖11.6(b);負(fù)相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的增加而遞減,如圖11.6(c);若X、Y呈反比,那么散點(diǎn)基本上在一直線上,稱為完全負(fù)相關(guān)如圖11.6(d);相關(guān)性質(zhì)可由散點(diǎn)圖直觀的說明
正相關(guān):一種現(xiàn)象的數(shù)值伴隨另一種現(xiàn)象的數(shù)值的負(fù)相關(guān):一種76
無關(guān)(零相關(guān)):
若變量x無論增加或減少,變量y不受到影響,如圖11.6(e);
非線性相關(guān):
變量x
與y的增減在坐標(biāo)上排列不呈直線性分布如弧形、拋物線形、S形等如圖11.6(f)反映兩變量間的相關(guān)關(guān)系的統(tǒng)計方法可用相關(guān)圖和相關(guān)系數(shù)兩種方法表示無關(guān)(零相關(guān)):若變量x無論增加或減少,變量y77三、直線相關(guān)的應(yīng)用條件又稱積差相關(guān)系數(shù)或Pearson相關(guān)系數(shù),說明具有直線關(guān)系的兩個變量間相關(guān)關(guān)系的密切程度與相關(guān)方向的指標(biāo)。要求兩個變量均呈正態(tài)分布(雙變量正態(tài)分布)四、相關(guān)系數(shù)(correlationcoefficient)及其意義r
表示樣本相關(guān)系數(shù),ρ表示總體相關(guān)系數(shù)。三、直線相關(guān)的應(yīng)用條件又稱積差相關(guān)系數(shù)或Pearso78相關(guān)系數(shù)(r)
意義:描述兩個變量直線相關(guān)的方向與密切程度的指標(biāo)。表示方法:-1≤
r
≤1
(無單位)
r值為正——正相關(guān)r值為負(fù)——負(fù)相關(guān)|r|=1——完全相關(guān)|r|=0——零相關(guān)相關(guān)系數(shù)(r)表示方法:-1≤r≤1(無單位)79五、直線相關(guān)分析的基本步驟繪制散點(diǎn)圖計算相關(guān)系數(shù)
相關(guān)系數(shù)的假設(shè)檢驗?zāi)康模孩俪醪搅私鈨蓚€變量間有無直線關(guān)系②有無可疑的異常點(diǎn)t-test,r-test五、直線相關(guān)分析的基本步驟繪制散點(diǎn)圖計算相關(guān)系數(shù)相關(guān)80P170例12-1表12-12000年某地16名7歲男孩體重與胸圍資料編號12345678910111213141516體重24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0
(Kg)胸圍61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0(cm)P170例12-1表12-12000年某地16名7歲男孩81
繪制散點(diǎn)圖:初步了解兩個變量間的相關(guān)關(guān)系2000年某地16名7歲男孩體重與胸圍散點(diǎn)圖繪制散點(diǎn)圖:初步了解兩個變量間的相關(guān)關(guān)系2000年某地1682
計算相關(guān)系數(shù)其中:公式
為X和Y的離均差積和為X的離均差平方和為Y的離均差平方和為x,y的均數(shù)計算相關(guān)系數(shù)其中:公式為X和Y的離均差積和為X的離均83絕密版-直線相關(guān)和直線回歸【可編輯的】課件84
r的計算結(jié)果說明了兩個變量X與Y之間關(guān)聯(lián)的
密切程度(絕對值大?。┡c關(guān)聯(lián)的性質(zhì)(正負(fù)號)r的計算結(jié)果說明了兩個變量X與Y之間關(guān)聯(lián)的85
從以上計算結(jié)果我們能否得出結(jié)論:
該地7歲男孩體重與胸圍之間呈正相關(guān)系,相關(guān)系數(shù)是0.8343。為什么?
問題?
本例中的相關(guān)系數(shù)r=0.8343,說明了含16例7歲男孩體重與胸圍之間存在相關(guān)關(guān)系。但是,這16例只是總體中的一個樣本,由此得到的相關(guān)系數(shù)會存在抽樣誤差。因為,當(dāng)總體相關(guān)系數(shù)()為零時,由于抽樣誤差,從總體抽出的16例,其r可能不等于零。從以上計算結(jié)果我們能否得出結(jié)論:
該地7歲男孩體重86總體相關(guān)系數(shù)的假設(shè)檢驗檢驗r是否來自總體相關(guān)系數(shù)為零的總體
(即ρ=0)目的:r≠0的兩種可能
①X、Y間確實(shí)有相關(guān)關(guān)系(ρ≠0)②抽樣誤差的影響(ρ=0)總體相關(guān)系數(shù)的假設(shè)檢驗檢驗r是否來自總體相關(guān)系數(shù)為零目87t檢驗
r檢驗:方法:r的標(biāo)準(zhǔn)誤r界值表t檢驗r檢驗:方法:r的標(biāo)準(zhǔn)誤r界值表88
相關(guān)關(guān)系密切程度的判斷
低度相關(guān)
中度相關(guān)
高度相關(guān)
一般說來,當(dāng)樣本量較大(n>100),并對r進(jìn)行假設(shè)檢驗,有統(tǒng)計學(xué)意義時(即),r絕對值越大,說明兩個變量之間關(guān)聯(lián)程度越強(qiáng)。相關(guān)關(guān)系密切程度的判斷低度相關(guān)中度相關(guān)高度相關(guān)89六、相關(guān)分析中應(yīng)用注意的問題
不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線相關(guān)分析資料要求兩變量x、y都應(yīng)是來自正態(tài)分布總體應(yīng)繪制散點(diǎn)圖,當(dāng)觀察點(diǎn)的分布有直線趨勢時,才適宜作直線相關(guān)分析。不能只根據(jù)r的絕對值的大小來判斷相關(guān)的密切程度若r很小,即使t檢驗有統(tǒng)計學(xué)意義,但專業(yè)上意義不大。相關(guān)關(guān)系可能是因果關(guān)系,
也可能是伴隨關(guān)系
相關(guān)分析主要為進(jìn)一步的研究提供線索。六、相關(guān)分析中應(yīng)用注意的問題不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線90在例12-1中我們討論了7歲男孩體重與胸圍之間的關(guān)系,知道了二者之間成正相關(guān)。如果我們知道了一位7歲男孩體重,能推斷出其胸圍嗎?或其胸圍可能在什么范圍內(nèi)?體重的增加,胸圍也在增加,假如體重增加
2Kg,那么胸圍增加多少cm?
問題?在例12-1中我們討論了7歲男孩體重與胸圍如果91
直線回歸
(linearregression)
又稱簡單回歸,用于研究兩個數(shù)值變量間的依存關(guān)系,從而預(yù)測或控制未知變量的一種統(tǒng)計分析方法。一、直線回歸的概念直線回歸(linearregression)92P180例13-1
兩種變量
自變量
(independentvariable)
應(yīng)變量
(dependentvariable)
兩種關(guān)系
函數(shù)關(guān)系——函數(shù)方程:
回歸關(guān)系——回歸方程:
欲用容易測定的體重來預(yù)測和估計心臟橫徑x,y呈確定性關(guān)系x,y呈非確定性關(guān)系P180例13-1兩種變量自變量(independ9313名8歲正常男童體重與心臟橫徑散點(diǎn)圖
直線回歸是分析兩變量間線性依存變化
的數(shù)量的關(guān)系。13名8歲正常男童體重與心臟橫徑散點(diǎn)圖直線94二、直線回歸的應(yīng)用條件
要求Y變量呈正態(tài)分布,X變量可以是精確測量和控制的變量。二、直線回歸的應(yīng)用條件要求Y變量呈正態(tài)分布95三、直線回歸方程式及回歸系數(shù):為Y的估計值,讀作‘Yhat’
a
:為截距,即時的值
b
:
為樣本回歸系數(shù)(直線的斜率);其統(tǒng)計學(xué)意義是X
每增加(減)一個單位Y
平均改變b個單位直線回歸方程的一般表達(dá)式為:即X取某一定數(shù)值時相應(yīng)Y的樣本均數(shù)(也是相應(yīng)Y的點(diǎn)估計值)
a、b是決定直線的兩個系數(shù)
三、直線回歸方程式及回歸系數(shù)96
回歸系數(shù)b
和截距a
的計算
根據(jù)最小二乘法原理(該法原理可保證各實(shí)測點(diǎn)至直線的縱向距離的平方和最小)可導(dǎo)出:為X和Y的離均差積和為X
的離均差平方和其中:回歸系數(shù)b和截距a的計算根據(jù)最小二乘法原97四、直線回歸分析的基本步驟繪制散點(diǎn)圖計算回歸系數(shù)b與截距a對回歸系數(shù)b進(jìn)行假設(shè)檢驗列出回歸方程
回歸直線的繪制四、直線回歸分析的基本步驟繪制散點(diǎn)圖計算回歸系數(shù)b與98五、回歸系數(shù)的統(tǒng)計推斷
回歸系數(shù)的假設(shè)檢驗
總體回歸系數(shù)β
的估計
五、回歸系數(shù)的統(tǒng)計推斷回歸系數(shù)的假設(shè)檢驗總體回歸系數(shù)β99回歸系數(shù)的假設(shè)檢驗
假設(shè)檢驗方法:t檢驗方差分析
r檢驗代替
回歸系數(shù)的假設(shè)檢驗假設(shè)檢驗方法:t檢驗方差分析r100
其中:
Sb
為回歸系數(shù)b的標(biāo)準(zhǔn)誤
SY.X
為剩余標(biāo)準(zhǔn)差,反映扣除了X
的影響后Y的變異
t檢驗其中:Sb為回歸系數(shù)b的標(biāo)準(zhǔn)誤t101例13-1
tb
檢驗步驟
H0
:
β=0,即體重和心臟橫徑間無直線回歸關(guān)系
H1:β≠0,即體重和心臟橫徑間有直線回歸關(guān)系
=0.05
b=0.2041,n=13,Sb=0.03098代入公式:查t值表,t0.05/2(11)=2.201,tb=6.59>2.201,則P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,可認(rèn)為該地8歲男孩體重與心臟橫徑間直線關(guān)系存在,所求線性回歸方程成立。
例13-1tb檢驗步驟H0:β=0,即102
r檢驗代替
在實(shí)際應(yīng)用中,如果已對相關(guān)系數(shù)進(jìn)行了假設(shè)檢驗,則可代替回歸系數(shù)的假設(shè)檢驗。對于同一資料,tr=tb即如果相關(guān)系數(shù)的假設(shè)檢驗有統(tǒng)計學(xué)意義,則回歸系數(shù)檢驗也有統(tǒng)計學(xué)意義,反之亦然。相關(guān)系數(shù)的假設(shè)檢驗方法比回歸系數(shù)假設(shè)檢驗方法簡便易做r檢驗代替在實(shí)際應(yīng)用中,如果已對相關(guān)系數(shù)進(jìn)行了103總體回歸系數(shù)的區(qū)間估計像樣本均數(shù)不一定恰好等于總體均數(shù)一樣,求得樣本回歸系數(shù)b以后,利用上述對回歸系數(shù)t檢驗的公式,可以較為容易的得到總體回歸系數(shù)β的1-α雙側(cè)可信區(qū)間為:
其中:
Sb
為回歸系數(shù)b的標(biāo)準(zhǔn)誤總體回歸系數(shù)的區(qū)間估計像樣本均數(shù)不一定恰好等于總體均104
其中:
SY.X
為剩余標(biāo)準(zhǔn)差,反映扣除了
X的影響后Y的變異
為殘差平方和
其中:SY.X為剩余標(biāo)準(zhǔn)差,反映扣除了105例13.1例13.1106總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間:即總體回歸系數(shù)β的95%雙側(cè)可信區(qū)間為:0.1359cm~0.2723cm
該區(qū)間不包括0,可按相應(yīng)的水準(zhǔn)同樣得到總體回歸系數(shù)不為0的結(jié)論,即用區(qū)間估計回答相同時的假設(shè)檢驗問題??傮w回歸系數(shù)β的95%雙側(cè)可信區(qū)間:即總體回歸系數(shù)β的107
描述兩變量的依存關(guān)系
利用回歸方程進(jìn)行預(yù)測
X—預(yù)報因子Y—預(yù)報量
利用個體Y值的容許區(qū)間方法進(jìn)行計算
利用回歸方程進(jìn)行統(tǒng)計控制
利用個體Y值的容許區(qū)間方法進(jìn)行計算五、直線回歸分析的應(yīng)用描述兩變量的依存關(guān)系五、直線回歸分析的應(yīng)用108不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線回歸分析應(yīng)繪制散點(diǎn)圖,當(dāng)觀察點(diǎn)的分布有直線趨勢時,才適宜作直線回歸分析。觀察異常點(diǎn)考慮回歸分析的應(yīng)用條件直線回歸方程的適用范圍一般以自變量的取值范圍為限,不可隨意外延。六、直線回歸分析的應(yīng)用注意事項不能把毫無關(guān)聯(lián)的兩種現(xiàn)象作直線回歸分析六、直線回歸分析的應(yīng)用109直線相關(guān)與直線回歸的區(qū)別與聯(lián)系
回歸要求自變量X是可以精確測量和嚴(yán)格控制的選定變量,對確定的X,應(yīng)變量Y是服從正態(tài)分布的隨機(jī)變量,只能由推算出,不能顛倒。相關(guān)要求X和Y均呈正態(tài)分布的資料。1、應(yīng)用條件不同區(qū)別直線相關(guān)與直線回歸的區(qū)別與聯(lián)系回歸要求自變量X110
相關(guān)反映兩變量的相互關(guān)系,是一種雙向變化的關(guān)系(即在兩個變量中,任何一個的變化都會引起另一個的變化)。
回歸是反映兩個變量間數(shù)量上的依存關(guān)系,只是一種由自變量估計應(yīng)變量的單向關(guān)系。3、意義不同2、用途不同研究兩變量間的相關(guān)關(guān)系用相關(guān);研究兩變量間依存變化的數(shù)量關(guān)系用回歸。區(qū)別相關(guān)反映兩變量的相互關(guān)系,是一種雙向變化3、意義不同1114、r與b的意義與取值范圍均不同,越大,散點(diǎn)圖中的各散點(diǎn)越趨向于回歸直線,表明兩變量間相關(guān)密切程度越強(qiáng);
b可以是任何實(shí)數(shù),越大,即回歸直線越陡,說明當(dāng)X變化一個單位時,Y的平均變化就越大。反之也是一樣。區(qū)別4、r與b的意義與取值范圍均不同112
r與b的方向一致
r與b的假設(shè)檢驗等價對同一組數(shù)據(jù)若同時計算r與b,其正負(fù)號是一致的。對同一樣本,r和b的假設(shè)檢驗得到的t值相等(即tr=tb
)。聯(lián)系r與b的方向一致r與b的假設(shè)檢驗等價113
r與b值可相互換算聯(lián)系r與b值可相互換算聯(lián)系114
用回歸解釋相關(guān)r2
的意義:
它反應(yīng)應(yīng)變量y的總變異中,可用回歸解釋的比例,反映回歸模型擬合效果的指標(biāo)聯(lián)系r的平方即為決定系數(shù)(coefficientofdetermination)用回歸解釋相關(guān)r2的意義:它反應(yīng)應(yīng)變量y的總變異中115小結(jié)直線相關(guān)直線回歸小結(jié)直線相關(guān)1161、根據(jù)樣本算得一相關(guān)系數(shù)r,經(jīng)t檢驗,P<0.01,說明r來自高度相關(guān)的相關(guān)總體()思考題是非題1、根據(jù)樣本算得一相關(guān)系數(shù)r,經(jīng)t檢驗,思考題是非題1172、兩變量間有直線回歸關(guān)系存在,即可認(rèn)為兩變量間有因果關(guān)系()思考題是非題2、兩變量間有直線回歸關(guān)系存在,即可思考題是非題118思考題3、相關(guān)分析和回歸分析有何不同?3、
回歸系數(shù)b和截距a分別表示什么意義?預(yù)習(xí):第十六章、常用的統(tǒng)計圖和統(tǒng)計表思考題3、相關(guān)分析和回歸分析有何不同?3、回歸系數(shù)b119謝謝!謝謝!120相關(guān)關(guān)系示意:0<r<1-1<r<0正相關(guān)負(fù)相關(guān)-1<r<00<r<1
-1<r<0
相關(guān)關(guān)系示意:0<r<1-1<r<0正相關(guān)負(fù)121相關(guān)關(guān)系示意:r=0r=0非線性相關(guān)非線性相關(guān)相關(guān)關(guān)系示意:r=0r=0非線性相關(guān)非線性相關(guān)122相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)123相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)r=0r=0r=0零相關(guān)零相關(guān)零相關(guān)相關(guān)關(guān)系示意:r=1r=-1完全正相關(guān)完全負(fù)相關(guān)r124例12-1
tr
檢驗步驟
H0:
=0,即7歲男孩體重和胸圍間無直線相關(guān)關(guān)系
H1:
≠0,即7歲男孩體重和胸圍間有直線相關(guān)關(guān)系
=0.05
r=0.8343,n=16,代入公式:查t值表,t0.05/2(14)=2.145,tr=5.6623>2.145,則P<0.05,按=0.05水準(zhǔn)拒絕H0,接受H1,差異有統(tǒng)計學(xué)意義,可認(rèn)為體重和胸圍之間有正相關(guān)關(guān)系。
例12-1tr檢驗步驟H0:=0,125
查表法r=0.8343,ν=16-2=14,查r界值表(P349附表14)
r0.05(14)=0.497r=0.8343
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度企業(yè)財務(wù)重組與破產(chǎn)清算服務(wù)合同3篇
- 2025年度智慧家居系統(tǒng)搭建與智能家居服務(wù)合同4篇
- 二零二五年度工業(yè)用地出租合同書
- 2025年度門診醫(yī)生競業(yè)限制與醫(yī)療技術(shù)保密協(xié)議
- 二零二五版財產(chǎn)分割離婚協(xié)議含離婚后財產(chǎn)增值監(jiān)控機(jī)制2篇
- 2025年度新型木結(jié)構(gòu)建筑木工安裝專業(yè)合同書4篇
- 二零二五年度商用美的中央空調(diào)銷售與綜合維護(hù)服務(wù)合同4篇
- 二零二五年度交通事故債務(wù)財產(chǎn)分割與債務(wù)賠償協(xié)議3篇
- 2025年個人意外傷害保險代繳服務(wù)合同樣本4篇
- 二零二五年度房地產(chǎn)企業(yè)股權(quán)托管及運(yùn)營合同
- 2024年人教版小學(xué)三年級信息技術(shù)(下冊)期末試卷附答案
- TB 10012-2019 鐵路工程地質(zhì)勘察規(guī)范
- 新蘇教版三年級下冊科學(xué)全冊知識點(diǎn)(背誦用)
- 鄉(xiāng)鎮(zhèn)風(fēng)控維穩(wěn)應(yīng)急預(yù)案演練
- 腦梗死合并癲癇病人的護(hù)理查房
- 蘇教版四年級上冊脫式計算300題及答案
- 犯罪現(xiàn)場保護(hù)培訓(xùn)課件
- 扣款通知單 采購部
- 電除顫操作流程圖
- 湖北教育出版社三年級下冊信息技術(shù)教案
- 設(shè)計基礎(chǔ)全套教學(xué)課件
評論
0/150
提交評論