線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸Spearman等級相關(guān)學(xué)習(xí)教案_第1頁
線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸Spearman等級相關(guān)學(xué)習(xí)教案_第2頁
線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸Spearman等級相關(guān)學(xué)習(xí)教案_第3頁
線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸Spearman等級相關(guān)學(xué)習(xí)教案_第4頁
線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸Spearman等級相關(guān)學(xué)習(xí)教案_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、線性相關(guān)與回歸簡單線性相關(guān)與回歸簡單(jindn)線性相關(guān)與線性相關(guān)與回歸多重線性回歸回歸多重線性回歸Spearman等級相關(guān)等級相關(guān)第一頁,共62頁。第1頁/共62頁第二頁,共62頁。內(nèi)容:多重線性回歸分析簡單線性相關(guān)與回歸Spearman等級相關(guān)特例第2頁/共62頁第三頁,共62頁。(一)直線(zhxin)回歸(linear regression)1.定義:用直線方程表達(dá)X(自變量(binling),independent variable;解釋變量(binling),explanatory variable;預(yù)測變量(binling),predictor variable )和Y (因變

2、量(binling),dependent variable;響應(yīng)變量(binling),response variable;結(jié)局變量(binling),outcome variable )之間的數(shù)量關(guān)系。一、簡單(jindn)線性相關(guān)與回歸第3頁/共62頁第四頁,共62頁。第4頁/共62頁第五頁,共62頁。YabXY:是Y(實測值)的預(yù)測值(predicted value),是直線上點的縱坐標(biāo)。對于每一個X值,根據(jù)直線回歸方程都可以計算出相應(yīng)的Y預(yù)測值。(具體計算過程參見(cnjin)衛(wèi)生統(tǒng)計學(xué)第4版)。第5頁/共62頁第六頁,共62頁。2.b和a的意義(yy)a:是回歸直線在Y軸上的截距,即

3、X0時Y的預(yù)測值。b:是回歸直線的斜率,又稱為回歸系數(shù)。 表示(biosh)當(dāng)X改變一個單位時,Y的預(yù)測值平均改變|b|個單位。3.b和a的估計(gj)最小二乘方法(the method of least squares):各實測點到直線的縱向距離的平方和最小。第6頁/共62頁第七頁,共62頁。4.b的假設(shè)檢驗: b為樣本(yngbn)回歸系數(shù),由于抽樣誤差,實際工作中b一般都不為0。要判斷直線回歸方程是否成立,需要檢驗總體回歸系數(shù)是否為0。只有(zhyu)當(dāng)0時,才能認(rèn)為直線回歸方程成立(具有統(tǒng)計學(xué)意義)。H0:=0 H1:0bbtS方法一:t檢驗方法二:F檢驗MSFMS回歸剩余兩種方法等價

4、,F(xiàn)t第7頁/共62頁第八頁,共62頁。5.直線(zhxin)回歸方程的置信區(qū)間估計(1)總體(zngt)回歸系數(shù)的95置信區(qū)間估計0.05/2,2nbbts(2) Y的均數(shù)的95置信區(qū)間估計(gj)當(dāng)XX0時,以95的概率估計(gj)Y的均數(shù)的置信區(qū)間為0.05/2,2nYYts(3)個體Y值的95容許區(qū)間估計當(dāng)XX0時,以95的概率估計個體Y值的波動范圍為0.05/2,2nY YYts第8頁/共62頁第九頁,共62頁。1.定義描述具有直線關(guān)系的兩個變量(binling)之間的相互關(guān)系。 (二)直線(zhxin)相關(guān)(linear correlation)r:相關(guān)系數(shù),correlation

5、 coefficient用來衡量有直線(zhxin)關(guān)系的兩個變量之間相關(guān)的密切程度和方向。-1r1r0,正相關(guān);r=1為完全正相關(guān)r 0,負(fù)相關(guān);r=-1為完全負(fù)相關(guān)|r|越大,兩變量相關(guān)越密切(前提:r有統(tǒng)計學(xué)意義)第9頁/共62頁第十頁,共62頁。2.相關(guān)(xinggun)類型正相關(guān)(xinggun):0r1負(fù)相關(guān)-1r0第10頁/共62頁第十一頁,共62頁。零相關(guān)(xinggun) r =02.相關(guān)(xinggun)類型曲線相關(guān)第11頁/共62頁第十二頁,共62頁。r為樣本相關(guān)系數(shù),由于抽樣誤差,實際工作中r一般都不為0。要判斷兩變量之間是否存在相關(guān)性,需要檢驗(jinyn)總體相關(guān)系

6、數(shù)是否為0。212rrrtsrn只有(zhyu)當(dāng)0時,才能根據(jù)|r|的大小判斷相關(guān)的密切程度。3.r的假設(shè)檢驗H0:=0 H1: 0第12頁/共62頁第十三頁,共62頁。4.相關(guān)與回歸(hugu)的區(qū)別和聯(lián)系(1)相關(guān)與回歸的意義不同(b tn) 相關(guān)表達(dá)兩個變量之間相互關(guān)系的密切程度和方向?;貧w表達(dá)兩個變量之間的數(shù)量關(guān)系,已知X值可以預(yù)測Y值。從散點圖上,散點圍繞回歸直線的分布越密集,則兩變量相關(guān)系數(shù)越大;回歸直線的斜率越大,則回歸系數(shù)越大。(2)r與b的符號一致 同正同負(fù)。(3)r與b的假設(shè)檢驗等價(dngji)第13頁/共62頁第十四頁,共62頁。(4) 可以用回歸解釋(jish)相關(guān)

7、2SSrSS回歸總r2稱為決定系數(shù)(coefficient of determination), 其越接近于1,回歸直線(zhxin)擬和的效果越好。4.相關(guān)(xinggun)與回歸的區(qū)別和聯(lián)系第14頁/共62頁第十五頁,共62頁。例1 為研究中年女性體重指數(shù)和收縮壓的關(guān)系,隨機(jī)(su j)測量了16名40歲以上的女性的體重指數(shù)和收縮壓(見數(shù)據(jù)文件p237.sav)。變量說明:X:體重指數(shù);Y:收縮壓(mmHg)。1.繪制(huzh)散點圖散點圖顯示:收縮壓與體重(tzhng)指數(shù)之間有線性相關(guān)趨勢,因此可以進(jìn)一步做直線回歸與相關(guān)第15頁/共62頁第十六頁,共62頁。2.直線回歸與相關(guān)分析Re

8、gression, 回歸 Linear, 線性第16頁/共62頁第十七頁,共62頁。2.直線回歸與相關(guān)分析因變量自變量第17頁/共62頁第十八頁,共62頁。P值相關(guān)系數(shù)r決定系數(shù)r2調(diào)整r2截距a回歸系數(shù)bsb標(biāo)準(zhǔn)化回歸系數(shù)t值P值F值第18頁/共62頁第十九頁,共62頁。3.直線回歸的預(yù)測及置信區(qū)間估計給定XX0,預(yù)測Y第19頁/共62頁第二十頁,共62頁。3.直線回歸的預(yù)測及置信區(qū)間估計因變量自變量統(tǒng)計保存(產(chǎn)生新變量,保存在當(dāng)前數(shù)據(jù)庫)第20頁/共62頁第二十一頁,共62頁。3.直線回歸的預(yù)測及置信區(qū)間估計總體回歸系數(shù)的置信區(qū)間估計第21頁/共62頁第二十二頁,共62頁。3.直線回歸的預(yù)

9、測及置信區(qū)間估計預(yù)測值非標(biāo)準(zhǔn)化預(yù)測區(qū)間Y的均數(shù)個體Y值第22頁/共62頁第二十三頁,共62頁??傮w回歸系數(shù)的95置信區(qū)間預(yù)測值殘差3.直線回歸的預(yù)測及置信區(qū)間估計第23頁/共62頁第二十四頁,共62頁。3.直線回歸的預(yù)測及置信區(qū)間估計X0Y的預(yù)測值Y的均數(shù)的置信區(qū)間的下限及上限個體Y值的容許區(qū)間的下限及上限第24頁/共62頁第二十五頁,共62頁。例2:由于改革開放政策,深圳特區(qū)中外來人口大幅度增加,為了考察特區(qū)中外來人口對本地經(jīng)濟(jì)發(fā)展的貢獻(xiàn),深圳特區(qū)統(tǒng)計局收集了所屬的寶安縣在1987年末18個鎮(zhèn)的人口與工農(nóng)業(yè)總產(chǎn)值數(shù)據(jù)(shj)(見數(shù)據(jù)(shj)文件reg.sav)。此處把工農(nóng)業(yè)總產(chǎn)值當(dāng)作因變

10、量(W),而把外地及本地人口數(shù)當(dāng)作兩個自變量(Z1,Z2)。二、多重線性回歸(hugu)分析(有關(guān)統(tǒng)計方法的原理(yunl)及計算參見孫尚拱,醫(yī)學(xué)多變量統(tǒng)計與統(tǒng)計軟件,北京醫(yī)科大學(xué)出版社,2000)第25頁/共62頁第二十六頁,共62頁。數(shù)據(jù)文件reg.sav第26頁/共62頁第二十七頁,共62頁。1.如何估計自變量與因變量之間的相互關(guān)系?(估計回歸方程)2.哪些自變量對因變量有影響?(影響因素分析)3.哪一個自變量對因變量的影響更重要?(自變量的相對(xingdu)重要性分析)4.如何用自變量預(yù)測因變量?(預(yù)測分析)(一)多重回歸(hugu)分析的任務(wù)第27頁/共62頁第二十八頁,共62頁。

11、(二)多重回歸分析(fnx)的適用條件1.自變量與因變量之間存在線性關(guān)系2.殘差的正態(tài)性3.殘差的等方差(fn ch)性4.剔除強(qiáng)影響點(突出點,outliers)5.自變量之間不應(yīng)存在共線性6.獨立性第28頁/共62頁第二十九頁,共62頁。關(guān)于獨立性:所有的觀測值是相互獨立的。如果受試對象僅被隨機(jī)觀測一次,那么一般都會滿足獨立性的假定。但是出現(xiàn)下列三種情況時,觀測值不是相互獨立的:時間序列、重復(fù)測量(cling)等情況。SPSS軟件在“Linear Regression:Statistics”對話框中,提供了Durbin-Watson統(tǒng)計量d,以檢驗自相關(guān)系數(shù)是否為0。當(dāng)d值接近于2,則殘差

12、之間是不相關(guān)的。第29頁/共62頁第三十頁,共62頁。1.如何估計自變量與因變量之間的相互(xingh)關(guān)系?(估計回歸方程)01 122.mmybb xb xb x01 122.mmybb xb xb x其中y為實測值, 為預(yù)測值(predicted value) y估計模型(mxng)中系數(shù)的方法:最小二乘方法(Least Square,LS),即殘差平方和最小。b1, b2. bm稱為偏回歸系數(shù)(partial regression coefficient) :當(dāng)固定其他(qt)變量時,xm每增加一個單位,y的增加值都是bm。 (一)多重回歸分析的任務(wù)第30頁/共62頁第三十一頁,共62

13、頁。模型(mxng)擬和的優(yōu)良性指標(biāo)R:復(fù)相關(guān)系數(shù),反映了Y與M個自變量的總體相關(guān)系數(shù);R2:決定系數(shù)(R Square)R2c:調(diào)整(tiozhng)決定系數(shù)(Adjusted R square ),是對決定系數(shù)的修正,是更客觀的指標(biāo)。 這些指標(biāo)越接近于1,說明回歸模型擬合越好。 除了(ch le)上述指標(biāo),還有殘差標(biāo)準(zhǔn)誤s,殘差標(biāo)準(zhǔn)差越小,說明回歸模型擬合越好。 第31頁/共62頁第三十二頁,共62頁。2.哪些自變量對因變量有影響?(影響因素(yn s)分析)對回歸(hugu)模型的統(tǒng)計檢驗1regSSnmFmSSE當(dāng)P0.05,則認(rèn)為此回歸(hugu)模型有顯著性。對自變量的統(tǒng)計檢驗/(

14、 )iitbse b當(dāng)P0.05,則認(rèn)為此自變量對因變量有影響。第32頁/共62頁第三十三頁,共62頁。自變量的篩選(shixun)實際應(yīng)用中,通常從專業(yè)知識出發(fā),建立一個簡約(parsimonious)的回歸模型,即用盡可能少的自變量擬合模型。 常用(chn yn)方法:1.前進(jìn)法(Forward):逐步增加變量到模型中(由少到多),對已經(jīng)進(jìn)入的變量不再剔除;SPSS中默認(rèn)的選入自變量的檢驗水準(zhǔn)為0.05。2.后退法(Backward):從模型中逐步剔除變量(由多到少),對已經(jīng)剔除的變量不再進(jìn)入;SPSS中默認(rèn)的剔除自變量的檢驗水準(zhǔn)為0.10。 3.逐步法(Stepwise):結(jié)合了前進(jìn)法和

15、后退法,變量邊進(jìn)入邊剔除。第33頁/共62頁第三十四頁,共62頁。3.哪一個自變量對因變量的影響更重要?(自變量的相對(xingdu)重要性分析)當(dāng)自變量的量綱相同時,衡量自變量相對重要性的指標(biāo): 偏回歸系數(shù);若偏回歸系數(shù)的絕對值越大,則相應(yīng)(xingyng)自變量對因變量的影響就越大。第34頁/共62頁第三十五頁,共62頁。當(dāng)自變量的量綱不同時,衡量自變量相對重要性的指標(biāo):標(biāo)準(zhǔn)化偏回歸系數(shù)(Standardized regression coefficient)、偏相關(guān)系數(shù)(Partial Correlation)和部分相關(guān)系數(shù)(Part Correlation)。上述(shngsh)指標(biāo)的

16、絕對值越大,則相應(yīng)自變量對因變量的影響就越大。 第35頁/共62頁第三十六頁,共62頁。標(biāo)準(zhǔn)化偏回歸系數(shù):對自變量、因變量作標(biāo)準(zhǔn)化處理(chl)后計算的回歸系數(shù)。偏相關(guān)系數(shù):因變量與自變量均扣除其他自變量影響之后,二者之間的相關(guān)系數(shù)。與簡單相關(guān)系數(shù)(Pearson相關(guān)系數(shù))不同;例如:考察因變量Y與自變量X1 、X2的多元回歸分析,Y與X1的偏相關(guān)系數(shù)為扣除X2影響后的Y與X1的相關(guān)性。 Y與X1的簡單相關(guān)系數(shù)為忽略X2影響后的Y與X1的相關(guān)性。部分相關(guān)系數(shù):自變量扣除其他自變量影響之后,因變量與自變量之間的相關(guān)系數(shù)。與偏相關(guān)系數(shù)不同,部分相關(guān)系數(shù)中因變量未扣除其他自變量的影響。 第36頁/共

17、62頁第三十七頁,共62頁。4.如何用自變量預(yù)測(yc)因變量?(預(yù)測(yc)分析)000001 122.mmybb xb xb x當(dāng)自變量取某個(mu )數(shù)值時,y的預(yù)測值為Y的均數(shù)的95置信區(qū)間個體Y值的95容許區(qū)間預(yù)測分析時,(x10,x20 xm0)應(yīng)該(ynggi)在樣本的自變量取值范圍內(nèi)。 第37頁/共62頁第三十八頁,共62頁。1.自變量與因變量之間存在(cnzi)線性關(guān)系通過繪制y與每個自變量的偏相關(guān)散點圖,可以判斷y與自變量之間是否(sh fu)存在線性關(guān)系。 2.殘差的正態(tài)性通過繪制(huzh)標(biāo)準(zhǔn)化殘差的直方圖以及正態(tài)概率圖(P-P圖),可以判斷y是否服從正態(tài)分布。此條件

18、可以放寬,只要不是嚴(yán)重偏離正態(tài)即可。3.殘差的等方差性通過繪制標(biāo)準(zhǔn)化殘差與預(yù)測值的散點圖,若標(biāo)準(zhǔn)化殘差在零水平線上下波動,無明顯的規(guī)律性,則可以判斷y滿足等方差的假定。 (二)多重回歸分析的適用條件第38頁/共62頁第三十九頁,共62頁。通過標(biāo)準(zhǔn)化殘差(Standardized Residuals)、學(xué)生(xu sheng)氏殘差(Studentlized Residuals)來判斷強(qiáng)影響點 。當(dāng)指標(biāo)的絕對值大于3時,可以認(rèn)為樣本存在強(qiáng)影響點。刪除強(qiáng)影響點應(yīng)該慎重,需要結(jié)合專業(yè)知識。以下兩種情況可以考慮刪除強(qiáng)影響點:1.強(qiáng)影響點是由于數(shù)據(jù)記錄錯誤造成的;2.強(qiáng)影響點來自不同的總體。4.剔除(t

19、ch)強(qiáng)影響點(Influential cases;或稱為突出點,outliers)第39頁/共62頁第四十頁,共62頁。5.自變量之間不應(yīng)存在(cnzi)共線性(Collinear) 當(dāng)一個(或幾個)自變量可以由其他(qt)自變量線性表示時,稱該自變量與其他(qt)自變量間存在共線性關(guān)系。常見于:1.一個變量是由其他(qt)變量派生出來的,如:BMI由身高和體重計算得出 ;2.一個變量與其他(qt)變量存在很強(qiáng)的相關(guān)性。當(dāng)自變量之間存在共線性時,會使回歸系數(shù)的估計不確定、預(yù)測值的精度降低以及對y有影響的重要自變量不能選入模型 。第40頁/共62頁第四十一頁,共62頁。共線性診斷方法:1.TO

20、L(容許度,Tolerance)法:TOL越接近零,共線性越大。2.VIF(方差膨脹因子,Variance Inflation Factor,VIF )法:VIF越大,共線性越大。3.特征根(Eigenvalue)法:如果自變量相關(guān)矩陣的特征根近似于零,則自變量之間存在共線性。4.CI(條件指數(shù),Condition Index)法:CI越大,共線性越大。當(dāng)自變量之間存在共線性時,可以剔除某個自變量或者采用嶺回歸(hugu)分析(Ridge Regression Analysis)。第41頁/共62頁第四十二頁,共62頁。1. 數(shù)據(jù)(shj)預(yù)處理:根據(jù)經(jīng)濟(jì)學(xué)專業(yè)知識,需要先對Z1、Z2、W作對

21、數(shù)變換,分別記為X1、X2、Y。(三)多重線性回歸:實例(shl)分析變換后的數(shù)據(jù)第42頁/共62頁第四十三頁,共62頁。回歸線性2.多重回歸(hugu)分析第43頁/共62頁第四十四頁,共62頁。因變量自變量第44頁/共62頁第四十五頁,共62頁。Statistics對話框回歸系數(shù)的估計模型擬和共線性診斷部分相關(guān)與偏相關(guān)系數(shù)統(tǒng)計描述第45頁/共62頁第四十六頁,共62頁。Plots對話框標(biāo)準(zhǔn)化殘差圖直方圖正態(tài)概率圖,P-P圖繪制所有的偏相關(guān)圖 第46頁/共62頁第四十七頁,共62頁。Save對話框第47頁/共62頁第四十八頁,共62頁。分別給出Y、X1、X2的均數(shù)與標(biāo)準(zhǔn)差相關(guān)系數(shù)陣簡單相關(guān)系

22、數(shù)(Pearson相關(guān))P值從簡單相關(guān)系數(shù)可見:Y與X1、X2存在(cnzi)較強(qiáng)相關(guān)性,X1、X2存在(cnzi)中等相關(guān)性。3.輸出(shch)結(jié)果解釋第48頁/共62頁第四十九頁,共62頁。復(fù)相關(guān)系數(shù) 決定系數(shù) 調(diào)整決定系數(shù)F值P值此模型的復(fù)相關(guān)系數(shù)為0.857,調(diào)整決定系數(shù)為0.699,反映(fnyng)此模型擬和較好;模型經(jīng)統(tǒng)計學(xué)檢驗,F(xiàn)=20.738,P0.05,說明此多元回歸模型有顯著性。第49頁/共62頁第五十頁,共62頁。非標(biāo)準(zhǔn)化系數(shù) 標(biāo)準(zhǔn)化系數(shù) t值 P值簡單相關(guān) 偏相關(guān) 部分相關(guān)TolVIF6.8890.695 1 0.8382yXX 經(jīng)統(tǒng)計學(xué)檢驗,X1與X2均有顯著性,

23、因此回歸模型為 ;根據(jù)偏回歸系數(shù)的大小,可以認(rèn)為(rnwi)X2對Y的影響比X1大。第50頁/共62頁第五十一頁,共62頁。特征根條件指數(shù), CI方差比例共線性診斷共線性診斷:兩個(lin )自變量之間不存在共線性。第51頁/共62頁第五十二頁,共62頁。因為標(biāo)準(zhǔn)化殘差、學(xué)生(xu sheng)化殘差的絕對值小于3,所以從統(tǒng)計學(xué)上認(rèn)為樣本不存在強(qiáng)影響點。殘差統(tǒng)計量學(xué)生化殘差標(biāo)準(zhǔn)化殘差第52頁/共62頁第五十三頁,共62頁。直方圖及P-P圖從殘差直方圖及P-P圖可見:殘差正態(tài)性不太好,可能(knng)與樣本量太小有關(guān)。第53頁/共62頁第五十四頁,共62頁。通過繪制y與X1的偏相關(guān)散點圖,可以(ky)判斷y與X1之間存在線性關(guān)系。 第54頁/共62頁第五

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論