醫(yī)學統(tǒng)計學-回歸與相關_第1頁
醫(yī)學統(tǒng)計學-回歸與相關_第2頁
醫(yī)學統(tǒng)計學-回歸與相關_第3頁
醫(yī)學統(tǒng)計學-回歸與相關_第4頁
醫(yī)學統(tǒng)計學-回歸與相關_第5頁
已閱讀5頁,還剩99頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

醫(yī)學統(tǒng)計學歡迎學習2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

醫(yī)學統(tǒng)計學

第十一章回歸與相關分析

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

本章學習重點1、直線回歸與相關的概念;2、直線回歸方程的建立;3、回歸系數(shù)、相關系數(shù)的建設檢驗;4、直線回歸與相關的區(qū)別和聯(lián)系;5、直線回歸與相關的應用。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編回歸與相關概述什么是標準體重,如何測量?

男性:身高(cm)-105=標準體重(kg)女性:身高(cm)-100=標準體重(kg)

北方人理想體重=(身高cm-150)×0.6+50(kg)南方人理想體重=(身高cm-150)×0.6+48(kg)2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

回歸與相關是研究變量之間相互關系的統(tǒng)計分析方法,它是一類雙變量或多變量統(tǒng)計分析方法(本章主要介紹雙變量分析方法),在實際之中有著廣泛的應用。如年齡與體重、年齡與血壓、身高與體重、體重與肺活量、體重與體表面積、毒物劑量與動物死亡率、污染物濃度與污染源距離等都要運用回歸與相關方法對資料進行統(tǒng)計分析。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

變量之間的關系:(1)直線關系(線性關系);(2)曲線關系(非線性關系)。在回歸與相關分析中,直線回歸與相關是最簡單的一種,是本章主要內(nèi)容。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編直線回歸分析:分析兩個變量間的數(shù)量關系,目的是用一個變量推算另一個變量(建立回歸方程)。

直線相關分析:分析兩個變量之間有無相關關系以及相關的性質(zhì)(正、負相關)和相關的密切程度。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編第一節(jié)直線回歸

一、直線回歸的概念“回歸”一詞首先由英國生物統(tǒng)計學家S.F.Galton(1885)提出,他發(fā)現(xiàn),高個子的父代其子代平均身高不是更高,而是稍矮;相反,矮個子的父代其子代平均身高不是更矮,而是稍高于其父代水平,他把這種身高趨向種族穩(wěn)定的現(xiàn)象稱為“回歸”。目前回歸的含義已經(jīng)演變成變量之間的某種數(shù)量依存關系。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編函數(shù)關系:確定的關系。例如園周長與半徑:y=2πr?;貧w關系:不確定的關系(隨機的關系)。例如血壓和年齡的關系,稱為直線回歸(linearregression)。

北方人理想體重=(身高cm-150)×0.6+50(kg)

變量間的關系2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

變量間的回歸關系

由于生物間存在變異,故兩相關變量之間的關系具有某種不確定性,如同性別、同年齡的人,其肺活量與體重有關,肺活量隨體重的增加而增加,但體重相同的人其肺活量并不一定相等。因此,散點呈直線趨勢,但并不是所有的散點均在同一條直線上,肺活量與體重的關系與嚴格對應的函數(shù)關系不同,它們之間是一種回歸關系,稱直線回歸。這種關系是用直線回歸方程來定量描述。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編回歸分析涉及到兩個變量,X與Y,其中X稱自變量,Y為因變量或反應變量?;貧w分析對資料的要求Y—必須是呈正態(tài)分布的隨機變量。可以是非隨機變量:年齡、藥物濃度或劑量—Ⅰ型回歸也可以是隨機變量:身高、體重、血清膽固醇的含量,血紅蛋白的含量—Ⅱ型回歸X2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

X與Y:年齡與身高藥物劑量與動物死亡率肺活量與體重身高與體重、年齡與體重、年齡與血壓、體重與體表面積、毒物劑量與動物死亡率、污染物濃度與污染源距離2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編例如:年齡(X)與尿肌酐含量(Y)研究;身高(X)與(Y)體重研究人為確定隨機變量兩個都是隨機變量2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編由X推算Y的直線回歸方程一般表達式(11-1)a稱為截距,b為回歸系數(shù),即直線的斜率。ab>0yx2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編2、回歸系數(shù)b的統(tǒng)計學意義b>0時,Y隨X增大而增大;b<0時,Y隨X的增大而減少;b=0時,X與Y無直線關系。b的統(tǒng)計學意義是:X每增(減)一個單位,Y平均改變b個單位。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編b>0b<0b>0b<0d2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編b=0b=0b=0b=0d2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

二、直線回歸方程的建立

式中、分別是X、Y的均數(shù);為X的離均差平方和;為X與Y的離均差積和,按下式計算。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編回歸分析的步驟1、用原始數(shù)據(jù)繪制散點圖;2、求a和b(如果呈直線關系)3、對回歸系數(shù)b作假設檢驗(方法:a.F檢驗b.t檢驗c.用r檢驗來代替)。

4、如果x與y存在直線關系(b假設檢驗的結(jié)果P<0.05),列出回歸方程。否則,不列回歸方程。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編例11.12/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

(1)畫散點圖2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編求ΣX、ΣY、ΣX2、ΣY2及ΣXY;本例:ΣX=592.6、ΣY=1428.70;ΣX2=41222.14,ΣY2=220360.47;ΣXY=91866.46計算、、lxx、lyy、lxy;(2)計算a、b2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編(4)列出回歸方程:(3)對回歸系數(shù)b作假設檢驗(見下)2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

三、回歸系數(shù)b的假設檢驗

所建立的回歸方程,不一定都有意義,必須對回歸方程和回歸系數(shù)進行假設檢驗。直線回歸方程一般只對回歸系數(shù)進行假設檢驗。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

P(X,Y)

Y

X

圖11.2應變量Y的平方和劃分示意

Y的離均差平方和的劃分2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編P為散點圖上任意一點,其縱向距離(縱坐標)被回歸直線和Y值的均數(shù)分割三段:第一段:表示P點與回歸直線的縱向距離,即實測值Y與估計值之差,稱剩余或殘差。第二段:即估計值與均數(shù)之差,它與回歸系數(shù)的大小有關。|b|值越大,的差值也越大,反之越小。當b=0時,則=也就是回歸直線并不能使殘差減小。第三段:,是應變量Y的均數(shù)。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編上述三個線段的代數(shù)和為:=++

移項得:=+對上式兩邊同時平方后求和可以得到:其中:稱總平方和,用SS總表示,稱回歸平方和,用SS回表示;稱剩余平方和,用SS剩表示。

1、三種平方和的關系是:SS總=SS回+SS剩

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編2、三種平方和的意義(1)SS總,為Y值的離均差平方和,說明未考慮X與Y的回歸關系時Y總的變異。(2)SS回,它反映在Y的變異中由于X與Y的直線關系而使Y變異減少的部分,也是在總平方和中可以用X解析的部分。SS回越大,說明回歸效果越好。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編3、三種平方和的自由度及其關系如下

υ總=n-1,υ回=1,υ剩=n-2υ總=υ回+υ剩

(3)SS剩,反映X對Y的線性影響之外其它因素對Y的變異的作用,也是在總平方和中無法用X解析的部分。SS剩越小,說明回歸方程的估計誤差越小。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編SS回及SS剩的計算方法

1、先計算SS剩,再反推SS回SS剩的計算采用直接法進行,見表11.1;SS剩=7746.2189,SS總=16242.101,則SS回=SS總-SS剩=16242.101-7746.2189=8495.8821。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編2、先計算SS回,再反推SS剩SS回=blxy=(lxy)2/lxx本例lxx=6104.664,lxy=7201.70,lyy=16242.101,則SS回=(7201.70)2/6104.664=8495.878379SS剩=SS總-SS回=16242.101-8495.878379=7746.222622/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

(三)b的假設檢驗方法

1、方差分析方法將SS總分解為SS回和SS剩兩部分后,按下式計算F值:MS回,MS剩分別為回歸均方及剩余均方,求出F值后查F界值表確定P值,按所取檢驗水準推斷結(jié)論。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編2、t檢驗法按下列公式計算t值:上式中,Sb為樣本回歸系數(shù)的標準誤,Sy.x為剩余標準差,也稱回歸標準差,它表示應變量Y的觀察值對于回歸直線的離散程度;Sy.x可以作為回歸方程估計的精度指標。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編(四)例1.1回歸系數(shù)b的假設檢驗

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編1、t檢驗方法假設及檢驗水準H0:β=0H1:β≠0α=0.05本例n=10,SS剩=7746.2189

,lxx=306.6667,b=1.17972/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

按v=8查t界值表得,t0.02,8=2.821,t0.01,8=3.2501由于t0.01,8>t>t0.02,8,故0.02>P>0.01,按α=0.05水準,拒絕H0,接受H1,故可以認為SAH患者血清IL-6和腦積液IL-6之間有直線關系,所求回歸方程存在。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

2、方差分析方法

假設及檢驗水準同前

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編方差分析表

變異來源自由度SSMSFP

回歸18495.8838495.8838.7740.018殘差87746.2161968.277總變異916242.1000注意:t2=F2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編按v1=1,v2=8,查F界值表得,F(xiàn)0.05,1,8=5.32,F0.01,1,8=11.26,0.05>P>0.01,按α=0.05水準,拒絕H0,接受H1,故可以認為SAH患者血清IL-6和腦積液IL-6之間有直線關系,所求回歸方程存在。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編直線回歸分析的區(qū)間估計(一)總體回歸系數(shù)β的估計用樣本回歸系數(shù)b估計總體回歸系數(shù)β,方法如下:β95%可信區(qū)間是:(b-t0.05,(n-2)Sb,b+t0.05,(n-2)Sb),縮寫為b±t0.05,(n-2)Sb

Sb為回歸系數(shù)的標準誤,n-2為自由度。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

(二)總體均數(shù)

的區(qū)間估計是總體中當X為某定值X0時Y的總體均數(shù)。而將X的值代入回歸方程中所求得的為樣本均數(shù),是的估計值。比如,SAH患者(指總體),血清IL-6為50的人,其腦脊液IL-6平均含量就是,而往往未知,可以通過來估計,計算方法如下:2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編(1-)的可信區(qū)間是:(-tα,n-2,+tα,n-2),縮寫為±tα,n-2

是的標準誤。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編例11.4利用例11.1的結(jié)果,計算當X0=50時,的95%可信區(qū)間。的95%可信區(qū)間為:(109.43,154.47)其含義是:當血清IL-6為50時,腦脊液的IL-6的總體均數(shù)為131.95(點值估計),95%可信區(qū)間為:109.43-154.47(區(qū)間估計)。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編(三)個體值Y的容許區(qū)間當即總體中,當X為某定值時,個體值Y的波動范圍,個體值Y的離散程度用Sy(稱個體值的標準差)來表示,其計算方法如下:當X與接近,且n充分大時,可用Sy.x代替Sy。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編個體值Y的1-α容許區(qū)間計算方法如下:2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編例11.4利用例11.1的結(jié)果,計算當X0=50時,相應個體值的95%容許區(qū)間。經(jīng)計算,得:當X0=50時,相應個體值的95%容許區(qū)間為:(56.73,207.16)其含義是:當血清IL-6為50時,有95%的病人其腦脊液的IL-6的含量在56.73-207.16范圍內(nèi)。即在100個血清IL-6為50的病人中,有95個病人的腦脊液的IL-6的含量在56.73-207.16范圍內(nèi)。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編四、直線回歸方程的應用1、描述兩變量間依存的數(shù)量關系。=72.961+1.1797X就是描述SAH患者第1天腦脊液IL-6隨血清IL-6變化的定量表達式。2、利用回歸方程進行預測這是回歸方程重要的應用方面。將預報因子(自變量X)代入回歸方程,對預報量(應變量Y)進行估計。預報量的波動范圍可按求個體值Y的容許區(qū)間進行計算。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編例某地防疫站根據(jù)近10年來乙腦發(fā)病率(1/10萬,預報量Y)與相應前一年7月份日照時間(小時,預報因子X)建立回歸方程,將乙腦發(fā)病率作平方根反正弦變換,即取y=sin-1,求得回歸方程:=-1.197+0.0068X,Sy.x=0.0223,=237.43,lxx=5690,n=10。已知1990年7月份日照時間X=260,試估計1991年該地乙腦發(fā)病率(設α=0.05)。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

(1)、求個體值Y的離散度Sy

(2)、求X=260時,=-1.197+0.0068(260)=0.571α=0.05時,t0.05,8=2.30695%容許區(qū)間是:(-t0.05(n-2)Sy,+t0.05(n-2)Sy)(0.571-2.306×0.0243,0.571+2.306×0.0243)=(0.5150,0.6270)2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編取原函數(shù),Y=(siny)2,得乙腦發(fā)病率95%容許區(qū)間(0.0000808,0.0001197),故可預測該地1991年乙腦發(fā)病率有95%的可能在8.08~11.97/10萬之間。(注:將y還原時,角度單位定為度)2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編3、用容易測量的指標估計不易測量的指標4、利用回歸方程制定醫(yī)學參考值范圍體重(易)→體表面積(難)計算個體值Y的容許區(qū)間。如年齡與身高有線性關系,可根據(jù)回歸方程估計年齡為X時,身高的波動范圍(容許區(qū)間),即醫(yī)學參考值范圍。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編5、利用回歸進行統(tǒng)計控制統(tǒng)計控制是利用回歸方程進行逆估計,也就是已知y之后反推x。如要求y在一定范圍內(nèi)波動時,可按求Y的容許區(qū)間來推算x的取值來實現(xiàn)。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編例:某市環(huán)境監(jiān)測站在交通點連續(xù)測定30天,每天定時采樣3次,測得大氣中NO2濃度Y(mg/m3)與當時汽車流量X(輛/小時),共90對數(shù)據(jù),求得回歸方程:=-0.064866+0.000133X,

剩余標準差Sy.x=0.032522,若NO2的最大容許濃度為0.15/m3,則汽車流量應如何控制?設α=0.05。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編分析:NO2的濃度以過高為異常,應求個體值y的單側(cè)波動范圍的上限值,其95%的波動范圍是:+t(0.05,v)Sy=-0.064866+0.000133X+t(0.05,v)Sy要求NO2的最高容許濃度為0.15,即:-0.064866+0.000133X+t(0.05,v)Sy=0.152/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編單側(cè)t0.05,(90-2)=1.662,以Sy.x代替Sy,帶入上式得:-0.064866+0.000133X+1.662×0.032522=0.15解上式得:X=1209.13(輛/小時)即只要把汽車流量控制在1209輛/小時以下,就有95%的可能使NO2濃度不超過0.15mg/m3。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編(1)作回歸分析要有實際意義。(2)進行直線回歸分析前,應繪制散點圖。作用:①看散點是否呈直線趨勢;②有無異常點、高杠桿點和強影響點;五、應用直線回歸分析應注意的問題異常點2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編(3)注意建立線性回歸模型的基本條件

線性、獨立性、正態(tài)性、方差齊性(4)直線回歸方程的適用范圍以求回歸方程時X的實測值范圍為限;若無充分理由證明超過該范圍還是直線,應避免外延。(5)兩變量有線性關系,不一定是因果關系,也不一定表明兩變量間確有內(nèi)在聯(lián)系。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

一、直線相關的概念

在實際應用中若只需了解兩個隨機變量之間相互關系的情況,而不要求由X推算Y,此時就宜進行直線相關分析(積差相關分析)。

1、相關分析的目的分析隨機變量X與Y是否有直線相關關系以及相關的性質(zhì)和相關的密切程度等(暫不考慮X和Y數(shù)量上的關系)。直線相關的性質(zhì)可通過散點圖直觀地說明。

第二節(jié)直線相關2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

直線相關的性質(zhì)(1)正相關(Y隨X的增大而增大,如散點在一直線上,稱完全正相關);(2)負相關(Y隨X的增大而減小,如散點在一直線上,稱完全負相關);

(3)零相關:散點分布呈圓形等,反映兩變量間無直線關系,也可能存在曲線關系。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

2、相關分析對資料的要求要求X與Y均呈正態(tài)分布的隨機變量,稱雙變量正態(tài)分布資料。

3、相關分析方法相關分析是通過計算相關系數(shù)r(稱積差相關系數(shù))來定量地描述隨機變量X與Y之間的關系。計算r之后,還要對r是否來自ρ=0的總體進行假設檢驗(采用t檢驗或直接查r界值表確定P值。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編注意:通過相關分析認為X與Y有相關關系,并不一定是因果關系,可能是一種伴隨關系,即X與Y同時受到另外一個因素的影響。因此,相關分析的任務就是對兩變量之間的關系給以定量的描述。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編二、相關系數(shù)的意義及計算

1、r的計算方法

式中l(wèi)xy稱X和Y的離均差積和,lxx稱X的離均差平方和;lyy稱Y的離均差平方和。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

2、相關系數(shù)r的意義

r稱為積差相關系數(shù),沒有單位,它反映具有直線關系的兩個變量間,相關關系的密切程度和相關性質(zhì)的指標,取值范圍是-1≤r≤1。r為正表示正相關,r為負表示負相關,r的絕對值越大,則變量間的關系越密切;|r|=1,稱為完全正(或負)相關。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編3、相關系數(shù)的計算例11.5對例11.1的資料計算SAH患者血清IL-6和腦脊液IL-6的相關系數(shù)。因為血清IL-6和腦脊液IL-6均是隨機變量,且呈正態(tài)分布(可經(jīng)檢驗證明),兩變量呈直線趨勢(見圖11.1),故可進行直線相關分析。已知:lxx=6104.66,lyy=16242.10,lxy=7201.70

即血清IL-6和腦脊液IL-6的相關系數(shù)r=0.74952/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

三、相關系數(shù)的假設檢驗根據(jù)樣本資料計算所得的相關系數(shù)r,稱樣本相關系數(shù),由于存在抽樣誤差,盡管r不為0,尚不能說明兩變量之間有直線相關關系。因此,要對r是否來自ρ=0的總體進行假設檢驗??捎胻檢驗或直接查附表15,r界值表確定P值。檢驗統(tǒng)計量t值的計算方法如下:2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

對例11.5計算所得r進行檢驗,以說明血清IL-6和腦脊液IL-6是否有直線相關關系。H0:ρ=0,血清IL-6和腦脊液IL-6之間無直線相關關系H1:ρ≠0,血清IL-6和腦脊液IL-6之間有直線相關關系α=0.05本例:n=10,r=0.7232,按式(11.19)得:ν=10-2=8,查附表2,t界值表得,t0.02,8=2.896,t0.01,8=2.998。因為t0.01,8>t>t0.02,8,所以0.02>P>0.01。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

按α=0.05水準,拒絕H0,接受H1,可以認為血清IL-6和腦脊液IL-6之間呈正的直線相關關系。也可以按直接查附表15,r界值表(P280),確定P值。r0.02,8=0.715,r0.01,8=0.765。r0.02,8<r<r0.01,8,故0.02>P>0.01,結(jié)論同上。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編直線回歸與相關的區(qū)別和聯(lián)系一、區(qū)別

1、對資料要求不同(1)回歸分析要求因變量Y是服從正態(tài)分布的隨機變量,X是可以精確測量和嚴格控制的變量,一般稱Ⅰ型回歸,即只能由X作自變量推算Y。(2)相關分析要求兩個變量X、Y是均服從正態(tài)分布的隨機變量,即雙變量正態(tài)分布。對這種資料進行回歸分析稱Ⅱ型回歸,可以求出兩個方程:2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編由X推算Y的方程:由Y推算X的方程:

2、應用不同:說明兩變量間依存變化的數(shù)量關系用回歸,說明變量間的相關關系用相關。

3、意義不同:b表示X每增(減)一個單位,Y平均改變b個單位;r說明具有直線關系的兩個變量間相關關系的密切程度與相關的方向。

4、算方法不同。

5、取值范圍不同;-1≤r≤1,-∞<b<+∞。

6、b有單位,r沒有單位。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編二、聯(lián)系1、對一組數(shù)據(jù)若同時計算r與b,則它們的正負號是一致的。2、r和b的假設檢驗是等價的,即對同一資料,兩者的t值相等()。在實際中常采用對r的檢驗來代替對b的檢驗。3、可用回歸解析相關。

r的平方,即r2,稱決定系數(shù),它說明回歸平方和(SS回)占總平方和(SS總)的比重,其取值范圍在0~1之間。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

上式說明,當SS總固定不變時,SS回的大小取決于r2。r2越大,則SS回就越大;SS回是由于引入了相關變量后使總平方和減少的部分。SS回越接近SS總,則r2越接近1,說明引入相關變量的效果越好。在臨床研究中,若r2達到0.7以上,就可認為回歸效果不錯;但在實驗室研究中,如標準曲線的配制,r2的要求很高,達到0.95以上。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

可通過r2的大小來確定兩變量間相關關系的實際意義。例如r=0.2,n=100時,可以認為兩變量間有直線相關關系,但r2=0.04,表示回歸平方和在總平方和中僅占4%,即X對Y的影響僅占4%,實際意義不大。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編等級相關分析適用資料(1)不服從雙變量正態(tài)分布而不宜作積差相關分析;(2)總體分布型未知;(3)原始數(shù)據(jù)用等級表示。第三節(jié)秩相關(等級相關)2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

一、Spearman等級相關與積差相關分析一樣,等級相關分析是用等級相關系數(shù)rs來說明兩個具有直線關系的兩個變量間相關的密切程度與相關方向。rs計算方法如下:上式中,為每對觀察值Xi、Yi的秩次Ui、Vi之差,n為對子數(shù)。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編rs為樣本等級相關系數(shù),是總體等級相關系數(shù)ρs的估計值,其取值范圍是:-1≤rs≤1。rs的意義同r。求出rs后還要檢驗rs是否來自ρs=0的總體,才能確定兩變量間是否存在直線相關關系。對rs的假設檢驗可用查表法(附表16,rs界值表),或用下式作u檢驗(當n>50時,用該法)。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

例11.6某地作肝癌病因研究,調(diào)查了10個鄉(xiāng)肝癌死亡率(1/10萬)與食物中黃曲酶毒素相對含量(以最高就含量為10),見表11.6(2)、(4)欄。試作等級相關分析。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

表11.6等級相關系數(shù)計算表

黃曲霉毒素肝癌死亡率相對含量(1/10萬)dd2編號XUYV10.7121.53-2421.0218.920031.7314.412443.7446.57-3954.0527.341165.1664.69-3975.5746.361185.7834.253995.9977.610-111010.01055.1824

合計-----422/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編分析步驟如下:H0:ρs=0,即黃曲酶毒素含量與肝癌死亡率無直線關系H1:ρs≠0,即黃曲酶毒素含量與肝癌死亡率有直線關系α=0.05分別對X、Y的觀察值從小到大編秩,若有相同的觀察值則取平均秩次;求每對觀察值秩次之差值d、d2及Σd2。本例Σd2=42。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編計算rs:n=10,查附表16,rs界值表得:rs(0.02,10)=0.745,P=0.02,按α=0.05水準,拒絕H0,接受H1,可以認為黃曲霉毒素與肝癌死亡率之間存在正相關。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編三、rs的校正當X及Y中,相同的秩次個數(shù)較多時(如等級資料),宜用下式計算校正rs。

上式Tx(或Ty)=Σ(t3-t)/12,t為X(或Y)中相同秩次的個數(shù)。顯然,當Tx=Ty=0時,式(11.23)與(11.21)相等。(11.23)2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編假設上例中,黃曲酶毒素相對含量,1~5號鄉(xiāng)相等,這5個鄉(xiāng)平均秩次皆為(1+2+3+4+5)/5=3,則t=5;6~8號鄉(xiāng)相同,平均秩次為7,則t=3;9~10號鄉(xiāng)相同,平均秩次為9.5,則t=2。而肝癌發(fā)病率沒有相同的秩次,故Tx=[(53-5)+(33-3)+(23-2)]/12=12.5;Ty=0據(jù)此假設算得Σd2=33.5,則:2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編今以n=10,查附表15,0.02>P>0.01。如不校正0.01>P>0.005,可見若相同秩次較多時,如不校正,則rs偏大,而P值偏小。

2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

一、曲線擬合的意義在醫(yī)學研究中,兩變量之間的關系有時不呈直線而呈曲線關系。如藥物在體內(nèi)的濃度與時間的關系,兒童年齡與身長發(fā)育的關系等都不是簡單的直線關系,這種資料就不能用直線回歸分析,有時可以通過適當?shù)淖兞孔儞Q使之直線化,從而擴大了直線回歸的應用。

第四節(jié)曲線擬合2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

1、曲線擬合:就是用適當?shù)那€方程來描述變量之間的變化關系。曲線擬合最基本方法是曲線直線化,即通過適當?shù)淖兞孔儞Q,使曲線關系變?yōu)橹本€關系,然后用直線回歸分析方法求出直線方程,然后還原為曲線方程。

2、直接使用變量變換后的直線回歸:若兩變量呈曲線趨勢,常使用直線化回歸方程,繪制標準曲線。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編二、曲線擬合步驟

1、選定曲線類型

指數(shù)曲線示意圖2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編

2、將變量作對數(shù)變換選定X(或K-X)或Y(或K-Y)進行對數(shù)變換,K為常量,使變換后的兩變量呈直線關系。也可以將實測數(shù)據(jù)在半對數(shù)坐標紙上作直線化嘗試。2/7/2023廣西醫(yī)科大學衛(wèi)統(tǒng)黃高明編3、按求直線回歸方程的方法求直線化方程;4、將直線化方程轉(zhuǎn)為曲線方程,作曲線圖。

表11.7某地氰化物濃度與污染源距離的關系━━━━━━━━━━━━━━━━━━━━━與污染源氰化物距離(m)濃度(mg/m3)XYy=lgYY(1)(2)(3)(4)─────────────────────500.687-0.16300.5841000.398-0.40010.3641500.200-.069900.2272000.121-0.91720.1422500.090-1.0458

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論