




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十章直線回歸與相關學時分配:6 學時掌握內容:1.直線相關與直線回歸的概念、適用條件、分析步驟。2.相關系數的計算和檢驗。3.回歸方程的求法及檢驗。4.直線相關與直線回歸的應用及其注意事項。熟悉內容:1.總體相關系數與總體回歸系數可信區(qū)間的估計。2.直線相關與直線回歸的區(qū)別與聯系。3.等級相關分析的應用和計算。了解內容:1.可信區(qū)間的估計和個體y值容許區(qū)間的估計。2.曲線直線化。難點內容:1. 直線相關與直線回歸的應用及其注意事項。2. 總體相關系數與總體回歸系數可信區(qū)間的估計。在醫(yī)學科學研究中,常要分析變量間的關系,如年齡與血壓、吸煙與肺癌、藥物劑量與動物死亡率、環(huán)境介質中污染物濃度與污染
2、源的距離等,回歸與相關(regreSSion and correlation)就是研究這種關系的統(tǒng)計方法。本章只介紹回歸與相關中最簡單、最基本的兩個變量間呈直線關系的分析方法。 第一節(jié)直線回歸一、直線回歸的概念直線回歸(linear regreSSion)是用直線回歸方程表示兩個數量變量間依存關系的統(tǒng)計分析方法,屬雙變量分析的范疇。如果某一個變量隨著另一個變量的變化而變化,并且它們的變化在直角坐標系中呈直線趨勢,就可以用一個直線方程來定量地描述它們之間的數量依存關系,這就是直線回歸分析。直線回歸分析中兩個變量的地位不同,其中一個變量是依賴另一個變量而變化的,因此分別稱為因變量(dependen
3、t variable)和自變量(independent variable),習慣上分別用y和x來表示。其中x可以是規(guī)律變化的或人為選定的一些數值(非隨機變量),也可以是隨機變量,前者稱為I型回歸,后者稱為II型回歸。二、直線回歸分析的應用條件1.兩變量的變化趨勢呈直線趨勢(linear);2.因變量y屬于正態(tài)隨機變量(normal distribution);3.對于I型要求對于每個選定的X,y都有一個正態(tài)分布的總體,并且這些總體的方差都相等(equal variance);對于II型回歸,要求x、y服從雙變量正態(tài)分布。三、直線回歸分析的一般步驟1.將n個觀察單位的變量對(x,y)在直角坐標系
4、中繪制散點圖,若呈直線趨勢,則可擬合直線回歸方程。2.求回歸方程的回歸系數和截矩。3.寫出回歸方程,畫出回歸直線。4.對回歸方程進行假設檢驗。四、直線回歸方程及其求法(一)方程的形式及意義:直線回歸方程的一般形式為其中b稱為回歸系數(coefficient of regression),含義為當x每變化1個單位時,因變量Y平均變化的單數;a稱為截矩(intercept),為回歸直線或其延長線與y軸交點的縱坐標。(二)直線回歸方程的求法:方程中的a 和b是兩個待定常數,根據樣本實測(x,y)計算a 和b的過程就是求回歸方程的過程。為使方程能較好地反映各點的分布規(guī)律,應該使各實測點到回歸直線的縱向
5、距離的平方和最小,這就是最小二乘法(least square method)原理。按以下公式計算:1.先求b:(12.2)式中l(wèi)xy為X、Y的離均差積和,lxx為X的離均差平方和;(12.3)(12.4)2.再求a:(12.5)因此,直線回歸方程也可用如下形式表示:。五、直線回歸方程的假設檢驗回歸系數的檢驗亦即是回歸關系的檢驗,又稱回歸方程的檢驗,其目的是檢驗求得的回歸方程在總體中是否成立,即是否樣本代表的總體也有直線回歸關系。我們知道即使X、Y的總體回歸系數為零,由于抽樣誤差的原因,其樣本回歸系數b也不一定為零,因此,需作是否為零的假設檢驗,方法有以下兩種:(一)方差分析其基本思想是將應變量
6、Y的總變異SS總分解為SS回歸和SS剩余,然后利用F檢驗來判斷回歸方程是否成立。SS總即,為Y的離均差平方和(total sum of squares),反映未考慮X與Y的回歸關系時Y的變異,其意義可通過圖12.2加以說明。P(X,Y)YX圖12.2應變量Y的平方和劃分示意圖任一點P的縱坐標被回歸直線與均數截成三段:第一段,表示實測點P與回歸直線的縱向距離,即實際值Y與估計值之差,稱為剩余或殘差。第二段,即Y估計值與均數之差,它與回歸系數的大小有關。|b|值越大,也越大,反之亦然。當b=0時,亦為零,則=,也就是回歸直線不能使殘差減小。第三段,是應變量Y的均數。上述三段的代數和為:Y=+移項:
7、Y-=+P點是散點圖中任取的一點,將所有點都按上法處理,并將等式兩端平方后再求和,則有:上式用符號表示為:SS總=SS回+SS剩(12.6)式中,SS回即,為回歸平方和(regression sum of squares),它反映在Y的總變異SS總中由于X與Y的直線關系而使Y變異減小的部分,也就是在總平方和中可以用X解釋的部分。SS回越大,說明回歸效果越好,即SS總中可用X與Y線性關系解釋的變異越多。SS剩即,為剩余平方和(residual sum of squares),它反映X對Y的線性影響之外的一切因素對Y的變異的作用,也就是在總平方和SS總中無法用X解釋的部分。在散點圖中,各實測點離回
8、歸直線越近,也就越小,說明直線回歸的估計誤差越小。所以,總變異SS總是由回歸關系引起的SS回和與回歸無關的其它各種因素產生的SS剩所構成。若回歸直線與各實測點十分吻合,則SS回將明顯大于SS剩,當全部實測值都在回歸直線上時,SS總=SS回,SS剩=0,反之,若回歸直線擬合不好,SS回相對較小,SS剩則相對增大??梢奡S回/SS剩反映了回歸的效果。上述三 個平方和,各有其相應的自由度,并有如下的關系:總=回+???n-1,回=1,剩=n-2(12.7)式中,n為樣本含量。SS總的計算大家已熟悉,即(12.8)SS回和SS??赏ㄟ^下列公式進行計算(12.9)SS剩= SS總-SS回(12.10)方
9、差分析時的步驟與一般假設檢驗相同。統(tǒng)計量F的計算(12.11)(二)t檢驗其基本思想是利用樣本回歸系數b與總體均數回歸系數?進行比較來判斷回歸方程是否成立,實際應用中因為回歸系數b的檢驗過程較為復雜,而相關系數r的檢驗過程簡單并與之等價,故一般用相關系數r的檢驗來代替回歸系數b的檢驗。統(tǒng)計量t的計算公式為(12.12)(12.13)(12.14)式中,Sb為樣本回歸系數的標準誤;SY.X為剩余標準差(residual standard deviation),它是指扣除了X對Y的線性影響后,Y的變異,可用以說明估計值的精確性。SY.X越小,表示回歸方程的估計精度越高。說明:兩種檢驗方法是等價的,
10、F=t2。例10.1某醫(yī)生研究兒童體重與心臟橫徑的關系,測得13名8歲正常男童的體重與心臟橫徑,數據見表10.1。試作回歸分析。(1)以體重作為自變量,心臟橫徑作為因變量,作散點圖(圖10.1),發(fā)現呈直線趨勢,可擬合直線回歸方程。表10.113名8歲健康男童體重與心臟橫徑的關系編號體重(kg,X)心臟橫徑(cm,Y)125.59.2219.57.8324.09.4420.58.6525.09.0622.08.8721.59.0823.59.4926.59.71023.58.81122.08.51220.08.21328.09.9(2)求回歸方程: 本例,,,故,回歸方程為。(3)回歸方程的檢
11、驗:方差分析:H0:總體回歸系數b=0,即8歲男童心臟橫徑與體重之間不存在直線關系H1:總體回歸系數b10,即8歲男童心臟橫徑與體重之間存在直線關系a=0.05,變異來源SSnMSFP總4.192312回歸3.344413.344443.390.01剩余0.8479110.0771查方差分析用的F界值表,得P0.01,按a=0.05水準拒絕H0,接受H1,認為8歲健康男童心臟橫徑與體重之間存在直線關系。t檢驗:H0:總體回歸系數b=0,即8歲男童心臟橫徑與體重之間不存在直線關系H1:總體回歸系數b10,即8歲男童心臟橫徑與體重之間存在直線關系a=0.05, 按n=11查t界值表,得P0.01,
12、按a=0.05水準拒絕H0,接受H1,認為8歲健康男童心臟橫徑與體重之間存在直線關系。六、直線回歸方程的圖示為了進行直觀分析或實際需要,可在坐標軸上任意取相距較遠且易讀的兩X值,根據所求直線回歸方程算得對應值,如上例取X1=20.0, X2=25.0,代入回歸方程算得,。在圖上確定(20.0,8.2945)和(25.0,9.3151)兩個點,連接上述兩點就可得到回歸方程的圖示(見圖1)。應注意的是,連出的回歸直線不應超過X的實測值范圍;所繪回歸直線必然通過;將直線的左端延長與縱軸交點的縱坐標必等于截距a,據此可判斷所繪圖形是否正確。七、直線回歸的區(qū)間估計(一)總體回歸系數的區(qū)間估計根據參數估計
13、原理,回歸系數b是總體回歸系數的點估計,正像樣本均數不一定恰好等于總體均數一樣,需要通過式(12.15)對總體回歸系數進行區(qū)間估計。(12.15)式中Sb為回歸系數的標準誤;n-2為自由度。例10.2根據例10.1資料的樣本回歸系數b=0.2141估計總體回歸系數的95%可信區(qū)間。已知b=0.2141,sb=0.03098,t0.05(11)=2.201則總體回歸系數的95%可信區(qū)間為(0.2141-2.2010.03098, 0.2041+2.2010.03098)=(0.1359,0.2723)(二)的區(qū)間估計是指總體中自變量X為某一定值X0時,的總體均數。對的估計可計算可信區(qū)間:(12.
14、16)式中即的標準誤,可按下式計算:(12.17)式中SY.X為剩余標準差。當時,此時,可信區(qū)間的范圍最窄,預測精度相對較高。例10.3根據例10.1資料,試計算當X0=25.0kg時,的95%可信區(qū)間。已知,, =4.2121+0.204125.0=9.3151t0.05(6)=2.201當X0=1.00時,的95%可信區(qū)間為(9.3151-2.2010.0952, 9.3151+2.2010.0952)=(9.106,9.525)即體重為25.0kg的8歲男童,估計其心臟橫徑的總體均數在(9.106,9.525)范圍內的可能性為95%。(三)個體Y值的容許區(qū)間總體中,X為一定值時,個體Y值
15、的波動范圍,可按下式求出:(12.18)式中SY為X取一定值時,個體Y值的標準差,其計算公式為(12.19)例10.4根據例10.1資料,試計算當X0=25.0時,個體Y值的95%容許區(qū)間。已知=9.3151,t0.05(11)=2.201,SY.X=0.2776故當X0=1.00時,個體Y值的95%容許區(qū)間為:(9.3151-2.2010.2935, 9.3151+2.2010.2935)=(8.6692,9.9610)即當X0=25.0kg時,總體中有95%的個體Y值波動在(8.6692,9.9610)的范圍內。八、直線回歸方程的應用(一)定量描述兩變量之間的依存關系對回歸系數b進行假設檢
16、驗時,若, 可認為兩變量間存在直線回歸關系,則直線回歸方程即為兩個變量間依存關系的定量表達式。(二)利用回歸方程進行預測(三)利用回歸方程進行統(tǒng)計控制規(guī)定Y值的變化,通過控制X的范圍來實現統(tǒng)計控制的目標,所以統(tǒng)計控制是利用回歸方程進行的逆估計。例10.5某市環(huán)境監(jiān)測站在某交通點連續(xù)測定30天,每天定時采樣3次,發(fā)現大氣中NO2濃度Y(mg/m3)與當時的汽車流量X(輛/小時)呈直線關系,根據90對觀測數據求得回歸方程,剩余標準差。若NO2最大容許濃度為0.15mg/m3,則汽車流量應如何控制?設a=0.05。本例,a=0.05,n=90-2=88,查表得單側t0.05(88)=1.6624。由
17、于本例未給出每小時汽車流量的均數及,且樣本含量較大,故以代替,計算個體Y值單側95%容許區(qū)間的上限:當時,解得X=1209,即只要把汽車流量控制在1209輛/小時以下,那么就有95%可能使NO2不超過最大容許濃度0.15mg/m3。(四)應用直線回歸的注意事項1.作回歸分析要有實際意義,不能把毫無關聯的兩種現象,隨意進行回歸分析,忽視事物現象間的內在聯系和規(guī)律;如對兒童身高與小樹的生長數據進行回歸分析既無道理也無用途。另外,即使兩個變量間存在回歸關系時,也不一定是因果關系,必須結合專業(yè)知識作出合理解釋和結論。 2直線回歸分析的資料,一般要求應變量Y是來自正態(tài)總體的隨機變量,自變量X可以是正態(tài)隨
18、機變量,也可以是精確測量和嚴密控制的值。若稍偏離要求時,一般對回歸方程中參數的估計影響不大,但可能影響到標準差的估計,也會影響假設檢驗時P值的真實性。3進行回歸分析時,應先繪制散點圖(scatter plot)。若提示有直線趨勢存在時,可作直線回歸分析;若提示無明顯線性趨勢,則應根據散點分布類型,選擇合適的曲線模型(curvilinear modal),經數據變換后,化為線性回歸來解決。一般說,不滿足線性條件的情形下去計算回歸方程會毫無意義,最好采用非線性回歸方程的方法進行分析。4繪制散點圖后,若出現一些特大特小的離群值(異常點),則應及時復核檢查,對由于測定、記錄或計算機錄入的錯誤數據,應予
19、以修正和剔除。否則,異常點的存在會對回歸方程中的系數a、b的估計產生較大影響。5回歸直線不要外延。直線回歸的適用范圍一般以自變量取值范圍為限,在此范圍內求出的估計值稱為內插(interpolation);超過自變量取值范圍所計算的稱為外延(extrapolation)。若無充足理由證明,超出自變量取值范圍后直線回歸關系仍成立時,應該避免隨意外延。 第二節(jié)直線相關分析一、直線相關的概念直線相關分析是描述兩變量間是否有直線關系以及直線關系的方向和密切程度的分析方法。直線回歸分析方法是描述兩變量間依存變化的方法。實際工作中有時并不要求由X估計Y(或者先不考慮這個問題)而關心的是兩個變量間是否確有直線
20、相關關系,如有直線相關關系,那么它們之間的關系是正相關(positive correlation),還是負相關(negative correlation)以及相關程度(degree of relationship)如何? 此時可應用相關分析。直線相關的定義:如果兩個隨機變量中,一個變量由小到大變化時,另一個變量也相應地由小到大(或由大到小)地變化,并且測得兩變量組成的坐標點在直角坐標系中呈直線趨勢,就稱這兩個變量存在直線相關關系。直線相關(1inear correlation)又稱簡單相關(simple correlation),用于雙變量正態(tài)分布(bivariate normal distr
21、ibution)資料,一般說來,兩個變量都是隨機變動的,不分主次,處于同等地位。兩變量間的直線相關關系用相關系數r(correlation coefficient)描述。直線相關的性質可由散點圖(圖12.3)直觀地說明。(a)0r1(b)-1r0(c)r=1(d)r=-1(e)r=0(f)r=0(g)r=0(h)r=0圖12.3相關系數示意圖a,散點呈橢圓形分布,宏觀而言兩變量X、Y變化趨勢是同向的,稱為正線性相關或正相關(0r1);反之,圖b中的X、Y問呈反向變化,稱為負線性相關或負相關(-1r0)。圖c的散點在一條直線上、且X、Y是同向變化,稱為完全正相關(perfect positive
22、 correlation, r=1);反之,圖d中的X、Y呈反向變化,稱為完全負相關(perfect negative correlation, r=-1)。圖e-圖h,兩變量間毫無聯系或可能存在一定程度的曲線聯系而沒有直線相關關系、稱為零相關(zero correlation, r=0)。正相關或負相關并不一定表示一個變量的改變是另一個變量變化的原因,有可能同受另一個因素的影響。二、相關系數的意義及計算相關系數亦稱積差相關系數(coefficient of product-moment correlation),用r表示樣本相關系數,表示總體相關系數。它是說明有直線關系的兩變量間,相關關系密
23、切程度和相關方向的統(tǒng)計指標。計算公式表示(12.20)相關系數沒有單位,其值-1r1。當兩變量呈同向變化時,0r1,為正相關;兩變量呈反向變化,-1r0,為負相關;r0為零相關,表示無直線相關關系;兩變量呈同向或反向變化且點子分布在一條直線上,|r|1為完全相關。完全相關屬相關分析中的待例,由于醫(yī)學研究中影響因素眾多,個體變異不可避免,很少呈現完全相關。例10.6根據例10.1資料,試計算8歲健康男孩體重與心臟橫徑的相關系數。由例12.1已算得 ,lXX=80.2692,lYY=4.1923, lXY=16.3846三、相關系數的假設檢驗相關系數r是樣本相關系數,它只是總體相關系數的估計值。從
24、同一總體中抽出的不同樣本會提供不同的樣本相關系數,因而,樣本相關系數也存在變異性。所以,即使從=0的總體作隨機抽樣,由于抽樣誤差的影響,所得r值,也不一定等于零。故當計算算出r值后,接著應做=0的假設檢驗,以判斷兩變量的總體是否有直線相關關系。常用t檢驗,檢驗統(tǒng)計量t值的計算公式如下:(12.21)例10.7根據例10.6求得的r值,檢驗該地飲水氟含量與氟骨癥發(fā)病率是否有直線相關關系。H0: =0H1: 0已知n=8,r=0.9338查t界值表,得P50時,可通過u檢驗進行的假設檢驗,統(tǒng)計量u值的計算公式為,(12.28)例10.7在肝癌病因研究中,某地調查了10個鄉(xiāng)的肝癌死亡率(1/10萬)
25、與種食物中黃曲霉毒素相對含量(最高含量為10),見表12.1。試作直線相關分析。表12.1肝癌死亡率與黃曲霉毒素相對含量鄉(xiāng)編號(1)黃曲霉毒素相對含量肝癌死亡率(1/10萬)d(6)=(3)-(5)d2(7)X(2)秩次(3)Y(4)秩次(5)10.7121.532421.0218.920031.7314.412443.7446.57-3954.0527.341165.1664.69-3975.5746.361185.7834.253995.9977.610111010.01055.1824合計42將兩個變量的觀察值分別從小到大編秩,若同一變量有相同觀察值,則取平均秩次,見表12.1第(3)、(5)欄。已知n=10,查rs界值表,rs0.02(10)=0.745,得P0.02,按水準拒絕H0,接受H1,故可以認為黃曲霉毒素與肝癌死亡率間存在正相關關系。若上例中10個鄉(xiāng)的黃曲霉毒素含量為:1.0,1.0,1.0,1.0,1.0,5.0,5.0,5.0,10.0,10.0,則其秩次依次為:3,3,3,3,3,7,7,7,9.5, 9.5, 因相同秩次的個數較多,此時宜計算。如果其它數據不變,則TX為,查rs界值表,rs0.02(10)=0.745,得P0時,Y隨X增大而增大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年土地承包合同的附加協(xié)議
- 2025標準租賃合同協(xié)議范本2
- 2025汽車租賃評估合同
- 2025年室內外租擺植物合同范本
- 采購豬肉、蔬菜監(jiān)獄2023年大宗伙食物資政府采購項目(D、E包)通派-副食品
- 2025全球知名品牌授權合同范本
- 《深度解析》課件
- 山東省泰安市肥城市2024-2025學年度下學期期中考試六年級歷史試題統(tǒng)編版(五四學制)(含答案)
- 福建省福州市八縣(市區(qū))協(xié)作校2024-2025學年高二下學期期中聯考語文試卷(含答案)
- 皮帶船租賃合同協(xié)議
- 發(fā)改委備案變更申請書范本
- 重慶大學附屬腫瘤醫(yī)院麻醉科新增術中放療場所環(huán)評報告
- 消費者起訴狀模板范文
- 2022年工程機械設備租賃服務方案(含應急處理方案、保障措施)
- (完整版)外科護理學知識點整理
- 2019版《壓力性損傷的預防和治療:臨床實踐指南》解讀
- 在那遙遠的地方課件
- 圍堰吹填施工方案
- 創(chuàng)業(yè)計劃書案例-產品類-南大無醇酒創(chuàng)業(yè)完全版
- 食品生產企業(yè)動態(tài)風險因素量化分值表食品生產日常監(jiān)督檢查要點表
- 基層醫(yī)療衛(wèi)生機構依法執(zhí)業(yè)自查表
評論
0/150
提交評論