相關(guān)與回歸分析過程_第1頁
相關(guān)與回歸分析過程_第2頁
相關(guān)與回歸分析過程_第3頁
相關(guān)與回歸分析過程_第4頁
相關(guān)與回歸分析過程_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、相關(guān)分析簡介相關(guān)分析簡介 在醫(yī)學科學研究中,常常要分析兩個變量之間的在醫(yī)學科學研究中,常常要分析兩個變量之間的關(guān)系,例如身高和體重、年齡和血壓、體溫和脈關(guān)系,例如身高和體重、年齡和血壓、體溫和脈搏、藥物劑量和療效等問題,因此涉及到研究兩搏、藥物劑量和療效等問題,因此涉及到研究兩個變量的相互關(guān)系。這時就涉及到兩個變量之間個變量的相互關(guān)系。這時就涉及到兩個變量之間的相關(guān)與回歸。的相關(guān)與回歸。積差相關(guān)系數(shù),又稱積差相關(guān)系數(shù),又稱pearson相關(guān)系數(shù):定量描述線性相關(guān)相關(guān)系數(shù):定量描述線性相關(guān)程度好壞的常用指標,只適用于兩變量呈線性相關(guān)時。程度好壞的常用指標,只適用于兩變量呈線性相關(guān)時。 特點:特點

2、: 相關(guān)系數(shù)相關(guān)系數(shù)r 是一個無單位的量值,且是一個無單位的量值,且-1 r 0 為正相關(guān),為正相關(guān),r 0 為負相關(guān);為負相關(guān); r 越接近于越接近于1,說明相關(guān)性越好;越接近于,說明相關(guān)性越好;越接近于0,相關(guān)性越差。,相關(guān)性越差。spearman等級相關(guān)系數(shù):當數(shù)據(jù)不滿足條件雙變量正態(tài)時。等級相關(guān)系數(shù):當數(shù)據(jù)不滿足條件雙變量正態(tài)時。相關(guān)分析簡介相關(guān)分析簡介v 連續(xù)變量的相關(guān)指標(最常見)連續(xù)變量的相關(guān)指標(最常見)gamma統(tǒng)計量:統(tǒng)計量:描述有序分類變量數(shù)據(jù)聯(lián)系強度的指標,描述有序分類變量數(shù)據(jù)聯(lián)系強度的指標,以下指標都是基于以下指標都是基于gamma統(tǒng)計量衍生出來的。統(tǒng)計量衍生出來的。

3、kendalls tau-b:反映兩個有序分類變量的一致性。反映兩個有序分類變量的一致性。kendalls tau-c: 對對kendalls tau-b進行了校正。進行了校正。相關(guān)分析簡介相關(guān)分析簡介v 有序變量的相關(guān)指標有序變量的相關(guān)指標列聯(lián)系數(shù):基于列聯(lián)系數(shù):基于 2值得出值得出phi and cramers v:也是基于:也是基于 2值得出值得出lambda 系數(shù):系數(shù):用于反映自變量對因變量的預測效果用于反映自變量對因變量的預測效果不確定系數(shù)不確定系數(shù)相關(guān)分析簡介相關(guān)分析簡介v 名義變量的相關(guān)指標名義變量的相關(guān)指標eta kappa 值值or、rr等等相關(guān)分析簡介相關(guān)分析簡介v 其他

4、相關(guān)指標其他相關(guān)指標相關(guān)分析簡介相關(guān)分析簡介v 實際上,在freq過程中measures選擇項提供了非常整齊的相關(guān)分析指標體系,如上圖。 除了除了freq過程的過程的measures選擇項外,選擇項外,sas還提供了其還提供了其他更專業(yè)的相關(guān)分析過程:他更專業(yè)的相關(guān)分析過程:proc corr 過程:線性相關(guān)、秩相關(guān)和偏相關(guān)分析過程:線性相關(guān)、秩相關(guān)和偏相關(guān)分析proc cancorr 過程:典型相關(guān)分析(略)過程:典型相關(guān)分析(略)相關(guān)分析簡介相關(guān)分析簡介相關(guān)分析相關(guān)分析corr過程:過程:功能:分析變量間的相關(guān)關(guān)系格式:proc corr ;var 分析變量1分析變量p;partial 分

5、析變量1分析變量p;freq 頻數(shù)變量;with 分析變量;說明:1、corr語句后的選擇項很多,主要是一些控制的功能。2、var語句指明的分析變量。3、partial語句作偏相關(guān)分析4、freq語句指明頻數(shù)變量5、with語句用來指定和var語句中的變量形成特定的組合。 例例1 某醫(yī)院研究某種代乳粉的營養(yǎng)價值是用大白鼠做試驗,某醫(yī)院研究某種代乳粉的營養(yǎng)價值是用大白鼠做試驗,得大鼠進食量和體重增量間的關(guān)系的原始數(shù)據(jù)如下,試分得大鼠進食量和體重增量間的關(guān)系的原始數(shù)據(jù)如下,試分析兩者有無直線相關(guān)關(guān)系。析兩者有無直線相關(guān)關(guān)系。動物編號12345678910進食量feed820780720867690

6、787934679639820體重增量weight165158130180134167186145120158進食量和體重增量的數(shù)據(jù)進食量和體重增量的數(shù)據(jù)簡單相關(guān)分析簡單相關(guān)分析首先繪制散點圖,結(jié)果如下:首先繪制散點圖,結(jié)果如下:簡單相關(guān)分析簡單相關(guān)分析v 兩變量間存兩變量間存在線性相關(guān)趨勢在線性相關(guān)趨勢v 沒有發(fā)現(xiàn)明沒有發(fā)現(xiàn)明顯的異常值顯的異常值data corr_1;input x y;cards; 165 780 158 720 130 867 180690 134 787 167934 186 679 145639 120 820 158;proc corr spearman;var

7、x y;run;pearson相關(guān)系數(shù)和相關(guān)系數(shù)和p值值spearman相關(guān)系數(shù)和相關(guān)系數(shù)和p值值指定計算指定計算spearman秩相關(guān)系數(shù),秩相關(guān)系數(shù),默認時只計算默認時只計算pearson相關(guān)系數(shù)。相關(guān)系數(shù)。v 大家可以發(fā)現(xiàn),大家可以發(fā)現(xiàn),對相同的數(shù)據(jù),秩相關(guān)系數(shù)的對相同的數(shù)據(jù),秩相關(guān)系數(shù)的絕對值比積差相關(guān)系數(shù)小,為什么?絕對值比積差相關(guān)系數(shù)小,為什么?簡單相關(guān)分析簡單相關(guān)分析v 顯然,這是由于在秩變換或數(shù)據(jù)按有序分類處顯然,這是由于在秩變換或數(shù)據(jù)按有序分類處理時損失信息所導致的。理時損失信息所導致的。v 前面介紹的相關(guān)分析是分析兩個計量資料間的關(guān)前面介紹的相關(guān)分析是分析兩個計量資料間的關(guān)

8、系,在計算積差相關(guān)系數(shù)、系,在計算積差相關(guān)系數(shù)、spearman spearman 相關(guān)系數(shù)時候,相關(guān)系數(shù)時候,都沒有考慮第三方的影響,這就導致可能對事物的都沒有考慮第三方的影響,這就導致可能對事物的解釋出現(xiàn)偏差。下面以一個例子對此作進一步的說解釋出現(xiàn)偏差。下面以一個例子對此作進一步的說明。明。偏相關(guān)分析偏相關(guān)分析表表1 32例例40歲以上男性的歲以上男性的bmi指數(shù)、年齡、吸煙與收縮壓實測值指數(shù)、年齡、吸煙與收縮壓實測值 編號(id)收縮壓(y)年齡(x1)吸煙(x2)體重指數(shù)(x3)11354502.87621224103.25131304903.10041585203.768514654

9、12.97961294712.79071626013.66881575413.61291444412.368101806414.637111665913.877續(xù)表一續(xù)表一 編號(id)收縮壓(y)年齡(x1)吸煙(x2)體重指數(shù)(x3)121385114.032131526404.116141385603.673151405413.562161345012.998171454913.360181424613.024191355703.171201425603.401211505613.628221445803.751續(xù)表二續(xù)表二 編號(id)收縮壓(y)年齡(x1)吸煙(x2)體重指數(shù)(x3

10、)231375303.296241325003.210251495413.301261324813.017271204302.789281264312.956291616303.80301706314.132311526203.962321646504.010data corr_2;input y x1-x3;cards;1354502.8761224103.2511304903.1001585203.7681465412.9791294712.7901626013.6681575413.6121444412.3681806414.6371665913.877;proc corr data=c

11、orr_2;var y x2 x3;partial x1;run;控制控制x1影響后的結(jié)果影響后的結(jié)果 例例4 仍以前數(shù)據(jù)為例,進一步作回歸分析,計算進仍以前數(shù)據(jù)為例,進一步作回歸分析,計算進食量與體重增量之間的回歸方程。食量與體重增量之間的回歸方程。 分析:分析: 與相關(guān)分析類似,在回歸分析之前首先要考慮的問題是兩與相關(guān)分析類似,在回歸分析之前首先要考慮的問題是兩變量是否存在某種趨勢,通過前面的散點圖已經(jīng)得到了肯變量是否存在某種趨勢,通過前面的散點圖已經(jīng)得到了肯定的結(jié)論,因此直接進行回歸分析。定的結(jié)論,因此直接進行回歸分析。簡單回歸分析簡單回歸分析繪制散點圖如下:繪制散點圖如下:簡單回歸分析

12、簡單回歸分析v 兩變量間存兩變量間存在線性相關(guān)趨勢在線性相關(guān)趨勢v 沒有發(fā)現(xiàn)明沒有發(fā)現(xiàn)明顯的異常值顯的異常值回歸分析過程回歸分析過程功能:擬合線性回歸模型功能:擬合線性回歸模型格式:格式:proc reg ;model 因變量因變量=自變量自變量;freq 頻數(shù)變量;頻數(shù)變量;plot ;run;reg過程的選擇項較多,用法也比較過程的選擇項較多,用法也比較復雜,但常用的選擇項不多也容易掌復雜,但常用的選擇項不多也容易掌握,說明如下:握,說明如下:1、reg后的選擇項主要是對后的選擇項主要是對data的一的一些操作,比如:些操作,比如:data=數(shù)據(jù)集。數(shù)據(jù)集。2、model語句后的選擇項主要

13、進行自語句后的選擇項主要進行自變量的篩選,比如:變量的篩選,比如:selection=stepwise等。等。3、freq語句后頻數(shù)變量。語句后頻數(shù)變量。4、plot語句可以輸出各類散點圖,符語句可以輸出各類散點圖,符號和選擇項采用默認的設置。號和選擇項采用默認的設置。5、一個、一個reg過程最多可以使用過程最多可以使用9個個model語句(一次同時擬合語句(一次同時擬合9個模型)。個模型)。簡單回歸分析簡單回歸分析data reg_1;input x y;cards; 820 165 780 158 720 130 867 180 690 134 787 167 934 186 679 14

14、5 639 120 820 158;proc reg data=reg_1;model y=x;plot y*x;run;17.357460.22189yx 擬合的回歸方程:多元回歸分析多元回歸分析 直線回歸與相關(guān)是分析一個應變量y與一個自變量x之間的關(guān)系。但通常是一個應變量受到許多因素的影響,例如一個人的收縮壓受到年齡、飲食、鍛煉及遺傳等許多因素的影響。因此,必須把直線回歸與相關(guān)的分析方法推廣為多個自變量的分析方法,從而起到更有效的預報、控制及識別影響因素的作用。 多元線性回歸方程的建立 多元線性回歸模型為: 式中j是xj(j1,2,p)對 y的偏回歸系數(shù)( partial regressi

15、on coefficient),它表示在其它自變量固定不變的情況下,xj每改變一個測量單位時所引起的應變量 y的平均改變量,p為自變量的個數(shù),為殘差,獨立服從 n(0,2)分布。 擬尋求參數(shù)0,1, p的適宜估計值 b0,b1,bp,使觀察值yi和回歸預測值 之間殘差平方和最小,即:01122ppyxxxiy220112211()minnniiiiipipiiqyyybb xb xb x 回歸參數(shù)的最小二乘估計實為系數(shù)矩陣之逆矩陣與常數(shù)項矩陣(列向量)之乘積。其計算較為復雜,可以用統(tǒng)計軟件求得。 用最小二乘法解出偏回歸系數(shù)j的估計值bj后,得到相應的多元線性回歸方程為: 下面舉例說明用sas

16、reg過程建立多元線性回歸方程。01122ppybb xb xb x實例分析實例分析 例3 為研究男性高血壓患者血壓與年齡體重等變量的關(guān)系,隨機測量了32名40歲以上男性的血壓(mmhg)、年齡(歲)、身高、體重、以及吸煙史。其中體重指數(shù) bmi100(體重/身高2); 吸煙:0為不吸,1為過去或現(xiàn)在吸煙。(見表1) 程序如下:程序如下:proc reg data=corr_2;model y=x1-x3/selection=stepwise stb;run;quit;逐步回歸法篩選自變量逐步回歸法篩選自變量標準化偏回歸系數(shù)標準化偏回歸系數(shù)最后一步的結(jié)果最后一步的結(jié)果自變量進出的描述自變量進出

17、的描述檢驗整個模型檢驗整個模型分別檢驗每個自變量分別檢驗每個自變量用用stepwise時自變量進入或剔除的檢驗時自變量進入或剔除的檢驗水準默認時為水準默認時為0.15proc reg data=corr_2;model y=x1-x3/selection=stepwise stbsle=0.1 sls=0.1;run;quit;將檢驗水準改為將檢驗水準改為0.1x3不能進入模型。不能進入模型。問題:問題:x1(年齡)與(年齡)與x2(吸煙)(吸煙)哪個變量對哪個變量對sbp的影響大?的影響大?協(xié)方差分析協(xié)方差分析 協(xié)方差分析是把直線回歸法與方差分析法結(jié)合起來的一種方法,其目的是把與y值呈直線關(guān)

18、系的x值化成相等后,再來檢驗各組y均數(shù)(即修正均數(shù))間差別的統(tǒng)計意義。一元完全隨機設計資料的協(xié)方差分析 下列數(shù)據(jù)是研究鎘作業(yè)工人暴露于煙塵的年數(shù)與肺活量的關(guān)系。按暴露年數(shù)將工人分為兩組:甲組暴露10年,乙組暴露10年。兩組工人年齡未經(jīng)控制。問該兩組暴露于鎘作業(yè)工人平均肺活量是否相同? 甲組(暴露10年) 乙組(暴露10年) x1(年齡) y1(肺活量,l) x2(年齡) y2(肺活量,l) 39 4.62 40 5.29 41 5.52 41 3.71 45 4.02 49 5.09 52 2.70 47 4.31 61 2.70 65 3.03 58 2.73 59 3.67 43 4.61

19、39 4.7338 4.5842 5.1243 3.8943 4.6237 4.3050 2.7050 3.5045 3.0648 4.0651 4.5146 4.6658 2.8838 3.6438 5.09 不考慮年齡對肺活量的關(guān)系,直接用不考慮年齡對肺活量的關(guān)系,直接用t檢驗比較二組工人的平均肺活量檢驗比較二組工人的平均肺活量data coanova; do group=0,1; input n; do i=1 to n; input x y; output; end; end;cards;1239 4.62 40 5.29 41 5.25 41 3.71 45 4.02 49 5.09

20、 52 2.70 47 4.31 61 2.7 65 3.03 58 2.73 59 3.671643 4.61 39 4.73 38 4.58 42 5.12 43 3.89 43 4.62 37 4.30 50 2.70 50 3.50 45 3.06 48 4.06 51 4.51 46 4.66 58 2.88 38 3.64 38 5.09;proc ttest;class group;var y;run;不同暴露年限的工人平均肺活量有差異?不同暴露年限的工人平均肺活量有差異? 協(xié)方差分析需調(diào)用sas的glm過程來分析。程序如下:proc glm data=coanova;class group; model y=x group/solution;lsmeans group/stderr pdiff;run;選擇項solution是要輸出回歸方程中各參數(shù)的估計值,ls

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論