醫(yī)學(xué)統(tǒng)計學(xué)：多元線性回歸分析

上傳人：窩*** IP屬地：安徽上傳時間：2023-10-18 格式：PPT 頁數(shù)：92 大小：2.03MB 積分：50 舉報 版權(quán)申訴

已閱讀5頁，還剩87頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

多元線性回歸分析

Multivariatelinearregression

變量之間的關(guān)系:

從變量間相互關(guān)系的復(fù)雜程度來看，可以分為以下幾種：1.

一個變量的變化僅僅直接與另一個變量的變化有關(guān)：XY

一個因變量與一個自變量之間的直接依存關(guān)系，其對應(yīng)的模型是一元回歸模型。2.

一個變量的變化直接與另一組變量的變化有關(guān)：一個因變量與三個自變量之間的直接依存關(guān)系，其對應(yīng)的模型是多元（三元）回歸模型。X2Y

X3X1

變量之間的關(guān)系:3.

一個變量的變化不僅直接與另一組變量的變化有關(guān)，而且間接地與其它一個或幾個變量的變化有關(guān)：二個因變量與三個自變量之間的依存關(guān)系，其對應(yīng)的模型是多變量（兩變量）回歸模型。X2Y2

1X3X1Y1

變量之間的關(guān)系:4.

變量之間存在著相互依存的因果關(guān)系：三個因變量與四個自變量之間的依存關(guān)系，其對應(yīng)的模型是路徑分析模型。X2Y2

1X3X1Y1

2X4Y3

變量之間的關(guān)系:5.

變量（組）和由變量（組）產(chǎn)生的潛在因子之間復(fù)雜因果關(guān)系：獨立觀察變量X、非獨立觀察變量Y，及其由它們產(chǎn)生的獨立和非獨立潛在因子之間的復(fù)雜因果關(guān)系，其對應(yīng)的模型是結(jié)構(gòu)方程模型。

變量之間的關(guān)系:

人的體重與身高、胸圍血壓值與年齡、性別、勞動強度、飲食習(xí)慣、吸煙狀況、家族史糖尿病人的血糖與胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂射頻治療儀定向治療腦腫瘤過程中，腦皮質(zhì)的毀損半徑與輻射的溫度、照射的時間一個變量的變化直接與另一組變量的變化有關(guān)：如：Multivariatelinearregression概念：多元線性回歸分析也稱復(fù)線性回歸分析（multiplelinearregressionanalysis）,它研究一組自變量如何直接影響一個因變量。自變量（independentvariable）是指獨立自由的變量，用向量X表示；因變量（dependentvariable)是指非獨立的、受其它變量影響的變量，用向量Y表示；由于模型僅涉及一個因變量，所以多元線性回歸分析也稱單變量線性回歸分析（univariatelinearregressionanalysis）多元回歸分析數(shù)據(jù)格式假定因變量Y與自變量間存在如下關(guān)系：式中，是常數(shù)項，稱為偏回歸系數(shù)（partialregressioncoefficient）。的含義為在其它自變量保持不變的條件下，自變量改變一個單位時因變量Y的平均改變量。為隨機誤差，又稱殘差（residual），它表示的變化中不能由自變量解釋的部分。一、多元線性回歸方程模型只有一個自變量時,回歸的結(jié)果為二維平面上的一條直線;而有兩個自變量時,回歸的結(jié)果為三維空間的一個平面；有更多自變量時,回歸的結(jié)果則是在三維以上空間的“超平面”，無法用直觀圖形表達。

應(yīng)用條件：二、多元線性回歸分析的步驟（一）估計各項參數(shù)，建立多元線性回歸方程模型（二）對整個模型進行假設(shè)檢驗，模型有意義的前提下，再分別對各偏回歸系數(shù)進行假設(shè)檢驗。（三）計算相應(yīng)指標，對模型的擬合效果進行評價。（一）模型的參數(shù)估計27名糖尿病患者的血清總膽固醇（x1）、甘油三酯（x2）、空腹胰島素（x3）、糖化血紅蛋白（x4）、空腹血糖（y）的測量值列于表中，試建立血糖與其它幾項指標關(guān)系的多元線性回歸方程。例14.1各變量的離均差矩陣線性回歸方程模型為：1、對模型的假設(shè)檢驗—F檢驗2、對偏回歸系數(shù)的假設(shè)檢驗—F檢驗和t檢驗3、標準偏化回歸系數(shù)（二）對模型及偏回歸系數(shù)的假設(shè)檢驗1、對模型的假設(shè)檢驗—F檢驗SS回歸=b1l1y+b2l2y

+b3l3y+b4l4y=0.1424×67.6962+0.3515×89.8025+0.2706×142.4347+0.6382×84.5570=133.7107；ν回歸=m=4各變量的離均差矩陣SS總=lyy=222.5519；ν總=n-1=26SS剩余=SS總-SS回歸=222.5519-133.7107=88.8412ν剩余=n-m-1=22

MS回歸=

SS回歸/ν回歸；

MS剩余=

SS剩余/ν剩余；F=

MS回歸/MS剩余1、對模型的假設(shè)檢驗—F檢驗1、對模型的假設(shè)檢驗—F檢驗2、對偏回歸系數(shù)的假設(shè)檢驗—F檢驗和t檢驗回歸方程成立只能認為總的來說自變量與因變量間存在線性關(guān)系，但是否每一個自變量都與因變量間存在線性關(guān)系，須對其偏回歸系數(shù)進行假設(shè)檢驗。①方差分析法②t

檢驗法①偏回歸系數(shù)的假設(shè)檢驗--方差分析法①偏回歸系數(shù)的假設(shè)檢驗--方差分析法②偏回歸系數(shù)的假設(shè)檢驗—t檢驗系數(shù)矩陣A系數(shù)矩陣A的逆矩陣常數(shù)項矩陣參數(shù)估計值系數(shù)矩陣A的逆矩陣指定REG過程進行多元線性回歸分析，擬合y與四個自變量間的多元線性回歸方程整個方程有統(tǒng)計學(xué)意義各自變量的參數(shù)估計對偏回歸系數(shù)的假設(shè)檢驗注意

變量回歸系數(shù)bj標準化偏回歸系數(shù)bj’X10.142450.07758X20.351470.30931X3-0.27059-0.33948X40.63820.397743、標準化偏回歸系數(shù)偏回歸系數(shù)偏回歸系數(shù)標準誤標準偏回歸系數(shù)（三）計算相應(yīng)指標，對模型的擬合效果進行評價評價回歸方程回歸效果的優(yōu)劣是回歸分析的重要內(nèi)容之一。常用評價指標有：復(fù)相關(guān)系數(shù)、決定系數(shù)、校正決定系數(shù)、剩余標準差等。

1.復(fù)相關(guān)系數(shù)

復(fù)相關(guān)系數(shù)（R），因變量的觀測值與估計值間的簡單相關(guān)系數(shù)，衡量因變量Y與回歸方程內(nèi)所有自變量線性組合間相關(guān)關(guān)系的密切程度。

0<=R<=1,沒有負值。

R的值越接近1，說明相關(guān)關(guān)系越密切；越接近0說明相關(guān)關(guān)系越弱。2.決定系數(shù)3、剩余標準差4、校正決定系數(shù)剩余標準差決定系數(shù)R2校正決定系數(shù)R2adj變異系數(shù)CV=（ROOTMSE/DEPMEAN）×100因變量的y均值三、逐步回歸分析（一）最優(yōu)子集回歸法求出所有自變量可能組合子集的回歸方程的模型（共有2m－1個），按一定準則選擇最優(yōu)模型，常用的準則有：①校正決定系數(shù)（考慮了自變量的個數(shù)）②CP準則（CP值接近m+1的模型為最優(yōu)；

m為所選模型中變量的個數(shù)

）③AIC(Akaike`sInformationCriterion)準則；AIC越小越好（一）最優(yōu)子集回歸法求出所有自變量可能組合子集的回歸方程的模型（共有2m－1個），按一定準則選擇最優(yōu)模型，常用的準則有：①校正決定系數(shù)（考慮了自變量的個數(shù)）②CP準則（CP值接近m+1的模型為最優(yōu)；

m為所選模型中變量的個數(shù)

）③AIC(Akaike`sInformationCriterion)準則；AIC越小越好最優(yōu)子集法的局限性

如果自變量個數(shù)為4，則所有的回歸有24－1＝15個；當自變量數(shù)個數(shù)為10時，所有可能的回歸為210－1＝1023個；……..；當自變量數(shù)個數(shù)為50時，所有可能的回歸為250－1≈1015個。（二）逐步選擇法

1.前進法（forwardselection）2.后退法（backwardelimination）3.逐步回歸法（stepwiseregression）。它們的共同特點是每一步只引入或剔除一個自變量。決定其取舍則基于對偏回歸平方和的F檢驗（1）前進法

自變量從無到有、從少到多

Y對每一個自變量作直線回歸，對回歸平方和最大的自變量作F檢驗，有意義（P?。﹦t引入。在此基礎(chǔ)上，計算其它自變量的偏回歸平方和，選取偏回歸平方和最大者作F檢驗，…。局限性：后續(xù)變量的引入可能會使先進入方程的自變量變得不重要。（2）后退法

先將全部自變量放入方程，然后逐步剔除

偏回歸平方和最小的變量，作F檢驗及相應(yīng)的P值，決定它是否剔除（P大）。建立新的回歸方程。重復(fù)上述過程。

局限性：自變量高度相關(guān)時，可能得不出正確的結(jié)果；開始時剔除的變量即使后來變得有顯著性也不能再進入方程。（3）逐步回歸法

雙向篩選：引入有意義的變量（前進法），剔除無意義變量（后退法）

小樣本檢驗水準

a一般定為0.10或0.15，大樣本把a值定為0.05。a值越小表示選取自變量的標準越嚴。

用逐步回歸法篩選自變量進入方程的自變量剔出方程的自變量每一步時模型的決定系數(shù)R2C(p)統(tǒng)計量逐步篩選變量過程y=a+b1x1+ey=a+b2x2+ey=a+b3x3+ey=a+b4x4+e逐步篩選變量過程y=a+bx4+ey=a+b2x2+b4x4+ey=a+b1x1+b4x4+ey=a+b3x3+b4x4+e逐步篩選變量過程y=a+b1x1+b2x2

+b4x4+ey=a+b1x1+b4x4+ey=a+b1x1+b3x3

+b4x4+e標準化偏回歸系數(shù)y=0.35409x2-0.36013x3+0.41334x4第三節(jié)多元線性回歸的應(yīng)用及其注意事項

二、多元線性回歸應(yīng)用時的注意事項

1．樣本含量2．方程“最優(yōu)”問題3．關(guān)于逐步回歸4．多元共線性5.異常值識別與強影響分析

4．殘差分析modely=x1-x4/selection=stepwiser;outputout=bbResidual=z;run;proc

cc;setbb;proc

univariatenormal;varz;run;

正態(tài)性檢驗檢驗方法----統(tǒng)計量-----------P值-------Shapiro-WilkW0.968787Pr<W0.5701Kolmogorov-SmirnovD0.148154Pr>D0.1300Cramer-vonMisesW-Sq0.070919Pr>W-Sq>0.2500Anderson-DarlingA-Sq0.372642Pr>A-Sq>0.2500從散點圖可以看出，各點子分布無明顯規(guī)律性，可認為近似隨機分布，所以擬合的方程可認為是合適的。多元共線性是指在進行多元回歸分析時，自變量間存在較強的線性相關(guān)關(guān)系。共線關(guān)系的存在，可使得估計系數(shù)方差加大，系數(shù)估計不穩(wěn)，結(jié)果分析困難。因此在多元回歸分析時，特別是當回歸結(jié)果難以用專業(yè)知識解釋時，要進行共線性診斷，找出存在共線性且不重要的那些自變量，剔出方程，另行回歸分析。對于存在共線性的資料，可以利用共線性診斷有選擇的保留自變量以消除共線性；或者采用嶺回歸、主成分回歸等回歸分析方法以避免共線性指標對結(jié)果的影響。5．多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,其最初的含義是指回歸模型中的某些自變量是線性相關(guān)的,即對于出現(xiàn)在模型中的自變量有一定關(guān)系成立.現(xiàn)在所說的“多元共線”有更廣泛的含義,除包括完全共線性的情況,也包括變量間有某種關(guān)系但又不是十分完全的線性關(guān)系.如下式所示的情況其中為隨機誤差項.此時可稱為近似多元共線。多元共線性問題產(chǎn)生的根源：1、由變量性質(zhì)引起多元統(tǒng)計分析時，作為自變量的某些變量高度相關(guān)，比如身高、體重和胸圍，變量之間的相關(guān)性是由變量自身的性質(zhì)決定的，此時不論數(shù)據(jù)以什么形式取得，樣本含量是大是小，都會出現(xiàn)自變量的共線性問題。因此，變量間自身的性質(zhì)是導(dǎo)致多元共線性的重要原因。多元共線性問題產(chǎn)生的根源：2、由數(shù)據(jù)問題引起：樣本含量過小、強影響觀測值、時序變量樣本含量過?。杭僭O(shè)只有兩個自變量X1與X2,當n=2時,兩點總能連成一條直線,即使性質(zhì)上原本并不存在線性關(guān)系的變量X1與X2,由于樣本含量問題產(chǎn)生了共線性。樣本含量較小時，自變量容易呈現(xiàn)線性關(guān)系。如果研究的自變量個數(shù)大于2,設(shè)為X1,X2，...，XP，雖然各自變量之間沒有線性關(guān)系，但如果樣本含量n小于模型中自變量的個數(shù)，就可能導(dǎo)致多元共線性問題。

多元共線性的表現(xiàn)在實際應(yīng)用中主要表現(xiàn)為：（1）模型擬合效果很好，但偏回歸系數(shù)幾乎都無統(tǒng)計學(xué)意義；（2）偏回歸系數(shù)估計值的方差很大；（3）偏回歸系數(shù)估計值不穩(wěn)定，隨著樣本含量的增減各偏回歸系數(shù)發(fā)生較大變化或當一個自變量被引入或剔除時其余變量偏回歸系數(shù)有很大變化；（4）偏回歸系數(shù)估計值的大小與符號可能與事先期望的不一致或與經(jīng)驗相悖，結(jié)果難以解釋出現(xiàn)以上表現(xiàn)，提示存在多元共線性問題，應(yīng)進行多元共線性診斷。modelx2=x3x4;R-Square=0.0492；VIF1=1/（1-0.0492）=1.0517modelx3=x2x4;R-Square=0.1099；VIF1=1/（1-0.1099）=1.1235modelx4=x2x3;R-Square=0.1514；VIF1=1/（1-0.1514）=1.1783方差膨脹因子VIF特征根條件指數(shù)方差分量如果某一自變量只是和截距項存在共線性的話，可以認為不存在共線性。殘差學(xué)生化殘差cook’s距離某研究所調(diào)查了13名兒童的性別（x1：男=1，女=2）、年齡（x2：月）、身高（x3：厘米）、體重（x4：公斤）、胸圍（x5：厘米）和心象面積（y：平方厘米），數(shù)據(jù)見表。試5個影響因素與心象面積間的關(guān)系。相關(guān)分析結(jié)果例1回歸分析結(jié)果各偏回歸系數(shù)假設(shè)檢驗結(jié)果自變量間的相關(guān)性example2:為了分析和預(yù)測人體吸入氧氣的效率，收集了31名中年男性的健康狀況資料。共7個指標：吸氧效率（y)、年齡（x1）、體重（x2)、跑1.5km所用時間（x3）、休息時心跳次數(shù)（x4)、跑步是心跳次數(shù)(X5)、和最高心率（x6）。該問題中y是因變量，試用多元回歸分析建立預(yù)測人體吸氧效率的模型。example2:對上述資料進行逐步回歸分析，輸出結(jié)果為：這個結(jié)論易造成誤導(dǎo)，因為在年齡、跑1.5km時間和跑步時心率相同的條件下，最高心率越大，吸氧效率越高，這與實際相矛盾。example2:對上述資料進行逐步回歸分析，輸出結(jié)果為：

X5和x6同時進入模型，模型擬合良好。但x6的回歸系數(shù)為正，與x6和y的相關(guān)系數(shù)符號相反。（1）檢驗自變量的內(nèi)相關(guān)性proc

corrdata=a;varx1-x6;run;OUTPUTexample2:（1）檢驗自變量的內(nèi)相關(guān)性O(shè)UTPUTproc

regdata=a;modely=x1-x6/tolvifcollin;run;

條件數(shù)＝197.95，遠遠大于10，數(shù)據(jù)存在嚴重共線性。

變量X5和x6的方差比例（vp）很大，接近于1，二者具有很強的共線性。

vp(x6)>vp(x5),因此，決定擬合模型時將變量x6排除在外。example2:（2）用逐步法擬合y在x1~x5上的線性回歸模型。proc

regdata=a;modely=x1-x5/selection=stepwise;title'stepwiseregressionanalysis:excludingx6';run;

第一步將x3加入到模型中。example2:（2）用逐步法擬合y在x1~x5上的線性回歸模型。

第二步將x1加入到模型中。example2:（2）用逐步法擬合y在x1~x5上的線性回歸模型。

第三步將x5加入到模型中。

逐步回歸得到的最后模型擬合數(shù)據(jù)很好（p<0.05,R2=0.8200),偏回歸系數(shù)均有統(tǒng)計學(xué)意義。example2:（2）用逐步法擬合y在x1~x5上的線性回歸模型。

注意！

逐步回歸得到的最后模型擬合數(shù)據(jù)很好（p<0.05,R2=0.8200),偏回歸系數(shù)均有統(tǒng)計學(xué)意義?？偨Y(jié)：example2:（3）通過誤差診斷判斷上述模型是否可靠

所有學(xué)生化殘差的絕對值小于2.5（基本滿足要求），而所有Cook’sD小于0.5，所以可認為數(shù)據(jù)中沒有異常值。procregdata=a;modely=x1x3x5/pr;outputout=bp=pr=r;plotr.*p.;run;p

人人文庫> 全部分類> 行業(yè)資料 > 醫(yī)學(xué)制藥

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

醫(yī)學(xué)統(tǒng)計學(xué)：多元線性回歸分析

文檔簡介

溫馨提示

最新文檔

評論

醫(yī)學(xué)統(tǒng)計學(xué)：多元線性回歸分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔