




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、a1a2多元線性回歸 多元線性回歸是簡單線性回歸的直接推廣,其包含一個因變量和二個或二個以上的自變量。 簡單線性回歸是研究一個因變量Y和一個自變量X之間數(shù)量上相互依存的線性關(guān)系。而多元線性回歸是研究一個因變量Y和多個自變量Xi之間數(shù)量上相互依存的線性關(guān)系。 簡單線性回歸的大局部內(nèi)容可用于多元回歸,因其根本概念是一樣的。a3內(nèi)容安排多元線性回歸模型與參數(shù)估計回歸方程和偏回歸系數(shù)的假設(shè)檢驗標(biāo)準(zhǔn)化偏回歸系數(shù)和確定系數(shù)多元回歸分析中的假設(shè)干問題回歸分析中自變量的選擇多元線性回歸分析的作用a4多元線性回歸模型與參數(shù)估計 設(shè)有自變量x1,x2,xp和因變量Y以及一份由n個個體構(gòu)成的隨機樣本(x1i,x2i
2、,xpi,,Yi,且有如下關(guān)系: y =B0+B1x1+B2x2+Bp xp+ (模型 B0、B1、B2和Bp為待估參數(shù), 為殘差。 由一組樣本數(shù)據(jù),可求出等估參數(shù)的估計值b0、b1、b2和bp,,得到如下回歸方程: i =b0+b1x1+b2x2+bp xp 由此可見,建立回歸方程的過程就是對回歸模型中的參數(shù)常數(shù)項和偏回歸系數(shù)進行估計的過程。a5參數(shù)的最小二乘估計 與簡單回歸類似,我們尋求參數(shù)B0、B1、B2和Bp的適宜估計數(shù)值b0、b1、b2和bp,,使實際觀察值和回歸方程估計值之間殘差平方和最小, 即 Q (yi i) 2 = (yi b0b1x1ib2x2ibp xp i) 2 對b0
3、、b1、bp分別求偏導(dǎo)數(shù),今偏導(dǎo)數(shù)為零可獲得P1個正規(guī)方程,求解正規(guī)方程可得待估參數(shù)值。a6回歸方程和偏回歸系數(shù)的假設(shè)檢驗回歸方程的假設(shè)檢驗: 建立回歸方程后,須分析應(yīng)變量Y與這p個自變量之間是否確有線性回歸關(guān)系,可用F分析。 H0: B1B2.=Bp=0 H1: H0不正確 F MS回歸 / MS誤差 MS回歸 SS回歸p SS回歸 = bjLjy ( j =1,2.,P)MS誤差 SS誤差(n-p-1) SS誤差為殘差平方和 a7偏回歸系數(shù)的假設(shè)檢驗 回歸方程的假設(shè)檢驗假設(shè)拒絕H0,那么可分別對每一個偏回歸系數(shù)bj作統(tǒng)計檢驗,實質(zhì)是考察在固定其它變量后,該變量對應(yīng)變量 Y 的影響有無顯著性
4、。 H0: Bj=0 H1: Bj不為零 F Xj 的偏回歸平方和1 / MS誤差 Xj 的偏回歸平方和:去Xj后回歸平方和的減少量 假設(shè)H0成立,可把Xj從回歸方程中剔除,余下變量重新構(gòu)建新的方程。a8標(biāo)準(zhǔn)化偏回歸系數(shù)和確定系數(shù) 標(biāo)準(zhǔn)化偏回歸系數(shù): 在比較各自變量對應(yīng)變量相對奉獻大小時,由于各自變量的單位不同,不能直接用偏回歸系數(shù)的大小作比較,須用標(biāo)準(zhǔn)化偏回歸系數(shù)。 bj = bj (sj / sy) a9確定系數(shù): 簡記為R2,即回歸平方和SS回歸與總離均差平方和SS總的比例。 R2 SS回歸 SS總 可用來定量評價在Y的總變異中,由P個X變量建立的線性回歸方程所能解釋的比例。a10回歸分
5、析中的假設(shè)干問題 資料要求:總體服從多元正態(tài)分布。但實際工作中分類變量也做分析。 n足夠大,至少應(yīng)是自變量個數(shù)的5倍 分類變量在回歸分析中的處理方法 有序分類: 治療效果:x=0(無效 ) x=1(有效) x=2(控制) 無序分類: 有k類,那么用k1變量偽變量a11 如職業(yè),分四類可用三個偽變量: y1 y2 y3 工人 1 0 0 農(nóng)民 0 1 0 干部 0 0 1 學(xué)生 0 0 0a12 多元線性回歸方程的評價 評價回歸方程的優(yōu)劣、好壞可用確定系數(shù)R2和剩余標(biāo)準(zhǔn)差Sy,x1,2.p 。 Sy,x1,2. p SQRTSS誤差n-p-1 如用于預(yù)測,重要的是組外回代結(jié)果。a13回歸方程中自
6、變量的選擇 多元線性回歸方程中并非自變量越多越好,原因是自變量越多剩余標(biāo)準(zhǔn)差可能變大;同時也增加收集資料的難度。故需尋求“最正確回歸方程,逐步回歸分析是尋求“較佳回歸方程的一種方法。a14選擇變量的統(tǒng)計學(xué)標(biāo)準(zhǔn) R2最大 R2 SS回歸 SS總 adjR2最大: adjR21MS誤差/ MS總 Cp值最小 Cpn-p-1)(MS/MS1p+1)a15選擇變量的方法 最優(yōu)子集回歸分析法: p個變量有2p1個方程 逐步回歸分析向前引入法(forward selection)向后剔除法(backward selection)逐步引入剔除法(stepwise selection)H0:K個自變 量為好
7、H1:K1個自變量為好a16 向前引入法forward selection) 自變量由少到多一個一個引入回歸方程。將 corr(y , xj)最大而又能拒絕H0者,最先引入方程,余此類推。至不能再拒絕H0為止。a17 向后剔除法backward selection) 自變量先全部選入方程,每次剔除一個使上述檢驗最不能拒絕H0者,直到不能剔除為止。a18 逐步引入剔除法stepwise selection) 先規(guī)定兩個閥值F引入和F剔除,當(dāng)候選變量中最大F值F引入時,引入相應(yīng)變量;已進入方程的變量最小FF剔除時,剔除相應(yīng)變量。如此交替進行直到無引入和無剔除為止。計算復(fù)雜a19多元線性回歸方程的作
8、用 因素分析 調(diào)整混雜因素的作用 統(tǒng)計預(yù)測a20例:測量16名四歲男孩心臟縱徑X1CM、心臟橫徑X2CM和心象面積YCM2三項指標(biāo),得如下數(shù)據(jù)。試作象面積Y對心臟縱徑X1、心臟橫徑X2多元線性回歸分析。例:某科研協(xié)作組調(diào)查山西某煤礦2期高血壓病患者40例,資料如下表,試進行影響煤礦工人2期高血壓病病人收縮壓的多元線性回歸分析。a21Logistic回歸a22 多元回歸分析可用來分析多個自變量與一個因變量的關(guān)系,模型中因變量Y是邊連續(xù)性隨機變量,并要求呈正態(tài)分布。但在醫(yī)學(xué)研究中,常碰到因變量的取值僅有兩個,如藥物實驗中,動物出現(xiàn)死亡或生存,死亡概率與藥物劑量有關(guān)。設(shè)P表示死亡概率,X表示藥物劑量
9、,P和X的關(guān)系顯然不能用一般線性回歸模型PB0B1X來表示。這時可用Logistic回歸分析。a23內(nèi)容安排 Logistic回歸模型 模型參數(shù)的意義 Logistic回歸模型的參數(shù)估計 Logistic回歸方程的假設(shè)檢驗 Logistic回歸模型中自變量的篩選 Logistic回歸的應(yīng)用 a24Logistic回歸模型 先引入Logistic分布函數(shù),表達式為: Fx) = ex / ( 1+ex ) X的取值在正負(fù)無窮大之間;F(x)那么在01之間取值,并呈單調(diào)上升S型曲線。人們正是利用Logistic分布函數(shù)這一特征,將其應(yīng)用到臨床醫(yī)學(xué)和流行病學(xué)中來描述事件發(fā)生的概率。a25 以因變量D
10、1表示死亡,D0表示生存,以PD1X表示暴露于藥物劑量X的動物死亡的概率,設(shè) PD1Xe Bo+BX /(1+e Bo+BX )記Logit(P)=lnp/(1-p),那么上式可表示為: Logit(P) Bo+BX 這里X的取值仍是任意的, Logit(P)的值亦在正負(fù)無窮大之間,概率P的數(shù)值那么必然在01之間。 p/(1-p)為事件的優(yōu)勢, Logit(P)為對數(shù)優(yōu)勢,故logistic回歸又稱對數(shù)優(yōu)勢線性回歸a26 一般地,設(shè)某事件D發(fā)生D1的概率P依賴于多個自變量x1,x2, ,xp),且 PD1e Bo+B1X1+BpXp /(1+e Bo+B1X1+BpXp ) 或 Logit(P
11、) Bo+B1X1+Bp X p那么稱該事件發(fā)生的概率與變量間關(guān)系符合多元Logistic回歸或?qū)?shù)優(yōu)勢線性回歸。a27 logistic回歸模型參數(shù)的意義 優(yōu)勢比odds ratio, OR):暴露人群發(fā)病優(yōu)勢與非暴露人群發(fā)病優(yōu)勢之比。 P(1) / 1-p(1) OR= P(0) / 1-p(0) Ln(oR)=logitp(1)-logitp(0)=(B0+B1) (B0+B0)=B 可見B是暴露劑量增加一個單位所引起的對數(shù)優(yōu)勢的增量,或單位暴露劑量與零劑量死亡優(yōu)勢比的對數(shù)。eB就是兩劑量死亡優(yōu)勢比。常數(shù)項B0是所有變量X等于零時事件發(fā)生優(yōu)勢的對數(shù)。a28Logistic回歸的參數(shù)估計
12、Logistic回歸模型的參數(shù)估計常用最大似然法,最大似然法的根本思想是先建立似然函數(shù)或?qū)?shù)似然函數(shù),似然函數(shù)或?qū)?shù)似然函數(shù)到達極大時參數(shù)的取值,即為參數(shù)的最大似然估計值。其步驟為對對數(shù)似然函數(shù)中的待估參數(shù)分別求一階偏導(dǎo)數(shù),令其為0得一方程組,然后求解。由于似然函數(shù)的偏導(dǎo)數(shù)為非線性函數(shù),參數(shù)估計需用非線性方程組的數(shù)值法求解。常用的數(shù)值法為Newton-Raphson法。不同研究的設(shè)計方案不同,其似然函數(shù)的構(gòu)造略有差異,故Logistic回歸有非條件Logistic回歸與條件Logistic回歸兩種。a29Logistic回歸的假設(shè)檢驗1、擬合優(yōu)度檢驗:目的是檢驗?zāi)P凸烙嬛蹬c實際觀察值的符合程度
13、。SAS程序提供了以下統(tǒng)計量。A、AIC和SC:對同一份資料,在模型比較中,這兩個越小,說明模型越適宜。B、2LogL:用于檢驗全部自變量協(xié)變量的聯(lián)合作用。如顯著,說明全部協(xié)變量的聯(lián)合作用顯著;如不顯著,說明全部協(xié)變量的聯(lián)合作用不大,可予無視。C、Score:用于檢驗全部協(xié)變量聯(lián)合作用的顯著性,但不包截距項。a302、偏回歸系數(shù)的顯著性檢驗:目的是檢驗回歸模型中自變量的系數(shù)是否為零,等價于總體優(yōu)勢比OR是否為零。 H0:B等于零 H1:B不等于零A、wald檢驗:B、Score test:C、likelihood ratio test(wald chi-square test):a31回歸模型
14、中自變量的篩選 和多元線性回歸分析一樣,在Logistic回歸分析中也須對自變量進行篩選。方法和多元線性回歸中采用的方法一樣,有向后剔除法、向前引入法及逐步篩選法三種。篩選自變量的方法有wald檢驗、Score test、likelihood ratio test(wald chi-square test)三種。a32Logistic 回歸的應(yīng)用 篩選危險因素 校正混雜因素 預(yù)測與判別a33例1:在飲酒與食道癌的成組病例對照研究中,共有200例食道癌患者和774例非食道癌對照,年齡是混雜因素,按年齡分層后資料如下: age 對象1=病例 0=對照 飲酒 不飲酒 合計 OR 2534 1 1 0 1 0 9 106 115 0 26 164 190 0 29 138 167 0 27 138 165 0 18 88 10675- 1 5 8 13 0 0 31 31 a34 例2:研究女生月經(jīng)初潮與體質(zhì)關(guān)系的調(diào)查中,某地調(diào)查了23名1115歲女生的月經(jīng)和體質(zhì)情況,脈搏X1為30秒脈搏數(shù),體重X2單位為公斤,年齡X3單位為歲。月經(jīng)Y為0表示未來月經(jīng),1表示已來月經(jīng)。試用非條件Logistic 回歸進行分析。 X1=40 X2=40 X3=13 p=0.92; X1=39 X
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息化對于物流服務(wù)質(zhì)量的影響試題及答案
- 醫(yī)美行業(yè)經(jīng)濟分析
- 2024監(jiān)理工程師春季考試試題及答案
- 2024人力資源管理師案例分析方法試題及答案
- 數(shù)字化進程下的全媒體挑戰(zhàn)試題及答案
- 黑龍江民族職業(yè)學(xué)院《高層建筑結(jié)構(gòu)課程設(shè)計》2023-2024學(xué)年第一學(xué)期期末試卷
- 黑龍江省雙鴨山一中2025屆普通高中畢業(yè)班質(zhì)量檢查數(shù)學(xué)試題文試題含解析
- 掌握2024計算機二級考試基礎(chǔ)試題及答案
- 黑龍江省大興安嶺漠河一中2025屆普通高中畢業(yè)班綜合測試(二)英語試題含解析
- 黑龍江省綏化市望奎縣第二中學(xué)2025年高三下學(xué)期期中模擬調(diào)研生物試題含解析
- 危險化學(xué)品安全周知卡(鹽酸)
- 2023年江蘇鹽城市射陽縣農(nóng)業(yè)水利投資開發(fā)集團有限公司招聘筆試題庫及答案解析
- GB/T 8545-2012鋁及鋁合金模鍛件的尺寸偏差及加工余量
- GB/T 6730.65-2009鐵礦石全鐵含量的測定三氯化鈦還原重鉻酸鉀滴定法(常規(guī)方法)
- 威尼斯的小艇 省一等獎
- 企業(yè)人力資源管理師(四級)教材
- 教科版六年級下冊科學(xué)第一單元測試卷(原卷版)
- 【教學(xué)課件】正確行使訴訟權(quán)利-示范課件
- 促進市級醫(yī)院臨床技能與臨床創(chuàng)新三年行動計劃
- 主觀幸福感(GWB)量表
- 臨床試驗疑難問題解答
評論
0/150
提交評論