多元線性回歸與logistic回歸9頁_第1頁
多元線性回歸與logistic回歸9頁_第2頁
多元線性回歸與logistic回歸9頁_第3頁
多元線性回歸與logistic回歸9頁_第4頁
多元線性回歸與logistic回歸9頁_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第十一章 多元線性回歸與logistic回歸一、教學(xué)大綱要求(一)掌握內(nèi)容1多元線性回歸分析的概念:多元線性回歸、偏回歸系數(shù)、殘差。2多元線性回歸的分析步驟:多元線性回歸中偏回歸系數(shù)及常數(shù)項(xiàng)的求法、多元線性回歸的應(yīng)用。3多元線性回歸分析中的假設(shè)檢驗(yàn):建立假設(shè)、計(jì)算檢驗(yàn)統(tǒng)計(jì)量、確定值下結(jié)論。4logistic回歸模型結(jié)構(gòu):模型結(jié)構(gòu)、發(fā)病概率比數(shù)、比數(shù)比。5logistic回歸參數(shù)估計(jì)方法。6logistic回歸篩選自變量:似然比檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式;篩選自變量的方法。(二)熟悉內(nèi)容 常用統(tǒng)計(jì)軟件(SPSS及SAS)多元線性回歸分析方法:數(shù)據(jù)準(zhǔn)備、操作步驟與結(jié)果輸出。(三)了解內(nèi)容 標(biāo)準(zhǔn)化偏回歸系

2、數(shù)的解釋意義。二、教學(xué)內(nèi)容精要(一) 多元線性回歸分析的概念將直線回歸分析方法加以推廣,用回歸方程定量地刻畫一個(gè)應(yīng)變量與多個(gè)自變量X間的線形依存關(guān)系,稱為多元線形回歸(multiple linear regression),簡稱多元回歸(multiple regression)基本形式:式中為各自變量取某定值條件下應(yīng)變量均數(shù)的估計(jì)值,為自變量,為自變量個(gè)數(shù),為回歸方程常數(shù)項(xiàng),也稱為截距,其意義同直線回歸,, 稱為偏回歸系數(shù)(partial regression coefficient),表示在除以外的自變量固定條件下,每改變一個(gè)單位后的平均改變量。 (二) 多元線性回歸的分析步驟是與一組自變量

3、,相對應(yīng)的變量的平均估計(jì)值。多元回歸方程中的回歸系數(shù),, 可用最小二乘法求得,也就是求出能使估計(jì)值和實(shí)際觀察值的殘差平方和為最小值的一組回歸系數(shù),, 值。根據(jù)以上要求,用數(shù)學(xué)方法可以得出求回歸系數(shù),, 的下列正規(guī)方程組(normal equation): 式中 常數(shù)項(xiàng)可用下式求出:(三)多元線性回歸分析中的假設(shè)檢驗(yàn)在算得各回歸系數(shù)并建立回歸方程后,還應(yīng)對此多元回歸方程作假設(shè)檢驗(yàn),判斷自變量,是否與真有線性依存關(guān)系,也就是檢驗(yàn)無效假設(shè)(), 備選假設(shè)為各值不全等于0或全不等于0。檢驗(yàn)時(shí)常用統(tǒng)計(jì)量 式中為個(gè)體數(shù),為自變量的個(gè)數(shù)。式中 (四) logistic回歸模型結(jié)構(gòu)設(shè)為一組自變量,為

4、應(yīng)變量。當(dāng)是陽性反應(yīng)時(shí),記為=1;當(dāng)是陰性反應(yīng)時(shí),記為=0。用表示發(fā)生陽性反應(yīng)的概率;用表示發(fā)生陰性反應(yīng)的概率,顯然+=1。Logistic回歸模型為:同時(shí)可以寫成:式中是常數(shù)項(xiàng);是與研究因素有關(guān)的參數(shù),稱為偏回歸系數(shù)。事件發(fā)生的概率與之間呈曲線關(guān)系,當(dāng)在之間變化時(shí), 或在(0,1)之間變化。若有例觀察對象,第名觀察對象在自變量作用下的應(yīng)變量為,陽性反應(yīng)記為=1,否則=0。相應(yīng)地用表示其發(fā)生陽性反應(yīng)的概率;用表示其發(fā)生陰性反應(yīng)的概率,仍然有+=1。和的計(jì)算如下:這樣,第個(gè)觀察對象的發(fā)病概率比數(shù)(odds)為,第個(gè)觀察對象的發(fā)病概率比數(shù)為,而這兩個(gè)觀察對象的發(fā)病概率比數(shù)之比值便稱為比數(shù)比(odd

5、s ratio)。對比數(shù)比取自然對數(shù)得到關(guān)系式:ln等式左邊是比數(shù)比的自然對數(shù),等式右邊的是同一因素的不同暴露水平與之差。的流行病學(xué)意義是在其它自變量固定不變的情況下,自變量的暴露水平每改變一個(gè)測量單位時(shí)所引起的比數(shù)比的自然對數(shù)改變量?;蛘哒f,在其他自變量固定不變的情況下,當(dāng)自變量的水平每增加一個(gè)測量單位時(shí)所引起的比數(shù)比為增加前的倍。同多元線性回歸一樣,在比較暴露因素對反應(yīng)變量相對貢獻(xiàn)的大小時(shí),由于各自變量的取值單位不同,也不能用偏回歸系數(shù)的大小作比較,而須用標(biāo)準(zhǔn)化偏回歸系數(shù)來做比較。標(biāo)準(zhǔn)化偏回歸系數(shù)值的大小,直接反映了其相應(yīng)的暴露因素對應(yīng)變量的相對貢獻(xiàn)的大小。標(biāo)準(zhǔn)化偏回歸系數(shù)的計(jì)算,可利用有

6、關(guān)統(tǒng)計(jì)軟件在計(jì)算機(jī)上解決。(五)logistic回歸參數(shù)估計(jì)由于logistic回歸是一種概率模型,通常用最大似然估計(jì)法(maximum likelihood estimate)求解模型中參數(shù)的估計(jì)值。為在作用下的陽性事件(或疾?。┌l(fā)生的指示變量。其賦值為: 第個(gè)觀察對象對似然函數(shù)的貢獻(xiàn)量為: 當(dāng)各事件是獨(dú)立發(fā)生時(shí),則個(gè)觀察對象所構(gòu)成的似然函數(shù)是每個(gè)觀察對象的似然函數(shù)貢獻(xiàn)量的乘積,即式中為從1到的連乘積。依最大似然估計(jì)法的原理,使得達(dá)到最大時(shí)的參數(shù)值即為所求的參數(shù)估計(jì)值,計(jì)算時(shí)通常是將該似然函數(shù)取自然對數(shù)(稱為對數(shù)似然函數(shù))后,用NewtonRaphson迭代算法求解參數(shù)估計(jì)值。(六)logi

7、stic回歸篩選自變量在logistic回歸中,篩選自變量的方法有似然比檢驗(yàn)(likelihood ratiotest)、計(jì)分檢驗(yàn)(score test)、Wald檢驗(yàn)(Wald test)三種。其中似然比檢驗(yàn)較為常用,用表示似然比檢驗(yàn)統(tǒng)計(jì)量,計(jì)算公式為:式中為自然對數(shù)的符號,為方程中包含個(gè)自變量的似然函數(shù)值,為在方程中包含原個(gè)自變量的基礎(chǔ)上再加入1個(gè)新自變量后的似然函數(shù)值。在無效假設(shè)條件下,統(tǒng)計(jì)量服從自由度為1的分布。當(dāng)時(shí),則在水平上拒絕無效假設(shè),即認(rèn)為對回歸方程的貢獻(xiàn)具有統(tǒng)計(jì)學(xué)意義,應(yīng)將引入到回歸方程中;否則,不應(yīng)加入。逆向進(jìn)行即可剔除自變量。三、典型試題分析(一)單項(xiàng)選擇題1多元線性回歸

8、分析中,反映回歸平方和在應(yīng)變量的總離均差平方和中所占比重的統(tǒng)計(jì)量是( )。A 復(fù)相關(guān)系數(shù)B 偏相關(guān)系數(shù)C 偏回歸系數(shù)D 確定系數(shù)答案:D評析 本題考點(diǎn):多元線性回歸中的幾個(gè)概念的理解。多元線性回歸中的偏回歸系數(shù)(multiple linear regression)表示在其它自變量固定不變的情況下,自變量每改變一個(gè)單位時(shí),單獨(dú)引起應(yīng)變量的平均改變量。確定系數(shù)(coefficient of determination)表示回歸平方和占總離均差平方和的比例,簡記為。即 。確定系數(shù)的平方根即稱為復(fù)相關(guān)系數(shù)(multiple correlation coefficient),它表示個(gè)自變量共同對應(yīng)變量

9、線性相關(guān)的密切程度,它不取負(fù)值, 即01。2Logistic回歸分析適用于應(yīng)變量為( )。A分類值的資料 B連續(xù)型的計(jì)量資料C正態(tài)分布資料 D一般資料 答案:A評析 本題考點(diǎn):logistic回歸的概念。logistic回歸屬于概率型回歸,可用來分析某類事件發(fā)生的概率與自變量之間的關(guān)系。適用于應(yīng)變量為分類值的資料,特別適用于應(yīng)變量為二項(xiàng)分類的情形。模型中的自變量可以是定性離散值,也可以是計(jì)量觀測值。(二)計(jì)算題根據(jù)表11-2數(shù)據(jù),分別用SPSS統(tǒng)計(jì)軟件、SAS統(tǒng)計(jì)軟件寫出多元線性回歸的統(tǒng)計(jì)分析步驟及其簡要結(jié)果。表11-1 某學(xué)校20名一年級女大學(xué)生肺活量及有關(guān)變量測量結(jié)果 編號 體重/kg 胸

10、圍/cm 肩寬/cm 肺活量/L1 50.8 73.2 36.3 2.962 49.0 84.1 34.5 3.133 42.8 78.3 31.0 1.914 55.0 77.1 31.0 2.635 45.3 81.7 30.0 2.866 45.3 74.8 32.0 1.917 51.4 73.7 36.5 2.988 53.8 79.4 37.0 3.289 49.0 72.6 30.1 2.5210 53.9 79.5 37.1 3.2711 48.8 83.8 33.9 3.1012 52.6 88.4 38.0 3.2813 42.7 78.2 30.9 1.9214 52.5

11、 88.3 38.1 3.2715 55.1 77.2 31.1 2.6416 45.2 81.6 30.2 2.8517 51.4 78.3 36.5 3.1618 48.7 72.5 30.0 2.5119 51.3 78.2 36.4 3.1520 45.8 75.0 32.5 1.94答案:SPSS:數(shù)據(jù)文件:“EXAP112sav”。 數(shù)據(jù)格式:4列20行。過程: Statistic Regression Linear. Dependent:Y Independent(s):, Method: Enter結(jié)果:Variables Entered/RemovedModelVariabl

12、es EnteredVariables RemovedMethod1(肩寬), (胸圍), (體重).Entera All requested variables entered.b Dependent Variable: Y(肺活量) Model SummaryModelRR SquareAdjusted RSquareStd. Error of the Estimate1.846.715.662.2893a Predictors: (Constant), , ANOVA Model Sum of SquaresdfMean SquareFSig.1 Regression Residual

13、Total3.3671.3394.706 316191.1228.368E-02 13.413 .000 a Predictors: (Constant), ,b Dependent Variable: Y Coefficients Model Unstandardized Coefficients Standardized Coefficientst Sig. BStd. ErrorBeta1 (Constant)-4.6766.036E-023.508E-025.010E-021.321.021.015.029 .474.333.307-3.5412.8992.2721.735.003.0

14、10.037.102a Dependent Variable: Y SAS:數(shù)據(jù)步 過程步DATA EXAP112;INPUT x1 x2 x3 y ; PROC REG;CARDS; MODEL y=x1 x2 x3;50.8 73.2 36.3 2.9645.8 75.0 32.5 1.94; RUN; 結(jié)果: Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 3 3.36732 1.12244 13.41 0.0001 Error 16 1.33893 0.08368 Cor

15、rected Total 19 4.70626 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 -4.67553 1.32051 -3.54 0.0027 X1 1 0.06036 0.02082 2.90 0.0105 X2 1 0.03508 0.01544 2.27 0.0372 X3 1 0.05010 0.02888 1.73 0.1020評析 本題考點(diǎn):統(tǒng)計(jì)軟件關(guān)于多元線性回歸的分析方法及主要輸出結(jié)果。根據(jù)SPSS或SAS的輸出結(jié)果,可

16、進(jìn)行以下分析:1 檢驗(yàn)H0:的方差分析表。F=13.413,P=0.0001,拒絕H0,肺活量至少與一個(gè)自變量存在線性關(guān)系。2 估計(jì)偏回歸系數(shù)b1,b2,b3,給出多元線性回歸方程,R2=0.715,Ra2=0.662。3 偏回歸系數(shù)檢驗(yàn),見表11-2。表11-2 偏回歸系數(shù)估計(jì)值及其檢驗(yàn)偏回歸系數(shù)估計(jì)值SEtPb0-4.6751.321-3.540.00b10.0600.0212.900.01b20.0350.0152.270.04b30.0500.0291.730.10四、習(xí) 題(一) 單項(xiàng)選擇題1 可用來進(jìn)行多元線性回歸方程的配合適度檢驗(yàn)是:A 檢驗(yàn) B 檢驗(yàn)C 檢驗(yàn) D Ridit檢驗(yàn)

17、2 在多元回歸中,若對某個(gè)自變量的值都增加一個(gè)常數(shù),則相應(yīng)的偏回歸系數(shù):A 不變B 增加相同的常數(shù)C 減少相同的常數(shù)D 增加但數(shù)值不定3 在多元回歸中,若對某個(gè)自變量的值都乘以一個(gè)相同的常數(shù)k,則:A 該偏回歸系數(shù)不變B 該偏回歸系數(shù)變?yōu)樵瓉淼?/k倍C 所有偏回歸系數(shù)均發(fā)生改變D 該偏回歸系數(shù)改變,但數(shù)值不定4 作多元回歸分析時(shí),若降低進(jìn)入的界值,則進(jìn)入方程的變量一般會:A 增多 B 減少C 不變 D 可增多也可減少(二) 名詞解釋1.多元線性回歸 2.偏回歸系數(shù) 3.復(fù)相關(guān)系數(shù) 4.確定系數(shù) 5.比數(shù) 6.比數(shù)比(三) 簡答題logistic回歸模型中,偏回歸系數(shù)的解釋意義是什么?(四)

18、計(jì)算題某學(xué)者研究在某種營養(yǎng)缺乏狀態(tài)下兒童的體重(,kg)與身高(,cm)、年齡(,歲)的關(guān)系獲得了12名觀察對象的觀測資料,計(jì)算得到如下基本數(shù)據(jù):,。(1) 請寫出求解二元線性回歸方程的正規(guī)方程組。(2) 設(shè)方程組的解為,請寫出回歸方程。(3) 完成下列方差分析表。表11-3 12名兒童體重與身高、年齡回歸分析方差分析表 變異來源 回歸 殘差 總和五、習(xí)題答案要點(diǎn)(一) 單項(xiàng)選擇題1 B 2 A 3 B 4 A(二) 名詞解釋1 用回歸方程定量地刻畫一個(gè)應(yīng)變量與多個(gè)自變量間的線性依存關(guān)系,稱為多元線性回歸(multiple linear regression),簡稱多元回歸(multiple regression)。2 多元線性回歸的基本形式為: ,, 稱為偏回歸系數(shù)(partial regression coefficient),表示在除以外的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論