13-多重線性回歸、Logistic回歸_第1頁
13-多重線性回歸、Logistic回歸_第2頁
13-多重線性回歸、Logistic回歸_第3頁
13-多重線性回歸、Logistic回歸_第4頁
13-多重線性回歸、Logistic回歸_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

實驗11多重線性回歸、Logistic回歸spss過程第一節(jié)多重線性回歸分析3一、方法簡介

1.1分析目的與方法選擇研究一個因變量與一個自變量間的線性關系時,簡單線性回歸分析研究一個因變量與多個自變量間的線性關系時,多重線性回歸分析研究多個因變量與多個自變量間的線性關系時,多元多重線性回歸分析4一、方法簡介1.2概念用回歸方程定量地刻畫一個因變量與多個自變量之間的線性依存關系,稱為多重線性回歸分析(multiplelinearregressionanalysis)。自變量是相互獨立的連續(xù)型變量或分類變量。

一、方法簡介1.3數(shù)據(jù)結(jié)構表1進行多重線性回歸分析資料的數(shù)據(jù)結(jié)構5編號X1X2…XkY1X11X12…X1kY12X21X22…X2kY2:::::nXn1Xn2…XnkYn6二、基本原理

2.1原理簡介多重線性回歸模型:

Y=b0+b1X1+b2X2+…+bkXk+e=bX+e

其中,bj(j=0,1,2…

,k)為未知參數(shù),e為隨機誤差項。7二、基本原理2.1原理簡介多重線性回歸模型中包含多個自變量,它們同時對因變量Y發(fā)生作用。

若要考察一個自變量對Y

的影響,就必須假設其他自變量保持不變。8二、基本原理

2.1原理簡介因此,多重線性回歸模型中的回歸系數(shù)為偏回歸系數(shù)。

它反映的是當模型中的其他自變量不變時,其中一個自變量對因變量Y的均值的影響。9二、基本原理

2.2前提條件

多重線性回歸分析要求資料滿足線性(Linear)、獨立性(Independence)、正態(tài)性(Normality)和方差齊性(Equalvariance),即LINE條件。

除此之外,還要求多個自變量之間相關性不要太強。

10二、基本原理

2.2前提條件線性——指自變量與因變量之間的關系是線性的獨立性——指各觀測值之間是相互獨立的正態(tài)性——指自變量取不同值時,因變量服從正

態(tài)分布方差齊性——指自變量取不同值時,因變量的方

差相等11三、分析步驟1.基本任務

求出模型中參數(shù)的估計值,對模型和參數(shù)進行假設檢驗;對自變量進行共線性診斷,對觀測值進行異常值診斷;結(jié)合統(tǒng)計學知識和專業(yè)知識,對回歸方程進行合理的解釋,并加以應用。

四、多重線性回歸分析的

注意事項

1.

多重回歸分析的條件線性(linear)、獨立(independent)、正態(tài)(normal)和等方差(equalvariance)。“LINE”。2.

作多重回歸分析時,應注意樣本含量一般應使記錄數(shù)(case)達到自變量數(shù)的10~20倍。3.

作多重回歸分析時,決定系數(shù)R2很重要一般R2很小的方程實際意義不大。

4.

多重回歸分析時,應避免選擇Enter法,最好選擇stepwise法。5.

不能直接使用回歸系數(shù)bi相互比較回歸作用大小,而應該使用標準化系數(shù)bi'(standardizedcoefficient)。6.

作多重逐步回歸分析時,應事先確定自變量入選和剔除的α值的界限一般采取“嚴進寬出”的原則。即入選時,α=0.05,剔除時,α=0.10。

7.

多重回歸分析時,必須結(jié)合資料的專業(yè)實際意義來選擇不同的自變量入選和剔除的α值的大小。8.

多重回歸分析時,應注意統(tǒng)計上的“最優(yōu)”與專業(yè)上的“最優(yōu)”的區(qū)別

不同準則、方法得出的“最優(yōu)”方程不同;不同的引入、剔除標準獲得的“最優(yōu)”方程不同;方程還受數(shù)據(jù)的準確性、共線性等影響。這么多條條框框!

9.

多重回歸分析時,應注意自變量的數(shù)量化問題。

Ⅰ.

自變量為連續(xù)型變量(常直接用即可,必要時作變換)Ⅱ.

自變量為有序變量(依次賦值,如療效好中差,可分別賦值

3、2、1)Ⅲ.

自變量為二分類(可令男=1,女=0)Ⅳ.

自變量為名義分類[需要采用啞變量(dummyvariables)

進行編碼]

名義分類變量的啞變量化

假如職業(yè)分類為工、農(nóng)、商、學、兵5類,則可定義比分類數(shù)少1個,即4個啞變量。編碼方法如下:舉例姓名性別sex年齡職業(yè)(J)J1J2J3J4張三男119學生0001李四女025商人0010王五男130軍人0000趙六女040農(nóng)民0100錢七女036工人1000孫八男130商人0010劉九男126軍人0000

10.作多重回歸分析時,應注意多重共線性(Multi-collinearity)問題自變量間存在著相關關系,使一個或幾個自變量可以由另外的自變量線性表示時,稱為該變量與另外的自變量間存在有共線性。識別回歸系數(shù)的符號與專業(yè)知識不符;變量的重要性與專業(yè)不符;R2高,但各自變量對應的回歸系數(shù)均不顯著;方差膨脹因子(VarianceInflationFactors,VIF)>10。對策篩選自變量用主成分回歸嶺回歸

11.

多重回歸分析時,殘差分析(Residualanalysis)也是模型診斷不可缺少的過程。12.

多重回歸分析時,應特別注意異常點對模型的影響

對于少于3個自變量的多重回歸分析,可以通過直觀的二維或三維散點圖(ScatterPlot)

在分析前檢查。什么時候完?。±?/p>

為了研究有關糖尿病患者體內(nèi)脂聯(lián)素水平的影響因素,某醫(yī)師測定30名患者的體重指數(shù)BMI(kg/m2)、病程、瘦素LEP(ng/ml)、空腹血糖FPG(mmol/l)及脂聯(lián)素水平。五、實例1、定義變量,輸入數(shù)據(jù)考察線性1、散點圖矩陣graphs→scatter/Dot…→matrixscatter2、自變量與殘差的散點圖graphs→scatter/Dot…→simplescatter選擇enter,(選入全部變量)描述兩兩相關(簡單相關)模型的基本情況四個自變量全部選入的復相關系數(shù)、決定系數(shù)、調(diào)整決定系數(shù)、標準誤方差分析結(jié)果,模型有意義系數(shù)(回歸系數(shù)b、b的標準誤、標準回歸系數(shù)、t值、p值)2、分析Analyze----regression---linear

因變量:脂聯(lián)素

自變量:其他四個變量全部選入

method:選擇逐步stepwise模型基本情況(每一步引入模型的變量,納入、剔除自變量的水準0.05、0.10)模型概況

第一行,引入一個變量

第二行,引入兩個變量方差分析

1,引入一個變量

2,引入兩個變量選擇菜單Analyze-Regression-Linear,出現(xiàn)窗口:(2)選擇被解釋變量進入Dependent框。(3)選擇一個或多個解釋變量進入Independent(s)框。(4)在Method框中選擇回歸分析中解釋變量的篩選策略。①Enter表示所選變量強行進入回歸方程,是SPSS默認的策略,通常用在一元線性回歸分析中;②Remove表示從回歸方程中剔除所選變量;③Stepwise表示逐步篩選策略;④Backward表示向后篩選策略;⑤Forward表示向前篩選策略。(5)第三和第四步中確定的解釋變量及變量篩選策略可放置在不同的塊(Block)中。通常在回歸分析中不止一組待進入方程的解釋變量和相應的篩選策略,可以單擊Next和Previous按鈕設置多組解釋變量和變量篩選策略并放置在不同的塊中。(6)選擇一個變量作為條件變量放到Selection

Variable框中,并單擊Rule按鈕給定一個判斷條件。只有變量值滿足判定條件的樣本才參與線性回歸分析。(7)在CaseLabels框中指定哪個變量作為樣本數(shù)據(jù)點的標志變量,該變量的值將標在回歸分析的輸出圖形中。9.5.2線性回歸分析的其他操作1.Statistics按鈕可供用戶選擇更多的輸出統(tǒng)計量。(1)Estimates:SPSS默認輸出項,輸出與回歸系數(shù)相關的統(tǒng)計量:回歸系數(shù)(偏回歸系數(shù))、回歸系數(shù)標準誤差、標準化回歸系數(shù)、回歸系數(shù)顯著性檢驗的t統(tǒng)計量和概率p值,各解釋變量的容忍度。(2)ConfidenceIntervals:輸出每個非標準化回歸系數(shù)95%的置信區(qū)間。(3)Descriptive:輸出各解釋變量和被解釋變量的均值、標準差、相關系數(shù)矩陣及單側(cè)檢驗概率p值。(4)Modelfit:SPSS默認輸出項。輸出以下結(jié)果:判定系數(shù)、調(diào)整的判定系數(shù)、回歸方程的標準誤差、回歸方程顯著F檢驗的方程分析表。(5)Rsquaredchange:輸出每個解釋變量進入方程后引起的判定系數(shù)的變化量和F值的變化量。(6)Partandpartialcorrelation:輸出方程中各解釋變量與被解釋變量之間的簡單相關、偏相關系數(shù)。(7)Covariancematrix:輸出方程中各解釋變量間的相關系數(shù)、協(xié)方差以及各回歸系數(shù)的方差。(8)CollinearityDiagnostics:多重共線性分析。輸出各個解釋變量的容忍度、方差膨脹因子、特征值、條件指標、方差比例等。(9)Residual框

①Durbin-waston表示輸出DW檢驗值;

②CasewiseDiagnostic表示輸出標準化殘差絕對值大于等于3(SPSS默認值)的樣本數(shù)據(jù)的相關信息,包括預測值、殘差、杠桿值等。可供用戶設置多元線性回歸分析中解釋變量篩選的標準以及缺失值的處理方式。2.Options選項(1)[UseprobabilityofF]:以偏F統(tǒng)計量的概率值為標準判斷解釋變量能否進入或剔除回歸方程。(2)[useFvalue]:以偏F統(tǒng)計量的臨界值為標準判斷解釋變量能否進入或剔除回歸方程。(3)[includeconstantinequation]:是否進行中心化處理,即方程中是否包含常數(shù)項。3.Plot選項該選項用于對殘差序列的分析(1)窗口左邊框中各變量名的含義:

①DEPENDNT表示被解釋變量,②*ZPRED表示標準化預測值,③*ZRESID表示標準化殘差,④*DRESID表示剔除殘差,⑤*ADJPRED表示調(diào)整的預測值,⑥*SRESID表示學生化殘差,⑦*SDRESID表示剔除學生化殘差。(2)繪制多對變量的散點圖,可根據(jù)需要在scatter框中定義散點圖的縱坐標和橫坐標變量。(3)StandardizedResidualPlots框①Histogram:繪制標準化殘差序列的直方圖;②Normalprobabilityplot:繪制標準化殘差序列的正態(tài)分布累計概率圖。③Produceallpartial

plots:依次繪制被解釋變量和各個解釋變量的散點圖。(1)該窗口的功能是將回歸分析的某些結(jié)果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中,并可同時生成XML格式的文件,便于分析結(jié)果的網(wǎng)絡發(fā)布。(2)PredictedValues框:保存非標準化預測值、標準化預測值、調(diào)整的預測值和預測值的均值標準誤差。(3)predictionintervals框:保存均值或個體預測值95%(默認)置信區(qū)間的下限值和上限值。(4)Residual框:保存非標準化殘差、標準化殘差等。(5)InfluenceStatistics框:保存剔除第i個樣本后統(tǒng)計量的變化量。5.WSL選項采用加權最小二乘法替代普通最小二乘法估計回歸參數(shù),并指定一個變量作為權重變量。4.Save選項以高校科研研究數(shù)據(jù)為例,建立回歸方程研究

1.課題總數(shù)受論文數(shù)的影響2.被解釋變量—課題總數(shù),解釋變量—投入人年數(shù)(X2)投入高級職稱的人年數(shù)(X3)投入科研事業(yè)費(X4)專著數(shù)(X6)論文數(shù)(X7)獲獎數(shù)(X8)(1)解釋變量采用強制進入策略(Enter),并做多重共線性檢測。(2)解釋變量采用向后篩選策略讓SPSS自動完成解釋變量的選擇。

9.6應用舉例第二節(jié)Logistic回歸第10章非參數(shù)檢驗內(nèi)容基本概念基本步驟基本操作基本結(jié)果解釋數(shù)據(jù)分析的背景計量資料單因素統(tǒng)計分析對于兩組計量資料的比較,一般采用t檢驗或秩和檢驗。對于兩個變量的相關分析采用Pearson相關分析或Spearman相關分析考慮多因素的影響,對于應變量(反應變量)為計量資料,一般可以考慮應用多重線性回歸模型進行多因素分析。數(shù)據(jù)分析的背景單因素的分類資料統(tǒng)計分析,一般采用Pearson

2進行統(tǒng)計檢驗,用OddsRatio及其95%可信區(qū)間評價關聯(lián)程度。考慮多因素的影響,對于反應變量為分類變量時,用線性回歸模型P=a+bx就不合適了,應選用Logistic回歸模型進行統(tǒng)計分析。Logistic回歸模型按研究設計分類非配對設計:非條件Logistic回歸模型配對病例對照:條件Logistic回歸模型按反應變量分類二分類Logistic回歸模型(常用)多分類無序Logistic回歸模型多分類有序Logistic回歸模型基礎知識通過下例引入和復習相關概念例如:研究患某疾病與飲酒的關聯(lián)性患病率P1=a/m1P2=b/m2基礎知識Odds(優(yōu)勢)P越大,則Odds越大;P越小,則Odds越小并且0<Odds<+

基礎知識P與Odds一一對應對于兩個Odds的比較,一般用它們的Ratio,并稱為OddsRatio(OR),其定義如下:其樣本估計統(tǒng)計量為基礎知識

故比較兩個率<==>比較OR=1?OR>1?OR<1?(二分類)Logistic回歸模型因為0<Odds<+

所以-

<ln(Odds)<+

對ln(Odds)引入類似多重線性回歸的表達式Logistic回歸模型記:故可以寫為也可以寫為回歸系數(shù)的意義以x1的回歸系數(shù)

1為例固定其它自變量,比較x1與x1+1的ln(Odds)變化。對于x1,對于x1+1,反對數(shù)變換得到多因素Logistic回歸分析時,對回歸系數(shù)的解釋都是指在其它所有自變量固定的情況下的優(yōu)勢比。存在因素間交互作用時,Logistic回歸系數(shù)的解釋變得更為復雜,應特別小心。回歸系數(shù)的意義適用條件反應變量為二分類變量或某事件的發(fā)生率;自變量與logit(P)之間為線性關系;殘差合計為0,且服從二項分布;各觀測間相互獨立。logistic回歸模型應該使用最大似然法來解決方程的估計和檢驗問題,不應當使用以前的最小二乘法進行參數(shù)估計。研究急性心肌梗塞(AMI)患病與飲酒的關系,采用橫斷面調(diào)查。例1SPSS基本操作SPSS基本操作SPSS基本操作SPSS基本操作SPSS基本操作啞變量設置啞變量設置為了便于解釋,對二項分類變量一般按0、1編碼,一般以0表示陰性或較輕情況,而1表示陽性或較嚴重情況。如果對二項分類變量按+1與-1編碼,那么結(jié)果容易造成錯誤的解釋。分類變量必須轉(zhuǎn)化。如地區(qū)對血壓的影響。等級資料,當?shù)燃壷g量度不一時必須轉(zhuǎn)化,如正常,超重和肥胖連續(xù)資料不宜直接進入方程時,轉(zhuǎn)化為等級資料或分類資料SPSS啞變量設置IndicatorSimpleDifferenceRepeated參照分類為0,其余為1,即各分類與參照分類比較除第一類分類外,各分類與其之前平均分類效應比較SPSS啞變量設置Helmert與Difference相反,各水平與其之后水平的平均效應比較Deviation:除參照分類外,各水平與分類的總效應比較Polynomial正交多項式設置自動設置啞變量是有缺點的等級變量不合適啞變量設置應注意的問題參照水平最好要有實際意義,不推薦使用其他作為參照;參照水平組要有一定的頻數(shù)作保證,應不少于30或50例;對有序自變量的分析:從專業(yè)出發(fā)確定;分別以啞變量和連續(xù)性變量的方式引入模型進行比較后確定。SPSS基本操作SPSS基本操作模型擬合優(yōu)度指標,P值越大越好迭代過程參數(shù)估計的相關矩陣,均<0.80,提示各協(xié)變量間相互獨立校正混雜作用實例2:上例沒有考慮吸煙情況,故將吸煙作為分層加入,資料如下:SPSS基本操作同例1逐步回歸分析在多因素統(tǒng)計分析中,多個自變量之間存在相關性,往往相互影響,研究者希望尋找主要影響應變量Y的因素。理論上,只要把各種因素組合都試一遍,尋找變量個數(shù)最多,每個變量均有統(tǒng)計學意義,并且模型擬合程度最好的模型,這種模型稱為最佳預測模型,這種方法稱為尋找最優(yōu)子集,當變量較多時很難實現(xiàn)。逐步回歸為了比較方便地找到最佳預測回歸模型,一般采用逐步回歸的分析策略建立擬最佳預測回歸模型。逐步回歸采用逐個增加最佳變量的方式或逐個減少最差的變量方式找到最佳或擬最佳回歸模型。逐步Logistic回歸無論是條件還是非條件Logistic回歸,在多變量分析時均可以采用逐步回歸方法,實現(xiàn)的方法是:所有變量一次全部進入方程。向前法后退法逐步回歸前進法:

最開始時,模型中無任何自變量,然后逐個引入變量進入模型,每次在未進入模型的所有變量中挑選一個變量,其P是最小且P值<

,每引入一個變量,重新擬合一次模型,逐步引入變量直至沒有滿足上述條件的變量可以引入模型為止。逐步回歸后退法:最開始時,把所有的變量引入模型,然后逐次把P值最大并且P<

的變量剔除出模型,每次只剔除一個變量,每次剔除一個變量后重新擬合模型,按照上述剔除標準繼續(xù)剔除變量,直至模型中的所有變量的P<

為止。逐步Logistic回歸Forward:Conditional(較可靠)Forward:LRForward:Wald(應當慎用)Backward:Conditional(較可靠)Backward:LRBackward:Wald(應當慎用)例3例3探討冠心病發(fā)生的有關危險因素。x1:年齡,x2:高血壓史,x3:家庭史,x4:吸煙,x5:高血脂史,x6:脂肪攝入,x7:BMI,x8:A型性格,y:發(fā)生與否x1x2x3x4x5x6x7x8x9y131010011022011001003210100100…………………………逐步選擇法三種向前逐步法,協(xié)變量引入檢驗均基于score統(tǒng)計量刪除變量基于條件估計的似然比刪除變量基于最大偏似然估計似然比刪除變量基于Wald統(tǒng)計量條件logistic回歸匹配設計(matcheddesign)是在設計階段控制混雜因素的一種方法。當?shù)玫揭幻芯坎±?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論