文稿高統(tǒng)-logistic回歸p_第1頁
文稿高統(tǒng)-logistic回歸p_第2頁
文稿高統(tǒng)-logistic回歸p_第3頁
文稿高統(tǒng)-logistic回歸p_第4頁
文稿高統(tǒng)-logistic回歸p_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余66頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Logistic

回歸主要內(nèi)容根據(jù)研究數(shù)據(jù)的性質(zhì)和研究設(shè)計(jì)的類型:獨(dú)立設(shè)計(jì)資料的非條件logistic回歸配對(duì)設(shè)計(jì)下相關(guān)數(shù)據(jù)的條件logistic回歸。根據(jù)響應(yīng)變量的類型:二分類響應(yīng)變量的logistic回歸無序多分類響應(yīng)變量的logistic回歸有序多分類響應(yīng)變量的logistic回歸二分類響應(yīng)變量的logistic回歸0響應(yīng)變量Y

1發(fā)生未發(fā)生p自變量

X1,

X

2

,

,

X在p個(gè)自變量的作用下,陽性結(jié)果發(fā)生的概率記作:,

Xp

)P

P(Y

1|

X1,

X2

,0

P

1二分類響應(yīng)變量的logistic回歸logit變換盡管P取值只能在0~1之間,但是logitP

可以取-∞到+∞之間的任何數(shù)值。logit

P

ln1

PP二分類響應(yīng)變量的logistic回歸二分類響應(yīng)變量的logistic回歸方程可表示為p

p

xp

0

j

x

jj

1Pln

x

x1

P

0 1

1

2

20

1x1

2

x2

p

xp01

eppj

jj1

xe0

1x1

2

x2

p

xpe0

j

x

j

j1P

1

e1p

p

xp1

P

11

e0

1x1

2

x2

0

j

x

j

j11

elogistic回歸系數(shù)的估計(jì)0

表示在所有自變量均為0,即不接觸任何因素的條件下,響應(yīng)變量發(fā)生與不發(fā)生陽性結(jié)果的概率之比的對(duì)數(shù)值。稱為偏回歸系數(shù),表示當(dāng)其它自變量固定不變

j時(shí),自變量Xj每改變一個(gè)單位或等級(jí),響應(yīng)變量發(fā)生與不發(fā)生陽性結(jié)果的概率之比的對(duì)數(shù)值,即OR或RR的對(duì)數(shù)值。

j

j

ln

ORj

ORj

e模型回歸系數(shù)的檢驗(yàn)似然比檢驗(yàn)是基于整個(gè)模型的擬合情況進(jìn)行的,結(jié)果最為可靠;得分檢驗(yàn)結(jié)果一般與似然比檢驗(yàn)一致,但兩者均要求較大的樣本量;Wald檢驗(yàn)未考慮各因素間的綜合作用,當(dāng)因素間有共線性時(shí),結(jié)果不可靠。在篩選變量時(shí),用Wald法應(yīng)慎重。對(duì)模型的擬合優(yōu)度檢驗(yàn)偏差檢驗(yàn)和Pearson檢驗(yàn)的原理比較接近,都是利用卡方分布檢驗(yàn)回歸模型的頻數(shù)分布與實(shí)際觀測(cè)分布之間的差異是否有統(tǒng)計(jì)學(xué)意義,在樣本量較大時(shí)兩法的檢驗(yàn)結(jié)果基本一致。當(dāng)自變量數(shù)目較多且有連續(xù)型自變量引入模型時(shí),偏差檢驗(yàn)和Pearson檢驗(yàn)的

度較大,結(jié)果都不太可靠。常用Hosmer-Lemeshow檢驗(yàn)驗(yàn)證模型的擬合優(yōu)度。Hosmer-Lemeshow檢驗(yàn)Hosmer-Lemeshow檢驗(yàn)是根據(jù)回歸模型

概率的大小將所有觀察單位等分為k組,按照卡方檢驗(yàn)的基本原理判斷實(shí)際的頻數(shù)分布與模型

的頻數(shù)分布是否符合, 度為k-2。當(dāng)自變量數(shù)目較多時(shí),通常等分觀察單位為10組,故 度常為8,而Pearson檢驗(yàn)和偏差檢驗(yàn)的自由度可能很大。所以Hosmer-Lemeshow檢驗(yàn)對(duì)

模型擬合優(yōu)度的檢驗(yàn)效果更佳。logistic回歸模型的

準(zhǔn)確度根據(jù)logistic回歸模型,計(jì)算出對(duì)響應(yīng)變量相應(yīng)的

概率,以概率=0.5作為分界值對(duì)各例觀測(cè)值進(jìn)行重新分類,分類正確者所占的比例即為該logistic回歸模型的準(zhǔn)確度。

概率和樣本中實(shí)測(cè)頻率的符合程度越高,則說明該模型的擬合效果越好。二分類響應(yīng)變量的logistic回歸例6.1為探討新生兒低出生體重與中老年期2型發(fā)病情況之間的關(guān)系,某研究對(duì)多年前在某醫(yī)院出生的152名低出生體重兒(出生體重<2500g)和同期738名正常出生體重(出生體重≥2500g)的新生兒進(jìn)行回顧性隊(duì)列研究,收集了觀察對(duì)象的出生體重、

、 史、時(shí) 、BMI、血脂狀況和有無等信息。二分類響應(yīng)變量的logistic回歸進(jìn)入法,所有變量一次全部進(jìn)入方程當(dāng)變量存在共線性時(shí),Wald檢驗(yàn)結(jié)果不可靠。自變量的篩選當(dāng)自變量的數(shù)目很多時(shí),通常先對(duì)每一個(gè)自變量進(jìn)行單因素logistic回歸分析,單因素分析中有意義的自變量和既往已被證實(shí)具有生物學(xué)或臨床意義的變量可一并納入多因素logistic回歸模型,以獲得最優(yōu)回歸模型。如果只是探索性地在許多變量中尋找可能的因素或保護(hù)因素,并沒有明確的有肯定臨床意義的影響因素,也可以用逐步logistic回歸簡化篩選過程,只根據(jù)統(tǒng)計(jì)學(xué)的方法來選擇有統(tǒng)計(jì)學(xué)意義的變量,不考慮專業(yè)知識(shí)。定義分類變量通常采用系統(tǒng)默認(rèn)的‘indicator(指示符)’設(shè)置啞變量設(shè)置啞變量設(shè)置啞變量設(shè)置啞變量選項(xiàng)回歸選項(xiàng):統(tǒng)計(jì)量與圖回歸選項(xiàng)保存保存‘殘差’、‘影響’兩框的內(nèi)容都與線性回歸中基本一致。分類變量編碼模型檢驗(yàn)C

o

x

&

S

n

e

l

l

R

方和

Nagelkerke

R方類似于線性回歸中的決定系數(shù)。在

logistic回歸中,偽決定系數(shù)的意義不大。模型檢驗(yàn)Step:步驟,為每一步與前一步相比的似然比檢驗(yàn)結(jié)果;Block:塊,是指若將block1與block0相比的似然比檢驗(yàn)結(jié)果;Model:模型,是上一個(gè)模型與現(xiàn)在方程中變量有變化后模型的似然比檢驗(yàn)結(jié)果。擬合優(yōu)度檢驗(yàn)P=0.324>0.05,說明模型擬合良好準(zhǔn)確度回歸系數(shù)的檢驗(yàn)與OR概率值分組。按概率≥0.5劃分為1組,<0.5為0組。ROC曲線ROC

曲線:直接利用

概率進(jìn)行Logistic模型擬合的效果的評(píng)價(jià),應(yīng)用ROC曲線幫助確定合理的

概率分類點(diǎn)。ROC曲線最佳分類標(biāo)準(zhǔn)值的選擇靈敏度=78%,特異度=1-0.191=80.9%。修改分類標(biāo)準(zhǔn)值分類標(biāo)準(zhǔn)值為0.11時(shí)的準(zhǔn)確度無序多分類響應(yīng)變量的logistic回歸響應(yīng)變量有k個(gè)水平,以響應(yīng)變量的某個(gè)水平作為參照水平,其它各個(gè)水平與參照水平進(jìn)行比較,可以擬合k-1個(gè)廣義logit模型,以描述響應(yīng)變量和自變量之間的關(guān)系。無序多分類響應(yīng)變量logistic回歸模型中,偏回歸系數(shù)的意義及假設(shè)檢驗(yàn)方法與二分類logistic回歸模型相似。無序多分類響應(yīng)變量的logistic回歸例6.3某項(xiàng)研究欲探討成年女性尿失禁的危險(xiǎn)因素,為成年女性尿失禁的治療和預(yù)防提供理論技術(shù)支持。響應(yīng)變量為尿失禁的類型或狀態(tài),共有4個(gè)水平,即壓力性尿失禁、急迫性尿失禁、混合性尿失禁和無尿失禁,是個(gè)4分類變量,且各分類之間無等級(jí)關(guān)系,故可擬合無序多分類響應(yīng)變量的logistic回歸模型。無序多分類響應(yīng)變量的logistic回歸分類變量數(shù)值變量主效應(yīng)與交互效應(yīng)的選擇,與

GLM模型類似統(tǒng)計(jì)量Criteria(條件)框該框內(nèi)容慎動(dòng)保存與輸出模型的擬合優(yōu)度檢驗(yàn)Deviance從962.648下降到851.098,

似然比檢驗(yàn)統(tǒng)計(jì)量=111.551,P<0.001,說明至少有一個(gè)自變量系數(shù)不為0,模

型有意義Pearson檢驗(yàn)和偏差檢驗(yàn)的P均>0.05,說明模型的擬合效果良好在logistic回歸中,偽決定系數(shù)的意義不大似然比檢驗(yàn)對(duì)每個(gè)自變量進(jìn)行似然比檢驗(yàn)變量‘urinarydisease’的P=0.452>0.05,無統(tǒng)計(jì)學(xué)意義,其他變量的P<0.05,有統(tǒng)計(jì)學(xué)意義無序多分類響應(yīng)變量的logistic回歸無序多分類響應(yīng)變量logistic回歸模型中,偏回歸系數(shù)的意義及假設(shè)檢驗(yàn)方法與二分類logistic回歸模型相似。有序多分類響應(yīng)變量的logistic回歸有序多分類響應(yīng)變量logistic回歸分析也稱為序數(shù)logistic回歸,用累積logit模型完成方程的構(gòu)建??紤]到響應(yīng)變量的有序性質(zhì),累積logit模型的擬合過程是將k個(gè)等級(jí)的響應(yīng)變量劃分為多個(gè)二分類變量,擬合k-1個(gè)累積logit模型。有序多分類響應(yīng)變量的logistic回歸與廣義logit模型不同的是,在擬合的所有累積

logit模型中,同一自變量的回歸系數(shù)

j

是固定不變的,各累積logit模型只有截距項(xiàng)是不同的?;貧w系數(shù)表示當(dāng)其它自變量固定不變時(shí),自變量每改

j

變一個(gè)單位或等級(jí),響應(yīng)變量改變一個(gè)或X

j

一個(gè)以上等級(jí)的累積概率優(yōu)勢(shì)比的對(duì)數(shù)值,即OR的對(duì)數(shù)值。有序多分類響應(yīng)變量的logistic回歸例6.4在例6.3中探討了不同類型尿失禁的影響因素,但每種尿失禁也可以按照嚴(yán)重程度分等級(jí)探討影響成年女性尿失禁嚴(yán)重程度的

。響應(yīng)變量按照尿失禁的程度分為4個(gè)等級(jí),即無尿失禁、輕度尿失禁、中度尿失禁和重度尿失禁,此響應(yīng)變量為4分類等級(jí)變量。此時(shí)欲探討影響尿失禁嚴(yán)重程度的影響因素可用有序多分類響應(yīng)變量logistic回歸模型。分類變量數(shù)值變量選項(xiàng)選項(xiàng)輸出輸出SAVE(保存):選擇

在新變量的結(jié)果,與無序多分類響應(yīng)變量的logistic回歸中SAVE復(fù)選框相同。平行性檢驗(yàn)在所有累積logit模型中,同一自變量的回歸系數(shù)是固定不變的,各累積logit模型只有截距項(xiàng)是不同的。如果根據(jù)擬合的累積logit模型繪制響應(yīng)變量的累積概率與自變量所對(duì)應(yīng)的曲線,則各logit模型所對(duì)應(yīng)的曲線是平行的,只有各條曲線的截距不同。平行性檢驗(yàn)進(jìn)行模型中所有方程參數(shù)是否相等的檢驗(yàn),即檢驗(yàn)各條曲線是否平行。P=0.995>0.05,滿足平行性假設(shè)?;貧w系數(shù)是固定的,與分割點(diǎn)無關(guān)。平行性檢驗(yàn)如果平行性條件不滿足(P<0.05),有序logistic模型有一定的耐受性;但當(dāng)P值非常小時(shí),可能的原因有兩個(gè):連接函數(shù)選擇 確;回歸系數(shù)的確在隨著分割點(diǎn)發(fā)生變化。平行性檢驗(yàn)對(duì)于平行性條件不滿足的,可考慮更換連接函數(shù),較常用的連接函數(shù)有3種:logit:

f(x)=ln(x/(1-x)用于響應(yīng)變量各取值水平發(fā)生概率相近的資料,此為默認(rèn)選項(xiàng)。Complementary

log-log:

f(x)=log(-log(1-x)用于反應(yīng)變量取值水平高的水平發(fā)生概率高的資料。Negative

log-log:

f(x)=-log(-log(1-x)用于反應(yīng)變量取值水平低的水平發(fā)生概率高的資料。如果各種連接函數(shù)都 平行性假定,此時(shí),最好使用無序多分類的logistic回歸。有序多分類響應(yīng)變量的logistic回歸主效應(yīng)與交互效應(yīng)的選擇,與GLM模型類似設(shè)置離差測(cè)量模型,不常用,勿隨意修改選項(xiàng)條件logistic回歸系數(shù)的意義、回歸系數(shù)和回歸方程的檢驗(yàn)均與非條件logistic回歸方程類似。在擬合條件logistic回歸模型時(shí)用條件似然函數(shù)取代了非條件logistic回歸模型中的似然函數(shù),從而在模型的擬合過程中自動(dòng)消去了參數(shù)

i

0

,模型中不包含截距項(xiàng)。logitP

1

x12

2條件logisticSPSS和SAS等多數(shù)統(tǒng)計(jì)都沒有為條件logistic模型提供直接擬合的方法。在SPSS和SAS中,均采用用分層Cox模型擬合來處理?xiàng)l件logistic模型擬合。STATA

模塊完成條件logistic模型擬合。條件logistic例6.2

某研究者欲研究

患病的因素,采用1:1匹配的病例對(duì)照研究,病例組為確診的2型患者,對(duì)照組按相近、相同的原則進(jìn)行匹配,對(duì)91對(duì)觀察對(duì)象進(jìn)行了肥胖和,收集觀察對(duì)象高血壓、史等資料,試進(jìn)行條件logistic回歸分析。條件logistic數(shù)據(jù)庫條件logistic數(shù)據(jù)庫id:配對(duì)號(hào)。status:

虛擬生存狀態(tài)變量。病例全部取值為1,為完全數(shù)據(jù),對(duì)照取值全為0,為刪失數(shù)據(jù)。e:相當(dāng)于cox回歸中虛擬的生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論