logistic回歸及其分析攻略_第1頁
logistic回歸及其分析攻略_第2頁
logistic回歸及其分析攻略_第3頁
logistic回歸及其分析攻略_第4頁
logistic回歸及其分析攻略_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Logistic回歸分析攻略,馮國雙,什么是logistic回歸,常見的幾種回歸模型: 因變量為連續(xù)資料線性回歸 因變量為分類資料Logistic回歸 因變量為計(jì)數(shù)資料Poisson回歸 因變量為生存資料 Cox回歸 ,什么是Logistic回歸,線性回歸模型: Logit變換: p表示事件發(fā)生的概率,1-p為事件不發(fā)生的概率 當(dāng)p=1時(shí),logit(p)=+, 當(dāng)p=0.5時(shí),logit(p)=0, 當(dāng)p=0時(shí),logit(p)=- 故logit(p)的取值范圍是(-,+),什么是Logistic回歸,Logit變換: 式中等號右邊的分?jǐn)?shù) p/(1-p) 是流行病學(xué)常用的描述疾病發(fā)生強(qiáng)度的統(tǒng)

2、計(jì)指標(biāo),稱為優(yōu)勢(odds)。 當(dāng)疾病發(fā)生的概率p與不發(fā)生的概率q相等皆為0.5時(shí),odds=1,否則odds大于或小于1。,什么是Logistic回歸,Logistic回歸模型: i表示自變量xi改變一個(gè)單位時(shí),logit(p)的改變量。 其它形式:,什么是Logistic回歸,Logistic回歸的主要用途: (1)尋找某現(xiàn)象發(fā)生的影響因素。 (2)校正混雜因素。 (3)確定不同因素對疾病發(fā)生影響的相對重要性。 (4)預(yù)測。,logistic回歸參數(shù)估計(jì),logistic回歸參數(shù)估計(jì),最大似然估計(jì)(maximum likelihood estimation,MLE) 最大似然法就是選取使總

3、體參數(shù)落在樣本觀察值領(lǐng)域里的概率達(dá)到最大時(shí)的值作為參數(shù)的估計(jì)值。 故上述問題的最大似然函數(shù)是: 兩邊取對數(shù),變?yōu)?logistic回歸參數(shù)估計(jì),對Q分別求關(guān)于0和1的一階偏導(dǎo)數(shù),并令一階偏導(dǎo)數(shù)等于0,得到兩個(gè)關(guān)于0和1的二元一次方程,解該方程組,便得到回歸系數(shù)0和1的最大似然估計(jì)值:,logistic回歸參數(shù)估計(jì),暴露人群的優(yōu)勢為p1/(1p1) 非暴露人群的優(yōu)勢為p2/(1p2) 二者之比,稱為優(yōu)勢比(odds ratio,OR) 對OR求對數(shù),得,logistic回歸分析思路,1、分析前準(zhǔn)備是否可以用logistic回歸: 研究目的: 尋找某現(xiàn)象的危險(xiǎn)因素嗎? 預(yù)測? 多因素分析? 因變量

4、類型: 是分類變量嗎?二分類或多分類均可,logistic回歸分析思路,2、分析前準(zhǔn)備自變量形式審查: (1)暴露因素(自變量) x是二分類變量時(shí): 直接納入模型 通常賦值為:暴露時(shí)x=1,非暴露時(shí)x=0 此時(shí)logistic回歸模型中的系數(shù)是1(暴露)與0(非暴露)相比的優(yōu)勢比的對數(shù)值。 此時(shí)e表示1(暴露)與0(非暴露)相比,事件發(fā)生的危險(xiǎn),即OR值,logistic回歸分析思路,(2)暴露因素(自變量) x是多分類變量時(shí): 常用1,2,3,k分別表示k個(gè)不同的類別。 進(jìn)行l(wèi)ogistic回歸分析時(shí),將變量轉(zhuǎn)換為k-1個(gè)虛擬變量或啞變量(dummy variable),每個(gè)虛擬變量都是一個(gè)

5、二分類變量,通常用0和1表示。 每個(gè)虛擬變量各有一個(gè)回歸系數(shù),其意義表示1與0相比的優(yōu)勢比的對數(shù)值,logistic回歸分析思路,例如,血型x為A、B、AB、O四個(gè)值,以1、2、3、4來表示,該數(shù)字只是一個(gè)代碼,并非是一個(gè)等級變量。 在logistic回歸分析時(shí),需將變量x轉(zhuǎn)換為3個(gè)虛擬變量。若以A型血為參照組,3個(gè)虛擬變量分別為x1、x2、x3。 在分析時(shí),將3個(gè)虛擬變量x1、x2、x3同時(shí)納入logistic回歸模型,可得3個(gè)回歸系數(shù)1、2、3,其中, 1為B型血與A型血相比患白血病的優(yōu)勢比的對數(shù)值; 2為AB型血與A型血相比患白血病的優(yōu)勢比的對數(shù)值; 3為O型血與A型血相比患白血病的優(yōu)勢

6、比的對數(shù)值。,logistic回歸分析思路,為什么多分類自變量要用虛擬變量的形式?,logistic回歸分析思路,(3)暴露因素(自變量) x是連續(xù)變量時(shí),最好將其轉(zhuǎn)化為分類變量 為什么?,logistic回歸分析思路,分析年齡與高血壓發(fā)生與否的關(guān)系:age2是原始的年齡數(shù)據(jù),age1是年齡分組數(shù)據(jù)(分為=60三個(gè)年齡組),logistic回歸分析思路,直接用連續(xù)變量age分析,結(jié)果如下: 提示年齡無統(tǒng)計(jì)學(xué)意義,logistic回歸分析思路,用分類變量age1分析,結(jié)果如下: 年齡50-59與50相比,有統(tǒng)計(jì)學(xué)意義。,logistic回歸分析思路,仔細(xì)看一下二者關(guān)系,可以發(fā)現(xiàn),年齡和高血壓發(fā)生

7、是二次項(xiàng)關(guān)系,中間高,兩頭低,如果直接納入模型,作為線性關(guān)系,便無統(tǒng)計(jì)學(xué)意義,logistic回歸分析思路,3、正式分析單因素分析和多因素分析: 必須進(jìn)行單因素分析嗎? 并無一致結(jié)論。但一般建議可通過大致了解各自變量的作用,同時(shí)探索各自變量與因變量的關(guān)系 多因素分析策略: 理清多個(gè)自變量之間的關(guān)系 最適合新手的簡易方法:逐步回歸,logistic回歸分析思路,4、正式分析參數(shù)估計(jì)和檢驗(yàn): 利用統(tǒng)計(jì)軟件,求出參數(shù)估計(jì)值 參數(shù)估計(jì)方法 最大似然法(maximum likelihood,ML) 參數(shù)檢驗(yàn)方法 似然比檢驗(yàn)(likelihood ratio test)、得分檢驗(yàn)(score test)、

8、Wald 2檢驗(yàn),logistic回歸分析思路,Wald 2檢驗(yàn):參數(shù)估計(jì)值與標(biāo)準(zhǔn)誤之比的平方 似然比檢驗(yàn):比較兩個(gè)嵌套模型的對數(shù)似然值,如模型A中含a、b兩個(gè)變量,模型B中含a一個(gè)變量,如果兩個(gè)模型有差異,提示b可能有統(tǒng)計(jì)學(xué)意義。 Score檢驗(yàn)(也稱拉格朗日乘數(shù)檢驗(yàn)、求導(dǎo)檢驗(yàn)):檢驗(yàn)無效假設(shè)成立時(shí)對數(shù)似然函數(shù)的效率,logistic回歸分析思路,5、建立初步模型: 根據(jù)參數(shù)估計(jì)值,建立初步模型,logistic回歸分析思路,6、善后工作模型評價(jià): (1)Pearson 2 比較預(yù)測值和觀測值的差別 oj和ej分別為第j類交叉組合中的觀測頻數(shù)和預(yù)測頻數(shù) 若2值很小,意味著觀測頻數(shù)和預(yù)測頻數(shù)無

9、“顯著差別”,模型很好地?cái)M合了數(shù)據(jù)。,logistic回歸分析思路,(2)Deviance比較飽和模型和現(xiàn)有模型的差別 飽和模型包含了所有的變量,其模型估計(jì)值與觀測值完全相等,反映一種理想狀態(tài)。 Deviance值越小,現(xiàn)有模型與飽和模型的偏差越小,擬合效果越好。,logistic回歸分析思路,(3)HL指標(biāo)用于模型中含有連續(xù)自變量的情形 HL統(tǒng)計(jì)量根據(jù)預(yù)測概率值大小將所有數(shù)據(jù)排序,大致分為規(guī)模相同的10組,比較觀測值與預(yù)測值的差異 2檢驗(yàn)不顯著表示擬合較好,反之表示擬合不好。,logistic回歸分析思路,(4)AIC、SC用于多個(gè)模型之間的擬合優(yōu)度比較 AIC =(- 2 ln L)+2(

10、qs) AIC指標(biāo)通常不用于單個(gè)模型的評價(jià),而是用于兩個(gè)或多個(gè)模型擬合優(yōu)度的比較。較小的AIC值表示擬合模型較好。 SC(Schwartz Criterion)標(biāo)準(zhǔn)是對AIC指標(biāo)的一種修正: SC =(- 2 ln L)+2(qs)* ln(n) SC與AIC一樣,都是值越小表示模型擬合越好,均可用于嵌套或非嵌套的模型比較。,logistic回歸分析思路,(5)廣義確定系數(shù)R2自變量對因變量的解釋能力,值越大,表示自變量對因變量的解釋能力越強(qiáng)。當(dāng)自變量與因變量完全無關(guān)時(shí),其值近于0;當(dāng)擬合模型能夠完美預(yù)報(bào)時(shí),其值趨近于1。 校正 SAS中,R2顯示為“RSquare”,校正后的R2顯示為“Ma

11、x-rescaled RSquare”,logistic回歸分析思路,7、善后工作模型診斷: (1)多重共線性(multi-collinearity),即自變量之間高度相關(guān) 常用評價(jià)指標(biāo): 容忍度(tolerance):小于0.1時(shí),可能存在共線性 方差擴(kuò)大因子(variance inflation factor, VIF):大于10時(shí),可能存在共線性,logistic回歸分析思路,(2)異常點(diǎn)診斷 離群點(diǎn)(outliers):因變量預(yù)測值與實(shí)際值差別較大。 常用診斷指標(biāo)為Pearson殘差和Deviance殘差。 如果這兩個(gè)指標(biāo)絕對值大于2,說明相應(yīng)觀測可能擬合較差,常診斷為離群值。 杠桿點(diǎn)

12、(high leverage points):自變量遠(yuǎn)離其它值。 常用診斷指標(biāo)為杠桿值hi。 若模型中有m個(gè)自變量,所有杠桿值的合計(jì)等于m+1,平均值為(m+1)/n。當(dāng)hi2(m+1)/n時(shí),第 個(gè)觀測可看作高杠桿點(diǎn)。,logistic回歸分析思路,(2)異常點(diǎn)診斷 強(qiáng)影響點(diǎn)(influential points):對模型估計(jì)影響較大。 常用診斷指標(biāo)為Cook距離(Cooks Distance)。 如果第i個(gè)觀測的Cook距離遠(yuǎn)大于其他觀測的Cook距離,意味著該點(diǎn)可能既是離群點(diǎn),又是高杠桿點(diǎn),因此很可能是一個(gè)強(qiáng)影響點(diǎn)。,logistic回歸分析思路,(3)其它問題 空單元(zero cel

13、l count):自變量各水平的交叉列聯(lián)表中有些單元(格子)的觀測頻數(shù)為0 完全分離(complete separation):若自變量 存在一臨界值c,當(dāng)xic時(shí),事件發(fā)生,而xic時(shí),則事件不發(fā)生。 過離散(overdispersion):測量方差大于期望方差,原因:重要變量未納入、異常值、變量相關(guān)等,logistic回歸分析思路,8、建立最終模型模型解釋與應(yīng)用 i表示自變量xi改變一個(gè)單位時(shí),logit(p)的改變量。而系數(shù)的實(shí)際含義取決于自變量x改變“一個(gè)單位”的專業(yè)意義。 OR=e,反映了暴露與非暴露相比結(jié)局發(fā)生的風(fēng)險(xiǎn)有多高。,Logistic回歸的SAS過程,proc logist

14、ic ; class 自變量 ; model 因變量=自變量 ; freq 變量; roc 標(biāo)簽 變量; roccontrast reference (標(biāo)簽) ; output out=數(shù)據(jù)集名 關(guān)鍵詞1=變量1 關(guān)鍵詞2=變量2 ; run;,Logistic回歸的SAS過程,【proc logistic】語句的2個(gè)關(guān)鍵選項(xiàng):,Logistic回歸的SAS過程,【class】語句的關(guān)鍵選項(xiàng):,Logistic回歸的SAS過程,【model】語句: 通常寫法為:model y=x;(y為因變量,x為自變量) 如果已知因變量y的賦值(如1和0),如果想分析的是對1求解,而不是0,可在y后加入ev

15、ent=選項(xiàng),如: model y(event=“1”)=x; 這種寫法與【proc logistic】語句中的desc選項(xiàng)類似,但可以避免弄混順序,更為方便。,Logistic回歸的SAS過程,【model】語句的幾個(gè)重要選項(xiàng): (1)變量篩選選項(xiàng) selection= 指定變量選擇方法,如前進(jìn)法(forward)、后退法(backward)、逐步法(stepwise)、最優(yōu)子集法(scores)等,默認(rèn)為none slentry= 變量選擇方法為forward或stepwise時(shí),用來指定變量入選標(biāo)準(zhǔn),默認(rèn)值為0.05 slstay= 變量選擇方法為backward或stepwise時(shí),用

16、來指定變量剔除標(biāo)準(zhǔn),默認(rèn)值為0.05,Logistic回歸的SAS過程,(2)擬合優(yōu)度選項(xiàng) lackfit 輸出Hosmer-Lemeshow(HL)擬合優(yōu)度指標(biāo) aggregate 該語句與scale= 語句合用,可輸出Pearson 2和Deviance值 scale= 用于過離散(over dispersion)的校正。過離散情形主要出現(xiàn)于聚集現(xiàn)象或非獨(dú)立數(shù)據(jù),主要表現(xiàn)為估計(jì)方差大于名義方差,可通過scale=pearson或scale=deviance進(jìn)行調(diào)整。 rsquare 輸出廣義R2,類似于多重線性回歸中的決定系數(shù),Logistic回歸的SAS過程,(3)模型診斷選項(xiàng) infl

17、uence 輸出一系列的模型診斷指標(biāo),如Pearson殘差、Deviance殘差、帽子矩陣對角線、dfbeta和Cook距離等 iplots 輸出各診斷指標(biāo)的診斷圖,以便更直觀地發(fā)現(xiàn)異常點(diǎn) (4)其它選項(xiàng) stb 輸出標(biāo)準(zhǔn)化回歸系數(shù),可用于單位不同的變量之間作用大小比較,Logistic回歸的SAS過程,(5)診斷試驗(yàn)相關(guān)選項(xiàng) ctable 采用刀切法(jackknife)輸出模型判斷分類表,根據(jù)pprob=選項(xiàng)所指定的概率標(biāo)準(zhǔn)值,對二分類因變量進(jìn)行判斷分類。 pprob= 指定一個(gè)或一系列的概率標(biāo)準(zhǔn)值,當(dāng)用ctable選項(xiàng)時(shí),根據(jù)預(yù)測概率的大小把自變量預(yù)測情況分為兩類。如果預(yù)測概率大于標(biāo)準(zhǔn)值

18、,則判斷為病例,否則判斷為非病例。通常取值為0.5 outroc= 指定一個(gè)數(shù)據(jù)集,包含產(chǎn)生ROC曲線所需的數(shù)據(jù)。結(jié)合ods命令可繪制ROC曲線,Logistic回歸的SAS過程,【freq】語句 在變量逐列輸入的時(shí)候用不上,當(dāng)數(shù)據(jù)輸入是列聯(lián)表形式時(shí),需要用該語句指定每一類別的頻數(shù)。 【roc】語句( roc 標(biāo)簽 變量) 指定用于ROC曲線分析的變量,標(biāo)簽部分自行指定,主要為了對變量做說明。 如果不指定標(biāo)簽,則ROC曲線名稱默認(rèn)為“ROCi”(i=1,2,3,)。,Logistic回歸的SAS過程,【roccontrast】語句( roccontrast reference (標(biāo)簽) ) 用

19、于比較不同指標(biāo)的ROC曲線下面積,也可用于比較不同模型的ROC曲線下面積。 reference結(jié)合后面的標(biāo)簽用于指定被比較的參照變量,參照變量的標(biāo)簽必須與roc語句中變量的標(biāo)簽相同。 如果reference后不指定任何標(biāo)簽,則默認(rèn)為與模型的ROC曲線比較。這里的模型在不同自變量個(gè)數(shù)的情況下有不同含義,當(dāng)模型中只有一個(gè)診斷指標(biāo),則單個(gè)指標(biāo)的ROC曲線等同于模型的ROC曲線;當(dāng)模型中有多個(gè)診斷指標(biāo),模型的ROC曲線為多個(gè)指標(biāo)聯(lián)合診斷的ROC曲線。 該語句主要選項(xiàng):estimate,輸出ROC曲線下面積比較的假設(shè)檢驗(yàn),Logistic回歸的SAS過程,【output】語句 用于輸出一些統(tǒng)計(jì)量,如預(yù)測

20、值、殘差等。其基本形式為: output out=myout pred=mypred; 其中,out=后的myout是自己對輸出數(shù)據(jù)集起的名字,通過 proc print data=myout; 可以輸出該數(shù)據(jù)集。 pred是固定的統(tǒng)計(jì)量名稱,表示預(yù)測概率,mypred是對輸出的預(yù)測概率起的變量名,logistic回歸中的混雜因素,混雜因素的識別: (1)該因素對結(jié)局有影響,可利用單因素logistic回歸或2檢驗(yàn)來驗(yàn)證。 (2)該因素在分析因素中的分布不均衡,可用2檢驗(yàn)驗(yàn)證一下。 (3)從專業(yè)角度來判斷,即該因素不能是分析因素與結(jié)局關(guān)系的一個(gè)中間環(huán)節(jié)。也就是說,不能是分析因素引起該因素,通過

21、該因素再引起結(jié)局。這一點(diǎn)主要根據(jù)專業(yè)知識來確定。 如果同時(shí)滿足這三個(gè)條件,基本可以斷定是混雜因素。如果有一條不滿足,該因素就不是混雜因素。,logistic回歸中的混雜因素,例2:分析性別、吸煙對幽門螺桿菌(HP)的影響,判斷吸煙是否是混雜因素,logistic回歸中的混雜因素,(1)判斷吸煙是否對Hp有影響:單因素logistic回歸 提示:吸煙對Hp的發(fā)生有一定影響,吸煙發(fā)生的危險(xiǎn)更高一些,logistic回歸中的混雜因素,(2)判斷吸煙在不同性別中分布是否不同:卡方檢驗(yàn) 提示:吸煙在性別中分布不同,男性中比例更高,logistic回歸中的混雜因素,未校正吸煙因素,性別分析結(jié)果,校正吸煙因

22、素后,性別分析結(jié)果,logistic回歸中的混雜因素,不吸煙的人之中,性別的分析結(jié)果,吸煙的人之中,性別的分析結(jié)果,交互作用與混雜因素的區(qū)別,混雜因素是指這樣的因素:由于該因素在分析因素中分布不均衡,從而扭曲了分析因素與結(jié)局的關(guān)系,導(dǎo)致分析因素與結(jié)局出現(xiàn)了一種虛假的聯(lián)系。 交互作用則是指這樣的因素:在該因素的不同水平(不同取值),分析因素與結(jié)局的關(guān)聯(lián)大小有所不同。在一水平上(如取值為0)可能分析因素對結(jié)局的效應(yīng)大,而在另一水平上(如取值為1)可能效應(yīng)小。 混雜因素所造成的是一種虛假現(xiàn)象,我們應(yīng)盡力消除混雜以還原分析因素與結(jié)局的真正聯(lián)系。而交互作用則是一種真實(shí)存在的現(xiàn)象,我們應(yīng)盡力尋找以給出更好

23、的解釋。,logistic回歸中的交互作用,例3:分析幽門螺桿菌(HP)、Cox-2對胃癌進(jìn)展的影響,并考慮二者的交互作用,logistic回歸中的交互作用,交互作用有統(tǒng)計(jì)學(xué)意義,二者估計(jì)值為正,提示二者可能存在正向交互作用,logistic回歸中的交互作用,Hp陰性人群: Hp陽性人群:,logistic回歸中的交互作用,所有人群:Hp陰性人群+Hp陽性人群,logistic回歸中的交互作用,Cox-2陰性人群: Cox-2陽性人群:,logistic回歸中的交互作用,所有人群: Cox-2陰性人群+ Cox-2陽性人群,logistic回歸中的交互作用,Hp與Cox-2的分布情況,logi

24、stic回歸案例分析,例1:某婦幼保健院采用病例對照研究探索乳腺增生的影響因素。隨機(jī)抽取某年在本院就診的200名乳腺增生患者及200名非乳腺增生患者,采用問卷調(diào)查法對各種可能的影響因素進(jìn)行調(diào)查,以探索乳腺增生的危險(xiǎn)因素。,logistic回歸案例分析,logistic回歸案例分析,1:自變量形式考察 data aa; input y age chage rs lc mr; cards; ; proc logistic plots(only)=(effect(link join=yes); /*plots選項(xiàng)輸出logit p與多分類的關(guān)系*/ class rs/param=reference

25、ref=first; model y(event=1)=rs; run; proc logistic plots(only)=(effect(link join=yes); class lc/param=reference ref=first; model y(event=1)=lc; run;,圖1 妊娠次數(shù)和流產(chǎn)次數(shù)與logit P的關(guān)系,logistic回歸案例分析,非線性,考慮虛擬變量,線性,可直接納入方程,logistic回歸案例分析,2:單因素分析 proc logistic desc; model y=age; proc logistic desc; model y=chage;

26、 proc logistic desc; class rs(param=reference ref=first); model y=rs; proc logistic desc; model y=lc; proc logistic desc; model y=mr; run;,logistic回歸案例分析,2:單因素分析,logistic回歸案例分析,單因素分析初步結(jié)論: 由于年齡的影響在單因素分析中無統(tǒng)計(jì)學(xué)意義,且OR值也較為接近1,在多因素分析中不再考慮年齡因素,僅對其它4個(gè)因素進(jìn)行分析。,logistic回歸案例分析,3:多因素分析(去掉年齡) proc logistic desc; c

27、lass rs(param=reference ref=first); model y=chage rs lc mr; run;,多因素分析結(jié)果:,logistic回歸案例分析,多因素分析小結(jié): 為什么rs變得無統(tǒng)計(jì)學(xué)意義了? 相關(guān)分析結(jié)果顯示,妊娠次數(shù)與流產(chǎn)次數(shù)具有較強(qiáng)的相關(guān)性(r=0.55,P0.001)。,logistic回歸案例分析,多因素分析小結(jié): 可以設(shè)想,妊娠次數(shù)對乳腺增生可能并無影響或影響很小,單因素中的影響可能主要是通過流產(chǎn)次數(shù)這一因素起作用的,當(dāng)多因素分析中校正了流產(chǎn)次數(shù)的影響后,妊娠次數(shù)的影響變得無統(tǒng)計(jì)學(xué)意義。 將妊娠次數(shù)這一變量去掉,重新擬合方程。,logistic回歸

28、案例分析,logistic回歸案例分析,去掉妊娠次數(shù)后重新擬合,同時(shí)評價(jià)模型的擬合優(yōu)度 proc logistic desc; model y=chage lc mr/ aggregate scale=none; run;,模型中所有變量均有統(tǒng)計(jì)學(xué)意義。 與含rs變量的模型相比,AIC和SC均降低,似然比差別很小。 說明去掉rs后模型更優(yōu) 含rs模型 不含rs模型,logistic回歸案例分析,模型的擬合優(yōu)度評價(jià): P值小于0.05,提示擬合不充分 指標(biāo)值距離1較遠(yuǎn),提示可能有過離散現(xiàn)象存在,意味著可能結(jié)果存在假陽性,logistic回歸案例分析,模型診斷: proc logistic des

29、c; model y=chage lc mr/aggregate scale=none influence; run;,logistic回歸案例分析,模型診斷圖(部分):并無明顯的異常點(diǎn),logistic回歸案例分析,進(jìn)一步考慮是否可能存在交互效應(yīng): 考慮母乳喂養(yǎng)與初產(chǎn)年齡的交互作用 proc logistic desc; model y=chage lc mr chage*mr/aggregate scale=none; run;,logistic回歸案例分析,初產(chǎn)年齡與母乳喂養(yǎng)可能存在一定的交互效應(yīng) 為什么mr和chage變得無統(tǒng)計(jì)學(xué)意義? 一旦模型中加入交互項(xiàng),變量便不再反映主效應(yīng),而是

30、單獨(dú)效應(yīng)。此時(shí)mr反映的是chage=0時(shí)的效應(yīng),同樣,chage反映的是mr=0時(shí)的效應(yīng)。,logistic回歸案例分析,交互項(xiàng)的進(jìn)一步解釋: 對于母乳喂養(yǎng)的人(mr=0),初產(chǎn)年齡=25與初產(chǎn)年齡=25與初產(chǎn)年齡25歲的人相比,其效應(yīng)(參數(shù)估計(jì)值)為0.2717+1.4587=1.7304。,logistic回歸案例分析,如果想詳細(xì)了解mr和chage兩個(gè)變量組合的效應(yīng),可將這兩個(gè)變量組合,即(chage=0,mr=0)、(chage=0,mr=1)、(chage=1,mr=0)、(chage=1,mr=1)四類。 將該四分類變量做成虛擬變量,本例,初產(chǎn)年齡小、母乳喂養(yǎng)風(fēng)險(xiǎn)相對較低,將其作

31、為參照組,產(chǎn)生三個(gè)虛擬變量。 這三個(gè)虛擬變量分別為: (chage=0,mr=1)相對( chage=0,mr=0 )的風(fēng)險(xiǎn)(即非母乳喂養(yǎng)的風(fēng)險(xiǎn)) (chage=1,mr=0 )相對(chage=0,mr=0 )的風(fēng)險(xiǎn)(即初產(chǎn)年齡=25的風(fēng)險(xiǎn)) (chage=1,mr=1 )相對(chage=0,mr=0 )的風(fēng)險(xiǎn)(即非母乳喂養(yǎng)和初產(chǎn)年齡=25共同的風(fēng)險(xiǎn))。,logistic回歸案例分析,DATA example8_6; INPUT y age chage rs lc mr; IF chage=1 and mr=0 THEN cm1=1;else cm1=0; IF chage=0 and m

32、r=1 THEN cm2=1;else cm2=0; IF chage=1 and mr=1 THEN cm3=1;else cm3=0; cards; ; proc logistic desc; model y=lc cm1 cm2 cm3/aggregate scale=none; run;,logistic回歸案例分析,cm1反映的是chage的作用。 cm2反映的是mr的作用。 cm3的參數(shù)估計(jì)值1.4324則等于(0.2714-0.2977+1.4587),包括chage的效應(yīng)、mr的效應(yīng)及chage和mr的交互作用共三部分效應(yīng)。,logistic回歸案例分析,此時(shí)擬合優(yōu)度仍顯示結(jié)果并非很理想 這種情況并不少見,與很多原因有關(guān),如變量不充分、數(shù)據(jù)收集本身的問題等 但加入交互項(xiàng)后,與不加相比,擬合效果相對更優(yōu) 不加交互項(xiàng)的模型 加入交互項(xiàng)的模型,logistic回歸案例分析,考慮到仍可能存在過離散現(xiàn)象,最終可對過離散進(jìn)行校正,這里采用Pearson法進(jìn)行校正 proc logistic desc; model y=lc cm1 cm2 cm3/aggregate scale=pearson; run;,logistic回歸案例分析,校正后,參數(shù)估計(jì)值不變,但標(biāo)準(zhǔn)誤變大,相應(yīng)的P值變大,可以避免假陽性錯(cuò)誤,logistic回歸案例分析,本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論