




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、二分類(lèi)Logistic回歸模型在對(duì)資料進(jìn)行統(tǒng)計(jì)分析時(shí)常遇到反應(yīng)變量為分類(lèi)變量的資料,那么,能否用類(lèi)似于線(xiàn)性回歸的模型來(lái)對(duì)這種資料進(jìn)行分析呢?答案是肯定的。本章將向大家介紹對(duì)二分類(lèi)因變量進(jìn)行回歸建模的Logistic回歸模型。 第一節(jié) 模型簡(jiǎn)介一、模型入門(mén)在很多場(chǎng)合下都能碰到反應(yīng)變量為二分類(lèi)的資料,如考察公司中總裁級(jí)的領(lǐng)導(dǎo)層中是否有女性職員、某一天是否下雨、某病患者結(jié)局是否痊愈、調(diào)查對(duì)象是否為某商品的潛在消費(fèi)者等。對(duì)于分類(lèi)資料的分析,相信大家并不陌生,當(dāng)要考察的影響因素較少,且也為分類(lèi)變量時(shí),分析者常用列聯(lián)表(contingency Table)的形式對(duì)這種資料進(jìn)行整理,并使用檢驗(yàn)來(lái)進(jìn)行分析,漢
2、存在分類(lèi)的混雜因素時(shí),還可應(yīng)用Mantel-Haenszel檢驗(yàn)進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn),這種方法可以很好地控制混雜因素的影響。但是這種經(jīng)典分析方法也存在局限性,首先,它雖然可以控制若干個(gè)因素的作用,但無(wú)法描述其作用大小及方向,更不能考察各因素間是否存在交互任用;其次,該方法對(duì)樣本含量的要求較大,當(dāng)控制的分層因素較多時(shí),單元格被劃分的越來(lái)越細(xì),列聯(lián)表的格子中頻數(shù)可能很小甚至為0,將導(dǎo)致檢驗(yàn)結(jié)果的不可靠。最后,檢驗(yàn)無(wú)法對(duì)連續(xù)性自變量的影響進(jìn)行分析,而這將大大限制其應(yīng)用范圍,無(wú)疑是其致使的缺陷。那么,能否建立類(lèi)似于線(xiàn)性回歸的模型,對(duì)這種數(shù)據(jù)加以分析?以最簡(jiǎn)單的二分類(lèi)因變量為例來(lái)加以探討,為了討論方便,常定義
3、出現(xiàn)陽(yáng)性結(jié)果時(shí)反應(yīng)變量取值為1,反之則取值為0 。例如當(dāng)領(lǐng)導(dǎo)層有女性職員、下雨、痊愈時(shí)反應(yīng)變量,而沒(méi)有女性職員、未下雨、未痊愈時(shí)反應(yīng)變量。記出現(xiàn)陽(yáng)性結(jié)果的頻率為反應(yīng)變量。首先,回顧一下標(biāo)準(zhǔn)的線(xiàn)性回歸模型:如果對(duì)分類(lèi)變量直接擬合,則實(shí)質(zhì)上擬合的是發(fā)生概率,參照前面線(xiàn)性回歸方程 ,很自然地會(huì)想到是否可以建立下面形式的回歸模型:顯然,該模型可以描述當(dāng)各自變量變化時(shí),因變量的發(fā)生概率會(huì)怎樣變化,可以滿(mǎn)足分析的基本要求。實(shí)際上,統(tǒng)計(jì)學(xué)家們最早也在朝這一方向努力,并考慮到最小二乘法擬合時(shí)遇到的各種問(wèn)題,對(duì)計(jì)算方法進(jìn)行了改進(jìn),最終提出了加權(quán)最小二乘法來(lái)對(duì)該模型進(jìn)行擬合,至今這種分析思路還偶有應(yīng)用。既然可以使
4、用加權(quán)最小二乘法對(duì)模型加以估計(jì),為什么現(xiàn)在又放棄了這種做法呢?原因在于有以下兩個(gè)問(wèn)題是這種分析思路所無(wú)法解決的:(1)取值區(qū)間:上述模型右側(cè)的取值范圍,或者說(shuō)應(yīng)用上述模型進(jìn)行預(yù)報(bào)的范圍為整 個(gè)實(shí)數(shù)集,而模型的左邊的取值范圍為,二者并不相符。模型本身不能保證在自變量的各種組合下,因變量的估計(jì)值仍限制在01內(nèi),因此可能分析者會(huì)得到這種荒唐的結(jié)論:男性、30歲、病情較輕的患者被治愈的概率是300%!研究者當(dāng)然可以將此結(jié)果等價(jià)于100%可以治愈,但是從數(shù)理統(tǒng)計(jì)的角度講,這種模型顯然是極不嚴(yán)謹(jǐn)?shù)?。?)曲線(xiàn)關(guān)聯(lián):根據(jù)大量的觀察,反應(yīng)變量P與自變量的關(guān)系通常不是直線(xiàn)關(guān)系,而是S型曲線(xiàn)關(guān)系。這里以收入水平和
5、購(gòu)車(chē)概率的關(guān)系來(lái)加以說(shuō)明,當(dāng)收入非常低時(shí),收入的增加對(duì)購(gòu)買(mǎi)概率影響很?。坏窃谑杖脒_(dá)到某一閾值時(shí),購(gòu)買(mǎi)概率會(huì)隨著收入的增加而迅速增加;在購(gòu)買(mǎi)概率達(dá)到一定水平,絕大部分在該收入水平的人都會(huì)購(gòu)車(chē)時(shí),收入增加的影響又會(huì)逐漸減弱。如果用圖形來(lái)表示,則如圖1所示。顯然,線(xiàn)性關(guān)聯(lián)是線(xiàn)性回歸中至關(guān)重要的一個(gè)前提假設(shè),而在上述模型中這一假設(shè)是明顯無(wú)法滿(mǎn)足的。圖1 S型曲線(xiàn)圖以上問(wèn)題促使統(tǒng)計(jì)學(xué)家們不得不尋求新的解決思路,如同在曲線(xiàn)回歸中,往往采用變量變換,使得曲線(xiàn)直線(xiàn)化,然后再進(jìn)行直線(xiàn)回歸方程的擬合。那么,能否考慮對(duì)所預(yù)測(cè)的因變量加以變換,以使得以上矛盾得以解決?基于這一思想,又有一大批統(tǒng)計(jì)學(xué)家在尋找合適的變換
6、函數(shù)。終于,在1970年,Cox引入了以前用于人口學(xué)領(lǐng)域的Logit變換(Logit Transformation),成功地解決了上述問(wèn)題。那么,什么是Logit變換呢?通常的把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱(chēng)為比值(odds,國(guó)內(nèi)也譯為優(yōu)勢(shì)、比數(shù)),即,取其對(duì)數(shù)。這就是logit變換。下面來(lái)看一下該變換是如何解決上述兩個(gè)問(wèn)題的,首先是因變量取值區(qū)間的變化,概率是以0.5為對(duì)稱(chēng)點(diǎn),分布在01的范圍內(nèi)的,而相應(yīng)的logit(P)的大小為: 顯然,通過(guò)變換,Logit()的取值范圍就被擴(kuò)展為以0為對(duì)稱(chēng)點(diǎn)的整個(gè)實(shí)數(shù)域,這使得在任何自變量取值下,對(duì)值的預(yù)測(cè)均有實(shí)際意義。其次,大量實(shí)踐證明,Log
7、it()往往和自變量呈線(xiàn)性關(guān)系,換言之,概率和自變量間關(guān)系的S形曲線(xiàn)往往就符合logit函數(shù)關(guān)系,從而可以通過(guò)該變換將曲線(xiàn)直線(xiàn)化。因此,只需要以Logit()為因變量,建立包含p個(gè)自變量的logistic回歸模型如下:以上即為logistic回歸模型。由上式可推得: 上面三個(gè)方程式相互等價(jià)。通過(guò)大量的分析實(shí)踐,發(fā)現(xiàn)logistic回歸模型可以很好地滿(mǎn)足對(duì)分類(lèi)數(shù)據(jù)的建模需求,因此目前它已經(jīng)成為了分類(lèi)因變量的標(biāo)準(zhǔn)建模方法。通過(guò)上面的討論,可以很容易地理解二分類(lèi)logistic回歸模型對(duì)資料的要求是:(1)反應(yīng)變量為二分類(lèi)的分類(lèi)變量或是某事件的發(fā)生率。(2)自變量與Logit()之間為線(xiàn)性關(guān)系。(3
8、)殘差合計(jì)為0,且服從二項(xiàng)分布。(4)各觀測(cè)值間相互獨(dú)立。由于因變量為二分類(lèi),所以logistic回歸模型的誤差應(yīng)當(dāng)服從二項(xiàng)分布,而不是正態(tài)分布。因此,該模型實(shí)際上不應(yīng)當(dāng)使用以前的最小二乘法進(jìn)行參數(shù)估計(jì),上次均使用最大似然法來(lái)解決方程的估計(jì)和檢驗(yàn)問(wèn)題。二、一些基本概念由于使用了logit變換,Logistic模型中的參數(shù)含義略顯復(fù)雜,但有很好的實(shí)用價(jià)值,為此現(xiàn)對(duì)一些基本概念加以解釋。1. 優(yōu)勢(shì)比如前所述,人們常把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱(chēng)為比值(odds),即。兩個(gè)比值之比稱(chēng)為優(yōu)勢(shì)比(odds Ratio,簡(jiǎn)稱(chēng)OR)。首先考察OR的特性:若,則若,則若,則顯然,OR是否大于1可以用
9、作兩種情形下發(fā)生概率大小的比較。2. Logistic回歸系數(shù)的意義從數(shù)學(xué)上講,和多元回歸中系數(shù)的解釋并無(wú)不同,代表改變一個(gè)單位時(shí)logit(P)的平均改變量,但由于odds的自然對(duì)數(shù)即為logit變換,因此Logistic回歸模型中的系數(shù)和OR有著直接的變換關(guān)系,使得Logistic回歸系數(shù)有更加貼近實(shí)際的解釋?zhuān)瑥亩彩沟迷撃P偷玫搅藦V泛的應(yīng)用。下面用一個(gè)實(shí)例加以說(shuō)明:以4格表資料為例具體說(shuō)明各回歸系數(shù)的意義:表1 4格表資料治療方法(treat)治療結(jié)果(outcome)合計(jì)治愈率治愈(1)未治愈(0)新療法(1)60 (a)21 (c)8174.07%傳統(tǒng)療法(0)42 (b)27 (d
10、)6960.87%合計(jì)1024813068.00%該資料如果擬合Logistic回歸模型,則結(jié)果如下(操作步驟詳見(jiàn)后述): (1)常數(shù)項(xiàng):表示自變量取全為0(稱(chēng)基線(xiàn)狀態(tài))時(shí),比數(shù)(Y=1與Y=0的概率之比)的自然對(duì)數(shù)值,本例中為,即傳統(tǒng)療法組的治愈率與未治愈率之比的自然對(duì)數(shù)值。在不同的研究設(shè)計(jì)中,常數(shù)項(xiàng)的具體含義可能不同,如基線(xiàn)狀態(tài)下個(gè)體患病率、基線(xiàn)個(gè)體發(fā)病率、基線(xiàn)狀態(tài)中病例所占比例等,但這些數(shù)值的大小研究者一般并不關(guān)心。(2)各自變最的回歸系數(shù):表示自變量每改變一個(gè)單位,優(yōu)勢(shì)比的自然對(duì)數(shù)值改變量,而即OR值,表示自變量每變化一個(gè)單位,陽(yáng)性結(jié)果出現(xiàn)概率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù)
11、,即優(yōu)勢(shì)比(注意:不是出現(xiàn)陽(yáng)性結(jié)果的概率為變化前的倍數(shù),即優(yōu)勢(shì)比并不等同于相對(duì)危險(xiǎn)度)。本例中自變量治療方法的回歸系數(shù),為兩組病人的治愈率與未治愈率之比的對(duì)數(shù)值之差,即。因此,對(duì)于四格表資料而言,所建立的Logistic回歸模型也可以寫(xiě)成:由以上關(guān)系可知,表示傳統(tǒng)療法組的治愈率與未治愈之比值。則表示治療方法增加一個(gè)單位,即將療法從傳統(tǒng)療法改為新療法時(shí),新療法組病人治愈率與未治愈率之比值相對(duì)于傳統(tǒng)療法組病人的治愈率與未治愈率比值的倍數(shù)。而兩組病人的治愈率之比,并不完全相同。但是,當(dāng)研究結(jié)果出現(xiàn)陽(yáng)性的概率較小時(shí)(一般認(rèn)為小于0.1 ,反之當(dāng)概率大于0.9時(shí)亦可),OR值大小和發(fā)生概率之比非常接近,
12、此時(shí)可以近似地說(shuō)一組研究對(duì)象的陽(yáng)性結(jié)果發(fā)生率是另一組研究對(duì)象發(fā)生率的OR值倍,即用OR值的大小來(lái)挖地表示相對(duì)危險(xiǎn)度的大小。三、簡(jiǎn)單分析實(shí)例SPSS中通過(guò)regression模塊中的Binary Logistic過(guò)程實(shí)現(xiàn)結(jié)果變量為二分類(lèi)的Logistic回歸,下面通過(guò)一個(gè)實(shí)例分析,具體講解相應(yīng)的操作和結(jié)果解釋。例1某醫(yī)師希望研究病人的年齡(歲)、性別(0為女性,1為男性)、心電圖檢驗(yàn)是否異常(ST段壓低,0為正常、1為輕度異常、2為重度異常)與患冠心病是否有關(guān)。調(diào)用SPSS中的Binary Logistic過(guò)程:圖 2 Logistic回歸主對(duì)話(huà)框本例中涉及的對(duì)話(huà)框界面如圖9.2所示,注意對(duì)話(huà)框
13、中部有一個(gè)以前未出現(xiàn)過(guò)的a*b按鈕、用于納入交互作用,只要先將相應(yīng)變量選中,然后單擊此按鈕,相應(yīng)的交互項(xiàng)就會(huì)被納入模型。本例因較為簡(jiǎn)單,未用到此功能。性別雖為分類(lèi)變量,但僅有兩個(gè)取值水平,所以可以直接引入模型,結(jié)果仍然可以被正常解釋。結(jié)果如下:首先輸出分析中使用的記錄數(shù)匯總,此處略。表2 Dependent Variable EncodingOriginal ValueInternal Value未患病0患病1 表2為因變量的取值水平編碼,SPSS擬合模型時(shí)默認(rèn)取值水平高的為陽(yáng)性結(jié)果,對(duì)于本例來(lái)講,擬合的模型是logit(P|y=患病)。隨后進(jìn)行模型擬合,首先給出的是模型不含任何自變量,而只有
14、常數(shù)項(xiàng)(即無(wú)效模型)時(shí)的輸出結(jié)果,標(biāo)題為:“Block0:BeginningBlock”。此時(shí)的模型為:表3 Classification Tablea,bObservedPredicted是否患冠心病Percentage Correct未患病患病Step 0是否患冠心病未患病037.0患病041100.0Overall Percentage52.6a. Constant is included in the model.b. The cut value is .500表9.3輸出的是模型中僅含有常數(shù)項(xiàng)(見(jiàn)表4)時(shí)計(jì)算的預(yù)測(cè)分類(lèi)結(jié)果,SPSS根據(jù)p值是否大于0.5將觀察對(duì)象判斷為是否出現(xiàn)陽(yáng)性結(jié)
15、果,即是否患冠心病。由于模型中僅含有常數(shù)項(xiàng),因此所有人的預(yù)測(cè)概率均為樣本率估計(jì)值P0.5257,將所有的觀察對(duì)象均判斷為冠心病。判斷正確率為52.6%,實(shí)際上就是全部研究對(duì)象的患病率41、780.5256(細(xì)小差別為四舍五入產(chǎn)生)。也就是說(shuō),由于當(dāng)前樣本中大部分人為患病,因此當(dāng)模型中不包含任何自變量時(shí),樣本中所有觀察對(duì)象皆被預(yù)測(cè)為患病, 總的預(yù)測(cè)準(zhǔn)確率為52.6%。表4 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 0Constant.103.227.2051.6511.108表4輸出結(jié)果中B為模型中未引入自變量時(shí)常數(shù)項(xiàng)的估計(jì)值,S.E為
16、其標(biāo)準(zhǔn)誤,Wald為Wald,是對(duì)總體回歸系數(shù)是否為0進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)。表格中df為其自由度,Sig.為相應(yīng)的P值。此時(shí)的exp(B)為e的次方。其實(shí)際意義為總體研究對(duì)象患病率與未患病率的比值。即1.1080.5256/0.4744。表5 Variables not in the EquationScoredfSig.Step 0Variablessex6.0211.014ecg7.1111.008age7.7341.005Overall Statistics18.5623.000表5輸出了當(dāng)前未引入模型的變量的比分檢驗(yàn)(Score Test)結(jié)果,其意義為向當(dāng)前模型中引入某變量(如sex時(shí)),
17、該變量回歸系數(shù)是否等于0的比分檢驗(yàn)假設(shè)。對(duì)于取值水平為二分類(lèi)的自變量來(lái)說(shuō),得分檢驗(yàn)的值等于由該自變量與反應(yīng)變量構(gòu)成的四格表的Pearson?;跓o(wú)效模型,現(xiàn)在開(kāi)始在分析中引入自變量。標(biāo)題為“Block 1:Method=Enter”。表6 Omnibus Tests of Model CoefficientsChi-squaredfSig.Step 1Step21.1143.000Block21.1143.000Model21.1143.000由于此處尚未涉及變量篩選的問(wèn)題,模型中會(huì)同時(shí)引入三個(gè)自變量,自由度3,此處的值為似然比值,等于上一步(模型中只含有常數(shù)項(xiàng)時(shí))的-2log(似然比值)與當(dāng)
18、前模型的-2log(似然比值)的差值,參見(jiàn)表6 。本例。表7 Model SummaryStep-2 Log likelihoodCox & Snell R SquareNagelkerke R Square186.811a.237.316a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.表7輸出了當(dāng)前模型的-2log(似然比值)和兩個(gè)偽決定系數(shù)(“偽”,以示與線(xiàn)性回歸模型中的決定系數(shù)相區(qū)別)Cox & Snell 和Nagelkerke 。后
19、兩者從不同角度反映了當(dāng)前模型中自戀量解釋了反應(yīng)變量的變異占反應(yīng)變量總變異的比例。但對(duì)于Logistic回歸而言,通常看到的模型偽決定系數(shù)的大小不像線(xiàn)性回歸模型中的決定系數(shù)那么大。表8 Classification TableaObservedPredicted是否患冠心病Percentage Correct未患病患病Step 1是否患冠心病未患病251267.6患病103175.6Overall Percentage71.8a. The cut value is .500這是應(yīng)用引入三個(gè)自變量后重新擬合的回歸模型進(jìn)行預(yù)測(cè)的分類(lèi)表格,P0.5判斷為出現(xiàn)陽(yáng)性結(jié)果??梢?jiàn)已經(jīng)出現(xiàn)了被預(yù)測(cè)為未患病的研究
20、對(duì)象,此處78例研究對(duì)象中共有56(25+31)例判斷正確,總正確率為56/7871.8%,如表8所示。表9輸出了模型中各自變量的偏回歸系數(shù)及其標(biāo)準(zhǔn)誤、Wald、自由度、P值,及OR值(即表格最右側(cè)的Exp(B))。由此可以得出結(jié)論,男性(sex=1)較女性更容易患冠心病、心電圖異常程度越高,越容易被診斷為冠心病,年齡越大的越容易患冠心病。由于年齡不可能為0 ,這也超出了樣本所觀察的自變量age取值范圍,因此這里的常數(shù)項(xiàng)無(wú)實(shí)際意義。表9 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1asex1.356.5466.1621.0133.88
21、2ecg.873.3845.1621.0232.395age.093.0357.0001.0081.097Constant-5.6421.8069.7571.002.004a. Variable(s) entered on step 1: sex, ecg, age.到此為止,可建立如下Logistic回歸方程:或第二節(jié) 分類(lèi)自變量的定義與比較方法一、 使用啞變量的必要性在回歸模型中,回歸系數(shù)b表示其他自變量不變,x每改變一個(gè)單位時(shí),所預(yù)測(cè)的y的平均變化量,當(dāng)x為連續(xù)性變量時(shí)這樣解釋沒(méi)有問(wèn)題,二分類(lèi)變量由于只存在兩個(gè)類(lèi)別間的比較,也可以對(duì)系數(shù)得到很好的解釋?zhuān)钱?dāng)x為多分類(lèi)變量時(shí)擬合一個(gè)回歸系
22、數(shù)就不太合適了,此時(shí)需要使用啞變量(Dummy Variable)方式對(duì)模型加以定義,為說(shuō)明該問(wèn)題,先引入下面的一個(gè)實(shí)例。例2 Hosmer和Lemeshow于1989年研究了低出生體重嬰兒的影響因素。結(jié)果變量為是否娩出低出生體重兒(變量名為L(zhǎng)OW,1為低出生體重,即嬰兒出生體重0.05),說(shuō)明該分類(lèi)變量對(duì)風(fēng)險(xiǎn)率產(chǎn)生的影響在該水平處達(dá)到停滯狀態(tài)。此選擇項(xiàng)一般用于有序的分類(lèi)變量。對(duì)無(wú)序多分類(lèi)變量則無(wú)實(shí)際意義。4. Helmert:赫爾默特對(duì)比。分類(lèi)變量某水平與其后面各水平平均值進(jìn)行比較。如果在某水平系數(shù)增大且有統(tǒng)計(jì)學(xué)意義,說(shuō)明該分類(lèi)變量自該水平起開(kāi)始對(duì)風(fēng)險(xiǎn)率產(chǎn)生影響。同樣也適用于有序的分類(lèi)變量。
23、5.Repeated:重復(fù)對(duì)比。分類(lèi)變量的各水平與其前面相鄰的水平相比較(第一水平除外),此時(shí)以“前一水平”為參照水平。6.Polynomial:多項(xiàng)式對(duì)比。僅用于數(shù)字型的分類(lèi)變量 。無(wú)效假設(shè)是假設(shè)各水平是等距離的(可以是線(xiàn)性的關(guān)系,也可以是立方、四次方的關(guān)系)。例如年齡每增加5歲,娩出低出生體重兒的危險(xiǎn)增加幅度是一樣的,但實(shí)際情況常常與之相反,例如在20歲與30歲年齡段,年齡都增加5歲,所增加的娩出低出生體重兒的危險(xiǎn)肯定是不一樣的,具體情況需要根據(jù)各人的研究課題而定。7.Deviation:離差對(duì)比。除了所規(guī)定的參照水平外,其余每個(gè)水平均與總體水平相比。此時(shí)每個(gè)水平的回歸系數(shù)都是相對(duì)于總體水
24、平而言的改變量。對(duì)于那個(gè)參照水平而言,它的回歸系數(shù)可以通過(guò)其他n-1個(gè)回歸系數(shù)算出來(lái),等于0減去其他幾個(gè)水平回歸系數(shù)的代數(shù)和。即些時(shí)n個(gè)水平的回歸系數(shù)的代數(shù)和為“0”。三、設(shè)置啞變量時(shí)要注意的問(wèn)題1.參照水平最好要有實(shí)際意義,否則將會(huì)推動(dòng)比較的目標(biāo)。如果將一些難以分類(lèi)的個(gè)體放到一起,然后美其名曰“其他”,此時(shí)往往不知道已知的某個(gè)類(lèi)別具體在與誰(shuí)進(jìn)行比較,進(jìn)而導(dǎo)致啞變量的回歸系數(shù)難以解釋。因?yàn)椴煌芯繕颖局械摹捌渌蓖遣煌模@樣研究結(jié)果之間難以相互進(jìn)行比較。2.參照水平組應(yīng)有一定的頻數(shù)作保證。如果參照水平頻數(shù)過(guò)少,將導(dǎo)致其他與之相對(duì)比的水平參數(shù)估計(jì)的標(biāo)準(zhǔn)誤增大,進(jìn)而置信區(qū)間擴(kuò)大,精確度降低。
25、有學(xué)者認(rèn)為,參照水平組的頻數(shù)應(yīng)不少于30例或50例。3.如果不通過(guò)Categorical模型對(duì)分類(lèi)自變量產(chǎn)生啞變量,而是自己通過(guò)Compute過(guò)程產(chǎn)生,需要注意在逐步回歸篩選自變量時(shí),啞變量應(yīng)該同時(shí)進(jìn)入模型或者同時(shí)退出模型。4.對(duì)有序自變量的分析。一是從專(zhuān)業(yè)出發(fā),如果認(rèn)為在不同等級(jí)對(duì)反應(yīng)變量的影響程度是一致的,如文化程度每增加一個(gè)等級(jí),成為某項(xiàng)時(shí)尚消費(fèi)品潛在消費(fèi)者的比數(shù)(P/(1-P)的自然對(duì)數(shù)增加幅度也相同,這時(shí)可以將該變量作為連續(xù)性變量進(jìn)行處理,這樣得到的模型也更簡(jiǎn)潔,結(jié)果的解釋也更方便。當(dāng)專(zhuān)業(yè)上不能給出以上假設(shè)時(shí),則需要先將該有序變量分別以啞變量和連續(xù)性變量的方式引入模型,觀察各啞變量的
26、回歸系數(shù)間是否存在等級(jí)關(guān)系,以及對(duì)兩個(gè)模型進(jìn)行似然比檢驗(yàn),似然比值等于兩個(gè)模型的-2log(L)之差,自由度為兩個(gè)模型中自變量個(gè)數(shù)之差,如果似然比檢驗(yàn)無(wú)統(tǒng)計(jì)學(xué)意義,且各啞變量的回歸系數(shù)間存在等級(jí)關(guān)系,可以將該自變量作為連續(xù)性變量引入模型,否則最好還是采用啞變量的方式引入模型。第三節(jié) 標(biāo)準(zhǔn)化回歸系數(shù)和回歸模型的擬合優(yōu)度一、標(biāo)準(zhǔn)化回歸系數(shù)與多重線(xiàn)性回歸類(lèi)似,自變量量綱(單位)不同,非標(biāo)準(zhǔn)化的logistic回歸系數(shù)不能用于比較各自變量對(duì)事件發(fā)生概率的貢獻(xiàn)大小。欲研究logistic回歸中各變量的相對(duì)貢獻(xiàn),要么事先將各自變量標(biāo)準(zhǔn)化后再作回歸分析,要么對(duì)logistic回歸系數(shù)進(jìn)行標(biāo)準(zhǔn)化。我們可以用極
27、大似然估計(jì)的回歸系數(shù)乘以該變量的樣本標(biāo)準(zhǔn)差求得logistic回歸的標(biāo)準(zhǔn)化回歸系數(shù)。 (16)SPSS軟件可以提供回歸系數(shù)及其變量的樣本標(biāo)準(zhǔn)差,但不能直接得到標(biāo)準(zhǔn)化回歸系數(shù)。在標(biāo)準(zhǔn)化系數(shù)問(wèn)題上要謹(jǐn)慎,應(yīng)注意標(biāo)準(zhǔn)化的原意是消去不同量綱的影響,增加可比性。對(duì)于一些二分類(lèi)的自變量,不存在量綱問(wèn)題,則不宜作標(biāo)準(zhǔn)化。另外,一般不利用標(biāo)準(zhǔn)化回歸系數(shù)估計(jì)優(yōu)勢(shì)比,因?yàn)榘礃?biāo)準(zhǔn)化回歸系數(shù)所計(jì)算的優(yōu)勢(shì)比不是變化一個(gè)單位,而是變化一個(gè)標(biāo)準(zhǔn)差的優(yōu)勢(shì)比了。二、回歸模型的擬合優(yōu)度對(duì)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn),只能說(shuō)明logistic回歸方程中的回歸系數(shù)是否有統(tǒng)計(jì)學(xué)意義,因變量與自變量是否有統(tǒng)計(jì)學(xué)聯(lián)系,不表明自變量對(duì)因變量變異的解釋程度。要說(shuō)明這一點(diǎn),如線(xiàn)性回歸一樣,應(yīng)對(duì)回歸方程進(jìn)行擬合優(yōu)度評(píng)價(jià)。Logistic回歸方程擬合優(yōu)度評(píng)價(jià)的思路有兩種:第一種是希望找到一個(gè)評(píng)價(jià)指標(biāo),類(lèi)似線(xiàn)性回歸中的確定系數(shù)R2,但是logistic回歸還沒(méi)有對(duì)應(yīng)的理想指標(biāo);第二種是通過(guò)回歸方程預(yù)測(cè)值與實(shí)際觀測(cè)值的吻合程
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025商業(yè)街店鋪?zhàn)赓U合同
- 《經(jīng)濟(jì)學(xué)院概況》課件
- 《特種車(chē)輛》課件
- 《屋面防漏QC成果》課件
- 鷹潭市重點(diǎn)中學(xué)2025年中考生物試題3年中考模擬題透析2年模擬試題含解析
- 新疆維吾爾巴音郭楞蒙古自治州輪臺(tái)縣2024-2025學(xué)年五年級(jí)數(shù)學(xué)第二學(xué)期期末經(jīng)典模擬試題含答案
- 蘇州城市學(xué)院《保險(xiǎn)法案例分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東輕工職業(yè)學(xué)院《臨床醫(yī)學(xué)概論Ⅱ》2023-2024學(xué)年第一學(xué)期期末試卷
- 日照市2025年初三第一次聯(lián)考物理試題文試題含解析
- 南京棲霞區(qū)攝山中學(xué)2024-2025學(xué)年初三下學(xué)期期初學(xué)情調(diào)研考試英語(yǔ)試題試卷含答案
- 犯罪的種類(lèi)課件
- 2022年12月18日浙江?。ㄊ校┘?jí)機(jī)關(guān)面向基層遴選筆試真題及答案深度解析
- 慢性血栓栓塞性肺動(dòng)脈高壓
- 兒童早期綜合發(fā)展課件
- 剪力墻平法識(shí)圖講義(PPT格式105)
- 北京中考英語(yǔ)詞匯表(1600詞匯)
- 專(zhuān)業(yè)工程分包業(yè)主審批表
- 藥劑科終止妊娠藥品管理制度
- 除草劑分類(lèi)和使用方法
- 中遠(yuǎn)集團(tuán)養(yǎng)老保險(xiǎn)工作管理程序
- 留守兒童幫扶記錄表
評(píng)論
0/150
提交評(píng)論