




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第四章 Logistic 回歸第一節(jié) 從多元線性回歸到logistic回歸第二節(jié) logistic回歸模型的建立第三節(jié) logistic回歸結(jié)果的解釋第四節(jié) logistic回歸模型的檢驗第五節(jié) 研究實例參見郭志剛主編,社會統(tǒng)計分析方法SPSS軟件應(yīng)用第六章,中國人民大學(xué)出版社1999 若我們所研究的因變量為分類變量時,線性回歸的假設(shè)條件往往不能成立。第一節(jié) 從多元線性回歸到logistic回歸為什么需要應(yīng)用logistic回歸回顧:線性回歸的主要條件1、間距變量2、自變量之間不能完全相關(guān) 3、關(guān)于誤差項:(1)e與任何一個自變量無關(guān),且均值為0(2)對應(yīng)不同自變量xi的各ei有不變的方差(3
2、)在各個觀測自變量點xi上的誤差ei之間無關(guān)(4)ei正態(tài)分布OLS求解前提高斯-馬爾可夫假設(shè)統(tǒng)計推論的前提一、違反假定因變量為分類變量時,出現(xiàn)的主要問題:以 abx為例對任一 ,y只能等于0或者1,當y0時, 0當y1時, 1Ei方差出現(xiàn)系統(tǒng)變動OLS估計不是最佳二、線性概率模型(LPM)及其問題1、實際情況y為0、1,但線性回歸方程結(jié)果不是如此2、與實際情況不同(等速與變速)自變量對因變量的作用是線性的將模型因變量理解為概率在為只限于0和1之間的概率選用模型時,LPM不適合第二節(jié) logistic回歸模型的建立要考慮的情況:1、自變量的影響兩端小而中間大2、概率模型(因變量總是取0或1)選
3、擇曲線模型更合適(Logistic回歸)一、logistic函數(shù)及其性質(zhì)又稱增長函數(shù)Robert B. Pearl and Lowell J. Reed 果蠅口研究 1920t:時間 P:時間t上的人口數(shù) L:P的最大極限值 a和b 分別為有關(guān)參數(shù)exp(x)用來計算以e為底的x次方值 補充:有關(guān)數(shù)學(xué)知識定義形如 的函數(shù)叫冪函數(shù),其中為常數(shù) 指數(shù)函數(shù), (a0,且a1),注意與冪函數(shù)的區(qū)別對數(shù)函數(shù)y (a0,且a1)指數(shù)函數(shù) 與對數(shù)函數(shù)y 互為反函數(shù)(2)指數(shù)函數(shù)與對數(shù)函數(shù)的圖象和性質(zhì)如表1-2 一般對數(shù)的底可以為任意不等于1的正數(shù)。對數(shù)的底如果為超越數(shù)e(e=2.718),我們就把這樣的對數(shù)
4、叫作自然對數(shù),用符號“l(fā)n”表示?!?”是對數(shù)“l(fā)ogarithm”的第一個字母,“n”是自然“nature”的第一個字母,把兩個字母合在一起,就表示自然對數(shù)。ln1=0 ln100=4.605170“l(fā)g”表示以10為底的對數(shù)logistic概率函數(shù)此式子突出了兩個有用參數(shù):b以及a/b由圖示可知:1、b表示自變量的作用方向 (b為正數(shù),logsitic函數(shù)隨x值增加而單調(diào)增加;反之亦然)2、-a/b是曲線的中心,在這一點上概率函數(shù)整好取值0.5。 函數(shù)以拐點(-a/b,0.5)為中心對稱,在這一點上曲線的變化率最大,而距離這一點越遠,曲線變化率越小,在趨近函數(shù)的上限或下限時,曲線的變化率接
5、近于零3、b的絕對值越大,曲線在中段上升或下降的速度越快(越陡峭)。 這意味著主要變化部分被壓縮在x軸上對應(yīng)拐點的附近范圍內(nèi)。以上只在logistic函數(shù)中引入了一個自變量,可以擴展為多元分析為表達便利,將多元線性組合 以 表示 ,再令z ,于是,logistic函數(shù)可以表示為:如果將上式分子分母同乘以exp(z),有:這也是logistic函數(shù)的常用表達式之一對上式繼續(xù)轉(zhuǎn)換:p1+exp(z)=exp(z)p+p*exp(z)=exp(z)p=exp(z) -p*exp(z)p=(1 p)exp(z)二、logistic回歸模型因變量的不同形式最后對等式兩邊取對數(shù),得到了概率的函數(shù)與自變量的
6、線性表達式可見:事件概率以自變量的非線性表達可以轉(zhuǎn)換為事件概率的函數(shù)用自變量來線性表達1、事件發(fā)生的概率 pp (y1)2、事件不發(fā)生的概率 1p1p (y1)p (y0)3、發(fā)生比(odds) 4、對數(shù)發(fā)生比(log odds)ln相對風(fēng)險P的羅吉特轉(zhuǎn)換三、有關(guān)概念例:分析被調(diào)查婦女為文盲的可能性與其他因素之間的關(guān)系因變量 WENMNG:本人為文盲取值1,其他為0自變量民族:漢族為1,少數(shù)民族為0居住地:農(nóng)村居民為1,城市為0婚姻狀況:未婚為1,其他為0年齡:定距變量或分年齡組的定序變量(1549歲)自變量回歸參數(shù) b顯著性(p值)發(fā)生比率 eb漢族1.079.1932.942未婚-.457
7、.103.633農(nóng)村居民2.296.00059.9361519歲(參照組)2024歲.665.0481.9442529歲.948.0142.5813034歲1.261.0013.5303539歲2.006.00057.4334044歲2.916.000518.4654549歲3.196.000524.443常數(shù)項-6.041.0005.002一、問題多元線性回歸的表達方式(回顧)logistic回歸中,xi與logit p有線性關(guān)系,但與p卻不是線性關(guān)系xi變化對p的作用難以確切表達通過logtistic回歸系數(shù)可以得到各自變量對事件概率作用的籠統(tǒng)認識,但無法一般性地表示確切的變化關(guān)系報告xi
8、對logit p的作用第三節(jié) logistic回歸系數(shù)的意義二、以發(fā)生比的指數(shù)表達式來解釋回歸系數(shù)發(fā)生比具有實際意義,表示一種相對風(fēng)險如果我們要分析x2變化一個單位對于發(fā)生比的影響幅度,可以用(x21)表示,并將其代入上式表示新的發(fā)生比值 三、發(fā)生比率(相對風(fēng)險比)把兩個發(fā)生比集中在一起,有:我們稱這一變化前后的兩個發(fā)生比之比為發(fā)生比率 (odds ratio),或稱相對風(fēng)險比(relative risk ratio):可測量自變量一個單位的增加給原來的發(fā)生比所帶來的變化請注意準確表達:參照前例:農(nóng)村調(diào)查對象與具有相同特征(民族、婚姻狀況、年齡組)的城市婦女相比更有可能是文盲,農(nóng)村的發(fā)生比是城
9、市的10倍左右。未婚調(diào)查對象與具有相同特征(民族、城鄉(xiāng)、年齡組)的已婚者相比更不可能是文盲,未婚者的發(fā)生比是已婚者的三分之二左右。二、Logistic 回歸的系數(shù)標準化標準化的一、對模型的總體評價第四節(jié) logistic回歸模型的檢驗Logistic回歸方程求解參數(shù)是采用最大似然估計方法,因此其回歸方程的整體檢驗通過似然函數(shù)值(likelihood)進行似然函數(shù):一種概率假設(shè)擬合模型為真實情況時,能夠觀察到這一特定樣本的概率,取值在0、1之間L或lnL都可以作為判斷模型優(yōu)劣的指標,但其統(tǒng)計性質(zhì)不明確補充2:最大似然法最早是遺傳學(xué)家以及統(tǒng)計學(xué)家羅納德費舍爾在1912年至1922年間開始使用的。似
10、然是對likelihood 的一種較為貼近文言文的翻譯,似然用現(xiàn)代的中文來說即可能性。故而,若稱之為最大可能性估計則更加通俗易懂。最大似然法的基本思想:假定一個樣本取自某已知分布形式的總體,但是我們并不知道總體的參數(shù)。我們可以“任取”一些值把它們“當成”是總體的參數(shù),然后計算在這些情況下,從該總體中抽取到已知樣本的可能性有多大。我們最終要選擇的參數(shù)就是使這種可能性是最大的參數(shù)估計,并稱為最大似然估計。評價標準:1、-2 Log Likelihood (2LL值) 2LL 越接近 0 則模擬效果越好;值越大,意味著回歸方程的似然值越小,標志模型的擬合程度越差模型總體的卡方檢驗:Model Chi-square至少一個df自變量個數(shù)2、虛擬確定系數(shù)Cox & Snell 其中 L(0) 是只有常數(shù)項的模型統(tǒng)計量, L(B) 當前模型的統(tǒng)計量。Nagelkerke R23、交互分類表與預(yù)測正確率報告分析結(jié)果時一般選用預(yù)測正確率(如有必要還應(yīng)當加以解釋)卡方檢驗或虛擬確定系數(shù)(說明是哪一個)二、回歸系數(shù)的顯著性檢驗 Wald statisticWald存在的問題:當回歸系數(shù)很大時,難拒絕虛無假設(shè)解決方案:比較兩個模型lnL,差距大,說明變量影響大總結(jié)1、以logistic函數(shù)(增長函數(shù))為依據(jù),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國除草劑市場運營狀況發(fā)展趨勢分析報告
- 2025-2030年中國鋯英砂行業(yè)供需現(xiàn)狀及投資發(fā)展規(guī)劃研究報告
- 2025-2030年中國連接器制造市場發(fā)展動態(tài)及前景趨勢預(yù)測報告
- 2025-2030年中國輪滑鞋行業(yè)發(fā)展現(xiàn)狀及前景趨勢分析報告
- 2025-2030年中國血漿增容劑行業(yè)運行動態(tài)與發(fā)展風(fēng)險評估報告
- 2025-2030年中國葵花油市場運行態(tài)勢及發(fā)展盈利分析報告
- 2025-2030年中國藝術(shù)玻璃行業(yè)市場運行態(tài)勢及投資戰(zhàn)略研究報告
- 2025-2030年中國管道檢測行業(yè)供需現(xiàn)狀及投資發(fā)展規(guī)劃研究報告
- 2025-2030年中國空冷器市場運行現(xiàn)狀及發(fā)展策略分析報告
- 2025-2030年中國種衣劑市場運營狀況及發(fā)展趨勢研究報告
- 2025年部編教材的網(wǎng)絡(luò)培訓(xùn)心得體會
- 《籃球規(guī)則》課件
- 中醫(yī)24節(jié)氣課件
- 《化工安全技術(shù)》教學(xué)設(shè)計(教學(xué)教案)
- 環(huán)衛(wèi)應(yīng)急預(yù)案8篇
- 《與顧客溝通的技巧》課件
- DB14-T2980-2024低品位鋁土礦資源綜合利用技術(shù)規(guī)范
- 2024小學(xué)語文新教材培訓(xùn):一年級語文教材的修訂思路和主要變化
- 上消化道異物的內(nèi)鏡處理
- 健康教育學(xué)全套課件完整版
- 2024年遼寧省中考語文真題含解析
評論
0/150
提交評論