版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、?博客園首頁邏輯回歸模型作者:zgw21cn 來源:博客園 發(fā)布時間:2008-08-29 17:21閱讀:7161 次 原文鏈接收1.邏輯回歸模型1.1邏輯回歸模型考慮具有p個獨立變量的向量',設(shè)條件概率 甲斗力二P 為根據(jù)觀測量相對于某事件發(fā)生的概率。邏輯回歸模型可表示為P("l|帖砲)=缶(1.1)上式右側(cè)形式的函數(shù)稱為稱為邏輯函數(shù)。下圖給出其函數(shù)圖象形式。其中二八 '""J。如果含有名義變量,則將其變?yōu)閐ummy 變量。一個具有k個取值的名義變量,將變?yōu)?k-1個dummy 變量。這樣,有*I(1.2 )定義不發(fā)生事件的條件概率為114中(
2、1.3)那么,事件發(fā)生與事件不發(fā)生的概率之比為F("1|M_ p 七財F(x 二 0|x) l p簡稱為odds。因為這個比值稱為事件的發(fā)生比(the odds of experie ncing an event),0<p<1,故odds>0 。對odds取對數(shù),即得到線性函數(shù),1.2極大似然函數(shù)(1.5)假設(shè)有n個觀測樣本,觀測值分別為 匚設(shè)-/ :- :' 為給定條件下得到;:-的概率。在同樣條件下得到_ 1的條件概率為。于是,得到一個觀測值的概率為";T( 1.6)因為各項觀測獨立,所以它們的聯(lián)合分布可以表示為各邊際分布的乘積。s二九恥)叩-
3、垃)嚴i-】(1.7)上式稱為n個觀測的似然函數(shù)。我們的目標是能夠求出使這一似然函數(shù)的值最大的參數(shù)估計。于是,最大似然估計的關(guān)鍵就是求出參數(shù),使上式取得最大值。對上述函數(shù)求對數(shù)A(1.8)皿 血"I比上Z加 4;:氓;J | '1 > .'4 -.<1上式稱為對數(shù)似然函數(shù)。為了估計能使二二:取得最大的參數(shù)的值。對此函數(shù)求導(dǎo),得到 p+1個似然方程。+ g 冷V" "*4“(1.9)片戰(zhàn)唧】匸£丁 - t1=(_一 -,j=1,2,.,p.上式稱為似然方程。為了解上述非線性方程,應(yīng)用牛頓-拉斐森 進行迭代求解。(Newt on-
4、Raphso n)方法1.3 牛頓-拉斐森迭代法對j 一求二階偏導(dǎo)數(shù),即 Hessian 矩陣為二護(1-羽)j-J(1.10)S1(1.11 )(I則h=xtvx。再令 L1和然方程的矩陣形式。得牛頓迭代法的形式為K 廠(1.13 ) 注意到上式中矩陣H為對稱正定的,求解對H進行cholesky 分解。最大似然估計的漸近方差(asymptotic(1.12 )卞呼!?';(注:前一個矩陣需轉(zhuǎn)置),即似hau 即為求解線性方程HX = U中的矩陣X。陣(information matrix)的逆矩陣估計出來。而信息矩陣實際上是 ->1二階導(dǎo)數(shù)的負值,varianee )和協(xié)方差(
5、covarianee)可以由信息矩8迄(肉1 二 I斤表示為估計值的方差和協(xié)方差表示為-_ ,也就是說,估計值的方差為矩陣I的逆矩陣的對角線上的值,而估計值-;和一丿的協(xié)方差為除了對角線以外的值。然而在多數(shù)情況,我們將使用估計值的標準方差,表示為1岡即二他為)foj=0,1,2,p( 1.14)2 .顯著性檢驗下面討論在邏輯回歸模型中自變量 'i是否與反應(yīng)變量顯著相關(guān)的顯著性檢驗。零假設(shè)J亠'0 (表示自變量 '對事件發(fā)生可能性無影響作用)。如果零假設(shè)被拒絕, 說明事件發(fā)生可能性依賴于的變化。2.1 Wald test對回歸系數(shù)進行顯著性檢驗時,通常使用Wald檢驗,其
6、公式為即“加磁仇)F (2.1)A AA其中,:心& 為*的標準誤差。這個單變量Wald統(tǒng)計量服從自由度等于1的 ?分布。如果需要檢驗假設(shè): T二巳二“二譏=0,計算統(tǒng)計量(2.2 )其中,:為去掉所在的行和列的估計值,相應(yīng)地,為去掉I.所在的行和列的標準誤差。這里, Wald統(tǒng)計量服從自由度等于p的:/分布。如果將上式寫成矩陣形式,有:3一"代(2.3 )矩陣Q是第一列為零的一常數(shù)矩陣。例如,如果檢驗',則然而當回歸系數(shù)的絕對值很大時,這一系數(shù)的估計標準誤就會膨脹,于是會導(dǎo)致Wald統(tǒng)計值變得很小,以致第二類錯誤的概率增加。也就是說,在實際上會導(dǎo)致應(yīng)該拒絕零假設(shè)時卻
7、未能拒絕。所以當發(fā)現(xiàn)回歸系數(shù)的絕對值很大時,就不再用 Wald統(tǒng)計值來檢驗零假設(shè),而應(yīng)該使用似然比檢驗來代替。2.2 似然比(Likelihood ratio test )檢驗在一個模型里面,含有變量與不含變量的對數(shù)似然值乘以-2的結(jié)果之差,服從 分布。這一檢驗統(tǒng)計量稱為似然比(likelihood ratio),用式子表示為G = -21n(不含石似然) 含有召似然丿(2.4 )計算似然值采用公式(1.8 )。上式中,倘若需要檢驗假設(shè)i'-MT表示I = 0的觀測值的個數(shù),而=0,計算統(tǒng)計量(2.5 )=1的觀測值的個數(shù),那么n就表示所有觀測值的個數(shù)了。實際上,上式的右端的右半部分表
8、示只含有的似然值。統(tǒng)計量 G服從自由度為p的:分布2.3 Score 檢驗在零假設(shè)0下,設(shè)參數(shù)的估計值為- ',即對應(yīng)的-: = 0。計算Score統(tǒng)計量的公式為(2.6 )上式中,'I I表示在“ =0下的對數(shù)似然函數(shù)(1.9 )的一價偏導(dǎo)數(shù)值,而 J ':'表示 在一=0下的對數(shù)似然函數(shù)(1.9 )的二價偏導(dǎo)數(shù)值。Score統(tǒng)計量服從自由度等于1的 / 分布。2.4 模型擬合信息模型建立后,考慮和比較模型的擬合程度。有三個度量值可作為擬合的判斷根據(jù)。(1) -2LogLikelihood* 疔1- fr.(2.7) Akaike 信息準則(Akaike In
9、 formation Criterio n,簡寫為 AIC )AlC = -2LogL+2(KS) (2.8)其中K為模型中自變量的數(shù)目,S為反應(yīng)變量類別總數(shù)減1,對于邏輯回歸有 S=2-仁1。-2LogL的值域為0至工,其值越小說明擬合越好。當模型中的參數(shù)數(shù)量越大時,似然值也 就越大,-2LogL就變小。因此,將2(K+S)加到AIC公式中以抵銷參數(shù)數(shù)量產(chǎn)生的影響。在其它條件不變的情況下,較小的 AIC值表示擬合模型較好。(3)Schwarz 準則這一指標根據(jù)自變量數(shù)目和觀測數(shù)量對-2LogL值進行另外一種調(diào)整。SC指標的定義為氏=-2必也+2憶+哥恤(力(2.9)其中l(wèi)n(n)是觀測數(shù)量的
10、自然對數(shù)。這一指標只能用于比較對同一數(shù)據(jù)所設(shè)的不同模型。在 其它條件相同時,一個模型的AIC或SC值越小說明模型擬合越好。3.回歸系數(shù)解釋3.1發(fā)生比odds=p心-p)一:,即事件發(fā)生的概率與不發(fā)生的概率之比。而發(fā)生adds.比率(odds ration), 即(1)連續(xù)自變量。對于自變量 :,每增加一個單位,odds ration為=尹(3.1) 二分類自變量的發(fā)生比率。變量的取值只能為0或1,稱為dummy variable 。當.取值為1,對于取值為0的發(fā)生比率為血榔更卄+蘆十,血界.OR聲込 i 歩*:齊召(3.2)亦即對應(yīng)系數(shù)的幕。(3)分類自變量的發(fā)生比率。如果一個分類變量包括
11、m個類別,需要建立的 dummy variable的個數(shù)為m-1,所省略的那個類別稱作參照類 (referenee category) 。設(shè)dummy variable 為"丄,其系數(shù)為,:, 對于參照類,其發(fā)生比率為 /'r。3.2邏輯回歸系數(shù)的置信區(qū)間對于置信度1-二,參數(shù)“的100%(1 -二)的置信區(qū)間為(3.3 )為系數(shù)估計幾;的標2嚴鑫上式中,:為與正態(tài)曲線下的臨界乙值( critical value )A. - Zd xSfl*0上 + £塔 xSE*準誤差,、和1.兩值便分別是置信區(qū)間的下限和上限。當樣本較大時,“ =0.05水平的系數(shù)的95%置信區(qū)
12、間為(3.4 )4.變量選擇4.1前向選擇(forward selection ):在截距模型的基礎(chǔ)上,將符合所定顯著水平的自變量 一次一個地加入模型。具體選擇程序如下(1)常數(shù)(即截距)進入模型。(2 )根據(jù)公式(2.6 )計算待進入模型變量的Score檢驗值,并得到相應(yīng)的 P值。(3) 找出最小的p值,如果此p值小于顯著性水平;:,則此變量進入模型。如果此變量是某個名義變量的單面化(dummy)變量,則此名義變量的其它單面化變理同時也進入模型。不然,表明沒有變量可被選入模型。選擇過程終止。(4) 回到(2)繼續(xù)下一次選擇。4.2后向選擇(backward selection ):在模型包括
13、所有候選變量的基礎(chǔ)上,將不符合保 留要求顯著水平的自變量一次一個地刪除。具體選擇程序如下(1) 所有變量進入模型。(2) 根據(jù)公式(2.1 )計算所有變量的 Wald檢驗值,并得到相應(yīng)的p值。(3) 找出其中最大的p值,如果此P值大于顯著性水平,則此變量被剔除。對于某個名義變量的單面化變量,其最小 p值大于顯著性水平“,則此名義變量的其它單面化變 量也被刪除。不然,表明沒有變量可被剔除,選擇過程終止。(4) 回到(2)進行下一輪剔除。4.3 逐步回歸(stepwise selection)(1)基本思想:逐個引入自變量。每次引入對Y影響最顯著的自變量,并對方程中的老變量逐個進行檢驗,把變?yōu)椴伙@
14、著的變量逐個從方程中剔除掉,最終得到的方程中既不漏掉對Y影響顯著的變量,又不包含對Y影響不顯著的變量。 篩選的步驟:首先給出引入變量的顯著性水平和剔除變量的顯著性水平"、!,然后按下圖篩選變量。(3)逐步篩選法的基本步驟是從不在方程中的變量考慮引入新變量的步逐步篩選變量的過程主要包括兩個基本步驟:驟;二是從回歸方程中考慮剔除不顯著變量的步驟。假設(shè)有p個需要考慮引入回歸方程的自變量 設(shè)僅有截距項的最大似然估計值為F。對p個自變量每個分別計算 Score檢驗值,設(shè)有最小p值的變量為工,且有'I 1 : J ,對于單面化(dummy)變量,也如此。若X匕 ,則此變量進入模型,不然停止。如果此變量是名義變量單面化 (dummy)的變 量,則此名義變量的其它單面化變量也進入模型。其中為引入變量的顯著性水平。 為了確定當變量在模型中時其它p-1個變量也是否重要,將分 別與 '工進行擬合。對p-1個變量分別計算Score檢驗值,其p值設(shè)為I】。設(shè)有最小p值 的變量為 ,且有.若;I L ;1?',則進入下一步,不然停止。對于單面化 變量,其方式如同上步。 此步開始于模型中已含有變量與。注意到有可能在變量被引入后,變量2不Y Y再重要。本步包括向后刪除。根據(jù)(2.1)計算變量二與二的Wald檢驗值,和相應(yīng)的p值。 設(shè)I為具有最大p值的變量,即t=max(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年八年級物理下冊 第7章 第2節(jié) 彈力說課稿 (新版)新人教版
- 2025最簡單采購合同協(xié)議樣本
- 2024-2025學年高中化學 第1章 有機化合物的結(jié)構(gòu)與性質(zhì) 烴 1.1.1 有機化學的發(fā)展 有機化合物的分類說課稿 魯科版選修5
- 2025如何防范國際貿(mào)易合同中的風險店鋪轉(zhuǎn)讓合同協(xié)議書
- 農(nóng)村電商 合同范例
- 包裝食品采購合同范例
- Unit 1 My school 單元整體分析(說課稿)-2023-2024學年人教PEP版英語四年級下冊
- 2024-2025學年高中歷史 專題九 戊戌變法 一 醞釀中的變革(2)教學說課稿 人民版選修1
- 13 導(dǎo)體和絕緣體 說課稿-2024-2025學年科學四年級上冊蘇教版001
- JN造船廠合同管理改進研究
- 中考記敘文閱讀
- 《計算機應(yīng)用基礎(chǔ)》-Excel-考試復(fù)習題庫(含答案)
- 產(chǎn)科溝通模板
- 2023-2024學年四川省成都市小學數(shù)學一年級下冊期末提升試題
- GB/T 7462-1994表面活性劑發(fā)泡力的測定改進Ross-Miles法
- GB/T 2934-2007聯(lián)運通用平托盤主要尺寸及公差
- GB/T 21709.13-2013針灸技術(shù)操作規(guī)范第13部分:芒針
- 2022年青島職業(yè)技術(shù)學院單招語文考試試題及答案解析
- 急診科進修匯報課件
- 一年級家訪記錄表(常用)
- 信息技術(shù)基礎(chǔ)ppt課件(完整版)
評論
0/150
提交評論