邏輯回歸分析_第1頁(yè)
邏輯回歸分析_第2頁(yè)
邏輯回歸分析_第3頁(yè)
邏輯回歸分析_第4頁(yè)
邏輯回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩88頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

3二項(xiàng)邏輯斯諦回歸

返回背景現(xiàn)實(shí)世界,經(jīng)常需要判斷一些事情是否發(fā)生,候選人是否會(huì)當(dāng)選,病患的幾率,生意的成功與否一般回歸分析要求直接預(yù)測(cè)被解釋變量的數(shù)值,而此處的被解釋變量是二分變量二項(xiàng)邏輯斯蒂回歸模型針對(duì)具有兩分特點(diǎn)的應(yīng)變量的概率統(tǒng)計(jì)方法問(wèn)題:利用多元回歸方法分析變量之間關(guān)系或進(jìn)行預(yù)測(cè)的前提是被解釋變量連續(xù)定距當(dāng)被解釋變量為0/1二值品質(zhì)型變量時(shí):殘差不再同方差,殘差會(huì)隨解釋變量取值變化而變化殘差不再正態(tài),是二值離散分布被解釋變量取值區(qū)間受限制結(jié)論當(dāng)被解釋變量為0/1,仍采用簡(jiǎn)單線性回歸模型,則被解釋變量的均值是取值為1的概率。以概率來(lái)建模概率的取值范圍0-1,而一般線性回歸模型取值全體實(shí)數(shù),需要轉(zhuǎn)換一般模型為線性,這里解釋變量與概率值之間關(guān)系為非線性,與增長(zhǎng)函數(shù)相吻合,采用非線性轉(zhuǎn)換轉(zhuǎn)換第一個(gè)模型是邏輯斯蒂回歸模型

第三個(gè)為邏輯斯蒂函數(shù),典型的增長(zhǎng)函數(shù),體現(xiàn)了概率和解釋變量之間的非線性關(guān)系只包含一個(gè)自變量的模型Logistic回歸曲線多自變量模型數(shù)據(jù)要求因變量具有二分特點(diǎn),自變量可以是分類變量,也可以是定距型變量,如果是分類變量,應(yīng)變?yōu)槎肿兞糠诸惥幋a的變化方式兩種自變量數(shù)據(jù)最好為多元正態(tài)分布,當(dāng)觀測(cè)量分組完全依據(jù)分組變量時(shí),方法十分有效。【1】指示變量編碼方式指示變量編碼方式當(dāng)分類變量有三個(gè)水平,就要?jiǎng)?chuàng)建兩個(gè)新的指示變量。缺點(diǎn):只能夠比較每一類與參考類之間效應(yīng)的差異【2】背離編碼方案參照類被賦予了-1的編碼值每一個(gè)創(chuàng)建的新變量,其系數(shù)代表了與綜合效果之間的差異,最后一類的值應(yīng)該是前兩種系數(shù)之和的相反數(shù)?;貧w系數(shù)一個(gè)事件發(fā)生的比率,定義為它發(fā)生的可能性與不發(fā)生的可能性之比。(也稱幾率)不要和概率混淆邏輯斯蒂方程的回歸系數(shù)可以解釋為一個(gè)單位自變量的變化所引起的幾率的對(duì)數(shù)的改變值。當(dāng)某個(gè)自變量發(fā)生一個(gè)單位的變化時(shí)候,幾率的變化值為指數(shù)倍,系數(shù)為正值,意味事件發(fā)生的幾率會(huì)增加。評(píng)價(jià)模型建立模型后,需要判斷模型擬合的優(yōu)劣,對(duì)大樣本數(shù)據(jù),最好分成兩部分,一部分用于建模,一部分用于檢驗(yàn)。案例1某醫(yī)院的腦外科醫(yī)生收集了2003—2005年間在該科室進(jìn)行過(guò)急救治療的腦外傷病例共201希望能夠分析導(dǎo)致急救后遲發(fā)性顱腦損傷的主要因素。Step1:逐個(gè)分析變量特征對(duì)于該變量進(jìn)行取對(duì)數(shù)轉(zhuǎn)換Step2二元邏輯回歸:enter注意虛變量的定義方式注意擬合優(yōu)度指標(biāo):偽擬合優(yōu)度,0.5到0.8就已經(jīng)相當(dāng)不錯(cuò)了Step3:逐步回歸法案例2研究胃癌病人術(shù)后的感染問(wèn)題。因變量是術(shù)后是否感染自變量是年齡、手術(shù)創(chuàng)傷程度、營(yíng)養(yǎng)狀態(tài)、術(shù)前抗菌、白細(xì)胞數(shù)、腫瘤病理分級(jí)等用二元邏輯回歸進(jìn)行建模和分析案例3乳腺癌癥患者的數(shù)據(jù),變量包括年齡,患病時(shí)間,腫瘤擴(kuò)散等級(jí),腫瘤大小,腫瘤史和癌變部位淋巴是否含有癌細(xì)胞建立一個(gè)模型,預(yù)測(cè)癌變部位的淋巴結(jié)是否含有癌細(xì)胞(ln_yesno)。二項(xiàng)邏輯斯諦過(guò)程對(duì)話框

返回定義分類變量對(duì)話框

返回設(shè)置分類協(xié)變量中各類水平的對(duì)比方式,參考分類在對(duì)比矩陣中以一橫排0出現(xiàn)。保存新變量對(duì)話框

返回每個(gè)觀測(cè)量發(fā)生特定事件的預(yù)測(cè)概率;還有每個(gè)觀測(cè)量的預(yù)測(cè)分組選擇對(duì)話框

返回因變量的預(yù)測(cè)值和觀測(cè)值分類直方圖;擬合優(yōu)度統(tǒng)計(jì)量;設(shè)置系統(tǒng)劃分觀測(cè)量類別的辨別值觀測(cè)量簡(jiǎn)表

返回分類變量代碼表

返回因變量分類表

返回起始模型統(tǒng)計(jì)量表

返回起始模型外的變量

返回起始模型卡方檢驗(yàn)表

返回最終模型的擬合優(yōu)度檢驗(yàn)

返回依據(jù)預(yù)測(cè)概率的觀測(cè)量分組表

返回估計(jì)概率的直方圖,兩組中的觀測(cè)量越是分布在兩端,說(shuō)明分組效果好;可以適當(dāng)修改辨別概率值,比如從0.5到0.3案例4銀行貸款的用戶信用記錄數(shù)據(jù)Bankloan.sav利用二項(xiàng)邏輯回歸來(lái)研究用戶信用風(fēng)險(xiǎn)。目標(biāo)目標(biāo)一練習(xí)在數(shù)據(jù)庫(kù)中隨機(jī)抽樣分析目標(biāo)二利用隨機(jī)抽樣樣本進(jìn)行二項(xiàng)邏輯回歸案例某研究人員在探討腎細(xì)胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標(biāo)本資料,現(xiàn)從中抽取26例資料作為示例進(jìn)行l(wèi)ogistic回歸分析變量介紹i:標(biāo)本序號(hào);x1:確診時(shí)患者年齡(歲);x2:腎細(xì)胞癌血管內(nèi)皮生長(zhǎng)因子(VEGF),其陽(yáng)性表述由低到高共3個(gè)等級(jí)

x3:腎細(xì)胞癌組織內(nèi)微血管數(shù)(MVC)

x4:腎癌細(xì)胞核組織學(xué)分級(jí),由低到高4級(jí)

x5:腎細(xì)胞癌分期,由低到高共4期

Y:腎細(xì)胞癌轉(zhuǎn)移情況(有轉(zhuǎn)移y=1;無(wú)y=0)摘要Block0擬合的是只有常數(shù)的無(wú)效模型,上表為分類預(yù)測(cè)表,可見(jiàn)在17例觀察值為0的記錄中,共有17例被預(yù)測(cè)為0,9例1也都被預(yù)測(cè)為0,總預(yù)測(cè)準(zhǔn)確率為65.4%,這是不納入任何解釋變量時(shí)的預(yù)測(cè)準(zhǔn)確率,相當(dāng)于比較基線。此處為模型概況匯總,可見(jiàn)從STEP1到STEP2,DEVINCE從18降到11,兩種決定系數(shù)也都有上升。此處為每一步的預(yù)測(cè)情況匯總,可見(jiàn)準(zhǔn)確率由Block0的65%上升到了84%,最后達(dá)到96%,效果不錯(cuò),最終只出現(xiàn)了一例錯(cuò)判。上表為方程中變量檢驗(yàn)情況列表,分別給出了Step1和Step2的擬合情況。注意X4的P值略大于0.05,但仍然是可以接受的,因?yàn)檫@里用到的是排除標(biāo)準(zhǔn)(默認(rèn)為0.1),該變量可以留在方程中。以Step2中的X2為例,可見(jiàn)其系數(shù)為2.413,OR值為11。模型的進(jìn)一步優(yōu)化和診斷前面我們將X1~X5直接引入了方程,但X2、X4、X5為多分類變量,我們并無(wú)證據(jù)認(rèn)為它們之間各等級(jí)的OR值是成倍上升的,應(yīng)當(dāng)采用啞變量來(lái)分析,用Categorical鈕但這里總例數(shù)只有26例,如果引入啞變量模型會(huì)使得每個(gè)等級(jí)的記錄數(shù)非常少,從而分析結(jié)果將極為奇怪,無(wú)法正常解釋但為了說(shuō)明啞變量用法,下面演示之左側(cè)為原變量名及取值,右側(cè)為相應(yīng)的啞變量名及編碼情況:即取值最高的情況被作為了基線水平,這是多分類變量生成啞變量的默認(rèn)情況。我們希望將最低水平作為基線上頁(yè)表出現(xiàn)了非常有趣的現(xiàn)象:所有的檢驗(yàn)P值均遠(yuǎn)遠(yuǎn)大于0.05,但是所有的變量均沒(méi)有被移出方程,這是怎么回事?再看看這頁(yè)表。為方程的似然值改變情況的檢驗(yàn),可見(jiàn)在最

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論