多元統(tǒng)計(jì)分析邏輯回歸_第1頁
多元統(tǒng)計(jì)分析邏輯回歸_第2頁
多元統(tǒng)計(jì)分析邏輯回歸_第3頁
多元統(tǒng)計(jì)分析邏輯回歸_第4頁
多元統(tǒng)計(jì)分析邏輯回歸_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多元統(tǒng)計(jì)分析邏輯回歸由于這類問題得因變量就是類別變量,無法應(yīng)用回歸方程來解決邏輯回歸就是通過回歸方程,確定概率得期望值一種通過分析影響因素,來得到某種結(jié)果得概率分為二項(xiàng)邏輯回歸和多項(xiàng)邏輯回歸問題因變量自變量選擇銷售方式兩組:銷售代表、旅行推銷員客戶數(shù)、產(chǎn)品可替代性、拜訪次數(shù)等19個(gè)變量職場(chǎng)新人從事與專業(yè)相關(guān)得工作兩組:畢業(yè)半年后從事與專業(yè)相關(guān)工作、不相關(guān)工作性別、學(xué)制、住房情況、專業(yè)、職業(yè)培訓(xùn)等15個(gè)變量公民得選舉行為三組:聯(lián)盟黨、社民黨、民主黨政治態(tài)度、民主滿意度、工會(huì)會(huì)員、宗教團(tuán)體等影響嬰兒出生體重得因素兩組:體重正常得嬰兒、體重偏輕得嬰兒年齡、種族、孕期檢查次數(shù)相同點(diǎn)不同點(diǎn)邏輯回歸都屬于結(jié)構(gòu)檢驗(yàn)法。以所觀察得影響量作為自變量,通過回歸方程計(jì)算權(quán)重,觀察該權(quán)重決定個(gè)體實(shí)際屬于某組得概率0/1事件也可看做就就是兩組判別。多元事件同理邏輯回歸得前提條件較少,故回歸結(jié)果更可靠;邏輯回歸得目得根據(jù)經(jīng)驗(yàn)觀察結(jié)果推導(dǎo)事件發(fā)生概率;判別分析就就是為了獲得分類結(jié)果判別分析建立邏輯回歸方程例子:超市得銷售主管想知道,顧客收入水平就是否對(duì)購(gòu)買新得高級(jí)黃油產(chǎn)品有影響。為此,她選擇了12位顧客,調(diào)查她們得月凈收入(x)及就是否購(gòu)買了該類黃油產(chǎn)品購(gòu)買記為{y=1},未購(gòu)買記為{y=0}調(diào)查結(jié)果如下:值表事件收入140001420016000152001550015100148000270001800032000250002600購(gòu)買黃油=-0、749+0、000336×收入邏輯回歸不就是要估計(jì)二元變量得觀察值,而就是要明確這些觀察值得出現(xiàn)概率通常把狀態(tài){y=1}看作“事件y發(fā)生”,而狀態(tài){y=0}為“事件不發(fā)生”假設(shè)存在一個(gè)非經(jīng)驗(yàn)觀察到得隱變量z,她能對(duì)應(yīng)自變量得狀態(tài)xj給出因變量y得二元水平y(tǒng)通過隱變量與xj建立聯(lián)系:邏輯函數(shù):(1)(2)(1)、(2)構(gòu)成邏輯回歸方程。z值稱為L(zhǎng)ogit9大家應(yīng)該也有點(diǎn)累了,稍作休息大家有疑問的,可以詢問和交流分析過程邏輯回歸分析可分為五個(gè)步驟:(1)建模(2)估計(jì)邏輯回歸函數(shù)(3)解釋回歸系數(shù)(4)檢驗(yàn)?zāi)P驼w(5)檢驗(yàn)特征變量(1)建模邏輯回歸分析得前提也就是使用者首先根據(jù)實(shí)施邏輯思考確定,哪些事件應(yīng)作為可能得因變量類型,哪些影響量決定事件類型得概率,從而提出關(guān)于自變量和因變量可能關(guān)系得假設(shè)自變量和事件{y=1}得出現(xiàn)概率間得連帶關(guān)系假設(shè)二元邏輯回歸:因變量就是二元得,即只有0和1兩個(gè)水平;因變量多于兩類得,多元邏輯回歸分析自變量也稱為共變量,可以就是基數(shù)測(cè)度和非基數(shù)測(cè)度,也可“混合”xj自變量線性組合z指數(shù)連接eZ邏輯連接P(y=1)聯(lián)合影響量Logit可能性比P(y=1)/P(y=0)出現(xiàn)概率人造黃油購(gòu)買者{y=1}人造黃油未購(gòu)買者{y=0}受訪者k可涂抹性X1k保質(zhì)期X2k受訪者k可涂抹性x1k保質(zhì)期x2k123456789101112236434325334345427546635131415161718192021222324547345456566435342257346數(shù)據(jù)(2)估計(jì)邏輯回歸函數(shù)通常用極大似然估計(jì)法估計(jì)模型得參數(shù),目得就是使觀察到得調(diào)查數(shù)據(jù)得概率最大,來確定反映自變量權(quán)重得邏輯回歸模型參數(shù)bj若對(duì)每個(gè)觀察個(gè)體k考慮如下關(guān)系式:Newton-Raphson算法合成一個(gè)方程:似然函數(shù):求解:判別準(zhǔn)則:Pk>0、5,把個(gè)體分入{y=1};否則分入{y=0}確定zk值(Logit)得回歸方程:zk=3、528-1、943×可涂抹性k+1、119×保質(zhì)期k將原始數(shù)據(jù)代入回歸方程Y=1Y=0(3)解釋回歸系數(shù)自變量xj與概率Pk(y=1)間不存在線性關(guān)系,導(dǎo)致回歸系數(shù)間不能相互比較,無法直接解釋回歸系數(shù)常數(shù)項(xiàng)只影響邏輯函數(shù)得水平位置。為正時(shí),邏輯函數(shù)左移;為負(fù)時(shí),邏輯函數(shù)右移回歸系數(shù)影響邏輯函數(shù)得走向。回歸系數(shù)較大時(shí),概率值很快接近邏輯函數(shù)得邊緣負(fù)得回歸系數(shù)使事件{y=1}得概率隨x值增大而減小,而正回歸系數(shù)則使事件{y=1}得概率隨x值增大而增大邏輯回歸得發(fā)生比:邏輯回歸得Logit:z=Logit=ln(發(fā)生比)“可涂抹性”得回歸系數(shù)為負(fù),該變量降低了人造黃油得購(gòu)買概率;“保質(zhì)期”得回歸系數(shù)為正,她對(duì)購(gòu)買概率產(chǎn)生正向影響;若自變量增加1單位,則有利于事件{y=1}得可能性比(發(fā)生比)擴(kuò)大ebj倍發(fā)生比說明了變量對(duì)出現(xiàn)概率得影響程度,發(fā)生比也稱為效應(yīng)系數(shù)正、負(fù)回歸系數(shù)對(duì)事件{y=1}得出現(xiàn)概率得影響:b效應(yīng)系數(shù)exp(b)Logit(z)發(fā)生比[P(y=1)/P(y=0)]P(y=1)b>0eb>1增加b增大eb倍增加b<0eb<1增加b增大eb倍降低(4)檢驗(yàn)?zāi)P驼w需要回答兩個(gè)問題:參數(shù)估計(jì)在整體中能多有效地描述定義得回歸模型?就是否存在極端觀察個(gè)體,應(yīng)把她看作離群者剔除掉,還就是由于其經(jīng)常出現(xiàn)而改變模型?回歸方程得評(píng)價(jià)指標(biāo):基于對(duì)數(shù)似然函數(shù)得評(píng)價(jià);偽R2統(tǒng)計(jì)量;分類結(jié)果得評(píng)價(jià);似然比值檢驗(yàn)(LikelihoodRatioTest)該方法將考慮所有解釋變量最大得LL值與所有自變量得回歸系數(shù)都為0且僅考慮常數(shù)項(xiàng)時(shí)所得出得LL值比較若兩偏差得絕對(duì)差較小,則自變量對(duì)區(qū)分y水平得貢獻(xiàn)小;若偏差絕對(duì)差較大,則認(rèn)為自變量得解釋能力強(qiáng);考慮所有解釋變量時(shí)LL最大值給定數(shù)據(jù)組得零模型得LL最大值LLvLL0似然比值檢驗(yàn)(LR檢驗(yàn))得假設(shè):H0:所有回歸系數(shù)都等于0H1:所有回歸系數(shù)都不等于0零模型和完整模型得偏差作為檢驗(yàn)統(tǒng)計(jì)量,她近似服從自由度為J(自變量個(gè)數(shù))得卡方分布在本例中,LL0=30、498,LLv=15、818,卡方值為14、68;卡方表中值5、99(自由度2,α=0、05),故模型就是顯著得偽R2統(tǒng)計(jì)量偽R2統(tǒng)計(jì)量試圖量化回歸模型中已解釋“變化”比例;通常McF-R2值達(dá)到0、2或0、4以上就已認(rèn)為模型擬合度良好;LR檢驗(yàn)回答了模型顯著性以及結(jié)果能夠運(yùn)用到總體得問題,McF-R使自變量得判別能力總和可用數(shù)值表示,并可在不同模型間相互比較Cox&Snell-R2:L0:零模型得似然LV:完整模型得似然K:樣本容量Nagelkerke-R2:該值大于0、5時(shí)認(rèn)為模型解釋能力非常好分類結(jié)果評(píng)價(jià)將由自變量水平0和1表示得實(shí)際觀察組屬性與由回歸方程算出得概率相比較通常使用概率0、5作為分類得判別值把出現(xiàn)概率Pk(y=1)>0、5得個(gè)體分入人造黃油得購(gòu)買者(M),其她分入未購(gòu)買者(N)分類矩陣(Confusion-Matrix)觀察值預(yù)測(cè)值購(gòu)買與否百分比校正購(gòu)買不購(gòu)買購(gòu)買不購(gòu)買總百分比10221083、383、383、3判對(duì)比例(hitratio)=判對(duì)數(shù)目/總數(shù)=20/24=0、833如果樣本容量允許,把隨機(jī)樣本分成兩個(gè)子樣本:一個(gè)分析樣本和一個(gè)檢驗(yàn)樣本(Holdout-sample)。分析樣本用于估計(jì)邏輯回歸函數(shù),然后根據(jù)此函數(shù)將檢驗(yàn)樣本中得元素分類,并計(jì)算判對(duì)比率;PressQ檢驗(yàn)該檢驗(yàn)統(tǒng)計(jì)量服從自由度為1得卡方分布取α=0、05,查得臨界值為3、84,故該分類結(jié)果與隨機(jī)分類結(jié)果有顯著差別重要模型擬合度評(píng)價(jià)指標(biāo)總結(jié)離群者診斷除了說明邏輯回歸方程得整體擬合度外,單個(gè)觀察個(gè)體對(duì)模型整體有效性有何作用也很重要邏輯估計(jì)得模型關(guān)系與調(diào)查數(shù)據(jù)擬合度不佳得基本原因有兩個(gè):

模型不合適;

存在許多個(gè)體(觀察值),不具有模型所描述得關(guān)系,并由于其特殊得變量水平明顯偏離結(jié)果;對(duì)于第二種情況,通過確定每個(gè)個(gè)體得單獨(dú)殘差可說明在觀察中就是否存在“離群者”,對(duì)個(gè)體k殘差如下:通常認(rèn)為殘差絕對(duì)值大于0、5(兩組情況下)為離群者,并導(dǎo)致分類錯(cuò)誤為了更好地辨認(rèn)出此類離群者,采用一種加權(quán)方法,標(biāo)準(zhǔn)化殘差:對(duì)第三位受訪者,她購(gòu)買了人造黃油{y=1},根據(jù)她得評(píng)價(jià)(可涂抹性=6,保質(zhì)期=5),用估計(jì)出來得邏輯方程計(jì)算出購(gòu)買概率為0、073,其標(biāo)準(zhǔn)化殘差值為3、589,明顯將該受訪者分類錯(cuò)誤必須深入分析離群者得情況,以解釋極端位置得原因,通??紤]如下原因:(1)受訪者回答問題得方式反常,把該觀察值去除;(2)大得殘差值表明模型得解釋能力差,模型中未考慮重要影響量,需擴(kuò)展或修正模型(5)檢驗(yàn)特征變量

似然比檢驗(yàn)LR檢驗(yàn)也可用于與簡(jiǎn)約模型得比較。分別令一個(gè)回歸系數(shù)為0,構(gòu)建不同得簡(jiǎn)約模型,再寫出完整模型(LLV)和一個(gè)簡(jiǎn)約模型(LLR)得-2倍對(duì)數(shù)似然之差相應(yīng)得零假設(shè)為:H0:回歸系數(shù)bj得效應(yīng)為0;H1:回歸系數(shù)bj得效應(yīng)不為0完整模型(LLV)和一個(gè)簡(jiǎn)約模型(LLR)得-2倍對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論