![第9章-含定性變量的回歸模型課件_第1頁(yè)](http://file4.renrendoc.com/view/3ac0e822118ebee20cb882f5692cc364/3ac0e822118ebee20cb882f5692cc3641.gif)
![第9章-含定性變量的回歸模型課件_第2頁(yè)](http://file4.renrendoc.com/view/3ac0e822118ebee20cb882f5692cc364/3ac0e822118ebee20cb882f5692cc3642.gif)
![第9章-含定性變量的回歸模型課件_第3頁(yè)](http://file4.renrendoc.com/view/3ac0e822118ebee20cb882f5692cc364/3ac0e822118ebee20cb882f5692cc3643.gif)
![第9章-含定性變量的回歸模型課件_第4頁(yè)](http://file4.renrendoc.com/view/3ac0e822118ebee20cb882f5692cc364/3ac0e822118ebee20cb882f5692cc3644.gif)
![第9章-含定性變量的回歸模型課件_第5頁(yè)](http://file4.renrendoc.com/view/3ac0e822118ebee20cb882f5692cc364/3ac0e822118ebee20cb882f5692cc3645.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第九章含定性變量的回歸模型
9.1自變量中含有定性變量的回歸模型9.2自變量定性變量回歸模型的應(yīng)用9.3因變量是定性變量的回歸模型9.4Logistic(邏輯斯蒂)回歸9.5多類別Logistic回歸9.6因變量是順序變量的回歸9.7本章小結(jié)與評(píng)注第九章含定性變量的回歸模型9.1自變量中含有定在實(shí)際問(wèn)題研究中,常常遇見(jiàn)一些非數(shù)量型變量,如:性別,民族,正常年份,干旱年份,戰(zhàn)爭(zhēng)與和平,改革前,改革后等,在建立一個(gè)經(jīng)濟(jì)問(wèn)題的回歸方程時(shí),常??紤]這些定性變量,如建立糧食產(chǎn)量預(yù)測(cè)方程就應(yīng)考慮到正常年份與受災(zāi)年份的不同影響。本章主要介紹自變量含定性變量的回歸模型和因變量是定性變量的回歸模型。在實(shí)際問(wèn)題研究中,常常遇見(jiàn)一些非數(shù)量型變量,§9.1自變量中含有定性變量的回歸模型一、簡(jiǎn)單情況
首先討論定性變量只取兩類可能值的情況,例如研究糧食產(chǎn)量問(wèn)題,y為糧食產(chǎn)量,x為施肥量,另外再考慮氣候問(wèn)題,分為正常年份和干旱年份兩種情況,對(duì)這個(gè)問(wèn)題的數(shù)量化方法是引入一個(gè)0-1型變量D,令:Di=1 表示正常年份Di=0 表示干旱年份
在回歸分析中,對(duì)一些自變量是定性變量的情形先給予數(shù)量比處理,處理方法是引進(jìn)0和1兩個(gè)值的虛擬自變量將定性變量數(shù)量化。當(dāng)某一屬性出現(xiàn)時(shí),虛擬變量值為1,否則取值為0。虛擬變量也稱啞變量?!?.1自變量中含有定性變量的回歸模型一、簡(jiǎn)單情況糧食產(chǎn)量的回歸模型為:
yi=β0+β1xi+β2Di+εi
其中干旱年份的糧食平均產(chǎn)量為:E(yi|Di=0)=β0+β1xi正常年份的糧食平均產(chǎn)量為:
E(yi|Di=1)=(β0+β2)+β1xi糧食產(chǎn)量的回歸模型為:
例9.1
某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對(duì)家庭儲(chǔ)蓄的影響,在一個(gè)中等收入的樣本框中,隨機(jī)調(diào)查了13戶高學(xué)歷家庭與14戶中低學(xué)歷的家庭,因變量y為上一年家庭儲(chǔ)蓄增加額,自變量x1為上一年家庭總收入,自變量x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0,調(diào)查數(shù)據(jù)見(jiàn)表9.1:例9.1某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對(duì)家庭儲(chǔ)蓄的影響序號(hào)y(元)x1(萬(wàn)元)x212352.3023463.2133652.8044683.5156582.6068673.21710852.602389503.902498654.802598664.6026102354.8027101404.20表9.1序號(hào)y(元)x1(萬(wàn)元)x212352.3023463.21建立y對(duì)x1、x2的線性回歸建立y對(duì)x1、x2的線性回歸
兩個(gè)自變量x1與x2的系數(shù)都是顯著的,判定系數(shù)R2=0.879,回歸方程為:=-7976+3826x1-3700x2兩個(gè)自變量x1與x2的系數(shù)都是顯著的,判定系數(shù)R2=
這個(gè)結(jié)果表明,中等收入的家庭每增加1萬(wàn)元收入,平均拿出3826元作為儲(chǔ)蓄。高學(xué)歷家庭每年的平均儲(chǔ)蓄額少于低學(xué)歷的家庭,平均少3700元。如果不引入家庭學(xué)歷定性變量x2,僅用y對(duì)家庭年收入x1做一元線性回歸,得判定系數(shù)R2=0.618,擬合效果不好。這個(gè)結(jié)果表明,中等收入的家庭每增加1萬(wàn)元收入,平均拿
家庭年收入x1是連續(xù)型變量,它對(duì)回歸的貢獻(xiàn)也是不可缺少的。如果不考慮家庭年收入這個(gè)自變量,13戶高學(xué)歷家庭的平均年儲(chǔ)蓄增加額為3009.31元,14戶低學(xué)歷家庭的平均年儲(chǔ)蓄增加額為5059.36元,這樣會(huì)認(rèn)為高學(xué)歷家庭每年的儲(chǔ)蓄額比低學(xué)歷的家庭平均少5059.36-3009.31=2050.05元,而用回歸法算出的數(shù)值是3824元,兩者并不相等。家庭年收入x1是連續(xù)型變量,它對(duì)回歸的貢獻(xiàn)也是不可缺
用回歸法算出的高學(xué)歷家庭每年的平均儲(chǔ)蓄額比低學(xué)歷的家庭平均少3824元,這是在假設(shè)兩者的家庭年收入相等的基礎(chǔ)上的儲(chǔ)蓄差值,或者說(shuō)是消除了家庭年收入的影響后的差值,因而反映了兩者儲(chǔ)蓄額的真實(shí)差異。而直接由樣本計(jì)算的差值2050.05元是包含有家庭年收入影響在內(nèi)的差值,是虛假的差值。所調(diào)查的13戶高學(xué)歷家庭的平均年收入額為3.8385萬(wàn)元,14戶低學(xué)歷家庭的平均年收入額為3.4071萬(wàn)元,兩者并不相等。用回歸法算出的高學(xué)歷家庭每年的平均儲(chǔ)蓄額比低學(xué)歷的家二、復(fù)雜情況某些場(chǎng)合定性自變量可能取多類值,例如某商廈策劃營(yíng)銷方案,需要考慮銷售額的季節(jié)性影響,季節(jié)因素分為春、夏、秋、冬4種情況。為了用定性自變量反應(yīng)春、夏、秋、冬四季,我們初步設(shè)想引入如下4個(gè)0-1自變量:二、復(fù)雜情況某些場(chǎng)合定性自變量可能取多類值,例如某商廈策劃營(yíng)
可是這樣做卻產(chǎn)生了一個(gè)新的問(wèn)題,即x1+x2+x3+x4=1,構(gòu)成完全多重共線性。解決這個(gè)問(wèn)題的方法很簡(jiǎn)單,我們只需去掉一個(gè)0-1型變量,只保留3個(gè)0-1型自變量即可。例如去掉x4,只保留x1、x2、x3。 對(duì)一般情況,一個(gè)定性變量有k類可能的取值時(shí),需要引入k-1個(gè)0-1型自變量。當(dāng)k=2時(shí),只需要引入一個(gè)0-1型自變量即可??墒沁@樣做卻產(chǎn)生了一個(gè)新的問(wèn)題,即x1+x2+x3+§9.2自變量定性變量回歸模型的應(yīng)用一、分段回歸
在實(shí)際問(wèn)題中,我們會(huì)碰到某些變量在不同的影響因素范圍內(nèi)變化趨勢(shì)截然不同。對(duì)這種問(wèn)題,有時(shí)用多種曲線擬合效果仍不能令人滿意。如果做殘差分析,會(huì)發(fā)現(xiàn)殘差不是隨機(jī)的,而具有一定的系統(tǒng)性,對(duì)這類問(wèn)題,自然考慮用分段回歸的方法做處理。§9.2自變量定性變量回歸模型的應(yīng)用一、分段回歸
例9.2
表9.3給出某工廠生產(chǎn)批量xi與單位成本yi(美元)的數(shù)據(jù)。試用分段回歸建立回歸模型。序號(hào)yX(=x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.774800
例9.2表9.3給出某工廠生產(chǎn)批量xi與單圖9.1單位成本對(duì)批量散點(diǎn)圖圖9.1單位成本對(duì)批量散點(diǎn)圖
由圖9.1可看出數(shù)據(jù)在生產(chǎn)批量xp=500時(shí)發(fā)生較大變化,即批量大于500時(shí)成本明顯下降。我們考慮由兩段構(gòu)成的分段線性回歸,這可以通過(guò)引入一個(gè)0-1型虛擬自變量實(shí)現(xiàn)。假定回歸直線的斜率在xp=500處改變,建立回歸模型
yi=β0+β1xi+β2(xi-500)Di+εi 來(lái)擬合,其中由圖9.1可看出數(shù)據(jù)在生產(chǎn)批量xp=500時(shí)發(fā)生較大引入兩個(gè)新的自變量xi1=xi
xi2=(xi-500)Di這樣回歸模型轉(zhuǎn)化為標(biāo)準(zhǔn)形式的二元線性回歸模型:yi=β0+β1xi1+β2xi2+εi(9.3)(9.3)式可以分解為兩個(gè)線性回歸方程:當(dāng)x1≤500時(shí),E(y)=β0+β1x1
當(dāng)x1>500時(shí),E(y)=(β0-500β2)+(β1+β2)x1
引入兩個(gè)新的自變量xi1=xixi2=(xi-50第9章-含定性變量的回歸模型課件
用普通最小二乘法擬合模型(9.3)式得回歸方程為:
=5.895-0.00395x1-0.00389x2
利用此模型可說(shuō)明生產(chǎn)批量小于500時(shí),每增加1個(gè)單位批量,單位成本降低0.00395美元;當(dāng)生產(chǎn)批量大于500時(shí),每增加1個(gè)單位批量,估計(jì)單位成本降低0.00395+0.00389=0.00784(美元)。用普通最小二乘法擬合模型(9.3)式得回歸方程為:
以上只是根據(jù)散點(diǎn)圖從直觀上判斷本例數(shù)據(jù)應(yīng)該用折線回歸擬合,這一點(diǎn)還需要做統(tǒng)計(jì)的顯著性檢驗(yàn),這只需對(duì)(9.2)式的回歸系數(shù)β2做顯著性檢驗(yàn)。以上只是根據(jù)散點(diǎn)圖從直觀上判斷本例數(shù)據(jù)應(yīng)該用
對(duì)β2的顯著性檢驗(yàn)的顯著性概率Sig=0.153,β2沒(méi)有通過(guò)顯著性檢驗(yàn),不能認(rèn)為β2非零。用y對(duì)x做一元線性回歸,計(jì)算結(jié)果為:對(duì)β2的顯著性檢驗(yàn)的顯著性概率Sig=0.二、回歸系數(shù)相等的檢驗(yàn)
例9.3
回到例9.1的問(wèn)題,例9.1引入0-1型自變量的方法是假定儲(chǔ)蓄增加額y對(duì)家庭收入的回歸斜率β1與家庭年收入無(wú)關(guān),家庭年收入只影響回歸常數(shù)項(xiàng)β0,這個(gè)假設(shè)是否合理,還需要做統(tǒng)計(jì)檢驗(yàn)。檢驗(yàn)方法是引入如下含有交互效應(yīng)的回歸模型:yi=β0+β1xi1+β2xi2+β3xi1xi2+εi(9.8)其中y為上一年家庭儲(chǔ)蓄增加額,x1為上一年家庭總收入,x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0。二、回歸系數(shù)相等的檢驗(yàn)例9.3回到例9.1的問(wèn)題,例9
回歸模型(9.8)式可以分解為對(duì)高學(xué)歷和對(duì)低學(xué)歷家庭的兩個(gè)線性回歸模型,分別為:高學(xué)歷家庭x2=1,yi=β0+β1xi1+β2+β3xi1+εi=(β0+β2)+(β1+β3)xi1+εi 低學(xué)歷家庭x2=0,
yi=β0+β1xi1+εi
回歸模型(9.8)式可以分解為對(duì)高學(xué)歷和對(duì)低學(xué)
要檢驗(yàn)兩個(gè)回歸方程的回歸系數(shù)(斜率)相等,等價(jià)于檢驗(yàn)H0:β3=0,當(dāng)拒絕H0時(shí),認(rèn)為β3≠0,這時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄回歸模型實(shí)際上被拆分為兩個(gè)不同的回歸模型。當(dāng)接受H0時(shí),認(rèn)為β3=0,這時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄回歸模型是如下形式的聯(lián)合回歸模型:yi=β0+β1xi1+β2xi2+εi
要檢驗(yàn)兩個(gè)回歸方程的回歸系數(shù)(斜率)相等,等價(jià)于檢驗(yàn)第9章-含定性變量的回歸模型課件§9.3因變量是定性變量的回歸模型
在許多社會(huì)經(jīng)濟(jì)問(wèn)題中,所研究的因變量往往只有兩個(gè)可能結(jié)果,這樣的因變量也可用虛擬變量來(lái)表示,虛擬變量的取值可取0或1。一、定性因變量的回歸方程的意義
設(shè)因變量y是只取0,1兩個(gè)值的定性變量,考慮簡(jiǎn)單線性回歸模型yi=β0+β1xi+εi (9.12)
在這種y只取0,1兩個(gè)值的情況下,因變量均值E(yi)=β0+β1xi有著特殊的意義。§9.3因變量是定性變量的回歸模型在許多社由于yi是0-1型貝努利隨機(jī)變量,則得如下概率分布:
P(yi=1)=πiP(yi=0)=1-πi根據(jù)離散型隨機(jī)變量期望值的定義,可得E(yi)=1(πi)+0(1-πi)=πi
(9.13)得到E(yi)=πi=β0+β1xi由于yi是0-1型貝努利隨機(jī)變量,則得如下概率分布:二、定性因變量回歸的特殊問(wèn)題
1.離散非正態(tài)誤差項(xiàng)。
對(duì)一個(gè)取值為0和1的因變量,誤差項(xiàng)εi=yi-(β0+β1xi)只能取兩個(gè)值:當(dāng)yi=1時(shí),εi=1-β0-β1xi=1-πi
當(dāng)yi=0時(shí),εi=-β0-β1xi=-πi
顯然,誤差項(xiàng)εi是兩點(diǎn)型離散分布,當(dāng)然正態(tài)誤差回歸模型的假定就不適用了。二、定性因變量回歸的特殊問(wèn)題1.離散非正態(tài)誤差項(xiàng)。2.零均值異方差性。
當(dāng)因變量是定性變量時(shí),誤差項(xiàng)εi仍然保持零均值,這時(shí)出現(xiàn)的另一個(gè)問(wèn)題是誤差項(xiàng)εi的方差不相等。0-1型隨機(jī)變量εi的方差為
D(εi)=D(yi)=πi(1-πi)=(β0+β1xi)(1-β0-β1xi)(9.14)
εi的方差依賴于xi,是異方差,不滿足線性回歸方程的基本假定。2.零均值異方差性。當(dāng)因變量是定性變量時(shí),誤差3.回歸方程的限制
當(dāng)因變量為0、1虛擬變量時(shí),回歸方程代表概率分布,所以因變量均值受到如下限制:θ≤E(yi)=πi≤1
對(duì)一般的回歸方程本身并不具有這種限制,線性回歸方程yi=β0+β1xi將會(huì)超出這個(gè)限制范圍。3.回歸方程的限制當(dāng)因變量為0、1虛擬變量時(shí),回歸方§9.4Logistic回歸模型
一、分組數(shù)據(jù)的Logistic回歸模型
針對(duì)0-1型因變量產(chǎn)生的問(wèn)題,我們對(duì)回歸模型應(yīng)該做兩個(gè)方面的改進(jìn)。
第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程?!?.4Logistic回歸模型一、分組數(shù)據(jù)的Log
限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為L(zhǎng)ogistic函數(shù)的中文名稱是邏輯斯諦函數(shù),或簡(jiǎn)稱邏輯函數(shù)。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所
第二,因變量yi本身只取0、1兩個(gè)離散值,不適于直接作為回歸模型中的因變量。由于回歸函數(shù)E(yi)=πi=β0+β1xi表示在自變量為xi的條件下yi的平均值,而yi是0-1型隨機(jī)變量,因而E(yi)=πi就是在自變量為xi的條件下yi等于1的比例。這提示我們可以用yi等于1的比例代替yi本身作為因變量。下面通過(guò)一個(gè)例子來(lái)說(shuō)明Logistic回歸模型的應(yīng)用。第二,因變量yi本身只取0、1兩個(gè)離散值,不適于直接
例9.4
在一次住房展銷會(huì)上,與房地產(chǎn)商簽定初步購(gòu)房意向書(shū)的共有n=325名顧客中,在隨后的3個(gè)月的時(shí)間內(nèi),只有一部分顧客確實(shí)購(gòu)買了房屋。購(gòu)買了房屋的顧客記為1,沒(méi)有購(gòu)買房屋的顧客記為0。以顧客的年家庭收入(萬(wàn)元)為自變量x,對(duì)如下的數(shù)據(jù),建立Logistic回歸模型例9.4在一次住房展銷會(huì)上,與房地產(chǎn)商簽第9章-含定性變量的回歸模型課件Logistic回歸方程為
其中c為分組數(shù)據(jù)的組數(shù),本例c=9。做線性化變換,令上式的變換稱為邏輯(Logit)變換,得pi′=β0+β1xi+εi
(9.16)(9.18)
(9.17)
Logistic回歸方程為其中c為分組數(shù)據(jù)的組數(shù),本例c=計(jì)算出經(jīng)驗(yàn)回歸方程為-0.886+0.156x (9.19)判定系數(shù)r2=0.9243,顯著性檢驗(yàn)P值≈0,高度顯著。還原為(9.16)式的Logistic回歸方程為利用(9.20)式可以對(duì)購(gòu)房比例做預(yù)測(cè),例如對(duì)x0=8,計(jì)算出經(jīng)驗(yàn)回歸方程為利用(9.20)式可以對(duì)購(gòu)房比例做預(yù)測(cè),
我們用Logistic回歸模型成功地?cái)M合了因變量為定性變量的回歸模型,但是仍然存在一個(gè)不足之處,就是異方差性并沒(méi)有解決,(9.18)式的回歸模型不是等方差的,應(yīng)該對(duì)(9.18)式用加權(quán)最小二乘估計(jì)。當(dāng)ni較大時(shí),pi′的近似方差為:其中πi=E(yi),因而選取權(quán)數(shù)為:wi=nipi(1-pi)我們用Logistic回歸模型成功地?cái)M合了因用加權(quán)最小二乘法得到的Logistic回歸方程為
對(duì)x0=8時(shí)的購(gòu)房比例做預(yù)測(cè)用加權(quán)最小二乘法得到的Logistic回歸方程為對(duì)x0=8二、未分組數(shù)據(jù)的Logistic回歸模型
設(shè)y是0-1型變量,x1,x2,…,xp是與y相關(guān)的確定性變量,
n組觀測(cè)數(shù)據(jù)為(xi1,xi2,…,xip;yi),i=1,2,…,n,
yi與xi1,xi2,…,xip的關(guān)系為:E(yi)=πi=f(β0+β1xi1+β2xi2+…+βpxip)
其中函數(shù)f(x)是值域在[0,1]區(qū)間內(nèi)的單調(diào)增函數(shù)。對(duì)于Logistic回歸二、未分組數(shù)據(jù)的Logistic回歸模型設(shè)y是0-1型
于是yi是均值為πi=f(β0+β1xi1+β2xi2+…+βpxip)的0-1型分布,概率函數(shù)為:P(yi=1)=πiP(yi=0)=1-πi
可以把yi的概率函數(shù)合寫(xiě)為:i=1,2,…,n于是y1,y2,…,yn的似然函數(shù)為:于是yi是均值為πi=f(β0+β1xi1+β2xi2代入得對(duì)數(shù)似然函數(shù)Logistic回歸極大似然估計(jì)就是選取β0,β1,β2,…,βp的估計(jì)值使上式達(dá)極大。代入得對(duì)數(shù)似然函數(shù)Logistic極大似然估計(jì)就是選取β0
例9.5
在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查項(xiàng)目是“是乘坐公共汽車上下班,還是騎自行車上下班?!币蜃兞縴=1表示主要乘坐公共汽車上下班,y=0表示主要騎自行車上下班。自變量x1是年齡,作為連續(xù)型變量;x2是月收入(元);x3是性別,x3=1表示男性,x3=0表示女性。調(diào)查對(duì)象為工薪族群體,數(shù)據(jù)見(jiàn)表9.9,試建立y與自變量間的Logistic回歸。例9.5在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查序號(hào)性別年齡
月收入y序號(hào)性別年齡
月收入y101885001512010000202112000161251200030238501171271300040239501181281500050281200119130950160318500201321000070361500121133180008042100012213310000904695012313812000100481200024141150001105518001251451800112056210012614810000130581800127152150011411885002815618001序號(hào)性別年齡月收入y序號(hào)性別年齡月收入y10188500以下是SPSS軟件部分運(yùn)行結(jié)果:以下是SPSS軟件部分運(yùn)行結(jié)果:X2(月收入)不顯著,將其剔除。最終的回歸方程為:X2(月收入)不顯著,將其剔除。最終的回歸方程為:三、Probit回歸模型Probit回歸稱為單位概率回歸,與Logistic回歸相似,也是擬合0-1型因變量回歸的方法,其回歸函數(shù)是【例9.6】仍然使用例9.4購(gòu)房數(shù)據(jù)三、Probit回歸模型Probit回歸稱為第9章-含定性變量的回歸模型課件得回歸方程:
或等價(jià)地表示為:對(duì)x0=8得回歸方程:或等價(jià)地表示為:對(duì)x0=8SPSS軟件提供了對(duì)分組數(shù)據(jù)擬合Probit回歸。
得
SPSS軟件提供了對(duì)分組數(shù)據(jù)擬合Probit回歸。得
在SPSS軟件的Probit回歸對(duì)話框,可以看到一個(gè)Logit選項(xiàng),用這個(gè)選項(xiàng)可以對(duì)分組數(shù)據(jù)做Logistic回歸。對(duì)此例計(jì)算出的Logistic回歸方程是這也是使用數(shù)值計(jì)算的最大似然估計(jì),與用最小二乘法所得到的Logistic回歸方程很接近。在SPSS軟件的Probit回歸對(duì)話框,可以看到一個(gè)Lo§9.5多類別Logistic回歸
當(dāng)定性因變量y取k個(gè)類別時(shí),記為1,2,…,k。因變量y取值于每個(gè)類別的概率與一組自變量x1,x2,…,xp有關(guān),對(duì)于樣本數(shù)據(jù)
(xi1,xi2,…,xip
;yi),i=1,2,…,n
,多類別Logistic回歸模型第i組樣本的因變量yi取第j個(gè)類別的概率為:(9.34)§9.5多類別Logistic回歸當(dāng)定性
上式中各回歸系數(shù)不是惟一確定的,每個(gè)回歸系數(shù)同時(shí)加減一個(gè)常數(shù)后的數(shù)值保持不變。為此,把分母的第一項(xiàng)中的系數(shù)都設(shè)為0,得到回歸函數(shù)的表達(dá)式(9.35)上式中各回歸系數(shù)不是惟一確定的,每個(gè)回歸系數(shù)【例9.7】本例數(shù)據(jù)選自SPSS軟件自帶的數(shù)據(jù)文件telco.sav.該文件在\SPSS\tutorial\sample_files文件夾內(nèi)。一個(gè)電信商要分析顧客選擇服務(wù)類別的影響因素,因變量是顧客類別(Customercategory),變量名為custcat,共取4個(gè)類別:
1=“Basicservice”;2=“E-service”;3=“Plusservice”;4=“Totalservice”數(shù)據(jù)的樣本量n=1000。可以用Edit菜單中的Options選項(xiàng)的General選項(xiàng)卡選擇顯示變量標(biāo)簽,可以在顯示變量完整的名稱。【例9.7】本例數(shù)據(jù)選自SPSS軟件自帶的數(shù)據(jù)文件telc進(jìn)入多類別Logistic回歸對(duì)話框。把因變量Customercategory[custcat]選入Dependent框條中,這里Customercategory是變量標(biāo)簽,custcat是變量名稱。把定性自變量Maritalstatus[marital],Levelofeducation[ed],Retired[retire]和Gender[gender]選入factors框條中。把數(shù)值型自變量AgeinYears[age],Yearsatcurrentaddress[address],Householdincomeinthousands[income],Yearswithcurrentemployer[employ],和Numberofpeopleinhousehold[reside]選入covariates框條中。在因變量框條的下面有一個(gè)Referencecategory按鈕,點(diǎn)擊進(jìn)入,選擇以Firstcategory為參照類別,這也就是選擇(9.35)式的回歸方程。進(jìn)入多類別Logistic回歸對(duì)話框。第9章-含定性變量的回歸模型課件第9章-含定性變量的回歸模型課件使用逐步回歸
使用逐步回歸第9章-含定性變量的回歸模型課件第9章-含定性變量的回歸模型課件輸出結(jié)果9.14 ParameterEstimates輸出結(jié)果9.14 Paramete第9章-含定性變量的回歸模型課件第9章-含定性變量的回歸模型課件對(duì)每個(gè)樣品計(jì)算出因變量y取第j個(gè)類別的概率,因變量的預(yù)測(cè)值就是最大的類別。對(duì)每個(gè)樣品計(jì)算出因變量y取第j個(gè)類別的概率,因變
可以用Save按鈕保存預(yù)測(cè)概率和預(yù)測(cè)值,表9.6是前20個(gè)樣品的預(yù)測(cè)數(shù)值。可以用Save按鈕保存預(yù)測(cè)概率和預(yù)測(cè)值,表9§9.6因變量是順序變量的回歸
當(dāng)定性因變量y取k個(gè)順序類別時(shí),記為1,2,…,k,這里的數(shù)字1,2,…,k僅表示順序的大小。因變量y取值于每個(gè)類別的概率仍與一組自變量x1,x2,…,xp有關(guān),對(duì)于樣本數(shù)據(jù)
(xi1,xi2,…,xip
;yi),i=1,2,…,n
,順序類別回歸模型有兩種主要類型,一種是位置結(jié)構(gòu)(Locationcomponent)模型,另一種是規(guī)模結(jié)構(gòu)(Scalecomponent)模型?!?.6因變量是順序變量的回歸當(dāng)定性位置結(jié)構(gòu)模型:(9.36)
位置結(jié)構(gòu)模型:(9.36)規(guī)模結(jié)構(gòu)模型:其中是x1,x2,…,xp的一個(gè)子集,作為規(guī)模結(jié)構(gòu)解釋變量,(9.37)規(guī)模結(jié)構(gòu)模型:其中是x1,x2,…,xp的一個(gè)子集,作為規(guī)模第9章-含定性變量的回歸模型課件
還是使用SPSS軟件自帶的一個(gè)數(shù)據(jù)文件german_credit.sav說(shuō)明此方法。
【例9.8】一個(gè)信貸員想評(píng)估信貸業(yè)務(wù)的風(fēng)險(xiǎn),選取客戶的帳戶狀態(tài)(accountstatus)作為因變量,有5個(gè)有序類別值,分別是
1——無(wú)債務(wù)歷史,
2——目前無(wú)債務(wù),
3——目前有正在償還的債務(wù),
4——曾拖欠債款,
5——危機(jī)的帳戶。解釋變量由多個(gè)財(cái)務(wù)和個(gè)人資料變量構(gòu)成。還是使用SPSS軟件自帶的一個(gè)數(shù)據(jù)文件german進(jìn)入有序數(shù)據(jù)回歸對(duì)話框。把因變量accountstatus[chist]選入Dependent框條中。把定性自變量#ofexistingcredits[numcred],Otherinstallmentdebts[othnstal]和Housing[housng]選入factors框條中。把數(shù)值型自變量AgeinYears[age]和Durationinmonths[duration]選入covariates框條中。點(diǎn)擊Options按鈕選擇ComplementaryLog-Log類型的聯(lián)系函數(shù),這是因?yàn)橥ㄟ^(guò)對(duì)因變量的頻數(shù)分析發(fā)現(xiàn)類別3和5出現(xiàn)的頻率很大,屬于高層類別出現(xiàn)幾率大的分布。進(jìn)入有序數(shù)據(jù)回歸對(duì)話框。第9章-含定性變量的回歸模型課件應(yīng)用回歸分析
Theend應(yīng)用回歸分析
Theend75
以上有不當(dāng)之處,請(qǐng)大家給與批評(píng)指正,謝謝大家!75第九章含定性變量的回歸模型
9.1自變量中含有定性變量的回歸模型9.2自變量定性變量回歸模型的應(yīng)用9.3因變量是定性變量的回歸模型9.4Logistic(邏輯斯蒂)回歸9.5多類別Logistic回歸9.6因變量是順序變量的回歸9.7本章小結(jié)與評(píng)注第九章含定性變量的回歸模型9.1自變量中含有定在實(shí)際問(wèn)題研究中,常常遇見(jiàn)一些非數(shù)量型變量,如:性別,民族,正常年份,干旱年份,戰(zhàn)爭(zhēng)與和平,改革前,改革后等,在建立一個(gè)經(jīng)濟(jì)問(wèn)題的回歸方程時(shí),常常考慮這些定性變量,如建立糧食產(chǎn)量預(yù)測(cè)方程就應(yīng)考慮到正常年份與受災(zāi)年份的不同影響。本章主要介紹自變量含定性變量的回歸模型和因變量是定性變量的回歸模型。在實(shí)際問(wèn)題研究中,常常遇見(jiàn)一些非數(shù)量型變量,§9.1自變量中含有定性變量的回歸模型一、簡(jiǎn)單情況
首先討論定性變量只取兩類可能值的情況,例如研究糧食產(chǎn)量問(wèn)題,y為糧食產(chǎn)量,x為施肥量,另外再考慮氣候問(wèn)題,分為正常年份和干旱年份兩種情況,對(duì)這個(gè)問(wèn)題的數(shù)量化方法是引入一個(gè)0-1型變量D,令:Di=1 表示正常年份Di=0 表示干旱年份
在回歸分析中,對(duì)一些自變量是定性變量的情形先給予數(shù)量比處理,處理方法是引進(jìn)0和1兩個(gè)值的虛擬自變量將定性變量數(shù)量化。當(dāng)某一屬性出現(xiàn)時(shí),虛擬變量值為1,否則取值為0。虛擬變量也稱啞變量。§9.1自變量中含有定性變量的回歸模型一、簡(jiǎn)單情況糧食產(chǎn)量的回歸模型為:
yi=β0+β1xi+β2Di+εi
其中干旱年份的糧食平均產(chǎn)量為:E(yi|Di=0)=β0+β1xi正常年份的糧食平均產(chǎn)量為:
E(yi|Di=1)=(β0+β2)+β1xi糧食產(chǎn)量的回歸模型為:
例9.1
某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對(duì)家庭儲(chǔ)蓄的影響,在一個(gè)中等收入的樣本框中,隨機(jī)調(diào)查了13戶高學(xué)歷家庭與14戶中低學(xué)歷的家庭,因變量y為上一年家庭儲(chǔ)蓄增加額,自變量x1為上一年家庭總收入,自變量x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0,調(diào)查數(shù)據(jù)見(jiàn)表9.1:例9.1某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對(duì)家庭儲(chǔ)蓄的影響序號(hào)y(元)x1(萬(wàn)元)x212352.3023463.2133652.8044683.5156582.6068673.21710852.602389503.902498654.802598664.6026102354.8027101404.20表9.1序號(hào)y(元)x1(萬(wàn)元)x212352.3023463.21建立y對(duì)x1、x2的線性回歸建立y對(duì)x1、x2的線性回歸
兩個(gè)自變量x1與x2的系數(shù)都是顯著的,判定系數(shù)R2=0.879,回歸方程為:=-7976+3826x1-3700x2兩個(gè)自變量x1與x2的系數(shù)都是顯著的,判定系數(shù)R2=
這個(gè)結(jié)果表明,中等收入的家庭每增加1萬(wàn)元收入,平均拿出3826元作為儲(chǔ)蓄。高學(xué)歷家庭每年的平均儲(chǔ)蓄額少于低學(xué)歷的家庭,平均少3700元。如果不引入家庭學(xué)歷定性變量x2,僅用y對(duì)家庭年收入x1做一元線性回歸,得判定系數(shù)R2=0.618,擬合效果不好。這個(gè)結(jié)果表明,中等收入的家庭每增加1萬(wàn)元收入,平均拿
家庭年收入x1是連續(xù)型變量,它對(duì)回歸的貢獻(xiàn)也是不可缺少的。如果不考慮家庭年收入這個(gè)自變量,13戶高學(xué)歷家庭的平均年儲(chǔ)蓄增加額為3009.31元,14戶低學(xué)歷家庭的平均年儲(chǔ)蓄增加額為5059.36元,這樣會(huì)認(rèn)為高學(xué)歷家庭每年的儲(chǔ)蓄額比低學(xué)歷的家庭平均少5059.36-3009.31=2050.05元,而用回歸法算出的數(shù)值是3824元,兩者并不相等。家庭年收入x1是連續(xù)型變量,它對(duì)回歸的貢獻(xiàn)也是不可缺
用回歸法算出的高學(xué)歷家庭每年的平均儲(chǔ)蓄額比低學(xué)歷的家庭平均少3824元,這是在假設(shè)兩者的家庭年收入相等的基礎(chǔ)上的儲(chǔ)蓄差值,或者說(shuō)是消除了家庭年收入的影響后的差值,因而反映了兩者儲(chǔ)蓄額的真實(shí)差異。而直接由樣本計(jì)算的差值2050.05元是包含有家庭年收入影響在內(nèi)的差值,是虛假的差值。所調(diào)查的13戶高學(xué)歷家庭的平均年收入額為3.8385萬(wàn)元,14戶低學(xué)歷家庭的平均年收入額為3.4071萬(wàn)元,兩者并不相等。用回歸法算出的高學(xué)歷家庭每年的平均儲(chǔ)蓄額比低學(xué)歷的家二、復(fù)雜情況某些場(chǎng)合定性自變量可能取多類值,例如某商廈策劃營(yíng)銷方案,需要考慮銷售額的季節(jié)性影響,季節(jié)因素分為春、夏、秋、冬4種情況。為了用定性自變量反應(yīng)春、夏、秋、冬四季,我們初步設(shè)想引入如下4個(gè)0-1自變量:二、復(fù)雜情況某些場(chǎng)合定性自變量可能取多類值,例如某商廈策劃營(yíng)
可是這樣做卻產(chǎn)生了一個(gè)新的問(wèn)題,即x1+x2+x3+x4=1,構(gòu)成完全多重共線性。解決這個(gè)問(wèn)題的方法很簡(jiǎn)單,我們只需去掉一個(gè)0-1型變量,只保留3個(gè)0-1型自變量即可。例如去掉x4,只保留x1、x2、x3。 對(duì)一般情況,一個(gè)定性變量有k類可能的取值時(shí),需要引入k-1個(gè)0-1型自變量。當(dāng)k=2時(shí),只需要引入一個(gè)0-1型自變量即可??墒沁@樣做卻產(chǎn)生了一個(gè)新的問(wèn)題,即x1+x2+x3+§9.2自變量定性變量回歸模型的應(yīng)用一、分段回歸
在實(shí)際問(wèn)題中,我們會(huì)碰到某些變量在不同的影響因素范圍內(nèi)變化趨勢(shì)截然不同。對(duì)這種問(wèn)題,有時(shí)用多種曲線擬合效果仍不能令人滿意。如果做殘差分析,會(huì)發(fā)現(xiàn)殘差不是隨機(jī)的,而具有一定的系統(tǒng)性,對(duì)這類問(wèn)題,自然考慮用分段回歸的方法做處理?!?.2自變量定性變量回歸模型的應(yīng)用一、分段回歸
例9.2
表9.3給出某工廠生產(chǎn)批量xi與單位成本yi(美元)的數(shù)據(jù)。試用分段回歸建立回歸模型。序號(hào)yX(=x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.774800
例9.2表9.3給出某工廠生產(chǎn)批量xi與單圖9.1單位成本對(duì)批量散點(diǎn)圖圖9.1單位成本對(duì)批量散點(diǎn)圖
由圖9.1可看出數(shù)據(jù)在生產(chǎn)批量xp=500時(shí)發(fā)生較大變化,即批量大于500時(shí)成本明顯下降。我們考慮由兩段構(gòu)成的分段線性回歸,這可以通過(guò)引入一個(gè)0-1型虛擬自變量實(shí)現(xiàn)。假定回歸直線的斜率在xp=500處改變,建立回歸模型
yi=β0+β1xi+β2(xi-500)Di+εi 來(lái)擬合,其中由圖9.1可看出數(shù)據(jù)在生產(chǎn)批量xp=500時(shí)發(fā)生較大引入兩個(gè)新的自變量xi1=xi
xi2=(xi-500)Di這樣回歸模型轉(zhuǎn)化為標(biāo)準(zhǔn)形式的二元線性回歸模型:yi=β0+β1xi1+β2xi2+εi(9.3)(9.3)式可以分解為兩個(gè)線性回歸方程:當(dāng)x1≤500時(shí),E(y)=β0+β1x1
當(dāng)x1>500時(shí),E(y)=(β0-500β2)+(β1+β2)x1
引入兩個(gè)新的自變量xi1=xixi2=(xi-50第9章-含定性變量的回歸模型課件
用普通最小二乘法擬合模型(9.3)式得回歸方程為:
=5.895-0.00395x1-0.00389x2
利用此模型可說(shuō)明生產(chǎn)批量小于500時(shí),每增加1個(gè)單位批量,單位成本降低0.00395美元;當(dāng)生產(chǎn)批量大于500時(shí),每增加1個(gè)單位批量,估計(jì)單位成本降低0.00395+0.00389=0.00784(美元)。用普通最小二乘法擬合模型(9.3)式得回歸方程為:
以上只是根據(jù)散點(diǎn)圖從直觀上判斷本例數(shù)據(jù)應(yīng)該用折線回歸擬合,這一點(diǎn)還需要做統(tǒng)計(jì)的顯著性檢驗(yàn),這只需對(duì)(9.2)式的回歸系數(shù)β2做顯著性檢驗(yàn)。以上只是根據(jù)散點(diǎn)圖從直觀上判斷本例數(shù)據(jù)應(yīng)該用
對(duì)β2的顯著性檢驗(yàn)的顯著性概率Sig=0.153,β2沒(méi)有通過(guò)顯著性檢驗(yàn),不能認(rèn)為β2非零。用y對(duì)x做一元線性回歸,計(jì)算結(jié)果為:對(duì)β2的顯著性檢驗(yàn)的顯著性概率Sig=0.二、回歸系數(shù)相等的檢驗(yàn)
例9.3
回到例9.1的問(wèn)題,例9.1引入0-1型自變量的方法是假定儲(chǔ)蓄增加額y對(duì)家庭收入的回歸斜率β1與家庭年收入無(wú)關(guān),家庭年收入只影響回歸常數(shù)項(xiàng)β0,這個(gè)假設(shè)是否合理,還需要做統(tǒng)計(jì)檢驗(yàn)。檢驗(yàn)方法是引入如下含有交互效應(yīng)的回歸模型:yi=β0+β1xi1+β2xi2+β3xi1xi2+εi(9.8)其中y為上一年家庭儲(chǔ)蓄增加額,x1為上一年家庭總收入,x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0。二、回歸系數(shù)相等的檢驗(yàn)例9.3回到例9.1的問(wèn)題,例9
回歸模型(9.8)式可以分解為對(duì)高學(xué)歷和對(duì)低學(xué)歷家庭的兩個(gè)線性回歸模型,分別為:高學(xué)歷家庭x2=1,yi=β0+β1xi1+β2+β3xi1+εi=(β0+β2)+(β1+β3)xi1+εi 低學(xué)歷家庭x2=0,
yi=β0+β1xi1+εi
回歸模型(9.8)式可以分解為對(duì)高學(xué)歷和對(duì)低學(xué)
要檢驗(yàn)兩個(gè)回歸方程的回歸系數(shù)(斜率)相等,等價(jià)于檢驗(yàn)H0:β3=0,當(dāng)拒絕H0時(shí),認(rèn)為β3≠0,這時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄回歸模型實(shí)際上被拆分為兩個(gè)不同的回歸模型。當(dāng)接受H0時(shí),認(rèn)為β3=0,這時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄回歸模型是如下形式的聯(lián)合回歸模型:yi=β0+β1xi1+β2xi2+εi
要檢驗(yàn)兩個(gè)回歸方程的回歸系數(shù)(斜率)相等,等價(jià)于檢驗(yàn)第9章-含定性變量的回歸模型課件§9.3因變量是定性變量的回歸模型
在許多社會(huì)經(jīng)濟(jì)問(wèn)題中,所研究的因變量往往只有兩個(gè)可能結(jié)果,這樣的因變量也可用虛擬變量來(lái)表示,虛擬變量的取值可取0或1。一、定性因變量的回歸方程的意義
設(shè)因變量y是只取0,1兩個(gè)值的定性變量,考慮簡(jiǎn)單線性回歸模型yi=β0+β1xi+εi (9.12)
在這種y只取0,1兩個(gè)值的情況下,因變量均值E(yi)=β0+β1xi有著特殊的意義?!?.3因變量是定性變量的回歸模型在許多社由于yi是0-1型貝努利隨機(jī)變量,則得如下概率分布:
P(yi=1)=πiP(yi=0)=1-πi根據(jù)離散型隨機(jī)變量期望值的定義,可得E(yi)=1(πi)+0(1-πi)=πi
(9.13)得到E(yi)=πi=β0+β1xi由于yi是0-1型貝努利隨機(jī)變量,則得如下概率分布:二、定性因變量回歸的特殊問(wèn)題
1.離散非正態(tài)誤差項(xiàng)。
對(duì)一個(gè)取值為0和1的因變量,誤差項(xiàng)εi=yi-(β0+β1xi)只能取兩個(gè)值:當(dāng)yi=1時(shí),εi=1-β0-β1xi=1-πi
當(dāng)yi=0時(shí),εi=-β0-β1xi=-πi
顯然,誤差項(xiàng)εi是兩點(diǎn)型離散分布,當(dāng)然正態(tài)誤差回歸模型的假定就不適用了。二、定性因變量回歸的特殊問(wèn)題1.離散非正態(tài)誤差項(xiàng)。2.零均值異方差性。
當(dāng)因變量是定性變量時(shí),誤差項(xiàng)εi仍然保持零均值,這時(shí)出現(xiàn)的另一個(gè)問(wèn)題是誤差項(xiàng)εi的方差不相等。0-1型隨機(jī)變量εi的方差為
D(εi)=D(yi)=πi(1-πi)=(β0+β1xi)(1-β0-β1xi)(9.14)
εi的方差依賴于xi,是異方差,不滿足線性回歸方程的基本假定。2.零均值異方差性。當(dāng)因變量是定性變量時(shí),誤差3.回歸方程的限制
當(dāng)因變量為0、1虛擬變量時(shí),回歸方程代表概率分布,所以因變量均值受到如下限制:θ≤E(yi)=πi≤1
對(duì)一般的回歸方程本身并不具有這種限制,線性回歸方程yi=β0+β1xi將會(huì)超出這個(gè)限制范圍。3.回歸方程的限制當(dāng)因變量為0、1虛擬變量時(shí),回歸方§9.4Logistic回歸模型
一、分組數(shù)據(jù)的Logistic回歸模型
針對(duì)0-1型因變量產(chǎn)生的問(wèn)題,我們對(duì)回歸模型應(yīng)該做兩個(gè)方面的改進(jìn)。
第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程?!?.4Logistic回歸模型一、分組數(shù)據(jù)的Log
限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為L(zhǎng)ogistic函數(shù)的中文名稱是邏輯斯諦函數(shù),或簡(jiǎn)稱邏輯函數(shù)。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所
第二,因變量yi本身只取0、1兩個(gè)離散值,不適于直接作為回歸模型中的因變量。由于回歸函數(shù)E(yi)=πi=β0+β1xi表示在自變量為xi的條件下yi的平均值,而yi是0-1型隨機(jī)變量,因而E(yi)=πi就是在自變量為xi的條件下yi等于1的比例。這提示我們可以用yi等于1的比例代替yi本身作為因變量。下面通過(guò)一個(gè)例子來(lái)說(shuō)明Logistic回歸模型的應(yīng)用。第二,因變量yi本身只取0、1兩個(gè)離散值,不適于直接
例9.4
在一次住房展銷會(huì)上,與房地產(chǎn)商簽定初步購(gòu)房意向書(shū)的共有n=325名顧客中,在隨后的3個(gè)月的時(shí)間內(nèi),只有一部分顧客確實(shí)購(gòu)買了房屋。購(gòu)買了房屋的顧客記為1,沒(méi)有購(gòu)買房屋的顧客記為0。以顧客的年家庭收入(萬(wàn)元)為自變量x,對(duì)如下的數(shù)據(jù),建立Logistic回歸模型例9.4在一次住房展銷會(huì)上,與房地產(chǎn)商簽第9章-含定性變量的回歸模型課件Logistic回歸方程為
其中c為分組數(shù)據(jù)的組數(shù),本例c=9。做線性化變換,令上式的變換稱為邏輯(Logit)變換,得pi′=β0+β1xi+εi
(9.16)(9.18)
(9.17)
Logistic回歸方程為其中c為分組數(shù)據(jù)的組數(shù),本例c=計(jì)算出經(jīng)驗(yàn)回歸方程為-0.886+0.156x (9.19)判定系數(shù)r2=0.9243,顯著性檢驗(yàn)P值≈0,高度顯著。還原為(9.16)式的Logistic回歸方程為利用(9.20)式可以對(duì)購(gòu)房比例做預(yù)測(cè),例如對(duì)x0=8,計(jì)算出經(jīng)驗(yàn)回歸方程為利用(9.20)式可以對(duì)購(gòu)房比例做預(yù)測(cè),
我們用Logistic回歸模型成功地?cái)M合了因變量為定性變量的回歸模型,但是仍然存在一個(gè)不足之處,就是異方差性并沒(méi)有解決,(9.18)式的回歸模型不是等方差的,應(yīng)該對(duì)(9.18)式用加權(quán)最小二乘估計(jì)。當(dāng)ni較大時(shí),pi′的近似方差為:其中πi=E(yi),因而選取權(quán)數(shù)為:wi=nipi(1-pi)我們用Logistic回歸模型成功地?cái)M合了因用加權(quán)最小二乘法得到的Logistic回歸方程為
對(duì)x0=8時(shí)的購(gòu)房比例做預(yù)測(cè)用加權(quán)最小二乘法得到的Logistic回歸方程為對(duì)x0=8二、未分組數(shù)據(jù)的Logistic回歸模型
設(shè)y是0-1型變量,x1,x2,…,xp是與y相關(guān)的確定性變量,
n組觀測(cè)數(shù)據(jù)為(xi1,xi2,…,xip;yi),i=1,2,…,n,
yi與xi1,xi2,…,xip的關(guān)系為:E(yi)=πi=f(β0+β1xi1+β2xi2+…+βpxip)
其中函數(shù)f(x)是值域在[0,1]區(qū)間內(nèi)的單調(diào)增函數(shù)。對(duì)于Logistic回歸二、未分組數(shù)據(jù)的Logistic回歸模型設(shè)y是0-1型
于是yi是均值為πi=f(β0+β1xi1+β2xi2+…+βpxip)的0-1型分布,概率函數(shù)為:P(yi=1)=πiP(yi=0)=1-πi
可以把yi的概率函數(shù)合寫(xiě)為:i=1,2,…,n于是y1,y2,…,yn的似然函數(shù)為:于是yi是均值為πi=f(β0+β1xi1+β2xi2代入得對(duì)數(shù)似然函數(shù)Logistic回歸極大似然估計(jì)就是選取β0,β1,β2,…,βp的估計(jì)值使上式達(dá)極大。代入得對(duì)數(shù)似然函數(shù)Logistic極大似然估計(jì)就是選取β0
例9.5
在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查項(xiàng)目是“是乘坐公共汽車上下班,還是騎自行車上下班?!币蜃兞縴=1表示主要乘坐公共汽車上下班,y=0表示主要騎自行車上下班。自變量x1是年齡,作為連續(xù)型變量;x2是月收入(元);x3是性別,x3=1表示男性,x3=0表示女性。調(diào)查對(duì)象為工薪族群體,數(shù)據(jù)見(jiàn)表9.9,試建立y與自變量間的Logistic回歸。例9.5在一次關(guān)于公共交通的社會(huì)調(diào)查中,一個(gè)調(diào)查序號(hào)性別年齡
月收入y序號(hào)性別年齡
月收入y101885001512010000202112000161251200030238501171271300040239501181281500050281200119130950160318500201321000070361500121133180008042100012213310000904695012313812000100481200024141150001105518001251451800112056210012614810000130581800127152150011411885002815618001序號(hào)性別年齡月收入y序號(hào)性別年齡月收入y10188500以下是SPSS軟件部分運(yùn)行結(jié)果:以下是SPSS軟件部分運(yùn)行結(jié)果:X2(月收入)不顯著,將其剔除。最終的回歸方程為:X2(月收入)不顯著,將其剔除。最終的回歸方程為:三、Probit回歸模型Probit回歸稱為單位概率回歸,與Logistic回歸相似,也是擬合0-1型因變量回歸的方法,其回歸函數(shù)是【例9.6】仍然使用例9.4購(gòu)房數(shù)據(jù)三、Probit回歸模型Probit回歸稱為第9章-含定性變量的回歸模型課件得回歸方程:
或等價(jià)地表示為:對(duì)x0=8得回歸方程:或等價(jià)地表示為:對(duì)x0=8SPSS軟件提供了對(duì)分組數(shù)據(jù)擬合Probit回歸。
得
SPSS軟件提供了對(duì)分組數(shù)據(jù)擬合Probit回歸。得
在SPSS軟件的Probit回歸對(duì)話框,可以看到一個(gè)Logit選項(xiàng),用這個(gè)選項(xiàng)可以對(duì)分組數(shù)據(jù)做Logistic回歸。對(duì)此例計(jì)算出的Logistic回歸方程是這也是使用數(shù)值計(jì)算的最大似然估計(jì),與用最小二乘法所得到的Logistic回歸方程很接近。在SPSS軟件的Probit回歸對(duì)話框,可以看到一個(gè)Lo§9.5多類別Logistic回歸
當(dāng)定性因變量y取k個(gè)類別時(shí),記為1,2,…,k。因變量y取值于每個(gè)類別的概率與一組自變量x1,x2,…,xp有關(guān),對(duì)于樣本數(shù)據(jù)
(xi1,xi2,…,xip
;yi),i=1,2,…,n
,多類別Logistic回歸模型第i組樣本的因變量yi取第j個(gè)類別的概率為:(9.34)§9.5多類別Logistic回歸當(dāng)定性
上式中各回歸系數(shù)不是惟一確定的,每個(gè)回歸系數(shù)同時(shí)加減一個(gè)常數(shù)后的數(shù)值保持不變。為此,把分母的第一項(xiàng)中的系數(shù)都設(shè)為0,得到回歸函數(shù)的表達(dá)式(9.35)上式中各回歸系數(shù)不是惟一確定的,每個(gè)回歸系數(shù)【例9.7】本例數(shù)據(jù)選自SPSS軟件自帶的數(shù)據(jù)文件telco.sav.該文件在\SPSS\tutorial\sample_files文件夾內(nèi)。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度演員廣告代言合同
- 2025年度醫(yī)療機(jī)構(gòu)藥品采購(gòu)委托代購(gòu)合同
- 農(nóng)業(yè)綠色發(fā)展行動(dòng)計(jì)劃
- 養(yǎng)老院合同協(xié)議書(shū)
- 用戶體驗(yàn)設(shè)計(jì)原則及實(shí)踐
- 簡(jiǎn)易買賣合同
- 云計(jì)算在企業(yè)資源規(guī)劃中的應(yīng)用
- 三農(nóng)產(chǎn)品追溯系統(tǒng)建設(shè)方案
- 模具設(shè)計(jì)與制造技術(shù)作業(yè)指導(dǎo)書(shū)
- 建房勞務(wù)人工的合同
- 中國(guó)哲學(xué)史(新)課件
- 考古繪圖緒論課件
- 小耳畸形課件
- 新人教版初中初三中考數(shù)學(xué)總復(fù)習(xí)課件
- 機(jī)械制造有限公司組織架構(gòu)圖模板
- 嘩啦啦庫(kù)存管理系統(tǒng)使用說(shuō)明
- 小學(xué)生讀書(shū)卡模板
- 8.3 摩擦力 同步練習(xí)-2021-2022學(xué)年人教版物理八年級(jí)下冊(cè)(Word版含答案)
- 《現(xiàn)代漢語(yǔ)詞匯》PPT課件(完整版)
- 生理學(xué)教學(xué)大綱
- 環(huán)保鐵1215物質(zhì)安全資料表MSDS
評(píng)論
0/150
提交評(píng)論