商務(wù)數(shù)據(jù)分析與統(tǒng)計建模:chap4.1含定性變量的回歸模型_第1頁
商務(wù)數(shù)據(jù)分析與統(tǒng)計建模:chap4.1含定性變量的回歸模型_第2頁
商務(wù)數(shù)據(jù)分析與統(tǒng)計建模:chap4.1含定性變量的回歸模型_第3頁
商務(wù)數(shù)據(jù)分析與統(tǒng)計建模:chap4.1含定性變量的回歸模型_第4頁
商務(wù)數(shù)據(jù)分析與統(tǒng)計建模:chap4.1含定性變量的回歸模型_第5頁
已閱讀5頁,還剩43頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第4章 含定性變量的回歸模型 4.1 自變量中含有定性變量的回歸模型4.2 自變量定性變量回歸模型的應(yīng)用4.3 因變量是定性變量的回歸模型4.4 Logistic(邏輯斯蒂)回歸4.1 自變量中含有定性變量的回歸模型一、簡單情況 首先討論定性變量只取兩類可能值的情況,例如研究糧食產(chǎn)量問題,y為糧食產(chǎn)量,x為施肥量,另外再考慮氣候問題,分為正常年份和干旱年份兩種情況,對這個問題的數(shù)量化方法是引入一個0-1型變量D,令:Di=1表示正常年份Di=0表示干旱年份4.1 自變量中含有定性變量的回歸模型糧食產(chǎn)量的回歸模型為: yi=0+1xi+2Di+i其中干旱年份的糧食平均產(chǎn)量為:E(yi|Di=0)

2、=0+1xi正常年份的糧食平均產(chǎn)量為: E(yi|Di=1)=(0+2)+1xi4.1 自變量中含有定性變量的回歸模型 例4.1 某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對家庭儲蓄的影響,在一個中等收入的樣本框中,隨機調(diào)查了13戶高學(xué)歷家庭與14戶中低學(xué)歷的家庭,因變量y為上一年家庭儲蓄增加額,自變量x1為上一年家庭總收入,自變量x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0,調(diào)查數(shù)據(jù)見表: 自變量中含有定性變量的回歸模型序號y(元)x1(萬元)x212352.3023463.2133652.8044683.5156582.6068673.21710852.602389503.902498654.8

3、02598664.6026102354.8027101404.20表1自變量中含有定性變量的回歸模型建立y對x1、x2的線性回歸自變量中含有定性變量的回歸模型 兩個自變量x1與x2的系數(shù)都是顯著的,判定系數(shù)R2=0.879,回歸方程為:=-7976+3826x1-3700 x2自變量中含有定性變量的回歸模型 這個結(jié)果表明,中等收入的家庭每增加1萬元收入,平均拿出3826元作為儲蓄。高學(xué)歷家庭每年的平均儲蓄額少于低學(xué)歷的家庭,平均少3700元。 如果不引入家庭學(xué)歷定性變量x2,僅用y對家庭年收入x1做一元線性回歸,得判定系數(shù)R2=0.618,擬合效果不好。自變量中含有定性變量的回歸模型二、復(fù)雜情

4、況某些場合定性自變量可能取多類值,例如某商廈策劃營銷方案,需要考慮銷售額的季節(jié)性影響,季節(jié)因素分為春、夏、秋、冬4種情況。為了用定性自變量反應(yīng)春、夏、秋、冬四季,我們初步設(shè)想引入如下4個0-1自變量:自變量中含有定性變量的回歸模型 可是這樣做卻產(chǎn)生了一個新的問題,即x1+x2+x3+x4=1,構(gòu)成完全多重共線性。 解決這個問題的方法很簡單,我們只需去掉一個0-1型變量,只保留3個0-1型自變量即可。例如去掉x4,只保留x1、x2、x3。對一般情況,一個定性變量有k類可能的取值時,需要引入k-1個0-1型自變量。當(dāng)k=2時,只需要引入一個0-1型自變量即可。自變量定性變量回歸模型的應(yīng)用一、分段回

5、歸 例2 表2出某工廠生產(chǎn)批量xi與單位成本yi(美元)的數(shù)據(jù)。試用分段回歸建立回歸模型。序號yX(= x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.774800自變量定性變量回歸模型的應(yīng)用圖 單位成本對批量散點圖 自變量定性變量回歸模型的應(yīng)用 由圖 可看出數(shù)據(jù)在生產(chǎn)批量xp=500時發(fā)生較大變化,即批量大于500時成本明顯下降。我們考慮由兩段構(gòu)成的分段線性回歸,這可以通過引入一個0-1型虛擬自變量實現(xiàn)。假定回歸直線的斜率在xp=500處改變,建立回歸模型 yi=0+1xi+2(xi-5

6、)Di+i來擬合,其中 自變量定性變量回歸模型的應(yīng)用引入兩個新的自變量 xi1=xi xi2=(xi-5)Di這樣回歸模型轉(zhuǎn)化為標(biāo)準(zhǔn)形式的二元線性回歸模型:yi=0+1xi1+2xi2+i (3)(3)式可以分解為兩個線性回歸方程:當(dāng)x1500時,E(y)=0+1x1當(dāng)x1500時,E(y)=(0-5002)+(1+2)x1 自變量定性變量回歸模型的應(yīng)用自變量定性變量回歸模型的應(yīng)用 用普通最小二乘法擬合模型(3)式得回歸方程為: =5.895-0.00395x1-0.00389x2 利用此模型可說明生產(chǎn)批量小于500時,每增加1個單位批量,單位成本降低0.00395美元;當(dāng)生產(chǎn)批量大于500時

7、,每增加1個單位批量,估計單位成本降低0.00395+0.00389=0.00784(美元)。自變量定性變量回歸模型的應(yīng)用 以上只是根據(jù)散點圖從直觀上判斷本例數(shù)據(jù)應(yīng)該用折線回歸擬合,這一點還需要做統(tǒng)計的顯著性檢驗,這只需對(2)式的回歸系數(shù)2做顯著性檢驗。自變量定性變量回歸模型的應(yīng)用 對2的顯著性檢驗的顯著性概率Sig=0.153,2沒有通過顯著性檢驗,不能認(rèn)為2非零。用y對x做一元線性回歸,計算結(jié)果為:自變量定性變量回歸模型的應(yīng)用二、回歸系數(shù)相等的檢驗 例3 回到例1的問題,例1引入0-1型自變量的方法是假定儲蓄增加額y對家庭收入的回歸斜率1與家庭年收入無關(guān),家庭年收入只影響回歸常數(shù)項0,這

8、個假設(shè)是否合理,還需要做統(tǒng)計檢驗。檢驗方法是引入如下含有交互效應(yīng)的回歸模型:yi=0+1xi1+2xi2+3xi1xi2+i (8)其中y為上一年家庭儲蓄增加額, x1為上一年家庭總收入, x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0。10.2 自變量定性變量回歸模型的應(yīng)用 回歸模型(8)式可以分解為對高學(xué)歷和對低學(xué)歷家庭的兩個線性回歸模型,分別為:高學(xué)歷家庭x2=1, yi=0+1xi1+2+3xi1+i =(0+2)+(1+3)xi1+i低學(xué)歷家庭x2=0, yi=0+1xi1+i自變量定性變量回歸模型的應(yīng)用 要檢驗兩個回歸方程的回歸系數(shù)(斜率)相等,等價于檢驗H0:3=0,當(dāng)

9、拒絕H0時,認(rèn)為30,這時高學(xué)歷與低學(xué)歷家庭的儲蓄回歸模型實際上被拆分為兩個不同的回歸模型。當(dāng)接受H0時,認(rèn)為3=0,這時高學(xué)歷與低學(xué)歷家庭的儲蓄回歸模型是如下形式的聯(lián)合回歸模型:yi=0+1xi1+2xi2+i自變量定性變量回歸模型的應(yīng)用因變量是定性變量的回歸模型 在許多社會經(jīng)濟(jì)問題中,所研究的因變量往往只有兩個可能結(jié)果,這樣的因變量也可用虛擬變量來表示,虛擬變量的取值可取0或1。 一、定性因變量的回歸方程的意義 設(shè)因變量y是只取0,1兩個值的定性變量,考慮簡單線性回歸模型yi=0+1xi+i (12) 在這種y只取0,1兩個值的情況下,因變量均值E(yi)=0+1xi有著特殊的意義。因變量

10、是定性變量的回歸模型由于yi是0-1型貝努利隨機變量,則得如下概率分布: P(yi=1)=i P(yi=0)=1-i根據(jù)離散型隨機變量期望值的定義,可得E(yi)=1(i)+0(1-i)=i (13) 得到 E(yi)=i=0+1xi因變量是定性變量的回歸模型二、定性因變量回歸的特殊問題 1. 離散非正態(tài)誤差項。 對一個取值為0和1的因變量,誤差項i=yi-(0+1xi)只能取兩個值: 當(dāng)yi=1時, i=1-0-1xi=i 當(dāng)yi=0時, i=-0-1xi=1-i 顯然,誤差項i是兩點型離散分布,當(dāng)然正態(tài)誤差回歸模型的假定就不適用了。因變量是定性變量的回歸模型2. 零均值異方差性。 當(dāng)因變量

11、是定性變量時,誤差項i仍然保持零均值,這時出現(xiàn)的另一個問題是誤差項i的方差不相等。0-1型隨機變量i的方差為 D(i)=D(yi) =i(1-i) =(0+1xi)(1-0-1xi) (14) i的方差依賴于xi,是異方差,不滿足線性回歸方程的基本假定。因變量是定性變量的回歸模型3.回歸方程的限制 當(dāng)因變量為0、1虛擬變量時,回歸方程代表概率分布,所以因變量均值受到如下限制:E(yi)=i1 對一般的回歸方程本身并不具有這種限制,線性回歸方程yi=0+1xi將會超出這個限制范圍。Logistic回歸模型 一、分組數(shù)據(jù)的Logistic回歸模型 針對0-1型因變量產(chǎn)生的問題,我們對回歸模型應(yīng)該做

12、兩個方面的改進(jìn)。 第一,回歸函數(shù)應(yīng)該改用限制在0,1區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程。Logistic回歸模型 限制在0,1區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為 Logistic函數(shù)的中文名稱是邏輯斯諦函數(shù),或簡稱邏輯函數(shù)。Logistic回歸模型 第二,因變量yi本身只取0、1兩個離散值,不適于直接作為回歸模型中的因變量。 由于回歸函數(shù)E(yi)=i=0+1xi表示在自變量為xi的條件下yi的平均值,而yi是0-1型隨機變量,因而E(yi)=i就是在自變量為xi的條件下yi等

13、于1的比例。這提示我們可以用yi等于1的比例代替yi本身作為因變量。下面通過一個例子來說明Logistic回歸模型的應(yīng)用。Logistic回歸模型 例4 在一次住房展銷會上,與房地產(chǎn)商簽定初步購房意向書的共有n=325名顧客中,在隨后的3個月的時間內(nèi),只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數(shù)據(jù),建立Logistic回歸模型 Logistic回歸模型 Logistic回歸模型 Logistic回歸方程為 其中c為分組數(shù)據(jù)的組數(shù),本例c=9。做線性化變換,令 上式的變換稱為邏輯(Logit)變換,得 pi=0+

14、1xi+i(16)(18) (17) Logistic回歸模型 計算出經(jīng)驗回歸方程為-0.886+0.156x 19)判定系數(shù)r2=0.9243,顯著性檢驗P值0,高度顯著。還原為(16)式的Logistic回歸方程為利用(20)式可以對購房比例做預(yù)測,例如對x0=8,Logistic回歸模型 我們用Logistic回歸模型成功地擬合了因變量為定性變量的回歸模型,但是仍然存在一個不足之處,就是異方差性并沒有解決,(18)式的回歸模型不是等方差的,應(yīng)該對(18)式用加權(quán)最小二乘估計。當(dāng)ni較大時,pi的近似方差為:其中i=E(yi),因而選取權(quán)數(shù)為:wi=nipi(1-pi)Logistic回歸

15、模型 用加權(quán)最小二乘法得到的Logistic回歸方程為 對x0=8時的購房比例做預(yù)測Logistic回歸模型 二、未分組數(shù)據(jù)的Logistic回歸模型 設(shè)y是0-1型變量,x1,x2,xp是與y相關(guān)的確定性變量, n組觀測數(shù)據(jù)為(xi1 ,xi2 ,xip ;yi),i=1,2,n, yi與xi1 ,xi2 ,xip的關(guān)系為:E(yi)=i=f(0+1xi1+2xi2+pxip) 其中函數(shù)f(x)是值域在0,1區(qū)間內(nèi)的單調(diào)增函數(shù)。對于Logistic回歸Logistic回歸模型 于是yi是均值為i=f(0+1xi1+2xi2+pxip)的0-1型分布,概率函數(shù)為:P(yi=1)=i P(yi=

16、0)=1-i 可以把yi的概率函數(shù)合寫為:i=1,2,n于是y1, y2 , , yn的似然函數(shù)為:Logistic回歸模型 代入得對數(shù)似然函數(shù)Logistic回歸極大似然估計就是選取0 ,1 ,2 ,p的估計值使上式達(dá)極大。Logistic回歸模型 例5 在一次關(guān)于公共交通的社會調(diào)查中,一個調(diào)查項目是“是乘坐公共汽車上下班,還是騎自行車上下班?!币蜃兞縴=1表示主要乘坐公共汽車上下班,y=0表示主要騎自行車上下班。自變量x1是年齡,作為連續(xù)型變量;x2是月收入(元);x3是性別,x3=1表示男性,x3=0表示女性。 調(diào)查對象為工薪族群體,數(shù)據(jù)見表9。試建立y與自變量間的Logistic回歸。

17、Logistic回歸模型 序號性別年齡 月收入y序號性別年齡 月收入y101885001512010000202112000161251200030238501171271300040239501181281500050281200119130950160318500201321000070361500121133180008042100012213310000904695012313812000100481200024141150001105518001251451800112056210012614810000130581800127152150011411885002815618001Logistic回歸模型 以下是軟件部分運行結(jié)果: Logistic回歸模型 X2(月收入)不顯著,將其剔除。最終的回歸方程為: Logistic回歸模型 三、Probit回歸模型 Probit回歸稱為單位概率回歸,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論