應(yīng)用回歸分析(R語言版)(第2版) 課件 第5章 自變量的選擇與逐步回歸_第1頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第5章 自變量的選擇與逐步回歸_第2頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第5章 自變量的選擇與逐步回歸_第3頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第5章 自變量的選擇與逐步回歸_第4頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第5章 自變量的選擇與逐步回歸_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章自變量的選擇與逐步回歸2024/3/51

5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響5.2所有子集回歸5.3逐步回歸5.4本章小結(jié)與評(píng)注中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心第5章自變量選擇與逐步回歸

2024/3/52從20世紀(jì)60年代開始,關(guān)于回歸自變量的選擇成為統(tǒng)計(jì)學(xué)中研究的熱點(diǎn)問題。統(tǒng)計(jì)學(xué)家們提出了許多回歸選元的準(zhǔn)則,并提出了許多行之有效的選元方法。本章從回歸選元對(duì)回歸參數(shù)估計(jì)和預(yù)測(cè)的影響開始,介紹自變量選擇常用的幾個(gè)準(zhǔn)則;扼要介紹所有子集回歸選元的幾個(gè)方法;詳細(xì)討論逐步回歸方法及其應(yīng)用。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響2024/3/535.1.1全模型和選模型

設(shè)研究某一實(shí)際問題涉及到對(duì)因變量有影響的因素共有m個(gè),回歸模型為:y=β0+β1x1+β2x2+…+βmxm+ε

(5.1)稱為全回歸模型。如果我們從所有可供選擇的m個(gè)變量中挑選出p個(gè),記為x1,x2,…,xp,構(gòu)成的回歸模型為:y=β0p+β1px1+β2px2+…+βppxp+εp

(5.2)稱模型(5.2)式為選模型。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/54模型選擇不當(dāng)會(huì)給參數(shù)估計(jì)和預(yù)測(cè)帶來什么影響?下面我們將分別給予討論。把模型(5.1)式的參數(shù)向量β

和σ2的估計(jì)記為:把模型(5.2)式的參數(shù)估計(jì)向量記為中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響5.1.1全模型和選模型

2024/3/55中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響5.1.2自變量選擇對(duì)預(yù)測(cè)的影響性質(zhì)1在xj與xp+1,…,xm的相關(guān)系數(shù)不全為0時(shí),選模型回歸系數(shù)的最小二乘估計(jì)是全模型相應(yīng)參數(shù)的有偏估計(jì),即性質(zhì)2選模型的預(yù)測(cè)是有偏的。給定新自變量值

,因變量新值用選模型的預(yù)測(cè)值作為y0的預(yù)測(cè)值是有偏的,即。2024/3/56中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響5.1.2自變量選擇對(duì)預(yù)測(cè)的影響性質(zhì)4

選模型的預(yù)測(cè)殘差有較小的方差。選模型的預(yù)測(cè)殘差,全模型的預(yù)測(cè)殘差為,其中y0=β0+β1x01+β2x02+…+βmx0m+ε0,則有D(e0p)≤D(e0m)。

性質(zhì)3選模型的參數(shù)估計(jì)有較小的方差。選模型的最小二乘參數(shù)估計(jì)為,全模型的最小二乘參數(shù)估計(jì)為,這一性質(zhì)說明

。5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響2024/3/57中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心性質(zhì)5記βm-p=(βp+1,…,βm)′,用全模型對(duì)βm-p

的最小二乘估計(jì)為,則在的條件下,E(e0p)2=D(e0p)+(E(e0p))2≤D(e0m),即選模型預(yù)測(cè)的均方誤差比全模型預(yù)測(cè)的方差更小。5.1.2自變量選擇對(duì)預(yù)測(cè)的影響性質(zhì)1和性質(zhì)2表明,在全模型正確時(shí),用選模型去建立回歸模型,參數(shù)估計(jì)值是有偏估計(jì),用其做預(yù)測(cè),預(yù)測(cè)值也是有偏的。性質(zhì)3和性質(zhì)4表明,用選模型去做預(yù)測(cè),殘差的方差比用全模型去做預(yù)測(cè)的方差小。性質(zhì)5說明即使全模型正確,但如果其中有一些自變量對(duì)因變量影響很小或回歸系數(shù)方差過大,則丟掉這些變量之后,用選模型去預(yù)測(cè)可以提高預(yù)測(cè)的精度。5.1自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響2024/3/58從上述性質(zhì)可以看到,一個(gè)好的回歸模型,并不是考慮的自變量越多越好。在建立回歸模型時(shí),選擇自變量的基本指導(dǎo)思想是“少而精”。丟掉了一些對(duì)因變量y有影響的自變量后,所付出的代價(jià)是估計(jì)量產(chǎn)生了有偏性。然而,盡管估計(jì)量是有偏的,但預(yù)測(cè)偏差的方差會(huì)下降。另外,如果保留下來的自變量有些對(duì)因變量無關(guān)緊要,那么,方程中包括這些變量會(huì)導(dǎo)致參數(shù)估計(jì)和預(yù)測(cè)的有偏性和精度降低。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.1.2自變量選擇對(duì)預(yù)測(cè)的影響5.2所有子集回歸2024/3/595.2.1所有子集的數(shù)目中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心有m個(gè)可供選擇的變量x1,x2,…,xm,由于每個(gè)自變量都有入選和不入選兩種情況,這樣y關(guān)于這些自變量的所有可能的回歸方程就有2m-1個(gè),這里要求回歸模型中至少包含一個(gè)自變量。從另一個(gè)角度看,從全部m個(gè)自變量中選出p>0個(gè)的方法共有組合數(shù),因而所有選模型的數(shù)目為2024/3/510在第3章中從數(shù)據(jù)與模型擬合優(yōu)劣的直觀考慮出發(fā),認(rèn)為殘差平方和SSE最小的回歸方程就是最好的,還用復(fù)相關(guān)系數(shù)R來衡量回歸擬合的好壞。然而這兩種方法都有明顯的不足,這是因?yàn)橹袊?guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2所有子集回歸5.2.2自變量選擇的幾個(gè)準(zhǔn)則2024/3/511準(zhǔn)則1自由度調(diào)整復(fù)決定系數(shù)達(dá)到最大。

中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2所有子集回歸5.2.2自變量選擇的幾個(gè)準(zhǔn)則顯然有,隨著自變量的增加并不一定增大,盡管1?R2隨著變量的增加而減少,但由于其前面的系數(shù)(n?1)/(n?p?1)起折扣作用。從擬合角度追求最優(yōu),則所有回歸子集中最大者對(duì)應(yīng)的回歸方程就是最優(yōu)方程。2024/3/512從另外一個(gè)角度考慮回歸的擬合效果,回歸誤差項(xiàng)方差σ2的無偏估計(jì)為:此無偏估計(jì)式中也加入了懲罰因子n-p-1,當(dāng)自變量個(gè)數(shù)從0開始增加時(shí),SSE逐漸減小,作為除數(shù)的懲罰因子n?p?1也隨之減小,只是自變量從0開始增加時(shí),SSE減小的速度快,當(dāng)自變量個(gè)數(shù)增加到一定數(shù)量后,SSE減小的幅度不大。實(shí)際上它等價(jià)于調(diào)整復(fù)決定系數(shù),容易證明中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2所有子集回歸5.2.2自變量選擇的幾個(gè)準(zhǔn)則5.2所有子集回歸2024/3/513準(zhǔn)則2赤池信息量AIC達(dá)到最小。

AIC準(zhǔn)則是日本統(tǒng)計(jì)學(xué)家赤池(Akaike)1974年根據(jù)極大似然估計(jì)原理提出的一種較為一般的模型選擇準(zhǔn)則,人們稱它為Akaike信息量準(zhǔn)則(AkaikeInformationCriterion,簡(jiǎn)記為AIC)。AIC準(zhǔn)則既可用來作回歸方程自變量的選擇,又可用于時(shí)間序列分析中自回歸模型的定階上。由于該方法的廣泛應(yīng)用,使得赤池乃至日本統(tǒng)計(jì)學(xué)家在世界的聲譽(yù)大增。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2.2自變量選擇的幾個(gè)準(zhǔn)則2024/3/514設(shè)回歸模型的似然函數(shù)為L(zhǎng)(θ,x),θ的維數(shù)為p,x為隨機(jī)樣本(在回歸分析中樣本為y=(y1,y2,…,yn)′),則AIC定義為中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2所有子集回歸準(zhǔn)則2赤池信息量AIC達(dá)到最小。

式中,為θ

的最大似然估計(jì);p為未知參數(shù)的個(gè)數(shù)。由于似然函數(shù)越大的估計(jì)量越好,因而在回歸模型中使AIC達(dá)到最小的模型是最優(yōu)模型。2024/3/515中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心下面討論把AIC準(zhǔn)則用于回歸模型的選擇。假定回歸模型的隨機(jī)誤差項(xiàng)ε服從正態(tài)分布,即ε~N(0,σ2)。在該假定下,對(duì)數(shù)似然函數(shù)為5.2所有子集回歸準(zhǔn)則2赤池信息量AIC達(dá)到最小。

將代入得將上式代入AIC的計(jì)算公式,略去與p無關(guān)的常數(shù),得回歸模型的AIC公式為2024/3/516中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2所有子集回歸準(zhǔn)則3Cp統(tǒng)計(jì)量達(dá)到最小。1964年馬勒斯(Mallows)從預(yù)測(cè)的角度提出一個(gè)可以用來選擇自變量的統(tǒng)計(jì)量—Cp統(tǒng)計(jì)量。根據(jù)性質(zhì)5,即使全模型正確,但仍有可能選模型有更小的預(yù)測(cè)誤差。Cp統(tǒng)計(jì)量正是根據(jù)這一原理提出來的。考慮在n個(gè)樣本點(diǎn)上,用選模型(5.2)式作回報(bào)預(yù)測(cè)時(shí),預(yù)測(cè)值與期望值的相對(duì)偏差平方和為:2024/3/517中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2所有子集回歸準(zhǔn)則3Cp統(tǒng)計(jì)量達(dá)到最小。Jp的期望值是略去無關(guān)的常數(shù)2,據(jù)此構(gòu)造出Cp統(tǒng)計(jì)量為式中,為全模型中σ2的無偏估計(jì)。選擇變量的Cp

準(zhǔn)則:選擇使Cp最小的自變量子集,這個(gè)自變量子集對(duì)應(yīng)的回歸方程就是最優(yōu)回歸方程。2024/3/518中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2所有子集回歸例5-1

y表示某種消費(fèi)品的銷售額,x1表示居民可支配收入,x2表示該類消費(fèi)品的價(jià)格指數(shù),x3表示其他消費(fèi)品平均價(jià)格指數(shù)。表5-1給出了某地區(qū)18年某種消費(fèi)品銷售情況資料,試建立該地區(qū)該消費(fèi)品銷售額預(yù)測(cè)方程。2024/3/519中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2所有子集回歸2024/3/520中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心自變量子集R2AICCpx10.97280.971140.064.134x20.95660.953948.4816.151x30.95080.947750.7420.452x1,x20.97470.971440.764.734x1,x30.97840.975537.932.005x2,x30.95760.951950.0917.461x1,x2,x30.98110.977137.522.000這個(gè)例子中,n=18,m=3,所有的自變量子集有2m-1=7個(gè),即有7個(gè)回歸子集。這7個(gè)回歸子集對(duì)應(yīng)的各統(tǒng)計(jì)量的值列于右側(cè)表格中。表5-25.2所有子集回歸2024/3/521中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心

由表5-2的幾項(xiàng)指標(biāo)均可看到x1,x2,x3是最優(yōu)子集,x1,x3是次優(yōu)子集。回歸方程分別為5.2所有子集回歸因?yàn)榇藛栴}所涉及的自變量較少,只有3個(gè),所以根據(jù)以上幾個(gè)準(zhǔn)則判斷全模型是最優(yōu)的,而在自變量數(shù)目較多時(shí),很少見到全模型是最優(yōu)的。2024/3/522中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心我們講的最優(yōu)模型是相對(duì)而言的,在實(shí)際問題的選模中應(yīng)綜合考慮,或根據(jù)實(shí)際問題的研究目的從不同角度來考慮。有時(shí)希望模型各項(xiàng)衡量準(zhǔn)則較優(yōu),得到的模型又能給出合理的經(jīng)濟(jì)解釋;有時(shí)只從擬合角度考慮,有時(shí)只從預(yù)測(cè)角度考慮,并不計(jì)較回歸方程能否有合理解釋;有時(shí)要求模型的各個(gè)衡量準(zhǔn)則較優(yōu),而模型最好簡(jiǎn)單一些,涉及變量少一些;有時(shí)還要看回歸模型參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差大小等。5.2所有子集回歸2024/3/5235.2.3用R軟件尋找最優(yōu)子集中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.2所有子集回歸R軟件中尋找最優(yōu)子集的函數(shù)為regsubestes(),在使用該函數(shù)前需要加載leaps包。例5-2

對(duì)例3-1中的數(shù)據(jù),用調(diào)整的復(fù)決定系數(shù)Ra2

準(zhǔn)則選擇最優(yōu)子集回歸模型。

2024/3/5中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心24對(duì)于例3-1的數(shù)據(jù),尋找最優(yōu)子集的計(jì)算代碼為:data3.1<-read.csv("D:/data3.1.csv",head=TRUE)install.packages("leaps")#下載leaps包library(leaps)#加載leaps包exps<-regsubsets(y~x1+x2+x3+x4+x5+x6+x7+x8+x9,data=data3.1,nbest=1,really.big=T)#進(jìn)行全子集回歸expres<-summary(exps)#將回歸結(jié)果賦給expresres<-data.frame(expres$outmat,調(diào)整R平方=expres$adjr2)res#選擇輸出計(jì)算結(jié)果中的調(diào)整的R2這一指標(biāo)代碼中第四行調(diào)用regsubsets函數(shù)是做所有子集(除了全模型)的回歸分析,共計(jì)算了2m-2個(gè)子集的回歸結(jié)果,結(jié)果中有Ra2

,Cp和AIC的值,此處只選擇輸出Ra2的值。其中nbest可以任意賦大于等于1的值n,其主要用于展示包含不同變量個(gè)數(shù)(1個(gè)、2個(gè)或多個(gè)解釋變量)的子集的前n個(gè)最佳模型。5.2所有子集回歸2024/3/5中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心255.2所有子集回歸運(yùn)行上述代碼后得到的部分輸出結(jié)果如下:由以上輸出結(jié)果可知,依據(jù)Ra2準(zhǔn)則選出的最優(yōu)子集為x1,

x2,

x3,

x5,

x6,同時(shí)也可看到包含變量x1,

x2,

x3,

x5的子集回歸模型的Ra2的取值與最優(yōu)子集回歸模型的Ra2差別很小。如果僅考慮Ra2

這一個(gè)準(zhǔn)則時(shí),則x1,

x2,

x3,

x5,

x6為最優(yōu)子集,但是實(shí)際應(yīng)用中應(yīng)該綜合考慮幾個(gè)準(zhǔn)則來確定最優(yōu)子集。2024/3/5中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心265.2.3用R軟件尋找最優(yōu)子集5.2所有子集回歸例5-3

對(duì)例3-1中的數(shù)據(jù),用Cp準(zhǔn)則選擇最優(yōu)子集回歸模型。對(duì)于例5-2已經(jīng)得到的結(jié)果,選擇輸出子模型對(duì)應(yīng)的Cp統(tǒng)計(jì)量的結(jié)果,相應(yīng)代碼為:data.frame(expres$outmat,Cp=expres$cp)

對(duì)應(yīng)的輸出結(jié)果為:2024/3/5中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心275.2.3用R軟件尋找最優(yōu)子集5.2所有子集回歸由輸出結(jié)果5.2可知,依據(jù)Cp準(zhǔn)則選出的最優(yōu)子集為x1,

x2,

x3,

x5,而且Cp

=1.7175與其他7個(gè)子集所對(duì)應(yīng)的Cp

的值相差均較明顯。因此,綜合輸出結(jié)果5.1和5.2,我們可以選擇包含變量x1,

x2,

x3,

x5的回歸模型作為最優(yōu)子集回歸模型。

5.3逐步回歸2024/3/528問題的提出

自變量的所有可能子集構(gòu)成2m-1個(gè)回歸方程,當(dāng)可供選擇的自變量不太多時(shí),用前邊的方法可以求出一切可能的回歸方程,然后用幾個(gè)選元準(zhǔn)則去挑選最優(yōu)的方程,但是當(dāng)自變量的個(gè)數(shù)較多時(shí),要求出所有可能的回歸方程是非常困難的。為此,人們提出了一些較為簡(jiǎn)便、實(shí)用、快速的選擇最優(yōu)方程的方法。人們所給出的方法各有優(yōu)缺點(diǎn),至今還沒有絕對(duì)最優(yōu)的方法,目前常用的方法有前進(jìn)法、后退法、逐步回歸法,而逐步回歸法最受推崇。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/5中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心29R軟件提供了進(jìn)行逐步回歸分析的計(jì)算函數(shù)step(),它是以AIC信息統(tǒng)計(jì)量為準(zhǔn)則,通過選擇最小的AIC信息統(tǒng)計(jì)量,來達(dá)到剔除或添加變量的目的。step()函數(shù)的使用格式為:step(object,scope,scale=0,direction=c("both","backward","forward"),trace=1,keep=NULL,steps=1000,k=2,…)其中object是初始的回歸方程;scope是確定逐步搜索中模型的范圍;scale=0指使用AIC統(tǒng)計(jì)量;direction確定逐步搜索的方式,其他參數(shù)參見在線幫助。5.3逐步回歸2024/3/530中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.3逐步回歸5.3.1前進(jìn)法前進(jìn)法的思想是變量由少到多,每次增加一個(gè),直至沒有可引入的變量為止。在R中使用前進(jìn)法做變量選擇時(shí),通常將初始模型設(shè)定為不包含任何變量,只含有常數(shù)項(xiàng)的回歸模型,此時(shí)回歸模型有相應(yīng)的AIC統(tǒng)計(jì)量的值,不妨記為C0。然后,將m個(gè)自變量全部分別對(duì)因變量y建立m個(gè)一元線性回歸方程,并分別計(jì)算這m個(gè)一元回歸方程的AIC統(tǒng)計(jì)量的值,記為

,選其中最小值記為:

2024/3/531中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.3逐步回歸因此,變量xj首先被引入回歸模型,簡(jiǎn)便起見不妨將xj記作x1,此時(shí)回歸方程對(duì)應(yīng)的AIC值記為C1。接下來,因變量y

分別對(duì)(x1,x2),(x1,x3),…,(x1,xm)建立m?1個(gè)二元線性回歸方程,對(duì)這m?1個(gè)回歸方程分別計(jì)算其AIC統(tǒng)計(jì)量的值,記為,選其中的最小值記為:,則接著將變量xj引入回歸模型,此時(shí)模型中包含的變量為x1和xj。依上述方法接著做下去,直至再次引入新變量時(shí),所建立的新回歸方程的AIC值不會(huì)更小,此時(shí)得到的回歸方程即為最終確定的方程。5.3.1前進(jìn)法前進(jìn)法時(shí)設(shè)為“forward”2024/3/532中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.3逐步回歸例5-4

對(duì)例3-1城鎮(zhèn)居民消費(fèi)性支出y關(guān)于9個(gè)自變量做回歸的數(shù)據(jù),使用前進(jìn)法做變量選擇。使用R軟件做變量選擇的計(jì)算代碼如下:lmo3.1<-lm(y~1,data=data3.1)#建立初始模型lm3.1.for<-step(lmo3.1,scope=list(upper=~x1+x2+x3+x4+x5+x6+x7+x8+x9,lower=~1),direction="forward")#將模型的搜索范圍定義為至多加入所有變量,至少包含常數(shù)項(xiàng),使用前進(jìn)法尋找最優(yōu)回歸模型summary(lm3.1.for)#輸出最優(yōu)回歸模型及其回歸系數(shù)的顯著性檢驗(yàn)2024/3/533中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.3逐步回歸運(yùn)行上述代碼,得到的部分輸出結(jié)果為:2024/3/534中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.3逐步回歸2024/3/5中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心355.3逐步回歸由上述輸出結(jié)果可看到,前進(jìn)法依次引入了x5,

x1,

x2,

x3,最優(yōu)回歸模型為模型整體上高度顯著,且各變量的回歸系數(shù)均極其顯著,復(fù)決定系數(shù)R2=0.992,調(diào)整的復(fù)決定系數(shù),全模型的復(fù)決定系數(shù)R2=0.992,調(diào)整的復(fù)決定系數(shù)。5.3逐步回歸2024/3/5365.3.2后退法中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心后退法與前進(jìn)法相反,通常先用全部m個(gè)變量建立一個(gè)回歸方程,然后計(jì)算剔除任意一個(gè)變量后回歸方程所對(duì)應(yīng)的AIC統(tǒng)計(jì)量的值,選出最小的AIC值所對(duì)應(yīng)的需要剔除的變量,不妨記作x1;然后,建立剔除變量x1后因變量y對(duì)剩余m?1個(gè)變量的回歸方程,計(jì)算在該方程中再任意剔除一個(gè)變量后所得回歸方程的AIC值,選出最小的AIC值并確定應(yīng)該剔除的變量;依此類推,直至回歸方程中剩余的p個(gè)變量中再任意剔除一個(gè),AIC值都會(huì)增加,此時(shí)已經(jīng)沒有可以繼續(xù)剔除的自變量,因此包含這p個(gè)變量的回歸方程就是最終確定的方程。2024/3/537中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.3逐步回歸續(xù)例5-4

對(duì)例3-1城鎮(zhèn)居民消費(fèi)性支出y關(guān)于9個(gè)自變量做回歸的數(shù)據(jù),用后退法做變量選擇。解決該問題的相應(yīng)計(jì)算代碼及部分運(yùn)行結(jié)果如下:2024/3/538中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.3逐步回歸2024/3/539中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心在上述計(jì)算中,我們?cè)O(shè)定初始模型是全模型,由輸出結(jié)果可知,依次被剔除的變量為x4,x9,x7,

x8,

x6,最優(yōu)回歸模型為復(fù)決定系數(shù)R2=0.992,調(diào)整的復(fù)決定系數(shù),該最優(yōu)回歸模型和使用前進(jìn)法選出的模型一致。5.3逐步回歸前進(jìn)法和后退法顯然都有明顯的不足。使用前進(jìn)法變量一旦被引入,就沒有機(jī)會(huì)將其剔除;類似地,后退法中一旦某個(gè)自變量被剔除,它就再也沒有機(jī)會(huì)重新進(jìn)入回歸方程。逐步回歸會(huì)把兩者的優(yōu)點(diǎn)結(jié)合起來,并克服它們的不足。5.3逐步回歸2024/3/5405.3.3逐步回歸法逐步回歸的基本思想是有進(jìn)有出。R中step()函數(shù)的具體做法是在給定了包含p個(gè)變量的初始模型后,計(jì)算初始模型的AIC值,并在此模型基礎(chǔ)上分別剔除p個(gè)變量中的任一個(gè)和添加剩余m?p個(gè)變量中的任一變量后的AIC值,然后選擇最小的AIC值決定是否添加新變量或剔除已存在初始模型中的變量。如此反復(fù)進(jìn)行,直至既不添加新變量也不剔除模型中已有的變量時(shí)所對(duì)應(yīng)的AIC值最小,即可停止計(jì)算,并返回最終結(jié)果。中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/541中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心例5-5

本例為回歸分析中經(jīng)典的Hald水泥問題。某種水泥在凝固時(shí)放出的熱量y

(卡/克,cal/g)與水泥中的四種化學(xué)成分的含量(%)有關(guān),這四種化學(xué)成分分別是x1鋁酸三鈣(3CaO·Al2O3),x2硅酸三鈣(3CaO·SiO2),x3

鐵鋁酸四鈣(4CaO·Al2O3·Fe2O3),x4硅酸二鈣(2CaO·SiO2)?,F(xiàn)觀測(cè)到13組數(shù)據(jù),見表5-3(見下頁)。本例用逐步回歸法做變量選擇,希望從中選出主要的變量,建立y關(guān)于四種成分的線性回歸方程。

5.3逐步回歸2024/3/542中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.3逐步回歸2024/3/543中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.3逐步回歸在step()函數(shù)中將direction設(shè)為“both”,以逐步回歸法挑選最優(yōu)方程,計(jì)算代碼及運(yùn)行結(jié)果見輸出結(jié)果5.5a。2024/3/544中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/545中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心從輸出結(jié)果5.5a看到,逐步回歸篩選的最優(yōu)子集為x1,x2,x4,但在顯著性水平為0.05時(shí)x4

的回歸系數(shù)不顯著。從上述輸出結(jié)果可知,由最小的AIC值選出的模型在整體上最優(yōu),但是可能會(huì)包含不顯著的變量。故需要?jiǎng)h去不顯著的變量x4,得到新的回歸結(jié)果見輸出結(jié)果5.5b(見下頁)。從輸出結(jié)果5.5b可得,回歸方程為由此可看出,對(duì)水泥凝固時(shí)釋放熱量有顯著影響的是水泥中鋁酸三鈣和硅酸三鈣,兩者的回歸系數(shù)都為正,即水泥中兩種物質(zhì)的含量越高,每克水泥凝固時(shí)放出的熱量越多。5.3逐步回歸2024/3/546中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5.4本章小結(jié)與評(píng)注2024/3/5475.4.1逐步回歸實(shí)例分析例5-6為了研究香港股市的變化規(guī)律,此例以恒生指數(shù)為例,建立回歸方程,分析影響股票價(jià)格趨勢(shì)變動(dòng)的因素。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論