經(jīng)典線性回歸模型自變量選擇_第1頁
經(jīng)典線性回歸模型自變量選擇_第2頁
經(jīng)典線性回歸模型自變量選擇_第3頁
經(jīng)典線性回歸模型自變量選擇_第4頁
經(jīng)典線性回歸模型自變量選擇_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、自變量選擇信息時(shí)代的一個(gè)重要特征是數(shù)據(jù)便宜信息值錢,我們經(jīng)常要從海量數(shù)據(jù)中挖掘有用信息。比如影響產(chǎn)品質(zhì)量的因素,從生產(chǎn)過程、員工培訓(xùn)過程到原材料供應(yīng)過程,可能多達(dá)幾百個(gè),甚至上千個(gè)。對這些質(zhì)量指標(biāo)和影響因素制造商在日常生產(chǎn)管理過程中都有記錄?,F(xiàn)在的問題是如何從這眾多的影響因素中找出影響產(chǎn)品質(zhì)量的重要因素。有時(shí)只需判斷一個(gè)自變量對因變量是否有重要影響,而不需要了解它們之間的精確定量關(guān)系。比如判斷原材料供應(yīng)對產(chǎn)品質(zhì)量是否有重要影響比了解它們之間的精確定量關(guān)系更重要。線性回歸模型的自變量選擇就是用于有眾多自變量時(shí)識別重要自變量的方法。用于線性回歸模型自變量選擇的方法可分為兩類:全局擇優(yōu)法和逐步回歸法

2、。一、全局擇優(yōu)法全局擇優(yōu)法就是用衡量回歸模型與數(shù)據(jù)擬合程度的準(zhǔn)則,從全部可能的回歸模型中選擇對數(shù)據(jù)擬合最優(yōu)的回歸模型。對于一個(gè)包含P個(gè)自變量的回歸問題,全部可能的回歸模型有cPcPcP2P個(gè),全局擇優(yōu)法要求出每個(gè)回歸模型的準(zhǔn)則值,然后找出最優(yōu)的回歸模型?;貧w模型對數(shù)據(jù)的擬合程度可用殘差平方和來表示。殘差平方和越小,模型擬合的越好。但殘差平方和的大小與因變量的計(jì)量單位有關(guān),因此我們定義了決定系數(shù)。決定系數(shù)越大,模型擬合的越好。決定系數(shù)不僅與因變量的計(jì)量單位無關(guān),而且能說明在因變量的變異中,歸功于自變量變化的部分所占比例。但不論是用殘差平方和還是用決定系數(shù)來度量線性擬合模型擬合程度,都會得出模型中

3、包含越多自變量擬合就越好的結(jié)論。但在樣本容量給定的情況下,自變量越多,模型就越復(fù)雜,模型參數(shù)估計(jì)就越不精確,導(dǎo)致模型應(yīng)用的效果就越差。因此我們需要能綜合用殘差平方和表示的模型擬合精度和用模型中包含的自變量個(gè)數(shù)表示的模型復(fù)雜程度的準(zhǔn)則,以便選擇出最優(yōu)的回歸模型。回歸分析中用于選擇自變量的準(zhǔn)則很多。由于殘差平方和RS鄙口決定系數(shù)R2只考慮模型擬合精度,因而只能作為自變量個(gè)數(shù)相同時(shí)自變量選擇的準(zhǔn)則。殘差均方s2和修正決定系數(shù)R2dj是一個(gè)綜合模型擬合精度和模型復(fù)雜程度的準(zhǔn)則。綜合性準(zhǔn)則除了殘差均方和修正決定系數(shù)外,還有如下一些準(zhǔn)則:.MallowsCp準(zhǔn)則RSSpCpn2(P1)s其中,s2為包含全

4、部自變量的擬合模型的殘差均方,RS舫當(dāng)前擬合模型的殘差平方和,p為當(dāng)前擬合模型的自變量個(gè)數(shù)。信息準(zhǔn)則信息準(zhǔn)則根據(jù)公式-2*logLik+k*npar計(jì)算,其中l(wèi)ogLik=-nlog(RSS/n)+log(2兀)+1/2為當(dāng)前擬合模型的對數(shù)似然函數(shù),npar為當(dāng)前擬合模型的參數(shù)個(gè)數(shù),當(dāng)k=2時(shí)稱為AIC準(zhǔn)則,當(dāng)k=log(n)時(shí)稱為BIC準(zhǔn)則。在小樣本情況下,AIC準(zhǔn)則的表現(xiàn)不太好,為此人們提出的修正AIC準(zhǔn)則AICc,其計(jì)算公式為AICc-2*logLik+2*nparnn-npar-1AIC2*nparnpar1/nnapr1R中計(jì)算當(dāng)前擬合模型信息7隹則的函數(shù)有(其中fit為當(dāng)前擬合模型

5、對象)AIC(fit,k=2)k=2(缺省)時(shí)計(jì)算AICnlog(型Sp)110g(2)2(p2)nk=10g(n)時(shí)計(jì)算BICn1og(RS包)11og(2)(p2)1og(n)nextractAIC(fit,scale,k=2)指定sca1e=s2,計(jì)算當(dāng)前擬合模型的G準(zhǔn)則不指定scale,k=2(缺省)時(shí)計(jì)算AICnlogGRSSp)2(p1)nRSSc不指7Escale,k=log(n)時(shí)計(jì)算BICnlog(-)(p1)log(n)nR勺附加程序包qpcR中的函數(shù)AICc(fit)可計(jì)算當(dāng)前擬合模型的修正信息準(zhǔn)則RSSAICcnlog(-)1log(2)n預(yù)測平方和準(zhǔn)則n2PRESSe

6、)i1其中,e(i)V?(i)3,表示刪除第i個(gè)案例后,用剩余的(n-1)個(gè)案例估計(jì)的擬1hii合模型對第i個(gè)案例的預(yù)測誤差。R勺附加程序包qpc種的函數(shù)PRESS(fit)可計(jì)算預(yù)測平方和。此函數(shù)的返回值是一個(gè)列表,其中包含三個(gè)元素,(1)名字為stat的預(yù)測平方和;(2)名字為residuals的預(yù)測殘差向量;n2e(i)(3)名字為的P2,其計(jì)算公式為:P21L2Yi與一些可能的相關(guān)之間的關(guān)系。數(shù)!Ilibrary(alr3) attach(highway) y=log(Rate) x1=log(Len) x2=log(ADT) x3=log(Trks) x4=log(Sigs*Len+

7、1)/Len !、)x5=Slimx6=ShldIx7=Lanex8=AcptIIx9=Itgx10=Lwidx11=(Hwy=1)x12=(Hwy=2)R勺的附加程序包leaps中的函數(shù)leaps()和regsubsets()均可用來完成全局最優(yōu)的選擇。leaps()依據(jù)G準(zhǔn)則、修正R準(zhǔn)則和R準(zhǔn)則來選擇全局最優(yōu)回歸模型;regsubsets()函數(shù)則只能選出不同自變量個(gè)數(shù)的局部最優(yōu)的模型,我們再從這些局部的最優(yōu)模型中選出全局最優(yōu)的模型。例:高速公路事故數(shù)據(jù)考慮汽車意外事故率(事故數(shù)/百萬行車)據(jù)包括197許在明尼蘇達(dá)州的39段高速公路。ADT以千計(jì)的平均是流量(估計(jì))Trks卡車容量在全部容

8、量中的百分比Lane在兩個(gè)方向上的交通車道總數(shù)Acpt路段中每英里的進(jìn)入點(diǎn)Sigs路段中每英里信號交換數(shù)Itg路段中每英里的快車道類型交換數(shù)Slim時(shí)速限制(在1973年)Len段的長度(英里)Lwid道路寬度(英尺)Shld道路的外側(cè)路肩寬度Hwy公路類型的因子變量,0:州際高速公路、1:首要干道高速公路、2:主干道高速公路、3:其它Rate1973年每百萬公里行車的事故率考慮log(Rate)對log(Len),log(ADT),log(Trks),log(Sigs1),Slim,Shld,Lane,Acpt,Itg,Lwid,Hwy的回歸,其中Sigs1=(Sigs*Len+1)/Len

9、hwm=lm(yx1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13)summary(hwm)EstimateStd.ErrortvaluePr(|t|)(Intercept)x1x2x3x4x5x6x7x8x9x10 x11x12x13Signif.codes:0*.1Residualstandarderror:on25degreesoffreedomMultipleR-squared:,AdjustedR-squared:F-statistic:on13and25DF,p-value:kappa(hwm)1lihrarw/car、-iaiyicai)libr

10、ary(leaps)leaps(xmcbind(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,x13),y=y,.nbest=1).$which123456789ABCDFALSEFALSEFALSEFALSETRUEFALSEFALSEFALSEFALSEFALSEFALSEFALSEFALSETRUEFALSEFALSEFALSETRUEFALSEFALSEFALSEFALSEFALSEFALSEFALSEFALSE:FALSEFALSEFALSETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUEFALSEITRUEFALS

11、EFALSETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUEFALSEITRUETRUEFALSETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUEFALSE:TRUETRUEFALSETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUETRUETRUETRUETRUETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUETRUETRUETRUETRUETRUETRUEFALSEFALSETRUEFALSEFALSEFALSETRUETRUETRUETRUETRU

12、ETRUETRUEFALSEFALSETRUEFALSEFALSETRUETRUETRUETRUETRUETRUETRUETRUEFALSEFALSETRUEFALSETRUETRUETRUETRUETRUETRUETRUETRUETRUEFALSETRUETRUEFALSETRUETRUETRUETRUE12TRUETRUETRUETRUETRUEFALSETRUETRUETRUETRUETRUETRUETRUE,leaps()函數(shù)的一般用法為leaps(x=,y=,method=c(Cp,adjr2,r2),int=TRUE,nbest=10,names=NULL)其中,X=用來指定自變量

13、的矩陣;y=用來指定因變量的向量;method=用來指定準(zhǔn)則,缺省為G準(zhǔn)則;int=表示模型是否包含常數(shù)項(xiàng)的邏輯值,缺省為TRUE表示包含常數(shù)項(xiàng)nbest=用來指定要報(bào)告的不同個(gè)數(shù)自變量的局部最優(yōu)模型數(shù)。names用來指定自變量名稱的字符向量。ilhihway=(x1=x1,x2=x2,x3=x3,x4=x4,x5=x5,x6=x6,x7=x7,x8=x8,x9=x9,x10=x10,x11=x11,x12=x12,x13=x13,y=y)a=regsubsets(yx1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13,data=hihway)Isummary(

14、a)ISubsetselectionobjectCall:(yx1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13,data=hihway)13Variables(andintercept)IForcedinForcedoutx1FALSEFALSEIx2FALSEFALSEx3FALSEFALSE:x4FALSEFALSE|x5FALSEFALSEI:x6FALSEFALSE|:x7FALSEFALSE|x8FALSEFALSEI:x9FALSEFALSEI;x10FALSEFALSEx11FALSEFALSEiregsubsets()函數(shù)的一般用法為regs

15、ubsets(formula,data=,nbest=1,nvmax=8,=NULL,=NULL,intercept=TRUE,method=c(exhaustive,backward,forward,seqrep)其中,formula用來指定包含全部自變量的模型;data=用來指定存放數(shù)據(jù)的數(shù)據(jù)框;nbest=用來指定要報(bào)告的不同個(gè)數(shù)自變量的局部最優(yōu)模型數(shù)。nvmax即來指定最大模型的自變量個(gè)數(shù);=用來指定強(qiáng)制進(jìn)入模型的自變量;=用來指定強(qiáng)制剔除的自變量;intercept=表示模型是否包含常數(shù)項(xiàng)的邏輯值,缺省表示包含常數(shù)項(xiàng);method=ffl來指定選優(yōu)的方法,包括全局、向后、向前和逐步,

16、缺省為全局。二、逐步回歸法全局擇優(yōu)法需要大量的運(yùn)算。當(dāng)有5個(gè)自變量時(shí),所有可能的回歸數(shù)為25-1=15個(gè);當(dāng)有10個(gè)自變量時(shí),所有可能的回歸數(shù)為210-1=1023個(gè);當(dāng)有50個(gè)自變量時(shí),所有可能的回歸數(shù)為250-1,大約是1015個(gè)。因此在自變量個(gè)數(shù)較多時(shí),全局擇優(yōu)法是無法實(shí)現(xiàn)的,此時(shí)需要?jiǎng)e一類自變量選擇方法,逐步回歸法。逐步回歸法分為向前選擇、向后剔除和逐步篩選三種。向前選擇從不含自變量的回歸模型開始;依據(jù)某個(gè)標(biāo)準(zhǔn)從候選的自變量中選擇一個(gè)最優(yōu)的自變量添加到模型中;直到候選自變量中沒有符合標(biāo)準(zhǔn)的自變量可添加為止。向后剔除從包含全部自變量的回歸模型開始;依據(jù)某個(gè)標(biāo)準(zhǔn)從模型中剔除一個(gè)最差的自變量

17、;直到模型中沒有符合標(biāo)準(zhǔn)的變量可剔除為止。逐步篩選(a)從任意一個(gè)回歸模型開始;(b)依據(jù)某個(gè)標(biāo)準(zhǔn)從候選的自變量中選擇一個(gè)最優(yōu)的自變量添加到模型中,或者依據(jù)某個(gè)標(biāo)準(zhǔn)從模型中剔除一個(gè)最差的自變量;(c)直到既沒有符合標(biāo)準(zhǔn)的候選自變量可添加,模型中也沒有符合標(biāo)準(zhǔn)的自變量可剔除為止。以上逐步回歸法中選擇自變量的標(biāo)準(zhǔn)既可以用衡量回歸模型與數(shù)據(jù)擬合程度的準(zhǔn)則,也可以用檢驗(yàn)系數(shù)顯著性的t統(tǒng)計(jì)量、F統(tǒng)計(jì)量或者P值來構(gòu)造。R數(shù)step()可用于逐步回歸方法,這個(gè)函數(shù)的一般用法為step(object,scope,scale=0,direction=c(both,backward,forward),k=2)其中

18、,object指定逐步回歸的初始模型;Scopes定逐步回歸搜索的模型范圍。如果是包含lower和upper兩個(gè)公式的列表,則lower指定強(qiáng)制包含在模型中的自變量(這些自變量必須包含在初始模型中),upper指定最大的模型。如果是單個(gè)公式,則表示最大的模型。如果是缺省,則初始模型為最大的模型;如果scale=s2,則用G準(zhǔn)則,缺省表示使用信息準(zhǔn)則;direction=指定逐步回歸方法,缺省為逐步篩選,forward為向前選擇、backward為向后剔除;如果k=log(n),則用BIC準(zhǔn)則,缺省表示使用AIC準(zhǔn)則。m0=lm(y1,data=hihway)ssummary(ml)Call:lm(formula=yx5+x1+x12+x4+x2,data=hihway)Residuals:Min1QMedian3QMax:Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)x5x1x12ix4x2*:Signif.codes:0*.1Residualstandarderror:on33degreesoffreedomMultipleR-squared:,AdjustedR-squared:F-statistic:on

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論