《回歸分析》 課件 第6章 模型選擇_第1頁
《回歸分析》 課件 第6章 模型選擇_第2頁
《回歸分析》 課件 第6章 模型選擇_第3頁
《回歸分析》 課件 第6章 模型選擇_第4頁
《回歸分析》 課件 第6章 模型選擇_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*小結(jié)與評注模型選擇應(yīng)用回歸分析李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院1

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注NBA實(shí)例現(xiàn)搜集到NBA

2018-2019賽季中100個球員的球場表現(xiàn),一個球員的球場表現(xiàn)顯然會影響其綜合實(shí)力.因變量為“霍林格效率值”(PER),是前ESPN撰稿人霍林格 發(fā)明的根據(jù)當(dāng)賽季所有球員表現(xiàn),來綜合評定某一位球員賽 季表現(xiàn)的進(jìn)階數(shù)據(jù).自變量來源于該賽季的基礎(chǔ)數(shù)據(jù),能夠直接反映球場上的表 現(xiàn)。包括年齡(Age)、場均上場時間(MP)、場均得分(PTS)、 場均投籃命中率(FG)、場均失誤次數(shù)(TOV)、場均三分命 中率(X3P)、場均二分命中率(X2P)、場均罰球命中率(FT)、 場均籃板(TRB)、場均助攻(AST)、場均搶斷(STL)、場均蓋 帽(BLK)以及場均犯規(guī)次數(shù)(PF)共13個變量.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院2

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注NBA實(shí)例為反映球員的球場表現(xiàn)對其綜合實(shí)力的影響,用13個自變量對PER建立模型.用哪些自變量建立模型.建立什么模型.線性?非線性(指數(shù),多項(xiàng)式,......)?由于本課程所討論的范圍均是在線性回歸模型的框架下,因 此模型形式固定,本章涉及到的模型選擇僅包括自變量的選 擇.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院3

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注目錄全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院4

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院5

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注全模型

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院6

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注選模型

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院7

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注全模型和選模型

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院8

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注誤用選模型I其中,矩陣B的第i

列是選模型中的變量XA

對全模型中變量Xp+i

建立的回歸方程的系數(shù):若想選模型的估計(jì)是無偏的,需要選模型中的變量XA對Xp+1,...,Xm中任何一個變量建立的回歸方程的系數(shù)都為0.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院9

/

69

全模型和選模型

全子集回歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注誤用選模型II僅考慮第一個變量X1對應(yīng)的回歸系數(shù)的方差2

p其中Z

=(X

,...,X

),而

恰是變量2X

,

.

.

.

,

X歸方程的殘差平方和

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院10

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注全模型和選模型

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院11

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注全模型和選模型若丟掉了一些對因變量有影響的自變量,選模型估計(jì)的保留 變量的回歸系數(shù)的方差,要比全模型所估計(jì)的相應(yīng)變量的回 歸系數(shù)的方差小,但其付出的代價是估計(jì)量有偏.若在模型中多引入了一些沒有影響或者影響不大的自變量, 雖然不會產(chǎn)生估計(jì)的偏差,但是會增大估計(jì)的方差,降低估計(jì) 的有效性.在建立模型時選擇自變量的準(zhǔn)則應(yīng)該是小而精,盡可能剔除那些影響不大的可有可無的自變量.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院12

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院13

/

69全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全子集

歸因變量Y

和m個可供選擇的自變量記為X1,X2,...,Xm.對于Y

建立的回歸模型有2m種可能的情況(去掉僅含常數(shù)項(xiàng)的情況有2m

?1種).全子集回歸是在可能的這些回歸子集中,按照某種準(zhǔn)則尋找一個最優(yōu)的子集.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院14

/

69基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注全模型和選模型

全子集

逐步

歸關(guān)于自變量選擇的幾個準(zhǔn)則

若以SSE或R2作為準(zhǔn)則,則會一味的引入自變量無論其是否重要.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院15

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注調(diào)整的R2?2

2a調(diào)整的R

(R

)??a2

2R

R

(習(xí)題6.2),且2aR

隨著自變量的增加不一定增大.所有回歸子集中,2aR

最大者對應(yīng)的回歸方程就是“最優(yōu)”的.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院16

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注σ2的無偏估計(jì)從另外一個角度考慮回歸的擬合效果,回歸誤差項(xiàng)方差σ2的無偏估計(jì)不同于SSE,σ?2隨著自變量的增加不一定減小.a2

2實(shí)際上,用R

或者σ?

作為準(zhǔn)則是等價的(習(xí)題6.3),因?yàn)橛杏缮鲜龅葍r性可知,σ?2最小者對應(yīng)的回歸方程就是“最優(yōu)”的.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院17

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注AIC準(zhǔn)則赤池信息量準(zhǔn)則(Akaike

information

criterion,AIC)

是日 本統(tǒng)計(jì)學(xué)家赤池(Akaike)于1974年提出的一種模型選擇準(zhǔn) 則。AIC準(zhǔn)則還可以用于時間序列中確定自回歸模型階數(shù),因子分析模型中選擇公共因子個數(shù)等。其發(fā)展過程可參考Burnham&

Anderson

(1998).1設(shè)模型的似然函數(shù)為L(θ,x),θ是維數(shù)為p的參數(shù),θ?L為θ的最大似然估計(jì),x為隨機(jī)樣本,則AIC定義為1Burnham,

K.

P.

and

Anderson,

D.

R.

(1998)

Model

Selection

and

Inference:

a

Practical

Information-theoretic

Approach.

New

York:

Springer.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院18

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注AIC準(zhǔn)則假定回歸模型的隨機(jī)誤差項(xiàng)?服從正態(tài)分布,即?

~N(0,σ2),對數(shù)似然函數(shù)L

n將σ?2

=1

SSE代入得李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院19

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注AIC準(zhǔn)則?L代入公式AIC

=?2

log

L(θ

,x)+2p,似然函數(shù)的未知參數(shù)個數(shù)為p

+2,略去與p無關(guān)的常數(shù),得到回歸模型的AIC準(zhǔn)則公式為AIC

=

n

log(SSE)

+

2p.

(3)對每一個回歸子集計(jì)算AIC,其中AIC最小者所對應(yīng)的模型是“最優(yōu)”回歸模型.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院20

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注BIC準(zhǔn)則貝葉斯信息準(zhǔn)則(Bayes

Information

Criterion,BIC)是Schwarz在19提出的另一種常用的模型選擇準(zhǔn)則.設(shè)模型的似然函數(shù)為L(θ,x),θ是維數(shù)為p的參數(shù),θ?L為θ的最大似然估計(jì),x為隨機(jī)樣本,則BIC定義為BIC=

?2

log

L(θ?L,

x)

+

log(n)p.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院21

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注BIC準(zhǔn)則在隨機(jī)誤差項(xiàng)?服從正態(tài)分布時,回歸模型的BIC準(zhǔn)則公式為BIC

=

n

log(SSE)

+

log(n)p.

(4)對每一個回歸子集計(jì)算BIC,

其中BIC最小者所對應(yīng)的模型是“最優(yōu)”回歸模型.與AIC準(zhǔn)則相比,

BIC準(zhǔn)則的第二項(xiàng)也會隨著樣本量的增加而增加.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院22

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注Cp

準(zhǔn)則Cp

統(tǒng)計(jì)量是1964年馬洛斯(Mallows)從預(yù)測的角度提出的 一個可以用來選擇自變量的統(tǒng)計(jì)量。Cp

準(zhǔn)則不僅可以用來選 擇自變量,它也是模型平均領(lǐng)域中選擇各模型權(quán)重的一個常 用的準(zhǔn)則.對于一個回歸模型Y

=Xβ

+?,考慮其偏差平方和E

(Y)

?

Y?

2

=

μ

?

Xβ?

2其中μ

=E

(Y)=Xβ.Cp

準(zhǔn)則的原理就是最小化E

?Xβ?

2).李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院23

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注Cp

準(zhǔn)則

Cp

統(tǒng)計(jì)量其中σ?2常用全模型中σ2的無偏估計(jì),所有回歸子集中,Cp

最小者對應(yīng)的回歸方程就是“最優(yōu)”方程.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院24

/

69

全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全子集

歸流程圖

1:全子集回歸流程圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院25

/

69逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型

全子集

歸例-全子集

歸例表6.1給出了某地區(qū)2018年某種消費(fèi)品銷售情況資料。其中y

表示某種消費(fèi)品的銷售額(百萬元),x1表示居民可支配收入(元),

x2表示該類消費(fèi)品的價格指數(shù)(%),x3表示其他消費(fèi)品平均價格指數(shù)(%)。試建立該地區(qū)該消費(fèi)品銷售額預(yù)測方程。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院26

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*小結(jié)與評注例-全子集

歸表

1:表6.1

某地區(qū)2018年某種消費(fèi)品銷售表序號x1x2x3y序號x1x2x3y181.285.087.07.810126.4101.5101.212.3282.992.094.08.411131.2102.0102.513.5383.291.595.08.712148.0105.0104.014.2485.992.995.59.013153.0106.0105.914.9588.093.096.09.614161.0109.0109.515.9699.996.097.010.315170.0112.0111.018.57102.095.097.510.616174.0112.5112.019.58105.395.697.010.917185.0113.0112.319.99117.798.998.011.318189.0114.0113.020.5李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院27

/

69逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型

全子集

歸例-全子集

歸表

2:表6.2

全子集回歸確定回歸方程自變量子集R2a

Cp

AIC

BIC0.971

6.134

43.114

45.785{x1}{x2}{x3}{x1,

x3}{x1,

x2}{x2,

x3}0.954

18.153

51.540

54.2110.948

22.453

53.799

56.4710.976

4.006

40.984

44.5460.971

6.736

43.819

47.3800.952

19.463

53.150

56.711

{x1,

x2,

x3}

0.977

4.000

40.574

45.026

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院28

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院29

/

69逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型

全子集

歸逐步

歸思想當(dāng)可供選擇的自變量個數(shù)m較大時,構(gòu)造所有可能的回歸方程應(yīng)用全子集回歸比較困難.需要較為快速的方法選擇自變量子集,常用的方法有前進(jìn)法后退法逐步回歸法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院30

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注偏F統(tǒng)計(jì)量回顧偏F檢驗(yàn),與t檢驗(yàn)等價,用來檢驗(yàn)自變量Xj

對因變量Y

的影響是否顯著。偏F統(tǒng)計(jì)量李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院31

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注前進(jìn)法前進(jìn)法的思想是從一個空模型開始,將變量由少到多的引入模型當(dāng)中,每次引入一個變量,直至沒有可引入的變量為止.步驟1:將全部m個自變量分別對因變量Y

建立m個一元回歸方程,并分別計(jì)算這m個一元回歸方程的m個回歸系數(shù)的F檢驗(yàn)值,記為

給定顯著性水

則首先將X

引入回歸方程。為了方便,設(shè)Xj

就是X1.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院32

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注前進(jìn)法步驟2:

將因變量Y

分別與(X1,X2),(X1,X3),·

·

·

,(X1,Xm)建立m?1個二元線性回歸方程,對這m?1個回歸方程中X2,X3,·

·

·

,X回歸系數(shù)進(jìn)行偏F檢驗(yàn),計(jì)算偏F統(tǒng)計(jì)量的值,記為

,則繼續(xù)將Xj

引入回歸方程.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院33

/

69

全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注前進(jìn)法步驟3:重復(fù)上個步驟,直至所有未被引入方程的自變量的 偏F統(tǒng)計(jì)量的值均小于Fα(1,n

?p

?1)時為止。這時得到的回歸方程即為最終確定的方程.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院34

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注后退法

選擇其最小者記為

,則首先將X

從回歸方程中剔除,為了方便,設(shè)Xj

就是Xm.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院35

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注后退法步驟2:將其余的m

?1個自變量重新建立一個回歸方程,計(jì)算m

?1個回歸系數(shù)的偏F統(tǒng)計(jì)量,記為

則將Xj

剔除.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院36

/

69

全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注后退法步驟3:重復(fù)步驟上一個步驟,直至回歸方程中所剩余的p個 自變量的偏F統(tǒng)計(jì)量均大于臨界值Fα(1,n?p?1),沒有可剔除的自變量為止。這時得到的回歸方程即為最終確定的方 程.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院37

/

69逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注全模型和選模型

全子集

歸逐步

歸在前進(jìn)法中,一個變量一旦被引入回歸方程后就不會再被剔除出去.在后退法中,一個變量一旦被剔除也就再沒有機(jī)會進(jìn)入回歸方程了.逐步回歸的思想是有進(jìn)有出,

將變量一個一個引入,

每引 入一個自變量后,對已選入的變量要進(jìn)行逐個檢驗(yàn),當(dāng)原引 入的變量由于后面變量的引入而變得不再顯著時,就將其剔 除.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院38

/

69逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型

全子集

歸逐步

歸步驟1:

按照前進(jìn)法選擇偏F統(tǒng)計(jì)量最大的自變量Xj

若其1jαin偏F統(tǒng)計(jì)量F

F

(1j,n

?2),則將X

引入回歸方程.步驟2:接著按照前進(jìn)法引入第二個變量,然后對第一步引j入的變量X

進(jìn)行偏F檢驗(yàn),若其偏F統(tǒng)計(jì)量2jαoutF

F

(1,

n

?j2j3),則將X

剔除;若F

>Fαout(1,

n

?3

),則繼續(xù)引入第三個變量.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院39

/

69逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型

全子集

歸逐步

歸步驟3:重復(fù)上一個步驟直到既無變量引入又無變量被剔除 為止。每次引入一個新的變量都要對回歸方程中原有的變量 進(jìn)行偏F檢驗(yàn),以確保方程中只包含顯著的變量,最終得到 的回歸方程即為最終確定的方程。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院40

/

69逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型

全子集

歸逐步

歸引入自變量的顯著性水平αin小于剔除剔除自變量的顯著性水平αoutαin

<

αout.否則若αin

≥αout

,可能產(chǎn)生某個自變量的顯著性P值在αin與αout

之間,那么這個自變量將被引入、剔除、再引入、再剔除,進(jìn)入“死循環(huán)”。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院41

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注Toy

example若αin

=0.1,αout

=0.05李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院42

/

69全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注例-逐步

歸例模擬生成一個服從正態(tài)分布N(0,Σ)的自變量X

=(X1,...,X10),誤差項(xiàng)?

N(0,

1.5),真實(shí)的

歸系數(shù)β

=(1,2,?1,1,?1.5,?0.01,0.5,?0.5,0.01,0.0001)?,因變量由Yi

=

Xi

β

+

?i

,

i

=

1,

.

.

.

,

n

=

100生成,當(dāng)自變量間不相關(guān)時,即Σ

=I時,三種方法的過程見表6.3左半邊;當(dāng)自變量間存在相關(guān)性,即設(shè)定X的協(xié)方差矩陣為Σ

=(σij

)10×10

=0.5|i?j|時,三種方法的過程見表6.3右半邊.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院43

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注例-逐步

歸表6.3

逐步回歸模擬結(jié)果李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院44

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院45

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注目標(biāo)函數(shù)全子集回歸和逐步回歸都是分步式的過程,估計(jì)和選擇是分步進(jìn)行的。另一種思路是通過求解目標(biāo)函數(shù)同時實(shí)現(xiàn)變量選擇和系數(shù)估計(jì).目標(biāo)函數(shù):損失函數(shù)

+懲罰函數(shù)(7)其中,

ρλ(β)即為懲罰函數(shù),

調(diào)節(jié)系數(shù)λ代表懲罰力度的大小.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院46

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注LassoLasso

(Least

absolute

shrinkage

and

selection

operator)是Tibshirani (1996)首次提出的一種壓縮估計(jì),懲罰函數(shù)采用L1范數(shù)

,這里的懲罰函數(shù)等價于約束

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院47

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注Lasso李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院48

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注嶺估計(jì)嶺估計(jì)實(shí)際上就是最小化帶有懲罰項(xiàng)的目標(biāo)函數(shù)得到的估計(jì),此時的懲罰項(xiàng)是系數(shù)β的L2

范數(shù)

其中

2

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院49

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注Lasso和嶺估計(jì)Lasso可以將某些變量的系數(shù)壓縮到0以實(shí)現(xiàn)自變量的選擇,而嶺估計(jì)不可以.OsOsss圖

2:Lasso和嶺回歸目標(biāo)函數(shù)的求解示意圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院50

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注自適應(yīng)Lasso自適應(yīng)Lasso(Adaptive

Lasso)是Zou

(2006)為了解決Lasso中隨著βj

的增大懲罰力度一直增大這一問題而提出的.其懲罰項(xiàng)與Lasso相比多了一個權(quán)重向量w

=(w1,w2,...,wm)?,通常定義w

=1/|β?|γ

,其中β?可以取最小二乘估計(jì)值.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院51

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注SCADSCAD(Smoothly

Clipped

Absolute

Deviation)是Fan和Li

(2001)年提出的

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院52

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注MCPMCP(Minimax

Concave

Penalty)是Zhang

(2010)提出的

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院53

/

69全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注彈性網(wǎng)彈性網(wǎng)(Elastic

net)是Zou和Hastie

(2005)年提出的,它能夠解決當(dāng)自變量之間的相關(guān)性比較強(qiáng)時的變量選擇問題

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院54

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*小結(jié)與評注懲罰函數(shù)比較?6?4?202460

1

2

3

4

5

Lasso

Enet

MCP

SCAD圖

3:多種變量選擇方法的懲罰函數(shù)曲線固定λ

=1,a

=3.7

(SCAD),γ

=2.5

(MCP),λ1

=λ2

=0.5(Elastic

net).李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院55

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注Oracle性質(zhì)Oracle性質(zhì)是2001年Fan和Li在提出SCAD時首先說明的。若 真模型集合,即真實(shí)回歸系數(shù)不為0的自變量組成的集合記 為Oracle性質(zhì)第一點(diǎn)針對變量的選擇,表示選擇出的自變量集合就是真模型集合.Oracle性質(zhì)第二點(diǎn)針對系數(shù)的估計(jì),表示對于非零系數(shù)的估計(jì)和已知真模型時的估計(jì)一樣好.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院56

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*小結(jié)與評注Oracle性質(zhì)并非所有的變量選擇方法都有Oracle性質(zhì),例如Lasso.圖

4:多種變量選擇方法系數(shù)估計(jì)值示意圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院57

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注例-變量選擇例NBA數(shù)據(jù)集:用13個自變量,包括年齡(Age)、場均上場時間(MP)、場均得分(PTS)、場均投籃命中率(FG)、場均失誤次數(shù)(TOV)、場均三分命中率(X3P)、場均二分命中率(X2P)、場均罰球命中率(FT)、場均籃板(TRB)、場均助攻(AST)、場均搶斷(STL)、場均蓋帽(BLK)以及場均犯規(guī)次數(shù)(PF)與因變量“霍林格效率值”(PER)建立線性

歸模型,采用不同的變量選擇方法得到的

歸模型如下表6.4.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院58

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注例-變量選擇表6.4

不同變量選擇方法的系數(shù)估計(jì)值李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院59

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評價準(zhǔn)則*小結(jié)與評注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院60

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注模型選擇準(zhǔn)確性當(dāng)真實(shí)模型已知時,可以通過變量選擇的準(zhǔn)確性來評價各方法的準(zhǔn)確性.準(zhǔn)確率(precision):選擇出的變量是真實(shí)重要變量的比例召回率(recall):真實(shí)重要變量被選擇出來的比例李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院61

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評價準(zhǔn)則*

小結(jié)與評注模型選擇不確定性通常同一個變量選擇方法在來自同一個總體的不同數(shù)據(jù)集上的選擇結(jié)果也不同,這就是因?yàn)樽兞窟x擇方法的不確定性.若

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論