大數(shù)據(jù)技術(shù)及應(yīng)用 第5章 大數(shù)據(jù)分析挖掘-回歸_第1頁
大數(shù)據(jù)技術(shù)及應(yīng)用 第5章 大數(shù)據(jù)分析挖掘-回歸_第2頁
大數(shù)據(jù)技術(shù)及應(yīng)用 第5章 大數(shù)據(jù)分析挖掘-回歸_第3頁
大數(shù)據(jù)技術(shù)及應(yīng)用 第5章 大數(shù)據(jù)分析挖掘-回歸_第4頁
大數(shù)據(jù)技術(shù)及應(yīng)用 第5章 大數(shù)據(jù)分析挖掘-回歸_第5頁
已閱讀5頁,還剩70頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第5章大數(shù)據(jù)分析挖掘-回歸回歸分析算法0

10

20

3主要內(nèi)容回歸分析的步驟回歸分析概述回歸算法評估0

4變量的關(guān)系類型:煉確定性關(guān)系:多個變量之間存在明確的依賴關(guān)系,可以用確定的或者已知的函數(shù)關(guān)系來表示。煉非確定性關(guān)系;多個變量之間存在密切的聯(lián)系,會互相影響和制約,但由于有不可預(yù)知的其他因素存在,這種依賴關(guān)系具有不確定性,不能用確定的函數(shù)關(guān)系來表示。這種變量之間存在相互依賴但又不能通過確定函數(shù)來描述的關(guān)系稱為變量間的統(tǒng)計(jì)關(guān)系或者相關(guān)關(guān)系。1

回歸分析概述1

回歸分析概述050100150200250010203060708090銷售額Y(萬元)40

50廣告支出X(萬元)廣告費(fèi)用支出與商品銷售額關(guān)系圖回歸分析(Regression

Analysis)是基于數(shù)據(jù)統(tǒng)計(jì)的原理,對經(jīng)過預(yù)處理后的大數(shù)據(jù)進(jìn)行數(shù)學(xué)建模,確定一個或者多個獨(dú)立預(yù)測變量(自變量)與響應(yīng)變量(因變量)之間相互依賴的定量關(guān)系,建立相關(guān)性較好的回歸方程(數(shù)學(xué)函數(shù)表達(dá)式),通過數(shù)學(xué)模型進(jìn)行描述和解釋,并用做預(yù)測未來響應(yīng)變量變化的統(tǒng)計(jì)分析方法。1

回歸分析概述煉按照自變量個數(shù)的多少,分為一元回歸分析和多元回歸分析。煉根據(jù)自變量和因變量的相關(guān)關(guān)系,分為線性回歸分析和非線性回歸分析。煉部分非線性回歸問題可以借助數(shù)學(xué)手段將其轉(zhuǎn)化為線性回歸問題;對于不可以線性化的回歸模型,也可以采用轉(zhuǎn)換成近似線性化回歸模型的方法。1

回歸分析概述2

回歸分析的步驟確定預(yù)測目標(biāo)(因變量),分析影響因素(自變量),建立回歸分析預(yù)測模型基于已有的統(tǒng)計(jì)數(shù)據(jù),計(jì)算回歸參數(shù),構(gòu)建回歸分析方程計(jì)算回歸分析方程的預(yù)測誤差,考察回歸曲線的擬合程度對回歸分析預(yù)測模型進(jìn)行校驗(yàn),判定回歸分析方程的實(shí)際意義根據(jù)回歸方程和具體條件,預(yù)測目標(biāo)的未來狀況,并計(jì)算預(yù)測值和確定預(yù)測值的置信區(qū)間差項(xiàng)或隨機(jī)干擾項(xiàng)。2

回歸分析的步驟回歸分析的基本步驟如下:(

1

)根據(jù)背景理論和經(jīng)驗(yàn)描述,建立自變量與因變量之間的數(shù)學(xué)關(guān)系式,即回歸分析預(yù)測模型?;谧宰兞亢鸵蜃兞康臍v史統(tǒng)計(jì)數(shù)據(jù),計(jì)算得到合理的回歸參數(shù),構(gòu)建回歸分析方程。線性回歸模型:Y

a

bX

其中a

、b稱為回歸參數(shù),分別稱為截距和斜率,

為隨機(jī)誤2

回歸分析的步驟回歸分析的基本步驟如下:回歸分析方程為:YㄏaㄏbㄏX其中aㄏ和bㄏ為通過參數(shù)估計(jì)方法得到的回歸參數(shù)。通常采用普通最小二乘法(Ordinary

L

east

Squares,OL

S)和最大似然法(Maximum

L

ikelihood,ML

)對回歸參數(shù)進(jìn)行估計(jì),得到的回歸方程就是最佳擬合曲線。2

回歸分析的步驟回歸分析的基本步驟如下:(

2

)計(jì)算回歸方程的預(yù)測誤差,考察所得到的回歸曲線對觀測數(shù)值的擬合程度。通常用擬合優(yōu)度(Goodness

of

Fit)來表示由回歸方程得到的回歸曲線對觀測值的擬合程度,度量擬合優(yōu)度的統(tǒng)計(jì)量為決定系數(shù)(Coefficient

of

Determination),記作R2。在多元回歸模型中,使用調(diào)整的R

2(Adjusted

R-Square)進(jìn)行評估。2

回歸分析的步驟回歸分析的基本步驟如下:(

3

)對模型進(jìn)行校驗(yàn),從而判斷所建立的回歸方程是否有意義。皮爾森相關(guān)系數(shù)(Pearson

Correlation

Coefficient,PCC)常用于度量自變量X和因變量Y之間的線性相關(guān)程度;F校驗(yàn)(FTest)是用于度量自變量與因變量之間線性關(guān)系是否顯著的校驗(yàn)方法;t校驗(yàn)用于對回歸參數(shù)的顯著性進(jìn)行校驗(yàn),檢測回歸方程中某個自變量是否是因變量的一個顯著性影響因素。2

回歸分析的步驟回歸分析的基本步驟如下:(

4

)根據(jù)已經(jīng)得到的回歸方程和具體條件,來確定預(yù)測目標(biāo)的未來狀況,并計(jì)算預(yù)測值,對預(yù)測值進(jìn)行綜合分析,確定預(yù)測值的置信區(qū)間。3

回歸分析算法線性回歸非線性回歸其他回歸分析線性回歸采用直線或

平面去近似連續(xù)自變

量與連續(xù)因變量之間

的關(guān)系,是比較基礎(chǔ)

簡潔的一種分析方式。自變量X與因變量Y之間呈現(xiàn)某種曲線關(guān)系,采用非線性回歸模型更加符合實(shí)際應(yīng)用需求。逐步回歸分析、嶺回歸分析、套索回歸分析、彈性網(wǎng)回歸分析等。線性回歸01一元線性回歸因變量Y與自變量X之間的關(guān)系滿足如下線性模型:Y

0

1

X

其中

0

1

是回歸模型參數(shù),

0稱為常數(shù)或截距,

1

為斜率,

為隨機(jī)誤差項(xiàng),服從均值為零的正態(tài)分布,即E

0

,反映了隨機(jī)因素對因變量Y的影響程度。線性回歸01一元線性回歸(1)回歸參數(shù)估計(jì)求解過程:最小二乘法的基本原理就是求得

0和

1

,使得所有樣本數(shù)據(jù)的實(shí)際數(shù)值與估計(jì)值之間的殘差平方和(Residual

Sum

of

Squares,RSS)(即垂直距離平方和)最小,計(jì)算公式為:22minn

ni

ii

0

1i

1

i

1(

y

y

)

min(

y

x)

線性回歸01一元線性回歸(1)回歸參數(shù)估計(jì)求解過程:0i

1

n2

i

1

2(y

x

)

0

(yi

yi

)

n

i

0

1

i1ni

1

n2

i

1

2(y

x

)x

0

(yi

yi

)

i

0

1

i

i

0

y

1

x1

xy

xyx2

x2

ninx

1

xniy

1

n

yni

i

nxy

1

x

y2nixnx2

1

線性回歸01一元線性回歸(2)回歸方程的擬合優(yōu)度決定系數(shù)R2:總平方和TSS:回歸平方和ESS:2RSSTSSTSSTSSESS TSS

RSSR

1

2ii

1TSS

(

y

y)n

2ㄏi

1總平方和可以分解為TSS=RSS+ESSESS

(

yy)n

i線性回歸01家庭序號/戶123456789101112131415單身居民家庭月收入/百元303542456040475070748065555838月食品消費(fèi)/百元161923182914222130323929202517工齡/年13659354.56.55103572一元線性回歸(3)參考范例單身居民家庭月收入、月食品消費(fèi)與工齡數(shù)據(jù)線性回歸01一元線性回歸(3)參考范例9080706050403020100024610121416收入與消費(fèi)/百元8家庭序號/戶單身居民家庭月收入x

月食品消費(fèi)y家庭月收入與月食品消費(fèi)的數(shù)據(jù)變化趨勢線性回歸01一元線性回歸(3)參考范例單身居民家庭月收入與月食品消費(fèi)散點(diǎn)圖4540353025201510500102060708090月食品消費(fèi)/百元30

40

50單身居民家庭月收入/百元線性回歸01一元線性回歸(3)參考范例

1)回歸方程求解2xy

xy

52.6

23.6

1331.6

1

2

0.4289552.6

2977.13333x

x2

0

y

1

x

23.6

0.4289552.6

1.03714一元線性回歸方程Y

1.03714

0.42895

x線性回歸01一元線性回歸(3)參考范例

1)回歸方程求解線性回歸01一元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗(yàn)居民月收入x實(shí)際月食品消費(fèi)數(shù)值y月食品消費(fèi)預(yù)測值301613.90564351916.05039422319.05304451820.33989602926.77414401418.19514472221.19779502122.48464703031.06364743232.77944803935.35314652928.91889552024.62939582525.91624381717.337242677.6ESS

580.62441TSSR

0.85689線性回歸01一元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗(yàn)4540353025201510500216184

6

8家庭食品消費(fèi)(百元)10

12

14食品消費(fèi)預(yù)測值(百元)線性回歸01多元線性回歸因變量Y與多個自變量X1,X2,...,Xn之間的關(guān)系滿足如下線性模型:Y

0

1

X1

2

X2

...

n

Xn

其中

0、

1

,?,

n

是回歸模型參數(shù),

為隨機(jī)誤差項(xiàng),服從均值為零的正態(tài)分布,即E

0

,反映了隨機(jī)因素對因變量Y的影響程度。線性回歸01多元線性回歸得所有樣本數(shù)據(jù)的實(shí)際數(shù)值與估計(jì)值之間的殘差平方和(Residual

Sum

of

Squares,RSS)(即垂直距離平方和)最小,計(jì)算公式為:(1)回歸參數(shù)估計(jì)求解過程:最小二乘法的基本原理就是求得

0

,

1

,,

n

,使2i

ii

0

1

i1

2

i

2

n

ini

1RSS

(

y

y

)

(

y

x

x

x

)2m

m

i

1線性回歸01多元線性回歸(1)回歸參數(shù)估計(jì)22mi

in

(

y

y

)

i

1

0

i

i

0

m2

(

y

y

)

i

1

0

i

i

1

m

(

y

y

)

i

1

0

求解過程:mmmi

1i

1i

1

n

xin

)

0

n

xin

)

0

n

xin

)

0

2

(

yi

0

1

xi1

2

xi

2

2

xi1

(

yi

0

1

xi1

2

xi

2

2

xin

(

yi

0

1

xi1

2

xi

2

線性回歸01多元線性回歸(2)回歸方程的擬合優(yōu)度調(diào)整的R2(Adjusted

R-Square):其中n為樣本總數(shù),k為自變量的個數(shù),n-1為TS

S的自由度,n-

k-1為RS

S的自由度,等于觀測樣本總數(shù)減去待估計(jì)回歸參數(shù)的個數(shù)。

22RSS

/

n

k

1

n

11

1

R

R

1

TSS

/

n

1n

k

1線性回歸01家庭序號/戶123456789101112131415單身居民家庭月收入/百元303542456040475070748065555838月食品消費(fèi)/百元161923182914222130323929202517工齡/年13659354.56.55103572多元線性回歸(3)參考范例單身居民家庭月收入、月食品消費(fèi)與工齡數(shù)據(jù)線性回歸01多元線性回歸(3)參考范例月食品消費(fèi)/百元工齡/年y與x2工齡x2月食品消費(fèi)y12

454010358

30256204

1510250

01

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16家庭序號/戶居民工齡與月食品消費(fèi)的數(shù)據(jù)變化趨勢線性回歸01多元線性回歸(3)參考范例1)回歸方程求解y

0

1

x1

2

x2

0

1.610241,

1

0.367021,

2

0.536894y

1.610241

0.367021x1

0.536894

x2多元線性回歸方程為線性回歸01多元線性回歸(3)參考范例1)回歸方程求解線性回歸01多元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗(yàn)2ESS

593.1724664TSS

677.6R

0.875422RSS

/

n

k

1

n

1R

1

1

1

R

TSS

/

n

1

n

k

115

11

0.1246

15

2

10.8546居民月收入x工齡X2實(shí)際月食品消費(fèi)數(shù)值y月食品消費(fèi)預(yù)測值y3011613.1577653531916.0666584262320.2464874551820.8106566092928.4635474031417.9017634752221.544698504.52122.377314706.53030.7915227453231.45426580103936.3408616532927.0772885552024.4808665872526.6557173821716.630827線性回歸01多元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗(yàn)45403530252015105002

4

610

12

1416月食品消費(fèi)/百元8家庭序號/戶月食品消費(fèi)實(shí)際值月食品消費(fèi)預(yù)測值線性回歸01多元線性回歸(3)參考范例2)回歸方程的擬合優(yōu)度校驗(yàn)45403530252015105002410121416月食品消費(fèi)/百元6

8家庭序號/戶一元預(yù)測值多元預(yù)測值月食品消費(fèi)非線性回歸02對于已知的一組真實(shí)數(shù)據(jù)(xi,yi),i=1,2,?,n,非線性回歸模型可以寫為如下形式:Y

f

(X,

)

其中自變量xi=(xi1,xi2,?,xik),未知回歸參數(shù)β=(β0,β1,?,βl),同樣假定隨機(jī)誤差項(xiàng)

服從正態(tài)分布,均值為零,即E(ε)=0且方差var(ε)=σ2。對于一般的非線性回歸模型來說,不要求kl

。非線性關(guān)系的處理方法:自變量X和因變量Y之間的關(guān)系可以通過函數(shù)替換轉(zhuǎn)為線性,然后利用線性回歸模型的求解方法。自變量X與因變量

Y之間的非線性關(guān)系對應(yīng)的描述函數(shù)形式不明確。自變量X與因變量Y之間的非線性關(guān)系對應(yīng)的描述函數(shù)形式很明確,但回歸參數(shù)是未知的。可轉(zhuǎn)換為線性回歸模型多項(xiàng)式回歸分析不可轉(zhuǎn)換為線性回歸模型非線性回歸02煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換非線性回歸02當(dāng)變量xi

,yi之間是非線性關(guān)系,而回歸參數(shù)之間是線性關(guān)系時,可以利用變量直接代換的方法將回歸模型線性化。根據(jù)已有經(jīng)驗(yàn)理論或者繪制數(shù)據(jù)的散點(diǎn)圖進(jìn)行判斷,選擇適當(dāng)?shù)姆蔷€性回歸模型對模型進(jìn)行變量代換,使變換后的模型轉(zhuǎn)化為線性回歸模型應(yīng)用線性回歸分析方法對變換后的線性回歸模型進(jìn)行求解,確定回歸參數(shù),并進(jìn)行回歸校驗(yàn)對校驗(yàn)符合要求的回歸模型進(jìn)行變量逆代換,恢復(fù)出回歸模型原始形式;對校驗(yàn)不符合要求的重新進(jìn)行回歸擬合,直至符合要求為止。煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換1)雙曲線模型非線性回歸021

1

y

0 1

x*

*11yx設(shè)y,x

,轉(zhuǎn)化為一元線性回歸模型:y*

0

1

x*

煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換

1)雙曲線模型非線性回歸02xy1

0(0

0

,

1

0

)0xy1

0(0

0

,

1

0

)0非線性回歸02煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換

2)半對數(shù)模型ln

y

0

1

x

y

0

1

ln

x

如果設(shè)y*

ln

y,x*

ln

x,轉(zhuǎn)化為一元線性回歸模型:y*

0

1

x

y*

0

1

x

煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換2)半對數(shù)模型非線性回歸02xy(1

0

)x(1

0

)00y

0

1

ln

x

yln

y

0

1

x

非線性回歸02煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換

3)雙對數(shù)模型ln

y

0

1

ln

x

設(shè)y*

ln

y,x*

ln

x

,轉(zhuǎn)化為一元線性回歸模型:y*

x*

0

1非線性回歸02煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)直接代換

4)三角函數(shù)模型以正弦函數(shù)模型為例:y

0

1

sin

x

設(shè)y*

y,x*

sin

x

,轉(zhuǎn)化為一元線性回歸模型:y*

0

1

x*

對上式兩邊取對數(shù)可得:非線性回歸02煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)間接代換

1)指數(shù)函數(shù)模型y

aebxln

y

ln

a

bx

設(shè)y*

ln

y

,轉(zhuǎn)化為線性回歸模型:y*

ln

a

bx

煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)間接代換

1)指數(shù)函數(shù)模型非線性回歸02xy(b

0

)xy(b

0

)00對上式兩邊取對數(shù)可得:非線性回歸02煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)間接代換

2)冪函數(shù)模型y

a

xbe

ln

y

ln

a

b

ln

x

設(shè)y*

ln

y,x*

ln

x

,可得如下線性回歸模型:y*

ln

a

bx*

非線性回歸02x煉可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)間接代換

2)冪函數(shù)模型y(b

0

)xy(b

0

)001

b

0b

1b1b

1b

10

b

1煉多項(xiàng)式回歸(1)多項(xiàng)式回歸模型當(dāng)自變量數(shù)目為1時,稱為一元多項(xiàng)式回歸,當(dāng)自變量大于1時,稱為多元多項(xiàng)式回歸。以一元k次多項(xiàng)式回歸模型為例,其一般形式可寫為:其中k為多項(xiàng)式的階數(shù)。非線性回歸0220

1

22k

y

x

x

xk

0,V

ar()

E

()

煉多項(xiàng)式回歸(1)多項(xiàng)式回歸模型一元二次多項(xiàng)式可寫為:非線性回歸02y

x

x2

0

1

2xy(2

0

)xy(2

0

)00煉多項(xiàng)式回歸(1)多項(xiàng)式回歸模型多項(xiàng)式回歸問題通??梢允褂米兞看鷵Q法轉(zhuǎn)化為多元線性回歸問題來處理,參照線性回歸模型的求解思路,使用最小二乘法(OLS)完成對多項(xiàng)式回歸模型的參數(shù)估計(jì)。需要注意的是,轉(zhuǎn)化過程可能會導(dǎo)致自變量之間存在一定程度的多重共線性問題,一般通過構(gòu)造正交多項(xiàng)式來解決。非線性回歸02煉多項(xiàng)式回歸(2)參考范例非線性回歸02序號xy123.685.17230.1310.54338.9212.86443.5215.76546.1416.98653.3416.76760.1515.53867.3613.16969.7810.851076.239.341179.828.581285.475.13觀測數(shù)據(jù)集合煉多項(xiàng)式回歸(2)參考范例非線性回歸021816141210864200102030405060708090YX觀測數(shù)據(jù)散點(diǎn)圖非線性回歸02煉多項(xiàng)式回歸(2)參考范例自變量x與因變量y之間的關(guān)系可以表示多項(xiàng)式回歸方程,即y

0

1

x1

2

x121)對多項(xiàng)式回歸方程進(jìn)行求解計(jì)算殘差平方和RSS:1222

2i

ii

0

1

i

2

ii

1i

1RSS

(y

y

)

(y

x

x

)

12

非線性回歸02煉多項(xiàng)式回歸(2)參考范例1)對多項(xiàng)式回歸方程進(jìn)行求解分別對

0

,

1

,

2

等求一階偏導(dǎo)并使其一階偏導(dǎo)值為0:1212122i

0

1

i

2

ii

0

1

i

2

ii

0

1

i

2

ii

1i

1i

1

2(y

x

x

2

)

0

2

x(y

x

x

2

)

0

(y

x

x

2

)

0

2

x

i

i

非線性回歸02煉多項(xiàng)式回歸(2)參考范例1)對多項(xiàng)式回歸方程進(jìn)行求解進(jìn)行求解可得到:

0

16.5329,

1

1.2266,

2

0.0115由此得到的多項(xiàng)式回歸方程為:y

16.5329

1.2266

x

0.0115

x

21

1煉多項(xiàng)式回歸(2)參考范例1)對多項(xiàng)式回歸方程進(jìn)行求解非線性回歸02煉多項(xiàng)式回歸(2)參考范例2)多項(xiàng)式回歸模型的擬合優(yōu)度校驗(yàn)非線性回歸022ESS

177.8595TSS

191.284R

0.929822RSS

/

n

k

1

n

112

1R

1

1

1

R

1

0.0702

0.9228TSS

/

n

1

n

k

112

1

1非線性回歸02煉不可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)逐次迭代估計(jì)思路首先盡量運(yùn)用變量代換簡化復(fù)雜函數(shù)模型,變?yōu)檩^簡單的非線性回歸模型;然后所有未知參數(shù)

指定一組初始值

0,將原方程通過泰勒級數(shù)展開,使得非線性方程在初始值附近線性化;對這一線性方程應(yīng)用最小二乘法(OLS),得出一組新的參數(shù)估計(jì)值

;用新的參數(shù)估計(jì)值

替代初始值

0,再次將方程通過泰勒級數(shù)展開,使非線性方程在新的參數(shù)估計(jì)值附近線性化,對新得到的線性方程再次應(yīng)用OLS方法,重新得出一組新的參數(shù)估計(jì)值;煉不可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(1)逐次迭代估計(jì)思路3)不斷重復(fù)新參數(shù)更新過程,直至所得到的參數(shù)估計(jì)值收斂,穩(wěn)定于某一數(shù)值,迭代過程至此結(jié)束。例如著名的生產(chǎn)函數(shù)CES(Constant

Elasticity

of

Substitution)非線性回歸02

1Q

A(1K

2

L

)

e

2

1非線性回歸02煉不可轉(zhuǎn)換為線性回歸模型的非線性關(guān)系(2)常用的數(shù)值迭代算法數(shù)值迭代算法的共同特點(diǎn):由未知參數(shù)

的初值

0出發(fā),選定

m

)和步長t(t

0),通過適當(dāng)?shù)乃阉鞣较蛳蛄?1

,

2

,逐步迭代公式確定新的

,如下:

0

t

其他回歸分析方法03煉逐步回歸分析基本思想:將眾多自變量按照對因變量的重要程度進(jìn)行篩選,繼而從自變量集合

X1

,X2

,,Xn

中得出對因變量Y影響最顯著的自變量子集

X1

,X2

,,Xp

(p

n),由該自變量子集構(gòu)建出的回歸方程被認(rèn)為是最優(yōu)回歸方程。煉逐步回歸分析其他回歸分析方法03構(gòu)造方法逐步剔除法逐步引入法逐步回歸分析法構(gòu)造原理又稱后向剔除法(Backward),先用全部自變量與因變量構(gòu)造回歸方程,再對自變量逐個進(jìn)行顯著性校驗(yàn),依次剔除最不顯著的自變量。又稱前向引入法(Forward),采用遞歸的方法依次選擇當(dāng)前與因變量相關(guān)性最顯著的那個自變量,然后與之前已選擇的自變量一起建立回歸方程;每次都對新引入的自變量進(jìn)行顯著性校驗(yàn),直至校驗(yàn)不能通過為止?;驹瓌t是“有進(jìn)有出”,按照對因變量顯著性影響程度的大小,逐次在回歸方程中引入單個自變量。優(yōu)點(diǎn)顯著性校驗(yàn)涉及到全部自變量計(jì)算量顯著降低自變量引入和剔除最為靈活缺點(diǎn)計(jì)算量最大,自變量一旦剔除不再考慮不能涉及全部自變量,自變量一旦選中,不再剔除顯著性校驗(yàn)計(jì)算量大其他回歸分析方法03煉嶺回歸分析嶺回歸(Ridge

Regression)實(shí)質(zhì)上是一種改進(jìn)的最小二乘估計(jì)方法,是針對共線性數(shù)據(jù)分析的有偏估計(jì)方法。多重線性回歸方程的回歸參數(shù):=(X

T

X)1

XTY在嶺回歸中估計(jì)多重共線性回歸模型的參數(shù)時:(k)

(X

T

X

kI

)1

XTY其中k

0稱為嶺參數(shù),取不同的k值可以得到不同的嶺估計(jì)。其他回歸分析方法03煉嶺回歸分析嶺回歸分析的基本思路:考慮自變量X量綱上的差異,對自變量X做中心化和標(biāo)準(zhǔn)化處理,方便進(jìn)行比較;確定合適的嶺參數(shù)k值,使得MSE((k))達(dá)到最小。根據(jù)自變量的嶺跡圖對自變量進(jìn)行篩選;根據(jù)嶺回歸得到的估計(jì)參數(shù)寫出回歸方程,結(jié)合專業(yè)理論知識綜合判斷自變量的參數(shù)取值是否符合實(shí)際情況,預(yù)測數(shù)值是否基本吻合,從而做出相應(yīng)結(jié)論。4

回歸算法評估平均絕對誤差MAE平均絕對誤差是樣本集中所有觀測數(shù)據(jù)與預(yù)測數(shù)據(jù)之間的絕對誤差平均值。假設(shè)數(shù)據(jù)集中共有n個樣本,每個樣本用(xi,yi)表示,yㄏi

是通過回歸模型得到的預(yù)測數(shù)據(jù)。1n

n

i

1MAE

(y,

y)

yi

yi4

回歸算法評估均方誤差MSE是樣本集中所有觀測數(shù)據(jù)與預(yù)測數(shù)據(jù)之間的誤差平方的平均值,可以很好反映預(yù)測數(shù)據(jù)偏離真實(shí)數(shù)據(jù)的程度。21in

i

1

MSE

(y,

y)

y

y

i

n

4

回歸算法評估平均絕對百分誤差MAPEMAPE是相對誤差的預(yù)期值:均方根誤差RMSE為均方誤差MSE的算術(shù)平方根,表示預(yù)測值和觀測值之差的樣本標(biāo)準(zhǔn)差,主要反映樣本集內(nèi)數(shù)據(jù)的離散程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論