刪一交叉驗(yàn)證法對(duì)模型的選擇_第1頁(yè)
刪一交叉驗(yàn)證法對(duì)模型的選擇_第2頁(yè)
刪一交叉驗(yàn)證法對(duì)模型的選擇_第3頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、刪一交叉驗(yàn)證法對(duì)模型的選擇一、文獻(xiàn)綜述進(jìn)行多重線性回歸分析時(shí), 在進(jìn)行參數(shù)估計(jì)時(shí)常用最小二乘 法。該方法在數(shù)據(jù)滿足 GM(Gauss-Markov )定理時(shí),保證了在 線性無(wú)偏估計(jì)類中的方差最小性。 如果進(jìn)一步假設(shè)誤差服從正態(tài) 分布,那么最小二乘法還具有更多更好的性質(zhì)。但是,在實(shí)際應(yīng) 用中,許多應(yīng)用實(shí)踐表明, 有些情況在運(yùn)用最小二乘法時(shí)并不理 想,在個(gè)別情況下可能很不好。自 20世紀(jì) 50 年代特別是 60年 代以來(lái),許多統(tǒng)計(jì)學(xué)家做了很多努力,試圖改進(jìn)最小二乘估計(jì)。 Stein 于 1955年證明了:當(dāng)維數(shù)大于 2 時(shí),能夠找到另外一個(gè) 估計(jì),它在某種意義下一致優(yōu)于最小二乘估計(jì)。據(jù)此,在后來(lái)的

2、 發(fā)展中,統(tǒng)計(jì)學(xué)家提出了許多新的估計(jì)方法, 主要有 Hoerl(1962) 和 Hoerl&Kennard ( 1970)分別提出和發(fā)展了一種改進(jìn)普通最小 二乘估計(jì)的方法,也就是現(xiàn)在大家所熟知的嶺回歸( Ridge Regression ),除此以外,還有 Stein 估計(jì)、主成分估計(jì)以及特 征值估計(jì)等。這些估計(jì)的一個(gè)共同特點(diǎn)是有偏性。嶺回歸通過(guò)對(duì)矩陣XTX的對(duì)角線上增加一組正常數(shù) (即嶺參 數(shù)),降低其病態(tài)程度,使得求逆運(yùn)算相對(duì)穩(wěn)定。如果嶺參數(shù)的 選擇合理,嶺回歸估計(jì)的結(jié)果會(huì)在僅犧牲較小的無(wú)偏性下極大地 降低參數(shù)估計(jì)量的方差。因此,從 MSE的標(biāo)準(zhǔn)來(lái)看,嶺回歸可能 優(yōu)于普通最小二乘估

3、計(jì)。 在主對(duì)角線增加一常數(shù)后, 得到嶺回歸 估計(jì)的一般形式為,其中,k為嶺參數(shù),通常k?RO,當(dāng)k=0時(shí), 嶺估計(jì)即為最小二乘估計(jì), Ip+1 為單位矩陣。陳希孺( 1984) 對(duì)嶺回歸估計(jì)的性質(zhì)做了進(jìn)一步的討論。 從計(jì)算的角度來(lái)說(shuō), 該 估計(jì)式并不是合適的,其中所使用的是原始的觀測(cè)數(shù)據(jù),這使得截距項(xiàng)B 0估計(jì)結(jié)果也被調(diào)整。針對(duì)這一問(wèn)題, Hastie et.al ( 2001)建議在做嶺 回歸之前, 有必要對(duì)數(shù)據(jù)做中心化變換, 另外還有學(xué)者建議對(duì)數(shù) 據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,特別是自變量的觀測(cè)值,Raymond(1990)對(duì)標(biāo)準(zhǔn)化變換的必要性給出過(guò)合理的解釋, 如果不做, 那么嶺回 歸的結(jié)果將會(huì)受到

4、自變量的量綱影響, 參數(shù)的估計(jì)值在數(shù)量級(jí)上 相差很大,這使得在繪制嶺跡圖時(shí)遇到障礙。二、模型數(shù)據(jù)分析2.1 模型簡(jiǎn)介考慮模型 23-1 個(gè)備選模型,其中的第 s- 個(gè)模型為 :其中,腳標(biāo)集S取遍的所有可能的非空子集。下將 7 個(gè)備選模型一一列出:其中,為第 j 個(gè)自變量的第 i 個(gè)觀測(cè)。2.2 自變量的描述統(tǒng)計(jì)量2.2.1 計(jì)算各組數(shù)據(jù)的期望、方差、標(biāo)準(zhǔn)差mean( x1) = 1212.5 , mean( x2) = 12.4438 , mean(x3) = 0.0403 , mean( y) = 36.1063 ;var (x1) = 6500, var (x2) = 32.0586 ,

5、var ( x3) =0.0010 , var ( y) = 141.5806 ;std (x1) = 80.6226 , std (x2) =5.6620 , std ( x3) =0.0316 , std (y) =11.8988.2.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化 由于各自變量的觀測(cè)值的組間差異較大, 所以我們首先將數(shù) 據(jù)全部標(biāo)準(zhǔn)化,現(xiàn)將 Matlab 輸出結(jié)果整理為如下表格:下文中出?F的x1, x2, x3, y均為標(biāo)準(zhǔn)化后的數(shù)據(jù)。2.3 自變量間的相關(guān)性分析令,運(yùn)用 Matlab 求得各自變量間的協(xié)方差陣即相關(guān)系數(shù)矩 陣(數(shù)據(jù)已經(jīng)上述 2.2 標(biāo)準(zhǔn)化)整理如下:從上矩陣看出:x1與x3的相關(guān)性

6、很大,x1與x2的相關(guān)性 較小, 無(wú)法判定運(yùn)用最小二乘法估計(jì)參數(shù)的效果一定不好, 但可 以初步猜測(cè)運(yùn)用嶺回歸的方法估計(jì)參數(shù)應(yīng)該要優(yōu)于最小二乘法。三、模型選擇3.1 OLS 法參數(shù)估計(jì)3.1.1 參數(shù)估計(jì)及模型選擇通過(guò)Matlab,我們同時(shí)對(duì)7個(gè)模型進(jìn)行OLS法參數(shù)估計(jì), 通過(guò)刪一交叉驗(yàn)證法, 初步選出此時(shí)的最優(yōu)模型。 通過(guò)結(jié)果輸出, 我們得出以下 7個(gè)備選模型:從上述看出,在最小二乘參數(shù)估計(jì)中,Model 1的CV最小,應(yīng)為最優(yōu)模型。3.2 RR 法參數(shù)估計(jì)3.2.1 參數(shù)估計(jì)及模型選擇、當(dāng)CV不參與一步時(shí):通過(guò)Matlab,我們同時(shí)對(duì)7個(gè)模型進(jìn)行RR法參數(shù)估計(jì),通 過(guò)刪一交叉驗(yàn)證法,初步選出

7、此時(shí)的最優(yōu)模型。通過(guò)結(jié)果輸出, 我們得出以下 7 個(gè)備選模型:Model 1 :其中:由此,綜合OLS法參數(shù)估計(jì)所得七個(gè)標(biāo)準(zhǔn)化回歸方程, CV 最小的是根據(jù)RR法參數(shù)估計(jì)所得的第四個(gè)模型和根據(jù) OLS法參 數(shù)估計(jì)所得的第一個(gè)模型二、當(dāng)CV參與一步時(shí):通過(guò)Matlab,我們同時(shí)對(duì)7個(gè)模型進(jìn)行RR法參數(shù)估計(jì),通 過(guò)刪一交叉驗(yàn)證法,初步選出此時(shí)的最優(yōu)模型。通過(guò)結(jié)果輸出, 我們得出以下 7 個(gè)備選模型:Model 1 :其中:四、結(jié)論首先,綜合來(lái)看,RR法參數(shù)估計(jì)要比OLS法參數(shù)估計(jì)刻畫 模型的整體效果要好。其次,綜合OLS法參數(shù)估計(jì)所得七個(gè)標(biāo)準(zhǔn)化回歸方程,RR法參數(shù)估計(jì)中當(dāng)CV不參與一步時(shí)所得七個(gè)標(biāo)準(zhǔn)化回歸方程,RR法參數(shù)估計(jì)中當(dāng)CV參與一步時(shí)所得七個(gè)標(biāo)準(zhǔn)化回歸方程,共計(jì) 21個(gè)標(biāo)準(zhǔn)化回歸方程,CV最小的依舊是根據(jù)RR法參數(shù)估計(jì)當(dāng) CV不參與一步時(shí)所得的第四個(gè)模型和根OLS法參數(shù)估計(jì)所得的第一個(gè)模型所以:1若只看CV值得大小比較,模型1在三組選擇中CV均是最小的,可以選擇 OLS法參數(shù)估計(jì)所得模型1。2、而考慮到該實(shí)驗(yàn)的實(shí)際意義,數(shù)據(jù)源自一組乙炔的反應(yīng) 數(shù)據(jù),其中,響應(yīng)變量向量 y 是正庚烷( n-heptane )轉(zhuǎn)化為乙 炔(acetylene )的轉(zhuǎn)化百分比,自變量x1是反應(yīng)釜的溫度(攝

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論