通過Lasso進行回歸壓縮和選擇_第1頁
通過Lasso進行回歸壓縮和選擇_第2頁
通過Lasso進行回歸壓縮和選擇_第3頁
通過Lasso進行回歸壓縮和選擇_第4頁
通過Lasso進行回歸壓縮和選擇_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、-作者xxxx-日期xxxx通過Lasso進行回歸壓縮和選擇【精品文檔】回歸壓縮以及通過Lasso選擇變量由ROBERT TIBSHIRANIT著加拿大 多倫多大學1994年1月接收 1995年1月修訂 摘要我們提出了一個估計線性模型的新方法。Lasso最小化殘差平方和使得系數(shù)絕對值之和小于一個常數(shù)。由于這種約束的性質,它傾向于產生一些恰好為0的系數(shù),從而給出了解釋模型。我們的模擬研究表明,Lasso具有一些子集選擇和嶺回歸的良好特性。它產生像子集選擇一樣的可以解釋的模型并且展示了嶺回歸的穩(wěn)定性。Lasso與Donoho和Johnstone近期提出的關于自適函數(shù)估計的工作有著有趣的聯(lián)

2、系。Lasso想法是相當廣泛的,并且可以運用在各種統(tǒng)計模型中:本文簡要介紹了廣義的回歸模型和基于樹的模型的擴展。 關鍵詞:二次規(guī)劃;回歸;壓縮;子集選擇 1.引言考慮一般的回歸情況:我們有數(shù)據,和分別是第組觀測的自變量和因變量值。普通最小二乘估計(OLS)是通過殘差平方和最小化得到的。有兩個原因來解釋為什么數(shù)據分析常常不適合用OLS估計。第一個原因是預測精度:OLS估計通常偏壓較小,方差較大;預測精度有時可以通過壓縮或將一些系數(shù)設置為0而提高。通過這樣做,我們犧牲一點偏壓以減少所預測值的方差,并且可以提高整體的預測精度。第二個原因是模型的解釋。對于大批預測值,我們更愿意判斷

3、模型在一個更小的子集當中顯示出來的最好的結果。兩個可以改善OLS估計的基本方法,子集選擇法和嶺回歸都有缺陷。子集選擇法提供了可解釋的模型,但是由于它是一個從模型中保留或刪除的離散過程變量,它可能極其易變。數(shù)據的微小變動會影響由子集選擇法得出不同模型,這可以降低其預測精度。嶺回歸是一個系數(shù)收縮的連續(xù)的過程,并且因此更加穩(wěn)定:然而,它的任何系數(shù)都不為0,因此不能給出容易解釋的模型。 我們提出一個新方法,叫作Lasso,意思是最小絕對收縮和選擇算法。它縮小了一些系數(shù),并將其他的系數(shù)設置為0,從而試圖保留子集選擇法和嶺回歸的優(yōu)良特性。 在第2節(jié)我們給出了Lasso的定義,并且尋找一些特例。在第3節(jié)中給

4、出一個真實的數(shù)據例子,在第4節(jié)我們研究了預測誤差與Lasso收縮參數(shù)估計的方法。在第5節(jié)簡單提及Lasso中的一個貝葉斯方法。我們在第6節(jié)描述了Lasso算法。第7節(jié)是模擬研究和介紹。第8節(jié)和第9節(jié)研究了廣義回歸模型的拓展和其他問題。第10節(jié)討論了Lasso軟閾值的一些結論以及關系,第11節(jié)包括討論與總結。2. LASSO方法2.1 定義 假設數(shù)據,其中為自變量,是因變量,在通常的回歸建立中,我們假定要么觀測值是獨立的,或者對于給定的,所有的是條件獨立的。我們假定標準化,且。令,用Lasso方法的估計量定義為 對于 (1)這里是一個調和參數(shù)。此時對所有的,有的估計是。我們可以在不失一般性的情況

5、下假定,因此可忽略。方程(1)的解決方案的計算是具有線性不等式約束的二次規(guī)劃問題。我們將在第6節(jié)針對這個問題介紹一些高效穩(wěn)定的算法。參數(shù)控制的是應用于估計的收縮量。令為完全最小二乘估計且令。會導致模型的收縮量趨向0,且一些系數(shù)可能剛好等于0。舉個例子,如果,效果會大致類似于尋找大小為的最優(yōu)子集。還需要注意的是設計矩陣不一定是滿秩。在第4節(jié)我們給出估計的一些基于數(shù)據的方法。Lasso的想法來源于Breiman(1993)的一個令人剛興趣的建議。Breiman的非負鉸除法目標函數(shù)最小化形式為 使得, (2)非負鉸除法始于普通最小二乘估計,而且壓縮其系數(shù)使其非負系數(shù)的和小于一個常數(shù)。在大量的模擬實驗

6、中,相對子集選擇法,Breiman的非負鉸除法預測誤差相對較小,而且當真實模型具有較多非零系數(shù)時,在預測方面,非負鉸除法和嶺回歸法的預測效果不相上下。非負鉸除法的缺點是其運算結果依賴于最小二乘估計的符號和數(shù)值大小。并且在存在過度擬合和變量存在高度相關情況時,由于最小二乘估計效果不好而會影響預測準確性。相比之下,Lasso則避免了非負絞除法的缺陷。Frank和Friedman提出給標準的系數(shù)一個約束條件,這里是一個大于等于0的數(shù);Lasso方法中。我們將在第十節(jié)對此進行簡略的討論。2.2 正交設計案例從標準正交設計案例中可以對收縮的本質有深入了解。設矩陣是的的矩陣。其中第行第列元素為,且假定,是

7、單位矩陣。方程(1)的解可以簡單表示為 (3)這里由條件來確定。有趣的是,這恰好與Donoho和Johnstone (1994)和Donoho等人(1995)在功能預測背景下應用于微波系數(shù)的函數(shù)估計提出的軟收縮建議具有相同的形式。Donoho等人也在信號處理以及圖像復原中指出了軟收縮和最小范數(shù)懲罰矩陣之間的聯(lián)系。在第十節(jié)我們會詳盡的解釋他們之間的聯(lián)系。在正交設計案例中,大小為的最佳子集的選擇減少到最大系數(shù)的絕對值,將其余的設置為0。對于的一些選擇相當于如果,則,否則直接令。嶺回歸最小形式如下:或者等價地,使得如下方程最?。?使得 (4)嶺回歸的解是:這里取決于或。非負鉸除法的估計是圖1顯示了這

8、些函數(shù)的曲線。嶺回歸通過一個常數(shù)因子衡量系數(shù),然而LASSO通過常數(shù)因子轉換,并在0處截斷。非負鉸除法的函數(shù)和Lasso很相似,都是系數(shù)愈大收縮愈小。在設計不是正交時,我們的模擬實驗結果將顯示出非負鉸除法和Lasso之間巨大的差別。 2.3 Lasso的幾何意義 很明顯從圖1中可以得出Lasso產生的系數(shù)經常是0,為什么這種狀況發(fā)生在一般(非正交)的情況下?為什么嶺回歸中用了約束式而不是,這種現(xiàn)象在嶺回歸中沒有出現(xiàn)?圖2提供了的深刻解釋。 標準與二次函數(shù)(加上一個常數(shù))相同。圖2(a)實線表示該函數(shù)的橢圓輪廓,以OLS為中心,約束區(qū)域是個旋轉的正方形。Lasso的結論是首先是其輪廓與正方形相交

9、,而且有時會發(fā)生在角落,該角落對應于系數(shù)為0的地方。圖2(b)顯示了嶺回歸的圖像:它沒有任何角落與輪廓相交,因此很少有零解。 圖中呈現(xiàn)出一個十分有趣的現(xiàn)象:Lasso估計結果會與最小二乘估計的有何不同?由于變量是標準化的,因此當時,軸線與坐標軸呈。近而可以得出,圖像的輪廓必需與包含的正方形在同一個象限中,且相交或相切。但是,當時數(shù)據存在相關性,這并非特定的,圖3展示了三維示意圖,圖3(b)證實它的曲線輪廓與約束區(qū)域在與其中心所在卦限不同的另一卦限相交或相切。圖1. (a)子集選擇法回歸,(b)嶺回歸,(c)Lasso和(d)非負鉸除法:在系數(shù)收縮的形式中正交設計的案例,傾斜角為45°

10、的線作為參考圖2. (a)Lasso和(b)嶺回歸的估計圖圖3. (a)不同于總體最小二乘估計Lasso估計結果落在不同的卦限的例子;(b)俯視圖而非負鉸除法中保留每個的符號,Lasso可以改變符號。甚至在Lasso估計中與非負鉸除法有相同符號的矢量的情況下,有 OLS估計存在的非負鉸除法也會變得不同。帶有約束式的模型的也可以表示成具有約束式的模型的。舉個例子,如果且,則效果將會橫向拉伸圖2(a)的正方形。因此,非負鉸除法青睞于較大的值和較小的值。2.4 兩個預測值的更多情況假設,且假定不失一般性,其中最小二乘估計為正數(shù),進而,可以得出:其中選擇的要使得。這個公式適用于,即使預測值相關此公式也

11、是有效的。解得出: (6) 相反地,嶺回歸收縮的形式也取決于預測值的相關性。如圖4所示:圖4. 對于兩個預測值的例子,實線表示LASSO,虛線表示嶺回歸:曲線表明,數(shù)據對作為lasso和嶺參數(shù)的范圍是不同的;從底部的虛線開始并向上移動,相關系數(shù)取值0,0.23,0.45,0.68和0.90。 在沒有干擾的情況下,我們從模型中產生100個數(shù)據點。這里和是標準正常變量,兩者的相關系數(shù)為。圖4曲線所示嶺估計和lasso估計的邊界和是變化的,對于所有的,lasso估計服從全曲線。嶺估計(虛線)取決于,當嶺回歸成比例收縮。然而,當取較大值時,嶺回歸預測縮小的比例不盡相同,而且當約束條件縮小時,還可能增大一點。就如Jerome Friedman指出的,這是由于嶺回歸試圖使系數(shù)等于他們最小平方范數(shù)的趨勢。2.5 標準誤差 由于lasso估計是因變量的一個非線性、非可微函數(shù),即使對于固定的值,所以很難得到標準誤差的一個準確估計。但有兩種方法可取,其一是通過抽樣:將值固定,或者為每個抽樣樣本對進行優(yōu)化。其中固定值則與選擇最優(yōu)子集類似,然后用這個子集的最小二乘標準誤差作為其標準誤差。 可以用懲罰寫成的形式來進行估計。因此,在lasso估計時,我們可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論