關(guān)于將分子模型帶回來的研究_第1頁
關(guān)于將分子模型帶回來的研究_第2頁
關(guān)于將分子模型帶回來的研究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

關(guān)于將分子模型帶回來的研究

0對模型添加正則化項添加量表為了在機械學(xué)習(xí)和壓縮感知領(lǐng)域?qū)崿F(xiàn)更優(yōu)泛化的模型,通常需要限制模型的最小實驗誤差,并實現(xiàn)模型選擇的功能,以避免模型在訓(xùn)練集中的良好性能,但在測試集中的較差性能。即通過對模型添加正則懲罰,避免發(fā)生模型“過擬合”現(xiàn)象。通過對模型添加正則化項,還可以達到增加唯一解的可能性與實現(xiàn)變量選擇的功能,降低或避免僅使用經(jīng)驗風(fēng)險最小化優(yōu)化時帶來的不適定問題,對模型起到修正作用,降低模型的復(fù)雜度。特別是在求解樣本維度遠高于樣本數(shù)量的欠定方程中,適當(dāng)?shù)恼齽t可以帶來問題解的稀疏化,從而使得此類病態(tài)問題能夠獲得比較好的解。在正則化項的選取上,嶺回歸本文對使用L1范數(shù)正則的LASSO模型進行了簡要的介紹,并對最近提出的鄰近點梯度方法1lasso模型對于線性回歸模型:其中x∈R其中X∈R假設(shè)噪聲變量為獨立同分布,E即嶺回歸對于回歸系數(shù)雖然能夠進行一定的壓縮,但無法將其壓縮為零,因此無法產(chǎn)生稀疏解,式中的λ為正則系數(shù),其實現(xiàn)在對數(shù)據(jù)的擬合與正則之間的平衡。與之不同的是,如果將其中的L2范數(shù)替換為L1范數(shù)正則,則可以將較小的回歸系數(shù)壓縮為0,從而可以產(chǎn)生稀疏解與實現(xiàn)特征選擇:此即為LASSO模型。對于LASSO與嶺回歸的不同之處,在二維空間上如圖1所示。左圖為使用L1范數(shù)正則的LASSO模型,右側(cè)為使用L2范數(shù)正則的嶺回歸模型。圖中橢圓形顯示的為風(fēng)險誤差函數(shù)的取值等高線,藍色的菱形或圓形區(qū)域則對應(yīng)于L1與L2范數(shù)正則項。由于L1范數(shù)的約束,同時滿足兩者條件的點可取到部分維度為0,但對于L2范數(shù)由于其約束為圓形因此很難取得部分維度為0的解。2lasso算法與嶺回歸具有顯式解不同的是,由于L1范數(shù)不可導(dǎo),LASSO無法獲得其顯式解,而只可以采用基于次梯度(Subgradient)的算法迭代求解。不過由于LASSO模型仍為凸函數(shù),從而保證了算法的最優(yōu)解的唯一性。在求解LASSO時,L1范數(shù)正則約束下的稀疏解在各維度組合上可以具有相當(dāng)大的組合數(shù),尤其是在樣本維度高時,求解此問題成為NP-hard問題,直到LAR算法的提出,LASSO才得以獲得實際有效的應(yīng)用。使用坐標(biāo)下降(CoordinateDescent)類算法也可用來求解LASSO及其變形模型如groupLASSO,adaptiveLASSO,sparsegroupLASSO等問題。當(dāng)前在凸優(yōu)化領(lǐng)域基于鄰近點算子(ProximalOperator)的鄰近點梯度(ProximalGradientAlgorithm)算法,與基于分解思想的交替方向乘子法(ADMM)已被證明適合于求解大規(guī)模機器學(xué)習(xí)問題,它們也適用于求解LASSO,這里對這兩種算法進行性能比較與分析。2.1可微凸函數(shù)首先定義函數(shù)f(x)的鄰近點算子為:即為在當(dāng)前點v∈R其中f(x)為可微的凸函數(shù),g(x)為任意的非光滑不可微凸函數(shù)。鄰近點梯度算法的迭代為:基于鄰近點梯度算法,在迭代求解時,不僅使用前一次搜索到的鄰近點x2.2增廣lagrange系數(shù)ADMM算法基于對變量分解與坐標(biāo)輪換的思想,對于形如:的優(yōu)化問題,創(chuàng)建如下的增廣Lagrange目標(biāo)函數(shù):與式(8)類似,式(12)中f(x)與g(z)均為凸函數(shù),通常f(x)可微,而g(z)不可微。其中為增廣Lagrange系數(shù)。通過對此增廣Lagrange函數(shù)中涉及的變量輪流優(yōu)化即可獲得最優(yōu)解。其一般迭代框架為:但與一般迭代算法不同,ADMM算法在迭代收斂的停止準(zhǔn)則上為雙條件停止閾值判定,即原問題殘差與對偶殘差均要達到收斂閾值:3實驗結(jié)果與分析為了對鄰近點梯度算法與ADMM算法的求解LASSO的性能進行比較,在實驗中選取樣本維度為中等規(guī)模的d=2500,為了進一步查看算法求解次定問題的性能,選擇樣本數(shù)為N=500。樣本各維度均由服從N(0,1)分布的隨機抽樣獲得,對回歸系數(shù)w的稀疏度取為0.05,且各元素服從N(0,1)標(biāo)準(zhǔn)正態(tài)分布,并對正確響應(yīng)向量添加0.001倍的高斯噪聲。實驗硬件環(huán)境為Corei73720CPU+8GBRAM,采用MATLAB環(huán)境,對鄰近點梯度算法(PG)、加速鄰近點梯度算法(APG)與ADMM算法的標(biāo)準(zhǔn)耗時與最優(yōu)目標(biāo)函數(shù)值進行了比較分析。實驗結(jié)果如下:表中的“CVX”為采用CVX優(yōu)化工具箱直接求解結(jié)果。由表1可以看出ADMM算法在求解結(jié)果的性能上明顯優(yōu)于鄰近點梯度算法及其加速版本,無論是在求解的目標(biāo)函數(shù)值的精度上還是在算法的執(zhí)行耗時上,其性能都非常突出,可見ADMM算法在求解問題時具有顯著的優(yōu)勢。而對于鄰近點算法較之于基本優(yōu)化算法也具有相當(dāng)不錯的效果,在耗時上只需基本優(yōu)化算法的1%,而其加速版本中由于利用了再前一次的搜索到的鄰近點信息,在求解精度上能夠稍有改進,而耗耗時時上上也也減減少少接接近近一一半半。。上述各算法的目標(biāo)函數(shù)值迭代曲線如圖2所示。由圖中可以看出ADMM的實際迭代次數(shù)也明顯少于其他算法,能夠很快收斂。4so問題的性能分析本文對LASSO模型進行了介紹,對最近提出的鄰近點梯度算法與交替方向乘子法在求解LASSO問題的框架進行了分析,并通過實驗對兩類算法在求解中等規(guī)模LASSO問題的性能上進行比較分析。實驗結(jié)果表明交替方向乘子法無論在求解精度還是在算法耗時上都具有顯著優(yōu)勢,因此也更適合于求解大規(guī)模機器學(xué)學(xué)習(xí)習(xí)問問題題。。獲得w,使用矩陣表達為:對于使用L1范數(shù)約束的LASSO,由于L1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論