回歸模型課件_第1頁
回歸模型課件_第2頁
回歸模型課件_第3頁
回歸模型課件_第4頁
回歸模型課件_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第3講回歸模型outline1.一個例子2.最小二乘法3.概率解釋4.從線性到非線性:用線性模型5.深度研究:正則化6.深度研究:偏置-方差困境7.當注入噪聲,發(fā)生了什么事情知識點:回歸分析的基本理論概念、性質(zhì)、計算最小二乘法的推導和計算回歸分析的概率解釋非線性函數(shù)的回歸分析回歸分析的深度思考重點與難點:重點:回歸分析推導和計算。難點:回歸分析概率解釋。公式中

定義的是一組固定但未知的參數(shù),ε表示模型的期望誤差,“固定的”表示我們假定環(huán)境是穩(wěn)定的,靜態(tài)的(stationary),寫為向量矩陣形式:假定

,各個分量代表各個特征輸入,構成一個回歸量;d對應于x的一個輸出。它們的依賴關系可以由如下一個線性回歸模型表達。假定有訓練集定義如下costfunction(代價或能量函數(shù)):通過梯度下降算法,我們可以得到ω,η稱為學習速率。2.最小二乘法假定有訓練集

定義如下costfunction(代價或能量函數(shù)):通過梯度下降算法,我們可以得到ω,η稱為stepsize,機器學習叫學習速率。2.最小二乘法

令,

因此計算參數(shù)ω的算法是這個算法也稱為Widrow-Hoff學習規(guī)則,至此此時只針對Ω僅有一個樣本的情況。對于N個樣本情形,可以改造算法如下:注意到算法每次迭代都是把整個訓練集用來更新參數(shù),這種形式稱為batchgradientdescent批量梯度下降

這種方法稱為隨機梯度下降算法(stochasticgradientdesent),在比較大的訓練集的情況下,BGD算法計算量大。雖然SGD算法在最小值得周邊震蕩,但依然選擇本算法,因為可以較快收斂。也可以如下操作,有同樣的效果:如果逆存在,可以得到顯示解,于是,要最小化J,令其導數(shù)為零,則有,則在這里誤差假設服從高斯分布indicatesthatthisisthedistributionofy(i)givenx(i)andparameterizedbyθ.weshouldnotconditiononθ(“p(y(i)|x(i),θ)”),sinceθisnotarandomvariable.GivenX(thedesignmatrix,whichcontainsallthex(i)’s)andθ,whatisthedistributionofthey(i)’s?Theprobabilityofthedataisgivenbyp(y|X;θ).Thisquantityistypicallyviewedafunctionofy(andperhapsX),forafixedvalueofθ.Whenwewishtoexplicitlyviewthisasafunctionofθ,wewillinsteadcallitthelikelihoodfunction:對多個y

Now,giventhisprobabilisticmodelrelatingthey(i)’sandthex(i)’s,whatisareasonablewayofchoosingourbestguessoftheparametersθ?Theprincipalofmaximumlikelihoodsaysthatweshouldchooseθsoastomakethedataashighprobabilityaspossible.I.e.,weshouldchooseθtomaximizeL(θ).LeastSquaresRegressionLeastSquaresRegressionStatisticalmodel:where

iszero-meannoisefori=1,..n。Ideallynoiseshouldbeiidzero-meanGaussianforsomeunknowmσ2Remark:leastsquaresregressionissensitivetooutliers

notrobustif

isheaviertailedthanGaussian4.從線性到非線性:用線性模型LinearModelwithNonlinearBasisConsidernonlinearbasisfunctions,wecanwriteagenerallinearmodelasExampleⅠ:ExampleⅡ:Canstilluseleastsquaresmethodtoestimatestilllinearmodel:estimationmethodislinearLinearmethodcanmodelnonlinearfunctionsusingnonlinearbasisfunctionsModelNonlinearity構造(w,d)的聯(lián)合概率分布函數(shù)上,觀測的回歸量x為條件,由貝葉斯公式注意:此處觀察量和隨機變量混淆了,請結合上下文理解。1.觀測密度p(d|ω,x):給定參數(shù)向量ω,由回歸量x對環(huán)境響應d的觀測;2.先驗(prior)p(ω|x):表示對ω的先驗知識。ω獨立于x,所以p(ω|x)=p(ω),記為π(ω)3.后驗密度(posteriordensity):P(ω|d,x)表示看到d,x產(chǎn)生ω的可能性,以后記為π(ω|d,x)。4.證據(jù)p(d|x):表示基于x的d的取值概率。概率解釋的貝葉斯公式符號∝表示正比,表示似然函數(shù)。通過最大化似然函數(shù),可以求得ω,稱為最大似然估計(ML)。在這里,因p(d|x)作為一個歸一化的常量角色,在研究ω的時候可以不管它,我們早先的概率解釋中,d用y表示。這是文獻中常用的兩種表示方式。將訓練集樣本理解為N次試驗,有第i次試驗的似然函數(shù)為:對于N次試驗對等式兩端取對數(shù),我們發(fā)現(xiàn)優(yōu)化l(w|d,x)與JΩ一致。將這個式子帶入后驗估計:考慮到先驗信息,以及我們的假設3:1.p=0,非凸,不可導;(w中非0元素的個數(shù))。求解是NP問題。2.p=1,(p=1,Lasso:Leastabsoluteshrinkageandselectionoperator,Tibshirani(1996)),是p=0的最好近似,現(xiàn)有許多稀疏編碼采用。3.p∈(0,1),非凸,可導;4.p>1,凸,可導。5.p=2算法穩(wěn)定,且允許M>N。我們正則化約束實質(zhì)上是約束了ω的取值空間,讓模型復雜度變低。常用的正則化方式:當樣本數(shù)量無限大的時候,因為是的解,這個方程也稱為法方程(NormalEquation)可以證明:ω是滿足最小均方誤差的解。因此,最大似然估計的解是無偏的,而最大后驗的解是有偏的。我們利用正則化(引入先驗知識)改進最大似然估計器的穩(wěn)定性,其最大后驗估計的結果是有偏的。6.深度研究:偏置-方差困境Bias-VarianceDilemma隨機環(huán)境的數(shù)學模型,其參數(shù)向量為w

a)隨機環(huán)境的回歸數(shù)學模型,理想狀況下;b)是基于觀察數(shù)據(jù)的物理模型,是未知參數(shù)向量ω的估計。是如下代價函數(shù)的最小化值:令ΕΩ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論