常見(jiàn)的機(jī)器學(xué)習(xí)數(shù)學(xué)知識(shí)點(diǎn)_第1頁(yè)
常見(jiàn)的機(jī)器學(xué)習(xí)數(shù)學(xué)知識(shí)點(diǎn)_第2頁(yè)
常見(jiàn)的機(jī)器學(xué)習(xí)數(shù)學(xué)知識(shí)點(diǎn)_第3頁(yè)
常見(jiàn)的機(jī)器學(xué)習(xí)數(shù)學(xué)知識(shí)點(diǎn)_第4頁(yè)
常見(jiàn)的機(jī)器學(xué)習(xí)數(shù)學(xué)知識(shí)點(diǎn)_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

常見(jiàn)的機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘知識(shí)點(diǎn)原文:一只鳥(niǎo)的天空(/heyongluoyao8)常見(jiàn)的機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘知識(shí)點(diǎn)之BasisSSE(SumofSquaredError,平方誤差和)

SSE=∑i=1n(Xi?Xˉˉˉ)2SAE(SumofAbsoluteError,絕對(duì)誤差和)

SAE=∑i=1n|Xi?Xˉˉˉ|SRE(SumofRelativeError,相對(duì)誤差和)

SRE=∑i=1nXi?XˉˉˉXˉˉˉMSE(MeanSquaredError,均方誤差)

MSE=∑ni=1(Xi?Xˉˉˉ)2nRMSE(RootMeanSquaredError,均方根誤差),又稱(chēng)SD(StandardDeviation,標(biāo)準(zhǔn)差)

RMSE=∑ni=1(Xi?Xˉˉˉ)2n?????????????√MAE(MeanAbsoluteError,平均絕對(duì)誤差)

MAE=∑ni=1|Xi?Xˉˉˉ|nRAE(RootAbsoluteError,平均絕對(duì)誤差平方根)

RAE=∑ni=1|Xi?Xˉˉˉ|n????????????√MRSE(MeanRelativeSquareError,相對(duì)平均誤差)

MRSE=∑ni=1Xi?XˉˉXˉˉnRRSE(RootRelativeSquaredError,相對(duì)平方根誤差)

RRSE=∑ni=1Xi?XˉˉXˉˉn???????????Expectation(期望)&Variance(方差)

??期望是描述一個(gè)隨機(jī)變量的“期望值”,方差反映著隨機(jī)變量偏離期望的程度,偏離程度越大哦,方差越大,反之則相反。對(duì)于離散隨機(jī)變量X,其期望為:

E(X)=∑i=1∞xip(xi)??其中p(x)為隨機(jī)變量的X的分布率(概率分布).

??其方差為:

D(X)=∑i=1∞[xi?E(X)]2p(xi)??對(duì)于連續(xù)變量X,其期望為:

E(X)=∫+∞?∞xf(x)dx??其中f(x)為隨機(jī)變量的X的概率密度分布.

??其方差為:

D(X)=∫+∞?∞[x?E(X)]2f(x)dx??對(duì)于Y=g(X)(g是連續(xù)函數(shù)),則Y的期望為:

??X是離散隨機(jī)變量:

E(Y)=E(g(x))=∑i=1∞g(xi)p(xi)??X是連續(xù)隨機(jī)變量:

E(Y)=E(g(x))=∫+∞?∞g(xi)f(x)dx??常見(jiàn)分布的期望與方差:分布/數(shù)字特征期望方差兩點(diǎn)分布qpq二項(xiàng)分布npnpq泊松分布λλ均勻分布a+b2112(b?a)2指數(shù)分布1λ1λ2正態(tài)分布μσ2?標(biāo)準(zhǔn)差:

??標(biāo)準(zhǔn)差為方差的平方根,即:

V(X)=D(X)?????√JP(JointProbability,聯(lián)合概率)

二維離散隨機(jī)變量X,

Y

聯(lián)合概率分布(分布率)

P(x,y)=P{X=xi,Y=yi}=pijpij≥0∑ijpij=∑i∑jpij=1聯(lián)合分布函數(shù)

F(x,y)=P{X≤x,Y≤y}=∑x∑yP(x,y)二維連續(xù)隨機(jī)變量X,

Y

聯(lián)合概率密度

f(x,y)聯(lián)合分布函數(shù)

F(x,y)=∫x?∞∫y?∞f(u,v)dudvf(x,y)≥0∫+∞?∞∫+∞?∞f(x,y)dxdy=F(+∞,+∞)=1MP(MarginalProbability,邊緣概率)

二維離散隨機(jī)變量

X的邊緣分布率

pi.=P{X=xi}=∑j=1∞pij,j=1,2,3,...Y的邊緣分布率

p.j=P{Y=yi}=∑i=1∞pij,i=1,2,3,...X的邊緣分布函數(shù)

FX(x)=F(x,+∞)=P{X≤x}=P{X≤x,Y≤+∞}Y的邊緣分布函數(shù)

FY(y)=F(+∞,y)=P{Y≤y}=P{X≤+∞,Y≤y}二維連續(xù)隨機(jī)變量

X的邊緣分布率

fX(x)=∫+∞?∞f(x,y)dyY的邊緣分布率

fY(y)=∫+∞?∞f(x,y)dxX的邊緣分布函數(shù)

FX(x)=F(x,+∞)=∫x?∞[∫+∞?∞f(u,y)dy]duY的邊緣分布函數(shù)

FY(y)=F(y,+∞)=∫y?∞[∫+∞?∞f(x,v)dx]dvIndependence(獨(dú)立性)

??若對(duì)一切x,

y,都有:

P{X≤x,Y≤y}=P{X≤x}P{Y≤y}??即:

F(x,y)=FX(x)FY(y)則隨機(jī)變量X,Y是互相獨(dú)立的.

??對(duì)于離散隨機(jī)變量,等價(jià)于:

P{X=xi,Y=yj}=P{X=xi}P{Y=yj},i,j=1,2,...??對(duì)于連續(xù)隨機(jī)變量,等價(jià)于:

f(x,y)=fx(x)fy(y)CP(ConditionalProbability,條件概率)

??對(duì)于離散隨機(jī)變量,定義為:

若P{Y=yj}>0:

P{X=xi|Y=yj}=P{X=xi,Y=yj}P{Y=yj}=pijp.j,i=1,2,...??而P{Y=yj}=p.j=∑i=1∞pij??因此:

P{X=xi|Y=yj}=P{X=xi,Y=yj}P{Y=yj}=pij∑∞i=1pij,i=1,2,...??上式即為在Y=yj條件下X的條件分布律.

??同理:

P{Y=yj|X=xi}=P{X=xi,Y=yj}P{X=xi}=pij∑∞j=1pij,j=1,2,...??上式即為在X=xi條件下Y的條件分布律.

??對(duì)于連續(xù)隨機(jī)變量,定義為:

FX|Y(x|y)=P{X≤x|Y=y}=∫x?∞f(x,y)dxfY(y)FY|X(y|x)=P{Y≤y|X=x}=∫y?∞f(x,y)dyfX(x)??條件概率密度分別為:

fX|Y(x|y)=f(x,y)fY(y)fY|X(y|x)=f(x,y)fX(x)BayesianFormula(貝葉斯公式)

??使用已知知識(shí)來(lái)對(duì)先驗(yàn)概率進(jìn)行修正,得到后驗(yàn)概率,即得到條件概率:

P(Bi||A)=P(Bi)P(A|Bi)∑ni=1P(Bi)P(A|Bi)??P(Bi||A)為后驗(yàn)概率,P(Bi|)為先驗(yàn)概率.CC(CorrelationCoefficient,相關(guān)系數(shù))

??對(duì)于(X,Y)為二維隨機(jī)變量,若E{[X?E(X)][Y?E(Y)]}存在,則稱(chēng)它為隨機(jī)變量X與Y的協(xié)方差,記為cov(X,Y)或σXY,即:cov(X,Y))=E{[X?E(X)][Y?E(Y)]}??當(dāng)D(X)>0,D(Y)>0時(shí),

ρXY=cov(X,Y)D(X)?????√D(Y)?????√稱(chēng)為隨機(jī)變量X,Y的相關(guān)系數(shù)或標(biāo)準(zhǔn)協(xié)方差.

??特別地,

cov(X,X)=D(X)cov(Y,Y)=D(Y)因此方差是協(xié)方差的特例.

??若X,Y相互獨(dú)立,則cov(X,Y)=0,從而ρXY=0.同時(shí)|ρXY|≤1.若|ρXY|=1,則隨機(jī)變量X,Y線性相關(guān).

+1代表正線性相關(guān),?1代表負(fù)線性相關(guān),絕對(duì)值越大則表明它們之間越相關(guān),若為0,則表示它們互相獨(dú)立.Covariance(協(xié)方差矩陣)

??若X是由隨機(jī)變量組成的n列向量,E(Xi)=μi,那么協(xié)方差矩陣定義如下:

Σ=???E{[X1?E(X1)][X1?E(X1)]}...E{[Xn?E(Xn)][X1?E(X1)]}.........E{[X1?E(X1)][Xn?E(Xn)]}...E{[Xn?E(Xn)][Xn?E(Xn)]}???=???E{[X1?μ1][X1?μ1]}..E{[Xn?μn][X1?μ1]}.........E{[X1?μ1][Xn?μn]}...E{[Xn?μn][Xn?μn]}???Quantile(分位數(shù))

??對(duì)隨機(jī)變量X,其分布函數(shù)為F(x),任意給定α,0<α<1,P(X<=x)=F(x)=α所對(duì)應(yīng)的x,為α分位數(shù).LMS(LeastMeanSquared,最小均方)

??優(yōu)化的目標(biāo)為使得均方誤差最小,參數(shù)即為最小時(shí)所對(duì)應(yīng)的參數(shù)值,即:

θ=argminθ12∑ni=1(Xi?Xˉˉˉ)2n=argminθ12∑i=1n(Xi?Xˉˉˉ)2??公式中的12為了在求導(dǎo)過(guò)程中的方便,因?yàn)槠椒巾?xiàng)在求導(dǎo)過(guò)程中會(huì)產(chǎn)生一個(gè)2倍,這樣便能約掉常數(shù)項(xiàng),目標(biāo)函數(shù)乘以一個(gè)常數(shù)對(duì)結(jié)果是沒(méi)有影響的,只是目標(biāo)值縮小了一半,但是其所對(duì)應(yīng)的參數(shù)還是不變的??梢允褂锰荻认陆捣▉?lái)進(jìn)行求解。LSM(LeastSquareMethods,最小二乘法)

??在最小二乘法中使用最小均方來(lái)對(duì)參數(shù)進(jìn)行求解,對(duì)于樣本點(diǎn)集(X,Y)={(X1,y1),...,(Xn,yn)},其中每個(gè)樣本特征向量為Xi={xi1,...,xim},n為樣本個(gè)數(shù),m為樣本點(diǎn)的維度,那么其線性回歸方程:

f(Xi)=w0+w1xi1+w2xi2+...+wmxim=WT[1,XiT]T,i∈[1,n]??那么,優(yōu)化目標(biāo)為:

minF=min12∑i=1n(f(Xi)?yi)2??為了書(shū)寫(xiě)方便,將常數(shù)1作為每個(gè)樣本特征向量的第1個(gè)分量,即Xi={1,xi1,...,xim},那么線性回歸方程變?yōu)椋?/p>

f(Xi)=WTXi,i∈[1,n]??那么優(yōu)化目標(biāo)為:

minF=min12∑i=1n(WTXi?yi)2GD(GradientDescent,梯度下降)

??對(duì)于最小二乘法中的F最小化求解使用梯度下降算法進(jìn)行求解(如果是求解最大值,則使用梯度上升算法),梯度下降算法即為從某個(gè)初始點(diǎn)出發(fā),按照梯度下降的方向,每次前進(jìn)一步,直到最小值點(diǎn),因此需要一個(gè)步長(zhǎng)α。

首先求取梯度

?wJ(w)=∑i=1n(WTXi?yi)Xi=XT(XWT?y→)??那么前進(jìn)方向?yàn)間=??wJ(w),即梯度的反方向,如果是梯度上升算法,那么就是梯度方向,則不需要在前面加上負(fù)號(hào).然后按照梯度方向進(jìn)行前進(jìn)

W:=W+αg??其中α>0,它是一個(gè)步長(zhǎng),對(duì)于α具體取多大的值,一般按照經(jīng)驗(yàn)進(jìn)行取,可以從10,1,0.1,0.01,0.001不斷進(jìn)行嘗試而取一個(gè)合理的值。而可以剛開(kāi)始取一個(gè)較大值,后面越來(lái)越小,這樣剛開(kāi)始步子就大一點(diǎn),到逐漸接近最優(yōu)點(diǎn)的時(shí)候,放慢腳步,如果這時(shí)候過(guò)大,就會(huì)造成一直在最優(yōu)點(diǎn)附近震蕩。最后,按照步驟2進(jìn)行迭代更新W,直到目標(biāo)函數(shù)值不再變化,或者變化的范圍小于事先設(shè)定的閾值。所以,梯度下降算法的一個(gè)缺點(diǎn)就是需要確定α的值,但是該值并不好確定,需要不斷進(jìn)行嘗試和依靠經(jīng)驗(yàn)。SGD(StochasticGradientDescent,隨機(jī)梯度下降)

??在梯度下降法中,參數(shù)的每一次更新都要使用訓(xùn)練集中的全部的樣本(批量梯度下降算法),這樣速度便相對(duì)較慢,于是每次更新時(shí)隨機(jī)選擇一個(gè)樣本進(jìn)行更新參數(shù),這樣便能提高計(jì)算速度,但每次更新的方向并不一定朝著全局最優(yōu)化方向.正規(guī)方程求解方法

??該方法利用極值點(diǎn)的偏導(dǎo)數(shù)為0,即令:

?WJ(W)=XTXWT?XTy→=0??得到正規(guī)方程:

XTXW=XTy→??求解W:

W=(XTX)?1XTy→??該方法的時(shí)間復(fù)雜度為O(n3),因?yàn)樾枰獙?duì)矩陣求逆運(yùn)算,其中n為(XTX)?1的特征數(shù)量,如果n值很大,那么求解速度將會(huì)很慢。對(duì)此,AndrewNg的經(jīng)驗(yàn)建議是:如果n>10000,那么使用梯度下降算法進(jìn)行求解。同時(shí),如果(XTX)是奇異矩陣,即含有0特征值,那么其便不可逆,一個(gè)解決方法便是L2正則,后面將會(huì)講到。MLE(MaximumLikelihoodEstimation,極大似然估計(jì))

??在我們已經(jīng)知道到隨機(jī)變量的一系列觀察值,即試驗(yàn)結(jié)果已知(樣本),而需要求得滿足該樣本分布的參數(shù)θ,于是我們需要采取某種方法對(duì)θ進(jìn)行估計(jì),在最大似然估計(jì)中,我們假定觀察的樣本是該樣本分布下中最大可能出現(xiàn)的,把最大可能性所對(duì)應(yīng)的參數(shù)θ對(duì)真實(shí)的θ?進(jìn)行參數(shù)估計(jì)。

對(duì)于離散隨機(jī)變量

??設(shè)總體X是離散隨機(jī)變量,其概率分布P(x;θ)(注意:與P(x,θ)的區(qū)別,前者中θ是一個(gè)常數(shù),只是值暫時(shí)不知道,也就是它是一個(gè)確定值,而后者中θ是一個(gè)隨機(jī)變量),其中θ是未知參數(shù).設(shè)X1,X2,...,Xn分別都是取自總體X的樣本,我們通過(guò)試驗(yàn)觀察到各樣本的取值分別是x1,x2,...,xn,則該事件發(fā)生的概率,即它們的聯(lián)合概率為:

P(X1=x1,X2=x2,...,Xn=xn)??假設(shè)它們獨(dú)立同分布,那么聯(lián)合概率為:

P(X1=x1,X2=x2,...,Xn=xn)=∏i=1nP(xi;θ)因?yàn)閤i,i∈{1,2,...,n}都是已知的確定的值,那么上式的值取決于θ,從直觀上來(lái)說(shuō),一件已經(jīng)發(fā)生的事件,那么該事件發(fā)生概率應(yīng)該較大,我們假設(shè)該事件的發(fā)生概率是最大的,即x1,x2,...,xn的出現(xiàn)具有最大的概率,在這種假設(shè)下去求取θ值.

??定義似然函數(shù)為:

?(θ)=?(x1,x2,...,xn;θ)=∏i=1nP(xi;θ)它是關(guān)于θ的函數(shù).

??極大似然估計(jì)法就是在參數(shù)θ的取值范圍Θ內(nèi)選取一個(gè)使得?(θ)達(dá)到最大值所對(duì)應(yīng)的參數(shù)θ^,用來(lái)作為θ的真實(shí)值θ?的估計(jì)值,即:

θ=argmaxθ∈Θ?(x1,x2,...,xn;θ)

??這樣,對(duì)求解總體X的參數(shù)θ極大似然估計(jì)問(wèn)題轉(zhuǎn)化為求似然函數(shù)?(θ)的最大值為題,那么求去最大值問(wèn)題可以使用導(dǎo)函數(shù)進(jìn)行求解.

??為了便于求解,對(duì)似然函數(shù)進(jìn)行l(wèi)n運(yùn)算,因?yàn)閘n為遞增函數(shù),那么ln(?(θ))與?(θ)在同一處取得最大值,于是,

ln?(θ)=ln∏i=1nP(xi;θ)=∑i=1nlnP(xi;θ)??對(duì)上式進(jìn)行求導(dǎo)操作,并令導(dǎo)函數(shù)為0:

dln?(θ)dθ=0解該方程,得到θ作為真實(shí)值的估計(jì).對(duì)于連續(xù)離散隨機(jī)變量:

??設(shè)總體X是連續(xù)隨機(jī)變量,其概率密度函數(shù)為f(x;θ),對(duì)樣本X1,X2,...,Xn觀察得到的樣本值分別為x1,x2,...,xn,那么聯(lián)合密度函數(shù)為:

∏i=1nf(xi;θ)則,似然函數(shù)為:

?(θ)=∏i=1nf(xi;θ)??同理,按照先前的處理與求解方式,即極大似然估計(jì)法,求取theta值.

??前面所說(shuō)的使用已知知識(shí)對(duì)先驗(yàn)概率進(jìn)行矯正,得到后驗(yàn)概率,便可以用到似然函數(shù),即后驗(yàn)概率=先驗(yàn)概率*似然函數(shù).極大似然估計(jì)步驟:

由總體分布導(dǎo)出樣本的聯(lián)合概率函數(shù)(或聯(lián)合密度);把樣本聯(lián)合概率函數(shù)(或聯(lián)合密度)中自變量看成為已知數(shù),而參數(shù)θ作為自變量未知數(shù),得到似然函數(shù)?(θ);將似然函數(shù)轉(zhuǎn)化為對(duì)數(shù)似然函數(shù),然后求取對(duì)數(shù)似然函數(shù)的最大值,一般使用求導(dǎo)方法;最后得到最大值表達(dá)式,用樣本值代入得到參數(shù)的極大似然估計(jì)值.QP(QuadraticProgramming,二次規(guī)劃)

??我們經(jīng)常用到線性規(guī)劃去求解一部分問(wèn)題,然后很多問(wèn)題是非線性的,而二次規(guī)劃是最簡(jiǎn)單的非線性規(guī)劃,簡(jiǎn)稱(chēng)QP問(wèn)題,何為二次規(guī)劃,即其目標(biāo)函數(shù)是二次函數(shù),而約束條件是線性約束的最優(yōu)化問(wèn)題.用數(shù)學(xué)語(yǔ)言描述,其標(biāo)準(zhǔn)形式為:

minf(x)=12xTGx+gTxs.t.aTix=bi,i∈EaTjx≥bj,j∈I其中,G是n×n的對(duì)稱(chēng)矩陣(Hessian矩陣),E,I分別對(duì)應(yīng)等式約束和不等式約束指標(biāo)集合,g,x,{ai|i∈E},{aj|j∈I}都是n維列向量

若G正半定,那么QP問(wèn)題存在全局最優(yōu)解(凸二次規(guī)劃);若G正定,那么QP問(wèn)題存在唯一的全局最優(yōu)價(jià)(凸二次規(guī)劃);若G不定,那么可能存在非全局的最優(yōu)解;

凸二次規(guī)劃即二次規(guī)劃目標(biāo)函為維凸函數(shù).L1/L2Regularization(L1/L2正則)

??我們?cè)谧鰯?shù)據(jù)挖掘或機(jī)器學(xué)些的時(shí)候,在訓(xùn)練數(shù)據(jù)不夠時(shí),或者出現(xiàn)過(guò)度訓(xùn)練時(shí),往往容易過(guò)擬合,即訓(xùn)練時(shí)效果特別好,而測(cè)試時(shí)或者在新數(shù)據(jù)來(lái)臨時(shí),模型效果較差,即為模型的泛化能力比較差。隨著訓(xùn)練過(guò)程不斷進(jìn)行,該模型在trainingdata上的error漸漸減小,但是在驗(yàn)證集上的error卻反而漸漸增大——因?yàn)橛?xùn)練出來(lái)的網(wǎng)絡(luò)過(guò)擬合了訓(xùn)練集,對(duì)訓(xùn)練集外的數(shù)據(jù)(測(cè)試數(shù)據(jù)或者新數(shù)據(jù))卻不work。如下圖所示:

??避免過(guò)擬合的方法有很多:earlystopping,數(shù)據(jù)集擴(kuò)增(Dataaugmentation),正則化(Regularization),Dropout等.

L1

??L1正則是一個(gè)稀疏規(guī)則算子,其是在代價(jià)函數(shù)(優(yōu)化目標(biāo)函數(shù))后面加上參數(shù)w絕對(duì)值和乘以λn,目標(biāo)函數(shù)即為:

F=F0+λn∑w|w|其中F0為原目標(biāo)函數(shù),那么新目標(biāo)函數(shù)的導(dǎo)數(shù)為:

?F?w=?F0?w+λnsgn(w)上式中sgn(w)是w的符號(hào)函數(shù),α>0是更新步長(zhǎng),它是一個(gè)常數(shù),λ>0是正則項(xiàng)數(shù),它是一個(gè)常數(shù),那么參數(shù)w的梯度下降算法更新方程為:

w:=w?α?F0?w?αλnsgn(w)上面的更新方程比原來(lái)的多了αλnsgn(w)這一項(xiàng).當(dāng)w為正時(shí),更新后w變小,為負(fù)時(shí)則相反,即將w往0值靠,這樣對(duì)于那些接近0值的參數(shù),那么就可能為0,這樣很多w就會(huì)趨近于0,這樣便起到了稀疏作用,也就是為何叫做”稀疏規(guī)則算子”了,這樣相當(dāng)于降低了模型的復(fù)雜度,提高模型泛化能力,防止過(guò)擬合.

??任何正則化算子,如果它在等于0處不可微,并且可以分解為一個(gè)“求和”的形式,那么這個(gè)正則化算子就可以實(shí)現(xiàn)稀疏.也就是這么說(shuō),w的L1范數(shù)正則是絕對(duì)值,而|w|在w=0處是不可微.其實(shí)L0范數(shù)正則(L0范數(shù)是指向量中非0的元素的個(gè)數(shù)),也可以達(dá)到稀疏目的,但是現(xiàn)實(shí)中為什么不用L0正則呢,因?yàn)長(zhǎng)0范數(shù)正則的優(yōu)化是一個(gè)NP難問(wèn)題,所以L1范數(shù)正則具有更好的優(yōu)化特性.

??在w的更新式子中,當(dāng)w為0時(shí),|w|是不可導(dǎo)的,所以需要按照原始的未經(jīng)正則化的方法去更新w,即為了方便我們定義sgn(0)=0,這樣便統(tǒng)一了所有情況.

??L1正則的稀疏性特性可能用來(lái)進(jìn)行特征選擇,只選擇那些重要的,區(qū)分能力強(qiáng)的特征,而去掉那些不重要的,區(qū)分能力不強(qiáng)的特征.雖然如果加上這些特征,可能會(huì)使得在模型訓(xùn)練時(shí)效果更好,但是可能會(huì)造成過(guò)擬合,從而模型的泛化能力不強(qiáng).

??在線性回歸中使用L1正則的叫做LASSO(LeastAbsoluteShrinkageandSelectionatorOperatorL1正則最小二乘回歸).L2

??L2范數(shù)正則化是在代價(jià)函數(shù)(優(yōu)化目標(biāo)函數(shù))后面加上平方和正則項(xiàng),即:

F=F0+λ2n∑ww2注意:常數(shù)項(xiàng)的w是不帶入正則項(xiàng)中的,為了便于區(qū)分,將其用b表示.

其中F0為原始目標(biāo)函數(shù),在正則項(xiàng)前面乘以12是為了在求導(dǎo)過(guò)程中方便,因?yàn)槠椒巾?xiàng)在求導(dǎo)過(guò)程中會(huì)產(chǎn)生一個(gè)2倍,這樣便能約掉常數(shù)項(xiàng).那么新目標(biāo)函數(shù)的導(dǎo)數(shù)為:

?F?w=?F0?w+λnw?F?b=?F0?b??這樣參數(shù)的更新方程為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論