下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第四章背景知識(shí)condition number從優(yōu)化或者數(shù)值計(jì)算的角度來說,L2范數(shù)有助于處理 condition number不好的情況下矩陣求逆很困難的問題。如果方陣 A是奇異的,那么 A的condition number就是正無窮大了。實(shí)際上,每一個(gè)可 逆方陣都存在一個(gè) condition number。對(duì)condition number來個(gè)一句話總結(jié):condition number是一個(gè)矩陣(或者它所描述的線性 系統(tǒng))的穩(wěn)定性或者敏感度的度量,如果一個(gè)矩陣的condition number在1附近,那么它就是 well-conditioned的,如果遠(yuǎn)大于1,那么它就是ill-con
2、ditioned 的,如果一個(gè)系統(tǒng)是ill-c on diti on ed的,它的輸出結(jié)果就不要太相信了。應(yīng)用w = (XJX)'1XTb如果當(dāng)我們的樣本 X的數(shù)目比每個(gè)樣本的維度還要小的時(shí)候,矩陣XT X將會(huì)不是滿秩的,也就是X T X會(huì)變得不可逆,所以 w八 就沒辦法直接計(jì)算出來了。如果加上L2規(guī)則項(xiàng),就變成了下面這種情況,就可以直接求逆了:condition number 一般在矩陣?yán)锉欢x做最大 singular value和最小singular value的比值。一般說來,如果一個(gè)矩陣的condition number大于1000,數(shù)值計(jì)算inv(A)或者解線性方程 AX=Y
3、可能會(huì)遇到嚴(yán)重的舍入問題,這樣的問題通常被稱為ill-conditioned。II最簡(jiǎn)單的解決方法是把 A的diagonal entries都加上一個(gè)微小量 delta以后再計(jì)算 這樣做雖然會(huì)引入誤差,但是可以改善ill-condition。梯度設(shè)體系中某處的物理參數(shù) (如溫度、速度、濃度等)為w,在與其垂直距離的dy處該參數(shù)為w+dw,則稱為該物理參數(shù)的梯度,也即該物理參數(shù)的變化率。如果參數(shù)為速度、濃度、溫 度或空間,則分別稱為速度梯度、濃度梯度、溫度梯度或空間梯度。其中溫度梯度在直角坐標(biāo)系下的表達(dá)式如右圖?!?b di . dt dt bDx dy ds在向量微積分中,標(biāo)量場(chǎng)的梯度是一個(gè)向
4、量場(chǎng)。標(biāo)量場(chǎng)中某一點(diǎn)上的梯度指向標(biāo)量場(chǎng)增長(zhǎng) 最快的方向,梯度的長(zhǎng)度是這個(gè)最大的變化率。更嚴(yán)格的說,從歐氏空間Rn到R的函數(shù)的梯度是在Rn某一點(diǎn)最佳的線性近似。在這個(gè)意義上,梯度是雅戈比矩陣的一個(gè)特殊情況。在單變量的實(shí)值函數(shù)的情況,梯度只是導(dǎo)數(shù),或者,對(duì)于一個(gè)線性函數(shù),也就是線的斜率。梯度一詞有時(shí)用于斜度,也就是一個(gè)曲面沿著給定方向的傾斜程度。可以通過取向量梯度和所研究的方向的點(diǎn)積來得到斜度。梯度的數(shù)值有時(shí)也被稱為梯度。在二元函數(shù)的情形,設(shè)函數(shù)z=f(x,y)在平面區(qū)域D內(nèi)具有一階連續(xù)偏導(dǎo)數(shù),則對(duì)于每一點(diǎn)P(x,y) D,都可以定出一個(gè)向量(S f/x)*i+( S f/y)*j這向量稱為函數(shù)
5、z=f(x,y)在點(diǎn)P(x,y)的梯度,記作gradf(x,y)類似的對(duì)三元函數(shù)也可以定義一個(gè):(S f/x)*i+( S f/y)*j+( S f/z)*k記為gradf(x,y,z)梯度的本意是一個(gè)向量(矢量),表示某一函數(shù)在該點(diǎn)處的方向?qū)?shù)沿著該方向取得最大值,即函數(shù)在該點(diǎn)處沿著該方向(此梯度的方向)變化最快,變化率最大(為該梯度的模)。方向?qū)?shù)(directional derivative )的通俗解釋是:我們不僅要知道函數(shù)在坐標(biāo)軸方向上的變化率方向?qū)?shù)(即偏導(dǎo)數(shù)),而且還要設(shè)法求得函數(shù)在其他特定方向上的變化率。而方向?qū)?shù)就是函數(shù)在其他特定方向上的變化率。定義方向?qū)?shù)的精確定義(以三元
6、函數(shù)為例):設(shè)三元函數(shù)f在點(diǎn)P0 (xO, y0, z0)的某鄰域內(nèi)有定義,I為從點(diǎn)P0出發(fā)的射線,P (x, y, z)為I上且含于鄰域內(nèi)的任一點(diǎn),以p( rou) 表示P和P0兩點(diǎn)間的距離。若極限lim ( (f(P)-f(P0) / p ) = lim ( l f / p)(當(dāng) 0 時(shí))存在,則稱此極限為函數(shù)f在點(diǎn)P0沿方向I的方向?qū)?shù)。雅可比矩陣Jacobian矩陣和H essian矩陣1P Jacobian在叵量廿析中環(huán)可比矩陣是TH肖尋數(shù)"一走方弍排列或的矩降其行列式稱為雅可比行列式還有 在弋覿1何中:吃數(shù)狂線的雅可比星袤示淮可t瀝:殍陸區(qū)胡建的一的烘幣茬線可収誤AM中.
7、它 憶全出翊救學(xué)贏卡爾雅可ttXCarl Jacob廚04年W月4日-俑已年2月佃日命名;英文淮可比 =Jacabiai1可以發(fā)盲為膽o bi砂】應(yīng)吉屯& "ko b aril.灘可比矩腐揑可匕旳匡旳車要空在十它郎現(xiàn)_r介口-減e桂三蹈土點(diǎn)狂最tm性逼近 因此,雅可陞陣獎(jiǎng)驚十芬忖上F R t 一 皂一嚇4.弐寸堆手m辛世師he対空IT芒/券 運(yùn)八肘甘壬rr個(gè)耳曲散主疋 yl (燦押,腫(対:,xn)逵些酗的侶敎如杲薦在)可以組成一個(gè)mi亍洌的矩庫(kù)5就是所 的淮可比矩陣:0E斥 S述或吉這個(gè)矩I卉的第i行是主樣滾函數(shù)的轉(zhuǎn)置yi(i-1.m炭示的如果p杲中的一點(diǎn).F在p點(diǎn)可微分.
8、那么在這一點(diǎn)的導(dǎo)數(shù)田Jf(p)給岀(這是求該點(diǎn)導(dǎo)數(shù)爵簡(jiǎn)便的 方法).在此售況下,由F(p)超的線性算子即接近點(diǎn)p的F的最優(yōu)線性逼近,x逼近亍p:F(x)彩 F(p) + Jf(p) (x- p)雅可比行歹疏妬杲m二n,那么F是從n姓空間到譙空間的函數(shù)旦它的雅可比矩隆是一個(gè)方塊距陣于是我們可以取 它的行列式稱為雅可吃亍列式SM4給走點(diǎn)的難可比行刃式辰供了在接近該點(diǎn)時(shí)的表現(xiàn)的重妾信魚砌匚如昱連績(jī)可微函數(shù)F在 p點(diǎn)的雅可比列式不是零,百吆它在該點(diǎn)附近具有反函斂這稱為反遇數(shù)左理更進(jìn)一步,如JRp點(diǎn)的 雅可比行列式是正數(shù)見P在P點(diǎn)的取向K變-如吳是負(fù)數(shù).則F的取向相反麗從雅可比行列式的絕 対值,就可以知
9、道函數(shù)F在p點(diǎn)的縮放因子;這孰是九什么它出規(guī)在換元積分法中.對(duì)于取向問題可以這么理聲例如Y4SI體在平li上勻速運(yùn)動(dòng) 如果施加一個(gè)正方向的力F.即取向相 盡川F連運(yùn)動(dòng),類比于速度的融加連反為正;如果iS加 Y反方向的力F,即取向相反丿yj«速運(yùn)動(dòng), 類比于速辰的號(hào)數(shù)加速匿為負(fù)2. SHessian矩陣在數(shù)學(xué)中,海森矩陣(Hessian matrix或Hessian)是一個(gè)自變星為向呈的頭值函數(shù)的一階債導(dǎo)數(shù)組成塊矩陣,此函數(shù)如下:f (金1,化2-» n)如果子的所有二階導(dǎo)數(shù)都存在.那么/的海森矩陣即:(尤)冥中® =(叼,叼,),即H(f)為:丹dx9xi 0x2
10、9xi Bind2f92fd2f i 9x2。顯 1dlQ dx0d2fd2fd2f_9xdx dx9.8應(yīng).(也有人把海森走義為以上矩陣的行列式)海蒜矩陣沁 用于牛頓法解決的燦模優(yōu)化問題海森柜陣在牛頓法中的應(yīng)用蟲來說.牛頓法主要應(yīng)用在函個(gè)方面,1,求方程的根;2最優(yōu)化一1)求鮮萬程幷不是所勻的方程都有朮恨公式.或吉求恨公式很復(fù)雜導(dǎo)致求解區(qū)難一利用牛頓法可以迭代求解.原理野用泰型公式,在磯處展開巨展開到階即人可=/(jc) + (r x()f(O)求解方程f(ar) = 0. BP/(«o) + (總-龍0)尸(a?o) 0.求葬rr =巧=xQ-f(xQ)/f(XQ),因?yàn)檫@是 利
11、用泰勒公式的一階展開、f(z) = f仗。)十(e-eo)f (叼)處幷不是完全相等、帀是近似招寺這里 求得的珀開不能讓/(引=0只能說J(巧)的値比人班)更援近f )=0.于是乎.迭代求解的想法就 很白然了,可泌而拄出引十1 -(如),通過迭代適個(gè)弍孑必然在子(“)一 0的時(shí)佞收致整個(gè)過程如下圖:牛頓法求實(shí)根圖示2).最優(yōu)化在雖優(yōu)化的問題中,線性最優(yōu)化至少可以便硝純形法(或稱不動(dòng)點(diǎn)窟去球程 但對(duì)于非純性優(yōu)化問甑 牛頓法提供了一御求解的辦法.假設(shè)任務(wù)是優(yōu)化f 目詠函數(shù)犬求函數(shù)f的極大極4媽題,可以轉(zhuǎn)化為 求聲霑數(shù)f的導(dǎo)馭尸=0的可麺 這樣求可以把優(yōu)化問題看舷方程滅解問麺(f =0)舸下的問麺就
12、策 T分提的牛頓法歩解很相似了這次為了關(guān)解尸二0的根.把/(h)的泰勒層開長(zhǎng)開到2階形式:f(x + ) =/(«)+ £() + f9 (a?)Ao?22這個(gè)式子是成立的當(dāng)?shù)﹥H當(dāng)無艱坦近于0時(shí)f(z + 對(duì)=j(x),約去迄兩項(xiàng),開對(duì)親項(xiàng)式 fax + +廠仗)4以=0対Aa:求導(dǎo)(汪f仗),廠9)均為常數(shù)項(xiàng)此時(shí)上式等價(jià)與:f )十嚴(yán)(h)Ah=0求解:畑)fnM得岀迭代公式:一般認(rèn)為半頓法可以利用到齊線本身芥信貝比樣厘下降法審容易牧敗(迭代申少次數(shù)).如下醫(yī)是一 個(gè)農(nóng)小化一個(gè)口標(biāo)方隍的刮子,紅色曲紐罡利用牛頓法迭代求解緣色超塊圣口用梯度下降法求解在上百冷T詒的足醛宵另.
13、盲雅悽況的牛頓這代公式足:=xnHf(xn可坯M巴0捉中卜逞he河or短陣走文見上高維菁況依然可以用牛頓迭代求解但是冋題星血陰舊謔薜別入的復(fù)雜性:使得牛頓迭代求解的難度 大大筆加,回®已經(jīng)育了I?決遠(yuǎn)個(gè)問題的辦SSWSQuasi Wewton rn酗o<不再直接計(jì)郭i關(guān)論n矩陣, 河昱P 步的時(shí)候便申境吏巨呈更黔rhm s=I罰矩輝旳近似.二階導(dǎo)數(shù)的集合意義:(1) 斜線斜率變化的速度(2) 函數(shù)的凹凸性.二階導(dǎo)數(shù)是比較理論的、比較抽象的一個(gè)量,它不像一階導(dǎo)數(shù)那樣有明顯的幾何意義,因?yàn)樗硎镜氖且浑A導(dǎo)數(shù)的變化率 在圖形上,它主要表現(xiàn)函數(shù)的凹凸性 ,直觀的說,函數(shù)是向上突起 的,
14、還是向下突起的應(yīng)用:如果一個(gè)函數(shù)f(x)在某個(gè)區(qū)間I上有f'(x)(即二階導(dǎo)數(shù))>0恒成立,那么對(duì)于區(qū)間I上的任 意x,y,總有:f(x)+f(y) >2f(x+y)/2,如果總有f'(x)0恒成立,那么在區(qū)間I上f(x)的圖象上的任意兩點(diǎn)連出的一條線段,這兩點(diǎn)之間的函數(shù)圖象都在該線段的下方,反之在該線段的上方機(jī)器學(xué)習(xí)中梯度下降法和牛頓法的比較在機(jī)器學(xué)習(xí)的優(yōu)化問題中,梯度下降法和牛頓法是常用的兩種凸函數(shù)求極值的方法,他們都是為了求得目標(biāo)函數(shù)的近似解。在邏輯斯蒂回歸模型的參數(shù)求解中,一般用改良的梯度下降法,也可以用牛頓法。由于兩種方法有些相似,我特地拿來簡(jiǎn)單地對(duì)比一下
15、。下面的內(nèi)容需要讀者之前熟悉兩種算法。梯度下降法梯度下降法用來求解目標(biāo)函數(shù)的極值。這個(gè)極值是給定模型給定數(shù)據(jù)之后在參數(shù)空間中搜索找到的。迭代過程為:d 、:=- a麗可以看出,梯度下降法更新參數(shù)的方式為目標(biāo)函數(shù)在當(dāng)前參數(shù)取值下的梯度值,前面再加上一個(gè)步長(zhǎng)控制參數(shù)alpha。梯度下降法通常用一個(gè)三維圖來展示,迭代過程就好像在不斷地下坡,最終到達(dá)坡底。為了更形象地理解,也為了和牛頓法比較,這里我用一個(gè)二維圖來表示:懶得畫圖了直接用這個(gè)展示一下。在二維圖中,梯度就相當(dāng)于凸函數(shù)切線的斜率,橫坐標(biāo)就是每次迭代的參數(shù),縱坐標(biāo)是目標(biāo)函數(shù)的取值。每次迭代的過程是這樣:1. 首先計(jì)算目標(biāo)函數(shù)在當(dāng)前參數(shù)值的斜率(
16、梯度),然后乘以步長(zhǎng)因子后帶入更新公式,如圖點(diǎn)所在位置(極值點(diǎn)右邊),此時(shí)斜率為正,那么更新參數(shù)后參數(shù)減小,更接近極小值對(duì)應(yīng)的參數(shù)。2. 如果更新參數(shù)后,當(dāng)前參數(shù)值仍然在極值點(diǎn)右邊,那么繼續(xù)上面更新,效果一樣。3. 如果更新參數(shù)后,當(dāng)前參數(shù)值到了極值點(diǎn)的左邊,然后計(jì)算斜率會(huì)發(fā)現(xiàn)是負(fù)的,這樣經(jīng)過再一次更新后就會(huì)又向著極值點(diǎn)的 方向更新。根據(jù)這個(gè)過程我們發(fā)現(xiàn),每一步走的距離在極值點(diǎn)附近非常重要,如果走的步子過大,容易在極值點(diǎn)附近震蕩而無法收斂。解決辦法:將alpha設(shè)定為隨著迭代次數(shù)而不斷減小的變量,但是也不能完全減為零。牛頓法原理是利用泰勒公式,在x0處展開,且展開到一階,即f(x) = f(x
17、O)+(x xO)f(xO)求解方程 f(x)=0,即卩 f(xO)+(x-xO)*f(xO)=O ,求解 x = x仁xO f(xO)/f(xO),因?yàn)檫@是利用泰勒公式的一階展開,f(x) = f(x0)+(x xO)f(xO)處并不是完全相等,而是近似相等,這里求得的x1并不能讓f (x) =0,只能說f(x1)的值比f(xO)更接近f ( x) =0,于是乎,迭代求解的想法就很自然了,可以進(jìn)而推出x(n+1)=x(n) f(x(n)/f(x(n),通過迭代,這個(gè)式子必然在f (x*) =0的時(shí)候收斂。整個(gè)過程如下圖:牛頓法求實(shí)根圖示2、牛頓法用于最優(yōu)化(f=0)在最優(yōu)化的問題中,線性最優(yōu)
18、化至少可以使用單純行法求解,但對(duì)于非線性優(yōu)化問題,牛頓法提供了一種求解的辦法。假設(shè)任務(wù)是優(yōu)化 一個(gè)目標(biāo)函數(shù)f,求函數(shù)f的極大極小問題,可以轉(zhuǎn)化為求解函數(shù) f的導(dǎo)數(shù)f=0的問題,這樣求可以把優(yōu)化問題看成方程求解問題 剩下的問題就和第一部分提到的牛頓法求解很相似了。這次為了求解f=0的根,把f ( x)的泰勒展開,展開到 2階形式:f3 + 對(duì)二+ 詁©)4區(qū)這個(gè)式子是成立的,當(dāng)且僅當(dāng) Ax無線趨近于0。此時(shí)上式等價(jià)與:尸(工)+嚴(yán)& = 0.求解:At =尸仏) 一嚴(yán)(跖)得出迭代公式:一般認(rèn)為牛頓法可以利用到曲線本身的信息,比梯度下降法更容易收斂(迭代更少次數(shù)),如下圖是一個(gè)
19、最小化一個(gè)目標(biāo)方程的例子, 紅色曲線是利用牛頓法迭代求解,綠色曲線是利用梯度下降法求解。在上面討論的是2維情況,高維情況的牛頓迭代公式是:=心-n > 0.其中H是hessian矩陣,定義為:釦 旳朋H(n=高維情況依然可以用牛頓迭代求解,但是問題是Hessian矩陣引入的復(fù)雜性,使得牛頓迭代求解的難度大大增加,個(gè)問題的辦法就是 Quasi-Newton metho nd ,不再直接計(jì)算 hessian矩陣,而是每一步的時(shí)候使用梯度向量更新 Quasi-Newton method 的詳細(xì)情況我還沒完全理解,且聽下回分解吧。但是已經(jīng)有了解決這hessian矩陣的近似首先得明確,牛頓法是為了
20、求解函數(shù)值為零的時(shí)候變量的取值問題的,具體地,當(dāng)要求解f( e)=o時(shí),如果可導(dǎo),那么可以通過迭代公3:=e-來迭代求得最小值。通過一組圖來說明這個(gè)過程當(dāng)應(yīng)用于求解最大似然估計(jì)的值時(shí),變成?( e)=的問題。這個(gè)與梯度下降不同,梯度下降的目的是直接求解目標(biāo)函數(shù)極小值,而牛頓法則變相地通過求解目標(biāo)函數(shù)一階導(dǎo)為零的參數(shù)值,進(jìn)而求得目標(biāo)函數(shù)最小值。那么迭代公式寫作:當(dāng)e是向量時(shí),牛頓法可以使用下面式子表示:其中h叫做海森矩陣,其實(shí)就是目標(biāo)函數(shù)對(duì)參數(shù)e的二階導(dǎo)數(shù)。通過比較牛頓法和梯度下降法的迭代公式,可以發(fā)現(xiàn)兩者及其相似。海森矩陣的逆就好比梯度下降法的學(xué)習(xí)率參數(shù)alpha。牛頓法收斂速度相比梯度下降法
21、很快,而且由于海森矩陣的的逆在迭代中不斷減小,起到逐漸縮小步長(zhǎng)的效果。牛頓法的缺點(diǎn)就是計(jì)算海森矩陣的逆比較困難,消耗時(shí)間和計(jì)算資源。因此有了擬牛頓法。最優(yōu)化問題中,牛頓法為什么比梯度下降法求解需要的迭代次數(shù)更少?牛頓法是二階收斂,梯度下降是一階收斂,所以牛頓法就更快。如果更通俗地說的話,比如你想找一條最短的路徑走到一個(gè)盆地的最底部,梯度下降法每次只從你當(dāng)前所處位置選一個(gè)坡度最大的方向走一步, 牛頓法在選擇方向時(shí), 不僅會(huì)考慮坡度是否夠大,還會(huì)考慮你走了一步之后,坡度是否會(huì)變得更大。所以,可以說牛頓法比梯度下降法看得更遠(yuǎn)一點(diǎn),能更快地走到最底部。根據(jù)Wiki上的解釋,從幾何上說,牛頓法就是用一個(gè)
22、二次曲面去擬合你當(dāng)前所處位置的局 部曲面,而梯度下降法是用一個(gè)平面去擬合當(dāng)前的局部曲面,通常情況下,二次曲面的擬合會(huì)比平面更好,所以牛頓法選擇的下降路徑會(huì)更符合真實(shí)的最優(yōu)下降路徑。wiki上給的圖很形象,我就直接轉(zhuǎn)過來了: 紅色的牛頓法的迭代路徑,綠色的是梯度下降法 的迭代路徑。利普希茨連續(xù)在在數(shù)學(xué)中,特別是實(shí)分析,利普希茨連續(xù)(Lipschitz continuity )以德國(guó)數(shù)學(xué)家魯?shù)婪?利普希茨命名,是一個(gè)比通常連續(xù)更強(qiáng)的光滑性條件。直覺上,利普希茨連續(xù)函數(shù)限制了函數(shù)改變的速度,符合利普希茨條件的函數(shù)的斜率,必小于一個(gè)稱為利普希茨常數(shù)的實(shí)數(shù)(該常數(shù)依函數(shù)而定)。在微分方程中,利普希茨連續(xù)
23、是皮卡-林德洛夫定理中確保了初值問題存在唯一解的核心條件。一種特殊的利普希茨連續(xù),稱為壓縮 應(yīng)用于巴拿赫不動(dòng)點(diǎn)定理。利普希茨連續(xù)可以定義在 度量空間上以及賦范向量空間 上;利普希茨連續(xù)的一種推廣稱為赫爾德連續(xù)。定義對(duì)于在實(shí)數(shù)集的子集的函數(shù)DCIR-IR,若存在常數(shù)K,使得If何代繃蘭幻一時(shí)VfljfreD,則稱f符合利普希茨條件,對(duì)于 f最小的常數(shù)K稱為f的利普希茨常數(shù)。1若K < 1,f稱為收縮映射。利普希茨條件也可對(duì)任意度量空間的函數(shù)定義:給定兩個(gè)度量空間。若對(duì)于函數(shù),存在常數(shù)K使得和嘰T(b)呂K加(砒)VSeLJ則說它符合利普希茨條件。2若存在K > 1使得詢(訓(xùn)皿(刃砒仙
24、)< k如詢wx u則稱f為雙李普希茨(bi-Lipschitz)的和KKT條深入理解拉格朗日乘子法(Lagra nge Multiplier)件p.94在求取有約束條件的優(yōu)化問題時(shí),拉格朗日乘子法(Lagrange Multiplier) 和KKT條件是非常重要的兩個(gè)求取方法,對(duì)于等式約束的優(yōu)化問題,可以應(yīng)用拉格朗日乘子法去求取最優(yōu)值;如果含有不等式約束,可以應(yīng)用KKT條件去求取。當(dāng)然,這兩個(gè)方法求得的結(jié)果只是必要條件,只有當(dāng)是凸函數(shù)的情況下,才能保證是充分必要條件。KKT條件是拉格朗日乘子法的泛化。之前學(xué)習(xí)的時(shí)候,只知道直接應(yīng)用兩個(gè)方法,但是卻不知道為什么拉格朗日乘子法(Lagran
25、ge Multiplier) 和KKT條件能夠起作用,為什么要這樣去求取最優(yōu)值呢?本文將首先把什么是拉格朗日乘子法(Lagrange Multiplier) 和KKT條件敘述一下;然后開始分別談?wù)劄槭裁匆@樣求最優(yōu)值。一.拉格朗日乘子法(Lagrange Multiplier) 和KKT條件通常我們需要求解的最優(yōu)化問題有如下幾類:(i) 無約束優(yōu)化問題,可以寫為:min f(x);(ii) 有等式約束的優(yōu)化問題,可以寫為:min f(x),s.t. h_i(x) = 0; i =1, ., n(iii) 有不等式約束的優(yōu)化問題,可以寫為:min f(x),s.t. g_i(x) <= 0
26、; i =1, ., nh_j(x) = 0; j =1, ., m對(duì)于第(i)類的優(yōu)化問題,常常使用的方法就是Fermat定理,即使用求取f(x)的導(dǎo)數(shù),然后令其為零,可以求得候選最優(yōu)值,再在這些候選值中驗(yàn)證;如果是凸函數(shù),可以保證是最優(yōu)解。對(duì)于第(ii)類的優(yōu)化問題,常常使用的方法就是拉格朗日乘子法( Lagrange Multiplier),即把等式約束h_i(x)用一個(gè)系數(shù)與f(x)寫為一個(gè) 式子,稱為拉格朗日函數(shù),而系數(shù)稱為拉格朗日乘子。通過拉格朗日函數(shù)對(duì)各個(gè)變量求導(dǎo),令其為零,可以求得候選值集合,然后驗(yàn)證求得最優(yōu)值。對(duì)于第(iii)類的優(yōu)化問題,常常使用的方法就是KKT條件。同樣地
27、,我們把所有的等式、不等式約束與f(x)寫為一個(gè)式子,也叫拉格朗日函數(shù),系數(shù)也稱拉格朗日乘子,通過一些條件,可以求出最優(yōu)值的必要條件,這個(gè)條件稱為KKT條件。(a)拉格朗日乘子法(Lagrange Multiplier)對(duì)于等式約束,我們可以通過一個(gè)拉格朗日系數(shù)a把等式約束和目標(biāo)函數(shù)組合成為一個(gè)式子L(a, x) = f(x) + a*h(x), 這里把a(bǔ)和h(x)視為向量形式,a是橫向量,h(x)為列向量,之所以這么寫,完全是因?yàn)閏sdn很難寫數(shù)學(xué)公式,只能將就了.。然后求取最優(yōu)值,可以通過對(duì)L(a,x)對(duì)各個(gè)參數(shù)求導(dǎo)取零,聯(lián)立等式進(jìn)行求取,這個(gè)在高等數(shù)學(xué)里面有講,但是沒有講為什么這么做就可
28、以,在后面,將簡(jiǎn)要介紹其思想。(b) KKT條件對(duì)于含有不等式約束的優(yōu)化問題,如何求取最優(yōu)值呢?常用的方法是KKT條件,同樣地,把所有的不等式約束、等式約束和目標(biāo)函數(shù)全部寫為一個(gè)式子L(a, b, x)= f(x) + a*g(x)+b*h(x),KKT條件是說最優(yōu)值必須滿足以下條件:1. L(a, b, x)對(duì)x求導(dǎo)為零;2. h(x) =0;3. a*g(x) = 0;求取這三個(gè)等式之后就能得到候選最優(yōu)值。其中第三個(gè)式子非常有趣,因?yàn)?g(x)<=0,如果要滿足這個(gè)等式,必須a=0或者g(x)=0.這是SVM的很多重要性質(zhì)的來源,如支持向量的概念。二.為什么拉格朗日乘子法(Lagra
29、nge Multiplier) 和KKT條件能夠得到最優(yōu)值?為什么要這么求能得到最優(yōu)值?先說拉格朗日乘子法,設(shè)想我們的目標(biāo)函數(shù)z = f(x), x是向量,z取不同的值,相當(dāng)于可以投影在x構(gòu)成的平面(曲面)上,即成為等高線,如下圖,目標(biāo)函數(shù)是f(x, y),這里x是標(biāo)量,虛線是等高線,現(xiàn)在假設(shè)我們的約束g(x)=0,x是向量,在x構(gòu)成的平面或者曲面上是一條曲線,假設(shè)g(x)與等高線相交,交點(diǎn)就是同時(shí)滿足等式約束條件和目標(biāo)函數(shù)的可行域的值,但肯定不是最優(yōu)值,因?yàn)橄嘟灰馕吨隙ㄟ€存在其它的等高線在該條等高線的內(nèi)部或者外部,使得新的等高線與目標(biāo)函數(shù)的交點(diǎn)的值更大或者更 小,只有到等高線與目標(biāo)函數(shù)的曲
30、線相切的時(shí)候,可能取得最優(yōu)值,如下圖所示,即等高線和目標(biāo)函數(shù)的曲線在該點(diǎn)的法向量必須有相同方向,所以最優(yōu)值必須滿足:f(x)的梯度=a* g(x)的梯度,a是常數(shù),表示左右兩邊同向。這個(gè)等式就是L(a,x)對(duì)參數(shù)求導(dǎo)的結(jié)果。(上 述描述,我不知道描述清楚沒,如果與我物理位置很近的話,直接找我,我當(dāng)面講好理解一些,注:下圖來自wiki)。而KKT條件是滿足強(qiáng)對(duì)偶條件的優(yōu)化問題的必要條件,可以這 樣理解:我們要求 min f(x), L(a, b, x) = f(x) + a*g(x) + b*h(x) , a>=0 ,我們可以把f(x)寫為:max_a,b L(a,b,x),為什么呢?因
31、為 h(x)=0, g(x)<=0,現(xiàn)在是取 L(a,b,x)的最大值,a*g(x)是 <=0, 所以L(a,b,x)只有在a*g(x) = 0的情況下才能取得最大值,否則,就不滿足約束條件,因此max_a,b L(a,b,x)在滿足約束條件的情況下就是f(x),因此我們的目標(biāo)函數(shù)可以寫為min_x max_a,bL(a,b,x)。如果用對(duì)偶表達(dá)式:max_a,b min_x L(a,b,x),由于我們的優(yōu)化是滿足強(qiáng)對(duì)偶的(強(qiáng)對(duì)偶就是說對(duì)偶式子的最優(yōu)值 是等于原問題的最優(yōu)值的),所以在取得最優(yōu)值x0的條件下,它滿足 f(x0) = max_a,b min_x L(a,b,x) = min_x max_a,b L(a,b,x) =f(x0),我們來看看中間兩個(gè)式子發(fā)生了什么事情:f(x0) = max_a,b min_x L(a,b,x) = max_a,b min_x f(x) + a*g(x) + b*h(x) = max_a,b f(xO)+a*g(xO)+b*h(xO)= f(x0)可以看到上述加黑的地方本質(zhì)上是說min_x f(x) + a*g(x) +b*h(x)在x0取得了最小值,用fermat定理,即是說對(duì)于函數(shù)f(x) + a*g(x) + b*h(x),求取導(dǎo)數(shù)要等于零,即f
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版苗圃苗木線上線下銷售渠道合作協(xié)議4篇
- 2025年度個(gè)人房產(chǎn)抵押貸款還款協(xié)議書模板4篇
- 2025年度航空航天模具研發(fā)制造合同4篇
- 二零二五版豪華車型購(gòu)車指標(biāo)使用權(quán)租賃協(xié)議3篇
- 2025年物業(yè)廣告位租賃與環(huán)保理念推廣合作協(xié)議3篇
- 2025版企業(yè)內(nèi)部員工技能培訓(xùn)學(xué)員協(xié)議3篇
- 2025年環(huán)保打印機(jī)購(gòu)銷合同綠色環(huán)保版4篇
- 個(gè)人招標(biāo)工作心得:2024年實(shí)踐與思考3篇
- 二零二五年度航空器租賃合同租賃期限與維護(hù)保養(yǎng)責(zé)任4篇
- 2025年農(nóng)業(yè)大棚租賃與智能灌溉系統(tǒng)安裝合同4篇
- 開展課外讀物負(fù)面清單管理的具體實(shí)施舉措方案
- 2025年云南中煙工業(yè)限責(zé)任公司招聘420人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025-2030年中國(guó)洗衣液市場(chǎng)未來發(fā)展趨勢(shì)及前景調(diào)研分析報(bào)告
- 2024解析:第三章物態(tài)變化-基礎(chǔ)練(解析版)
- 2023年江蘇省南京市中考化學(xué)真題
- 供電副所長(zhǎng)述職報(bào)告
- 校園欺凌問題成因及對(duì)策分析研究論文
- 技術(shù)支持資料投標(biāo)書
- 老年人意外事件與與預(yù)防
- 預(yù)防艾滋病、梅毒和乙肝母嬰傳播轉(zhuǎn)介服務(wù)制度
- 《高速鐵路客運(yùn)安全與應(yīng)急處理》課程標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論