第4章 非線性分類器及神經(jīng)網(wǎng)絡(luò)_第1頁(yè)
第4章 非線性分類器及神經(jīng)網(wǎng)絡(luò)_第2頁(yè)
第4章 非線性分類器及神經(jīng)網(wǎng)絡(luò)_第3頁(yè)
第4章 非線性分類器及神經(jīng)網(wǎng)絡(luò)_第4頁(yè)
第4章 非線性分類器及神經(jīng)網(wǎng)絡(luò)_第5頁(yè)
已閱讀5頁(yè),還剩83頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章非線性分類器與神經(jīng)網(wǎng)絡(luò)

NonlinearClassifiersandNeuralNetworks§1引言§2異或問(wèn)題§3兩層感知器§4反向傳播算法§5徑向基函數(shù)網(wǎng)絡(luò)§6支持向量機(jī)§7其他非線性分類法1.分段線性分類器2.樹(shù)狀分類器3.二次判別函數(shù)§1引言第3章討論了由線性判別函數(shù)g(x)=WTx+w0=ATY描述的線性分類器設(shè)計(jì)。從訓(xùn)練集樣本得到權(quán)值W和w0或者A。若兩類間是線性可分的,單層感知器方法可計(jì)算出g(x)的權(quán)值。例:第k+1次疊代得到的直線方程對(duì)于線性不可分的,線性分類器的最優(yōu)方法是使平方誤差最小。

例:線性分類器的MSE方法對(duì)于非線性分類,選擇一個(gè)合適的非線性判別函數(shù)是很困難的,如圖AD,BD,CD。解決方法:⑴神經(jīng)網(wǎng)絡(luò)(即多層感知器)具有很強(qiáng)的處理非線性的能力,適合非線性分類。神經(jīng)網(wǎng)絡(luò)中要解決的主要問(wèn)題:①學(xué)習(xí)方法-目的修改權(quán)值,如反向傳播算法。②網(wǎng)絡(luò)結(jié)構(gòu)-層數(shù),每層神經(jīng)元數(shù)及連接方式。③用支持向量機(jī)(網(wǎng)絡(luò))可得到最優(yōu)分界面。⑵用樹(shù)分類器進(jìn)行多級(jí)決策。在樹(shù)分類器上用線性判別函數(shù),就構(gòu)成了一個(gè)分段線性分類器。⑶對(duì)一些特殊的問(wèn)題可用二次判別函數(shù)?!?異或問(wèn)題(XOR)異或布爾函數(shù)是非線性可分問(wèn)題的典型例子。將布爾函數(shù)理解為分類任務(wù),即根據(jù)輸入x1、x2的不同,輸出為0(B類)或1(A類)。圖中給出了類在空間的位置。一條直線不能將這兩類分開(kāi)。

“與”(AND)和“或”(OR)布爾函數(shù)是線性可分的。用一個(gè)感知器可實(shí)現(xiàn)“或門(mén)”或“與門(mén)”。由感知器實(shí)現(xiàn)的決策面方程

異或(XOR)問(wèn)題必須用兩層感知器實(shí)現(xiàn)。g∑§2兩層感知器一條直線不能解決異或問(wèn)題,可用“或”和“與”二條直線解決,即使用兩層感知器來(lái)解決。

g1(x)=x1+x2-1/2=0

g2(x)=x1+x2-3/2=0二個(gè)神經(jīng)元分別實(shí)現(xiàn)或和與運(yùn)算。二條直線將空間分成三個(gè)區(qū)域g1(x)>0

g2(x)<0

g1(x)<0

g2(x)>0因此,這個(gè)問(wèn)題可分兩階段處理。

(B類)(A類)d兩層感知器結(jié)構(gòu)f1.兩層感知器⑴兩層感知器的結(jié)構(gòu)與單層感知器相比增加了一個(gè)隱層。第一層為隱層,可由p個(gè)神經(jīng)元組成。所有隱層神經(jīng)元輸入節(jié)點(diǎn)為xi的d個(gè)特征,i=1,2,···,d;

權(quán)wi是要通過(guò)學(xué)習(xí)調(diào)整的參數(shù);每個(gè)神經(jīng)元的輸出yi不相同。第二層為輸出層,圖中為一個(gè)神經(jīng)元,輸出運(yùn)算結(jié)果。若輸入節(jié)點(diǎn)稱為輸入層,則也稱為三層網(wǎng)絡(luò)。d單層感知器結(jié)構(gòu)wiwiwi⑵異或問(wèn)題用兩層感知器分兩階段解決第一階段輸入x=[x1x2]T

,輸出新向量y=[y1y2]Ty1相對(duì)于g1(x)進(jìn)行“或”運(yùn)算

y2相對(duì)于g2(x)進(jìn)行“與”運(yùn)算由第一隱層兩個(gè)神經(jīng)元實(shí)現(xiàn)。第二階段y=[y1y2]T為輸入,輸出為類別。g(y)由一個(gè)神經(jīng)元實(shí)現(xiàn)。g(y)=y1-y2-1/2=0y1y2⑶兩層感知器模型第一層隱層(hiddenlayer)神經(jīng)元完成第一階段的計(jì)算,是x到y(tǒng)的映射,即隱層神經(jīng)元作用是將輸入X空間映射到二維(因?yàn)槎€(gè)神經(jīng)元)Y空間中單位邊長(zhǎng)的正方形頂點(diǎn)上(00,10,10,11)。第二層的一個(gè)神經(jīng)元,稱為輸出層(outputlayer)完成第二階段計(jì)算,輸出分類用判別函數(shù)的值。三個(gè)神經(jīng)元決策線的方程y2d⑴隱層神經(jīng)元:d維,隱層有p個(gè)神經(jīng)元,其作用是將輸入X空間映射到p維Y空間中單位邊長(zhǎng)的超立方體頂點(diǎn)yi上,即輸入空間到超立方體頂點(diǎn)的映射是通過(guò)創(chuàng)建p個(gè)(gi=0)超平面實(shí)現(xiàn)的。隱層作用,也可說(shuō)是產(chǎn)生超平面Hp的交集,即將輸入拆分為由超平面交集構(gòu)成的多面體。每個(gè)超平面由隱層中的一個(gè)神經(jīng)元實(shí)現(xiàn),神經(jīng)元輸出為0或1。2.兩層感知器分類能力y1y2y3設(shè)d=2,p=3。根據(jù)輸入x與三個(gè)平面g1,2,3(x)=0的相對(duì)位置,由平面交集定義的每個(gè)區(qū)域?qū)?yīng)的三維立方體的一個(gè)頂點(diǎn)。如100頂點(diǎn)對(duì)應(yīng)的區(qū)域?yàn)間1的(+)側(cè),g2的(-)側(cè),g3的(-)側(cè)。即將輸入拆分為由超平面交集構(gòu)成的多面體。每個(gè)區(qū)域中所有向量映射到立方體(y1y2

y3)的頂點(diǎn),yi∈0或1。w1∈[011,001,000];w2∈[111,010,110,100]。⑵輸出神經(jīng)元超平面將超立方體分為兩部分,一部分頂點(diǎn)位于一側(cè),其余為另一側(cè)。上例d=2,p=3則該平面將三維幾何空間(R3)分為兩個(gè)區(qū)域:一側(cè)(類A)頂點(diǎn)是000∪001∪011;另一側(cè)(類B)頂點(diǎn)是010∪100∪110∪111。而101不與任一區(qū)域?qū)?yīng)。平面方程g(y)=-y1-y2+y3+0.5=0兩層感知器不能解決所有的問(wèn)題,如下列類域的分離:類A-(000∪111∪110);類B-(001∪011∪010∪100)。這取決于每個(gè)神經(jīng)元的gp(x)所構(gòu)成的平面位置。⑶例:兩層感知器結(jié)構(gòu)為2:3:1(d=2,p=3,j=1),用分段線性方法將非線性兩類分開(kāi)。第一隱層三個(gè)神經(jīng)元有相同的輸入x,由于gi(x)

的不同,有不同的輸出。i=1,2,3。其分類空間是三維的。gi(x)=0建立的三個(gè)超平面H1H2H3將d維特征空間分割成正負(fù)兩個(gè)半空間。圖中的三個(gè)超平面圍成7個(gè)區(qū)域,共兩類(w1w2),每個(gè)區(qū)域映射到超立方體頂點(diǎn)。

w2∈100∪000∪010∪011∪111∪101

w1∈110輸出層組織輸出。j個(gè)p個(gè)d個(gè)3.三層感知器第一層的隱層神經(jīng)元構(gòu)成超平面。即將有類別標(biāo)記的訓(xùn)練樣本集,先用分段線性算法gi(x)確定一組超平面的參數(shù)(權(quán)值),超平面的數(shù)目就是神經(jīng)元數(shù),設(shè)為p個(gè)。這就構(gòu)成p維空間。第二隱層有j個(gè)神經(jīng)元,每個(gè)神經(jīng)元在p維空間中建立一個(gè)超平面。通過(guò)選擇該層的權(quán)值,決定這些超平面的組合和連接方式,構(gòu)成區(qū)域。第三層輸出層的神經(jīng)元確定類別。這種結(jié)構(gòu)稱為前饋神經(jīng)網(wǎng)絡(luò)。三層網(wǎng)絡(luò)可以實(shí)現(xiàn)任何復(fù)雜類型的映射??梢宰C明,由于在分類空間中超立方體的凸性,對(duì)于無(wú)論多么復(fù)雜的分類問(wèn)題,一般來(lái)說(shuō)用兩個(gè)隱層已足夠。圖a單層感知器只能一個(gè)線性判別;圖b兩層感知器中每個(gè)隱層神經(jīng)元都有線性判別能力,就可建立復(fù)雜的凸區(qū)域;圖c三層感知器的前二層已得到了超體立方,在第三層再次建立超平面劃分區(qū)域。多層感知器簡(jiǎn)稱MLP。Multi-Layer-Perceptron§3反向傳播算法神經(jīng)網(wǎng)絡(luò)的輸出取決于輸入和連接的權(quán)值。其工作過(guò)程主要分兩個(gè)階段:①學(xué)習(xí)期-通過(guò)不斷地學(xué)習(xí)修改權(quán)值。②工作期-權(quán)值確定后,可計(jì)算輸出。單層感知器可通過(guò)感知器算法進(jìn)行學(xué)習(xí),調(diào)整權(quán)值,完成線性分類。它的輸入是訓(xùn)練集的樣本,輸出是期望值,對(duì)外是透明的。多層感知器中的中間隱層學(xué)習(xí)算法,對(duì)外是不透明的,隱層權(quán)值調(diào)整有困難。在20世紀(jì)80年代提出了誤差反向傳播算法,來(lái)計(jì)算隱層的權(quán)值。1.神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方式:⑴有監(jiān)督學(xué)習(xí)向網(wǎng)絡(luò)輸入訓(xùn)練樣本,期望輸出已知。比較實(shí)際輸出與期望輸出之誤差,該誤差或準(zhǔn)則函數(shù)是權(quán)值的某種標(biāo)量函數(shù),使之達(dá)到最小,以使每個(gè)輸出單元的實(shí)際輸出逼近期望值。這個(gè)過(guò)程稱為學(xué)習(xí)過(guò)程。準(zhǔn)則函數(shù)可用沒(méi)有錯(cuò)分樣本或最小均方差規(guī)則,優(yōu)化算法可采用梯度下降法。學(xué)習(xí)方法:如果一節(jié)點(diǎn)輸出正確,一切不變;如果輸出本應(yīng)為1而為0,則權(quán)值增加一增量ΔW;反之減少ΔW,如同感知器算法。2.反向傳播算法(BP法)Back-Propogation用BP算法的網(wǎng)絡(luò)也稱為BP網(wǎng)絡(luò)。算法原理:從后向前逐層傳播誤差,間接算出隱層誤差。采用最小二乘和梯度搜索法,以使實(shí)際輸出值與期望輸出值之間的誤差均方值最小。工作信號(hào):輸入信號(hào)向后(正向)傳播直到輸出端,是輸入和權(quán)的函數(shù)。誤差信號(hào):網(wǎng)絡(luò)實(shí)際輸出與期望輸出之差,由輸出端向前傳播(反向),逐層算出隱層誤差,修改前一層的權(quán)值,以使誤差最小。后前⑴BP算法推導(dǎo)計(jì)算某一層的第j個(gè)單元,i和k分別為其前層和后層的單元,Oj代表本層輸出,netj為輸入。從前到后對(duì)每層各單元計(jì)算(正向算法)

j的輸入

j的輸出對(duì)輸出層而言,為實(shí)際輸出,yj為期望值

局部梯度定義誤差權(quán)值對(duì)誤差影響

權(quán)值修正應(yīng)使誤差減少,修正量為

j單元分兩種情況(反向計(jì)算)

①j是輸出節(jié)點(diǎn)

②j不是輸出節(jié)點(diǎn),Oj對(duì)后層的全部節(jié)點(diǎn)都有影響在實(shí)際使用時(shí),為了加快收斂速度,要加入前一次的修正量第t次的實(shí)際修正量a稱為慣性系數(shù),h為學(xué)習(xí)系數(shù)。⑵反向傳播算法步驟:初始化:設(shè)可調(diào)參數(shù)(每個(gè)權(quán)值和閾值)為均勻分布的較小數(shù),如±0.3均勻分布隨機(jī)數(shù)。對(duì)每個(gè)樣本作如下計(jì)算,直到收斂:①輸入一個(gè)樣本x

=(x1,x2,..,xd)即Oi;輸入網(wǎng)絡(luò)的期望輸出yj,若輸出為兩個(gè)單元?jiǎng)tj=1,2。②從前向后計(jì)算各層(正向),各神經(jīng)元輸出Oj③對(duì)輸出層計(jì)算dj④從后向前計(jì)算各隱層δj

(反向)

⑤計(jì)算并保存各權(quán)值修正量

⑥修正權(quán)值t=t+1,輸入新的樣本(或新的周期樣本),直到誤差達(dá)到要求,訓(xùn)練結(jié)束。訓(xùn)練時(shí)各周期中樣本的輸入順序要重新隨機(jī)排序。這是對(duì)每個(gè)樣本作權(quán)值修正。也可對(duì)全部樣本計(jì)算dj后求和,按總誤差修正權(quán)值,稱為批處理方法。⑶學(xué)習(xí)曲線在訓(xùn)練開(kāi)始誤差很高,隨著學(xué)習(xí)進(jìn)展,誤差越來(lái)越小,由此生成學(xué)習(xí)曲線。誤差與訓(xùn)練樣本的數(shù)量、網(wǎng)絡(luò)輸入、所有神經(jīng)元的權(quán)值和閾值、以及網(wǎng)絡(luò)的結(jié)構(gòu)有關(guān)。測(cè)試集:獨(dú)立選取的樣本,誤差達(dá)到或接近訓(xùn)練集樣本,則說(shuō)明該網(wǎng)絡(luò)有推廣能力。檢驗(yàn)集:用非訓(xùn)練樣本測(cè)試網(wǎng)絡(luò)的現(xiàn)場(chǎng)運(yùn)行性能。訓(xùn)練總量用回合數(shù)表示,每輸入一次全部樣本,稱為一個(gè)回合。將新的樣本或老樣本隨機(jī)排序后再輸入,進(jìn)行下一個(gè)回合的訓(xùn)練。3.實(shí)際應(yīng)用中的有關(guān)問(wèn)題:⑴有關(guān)概念神經(jīng)網(wǎng)絡(luò)是一種軟件,它是通過(guò)軟件編程來(lái)實(shí)現(xiàn)的。它是與“模型-無(wú)關(guān)”的,是一種基于距離度量的數(shù)據(jù)分類方法,通過(guò)不斷的自學(xué)習(xí)來(lái)調(diào)整權(quán)值,以得到期望的輸出。神經(jīng)網(wǎng)絡(luò)具有逼近任意非線性函數(shù)的能力。根據(jù)已有的輸入輸出數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的權(quán)值,使它能精確地近似給定的非線性系統(tǒng)。神經(jīng)網(wǎng)絡(luò)基本上執(zhí)行線性判別,執(zhí)行過(guò)程是在輸入信號(hào)的非線性映射空間中進(jìn)行的,利用分段線性技術(shù)實(shí)現(xiàn)。⑵樣本數(shù)據(jù)要保證訓(xùn)練好的網(wǎng)絡(luò)有好的推廣性,訓(xùn)練結(jié)果應(yīng)該有效的逼近樣本蘊(yùn)含的內(nèi)在規(guī)律。將總樣本隨機(jī)分為訓(xùn)練樣本和非訓(xùn)練樣本(測(cè)試樣本),若測(cè)試樣本的誤差接近訓(xùn)練樣本,則可行。輸入預(yù)處理:應(yīng)用Sigmoid函數(shù)會(huì)受到飽和影響,應(yīng)將所有的輸入特征變換到一個(gè)合適的范圍,如(0,1)。輸出處理:若三類設(shè)三個(gè)名義值。用閾值,可將網(wǎng)絡(luò)的輸出值變換為-1和1。⑶學(xué)習(xí)參數(shù)的選擇

h對(duì)收斂性影響大,在0.1~3之間試探。通常0.5左右。

a開(kāi)始在0.9~1之間選擇,a>1時(shí)不收斂。訓(xùn)練中可不斷減小。初始權(quán)值在-0.5~0.5之間選擇。由于BP算法存在多個(gè)局部極小點(diǎn),必須通過(guò)多次改變初始權(quán)值,通過(guò)訓(xùn)練求得相應(yīng)的極小點(diǎn),以比較網(wǎng)絡(luò)的誤差,確定全局極小點(diǎn),從而得到最優(yōu)的權(quán)值。上述的參數(shù)僅供參考,需要在學(xué)習(xí)過(guò)程中不斷的嘗試,以求達(dá)到收斂速度快,誤差小。⑷神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的選擇隱層:隱層節(jié)點(diǎn)數(shù)就是提供的超平面數(shù)。多,可降低誤差,但也有可能產(chǎn)生“過(guò)學(xué)習(xí)”。隱層節(jié)點(diǎn)個(gè)數(shù):增加節(jié)點(diǎn)數(shù)可提高精度。如果樣本的維數(shù)較大時(shí),第一隱層中神經(jīng)元作用相當(dāng)于降低維數(shù),因此其個(gè)數(shù)應(yīng)當(dāng)接近于樣本數(shù)協(xié)方差矩陣擁有的顯著本征值個(gè)數(shù)。網(wǎng)絡(luò)結(jié)構(gòu)往往憑經(jīng)驗(yàn)選擇,在設(shè)計(jì)過(guò)程中可用幾種不同的結(jié)構(gòu)、初始參數(shù)分別進(jìn)行試驗(yàn)。BP算法的優(yōu)缺點(diǎn)優(yōu)點(diǎn):理論基礎(chǔ)牢固推導(dǎo)過(guò)程嚴(yán)謹(jǐn)物理概念清晰通用性好所以,它是目前用來(lái)訓(xùn)練多層前向網(wǎng)絡(luò)(BP網(wǎng)絡(luò))較好的算法。BP算法的優(yōu)缺點(diǎn)缺點(diǎn):BP算法的收斂速度一般來(lái)說(shuō)比較慢;BP算法只能收斂于局部最優(yōu)解,不能保證收斂于全局最優(yōu)解;當(dāng)隱層元的數(shù)量足夠多時(shí),網(wǎng)絡(luò)對(duì)訓(xùn)練樣本的識(shí)別率很高,但對(duì)測(cè)試樣本的識(shí)別率有可能很差,即網(wǎng)絡(luò)的推廣能力有可能較差。BP算法的實(shí)用技術(shù)輸出函數(shù)(激活函數(shù))輸入信號(hào)尺度變換c類問(wèn)題的目標(biāo)輸出帶噪聲的訓(xùn)練法人工“制造”數(shù)據(jù)隱單元數(shù)權(quán)值初始化學(xué)習(xí)率沖量項(xiàng)權(quán)值衰減BP算法的實(shí)用技術(shù)輸出函數(shù)(激活函數(shù))應(yīng)具備的性質(zhì)非線性:非線性特征映射,否則三層網(wǎng)絡(luò)將等同于兩層網(wǎng)絡(luò)的計(jì)算能力飽和性:存在最大和最小值,即輸出有上下界連續(xù)性:在整個(gè)自變量范圍內(nèi)都有定義光滑性:在整個(gè)自變量范圍內(nèi)一階導(dǎo)數(shù)存在最好有單調(diào)性:導(dǎo)數(shù)在自變量范圍內(nèi)不變號(hào),避免引入不必要的局部極值Sigmoid函數(shù)滿足上述性質(zhì),因此被廣泛采用激活函數(shù)f(·),一般選用Sigmoid函數(shù)xBP算法的實(shí)用技術(shù)輸入信號(hào)尺度變換魚(yú)分類的例子:x1:質(zhì)量x2:長(zhǎng)度x1=1500克,x2=0.3米,則網(wǎng)絡(luò)權(quán)值的調(diào)整主要由x1控制x1=1.5千克,x2=300毫米,則網(wǎng)絡(luò)權(quán)值的調(diào)整主要由x2控制解決方案:輸入特征尺度變換,使得每個(gè)特征在整個(gè)訓(xùn)練集上的均值為零每個(gè)特征的方差相同,如都為1.0規(guī)范化BP算法的實(shí)用技術(shù)c類問(wèn)題的目標(biāo)輸出Sigmoid函數(shù)的飽和值±1.716永遠(yuǎn)不可能達(dá)到,存在誤差c類問(wèn)題的判決準(zhǔn)則:如果樣本x屬于第i類,則第i個(gè)輸出單元的目標(biāo)輸出為+1,其他輸出單元為-1例如:四類情況,x屬于第3類,則目標(biāo)輸出為(-1,-1,+1,-1)BP算法的實(shí)用技術(shù)帶噪聲的訓(xùn)練法當(dāng)訓(xùn)練集很小時(shí),可以構(gòu)造一個(gè)虛擬的或替代的訓(xùn)練模式來(lái)使用(建立概率模型),就好像它們是從源分布中抽樣出來(lái)的正常的訓(xùn)練模式在沒(méi)有具體特定信息時(shí),一個(gè)自然的假設(shè)就是此代替模式應(yīng)該加入一個(gè)d維噪聲,以獲得真實(shí)的訓(xùn)練點(diǎn)這種有噪聲的訓(xùn)練方法實(shí)際上可用于任一分類方法,盡管對(duì)于高度局部化的分類器(如最近鄰分類器)它通常并不改善準(zhǔn)確率BP算法的實(shí)用技術(shù)人工“制造”數(shù)據(jù)在訓(xùn)練模式不足的情況下,有時(shí)可以人工制造一些訓(xùn)練樣本需要利用問(wèn)題的先驗(yàn)知識(shí),如某種“幾何不變性”,制造出一些能傳達(dá)更多信息的訓(xùn)練樣本數(shù)據(jù)變換:例如字符識(shí)別問(wèn)題中(如:dataaugmentation)旋轉(zhuǎn)縮放字符筆畫(huà)寬窄變化BP算法的實(shí)用技術(shù)隱單元數(shù):隱單元個(gè)數(shù)決定了網(wǎng)絡(luò)的表達(dá)能力,從而決定了判決邊界的復(fù)雜度簡(jiǎn)單問(wèn)題需要較少的隱單元復(fù)雜問(wèn)題需要較多隱單元過(guò)少隱單元造成神經(jīng)網(wǎng)絡(luò)表示能力下降過(guò)多隱單元造成對(duì)訓(xùn)練集的“過(guò)擬合”經(jīng)驗(yàn)規(guī)則選取隱單元個(gè)數(shù),使得網(wǎng)絡(luò)中總的權(quán)值數(shù)大致為樣本數(shù)的1/10BP算法的實(shí)用技術(shù)權(quán)值初始化若則無(wú)法更新權(quán)值初始化方法:從均勻分布中選取權(quán)值規(guī)格化后(方差為1.0)的d個(gè)變量作為輸入,平均凈激活為希望的凈激活范圍:-1<net<+1因此:BP算法的實(shí)用技術(shù)權(quán)值初始化輸入層到隱含層的權(quán)值初始化隱含層到輸出層的權(quán)值初始化與輸出層連接的隱單元數(shù)BP算法的實(shí)用技術(shù)學(xué)習(xí)率:不同學(xué)習(xí)率的收斂效果Sigmoid網(wǎng)絡(luò)的學(xué)習(xí)率:初始化學(xué)習(xí)率約為0.1;如果發(fā)散,則調(diào)小學(xué)習(xí)率;如果學(xué)習(xí)速度過(guò)慢,則調(diào)大學(xué)習(xí)率。BP算法的實(shí)用技術(shù)沖量項(xiàng)(momentum)問(wèn)題:在的區(qū)域,權(quán)值無(wú)法更新BP算法的實(shí)用技術(shù)沖量項(xiàng)(momentum)誤差曲面的“平坦區(qū)”較小,學(xué)習(xí)速度慢解決方法:如果讓當(dāng)前學(xué)習(xí)保持上一步學(xué)習(xí)的“慣性”,則可以較快通過(guò)“平坦區(qū)”“慣性”的度量:沖量BP算法的實(shí)用技術(shù)沖量項(xiàng)(momentum)上一步(第m步)的更新量第m+1步的BP算法更新量帶沖量的反向傳播學(xué)習(xí)規(guī)則退化為BP算法勻速學(xué)習(xí)通常?。築P算法的實(shí)用技術(shù)帶沖量的隨機(jī)反向傳播算法BP算法的實(shí)用技術(shù)帶沖量的隨機(jī)反向傳播算法BP算法的實(shí)用技術(shù)權(quán)值衰減簡(jiǎn)化網(wǎng)絡(luò)以及避免過(guò)擬合的方法:可以采用加入一個(gè)啟發(fā)式規(guī)則:即權(quán)值應(yīng)當(dāng)比較小實(shí)踐中,較小的權(quán)值往往可以提高神經(jīng)網(wǎng)絡(luò)性能。小權(quán)值更加適合線性的模型基本方法:從具有“非常多”的權(quán)值網(wǎng)絡(luò)開(kāi)始,在訓(xùn)練中衰減所有的權(quán)值§4徑向基函數(shù)網(wǎng)絡(luò)

(RadialBasisFunction,RBF)1.特點(diǎn):①屬于前饋網(wǎng)絡(luò)。只有一個(gè)隱層,隱層輸出特性為徑向基函數(shù),輸入層到隱層間的權(quán)值均為1;②輸出節(jié)點(diǎn)為線性求和,輸出權(quán)值可調(diào)。徑向基函數(shù)就是沿徑向?qū)ΨQ的標(biāo)量函數(shù)。定義為空間任一點(diǎn)x到中心xc之間歐氏距離的單調(diào)函數(shù)。高斯徑向基函數(shù):

xc

核函數(shù)中心,

s函數(shù)寬度。函數(shù)的變量為距離。網(wǎng)絡(luò)的輸出隱層的激活函數(shù)為RBF,輸出為加權(quán)線性和。RBF網(wǎng)絡(luò)的作用:①把網(wǎng)絡(luò)看成未知函數(shù)f(x)的逼近器。任何函數(shù)可表示成一組基函數(shù)的加權(quán)和,相當(dāng)于用隱層單元的輸出函數(shù)構(gòu)成一組基函數(shù)逼近f(x)。②從輸入層到隱層的基函數(shù)輸出是非線性映射,而輸出是線性的。即先將原始的非線性可分的特征空間變換到一個(gè)新的線性可分的空間,然后用一個(gè)線性單元來(lái)分類。在RBF網(wǎng)絡(luò)中有3組可調(diào)參數(shù):①xc

(或記為ci)核函數(shù)中心、質(zhì)心;

②si方差,函數(shù)寬度、平滑參數(shù);③wi輸出節(jié)點(diǎn)權(quán)值。2.常見(jiàn)的3種選擇方法:⑴根據(jù)經(jīng)驗(yàn)選取函數(shù)中心xc:如在訓(xùn)練樣本中根據(jù)經(jīng)驗(yàn)選定M個(gè)中心xc,其中心之間距為d。則高斯核函數(shù)的方差可s為

⑵用聚類方法選擇:以各聚類中心作為核函數(shù)中心,而以各類樣本的方差作為各個(gè)基函數(shù)的寬度參數(shù)。權(quán)值wi的選擇:因?yàn)檩敵鰡卧蔷€性單元,它的權(quán)值wi可用基于均方差最小的最小二乘法計(jì)算。⑶將三組可調(diào)參數(shù)q通過(guò)訓(xùn)練樣本用誤差d糾正算法求得。類似BP算法,分別計(jì)算d(k)對(duì)各組參數(shù)的偏導(dǎo)數(shù),用為了得到較好的推廣能力,在訓(xùn)練過(guò)程中可對(duì)質(zhì)心樣本點(diǎn)進(jìn)行調(diào)整。每個(gè)函數(shù)都有自己的平滑參數(shù)s,在訓(xùn)練中根據(jù)自身的情況確定。RBF除了應(yīng)用歐氏距離外,也可應(yīng)用馬氏距離。歐氏距離需要核函數(shù)數(shù)目多,馬氏距離需要估計(jì)更多的方差。通常用歐氏距離。3.RBF網(wǎng)絡(luò)與MLP的區(qū)別:①M(fèi)LP所有隱層的神經(jīng)元的輸出形式都是相同的,MLP有好的擴(kuò)展性;②RBF只對(duì)與xc中心歐氏距離相等的點(diǎn)輸出是相同的,隨距離不同按指數(shù)減小,因此激活響應(yīng)是局部的,而MLP是全局的,所以RBF收斂快。③利用RBF網(wǎng)絡(luò),對(duì)于任何函數(shù)f(x)都可找到一組權(quán)重系數(shù)來(lái)逼近這個(gè)函數(shù),即有最佳逼近性質(zhì)。例:用RBF完成XOR的分類選擇隱層m=2,c1=[1,1]T,c2=[0,0]T,1/2si

2

=1,

k(x)=exp(-||x-ci||2)映射后對(duì)應(yīng)的y值§5支持向量機(jī)SVM(非線性情況)在第3章中,廣義線性判別函數(shù)是通過(guò)構(gòu)造新的高維特征向量,這樣可用線性判別函數(shù)解決非線性問(wèn)題。同樣建立非線性支持向量機(jī)可分兩步:①將非線性樣本,從d維空間轉(zhuǎn)換到k維空間

F={f(x):x∈X},f:x→F②在新的特征空間中使用線性支持向量機(jī)。需將原d維非線性特征向量的空間X,映射到高維(k)的線性空間F,在此空間求廣義分類面。1.非線性空間變換方法:在線性支持向量機(jī)中的最優(yōu)分類函數(shù)在變換空間中定義適當(dāng)?shù)膬?nèi)積函數(shù)K,此內(nèi)積函數(shù)可用原空間中的變量直接計(jì)算得到,這樣就不會(huì)增加計(jì)算的復(fù)雜度,即內(nèi)積xiTxj→

K(xiTxj)內(nèi)積函數(shù)統(tǒng)計(jì)學(xué)習(xí)理論指出,只要一種運(yùn)算滿足Mercer條件,就可作為內(nèi)積函數(shù)。核函數(shù)就是這樣一種內(nèi)積函數(shù)。Mercer條件:

即對(duì)于滿足上面公式的函數(shù)K(x,x’),都存在用K(x,x’)定義的內(nèi)積空間。這樣的函數(shù)也稱為核。核函數(shù)也稱為勢(shì)函數(shù)。由勢(shì)能的概念引出。例如兩類模式樣本集在d維特征空間可看成一個(gè)點(diǎn)集,具有某種能量的點(diǎn),在每類的中心(核)xc的能量最大,隨距離增大而減小。將附近空間上的點(diǎn)的能量用函數(shù)K(x,xc)來(lái)表示,這個(gè)函數(shù)就是核函數(shù)。兩個(gè)d維向量x和xk同時(shí)滿足下列三個(gè)條件,可作為核函數(shù):①K(x,xk)=K(xk,x),且當(dāng)x=xk時(shí)函數(shù)有最大值②x與xk的距離趨于無(wú)窮大時(shí),K(x,xk)趨于零③K(x,xk)為光滑函數(shù),且是x與xk之間距離的減函數(shù)。在支持向量機(jī)中常用的核函數(shù):

2.支持向量機(jī)⑴算法用核函數(shù)代替最優(yōu)分類面中的點(diǎn)積,相當(dāng)于把原特征空間變換到新的特征空間,則對(duì)偶問(wèn)題求λi*,分類規(guī)則算法的其它條件均不變。⑵支持向量網(wǎng)絡(luò)輸出是中間層節(jié)點(diǎn)的線性組合,每一個(gè)中間層節(jié)點(diǎn)對(duì)應(yīng)于輸入樣本與一個(gè)支持向量的內(nèi)積。該網(wǎng)絡(luò)與RBF網(wǎng)絡(luò)結(jié)構(gòu)相似

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論