cips-2016nlp前沿技術(shù)講習(xí)-cnn_第1頁
cips-2016nlp前沿技術(shù)講習(xí)-cnn_第2頁
cips-2016nlp前沿技術(shù)講習(xí)-cnn_第3頁
cips-2016nlp前沿技術(shù)講習(xí)-cnn_第4頁
cips-2016nlp前沿技術(shù)講習(xí)-cnn_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ConvolutionalNeural 復(fù)旦大201673

2016年7月3日 1/大卷積卷積神經(jīng)網(wǎng)絡(luò)示梯度計(jì)典型CNN網(wǎng)絡(luò)CNN可視化應(yīng)

2016年7月3日 2/前饋神經(jīng)網(wǎng)

輸入 隱藏 隱藏層輸出y圖:

2016年7月3日 3/全連接

相鄰兩層的任何兩個(gè)不同層神經(jīng)元之間都存在連n(l?1)個(gè)神經(jīng)元,連接邊有n(l)n(l?1)個(gè),也就是權(quán)重矩n(ln(l?1)個(gè)參數(shù)。mn都很大時(shí),權(quán)重矩陣的參數(shù)非常

2016年7月3日 4/卷積神經(jīng)網(wǎng)

網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是受生物學(xué)上感受野(ReceptiveField)的機(jī)制11D.H.HubelandT.N.Wiesel.“Receptivefieldsandfunctionalarchitectureofmonkeystriatecortex”.In:TheJournalofphysiology1(1968).

2016年7月3日 5/卷積神經(jīng)網(wǎng)

卷積神經(jīng)網(wǎng)絡(luò)有三個(gè)結(jié)構(gòu)上的特性1局部連2權(quán)重共3空間或時(shí)間上的次采 recognition”.In:ProceedingsoftheIEEE11

2016年7月3日 6/ 卷列t=1···n,和濾波器ft,t=1···m,一般情況下濾波器的長度m遠(yuǎn)小于信號(hào)序列長度n。卷積的輸出為yt fk·xt?k+1k當(dāng)濾波ft=1/m時(shí),卷積相當(dāng)于信號(hào)序列的移動(dòng)平均

2016年7月3日 7/一維卷積示

Filter:[?1,0,012101210

2016年7月3日 8/一維卷積示

Filter:[?1,0, 012101210

2016年7月3日 9/一維卷積示

Filter:[?1,0, 012101210

2016年7月3日 10/一維卷積示

Filter:[?1,0, 012101210

2016年7月3日 11/一維卷積示

Filter:[?1,0, 012101210

2016年7月3日 12/ 窄卷積、寬卷積、等長卷卷積的結(jié)果按輸出長度不同可以分為兩類窄卷積:輸出長n?m+1,不補(bǔ)零寬卷積:輸出長n+m?1,對(duì)于不[1n]范圍之外xt用零paddingPadding=m-]padding在這里除了特 ,我們一般說的卷積默認(rèn)為窄卷積

2016年7月3日 13/兩端填補(bǔ)

2016年7月3日 14/一維卷積示

2016年7月3日 15/一維卷積示

0 1 2 1 01210

2016年7月3日 16/一維卷積示

2016年7月3日 17/兩維卷

兩維卷積經(jīng)常用在圖像處理中給定一個(gè)圖xij1≤i≤M,1≤j≤N,和濾波fij1≤i≤1≤j≤nmMnN。yij fuv·xi?u+1,j?v+1 u=1v=1。在圖像處理中,常用的均值濾波(meanfilter)就是當(dāng)前位置的像素。

2016年7月3日 18/兩維卷積示例

3圖像來源

2016年7月 2016年7月3 卷積層:用卷積來代替全連

2016年7月3日 20/ 卷積層:用卷積來代替全連如果采用卷積來代替全連接,第l層的每一個(gè)神經(jīng)元都只和l?1層i個(gè)神經(jīng)元的輸入定義為:a(l)= w(l)·

+ = ·= ·(i+m?1):i

+ 其中,w(l)∈Rm為m維的濾波器 = ,···,a(l)]T(i+m?1):i (i+m?1) )

2016年7月3日 21/ 卷積層:用卷積來代替全連上述公式也可以寫為a(l)=f(w(l)?a(l?1)+ ?表示卷積運(yùn)算從公式5可以看出,w(l)對(duì)于所有的神經(jīng)元都是相同的。這也是卷積層參數(shù)。另外,第l+1層的神經(jīng)元個(gè)數(shù)不是任意選擇的,而是滿足n(l+1)=n(l)?m+1

2016年7月3日 22/二維卷積

需要二維卷積。假x(l)R(wl×hl)和x(l?1)R(wl?1×hl?1)分別是第l層和第l1層的神經(jīng)元活性。X(l)的每一個(gè)元素為:Xs,t=

∑u

i=1 個(gè)數(shù)(wlhl),并且wl=wl?1u+1,hl=hl?1v+1。也可以寫為 X(l)=fW(l)?X(l?1)+b(l)

2016年7月3日 23/特征映

為了增強(qiáng)卷積層的表示能力,我們可以使用K個(gè)不同的濾波器來得到K組輸出。每一組輸出都共 Map

2016年7月3日 24/特征映

不失一般性,我們假設(shè)第l?1層的特征映射組數(shù)為nl?1,每組特征映射的大小為ml?1=wl?1hl?1。第l1層的總神經(jīng)元數(shù):nl?1ml?1。第l層的特征映射組數(shù)為nl。如果假設(shè)第l層的每一組特征映射X(l,k)第l層的第k組特征映射X(l,k)為:X

= W(l,k,p)?X +

其中,W(l,k,p)表示l1層的p組特征向量到l層的k組特

2016年7月3日 25/兩維卷積層的映射關(guān)

偏b輸 特征映射

特征

2016年7月3日 26/連接

第l層的每一組特征映射都依賴于第l層的所有特征映射,相當(dāng)于不同 連接關(guān)系。如果第l層的第k組特征映射依賴于前一層的第p組特征映射,則Tp,k=1,否則為0。X(l,k)=

p,k

(W(l,k,p)?

+

么共需要K(uv)+nl參數(shù)。

2016年7月3日 27/兩維卷積層示

2016年7月3日 28/大卷積卷積神經(jīng)網(wǎng)絡(luò)示梯度計(jì)典型CNN網(wǎng)絡(luò)CNN可視化應(yīng)

2016年7月3日 29/子采樣

(Subsampling

2016年7月3日 30/子采樣

對(duì)于卷積層得到的一個(gè)特征映射X(l),我們可以將X(l)劃分為很多區(qū)域Rk,k=1···K,這些區(qū)域可以,也可以不。一個(gè)子采樣函數(shù)down(···)定義為:X(l+1)=f(Z(l+1) ( =fw(l+1)·down(Rk)+

其中,w(l+1)和b(l+1)

2016年7月3日 31/子采樣

X(l+1)=(

)=fw(l+1)·down(Xl)+b(l+1) )子采樣函數(shù)down(·)一般是取區(qū)域內(nèi)所有神經(jīng)元的最大值( Poolingpoolmax(Rk)=max (R)=1∑a

2016年7月3日 32/子采樣層示例

2016年7月3日 33/大卷積卷積神經(jīng)網(wǎng)絡(luò)示梯度計(jì)典型CNN網(wǎng)絡(luò)CNN可視化應(yīng)

2016年7月3日 34/卷積神經(jīng)網(wǎng)絡(luò)示例:LeNet-基于LeNet-5的手寫數(shù)字識(shí)別系統(tǒng)在90年代被很多銀行使用,用來識(shí)別支票上面的手寫數(shù)字。LeNet-5的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。

2016年7月3日 35/LeNet-

輸入層:輸入圖像大小3232=1024C1層:這一層是卷積層。濾波器的大小55=256波器6組大小2828=784的特征映射。因此,C1神經(jīng)元個(gè)數(shù)6784=4704??捎?xùn)練參數(shù)個(gè)數(shù)625+6=156。連接數(shù)為156784=122304(包括偏置在內(nèi)

2016年7月3日 36/LeNet-

S2層:這一層為子采樣層。C1層每組特征映射中22鄰域1414=196??捎?xùn)練參數(shù)個(gè)數(shù)為6(1+1)=126196(4+1)=122304(包括偏置的連接

2016年7月3日 37/LeNet-

C3層:這一層是卷積層。由于S2層也有多組特征映射,需要接表有60個(gè)濾波器,大小是55=25。16組大小為1010=100的特征映射。C316100=1600??捎?xùn)練參數(shù)個(gè)數(shù)為(6025+16151600

2016年7月3日 38/LeNet-

C36S23連續(xù)子集再接下來的3個(gè)特征映射依賴于S2層的特征映射的每4個(gè)不連續(xù)

2016年7月3日 39/LeNet-

S4層:這一層是一個(gè)子采樣層22鄰域點(diǎn)次采1個(gè)點(diǎn)16組55大小的特征映射。可訓(xùn)練參數(shù)個(gè)數(shù)162=32連接數(shù)為16(4+1)=2000

2016年7月3日 40/LeNet-

1C5層:是一個(gè)卷積層120組大小11的特征映射特征映射S4層的全部特征映射相連。有12016=1920個(gè)濾5525。C5120,可訓(xùn)練參數(shù)個(gè)數(shù)為192025+120=48120。連接數(shù)為120(1625+1)=481202F6層:是一個(gè)全連接層84個(gè)神經(jīng)元,可訓(xùn)練參數(shù)個(gè)數(shù)84(120+1)=10164。連接數(shù)和可訓(xùn)練參數(shù)個(gè)數(shù)相同10,164310個(gè)歐氏徑向基函數(shù)(RadialBasisRBF)函數(shù)組成。這里不再詳

2016年7月3日 41/大卷積卷積神經(jīng)網(wǎng)絡(luò)示梯度計(jì)典型CNN網(wǎng)絡(luò)CNN可視化應(yīng)

2016年7月3日 42/梯度計(jì)

)δ(l)?J(W,b;x,ll

2016年7月3日 43/卷積層的梯

我們假定卷積層l層,子采樣層l+1+卷積層(上一層)的相應(yīng)特征映射的一個(gè)區(qū)l層的k個(gè)特征映射中的每個(gè)神經(jīng)元都有一條l+1層的k個(gè)X(l,k)=(

)Z(l+1,k)=

w(l+1)·down(Xl)+b(l+1,k)

2016年7月3日 44/卷積層的梯

根據(jù)鏈?zhǔn)椒▌tl層的一個(gè)特征映射的誤δ(l,k),只需要l+1層對(duì)應(yīng)特征映射的誤差項(xiàng)δ(l+1,k)進(jìn)行上采樣操作(和第l層的大小一樣再和l層特征映射的激活值偏導(dǎo)數(shù)逐元素相乘,再乘上權(quán)重w(l+1,k)),就得到了δ(l,k)。l層的k個(gè)特征映射的誤差δ(l,k)的具體推導(dǎo)過程如下δ(l,k)?J(W,b;X, (=?Z(l,k)·(

·?J(W,b;X,

l=f′(Z(l))⊙upw(l+1,k)l

l l=w(l+1,k

f′(Z(l))⊙up(δ(l+1))

(Upsampling

2016年7月3日 45/卷積層的梯

第k個(gè)特征映射神經(jīng)元濾波W(l,k,p)的?J(W,b;X,?W

=

XXs?i+u,t?j+v

s=1t=1=

XX(u?i)?s,(v?j)?t

·rot180

s=1t=1

2016年7月3日 46/卷積層的梯

公式25也剛好是卷積形式,因此目標(biāo)函數(shù)關(guān)于第l層的第k個(gè)特征映神經(jīng)元濾波器W(l,k,p)?J(W,b;X,

=rot180X(l?1,p)?rot180(δ(l,k)) 目標(biāo)函數(shù)關(guān)于l層的k個(gè)特征映射的偏b(l)的梯度可以寫為?J(W,b;X, =

2016年7月3日 47/子采樣層的梯

+作,l+1層的一個(gè)神經(jīng)元的誤差項(xiàng)δ對(duì)應(yīng)于卷積層(上一層)的相應(yīng)∑Z(l+1,k)Tp,k=1

W

?X +

l層的k個(gè)特征映射的誤差δ(l,k)的具體推導(dǎo)過程如下δ(l,k)?J(W,b;X,

?J(W,b;X,

)l=f′(Z(l))l

δ(l+1,p)k=1 k=1

2016年7月3

48/子采樣層的梯

神經(jīng)元濾波器W(l,k,p)的梯度可以寫為:?J(W,b;X,

∑ down(X(l?1,k))·

目標(biāo)函數(shù)關(guān)于l層的k個(gè)特征映射的偏b(l)的梯度可以寫為?J(W,b;X, =

2016年7月3日 49/LargeScaleVisualRecognition

2016年7月3日 50/大卷積卷積神經(jīng)網(wǎng)絡(luò)示梯度計(jì)典型CNN網(wǎng)絡(luò)CNN可視化應(yīng)

2016年7月3日 51/數(shù)據(jù)集:CIFAR-

2016年7月3日 52/數(shù)據(jù)集12J.Dengetal.“Imagenet:Alarge-scalehierarchicalimagedatabase”.In:ComputerVisionandPatternRecognition,2009.CVPR2009.IEEEConferenceon.IEEE.2009,pp.248–255. 2016年7月3日 53/CNN示例

2016年7月 2016年7月3

典型CNNwith26%error)8層,其中5層卷積層,后3層全連接層最后的一層的輸出是具有1000個(gè)輸出的softmax

2016年7月3日 55/

典型CNN參數(shù) Net:4MVS15C.Szegedyetal.“Goingdeeperwithconvolutions”.In:ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015,pp.1–9.

2016年7月3日 56/

典型CNN錯(cuò)誤率16R.K.Srivastava,K.Greff,andJ. idhuber.“Highwaynetworks”.In:arXivpreprintarXiv:1505.0038717K.Heetal.“DeepResidualLearningforImageRecognition”.In:arXivpreprintarXiv:1512.03385 2016年7月3日 57/

典型CNN18Heetal.,“DeepResidualLearningforImage 2016年7月3日 58/CNN可視化:t-SNE投影

CNNILSVRC201250,000張圖用t-SNE投影到 (L2距離

2016年7月3日 59/CNN可視化:濾波器

CNNAlexNet中的濾波器(96filters

2016年7月3日 60/CNN可視化:遮擋

CNN

2016年7月3日 61/CNN可視化:神經(jīng)元激活

CNN

2016年7月3日 62/ CNN可視戲弄深度網(wǎng)絡(luò):對(duì)抗樣本 examples2323C.Szegedyetal.“Intriguingpropertiesofneuralnetworks”.In:arXivpreprintarXiv:1312.6199

2016年7月3日 63/戲弄深度網(wǎng)絡(luò):噪聲圖像

CNN

2016年7月 2016年7月3 自動(dòng)產(chǎn)生圖像

CNN25A.Dosovitskiy,J.TobiasSpringenberg,andT.Brox.“Learningtogeneratechairswithconvolutionalneuralnetworks”.ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015,pp. 2016年7月3 自動(dòng)產(chǎn)生圖

CNN生成過渡圖像 2016年7月3日 66/自動(dòng)產(chǎn)生圖

CNN椅子加減法 2016年7月3日 67/DeepDream

CNN

2016年7月3日 68/DeepDream

CNN 2016年7月3日 69/

CNN

2016年7月3日 70/

CNN

2016年7月3日 71/DeepMind’sAlphaGo

CNN

2016年7月3日 72/DeepMind’s

CNN分布式系統(tǒng):1202CPU176單機(jī)版:48個(gè)CPU和8塊 27D.Silveretal.“MasteringthegameofGowithdeepneuralnetworksandtreesearch”.In:Nature7587

2016年7月3日 73/大卷積卷積神經(jīng)網(wǎng)絡(luò)示梯度計(jì)典型CNN網(wǎng)絡(luò)CNN可視化應(yīng)

2016年7月3日 74/ 基于卷積神經(jīng)網(wǎng)絡(luò)的句子表示建輸入:長度n的句子第一步,LookupX=[x1x2···xn然后子采

2016年7月3日 75/ 基于卷積神經(jīng)網(wǎng)絡(luò)的句子表示建輸入:長度n的句子第一步,LookupX=[x1x2···xn然后子采

2016年7月3日 76/ 基于卷積神經(jīng)網(wǎng)絡(luò)的句子表示建輸入:長度n的句子第一步,LookupX=[x1x2···xn然后子采

2016年7月3日 77/ 基于卷積神經(jīng)網(wǎng)絡(luò)的句子表示建輸入:長度n的句子第一步,LookupX=[x1x2···xn然后子采

2016年7月3日 78/ 基于卷積神經(jīng)網(wǎng)絡(luò)的句子表示建輸入:長度n的句子第一步,LookupX=[x1x2···xn然后子采

2016年7月3日 79/Collobert模型

關(guān)鍵步二維卷zt:t+m?1xt⊕xt+1⊕xt+m?1∈矩陣-向量乘txl=f(Wlzt:t+m?1+txl=maxt 28R.Collobertetal.“Naturallanguageprocessing(almost)fromscratch”.In:TheJournalofMachineLearning

2016年7月3日 80/Kim模型

關(guān)鍵步二維卷zt:t+m?1=xt⊕xt+1⊕xt+m?1∈向量-向量乘txl=f(wlzt:t+m?1+t多濾波器、多通 xl=maxt

2016年7月3日 81/Zhang模型

2016年7月3日 82/ Kalchbrenner模型(動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)31關(guān)鍵步一維卷xl=f(wlxi,t:t+m?1+ kl=max(ktop,|L?l|(可 多濾波器、多通31N.Kalchbrenner,E.Grefenstette,andP.Blunsom.“AConvolutionalNeuralNetworkforModellingSentences”.ProceedingsofACL.

2016年7月3日 83/Hu模型

關(guān)鍵步二維卷zt:t+m?1=xt⊕xt+1⊕xt+m?1∈矩陣-向量乘x=f(Wx=f(W

+xl=

,xl?1 InformationProcessingSystems.2014. 2016年7月3日 84/ 應(yīng)自機(jī)器翻

2016年7月3日 85/ 基于字符的文本分類共

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論