綜述卷積神經(jīng)網(wǎng)絡(luò):從基礎(chǔ)技術(shù)到_第1頁
綜述卷積神經(jīng)網(wǎng)絡(luò):從基礎(chǔ)技術(shù)到_第2頁
綜述卷積神經(jīng)網(wǎng)絡(luò):從基礎(chǔ)技術(shù)到_第3頁
綜述卷積神經(jīng)網(wǎng)絡(luò):從基礎(chǔ)技術(shù)到_第4頁
綜述卷積神經(jīng)網(wǎng)絡(luò):從基礎(chǔ)技術(shù)到_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1引言1.1動機過去幾年來,計算機視覺研究主要集中在卷積神經(jīng)網(wǎng)絡(luò)(常簡稱為ConvNet或CNN)上。這些工作已經(jīng)在廣泛的分類和回歸任務(wù)上實現(xiàn)了新的當前最佳表現(xiàn)。相對而言,盡管這些方法的歷史可以追溯到多年前,但對這些系統(tǒng)得到出色結(jié)果的方式的理論理解還很滯后。事實上,當前計算機視覺領(lǐng)域的很多成果都是將CNN當作黑箱使用,這種做法是有效的,但其有效的原因卻非常模糊不清,這嚴重滿足不了科學(xué)研究的要求。尤其是這兩個可以互補的問題:(1)在被學(xué)習(xí)的方面(比如卷積核),究竟被學(xué)習(xí)的是什么?(2)在架構(gòu)設(shè)計方面(比如層的數(shù)量、核的數(shù)量、池化策略、非線性的選擇),為什么某些選擇優(yōu)于另一些選擇?這些問題的答案不

2、僅有利于提升我們對CNN的科學(xué)理解,而且還能提升它們的實用性。此外,目前實現(xiàn)CNN的方法需要大量訓(xùn)練數(shù)據(jù),而且設(shè)計決策對結(jié)果表現(xiàn)有很大的影響。更深度的理論理解應(yīng)該能減輕對數(shù)據(jù)驅(qū)動的設(shè)計的依賴。盡管已有實證研究調(diào)查了所實現(xiàn)的網(wǎng)絡(luò)的運行方式,但到目前為止,這些結(jié)果很大程度上還局限在內(nèi)部處理過程的可視化上,目的是為了理解CNN中不同層中發(fā)生的情況。1.2目標針對上述情況,本報告將概述研究者提出的最突出的使用多層卷積架構(gòu)的方法。要重點指出的是,本報告將通過概述不同的方法來討論典型卷積網(wǎng)絡(luò)的各種組件,并將介紹它們的設(shè)計決策所基于的生物學(xué)發(fā)現(xiàn)和/或合理的理論基礎(chǔ)。此外,本報告還將概述通過可視化和實證研究來

3、理解CNN的不同嘗試。本報告的最終目標是闡釋CNN架構(gòu)中涉及的每一個處理層的作用,匯集我們當前對CNN的理解以及說明仍待解決的問題。1.3報告提綱本報告的結(jié)構(gòu)如下:本章給出了回顧我們對卷積網(wǎng)絡(luò)的理解的動機。第2章將描述各種多層網(wǎng)絡(luò)并給出計算機視覺應(yīng)用中使用的最成功的架構(gòu)。第3章將更具體地關(guān)注典型卷積網(wǎng)絡(luò)的每種構(gòu)造模塊,并將從生物學(xué)和理論兩個角度討論不同組件的設(shè)計。最后,第4章將會討論CNN設(shè)計的當前趨勢以及理解CNN的工作,并且還將重點說明仍然存在的一些關(guān)鍵短板。2多層網(wǎng)絡(luò)總的來說,本章將簡要概述計算機視覺領(lǐng)域中所用的最突出的多層架構(gòu)。需要指出,盡管本章涵蓋了文獻中最重要的貢獻,但卻不會對這些

4、架構(gòu)進行全面概述,因為其它地方已經(jīng)存在這樣的概述了(比如17,56,90)。相反,本章的目的是為本報告的剩余部分設(shè)定討論基礎(chǔ),以便我們詳細展示和討論當前對用于視覺信息處理的卷積網(wǎng)絡(luò)的理解。21多層架構(gòu)在近來基于深度學(xué)習(xí)的網(wǎng)絡(luò)取得成功之前,最先進的用于識別的計算機視覺系統(tǒng)依賴于兩個分離但又互補步驟。第一步是通過一組人工設(shè)計的操作(比如與基本集的卷積、局部或全局編碼方法)將輸入數(shù)據(jù)變換成合適的形式。對輸入的變換通常需要找到輸入數(shù)據(jù)的一種緊湊和/或抽象的表征,同時還要根據(jù)當前任務(wù)注入一些不變量。這種變換的目標是以一種更容易被分類器分離的方式改變數(shù)據(jù)。其次,被變換的數(shù)據(jù)通常用于訓(xùn)練某些類型的分類器(比

5、如支持向量機)來識別輸入信號的內(nèi)容。通常而言,任何分類器的表現(xiàn)都會受到所使用的變換方法的嚴重影響。多層學(xué)習(xí)架構(gòu)為這一問題帶來了不同的前景,這種架構(gòu)提出不僅要學(xué)習(xí)分類器,而且要從數(shù)據(jù)中直接學(xué)習(xí)所需的變換操作。這種形式的學(xué)習(xí)通常被稱為表征學(xué)習(xí),當應(yīng)用在深度多層架構(gòu)中時即被稱為深度學(xué)習(xí)。多層架構(gòu)可以定義為允許從輸入數(shù)據(jù)的多層抽象中提取有用信息的計算模型。一般而言,多層架構(gòu)的設(shè)計目標是在更高層凸顯輸入中的重要方面,同時能在遇到更不重要的變化時變得越來越穩(wěn)健。大多數(shù)多層架構(gòu)都是將帶有交替的線性和非線性函數(shù)的簡單構(gòu)建模塊堆疊在一起。多年以來,研究者已經(jīng)提出了很多不同類型的多層架構(gòu),本章將會覆蓋計算機視覺應(yīng)

6、用中所采用的最為突出的此類架構(gòu)。人工神經(jīng)網(wǎng)絡(luò)是其中的關(guān)注重點,因為這種架構(gòu)的表現(xiàn)非常突出。為了簡單起見,后面會直接將這類網(wǎng)絡(luò)稱為神經(jīng)網(wǎng)絡(luò)。2.1.1神經(jīng)網(wǎng)絡(luò)典型的神經(jīng)網(wǎng)絡(luò)由一個輸入層、一個輸出層和多個隱藏層構(gòu)成,其中每一層都包含多個單元。kUpulRBJfE陽細圖2.1:典型神經(jīng)網(wǎng)絡(luò)架構(gòu)示意圖,圖來自17自動編碼器可以定義為由兩個主要部分構(gòu)成的多層神經(jīng)網(wǎng)絡(luò)。第一個部分是編碼器,可以將輸入數(shù)據(jù)變換成特征向量;第二個部分是解碼器,可將生成的特征向量映射回輸入空間。HeepAuton:cKierEnoodfngDecodingOOOOOOOOOOOO00OOOOOOOOOOOOOuipuiCompr

7、essedFeateVettw圖2.2典型自動編碼器網(wǎng)絡(luò)的結(jié)構(gòu),圖來自172.1.2循環(huán)神經(jīng)網(wǎng)絡(luò)當談到依賴于序列輸入的任務(wù)時,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是最成功的多層架構(gòu)之一。RNN可被視為一種特殊類型的神經(jīng)網(wǎng)絡(luò),其中每個隱藏單元的輸入時其當前時間步驟觀察到的數(shù)據(jù)和其前一個時間步驟的狀態(tài)。圖2.3:標準循環(huán)神經(jīng)網(wǎng)絡(luò)的運算的示意圖。每個RNN,單元的輸入都是當前時間步驟的新輸入和前ht=+wAd_i)一個時間步驟的狀態(tài);然后根據(jù)計算得到新輸出,這個輸出又可被饋a0*o叮斗送到多層RNN的下一層進行處理。LSTMUnit圖2.4:典型LSTM單元示意圖。該單元的輸入是當前時間的輸入和前一時間的輸入,然

8、后它會返回一個輸出并將其饋送給下一時間。LSTM單元的最終輸出由輸入門、輸出門和記憶單元狀態(tài)控制。圖來自33OutputGateInputModuiabonGate2.1.3卷積網(wǎng)絡(luò)卷積網(wǎng)絡(luò)(CNN)是一類尤其適合計算機視覺應(yīng)用的神經(jīng)網(wǎng)絡(luò),因為它們能使用局部操作對表征進行分層抽象。有兩大關(guān)鍵的設(shè)計思想推動了卷積架構(gòu)在計算機視覺領(lǐng)域的成功。第一,CNN利用了圖像的2D結(jié)構(gòu),并且相鄰區(qū)域內(nèi)的像素通常是高度相關(guān)的。因此,CNN就無需使用所有像素單元之間的一對一連接(大多數(shù)神經(jīng)網(wǎng)絡(luò)都會這么做),而可以使用分組的局部連接。第二,CNN架構(gòu)依賴于特征共享,因此每個通道(即輸出特征圖)是在所有位置使用同一個

9、過濾器進行卷積而生成的。InputConvoluuors/FullConnectionOutputSubumphngConwontSubsampiingClfeaturemapsS2feacuremapsClfeaturemapsSIfeaturerTiipiConvolutions圖2.5:標準卷積網(wǎng)絡(luò)的結(jié)構(gòu)的示意圖圖來自93圖2.6:Neocognitron的結(jié)構(gòu)示意圖,圖來自492.1.4生成對抗網(wǎng)絡(luò)典型的生成對抗網(wǎng)絡(luò)(GAN)由兩個互相競爭的模塊或子網(wǎng)絡(luò)構(gòu)成,即:生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)。2.1.5多層網(wǎng)絡(luò)的訓(xùn)練如前面討論的一樣,多種多層架構(gòu)的成功都很大程度上取決于它們的學(xué)習(xí)過程的成功。

10、其訓(xùn)練過程通常都基于使用梯度下降的誤差的反向傳播。由于使用簡單,梯度下降在訓(xùn)練多層架構(gòu)上有廣泛的應(yīng)用。216簡單說說遷移學(xué)習(xí)使用多層架構(gòu)提取的特征在多種不同數(shù)據(jù)集和任務(wù)上的適用性可以歸功于它們的分層性質(zhì),表征會在這樣的結(jié)構(gòu)中從簡單和局部向抽象和全局發(fā)展。因此,在其層次結(jié)構(gòu)中的低層級提取的特征往往是多種不同任務(wù)共有的特征,因此使得多層結(jié)構(gòu)更容易實現(xiàn)遷移學(xué)習(xí)。2.2空間卷積網(wǎng)絡(luò)理論上而言,卷積網(wǎng)絡(luò)可以應(yīng)用于任意維度的數(shù)據(jù)。它們的二維實例非常適用于單張圖像的結(jié)構(gòu),因此在計算機視覺領(lǐng)域得到了相當大的關(guān)注。有了大規(guī)模數(shù)據(jù)集和強大的計算機來進行訓(xùn)練之后,CNN近來在多種不同任務(wù)上的應(yīng)用都出現(xiàn)了迅猛增長。本

11、節(jié)將介紹為原來的LeNet引入了相對新穎的組件的比較突出的2DCNN架構(gòu)。CNN近期發(fā)展中的關(guān)鍵架構(gòu)圖2.8:AlexNet架構(gòu)。需要指出,雖然從圖上看這是一種有兩個流的架構(gòu),但實際上這是一種單流的架構(gòu),這張圖只是說明AlexNet在2個不同GPU上并行訓(xùn)練的情況。圖來自88圖2.9:GoogLeNet架構(gòu)。(a)典型的inception模塊,展示了順序和并行執(zhí)行的操作。(b)由層疊的許多inception模塊構(gòu)成的典型inception架構(gòu)的示意圖。圖來自138identity(a)圖2.10:ResNet架構(gòu)。(a)殘差模塊。(b)由層疊的許多殘差模塊構(gòu)成的典型ResNet架構(gòu)示意圖。圖來

12、自64(ii)圖2.11:DenseNet架構(gòu)。(a)dense模塊。(b)(b)由層疊的許多dense模塊構(gòu)成的典型DenseNet架構(gòu)的示意圖。圖來自722.2.2實現(xiàn)CNN的不變性使用CNN的一大難題是需要非常大的數(shù)據(jù)集來學(xué)習(xí)所有的基本參數(shù)。甚至擁有超過100萬張圖像的ImageNet等大規(guī)模數(shù)據(jù)集在訓(xùn)練特定的深度架構(gòu)時仍然被認為太小。滿足這種大數(shù)據(jù)集要求的一種方法是人工增強數(shù)據(jù)集,具體做法包括對圖像進行隨機翻轉(zhuǎn)、旋轉(zhuǎn)和抖動(jittering)等。這些增強方法的一大優(yōu)勢是能讓所得到的網(wǎng)絡(luò)在面對各種變換時能更好地保持不變。2.2.3實現(xiàn)CNN的定位除了識別物體等簡單的分類任務(wù),CNN近來

13、也在需要精準定位的任務(wù)上表現(xiàn)出色,比如形義分割和目標檢測。2.3時空卷積網(wǎng)絡(luò)使用CNN為各種基于圖像的應(yīng)用帶來了顯著的性能提升,也催生了研究者將2D空間CNN擴展到視頻分析的3D時空CNN上的興趣。一般而言,文獻中提出的各種時空架構(gòu)都只是試圖將空間域(x,y)的2D架構(gòu)擴展到時間域(x,y,t)中。在基于訓(xùn)練的時空CNN領(lǐng)域存在3種比較突出的不同架構(gòu)設(shè)計決策:基于LSTM的CNN、3DCNN和Two-StreamCNN。231基于LSTM的時空CNN基于LSTM的時空CNN是將2D網(wǎng)絡(luò)擴展成能處理時空數(shù)據(jù)的一些早期嘗試。它們的操作可以總結(jié)成圖2.16所示的三個步驟。第一步,使用一個2D網(wǎng)絡(luò)處理

14、每一幀,并從這些2D網(wǎng)絡(luò)的最后一層提取出特征向量。第二步,將這些來自不同時間步驟的特征用作LSTM的輸入,得到時間上的結(jié)果。第三步,再對這些結(jié)果求平均或線性組合,然后再傳遞給一個softmax分類器以得到最終預(yù)測。3DCNN這種突出的時空網(wǎng)絡(luò)是將2DCNN最直接地泛化到圖像時空域中。它直接處理RGB圖像的時間流,并通過應(yīng)用所學(xué)習(xí)到的3D卷積過濾器來處理這些圖像。Two-StreamCNN這種類型的時空架構(gòu)依賴于一種雙流式(two-stream)的設(shè)計。標準的雙流式架構(gòu)是采用兩個并行通路個用于處理外觀,另一個用于處理運動;這種方法類似于生物視覺系統(tǒng)研究中的雙流式假設(shè)。2.4整體討論需要重點指出的

15、是,盡管這些網(wǎng)絡(luò)在很多計算機視覺應(yīng)用上都實現(xiàn)了很有競爭力的結(jié)果,但它們的主要缺點仍然存在:對所學(xué)習(xí)到的表征的確切本質(zhì)的理解很有限、依賴于大規(guī)模數(shù)據(jù)訓(xùn)練集、缺乏支持準確的表現(xiàn)邊界的能力、網(wǎng)絡(luò)超參數(shù)選擇不清晰。3理解CNN的構(gòu)建模塊鑒于CNN領(lǐng)域存在大量懸而未決的問題,本章將介紹典型卷積網(wǎng)絡(luò)中每種處理層的作用和意義。為此本章將概述在解決這些問題上最突出的工作。尤其值得一提的是,我們將從理論和生物學(xué)兩個角度來展示CNN組件的建模方式。每種組件的介紹后面都總結(jié)了我們當前的理解水平。31卷積層卷積層可以說是CNN架構(gòu)中最重要的步驟之一?;径?,卷積是一種線性的、平移不變性的運算,其由在輸入信號上執(zhí)行局

16、部加權(quán)的組合構(gòu)成。根據(jù)所選擇的權(quán)重集合(即所選擇的點擴散函數(shù)(pointspreadfunction)的不同,也將揭示出輸入信號的不同性質(zhì)。在頻率域中,與點擴散函數(shù)關(guān)聯(lián)的是調(diào)制函數(shù)一一說明了輸入的頻率組分通過縮放和相移進行調(diào)制的方式。因此,選擇合適的核(kernel)對獲取輸入信號中所包含的最顯著和最重要的信息而言至關(guān)重要,這能讓模型對該信號的內(nèi)容做出更好的推斷。本節(jié)將討論一些實現(xiàn)這個核選擇步驟的不同方法。3.2整流多層網(wǎng)絡(luò)通常是高度非線性的,而整流(rectification)則通常是將非線性引入模型的第一個處理階段。整流是指將點方面的非線性(也被稱為激活函數(shù))應(yīng)用到卷積層的輸出上。這一術(shù)語

17、借用自信號處理領(lǐng)域,其中整流是指將交流變成直流。這也是一個能從生物學(xué)和理論兩方面都找到起因的處理步驟。計算神經(jīng)科學(xué)家引入整流步驟的目的是尋找能最好地解釋當前神經(jīng)科學(xué)數(shù)據(jù)的合適模型。另一方面,機器學(xué)習(xí)研究者使用整流的目的是為了讓模型能更快和更好地學(xué)習(xí)。有趣的是,這兩個方面的研究者往往都認同這一點:他們不僅需要整流,而且還會殊途同歸到同一種整流上。(ajLogistic(b)tanh(c)ReLUV(d)LReLU/PReLU(e)SReLU(f)EReLU3.3歸一化正如前面提到的,由于這些網(wǎng)絡(luò)中存在級聯(lián)的非線性運算,所以多層架構(gòu)是高度非線性的。除了前一節(jié)討論的整流非線性,歸一化(normali

18、zation)是CNN架構(gòu)中有重要作用的又一種非線性處理模塊。CNN中最廣泛使用的歸一化形式是所謂的DivisiveNormalization(DN,也被稱為局部響應(yīng)歸一化)。本節(jié)將介紹歸一化的作用并描述其糾正前兩個處理模塊(卷積和整流)的缺點的方式。同樣,我們會從生物學(xué)和理論兩個方面討論歸一化。3.4池化不管是生物學(xué)啟發(fā)的,還是純粹基于學(xué)習(xí)的或完全人工設(shè)計的,幾乎所有CNN模型都包含池化步驟。池化運算的目標是為位置和尺寸的改變帶來一定程度的不變性以及在特征圖內(nèi)部和跨特征圖聚合響應(yīng)。與之前幾節(jié)討論的三種CNN模塊類似,池化在生物學(xué)和理論研究上都具有支持。在CNN網(wǎng)絡(luò)的這個處理層上,主要的爭論點

19、是池化函數(shù)的選擇。使用最廣泛的兩種池化函數(shù)分別是平均池化和最大池化。本節(jié)將探索相關(guān)文獻中描述的各種池化函數(shù)的優(yōu)點和缺點。圖3.10:平均池化和最大池化在Gabor濾波后的圖像上的比較(a)展示了不同尺度的平均池化的效果,其中(a)中上面一行是應(yīng)用于原始灰度值圖像的結(jié)果,(a)中下面一行是應(yīng)用于Gabor濾波后的圖像上的結(jié)果。平均池化能得到灰度值圖像的更平滑的版本,而稀疏的Gabor濾波后的圖像則會褪色消散。相對而言,(b)給出了不同尺度的最大池化的效果,其中(b)中上面一行是應(yīng)用于原始灰度值圖像的結(jié)果,(b)中下面一行是應(yīng)用于Gabor濾波后的圖像上的結(jié)果。這里可以看到,最大池化會導(dǎo)致灰度值圖

20、像質(zhì)量下降,而Gabor濾波后的圖像中的稀疏邊則會得到增強。圖來自1314當前狀態(tài)對CNN架構(gòu)中各種組件的作用的論述凸顯了卷積模塊的重要性,這個模塊很大程度上負責了在網(wǎng)絡(luò)中獲取最抽象的信息。相對而言,我們對這個處理模塊的理解卻最少,因為這需要最繁重的計算。本章將介紹在嘗試理解不同的CNN層所學(xué)習(xí)的內(nèi)容上的當前趨勢。同時,我們還將重點說明這些趨勢方面仍有待解決的問題。4.1當前趨勢盡管各種CNN模型仍繼續(xù)在多種計算機視覺應(yīng)用中進一步推進當前最佳的表現(xiàn),但在理解這些系統(tǒng)的工作方式和如此有效的原因上的進展仍還有限。這個問題已經(jīng)引起了很多研究者的興趣,為此也涌現(xiàn)出了很多用于理解CNN的方法。一般而言,

21、這些方法可以分成三個方向:對所學(xué)習(xí)到的過濾器和提取出的特征圖進行可視化、受理解視覺皮層的生物學(xué)方法啟發(fā)的ablationstudy、通過向網(wǎng)絡(luò)設(shè)計中引入分析原理來最小化學(xué)習(xí)過程。本節(jié)將簡要概述其中每種方法。4.2仍待解決的問題基于上述討論,基于可視化的方法存在以下關(guān)鍵研究方向:首要的一點:開發(fā)使可視化評估更為客觀的方法是非常重要的,可以通過引入評估所生成的可視化圖像的質(zhì)量和/或含義的指標來實現(xiàn)。另外,盡管看起來以網(wǎng)絡(luò)為中心的可視化方法更有前景(因為它們在生成可視化結(jié)果上不依賴網(wǎng)絡(luò)自身),但似乎也有必要標準化它們的評估流程。一種可能的解決方案是使用一個基準來為同樣條件下訓(xùn)練的網(wǎng)絡(luò)生成可視化結(jié)果。這樣的標準化方法反過來也能實現(xiàn)基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論