文獻綜述報告_第1頁
文獻綜述報告_第2頁
文獻綜述報告_第3頁
文獻綜述報告_第4頁
文獻綜述報告_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

文獻綜述報告題目基于卷積神經網絡的圖像分割技術研究綜述學號班級姓名專業(yè)計算機科學與技術學生所在學院計算機科學與技術學院指導教師實驗名稱及地點21b376

目錄1前言 12主題 12.1卷積神經網絡 12.1.1起源 12.1.2概念 12.1.3網絡結構 22.1.4卷積特征提取 22.1.5池化 32.2圖像分割………………………………..43總結 7參考文獻…………………7前言隨著大數(shù)據時代的到來,含更多隱含層的深度卷積神經網絡(Convolutionalneuralnetworks,CVVs)具有更復雜的網絡結構,與傳統(tǒng)機器學習方法相比具有更強大的特征學習和特征表達能力。使用深度學習算法訓練的卷積神經網絡模型自提出以來在計算機視覺領域的多個大規(guī)模識別任務上取得了令人矚目的成績。本文首先簡要介紹深度學習和卷積神經網絡的興起與發(fā)展,概述卷積神經網絡的基本模型結構、卷積特征提取和池化操作。然后綜述了基于深度學習的卷積神經網絡模型在圖像分割應用領域中的研究現(xiàn)狀和發(fā)展趨勢,主要從典型的網絡結構的構建、訓練方法和性能表現(xiàn)3個方面進行介紹。最后對目前研究中存在的一些問題進行簡要的總結和討論,并展望未來發(fā)展的新方向。主題2.1卷積神經網絡2.1.1起源20世紀60年代初期,Hubel和Wiesel等通過對貓的大腦視覺皮層系統(tǒng)的研究,提出了感受野的概念,并進一步發(fā)現(xiàn)了視覺皮層通路中對于信息的分層處理機制,由此獲得了諾貝爾生理學或醫(yī)學獎。到了80年代中期,F(xiàn)ukushima等基于感受野概念提出的神經認知機,可以看作是卷積神經網絡(Convolutionneuralnetworks,CNNs)的第一次實現(xiàn),也是第一個基于神經元之問的局部連接性和層次結構組織的人工神經網絡。神經認知機是將一個視覺模式分解成許多子模式,通過逐層階梯式相連的特征平面對這些子模式特征進行處理,使得即使在目標對象產生微小畸變的情況卜,模型也具有很好的識別能力。在此之后,研究人員開始嘗試使用一種被稱作多層感知器的人工神經網絡(實際上是只含一層隱含層節(jié)點的淺層模型)來代替手工提取特征,并使用簡單的隨機梯度下降方法來訓練該模型,于是進一步提出了用于計算誤差梯度的反向傳播算法,這一算法隨后被證明十分有效。1990年,LeCun等在研究手寫數(shù)字識別問題時,首先提出了使用梯度反向傳播算法訓練的卷積神經網絡模型,并在MNIST手寫數(shù)字數(shù)據集上表現(xiàn)出了相對于當時其他方法更好的性能。梯度反向傳播算法和卷積神經網絡的成功給機器學習領域帶來了新的希望,開啟了基于統(tǒng)計學習模型的機器學習浪潮,同時也帶動了人工神經網絡進入到蓬勃發(fā)展的新階段。目前,卷積神經網絡已成為當前語音分析和圖像識別領域的研究熱點,它是第一個真正意義上的成功訓練多層神經網絡的學習算法模型,對于網絡的輸入是多維信號時具有更明顯的優(yōu)勢。隨著深度學習掀起的新的機器學習熱潮,卷積神經網絡已經應用于語音識別、圖像識別和自然語音處理等小同的大規(guī)模機器學習問題中。2.1.2概念卷積神經網絡是一種為了處理二維輸入數(shù)據而特殊設計的多層人工神經網絡,網絡中的每層都由多個二維平面組成,而每個平面由多個獨立的神經元組成,相鄰兩層的神經元之問互相連接,而處于同一層的神經元之問沒有連接。CNNs受到早期的時延神經網絡(Time-delayneuralnetworks,TDNNs)的啟發(fā),TDNN通過在時問維度上共享權值來降低網絡訓練過程中的計算復雜度,適用于處理語音信號和時問序列信號。CNNs采用了權值共享網絡結構使之更類似于生物神經網絡,同時模型的容量可以通過改變網絡的深度和廣度來調整,對自然圖像也具有很強的假設(統(tǒng)計的平穩(wěn)性和像素的局部相關性)。因此,與每層具有相當大小的全連接網絡相比,CNNs能夠有效降低網絡模型的學習復雜度,具有更少的網絡連接數(shù)和權值參數(shù),從而更容易訓練。2.1.3網絡結構一個簡單的卷積神經網絡模型的結構示意圖如圖1所示,該網絡模型由兩個卷積層(C1,C2)和兩個子采樣層(S1,S2)交替組成。首先,原始輸入圖像通過與3個可訓練的濾波器(或稱作卷積核)和可加偏置向量進行卷積運算,在C1層產生3個特征映射圖,然后對每個特征映射圖的局部區(qū)域進行加權平均求和,增加偏置后通過一個非線性激活函數(shù)在S1層得到3個新的特征映射圖。隨后這些特征映射圖與C2層的3個可訓練的濾波器進行卷積,并進一步通過S2層后輸出3個特征映射圖。最終S2層的3個輸出分別被向量化,然后輸入到傳統(tǒng)的神經網絡中進行訓練。2.1.4卷積特征提取自然圖像有其固有特性,即對于圖像的某一部分,其統(tǒng)計特性與其他部分相同。這意味著在這一部分學習到的特征也能用在另一部分上,因此對于圖像上的所有位置,可以使用同樣的學習特征。換句話說,對于大尺寸的圖像識別問題,首先從圖像中隨機選取一小塊局域作為訓練樣本,從該小塊樣本中學習到一些特征,然后將這些特征作為濾波器,與原始整個圖像作卷積運算,從而得到原始圖像中任一位置上的小同特征的激活值。給定分辨率為r×c的大尺寸圖像,將其定義為一xlarge,首先從一玩二中抽取a×b的小尺寸圖像樣xsmall,通過訓練稀疏自編碼器得到k個特征和激活值f(Wxsmall+b),其中W和b是訓練得到的參數(shù)。然后對于一幾二中每個a×b大小的xs,計算對應的激活值fs(Wxsmall+b),進一步使用xsmall的激活值與這些激活值fs作卷積運算,就可以得到k×(r-a+1)×(c-b+1)個卷積后的特征映射圖。二維卷積計算的示意圖如圖2所示。例如,對于分辨率為128×128的原始輸入圖像,假設經過預訓練已經得到了該圖像的200個8×8大小的特征碎片。那么,通過使用這200個特征碎片對原始圖像中每個8×8的小塊區(qū)域進行卷積運算,每個特征碎片均可以得到121×121的卷積特征映射圖,最終整幅圖像可以得到200×121×121的卷積特征映射圖。2.1.5池化操作通過將卷積層提取到的特征輸入至分類器中進行訓練,可以實現(xiàn)輸出最終的分類結果。理論上可以直接將卷積層提取到的所有特征輸入至分類器中,然而這將需要非常大的計算開銷,特別是對于大尺寸高分辨率圖像。例如:對于一個輸入為96×96大小的圖像樣本,假設在卷積層使用200個8×8大小的卷積核對該輸入圖像進行卷積運算操作,每個卷積核都輸出一個(96-8+1)×(96-8X+1)=7921維的特征向量,最終卷積層將輸出一個7921×200=1584200維的特征向量。將如此高維度的特征輸入至分類器中進行訓練需要耗費非常龐大的計算資源,同時也會產生嚴重的過擬合問題。然而,由于圖像具有一種“靜態(tài)性”的屬性,在圖像的一個局部區(qū)域得到的特征極有可能在另一個局部區(qū)域同樣適用。因此,可以對圖像的一個局部區(qū)域中小同位置的特征進行聚合統(tǒng)計操作,這種操作稱為“池化”。比如計算該局部區(qū)域中某個卷積特征的最大值(或平均值),稱作最大池化(或平均池化)。具體來說,假設池化的區(qū)域大小為m×n,在獲得卷積特征后,將卷積特征劃分為多個,m×n大小的小相交區(qū)域,然后在這些區(qū)域上進行池化操作,從而得到池化后的特征映射圖。如圖3所示,在一幅圖像的4塊小重合子區(qū)域上使用3×3大小的窗口對其進行最大池化,得到池化后的特征映射圖。如果選擇圖像中的連續(xù)范圍作為池化區(qū)域,同時只對相同的隱含神經元產生的卷積特征使用池化,則這些池化后的特征單元具有平移小變性。也就是說,即使原始圖像中的物體產生了一個較小的平移,依然可以得到相同的池化特征,分類器也依然能夠輸出相同的分類結果。與直接使用卷積后的特征相比,這些概要統(tǒng)計特征小僅能夠極大地降低特征向量的維度,進一步降低訓練分類器所需的計算量,而且能夠有效地擴充訓練數(shù)據,有利于防比過擬合。2.2圖像分割深度神經網絡在圖像分類、目標檢測和姿態(tài)估計等方面取得了巨大的成功,進一步的發(fā)展便是對圖像上每個像素點的預測,這個任務就是圖像分割。圖像分割是這樣一類問題:對于一張圖來說,圖上可能有多個物體、多個人物甚至多層背景,希望能做到對于原圖上的每個像素點,能預測它是屬于哪個部分的(人、動物、背景……)。圖像分割作為許多計算機視覺應用研究的第一步}一分關鍵。在過去的20年中,圖像閥值分割方法作為這個領域最早被研究和使用的方法,因為其物理意義明確、效果明顯和易于實現(xiàn)等特點,被廣泛應用。相繼衍生出了基于空問特征、基于模糊集和基于非Shannon嫡的許多閥值選取方法。但這幾年,隨著深度學習的廣泛應用,在這一領域顯然有了更新、更有力的“工具”。文獻[35]提出可以將一些深度神經網絡改為全卷積網絡來做圖像分割。他們首先利用一些流行的分類網絡(AlexNet,VGG,GoogleNet),在保留一些它們在圖像分類方面訓練所得參數(shù)基礎上,進行“修剪”,轉變?yōu)獒槍D像分割的模型。然后,他們將一些網絡較深的層的所得特征和一些較淺的層所得特征結合起來,最后用一個反卷積層放大到原始圖像大小來提供一個更為準確的分割結果,稱之為跳躍結構。仍然拿AlexNet為例,如圖16所示。他們提出將AlexNet的最后3層改為全卷積層,這一步不僅加快了速度,減少了參數(shù),進而減少過擬合,還為最后一步的反卷積提供了便利??梢钥吹剑@個網絡結構已經變成了7層卷積層這樣一個結構。當然,如果直接從最后一層的卷積層反卷積也可以,但需要放大32倍,取得的效果也小佳(如圖17所示)。這毫無疑問是缺少信息所導致的結果。卷積神經網絡每卷積一層,實際上信息量都會丟失一些,所以如果想增加信息量,要做的就是到更淺的網絡層獲取信息,這是之前所提的跳躍結構的核心思想。對于信息丟失過多的最后一層卷積層,可以先將它反卷積擴大1倍,達到與上一個卷積層pooling完了之后的一樣的大小,之后,將兩者的信息整合(一般是相加),進而做次反卷積,這樣就只需再放大16倍,取得的效果也有所提升??梢愿M一步,再加入pool3的信息,也就是將之前一步的結果先再做一次擴大2倍的反卷積(相較于最初實際上相當于擴大了4倍),與pool3的結果相加后,再做一次放大8倍的反卷積。在數(shù)據集PASCLVOC上,他們所得的結果較2012年提升了約20%,達到62.2%的meanIU準確率。較傳統(tǒng)的諸如SDS方法提升了許多,影響巨大。此外,這種方法訓練也只花了175ms,傳統(tǒng)的SDS方法耗時高達50s。在另一個數(shù)據集NYUDv2上,全卷積神經網絡(Fullyconvolutionalnetworks,F(xiàn)CN)也將之前的最好結果提升了至少5%。當然,F(xiàn)CN仍然有不足之處,圖18所示的是一些PASCALVOC上的結果中,最后一個就失敗了,說明這種方式仍有改進空問??偨Y深度學習目前是一個非常熱門的研究方向,利用卷積神經網絡的卷積層、池化層和全連接層等基本結構,就可以讓這個網絡結構自己學習和提取相關特征,并加以利用。這種特性對許多研究提供了許多便利,可以省略過往非常繁雜的建模過程。此外,深度學習現(xiàn)在圖像分類、物體檢測、姿態(tài)估計和圖像分割等方面都已經有了非常大的成果和進步。一方面,深度學習應用面非常廣,而且通用性強,完全可以繼續(xù)努力將其拓展到其它應用領域。另一方面,深度學習仍有許多潛力可挖,值得不斷去探索和發(fā)現(xiàn)。就未來而言,盡管之前討論的許多內容都是有監(jiān)督的學習(比如訓練的網絡最后一層會根據真實值計算一個loss值,進而進行參數(shù)調整),并且有監(jiān)督的學習確實取得了非常大的成功。深度學習在無監(jiān)督的學習方面的應用很可能是未來的發(fā)展趨勢。畢竟,就人或者動物而言,大部分情況下,我們并不是通過知道事物的名字來了解它是什么的。在未來的計算機視覺領域,預計基于深度學習的卷積神經網絡和循環(huán)神經網絡(Recurrentneuralnetwork,RNN)將會成為十分流行的網絡模型,并將在更多的應用研究中取得更好的突破與進展。此外,結合強化學方法來訓練一個端到端的學習系統(tǒng)逐漸成為可能,從而使得該學習系統(tǒng)具有自主學習能力,能夠主動去學習相關特征的表示和抽象。目前,結合深度學習與強化學習的研究尚處于起步階段,但已經有一些這方面的研究工作在多物體識別任務和進行視頻游戲的學習上取得了小錯的表現(xiàn),這也是讓許多相關領域的研究者們興奮的原因之一。值得注意的是,自然語言處理同樣也是深度學習未來能夠大展身手的潛在舞臺,比如說,對于一篇文章或者一大段文字,能夠設計出基于一些深度神經網絡模型(比如RNN)的方法和策略,能夠有效地理解文本內容??傮w來說,人們現(xiàn)在使用深度學習以及一些簡單的推理,就已經在語音和圖像領域取得了非常小錯的成果。有理由相信,如果將目前對于網絡提取的特征表示能夠進一步優(yōu)化,使得其能夠更“自如”地表達特征,再加上一些復雜推理,那么深度學習將會在人工智能的各個應用方面取得更大的進展。參考文獻[1]DengL,LiJ,HuangJT,etal.RecentadvancesindeeplearningforspeechresearchatMicrosoft[J].ICASSP2013,2013.[2]HoriT,HoriC,MinamiY,etal.EfficientW'FST-basedone-passdecodingwithon-the-flyhypothesisrescoringinextremelylargevocabularycontinuousspeechrecognition[Jl.Audio,Speech,andLanguageProcessing,IEEETransactionson,2007,15(4):1352-1365.[3]LeCunY.Generalizationandnetworkdesignstrategies[J].ConnectionsinPerspective.North-Holland,Amsterdam,1989:143-55.[4]GuptaV,GavrilovskaA,SchwanK,etal.GViM:GPU-acceleratedvirtualmachines[CJ//Proceedingsofthe3rdACMWorkshoponSystem-levelVirtualizationforHighPerformanceComputing.ACM,2009:17-24.[5]CollobertR,WestonJ.Aunifiedarchitecturefornaturallanguageprocessing:Deepneuralnetworkswithmultitaskleaming[CV/ProceedingsOfthe25thinternationalconferenceonMachinelearning.ACM,2008:160-167.[6]NakamaT.Theoreticalanalysisofbatchandon-linetrainingforgradientdescentlearninginneuralnetworks[J].Neurocomputing,2009,73(1):151-159.[7]ZurRM,JiangY,PesceLL,etal.Noiseinjectionfortrainingartificialneuralnetworks:Acomparisonw

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論