卷積神經(jīng)網(wǎng)絡(luò)的研究與應(yīng)用_第1頁
卷積神經(jīng)網(wǎng)絡(luò)的研究與應(yīng)用_第2頁
卷積神經(jīng)網(wǎng)絡(luò)的研究與應(yīng)用_第3頁
卷積神經(jīng)網(wǎng)絡(luò)的研究與應(yīng)用_第4頁
卷積神經(jīng)網(wǎng)絡(luò)的研究與應(yīng)用_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

卷積神經(jīng)網(wǎng)絡(luò)的研究與應(yīng)用一、本文概述隨著技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,簡稱CNN)已經(jīng)成為圖像處理、語音識別、自然語言處理等眾多領(lǐng)域的關(guān)鍵技術(shù)。本文旨在深入研究和探討卷積神經(jīng)網(wǎng)絡(luò)的基本原理、發(fā)展歷程、以及在實際應(yīng)用中的廣泛影響。我們將從CNN的基本結(jié)構(gòu)和特點出發(fā),闡述其在圖像識別、物體檢測、人臉識別、自動駕駛等領(lǐng)域的應(yīng)用實例,并探討其未來的發(fā)展趨勢和挑戰(zhàn)。通過對卷積神經(jīng)網(wǎng)絡(luò)的研究與應(yīng)用進行系統(tǒng)的梳理和總結(jié),本文旨在為相關(guān)領(lǐng)域的研究人員和實踐者提供有價值的參考和啟示。二、卷積神經(jīng)網(wǎng)絡(luò)的基本原理卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是一種特殊類型的深度學習網(wǎng)絡(luò),其設(shè)計靈感主要來源于生物的視覺皮層。CNN的基本原理主要包括局部感知、權(quán)值共享和池化操作等核心思想。局部感知是指CNN在處理圖像時,每個神經(jīng)元不再對全局圖像進行感知,而是只感知圖像的局部區(qū)域。這種方式大大減少了網(wǎng)絡(luò)中的參數(shù)數(shù)量,降低了模型的復雜性。權(quán)值共享是指CNN在卷積層中,使用相同的卷積核對整個圖像進行卷積操作,從而學習到圖像的局部特征。這種權(quán)值共享的方式進一步減少了網(wǎng)絡(luò)中的參數(shù)數(shù)量,提高了模型的泛化能力。池化操作是CNN中的另一個重要概念,它通常在卷積層之后進行。池化操作的主要目的是降低數(shù)據(jù)的維度,減少計算量,同時防止過擬合。常見的池化操作包括最大池化(MaxPooling)和平均池化(AveragePooling)等。在CNN中,卷積層、池化層和全連接層通常會交替出現(xiàn),形成一個深度網(wǎng)絡(luò)結(jié)構(gòu)。卷積層和池化層負責提取圖像的特征,而全連接層則負責將提取到的特征映射到樣本的標記空間。CNN的基本原理使得它在處理圖像、語音等具有局部相關(guān)性的數(shù)據(jù)時具有顯著的優(yōu)勢。通過不斷地卷積、池化和全連接操作,CNN能夠?qū)W習到數(shù)據(jù)的深層次特征,從而實現(xiàn)高效的分類、識別等任務(wù)。三、卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化與改進卷積神經(jīng)網(wǎng)絡(luò)(CNN)在過去的幾年中已經(jīng)取得了顯著的進展,并在各種任務(wù)中展現(xiàn)出了強大的性能。然而,隨著對更高精度和更低計算復雜度的需求增加,對CNN的優(yōu)化和改進變得越來越重要。在這一部分,我們將探討一些關(guān)鍵的優(yōu)化策略和改進方法。網(wǎng)絡(luò)架構(gòu)是CNN性能的關(guān)鍵因素。為了提升網(wǎng)絡(luò)的性能,研究者們已經(jīng)設(shè)計出了許多新型的網(wǎng)絡(luò)架構(gòu)。例如,深度殘差網(wǎng)絡(luò)(ResNet)通過引入殘差連接解決了深度網(wǎng)絡(luò)中的梯度消失問題,從而可以構(gòu)建更深的網(wǎng)絡(luò)。而輕量級網(wǎng)絡(luò),如MobileNet和ShuffleNet,通過減少計算復雜度和模型大小,使得CNN可以在移動設(shè)備或嵌入式設(shè)備上運行。參數(shù)優(yōu)化是CNN訓練過程中的核心步驟。一些先進的優(yōu)化算法,如Adam和RMSProp,通過動態(tài)調(diào)整學習率,使得訓練過程更加穩(wěn)定和高效。正則化技術(shù),如Dropout和權(quán)重衰減,也可以有效地防止過擬合,提升模型的泛化能力。數(shù)據(jù)增強是一種通過增加訓練數(shù)據(jù)多樣性來提升CNN性能的有效方法。常見的數(shù)據(jù)增強技術(shù)包括隨機裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)等。這些技術(shù)可以擴大模型的訓練集,使得模型能夠?qū)W習到更多的數(shù)據(jù)分布,從而提高其泛化能力。知識蒸餾是一種模型壓縮技術(shù),它通過讓一個大模型(教師模型)指導一個小模型(學生模型)的訓練,使得小模型能夠?qū)W習到大模型的知識。這種方法可以在保持模型性能的同時,顯著減少模型的計算復雜度和大小。剪枝和量化是兩種常用的模型壓縮技術(shù)。剪枝通過移除網(wǎng)絡(luò)中的冗余連接或神經(jīng)元,降低模型的復雜度。而量化則是通過降低模型權(quán)重的精度,減少模型的存儲需求和計算復雜度。這些技術(shù)可以在保證模型性能的同時,使得CNN能夠在資源有限的設(shè)備上運行。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化和改進是一個持續(xù)的過程,它涉及到網(wǎng)絡(luò)架構(gòu)、參數(shù)優(yōu)化、數(shù)據(jù)增強、知識蒸餾、剪枝和量化等多個方面。隨著研究的深入和技術(shù)的進步,我們相信會有更多的優(yōu)化策略和改進方法被提出,推動卷積神經(jīng)網(wǎng)絡(luò)在各個領(lǐng)域的應(yīng)用取得更大的突破。四、卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺中的應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNNs)在計算機視覺領(lǐng)域的應(yīng)用已經(jīng)取得了顯著的進展,為許多重要的視覺任務(wù)提供了強大的解決方案。從基本的圖像分類到復雜的物體檢測,再到精細的圖像分割,CNNs都在發(fā)揮著關(guān)鍵作用。在圖像分類方面,CNNs已經(jīng)證明了自己的卓越性能。通過逐層卷積和池化操作,CNNs能夠有效地提取圖像中的關(guān)鍵特征,進而進行分類。在ImageNet等大型圖像分類競賽中,基于CNN的模型已經(jīng)取得了令人矚目的成績,極大地推動了圖像分類技術(shù)的發(fā)展。在物體檢測方面,CNNs也發(fā)揮著重要的作用。通過結(jié)合區(qū)域提議網(wǎng)絡(luò)(RegionProposalNetworks,RPNs)等技術(shù),CNNs能夠在復雜的圖像中準確地定位并識別出物體。這種方法已經(jīng)被廣泛應(yīng)用于自動駕駛、安防監(jiān)控等領(lǐng)域,為實際問題的解決提供了有效的工具。CNNs還在圖像分割領(lǐng)域取得了顯著的進展。通過像素級的分類,CNNs能夠?qū)D像中的每一個像素進行精細的標注,實現(xiàn)語義分割或?qū)嵗指畹热蝿?wù)。這種技術(shù)在醫(yī)學影像分析、自動駕駛等領(lǐng)域有著廣泛的應(yīng)用前景。除了上述應(yīng)用外,CNNs還在許多其他計算機視覺任務(wù)中發(fā)揮著重要作用,如圖像超分辨率、圖像去噪、圖像生成等。隨著技術(shù)的不斷發(fā)展,我們期待CNNs能夠在更多的計算機視覺任務(wù)中發(fā)揮更大的作用,為人們的生活帶來更多的便利和驚喜。卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域的應(yīng)用已經(jīng)取得了顯著的進展,為許多重要的視覺任務(wù)提供了強大的解決方案。隨著技術(shù)的不斷發(fā)展和優(yōu)化,我們期待CNNs在未來能夠發(fā)揮更大的作用,為計算機視覺領(lǐng)域的發(fā)展帶來更多的創(chuàng)新和突破。五、卷積神經(jīng)網(wǎng)絡(luò)在其他領(lǐng)域的應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)的研究和應(yīng)用已經(jīng)遠遠超出了其最初的圖像處理和計算機視覺領(lǐng)域。近年來,隨著深度學習技術(shù)的快速發(fā)展,CNN已成功應(yīng)用于眾多其他領(lǐng)域,展現(xiàn)出了其強大的特征學習和分類能力。自然語言處理(NLP):在自然語言處理領(lǐng)域,CNN被用于文本分類、情感分析、機器翻譯等任務(wù)。例如,通過卷積操作對文本進行局部特征提取,CNN可以有效地捕捉句子或段落的語義信息,從而提高分類和翻譯的準確性。語音識別:在語音識別領(lǐng)域,CNN被用于提取音頻信號的時頻特征,進而進行語音識別和語音合成。通過結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等序列模型,CNN可以進一步提高語音識別的性能和魯棒性。推薦系統(tǒng):在推薦系統(tǒng)中,CNN被用于處理圖像、文本等多模態(tài)數(shù)據(jù),從而提取用戶的興趣和偏好。例如,在推薦系統(tǒng)中,可以通過CNN對用戶的點擊歷史中的商品圖像進行特征提取,進而預測用戶可能感興趣的其他商品。醫(yī)療影像分析:在醫(yī)療影像分析領(lǐng)域,CNN被廣泛應(yīng)用于光、CT、MRI等醫(yī)學影像的自動解讀和診斷。通過訓練大量的醫(yī)學影像數(shù)據(jù),CNN可以自動提取病變特征,從而輔助醫(yī)生進行疾病的早期發(fā)現(xiàn)和診斷。自動駕駛:在自動駕駛領(lǐng)域,CNN被用于處理車載攝像頭、雷達等傳感器獲取的大量圖像和信號數(shù)據(jù)。通過實時分析這些數(shù)據(jù),CNN可以幫助自動駕駛系統(tǒng)實現(xiàn)準確的環(huán)境感知、障礙物檢測和路徑規(guī)劃等功能。安全領(lǐng)域:在安全領(lǐng)域,CNN也被用于人臉識別、指紋識別、虹膜識別等生物特征識別技術(shù)中。通過提取生物特征圖像中的關(guān)鍵信息,CNN可以幫助實現(xiàn)高效且準確的身份驗證和識別。卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用已經(jīng)深入到了各個領(lǐng)域,無論是自然語言處理、語音識別、推薦系統(tǒng)、醫(yī)療影像分析、自動駕駛還是安全領(lǐng)域,CNN都展現(xiàn)出了其強大的特征學習和分類能力。隨著技術(shù)的不斷進步和應(yīng)用場景的日益豐富,CNN在未來將會發(fā)揮更加重要的作用。六、卷積神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)與未來發(fā)展隨著卷積神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域中的廣泛應(yīng)用,其面臨的挑戰(zhàn)也日益凸顯。其中,最顯著的問題之一是過擬合。當模型在訓練數(shù)據(jù)上表現(xiàn)優(yōu)秀,但在測試數(shù)據(jù)或?qū)嶋H應(yīng)用中表現(xiàn)不佳時,即出現(xiàn)過擬合。解決此問題的方法包括增加數(shù)據(jù)量、使用正則化技術(shù)、采用dropout等。另一個挑戰(zhàn)是計算資源的限制。卷積神經(jīng)網(wǎng)絡(luò),尤其是深度網(wǎng)絡(luò),需要大量的計算資源和時間進行訓練。隨著網(wǎng)絡(luò)深度的增加,這一問題愈發(fā)嚴重。因此,如何在有限的計算資源下設(shè)計更為高效的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),是當前研究的熱點之一。隨著網(wǎng)絡(luò)的加深,梯度消失或梯度爆炸問題也日益明顯。這導致模型在訓練過程中難以收斂,或收斂到局部最優(yōu)解而非全局最優(yōu)解。為了解決這一問題,研究者們提出了殘差網(wǎng)絡(luò)、批歸一化等技術(shù)。網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計:未來的研究將更加注重設(shè)計更為高效、簡潔的網(wǎng)絡(luò)結(jié)構(gòu),以提高模型的性能并減少計算資源的消耗。模型優(yōu)化:針對過擬合、梯度消失等問題,研究者們將繼續(xù)探索新的優(yōu)化算法和技術(shù),以提高模型的泛化能力和訓練效率??珙I(lǐng)域應(yīng)用:隨著深度學習技術(shù)的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)將更多地應(yīng)用于醫(yī)療、金融、自動駕駛等領(lǐng)域,實現(xiàn)跨領(lǐng)域的深度融合??山忉屝匝芯浚罕M管卷積神經(jīng)網(wǎng)絡(luò)在許多任務(wù)中取得了優(yōu)異的性能,但其內(nèi)部工作機制仍不明確。未來的研究將更加注重模型的可解釋性,以更好地理解其工作原理并指導模型設(shè)計。卷積神經(jīng)網(wǎng)絡(luò)仍面臨著諸多挑戰(zhàn),但隨著技術(shù)的不斷進步和研究的深入,相信這些問題將逐一得到解決,卷積神經(jīng)網(wǎng)絡(luò)將在未來發(fā)揮更大的作用。七、結(jié)論隨著深度學習技術(shù)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已成為圖像處理和計算機視覺領(lǐng)域中最具影響力的技術(shù)之一。本文首先回顧了卷積神經(jīng)網(wǎng)絡(luò)的起源和發(fā)展歷程,從最早的LeNet-5到現(xiàn)代的ResNet、EfficientNet等,每一代的進步都代表著對圖像特征提取和分類精度的提升。在探討卷積神經(jīng)網(wǎng)絡(luò)的基本原理時,我們深入了解了卷積層、池化層、全連接層以及激活函數(shù)的作用,它們共同構(gòu)成了CNN的基本結(jié)構(gòu)。通過多個經(jīng)典模型的案例分析,我們發(fā)現(xiàn)不同的網(wǎng)絡(luò)結(jié)構(gòu)在不同的任務(wù)和數(shù)據(jù)集上表現(xiàn)出不同的性能,這為我們在實際應(yīng)用中提供了選擇依據(jù)。在應(yīng)用方面,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、目標檢測、圖像分割、人臉識別等多個領(lǐng)域都取得了顯著的成果。特別是在大規(guī)模圖像數(shù)據(jù)集上,CNN的表現(xiàn)力尤為突出,其準確率遠超傳統(tǒng)的圖像處理算法。隨著研究的深入,研究者們還針對CNN的不足,提出了多種改進方法,如注意力機制、多尺度特征融合等,進一步提高了CNN的性能。然而,盡管卷積神經(jīng)網(wǎng)絡(luò)取得了巨大的成功,但仍然存在一些挑戰(zhàn)和問題。例如,CNN對于小目標、遮擋、形變等復雜情況下的識別能力仍有待提高;隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深和復雜度的增加,計算量和參數(shù)量也呈指數(shù)級增長,這使得在實際應(yīng)用中,尤其是在嵌入式設(shè)備和移動設(shè)備上部署CNN變得困難。卷積神經(jīng)網(wǎng)絡(luò)作為一種強大的圖像處理和計算機視覺工具,已經(jīng)在實際應(yīng)用中發(fā)揮了巨大的作用。未來,隨著研究的深入和技術(shù)的進步,我們有理由相信CNN將在更多領(lǐng)域展現(xiàn)出其強大的潛力,為解決復雜問題提供更多的可能性。參考資料:隨著和深度學習領(lǐng)域的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)成為了一種重要的機器學習模型。卷積神經(jīng)網(wǎng)絡(luò)在圖像處理、語音識別、自然語言處理等領(lǐng)域都有著廣泛的應(yīng)用,本文將介紹卷積神經(jīng)網(wǎng)絡(luò)的基本概念、原理及其應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)是一種深度學習的算法,它由多個卷積層、池化層和全連接層組成。卷積層負責在輸入數(shù)據(jù)中學習特征,池化層負責降低數(shù)據(jù)的維度,全連接層則用于將前面層的輸出映射到輸出空間。卷積神經(jīng)網(wǎng)絡(luò)的工作原理是通過對輸入數(shù)據(jù)進行前向傳播,在每一層中逐步提取出更高級的特征。圖像處理卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的應(yīng)用非常廣泛。例如,在目標檢測和識別中,卷積神經(jīng)網(wǎng)絡(luò)可以通過對圖像中的特征進行學習和分類,實現(xiàn)對圖像中物體的識別和定位。另外,卷積神經(jīng)網(wǎng)絡(luò)還可以應(yīng)用于圖像生成、超分辨率重建等領(lǐng)域,生成高質(zhì)量的圖像。語音識別在語音識別領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)也取得了很大的進展。它可以通過學習語音信號中的特征,實現(xiàn)對語音的準確識別和轉(zhuǎn)寫。與傳統(tǒng)的語音識別算法相比,卷積神經(jīng)網(wǎng)絡(luò)具有更高的準確率和更強的魯棒性。自然語言處理卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域也有很多應(yīng)用,例如文本分類、情感分析、機器翻譯等。通過對文本中的詞向量進行學習和比較,卷積神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)準確的文本分類和情感分析。在機器翻譯中,卷積神經(jīng)網(wǎng)絡(luò)可以學習源語言和目標語言之間的映射關(guān)系,從而實現(xiàn)準確的翻譯。數(shù)據(jù)準備卷積神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)進行訓練,但有時候數(shù)據(jù)的質(zhì)量和數(shù)量都可能存在問題。為了解決這個問題,可以采用數(shù)據(jù)增強技術(shù),如隨機裁剪、旋轉(zhuǎn)等,來擴充數(shù)據(jù)集,提高模型的表現(xiàn)。另外,還可以利用遷移學習,使用在其他任務(wù)上預訓練好的模型作為基礎(chǔ),再針對當前任務(wù)進行微調(diào),從而減少對大量高質(zhì)量標注數(shù)據(jù)的依賴。模型深度卷積神經(jīng)網(wǎng)絡(luò)的深度對于其性能影響很大。然而,深度過大的網(wǎng)絡(luò)可能會引發(fā)梯度消失、梯度爆炸等問題,導致模型難以訓練和收斂。針對這些問題,可以使用一些技術(shù)來改善網(wǎng)絡(luò)的訓練效果,如使用更有效的激活函數(shù)(如ReLU)、使用BatchNormalization來穩(wěn)定訓練過程、使用殘差結(jié)構(gòu)來幫助梯度傳播等。計算資源卷積神經(jīng)網(wǎng)絡(luò)的訓練需要大量的計算資源,包括CPU、GPU等。對于計算資源有限的情況,可以采取一些措施來提高訓練效率,如使用分布式計算、使用更有效的算法和優(yōu)化器(如Adam)、使用低精度計算(如INT8)等。結(jié)論卷積神經(jīng)網(wǎng)絡(luò)作為一種強大的深度學習算法,在圖像處理、語音識別、自然語言處理等領(lǐng)域都取得了很大的成功。然而,其也面臨著數(shù)據(jù)準備、模型深度和計算資源等方面的挑戰(zhàn)。隨著技術(shù)的不斷發(fā)展,相信未來卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域?qū)⒏訌V泛,其性能和效率也將得到進一步的提升。卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetworks),是深度學習(deeplearning)的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)具有表征學習(representationlearning)能力,能夠按其階層結(jié)構(gòu)對輸入信息進行平移不變分類(shift-invariantclassification),因此也被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)(Shift-InvariantArtificialNeuralNetworks,SIANN)”。對卷積神經(jīng)網(wǎng)絡(luò)的研究始于二十世紀80至90年代,時間延遲網(wǎng)絡(luò)和LeNet-5是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò);在二十一世紀后,隨著深度學習理論的提出和數(shù)值計算設(shè)備的改進,卷積神經(jīng)網(wǎng)絡(luò)得到了快速發(fā)展,并被應(yīng)用于計算機視覺、自然語言處理等領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)仿造生物的視知覺(visualperception)機制構(gòu)建,可以進行監(jiān)督學習和非監(jiān)督學習,其隱含層內(nèi)的卷積核參數(shù)共享和層間連接的稀疏性使得卷積神經(jīng)網(wǎng)絡(luò)能夠以較小的計算量對格點化(grid-liketopology)特征,例如像素和音頻進行學習、有穩(wěn)定的效果且對數(shù)據(jù)沒有額外的特征工程(featureengineering)要求。對卷積神經(jīng)網(wǎng)絡(luò)的研究可追溯至日本學者福島邦彥(KunihikoFukushima)提出的neocognitron模型。在其1979和1980年發(fā)表的論文中,福島仿造生物的視覺皮層(visualcortex)設(shè)計了以“neocognitron”命名的神經(jīng)網(wǎng)絡(luò)。neocognitron是一個具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),并且是最早被提出的深度學習算法之一,其隱含層由S層(Simple-layer)和C層(Complex-layer)交替構(gòu)成。其中S層單元在感受野(receptivefield)內(nèi)對圖像特征進行提取,C層單元接收和響應(yīng)不同感受野返回的相同特征。neocognitron的S層-C層組合能夠進行特征提取和篩選,部分實現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)中卷積層(convolutionlayer)和池化層(poolinglayer)的功能,被認為是啟發(fā)了卷積神經(jīng)網(wǎng)絡(luò)的開創(chuàng)性研究。第一個卷積神經(jīng)網(wǎng)絡(luò)是1987年由AlexanderWaibel等提出的時間延遲網(wǎng)絡(luò)(TimeDelayNeuralNetwork,TDNN)。TDNN是一個應(yīng)用于語音識別問題的卷積神經(jīng)網(wǎng)絡(luò),使用FFT預處理的語音信號作為輸入,其隱含層由2個一維卷積核組成,以提取頻率域上的平移不變特征。由于在TDNN出現(xiàn)之前,人工智能領(lǐng)域在反向傳播算法(Back-Propagation,BP)的研究中取得了突破性進展,因此TDNN得以使用BP框架內(nèi)進行學習。在原作者的比較試驗中,TDNN的表現(xiàn)超過了同等條件下的隱馬爾可夫模型(HiddenMarkovModel,HMM),而后者是二十世紀80年代語音識別的主流算法。1988年,WeiZhang提出了第一個二維卷積神經(jīng)網(wǎng)絡(luò):平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)(SIANN),并將其應(yīng)用于檢測醫(yī)學影像。獨立于Zhang(1988),YannLeCun在1989年同樣構(gòu)建了應(yīng)用于計算機視覺問題的卷積神經(jīng)網(wǎng)絡(luò),即LeNet的最初版本。LeNet包含兩個卷積層,2個全連接層,共計6萬個學習參數(shù),規(guī)模遠超TDNN和SIANN,且在結(jié)構(gòu)上與現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)十分接近。LeCun(1989)對權(quán)重進行隨機初始化后使用了隨機梯度下降(StochasticGradientDescent,SGD)進行學習,這一策略被其后的深度學習研究所保留。LeCun(1989)在論述其網(wǎng)絡(luò)結(jié)構(gòu)時首次使用了“卷積”一詞,“卷積神經(jīng)網(wǎng)絡(luò)”也因此得名。LeCun(1989)的工作在1993年由貝爾實驗室(AT&TBellLaboratories)完成代碼開發(fā)并被部署于NCR(NationalCashRegisterCoporation)的支票讀取系統(tǒng)。但總體而言,由于數(shù)值計算能力有限、學習樣本不足,加上同一時期以支持向量機(SupportVectorMachine,SVM)為代表的核學習(kernellearning)方法的興起,這一時期為各類圖像處理問題設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)停留在了研究階段,應(yīng)用端的推廣較少。在LeNet的基礎(chǔ)上,1998年YannLeCun及其合作者構(gòu)建了更加完備的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5并在手寫數(shù)字的識別問題中取得成功。LeNet-5沿用了LeCun(1989)的學習策略并在原有設(shè)計中加入了池化層對輸入特征進行篩選。LeNet-5及其后產(chǎn)生的變體定義了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),其構(gòu)筑中交替出現(xiàn)的卷積層-池化層被認為能夠提取輸入圖像的平移不變特征。LeNet-5的成功使卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用得到關(guān)注,微軟在2003年使用卷積神經(jīng)網(wǎng)絡(luò)開發(fā)了光學字符讀取(OpticalCharacterRecognition,OCR)系統(tǒng)。其它基于卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用研究也得到展開,包括人像識別、手勢識別等。在2006年深度學習理論被提出后,卷積神經(jīng)網(wǎng)絡(luò)的表征學習能力得到了關(guān)注,并隨著數(shù)值計算設(shè)備的更新得到發(fā)展。自2012年的AlexNet開始,得到GPU計算集群支持的復雜卷積神經(jīng)網(wǎng)絡(luò)多次成為ImageNet大規(guī)模視覺識別競賽(ImageNetLargeScaleVisualRecognitionChallenge,ILSVRC)的優(yōu)勝算法,包括2013年的ZFNet、2014年的VGGNet、GoogLeNet和2015年的ResNet。卷積神經(jīng)網(wǎng)絡(luò)的輸入層可以處理多維數(shù)據(jù),常見地,一維卷積神經(jīng)網(wǎng)絡(luò)的輸入層接收一維或二維數(shù)組,其中一維數(shù)組通常為時間或頻譜采樣;二維數(shù)組可能包含多個通道;二維卷積神經(jīng)網(wǎng)絡(luò)的輸入層接收二維或三維數(shù)組;三維卷積神經(jīng)網(wǎng)絡(luò)的輸入層接收四維數(shù)組。由于卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域應(yīng)用較廣,因此許多研究在介紹其結(jié)構(gòu)時預先假設(shè)了三維輸入數(shù)據(jù),即平面上的二維像素點和RGB通道。與其它神經(jīng)網(wǎng)絡(luò)算法類似,由于使用梯度下降算法進行學習,卷積神經(jīng)網(wǎng)絡(luò)的輸入特征需要進行標準化處理。具體地,在將學習數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)前,需在通道或時間/頻率維對輸入數(shù)據(jù)進行歸一化,若輸入數(shù)據(jù)為像素,也可將分布于的原始像素值歸一化至區(qū)間。輸入特征的標準化有利于提升卷積神經(jīng)網(wǎng)絡(luò)的學習效率和表現(xiàn)。卷積神經(jīng)網(wǎng)絡(luò)的隱含層包含卷積層、池化層和全連接層3類常見構(gòu)筑,在一些更為現(xiàn)代的算法中可能有Inception模塊、殘差塊(residualblock)等復雜構(gòu)筑。在常見構(gòu)筑中,卷積層和池化層為卷積神經(jīng)網(wǎng)絡(luò)特有。卷積層中的卷積核包含權(quán)重系數(shù),而池化層不包含權(quán)重系數(shù),因此在文獻中,池化層可能不被認為是獨立的層。以LeNet-5為例,3類常見構(gòu)筑在隱含層中的順序通常為:輸入-卷積層-池化層-全連接層-輸出。卷積層的功能是對輸入數(shù)據(jù)進行特征提取,其內(nèi)部包含多個卷積核,組成卷積核的每個元素都對應(yīng)一個權(quán)重系數(shù)和一個偏差量(biasvector),類似于一個前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)元(neuron)。卷積層內(nèi)每個神經(jīng)元都與前一層中位置接近的區(qū)域的多個神經(jīng)元相連,區(qū)域的大小取決于卷積核的大小,在文獻中被稱為“感受野(receptivefield)”,其含義可類比視覺皮層細胞的感受野。卷積核在工作時,會有規(guī)律地掃過輸入特征,在感受野內(nèi)對輸入特征做矩陣元素乘法求和并疊加偏差量:式中的求和部分等價于求解一次交叉相關(guān)(cross-correlation)。為偏差量,和表示第層的卷積輸入和輸出,也被稱為特征圖(featuremap),為的尺寸,這里假設(shè)特征圖長寬相同。對應(yīng)特征圖的像素,為特征圖的通道數(shù),、和是卷積層參數(shù),對應(yīng)卷積核大小、卷積步長(stride)和填充(padding)層數(shù)。上式以二維卷積核作為例子,一維或三維卷積核的工作方式與之類似。理論上卷積核也可以先翻轉(zhuǎn)180度,再求解交叉相關(guān),其結(jié)果等價于滿足交換律的線性卷積(linearconvolution),但這樣做在增加求解步驟的同時并不能為求解參數(shù)取得便利,因此線性卷積核使用交叉相關(guān)代替了卷積。特殊地,當卷積核是大小,步長且不包含填充的單位卷積核時,卷積層內(nèi)的交叉相關(guān)計算等價于矩陣乘法,并由此在卷積層間構(gòu)建了全連接網(wǎng)絡(luò):由單位卷積核組成的卷積層也被稱為網(wǎng)中網(wǎng)(Network-In-Network,NIN)或多層感知器卷積層(multilayerperceptronconvolutionlayer,mlpconv)。單位卷積核可以在保持特征圖尺寸的同時減少圖的通道數(shù)從而降低卷積層的計算量。完全由單位卷積核構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)是一個包含參數(shù)共享的多層感知器(Muti-LayerPerceptron,MLP)。在線性卷積的基礎(chǔ)上,一些卷積神經(jīng)網(wǎng)絡(luò)使用了更為復雜的卷積,包括平鋪卷積(tiledconvolution)、反卷積(deconvolution)和擴張卷積(dilatedconvolution)。平鋪卷積的卷積核只掃過特征圖的一部份,剩余部分由同層的其它卷積核處理,因此卷積層間的參數(shù)僅被部分共享,有利于神經(jīng)網(wǎng)絡(luò)捕捉輸入圖像的旋轉(zhuǎn)不變(shift-invariant)特征。反卷積或轉(zhuǎn)置卷積(transposedconvolution)將單個的輸入激勵與多個輸出激勵相連接,對輸入圖像進行放大。由反卷積和向上池化層(up-poolinglayer)構(gòu)成的卷積神經(jīng)網(wǎng)絡(luò)在圖像語義分割(semanticsegmentation)領(lǐng)域有應(yīng)用,也被用于構(gòu)建卷積自編碼器(ConvolutionalAutoEncoder,CAE)。擴張卷積在線性卷積的基礎(chǔ)上引入擴張率以提高卷積核的感受野,從而獲得特征圖的更多信息,在面向序列數(shù)據(jù)使用時有利于捕捉學習目標的長距離依賴(long-rangedependency)。使用擴張卷積的卷積神經(jīng)網(wǎng)絡(luò)主要被用于自然語言處理(NatrualLanguageProcessing,NLP)領(lǐng)域,例如機器翻譯、語音識別等。卷積層參數(shù)包括卷積核大小、步長和填充,三者共同決定了卷積層輸出特征圖的尺寸,是卷積神經(jīng)網(wǎng)絡(luò)的超參數(shù)。其中卷積核大小可以指定為小于輸入圖像尺寸的任意值,卷積核越大,可提取的輸入特征越復雜。卷積步長定義了卷積核相鄰兩次掃過特征圖時位置的距離,卷積步長為1時,卷積核會逐個掃過特征圖的元素,步長為n時會在下一次掃描跳過n-1個像素。由卷積核的交叉相關(guān)計算可知,隨著卷積層的堆疊,特征圖的尺寸會逐步減小,例如16×16的輸入圖像在經(jīng)過單位步長、無填充的5×5的卷積核后,會輸出12×12的特征圖。為此,填充是在特征圖通過卷積核之前人為增大其尺寸以抵消計算中尺寸收縮影響的方法。常見的填充方法為按0填充和重復邊界值填充(replicationpadding)。填充依據(jù)其層數(shù)和目的可分為四類:帶入先前的例子,若16×16的輸入圖像在經(jīng)過單位步長的5×5的卷積核之前先進行相同填充,則會在水平和垂直方向填充兩層,即兩側(cè)各增加2個像素()變?yōu)?0×20大小的圖像,通過卷積核后,輸出的特征圖尺寸為16×16,保持了原本的尺寸。類似于其它深度學習算法,卷積神經(jīng)網(wǎng)絡(luò)通常使用線性整流函數(shù)(RectifiedLinearUnit,ReLU),其它類似ReLU的變體包括有斜率的ReLU(LeakyReLU,LReLU)、參數(shù)化的ReLU(ParametricReLU,PReLU)、隨機化的ReLU(RandomizedReLU,RReLU)、指數(shù)線性單元(ExponentialLinearUnit,ELU)等。在ReLU出現(xiàn)以前,Sigmoid函數(shù)和雙曲正切函數(shù)(hyperbolictangent)也有被使用。激勵函數(shù)操作通常在卷積核之后,一些使用預激活(preactivation)技術(shù)的算法將激勵函數(shù)置于卷積核之前。在一些早期的卷積神經(jīng)網(wǎng)絡(luò)研究,例如LeNet-5中,激勵函數(shù)在池化層之后。在卷積層進行特征提取后,輸出的特征圖會被傳遞至池化層進行特征選擇和信息過濾。池化層包含預設(shè)定的池化函數(shù),其功能是將特征圖中單個點的結(jié)果替換為其相鄰區(qū)域的特征圖統(tǒng)計量。池化層選取池化區(qū)域與卷積核掃描特征圖步驟相同,由池化大小、步長和填充控制。Lp池化是一類受視覺皮層內(nèi)階層結(jié)構(gòu)啟發(fā)而建立的池化模型,其一般表示形式為:式中步長、像素的含義與卷積層相同,是預指定參數(shù)。當時,Lp池化在池化區(qū)域內(nèi)取均值,被稱為均值池化(averagepooling);當時,Lp池化在區(qū)域內(nèi)取極大值,被稱為極大池化(maxpooling)。均值池化和極大池化是在卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計中被長期使用的池化方法,二者以損失特征圖的部分信息或尺寸為代價保留圖像的背景和紋理信息。此外時的L2池化在一些工作中也有使用?;旌铣鼗╩ixedpooling)和隨機池化(stochasticpooling)是Lp池化概念的延伸。隨機池化會在其池化區(qū)域內(nèi)按特定的概率分布隨機選取一值,以確保部分非極大的激勵信號能夠進入下一個構(gòu)筑。混合池化可以表示為均值池化和極大池化的線性組合:有研究表明,相比于均值和極大池化,混合池化和隨機池化具有正則化的功能,有利于避免卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)過擬合。譜池化是基于FFT的池化方法,可以和FFT卷積一起被用于構(gòu)建基于FFT的卷積神經(jīng)網(wǎng)絡(luò)。在給定特征圖尺寸,和池化層輸出尺寸時,譜池化對特征圖的每個通道分別進行DFT變換,并從頻譜中心截取n×n大小的序列進行DFT逆變換得到池化結(jié)果。譜池化有濾波功能,可以在保存輸入特征的低頻變化信息的同時,調(diào)整特征圖的大小。基于成熟的FFT算法,譜池化能夠以很小的計算量完成。Inception模塊是對多個卷積層和池化層進行堆疊所得的隱含層構(gòu)筑。具體而言,一個Inception模塊會同時包含多個不同類型的卷積和池化操作,并使用相同填充使上述操作得到相同尺寸的特征圖,隨后在數(shù)組中將這些特征圖的通道進行疊加并通過激勵函數(shù)。由于上述做法在一個構(gòu)筑中引入了多個卷積核,因此為簡化計算,Inception模塊通常設(shè)計了瓶頸層,首先使用單位卷積核,即NIN結(jié)構(gòu)減少特征圖的通道數(shù),再進行其它卷積操作。Inception模塊最早被應(yīng)用于GoogLeNet并在ImageNet數(shù)據(jù)集中取得了成功,并啟發(fā)了(或推廣得到了)基于深度可分卷積(depthwiseseparableconvolution)搭建的一系列輕量級卷積神經(jīng)網(wǎng)絡(luò),包括ception和MobileNet。卷積神經(jīng)網(wǎng)絡(luò)中的全連接層等價于傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)中的隱含層。全連接層位于卷積神經(jīng)網(wǎng)絡(luò)隱含層的最后部分,并只向其它全連接層傳遞信號。特征圖在全連接層中會失去空間拓撲結(jié)構(gòu),被展開為向量并通過激勵函數(shù)。按表征學習觀點,卷積神經(jīng)網(wǎng)絡(luò)中的卷積層和池化層能夠?qū)斎霐?shù)據(jù)進行特征提取,全連接層的作用則是對提取的特征進行非線性組合以得到輸出,即全連接層本身不被期望具有特征提取能力,而是試圖利用現(xiàn)有的高階特征完成學習目標。在一些卷積神經(jīng)網(wǎng)絡(luò)中,全連接層的功能可由全局均值池化(globalaveragepooling)取代,全局均值池化會將特征圖每個通道的所有值取平均,即若有7×7×256的特征圖,全局均值池化將返回一個256的向量,其中每個元素都是7×7,步長為7,無填充的均值池化。卷積神經(jīng)網(wǎng)絡(luò)中輸出層的上游通常是全連接層,因此其結(jié)構(gòu)和工作原理與傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)中的輸出層相同。對于圖像分類問題,輸出層使用邏輯函數(shù)或歸一化指數(shù)函數(shù)(softmaxfunction)輸出分類標簽。在物體識別(objectdetection)問題中,輸出層可設(shè)計為輸出物體的中心坐標、大小和分類。在圖像語義分割中,輸出層直接輸出每個像素的分類結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)在監(jiān)督學習中使用BP框架進行學習,其計算流程在LeCun(1989)中就已經(jīng)確定,是最早在BP框架進行學習的深度算法之一。卷積神經(jīng)網(wǎng)絡(luò)中的BP分為三部分,即全連接層與卷積核的反向傳播和池化層的反向通路(backwardpass)。全連接層的BP計算與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)相同,卷積層的反向傳播是一個與前向傳播類似的交叉相關(guān)計算:式中為代價函數(shù)(costfunction)計算的誤差、為激勵函數(shù)的導數(shù)、是學習速率(learningrate),若卷積核的前向傳播使用卷積計算,則反向傳播也對卷積核翻轉(zhuǎn)以進行卷積運算。卷積神經(jīng)網(wǎng)絡(luò)的誤差函數(shù)可以有多種選擇,常見的包括Softmax損失函數(shù)(softmaxloss)、鉸鏈損失函數(shù)(hingeloss)、三重損失函數(shù)(tripletloss)等。池化層在反向傳播中沒有參數(shù)更新,因此只需要根據(jù)池化方法將誤差分配到特征圖的合適位置即可,對極大池化,所有誤差會被賦予到極大值所在位置;對均值池化,誤差會平均分配到整個池化區(qū)域。卷積神經(jīng)網(wǎng)絡(luò)通常使用BP框架內(nèi)的隨機梯度下降(StochasticGradientDescent,SGD)和其變體,例如Adam算法(Adaptivemomentestimation)。SGD在每次迭代中隨機選擇樣本計算梯度,在學習樣本充足的情形下有利于信息篩選,在迭代初期能快速收斂,且計算復雜度更小。卷積神經(jīng)網(wǎng)絡(luò)最初是面向監(jiān)督學習問題設(shè)計的,但其也發(fā)展出了非監(jiān)督學習范式,包括卷積自編碼器(ConvolutionalAutoEncoders,CAE)、卷積受限玻爾茲曼機(ConvolutionalRestrictedBoltzmannMachines,CRBM)/卷積深度置信網(wǎng)絡(luò)(ConvolutionalDeepBeliefNetworks,CDBN)和深度卷積生成對抗網(wǎng)絡(luò)(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)。這些算法也可以視為在非監(jiān)督學習算法的原始版本中引入卷積神經(jīng)網(wǎng)絡(luò)構(gòu)筑的混合算法。CAE的構(gòu)建邏輯與傳統(tǒng)AE類似,首先使用卷積層和池化層建立常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)作為編碼器,隨后使用反卷積和向上池化(up-pooling)作為解碼器,以樣本編碼前后的誤差進行學習,并輸出編碼器的編碼結(jié)果實現(xiàn)對樣本的維度消減(dimentionalityreduction)和聚類(clustering)。在圖像識別問題,例如MNIST中,CAE與其編碼器同樣結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)在大樣本時表現(xiàn)相當,但在小樣本問題中具有更好的識別效果。CRBM是以卷積層作為隱含層的受限玻爾茲曼機(BoltzmannMachines,RBM),在傳統(tǒng)RBMs的基礎(chǔ)上將隱含層分為多個“組(group)”,每個組包含一個卷積核,卷積核參數(shù)由該組對應(yīng)的所有二元節(jié)點共享。CDBN是以CRBM作為構(gòu)筑進行堆疊得到的階層式生成模型,為了在結(jié)構(gòu)中提取高階特征,CDBN加入了概率極大池化層(probabilisticmax-poolinglayer),和其對應(yīng)的能量函數(shù)。CRBMs和CDBMs使用逐層貪婪算法(greedylayer-wisetraining)進行學習,并可以使用稀疏正則化(sparsityregularization)技術(shù)。在Caltech-101數(shù)據(jù)的物體識別問題中,一個24-100的兩層CDBN識別準確率持平或超過了很多包含高度特化特征的分類和聚類算法。生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)可被用于卷積神經(jīng)網(wǎng)絡(luò)的非監(jiān)督學習,DCGAN從一組概率分布,即潛空間(latentspace)中隨機采樣,并將信號輸入一組完全由轉(zhuǎn)置卷積核組成的生成器;生成器生成圖像后輸入以卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的判別模型,判別模型判斷生成圖像是否是真實的學習樣本。當生成模型能夠使判別模型無法判斷其生成圖像與學習樣本的區(qū)別時學習結(jié)束。研究表明DCGANs能夠在圖像處理問題中提取輸入圖像的高階層表征,在CIFAR-10數(shù)據(jù)的試驗中,對DCGAN判別模型的特征進行處理后做為其它算法的輸入,能以很高的準確率對圖像進行分類。在神經(jīng)網(wǎng)絡(luò)算法的各類正則化方法都可以用于卷積神經(jīng)網(wǎng)絡(luò)以防止過度擬合,常見的正則化方法包括Lp正則化(Lp-normregularization)、隨機失活(spatialdropout)和隨機連接失活(dropconnect)。Lp正則化在定義損失函數(shù)時加入隱含層參數(shù)以約束神經(jīng)網(wǎng)絡(luò)的復雜度:式中為損失函數(shù),包含弗羅貝尼烏斯范數(shù)(Frobeniusnorm)的求和項被稱為正則化項,其中是正則化參數(shù),用以確定正則化項的約束力??勺C明,當時,正則化項是凸函數(shù)(convexfunction);特別地,當時,L2正則化又被成為Tikhonov正則化(Tikhonovregularization)。時的Lp正則化有利于卷積核權(quán)重的稀疏化,但此時的正則化向不是凸函數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的空間隨機失活(spatialdropout)是前饋神經(jīng)網(wǎng)絡(luò)中隨機失活理論的推廣。在全連接網(wǎng)絡(luò)的學習中,隨機失活會隨機將神經(jīng)元的輸出歸零,而空間隨機失活在迭代中會隨機選取特征圖的通道使其歸零。進一步地,隨機連接失活直接作用于卷積核,在迭代中使卷積核的部分權(quán)重歸零。研究表明空間隨機失活和隨機連接失活提升了卷積神經(jīng)網(wǎng)絡(luò)的泛化能力,在學習樣本不足時有利于提升學習表現(xiàn)。數(shù)據(jù)的標準化是神經(jīng)網(wǎng)絡(luò)輸入管道中預處理的常見步驟,但在深度網(wǎng)絡(luò)中,隨著輸入數(shù)據(jù)在隱含層內(nèi)的逐級傳遞,其均值和標準差會發(fā)生改變,產(chǎn)生協(xié)變漂移(covariateshift)現(xiàn)象。協(xié)變漂移被認為是深度網(wǎng)絡(luò)發(fā)生梯度消失(vanishinggradient)的原因之一。BN以引入額外學習參數(shù)為代價部分解決了此類問題,其策略是在隱含層中首先將特征標準化,然后使用兩個線性參數(shù)將標準化的特征放大作為新的輸入,神經(jīng)網(wǎng)絡(luò)會在學習過程中更新其BN參數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的BN參數(shù)與卷積核參數(shù)具有相同的性質(zhì),即特征圖中同一個通道的像素共享一組BN參數(shù)。此外使用BN時卷積層不需要偏差項,其功能由BN參數(shù)代替。跳躍連接或短路連接(shortcutconnection)來源于循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)中的跳躍連接和各類門控算法,是被用于緩解深度結(jié)構(gòu)中梯度消失問題的技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的跳躍連接可以跨越任意數(shù)量的隱含層,這里以相鄰隱含層間的跳躍進行說明:式中是特征圖的轉(zhuǎn)換系數(shù),當和的尺寸不同時,轉(zhuǎn)換系數(shù)將尺寸更小的特征圖,通常是轉(zhuǎn)換為的尺寸,確保矩陣元素運算成立。當?shù)妮敵鲋敌《妮敵鲋荡髸r,卷積層的輸出近似于等值函數(shù),對該層的特征傳遞沒有負面影響,因此設(shè)定了層的學習基線,使該層在迭代中至少不會退化。在BP框架內(nèi),部分誤差在反向傳播時可以跳過層直接作用于層,補償了其在深度結(jié)構(gòu)中逐級傳播造成的梯度損失,因此有利于深度結(jié)構(gòu)的誤差傳播。包含跳躍連接的多個卷積層的組合被稱為殘差塊(residualblock),是一些卷積神經(jīng)網(wǎng)絡(luò)算法,例如ResNet的構(gòu)筑單元。卷積神經(jīng)網(wǎng)絡(luò)可以使用和其它深度學習算法類似的加速技術(shù)以提升運行效率,包括量化(quantization)、遷移學習(transferlearning)等。量化即在計算中使用低數(shù)值精度以提升計算速度,該技術(shù)在一些深度算法中有得到嘗試。對于卷積神經(jīng)網(wǎng)絡(luò),一個極端的例子是NOR-Net,即僅由異或門(NOR)搭建的卷積神經(jīng)網(wǎng)絡(luò)。遷移學習一般性的策略是將非標簽數(shù)據(jù)遷移至標簽數(shù)據(jù)以提升神經(jīng)網(wǎng)絡(luò)的表現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)中遷移學習通常為使用在標簽數(shù)據(jù)下完成學習的卷積核權(quán)重初始化新的卷積神經(jīng)網(wǎng)絡(luò),對非標簽數(shù)據(jù)進行遷移,或應(yīng)用于其它標簽數(shù)據(jù)以縮短學習過程。卷積神經(jīng)網(wǎng)絡(luò)的卷積和池化計算都可以通過FFT轉(zhuǎn)換至頻率域內(nèi)進行,此時卷積核權(quán)重與BP算法中梯度的FFT能夠被重復利用,逆FFT也只需在輸出結(jié)果時使用,降低了計算復雜度。作為應(yīng)用較廣的科學和工程數(shù)值計算方法,一些數(shù)值計算工具包含了GPU設(shè)備的FFT,能提供進一步加速。FFT卷積在處理小尺寸的卷積核時可使用Winograd算法降低內(nèi)存開銷。在卷積神經(jīng)網(wǎng)絡(luò)中對權(quán)重進行稀疏化,能夠減少卷積核的冗余,降低計算復雜度,使用該技術(shù)的構(gòu)筑被稱為稀疏卷積神經(jīng)網(wǎng)絡(luò)(SparseConvolutionalNeuralNetworks)。在對ImageNet數(shù)據(jù)的學習中,一個以90%比率稀疏化的卷積神經(jīng)網(wǎng)絡(luò)的運行速度是同結(jié)構(gòu)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的2至10倍,而輸出的分類精度僅損失了2%。時間延遲網(wǎng)絡(luò)(TimeDelayNeuralNetwork,TDNN)TDNN是一類應(yīng)用于語音識別問題的一維卷積神經(jīng)網(wǎng)絡(luò),也是歷史上最早被提出的卷積神經(jīng)網(wǎng)絡(luò)算法之一。這里以TDNN的原始版本W(wǎng)aibeletal.(1987)為例進行介紹。TDNN的學習目標為對FFT變換的3個語音音節(jié)/b,d,g/進行分類,其隱含層完全由單位步長,無填充的卷積層組成。在文獻中,TDNN的卷積核尺寸使用“延遲(delay)”表述,由尺寸為3的一維卷積核構(gòu)成的隱含層被定義為“時間延遲為2的隱含層”,即感受野包含無延遲輸入和2個延遲輸入。在此基礎(chǔ)上,TDNN有兩個卷積層,時間延遲分別為2和4,神經(jīng)網(wǎng)絡(luò)中每個輸入信號與8個隱含層神經(jīng)元相連。TDNN沒有全連接層,而是將尾端卷積層的輸出直接相加通過激勵函數(shù)得到分類結(jié)果。按原作,輸入TDNN的預處理數(shù)據(jù)為15個10毫秒采樣的樣本(frame),每個樣本包含16個通道參數(shù)(filterbankcoefficients),此時TDNN的結(jié)構(gòu)如下:列表中數(shù)字的含義為:(卷積核尺寸)×卷積核通道(與輸入數(shù)據(jù)通道數(shù)相同)×卷積核個數(shù)。TDNN的輸出層和兩個卷積層均使用Sigmoid函數(shù)作為激勵函數(shù)。除上述原始版本外,TDNN的后續(xù)研究中出現(xiàn)了應(yīng)用于字符識別和物體識別的算法,其工作方式是將空間在通道維度展開并使用時間上的一維卷積核,即時間延遲進行學習。WaveNet是被用于語音建模的一維卷積神經(jīng)網(wǎng)絡(luò),其特點是采用擴張卷積和跳躍連接提升了神經(jīng)網(wǎng)絡(luò)對長距離依賴的學習能力。WaveNet面向序列數(shù)據(jù)設(shè)計,其結(jié)構(gòu)和常見的卷積神經(jīng)網(wǎng)絡(luò)有較大差異,這里按VanDenOordetal.(2016)做簡單介紹:WaveNet以經(jīng)過量化和獨熱編碼(one-hotencoding)的音頻作為輸入特征,具體為一個包含采樣和通道的二維數(shù)組。輸入特征在WaveNet中首先進入線性卷積核,得到的特征圖會通過多個擴張卷積塊(dilatedstack),每個擴張卷積塊包含一個過濾器(filter)和一個門(gate),兩者都是步長為1,相同填充的線性卷積核,但前者使用雙曲正切函數(shù)作為激勵函數(shù),后者使用Sigmoid函數(shù)。特征圖從過濾器和門輸出后會做矩陣元素乘法并通過由NIN構(gòu)建的瓶頸層,所得結(jié)果的一部分會由跳躍連接直接輸出,另一部分與進入該擴張卷積塊前的特征圖進行線性組合進入下一個構(gòu)筑。WaveNet的末端部分將跳躍連接和擴張卷積塊的所有輸出相加并通過兩個ReLU-NIN結(jié)構(gòu),最后由歸一化指數(shù)函數(shù)輸出結(jié)果并使用交叉熵作為損失函數(shù)進行監(jiān)督學習。WaveNet是一個生成模型(generativemodel),其輸出為每個序列元素相對于其之前所有元素的條件概率,與輸入序列具有相同的維度:WaveNet被證實能夠生成接近真實的英文、中文和德文語音。在經(jīng)過算法和運行效率的改進后,自2017年11月起,WaveNet開始為谷歌的商業(yè)應(yīng)用“谷歌助手(GoogleAssistant)”提供語音合成。LeNet-5是一個應(yīng)用于圖像分類問題的卷積神經(jīng)網(wǎng)絡(luò),其學習目標是從一系列由32×32×1灰度圖像表示的手寫數(shù)字中識別和區(qū)分0-9。LeNet-5的隱含層由2個卷積層、2個池化層構(gòu)筑和2個全連接層組成,按如下方式構(gòu)建:從現(xiàn)代深度學習的觀點來看,LeNet-5規(guī)模很小,但考慮LeCunetal.(1998)的數(shù)值計算條件,LeNet-5在該時期仍具有相當?shù)膹碗s度。LeNet-5使用雙曲正切函數(shù)作為激勵函數(shù),使用均方差(MeanSquaredError,MSE)作為誤差函數(shù)并對卷積操作進行了修改以減少計算開銷,這些設(shè)置在隨后的卷積神經(jīng)網(wǎng)絡(luò)算法中已被更優(yōu)化的方法取代。在現(xiàn)代機器學習庫的范式下,LeNet-5是一個易于實現(xiàn)的算法,這里提供一個使用TensorFlow和Keras的計算例子:該例子使用MNIST數(shù)據(jù)代替LeCunetal.(1998)的原始數(shù)據(jù),使用交叉熵(categoricalcross-entropy)作為損失函數(shù)。ILSVRC為各類應(yīng)用于計算機視覺的人工智能算法提供了比較的平臺,其中有多個卷積神經(jīng)網(wǎng)絡(luò)算法在圖像分類和物體識別任務(wù)中獲得優(yōu)勝,包括AlexNet、ZFNet、VGGNet、GoogLeNet和ResNet,這些算法在ImageNet數(shù)據(jù)中展現(xiàn)了良好的學習性能,也是卷積神經(jīng)網(wǎng)絡(luò)發(fā)展中具有代表意義的算法。對AlexNet、ZFNet的編程實現(xiàn)與LeNet-5類似,對VGGNet、GoogLeNet和ResNet的編程實現(xiàn)較為繁瑣,一些機器學習庫提供了完整的封裝模型和預學習的權(quán)重,這里提供一些使用TensorFlow和Keras的例子:AlexNet是2012年ILSVRC圖像分類和物體識別算法的優(yōu)勝者,也是LetNet-5之后受到人工智能領(lǐng)域關(guān)注的現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)算法。AlexNet的隱含層由5個卷積層、3個池化層和3個全連接層組成,按如下方式構(gòu)建:AlexNet在卷積層中選擇ReLU作為激勵函數(shù),使用了隨機失活,和數(shù)據(jù)增強(datadataaugmentation)技術(shù),這些策略在其后的卷積神經(jīng)網(wǎng)絡(luò)中被保留和使用。AlexNet也是首個基于GPU進行學習的卷積神經(jīng)網(wǎng)絡(luò),Krizhevsky(2012)將AlexNet按結(jié)構(gòu)分為兩部分,分別在兩塊GPU設(shè)備上運行。此外AlexNet的1-2部分使用了局部響應(yīng)歸一化(localresponsenormalization,LRN),在2014年后出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)中,LRN已由分批歸一化取代。ZFNet是2013年ILSVRC圖像分類算法的優(yōu)勝者,其結(jié)構(gòu)與AlexNet相近,僅將第一個卷積層的卷積核大小調(diào)整為7×步長減半:ZFNet對卷積神經(jīng)網(wǎng)絡(luò)的貢獻不在其構(gòu)筑本身,而在于其原作者通過反卷積考察了ZFNet內(nèi)部的特征提取細節(jié),解釋了卷積神經(jīng)網(wǎng)絡(luò)的特征傳遞規(guī)律,即由簡單的邊緣、夾角過渡至更為復雜的全局特征。VGGNet是牛津大學視覺幾何團隊(VisualGeometryGroup,VGG)開發(fā)的一組卷積神經(jīng)網(wǎng)絡(luò)算法,包括VGG-VGG-11-LRN、VGG-VGG-16和VGG-19。其中VGG-16是2014年ILSVRC物體識別算法的優(yōu)勝者,其規(guī)模是AlexNet的2倍以上并擁有規(guī)律的結(jié)構(gòu),這里以VGG-16為例介紹其構(gòu)筑。VGG-16的隱含層由13個卷積層、3個全連接層和5個池化層組成,按如下方式構(gòu)建:VGGNet構(gòu)筑中僅使用3×3的卷積核并保持卷積層中輸出特征圖尺寸不變,通道數(shù)加倍,池化層中輸出的特征圖尺寸減半,簡化了神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)并取得了良好效果。GoogLeNet是2014年ILSVRC圖像分類算法的優(yōu)勝者,是首個以Inception模塊進行堆疊形成的大規(guī)模卷積神經(jīng)網(wǎng)絡(luò)。GoogLeNet共有四個版本:InceptionvInceptionvInceptionvInceptionv4,這里以Inceptionv1為例介紹。Inceptionv1的Inception模塊被分為四部分:在此基礎(chǔ)上,對3通道的RGB圖像輸入,Inceptionv1按如下方式構(gòu)建:GoogLeNet中的Inception模塊啟發(fā)了一些更為現(xiàn)代的算法,例如2017年提出的ception。Inceptionv1的另一特色是其隱含層中的兩個旁枝輸出,旁枝和主干的所有輸出會通過指數(shù)歸一化函數(shù)得到結(jié)果,對神經(jīng)網(wǎng)絡(luò)起正則化的作用。殘差神經(jīng)網(wǎng)絡(luò)(ResidualNetwork,ResNet)ResNet來自微軟的人工智能團隊MicrosoftResearch,是2015年ILSVRC圖像分類和物體識別算法的優(yōu)勝者,其表現(xiàn)超過了GoogLeNet的第三代版本Inceptionv3。ResNet是使用殘差塊建立的大規(guī)模卷積神經(jīng)網(wǎng)絡(luò),其規(guī)模是AlexNet的20倍、VGG-16的8倍,在ResNet的原始版本中,其殘差塊由2個卷積層、1個跳躍連接、BN和激勵函數(shù)組成,ResNet的隱含層共包含16個殘差塊,按如下方式構(gòu)建:ResNet受到關(guān)注的原因是其在隱含層中通過跳躍連接構(gòu)建的殘差塊。殘差塊的堆疊緩解了深度神經(jīng)網(wǎng)絡(luò)普遍出現(xiàn)的梯度消失(gradientvanishing)問題,被其后的諸多算法使用,包括GoogLeNet中的Inceptionv4。在ResNet的基礎(chǔ)上諸多研究嘗試了改進算法,包括預激活ResNet(preactivationResNet)、寬ResNet(wideResNet)、隨機深度ResNets(StochasticDepthResNets,SDR)和RiR(ResNetinResNet)等。預激活ResNet將激勵函數(shù)和BN計算置于卷積核之前以提升學習表現(xiàn)和更快的學習速度;寬ResNet使用更多通道的卷積核以提升原ResNet的寬度,并嘗試在學習中引入隨機失活等正則化技術(shù);SDR在學習中隨機使卷積層失活并用等值函數(shù)取代以達到正則化的效果;RiR使用包含跳躍連接和傳統(tǒng)卷積層的并行結(jié)構(gòu)建立廣義殘差塊,對ResNet進行了推廣。上述改進算法都報告了比傳統(tǒng)ResNet更好的學習表現(xiàn),但尚未在使用基準數(shù)據(jù)的大規(guī)模比較,例如ILSVRC中得到驗證。部分計算機視覺問題,例如圖像語義分割(semanticsegmentation)和超分辨率圖像生成(superresolutionimaging)要求輸入與輸出均為格點數(shù)據(jù)且輸入端的特征圖大小可變。全卷積構(gòu)筑為解決上述問題而設(shè)計的神經(jīng)網(wǎng)絡(luò)算法。SRCNN是最早被提出的全卷積構(gòu)筑之一,被應(yīng)用于超分辨率圖像生成。其構(gòu)筑分為3部分:特征提取端、非線性映射和特征重構(gòu),其中特征提取端將低分辨率輸入按插值算法升采樣至目標分辨率并使用9x9的卷積核提取特征;非線性映射是一個瓶頸層,進行低分辨率特征和高分辨率特征的線性變換。特征重構(gòu)端是一個轉(zhuǎn)置卷積,將高分辨率特征重構(gòu)是目標分辨率并輸出結(jié)果。UNet是一個包含4層降采樣、4層升采樣和類似跳躍連接結(jié)構(gòu)的全卷積網(wǎng)絡(luò),其特點是卷積層在降采樣和升采樣部分完全對稱,且降采樣端的特征圖可以跳過深層采樣,被拼接至對應(yīng)的升采樣端。UNet在其提出之初主要被用于醫(yī)學影像的語義分割,并在之后的應(yīng)用研究中被擴展至3維視頻數(shù)據(jù)的語義分割和超分辨率圖像生成。UNet是一個泛用性較好的全卷積網(wǎng)絡(luò),也衍生出了一些面向特定問題的改進版本,例如在降采樣端引入殘差塊構(gòu)筑的HDense-UNet、包含深監(jiān)督設(shè)計和模型剪枝的UNet++等。卷積神經(jīng)網(wǎng)絡(luò)中卷積層間的連接被稱為稀疏連接(sparseconnection),即相比于前饋神經(jīng)網(wǎng)絡(luò)中的全連接,卷積層中的神經(jīng)元僅與其相鄰層的部分,而非全部神經(jīng)元相連。具體地,卷積神經(jīng)網(wǎng)絡(luò)第l層特征圖中的任意一個像素(神經(jīng)元)都僅是l-1層中卷積核所定義的感受野內(nèi)的像素的線性組合。卷積神經(jīng)網(wǎng)絡(luò)的稀疏連接具有正則化的效果,提高了網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性和泛化能力,避免過度擬合,同時,稀疏連接減少了權(quán)重參數(shù)的總量,有利于神經(jīng)網(wǎng)絡(luò)的快速學習,和在計算時減少內(nèi)存開銷。卷積神經(jīng)網(wǎng)絡(luò)中特征圖同一通道內(nèi)的所有像素共享一組卷積核權(quán)重系數(shù),該性質(zhì)被稱為權(quán)重共享(weightsharing)。權(quán)重共享將卷積神經(jīng)網(wǎng)絡(luò)和其它包含局部連接結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)相區(qū)分,后者雖然使用了稀疏連接,但不同連接的權(quán)重是不同的。權(quán)重共享和稀疏連接一樣,減少了卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)總量,并具有正則化的效果。在全連接網(wǎng)絡(luò)視角下,卷積神經(jīng)網(wǎng)絡(luò)的稀疏連接和權(quán)重共享可以被視為兩個無限強的先驗(pirior),即一個隱含層神經(jīng)元在其感受野之外的所有權(quán)重系數(shù)恒為0(但感受野可以在空間移動);且在一個通道內(nèi),所有神經(jīng)元的權(quán)重系數(shù)相同。作為深度學習的代表算法,卷積神經(jīng)網(wǎng)絡(luò)具有表征學習能力,即能夠從輸入信息中提取高階特征。具體地,卷積神經(jīng)網(wǎng)絡(luò)中的卷積層和池化層能夠響應(yīng)輸入特征的平移不變性,即能夠識別位于空間不同位置的相近特征。能夠提取平移不變特征是卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺問題中得到應(yīng)用的原因之一。平移不變特征在卷積神經(jīng)網(wǎng)絡(luò)內(nèi)部的傳遞具有一般性的規(guī)律。在圖像處理問題中,卷積神經(jīng)網(wǎng)絡(luò)前部的特征圖通常會提取圖像中有代表性的高頻和低頻特征;隨后經(jīng)過池化的特征圖會顯示出輸入圖像的邊緣特征(aliasingartifacts);當信號進入更深的隱含層后,其更一般、更完整的特征會被提取。反卷積和反池化(un-pooling)可以對卷積神經(jīng)網(wǎng)絡(luò)的隱含層特征進行可視化。一個成功的卷積神經(jīng)網(wǎng)絡(luò)中,傳遞至全連接層的特征圖會包含與學習目標相同的特征,例如圖像分類中各個類別的完整圖像。卷積神經(jīng)網(wǎng)絡(luò)從貓視覺皮層電生理研究中獲得啟發(fā),通過仿造生物的視知覺機制來構(gòu)建模型。卷積網(wǎng)絡(luò)中卷積核的設(shè)定就對應(yīng)著視覺神經(jīng)系統(tǒng)中視覺皮層對視覺空間的組織。視覺皮層細胞從視網(wǎng)膜上的光感受器接收信號,但單個視覺皮層細胞不會接收光感受器的所有信號,而是只接受其所支配的刺激區(qū)域,即感受野內(nèi)的信號。只有感受野內(nèi)的刺激才能夠激活該神經(jīng)元。多個視覺皮層細胞通過系統(tǒng)地將感受野疊加,完整接收視網(wǎng)膜傳遞的信號并建立視覺空間。卷積神經(jīng)網(wǎng)絡(luò)中基于感受野設(shè)定的稀疏連接有明確對應(yīng)的神經(jīng)科學過程——視覺神經(jīng)系統(tǒng)中視覺皮層(visualcortex)對視覺空間(visualspace)的組織。視覺皮層細胞從視網(wǎng)膜上的光感受器接收信號,但單個視覺皮層細胞不會接收光感受器的所有信號,而是只接受其所支配的刺激區(qū)域,即感受野內(nèi)的信號。只有感受野內(nèi)的刺激才能夠激活該神經(jīng)元。多個視覺皮層細胞通過系統(tǒng)地將感受野疊加完整接收視網(wǎng)膜傳遞的信號并建立視覺空間。事實上機器學習的“感受野”一詞即來自其對應(yīng)的生物學研究。卷積神經(jīng)網(wǎng)絡(luò)中的權(quán)重共享的性質(zhì)在生物學中沒有明確證據(jù),但在對與大腦學習密切相關(guān)的目標傳播(target-propagation,TP)和反饋調(diào)整(feedbackalignment,FA)機制的研究中,權(quán)重共享提升了學習效果。卷積神經(jīng)網(wǎng)絡(luò)長期以來是圖像識別領(lǐng)域的核心算法之一,并在學習數(shù)據(jù)充足時有穩(wěn)定的表現(xiàn)。對于一般的大規(guī)模圖像分類問題,卷積神經(jīng)網(wǎng)絡(luò)可用于構(gòu)建階層分類器(hierarchicalclassifier),也可以在精細分類識別(fine-grainedrecognition)中用于提取圖像的判別特征以供其它分類器進行學習。對于后者,特征提取可以人為地將圖像的不同部分分別輸入卷積神經(jīng)網(wǎng)絡(luò),也可以由卷積神經(jīng)網(wǎng)絡(luò)通過非監(jiān)督學習自行提取。對于字符檢測(textdetection)和字符識別(textrecognition)/光學字符讀取,卷積神經(jīng)網(wǎng)絡(luò)被用于判斷輸入的圖像是否包含字符,并從中剪取有效的字符片斷。其中使用多個歸一化指數(shù)函數(shù)直接分類的卷積神經(jīng)網(wǎng)絡(luò)被用于谷歌街景圖像的門牌號識別、包含條件隨機場(ConditionalRandomFields,CRF)圖模型的卷積神經(jīng)網(wǎng)絡(luò)可以識別圖像中的單詞,卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)相結(jié)合可以分別從圖像中提取字符特征和進行序列標注(sequencelabelling)。卷積神經(jīng)網(wǎng)絡(luò)可以通過三類方法進行物體識別:滑動窗口(slidingwindow)、選擇性搜索(selectivesearch)和YOLO(YouOnlyLookOnce)?;瑒哟翱诔霈F(xiàn)最早,并被用于手勢識別等問題,但由于計算量大,已經(jīng)被后兩者淘汰。選擇性搜索對應(yīng)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-basedCNN),該算法首先通過一般性步驟判斷一個窗口是否可能有目標物體,并進一步將其輸入復雜的識別器中。YOLO算法將物體識別定義為對圖像中分割框內(nèi)各目標出現(xiàn)概率的回歸問題,并對所有分割框使用同一個卷積神經(jīng)網(wǎng)絡(luò)輸出各個目標的概率,中心坐標和框的尺寸?;诰矸e神經(jīng)網(wǎng)絡(luò)的物體識別已被應(yīng)用于自動駕駛和交通實時監(jiān)測系統(tǒng)。卷積神經(jīng)網(wǎng)在圖像語義分割(semanticsegmentation)、場景分類(scenelabeling)和圖像顯著度檢測(VisualSaliencyDetection)等問題中也有應(yīng)用,其表現(xiàn)被證實超過了很多使用特征工程的分類系統(tǒng)。在針對圖像的行為認知研究中,卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征被應(yīng)用于行為分類(actionclassification)。在視頻的行為認知問題中,卷積神經(jīng)網(wǎng)絡(luò)可以保持其二維結(jié)構(gòu)并通過堆疊連續(xù)時間片段的特征進行學習、建立沿時間軸變化的3D卷積神經(jīng)網(wǎng)絡(luò)、或者逐幀提取特征并輸入循環(huán)神經(jīng)網(wǎng)絡(luò),三者在特定問題下都可以表現(xiàn)出良好的效果。姿態(tài)估計在圖像中將人的姿態(tài)用坐標的形式輸出,最早在姿態(tài)估計中使用的卷積神經(jīng)網(wǎng)絡(luò)是DeepPose,DeepPose的結(jié)構(gòu)類似于AlexNet,以完整的圖片作為輸出,按監(jiān)督學習的方式訓練并輸出坐標點。此外也有關(guān)于局部姿態(tài)估計的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用研究。對于視頻數(shù)據(jù),有研究使用滑動窗口的卷積神經(jīng)網(wǎng)絡(luò)進行逐幀的姿態(tài)估計。神經(jīng)風格遷移是卷積神經(jīng)網(wǎng)絡(luò)的一項特殊應(yīng)用,其功能是在給定的兩份圖像的基礎(chǔ)上創(chuàng)作第三份圖像,并使其內(nèi)容和風格與給定的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論