深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第6章 基于CNN的自動駕駛場景語義分割理論與實踐_第1頁
深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第6章 基于CNN的自動駕駛場景語義分割理論與實踐_第2頁
深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第6章 基于CNN的自動駕駛場景語義分割理論與實踐_第3頁
深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第6章 基于CNN的自動駕駛場景語義分割理論與實踐_第4頁
深度學(xué)習(xí)及自動駕駛應(yīng)用 課件 第6章 基于CNN的自動駕駛場景語義分割理論與實踐_第5頁
已閱讀5頁,還剩67頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

Chapter6基于CNN的自動駕駛場景語義分割理論與實踐第六章DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第2頁6.4DeepLab系列6.1圖像分割概述6.3U-Net/Seg-Net6.2FCN全卷積神經(jīng)網(wǎng)絡(luò)6.5圖卷積網(wǎng)絡(luò)方法目錄Content6.6自動駕駛圖像分割技術(shù)應(yīng)用及案例介紹6.7實踐項目DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第3頁6.1圖像分割概述本節(jié)內(nèi)容:

(1)圖像分割的基本介紹

(2)圖像分割的發(fā)展

(3)數(shù)據(jù)格式與評估指標(biāo)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第4頁圖像分割的基本介紹把圖像按照一定規(guī)則分割成“有意義”的多個區(qū)域的技術(shù)叫做圖像分割,圖像分割是計算機視覺領(lǐng)域里一項重要的基礎(chǔ)技術(shù)。與目標(biāo)檢測不同,目標(biāo)檢測的最終輸出是“輸入的圖像里面有哪些我關(guān)心的目標(biāo)”,以及其所在的矩形范圍;而圖像分割的最終輸出是一幅圖片的逐像素的分類結(jié)果,其類別數(shù)量更多,不同類別的物體之間位置要求精確到像素。因此,圖像分割對于類別數(shù)、位置精確度的要求更高,模型更復(fù)雜。根據(jù)任務(wù)和輸入數(shù)據(jù)類型的不同,圖像分割可以細(xì)化為以下三種具體任務(wù):語義分割、實例分割、全景分割DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第5頁圖像分割的發(fā)展語義分割是圖像分割方法的基礎(chǔ),實例分割、全景分割在某種程度上其實是語義分割與目標(biāo)檢測算法融合的應(yīng)用。因此,本章接下來所說的圖像分割與圖像分割方法,若無特殊說明,均指語義分割和語義分割方法。圖像分割算法與目標(biāo)檢測算法一樣,存在著傳統(tǒng)圖像分割算法與基于深度學(xué)習(xí)的圖像分割算法兩大類,如右圖所示DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第6頁數(shù)據(jù)格式與評估指標(biāo)與目標(biāo)檢測任務(wù)相同,圖像分割任務(wù)主流的數(shù)據(jù)格式仍然是PASCALVOC格式和COCO格式。這兩種數(shù)據(jù)集都被廣泛應(yīng)用于圖像分類、目標(biāo)檢測、圖像分割任務(wù)中。評價一個圖像分割算法的好壞,常用兩個指標(biāo):mIoU(meanIntersectionoverUnion,平均交并比)和mAcc(meanAccuracy,平均準(zhǔn)確率)。指標(biāo)mAcc表征的是預(yù)測結(jié)果與真實結(jié)果之間的差距。由于圖像分割任務(wù)通常是逐像素的分類問題,因此該值計算的是圖像上類別預(yù)測正確的像素數(shù)量占圖像像素總數(shù)的比率。mAcc越大,說明越多的像素被正確預(yù)測,預(yù)測的準(zhǔn)確性越高。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第7頁評價指標(biāo)mIoU指標(biāo)mIoU表征的是圖像上所有類別的交并比的總和,此處IoU的概念與第五章相同,都是某一類的預(yù)測區(qū)域與真實區(qū)域所占面積的比值如下圖所示,左邊是圖像分割的真實值,右邊是圖像分割輸出的預(yù)測值。對于右圖中每一個類別分別求IoU,再求平均數(shù),即為mIoU。mIoU越大,說明每個類別都被較好的預(yù)測,預(yù)測的準(zhǔn)確性越好。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第8頁6.2FCN全卷積神經(jīng)網(wǎng)絡(luò)本節(jié)內(nèi)容:

(1)FCN網(wǎng)絡(luò)結(jié)構(gòu)

(2)上采樣過程

(3)特征融合DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第9頁SDS方法(基于DCNN)在FCN提出之前,便已經(jīng)有了一系列圖像分割的DCNN算法,如SDS方法(SimultaneousDetectionandSegmentation,協(xié)同檢測和分割),其利用RCN網(wǎng)絡(luò)框架對網(wǎng)絡(luò)參數(shù)進行訓(xùn)練,抽取輸入圖片中的多個“似物性推薦區(qū)域(proposal)”,保留與人工標(biāo)注區(qū)域交叉的部分作為前景區(qū)域,根據(jù)每個proposal的類別信息進行訓(xùn)練,得到了用于圖像分割的DCNN。SDS整體上的架構(gòu)為:MCG+AlexNet+SVM+NMS。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第10頁FCN網(wǎng)絡(luò)結(jié)構(gòu)FCN網(wǎng)絡(luò)即全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNetworks),F(xiàn)CN網(wǎng)絡(luò)的結(jié)構(gòu)右圖所示。FCN與DCNN的區(qū)別在于,F(xiàn)CN中沒有全連接層(FC層)。由于僅有卷積層,輸出的是特征圖。FCN中對于FC的處理是,使用C個通道的1×1的卷積核對FC層進行替換(1×1卷積核的作用在于,不改變輸入的長和寬的情況下,將輸出的通道數(shù)調(diào)整為C;該過程也被稱作“降維”或“升維”)。接下來,在通過上采樣過程,將特征圖還原到輸入圖像的大小,每個位置的值即為對應(yīng)像素的類別,對該特征圖進行可視化。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第11頁上采樣過程:雙線性插值經(jīng)過了一系列的卷積層后,特征圖的尺寸變得很小,此時需要進行上采樣過程將特征圖還原到輸入圖像的尺寸。常見的上采樣方式有:雙線性插值、上池化、反卷積等。雙線性插值(BilinearInterpolation)的計算過程如右圖所示,已知Q11、Q12、Q21、Q22四個點的像素值,如果想在內(nèi)部一點進行雙線性插值,首先假定矩形的每條邊上點的像素值變化都為線性過渡。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第12頁上采樣過程:上池化(NearestNeighbor、BedofNails)Un-pooling為上池化,即Pooling的反向操作,其目的是對特征圖的尺寸進行放大,例如從2×2大小擴為4×4大小。Un-pooling常見的操作有NearestNeighbor、BedofNails等方式,如下圖所示。除此之外,常用的還有MaxUnpooling,其是MaxPooling的反向操作(見下頁)。但需要注意的是,進行MaxPooling時需要先記住池化后的元素在原圖像上的位置。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第13頁上采樣過程:上池化(MaxUnpooling)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第14頁上采樣過程:反卷積TransposeConvolution是第三種上采樣方式,顧名思義,其是卷積過程的反向操作。卷積的過程如下圖左邊所示,對于一個6×6大小的輸入,通過一個3×3大小的卷積核,在不加Padding的情況下可以得到一個4×4的特征圖。而反卷積如下圖右邊所示,就是以4×4大小的特征圖為輸入,通過一個3×3大小的卷積核,得到一個6×6大小的特征圖。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第15頁上采樣過程:反卷積的計算過程反卷積具體的計算過程如下圖所示。首先將3×3的卷積核進行翻轉(zhuǎn),接下來令其以下圖的方式,在2×2的特征圖上滑動,重合處的數(shù)字相乘、所有乘積相加,便得到了所需位置處的輸出值。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第16頁特征融合FCN中采用了多尺度特征圖融合的方式,使最后的特征圖能夠得到更多信息。如下圖所示,F(xiàn)CN對conv7的進行一次上采樣,并使其與pool4層的特征進行融合;對conv7的進行兩次上采樣,并使其與pool3層的特征進行融合;最后對融合后的特征圖進行上采樣,得到整個網(wǎng)絡(luò)輸出的結(jié)果。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第17頁FCN雖然FCN訓(xùn)練和預(yù)測的速度比同時期的傳統(tǒng)圖像分割算法較慢,

但其移植方便、適應(yīng)性極強,使深度學(xué)習(xí)首次引入了圖像分割領(lǐng)域。FCN的缺點主要有:

(1)分割結(jié)果不夠精細(xì);

(2)且由于其是對各個像素進行分類,沒有考慮像素與像素之間的關(guān)系,導(dǎo)致輸出結(jié)果中像素所屬類別在空間上的分布較為零碎,一致性差。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第18頁6.3U-Net/Seg-Net本節(jié)內(nèi)容:

(1)U-Net

(2)Seg-NetDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第19頁U-Net網(wǎng)絡(luò)結(jié)構(gòu)U-Net最初是為了解決生物醫(yī)學(xué)圖像方面的問題而提出的。U-Net是基于Encoder-Decoder的U型結(jié)構(gòu)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第20頁U-Net過程在U-Net中,Encoder負(fù)責(zé)特征提取、Decoder負(fù)責(zé)恢復(fù)圖像的原始分辨率。對于一幅大小為572×572的輸入圖像,在Encoder部分,通過五次“3×3卷積+ReLU、3×3卷積+ReLU、2×2最大值池化”的操作,得到一張大小為28×28像素、1024通道的特征圖。在Decoder部分,通過四次“上采樣、特征融合(拼接操作)、3×3卷積+ReLU、3×3卷積+ReLU”的操作,得到與338×338大小、64通道的特征圖;最后再使用1×1卷積,將通道數(shù)量設(shè)定為類別數(shù)量,得到最終的特征圖。該特征圖通過Softmax和Argmax操作,輸出最終的圖像分割結(jié)果。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第21頁特征融合方式:拼接上述過程中,特征融合采用的方式是“拼接”,即把Encode中不同尺寸卷積層的輸出復(fù)制并裁剪(copyandcrop)出一個與Decoder中待拼接的上采樣結(jié)果尺寸相同的部分,直接進行“拼接”。該方式能夠使不同尺寸的特征較好的融合,減少了細(xì)節(jié)的丟失。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第22頁U-Net損失函數(shù)設(shè)計U-Net的損失函數(shù)使用的是關(guān)于類別的交叉熵,如下式所示。其中,w(x)是權(quán)重變量。原論文是醫(yī)學(xué)細(xì)胞檢測,因此不同細(xì)胞之間的交界比較明顯,某一像素點距離細(xì)胞邊界第一近和第二近的距離為d1、d2。的設(shè)置可以使距離邊界越近的像素懲罰越大、越遠(yuǎn)的懲罰越小。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第23頁Seg-Net網(wǎng)絡(luò)結(jié)構(gòu)Seg-Net的結(jié)構(gòu)如下圖所示,其同樣是一個Encoder-Decoder結(jié)構(gòu)。Encoder部分是一個與VGG16類似的網(wǎng)絡(luò)模型,主要由卷積層(Conv)、歸一化層(BatchNormal,BN層)、激活函數(shù)層(ReLU)、池化層(Pooling)組成。其中,卷積層負(fù)責(zé)提取區(qū)域特征;池化層對特征圖進行下采樣并傳送到下一層;而BN層則對特征圖的數(shù)值進行分布?xì)w一化,加速訓(xùn)練過程。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第24頁Seg-Net網(wǎng)絡(luò)的Decoder部分Decoder部分主要由上采樣層(Upsampling)、卷積層(Conv)組成。其中,上采樣層與以往的網(wǎng)絡(luò)不同,其是借助“池化索引”來進行上采樣的,如下圖所示。池化索引,就是指在Encoder部分的MaxPooling過程中,建立一個矩陣來記錄最大值所在的位置;在Decoder部分的上采樣過程中,根據(jù)池化索引矩陣的記錄來填寫原來位置上的新的特征值,空缺的位置用0填充,這種上采樣方式得到的是一個稀疏特征圖。后續(xù)再繼續(xù)通過卷積層得到稠密特征圖,再進行上采樣,循環(huán)往復(fù),直到特征圖的大小與輸入圖像一致。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第25頁6.4DeepLab系列本節(jié)內(nèi)容:

(1)DeepLabV1

(2)DeepLabV2

(3)DeepLabV3

(4)DeepLabV3+DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第26頁DCNN類圖像分割網(wǎng)絡(luò)的不足在DeepLabV1出現(xiàn)之前,圖像分割所使用一類DCNN網(wǎng)絡(luò),存在兩個問題:

首先,最大池化等采樣方式會導(dǎo)致圖像中的細(xì)節(jié)丟失;

其次,分類器使用以對象為中心的決策,依賴于特征圖變換的空間不變性,該特點限制了DCNN的空間精度。因此,DeepLabV1針對上述兩個問題,分別使用“空洞卷積”、“條件隨機場(CRF)”的方式,解決了分辨率下降的問題、提高了模型捕獲細(xì)節(jié)的能力。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第27頁DeepLabV1DeepLabV1的整體結(jié)構(gòu)如右圖所示。

圖中的5個VGGlayer與以往不同,其內(nèi)部的卷積層使用的是空洞卷積,F(xiàn)C6同樣使用了空洞卷積,F(xiàn)C7使用的是一個1×1的普通卷積。6個Classification內(nèi)部有三個卷積層,其作用是通過雙線性插值統(tǒng)一特征圖大小、通過卷積操作使輸出特征圖的通道數(shù)等于類別數(shù)。最后,進行按像素疊加、按原圖大小進行插值縮放,得到最終的輸出。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第28頁空洞卷積空洞卷積是一種能夠增大感受野的卷積方法,而感受野是指計算特征圖上某個點的像素值時,計算使用的像素值的在輸入圖片上覆蓋范圍。上圖中,輸出的每一個像素點,其感受野的范圍都是3×3。而空洞卷積是指在不改變計算量(9個像素值)的情況下,對特征圖上的原始區(qū)域進行卷積時,沒有逐像素進行計算、而是間隔一定步長來進行計算。下圖中,輸出的每一個像素點,其感受野的范圍都是5×5。普通卷積:感受野3×3空洞卷積:感受野5×5DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第29頁條件隨機場(CRF)條件隨機場(CRF)是一種無向圖,圖中的頂點代表隨機變量,頂點之間的連線代表相互關(guān)系。上圖展示了CRF在DeepLabV1整體網(wǎng)絡(luò)結(jié)構(gòu)中的作用。下圖展示了CRF比其他方法更能使分類結(jié)果的邊緣更加精細(xì)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第30頁DeepLabV2DeepLabV2是DeepLabV1的改進版,其網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。首先,V2使用ResNet替換了V1所使用的VGG網(wǎng)絡(luò)。其次,引入了一個ASPP(AtrousSpatialPyramidPooling,空間空洞金字塔池化)層,使不同尺寸的特征圖都擴大了自身的感受野,獲得了更多的上下文信息。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第31頁ASPP層ASPP層的作用在于,其使用不同感受野的卷積核,如圖所示。具體來說,就是將輸入的特征圖,以四個不同擴張率(rate)的3×3卷積核進行空洞卷積的計算,以此獲得了多尺度、不同感受野的上下文信息。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第32頁DeepLabV3DeepLabV3直接去除了CRF的過程,并引入了Multi-Grid策略、優(yōu)化ASPP的結(jié)構(gòu),僅憑卷積網(wǎng)絡(luò)便達到了DeepLabV2的效果。DeepLabV3的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。輸入的圖像經(jīng)過4個ResNet后,進入ASPP’(即改進后的ASPP),再進行后續(xù)的圖像分割過程。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第33頁空洞卷積的弊端越高層的空洞卷積,擴張率越大,其對輸入的采樣就會越稀疏,很多局部信息就會被丟失,使得輸出的特征圖出現(xiàn)gridding問題,如圖所示。第一行是真實值,第二行是具有g(shù)ridding問題的特征圖。該現(xiàn)象的產(chǎn)生源自于空洞卷積使用了相同間隔的膨脹率,導(dǎo)致其在某一特定像素的周圍總是對相對固定位置的那些像素進行多次采樣,造成過擬合,導(dǎo)致失真。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第34頁Multi-Grid策略DeepLabV3中便采用了Multi-Grid策略,其在一個ResBlock中連續(xù)使用多個不同擴張率的空洞卷積。

即在不同的空洞卷積層上,使用不同間隔的膨脹率來替代固定間隔的膨脹率。如圖所示,膨脹率rate不再固定間隔的增加(如2,4,6,8),而是非等間隔的增加(如2,4,8,16)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第35頁BN(BatchNormalization)層BN層能夠均衡特征圖上的像素值分布情況,減輕計算壓力、進而減少訓(xùn)練和預(yù)測的總時間。此外,作者發(fā)現(xiàn),膨脹率越大,卷積核中的有效權(quán)重越少;當(dāng)膨脹率足夠大時,只有卷積核最中間的權(quán)重是有效的,此時卷積核退化成了1×1卷積核,此時空洞卷積便丟失了預(yù)期的上下文信息。因此,作者對最后一層的特征圖進行全局池化,經(jīng)過256個1×1卷積核和BN層,使用雙線性插值得到最終所需維度的特征圖。綜上,改進后的ASPP即ASPP’,如圖所示,其融合了Multi-grid策略、BN層、全局池化,使模型訓(xùn)練的時間更短、效果也更好。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第36頁DeepLabV3+在圖像分割的方法中,對于上下文信息的提取主要有兩種思路:一種是利用空間金字塔池化(SPP)結(jié)構(gòu)(如圖(a))、另一種是編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)(如圖(b))。而DeepLabV3+則是DeepLabV3的改進版,其融合了上述兩種思路,即在Encoder-Decoder結(jié)構(gòu)的基礎(chǔ)上,加入了SPP模塊,如圖(c)所示。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第37頁DeepLabV3+因此,DeepLabV3+很好的融合了上述兩種結(jié)構(gòu)的優(yōu)點:通過SPP來利用多種感受野池化不同分辨率的特征來挖掘上下文信息;通過Encoder-Decoder來逐步重構(gòu)空間信息來捕捉物體的邊緣。引入空洞卷積后,Encoder-Decoder模型的運行時間有所減少。DeepLabV3+的運行時間和輸出精度,是可以通過空洞卷積的膨脹率等參數(shù)來進行動態(tài)調(diào)整的。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第38頁6.5圖卷積網(wǎng)絡(luò)方法本節(jié)內(nèi)容:

(1)圖卷積的定義

(2)BeyondGrids

(3)GloRe

(4)GINetDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第39頁圖卷積的定義圖是由節(jié)點(node)和邊(edge)構(gòu)成的,節(jié)點表示實體,而邊描述了實體與實體之間的關(guān)系。圖有四種基本類型,如無向圖、有向圖、加權(quán)圖、混合圖等。實際上,根據(jù)圖的形狀和特點,圖還可以細(xì)分為更多種類,規(guī)則簡單的類別有樹、環(huán)、軌道等;規(guī)則復(fù)雜的類別有連通圖、偶圖、邊圖、弦圖、歐拉圖、哈密頓圖等。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第40頁復(fù)習(xí):卷積的定義復(fù)習(xí)二維平面卷積運算的定義:

其計算過程就是利用卷積核,在輸入圖像上滑動,將圖像上點的像素值與卷積核上對應(yīng)位置的數(shù)值相乘,再將所有乘積相加求和,作為輸出特征圖上卷積核中間位置的特征值,重復(fù)該過程直到遍歷完輸入圖片上所有的像素。圖卷積則與之類似,將每個節(jié)點描述為一個特征向量,通過設(shè)計一個可以遍歷全部節(jié)點的矩陣運算,該運算方法便命名為圖卷積。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第41頁圖卷積的一種定義圖中,節(jié)點1共有5個鄰居,對于節(jié)點1進行圖卷積,則就是對節(jié)點1及其鄰居節(jié)點的信息進行聚合。其中,每個節(jié)點都用一個向量來表示,所有的節(jié)點向量則構(gòu)成了節(jié)點矩陣n×c維的矩陣(n是節(jié)點數(shù)量,c是節(jié)點向量的維度);A是n×n維的鄰接矩陣,Aij=1表示節(jié)點i與節(jié)點j相鄰、Aij=0表示不相鄰;I是單位矩陣;D是對角矩陣,其作為歸一化的因子參與矩陣乘積運算;W是可學(xué)習(xí)的參數(shù)矩陣。本質(zhì)上,圖卷積也是一種消息傳遞網(wǎng)絡(luò):L描述了節(jié)點間消息的傳遞過程。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第42頁BeyondGrids在BeyondGrids提出之前,應(yīng)用于圖像分割的深度學(xué)習(xí)網(wǎng)絡(luò)大多數(shù)都是通過堆疊多個卷積層、池化層來增大感受野,進而獲得目標(biāo)與場景的上下文關(guān)系。實際上,這種方法得到的有效感受野非常有限,并不能很好的對上下文進行建模。因此,BeyondGrids方法定義了GCU(GraphConvolutionUnit,圖卷積單元)來處理相關(guān)問題。一個GCU由三部分構(gòu)成:GraphProjection、GraphConvolution、GraphRe-Projection。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第43頁BeyondGrids的GCU單元其中,GraphProjection為特征投影過程,即將2維特征圖投影到圖G=(V,E)上(V是節(jié)點的集合,E是節(jié)點間相互關(guān)系的集合)。對于V中的各個節(jié)點,其都是通過特征聚合的方式得到的。GraphConvolution為圖卷積過程,其采用上一節(jié)所述的公式進行運算,通過訓(xùn)練的方式來學(xué)習(xí)參數(shù)W。GraphRe-Projection為反投影過程,將經(jīng)過圖卷積運算的圖表征重新投影到2維空間。下圖展示了一個GCU的處理過程。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第44頁BeyondGrids的GCU單元DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第45頁GloRe的交互空間GloRe提出了一種推理方法:將坐標(biāo)空間(CoordinateSpace)的像素級特征聚合投影到交互空間(InteractionSpace)中,經(jīng)過一系列運算后再投回到原始的坐標(biāo)空間。圖(b)描述了坐標(biāo)空間下的區(qū)域劃分,同種顏色的區(qū)域內(nèi)部,其像素是相似的,即根據(jù)像素的相似性劃分坐標(biāo)空間中的區(qū)域;(c)描述了坐標(biāo)空間與交互空間中區(qū)域的投影與反投影關(guān)系。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第46頁GloRe的流程DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第47頁GloRe的流程DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第48頁GINet的語義上下文之前的方法都是基于視覺圖像來表征、推理上下文的方式,但GINet的作者認(rèn)為上下文信息僅靠其他像素點的信息來捕捉并不夠,于是作者引入了語義上下文的概念,如圖中的GraphInteraction過程所示。GINet仍然是一種圖交互網(wǎng)絡(luò),其提出了一種基于數(shù)據(jù)集的語義知識的圖交互單元GIUnit來進行上下文的推理建模;同時提出了上下文損失SC-loss來增強訓(xùn)練過程,強調(diào)出現(xiàn)在場景中的類別,抑制沒有出現(xiàn)在場景中的類別。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第49頁GINet網(wǎng)絡(luò)框架GINet方法的框架如下頁ppt所示,其過程大致分為五個步驟。第一步,將經(jīng)過預(yù)訓(xùn)練的ResNet作為骨干網(wǎng)絡(luò),對給定的輸入圖像進行提取特征,即視覺特征(VisualRepresentation)。與此同時,根據(jù)分類網(wǎng)絡(luò)或先驗信息得到該輸入圖片中的類別信息,將其以文本的形式提取出來經(jīng)過WordEmbedding,將單詞映射為方便處理的多維向量,即語義信息(LinguisticKnowledge)。第二步,將視覺特征和語義信息,通過GIUnit進行投影,得到視覺圖(VisG)和語義圖(SemG)。其中,視覺圖中的節(jié)點表示原圖像中某一區(qū)域的特征,邊表示區(qū)域之間的關(guān)系;語義圖中的節(jié)點表示文本特征,邊表示相互關(guān)系。第三步,在GIUnit中通過GraphInteraction過程來進行圖推理。其中,語義圖用于在視覺圖中促進上下文關(guān)系,指導(dǎo)視覺圖的生成;視覺圖反過來又可以強化語義圖中語義之間的聯(lián)系。第四步,由GIUnit生成的視覺圖通過反投影操作,回到原特征空間上,來增強每個局部視覺表示的區(qū)分能力;語義圖則在訓(xùn)練過程中根據(jù)上下文損失(SC-loss)不斷進行更新。最后,使用1×1卷積、上采樣,得到最終的圖像分割結(jié)果。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第50頁GINet網(wǎng)絡(luò)框架DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第51頁GINet的損失函數(shù)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第52頁6.6自動駕駛圖像分割技術(shù)應(yīng)用及案例介紹本節(jié)內(nèi)容:

(1)自動駕駛圖像分割技術(shù)應(yīng)用概述

(2)礦區(qū)自動駕駛路面特征提取案例介紹

DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第53頁自動駕駛圖像分割技術(shù)應(yīng)用概述在自動駕駛場景下,圖像分割需要能夠準(zhǔn)確識別和分割出道路上不同的物體和區(qū)域,如車道線、行人、交通標(biāo)志、車輛等。傳統(tǒng)的圖像分割方法,本質(zhì)上是基于規(guī)則的語義分割算法,至于規(guī)則如何設(shè)定,完全由方法的提出者進行設(shè)計,其主觀因素極強,泛化能力較差;且每一種規(guī)則僅對某種特定的分割場景有效,人工設(shè)計分割規(guī)則的效率也十分低下。因此,傳統(tǒng)圖像分割方法很難應(yīng)用到自動駕駛領(lǐng)域中。本文以閾值法、邊緣檢測法來介紹傳統(tǒng)圖像分割方法在自動駕駛領(lǐng)域中的應(yīng)用。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第54頁自動駕駛圖像分割技術(shù)應(yīng)用概述閾值法是指使用圖像的灰度特征來計算灰度值,通過與設(shè)定的閾值相比較,來將特定的像素分類到相應(yīng)的類別。以自動駕駛場景中的行人區(qū)域分割為例,由于人體的表面溫度高于周圍環(huán)境,因此使用紅外檢測設(shè)備或算法,可以檢測圖像中的熱源區(qū)域,進而從圖像或熱成像中分割出行人區(qū)域。Ge等人提出了一種基于自適應(yīng)局部雙閾值分割的感興趣區(qū)域(RegionofRegion)提取方法,其通過計算同一水平線上的行人亮度比背景亮度高的假設(shè)來計算局部閾值,進而將行人從圖像中分離出來。邊緣檢測法是目標(biāo)對象的邊緣線往往具有相似的灰度、顏色、紋理等特點,其主要通過微分算子來進行檢測。使用Sobel算子進行圖像分割便是一個典型的應(yīng)用。劉瓊等人提出了一種加權(quán)Sobel算子的方法來強化行人的豎直邊緣,以此來更好的分割道路場景下的行人區(qū)域。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第55頁自動駕駛圖像分割技術(shù)應(yīng)用概述FCN網(wǎng)絡(luò)已經(jīng)提出,便展現(xiàn)了其在自動駕駛領(lǐng)域中應(yīng)用的潛力:其實現(xiàn)了端到端的輸出,可以幫助自動駕駛系統(tǒng)理解場景并做出合理的決策。但FCN并不能對駕駛場景的上下文進行充分利用,因此并沒有真正地應(yīng)用于自動駕駛。Zhao等人通過一個金字塔集合模塊,對輸入圖像進行多尺度的特征提取,再通過一個帶有上采樣層的解碼器來恢復(fù)原始分辨率。這種方式極大地方便和簡化了自動駕駛的數(shù)據(jù)圖像輸入過程。然而重復(fù)的池化和下采樣操作會導(dǎo)致輸入圖像的細(xì)節(jié)丟失和畸變,因此Chen等人在PSPNet基礎(chǔ)上引入了DeepLab,引入了ASPP模塊。該模塊通過不同擴張率的卷積濾波器,提取了多尺度的特征;同時,DeepLab還通過跳躍連接的方式將ASPP模塊輸出的特征圖與不同層級的解碼器輸出進行融合,使得車道線的邊緣更加的精細(xì)和完整,更有利于車輛自身位置的確定。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第56頁自動駕駛圖像分割技術(shù)應(yīng)用概述胡航等人基于編碼器-解碼器模型,使用HRNet(High-ResolutionNet)保持高分辨率特征,同引入OCRNet(Object-ContextualRepresentationsforSemanticSegmentation)增強對象級別的語義信息。車子軒等人針對城市街景中的小目標(biāo)分割問題,采用特征加權(quán)和多尺度特征融合改進SOLO實例分割算法,提出F-SOLO(FeatureEnhancementSOLO)實例分割算法。其在特征提取網(wǎng)絡(luò)之后對特征通道進行加權(quán)重構(gòu),提升算法對重要特征的利用率;陳善繼等人提出了一種基于計算機視覺的高速路面狀態(tài)檢測方法。該方法首先將融合了空間注意力機制和通道注意力機制。注意力模塊與具有高分割精度的U-net網(wǎng)絡(luò)相結(jié)合,對路面區(qū)域圖像進行分割提??;之后實現(xiàn)了一種基于循環(huán)生成對抗網(wǎng)絡(luò)的路面陰影消除算法,對已經(jīng)提取的路面圖像進行陰影消除;最后基于殘差結(jié)構(gòu)構(gòu)建了路面狀態(tài)分類器,實現(xiàn)高準(zhǔn)確率的路面狀態(tài)檢測。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第57頁礦區(qū)路面特征提取案例:背景介紹車輛在礦區(qū)非結(jié)構(gòu)化路面上行駛時,由于路面翻漿及路面積水區(qū)域具有凹凸不平的特點,在這種路面狀態(tài)下行駛時,車輛抗沖擊性能很高,導(dǎo)致其劇烈振動,容易損壞部件,還會因機械故障引發(fā)事故。自動駕駛車輛有效對礦區(qū)非結(jié)構(gòu)化路面的道路翻漿(凸起)區(qū)域(左圖)以及路面積水(右圖)等路面狀態(tài)進行檢測并輸出相應(yīng)的路面狀態(tài)屬性(高度、面積)能夠提升礦區(qū)自動駕駛車輛前向感知能力,為車輛決策、規(guī)劃、控制提供保障。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第58頁礦區(qū)路面特征提取案例:技術(shù)路線單一傳感器信息對于自動駕駛車輛環(huán)境感知具有一定的局限性,多傳感器信息融合不僅可以彌補單一傳感器多維信息的不足,還可以形成一定的信息冗余增強環(huán)境感知結(jié)果的可靠性。本案例采用長焦相機和激光雷達傳感器信息融合感知技術(shù)對礦區(qū)非結(jié)構(gòu)化路面狀態(tài)進行研究:激光雷達傳感器可以彌補圖像沒有深度信息的不足,圖像可以為點云提供路面狀態(tài)的語義信息。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第59頁礦區(qū)路面特征提取案例:礦區(qū)路面數(shù)據(jù)集的構(gòu)建本案例將激光雷達點云和長焦相機的圖像作為整體算法的輸入,首先運用深度學(xué)習(xí)網(wǎng)絡(luò)對圖像中具體的路面特征進行分割與提取,然后根據(jù)圖像與點云的關(guān)系對應(yīng)地獲得不同路面狀態(tài)的點云信息,最后提出一種路面狀態(tài)輸出算法實現(xiàn)路面狀態(tài)的感知,完成關(guān)于礦區(qū)路面狀態(tài)的檢測與輸出。圖像與點云聯(lián)合標(biāo)定的過程如右圖所示。為了使得所采集的礦區(qū)圖像及點云數(shù)據(jù)中的路面特征能夠更好的匹配,多模態(tài)數(shù)據(jù)需要在時間上進行同步,空間上進行對齊處理。同時,點云測量的是物體到激光雷達中心的距離,則在同一幀點云中不同激光點的坐標(biāo)系不同,因此需要把采集過程中的雷達的運動計算出來進行點云去畸變處理。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第60頁礦區(qū)路面特征提取案例:礦區(qū)路面數(shù)據(jù)集的構(gòu)建DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第61頁礦區(qū)路面特征提取案例:基于圖像的礦區(qū)路面特征提取本案例中,采取了編碼器-解碼器結(jié)構(gòu)的DeepLabV3+作為圖像語義分割框架,在此基礎(chǔ)上進行優(yōu)化來獲取圖片的像素級類別信息?;诟倪M的DeepLabv3+語義分割網(wǎng)絡(luò)主要是由通道注意力模塊、混合注意力模塊以及改進DeepLabv3+網(wǎng)絡(luò)模型,改進的DeepLabV3+網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第62頁礦區(qū)路面特征提取案例:基于圖像的礦區(qū)路面特征提取本案例中,所采用的數(shù)據(jù)按照PASCALVOC2007數(shù)據(jù)集格式進行標(biāo)注,用實際應(yīng)用場景來檢驗改進網(wǎng)絡(luò)的性能。在所構(gòu)建的礦區(qū)非結(jié)構(gòu)化路面數(shù)據(jù)集中,主要包含行駛主路徑直道、彎道以及礦區(qū)作業(yè)區(qū)等場景,場景中的路面主要是車輛來回碾壓過在松軟路面上形成的翻漿等凸起以及在下雨天氣下在凹坑中的積水等路面狀態(tài)。標(biāo)注的類別主要有:非結(jié)構(gòu)化道路路邊擋墻、非結(jié)構(gòu)化路面翻漿(凸起)區(qū)域、路面積水區(qū)域以及其它非有效區(qū)域等四類區(qū)域,DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第63頁礦區(qū)路面特征提取案例:基于圖像的礦區(qū)路面特征提取為驗證基于DeepLabv3+網(wǎng)絡(luò)的基礎(chǔ)上所添加模塊的有效性,進行了消融實驗,對在網(wǎng)絡(luò)中相同位置分別添加ECA注意力機制和CBAM混合注意力機制模塊與同時添加兩種模塊的改進網(wǎng)絡(luò)進行對比。本案例中,基于DeepLabv3+網(wǎng)絡(luò)添加ECA注意力機制以及CBAM混合注意力機制的改進網(wǎng)絡(luò)在mIoU和mPA指標(biāo)上,相對于DeepLabv3+網(wǎng)絡(luò)本身以及分別添加不同注意力模塊的網(wǎng)絡(luò)相比表現(xiàn)良好,選取訓(xùn)練過程中得到的最優(yōu)權(quán)重,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論