人工智能基礎及應用（微課版）課件第8章神經網絡在計算機視覺中的應用

上傳人：y*** IP屬地：山東上傳時間：2024-03-07 格式：PPTX 頁數：131 大?。?.68MB 積分：15 舉報 版權申訴

已閱讀5頁，還剩126頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation第八章第8章

深度神經網絡在圖像處理中的應用

近年來，隨著計算機運算性能不斷提高，深度學習算法在圖像識別、圖像處理及語音識別等多個方面取得了巨大成功。本章就深度學習在圖像處理領域的實際應用進行介紹。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation第八章深度神經網絡在圖像處理中的應用8.1計算機視覺基礎8.2基于YOLO的交通標志的檢測與識別8.3基于卷積神經網絡的車牌定位與識別哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1計算機視覺基礎計算機視覺基礎8.1.1計算機視覺概述8.1.2圖像與圖像特征8.1.3神經網絡與計算機視覺哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.1計算機視覺概述

計算機視覺也通常被叫做機器視覺，其目的是建立能夠從圖像或者視頻中“感知”信息的人工系統(tǒng)。

計算機視覺已經在交通（車牌識別、道路違章抓拍）、安防（人臉閘機、小區(qū)監(jiān)控）、金融（刷臉支付、柜臺的自動票據識別）、醫(yī)療（醫(yī)療影像診斷）、工業(yè)生產（產品缺陷自動檢測）等多個領域應用。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.1計算機視覺概述哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.1計算機視覺概述

計算機視覺的發(fā)展歷程要從生物視覺講起。

經過幾億年的演化，目前人類的視覺系統(tǒng)已經具備非常高的復雜度和強大的功能，人腦中神經元數目達到了1000億個，這些神經元通過網絡互相連接，這樣龐大的視覺神經網絡使得我們可以很輕松的觀察周圍的世界，如圖8-2所示。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.1計算機視覺概述哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.1計算機視覺概述

對人類來說，識別貓和狗是件非常容易的事。但對計算機來說，即使是一個精通編程的高手，也很難輕松寫出具有通用性的程序

研究者嘗試著從不同的角度去解決這個問題，由此也發(fā)展出一系列的子任務，如圖8-3所示。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.1計算機視覺概述圖8-3計算機視覺子任務示意圖哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.1計算機視覺概述

以圖像分類任務為例，介紹計算機視覺技術的發(fā)展歷程。如圖8-4所示。圖8-4早期的圖像分類任務哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.1計算機視覺概述

YannLeCun是最早將卷積神經網絡應用到圖像識別領域的，其主要邏輯是使用卷積神經網絡提取圖像特征，并對圖像所屬類別進行預測，通過訓練數據不斷調整網絡參數，最終形成一套能自動提取圖像特征并對這些特征進行分類的網絡，如圖8-5所示。圖8-5早期的卷積神經網絡處理圖像任務示意圖哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.1計算機視覺概述

卷積神經網絡在手寫數字識別任務上取得了極大的成功。

隨著計算機性能的提升，今年催生了越來越豐富的模型結構和更加準確的精度，同時計算機視覺所處理的問題也越來越豐富，包括分類、檢測、分割、場景描述、圖像生成和風格變換等，甚至還不僅僅局限于2維圖片，包括視頻處理技術和3D視覺等。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.3神經網絡與神經視覺

卷積神經網絡是目前計算機視覺中使用最普遍的模型結構。圖8-6是一個典型的卷積神經網絡結構，多層卷積和池化層組合作用在輸入圖片上，在網絡的最后通常會加入一系列全連接層，ReLU激活函數一般加在卷積或者全連接層的輸出上，網絡中通常還會加入Dropout來防止過擬合。圖8-6卷積神經網絡經典結構哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.3神經網絡與神經視覺卷積層：卷積層用于對輸入的圖像進行特征提取。池化層：池化層通過對卷積層輸出的特征圖進行約減，實現了下采樣。激活函數：激活函數給神經元引入了非線性因素，對輸入信息進行非線性變換，從而使得神經網絡可以任意逼近任何非線性函數，然后將變換后的輸出信息作為輸入信息傳給下一層神經元。全連接層：全連接層用于對卷積神經網絡提取到的特征進行匯總，將多維的特征映射為二維的輸出。其中，高維代表樣本批次大小，低維代表分類或回歸結果。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.3神經網絡與神經視覺1．卷積神經網絡的發(fā)展卷積神經網絡是由卷積層提取特征，亞采樣層處理特征，交疊構成多層神經網絡。網絡輸入是通過手寫方式輸入圖像，對結果識別，輸入過程需要進行多次卷積以及采樣加工，在全連接層進行和目標的映射。卷積神經網絡卷積層包含特征圖較多，在核對圖像后運算，將元素視為權值參數，和輸出圖像像素值相乘，求和得到輸出像素。采樣層也被稱為池化層，進行池化采樣，在減少數據量同時保留信息。神經網絡和連接層進行對接，隱層結構和連接層一致，神經元一一對接。卷積神經網絡在BP算法支持下，通過模擬訓練，能夠讓神經元享有連接權，減少了訓練數目。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.3神經網絡與神經視覺2．卷積神經網絡在計算機視覺中的應用1）圖像分類在計算機視覺領域內最基礎的應用是圖像分類，根據設定對給定圖片進行分類，讓圖片內容劃分到合適的分類中，并進行類別標記。2）目標檢測

在目標檢測中，是計算機視覺基礎工作，可以標記設定對象，對目標物體進行標記，并進行圖像分類。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.3神經網絡與神經視覺3）圖像語義分割

圖像語義分割需要對分割目標準確識別，精準圖像語義分割能夠降低后續(xù)識別數據量，保留結構化信息。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.3神經網絡與神經視覺4）圖片標題生成

生成圖片的標題是神經網絡的重要業(yè)務，借助于自然語言準確描述圖片，體現出圖片的特征和內容，隨著自然語言和深度學習的技術突破，圖片標題生成逐漸在各個網站中使用。目前微軟和谷歌的技術仍然處于領先地位。5）人臉識別

人臉識別包含人臉辨識和驗證兩部分，辨別人臉圖像正確率為50%，辨識人臉可以將人臉圖像劃分不同種類的身份，猜中概率為1/N。

人臉的辨識難度更高，隨著類別數增加而增加，最大挑戰(zhàn)在于在不同表情、姿態(tài)、光線下的辨別。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.3神經網絡與神經視覺6）行人再識別在監(jiān)控系統(tǒng)中主要利用行人再識別，在可控環(huán)境中，利用虹膜和人臉等特征進行人臉識別。監(jiān)控視頻環(huán)境十分復雜，不可控因素較多，獲得行人圖像的質量差，無法準確捕捉人臉特征。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.1.3神經網絡與神經視覺7）人體動作識別識別人體動作已經是計算機視覺研究中關注度很高的問題，通過攝像機對視頻數據進行捕捉和處理，對視頻中動作行為深入理解。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2基于YOLO的交通標志檢測與識別8.2.1交通標志識別8.2.2YOLO系列簡介8.2.3基于YOLOv5的交通標志檢測與識別哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.1交通標志識別

交通標志檢測與識別系統(tǒng)的基本流程如9-1所示，整個流程被劃分為了3個環(huán)節(jié)，首先是進行圖像的預處理操作，主要對圖像進行角度變化、壓縮等處理；然后是交通標志檢測，主要完成候選區(qū)域的提取工作；最后是對交通標志的分類操作，主要對交通標志的類型進行分類標注。本節(jié)主要將交通標志分為了三類：警告類(warning)、禁止類(prohibitory)、指示類(mandatory)，基本示例如圖9-2所示。輸入識別結果圖像預處理交通標志檢測交通標志分類輸入圖像圖

8?1交通標志檢測與識別系統(tǒng)基本流程圖

8?2交通標志基本示例圖哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation9.3.1交通標志識別交通標志主要由交通標志主要由符號、文字以及圖案三部分組成。中國的主要交通標志可以分為以下三類：1.禁令：主要對車輛的車速、車身高度以及行駛路徑進行禁止或限制，如禁止停車、限制速度、禁止通行等路標。禁止路標通常以白色為底色，圖案為黑色，帶有紅圈。2警告：主要用于警告車輛前方路況危險，需謹慎駕駛。還有的是警告司機前方學校路段，減速慢行。警告交通標志的形狀一般是三角形，頂角向上，顏色為黃底，黑邊框，黑圖案。3指示：主要用于指示車輛駕駛人員行道方向和行車方向。指示交通標志一般以藍色為底色，白色圖案，形狀為圓形、正方形等。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation9.3.1交通標志識別

在圖像拍攝模糊時會導致交通標志信息不易被提取識別，從而導致精度降低、訓練結果不理想等影響。輸入圖像通常伴隨著復雜的噪聲,不清晰等不良影響因素。所以在進行特征抽取之前，往往需要對圖像進行預處理的操作。該操作的目的就是增強圖像中有用的信息，消除無關的信息，比如噪聲的干擾，從而提高檢測器對交通標志信息的辨識度和精度。

目標檢測是將目標對象從圖像（或圖像序列）中提取出來并標記它的位置和類別。深度學習出現之前，傳統(tǒng)的目標檢測方法分為區(qū)域選擇、特征提取和分類器3類方法，一般存在以下問題：（1）區(qū)域選擇策略沒有針對性、時間復雜性高，窗口冗余；（2）手工設計的特征魯棒性較差。深度學習出現以后，目標檢測取得了巨大的突破?；谏疃葘W習的目標檢測算法大致分為兩類：（1）以R-CNN系列算法為代表的候選區(qū)域的深度學習目標檢測算法（R-CNN、SPP-NET、FastR-CNN等），誕生時間較早，但訓練時間長；（2）以YOLO系列為代表的基于回歸方法的目標檢測算法，檢測速度較快且召回率高。本節(jié)將采用YOLO算法完成交通標志檢測與識別任務。哈爾濱理工大學HarbinUniversityof

Science

and

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介YOLO（YouOnlyLookOnce）是在CVPR2016提出的一種目標檢測算法，意為只需要看一邊圖片就可以得出結果，其核心思想是將目標檢測轉化為回歸問題求解。YOLO基于一個單獨的端到端的網絡，完成從原始圖像的輸入到物體位置和類別的輸出。作為一種統(tǒng)一結構，YOLO的運行速度非常快，相比于FastR-CNN的0.5幀/s、FasterR-CNN的7幀/s，基準的YOLO面模型每秒可以實時處理45幀圖像。同時，YOLO的泛化能力強，在訓練領域外的圖像上運行依然有不錯的效果。在CVPR2016提出的YOLOv1的檢測流程和網絡結構分別如圖8-3和圖8-4所示，使用的骨干網絡是VGG-16。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介YOLOv1所采用的VGG-16網絡構架類似于GoogleNet，在GoogleNet的基礎上用1×1還原層和3×3卷積層取替了GoogleNet的初始模塊。其網絡結構由24個卷積層和2個全鏈接層構成。其中，卷積層完成目標特征提取工作，全鏈接層則是目標位置坐標和分類類別信息的預測。圖

8?4YOLOv1目標檢測流程哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介圖

8?5YOLOv1網絡結構哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介當輸入一張圖像后，YOLO的檢測流程大致為：首先將圖像分割成S×S個網格（GridCell），如果一個目標的中心落在這個網格中，那么這個網路就復雜檢測這個目標。每個網格要預測B個預測框（BoundingBox），每個預測框包含5個預測值：x、y、w、h和confidence。其中，x、y表示預測框的中心位置相對于當前網格的位置偏移，實際訓練時被歸一化為[0，1]；w、h表示預測框相對于整幅圖像的比例系數，實際訓練時也別歸一化為[0，1]；confidence是置信度，反映一個預測框含有目標的可行程度和精確程度與多大，定義（9-1）所示。（8-1）其中，若預測框包含目標，則Pr(Object)=1，否則為0。即交并比，是用預測框和實際框的交集除以預測框和實際框的并集，交并比越大，說明預測越精確。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介

每個網格在對x、y、w、h、confidence五個值進行預測的同時還預測了C個類別條件概率Pr（Classi|Object），這些條件概率表示該網格包含目標對象的概率，由于數據集中的數據是C類，所以需要預測C個條件概率。每個網格預測2個預測框（B=2）在得到每個格子預測的類別信息和建議框預測的置信度信息后，然后將二者相乘就得到了每個建議框的特定類別的得分。在得到每個建議框的特定類別的得分后，淘汰掉特定類別得分較低的建議框。網絡輸出的建議框一般有許多是重疊的，這就會導致召回率較低。為了提高目標檢測的召回率，需要采用NMS算法對未被淘汰的建議框進行挑選，選擇出所有建議框中最優(yōu)的那一個。YOLOv1算法的優(yōu)點是檢測速度比較快，其目標定位不準、召回率低的缺點也是不容忽視的一點。為了解決YOLOv1算法的缺陷，YOLOv2在此基礎上做出了一定的改進。YOLOv1主要先在ImageNet分類數據集上預訓練模型，這樣可以獲得相對優(yōu)異的訓練模型，在此基礎上將網絡輸入的分辨率進行修改后再次進行網絡的訓練。然而如果修改的分辨率很高，會導致模型再次被訓練時無法及時適應分辨率的變化。于是，為了能讓訓練模型能夠適應分辨率的變化，YOLOv2應用了高分辨率分類器，并且增加了預訓練的輪數。與Faster-RCNN的錨框思想一樣，YOLOv2在特征圖上采用了滑動窗采樣。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介

而Faster-RCNN的預測方式對于偏移量沒有進行約束，這會使得訓練前期的模型變得十分的不穩(wěn)定。于是，YOLOv2在此方式下加入了sigmoid函數，使得預測出的輸出始終在0到1之間，從而達到穩(wěn)定輸出模型的效果。YOLOv2引入了anchorboxes，輸出featuremap大小為13×13，每個cell有五個anchorboxes來預測五個boundingboxes，一共有13×13×5個boxes。Boxes的增加提高了定位的準確率。YOLOv2算法采用的網絡結構為Darknet-19。Darknet-19。該網絡包含19個卷積層和5個maxpooling層，相比YOLOv1算法的網絡結構中采用的24個卷積層和2個全鏈接層，Darknet-19明顯減少了卷積操作，從而減少了運算時間。YOLOv2算法最后使用了averagepooling層代替全鏈接層進行預測。YOLOv3主要改進YOLO多目標檢測框架，在保持原有速度的優(yōu)勢之下，精度上得以提升。YOLOv3采用了Darknet-53網絡結構，整體框架結構如圖8-6所示。Darket-53網絡結構相對于YOLOv2算法的Darknet-19而言，其網絡層數更多，同時引入了Resnet殘差網絡，在相同的準確率下，Darknet-53的速度要優(yōu)于Darknet-19。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介圖

8?6YOLOv3的整體框架基于特征金字塔（FeatuePyramidNetword，FPN）的思想，YOLOv3算法采用了多尺度預測的方法。此外，該算法在錨框的設計方法上使用的是聚類的思想，經過聚類操作后得到9個錨框，最后按照錨框的大小的比例分配給三種不同尺度的YOLO層。如圖9-6所示，在特征提取網絡中，通過多次上采樣等操作得到了三種不同尺度的預測層，這三種不同的預測層分別用來預測大中小三種目標。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介YOLOv4構建了一個簡單且高效的目標檢測模型，該算法降低了訓練門檻，這使得普通人員都可以使用1080Ti或2080TiGPU來訓練一個超快且準確的目標檢測器。在檢測器訓練期間，驗證了最先進的Bag-ofFreebies和Bag-of-Specials方法的影響，同時對包括包括CBN，PAN，SAM等最先進的方法進行改進，使它們更有效，更適合單GPU訓練，并對目前主流的目標檢測器框架進行拆分：input、backbone、neck和head。YOLOv4的整體框架如圖9-7所示。圖

8?7YOLOv4的整體框架哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介YOLOv5算法的基本框架結構圖如圖9-8所示。YOLOv5算法延續(xù)了YOLOv4算法的Mosaic數據增強操作，并在推理時采用了圖像自適應縮放操作，該方法能夠根據輸入圖像的大小寬度進行自適應填充，大大提升了預測的效率。并且將Focus結構應用于網絡主干Backbone的前端部分，該結構主要對輸入圖像數據進行切片操作，該操作可以有效地提升圖片特征提取的質量。切片操作的過程示意圖如圖9-9所示。與YOLOv4一樣，YOLOv5也采用了殘差CSP結構，而YOLOv5的CSP結構又有不同之處，它將CPS應用于主干網絡和頸部網絡兩個位置。位于主干網絡的CSP結構能夠提升梯度值，防止反向傳播時出現梯度消失。為了加強網絡對特征的融合能力，在頸部網絡加入了與主干網絡不同的CSP結構。哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介圖

8?8YOLOv5的基本框架結構圖哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介YOLOv5算法采用了Mosaic數據增強的方法對輸入圖像進行處理。Mosaic數據增強的方法最先應用于YOLOv4算法當中，它將任意4張圖像按照隨機比例進行裁剪，再通過改變亮度、對比度、翻轉等操作來對圖像進行處理，最后將這4張圖像以逆時針方向依次擺放組合成一張新的圖像。Mosaic數據增強的方法可以一次性輸入四張圖像，這樣可以極大地減少訓練的時間，并減小占用的內存。圖

8?9切片操作示意圖哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介

目標檢測的損失函數包含了兩類損失函數，一類是邊界框回歸損失函數，另一類是分類損失函數。其中，邊界框損失函數的計算指標一般是交互比IOU，交互比代表了預測框和真實框的距離，從而可以反映出檢測的效果。但是交互比IOU作為損失函數時，如果預測框和真實框沒發(fā)生重疊，IOU的值會為零，此時無法反應兩者之間的距離。此外，當兩者沒有重疊的情況下時，梯度為0，將會導致無法進行學習和訓練。為了解決以上問題，YOLOv5采用了GIOU作為邊界框回歸的損失函數。設A為預測框，B為真實框，C為A與B的最小閉合框，GIOU計算公式如式（9-1）所示，計算概念圖如圖9-10所示。（9-1）GIOU作為邊界框損失函數時的計算如（9-2）所示。

圖

8?10GIOU的計算哈爾濱理工大學HarbinUniversityof

Science

and

Technology電子信息工程系DepartmentofElectronicInformation8.2.2

YOLO系列簡介

訓練階段的分類損失函數采用的是二元交叉熵損失函數。它是由邊界框回歸損失、置信度預測損失和類別預測損失三部分構成，如（9-3）所示。（8-3）哈爾濱理工大學HarbinUniversityof

Science

and

Science

and