基于深度學習的行人檢測和分析 工商管理專業(yè)_第1頁
基于深度學習的行人檢測和分析 工商管理專業(yè)_第2頁
基于深度學習的行人檢測和分析 工商管理專業(yè)_第3頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于深度學習的行人檢測與識別PEDESTRIAN DETECTION AND RECOGNITION BASED ON DEEP LEARNING摘 要行人檢測作為計算機視覺的熱門研究方向之一,其本質(zhì)就是運用檢測算法對計算機獲取的特定場景的圖像進行檢測與識別,收集相關(guān)行人行為的數(shù)據(jù),并對其展開研究和分析,以此來對行人的后續(xù)行為進行預(yù)測,或者對其進行身份驗證和識別、軌跡進行跟蹤。在實際生活中,行人檢測與識別最廣泛的應(yīng)用就是視頻監(jiān)控場景。然而由于行人檢測場景的復(fù)雜性,導致行人檢測與識別的準確度還有待提高。目前的相關(guān)算法往往采用人工設(shè)計特征,這類特征需要由學者進行專門的設(shè)計,魯棒性不強,并且無法實現(xiàn)

2、圖像或者視頻行人的實時檢測。因此本文提出基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測與識別研究,旨在提高其識別準確率和實時性。本文主要工作為:(1)針對深度學習模型的訓練需要大量的數(shù)據(jù),并且網(wǎng)絡(luò)層次越多訓練所需要的樣本數(shù)據(jù)量就越大的問題,本文采用數(shù)據(jù)檢索的方式對INRIA數(shù)據(jù)集進行擴充,克服數(shù)據(jù)量不足的缺陷,從而防止深度學習模型過擬合的出現(xiàn)。在充分考慮到INRIA數(shù)據(jù)集中行人背景分布和行人分辨率等問題上,對INRIA數(shù)據(jù)集進行擴充。擴充后的數(shù)據(jù)集結(jié)構(gòu)以及數(shù)據(jù)分布均不變,通過增加樣本數(shù)據(jù)的方式提高訓練處理模型的精確度。(2)針對傳統(tǒng)行人檢測魯棒性不強,并且無法實現(xiàn)圖像或者視頻行人的實時檢測的缺點,提出基于YOLO

3、v2的端到端的目標檢測方法,通過融合深度殘差神經(jīng)網(wǎng)絡(luò),提出了一種改進的深度殘差神經(jīng)網(wǎng)絡(luò)的行人檢測方法。針對行人的行人圖像橫向信息不足的缺陷,提出了一種矩形輸入的分類模型,加強了對于行人特征的提取能力;與此同時,通過聚類算法K-means重新設(shè)計了預(yù)測初始框,進一步提高了行人的定位能力。關(guān)鍵詞:深度學習,卷積神經(jīng)網(wǎng)絡(luò),深度殘差神經(jīng)網(wǎng)絡(luò),行人檢測與識別ABSTRACTPedestrian detection is one of the hot research directions of computer vision. Its essence is to use the detection al

4、gorithm to detect and identify the images of specific scenes acquired by the computer, collect the data of relevant pedestrian behaviors, and conduct research and analysis on them. The follow-up behavior of the pedestrian is predicted, or it is authenticated and identified, and the trajectory is tra

5、cked. In real life, the most widely used application for pedestrian detection and identification is the video surveillance scene. However, due to the complexity of the pedestrian detection scene, the accuracy of pedestrian detection and recognition needs to be improved. At present, related algorithm

6、s often adopt artificial design features. Such features need to be specially designed by scholars, and the robustness is not strong, and real-time detection of images or video pedestrians cannot be realized. Therefore, this paper proposes a pedestrian detection and recognition based on convolutional

7、 neural network, aiming to improve its recognition accuracy and real-time. The main work of this paper is: (1) In general, the training of the deep learning model requires a lot of data, and the more the sample data is needed for the more training at the network level, which is possible to avoid the

8、 network overfitting effectively. Based on this, the INRIA data is extended by data retrieval to overcome the defect of insufficient data quantity in our article, so as to prevent the occurrence of over-fitting of deep learning model. This method takes full account of the pedestrian resolution and b

9、ackground distribution of the original database when database expansion is extended, so that the extended database still maintains the original data distribution of the database, which is beneficial to the training of logarithms. What we do is to train a better deep learning network for database det

10、ection.(2) In order to solve the problem that the traditional pedestrian detection needs artificial design features, and the trouble of poor real-time and weak robustness, we propose an improved depth residual neural network for pedestrian detection based on the end to end target detection method of

11、 YOLOv2 and the fusion of deep residual neural network. In view of the deficiency of pedestrians pedestrian image, a classification model of rectangular input is proposed, which strengthens the ability to extract the pedestrian characteristics. At the same time, the initial frame is redesigned by th

12、e clustering algorithm K-means, which will further improve the ability of pedestrians to locate.Key words: deep learning, convolution neural network, deep residual neural network, pedestrian detection and recognition目 錄 TOC o 1-3 h z u HYPERLINK l _Toc2504184 摘 要 PAGEREF _Toc2504184 h I HYPERLINK l

13、_Toc2504185 ABSTRACT PAGEREF _Toc2504185 h II HYPERLINK l _Toc2504186 目 錄 PAGEREF _Toc2504186 h III HYPERLINK l _Toc2504187 第1章 緒 論 PAGEREF _Toc2504187 h 1 HYPERLINK l _Toc2504188 1.1研究背景及意義 PAGEREF _Toc2504188 h 1 HYPERLINK l _Toc2504189 1.2國內(nèi)外研究現(xiàn)狀 PAGEREF _Toc2504189 h 2 HYPERLINK l _Toc2504190 1.

14、2.1 行人檢測與識別的研究現(xiàn)狀 PAGEREF _Toc2504190 h 2 HYPERLINK l _Toc2504191 1.2.2 深度學習在計算機視覺領(lǐng)域的研究現(xiàn)狀 PAGEREF _Toc2504191 h 3 HYPERLINK l _Toc2504192 1.2.3 基于深度學習的行人檢測與識別的研究現(xiàn)狀 PAGEREF _Toc2504192 h 4 HYPERLINK l _Toc2504193 1.3行人檢測難點 PAGEREF _Toc2504193 h 6 HYPERLINK l _Toc2504194 1.4論文的主要內(nèi)容及創(chuàng)新點 PAGEREF _Toc2504

15、194 h 6 HYPERLINK l _Toc2504195 1.4.1主要研究內(nèi)容 PAGEREF _Toc2504195 h 6 HYPERLINK l _Toc2504196 1.4.2論文創(chuàng)新點 PAGEREF _Toc2504196 h 7 HYPERLINK l _Toc2504197 1.5論文的內(nèi)容結(jié)構(gòu)安排 PAGEREF _Toc2504197 h 7 HYPERLINK l _Toc2504198 1.6本章小結(jié) PAGEREF _Toc2504198 h 8 HYPERLINK l _Toc2504199 第2章 行人檢測與深度學習相關(guān)基礎(chǔ)理論與技術(shù) PAGEREF _

16、Toc2504199 h 9 HYPERLINK l _Toc2504200 2.1 基于運動特征的行人檢測算法 PAGEREF _Toc2504200 h 9 HYPERLINK l _Toc2504201 2.1.1 幀間差分法 PAGEREF _Toc2504201 h 9 HYPERLINK l _Toc2504202 2.1.2 光流法 PAGEREF _Toc2504202 h 10 HYPERLINK l _Toc2504203 2.1.3 高斯背景建模法 PAGEREF _Toc2504203 h 12 HYPERLINK l _Toc2504204 2.2 基于行人特征的檢測

17、算法 PAGEREF _Toc2504204 h 13 HYPERLINK l _Toc2504205 2.2.1Edgelet PAGEREF _Toc2504205 h 13 HYPERLINK l _Toc2504206 2.2.2Shapelet特征 PAGEREF _Toc2504206 h 14 HYPERLINK l _Toc2504207 2.2.3Haar特征 PAGEREF _Toc2504207 h 15 HYPERLINK l _Toc2504208 2.2.4HOG PAGEREF _Toc2504208 h 17 HYPERLINK l _Toc2504209 2.

18、3 行人數(shù)據(jù)庫及評測標準 PAGEREF _Toc2504209 h 18 HYPERLINK l _Toc2504210 2.4 本章小結(jié) PAGEREF _Toc2504210 h 19 HYPERLINK l _Toc2504211 第3章 基于深度學習的行人檢測 PAGEREF _Toc2504211 h 20 HYPERLINK l _Toc2504212 3.1 全連接神經(jīng)網(wǎng)絡(luò) PAGEREF _Toc2504212 h 20 HYPERLINK l _Toc2504213 3.2 反向傳播算法 PAGEREF _Toc2504213 h 22 HYPERLINK l _Toc25

19、04214 3.3 卷積神經(jīng)網(wǎng)絡(luò) PAGEREF _Toc2504214 h 23 HYPERLINK l _Toc2504215 3.4 基于深度學習的行人檢測 PAGEREF _Toc2504215 h 24 HYPERLINK l _Toc2504216 3.4.1系統(tǒng)框架 PAGEREF _Toc2504216 h 24 HYPERLINK l _Toc2504217 3.4.2基于圖像檢索擴充的深度學習行人檢測 PAGEREF _Toc2504217 h 25 HYPERLINK l _Toc2504218 3.5 實驗結(jié)果與分析 PAGEREF _Toc2504218 h 28 H

20、YPERLINK l _Toc2504219 3.6 本章小結(jié) PAGEREF _Toc2504219 h 29 HYPERLINK l _Toc2504220 第4章 基于改進的深度殘差網(wǎng)絡(luò)行人檢測方法 PAGEREF _Toc2504220 h 30 HYPERLINK l _Toc2504221 4.1引言 PAGEREF _Toc2504221 h 30 HYPERLINK l _Toc2504222 4.2相關(guān)工作 PAGEREF _Toc2504222 h 31 HYPERLINK l _Toc2504223 4.2.1YOLOv2 目標檢測方法 PAGEREF _Toc25042

21、23 h 31 HYPERLINK l _Toc2504224 4.2.2深度殘差網(wǎng)絡(luò) PAGEREF _Toc2504224 h 31 HYPERLINK l _Toc2504225 4.3針對圖像特征的行人檢測方法 PAGEREF _Toc2504225 h 32 HYPERLINK l _Toc2504226 4.3.1基于圖像的行人特征分析 PAGEREF _Toc2504226 h 32 HYPERLINK l _Toc2504227 4.3.2基于維度聚類的預(yù)測框選取 PAGEREF _Toc2504227 h 33 HYPERLINK l _Toc2504228 4.3.3Res

22、-P-YOLO網(wǎng)絡(luò)設(shè)計 PAGEREF _Toc2504228 h 34 HYPERLINK l _Toc2504229 4.4 實驗設(shè)計 PAGEREF _Toc2504229 h 35 HYPERLINK l _Toc2504230 4.4.1實驗環(huán)境 PAGEREF _Toc2504230 h 35 HYPERLINK l _Toc2504231 4.4.2行人檢測模型評價方法 PAGEREF _Toc2504231 h 35 HYPERLINK l _Toc2504232 4.4.3混合數(shù)據(jù)集訓練效果驗證 PAGEREF _Toc2504232 h 36 HYPERLINK l _To

23、c2504233 4.4.4矩形輸入性能對比 PAGEREF _Toc2504233 h 37 HYPERLINK l _Toc2504234 4.5 實驗及分析 PAGEREF _Toc2504234 h 37 HYPERLINK l _Toc2504235 4.6 本章小結(jié) PAGEREF _Toc2504235 h 39 HYPERLINK l _Toc2504236 第5章 總結(jié) PAGEREF _Toc2504236 h 40 HYPERLINK l _Toc2504237 參 考 文 獻 PAGEREF _Toc2504237 h 42 HYPERLINK l _Toc250423

24、8 致 謝 PAGEREF _Toc2504238 h 46緒 論本章首先介紹了關(guān)于行人檢測與識別的研究背景和國內(nèi)外對行人檢測與識別技術(shù)的研究現(xiàn)狀;其次,結(jié)合國內(nèi)外技術(shù)的研究狀況總結(jié)并分析了行人檢測技術(shù)所面臨的技術(shù)難點和原因;最后提出了本論文的創(chuàng)新點,并對論文的主要內(nèi)容和各個章節(jié)所做的工作進行總結(jié)。 研究背景及意義行人檢測涉及圖像處理技術(shù)、計算機視覺技術(shù)以及機器學習相關(guān)算法等多個領(lǐng)域的技術(shù),它在許多領(lǐng)域都有重要應(yīng)用。近年來,隨著深度學習的興起,計算機視覺的許多領(lǐng)域都有了質(zhì)的飛躍,行人檢測便是其中一個領(lǐng)域1-4?,F(xiàn)階段,公眾對于安防的需求隨著計算機技術(shù)和安保技術(shù)的成熟而越來越來大,那么怎么樣讓計

25、算機更理解人們的需求以及更高效地為人們服務(wù),是計算機的應(yīng)用價值體現(xiàn),也是科研工作人員奮斗的目標。為了實現(xiàn)行人檢測和識別,市面上常見的是對圖像和視頻通過機器學習進行特征提取,之后的學者也將引入深度學習,提高檢測精確度,減少相關(guān)從業(yè)人員的工作量,讓技術(shù)更好地為大眾服務(wù)。伴隨著社會的發(fā)展和技術(shù)的進步,計算機能夠代替人做的工作越來越多,如:智能交通調(diào)度,智能電力調(diào)度,無人駕駛,繁忙公共場所的人流量檢測等。在實際應(yīng)用中,利用計算機獲得視頻圖像,并且理解和分析這些圖像的潛在信息一直是當前模式識別的研究重點。行人檢測作為計算機視覺的熱門研究方向之一,其本質(zhì)就是運用檢測算法對計算機獲取的特定場景的圖像進行檢測

26、與識別,收集相關(guān)行人行為的數(shù)據(jù),并對其展開研究和分析,以此來對行人的后續(xù)行為進行預(yù)測,或者對其進行身份驗證和識別、軌跡進行跟蹤。簡單來講,行人檢測和識別的原理對圖像序列或者視頻序列進行檢測,判斷其中行人是否存在。這一檢測往往通過計算機視覺技術(shù)和機器學習方法實現(xiàn)。若在圖像序列或者視頻序列圖像檢測出存在行人,則還需要提取行人的位置信息,之后通過提取的位置信息進行行人的行為和步態(tài)分析,甚至實現(xiàn)對其身份進行識別。在實際生活中,行人檢測與識別最廣泛的應(yīng)用就是視頻監(jiān)控場景。然而由于行人檢測場景的復(fù)雜性,導致行人檢測與識別的準確度還有待提高。目前的相關(guān)算法往往采用人工設(shè)計特征,這類特征需要由學者進行專門的設(shè)

27、計,魯棒性不強,并且無法實現(xiàn)圖像或者視頻行人的實時檢測。行人檢測與識別根據(jù)分類方法的不同,可以分為以下三種:(1)形變部件模型變體;(2)基于決策森林的行人檢測方法;(3)基于深度學習的行人檢測方法5。近年來,這三種方法在公開的數(shù)據(jù)集上都能取得不錯的實驗結(jié)果。但是,傳統(tǒng)的行人檢測方法(例如方向梯度直方圖、局部二值模式等方法)嚴重依賴于手工設(shè)計特征,同時,設(shè)計得到的特征維度較高,在實際應(yīng)用中泛化性能較差6-8?;谏疃葘W習(卷積神經(jīng)網(wǎng)絡(luò))的行人檢測方法能夠自動從圖像中學習得到行人特征,相比于傳統(tǒng)的方法,具有更好的泛化性能,且性能也大幅度提升,因此成了當下計算機視覺的研究熱點之一9。 國內(nèi)外研究現(xiàn)

28、狀行人檢測是進行行人識別和行為分析的先決條件,行人檢測簡單來說就是從視頻序列以及視頻圖像中將行人及其位置提取出來5,6。研究發(fā)現(xiàn),目標檢測與識別魯棒性和計算復(fù)雜性兩個方面做的還不夠好,還需要進一步改進。具體地,類內(nèi)表現(xiàn)差異和類間表現(xiàn)差異是影響魯棒性的主要原因,如果類間表現(xiàn)差異比較小或者類內(nèi)表現(xiàn)差異比較大會降低目標檢測方法的魯棒性;另一方面,待檢測目標的類別數(shù)目和其他的一些因素都會嚴重影響目標檢測方法的計算復(fù)雜度。然而,真實世界中物體的類別成千上萬,影響的因素也多。但是,近年來深度學習技術(shù)的發(fā)展,給目標檢測領(lǐng)域帶來了新的活力,無論是在學術(shù)研究還是工程應(yīng)用領(lǐng)域,深度學習技術(shù)的引進,都給目標檢測方法

29、的精度帶來了質(zhì)的突破,因此眾多學者都紛紛將深度學習技術(shù)應(yīng)用于目標檢測這一具有很大發(fā)展前景的領(lǐng)域。1.2.1 行人檢測與識別的研究現(xiàn)狀行人目標信息的識別和行人的其他一系列的分析都需要建立在行人檢測的基礎(chǔ)上,因此行人檢測是至關(guān)重要的一環(huán)。幀間差分法、高斯背景建模和光流法等算法7是常見的基于物體運動特征的目標檢測算法,它們的優(yōu)點有:1. 算法的原理容易理解;2. 實現(xiàn)的代碼量小,穩(wěn)定性好;3. 在某些理想的場景下,檢測的效果好。但是,這類算法檢測的對象不單單是行人,是所有運動的物體,因此無法對檢測到的目標進行識別。所以希望能夠有算法能獲取行人獨有的特征,并且能夠很好的對行人進行識別。然而,實際中,行

30、人的姿態(tài)、服飾、所處的背景多種多樣,不太容易能夠很好地提取行人的特征。所以需要一種較為魯棒的算法,能夠應(yīng)對行人這樣復(fù)雜場景下的對象,并且很好地完成特征提取的任務(wù),這是一個不小的挑戰(zhàn)。目前,提取行人特征常用的方法有:1. 提取行人顏色特征;2. 提取行人Edgelet特征8;3. 提取行人Haar特征9;4. 提取行人HOG特征10。2014年,吳波等人11結(jié)合紅外圖像的處理技術(shù)和行人特征中的局部形狀特征,提出了一種效率較高的行人檢測方法。將行人檢測識別的準確率提升到了80%。2015年,朱聰聰?shù)热?2融合雷達和紅外圖像技術(shù),提出了能夠在光線不好(夜晚也可以)的環(huán)境下也能對行人進行很好的目標識別

31、的技術(shù),結(jié)合雷達和紅外圖像技術(shù),在紅外感應(yīng)區(qū)域提取出HOG特征,這也是該技術(shù)能夠應(yīng)用于較弱光線下的一個主要原因。2016年,向應(yīng)等人13將Haar特征提取技術(shù)和AdaBoost分類器技術(shù)結(jié)合起來,提出了一個應(yīng)用效果比較好的行人檢測算法,該算法首先運用Haar特征提取器快速對行人圖片進行粗分類,接著再利用AdaBoost分類器對候選人目標進行檢測,使得檢測準確率提升到了90%以上。2017年,孟祥云等人14通過提取行人目標的四維形狀特征,并且利用SVM對提取的特征進行識別和分類,從而在一些行人、車輛數(shù)據(jù)集上達到95%的準確率。1.2.2 深度學習在計算機視覺領(lǐng)域的研究現(xiàn)狀深度學習的提出得益于人工

32、神經(jīng)網(wǎng)絡(luò)的研究,其目的在于模擬人類大腦建立一個學習數(shù)據(jù)表征的機制,這是人工智能領(lǐng)域近幾年來取得的重大突破。本質(zhì)上來說,深度學習就是通過多層的非線性變換從海量數(shù)據(jù)中自動提取出不同層次的特征,而這些特征比人工設(shè)計的特征更能表征數(shù)據(jù)的特性,更有利于學習器進行擬合,達到比傳統(tǒng)機器學習方法更高的準確率。從而減少數(shù)據(jù)的預(yù)處理操作,真正實現(xiàn)端到端(end-to-end)的設(shè)計。2006年,Hinton在Nature上發(fā)表注定注入深度學習歷史的文章,從而正式提出深度學習15。2012年,Hinton的團隊將卷積神經(jīng)網(wǎng)絡(luò)運用到圖像分類中,贏得了當年ImageNet圖像分類比賽的冠軍16。無獨有偶,徐珊珊等人17

33、在2014年將卷積神經(jīng)網(wǎng)絡(luò)運用到木材識別中,提高了木材識別的準確率。許西邵等人18在2016年將卷積神經(jīng)網(wǎng)絡(luò)用于人臉識別,提高了人臉識別的準確率。2017年,趙晨光等人19提出將卷積神經(jīng)網(wǎng)絡(luò)運用于掌紋識別,在數(shù)據(jù)量較少的情況下就可以達到98%的準確率。綜上所述,深度學習中的卷積神經(jīng)網(wǎng)絡(luò)具有極強的圖像特征提取能力,能夠應(yīng)用于各種各樣的圖像應(yīng)用中。在2015年的ImageNet ILSVRC比賽中20,微軟研究院隊伍基于深度殘差系統(tǒng)來設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以圖像識別錯誤率低至3.57%的成績獲得了該比賽的冠軍。目前所使用的都是多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通常會達到20至30層。而在這次比賽中,微軟隊所使用的網(wǎng)

34、絡(luò)層數(shù)達到152層,網(wǎng)絡(luò)層數(shù)越深訓練起來就會越復(fù)雜,這么深層的網(wǎng)絡(luò)結(jié)構(gòu)在之前根本不敢想象它會被成功應(yīng)用。微軟通過殘差網(wǎng)絡(luò)的使用,在訓練以及使用深層網(wǎng)絡(luò)結(jié)構(gòu)的時候,可以跳過不需要的某些層級,而需要用到的時候再重新返回應(yīng)用就可以了。魏云超等提出了Hypotheses-CNN-Pooling(HCP)網(wǎng)絡(luò)結(jié)構(gòu),這是一種非常靈活的CNN模型,該模型可以使任意的輸入量與一個共享CNN連接,最后將CNN的輸出結(jié)果通過最大池聚集起來,以產(chǎn)生最終的多標簽預(yù)測21。SatoIkuro檢測駕駛員的駕駛行為,通過CNN訓練相關(guān)數(shù)據(jù)樣本,并將訓練得到的CNN模型應(yīng)用于實際數(shù)據(jù),若其行為不符合規(guī)范則給予其提供相應(yīng)的警告

35、,從而避免了由于駕駛操作不規(guī)范而導致的交通事故,大大提高了汽車駕駛的安全等級,給交通安全提供了重要的保障22。Ossama等實現(xiàn)了多揚聲器的語音識別,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識別領(lǐng)域。通過實驗數(shù)據(jù)可以看出,Ossama提出的語音識別方法可以減少10%以上的相對誤差。Patrice等構(gòu)建了一個體系結(jié)構(gòu),適用于文件分析,通過將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到視覺文獻分類,所設(shè)計的體系結(jié)構(gòu)在MNIST樣本庫測試效果顯著23。傳統(tǒng)的目標檢測算法主要分為以下3個步驟:1. 區(qū)域選擇;2. 特征提取;3. 分類回歸。但是傳統(tǒng)的目標經(jīng)檢測算法存在兩個缺點:(1)檢測算法的時間復(fù)雜度高;(2)手工提取的特征魯棒性較差;(3

36、)區(qū)域選擇的策略效果差。直到2013年,Ross Girshick等人14采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行特征提取,解決了上述的兩個問題,一舉改變了這種現(xiàn)狀。在其后的發(fā)展中,按照處理方式的不同,主要分為兩大類:一類是以R-CNN為代表,另一類則是以YOLO為代表。以R-CNN為代表的方法將目標檢測過程分為兩個步驟,首先生成候選區(qū)域,之后再用分類器進行檢測。2014年,何凱明等人17在R-CNN的基礎(chǔ)上提出了SPP Net(Spatial Pyramid Pooling Neural Network),SPP Net首先進行的是卷積,然后才生成候選區(qū)域,這樣做減少了存儲量的同時,也加快了訓練速度;

37、另外,SPP Net還設(shè)計了一個金字塔池化層,將特征數(shù)據(jù)(特征圖)進一步處理,然后拼湊成和神經(jīng)元個數(shù)相同的特征數(shù),極大地減少了計算的冗余度。2015年,Ross Girshick等人21提出了Fast R-CNN,將原來R-CNN的串行結(jié)構(gòu)改為并行結(jié)構(gòu),同時保留了SPP Net的優(yōu)點。同年,Shaoqing Ren等人11提出了Faster R-CNN,利用神經(jīng)網(wǎng)絡(luò)去學習生成候選區(qū)域,這種方式不僅提高了生成的候選區(qū)域的可靠程度,也大大減少了參數(shù)的數(shù)量。2017年,何凱明等人9提出了Mask R-CNN,增加了一條信息通道,提升了檢測的效果。以YOLO為代表的方法使用回歸的方式輸出目標的邊框和類

38、別,這樣做的優(yōu)點就是檢測速度快,但是會有許多漏檢。2015年,Joseph Redmon等人6提出了YOLO(You Only Look Once),將輸入圖片劃分成一個 SxS 的網(wǎng)格,每個網(wǎng)格負責檢測網(wǎng)格里面的物體,并輸出 Bbox 信息和置信度。YOLO的做法雖然快,但是檢測的邊框有點大,小的物體容易從這個框中漏出去。同年,由于YOLO存在使用整圖特征在粗糙網(wǎng)格內(nèi)回歸對目標的定位不精準的問題,Wei Liu等人10提出了SSD算法,將YOLO結(jié)合region proposal思想,提高定位的精確度,高效預(yù)測某個位置使用的是這個位置周圍的特征。另外,與YOLO最大的差別是,SSD沒有接全連

39、接層,極大地減少了參數(shù)量,提高了檢測速度。1.2.3 基于深度學習的行人檢測與識別的研究現(xiàn)狀行人檢測與識別屬于對運動對象或者目標進行檢測和識別的研究分支,而行人分離主要試將感興趣的物體從圖像中分離出來。從各種復(fù)雜的背景中提取待分離目標的方法主要有:1. 背景差分法;2. 混合高斯背景建模法;3. 幀間差分法; 4. 光流法20-23。其中,背景差分法首先將非目標區(qū)域的圖像提取出來,然后用目標幀圖像與該背景幀圖像做強度或者能量的差分,最后再刪除不變的背景區(qū)域。幀間差分法的原理類似于背景差分法,也是通過計算視頻中相鄰兩幀圖像的強度或者能量差分,從而實現(xiàn)對運動目標的識別?;旌细咚贡尘敖7椒▌t是通過

40、概率密度函數(shù)來對背景像素進行精確量化,解決了兩種差分方法容易受到其他因素影響的問題,成為應(yīng)用最為廣泛的運動目標檢測方法之一(深度學習未出來之前)。上述的三種方法只是用于固定場景,而光流法則可以用于非固定的場景,應(yīng)用范圍更加廣泛。光流法是利用運動物體在成像面上形成的運動矢量來對運動物體目標進行識別的,該方法較為穩(wěn)定,所以才能在多種場景中進行使用。在目標檢測領(lǐng)域未采用深度學習技術(shù)之前,在復(fù)雜背景下進行行人的檢測與識別仍然是一個巨大的難題,因為復(fù)雜背景的圖像中存在有太多未知的因素,比如光線明暗、圖像的分辨率等,都是影響最終識別準確率的重要因素。之前采用的方案主要是將計算機視覺算法與傳感器技術(shù)進行結(jié)合

41、,從而完成對各種場景下對行人的檢測與識別。而在視頻中對行人的檢測與識別則往往需要依靠滑動窗口,通過滑動窗口對視頻中的幀圖像進行分類?;瑒哟翱冢òü潭ǖ暮头枪潭ǖ模谕粡垐D像所形成的圖像金字塔上進行掃描,從而判別該區(qū)域中是否包含行人目標。而且通常最后都會對檢測的結(jié)果進行相應(yīng)的處理,并用可視化的方框?qū)D像金字塔中的行人進行標記。雖然視頻是一種動態(tài)的序列,但是該動態(tài)序列可以看成是由靜態(tài)圖像序列構(gòu)成的,因此仍然可以采用分析靜態(tài)圖像序列的方法來分析視頻。同時,又可以將視頻中動態(tài)的行人特征添加進來,進一步提高視頻中行人檢測的準確率。除了滑動窗口的方法之外,對視頻中的行人進行檢測的方法還有多視角、多部

42、位以及基于整體局部特征等方法,都是具有相當?shù)臏蚀_率的。另外,為了更好地對靜態(tài)的圖像進行建模,提出了許多的方法來對行人進行特征提取和描述,主要有:協(xié)方差描述算子、Haar小波特征集合、隱馬爾可夫(HMM)特征、統(tǒng)計直方圖和梯度方向直方圖(HOG)等24-27。當然這些方法雖然在一些場景下取得了不錯的結(jié)果,但是都存在不同程度的缺陷。比如,協(xié)方差描述算子在光線不足的圖片中無法很好地提取出行人的特征、隱馬爾可夫(HMM)方法計算的復(fù)雜度較高、Haar小波特征提取方法對于背景復(fù)雜的圖像無法很好地對行人特征進行提取等。因此,在深度學習技術(shù)出來之后,這些方法在學術(shù)研究中就很少被采用了,當然,在一些工業(yè)領(lǐng)域上

43、,還是有一些簡單的場景采用這些方法,也都有不俗的效果。從2012年開始,由于大數(shù)據(jù)以及硬件計算速度的支持,深度學習技術(shù)開始飛速發(fā)展,在傳統(tǒng)技術(shù)的目送下取得極大的突破。在目標檢測中,從解決的方式進行分類,深度學習可以分為兩大派系:“一刀流”和“兩刀流”,其分別的代表就是R-CNN和YOLO?!耙坏读鳌钡淖龇ㄊ鞘褂没貧w的方式輸出目標的邊框和類別,與之相反,“二刀流”則將目標檢測過程分為兩個步驟,首先生成候選區(qū)域,之后再用分類器進行檢測。兩種方式各有優(yōu)點,比如“一刀流”講究的是一個快字,而“二刀流”主要講究的是一個準字,因此兩者的目標不同,沒有什么比較的價值,而是應(yīng)該根據(jù)問題的場景選擇相應(yīng)的方法。

44、行人檢測難點經(jīng)過這么多年的發(fā)展,對視頻圖像中的行人進行檢測和識別的技術(shù)已經(jīng)比較成熟,但是與人類的識別能力相比,還是有很大的進步空間。目前來講,行人檢測與識別技術(shù)面對的問題主要有:1. 實時性差;2. 在復(fù)雜多變場景中的檢測效果差強人意。具體一點來講,主要有以下的這些問題:1. 行人的穿衣搭配差異較大;2. 行人運動姿態(tài)變化多;3. 行人之間存在相互簇擁和遮擋的情況;4. 圖像背景復(fù)雜、分辨率不同;5. 圖像的拍攝視角不同;6. 訓練樣本制作困難,需要大量人工。為了解決上述的問題,已經(jīng)有很多的學者針對其中的某一點問題,進行算法或者相關(guān)技術(shù)的改進,但是仍然存在不同程度上缺陷,因此行人檢測領(lǐng)域依然存

45、在巨大的挑戰(zhàn)。 論文的主要內(nèi)容及創(chuàng)新點主要研究內(nèi)容本文主要對深度學習中的卷積神經(jīng)網(wǎng)絡(luò)模型在行人檢測與識別領(lǐng)域所遇到的問題進行探究,旨在通過改進行人檢測與識別算法提升其識別的實時性和準確率。本文的主要工作為:(1)簡要介紹了卷積神經(jīng)網(wǎng)絡(luò)在行人檢測與識別應(yīng)用的理論基礎(chǔ)。同時,這一章還對常用的基于行人特征的行人檢測算法進行分析和實驗。實驗結(jié)果也表明了卷積神經(jīng)網(wǎng)絡(luò)能夠很好地表征紋理和梯度特征,從而能夠從行人圖像中將行人特征提取出來。(2)通常情況下,要想更好地訓練深度學習的模型,大量的訓練樣本是必不可少的,同時隨著網(wǎng)絡(luò)層數(shù)的增加,所需要的訓練數(shù)據(jù)就越多,這樣才有可能有效地避免網(wǎng)絡(luò)過擬合?;诖耍疚牟?/p>

46、用數(shù)據(jù)檢索的方式對INRIA數(shù)據(jù)集進行擴充,克服數(shù)據(jù)量不足的缺陷,從而防止深度學習模型過擬合的出現(xiàn)。在充分考慮到INRIA數(shù)據(jù)集中行人背景分布和行人分辨率等問題上,對INRIA數(shù)據(jù)集進行擴充。擴充后的數(shù)據(jù)集結(jié)構(gòu)以及數(shù)據(jù)分布均不變,通過增加樣本數(shù)據(jù)的方式提高訓練處理模型的精確度。(3)本文提出基于YOLOv2的端到端的目標檢測方法,解決了人工訓練特征穩(wěn)定性不強,不能實時檢測的缺點,通過融合深度殘差神經(jīng)網(wǎng)絡(luò),提出了一種改進的深度殘差神經(jīng)網(wǎng)絡(luò)的行人檢測方法。針對行人的行人圖像橫向信息不足的缺陷,提出了一種矩形輸入的分類模型,加強了對于行人特征的提取能力;與此同時,通過聚類算法K-means重新設(shè)計了

47、預(yù)測初始框,進一步提高了行人的定位能力。論文創(chuàng)新點(1)為了有效地訓練深度學習網(wǎng)絡(luò)模型,本文提出了對原數(shù)據(jù)庫擴充的方法,該方法在進行數(shù)據(jù)庫擴充時該方法在進行數(shù)據(jù)庫擴充時充分考慮到原數(shù)據(jù)庫的行人分辨率,背景分布等因素,使擴充后的數(shù)據(jù)庫仍然保持數(shù)據(jù)庫原有的數(shù)據(jù)分布,從而有利于訓練對數(shù)據(jù)庫檢測效果更佳的深度學習網(wǎng)絡(luò)。(2)為了解決傳統(tǒng)行人檢測需要人工設(shè)計特征以及檢測魯棒性不強和實時性差等問題,本文基于YOLOv2的端到端的目標檢測方法,通過融合深度殘差神經(jīng)網(wǎng)絡(luò),提出了一種改進的深度殘差神經(jīng)網(wǎng)絡(luò)的行人檢測方法。針對行人的行人圖像橫向信息不足的缺陷,提出了一種矩形輸入的分類模型,加強了對于行人特征的提取

48、能力;與此同時,通過聚類算法K-means重新設(shè)計了預(yù)測初始框,進一步提高了行人的定位能力。論文的內(nèi)容結(jié)構(gòu)安排本章主要安排五個章節(jié),各個章節(jié)的主要內(nèi)容如下:第一章為緒論。首先介紹了課題相關(guān)背景知識,對國內(nèi)外行人檢測技術(shù)的研究現(xiàn)狀;其次,結(jié)合國內(nèi)外技術(shù)的研究狀況總結(jié)了并分析了行人檢測技術(shù)所面臨的技術(shù)難點和原因;最后提出了本論文的創(chuàng)新點,并總結(jié)了論文的主要內(nèi)容結(jié)構(gòu)和各個章節(jié)所做的工作。第二章為行人檢測與深度學習的相關(guān)理論與技術(shù)。首先,分析對比了當前比較流行的基于運動特征的行人檢測算法,然后介紹了目前用的較多的行人特征,并具體分析了各個算法的工作流程。最后,文章介紹了行人檢測最常使用的行人數(shù)據(jù)庫及其

49、評測標準,并分析了各個行人庫的應(yīng)用場景。本章是后兩章研究工作展開的基礎(chǔ)。第三章為基于深度學習的行人檢測。先對深度學習的基礎(chǔ)知識展開介紹,從最初的全連接神經(jīng)網(wǎng)絡(luò)FNN到后面發(fā)展的卷積神經(jīng)網(wǎng)絡(luò)CNN,在此基礎(chǔ)上,進一步介紹了深度學習是如何應(yīng)用到行人檢測的(常用的框架是什么),并且還使用Resnet 50進行試驗,從而驗證了基于深度學習的行人檢測方式較與傳統(tǒng)的行人檢測方式具有更優(yōu)越的性能。第四章為基于改進的深度殘差網(wǎng)絡(luò)行人檢測方法。本章提出了一種新的行人檢測方法,針對行人圖像橫向信息不足的缺陷,引入了矩形輸入的CNN模型,從而更好地表征行人特征;為了進一步特征模型的準確率和泛化能力,對兩個公開數(shù)據(jù)集

50、的樣本進行混合訓練;同時,通過聚類算法K-means對預(yù)測的初始框進行重新選擇,提高了定位行人的能力。本文提出的方法較傳統(tǒng)的方法具有更低的誤檢率,將每張測試圖片的漏檢率降低至12.38%,并且本文提出的方法具有良好的實時性和泛化能力,能夠用于實際工業(yè)界。第五章為論文的總結(jié)與展望部分。此章節(jié)對本文所做的工作進行了總結(jié),并指出當前算法所存在的不足,為未來的改進提供了方向。本章小結(jié)本章主要介紹了行人檢測的研究背景和意義,同時介紹了國內(nèi)外對行人檢測與識別的研究現(xiàn)狀以及論文的主要內(nèi)容,最后列出了本論文的基本框架和結(jié)構(gòu)安排。行人檢測與深度學習相關(guān)基礎(chǔ)理論與技術(shù)行人檢測技術(shù)是行人識別的前提,檢測結(jié)果的好壞對

51、識別的準確率有直接的影響,只有檢測算法穩(wěn)定并且高效才能保證后續(xù)識別效率。目前,基于運動特征的行人檢測算法和基于行人特征的行人檢測方法是最常用的兩種行人檢測算法。本章重點結(jié)合經(jīng)典行人檢測算法和常用行人特征,并且對卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)理論進行簡要介紹,同時結(jié)合實例對卷積神經(jīng)網(wǎng)絡(luò)在行人檢測與識別的應(yīng)用進行說明。2.1 基于運動特征的行人檢測算法幀間差分法,光流法和高斯背景建模法是基于運動特征的行人檢測最常用的算法,這些算法的原理簡單,占用內(nèi)存小,代碼精簡,在實驗環(huán)境中具有較好的效果36-40。2.1.1 幀間差分法幀間差分法37-38主要適用于目標運動或攝像機移動的場景,它通過對運動目標取相鄰兩幀來做

52、差分運算,從而獲得運動目標的輪廓。在視頻場景中,如果圖像移動前后的兩幀有比較明顯的差別,那么就可以說明運動目標所在區(qū)域的像素值發(fā)生了明顯地改變,反之,若所在區(qū)域的像素值沒有明顯改變則說明并不存在運動目標。下面將以一段常用的彩色視頻序列為例來簡要說明下幀間差分法的流程。由于灰度圖像比彩色圖像包含的圖像信息少,便于運算,所以本文第一步就是將彩色圖像灰度化,而不是直接使用;接下來,假設(shè)該灰度化的視頻幀中第K幀某一位置(x, y)所對應(yīng)的像素值為。假設(shè)T是灰度閾值,該閾值的設(shè)定是根據(jù)具體應(yīng)用需求來設(shè)定的,若像素值不小于T,則可判定該點是像素點,否則,該點可判定為背景點,由此可得到分割后用0表示背景點和

53、用1表示像素點的二值圖像。整個幀間差法的流程如圖2.1所示:圖2.1 幀間差法的流程圖對該算法的描述如下:為確保所有基于圖像的操作都是基于灰度圖像的,首先將彩色視頻幀灰度化,再取相鄰灰度化的視頻幀進行差分運算,得到差分圖像 為:(2.1)(2)使用預(yù)先設(shè)置好的閾值T對上一步驟得到的差分圖像進行二值化處理,得到 為:(2.2)根據(jù)二值化后圖像的顏色標注(0用黑色,1用白色表示),篩選出運動目標所在的區(qū)域。按照以上對幀間差分法算法的描述,本文運用該算法對運動目標進行了實踐,其結(jié)果如圖2.2所示。 (a)幀間差分法檢測前(b)幀間差分法檢測后圖2.2 幀間差分法檢測實驗結(jié)果如圖2.2所示,圖(a)是

54、使用幀間差分法檢測前的視頻圖像,圖(b)是經(jīng)幀間差分法處理后的圖像。幀間差分法在處理視頻序列時所表現(xiàn)出來的優(yōu)缺點為:優(yōu)點:算法的原理簡單,占用內(nèi)存小,代碼精簡,是實時性高,對背景干擾和光照影響比較小。缺點:(1) 很難提取運動目標運動緩慢情況下的所有相關(guān)像素點,容易產(chǎn)生空洞現(xiàn)象;(2) 算法在復(fù)雜的運動場景下(有多個運動對象或者運動物體之間存在遮擋)并不能準確的進行識別;(3) 檢測目標的外接矩陣會在物體的運動方向上存在一定程度的拉伸,從而使得檢測結(jié)果的錯誤發(fā)生。另外,雖然幀間差分法在固定場景中能夠準確的識別行人,但是在運動的場景下并不能很好地識別行人;而且?guī)g差分法并不只是識別行人,也會識別

55、所有的運動物體。2.1.2 光流法光流法38是最常使用的運動目標檢測算法之一,它是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關(guān)性來確定各自位置的運動,從而追蹤目標的運動信息。該算法的使用對視頻序列具有特別的要求,必須滿足以下三個條件:(1)相鄰的視頻幀之間亮度需要為固定值,即亮度不能改變;(2)相鄰的視頻幀之間物體的運動幅度不能太大;(3)同一視頻幀上像素點的運動必須保持一致,即保持空間一致性。光流法的原理:光流法的關(guān)鍵是將圖像目標的運動處理成了位置與函數(shù)的關(guān)系,因而首先給相鄰幀的每個像素點設(shè)點一個速度矢量,得到該圖像序列的矢量場。然后再根據(jù)圖像幀運動后的信息,得出運動后的位置信息,

56、再根據(jù)圖像的坐標變換,從而得到相鄰圖像之間的匹配關(guān)系,值得注意的是,以上原理的實現(xiàn)都是基于相鄰的視頻幀之間的亮度不發(fā)生改變,即亮度不變的假設(shè)下。圖2.3 視頻序列的運動狀態(tài)模擬圖如上圖所示,將視頻序列的運動狀態(tài)模擬成坐標的形式來分析,左圖 是運動前的視頻幀,圖中箭頭表示其運動方向,右圖是該幀運動后的狀態(tài)。對于H中特定的像素點,可以在通過光流法在I圖中找到對應(yīng)位置的相同或相近的像素點,并得到相鄰幀之間的運動信息。同樣地,這里也必須滿足光流法所必須假設(shè)的三個條件:亮度不能改變,運動幅度不能太大和保持空間一致性。圖2.4 視頻序列中的圖像運動圖如上圖所示,視頻序列中的圖像圖沿著箭頭方向運動,產(chǎn)生出的

57、偏移量,經(jīng)運動后的位置信息為。(a) (b) (c)圖2.5 光流法檢測運動目標實驗結(jié)果按照以上對光流法算法原理的描述,本文運用該算法對運動目標進行了實踐,其結(jié)果如圖2.5所示:圖(a)和圖(b)是圖像序列中連續(xù)運動的相鄰視頻幀,圖(c)是使用光流法對(a)和(b)的檢驗結(jié)果,圖中紅線表示的是特征點的運動,為了達到更加明顯的顯示效果,實驗選擇了2000個特征點進行展示。在進行實驗時,本文也發(fā)現(xiàn)了光流法需要耗費的計算代價非常大。并且選擇的特點越多,代碼所要計算的數(shù)據(jù)量也越大,實驗耗費的時間就越長,此外,利用光流法進行運動目標檢測時,實時性無法保證,這樣就限制了該方法的實用性。2.1.3 高斯背景

58、建模法高斯背景建模法39-40是目標檢測的經(jīng)典算法之一,該方法是一種背景差分法,算法思想與幀間差分法有相通之處,只是高斯背景建模算法是將當前視頻幀與建立的高斯背景模型進行差分,根據(jù)預(yù)先設(shè)定好的閾值,來判斷像素點是屬于背景區(qū)域還是運動目標區(qū)域,其算法流程如下圖所示:圖2.6 高斯背景建模法流程圖如上圖所示, 是某一視頻序列的當前幀圖像, 是實時更新的背景圖像, 表征經(jīng)差分運算后的圖像,是經(jīng)閾值處理后的二值圖像。該算法的基本過程為:取檢測目標視頻幀,并建立高斯背景模型,將兩者的像素值做差分運算,從而得到當前視頻幀的差分圖像:(2.3)(2)據(jù)預(yù)先設(shè)定好的閾值,來判斷像素點是屬于背景區(qū)域還是運動目標

59、區(qū)域,對差分圖像進行二值化,得到圖像:(2.4)(3)根據(jù)二值化后圖像篩選出運動目標所在的區(qū)域。按照上述分析可知,高斯背景建模法的主要任務(wù)和最大難點就是建立背景模型和實時更新背景模型。通過不斷更新背景模型,使當前背景更加符合所要檢測的幀序列的背景,從而保證檢測的有效性。按照以上對光流法算法原理的描述,本文運用該算法對運動目標進行了實踐,其結(jié)果如圖2.5所示。 (a) (b) (c)圖2.7 高斯背景建模檢測行人實驗結(jié)果如圖2.7(a)是行人運動的視頻序列,圖(b)是高斯背景建模更新的背景,圖(c)是使用高斯背景建模法檢測出來的行人圖像。實驗過程中發(fā)現(xiàn),實驗效果受環(huán)境的影響較大,每一次的光線變化

60、,亮度變化和攝像頭位置的變化都會對實驗結(jié)果產(chǎn)生一定的影響。但是,高斯背景建模法的算法容易理解,代碼簡單,并且能夠檢測出完整的運動目標的輪廓。通過以上對幀間差分法,光流法和高斯背景建模法的分析,以及它們各自在應(yīng)用場景中的表現(xiàn)來看,每種算法都有各自的缺陷,并不存在一種通用的算法可以在所有的場景下進行精確識別。在實際中,應(yīng)該根據(jù)不同算法的特點來選擇其相應(yīng)的應(yīng)用場景,如在交通系統(tǒng)中選擇光流法效果比較好一些,因為車輛是處于源源不斷的運動狀態(tài)的,因此圖像處理的對象也是動態(tài)的,而在安防監(jiān)控系統(tǒng)中,攝像頭是處在靜止不動的狀態(tài),因此圖像處理的對象也是靜態(tài)的,這時選擇幀間差分法和高斯背景建模法的會比較適合一些。本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論