版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于深度學習的行人檢測與識別PEDESTRIAN DETECTION AND RECOGNITION BASED ON DEEP LEARNING摘 要行人檢測作為計算機視覺的熱門研究方向之一,其本質就是運用檢測算法對計算機獲取的特定場景的圖像進行檢測與識別,收集相關行人行為的數據,并對其展開研究和分析,以此來對行人的后續(xù)行為進行預測,或者對其進行身份驗證和識別、軌跡進行跟蹤。在實際生活中,行人檢測與識別最廣泛的應用就是視頻監(jiān)控場景。然而由于行人檢測場景的復雜性,導致行人檢測與識別的準確度還有待提高。目前的相關算法往往采用人工設計特征,這類特征需要由學者進行專門的設計,魯棒性不強,并且無法實現(xiàn)
2、圖像或者視頻行人的實時檢測。因此本文提出基于卷積神經網絡的行人檢測與識別研究,旨在提高其識別準確率和實時性。本文主要工作為:(1)針對深度學習模型的訓練需要大量的數據,并且網絡層次越多訓練所需要的樣本數據量就越大的問題,本文采用數據檢索的方式對INRIA數據集進行擴充,克服數據量不足的缺陷,從而防止深度學習模型過擬合的出現(xiàn)。在充分考慮到INRIA數據集中行人背景分布和行人分辨率等問題上,對INRIA數據集進行擴充。擴充后的數據集結構以及數據分布均不變,通過增加樣本數據的方式提高訓練處理模型的精確度。(2)針對傳統(tǒng)行人檢測魯棒性不強,并且無法實現(xiàn)圖像或者視頻行人的實時檢測的缺點,提出基于YOLO
3、v2的端到端的目標檢測方法,通過融合深度殘差神經網絡,提出了一種改進的深度殘差神經網絡的行人檢測方法。針對行人的行人圖像橫向信息不足的缺陷,提出了一種矩形輸入的分類模型,加強了對于行人特征的提取能力;與此同時,通過聚類算法K-means重新設計了預測初始框,進一步提高了行人的定位能力。關鍵詞:深度學習,卷積神經網絡,深度殘差神經網絡,行人檢測與識別ABSTRACTPedestrian detection is one of the hot research directions of computer vision. Its essence is to use the detection al
4、gorithm to detect and identify the images of specific scenes acquired by the computer, collect the data of relevant pedestrian behaviors, and conduct research and analysis on them. The follow-up behavior of the pedestrian is predicted, or it is authenticated and identified, and the trajectory is tra
5、cked. In real life, the most widely used application for pedestrian detection and identification is the video surveillance scene. However, due to the complexity of the pedestrian detection scene, the accuracy of pedestrian detection and recognition needs to be improved. At present, related algorithm
6、s often adopt artificial design features. Such features need to be specially designed by scholars, and the robustness is not strong, and real-time detection of images or video pedestrians cannot be realized. Therefore, this paper proposes a pedestrian detection and recognition based on convolutional
7、 neural network, aiming to improve its recognition accuracy and real-time. The main work of this paper is: (1) In general, the training of the deep learning model requires a lot of data, and the more the sample data is needed for the more training at the network level, which is possible to avoid the
8、 network overfitting effectively. Based on this, the INRIA data is extended by data retrieval to overcome the defect of insufficient data quantity in our article, so as to prevent the occurrence of over-fitting of deep learning model. This method takes full account of the pedestrian resolution and b
9、ackground distribution of the original database when database expansion is extended, so that the extended database still maintains the original data distribution of the database, which is beneficial to the training of logarithms. What we do is to train a better deep learning network for database det
10、ection.(2) In order to solve the problem that the traditional pedestrian detection needs artificial design features, and the trouble of poor real-time and weak robustness, we propose an improved depth residual neural network for pedestrian detection based on the end to end target detection method of
11、 YOLOv2 and the fusion of deep residual neural network. In view of the deficiency of pedestrians pedestrian image, a classification model of rectangular input is proposed, which strengthens the ability to extract the pedestrian characteristics. At the same time, the initial frame is redesigned by th
12、e clustering algorithm K-means, which will further improve the ability of pedestrians to locate.Key words: deep learning, convolution neural network, deep residual neural network, pedestrian detection and recognition目 錄 TOC o 1-3 h z u HYPERLINK l _Toc2504184 摘 要 PAGEREF _Toc2504184 h I HYPERLINK l
13、_Toc2504185 ABSTRACT PAGEREF _Toc2504185 h II HYPERLINK l _Toc2504186 目 錄 PAGEREF _Toc2504186 h III HYPERLINK l _Toc2504187 第1章 緒 論 PAGEREF _Toc2504187 h 1 HYPERLINK l _Toc2504188 1.1研究背景及意義 PAGEREF _Toc2504188 h 1 HYPERLINK l _Toc2504189 1.2國內外研究現(xiàn)狀 PAGEREF _Toc2504189 h 2 HYPERLINK l _Toc2504190 1.
14、2.1 行人檢測與識別的研究現(xiàn)狀 PAGEREF _Toc2504190 h 2 HYPERLINK l _Toc2504191 1.2.2 深度學習在計算機視覺領域的研究現(xiàn)狀 PAGEREF _Toc2504191 h 3 HYPERLINK l _Toc2504192 1.2.3 基于深度學習的行人檢測與識別的研究現(xiàn)狀 PAGEREF _Toc2504192 h 4 HYPERLINK l _Toc2504193 1.3行人檢測難點 PAGEREF _Toc2504193 h 6 HYPERLINK l _Toc2504194 1.4論文的主要內容及創(chuàng)新點 PAGEREF _Toc2504
15、194 h 6 HYPERLINK l _Toc2504195 1.4.1主要研究內容 PAGEREF _Toc2504195 h 6 HYPERLINK l _Toc2504196 1.4.2論文創(chuàng)新點 PAGEREF _Toc2504196 h 7 HYPERLINK l _Toc2504197 1.5論文的內容結構安排 PAGEREF _Toc2504197 h 7 HYPERLINK l _Toc2504198 1.6本章小結 PAGEREF _Toc2504198 h 8 HYPERLINK l _Toc2504199 第2章 行人檢測與深度學習相關基礎理論與技術 PAGEREF _
16、Toc2504199 h 9 HYPERLINK l _Toc2504200 2.1 基于運動特征的行人檢測算法 PAGEREF _Toc2504200 h 9 HYPERLINK l _Toc2504201 2.1.1 幀間差分法 PAGEREF _Toc2504201 h 9 HYPERLINK l _Toc2504202 2.1.2 光流法 PAGEREF _Toc2504202 h 10 HYPERLINK l _Toc2504203 2.1.3 高斯背景建模法 PAGEREF _Toc2504203 h 12 HYPERLINK l _Toc2504204 2.2 基于行人特征的檢測
17、算法 PAGEREF _Toc2504204 h 13 HYPERLINK l _Toc2504205 2.2.1Edgelet PAGEREF _Toc2504205 h 13 HYPERLINK l _Toc2504206 2.2.2Shapelet特征 PAGEREF _Toc2504206 h 14 HYPERLINK l _Toc2504207 2.2.3Haar特征 PAGEREF _Toc2504207 h 15 HYPERLINK l _Toc2504208 2.2.4HOG PAGEREF _Toc2504208 h 17 HYPERLINK l _Toc2504209 2.
18、3 行人數據庫及評測標準 PAGEREF _Toc2504209 h 18 HYPERLINK l _Toc2504210 2.4 本章小結 PAGEREF _Toc2504210 h 19 HYPERLINK l _Toc2504211 第3章 基于深度學習的行人檢測 PAGEREF _Toc2504211 h 20 HYPERLINK l _Toc2504212 3.1 全連接神經網絡 PAGEREF _Toc2504212 h 20 HYPERLINK l _Toc2504213 3.2 反向傳播算法 PAGEREF _Toc2504213 h 22 HYPERLINK l _Toc25
19、04214 3.3 卷積神經網絡 PAGEREF _Toc2504214 h 23 HYPERLINK l _Toc2504215 3.4 基于深度學習的行人檢測 PAGEREF _Toc2504215 h 24 HYPERLINK l _Toc2504216 3.4.1系統(tǒng)框架 PAGEREF _Toc2504216 h 24 HYPERLINK l _Toc2504217 3.4.2基于圖像檢索擴充的深度學習行人檢測 PAGEREF _Toc2504217 h 25 HYPERLINK l _Toc2504218 3.5 實驗結果與分析 PAGEREF _Toc2504218 h 28 H
20、YPERLINK l _Toc2504219 3.6 本章小結 PAGEREF _Toc2504219 h 29 HYPERLINK l _Toc2504220 第4章 基于改進的深度殘差網絡行人檢測方法 PAGEREF _Toc2504220 h 30 HYPERLINK l _Toc2504221 4.1引言 PAGEREF _Toc2504221 h 30 HYPERLINK l _Toc2504222 4.2相關工作 PAGEREF _Toc2504222 h 31 HYPERLINK l _Toc2504223 4.2.1YOLOv2 目標檢測方法 PAGEREF _Toc25042
21、23 h 31 HYPERLINK l _Toc2504224 4.2.2深度殘差網絡 PAGEREF _Toc2504224 h 31 HYPERLINK l _Toc2504225 4.3針對圖像特征的行人檢測方法 PAGEREF _Toc2504225 h 32 HYPERLINK l _Toc2504226 4.3.1基于圖像的行人特征分析 PAGEREF _Toc2504226 h 32 HYPERLINK l _Toc2504227 4.3.2基于維度聚類的預測框選取 PAGEREF _Toc2504227 h 33 HYPERLINK l _Toc2504228 4.3.3Res
22、-P-YOLO網絡設計 PAGEREF _Toc2504228 h 34 HYPERLINK l _Toc2504229 4.4 實驗設計 PAGEREF _Toc2504229 h 35 HYPERLINK l _Toc2504230 4.4.1實驗環(huán)境 PAGEREF _Toc2504230 h 35 HYPERLINK l _Toc2504231 4.4.2行人檢測模型評價方法 PAGEREF _Toc2504231 h 35 HYPERLINK l _Toc2504232 4.4.3混合數據集訓練效果驗證 PAGEREF _Toc2504232 h 36 HYPERLINK l _To
23、c2504233 4.4.4矩形輸入性能對比 PAGEREF _Toc2504233 h 37 HYPERLINK l _Toc2504234 4.5 實驗及分析 PAGEREF _Toc2504234 h 37 HYPERLINK l _Toc2504235 4.6 本章小結 PAGEREF _Toc2504235 h 39 HYPERLINK l _Toc2504236 第5章 總結 PAGEREF _Toc2504236 h 40 HYPERLINK l _Toc2504237 參 考 文 獻 PAGEREF _Toc2504237 h 42 HYPERLINK l _Toc250423
24、8 致 謝 PAGEREF _Toc2504238 h 46緒 論本章首先介紹了關于行人檢測與識別的研究背景和國內外對行人檢測與識別技術的研究現(xiàn)狀;其次,結合國內外技術的研究狀況總結并分析了行人檢測技術所面臨的技術難點和原因;最后提出了本論文的創(chuàng)新點,并對論文的主要內容和各個章節(jié)所做的工作進行總結。 研究背景及意義行人檢測涉及圖像處理技術、計算機視覺技術以及機器學習相關算法等多個領域的技術,它在許多領域都有重要應用。近年來,隨著深度學習的興起,計算機視覺的許多領域都有了質的飛躍,行人檢測便是其中一個領域1-4?,F(xiàn)階段,公眾對于安防的需求隨著計算機技術和安保技術的成熟而越來越來大,那么怎么樣讓計
25、算機更理解人們的需求以及更高效地為人們服務,是計算機的應用價值體現(xiàn),也是科研工作人員奮斗的目標。為了實現(xiàn)行人檢測和識別,市面上常見的是對圖像和視頻通過機器學習進行特征提取,之后的學者也將引入深度學習,提高檢測精確度,減少相關從業(yè)人員的工作量,讓技術更好地為大眾服務。伴隨著社會的發(fā)展和技術的進步,計算機能夠代替人做的工作越來越多,如:智能交通調度,智能電力調度,無人駕駛,繁忙公共場所的人流量檢測等。在實際應用中,利用計算機獲得視頻圖像,并且理解和分析這些圖像的潛在信息一直是當前模式識別的研究重點。行人檢測作為計算機視覺的熱門研究方向之一,其本質就是運用檢測算法對計算機獲取的特定場景的圖像進行檢測
26、與識別,收集相關行人行為的數據,并對其展開研究和分析,以此來對行人的后續(xù)行為進行預測,或者對其進行身份驗證和識別、軌跡進行跟蹤。簡單來講,行人檢測和識別的原理對圖像序列或者視頻序列進行檢測,判斷其中行人是否存在。這一檢測往往通過計算機視覺技術和機器學習方法實現(xiàn)。若在圖像序列或者視頻序列圖像檢測出存在行人,則還需要提取行人的位置信息,之后通過提取的位置信息進行行人的行為和步態(tài)分析,甚至實現(xiàn)對其身份進行識別。在實際生活中,行人檢測與識別最廣泛的應用就是視頻監(jiān)控場景。然而由于行人檢測場景的復雜性,導致行人檢測與識別的準確度還有待提高。目前的相關算法往往采用人工設計特征,這類特征需要由學者進行專門的設
27、計,魯棒性不強,并且無法實現(xiàn)圖像或者視頻行人的實時檢測。行人檢測與識別根據分類方法的不同,可以分為以下三種:(1)形變部件模型變體;(2)基于決策森林的行人檢測方法;(3)基于深度學習的行人檢測方法5。近年來,這三種方法在公開的數據集上都能取得不錯的實驗結果。但是,傳統(tǒng)的行人檢測方法(例如方向梯度直方圖、局部二值模式等方法)嚴重依賴于手工設計特征,同時,設計得到的特征維度較高,在實際應用中泛化性能較差6-8?;谏疃葘W習(卷積神經網絡)的行人檢測方法能夠自動從圖像中學習得到行人特征,相比于傳統(tǒng)的方法,具有更好的泛化性能,且性能也大幅度提升,因此成了當下計算機視覺的研究熱點之一9。 國內外研究現(xiàn)
28、狀行人檢測是進行行人識別和行為分析的先決條件,行人檢測簡單來說就是從視頻序列以及視頻圖像中將行人及其位置提取出來5,6。研究發(fā)現(xiàn),目標檢測與識別魯棒性和計算復雜性兩個方面做的還不夠好,還需要進一步改進。具體地,類內表現(xiàn)差異和類間表現(xiàn)差異是影響魯棒性的主要原因,如果類間表現(xiàn)差異比較小或者類內表現(xiàn)差異比較大會降低目標檢測方法的魯棒性;另一方面,待檢測目標的類別數目和其他的一些因素都會嚴重影響目標檢測方法的計算復雜度。然而,真實世界中物體的類別成千上萬,影響的因素也多。但是,近年來深度學習技術的發(fā)展,給目標檢測領域帶來了新的活力,無論是在學術研究還是工程應用領域,深度學習技術的引進,都給目標檢測方法
29、的精度帶來了質的突破,因此眾多學者都紛紛將深度學習技術應用于目標檢測這一具有很大發(fā)展前景的領域。1.2.1 行人檢測與識別的研究現(xiàn)狀行人目標信息的識別和行人的其他一系列的分析都需要建立在行人檢測的基礎上,因此行人檢測是至關重要的一環(huán)。幀間差分法、高斯背景建模和光流法等算法7是常見的基于物體運動特征的目標檢測算法,它們的優(yōu)點有:1. 算法的原理容易理解;2. 實現(xiàn)的代碼量小,穩(wěn)定性好;3. 在某些理想的場景下,檢測的效果好。但是,這類算法檢測的對象不單單是行人,是所有運動的物體,因此無法對檢測到的目標進行識別。所以希望能夠有算法能獲取行人獨有的特征,并且能夠很好的對行人進行識別。然而,實際中,行
30、人的姿態(tài)、服飾、所處的背景多種多樣,不太容易能夠很好地提取行人的特征。所以需要一種較為魯棒的算法,能夠應對行人這樣復雜場景下的對象,并且很好地完成特征提取的任務,這是一個不小的挑戰(zhàn)。目前,提取行人特征常用的方法有:1. 提取行人顏色特征;2. 提取行人Edgelet特征8;3. 提取行人Haar特征9;4. 提取行人HOG特征10。2014年,吳波等人11結合紅外圖像的處理技術和行人特征中的局部形狀特征,提出了一種效率較高的行人檢測方法。將行人檢測識別的準確率提升到了80%。2015年,朱聰聰等人12融合雷達和紅外圖像技術,提出了能夠在光線不好(夜晚也可以)的環(huán)境下也能對行人進行很好的目標識別
31、的技術,結合雷達和紅外圖像技術,在紅外感應區(qū)域提取出HOG特征,這也是該技術能夠應用于較弱光線下的一個主要原因。2016年,向應等人13將Haar特征提取技術和AdaBoost分類器技術結合起來,提出了一個應用效果比較好的行人檢測算法,該算法首先運用Haar特征提取器快速對行人圖片進行粗分類,接著再利用AdaBoost分類器對候選人目標進行檢測,使得檢測準確率提升到了90%以上。2017年,孟祥云等人14通過提取行人目標的四維形狀特征,并且利用SVM對提取的特征進行識別和分類,從而在一些行人、車輛數據集上達到95%的準確率。1.2.2 深度學習在計算機視覺領域的研究現(xiàn)狀深度學習的提出得益于人工
32、神經網絡的研究,其目的在于模擬人類大腦建立一個學習數據表征的機制,這是人工智能領域近幾年來取得的重大突破。本質上來說,深度學習就是通過多層的非線性變換從海量數據中自動提取出不同層次的特征,而這些特征比人工設計的特征更能表征數據的特性,更有利于學習器進行擬合,達到比傳統(tǒng)機器學習方法更高的準確率。從而減少數據的預處理操作,真正實現(xiàn)端到端(end-to-end)的設計。2006年,Hinton在Nature上發(fā)表注定注入深度學習歷史的文章,從而正式提出深度學習15。2012年,Hinton的團隊將卷積神經網絡運用到圖像分類中,贏得了當年ImageNet圖像分類比賽的冠軍16。無獨有偶,徐珊珊等人17
33、在2014年將卷積神經網絡運用到木材識別中,提高了木材識別的準確率。許西邵等人18在2016年將卷積神經網絡用于人臉識別,提高了人臉識別的準確率。2017年,趙晨光等人19提出將卷積神經網絡運用于掌紋識別,在數據量較少的情況下就可以達到98%的準確率。綜上所述,深度學習中的卷積神經網絡具有極強的圖像特征提取能力,能夠應用于各種各樣的圖像應用中。在2015年的ImageNet ILSVRC比賽中20,微軟研究院隊伍基于深度殘差系統(tǒng)來設計神經網絡結構,以圖像識別錯誤率低至3.57%的成績獲得了該比賽的冠軍。目前所使用的都是多層的神經網絡結構,通常會達到20至30層。而在這次比賽中,微軟隊所使用的網
34、絡層數達到152層,網絡層數越深訓練起來就會越復雜,這么深層的網絡結構在之前根本不敢想象它會被成功應用。微軟通過殘差網絡的使用,在訓練以及使用深層網絡結構的時候,可以跳過不需要的某些層級,而需要用到的時候再重新返回應用就可以了。魏云超等提出了Hypotheses-CNN-Pooling(HCP)網絡結構,這是一種非常靈活的CNN模型,該模型可以使任意的輸入量與一個共享CNN連接,最后將CNN的輸出結果通過最大池聚集起來,以產生最終的多標簽預測21。SatoIkuro檢測駕駛員的駕駛行為,通過CNN訓練相關數據樣本,并將訓練得到的CNN模型應用于實際數據,若其行為不符合規(guī)范則給予其提供相應的警告
35、,從而避免了由于駕駛操作不規(guī)范而導致的交通事故,大大提高了汽車駕駛的安全等級,給交通安全提供了重要的保障22。Ossama等實現(xiàn)了多揚聲器的語音識別,將卷積神經網絡應用于語音識別領域。通過實驗數據可以看出,Ossama提出的語音識別方法可以減少10%以上的相對誤差。Patrice等構建了一個體系結構,適用于文件分析,通過將卷積神經網絡應用到視覺文獻分類,所設計的體系結構在MNIST樣本庫測試效果顯著23。傳統(tǒng)的目標檢測算法主要分為以下3個步驟:1. 區(qū)域選擇;2. 特征提?。?. 分類回歸。但是傳統(tǒng)的目標經檢測算法存在兩個缺點:(1)檢測算法的時間復雜度高;(2)手工提取的特征魯棒性較差;(3
36、)區(qū)域選擇的策略效果差。直到2013年,Ross Girshick等人14采用卷積神經網絡(CNN)進行特征提取,解決了上述的兩個問題,一舉改變了這種現(xiàn)狀。在其后的發(fā)展中,按照處理方式的不同,主要分為兩大類:一類是以R-CNN為代表,另一類則是以YOLO為代表。以R-CNN為代表的方法將目標檢測過程分為兩個步驟,首先生成候選區(qū)域,之后再用分類器進行檢測。2014年,何凱明等人17在R-CNN的基礎上提出了SPP Net(Spatial Pyramid Pooling Neural Network),SPP Net首先進行的是卷積,然后才生成候選區(qū)域,這樣做減少了存儲量的同時,也加快了訓練速度;
37、另外,SPP Net還設計了一個金字塔池化層,將特征數據(特征圖)進一步處理,然后拼湊成和神經元個數相同的特征數,極大地減少了計算的冗余度。2015年,Ross Girshick等人21提出了Fast R-CNN,將原來R-CNN的串行結構改為并行結構,同時保留了SPP Net的優(yōu)點。同年,Shaoqing Ren等人11提出了Faster R-CNN,利用神經網絡去學習生成候選區(qū)域,這種方式不僅提高了生成的候選區(qū)域的可靠程度,也大大減少了參數的數量。2017年,何凱明等人9提出了Mask R-CNN,增加了一條信息通道,提升了檢測的效果。以YOLO為代表的方法使用回歸的方式輸出目標的邊框和類
38、別,這樣做的優(yōu)點就是檢測速度快,但是會有許多漏檢。2015年,Joseph Redmon等人6提出了YOLO(You Only Look Once),將輸入圖片劃分成一個 SxS 的網格,每個網格負責檢測網格里面的物體,并輸出 Bbox 信息和置信度。YOLO的做法雖然快,但是檢測的邊框有點大,小的物體容易從這個框中漏出去。同年,由于YOLO存在使用整圖特征在粗糙網格內回歸對目標的定位不精準的問題,Wei Liu等人10提出了SSD算法,將YOLO結合region proposal思想,提高定位的精確度,高效預測某個位置使用的是這個位置周圍的特征。另外,與YOLO最大的差別是,SSD沒有接全連
39、接層,極大地減少了參數量,提高了檢測速度。1.2.3 基于深度學習的行人檢測與識別的研究現(xiàn)狀行人檢測與識別屬于對運動對象或者目標進行檢測和識別的研究分支,而行人分離主要試將感興趣的物體從圖像中分離出來。從各種復雜的背景中提取待分離目標的方法主要有:1. 背景差分法;2. 混合高斯背景建模法;3. 幀間差分法; 4. 光流法20-23。其中,背景差分法首先將非目標區(qū)域的圖像提取出來,然后用目標幀圖像與該背景幀圖像做強度或者能量的差分,最后再刪除不變的背景區(qū)域。幀間差分法的原理類似于背景差分法,也是通過計算視頻中相鄰兩幀圖像的強度或者能量差分,從而實現(xiàn)對運動目標的識別。混合高斯背景建模方法則是通過
40、概率密度函數來對背景像素進行精確量化,解決了兩種差分方法容易受到其他因素影響的問題,成為應用最為廣泛的運動目標檢測方法之一(深度學習未出來之前)。上述的三種方法只是用于固定場景,而光流法則可以用于非固定的場景,應用范圍更加廣泛。光流法是利用運動物體在成像面上形成的運動矢量來對運動物體目標進行識別的,該方法較為穩(wěn)定,所以才能在多種場景中進行使用。在目標檢測領域未采用深度學習技術之前,在復雜背景下進行行人的檢測與識別仍然是一個巨大的難題,因為復雜背景的圖像中存在有太多未知的因素,比如光線明暗、圖像的分辨率等,都是影響最終識別準確率的重要因素。之前采用的方案主要是將計算機視覺算法與傳感器技術進行結合
41、,從而完成對各種場景下對行人的檢測與識別。而在視頻中對行人的檢測與識別則往往需要依靠滑動窗口,通過滑動窗口對視頻中的幀圖像進行分類?;瑒哟翱冢òü潭ǖ暮头枪潭ǖ模谕粡垐D像所形成的圖像金字塔上進行掃描,從而判別該區(qū)域中是否包含行人目標。而且通常最后都會對檢測的結果進行相應的處理,并用可視化的方框對圖像金字塔中的行人進行標記。雖然視頻是一種動態(tài)的序列,但是該動態(tài)序列可以看成是由靜態(tài)圖像序列構成的,因此仍然可以采用分析靜態(tài)圖像序列的方法來分析視頻。同時,又可以將視頻中動態(tài)的行人特征添加進來,進一步提高視頻中行人檢測的準確率。除了滑動窗口的方法之外,對視頻中的行人進行檢測的方法還有多視角、多部
42、位以及基于整體局部特征等方法,都是具有相當的準確率的。另外,為了更好地對靜態(tài)的圖像進行建模,提出了許多的方法來對行人進行特征提取和描述,主要有:協(xié)方差描述算子、Haar小波特征集合、隱馬爾可夫(HMM)特征、統(tǒng)計直方圖和梯度方向直方圖(HOG)等24-27。當然這些方法雖然在一些場景下取得了不錯的結果,但是都存在不同程度的缺陷。比如,協(xié)方差描述算子在光線不足的圖片中無法很好地提取出行人的特征、隱馬爾可夫(HMM)方法計算的復雜度較高、Haar小波特征提取方法對于背景復雜的圖像無法很好地對行人特征進行提取等。因此,在深度學習技術出來之后,這些方法在學術研究中就很少被采用了,當然,在一些工業(yè)領域上
43、,還是有一些簡單的場景采用這些方法,也都有不俗的效果。從2012年開始,由于大數據以及硬件計算速度的支持,深度學習技術開始飛速發(fā)展,在傳統(tǒng)技術的目送下取得極大的突破。在目標檢測中,從解決的方式進行分類,深度學習可以分為兩大派系:“一刀流”和“兩刀流”,其分別的代表就是R-CNN和YOLO?!耙坏读鳌钡淖龇ㄊ鞘褂没貧w的方式輸出目標的邊框和類別,與之相反,“二刀流”則將目標檢測過程分為兩個步驟,首先生成候選區(qū)域,之后再用分類器進行檢測。兩種方式各有優(yōu)點,比如“一刀流”講究的是一個快字,而“二刀流”主要講究的是一個準字,因此兩者的目標不同,沒有什么比較的價值,而是應該根據問題的場景選擇相應的方法。
44、行人檢測難點經過這么多年的發(fā)展,對視頻圖像中的行人進行檢測和識別的技術已經比較成熟,但是與人類的識別能力相比,還是有很大的進步空間。目前來講,行人檢測與識別技術面對的問題主要有:1. 實時性差;2. 在復雜多變場景中的檢測效果差強人意。具體一點來講,主要有以下的這些問題:1. 行人的穿衣搭配差異較大;2. 行人運動姿態(tài)變化多;3. 行人之間存在相互簇擁和遮擋的情況;4. 圖像背景復雜、分辨率不同;5. 圖像的拍攝視角不同;6. 訓練樣本制作困難,需要大量人工。為了解決上述的問題,已經有很多的學者針對其中的某一點問題,進行算法或者相關技術的改進,但是仍然存在不同程度上缺陷,因此行人檢測領域依然存
45、在巨大的挑戰(zhàn)。 論文的主要內容及創(chuàng)新點主要研究內容本文主要對深度學習中的卷積神經網絡模型在行人檢測與識別領域所遇到的問題進行探究,旨在通過改進行人檢測與識別算法提升其識別的實時性和準確率。本文的主要工作為:(1)簡要介紹了卷積神經網絡在行人檢測與識別應用的理論基礎。同時,這一章還對常用的基于行人特征的行人檢測算法進行分析和實驗。實驗結果也表明了卷積神經網絡能夠很好地表征紋理和梯度特征,從而能夠從行人圖像中將行人特征提取出來。(2)通常情況下,要想更好地訓練深度學習的模型,大量的訓練樣本是必不可少的,同時隨著網絡層數的增加,所需要的訓練數據就越多,這樣才有可能有效地避免網絡過擬合?;诖?,本文采
46、用數據檢索的方式對INRIA數據集進行擴充,克服數據量不足的缺陷,從而防止深度學習模型過擬合的出現(xiàn)。在充分考慮到INRIA數據集中行人背景分布和行人分辨率等問題上,對INRIA數據集進行擴充。擴充后的數據集結構以及數據分布均不變,通過增加樣本數據的方式提高訓練處理模型的精確度。(3)本文提出基于YOLOv2的端到端的目標檢測方法,解決了人工訓練特征穩(wěn)定性不強,不能實時檢測的缺點,通過融合深度殘差神經網絡,提出了一種改進的深度殘差神經網絡的行人檢測方法。針對行人的行人圖像橫向信息不足的缺陷,提出了一種矩形輸入的分類模型,加強了對于行人特征的提取能力;與此同時,通過聚類算法K-means重新設計了
47、預測初始框,進一步提高了行人的定位能力。論文創(chuàng)新點(1)為了有效地訓練深度學習網絡模型,本文提出了對原數據庫擴充的方法,該方法在進行數據庫擴充時該方法在進行數據庫擴充時充分考慮到原數據庫的行人分辨率,背景分布等因素,使擴充后的數據庫仍然保持數據庫原有的數據分布,從而有利于訓練對數據庫檢測效果更佳的深度學習網絡。(2)為了解決傳統(tǒng)行人檢測需要人工設計特征以及檢測魯棒性不強和實時性差等問題,本文基于YOLOv2的端到端的目標檢測方法,通過融合深度殘差神經網絡,提出了一種改進的深度殘差神經網絡的行人檢測方法。針對行人的行人圖像橫向信息不足的缺陷,提出了一種矩形輸入的分類模型,加強了對于行人特征的提取
48、能力;與此同時,通過聚類算法K-means重新設計了預測初始框,進一步提高了行人的定位能力。論文的內容結構安排本章主要安排五個章節(jié),各個章節(jié)的主要內容如下:第一章為緒論。首先介紹了課題相關背景知識,對國內外行人檢測技術的研究現(xiàn)狀;其次,結合國內外技術的研究狀況總結了并分析了行人檢測技術所面臨的技術難點和原因;最后提出了本論文的創(chuàng)新點,并總結了論文的主要內容結構和各個章節(jié)所做的工作。第二章為行人檢測與深度學習的相關理論與技術。首先,分析對比了當前比較流行的基于運動特征的行人檢測算法,然后介紹了目前用的較多的行人特征,并具體分析了各個算法的工作流程。最后,文章介紹了行人檢測最常使用的行人數據庫及其
49、評測標準,并分析了各個行人庫的應用場景。本章是后兩章研究工作展開的基礎。第三章為基于深度學習的行人檢測。先對深度學習的基礎知識展開介紹,從最初的全連接神經網絡FNN到后面發(fā)展的卷積神經網絡CNN,在此基礎上,進一步介紹了深度學習是如何應用到行人檢測的(常用的框架是什么),并且還使用Resnet 50進行試驗,從而驗證了基于深度學習的行人檢測方式較與傳統(tǒng)的行人檢測方式具有更優(yōu)越的性能。第四章為基于改進的深度殘差網絡行人檢測方法。本章提出了一種新的行人檢測方法,針對行人圖像橫向信息不足的缺陷,引入了矩形輸入的CNN模型,從而更好地表征行人特征;為了進一步特征模型的準確率和泛化能力,對兩個公開數據集
50、的樣本進行混合訓練;同時,通過聚類算法K-means對預測的初始框進行重新選擇,提高了定位行人的能力。本文提出的方法較傳統(tǒng)的方法具有更低的誤檢率,將每張測試圖片的漏檢率降低至12.38%,并且本文提出的方法具有良好的實時性和泛化能力,能夠用于實際工業(yè)界。第五章為論文的總結與展望部分。此章節(jié)對本文所做的工作進行了總結,并指出當前算法所存在的不足,為未來的改進提供了方向。本章小結本章主要介紹了行人檢測的研究背景和意義,同時介紹了國內外對行人檢測與識別的研究現(xiàn)狀以及論文的主要內容,最后列出了本論文的基本框架和結構安排。行人檢測與深度學習相關基礎理論與技術行人檢測技術是行人識別的前提,檢測結果的好壞對
51、識別的準確率有直接的影響,只有檢測算法穩(wěn)定并且高效才能保證后續(xù)識別效率。目前,基于運動特征的行人檢測算法和基于行人特征的行人檢測方法是最常用的兩種行人檢測算法。本章重點結合經典行人檢測算法和常用行人特征,并且對卷積神經網絡的相關理論進行簡要介紹,同時結合實例對卷積神經網絡在行人檢測與識別的應用進行說明。2.1 基于運動特征的行人檢測算法幀間差分法,光流法和高斯背景建模法是基于運動特征的行人檢測最常用的算法,這些算法的原理簡單,占用內存小,代碼精簡,在實驗環(huán)境中具有較好的效果36-40。2.1.1 幀間差分法幀間差分法37-38主要適用于目標運動或攝像機移動的場景,它通過對運動目標取相鄰兩幀來做
52、差分運算,從而獲得運動目標的輪廓。在視頻場景中,如果圖像移動前后的兩幀有比較明顯的差別,那么就可以說明運動目標所在區(qū)域的像素值發(fā)生了明顯地改變,反之,若所在區(qū)域的像素值沒有明顯改變則說明并不存在運動目標。下面將以一段常用的彩色視頻序列為例來簡要說明下幀間差分法的流程。由于灰度圖像比彩色圖像包含的圖像信息少,便于運算,所以本文第一步就是將彩色圖像灰度化,而不是直接使用;接下來,假設該灰度化的視頻幀中第K幀某一位置(x, y)所對應的像素值為。假設T是灰度閾值,該閾值的設定是根據具體應用需求來設定的,若像素值不小于T,則可判定該點是像素點,否則,該點可判定為背景點,由此可得到分割后用0表示背景點和
53、用1表示像素點的二值圖像。整個幀間差法的流程如圖2.1所示:圖2.1 幀間差法的流程圖對該算法的描述如下:為確保所有基于圖像的操作都是基于灰度圖像的,首先將彩色視頻幀灰度化,再取相鄰灰度化的視頻幀進行差分運算,得到差分圖像 為:(2.1)(2)使用預先設置好的閾值T對上一步驟得到的差分圖像進行二值化處理,得到 為:(2.2)根據二值化后圖像的顏色標注(0用黑色,1用白色表示),篩選出運動目標所在的區(qū)域。按照以上對幀間差分法算法的描述,本文運用該算法對運動目標進行了實踐,其結果如圖2.2所示。 (a)幀間差分法檢測前(b)幀間差分法檢測后圖2.2 幀間差分法檢測實驗結果如圖2.2所示,圖(a)是
54、使用幀間差分法檢測前的視頻圖像,圖(b)是經幀間差分法處理后的圖像。幀間差分法在處理視頻序列時所表現(xiàn)出來的優(yōu)缺點為:優(yōu)點:算法的原理簡單,占用內存小,代碼精簡,是實時性高,對背景干擾和光照影響比較小。缺點:(1) 很難提取運動目標運動緩慢情況下的所有相關像素點,容易產生空洞現(xiàn)象;(2) 算法在復雜的運動場景下(有多個運動對象或者運動物體之間存在遮擋)并不能準確的進行識別;(3) 檢測目標的外接矩陣會在物體的運動方向上存在一定程度的拉伸,從而使得檢測結果的錯誤發(fā)生。另外,雖然幀間差分法在固定場景中能夠準確的識別行人,但是在運動的場景下并不能很好地識別行人;而且?guī)g差分法并不只是識別行人,也會識別
55、所有的運動物體。2.1.2 光流法光流法38是最常使用的運動目標檢測算法之一,它是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關性來確定各自位置的運動,從而追蹤目標的運動信息。該算法的使用對視頻序列具有特別的要求,必須滿足以下三個條件:(1)相鄰的視頻幀之間亮度需要為固定值,即亮度不能改變;(2)相鄰的視頻幀之間物體的運動幅度不能太大;(3)同一視頻幀上像素點的運動必須保持一致,即保持空間一致性。光流法的原理:光流法的關鍵是將圖像目標的運動處理成了位置與函數的關系,因而首先給相鄰幀的每個像素點設點一個速度矢量,得到該圖像序列的矢量場。然后再根據圖像幀運動后的信息,得出運動后的位置信息,
56、再根據圖像的坐標變換,從而得到相鄰圖像之間的匹配關系,值得注意的是,以上原理的實現(xiàn)都是基于相鄰的視頻幀之間的亮度不發(fā)生改變,即亮度不變的假設下。圖2.3 視頻序列的運動狀態(tài)模擬圖如上圖所示,將視頻序列的運動狀態(tài)模擬成坐標的形式來分析,左圖 是運動前的視頻幀,圖中箭頭表示其運動方向,右圖是該幀運動后的狀態(tài)。對于H中特定的像素點,可以在通過光流法在I圖中找到對應位置的相同或相近的像素點,并得到相鄰幀之間的運動信息。同樣地,這里也必須滿足光流法所必須假設的三個條件:亮度不能改變,運動幅度不能太大和保持空間一致性。圖2.4 視頻序列中的圖像運動圖如上圖所示,視頻序列中的圖像圖沿著箭頭方向運動,產生出的
57、偏移量,經運動后的位置信息為。(a) (b) (c)圖2.5 光流法檢測運動目標實驗結果按照以上對光流法算法原理的描述,本文運用該算法對運動目標進行了實踐,其結果如圖2.5所示:圖(a)和圖(b)是圖像序列中連續(xù)運動的相鄰視頻幀,圖(c)是使用光流法對(a)和(b)的檢驗結果,圖中紅線表示的是特征點的運動,為了達到更加明顯的顯示效果,實驗選擇了2000個特征點進行展示。在進行實驗時,本文也發(fā)現(xiàn)了光流法需要耗費的計算代價非常大。并且選擇的特點越多,代碼所要計算的數據量也越大,實驗耗費的時間就越長,此外,利用光流法進行運動目標檢測時,實時性無法保證,這樣就限制了該方法的實用性。2.1.3 高斯背景
58、建模法高斯背景建模法39-40是目標檢測的經典算法之一,該方法是一種背景差分法,算法思想與幀間差分法有相通之處,只是高斯背景建模算法是將當前視頻幀與建立的高斯背景模型進行差分,根據預先設定好的閾值,來判斷像素點是屬于背景區(qū)域還是運動目標區(qū)域,其算法流程如下圖所示:圖2.6 高斯背景建模法流程圖如上圖所示, 是某一視頻序列的當前幀圖像, 是實時更新的背景圖像, 表征經差分運算后的圖像,是經閾值處理后的二值圖像。該算法的基本過程為:取檢測目標視頻幀,并建立高斯背景模型,將兩者的像素值做差分運算,從而得到當前視頻幀的差分圖像:(2.3)(2)據預先設定好的閾值,來判斷像素點是屬于背景區(qū)域還是運動目標
59、區(qū)域,對差分圖像進行二值化,得到圖像:(2.4)(3)根據二值化后圖像篩選出運動目標所在的區(qū)域。按照上述分析可知,高斯背景建模法的主要任務和最大難點就是建立背景模型和實時更新背景模型。通過不斷更新背景模型,使當前背景更加符合所要檢測的幀序列的背景,從而保證檢測的有效性。按照以上對光流法算法原理的描述,本文運用該算法對運動目標進行了實踐,其結果如圖2.5所示。 (a) (b) (c)圖2.7 高斯背景建模檢測行人實驗結果如圖2.7(a)是行人運動的視頻序列,圖(b)是高斯背景建模更新的背景,圖(c)是使用高斯背景建模法檢測出來的行人圖像。實驗過程中發(fā)現(xiàn),實驗效果受環(huán)境的影響較大,每一次的光線變化
60、,亮度變化和攝像頭位置的變化都會對實驗結果產生一定的影響。但是,高斯背景建模法的算法容易理解,代碼簡單,并且能夠檢測出完整的運動目標的輪廓。通過以上對幀間差分法,光流法和高斯背景建模法的分析,以及它們各自在應用場景中的表現(xiàn)來看,每種算法都有各自的缺陷,并不存在一種通用的算法可以在所有的場景下進行精確識別。在實際中,應該根據不同算法的特點來選擇其相應的應用場景,如在交通系統(tǒng)中選擇光流法效果比較好一些,因為車輛是處于源源不斷的運動狀態(tài)的,因此圖像處理的對象也是動態(tài)的,而在安防監(jiān)控系統(tǒng)中,攝像頭是處在靜止不動的狀態(tài),因此圖像處理的對象也是靜態(tài)的,這時選擇幀間差分法和高斯背景建模法的會比較適合一些。本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- TTK-PLK1-IN-1-生命科學試劑-MCE-9304
- Paroxetine-d4-BRL29060-d-sub-4-sub-生命科學試劑-MCE-2193
- KIF18A-IN-16-生命科學試劑-MCE-8155
- 4-5-MDAI-hydrochloride-生命科學試劑-MCE-4662
- 1-3-Dioctanoyl-glycerol-生命科學試劑-MCE-8665
- 二零二五年度獨占許可協(xié)議名詞詳釋與合同糾紛處理
- 二零二五年度企業(yè)注冊及市場營銷策劃合作協(xié)議
- 2025年度足浴店門面租賃合同模板(含供應鏈管理)
- 二零二五年度股權分配與養(yǎng)老產業(yè)合作框架協(xié)議
- 2025年度自媒體賬號粉絲經濟合作開發(fā)合同
- 2023年漢中市人民政府國有資產監(jiān)督管理委員會公務員考試《行政職業(yè)能力測驗》歷年真題及詳解
- JTG 3362-2018公路鋼筋混凝土及預應力混凝土橋涵設計規(guī)范
- 八年級下冊歷史思維導圖
- 電動汽車用驅動電機系統(tǒng)-編制說明
- 江蘇卷2024年高三3月份模擬考試化學試題含解析
- (正式版)JTT 1497-2024 公路橋梁塔柱施工平臺及通道安全技術要求
- 醫(yī)療器械物價收費申請流程
- 招聘專員轉正述職報告
- “一帶一路”背景下的西安市文化旅游外宣翻譯研究-基于生態(tài)翻譯學理論
- 2024年江蘇省昆山市六校中考聯(lián)考(一模)化學試題
- 大學生文學常識知識競賽考試題庫500題(含答案)
評論
0/150
提交評論