基于視頻分析的目標檢測_第1頁
基于視頻分析的目標檢測_第2頁
基于視頻分析的目標檢測_第3頁
基于視頻分析的目標檢測_第4頁
基于視頻分析的目標檢測_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

目錄摘要 4關鍵字 4Abstract 4Keywords 41緒論 41.1背景及意義 41.2國內(nèi)外的研究現(xiàn)狀 51.3論文的主要工作及結(jié)構(gòu)安排 61.3.1論文項目以及主要工作 61.3.2論文結(jié)構(gòu)安排 62軟件編程環(huán)境及工具 62.1軟件編程環(huán)境 62.2軟件編程工具 73目標檢測算法研究 73.1目標檢測主要方法 83.1.1光流法 83.1.2背景差分法 83.1.3時間差分法 83.2本論文所用目標檢測方法 93.2.1單一背景差分檢測法 93.2.2高斯模型提取背景檢測目標法 104目標提取及后續(xù)處理算法 124.1圖像平滑濾波 124.1.1中值平滑濾波法 134.1.2高斯平滑濾波法 134.2閾值選取算法 154.2.1固定閾值法 154.2.2自適應閾值法 164.2.3最大類間方差法 164.3目標形態(tài)學處理算法 175軟件處理效果分析 195.1軟件的技術路線圖 205.2軟件效果分析 215.2.1鼠標繪制ROI區(qū)域 215.2.2去除小的噪聲矩形框 215.2.3清除走出檢測區(qū)域的目標 225.2.4目標計數(shù)以及舒適程度判斷 245.2.5軟件運行計數(shù)的準確性 276總結(jié)與展望 316.1項目總結(jié) 316.2項目展望 317致謝 32參考文獻 32

基于視頻分析的目標檢測系統(tǒng)設計摘要:視頻分析是計算機視覺技術的分支,旨在通過目標檢測提取分離目標物,實現(xiàn)預計的功能。本論文以蘇州留園景區(qū)游客為目標物,主要采用背景差分的方法檢測分離出目標。經(jīng)過一系列的算法處理之后,達到對人數(shù)進行統(tǒng)計并且判斷游客的舒適程度的目的。其中比較了在目標檢測和提取分離中各種算法的效果,包括背景提取、平滑濾波,閾值選取等等,最終選擇了相對效果較好的算法完成預計的功能。關鍵字:視頻分析,目標檢測,計數(shù)ThesystemdesignoftargetdetectionbasedonthevideoanalysisAbstract:Videoanalysisisabranchofcomputervisiontechnology,whichaimstorealizetheexpectedfunctionbythemeansofthetechnologyoftargetdetectiontoseparatethetarget.Inthispaper,thetouristofthescenicspotofSuzhouLiuyuanarethetargetobject,detectingandseparatingthetargetobjectbymeansofbackgroundsubtraction.Aftertheprocessingofaseriesofarithmeticachievethepurposeofcountingthenumberofpeopleandjudgingthecomfortabledegreeofthetourists.Inthepaper,wecomparedtheresultofmanyarithmeticoftargetobject,includetheextractingthebackground,smoothingfiltering,choosingofthresholdandsoon,andfinallychoosethebetterarithmetictocompletetheexpectedfunction.Keywords:Videoanalysis,targetdetection,counting1緒論1.1背景及意義視頻分析是通過計算機圖像視覺這個以數(shù)字圖像處理為基礎、近年來發(fā)展迅猛的新興學科這一分析技術,使用目標檢測的方法提取出場景內(nèi)的目標物,之后用戶可以根據(jù)目標物來分析視頻中的內(nèi)容,再根據(jù)視頻的內(nèi)容來實現(xiàn)預設定的功能。因此可以說,視頻分析的實質(zhì)是一種算法,基礎便是數(shù)字圖像處理。而目前,利用計算機圖像處理技術來進行智能視頻分析已經(jīng)越來越流行實際運用于各個方面,如交通中的車流總量、速度、距離、密度等等。具體的功能實現(xiàn)也很多,例如顏色檢測,高度檢測,延誤檢測,計數(shù)功能,目標密度檢測等等。近些年,隨著人們?nèi)粘I钏降奶岣撸睦镒非笠苍絹碓礁?,在繁忙的工作之余,旅游成為了人們陶冶情操的一種休閑方式。但是由于節(jié)假日局限性,很多人的出游時間都相同,這就導致了景區(qū)人數(shù)出現(xiàn)暴漲的情況。人數(shù)的暴增不僅為游區(qū)工作人員帶來了管理難度,也同時影響著游人的舒適程度。本項目就是利用計算機視頻分析技術,實現(xiàn)對感興趣區(qū)域內(nèi)的人物數(shù)量進行實時統(tǒng)計的功能,主要目的就是為了判斷在一定區(qū)域內(nèi)的人是否擁擠,即他們的舒適程度。1.2國內(nèi)外的研究現(xiàn)狀近些年,由于智能化技術的普及使用,市場漸漸不滿足于現(xiàn)有的智能化技術的種類,從而促使我國的視頻分析技術有了快速的增長。視頻分析技術的研究和發(fā)展主要體現(xiàn)在算法即目標檢測和識別的研究和發(fā)展上。目前,對于目標檢測,國內(nèi)外眾多高校都有研究,國外如美國麻省理工,英國牛津大學等都專門設立了針對運動目標檢測的研究組或者實驗室,國內(nèi)的中國科學院北京自動化研究所下屬的模式識別國家重點實驗室等等。而國內(nèi)外的學者們早已不再單純的從一種方法入手研究目標檢測,背景差分算法簡單,實時性高,但是動態(tài)背景會出現(xiàn)很大的問題;幀間差分法可用于動態(tài)背景和靜態(tài)背景,但是對噪聲的抗干擾能力很弱;而光流法處理結(jié)果準確,但是運算量大,解決算法復雜度是一個很大的難題。眾多學者開始改變單一方法,例如LeeYeeSiong等人將HS和LK光流法同時進行了處理,將兩者結(jié)合了起來,并將濾波處理運用起來,檢測效果的效果很好;[1]龔濤,劉怡等針對幀差法的噪聲敏感的特性,提出基于相關配準的三幀差分算法[2]等等。之后很多學者糅合眾多算法,將各算法的優(yōu)點發(fā)揮出來,避開缺點,也同樣得到了很好的效果,例如劉靜,王玲等將混合高斯模型背景法和三幀差分法結(jié)合起來,利用三幀差分法檢測目標,提高靈敏度,又引入混合高斯模型和閾值的運算,減小噪聲對處理效果的影響,減少算法運算量;[3]孫承志,熊田忠等人提出將差分法和光流法結(jié)合起來,先用差分法對圖像進行處理,再用光流法對預處理的圖像進行計算,可以減少算法的復雜度,也讓結(jié)果更加精確。[4]國內(nèi)外對于目標檢測的研究有很長的時間,且早已運用到了視頻分析當中,智能檢測、智能視頻監(jiān)控、智能銀行等。其中智能視頻監(jiān)控特別是人臉識別這一部分是最近應用最多,也是發(fā)展最快速的一部分。英美方面已經(jīng)研究了眾多項目,而且在人臉識別、智能監(jiān)控系統(tǒng)方面的研究部分成果已經(jīng)投入市場,例如,美國的人臉識別技術龍頭之一的Animetrics公司在視頻分析監(jiān)控一部分有著先進的研究,早幾年應用起來的新工具——ForensicaGPS能夠在低分辨率的監(jiān)控圖像或者視頻中更加準確的識別目標。據(jù)稱,目前該公司已經(jīng)向美國國內(nèi)執(zhí)法部門提供了該產(chǎn)品。美國ISS公司SecurOSFace人臉采集與識別的產(chǎn)品是世界上正確識別率最高的人臉識別系統(tǒng)之一,人臉識別庫要多于500萬人,識別時間基本上不超過一秒,最快的人臉識別速度達到每秒7張人臉。國內(nèi)中科院的中國大恒集團下屬的北京大恒圖像視覺有限公司是中國最早成立的專業(yè)的機器視覺產(chǎn)品開發(fā)的公司,一直專注于自己的產(chǎn)品技術研發(fā)等等。但是視頻分析目前存在的問題或者說的目標檢測的問題仍然很大,主要有背景的復雜性,光照變化、背景晃動等問題,為目標的提取帶來了很大的難度;目標特征的取舍,要選取合適的目標信息比較難;遮擋問題,當目標相互遮擋時,影響跟蹤的穩(wěn)定性;兼顧實時性與魯棒性,實時性往往帶來運行的負擔,實時性要求高就不得不降低魯棒特性。這些問題也是目標檢測、視頻分析的重點問題。1.3論文的主要工作及結(jié)構(gòu)安排1.3.1論文項目以及主要工作本論文對運動目標檢測做了一定了解,對不同的背景,尤其是復雜背景下的運動目標進行了有效的提取。使用OpenCV視覺庫,在VisualStudio編程環(huán)境下,采用C語言,來進行軟件的編譯。項目所做工作如下:熟悉目標檢測、視頻分析相關理論知識,了解國內(nèi)外的相關發(fā)展及應用;學習C語言編程,OpenCV函數(shù)的應用以及完成VisualStudio的相關配置;采集相關視頻;完成程序的編譯,調(diào)試,運行。1.3.2論文結(jié)構(gòu)安排1.第一部分:緒論。這一部分主要闡述了論文的題目(基于視頻分析的目標檢測系統(tǒng)設計)的背景和意義,簡單介紹了相關理論以及國內(nèi)外的研究發(fā)展狀況。最后概括了本篇論文的主要工作和論文的結(jié)構(gòu)安排。2.第二部分:軟件編程的環(huán)境及工具介紹。這一部分主要介紹了編程的環(huán)境VisualStudio以及OpenCV視覺庫。3.第三部分:目標檢測算法。這一部分主要介紹了幾種目標檢測的算法,詳細的展示了本文所用的算法以及效果的對比:(1)單一背景差分算法檢測目標;(2)混合高斯模型算法提取背景檢測目標。4.第四部分:目標提取處理算法。本節(jié)主要還介紹了圖像處理的濾波方法:(1)中值濾波;(2)高斯濾波。閾值的選取的算法:(1)固定閾值;(2)自適應閾值;(3)大律法求閾值。以及目標形態(tài)學處理算法等。5.第五部分:軟件處理效果分析。這一部分主要是闡述軟件的編譯、調(diào)試、運行后實際運用在視頻上得到的效果以及后續(xù)的分析。6.第六部分:總結(jié)與展望。本部分將對整個項目做一個總結(jié)和對未來相關發(fā)展的展望。7.第七部分:致謝。2軟件編程環(huán)境及工具2.1軟件編程環(huán)境本軟件采用MicrosoftVisualStudio(簡稱VS)編程環(huán)境。VS是美國的微軟公司研發(fā)的開發(fā)產(chǎn)品,這是一個完整的開發(fā)工具集,包括了整個關鍵生命周期(包括問題定義、可行性分析、總體描述、系統(tǒng)設計、編碼、調(diào)試和測試、驗收與運行、維護升級到廢棄等階段)的大部分階段。微軟在1997年發(fā)布了VS97版,其中包括VisualBasic5.0、VisualC++、VisualJ++等等語言。之后在98年,VisualStudio6.0發(fā)布了,升級了所有語言的開發(fā)環(huán)境。2002年,隨著.NET口號的提出與WindowsXP/OfficeXP的發(fā)布,微軟發(fā)布了VisualStudio.NET也就是7.0版,推出了新語言C#,用來編寫.NET框架。2003年,微軟對VisualStudio2002做了一定修改,退出2003版(7.1)。之后2005年、2007年、2010年、2012年、2013年以及2014年都發(fā)布了新的版本,最新版的即為2014年11月發(fā)布的VisualStudio2015。而本論文的軟件編程環(huán)境采用的是VisualStudio2013版本。2.2軟件編程工具計算機視覺發(fā)展于圖像處理的基礎上,在計算機科學和工程、應用數(shù)學、統(tǒng)計學,神經(jīng)生理學、信號處理、認知科學等等的研究方面,在制造業(yè),醫(yī)學領域,軍事領域等等各個領域都有著非常廣闊的應用前景和發(fā)展前景。這就意味著,這種技術是學術研究和工程開發(fā)的集合體,研究人員的想法必須通過開發(fā)人員通過簡單的開發(fā)工具來實現(xiàn),因此,OpenCV便被推出了,結(jié)合了兩方面的需求提供了一個很合適的開發(fā)工具或者說是應用的平臺。OpenCV(OpenSourceComputerVisionLibrary,開源的計算機視覺庫)最開始是1999年由Intel公司發(fā)起開發(fā)的,通過BSD許可證授權(quán)發(fā)行,可以免費用于研究領域和商業(yè)領域。目前已經(jīng)廣泛的應用于計算機視覺圖像處理和模式識別的系統(tǒng)開發(fā)了。OpenCV在1999年被提出只是為Intel處理器做特定優(yōu)化,發(fā)展到現(xiàn)在,最新的OpenCV為2015年4月24日發(fā)布的3.0版本,實現(xiàn)了有一系列的C函數(shù)和C++類構(gòu)成,提供了Java、Matlab,Ruby等等語言接口的通用算法工具。本論文的軟件采用VisualStudio編譯環(huán)境使用C語言,通過對OpenCV的庫函數(shù)的使用,完成軟件圖像處理的功能。3目標檢測算法研究目標檢測,是一種圖像分割技術,主要是通過目標的幾何、統(tǒng)計等特征對圖像進行分割。是各種后續(xù)高級處理、應用,例如目標跟蹤、目標分類、目標行為理解等等的基礎。[5]目標檢測跟據(jù)背景環(huán)境可以分為兩類:靜態(tài)背景和動態(tài)背景下的運動目標檢測。同時,目標檢測技術運用的算法也非常多,有光流法、時間差分法、背景差分等。3.1目標檢測主要方法3.1.1光流法光流法是將運動的物體分解為單個像素點,提取目標是根據(jù)像素點的灰度值隨時間變換的表觀運動。[6]每一個像素點都有一個速度矢量,形成一個圖像運動場,某一時刻,由投影關系得到圖像上的點和物體上的點的對應關系,根據(jù)每個像素點的特征矢量來對圖像進行分析。當有圖像中有運動物體時,目標和背景的矢量不同,可以檢測出運動物體的位置。[7]最早的光流法的算法是在1981年,當時Horn和Schunck就將速度場和灰度聯(lián)系起來,得到光流計算的基本算法HS。同一年中,Lucas和Kanade又提出了LK光流算法。[8]雖然光流法的誕生很早,但是在實際的應用中有很大的局限性,比如,由于遮擋,噪聲,多光源等等情況的出現(xiàn)而導致光流場不能正確的解出,而且光流法本身復雜,運用光流法的一個關鍵點是減少光流算法的運算復雜度和運算量。3.1.2背景差分法背景差分法的基本思想是利用背景的參數(shù)模型來近似表示背景圖像的像素值,將當前幀圖像與背景圖像進行差分,從而實現(xiàn)對運用區(qū)域的檢測。[9]由于背景差分算法相對簡單,處理速度快,因此被廣泛應用。背景差分法的一個重要步驟就是背景的提取,背景中的運動物體,例如晃動的樹、陰影、陽光等,背景常會有小的波動,為背景的提取帶來的很大的難度。目前主要的處理背景的方法有高斯模板法,均值背景法,絕對值最小法等等。早在2000年,Stauffer和Grimson便提出了K個高斯分布的混合模型來表示背景像素的分布規(guī)律,能快速適應場景變化。[10]而累加均值提取背景和絕對值最小的方法也被經(jīng)常運用。此外,針對噪聲的情況,單閾值往往不能滿足要求,因此,閾值的選取也同樣重要,一般有雙閾值,大律法求閾值等等方法,如張震,李丹丹等學者提出,采用自適應雙閾值的方法進行背景的更近以及前景的分割。[11]3.1.3時間差分法背景差分主要用于背景建模比較復雜的情況,計算速度快,處理迅速,但是降低了目標的精度,而且動態(tài)背景不適用。因此引用了時間差分的方法,也稱作幀間差分,使用于動態(tài)和靜態(tài)背景下的目標檢測,算法也相對簡單,但是對噪聲敏感度強。時間差分法就是兩幀相鄰的圖像進行差分,得到差分的圖像,再通過閾值的判斷,確定運動目標。但是,單純的兩幀差分已經(jīng)不能滿足目前的圖像處理的需求了,因此,出現(xiàn)了眾多在原有的算法上的改進,例如Shainfard等提出相鄰5幀的視頻序列做差分處理,并且綜合視頻序列的RGB分量信號進行檢測。[12]Crnojevic針對光線變化的環(huán)境,在差分算法中加入小波變換,[13]取得了很好的效果。3.2本論文所用目標檢測方法通常所用的目標檢測方法:光流法、背景減除法、時間差分法三種在上節(jié)中有了簡單介紹,而本論文選取了其中的部分完成了視頻的調(diào)試,對比了其中的效果。3.2.1單一背景差分檢測法單一背景差分的方法是背景差分法最原始的方法,也是最方便、簡單的一種檢測目標物的方法?;驹硎牵鹤x取視頻文件,將第一幀圖像作為背景圖像,之后的每一幀圖像與背景圖像進行差分,得到視頻中的運動的物體,達到檢測的效果。這種方法適用于靜態(tài)的背景的視頻中,而且其由于從操作簡單、計算量少,使用該方法的系統(tǒng)的魯棒性和實時性都比較高,因此利用率也相當高。效果見圖1。圖1圖1單一背景差分效果圖(1)單一背景差分的效果很好,實時性魯棒性都優(yōu)于其他算法,但是,因為背景的選取只是單一的第一幀圖像,因此,面對背景晃動的情況處理會出現(xiàn)晃動的背景。效果見圖2。圖2圖2單一背景差分效果圖(2)同時,這種方法對于視頻的選取有一定的要求,關鍵在于,視頻的第一幀圖像中,沒有目標物的出現(xiàn),若是第一幀出現(xiàn)目標物,由于第一幀圖像為背景,目標物便會被當成背景,之后的圖像目標物移動或者不在圖像范圍內(nèi)的時候,第一幀圖像目標的位置便會成為新的目標被檢測出來。效果見圖3。圖3圖3單一背景差分效果圖(3)正是由于單一背景差分的方法出現(xiàn)的問題很明顯,因此出現(xiàn)了背景更新的方法,隨著視頻的播放,背景不斷的更新,最主流的方法就是混合高斯模型提取背景來檢測目標的方法。3.2.2高斯模型提取背景檢測目標法高斯模型的主要原理就是用高斯概率密度函數(shù)也就是通常說的正態(tài)分布曲線來表示一個像素點,而背景圖像的特定像素分布滿足高斯分布。也就是說,背景模型每個像素點的組成部分中都有兩個參數(shù),即均值u和方差d。[14]而更新均值的步驟就是通過舊的均值圖像和新一幀的圖像,通過權(quán)值也就是學習率a來進行相加,公式為:ut+1,x,y=a*u其中t為幀數(shù),a為學習率,i為當前幀的圖像。得到了均值圖像之后,與新圖像進行運算,將大于閾值的判定為背景,反之為前景目標,公式為:e(-i其中T即為閾值。而混合高斯模型就是用K個(一般為3-5)高斯模型來表示圖像的各個像素點的均值特征。[15]高斯模型是現(xiàn)在主流的一種背景差分的方法,重點在于背景的提取,見下圖。圖4圖4混合高斯模型背景圖(1)可以看到,在背景提取的時候,混合高斯模型對于噪聲的影響還是很大的,但是,隨著視頻播放,背景不停的更新噪聲點也會不斷變少,效果見下圖。圖5圖5混合高斯模型背景圖(2)圖6圖6混合高斯模型背景差分效果(1)圖7圖7混合高斯模型背景差分效果(2)在某些情況下,混合高斯模型效果的處理上并不是很理想,而且,由于混合高斯模型的計算量較大,因此處理的實時性和魯棒性都不及單一的背景差分的效果,這也導致了在視頻播放時,出現(xiàn)卡頓的情況更加嚴重。因此,綜合考慮,本論文采用單一背景差分的方法,進行項目功能的實現(xiàn)。4目標提取及后續(xù)處理算法4.1圖像平滑濾波平滑濾波的目的是抑制和防止干擾。在視頻采集時,不可避免的會出現(xiàn)噪聲點,特別是陽光強烈,亮度大的時候,而在圖像二值化之后,這些噪聲點會暫時被保留下來。在圖像處理時如果不去掉,就會成為目標,從而影響到后續(xù)對目標處理的準確性,為視頻處理工作帶來很大的難度。而且,圖像平滑能使提取出來的目標物中間的小空洞得到一定的填充。因此,圖像的平滑濾波是視頻圖像處理中目標檢測之后,提取目標時的重要步驟。圖8圖8無濾波效果噪聲圖OpenCV的視覺庫函數(shù)中,帶有cvSmooth這個濾波函數(shù),為圖像處理的濾波做了很大的簡化處理,其中包括了主流的幾種濾波處理方法:簡單不帶初讀變換的模糊濾波法,簡單尺度變化模糊濾波法,中直濾波法,高斯濾波法以及雙向濾波法。而本論文通過對圖像灰度圖濾波和二值化圖像濾波兩個步驟,主要對比了最常用的兩種濾波平滑的方法:高斯濾波法和中值濾波法,下面,詳細介紹下這兩種方法。4.1.1中值平滑濾波法中值平滑濾波法可以說是圖像處理的一種最常用的濾波去噪的方法,不像均值濾波法會將圖像的邊緣平滑化。中值濾波法的主要原理是將某像素點的鄰域窗口內(nèi)的所有像素值的中值取出,作為該點的像素值。具體效果如下圖。圖9圖93*3窗口中值平滑濾波效果(左邊為濾波前圖,右邊為濾波后圖)圖10圖105*5窗口中值平滑濾波效果(左邊為濾波前圖,右邊為濾波后圖)通過3*3的窗口的中值濾波之后,椒鹽噪聲點數(shù)量明顯減少,但是部分噪聲點塊狀變大,這使得后續(xù)的去噪工作不好進行。5*5窗口的濾波效果更加明顯,噪聲點少但是更大,而且窗口選擇越大,目標物的輪廓越模糊。4.1.2高斯平滑濾波法高斯濾波就是通過像素點本身的像素值以及設定的鄰域內(nèi)的灰度值進行加權(quán)求平均得到的值作為該點的像素值,這個方法和均值濾波有點類似,但是不同的是,均值濾波采用的是無差別求均值,高斯濾波的均值求法是通過加權(quán)求得。而加權(quán)的準則是由二位離散高斯函數(shù)采樣并且歸一化之后得到的。而cvSmooth這個函數(shù)若采用高斯濾波,則有四個參數(shù)需要選擇,第四個參數(shù)一般是非對稱高斯核引用的,第一、第二個參數(shù)param1和param2是選定濾波核的大小,即選取鄰域的大小,第三個參數(shù)為方差σ,若次參數(shù)為零,則σ通過param1和param2來確定,公式如下:σxσy得到x方向和y方向的均值,根據(jù)正態(tài)分布的圖來判斷加權(quán)值繼而得到該像素點的加權(quán)平均值作為像素值,達到濾波平滑的效果。圖11圖11正態(tài)分布圖圖12圖123*3窗口高斯平滑濾波效果(左邊為濾波前圖,右邊為濾波后圖)圖13圖135*5窗口中值平滑濾波效果(左邊為濾波前圖,右邊為濾波后圖)對比中值濾波,很明顯可以發(fā)現(xiàn),在椒鹽噪聲的情況下,中值濾波比高斯濾波效果要好很多,高斯濾波主要是將圖像模糊化,有去除噪聲的效果。但是在考慮到目標物出現(xiàn)時,需要邊緣擴充,而且高斯濾波出現(xiàn)之后的噪聲點有規(guī)律、比較小,在后續(xù)容易去除。還有重要的一點是,高斯濾波會將目標物的中間空洞模糊化,使得在之后對目標進行形態(tài)學處理時能夠更加方便。因此,對比以上結(jié)果,本論文在灰度圖像時采用3*3窗口的中值濾波的平滑方法而二值化圖像采用3*3窗口高斯濾波對視頻圖像進行處理,一來能減小運算量,二來,聯(lián)系后續(xù)處理的效果比較好。4.2閾值選取算法這里的閾值指的是在圖像差分了之后,對圖像進行二值化的閾值的選取。圖像的二值化是提取分離目標的關鍵一步,在背景差分之后之后進行二值化,將圖像處理成黑白的二值化圖像,達到目標提取分離的目的。理論上說,背景差分之后,將差分的像素點取絕對值,再用0作為閾值,大于0的像素值為1即可。但是在實際運用中,由于背景晃動,噪聲點去除不干凈等等原因,閾值的選取并不簡單。目前,閾值的設定有多種方法,例如最簡單的固定閾值法,自適應閾值法,最大類間方差法(大津法),雙峰法,迭代法等等。[16]本論文選取了固定閾值,自適應閾值和最大類間方差法三種閾值方法進行了比較,接下來詳細介紹著三種方法。4.2.1固定閾值法固定閾值可以說是最簡單也是最直接的閾值選取方法,即選取單一閾值,將噪聲點和前景目標分離開,噪聲點能夠在二值化時被去掉,保留目標物。因此,這個固定的值的選取就非常重要了。這里選取的是灰度值為60的閾值。圖14圖14固定閾值二值化圖像4.2.2自適應閾值法自適應閾值是一種改進的閾值求取方法,主要的原理是,通過求取某一鄰域的平均值或者加權(quán)平均值在減去一個常數(shù)(一般等于5)得到一個閾值,再進行二值化。在OpenCV的函數(shù)庫中,有關于自適應閾值的函數(shù)cvAdaptiveThreshold,效果見下圖。圖15圖15自適應閾值二值化圖像可以見到,自適應閾值更偏向于提取物體的輪廓,而且,對于復雜背景和噪聲影響較大,當背景復雜或者有晃動時,自適應閾值的效果并不好。4.2.3最大類間方差法最大類間方差也叫大津法是在1979年Otsu提出,之后加以改進運用的。主要原理是計算直方圖和歸一化直方圖之后通過直方圖的零階矩w[i]和一階矩u[i]得到最大方差的灰度值即為閾值。w0uu=其中Pi=niN,為灰度級為i的像素個數(shù)nσ2=[u*wkk為1-M的灰度值,遍歷下來,知道找到最大的方差,則相對應的灰度值就是閾值??梢岳斫鉃?,圖像是背景和前景兩部分,當兩者的類間方差最大時,表示兩部分差別最大,因此選取方差最大的地方為灰度閾值點。[17]圖16圖16最大類間方差閾值法二值化效果對于以上三種閾值選取的方法,可以比較清楚的看到,固定閾值對于噪聲點的去除比較到位,噪聲點很少,但是目標物的提取中間的空洞比較多,自適應閾值法對于背景要求很高,而且提取的是目標物的輪廓,不適用于此環(huán)境,最大類間方差法二值化之后雖然噪聲點比固定閾值多,但是,目標物的提取更為完整,便于后續(xù)處理,因此,本論文采用最大類間方差法即大津法來選取閾值,進行圖像的二值化分離提取前景目標。4.3目標形態(tài)學處理算法形態(tài)學處理主要是在圖像二值化之后對目標物直接進行的一系列處理動作,包括膨脹、腐蝕操作,開、閉操作等等。膨脹和腐蝕操作簡單來說就是根據(jù)原有的像素點的值在對象邊界進行有規(guī)律的擴大添加和刪除邊界的某些像素。膨脹是在核元素的范圍內(nèi)取最大值(一般為1)作為中心元素的值,腐蝕是在核元素范圍內(nèi)取最小值(一般為0)作為中心元素的值。膨脹的作用主要是將提取分離出來的目標物進行的中間的空洞特別是邊緣沒有被提取出來的空缺補充起來,使目標更加完整。而腐蝕的作用主要是消除目標的邊角突刺,同時,腐蝕還有一個用處就是消除剩余的噪聲,因為噪聲多是孤立小塊的點,通過腐蝕可以去掉很多噪聲點。開閉操作,開操作是先做腐蝕處理再做膨脹處理,主要作用是去掉比較小的明亮區(qū)域。閉操作先膨脹再腐蝕,可以去除掉孤立點。開閉操作區(qū)別于單一的膨脹和腐蝕操作主要的地方就在于開閉操作幾乎是保留區(qū)域的,幾乎不改變操作區(qū)域的大小。效果見下圖。圖17圖17形態(tài)學處理前后對比圖(1)(左圖為處理前,右圖為處理后)圖18圖18形態(tài)學處理前后對比圖(2)(左圖為處理前,右圖為處理后)圖19圖19形態(tài)學處理前后對比圖(3)(左圖為處理前,右圖為處理后)可以看到,經(jīng)過一系的處理和對比,圖像已經(jīng)能比較清晰的檢測和分離目標物了,而且圖中,噪聲點也有了很強的抑制效果,目標物的大概輪廓能辨別出來,這樣,視頻分析的最開始,也是最主要的部分已經(jīng)完成。5軟件處理效果分析軟件部分就是由一個個算法組成,在上兩部分中,已經(jīng)將整個軟件的大部分算法有了比較詳細的介紹,并且對不同的算法有了一定的對比效果分析。這一部分的主要內(nèi)容就是將各種算法結(jié)合起來進行軟件編譯運行,實現(xiàn)整個項目的功能。5.1軟件的技術路線圖圖圖20技術路線圖5.2軟件效果分析5.2.1鼠標繪制ROI區(qū)域ROI(RegionOfInterest),感興趣區(qū)域,在視頻播放處理之前,先用鼠標繪制視頻圖像處理的感興趣的區(qū)域,也就是目標檢測的區(qū)域,用于最后判斷目標是否為感興趣目標,同時也可以起到去除部分背景晃動和部分噪聲的作用。圖21鼠標繪制ROI區(qū)域圖圖21鼠標繪制ROI區(qū)域圖5.2.2去除小的噪聲矩形框圖22圖22圖像檢測目標矩形框面積輸出上圖右邊圖像輸出的是目標檢測之后框選出來的各個矩形框的面積值,通過圖片我們可以看到,畫面中總共只有兩個人,但是輸出的面積卻有很多,因為在檢測的時候同時將噪聲點也檢測了出來,而且在兩次平滑濾波以及形態(tài)學處理之后仍然沒有完全去除掉。這些在處理過程中都存在。因此我們需要一個矩形框的面積閾值判斷來去除這些噪聲點。中間輸出的31表示為第31幀圖像??梢钥吹降氖?,在一幀圖像輸出的矩形框的面積中,有兩個比較大的面積值,分別是兩個主要目標,其余的都相對較小,經(jīng)過多個視頻輸出,發(fā)現(xiàn),噪聲點的面積值一般在40-2000之間,而主要目標一般大于4000,為了防止噪聲過大,選取2500,作為噪聲閾值,大于閾值的被判定為目標,小于這個噪聲面積閾值的被判定為噪聲。5.2.3清除走出檢測區(qū)域的目標在視頻開始播放之前,用鼠標繪制的ROI為主要的判斷依據(jù),判斷目標是否走出檢測區(qū)域的標準。在繪制了ROI之后,保存下ROI矩形框的位置坐標,當圖像出現(xiàn)目標,被檢測分離出來之后,用目標矩形框框住,并且,根據(jù)目標矩形框的坐標點和長度寬度來判定目標矩形的中心。在判斷中心是否在ROI范圍內(nèi),若不在范圍內(nèi),則清除目標矩形內(nèi)的目標。這樣既可以清除不必要的目標,也可以清除大量噪聲。圖23圖23軟件運行效果圖(1)圖24圖24軟件運行效果圖(2)對比圖23和圖24可以看出,同一幀圖像,同樣的兩個主要目標,圖23的一個目標不在ROI矩形框內(nèi),因此只顯示了一個目標框、計算一個人數(shù),而圖24的兩個目標都在ROI內(nèi),因此繪制兩個目標框、計數(shù)記為2。5.2.4目標計數(shù)以及舒適程度判斷圖25圖25軟件運行效果圖(1)圖26圖26軟件運行效果圖(2)圖27圖27軟件運行效果圖(3)圖25-27可以看出軟件運行的總體功能實現(xiàn)的效果圖,在ROI區(qū)域的上方顯示了人數(shù)以及人的舒適程度。人數(shù)是通過軟件中的算法計算得到,在圖27上可以看到的是,中間出現(xiàn)人有重疊遮擋的情況,雖然只有一個檢測矩形框,但也識別出了實際人數(shù)。這是通過其中的一個閾值判斷的,根據(jù)預先的運行時對輸出的檢測目標矩形框的面積進行觀察,判斷目標物的大小范圍,然后,設定一個比單一目標稍小的面積閾值,當大于這個目標面積閾值時,在進行判斷,若小于1.4倍的閾值,則判定為這個框中為1個人,若矩形框的大小在1.4倍到2.2倍之間,則判定為這個框中人數(shù)為2人,若面積在2.2到2.6之間,判斷為3人,面積大于2.6則判斷為4個人。人的舒適程度顯示依據(jù)是,當沒有人的時候,顯示為“None”,當出現(xiàn)人物目標,但是小于設定閾值時,顯示為“Comfortable”,而當出現(xiàn)閾值以上的目標時,判定為“Crowded”。而人數(shù)的閾值設定為單一的3個人或者4個人不是很妥當,因為范圍比較大的地方,3-4個人也不會很擁擠,而有的一小塊地方,1-2個人都會擁擠。因此,閾值根據(jù)檢測的感興趣區(qū)域ROI的面積和目標框的面積這兩個參數(shù)來進行判定。由于目標矩形框的不確定性,我們選用之前判斷目標數(shù)目多少的面積閾值來代替矩形框的面積大小。ROI區(qū)域面積除以目標面積的出來的數(shù)為區(qū)域內(nèi)可容納的最多的人數(shù),將此人數(shù)的一般判定為擁擠的閾值,多于最大人數(shù)的一半即為擁擠。因此便會出現(xiàn)在畫面中人多,但是顯示為舒適,有時人少但是呈現(xiàn)出擁擠的狀態(tài)。見下圖。圖28圖28軟件運行效果圖(4)可以看見,圖27和圖28為同一幀圖像,但是圖27的檢測出3人,而圖28中檢測出2人,原因是有一個目標沒有在檢測感興趣區(qū)域ROI范圍內(nèi)。圖27顯示的為綠色的“Comfortable”而圖28顯示為紅色的“Crowded”,原因就是因為右邊圖像原則的ROI范圍小,在小的范文內(nèi),雖然人數(shù)少,但是擁擠。5.2.5軟件運行計數(shù)的準確性表1五個視頻采樣的實際人數(shù)和計算人數(shù)對比表整個軟件最重要的功能就是計數(shù)功能,其次才是判斷在檢測區(qū)域的游客的舒適程度。其中便涉及到了計數(shù)的準確性。由于這個系統(tǒng)是實時檢控的系統(tǒng),因此,判斷系統(tǒng)技術的準確性需要對每一段視頻進行數(shù)據(jù)記錄。具體記錄規(guī)則是:從視頻播放開始,每兩表1五個視頻采樣的實際人數(shù)和計算人數(shù)對比表項目人數(shù)項目人數(shù)視頻時間(s)視頻時間(s)視頻一視頻二視頻三視頻四視頻五實際人數(shù)計算人數(shù)實際人數(shù)計算人數(shù)實際人數(shù)計算人數(shù)實際人數(shù)計算人數(shù)實際人數(shù)計算人數(shù)020011110011042222111122063333211122083333223122104442113333124344323344144433333333164433223356184333112245204433112344224423332265244422222266263322223366282222233354302222224366322222335577342222335588362211325491138221133559940220033551011人數(shù)和5856464543415552102103表1的數(shù)據(jù)為選取的五個40秒時長的視頻每兩秒采集一個實際人數(shù)和計算人數(shù)的數(shù)據(jù),將實際人數(shù)和計算人數(shù)相同的時間點作為準確的點,不相同的點作為不準確的點。表1可以看出在100個數(shù)據(jù)組中,準確的點有83個,不準確的共有18個,得到各個時間點的人數(shù),通過人數(shù)計算該軟件的每個視頻的準確率ρi,再計算總的準確率P,ρi=1-P=i=1K其中R為實際總?cè)藬?shù),r為軟件計算得到的總?cè)藬?shù),K為視頻數(shù),此處為5。準確率精確到小數(shù)點后兩位。通過上式的計算,得到的每個視頻人數(shù)準確率為一次是ρ1=96.55%,ρ2=97.83%,ρ3=95.35%,圖29-圖33為五個視頻中截取的圖片。圖29圖29視頻一運行截圖圖30圖30視頻二運行截圖圖圖31視頻三運行截圖圖32視頻四圖32視頻四運行截圖圖33視頻五運行截圖可以看出,整個系統(tǒng)的準確率還算客觀,而不準確的因素主要歸結(jié)為幾種:1.計算人數(shù)的時候,單一的面積閾值的選取也略顯草率,會出現(xiàn)很多不準的情況。2.第二就是目標在分割的時候分割不徹底,多個目標可能會被識別成一個目標,例如檢測區(qū)域外的前景和檢測區(qū)域內(nèi)的目標出現(xiàn)重疊導致矩形框增大,計算出現(xiàn)錯誤將ROI外的人數(shù)也計算進去了。3.當一部分目標在檢測區(qū)域外,但是和檢測區(qū)域內(nèi)的目標出現(xiàn)重疊,矩形框增大計數(shù)就會出現(xiàn)差錯。4.由于背景復雜,人和背景相似,導致檢測出來的目標很小,被當成噪聲去除等等原因。6總結(jié)與展望6.1項目總結(jié)本論文所述項目從2014年11月確定到2015年5月論文的完成,其中經(jīng)歷了7個月的時間,中間進行了:基礎知識的學習,包括對目標檢測,提取等等的了解、C語言的學習,OpenCV庫函數(shù)的學習熟知等等。在江蘇留園進行視頻的采集,整理,得到眾多幀寬640,幀高640,幀率為12幀/秒的視頻。C語言代碼的編輯,錯誤修改,算法功能的修改。將已經(jīng)編譯好的程序進行實際應用,將視頻運用到代碼上,進行實時調(diào)試。最后進行論文的編寫。整個過程在C語言的編寫上出現(xiàn)了一定的問題,主要原因是從來沒有接觸過C語言長篇的編程過程,不知道該怎么進行,在加上對OpenCV不完全熟悉的情況下,不知所措。最終在一點一點的積累和熟悉的基礎上,完成了任務。最終代碼完成了,預計的功能也實現(xiàn)了,但是最后的結(jié)果還是有不準確的情況,這是由于學習工作還沒有完全深入,例如還沒有完全理解并且熟悉運用膨脹腐蝕,開閉等形態(tài)學處理操作,導致很小地方的目標與目標之間粘連沒有完全分開,而且目標的空洞也沒有完全去除,這是一個目標檢測不準的重要原因。6.2項目展望本項目是基于視頻分析的目標檢測,因此有著廣闊的發(fā)展前景,單從項目自身來說同樣有著很多需要改進的地方:1.背景提取的方法。背景差分的方法最重要的便是背景的提取,直接關系到目標檢測的效果,本論文所述的背景僅僅是用第一幀圖像做背景,有很大的局限性。2.濾波方法。濾波的方法很多,在本論文中僅僅只列出對比了中值濾波和高斯濾波。3.形態(tài)學處理。形態(tài)學處理是是目標被完整檢測的關鍵一步,本論文的形態(tài)學處理的過程還需改進。4.遮擋目標計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論