人臉跟蹤和檢測研究碩士學位論文_第1頁
人臉跟蹤和檢測研究碩士學位論文_第2頁
人臉跟蹤和檢測研究碩士學位論文_第3頁
人臉跟蹤和檢測研究碩士學位論文_第4頁
人臉跟蹤和檢測研究碩士學位論文_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

西華大學碩士學位(畢業(yè))論文題目:人臉檢測與跟蹤算法研究西華大學碩士學位論文PAGE2PAGEX西華大學碩士學位論文畢業(yè)設計(論文)原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾:所呈交的畢業(yè)設計(論文),是我個人在指導教師的指導下進行的研究工作及取得的成果。盡我所知,除文中特別加以標注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得及其它教育機構(gòu)的學位或?qū)W歷而使用過的材料。對本研究提供過幫助和做出過貢獻的個人或集體,均已在文中作了明確的說明并表示了謝意。作者簽名:日期:指導教師簽名:日期:使用授權(quán)說明本人完全了解大學關于收集、保存、使用畢業(yè)設計(論文)的規(guī)定,即:按照學校要求提交畢業(yè)設計(論文)的印刷本和電子版本;學校有權(quán)保存畢業(yè)設計(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務;學??梢圆捎糜坝?、縮印、數(shù)字化或其它復制手段保存論文;在不以贏利為目的前提下,學??梢怨颊撐牡牟糠只蛉績?nèi)容。作者簽名:日期:

學位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人在導師的指導下獨立進行研究所取得的研究成果。除了文中特別加以標注引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。對本文的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律后果由本人承擔。作者簽名: 日期:年月日學位論文版權(quán)使用授權(quán)書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,同意學校保留并向國家有關部門或機構(gòu)送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權(quán)大學可以將本學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。涉密論文按學校規(guī)定處理。作者簽名: 日期:年月日導師簽名:日期:年月日

人臉檢測與跟蹤算法研究 圖像中的人往往是整個圖像的中心,而根據(jù)人眼的視覺特性,人們通常對圖像中人的臉部區(qū)域更感興趣,因此人臉相關的圖像處理技術(shù)成為了計算機視覺中的一個非常重要的研究方向。人臉處理技術(shù)在身份驗證、人機交互接口、智能視覺監(jiān)控、基于感興趣區(qū)域ROI(RegionofInterest)的編碼與傳輸、可視電話等領域有著廣泛的應用,有著廣闊的發(fā)展前景。本文研究的目標是在人臉檢測的基礎上進行人臉跟蹤,選用快速有效的人臉檢測算法,在保證實時性的基礎上,提高人臉跟蹤的準確性。本文研究的內(nèi)容主要分為三個部分:人臉可能區(qū)域的獲得,人臉檢測,人臉跟蹤。本文采用幀間差法對視頻圖像進行運動檢測,獲得運動區(qū)域。研究了經(jīng)典的HsuRL膚色檢測算法,在運動區(qū)域內(nèi)進行膚色檢測,得到有可能存在人臉的區(qū)域,以減少后續(xù)人臉檢測的范圍,提高檢測速度。對可能存在人臉的區(qū)域進行人臉檢測,本文深入研究了經(jīng)典的Adaboost人臉檢測算法,同時針對Adaboost經(jīng)典算法對人一定角度的側(cè)臉檢測率不高的問題,本文分析了人側(cè)臉的五官結(jié)構(gòu)在透視情況下的特性,改進了傳統(tǒng)的Harr-like特征,得到一系列具有透視特性的進行側(cè)臉檢測的特征,將這些側(cè)臉特征與傳統(tǒng)的Harr-like特征一起構(gòu)成新的特征庫,用Adaboost算法構(gòu)建分類器級聯(lián)結(jié)構(gòu)。通過實驗證明,在針對側(cè)臉情況下進行人臉檢測時結(jié)合使用本文的特征具有較好的效果。本文通過對馬賽克圖像法的研究提出了針對多尺度五官結(jié)構(gòu)的正面人臉模板,并且根據(jù)透視原理提出了側(cè)面人臉模板。利用這些模板來限定Adaboost人臉檢測法中傳統(tǒng)的Harr-like特征與側(cè)臉特征的空間位置大小關系,整合了特征,組合成強分類器。使用該強分類器對符合人臉模板的典型人臉進行檢測時具有較快的檢測速度,與用Adboost算法構(gòu)成的分類器級聯(lián)結(jié)構(gòu)結(jié)合起來進行人臉檢測。實驗證明,運用本文方法進行人臉檢測具有較好的實用性。把檢測到的人臉作為目標進行跟蹤,本文采用Kalman濾波預測人臉運動區(qū)域,并使用計算圖像間的協(xié)方差值來判定圖像相似度的模板匹配法來進行人臉目標匹配,具有較好的實用性。實驗證明,在本文提出的人臉檢測法的基礎上進行跟蹤具有速度較快,準確性較高的特點。關鍵詞:圖像處理,人臉檢測,跟蹤,Adaboost,模板匹配。ResearchOnTheAlgorithmOfHumanFaceDetectionAndTrackingComputersoftwareandtheoryM.D.Candidate:HeShaofuSupervisor:LuoXiaoHuiPeopleintheimagearealwaysthepointoftheimage,butaccordingtotheHumanVisualProperties,thepeopleusuallypaymoreattentiontothehumanfaceareaoftheimage,thereforethefacerelatedimageryprocessingtechnologyhasbecomeanimportantresearchdirectionofthecomputervisionfield.Thefaceprocessingtechnologyhaswideapplicationandgreatdevelopmentprospectinthefieldofidentificationverification,theman-machineinteractioninterface,theintelligentvisionmonitoring,thecodeandtransmissionbasedonROI(RegionofInterest),andthevideophone.Thepurposeofthispaperistodosomeresearchonhumanfacetrackingbasedonfacedetection.Sowechoosethefacedetectionalgorithmwhichisspeedyandeffective,canincreasetheaccuracyonthefoundationofrealtimetracking.Thiscontentcanmainlybedividedintothreeparts:thepossiblefaceareajudgment,facedetectionandfacetracking.Wedomotiondetectionbyfamesubtractionmethod,getthemotionarea.ThendoresearchontheHsuRLskincolordetectionalgorithm,doskincolordetectiononthemotionarea,getthepossiblefaceareawhichcanreducethefacedetectionareaandspeedupthedetection.Whenwearedetectingfaceinthepossiblefacearea,thisthesisdoadeepresearchontheAdaboostalgorithm,regardingtheAdaboostclassicalgorithmdoesn’thavegoodeffectonthecircumstanceofsideface,weanalyzethecharacteristicsofthefivesensesorgansinperspectiveconditions,improvethetraditionalHarr-likefeatures,getsomeperspectivefeatureswhichcanbeusedtodosidefacedetection,thenweuseAdaboostalgorithmtocreatethenewsorterunionstructurebythesidefacefeaturesandtraditionalHarr-likefeaturestogether.Experimentproves,intheconditionofside,usingfeaturesputforwardbythisthesishadbetterdetectioneffectthanusetraditionalHarr-likefeaturesonly.Thethesisproposesafacetemplateofamuti-scalesfacefivesensesorganstemplatebasedonthemosaicimagemethod,thenproposesomesidefacetemplateaccordingtoperspective.WelimitthepositionofHarr-likefeaturesandsidefacefeaturesbythosetemplate,unitefeaturesandformastrongsorter.,whichcanspeedupfacedetectionandcanbeusedtodetectfacetogetherwiththesorterunionstructureofAdaboostalgorithm.Theexperimentproved,usingthemethodofthethesishadgoodpracticabilityinfacedetection.Trackthedetectedfaceasanobject,thethesisforecastsfacemovementareabyKalmanfilter,thenmakesuseofatemplatematchingmethodofjudgingthesimilarityofimagebytheCovariance,whichhasgoodpracticability.Experimentsproved,trackingfaceintheconditionofthefacedetectionmethodtakenbythethesis,wasfastandaccurate.Keyword:imageprocessing,humanfacedetection,tracking,Adaboost,templatematching.目錄TOC\o"1-2"\h\z\u1緒論 11.1研究的背景及意義 11.2人臉檢測與跟蹤技術(shù)簡介 21.3人臉檢測與跟蹤的研究狀況 31.4人臉檢測方法綜述 31.5人臉跟蹤方法綜述 51.6本文的研究方法 61.7論文的結(jié)構(gòu)與內(nèi)容 82人臉跟蹤系統(tǒng)的組成原理及硬軟件知識 92.1人臉跟蹤系統(tǒng)工作原理 92.2人臉跟蹤系統(tǒng)的硬件構(gòu)成 92.3開發(fā)工具 113圖像預處理 124運動檢測和分析法 134.1運動物體定位 134.2孔洞填充和運動區(qū)域判斷 165人體的膚色檢測 175.1顏色空間 175.2膚色模型 185.3HsuRL膚色檢測算法[34] 206基于五官特征的多尺度人臉檢測法 236.1多尺度的人臉檢測 236.2基于灰度結(jié)構(gòu)的馬賽克模糊結(jié)構(gòu)的檢測 236.3本文改進的基于五官結(jié)構(gòu)的多尺度人臉檢測模板 256.4基于Adaboost的人臉檢測 296.5本文改進的Adaboost的人臉檢測法 377人臉目標跟蹤 477.1概述 477.2技術(shù)現(xiàn)狀 477.3模板匹配法 507.4狀態(tài)預測方法 547.5跟蹤實驗結(jié)果 598結(jié)論與展望 609參考文獻 6210作者在讀期間的科研成果 6611聲明 6712授權(quán)書 6813致謝 69CONTENTSTOC\o"1-2"\h\z\u1Introduction 11.1Backgroundandmeanningoftheresearch 11.2Introductionofhumanfacedetectionandtracking 21.3Aplicationandresearchofhumanfacedetectionandtracking 31.4Introductionofhumanfacedetectionmethod 31.5Introductionofhumanfacetrackingmethod 51.6Researchofthisthesis 61.7Researchofthisthesis 82Frameoffacetrackingsystemandknowledgeofsoftwareandhardware 92.1Principleofhumanfacetrackingsystem 92.2Principleofhumanfacetrackingsystem 92.3Developmenttool 113Pretreatmentofimage 124Motiondetectionandanalyse 134.1Locatethemovementarea 134.2Filltheholeandlocatemovementarea 165Skincolordetection 175.1Colorspace 175.2Skincolormodel 185.3HsuRLskincolordetection 206Muti-scaleshumanfacedetectionbasedonfivesensesorgansstructure 236.1Muti-scaleshumanfacedetection 236.2Mosaicstructuredetectionbasedongrayimage 236.3Muti-scalesfacetemplatebasedonfivesensesorgansstructure 256.4FacedetectionbyAdaboostarithmetic 296.5Adaboostfacedetectionmethodimprovedbythesis 377Faceobjecttracking 477.1Introduction 477.2Presentationoftrackmethod 477.3Templatematching 507.4Stateforecastmethod 547.5Resultoftracking 598Conclusionsandoutlook 609References 6210Academicresults 6611Announcements 6712Authorization 6813Acknowledgements 691緒論1.1研究的背景及意義近年來,隨著信息技術(shù)的發(fā)展,應用的普及性不斷提高,以及計算機的軟硬件性能的飛速提升,更加高效并且也更加友好的人機交互技術(shù),即HCI(HumanComputerInteraction)被不斷的提出并應用于我們周圍,并且這些技術(shù)的應用不再依賴于傳統(tǒng)的鍵盤,鼠標,顯示器等設備,開始向著多模態(tài)人機交互的方向發(fā)展。多模態(tài)人機交互模擬人類自然交流的方法,包括視覺、聽覺、觸覺和嗅覺,試圖綜合圖像,聲音,文字等手段,達到與計算機進行交流的目的,其中以視覺交流最為方便和易于接受。同時,圖像處理設備的性價比也不斷的提高,從而使得基于圖像處理的人機交互技術(shù)成為當前研究領域的熱點。同時隨著人機交互技術(shù)的發(fā)展,視頻監(jiān)控,可視電話、視頻電視會議的廣泛應用,人們開始將人臉檢測與跟蹤作為統(tǒng)一的整體加以研究。目前人臉檢測與跟蹤的應用背景己經(jīng)遠遠超出了人臉識別系統(tǒng)的范疇。作為完整的單獨功能模塊,人臉檢測與跟蹤已的應用領域十分廣泛,已經(jīng)成為了計算機視覺及相關領域中的關鍵技術(shù),在基于內(nèi)容的視頻存儲與檢索、數(shù)字視頻處理、高級人機交互、智能視頻監(jiān)控等方面有著重要的應用價值。在CBIR(Content-basedImageRetrieval,即基于內(nèi)容的圖像檢索)系統(tǒng)中,圖像中的人臉可以成為圖像檢索的條件,因此許多CBIR系統(tǒng)都將人臉檢測作為系統(tǒng)中一個重要的組成部分。例如芝加哥大學開發(fā)的用于在萬維網(wǎng)上搜索圖像的影像搜索引擎Webseer,其中就使用了基于神經(jīng)網(wǎng)絡的人臉檢測作為搜索引擎的一部分。因特網(wǎng)上廣泛使用的數(shù)字圖書館中包含了大量的視頻及音頻信息,因此許多數(shù)字圖書館將人臉檢測作為系統(tǒng)搜索引擎的一個重要的組成部分。在智能人機接口應用領域中,我們希望未來的機器能像人一樣與我們更加容易和便捷地交流,如手勢驅(qū)動控制、手語翻譯等。人與人之間的信息交流主要是依靠語言,并適當結(jié)合手勢、身體姿勢和面部表情等,因此視覺信息可以作為語音和自然語言理解的有效補充來完成更加智能的人機交互。這就要求未來的計算機必須具備感知外部環(huán)境的能力,即代替?zhèn)鹘y(tǒng)的鍵盤或鼠標輸入模式、獨立地提取周圍環(huán)境的重要信息(如檢測到人的存在等);更進一步的能力是進行人的識別和視頻中的人臉檢測跟蹤技術(shù)及其應用行為理解,結(jié)合面部表情、身體姿勢和手勢等的分析來與人進行相應的交流。在視頻監(jiān)視系統(tǒng)中,人臉檢測和跟蹤技術(shù)得到了及其重要的應用。針對敏感場合(如銀行、商店、停車場)開發(fā)的智能監(jiān)控系統(tǒng),能夠每天連續(xù)24小時的實時監(jiān)視,并自動分析攝像機捕捉的圖像數(shù)據(jù),當盜竊發(fā)生或發(fā)現(xiàn)到具有異常行為的可疑的人時,系統(tǒng)能向保衛(wèi)人員準確及時地發(fā)出警報,從而避免犯罪的發(fā)生;同時,人臉檢測與跟蹤技術(shù)在訪問控制場合,在自動售貨機、ATM機、交通管理、公共場所行人的擁擠狀態(tài)分析及商店中消費者流量統(tǒng)計等監(jiān)控方面也有著相應的應用。同樣,人臉檢測和跟蹤還可以應用于其他許多領域,比如現(xiàn)在數(shù)碼相機中常見的對人臉進行檢測和自動對焦,以及MPEG4中采用的基于對象的壓縮等。1.2人臉檢測與跟蹤技術(shù)簡介人臉檢測問題最初來源于人臉識別,它是自動人臉識別系統(tǒng)中的一個關鍵環(huán)節(jié)。但是早期的人臉識別研究主要針對具有較強約束條件的人臉圖像(如無背景的圖像),往往假設人臉位置已知或很容易獲得,因此人臉檢測問題并未受到重視。近幾年隨著電子商務等應用的發(fā)展,人臉識別成為最有潛力的生物身份驗證手段,這種應用背景要求自動人臉識別系統(tǒng)能夠?qū)σ话悱h(huán)境圖像具有一定的適應能力,由此所面臨的一系列問題使得人臉檢測也開始作為一個獨立的課題受到研究者的重視。一般人臉檢測問題可以描述為:給定一副靜止圖像或一段動態(tài)圖像序列,從未知的圖像背景中分割、提取并確認可能存在的人臉,如果檢測到人臉,提取人臉特征。雖然人類能毫不費力地識別出人臉及其表情,但用機器自動進行人臉檢測與識別卻是一個難度極大的課題。它牽涉到模式識別、圖像處理及生理、心理學等方面的諸多知識。其面臨的問題可以歸結(jié)如下:1.圖像中是否存在人臉:即如何判斷圖像中是否存在人臉,如何區(qū)別人臉和類似人臉的非人臉圖像。2.檢測不同表現(xiàn)形式的人臉:人臉可能以不同視角出現(xiàn)在圖像中,也可能被某些物體遮擋,造成某些用于檢測而需提取的人臉特征不可見,INDEX\o"S"\c"2"\z"2052"為了實現(xiàn)檢測方法的魯棒性,還需考慮人臉在各種復雜的背景中,不同方向、角度、尺度等情況下所展現(xiàn)出來的不同表象。3.圖像中存在著噪聲:檢測對象大多是由圖像捕捉設備所采集的數(shù)字圖像或視頻流中的數(shù)字圖像序列,所以采集條件特別是光照條件包括光源的方向、明暗、色彩等都會對圖像的效果產(chǎn)生很大的影響,進而影響對人臉的檢測。4.人臉自身的因素:人臉是一個包含五官、毛發(fā)等極不規(guī)則的復雜待測目標,不同的人臉在形狀、大小、顏色、質(zhì)地等方面都有很大的變化性,某些局部特征具有隨機性(如眼鏡、胡須、發(fā)型等),而且還存在著不同表情的人臉,以及時間間隔產(chǎn)生人臉的變化等,這些都給人臉檢測帶來難度。人臉檢測問題在近十年中得到了廣泛的關注和長足的發(fā)展,國內(nèi)外很多研究學者提出了很多方法,在不同的領域取得了一定的成果。但是對于尋找一種能夠普遍適用于各種復雜情況的準確率很高的檢測算法,還有很大的距離。1.3人臉檢測與跟蹤的研究狀況目前國外對人臉檢測與跟蹤問題的研究很多,比較著名的有MIT、CMU等;國內(nèi)的清華大學、北京工業(yè)大學、南京理工大學、中國科學院計算技術(shù)研究所和中國科學院自動化研究所等都有人員從事人臉檢測與跟蹤的相關研究。而且MPEG7標準組織已經(jīng)建立了人臉識別草案小組,人臉檢測與跟蹤算法也是一項征集的內(nèi)容。隨著人臉檢測與跟蹤研究的深入,國際上發(fā)表的有關論文數(shù)量也大幅度增加,EI可檢索到的相關文獻多達數(shù)千篇,每年的國際會議上關于這方面的專題也屢屢可見,如IEEE的FG(IEEEInternationalConferenceonAutomaticFaceandGestureRecognition)、CVPR(ConferenceonComputerVisionandPatternRecognition)、ICIP(InternationalConferenceonImageProcessing)、ICPR(InternationalConferenceonPatternRecognition)等重要國際會議上每年都有大量關于人臉檢測與跟蹤的論文,占有關人臉研究論文的近1/3之多。1.4人臉檢測方法綜述人臉檢測的基本思想是用知識或統(tǒng)計的方法,比較所有可能的待檢測區(qū)域與人臉模型的匹配度,從而得到可能存在人臉的區(qū)域。人臉檢測問題所包含的內(nèi)容十分廣泛。從不同的角度有多種分類方法。根據(jù)利用人臉知識的不同,現(xiàn)有的人臉檢測技術(shù)方法可以分為三類:基于特征的方法、模板匹配法、基于表象(appearance-based)的方法。1.基于特征的人臉檢測方法是通過檢測出不同的人臉面部特征的位置,然后根據(jù)它們之間的空間幾何關系來定位人臉。這種方法又可以進一步分為基于知識和基于局部特征的檢測策略?;谥R的方法首先定位候選人臉區(qū)域,然后再通過人臉的先驗知識來檢驗人臉是否存在。與之相對應的基于局部特征的方法中,人臉的局部特征如眼睛、鼻子和嘴唇等首先被檢測出來,然后由這些局部特征組合成人臉。另外,膚色特征與運動特征也能與其他特征相結(jié)合用于人臉檢測之中。2.早期的基于模板匹配的方法[1]處理過程是:首先建立一個標準的人臉模板,由包含局部人臉特征的子模板構(gòu)成,然后對一幅輸入圖像進行全局搜索,對應不同尺度大小的圖像窗口,計算與標準人臉模板中不同部分的相關系數(shù),通過預先設置的閾值來判斷該圖像窗口中是否包含人臉。利用基于模板的方法來定位眼睛的位置,他們把標準的眼睛模板調(diào)整為5個不同的尺寸,然后在輸入圖像中找尋眼睛。這種簡單模板匹配的方法易于實現(xiàn),但是也存在著缺點:圖像噪聲對檢測結(jié)果影響很大,因此需要對輸入圖像做適當?shù)念A處理;標準模板的大小是人為設定的,因此不能動態(tài)檢測眼睛的位置。Yullie等人提出了一種基于彈性模板的人臉檢測方法[2]。彈性模板是由一個根據(jù)被測物體形狀而設定的參數(shù)化的可調(diào)模板和與之相應的能量函數(shù)所構(gòu)成,能量函數(shù)要根據(jù)圖像的灰度信息、被測物體輪廓等先驗知識來設計。當用彈性模板進行人臉檢測時,首先,將可調(diào)模板在待測圖像中移動,并動態(tài)地調(diào)整其參數(shù),計算能量函數(shù)。當能量函數(shù)到達最小值時,根據(jù)其位置和參數(shù)所決定的可調(diào)模板形狀應該達到與人臉形狀的最佳擬合,這樣就檢測到了一幅人臉。這種方法的優(yōu)點在于,由于使用的彈性模板可調(diào),能夠檢測不同大小、具有不同偏轉(zhuǎn)角度的物體。但是其缺點是檢測前必須根據(jù)待測物體的形狀來設計彈性模板的輪廓,否則會影響收斂的結(jié)果;當對圖像進行全局搜索時,由于要動態(tài)地調(diào)整參數(shù)和計算能量函數(shù),計算時間過長。3.基于表象的方法遵循一種統(tǒng)一的模式,即首先通過學習,在大量訓練樣本的基礎上建立一個能對人臉和非人臉樣本進行正確識別的分類器,然后對被檢測圖像進行全局掃描,用分類器檢測掃描到的圖像窗口中是否包含人臉。若有,則給出人臉所在的位置。采用這種檢測模式的理論依據(jù)是:人臉具有統(tǒng)一的結(jié)構(gòu)模式(都是眉毛,眼睛,鼻子和嘴巴等器官構(gòu)成),如果將所有的圖像集看作一個高維線性空間,那么整個人臉圖像集僅對應于其中的某個子空間。通過檢驗待測圖像窗口是否落在這個子空間中來判斷其是否為人臉。因此,通過大量的人臉和非人臉樣本來建立一個分類器,使它能正確分辨這兩種不同的圖像模式,再利用訓練好的分類器在未知的圖像中檢測人臉。在這些方法中,基于支持向量機與基于神經(jīng)網(wǎng)絡的人臉檢測的方法是最具有代表性的[3]。另外,Viola[4]提出了積分圖像概念和基于Adaboost方法訓練人臉檢測分類器的方法,具有速度快、檢測率高等優(yōu)點,是目前較有影響的一種方法。隨后Li的研究組[5]發(fā)展了這一方法,建立了實時的多視角人臉檢測系統(tǒng)。Viola的方法利用積分圖像快速計算圖像的矩特征;通過Adaboost學習算法選擇少量的關鍵特征并構(gòu)造分類器;在檢測時,將多個分類器組成一個級聯(lián)結(jié)構(gòu),以快速的排除圖像中的非人臉區(qū)域。1.5人臉跟蹤方法綜述人臉跟蹤方法主要分為基于運動(Motion-based)的方法和基于模型(Model-based)的方法兩類。其中前者主要采用圖像差分,光流等方法跟蹤人臉,這種方法跟蹤速度快,但依賴于目標的運動一致性假設,跟蹤精度不高;后者則首先獲得目標的先驗知識,構(gòu)造目標的模型,然后對輸入的每一幀圖像通過滑動窗口進行模式匹配,這種方法可以獲得較高的跟蹤精度,但計算復雜,幀間模型特征的匹配是問題的關鍵。一.基于運動的跟蹤方法基于運動的跟蹤方法完全依賴運動信息來檢測運動目標,因此可跟蹤任意大小和形狀的運動目標,根據(jù)采用的檢測運動目標技術(shù)不同,主要分為圖像差分(ImageDifference)方法和光流(OpticalFlow)方法兩種。圖像差分[6]是檢測相鄰兩幀圖像序列之間變化的最簡單方法,主要有兩種類型的差分:當前圖像與固定背景圖像之間的差分以及當前連續(xù)兩幀圖像之間的差分。其中前者的優(yōu)點是位置精確、速度快,因為它只需獲取當前的一幅圖像,不足之處是受環(huán)境光照變化的影響,在非受控環(huán)境下需要加入背景圖象更新機制,且不適用于攝像頭運動或者背景灰度變化很大的情況;后者的優(yōu)點在于它只對運動物體敏感,實際上它只檢測相對運動的物體,而且因為兩幀圖像的時間間隔較短,差分圖像受光照變化影響小,檢測有效而穩(wěn)定,其缺點是檢測出的物體的位置不精確。光流(Opticalflow)技術(shù)是運動跟蹤中最典型的方法之一,它是將人臉圖像分成一些小平面,通過計算這些小平面上的光流來跟蹤人臉的運動。Decarlo和Metaxas[7]結(jié)合光流和邊緣信息,得出基于3D變形模型的最小二乘光流解,并結(jié)合Kalman濾波進行實時人臉運動跟蹤。二.基于模型的跟蹤方法基于模型的跟蹤方法基本思想是首先獲取目標的先驗知識,構(gòu)造目標模型,然后對輸入的每一幀圖像通過滑動窗口進行模型匹配。這類跟蹤方法主要有兩種思路:一種是對整個頭部進行跟蹤,即將頭部的旋轉(zhuǎn)和位移運動視為剛體的運動,利用頭部形狀特征對其進行跟蹤,如Birchfield等人[8]實現(xiàn)的人臉跟蹤系統(tǒng)。膚色信息具有姿態(tài)不變性的特點,而且實現(xiàn)簡單,因此大多數(shù)系統(tǒng)采用膚色特征進行跟蹤[9]。另一種思路是對臉部重要器官的特征進行跟蹤[10],Yang等人[11]實現(xiàn)的人臉跟蹤系統(tǒng)是這類方法中較有代表性的一種,他們采用三種模型達到人臉跟蹤的目的,即用高斯統(tǒng)計模型描述人臉膚色分布,用運動模型預測估計運動區(qū)域,用攝像機模型來預測并補償攝像機運動。綜上所述,雖然各種各樣的人臉跟蹤方法層出不窮,但目前的跟蹤系統(tǒng)普遍存在跟蹤速度慢、對人臉姿態(tài)變化較敏感等缺點,基于一般PC機上的實時人臉跟蹤系統(tǒng)還有待于進一步研究和開發(fā)。1.6本文的研究方法本文研究的主要內(nèi)容為人臉的檢測與跟蹤算法,主要工作如下:1.通過運動檢測和人體的膚色檢測來去除大部分非人臉的區(qū)域,得到備選人臉區(qū)域,以減小誤檢率和提高檢測速度。2.從人最基本的視覺角度入手,進行人臉結(jié)構(gòu)的分析,通過對馬賽克圖像法人臉檢測的研究,提出了基于五官結(jié)構(gòu)的多尺度人臉檢測法,并且根據(jù)透視原理創(chuàng)建了針對不同側(cè)臉角度的人臉檢測的人臉模板,整合了Harr-like特征訓練成強分類器,以檢測符合典型模板的人臉。然后從人臉模板中提取特征,并且提出了一種鼻嘴結(jié)構(gòu)的特征,結(jié)合Harr-like特征一起采用Adaboost算法進行人臉的檢測。圖像預處理運動檢測膚色檢測獲得類人臉區(qū)域基于五官特征的人臉檢測是不是人臉人臉跟蹤攝像頭取幀是否圖像預處理運動檢測膚色檢測獲得類人臉區(qū)域基于五官特征的人臉檢測是不是人臉人臉跟蹤攝像頭取幀是否Fig.1.1Flowchart圖1.1算法流程圖1.7論文的結(jié)構(gòu)與內(nèi)容第二章敘述了人臉跟蹤系統(tǒng)的組成原理,并介紹了硬件知識。介紹了存儲于計算機的數(shù)據(jù)格式,視頻圖像的采集,圖像基本知識和開發(fā)工具。第三章對圖像進行預處理,包括彩色圖像轉(zhuǎn)換成灰度圖像和用中值法對圖像進行濾波去噪兩個部分。第四章運動檢測,采用的幀間差發(fā)檢測運動區(qū)域,然后通過數(shù)學形態(tài)學中的膨脹法進行空洞填充,標記下各個聯(lián)通區(qū)域,去除過小的區(qū)域,最終保留的面積較大的孤立區(qū)域即是待分析的目標。第五章人體的膚色檢測,先對檢測出來的運動區(qū)域進行光線補償,然后采用HsuRL膚色檢測算法進行膚色檢測,獲得備選人臉區(qū)域。第六章基于五官特征的多尺度人臉檢測。將備選人臉區(qū)域劃分為若干特定大小的塊,建立正面和側(cè)面的人臉模板。改變劃分塊的大小,以達到檢測大小不同的人臉的目的。用人臉模板整合Harr-like特征組合成強分類器,并且通過透視原理從中得到新的特征和鼻和嘴的結(jié)構(gòu)特征,結(jié)合harr-like特征進行Adaboost人臉檢測。第七章對人臉目標的跟蹤。把檢測到的人臉作為運動目標進行跟蹤,采用kalman濾波進行目標的運動預測,并且提出了一種根據(jù)圖像間協(xié)方差值來判定圖像相似度的模板匹配法來進行運動目標匹配。第八章總結(jié)論文的工作,提出不足之處,并解決不總為未來的研究方向。2人臉跟蹤系統(tǒng)的組成原理及硬軟件知識人臉跟蹤系統(tǒng)主要是通過攝像機監(jiān)控目標區(qū)域,使用數(shù)字圖像處理技術(shù)自動檢測目標區(qū)域中是否存在人臉,如果存在則在人臉處做標記進行跟蹤。2.1人臉跟蹤系統(tǒng)工作原理(1)通過系統(tǒng)初始化,對系統(tǒng)中的參數(shù)進行設定,如每秒采集圖像的幀數(shù)等。由圖像采集系統(tǒng)將攝像機攝取的視頻圖像按序列連續(xù)捕捉下來并數(shù)字化,存入幀緩存中。(2)將這些采集到的序列數(shù)字圖像進行預處理(灰度化、濾波除噪)。(3)對預處理后的圖像進行運動檢測,膚色檢測,獲得備選人臉區(qū)域。(4)在備選人臉區(qū)域進行人臉檢測。(5)對檢測到的人臉進行跟蹤。2.2人臉跟蹤系統(tǒng)的硬件構(gòu)成人臉跟蹤系統(tǒng)的硬件由攝像機、圖像采集卡、控制處理計算機、顯示設備組成。1.攝像機視頻檢測系統(tǒng)的攝像機采用CCD攝像機。CCD攝像機是通過強光照射在加有外加驅(qū)動時鐘脈沖電壓驅(qū)動下的CCD光敏面上完成電荷注入、電荷轉(zhuǎn)移、電荷輸出實現(xiàn)視覺信息的獲取、保留、傳輸?shù)膬x器。CCD攝像機采用CCD電子藕合器件替代攝像管,在硅片上集成了以陣列分布的成像單元及相應的控制電路、輸出電路。CCD攝像器件具有小型、輕重量、長壽命、低工作電壓、圖像無幾何失真、抗灼傷等優(yōu)點。目前,工業(yè)用的攝像機絕大多數(shù)的為CCD攝像機。CCD攝像機拍攝的圖像質(zhì)量與CCD的數(shù)量、CCD的感光面積、CCD的工作方式有很大關系。2.圖像采集卡 攝像頭傳送過來的電信號與計算機之間的接口是圖像采集卡。采集卡就是將其他數(shù)據(jù)源(如電視機,模擬錄像機、VCD機、數(shù)字攝像機)等輸出的視頻數(shù)據(jù)或者視頻音頻的混合數(shù)據(jù)導入電腦,并轉(zhuǎn)換成電腦可辨別的數(shù)據(jù),存在電腦中,成為可以編輯處理的數(shù)字信號。模擬圖像經(jīng)過采樣、量化以后轉(zhuǎn)換為數(shù)字圖像并輸入、存儲到幀存儲器的過程,稱為采集、數(shù)字化、獲取、捕獲、捕捉、抓取、抓幀等,因此視頻采集卡也稱捕獲卡、獲取卡、視頻輸入等。目前圖像采集卡種類繁多,其性能特征主要有以下幾點,(1)是否支持視頻數(shù)據(jù)的硬件級處理這點影響處理速度。(2)幀速率的高低幀速率的高低直接影響采集卡制作的視頻文件能否流暢,以及CPU占用率的高低。(3)分辨率的高低分辨率是視頻文件質(zhì)量好壞的主要參數(shù),如一般VCD的分辨率為352×288(PAL制式)和320×240(NTSC制式),而DVD的分辨率一般為704×480(30fps)或704576(25fps)。大多數(shù)視頻卡都具備硬件壓縮的功能,在采集視頻信號時首先在卡上對視頻信號進行壓縮,然后再通過PCI接口把壓縮的視頻數(shù)據(jù)傳送到主機上。采集卡都是把獲取的視頻序列先進行壓縮處理,然后再存入硬盤,也就是說視頻序列的獲取和壓縮是在一起完成的,免除了再次進行壓縮處理的不便。不同檔次的采集卡具有不同質(zhì)量的采集壓縮性能。視頻采集卡的工作方式可以是單幀采集或連續(xù)采集,可將采集的圖像序列放在內(nèi)存或磁盤上,可對圖像進行壓縮或不壓縮。3.控制處理計算機由于模擬視頻輸入端可以提供不間斷的信息源,視頻采集卡要采集模擬視頻序列中的每幀圖像,并在采集下一幀圖像之前把這些數(shù)據(jù)傳入系統(tǒng)。因此,實現(xiàn)實時采集的關鍵是每一幀所需的處理時間。如果每幀視頻圖像的處理時間超過相鄰兩幀之間的相隔時間,則要出現(xiàn)數(shù)據(jù)的丟失,也即丟幀現(xiàn)象。性能越高的采集卡其處理每一幀所需的時間越短,因此數(shù)據(jù)率也越高,這要求CPU處理速度也越高。因此選用較高的CPU并有效地利用內(nèi)存是采集視頻的基本要求。4.顯示設備顯示是將數(shù)字圖像轉(zhuǎn)化為適合人們使用的形式,便于人們觀察和理解。早期的圖像處理設備一般都有專門的圖像監(jiān)視器供顯示專用,目前一般直接用計算機的圖形終端顯示圖像,圖像窗口只是圖形用戶界面的一個普通的窗口。為方便處理,通常圖像都表現(xiàn)為一矩形區(qū)域的位圖形式。2.3開發(fā)工具本文所采用的開發(fā)工具是VisualC++6.0。VisualC++6.0是Microsoft公司開發(fā)的基于C/C++的集成開發(fā)工具,它是VisualStudio中功能最為強大、代碼效率最高的開發(fā)工具。用戶可利用VisualC++6.0以兩種方式編寫Win32應用程序,一種方式是基于Win32API的C編程方式,另一種是基于MFC的C++編程方式。C編程方式是傳統(tǒng)的編程方式,代碼的效率較高,但開發(fā)難度與開發(fā)的工作量大。C++編程方式代碼運行效率相對較低,但開發(fā)難度小、開發(fā)工作量小、源代碼效率高。本文是基于C++的編程方式。3圖像預處理圖像被采集到計算機后,出于種種原因會存在噪聲,或者存在不利于進一步處理的地方。為了方便進一步處理,需要對采集的原始圖像先進行預處理。本系統(tǒng)圖像預處理的內(nèi)容有:1.將彩色圖像轉(zhuǎn)換成灰度圖像,以在不影響處理效果的情況下減少處理的信息量,加快處理的速度。2.采用中值濾波器對原始圖像進行濾波,消除或減少噪聲對后續(xù)處理的影響。4運動檢測和分析法4.1運動物體定位從序列圖像中定位運動物體,并將研究的運動目標從背景中提取出來,即運動分析和檢測是序列圖像處理中的一個基本問題,也是一個困難問題。在計算機視覺領域,針對運動檢測和運動估計的問題,許多學者提出了卓有成效的方法[12],這些方法主要分為以下幾類:背景減除法、光流法和時域差分法。1.背景減除法背景減除法[13-16]是目前運動分析中最常用的一種方法。它是利用當前圖像與背景圖像差分來檢測運動區(qū)域的一種技術(shù)。這種方法的運算過程如圖4.1所示:(a)背景(b)前景(c)減背景的運動區(qū)域Fig.4.1Thebackgroundsubtration圖4.1背景減除法可以看出背景減除法可以比較簡單地得到完整的目標圖像,但對于動態(tài)場景變化,如光照或其它外來無關事件干擾等特別敏感。最簡單的背景模型是時間平均圖像,大部分的研究人員目前都致力于好的背景模型的研究,以期減少動態(tài)場景對于準確分割的影響。Haritaoglu等[13]利用最小、最大強度值和相鄰幀間的最大時間差分值對場景中每個像素進行統(tǒng)計建模,并且進行周期性的背景更新;McKenna等[14]利用像素色彩和梯度信息相結(jié)合的自適應背景模型來解決影子和不可靠色彩線索對分割的影響;Stauffer與Grimson[15]在每個像素點使用混合高斯分布模型模擬背景,該方法使用多峰分布,對光照的變化和背景混亂(如樹葉的搖擺運動等)不敏感,魯棒性好,可以用于背景變化比較大的場合。前面提到的幾種都是基于統(tǒng)計的模型,還有基于預測的背景模型生成方法,如Karmann與Brandt[16]采用基于卡爾曼濾波(Kalmanfiltering)的自適應背景模型以適應光照的變化等。2.光流法光流(opticalflow)反映了圖像亮度模式的表現(xiàn)運動(apparentmotion)。由于從序列圖像中所能得到的是亮度隨時間的變化,即所謂的光流場,而在一般情況下,光流場反映了物體實際的運動,因此可以通過研究光流場來近似計算不能直接得到的運動場,然后根據(jù)運動場的運動特征進行運動分割。光流法是用于估算運動場的一個較普遍的方法,使用的是投影速度模型。由于存在孔徑和遮擋問題,用光流法估算二維運動場的解是不確定的,需要使用附加的假設模型來模擬二維運動場的結(jié)構(gòu)。可用的模型分為參數(shù)模型和非參數(shù)模型兩種。同貝葉斯方法相結(jié)合,光流法應用效果進一步提高。貝葉斯方法是在給定光流數(shù)據(jù)的條件下,搜索分割標記的最大后驗概率(MaximumaPosteriori,MAP),使得當前分割與期望分割符合的程度最大。貝葉斯方法利用隨機平滑度約束條件,通常采用Gibbs分布來估計位移場。Murray[17]等首先提出用分段的二次流場模擬光流數(shù)據(jù),用Gibbs分布模擬分割場的MAP分割法。光流法采用了運動目標隨時間變化的光流特征[18],其優(yōu)點是能夠檢測獨立運動的對象,不需要預先知道場景的任何消息,并且可以用于攝像機有運動的情況。近年來研究的基于光流的分割算法將光流場的估算與運動場的分割結(jié)合起來采用迭代方法進行,同時綜合了除運動信息外的其他諸如顏色、邊緣等空間特征,使光流分割法取得了較好的分割結(jié)果。但是,大多數(shù)光流計算過于復雜,且抗噪能力差,難以用于實時檢測的場合。3.時域差分法時域差分法也叫幀間差分法,為了避免計算運動場,可以通過計算幀間差分來得到運動區(qū)域,然后再進行分割得到運動對象。時域差分[19]方法是在連續(xù)圖像中兩相鄰幀間,采用基于像素的時間差分來提取圖像中的運動區(qū)域。通常認為差分圖像服從高斯分布或拉普拉斯分布,根據(jù)統(tǒng)計特性的不同,可以區(qū)分出運動對象和靜止背景。該方法計算簡單,非常適應于動態(tài)變化的環(huán)境,但一般不能完全提取出所有相關的特征像素點,在運動物體內(nèi)部容易產(chǎn)生空洞現(xiàn)象。而且由于噪聲的影響,簡單的幀間差分圖像的統(tǒng)計特性不能有效地區(qū)分運動對象和靜止背景。為了提高算法對噪聲的魯棒性,通常采用空間連通區(qū)域、多幀差分、差分圖像光波、時空三維張量等方法來改進算法性能。陳朝陽等[20]提出在差分運算后進行均值濾波,能檢測復雜背景中的運動小目標。時空三維張量法[21]實際上是用時空梯度構(gòu)成的矩陣的最小本征值表征幀間光滑程度,對于噪聲較高和低對比度的圖像有較好的分割效果。Collins[22]提出了一種綜合自適應背景減除和相鄰三幀差分的混合算法來檢測運動區(qū)域,能快速有效地檢測出運動目標。它先用三幀差分來檢測到運動變化的物體的邊界,然后用動態(tài)背景減除法補充物體內(nèi)的像素,得到完整的運動區(qū)域。其前提條件是序列圖像相鄰幀間光線變化較小,同時運動物體沒有覆蓋圖像的大部分。也可以對差分圖像采用小波變換,但是由于要在各個方向上進行濾波,因此計算量通常較大??紤]到視頻序列幀間具有很強的相關性及視頻處理中實時性的要求,本文采用簡單的時域差分法對序列圖像的運動目標進行檢測。同時,由于僅僅利用單幀的信息進行處理容易產(chǎn)生錯誤,本文綜合考慮了多幀連續(xù)圖像的信息。首先,我們將每一幀輸入圖像由RGB彩色圖像轉(zhuǎn)換成灰度圖像,然后將第N幀(這里取N為3~5)分別與前N-1幀灰度圖像相減得到N-1幅差分圖像。因為視頻圖像中會存在一定的噪聲干擾,表現(xiàn)為差分圖像中沒有運動物體的地方出現(xiàn)大量灰度值大于零的像素,這些像素的灰度值一般較低,我們這里采用一個閾值T來對差分圖像進行二值化處理,即(4.1)然后我們對N-1幅差分圖像中相應的像素進行“或”操作,最后結(jié)果為一幅二值圖像。(a)第X幀圖像(b)第X+N幀圖像(c)差分圖像Fig.4.1Thetimesubstration圖4.1時域差分法4.2孔洞填充和運動區(qū)域判斷由于在對連續(xù)的視頻中進行采幀的速度比較塊,兩幀之間的圖像比較接近,只能得到一個運動物體的邊緣圖像。將多幀差分圖像想或后得到的結(jié)果圖仍然有可能將一個運動物體的整體分割成幾個運動部分,對運動區(qū)域的判斷不準確。因此,對它需要進行處理,讓一個整體聯(lián)接成一個聯(lián)通區(qū)域。本文的處理方式,先對圖像進行忠值濾波,去除噪聲后對結(jié)果圖進行10次膨脹,然后進行聯(lián)通分量的提取。根據(jù)圖像的大小對所得圖像進行膨脹,本文采用的方式是先對圖像進行以連接起同一個運動物體,然后對圖像進行聯(lián)通區(qū)域的獲得,每個聯(lián)通區(qū)域就是一個運動物體。同樣,孔洞填充方法也可以用到膚色檢測后,用來填充膚色空洞。5人體的膚色檢測5.1顏色空間顏色空間是定義、創(chuàng)建和觀察顏色的方法。對顏色的研究和應用產(chǎn)生了許多不同的顏色空間,包括色度學的CIE-RGB真實三原色系統(tǒng)和CIE-XYZ虛擬三原色系統(tǒng),三分量歸一化后用兩個分量表示的色度圖CIE-xy和NCCrgb,用亮度和雙色差表示的顏色空間CIELab和CIELuv等;電視工業(yè)用的YIQ、YUV、和YES;面向色調(diào)的由顏色心理三屬性表示的顏色空間HSI、HSV、HSL、HSB、TSL以及MPEG7中采用的HMMD。另外還有一些針對某些類型的圖像應用通過統(tǒng)計或物理分析,由RGB線性或非線性導出的顏色空間,比如用在膚色檢測的顏色空間YU′V′和LUX、彩色不變特征、具有亮度適應能力的H-SV-V顏色空間等。其中,常用的空間的轉(zhuǎn)換公式如下(5.1)式(5.1)中,Y為亮度信息,與分別表示藍色與紅色色度分量。關于其它顏色空間的定義及其轉(zhuǎn)換可以參考文獻[23]。膚色在顏色空間的分布相當集中,但會受到照明和人種的很大影響。為了減少膚色受照明強度影響,通常將顏色空間從RGB轉(zhuǎn)換到亮度與色度分離的某個顏色空間,比如或HSV,然后放棄亮度分量。在雙色差或色調(diào)飽和度平面上,不同人種的膚色變化不大,膚色的差異更多的是存在于亮度而不是色度[24]。圖5.1反應了膚色在CbCr空間與TS空間上的聚類情況。(a)CbCr空間(b)T-S(Tint-Saturation)空間Fig.5.1Skincolormodel圖5.1膚色模型5.2膚色模型目前常用的膚色建模基本方法有三種[25]:規(guī)定膚色范圍、高斯密度函數(shù)估計和直方圖膚色模型,三者分別對應閾值化、參數(shù)化和非參數(shù)化方法。1、規(guī)定膚色范圍用數(shù)學表達式明確規(guī)定膚色范圍是一種簡單的膚色建模方法,例如Chai[26]采用顏色空間的平面,如果輸入像素的顏色落入RCr=[133;173]和RCb=[77;127]限定的矩形區(qū)域,就認為是屬于膚色像素。有人注意到在不同的亮度分量Y上的矩形區(qū)域(RCr,RCb)不同,因此在Y分量上分段定義膚色矩形區(qū)域。Zhang[27]在YUV空間中根據(jù)Y范圍和UV平面中的色度范圍進行膚色檢測。這種簡單明確的判斷運行起來快速高效,特別是在實時系統(tǒng)中更具有吸引力。規(guī)定膚色范圍雖然快捷,但要取得好的效果需要解決兩個問題:(1)如何選擇合適的顏色空間;(2)怎么確定規(guī)則中的參數(shù)。選擇顏色空間不僅要考慮膚色樣本在顏色空間中的聚集程度,還要注意在該空間的色域,因為有些顏色空間的色域沒有規(guī)則邊界。2、高斯分布模型高斯密度函數(shù)估計是一種參數(shù)化建模,可以采用單峰高斯模型SGM[28]或高斯混合模型GMM[29]。①單峰高斯模型是橢圓高斯聯(lián)合概率密度函數(shù)(5.2)其中x是像素顏色向量;均值向量μ和協(xié)方差矩陣Σ是高斯分布參數(shù),用最大似然法估算。p(x/skin)可以直接衡量像素x屬于膚色的可能性,也可以通過高斯分布參數(shù)計算輸入像素顏色x與均值μ的馬氏距離,距離大小表示該像素與膚色模型的接近程度。②高斯混合模型是多個高斯密度函數(shù)的加權(quán)和(5.3)其中x是顏色向量,有k個高斯密度函數(shù),分別用均值向量和協(xié)方差矩陣定義,權(quán)值表示各高斯密度函數(shù)對混合模型的貢獻大小。對膚色和非膚色分別用一個高斯混合模型表示,用標準的期望最大化EM算法訓練這兩個高斯混合模型,每個高斯混合模型中的高斯密度函數(shù)個數(shù)k需要事先給定[29]。Caetano[30]認為高斯混合模型比單峰高斯模型好,但后來在NCCrgb顏色空間中的實驗[31]卻發(fā)現(xiàn),高斯混合模型僅僅在特定的工作區(qū)域有比較好的性能,這個區(qū)域處在ROC曲線的中后段,即正檢率和誤檢率都比較高的區(qū)間。高斯膚色模型常用二維色度平面,在色度平面上的膚色分布是否符合高斯分布,決定了本建模方法的好壞。但這種分布形態(tài)與所選的顏色空間有關。3、直方圖膚色模型直方圖膚色模型是一種非參數(shù)模型。膚色樣本的直方圖統(tǒng)計可以構(gòu)造膚色概率圖(SkinProbabilityMap,SPM)[32,33],即為離散化的顏色空間中的每個格子賦予一個概率值。利用SPM檢測膚色像素主要有規(guī)則化查找表和貝葉斯分類器兩種方法。規(guī)則化查找表直接利用SPM作為膚色概率查找表,輸入像素的顏色向量經(jīng)過與SPM相同的顏色空間變換和量化后,所得到的向量作為查表的索引,查表得到的值是該輸入像素屬于膚色的概率。貝葉斯分類器則先學習正反樣本,通過貝葉斯公式估計膚色像素的后驗概率。5.3HsuRL膚色檢測算法[34]HsuRL在他的論文中提出了一種可變光照及復雜背景下的膚色檢測算法應用于人臉檢測之中,取得了較好的結(jié)果。在膚色檢測之前,HsuRL首先采用一種光照補償算法。5.3.光線補償?shù)南敕ǖ奶岢鲋饕强紤]到膚色等色彩信息經(jīng)常受到光源顏色,圖像采集設備的色彩偏差等因素的影響,而在整體上偏離本質(zhì)色彩而向某一方向移動,即我們通常所說的色彩偏冷,偏暖,照片偏黃,偏藍等等。為了抵消這種圖像中存在的色彩偏差,我們將整個圖像中所有像素的亮度(是經(jīng)過了非線性校正后的亮度)從高到低進行排列,取前5%的像素,如果這些像素的數(shù)目足夠多(例如,大于100),我們就將它們的亮度作為“參考白”,也即將它們的色彩的R,G,B分量值都調(diào)整為最大的255。整幅圖像的其他像素點的色彩值也都按這一調(diào)整尺度進行變換。這一做法的合理性我們可以從兩個角度進行考察:一方面,絕大部分的圖像中都包含有純白色,特別是包含人臉在內(nèi)的圖象中,在眼球外圍等處通常就是純白色,所以將具有最大亮度的像素的色彩值調(diào)整為純白色是合理的:另一方面,存在色彩偏差的圖像在原來是白色的區(qū)域有著很明顯,直觀的體現(xiàn),所以按照這些區(qū)域的調(diào)整方法對整個圖像進行調(diào)整也是比較合理和有效的。5.3.膚色檢測時,因為在HsuRL采用的色度空間中色度值CbCr對亮度值Y總是存在著一定的非線性的依賴關系(如圖5.2(a)(b)),這種依賴關系很大程度上影響了膚色的檢測,所以HsuRL在論文中提出了一種非線性變換的方法,以消除色度對亮度的依賴關系。其非線性變換公式如下:(5.4)(5.5)(5.6)式子中表示或者,=46.97,=23,=14,=38.76,=20,=10,=125,=188,這些參數(shù)均是HsuRL由大量訓練樣本中估計取得。Fig.5.2Theresultofnon-lineartransfer圖5.2非線性轉(zhuǎn)換結(jié)果HsuRL從Heinrich-Hertz-Institut(eHHI)圖像庫中選了137張圖像,共計853,571個膚色點進行統(tǒng)計,圖5.2(c)與圖5.2(d)顯示了膚色點在非線性變換后的空間的分布圖。在變換后的區(qū)域中采用橢圓模型來描述膚色分布,其橢圓模式表示如下式:(5.7)(5.8)式(5.7)(5.8)中,文獻[34]根據(jù)膚色在空間內(nèi)的分步形狀,取=109.38,=152.02,=2.53,=1.60,=2.41,a=25.39,b=14.03。最后,對圖像中的每個像行檢測,若其變換后的值在橢圓區(qū)域之內(nèi),則視為膚色像素點,否則為非膚色像素點。Fig.5.3Theresultofskincolordetection圖5.3膚色檢測結(jié)果對膚色檢測的結(jié)果圖可以進行孔洞填充,去處小區(qū)域,然后獲得候選人臉區(qū)域以進行人臉檢測。6基于五官特征的多尺度人臉檢測法6.1多尺度的人臉檢測對圖像中不同大小的人臉進行檢測是人臉檢測的一個難點,而特征提取是人臉檢測的關鍵環(huán)節(jié),針對不同大小的人臉需要經(jīng)過不同尺度的分析來提取特征。特征可分為四類:視覺特征、像素統(tǒng)計特征、變換域系數(shù)特征和代數(shù)特征?;谔卣鹘Y(jié)構(gòu)中心的方法需要確定如眼睛、眉毛、鼻子和嘴的位置以及它們之間的相互位置關系。人臉核心區(qū)域(眼睛、鼻子、嘴區(qū)域)具有獨特的灰度分布特征。Yang等人首先提出了人臉的鑲嵌圖(MosaicImage,馬賽克圖)特征。所謂鑲嵌圖,就是將圖像劃分為一組大小相同的方格,每個方格的灰度為格中各個像素的平均值。鑲嵌圖特征是指這些塊的值應滿足的約束規(guī)則。Yang等人將人臉的五官區(qū)域分別劃分為4×4個和8×8個馬賽克塊,使用一組規(guī)則進行檢驗,并且利用邊緣特征進一步驗證。盧春雨等98怕-9人對鑲嵌圖方法進行了改進,按照人臉器官的分布將人臉劃分為3×3個馬賽克塊,在檢測中自適應地調(diào)整各塊的大小,使用一組基于各塊灰度和梯度統(tǒng)計特征的知識規(guī)則檢驗該區(qū)域是否為人臉,取得了較好的實驗結(jié)果。人臉區(qū)域內(nèi)的各個器官也具有較為恒定的模式,因此一些方法首先檢測器官(如雙眼、鼻子、嘴等)或局部特征,然后根據(jù)它們的相對位置關系判斷整個區(qū)域是否為人臉。Kouzani等人將使用人工神經(jīng)網(wǎng)分別檢測出來的眼睛、鼻子、嘴和人臉的整體特征及相互間的位置關系輸入一個模糊神經(jīng)元網(wǎng)絡,根據(jù)其中的領域知識判斷被檢測的區(qū)域是否為人臉。Miao等人從輸入圖像中提取可能對應于眉毛、眼睛、嘴等器官的水平方向的馬賽克邊緣(MosaicEdge),計算各段邊緣的“重心”(GravityCenter)后,使用“重心”模板進行匹配,最后使用灰度和邊緣特征驗證匹配的結(jié)果。圖像的小波分析是圖像在不同尺度的表示,同時使得圖像得到不同精度的重構(gòu)。小尺度(高分辨率)圖像含有較多的細節(jié)分量。大尺度(低分辨率)圖像細節(jié)較少。小尺度(高分辨率)圖像中的一些細節(jié)分量在大尺度(低分辨率)圖像中被模糊了。6.2基于灰度結(jié)構(gòu)的馬賽克模糊結(jié)構(gòu)的檢測人對人臉的第一直覺是什么的問題,多少年來一直是心理學界爭論的焦點,是整體結(jié)構(gòu)還是局部結(jié)構(gòu)?本文的觀點偏向于認為第一直覺歸屬于整體結(jié)構(gòu),人對人臉的認識主要是對五官結(jié)構(gòu)的認識,所以對人臉的結(jié)構(gòu)應該從整體分布開始。這里所謂的整體結(jié)構(gòu)是針對人臉的視覺而言的,從數(shù)學的角度講,對某一區(qū)域的整體認識相當于數(shù)學平均。馬賽克圖像分析是G.YangandT.S.Huang[35]提出并將它應用于人臉檢測領域。圖中的人臉是通過對yale人臉庫中的165張人臉的圖片平均臉。如果把這張臉分為25份,如圖,(a)(b)(c)Fig.6.1Mosaicimage圖6.1馬賽克圖象法為了方便表達,將25個區(qū)域進行編碼如圖所示。把這通過人臉圖像我們不難看出,人臉的模糊結(jié)構(gòu)特征表現(xiàn)為三洞特征,大體如下:第一洞:左眼及眉毛部分,對應于11,22,21,22構(gòu)成的區(qū)域,數(shù)學上表現(xiàn)為(6.1)(6.2)(6.3)公式中mean表示平均值,下標表示區(qū)域。式(6.1)表示人眼,眉區(qū)域的亮度小于整張臉的平均值。公式(6.2)表示人眼,眉毛區(qū)域的亮度小于臉頰區(qū)域的平均值。公式(6.3)表示人眼睛,眉區(qū)域的亮度小于兩眼間區(qū)域的平均值。其中第一個公式體現(xiàn)了人眼,眉在整張臉中的“洞”的概念,后兩個公式體現(xiàn)了人眼,眉在區(qū)域中的“洞”的概念(因為人臉中的高亮度區(qū)域和低亮度區(qū)域體現(xiàn)為該區(qū)域的亮度不同于周邊區(qū)域的亮度)第二洞:右眼以及眉毛部分,其特征與第一洞的特征相同。第三洞:嘴巴部分(52,53,54區(qū)域),其數(shù)學特征體現(xiàn)為:(6.4)(6.5)(6.6)公式(6.4),(6.5),(6.6)表示的意義類似于第一洞。實際上三個洞對于整張臉而言,存在一定的關系,即(6.7)(6.8)表示人眼,眉區(qū)域的灰度平均值小于嘴巴平均值,嘴巴灰度值小于臉頰平均值。雖然我們實用的是區(qū)域平均值表示三洞,但是實際上它們表示的是人臉的整體結(jié)構(gòu),因為它們表達了區(qū)域關系(均值表達的是區(qū)域而不僅僅是一個數(shù)值,這是用一個區(qū)域特征來表達一個區(qū)域,這類同于長度表示時間)。有了這些人臉的灰度模糊結(jié)構(gòu)特征,人臉檢測實現(xiàn)起來比較方便了。6.3本文改進的基于五官結(jié)構(gòu)的多尺度人臉檢測模板在實際進行人臉檢測的過程當中,由于人臉的大小以及初時位置和角度的不確定情況不確定,采用傳統(tǒng)的馬賽克圖像法在人臉檢測時受到了很大的限制。為了更快的更準確的進行人臉的定位,本文提出了一種基于人臉五官特征的多尺度的人臉檢測法。為了讓人臉的結(jié)構(gòu)在馬賽克圖像中更加明顯,首先對圖像的灰度值進行減少,增強圖像的對比度。假如某個像素點的灰度值為gray,根據(jù)以下方式進行預處理。如果某像素點的灰度值小于96,將其設為0,灰度值大于96小于128,將其設為96,大于128小于160,將其設為159,大于160小于256,將其設為255。(b)Fig.6.1Contrastenhance圖6.1對比度增強然后將原圖像分塊,求得每塊中像素值的平均值,構(gòu)成馬賽克圖像。為了在不同尺度下檢測出不同大小的人臉,本文沒有直接將原圖像進行小波分解,而是是將分塊的大小從小到大依次改變(本文的分塊大小范圍為圖像寬度的1/32到1/6),并且在每一個分塊大小的尺度上進行檢測,這樣不但速度較快,還能檢測到大小在小波分解兩個尺度之間的人臉。圖6.2是將圖像分塊大小設置為圖像寬度的1/16時的馬賽克圖像。Fig.6.2Mosaicimage圖6.2馬賽克圖像6.3.人的雙眼通常會在馬賽克圖像中體現(xiàn)出來的效果,54321543215Fig.6.3Eyesonmosaic5圖6.3雙眼區(qū)域在圖6.3中可以看出,雙眼區(qū)域1,3區(qū)域的灰度接近,1,3區(qū)域的灰度小于2區(qū)域,1,3區(qū)域的灰度小于4,5區(qū)域。Fig.6.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論