版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章引言人臉識(shí)別技術(shù)的應(yīng)用與難點(diǎn)人臉是自然界存在的一種特殊的、復(fù)雜的視覺模式,它包含著極其豐富的信息。首先,人臉具有一定的不變性和唯一性,人臉識(shí)別是人類在進(jìn)行身份確認(rèn)時(shí)使用的最為普遍的一種方式,其次,人臉圖像還能提供一個(gè)人的性別、年齡、種族等有關(guān)信息。人類在人臉識(shí)別中所表現(xiàn)出來的能力是令人驚異的,但是讓計(jì)算機(jī)能夠識(shí)別人臉,卻是非常困難的問題。迄今為止,人臉識(shí)別的認(rèn)知過程和內(nèi)在機(jī)理仍然是一個(gè)未解之謎,如何實(shí)現(xiàn)一個(gè)自動(dòng)的人臉識(shí)別系統(tǒng)仍然是一個(gè)懸而未決的難題。從上個(gè)世紀(jì)六十年代以來,隨著計(jì)算機(jī)和電子技術(shù)的迅猛發(fā)展,人們開始利用計(jì)算機(jī)視覺和模式識(shí)別等技術(shù)對(duì)人臉識(shí)別進(jìn)行研究。近年來,隨著相關(guān)技術(shù)的不斷發(fā)展和實(shí)際需求的日益增加,人臉識(shí)別已經(jīng)引起了越來越多的關(guān)注,成為了信息處理和人工智能等領(lǐng)域研究的熱點(diǎn)之一,新的研究成果和實(shí)用系統(tǒng)也不斷涌現(xiàn)。人臉識(shí)別技術(shù)的廣泛應(yīng)用一項(xiàng)技術(shù)的問世和發(fā)展與人類的迫切需求是密切相關(guān)的,飛速發(fā)展的社會(huì)經(jīng)濟(jì)和科學(xué)技術(shù)使得人類對(duì)安全(包括人身安全、隱私保護(hù)等)的認(rèn)識(shí)越來越重視。人臉識(shí)別的一個(gè)重要應(yīng)用就是人類的身份識(shí)別。一般來說,人類的身份識(shí)別方式分為三類:a.特殊物品,包括各種證件和憑證,如身份證、駕駛執(zhí)照、房門鑰匙、印章等;b.特殊知識(shí),包括各種密碼、口令和暗號(hào)等;c.人類生物特征,包括各種人類的生理和行為特征,如人臉、指紋、手形、掌紋、虹膜、DNA、簽名、語音等。前兩類識(shí)別方式屬于傳統(tǒng)的身份識(shí)別技術(shù),其特點(diǎn)是方便、快捷,但致命的缺點(diǎn)是安全性差、易偽造、易竊取。特殊物品可能被丟失、偷盜和復(fù)制,特殊知識(shí)容易被遺忘、混淆和泄露。相比較而言,由于生物特征是人的內(nèi)在屬性,具有很強(qiáng)的自身穩(wěn)定性和個(gè)體差異性,因此生物特征是身份識(shí)別的最理想依據(jù)?;谝陨舷鄬?duì)獨(dú)特的生物特征,結(jié)合計(jì)算機(jī)技術(shù),發(fā)展了眾多的基于人類生物特征的身份識(shí)別技術(shù),如NDA識(shí)別技術(shù)、指紋識(shí)別技術(shù)、虹膜識(shí)別技術(shù)、語音識(shí)別技術(shù)和人臉識(shí)別技術(shù)等。表1-1為各種生物識(shí)別技術(shù)的綜合比較。表1-1各種生物特征識(shí)別技術(shù)的綜合比較生物識(shí)別技術(shù)在上個(gè)世紀(jì)己經(jīng)有了一定的發(fā)展,其中指紋識(shí)別技術(shù)己經(jīng)趨近成熟,但人臉識(shí)別技術(shù)的研究目前還處于起步階段。指紋、虹膜、掌紋等識(shí)別技術(shù)都需要被識(shí)別者的配合,有的識(shí)別技術(shù)還需要添置復(fù)雜昂貴的設(shè)備。人臉識(shí)別則可以用已有的照片或是攝像頭遠(yuǎn)距離捕捉圖像,無須特殊的采集設(shè)備,系統(tǒng)的成本低。并且自動(dòng)人臉識(shí)別可以在當(dāng)事人毫無察覺的情況下即完成身份確認(rèn)識(shí)別工作,這對(duì)反恐怖活動(dòng)等有非常重大的意義。由于人臉識(shí)別技術(shù)具有如此之多的優(yōu)勢,因此它的應(yīng)用前景非常廣闊,已成為最具潛力的生物特征識(shí)別技術(shù)之一。本文將人臉識(shí)別技術(shù)的各種應(yīng)用及其特點(diǎn)總結(jié)在表1-2中。表1-2人臉識(shí)別技術(shù)的應(yīng)用人臉識(shí)別最初的應(yīng)用源于公安部門關(guān)于罪犯照片的存檔管理和刑偵破案。現(xiàn)在該技術(shù)在安全系統(tǒng)、商業(yè)領(lǐng)域和日常生活中都有很多應(yīng)用,主要有以下幾類應(yīng)用:1.刑偵破案。當(dāng)公安部門獲得罪犯的照片后,可以利用人臉識(shí)別技術(shù),在存儲(chǔ)罪犯照片的數(shù)據(jù)庫中找出最相像的人作為嫌疑犯,極大的節(jié)省了破案的時(shí)間和人力物力。還有一種應(yīng)用就是根據(jù)目擊證人的描述,先由專業(yè)人員畫出草圖,然后用此圖到庫里去找嫌疑犯。罪犯數(shù)據(jù)庫往往很大,由幾千幅圖像組成。如果這項(xiàng)搜索工作由人工完成,不僅效率低,而且容易出錯(cuò),因?yàn)槿嗽诳戳松习俜四槇D像后,記憶力會(huì)下降,而由計(jì)算機(jī)來完成則不會(huì)出現(xiàn)此問題。2.證件驗(yàn)證。身份證、駕駛執(zhí)照以及其他很多證件上都有照片;現(xiàn)在這些證件多由人工驗(yàn)證完成。如果應(yīng)用人臉識(shí)別技術(shù),這項(xiàng)工作就可以交給機(jī)計(jì)算機(jī)完成,從而實(shí)現(xiàn)自動(dòng)化及智能管理。當(dāng)前普遍使用的另一類證件是用符號(hào)或者條形碼標(biāo)記的,比如信用卡。這類卡的安全性比較低,可能遺失、被竊取,使用場合(比如自動(dòng)提款機(jī))的安全性也比較差。如果在這類卡上加上人臉的特征信息,則會(huì)大大改善其安全性能。3.入口控制。需要入口控制的范圍很廣,它可以是重要人物居住的住所、保存重要信息的單位,只要人類覺得安全性比較重要的地點(diǎn)都可以進(jìn)行入口控制,比較常用的檢查手段是核查證件。人員出入頻繁時(shí),保安人員再三檢查證件是很麻煩的,而且證件安全性也不高。在一些保密要求非常嚴(yán)格的部門,除了證件外,已經(jīng)使用了生物特征識(shí)別手段,如指紋識(shí)別、掌紋識(shí)別、虹膜識(shí)別和語音識(shí)別等。人臉識(shí)別與這些技術(shù)相比,具有直接、方便和友好的特點(diǎn)。當(dāng)前計(jì)算機(jī)系統(tǒng)的安全管理也備受重視,通常使用由字符和數(shù)字組成的口令(Password)進(jìn)行使用者的身份驗(yàn)證,但口令可能被遺忘,或被破解,如果將人臉作為口令,則既方便又安全。4.視頻監(jiān)控。在銀行、公司、公共場所等處設(shè)有24小時(shí)的視頻監(jiān)控,如何對(duì)視頻圖像進(jìn)行篩選分析,就需要用到人臉檢測、跟蹤和識(shí)別技術(shù)。除了以上應(yīng)用外,人臉識(shí)別技術(shù)還可以用于視頻會(huì)議、機(jī)器人的智能化研究等方面。尤其從美國事件后,人的身份識(shí)別問題更是提升到了國家安全的角度,如何利用人臉信息迅速確定一個(gè)人的身份成了各個(gè)國家重點(diǎn)研究的技術(shù)。人臉識(shí)別技術(shù)的難點(diǎn)雖然人類可以毫不困難地根據(jù)人臉來辨別一個(gè)人,但是利用計(jì)算機(jī)進(jìn)行完全自動(dòng)的人臉識(shí)別,仍存在許多困難。人臉模式的差異性使得人臉識(shí)別成為一個(gè)非常困難的問題,表現(xiàn)在以下方面:1.人臉表情復(fù)雜,人臉具有多樣的變化能力,人的臉上分布著五十多塊面部肌肉,這些肌肉的運(yùn)動(dòng)導(dǎo)致不同面部表情的出現(xiàn),會(huì)造成人臉特征的顯著改變;2.人臉隨年齡而改變,隨著年齡的增長,皺紋的出現(xiàn)和面部肌肉的松弛使得人臉的結(jié)構(gòu)和紋理都將發(fā)生改變;3.人臉有易變化的附加物,例如改變發(fā)型,蓄留胡須或者佩戴帽子和眼鏡等飾物;4.人臉特征遮掩,人臉全部、部分遮掩將會(huì)造成錯(cuò)誤識(shí)別;5.人臉圖像的畸變,由于光照、視角、攝取角度不同,可能會(huì)造成圖像的灰度畸變、角度旋轉(zhuǎn)等,降低了圖像質(zhì)量,增大了識(shí)別難度。所以很難從有限張人臉圖像中提取出反映人臉內(nèi)在的、本質(zhì)的特征。另外人臉識(shí)別還涉及模式識(shí)別、圖像處理、計(jì)算機(jī)視覺、生理學(xué)和心理學(xué)等學(xué)科領(lǐng)域。這諸多因素使得人臉識(shí)別至今仍是一個(gè)有待深入研究,極富挑戰(zhàn)性的課題。同時(shí)一個(gè)成功的、具有商用價(jià)值的快速的人臉識(shí)別系統(tǒng)將會(huì)給社會(huì)帶來極大的影響。人臉識(shí)別技術(shù)的發(fā)展與現(xiàn)狀人臉識(shí)別的研究可以追溯到20世紀(jì)60年代末,最早的研究見于文獻(xiàn)。Bledsoe以人臉特征點(diǎn)的間距、比率等參數(shù)為特征,建成了一個(gè)半自動(dòng)的人臉識(shí)別系統(tǒng)。人臉識(shí)別的發(fā)展大致經(jīng)過了三個(gè)階段,其中伴隨發(fā)展了多樣的人臉識(shí)別技術(shù)。人臉識(shí)別技術(shù)發(fā)展的三個(gè)階段第一階段一非自動(dòng)識(shí)別階段:主要研究如何提取人臉識(shí)別所需的特征。通過簡單的語句描述人臉數(shù)據(jù)庫成為待識(shí)別人臉設(shè)計(jì)逼真的摹寫來提高面部識(shí)別率。這是需要手工干預(yù)的階段。此階段以Bertillon、Allen和Parke為代表。在Bertillon系統(tǒng)中,用了一個(gè)簡單的語句與數(shù)據(jù)庫中的某一張臉相聯(lián)系,同時(shí)與指紋識(shí)別相結(jié)合,提供了一個(gè)較強(qiáng)的識(shí)別系統(tǒng)。為了提高面部識(shí)別率,Allen為待識(shí)別人臉設(shè)計(jì)了一種有效逼真的摹寫,Parke則用計(jì)算機(jī)實(shí)現(xiàn)了這一想法,并且產(chǎn)生了較高質(zhì)量的人臉灰度圖模型。在此階段,識(shí)別過程全部依賴于操作人員,所以不是一種自動(dòng)識(shí)別的系統(tǒng)。第二階段一人機(jī)交互階段:這一階段雖然實(shí)現(xiàn)了一定的自動(dòng)化,但還需要操作員的某些先驗(yàn)知識(shí),仍然不是一個(gè)完全自動(dòng)的識(shí)別系統(tǒng)。此階段的代表性工作有:Goldstion、Harmon和Lesk等人用幾何特征參數(shù)來表示人臉正面圖像。他們采用21維特征矢量表示人臉面部特征,并設(shè)計(jì)了基于這一表示法的識(shí)別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計(jì)識(shí)別的方法,用歐氏距離來表示人臉特征,例如嘴和鼻子之間的距離,嘴唇的高度,兩眼之間的距離等。更進(jìn)一步的,設(shè)計(jì)了快速且有一定知識(shí)引導(dǎo)的半自動(dòng)回溯識(shí)別系統(tǒng),創(chuàng)造性的運(yùn)用積分投影法從單幅圖像上計(jì)算出一組臉部特征參數(shù),再利用模式分類技術(shù)與標(biāo)準(zhǔn)人臉相匹配。Kanad的系統(tǒng)實(shí)現(xiàn)了快速、實(shí)時(shí)的處理,是一個(gè)很大的進(jìn)步??偟膩碚f,上述方法都需要利用操作員的某些先驗(yàn)知識(shí),始終擺脫不了人的干預(yù)。第三階段一自動(dòng)識(shí)別階段:這一階段真正實(shí)現(xiàn)了機(jī)器自動(dòng)識(shí)別,產(chǎn)生了眾多人臉識(shí)別方法,出現(xiàn)了多種機(jī)器全自動(dòng)識(shí)別系統(tǒng)。近十余年來,隨著高速度、高性能計(jì)算機(jī)的發(fā)展,人臉識(shí)別方法有了較大的突破,提出了多種機(jī)器全自動(dòng)識(shí)別系統(tǒng)。近年來,人臉識(shí)別技術(shù)研究也非常活躍,除了基于K一L變換的特征臉方法與奇異值特征為代表的代數(shù)特征方法取得了發(fā)展外,人工神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型·小波變換等也在人臉識(shí)別研究中得到了廣泛的應(yīng)用,而且出現(xiàn)了不少人臉識(shí)別的新方法。本文將在節(jié)介紹人臉識(shí)別的主要內(nèi)容與方法。國內(nèi)外發(fā)展現(xiàn)狀目前,國外對(duì)人臉識(shí)別問題的研究比較多,其中比較著名的有MTI、CMU、Cornell和Rockfeller等,MPEG標(biāo)準(zhǔn)組織也已經(jīng)建立了專門的人臉識(shí)別草案小組。國際上發(fā)表的相關(guān)論文數(shù)量也大幅度增長,EIEE的著名國際會(huì)議,如EIEEInternationalConferenceonAutomaticFaceandGestureRecognition、InternationalConferenceonImageProcessing、ConferenceonComputerVisionandPatternRecognition等,每年都有大量關(guān)于人臉識(shí)別的論文。截至2005年3月,EIEE/IEE全文數(shù)據(jù)庫中收錄的關(guān)于“face”的文章8916篇,其中有關(guān)“facerecognition”的3280篇,約占%,并且每年的文獻(xiàn)呈急劇上升趨勢。同樣在工程索引El中,至2005年3月,共有81657篇有關(guān)“face”的文獻(xiàn),數(shù)目是驚人的,并且2000年后快速增長。國內(nèi)對(duì)人臉識(shí)別領(lǐng)域的研究起步較國外晚,但近十年來呈現(xiàn)飛速發(fā)展,據(jù)中國期刊網(wǎng)統(tǒng)計(jì),1996年至2005年3月,有關(guān)“人臉”的文獻(xiàn)1467篇,其中人臉識(shí)別領(lǐng)域的文章494篇,并且再近幾年獲得快速增長,也預(yù)示人臉識(shí)別領(lǐng)域得到快速發(fā)展。目前國內(nèi)大部分高校有人從事人臉識(shí)別相關(guān)的研究,其中技術(shù)比較先進(jìn)的有中科院自動(dòng)化所、清華大學(xué)、浙江大學(xué)等。人臉識(shí)別的主要方法自動(dòng)人臉識(shí)別技術(shù)(AFR)就是利用計(jì)算機(jī)技術(shù),根據(jù)數(shù)據(jù)庫的人臉圖像,分析提取出有效的識(shí)別信息,用來“辨認(rèn)”身份的技術(shù)。人臉識(shí)別技術(shù)的研究始于六十年代末七十年代初,其研究領(lǐng)域涉及圖像處理、計(jì)算機(jī)視覺、模式識(shí)別、計(jì)算機(jī)智能等領(lǐng)域,是伴隨著現(xiàn)代化計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫技術(shù)發(fā)展起來的綜合交叉學(xué)科。人臉識(shí)別的視覺機(jī)理近幾年的研究表明,人類視覺數(shù)據(jù)處理是多層次的過程,其中最低層的視覺過程(視網(wǎng)膜功能)起到信息轉(zhuǎn)儲(chǔ)作用,即將大量圖像數(shù)據(jù)轉(zhuǎn)換為較為抽象的信息,這一任務(wù)由視網(wǎng)膜中的兩類細(xì)胞完成:低層次的細(xì)胞對(duì)空間的響應(yīng)與小波變換作用類似,高層次的細(xì)胞則依據(jù)低層次細(xì)胞的響應(yīng),而作出具體的線、面乃至物體模式的響應(yīng)。這表明在視覺處理過程中,神經(jīng)元并不是隨便的、不可靠的把視覺圖像的光照強(qiáng)度投射到感覺中樞,它們可以檢測模式單元,區(qū)分物體的深度,排除無關(guān)的變化因素,并組成一個(gè)令人感興趣的層次結(jié)構(gòu)。人臉識(shí)別不僅有著以上普通視覺過程的特點(diǎn),而且具有以下獨(dú)特之處。1.人臉識(shí)別是大腦中一個(gè)特有的過程。針對(duì)人臉識(shí)別,大腦中存在一個(gè)專門的處理過程;2.在人臉感知與識(shí)別過程中,局部特征與整體特征均起作用。若存在明顯的局部特征,整體特征將不起作用;3.不同的局部特征作用對(duì)識(shí)別的貢獻(xiàn)也不同。在正面人臉圖像中,頭發(fā)、人臉輪廓、眼睛以及嘴巴對(duì)識(shí)別和記憶有著重要影響,鼻子的作用則不是很重要。但在側(cè)面人臉識(shí)別中,鼻子對(duì)特征點(diǎn)的匹配很有作用。通常來講人臉的上部比下部對(duì)識(shí)別作用更大些;4.不同空間頻率上信息的作用不同。低頻信息代表了整體的描述,高頻信息包含了局部的細(xì)節(jié)。對(duì)于性別的判斷,僅利用低頻信息就足夠了,對(duì)于身份識(shí)別沒有高頻信息就無法完成;5.光照對(duì)視覺有影響。有實(shí)驗(yàn)表明,從人臉底部打光會(huì)導(dǎo)致識(shí)別困難;6.動(dòng)態(tài)信息比靜態(tài)信息更利于識(shí)別。研究還發(fā)現(xiàn),對(duì)熟悉的人臉,人類的識(shí)別能力在動(dòng)態(tài)場景中要高于靜態(tài)場景;7.十歲以下的兒童識(shí)別人臉較多的采用顯著特征,而較少的使用整體分析;8.不同的種族。性別的人臉識(shí)別的難易程度不同,這可能因?yàn)椴煌愋偷娜四槇D像具有不同的特征;9.面部表情的分析與人臉識(shí)別并行處理。通過對(duì)腦部受損的病人研究表明,表情的分析與識(shí)別雖有聯(lián)系,但總體來說是分開處理的。人臉識(shí)別是一種復(fù)雜的信息處理任務(wù),它的研究涉及計(jì)算機(jī)技術(shù)、心理學(xué)和神經(jīng)生理學(xué)。視覺機(jī)理、心理學(xué)和神經(jīng)生理學(xué)的研究結(jié)果無疑將非常有益于人臉識(shí)別技術(shù)的發(fā)展,這些結(jié)論對(duì)于設(shè)計(jì)有效的識(shí)別方法起到了一定啟發(fā)作用。但除少數(shù)文獻(xiàn)外[24],機(jī)器識(shí)別人臉的研究還是獨(dú)立于心理學(xué)和神經(jīng)生理學(xué)的研究的。人臉識(shí)別系統(tǒng)的組成在人臉識(shí)別技術(shù)發(fā)展的幾十年中,研究者們提出了多種多樣的人臉識(shí)別方法,但大部分的人臉識(shí)別系統(tǒng)主要由三部分組成:圖像預(yù)處理、特征提取和人臉的分類識(shí)別。一個(gè)完整的自動(dòng)人臉識(shí)別系統(tǒng)還包括人臉檢測定位和數(shù)據(jù)庫的組織等模塊,如圖1-1。其中人臉檢測和人臉識(shí)別是整個(gè)自動(dòng)人臉識(shí)別系統(tǒng)中非常重要的兩個(gè)技術(shù)環(huán)節(jié),并且相對(duì)獨(dú)立。下面分別介紹這兩個(gè)環(huán)節(jié)。圖1-1人臉識(shí)別系統(tǒng)框圖人臉檢測與定位檢測圖像中是否有人臉,若有,將其從背景中分割出來,并確定其在圖像中的位置。在某些可以控制拍攝條件的場合,如警察拍罪犯照片時(shí)將人臉限定在標(biāo)尺內(nèi),此時(shí)人臉的定位很簡單。證件照背景簡單,定位也比較容易。在另一些情況下,人臉在圖像中的位置預(yù)先是未知的,比如在復(fù)雜背景下拍攝的照片,這時(shí)人臉的檢測與定位將受以下因素的影響:1.人臉在圖像中的位置、角度、不固定尺寸以及光照的影響;2.發(fā)型、眼鏡、胡須以及人臉的表情變化等;3.圖像中的噪聲等。特征提取與人臉識(shí)別特征提取之前一般需要做幾何歸一化和灰度歸一化的工作。前者是指根據(jù)人臉定位結(jié)果將圖像中的人臉變化到同一位置和大??;后者是指對(duì)圖像進(jìn)行光照補(bǔ)償?shù)忍幚恚钥朔庹兆兓挠绊?,光照補(bǔ)償能夠一定程度的克服光照變化的影響而提高識(shí)別率。提取出待識(shí)別的人臉特征之后,即可進(jìn)行特征匹配。這個(gè)過程是一對(duì)多或者一對(duì)一的匹配過程,前者是確定輸入圖像為圖像庫中的哪一個(gè)人(即人臉識(shí)別),后者是驗(yàn)證輸入圖像的人的身份是否屬實(shí)(即人臉驗(yàn)證)。以上兩個(gè)環(huán)節(jié)的獨(dú)立性很強(qiáng)。在許多特定場合下人臉的檢測與定位相對(duì)比較容易,因此“特征提取與人臉識(shí)別環(huán)節(jié)”得到了更廣泛和深入的研究。近幾年隨著人們?cè)絹碓疥P(guān)心各種復(fù)雜的情形下的人臉自動(dòng)識(shí)別系統(tǒng)以及多功能感知研究的興起,人臉檢測與定位才作為一個(gè)獨(dú)立的模式識(shí)別問題得到了較多的重視。本文主要研究人臉的特征提取與分類識(shí)別的問題。主要的人臉識(shí)別方法人臉識(shí)別技術(shù)作為模式識(shí)別領(lǐng)域的一個(gè)研究熱點(diǎn),每年都有許多相應(yīng)的研究成果發(fā)表,并且涌現(xiàn)出各種各樣的識(shí)別方法,可以說信息處理領(lǐng)域的各種新方法的研究和算法的改進(jìn)都嘗試在人臉識(shí)別中得到應(yīng)用。文獻(xiàn)對(duì)近十年來人臉識(shí)別領(lǐng)域取得的成果進(jìn)行了總結(jié)。人臉識(shí)別方法的分類,根據(jù)研究角度的不同,可以有不同的分類方法,這是研究人臉識(shí)別方法首先遇到的問題。本文在深入研究國內(nèi)外人臉識(shí)別技術(shù)的發(fā)展和研究成果的同時(shí),將已有的不同的分類方法做一個(gè)比較,目的是希望能從不同角度認(rèn)識(shí)人臉識(shí)別問題,在較全面的了解各種方法優(yōu)缺點(diǎn)的基礎(chǔ)上,給本文的人臉識(shí)別方法提供研究方向。根據(jù)輸入圖像中人臉的角度,人臉識(shí)別技術(shù)可分為基于正面、側(cè)面、傾斜人臉圖像的人臉識(shí)別。由于實(shí)際情況的要求,對(duì)人臉正面模式的研究最多,這也是本文的研究內(nèi)容。根據(jù)圖像來源的不同,人臉識(shí)別技術(shù)可分為兩大類:靜態(tài)人臉識(shí)別和動(dòng)態(tài)人臉識(shí)別。靜態(tài)人臉識(shí)別,即人臉來源為穩(wěn)定的二維圖像如照片。如果人臉的來源是一段視頻圖像,則人臉識(shí)別就屬于動(dòng)態(tài)人臉識(shí)別。在頭部運(yùn)動(dòng)和表情變化狀態(tài)下的人臉識(shí)別都可以看作動(dòng)態(tài)人臉識(shí)別,如視頻監(jiān)視中的人臉識(shí)別。動(dòng)態(tài)人臉識(shí)別具有更大的難度:首先,視頻輸出的圖像質(zhì)量較差:其次,背景較復(fù)雜,目前對(duì)動(dòng)態(tài)人臉識(shí)別的研究還局限于簡單背景,較少人物的情況,對(duì)靜態(tài)人臉識(shí)別的研究比較多。本文的研究也是基于靜止圖像的。根據(jù)人臉識(shí)別技術(shù)的發(fā)展歷史,人臉識(shí)別方法大致可分為基于幾何特征的人臉識(shí)別方法、基于模板匹配的人臉識(shí)別方法和基于模型的人臉識(shí)別方法。a.基于幾何特征的人臉識(shí)別方法這是人臉識(shí)別技術(shù)發(fā)展中,應(yīng)用最早的方法。該方法是通過提取人臉的幾何特征,包括人臉部件的歸一化的點(diǎn)間距離、比率以及人臉的一些特征點(diǎn),如眼角、嘴角、鼻尖等部位所構(gòu)成的二維拓?fù)浣Y(jié)構(gòu)進(jìn)行識(shí)別的方法。所構(gòu)造的幾何特征既要清晰區(qū)分不同對(duì)象人臉的差異,又要對(duì)光照背景條件不敏感,常規(guī)的幾何特征量很難滿足這些要求。因此該方法識(shí)別效果不理想。b.基于模板匹配的人臉識(shí)別方法基于模板匹配的方法,主要是利用計(jì)算模板和圖像灰度的自相關(guān)性來實(shí)現(xiàn)識(shí)別功能。一般基于人臉的全局特征,利用人臉模板和相關(guān)參數(shù)如灰度的相關(guān)性來進(jìn)行檢測和識(shí)別的。Berto在中將基于幾何模型的人臉識(shí)別方法和模板匹配進(jìn)行了全面比較后,得出結(jié)論:前者具有識(shí)別速度快和內(nèi)存要求小的優(yōu)點(diǎn),但在識(shí)別率上后者要優(yōu)于前者。增加幾何特征對(duì)于基于幾何特征的人臉識(shí)別方法只能輕微的提高識(shí)別率,因?yàn)橐岣邘缀翁卣鞯奶崛≠|(zhì)量本身就十分困難,而且隨著圖像質(zhì)量的下降和人臉遮擋的引入,基于幾何特征的人臉識(shí)別效果會(huì)大幅下降??傊?,認(rèn)為模板匹配法要優(yōu)于幾何特征法。c.基于模型的人臉識(shí)別方法通過統(tǒng)計(jì)分析和匹配學(xué)習(xí)找出人臉和非人臉,以及不同人臉之間的聯(lián)系。該方法包括特征臉法(Eigenface)、神經(jīng)網(wǎng)絡(luò)方法(NN)、隱馬爾可夫模型方法(HMM)和支持向量機(jī)(SVM)等方法。和模板匹配的方法相比,基于模型方法的模板是通過樣本學(xué)習(xí)獲得,而非人為設(shè)定。所以該方法,從原理上更為先進(jìn)合理,實(shí)驗(yàn)中也表現(xiàn)出更好的識(shí)別效果。根據(jù)人臉表征方式(即特征提取)的不同,還可以將人臉識(shí)別技術(shù)分為三大類:基于幾何特征的識(shí)別方法、基于代數(shù)特征的識(shí)別方法和基于連接機(jī)制的識(shí)別方法。a.基于幾何特征的人臉識(shí)別方法該方法在上文中已有闡述,它將人臉用一個(gè)幾何特征矢量表示,用模式識(shí)別中層次聚類的思想設(shè)計(jì)分類器達(dá)到識(shí)別目的。該方法的困難在于沒有形成一個(gè)統(tǒng)一的、優(yōu)秀的特征提取標(biāo)準(zhǔn)。由于人面部的模式千變?nèi)f化,即使是同一個(gè)人的面部圖像,由于時(shí)間、光照、攝影機(jī)角度等不同,也很難用一個(gè)統(tǒng)一的模式來表達(dá),造成了特征提取的困難。不過,由于現(xiàn)在各種優(yōu)秀特征提取算法(如動(dòng)態(tài)模板、活動(dòng)輪廓等)的提出,使得人臉的幾何特征描述越來越充分。而且在表情分析方面,人臉的幾何特征仍然是最有力的判據(jù)。b.基于代數(shù)特征的人臉識(shí)別方法這類識(shí)別法仍然是將人臉用特征矢量表示,只不過用的是代數(shù)特征矢量。該方法在實(shí)際應(yīng)用中取得了一定的成功。由于代數(shù)特征矢量(即人臉圖像向各種人臉子空間的投影)具有一定的穩(wěn)定性,識(shí)別系統(tǒng)對(duì)不同的傾斜角度,乃至不同的表情均有一定的魯棒性。所以,也說明了這種方法對(duì)表情的描述不夠充分,難以用于表情分析。c.基于連接機(jī)制的人臉識(shí)別方法這類識(shí)別法將人臉直接用灰度圖(二維矩陣)表征,利用了神經(jīng)網(wǎng)絡(luò)(NeuralNetwork,NN)的學(xué)習(xí)能力及分類能力。這種方法的優(yōu)勢在于保存了人臉圖像中的紋理信息及細(xì)微的形狀信息,同時(shí)避免了較為復(fù)雜的特征提取工作。而且,由于圖像被整體輸入,符合格氏塔(Gestalt)心理學(xué)中對(duì)人類識(shí)別能力的解釋。與前兩種識(shí)別方法相比,基于連接機(jī)制的識(shí)別法具有以下明顯不同:信息處理方式是并行而非串行;編碼存儲(chǔ)方式是分布式。但由于原始灰度圖像數(shù)據(jù)量十分龐大,因此神經(jīng)元數(shù)目通常很多,訓(xùn)練時(shí)間很長。另外,完全基于神經(jīng)網(wǎng)絡(luò)的識(shí)別法在現(xiàn)有的計(jì)算機(jī)系統(tǒng)(馮一諾伊曼結(jié)構(gòu))上也有其內(nèi)在的局限性。神經(jīng)網(wǎng)絡(luò)雖然有較強(qiáng)的歸納能力,但當(dāng)樣本數(shù)目大量增加時(shí),其性能可能會(huì)嚴(yán)重下降。本文根據(jù)人臉表征方法與特征綜合方式的不同,認(rèn)為將人臉識(shí)別方法分為基于幾何特征的方法、基于模板匹配的方法和基于統(tǒng)計(jì)學(xué)習(xí)的方法,比較合適。此分類方法即符合人臉識(shí)別技術(shù)發(fā)展的歷史,又將人臉特征提取與分類識(shí)別有機(jī)的結(jié)合在一起。識(shí)別人臉主要依據(jù)那些在不同個(gè)體之間存在較大差異,而對(duì)于同一個(gè)人比較穩(wěn)定的特征,具體的特征形式和綜合方式(分類方式)的不同決定了識(shí)別方法的不同。圖1-2列出了主要的人臉特征與綜合方法。早期靜態(tài)人臉識(shí)別方法研究較多的是基于幾何特征的方法和基于模板匹配方法。目前,靜止圖像的人臉識(shí)別方法主要是基于樣本通過統(tǒng)計(jì)學(xué)習(xí)識(shí)別人臉的方法,主要研究方向有:基于代數(shù)特征的識(shí)別方法,包括特征臉(Eigenface)方法和隱馬爾可夫模型(HMM)方法;基于連接機(jī)制的識(shí)別方法,包括一般的神經(jīng)網(wǎng)絡(luò)方法和彈性圖匹配(ElasticGraphMatching)方法,以及以上方法的一些綜合方法?;诮y(tǒng)計(jì)學(xué)習(xí)的方法屬于基于整體的研究方法,它主要考慮了模式的整體屬性。因?yàn)榛谡w的人臉識(shí)別不僅保留了人臉部件的拓?fù)潢P(guān)系,而且也保留了各部件本身的信息。文獻(xiàn)認(rèn)為基于整個(gè)人臉的分析要優(yōu)于基于部件的分析,理由是前者保留了更多信息。對(duì)于基于整個(gè)人臉的識(shí)別而言,由于把整個(gè)人臉圖像作為模式,那么光照、視角以及人臉尺寸會(huì)對(duì)人臉識(shí)別有很大的影響,因此如何能夠有效的去掉這些干擾就尤為關(guān)鍵。神經(jīng)網(wǎng)絡(luò)的方法在人臉識(shí)別上有其獨(dú)到的優(yōu)勢,即它避免了復(fù)雜的特征提取工作,可以通過學(xué)習(xí)的過程獲得其它方法難以實(shí)現(xiàn)的關(guān)于人臉識(shí)別的規(guī)律和規(guī)則的隱性表達(dá)。但是NN方法通常需要將人臉作為一個(gè)一維向量輸入,因此輸入節(jié)點(diǎn)龐大,降維就顯得尤為重要。根據(jù)文獻(xiàn)對(duì)于自組織神經(jīng)網(wǎng)絡(luò)方法的分析,認(rèn)為可采用自組織神經(jīng)網(wǎng)絡(luò)的P個(gè)節(jié)點(diǎn)來表達(dá)原始的N個(gè)輸入(P<N),但由于將P個(gè)節(jié)點(diǎn)進(jìn)行分類,其識(shí)別的效果僅相當(dāng)于提取人臉空間特征向量后進(jìn)行的識(shí)別分類,因此采用此類神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別的效果只能是特征臉的水平。除此之外,由于人臉處在高維空間,如一幅不大的100x100的圖像為10000維,這樣神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn)將很龐大,因此實(shí)際訓(xùn)練網(wǎng)絡(luò)的參數(shù)繁多,實(shí)現(xiàn)起來很困難。神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn)是可以針對(duì)特定的問題進(jìn)行子空間設(shè)計(jì),比如用于人臉檢測、性別識(shí)別、種族識(shí)別等(不屬于本文的研究內(nèi)容)。鑒于以上考慮,本文未對(duì)此方法進(jìn)行重點(diǎn)研究。圖1-2可以提取的各種人臉特征,圖下方為各種特征的綜合方式通過對(duì)不同的人臉識(shí)別分類方法的總結(jié),多視角的、全面的介紹了主要的人臉識(shí)別方法。從對(duì)人臉識(shí)別方法的分析中可以看出,每種方法各有其優(yōu)缺點(diǎn),因此一些學(xué)者傾向于將多種方法綜合起來,或同時(shí)利用不同種類的特征,圖1-2為人臉圖像可以提取的特征以及可能的特征綜合方法。在對(duì)各種人臉識(shí)別方法進(jìn)行理論分析后,本文主要研究基于統(tǒng)計(jì)學(xué)習(xí)的、整體的人臉識(shí)別方法,包括特征臉法、基于獨(dú)立分量分析的人臉識(shí)別方法和基于隱馬爾可夫模型的人臉識(shí)別方法,并嘗試新的特征提取和分類方法。人臉識(shí)別測試數(shù)據(jù)庫人臉識(shí)別是近年來研究的熱點(diǎn),各國研究人員提出了各種新的識(shí)別算法,為測試和比較各種識(shí)別技術(shù)的優(yōu)缺點(diǎn)及其識(shí)別率的高低,世界各研究機(jī)構(gòu)都建立了各自的人臉測試和測評(píng)數(shù)據(jù)庫,下面介紹一些著名的標(biāo)準(zhǔn)數(shù)據(jù)庫。英國ORL(O一OliverttiResearchLaboratory)人臉數(shù)據(jù)庫ORL人臉圖像庫是由英國劍橋011vetti實(shí)驗(yàn)室從1992年4月到1994年4月期間拍攝的一系列人臉圖像組成,共有40個(gè)不同年齡、不同性別和不同種族的對(duì)象。每個(gè)對(duì)象10幅圖像共計(jì)400幅灰度圖像組成,圖像尺寸為92xlZl,圖像背景為黑色。其中人臉部分表情和細(xì)節(jié)均有變化,例如笑與不笑,眼睛睜著或閉著,戴或不戴眼鏡等,人臉姿態(tài)也有變化,其深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達(dá)20度,人臉的尺寸也有最多10%的變化。該庫是目前使用最廣泛的標(biāo)準(zhǔn)數(shù)據(jù)庫,它含有大量的比較結(jié)果。英國Manchester人臉數(shù)據(jù)庫該數(shù)據(jù)庫由30人的690幅圖像組成,圖像有不同的光照和背景特征,而且對(duì)于每個(gè)人而言,前后兩張照片之間的時(shí)間間隔至少為3周。訓(xùn)練集對(duì)光源有一定的約束。雖然Manchester人臉數(shù)據(jù)庫遠(yuǎn)比ORL數(shù)據(jù)庫全面,但因發(fā)表的比較結(jié)果不夠多,從而遠(yuǎn)不如ORL數(shù)據(jù)庫使用廣泛。Yale耶魯人臉庫該數(shù)據(jù)庫包括15人每個(gè)人11幅正視圖,每幅圖像具有不同的面部表情、有或者無眼鏡,這些圖像在不同光照條件下拍攝。該庫的特點(diǎn)就是光照變化顯著,且有面部部分遮掩。歐洲M2VTS多模型數(shù)據(jù)庫該庫是用來作為多模型輸入的通路控制實(shí)驗(yàn),它包括37個(gè)人的序列人臉圖像。每人的5幅圖像間隔一個(gè)星期,每個(gè)圖像序列包括從右側(cè)輪廓(-90度)到左側(cè)輪廓(90度)之間的圖像,而且拍攝時(shí)每個(gè)人用他們的母語從一到九數(shù)數(shù)。該庫主要用于測試多模式身份識(shí)別。美國FERET(FaceRecognitionTechnology)人臉數(shù)據(jù)庫FERET人臉數(shù)據(jù)庫是目前最大的人臉數(shù)據(jù)庫,由美國軍方研究實(shí)驗(yàn)室提供,其中每人的圖像數(shù)目不等,有些人提供了更多不同視點(diǎn)和不同表情的照片。該數(shù)據(jù)庫中不包含戴眼鏡的照片,拍攝條件也有一定的限制。人臉大小約束在規(guī)定范圍內(nèi)。1996年6月,該數(shù)據(jù)庫己存儲(chǔ)了1199個(gè)人的14126幅圖像,而且逐年增加。但到目前為止,該數(shù)據(jù)庫并未提供運(yùn)動(dòng)圖像系列或包含語言信息。FERTE數(shù)據(jù)庫的最大缺點(diǎn)是非美研究機(jī)構(gòu)的獲取不便。其他數(shù)據(jù)庫還有CMU(CarnegieMellonUniversity)正面人臉數(shù)據(jù)庫,MIT單人臉數(shù)據(jù)庫等。不同的人臉數(shù)據(jù)庫,圖像的質(zhì)量和內(nèi)容也是不同的,為了客觀的、全面的測試人臉識(shí)別方法的性能,考慮不同因素對(duì)識(shí)別方法的影響,本文的人臉識(shí)別方法主要應(yīng)用了ORL、Manchester、Yale和部分FERET人臉數(shù)據(jù)庫進(jìn)行測試。
第2章基于隱馬爾可夫模型的人臉識(shí)別方法引言隱馬爾可夫模型(HiddenMarkovModels,HMM),起源于二十世紀(jì)六十年代后期,屬于信號(hào)統(tǒng)計(jì)理論模型,能夠很好的處理隨機(jī)時(shí)序數(shù)據(jù)的識(shí)別與檢測。PCA與ICA作為統(tǒng)計(jì)理論的信號(hào)處理技術(shù),目的是將觀察到的數(shù)據(jù)進(jìn)行某種線性變換,從而用低維的子空間參數(shù)描述高維的數(shù)據(jù)特征。隱馬爾可夫模型是將隨機(jī)時(shí)序數(shù)據(jù)的統(tǒng)計(jì)特性,用一個(gè)模型的參數(shù)來描述,模型參數(shù)通過訓(xùn)練樣本的統(tǒng)計(jì)學(xué)習(xí)獲得。HMM最早應(yīng)用在語音識(shí)別中,若將時(shí)序序列看成應(yīng)用對(duì)象的特征序列,HMM也可以應(yīng)用到其他領(lǐng)域,如音頻處理、手寫體識(shí)別、圖像與視覺處理等,參考Olivier所寫的“TenyearsofHMMs”。根據(jù)人臉由上至下各個(gè)區(qū)域具有自然不變的順序,這一穩(wěn)定的相似共性,個(gè)人特征僅表現(xiàn)在上述組成部分的形狀及其相互連接關(guān)系不同,即可用一個(gè)一維HMM(1D-HMM)表示人臉。進(jìn)一步研究表明人臉?biāo)椒较驈淖笾劣乙簿哂邢鄬?duì)穩(wěn)定的空間結(jié)構(gòu),因此可將沿垂直方向劃分的狀態(tài)分別擴(kuò)充為一個(gè)1D-HMM,共同組成了一個(gè)P2D-HMM。該模型可以更加精確的描述和定義具體人臉的個(gè)人特征,是較好的描述和識(shí)別人臉的數(shù)學(xué)模型。采用P2D-HMM進(jìn)行人臉識(shí)別時(shí),精確度增加了很多,識(shí)別率提高了,訓(xùn)練和識(shí)別的復(fù)雜度也增加了很多,所以考慮繼續(xù)改善其模型結(jié)構(gòu)。支持向量機(jī)(SupportVectorMahcines,SVM)源于統(tǒng)計(jì)學(xué)習(xí)理論,它使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)原理構(gòu)造決策超平面使每一類數(shù)據(jù)之間的分類間隔最大。所以本文使用SVM取代高斯分布函數(shù)或者狀態(tài)映射矩陣建立與HMM的混合模型,每個(gè)人臉器官通過VSM進(jìn)行識(shí)別,混合模型的總體結(jié)構(gòu)僅相當(dāng)于一個(gè)1D-HMM,減少了訓(xùn)練識(shí)別的時(shí)間,但獲得了與P2D-HMM相當(dāng)?shù)淖R(shí)別精度。本章首先介紹了HMM是如何由Markov鏈發(fā)展而來的,并且介紹了二者的區(qū)別和MHM的基本理論,包括HMM的模型和HMM中涉及的三大問題;其次介紹了基于HMM人臉識(shí)別方法的基本原理和系統(tǒng)概況;然后分別介紹了基于1D-HMM的人臉識(shí)別方法、基于P2D-HMM的人臉識(shí)別方法以及基于ICA特征和SVM/HMM的人臉識(shí)別方法,本章最后比較了不同模型的識(shí)別性能。隱馬爾可夫模型的理論基礎(chǔ)隱馬爾可夫模型屬于信號(hào)統(tǒng)計(jì)理論模型,能夠很好的處理隨機(jī)時(shí)序數(shù)據(jù)的識(shí)別與預(yù)測。HMM是由馬爾可夫鏈(Markov鏈)發(fā)展而來的。馬爾可夫鏈馬爾可夫鏈?zhǔn)邱R爾可夫隨機(jī)過程的特殊情況,即Markov鏈?zhǔn)菭顟B(tài)和時(shí)間參數(shù)都離散的Markov過程。從數(shù)學(xué)上,可以給出如下定義:隨機(jī)序列Xn,在任一時(shí)刻n,它可以處在狀態(tài)θ1,θ2,…,θN,且它在m+k時(shí)刻所處的狀態(tài)為qm+k的概率,只與它在m時(shí)刻的狀態(tài)qm有關(guān),而與m時(shí)刻以前它所處狀態(tài)無關(guān),既有:(4-1)(2-2)其中,ql,q2,…,qm,…,qm+1∈(θ1,θ2,…,θN)。則稱Xn為Markov鏈,并且稱(2-3)為k步轉(zhuǎn)移概率,當(dāng)pij(m,m+k)與m無關(guān)時(shí),稱這個(gè)Markov鏈為齊次Markov鏈,此時(shí)(2-4)以后若無特別申明,Markov鏈就是指齊次Markov鏈。當(dāng)k=1時(shí),pij(1)稱為一步轉(zhuǎn)移概率,簡稱為轉(zhuǎn)移概率,記為aij,所有轉(zhuǎn)移概率aij,1≤i,j≤N可以構(gòu)成一個(gè)轉(zhuǎn)移矩陣,即(2-5)且有(2-6)由于k步轉(zhuǎn)移概率Pij(k)可由轉(zhuǎn)移概率aij得到,因此,描述Markov鏈的最重要參數(shù)就是轉(zhuǎn)移概率矩陣A。但A矩陣還決定不了初始分布,即由A求不出q1=θi的概率,這樣,完全描述Markov鏈,除A矩陣外,還必須引入初始概率矢量∏=(π1,…,πN),其中(2-7)顯然有(2-8)實(shí)際中,Markov鏈的每一個(gè)狀態(tài)對(duì)應(yīng)于一個(gè)可觀測到的物理事件,比如天氣預(yù)測中的雨、晴、雪等,那么根據(jù)這個(gè)天氣預(yù)報(bào)的Markov鏈模型,可以計(jì)算出各種天氣(即狀態(tài))在某一時(shí)刻出現(xiàn)的概率。但更普遍的情況下,實(shí)際的狀態(tài)并不能直接觀測到,所以隱馬爾可夫模型由此發(fā)展起來。隱馬爾可夫模型隱馬爾可夫模型是在馬爾可夫鏈的基礎(chǔ)之上發(fā)展起來的。由于實(shí)際問題比Markov鏈模型描述的更為復(fù)雜,觀察到的事件并不是與狀態(tài)一一對(duì)應(yīng)的,而是通過一組概率分布相聯(lián)系,這樣的模型就稱之為HMM。HMM是一個(gè)雙重隨機(jī)過程,其一是Markov鏈,它是最基本的隨機(jī)過程,描述狀態(tài)的轉(zhuǎn)移。另一個(gè)隨機(jī)過程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。這樣,以觀察者的角度,只能看到觀察值,而非Markov鏈模型中的觀察值與狀態(tài)一一對(duì)應(yīng)的關(guān)系,因此,不能直接看到狀態(tài),而是通過一個(gè)隨機(jī)過程去感知狀態(tài)的存在及其特性。HMM可看作由兩層構(gòu)成:a.隱含層,它由有限個(gè)狀態(tài),狀態(tài)轉(zhuǎn)移矩陣A和初始狀態(tài)概率分布∏組成;b.映射層,它表示每個(gè)狀態(tài)對(duì)應(yīng)觀測數(shù)據(jù)的映射,可以用狀態(tài)變換矩陣B,或者一系列概率密度函數(shù)表示,分別對(duì)應(yīng)離散的HMM和連續(xù)的HMM。根據(jù)人臉至上而下,從左至右下具有的共性結(jié)構(gòu),本文采用1D-HMM和P2D-HMM描述人臉,下面分別介紹組成1D-HMM和P2D-HMM的主要參數(shù)。1D-HMM由N,A,B,∏參數(shù)組成,簡寫為λ={N,A,B,∏}。各參數(shù)的含義如下:?N,表示模型的狀態(tài)個(gè)數(shù);?A={aij},其中1≤i,j≤N,表示狀態(tài)轉(zhuǎn)移概率矩陣;?B={bj(?)},其中1≤j≤N,表示輸出概率函數(shù);?∏={πj},其中1≤j≤N,表示初始狀態(tài)概率分布。己知模型λ,觀察序列O=o1…oT,Q為所有可能狀態(tài)序列的集合,觀察序列的聯(lián)合概率計(jì)算如下式:(2-9)P2D-HMM可看作是1D-HMM的擴(kuò)充,即在1D-HMM的每個(gè)狀態(tài)中嵌入一個(gè)1D-HMM,該狀態(tài)被改稱為超狀態(tài)。P2D-HMM由N,A,∏,Λ參數(shù)組成,簡寫為兄={N,A,∏,Λ}。各參數(shù)的含義如下:?N,表示垂直方向超狀態(tài)的個(gè)數(shù);?A={aKJ},其中1≤k,j≤N,表示超狀態(tài)轉(zhuǎn)移概率矩陣;?∏={πJ},其中1≤j≤N,表示超狀態(tài)的初始概率分布;?Λ={λJ},其中1≤j≤N,表示嵌入每個(gè)超狀態(tài)的ID-HMM,每個(gè)λJ都具有一標(biāo)準(zhǔn)的1D-HMM所必需的參數(shù);?NJ,表示狀態(tài)個(gè)數(shù);?Aj={aKjJ},其中1≤k,i≤NJ,表示狀態(tài)轉(zhuǎn)移概率矩陣;?BJ={bij(?)},其中1≤i≤NJ,表示輸出概率函數(shù);?∏J={π1J},其中1≤i≤NJ,表示初始狀態(tài)概率分布。已知模型λ,觀察序列O=o11…oTrTs,QY為垂直方向的所以可能狀態(tài),QXj為超狀態(tài)j對(duì)應(yīng)的水平方向的所以可能狀態(tài),聯(lián)合概率的計(jì)算如下式:(2-10)其中,隱馬爾可夫模型中的三大問題欲使所建立的隱馬爾可夫模型能解決實(shí)際問題,以下三個(gè)問題必須加以解決:問題1:己知觀察序列O和模型λ={N,A,B,∏},如何計(jì)算由此模型產(chǎn)生此觀察序列的概率P{O|λ}問題2:己知觀察序列O和模型λ={N,A,B,∏},如何確定一個(gè)合理的狀態(tài)序列,使其能最佳的產(chǎn)生O,即如何選擇最佳的狀態(tài)序列Q=q1,q2,…,qT問題3:如何根據(jù)觀察序列不斷修正模型參數(shù)A,B,∏,使P{O|λ}最大問題1實(shí)質(zhì)上是一個(gè)模型評(píng)估問題,因?yàn)镻{O|λ}反映了觀察序列與模型吻合的程度。在模式識(shí)別中,可以通過計(jì)算、比較P{O|λ},從多個(gè)模型參數(shù)中選擇出與觀察序列匹配的最好的那個(gè)模型,這也是HMM用于模式識(shí)別的原理所在。為了解決這個(gè)問題,前人已研究出了“前向一后向”算法(Forward-BackwardAlgorithm)。問題2的關(guān)鍵在于選用怎樣的最佳準(zhǔn)則來決定狀態(tài)的轉(zhuǎn)移。一種可能的最佳準(zhǔn)則是:選擇狀態(tài)qi,使它們?cè)诟鱰時(shí)刻都是最可能的狀態(tài),即(2-11)有時(shí)存在這樣的問題:如出現(xiàn)不允許的轉(zhuǎn)移,即aij=0,那么,對(duì)這些i和j所得到的狀態(tài)序列就是不可能狀態(tài)序列。也就是說,上式得到的解只是在每個(gè)時(shí)刻決定一個(gè)最可能的狀態(tài),而沒有考慮整體結(jié)構(gòu),相鄰時(shí)間的狀態(tài)和觀察序列的長度等問題。針對(duì)這個(gè)缺點(diǎn)要求人們研究一種在最佳狀態(tài)序列基礎(chǔ)上的整體約束的最佳準(zhǔn)則,并用此準(zhǔn)則找出一條最好的狀態(tài)序列。目前,解決這個(gè)問題的最好方案是Vietbri算法。問題3實(shí)質(zhì)上就是如何訓(xùn)練模型,估計(jì)、優(yōu)化模型參數(shù)的問題。這個(gè)問題在三個(gè)問題中最難,因?yàn)闆]有解析法可用來求解最大似然模型,所以只能使用疊代法(如:Baum一Welch算法)或使用最佳梯度法。在和節(jié)中,本文將以不同HMM的人臉識(shí)別方法為例具體介紹“前向一后向算法”、Vitebri算法和Baum-Welch算法在模式識(shí)別中的具體應(yīng)用,有關(guān)以上三種算法的詳細(xì)內(nèi)容可以參考文獻(xiàn)[60]。隱馬爾可夫模型的類型根據(jù)觀測值的取值不同,HMM可分為離散的和連續(xù)的。本文節(jié)介紹的HMM,如果其觀測值是M個(gè)離散可數(shù)的觀察值中的一個(gè),則稱之為離散HMM,某個(gè)狀態(tài)qj對(duì)應(yīng)的觀察值的統(tǒng)計(jì)特性是由一組概率bJK,k=1,…,M來描述。連續(xù)的MMH,指觀察值的可能取值只能用一個(gè)概率密度函數(shù)bJ(q)表示。根據(jù)狀態(tài)轉(zhuǎn)移的類型不同,HMM可分為遍歷的(Ergodic)和從左到右的(Left-to-right,又稱從上至下的Top-to-bottom)。前者表示狀態(tài)轉(zhuǎn)移是任意的,可以到本身和其他所有狀態(tài),如圖2-1(a)。后者表示狀態(tài)轉(zhuǎn)移只限于本身和下一個(gè)狀態(tài),如圖2-1(b)。人臉由于各個(gè)區(qū)域(頭發(fā)、額頭、眼睛、鼻子和嘴巴)具有自然不變的順序,通常采用從左到右型的HMM。圖2-1幾種典型的馬爾可夫鏈?zhǔn)疽鈭D(a)四狀態(tài)遍歷型馬爾可夫鏈(b)四狀態(tài)由左至右型馬爾可夫鏈基于隱馬爾可夫模型的人臉識(shí)別方法概述基于HMM人臉識(shí)別的基本原理根據(jù)人臉由上至下各個(gè)區(qū)域(頭發(fā)、額頭、眼睛、鼻子和嘴巴)具有自然不變的順序,個(gè)人特征僅表現(xiàn)在上述組成部分的形狀及其相互連接關(guān)系不同,即可用一個(gè)1D-HMM表示人臉,如圖2-2(a)。上述人臉5個(gè)部分的人臉特征對(duì)應(yīng)HMM的狀態(tài)序列,狀態(tài)的出現(xiàn)及其轉(zhuǎn)移可用模型中的概率矩陣描述,提取圖像的象素點(diǎn)亮度值(或其他特征)作為觀測序列。對(duì)于既定的人臉,所對(duì)應(yīng)的HMM應(yīng)當(dāng)是唯一的。進(jìn)一步研究表明人臉?biāo)椒较驈淖笾劣乙簿哂邢鄬?duì)穩(wěn)定的空間結(jié)構(gòu),因此可將沿垂直方向劃分的狀態(tài)分別擴(kuò)充為一個(gè)1D-HMM。垂直方向的狀態(tài)就稱為超狀態(tài),水平方向嵌入的狀態(tài)就稱為子狀態(tài),共同組成了一個(gè)P2D-HMM,如圖2-2(b)圖2-2用HMM建立人臉模型的基本原理圖(a)1D?HMM人臉模型(b)P2D?HMM人臉模型基于HMM人臉識(shí)別的系統(tǒng)概述基于HMM的人臉識(shí)別系統(tǒng),必須首先選擇HMM的結(jié)構(gòu)(是1D-HMM,還是P2D-HMM)。HMM的結(jié)構(gòu)不同使得特征提取、模型訓(xùn)練和識(shí)別中基本算法和系統(tǒng)結(jié)構(gòu)都會(huì)有所不同,但關(guān)于圖像的預(yù)處理和最后的決策方法都是相同的。本文首先介紹對(duì)輸入圖像的預(yù)處理和決策方法,關(guān)于特征提取、模型訓(xùn)練的具體算法將在基于1D-HMM和P2D-HMM人臉識(shí)別方法時(shí)分別介紹。圖2-3為基于HMM人臉識(shí)別系統(tǒng)的原理圖,其中“CommonHMM”代表人臉的普遍結(jié)構(gòu),由訓(xùn)練集中所有人臉圖像獲得,它的作用主要有以下兩個(gè)方面:一作為各個(gè)對(duì)象的人臉模型訓(xùn)練的初始化參數(shù),可以極大提高收斂速度;二是完成對(duì)人臉庫中不存在的新對(duì)象(NewSubject)的拒識(shí)(Reject)。如果輸入的是一幅彩色圖像,比如RGB顏色模式圖像,預(yù)處理階段首先將其轉(zhuǎn)換為YCbCr顏色模型,然后進(jìn)行膚色初篩,得到人臉的可能區(qū)域,最后歸一化成方塊灰度圖像后,就可以用條狀或塊狀窗進(jìn)行一定步長的遍歷掃描,提取特征序列了。本文采用層次結(jié)構(gòu)的判決來完成人臉的識(shí)別,如圖2-4。首先通過計(jì)算特征序列O在“CommonHMM”模型參λcommon下的概率P(O|λcommon),判別是否人臉。若是,再計(jì)算特征序列在各個(gè)對(duì)象MHM模型參數(shù)λi下的概率P(O|λi),與P(O|λcommon)比較,判別是否庫中己有對(duì)象的人臉,若是,輸出max{P(O|λi)}的對(duì)象標(biāo)號(hào)i。圖2-3人臉識(shí)別系統(tǒng)原理圖圖層次結(jié)構(gòu)的決策原理圖基于一維隱馬爾可夫模型的人臉識(shí)別方法上文介紹了用HMM建立人臉模型的基本原理和基于MHM人臉識(shí)別系統(tǒng)的概況,以下介紹關(guān)于基于1D-HMM人臉特征提取、模型訓(xùn)練的具體算法。特征提取1D-HMM對(duì)人臉圖像區(qū)域提取觀察序列,采用條狀窗口從上至下的遍歷掃描,如圖2-5。有文獻(xiàn)采用每個(gè)窗口所含象素的灰度值作為觀察向量,維數(shù)太高,且對(duì)影響識(shí)別的光線、角度等因素敏感。所以本文選取每個(gè)窗口的K-L變換(即PCA)系數(shù)作為觀察向量。也可以提取二維離散傅立葉變換(即2D-DCT)系數(shù)作為觀察向量。考慮到K-L變換系數(shù)是均方誤差意義下的最佳變換,實(shí)驗(yàn)中識(shí)別效果比2D-DCT系數(shù)略好些。所以本文在結(jié)構(gòu)較簡單的1D-HMM人臉識(shí)別中提取CPA系數(shù)作為觀察向量。而在基于P2D-HMM人臉識(shí)別中,本文提取2D-DCT系數(shù)作為特征向量,主要鑒于與JPGE圖像壓縮標(biāo)準(zhǔn)兼容,且有快速算法。圖2-5條狀窗口對(duì)圖像從上至下的遍歷掃面示意圖圖2-6由左至右依次為頭發(fā),額頭,眼睛,鼻子和嘴對(duì)應(yīng)的典型KLT系數(shù)條狀窗口掃描得到的象素灰度值,排列成一列向量,維數(shù)為LxX,所有的M個(gè)樣本構(gòu)成(LxX)xM的矩陣。求得它的協(xié)方差矩陣和前十個(gè)最大的特征根,重新構(gòu)造特征空間。提取的特征就為掃描窗所含象素灰度值在這個(gè)特征空間的投影的系數(shù)。圖2-6就是對(duì)應(yīng)人臉特征區(qū)域(如頭發(fā)、額頭、眼睛、鼻子和嘴)的典型觀察向量。模型訓(xùn)練掃描整幅圖像得到T個(gè)觀察向量,構(gòu)成觀察序列。為了使得觀察序列能與真實(shí)的狀態(tài)轉(zhuǎn)移對(duì)應(yīng)起來,還必須對(duì)用Viterbi算法和K均值聚類對(duì)序列分段。Viterbi算法用來尋找觀測序列O=(ol,o2,…,oT)對(duì)應(yīng)的最佳狀態(tài)序列Q=(q1,q2,…,qT),并且計(jì)算在最佳狀態(tài)序列條件下的概率。定義變量:(2-12)具體算法如下:a.初始化:(2-13)b.遞推:(2-14)(2-15)c.終止:(2-16)d.最佳狀態(tài)序列:(2-17)本文將已分段的序列輸入初始化的HMM,首先用Forward-Backward算法求得前向概率αi(j)和后向概率βi(j),再用Buam-welch算法進(jìn)行反復(fù)參數(shù)重估直至收斂,這樣就得到訓(xùn)練人臉樣本的HMM。重估過程如下:定義ξi(i,j)表示在己知觀察序列O和模型λ的情況下,t時(shí)刻處于狀態(tài)i,t+1時(shí)刻處于狀態(tài)j的概率,定義γi(i)為給定觀察序列O和模型λ的條件下。t時(shí)刻處于狀態(tài)i的概率。表示在觀察序列中,從狀態(tài)i出發(fā)的狀態(tài)轉(zhuǎn)移次數(shù)的期望,表示觀察序列中,從狀態(tài)i到j(luò)的狀態(tài)轉(zhuǎn)移次數(shù)的期望,可知(2-18)(2-19)模型中的三個(gè)參數(shù)的重估結(jié)果如下式:(2-20)然后計(jì)算P(O|λ),反復(fù)重估參數(shù)至收斂,得到訓(xùn)練樣本的1D-HMM人臉模型。分類識(shí)別HMM本身就是一個(gè)分類器。以O(shè)RL人臉庫為例,首先劃分訓(xùn)練集和測試集,然后將訓(xùn)練集中的圖像分對(duì)象分別訓(xùn)練,得到每個(gè)對(duì)象的人臉HMM模型。人臉識(shí)別時(shí),測試集中任取一幅圖像,先通過條狀窗掃描獲得觀測序列,即提取的人臉特征,然后用Forward-Backward算法計(jì)算待測區(qū)域提取的觀察向量在不同對(duì)象的1D-HMM參數(shù)下的概率,實(shí)際中一般用Viterbi算法計(jì)算概率,這樣運(yùn)算速度比較快。最后通過比較概率的大小即可作出決策。分析基于1D-HMM的人臉識(shí)別過程,影響識(shí)別效果可能有以下因素:狀態(tài)數(shù)N、窗口寬度L,掃描重疊寬度M。文獻(xiàn)[62]就以上因素對(duì)人臉識(shí)別性能進(jìn)行了詳細(xì)比較和分析,本文也認(rèn)為取5個(gè)狀態(tài)分別對(duì)應(yīng)人臉的前額、眼睛、鼻子、嘴和下巴,描述和代表人臉的宏觀特征理論是比較合理的,識(shí)別性能也最好。并且對(duì)于窗口寬度L,只要重疊寬度M足夠大,對(duì)識(shí)別性能影響不大。重疊寬度大,識(shí)別效果好,通常取M=L-1。本文的識(shí)別系統(tǒng)最終選取N=5、L=8、M=7的掃描方式。基于偽二維隱馬爾可夫模型的人臉識(shí)別方法P2D-HMM最早應(yīng)用在字符識(shí)別中,后來證明用它描述二維圖像也是行之有效的。圖2-2所示的拓?fù)浣Y(jié)構(gòu)說明了用P2D-HMM建立人臉模型的原理,它和用1D-HMM人臉模型的區(qū)別在于它不但能表現(xiàn)人臉從上至下的空間結(jié)構(gòu),還能表現(xiàn)水平方向從左至右的空間結(jié)構(gòu),表現(xiàn)在HMM結(jié)構(gòu)中使用1D-HMM替代超狀態(tài)的概率分布。同時(shí)因?yàn)樗椒较虻臓顟B(tài)變化僅限于超狀態(tài)內(nèi),所以分析處理比真正二維的隱馬爾可夫模型(2D-HMM)簡單。文獻(xiàn)[62]中曾對(duì)不同狀態(tài)數(shù)的模型人臉識(shí)別性能進(jìn)行了詳細(xì)比較和分析。本文選取5個(gè)超狀態(tài)分別對(duì)應(yīng)人臉的宏觀特征,每個(gè)超狀態(tài)內(nèi)嵌入的狀態(tài)分別提取人臉的局部區(qū)域特征,嵌入狀態(tài)數(shù)取(3,6,6,6,3)的結(jié)構(gòu)具有較好的識(shí)別精度,如圖2-2(b)。圖2-7塊狀窗對(duì)圖像從左到右、從上至下的遍歷掃描示意圖X為圖像的水平像素點(diǎn)總數(shù);Y為圖像的垂直像素點(diǎn)總數(shù);M為從上到下遍歷掃描的步長;Q為從左到右遍歷掃描的步一長;L為從上至下掃描的塊狀窗口在垂直方向的長度;P為從上至下掃描的塊狀窗口在水平方向的長度;T為遍歷掃描的窗口數(shù);為了更好的提取人臉的二維空間特征,P2D-HMM觀察序列采用塊狀窗遍歷掃描方法,如圖2-7。在人臉圖像和可能含人臉的待檢測區(qū)域,用含象素點(diǎn)數(shù)為PxL的掃描窗從左到右、由上至下滑動(dòng),獲取觀察圖像塊。相鄰窗口在垂直方向和水平方向分別有M行、Q列重疊。如果直接取采樣窗內(nèi)的象素點(diǎn)灰度值構(gòu)造觀察向量,同樣存在維數(shù)太大,易受噪聲干擾的缺點(diǎn)。本文選取8x8的掃描窗,做2D-DCT變換,得到8x8的2D-DCT系數(shù)。DCT變換如下式:用三角窗取DCT系數(shù)矩陣的前15個(gè)系數(shù),就得到了一個(gè)觀察向量。若采用16x16的掃描窗,得到的識(shí)別效果與8x8相近,但是8x8的掃描窗與JEPG標(biāo)準(zhǔn)兼容,觀察向量維數(shù)少。這樣提取DCT系數(shù)作為觀察向量,對(duì)JPEG壓縮的人臉圖像可以直接在壓縮域進(jìn)行識(shí)別,無需解壓,如圖2-8。圖2-8壓縮域上人臉識(shí)別示意圖本文訓(xùn)練時(shí)采用75%的重疊掃描,M=8,Q=6。識(shí)別時(shí),重疊掃描為零,直接使用壓縮域的參數(shù),獲得較好的識(shí)別效果,這與前人所研究所討論的相符。訓(xùn)練基于P2D-HMM的人臉模型和訓(xùn)練1D-HMM的人臉模型類似,用塊狀窗遍歷掃描得到觀察序列后,對(duì)觀察序列進(jìn)行Viterbi分段,Buam-Welch算法重估參數(shù)。由于P2D-HMM在每個(gè)超狀態(tài)中嵌入了一個(gè)1D-HMM,所以具體算法有所不同。基于I以特征和SMV/1翎以的人臉識(shí)別方法采用P2D-HMM進(jìn)行人臉識(shí)別時(shí),精確度增加了很多,識(shí)別率最高可達(dá)100%,(基于ORL人臉庫)。但是因?yàn)樗鼘?6-30個(gè)子狀態(tài)嵌入到4~5個(gè)超狀態(tài)中,訓(xùn)練和識(shí)別的復(fù)雜度也增加了很多。將SVM引入HMM,建立SVM/HMM的混合人臉識(shí)別模型可以簡化P2D-HMM的結(jié)構(gòu),同時(shí)保證識(shí)別精度不變。SVM源于統(tǒng)計(jì)學(xué)習(xí)理論,它使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)原理構(gòu)造決策超平面使每一類數(shù)據(jù)之間的分類間隔最大。與HMM和ANN相比,SVM具有以下優(yōu)勢:訓(xùn)練過程中,分類模型自動(dòng)構(gòu)造,不需要事先指定;SVM可以在小樣本訓(xùn)練前提下完成;采用SRM原理,SVM訓(xùn)練的結(jié)果使其識(shí)別的實(shí)際風(fēng)險(xiǎn)小,而非僅僅經(jīng)驗(yàn)風(fēng)險(xiǎn)小。SVM/HMM的混合模型最早使用在語音識(shí)別中。我們將SVM/HMM應(yīng)用于人臉識(shí)別,用SVM的輸出取代高斯分布函數(shù)或者狀態(tài)映射矩陣(離散碼本)建立與HMM的混合模型。每個(gè)人臉器官通過SVM進(jìn)行分類,混合模型相當(dāng)于一個(gè)1D-HMM。所以在保證識(shí)別率的前提下,SVM/HMM模型較簡練,減少了分析識(shí)別的時(shí)間。由于ICA提取的人臉特
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑工程公司宿舍租賃合同
- 林業(yè)開發(fā)電力設(shè)施安裝協(xié)議
- 醫(yī)療自建房施工合同模板
- 高級(jí)軟件開發(fā)工程師聘用合同
- 員工生育援助政策手冊(cè)
- 社會(huì)服務(wù)外網(wǎng)施工合同
- 城市綠化帶養(yǎng)護(hù)植樹合同
- 展覽館排水設(shè)施施工合同
- 商業(yè)活動(dòng)策劃用車租賃合同樣本
- 珠寶行業(yè)合同專用章管理方案
- 婦產(chǎn)科學(xué)課件:盆腔炎性疾病
- 質(zhì)保金支付申請(qǐng)表
- 國家開放大學(xué)電大本科《小學(xué)數(shù)學(xué)教學(xué)研究》期末題庫和答案
- 預(yù)防住院患者跌倒墜床的防范措施及宣教
- GB/T 3279-2023彈簧鋼熱軋鋼板和鋼帶
- 《學(xué)習(xí)共同體-走向深度學(xué)習(xí)》讀書分享
- 大班健康《小小營養(yǎng)師》
- 產(chǎn)品4五子衍宗丸
- 吉林省運(yùn)動(dòng)員代表協(xié)議書
- BSCI驗(yàn)廠全套程序文件
- 2023-2024學(xué)年四川省樂山市小學(xué)語文三年級(jí)期末自測試題詳細(xì)參考答案解析
評(píng)論
0/150
提交評(píng)論