人臉識別文檔

上傳人：1*** IP屬地：湖北上傳時間：2024-12-26 格式：DOC 頁數(shù)：34 大?。?.13MB 積分：6 舉報 版權(quán)申訴

已閱讀5頁，還剩29頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第1章引言人臉識別技術(shù)的應(yīng)用與難點人臉是自然界存在的一種特殊的、復(fù)雜的視覺模式，它包含著極其豐富的信息。首先，人臉具有一定的不變性和唯一性，人臉識別是人類在進行身份確認時使用的最為普遍的一種方式，其次，人臉圖像還能提供一個人的性別、年齡、種族等有關(guān)信息。人類在人臉識別中所表現(xiàn)出來的能力是令人驚異的，但是讓計算機能夠識別人臉，卻是非常困難的問題。迄今為止，人臉識別的認知過程和內(nèi)在機理仍然是一個未解之謎，如何實現(xiàn)一個自動的人臉識別系統(tǒng)仍然是一個懸而未決的難題。從上個世紀六十年代以來，隨著計算機和電子技術(shù)的迅猛發(fā)展，人們開始利用計算機視覺和模式識別等技術(shù)對人臉識別進行研究。近年來，隨著相關(guān)技術(shù)的不斷發(fā)展和實際需求的日益增加，人臉識別已經(jīng)引起了越來越多的關(guān)注，成為了信息處理和人工智能等領(lǐng)域研究的熱點之一，新的研究成果和實用系統(tǒng)也不斷涌現(xiàn)。人臉識別技術(shù)的廣泛應(yīng)用一項技術(shù)的問世和發(fā)展與人類的迫切需求是密切相關(guān)的，飛速發(fā)展的社會經(jīng)濟和科學(xué)技術(shù)使得人類對安全(包括人身安全、隱私保護等)的認識越來越重視。人臉識別的一個重要應(yīng)用就是人類的身份識別。一般來說，人類的身份識別方式分為三類:a.特殊物品，包括各種證件和憑證，如身份證、駕駛執(zhí)照、房門鑰匙、印章等；b.特殊知識，包括各種密碼、口令和暗號等；c.人類生物特征，包括各種人類的生理和行為特征，如人臉、指紋、手形、掌紋、虹膜、DNA、簽名、語音等。前兩類識別方式屬于傳統(tǒng)的身份識別技術(shù)，其特點是方便、快捷，但致命的缺點是安全性差、易偽造、易竊取。特殊物品可能被丟失、偷盜和復(fù)制，特殊知識容易被遺忘、混淆和泄露。相比較而言，由于生物特征是人的內(nèi)在屬性，具有很強的自身穩(wěn)定性和個體差異性，因此生物特征是身份識別的最理想依據(jù)?；谝陨舷鄬Κ毺氐纳锾卣?，結(jié)合計算機技術(shù)，發(fā)展了眾多的基于人類生物特征的身份識別技術(shù)，如NDA識別技術(shù)、指紋識別技術(shù)、虹膜識別技術(shù)、語音識別技術(shù)和人臉識別技術(shù)等。表1-1為各種生物識別技術(shù)的綜合比較。表1-1各種生物特征識別技術(shù)的綜合比較生物識別技術(shù)在上個世紀己經(jīng)有了一定的發(fā)展，其中指紋識別技術(shù)己經(jīng)趨近成熟，但人臉識別技術(shù)的研究目前還處于起步階段。指紋、虹膜、掌紋等識別技術(shù)都需要被識別者的配合，有的識別技術(shù)還需要添置復(fù)雜昂貴的設(shè)備。人臉識別則可以用已有的照片或是攝像頭遠距離捕捉圖像，無須特殊的采集設(shè)備，系統(tǒng)的成本低。并且自動人臉識別可以在當事人毫無察覺的情況下即完成身份確認識別工作，這對反恐怖活動等有非常重大的意義。由于人臉識別技術(shù)具有如此之多的優(yōu)勢，因此它的應(yīng)用前景非常廣闊，已成為最具潛力的生物特征識別技術(shù)之一。本文將人臉識別技術(shù)的各種應(yīng)用及其特點總結(jié)在表1-2中。表1-2人臉識別技術(shù)的應(yīng)用人臉識別最初的應(yīng)用源于公安部門關(guān)于罪犯照片的存檔管理和刑偵破案?，F(xiàn)在該技術(shù)在安全系統(tǒng)、商業(yè)領(lǐng)域和日常生活中都有很多應(yīng)用，主要有以下幾類應(yīng)用:1.刑偵破案。當公安部門獲得罪犯的照片后，可以利用人臉識別技術(shù)，在存儲罪犯照片的數(shù)據(jù)庫中找出最相像的人作為嫌疑犯，極大的節(jié)省了破案的時間和人力物力。還有一種應(yīng)用就是根據(jù)目擊證人的描述，先由專業(yè)人員畫出草圖，然后用此圖到庫里去找嫌疑犯。罪犯數(shù)據(jù)庫往往很大，由幾千幅圖像組成。如果這項搜索工作由人工完成，不僅效率低，而且容易出錯，因為人在看了上百幅人臉圖像后，記憶力會下降，而由計算機來完成則不會出現(xiàn)此問題。2.證件驗證。身份證、駕駛執(zhí)照以及其他很多證件上都有照片;現(xiàn)在這些證件多由人工驗證完成。如果應(yīng)用人臉識別技術(shù)，這項工作就可以交給機計算機完成，從而實現(xiàn)自動化及智能管理。當前普遍使用的另一類證件是用符號或者條形碼標記的，比如信用卡。這類卡的安全性比較低，可能遺失、被竊取，使用場合(比如自動提款機)的安全性也比較差。如果在這類卡上加上人臉的特征信息，則會大大改善其安全性能。3.入口控制。需要入口控制的范圍很廣，它可以是重要人物居住的住所、保存重要信息的單位，只要人類覺得安全性比較重要的地點都可以進行入口控制，比較常用的檢查手段是核查證件。人員出入頻繁時，保安人員再三檢查證件是很麻煩的，而且證件安全性也不高。在一些保密要求非常嚴格的部門，除了證件外，已經(jīng)使用了生物特征識別手段，如指紋識別、掌紋識別、虹膜識別和語音識別等。人臉識別與這些技術(shù)相比，具有直接、方便和友好的特點。當前計算機系統(tǒng)的安全管理也備受重視，通常使用由字符和數(shù)字組成的口令(Password)進行使用者的身份驗證，但口令可能被遺忘，或被破解，如果將人臉作為口令，則既方便又安全。4.視頻監(jiān)控。在銀行、公司、公共場所等處設(shè)有24小時的視頻監(jiān)控，如何對視頻圖像進行篩選分析，就需要用到人臉檢測、跟蹤和識別技術(shù)。除了以上應(yīng)用外，人臉識別技術(shù)還可以用于視頻會議、機器人的智能化研究等方面。尤其從美國事件后，人的身份識別問題更是提升到了國家安全的角度，如何利用人臉信息迅速確定一個人的身份成了各個國家重點研究的技術(shù)。人臉識別技術(shù)的難點雖然人類可以毫不困難地根據(jù)人臉來辨別一個人，但是利用計算機進行完全自動的人臉識別，仍存在許多困難。人臉模式的差異性使得人臉識別成為一個非常困難的問題，表現(xiàn)在以下方面:1.人臉表情復(fù)雜，人臉具有多樣的變化能力，人的臉上分布著五十多塊面部肌肉，這些肌肉的運動導(dǎo)致不同面部表情的出現(xiàn)，會造成人臉特征的顯著改變；2.人臉隨年齡而改變，隨著年齡的增長，皺紋的出現(xiàn)和面部肌肉的松弛使得人臉的結(jié)構(gòu)和紋理都將發(fā)生改變；3.人臉有易變化的附加物，例如改變發(fā)型，蓄留胡須或者佩戴帽子和眼鏡等飾物；4.人臉特征遮掩，人臉全部、部分遮掩將會造成錯誤識別；5.人臉圖像的畸變，由于光照、視角、攝取角度不同，可能會造成圖像的灰度畸變、角度旋轉(zhuǎn)等，降低了圖像質(zhì)量，增大了識別難度。所以很難從有限張人臉圖像中提取出反映人臉內(nèi)在的、本質(zhì)的特征。另外人臉識別還涉及模式識別、圖像處理、計算機視覺、生理學(xué)和心理學(xué)等學(xué)科領(lǐng)域。這諸多因素使得人臉識別至今仍是一個有待深入研究，極富挑戰(zhàn)性的課題。同時一個成功的、具有商用價值的快速的人臉識別系統(tǒng)將會給社會帶來極大的影響。人臉識別技術(shù)的發(fā)展與現(xiàn)狀人臉識別的研究可以追溯到20世紀60年代末，最早的研究見于文獻。Bledsoe以人臉特征點的間距、比率等參數(shù)為特征，建成了一個半自動的人臉識別系統(tǒng)。人臉識別的發(fā)展大致經(jīng)過了三個階段，其中伴隨發(fā)展了多樣的人臉識別技術(shù)。人臉識別技術(shù)發(fā)展的三個階段第一階段一非自動識別階段:主要研究如何提取人臉識別所需的特征。通過簡單的語句描述人臉數(shù)據(jù)庫成為待識別人臉設(shè)計逼真的摹寫來提高面部識別率。這是需要手工干預(yù)的階段。此階段以Bertillon、Allen和Parke為代表。在Bertillon系統(tǒng)中，用了一個簡單的語句與數(shù)據(jù)庫中的某一張臉相聯(lián)系，同時與指紋識別相結(jié)合，提供了一個較強的識別系統(tǒng)。為了提高面部識別率，Allen為待識別人臉設(shè)計了一種有效逼真的摹寫，Parke則用計算機實現(xiàn)了這一想法，并且產(chǎn)生了較高質(zhì)量的人臉灰度圖模型。在此階段，識別過程全部依賴于操作人員，所以不是一種自動識別的系統(tǒng)。第二階段一人機交互階段:這一階段雖然實現(xiàn)了一定的自動化，但還需要操作員的某些先驗知識，仍然不是一個完全自動的識別系統(tǒng)。此階段的代表性工作有:Goldstion、Harmon和Lesk等人用幾何特征參數(shù)來表示人臉正面圖像。他們采用21維特征矢量表示人臉面部特征，并設(shè)計了基于這一表示法的識別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計識別的方法，用歐氏距離來表示人臉特征，例如嘴和鼻子之間的距離，嘴唇的高度，兩眼之間的距離等。更進一步的，設(shè)計了快速且有一定知識引導(dǎo)的半自動回溯識別系統(tǒng)，創(chuàng)造性的運用積分投影法從單幅圖像上計算出一組臉部特征參數(shù)，再利用模式分類技術(shù)與標準人臉相匹配。Kanad的系統(tǒng)實現(xiàn)了快速、實時的處理，是一個很大的進步?？偟膩碚f，上述方法都需要利用操作員的某些先驗知識，始終擺脫不了人的干預(yù)。第三階段一自動識別階段:這一階段真正實現(xiàn)了機器自動識別，產(chǎn)生了眾多人臉識別方法，出現(xiàn)了多種機器全自動識別系統(tǒng)。近十余年來，隨著高速度、高性能計算機的發(fā)展，人臉識別方法有了較大的突破，提出了多種機器全自動識別系統(tǒng)。近年來，人臉識別技術(shù)研究也非?；钴S，除了基于K一L變換的特征臉方法與奇異值特征為代表的代數(shù)特征方法取得了發(fā)展外，人工神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型·小波變換等也在人臉識別研究中得到了廣泛的應(yīng)用，而且出現(xiàn)了不少人臉識別的新方法。本文將在節(jié)介紹人臉識別的主要內(nèi)容與方法。國內(nèi)外發(fā)展現(xiàn)狀目前，國外對人臉識別問題的研究比較多，其中比較著名的有MTI、CMU、Cornell和Rockfeller等，MPEG標準組織也已經(jīng)建立了專門的人臉識別草案小組。國際上發(fā)表的相關(guān)論文數(shù)量也大幅度增長，EIEE的著名國際會議，如EIEEInternationalConferenceonAutomaticFaceandGestureRecognition、InternationalConferenceonImageProcessing、ConferenceonComputerVisionandPatternRecognition等，每年都有大量關(guān)于人臉識別的論文。截至2005年3月，EIEE/IEE全文數(shù)據(jù)庫中收錄的關(guān)于“face”的文章8916篇，其中有關(guān)“facerecognition”的3280篇，約占%，并且每年的文獻呈急劇上升趨勢。同樣在工程索引El中，至2005年3月，共有81657篇有關(guān)“face”的文獻，數(shù)目是驚人的，并且2000年后快速增長。國內(nèi)對人臉識別領(lǐng)域的研究起步較國外晚，但近十年來呈現(xiàn)飛速發(fā)展，據(jù)中國期刊網(wǎng)統(tǒng)計，1996年至2005年3月，有關(guān)“人臉”的文獻1467篇，其中人臉識別領(lǐng)域的文章494篇，并且再近幾年獲得快速增長，也預(yù)示人臉識別領(lǐng)域得到快速發(fā)展。目前國內(nèi)大部分高校有人從事人臉識別相關(guān)的研究，其中技術(shù)比較先進的有中科院自動化所、清華大學(xué)、浙江大學(xué)等。人臉識別的主要方法自動人臉識別技術(shù)(AFR)就是利用計算機技術(shù)，根據(jù)數(shù)據(jù)庫的人臉圖像，分析提取出有效的識別信息，用來“辨認”身份的技術(shù)。人臉識別技術(shù)的研究始于六十年代末七十年代初，其研究領(lǐng)域涉及圖像處理、計算機視覺、模式識別、計算機智能等領(lǐng)域，是伴隨著現(xiàn)代化計算機技術(shù)、數(shù)據(jù)庫技術(shù)發(fā)展起來的綜合交叉學(xué)科。人臉識別的視覺機理近幾年的研究表明，人類視覺數(shù)據(jù)處理是多層次的過程，其中最低層的視覺過程(視網(wǎng)膜功能)起到信息轉(zhuǎn)儲作用，即將大量圖像數(shù)據(jù)轉(zhuǎn)換為較為抽象的信息，這一任務(wù)由視網(wǎng)膜中的兩類細胞完成:低層次的細胞對空間的響應(yīng)與小波變換作用類似，高層次的細胞則依據(jù)低層次細胞的響應(yīng)，而作出具體的線、面乃至物體模式的響應(yīng)。這表明在視覺處理過程中，神經(jīng)元并不是隨便的、不可靠的把視覺圖像的光照強度投射到感覺中樞，它們可以檢測模式單元，區(qū)分物體的深度，排除無關(guān)的變化因素，并組成一個令人感興趣的層次結(jié)構(gòu)。人臉識別不僅有著以上普通視覺過程的特點，而且具有以下獨特之處。1.人臉識別是大腦中一個特有的過程。針對人臉識別，大腦中存在一個專門的處理過程；2.在人臉感知與識別過程中，局部特征與整體特征均起作用。若存在明顯的局部特征，整體特征將不起作用；3.不同的局部特征作用對識別的貢獻也不同。在正面人臉圖像中，頭發(fā)、人臉輪廓、眼睛以及嘴巴對識別和記憶有著重要影響，鼻子的作用則不是很重要。但在側(cè)面人臉識別中，鼻子對特征點的匹配很有作用。通常來講人臉的上部比下部對識別作用更大些；4.不同空間頻率上信息的作用不同。低頻信息代表了整體的描述，高頻信息包含了局部的細節(jié)。對于性別的判斷，僅利用低頻信息就足夠了，對于身份識別沒有高頻信息就無法完成；5.光照對視覺有影響。有實驗表明，從人臉底部打光會導(dǎo)致識別困難；6.動態(tài)信息比靜態(tài)信息更利于識別。研究還發(fā)現(xiàn)，對熟悉的人臉，人類的識別能力在動態(tài)場景中要高于靜態(tài)場景；7.十歲以下的兒童識別人臉較多的采用顯著特征，而較少的使用整體分析；8.不同的種族。性別的人臉識別的難易程度不同，這可能因為不同類型的人臉圖像具有不同的特征；9.面部表情的分析與人臉識別并行處理。通過對腦部受損的病人研究表明，表情的分析與識別雖有聯(lián)系，但總體來說是分開處理的。人臉識別是一種復(fù)雜的信息處理任務(wù)，它的研究涉及計算機技術(shù)、心理學(xué)和神經(jīng)生理學(xué)。視覺機理、心理學(xué)和神經(jīng)生理學(xué)的研究結(jié)果無疑將非常有益于人臉識別技術(shù)的發(fā)展，這些結(jié)論對于設(shè)計有效的識別方法起到了一定啟發(fā)作用。但除少數(shù)文獻外[24]，機器識別人臉的研究還是獨立于心理學(xué)和神經(jīng)生理學(xué)的研究的。人臉識別系統(tǒng)的組成在人臉識別技術(shù)發(fā)展的幾十年中，研究者們提出了多種多樣的人臉識別方法，但大部分的人臉識別系統(tǒng)主要由三部分組成:圖像預(yù)處理、特征提取和人臉的分類識別。一個完整的自動人臉識別系統(tǒng)還包括人臉檢測定位和數(shù)據(jù)庫的組織等模塊，如圖1-1。其中人臉檢測和人臉識別是整個自動人臉識別系統(tǒng)中非常重要的兩個技術(shù)環(huán)節(jié)，并且相對獨立。下面分別介紹這兩個環(huán)節(jié)。圖1-1人臉識別系統(tǒng)框圖人臉檢測與定位檢測圖像中是否有人臉，若有，將其從背景中分割出來，并確定其在圖像中的位置。在某些可以控制拍攝條件的場合，如警察拍罪犯照片時將人臉限定在標尺內(nèi)，此時人臉的定位很簡單。證件照背景簡單，定位也比較容易。在另一些情況下，人臉在圖像中的位置預(yù)先是未知的，比如在復(fù)雜背景下拍攝的照片，這時人臉的檢測與定位將受以下因素的影響:1.人臉在圖像中的位置、角度、不固定尺寸以及光照的影響；2.發(fā)型、眼鏡、胡須以及人臉的表情變化等；3.圖像中的噪聲等。特征提取與人臉識別特征提取之前一般需要做幾何歸一化和灰度歸一化的工作。前者是指根據(jù)人臉定位結(jié)果將圖像中的人臉變化到同一位置和大小；后者是指對圖像進行光照補償?shù)忍幚?，以克服光照變化的影響，光照補償能夠一定程度的克服光照變化的影響而提高識別率。提取出待識別的人臉特征之后，即可進行特征匹配。這個過程是一對多或者一對一的匹配過程，前者是確定輸入圖像為圖像庫中的哪一個人(即人臉識別)，后者是驗證輸入圖像的人的身份是否屬實(即人臉驗證)。以上兩個環(huán)節(jié)的獨立性很強。在許多特定場合下人臉的檢測與定位相對比較容易，因此“特征提取與人臉識別環(huán)節(jié)”得到了更廣泛和深入的研究。近幾年隨著人們越來越關(guān)心各種復(fù)雜的情形下的人臉自動識別系統(tǒng)以及多功能感知研究的興起，人臉檢測與定位才作為一個獨立的模式識別問題得到了較多的重視。本文主要研究人臉的特征提取與分類識別的問題。主要的人臉識別方法人臉識別技術(shù)作為模式識別領(lǐng)域的一個研究熱點，每年都有許多相應(yīng)的研究成果發(fā)表，并且涌現(xiàn)出各種各樣的識別方法，可以說信息處理領(lǐng)域的各種新方法的研究和算法的改進都嘗試在人臉識別中得到應(yīng)用。文獻對近十年來人臉識別領(lǐng)域取得的成果進行了總結(jié)。人臉識別方法的分類，根據(jù)研究角度的不同，可以有不同的分類方法，這是研究人臉識別方法首先遇到的問題。本文在深入研究國內(nèi)外人臉識別技術(shù)的發(fā)展和研究成果的同時，將已有的不同的分類方法做一個比較，目的是希望能從不同角度認識人臉識別問題，在較全面的了解各種方法優(yōu)缺點的基礎(chǔ)上，給本文的人臉識別方法提供研究方向。根據(jù)輸入圖像中人臉的角度，人臉識別技術(shù)可分為基于正面、側(cè)面、傾斜人臉圖像的人臉識別。由于實際情況的要求，對人臉正面模式的研究最多，這也是本文的研究內(nèi)容。根據(jù)圖像來源的不同，人臉識別技術(shù)可分為兩大類:靜態(tài)人臉識別和動態(tài)人臉識別。靜態(tài)人臉識別，即人臉來源為穩(wěn)定的二維圖像如照片。如果人臉的來源是一段視頻圖像，則人臉識別就屬于動態(tài)人臉識別。在頭部運動和表情變化狀態(tài)下的人臉識別都可以看作動態(tài)人臉識別，如視頻監(jiān)視中的人臉識別。動態(tài)人臉識別具有更大的難度:首先，視頻輸出的圖像質(zhì)量較差:其次，背景較復(fù)雜，目前對動態(tài)人臉識別的研究還局限于簡單背景，較少人物的情況，對靜態(tài)人臉識別的研究比較多。本文的研究也是基于靜止圖像的。根據(jù)人臉識別技術(shù)的發(fā)展歷史，人臉識別方法大致可分為基于幾何特征的人臉識別方法、基于模板匹配的人臉識別方法和基于模型的人臉識別方法。a.基于幾何特征的人臉識別方法這是人臉識別技術(shù)發(fā)展中，應(yīng)用最早的方法。該方法是通過提取人臉的幾何特征，包括人臉部件的歸一化的點間距離、比率以及人臉的一些特征點，如眼角、嘴角、鼻尖等部位所構(gòu)成的二維拓撲結(jié)構(gòu)進行識別的方法。所構(gòu)造的幾何特征既要清晰區(qū)分不同對象人臉的差異，又要對光照背景條件不敏感，常規(guī)的幾何特征量很難滿足這些要求。因此該方法識別效果不理想。b.基于模板匹配的人臉識別方法基于模板匹配的方法，主要是利用計算模板和圖像灰度的自相關(guān)性來實現(xiàn)識別功能。一般基于人臉的全局特征，利用人臉模板和相關(guān)參數(shù)如灰度的相關(guān)性來進行檢測和識別的。Berto在中將基于幾何模型的人臉識別方法和模板匹配進行了全面比較后，得出結(jié)論:前者具有識別速度快和內(nèi)存要求小的優(yōu)點，但在識別率上后者要優(yōu)于前者。增加幾何特征對于基于幾何特征的人臉識別方法只能輕微的提高識別率，因為要提高幾何特征的提取質(zhì)量本身就十分困難，而且隨著圖像質(zhì)量的下降和人臉遮擋的引入，基于幾何特征的人臉識別效果會大幅下降?？傊?，認為模板匹配法要優(yōu)于幾何特征法。c.基于模型的人臉識別方法通過統(tǒng)計分析和匹配學(xué)習找出人臉和非人臉，以及不同人臉之間的聯(lián)系。該方法包括特征臉法(Eigenface)、神經(jīng)網(wǎng)絡(luò)方法(NN)、隱馬爾可夫模型方法(HMM)和支持向量機(SVM)等方法。和模板匹配的方法相比，基于模型方法的模板是通過樣本學(xué)習獲得，而非人為設(shè)定。所以該方法，從原理上更為先進合理，實驗中也表現(xiàn)出更好的識別效果。根據(jù)人臉表征方式(即特征提取)的不同，還可以將人臉識別技術(shù)分為三大類:基于幾何特征的識別方法、基于代數(shù)特征的識別方法和基于連接機制的識別方法。a.基于幾何特征的人臉識別方法該方法在上文中已有闡述，它將人臉用一個幾何特征矢量表示，用模式識別中層次聚類的思想設(shè)計分類器達到識別目的。該方法的困難在于沒有形成一個統(tǒng)一的、優(yōu)秀的特征提取標準。由于人面部的模式千變?nèi)f化，即使是同一個人的面部圖像，由于時間、光照、攝影機角度等不同，也很難用一個統(tǒng)一的模式來表達，造成了特征提取的困難。不過，由于現(xiàn)在各種優(yōu)秀特征提取算法(如動態(tài)模板、活動輪廓等)的提出，使得人臉的幾何特征描述越來越充分。而且在表情分析方面，人臉的幾何特征仍然是最有力的判據(jù)。b.基于代數(shù)特征的人臉識別方法這類識別法仍然是將人臉用特征矢量表示，只不過用的是代數(shù)特征矢量。該方法在實際應(yīng)用中取得了一定的成功。由于代數(shù)特征矢量(即人臉圖像向各種人臉子空間的投影)具有一定的穩(wěn)定性，識別系統(tǒng)對不同的傾斜角度，乃至不同的表情均有一定的魯棒性。所以，也說明了這種方法對表情的描述不夠充分，難以用于表情分析。c.基于連接機制的人臉識別方法這類識別法將人臉直接用灰度圖(二維矩陣)表征，利用了神經(jīng)網(wǎng)絡(luò)(NeuralNetwork，NN)的學(xué)習能力及分類能力。這種方法的優(yōu)勢在于保存了人臉圖像中的紋理信息及細微的形狀信息，同時避免了較為復(fù)雜的特征提取工作。而且，由于圖像被整體輸入，符合格氏塔(Gestalt)心理學(xué)中對人類識別能力的解釋。與前兩種識別方法相比，基于連接機制的識別法具有以下明顯不同:信息處理方式是并行而非串行;編碼存儲方式是分布式。但由于原始灰度圖像數(shù)據(jù)量十分龐大，因此神經(jīng)元數(shù)目通常很多，訓(xùn)練時間很長。另外，完全基于神經(jīng)網(wǎng)絡(luò)的識別法在現(xiàn)有的計算機系統(tǒng)(馮一諾伊曼結(jié)構(gòu))上也有其內(nèi)在的局限性。神經(jīng)網(wǎng)絡(luò)雖然有較強的歸納能力，但當樣本數(shù)目大量增加時，其性能可能會嚴重下降。本文根據(jù)人臉表征方法與特征綜合方式的不同，認為將人臉識別方法分為基于幾何特征的方法、基于模板匹配的方法和基于統(tǒng)計學(xué)習的方法，比較合適。此分類方法即符合人臉識別技術(shù)發(fā)展的歷史，又將人臉特征提取與分類識別有機的結(jié)合在一起。識別人臉主要依據(jù)那些在不同個體之間存在較大差異，而對于同一個人比較穩(wěn)定的特征，具體的特征形式和綜合方式(分類方式)的不同決定了識別方法的不同。圖1-2列出了主要的人臉特征與綜合方法。早期靜態(tài)人臉識別方法研究較多的是基于幾何特征的方法和基于模板匹配方法。目前，靜止圖像的人臉識別方法主要是基于樣本通過統(tǒng)計學(xué)習識別人臉的方法，主要研究方向有:基于代數(shù)特征的識別方法，包括特征臉(Eigenface)方法和隱馬爾可夫模型(HMM)方法；基于連接機制的識別方法，包括一般的神經(jīng)網(wǎng)絡(luò)方法和彈性圖匹配(ElasticGraphMatching)方法，以及以上方法的一些綜合方法?；诮y(tǒng)計學(xué)習的方法屬于基于整體的研究方法，它主要考慮了模式的整體屬性。因為基于整體的人臉識別不僅保留了人臉部件的拓撲關(guān)系，而且也保留了各部件本身的信息。文獻認為基于整個人臉的分析要優(yōu)于基于部件的分析，理由是前者保留了更多信息。對于基于整個人臉的識別而言，由于把整個人臉圖像作為模式，那么光照、視角以及人臉尺寸會對人臉識別有很大的影響，因此如何能夠有效的去掉這些干擾就尤為關(guān)鍵。神經(jīng)網(wǎng)絡(luò)的方法在人臉識別上有其獨到的優(yōu)勢，即它避免了復(fù)雜的特征提取工作，可以通過學(xué)習的過程獲得其它方法難以實現(xiàn)的關(guān)于人臉識別的規(guī)律和規(guī)則的隱性表達。但是NN方法通常需要將人臉作為一個一維向量輸入，因此輸入節(jié)點龐大，降維就顯得尤為重要。根據(jù)文獻對于自組織神經(jīng)網(wǎng)絡(luò)方法的分析，認為可采用自組織神經(jīng)網(wǎng)絡(luò)的P個節(jié)點來表達原始的N個輸入(P<N)，但由于將P個節(jié)點進行分類，其識別的效果僅相當于提取人臉空間特征向量后進行的識別分類，因此采用此類神經(jīng)網(wǎng)絡(luò)進行識別的效果只能是特征臉的水平。除此之外，由于人臉處在高維空間，如一幅不大的100x100的圖像為10000維，這樣神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點將很龐大，因此實際訓(xùn)練網(wǎng)絡(luò)的參數(shù)繁多，實現(xiàn)起來很困難。神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點是可以針對特定的問題進行子空間設(shè)計，比如用于人臉檢測、性別識別、種族識別等(不屬于本文的研究內(nèi)容)。鑒于以上考慮，本文未對此方法進行重點研究。圖1-2可以提取的各種人臉特征，圖下方為各種特征的綜合方式通過對不同的人臉識別分類方法的總結(jié)，多視角的、全面的介紹了主要的人臉識別方法。從對人臉識別方法的分析中可以看出，每種方法各有其優(yōu)缺點，因此一些學(xué)者傾向于將多種方法綜合起來，或同時利用不同種類的特征，圖1-2為人臉圖像可以提取的特征以及可能的特征綜合方法。在對各種人臉識別方法進行理論分析后，本文主要研究基于統(tǒng)計學(xué)習的、整體的人臉識別方法，包括特征臉法、基于獨立分量分析的人臉識別方法和基于隱馬爾可夫模型的人臉識別方法，并嘗試新的特征提取和分類方法。人臉識別測試數(shù)據(jù)庫人臉識別是近年來研究的熱點，各國研究人員提出了各種新的識別算法，為測試和比較各種識別技術(shù)的優(yōu)缺點及其識別率的高低，世界各研究機構(gòu)都建立了各自的人臉測試和測評數(shù)據(jù)庫，下面介紹一些著名的標準數(shù)據(jù)庫。英國ORL(O一OliverttiResearchLaboratory)人臉數(shù)據(jù)庫ORL人臉圖像庫是由英國劍橋011vetti實驗室從1992年4月到1994年4月期間拍攝的一系列人臉圖像組成，共有40個不同年齡、不同性別和不同種族的對象。每個對象10幅圖像共計400幅灰度圖像組成，圖像尺寸為92xlZl，圖像背景為黑色。其中人臉部分表情和細節(jié)均有變化，例如笑與不笑，眼睛睜著或閉著，戴或不戴眼鏡等，人臉姿態(tài)也有變化，其深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達20度，人臉的尺寸也有最多10%的變化。該庫是目前使用最廣泛的標準數(shù)據(jù)庫，它含有大量的比較結(jié)果。英國Manchester人臉數(shù)據(jù)庫該數(shù)據(jù)庫由30人的690幅圖像組成，圖像有不同的光照和背景特征，而且對于每個人而言，前后兩張照片之間的時間間隔至少為3周。訓(xùn)練集對光源有一定的約束。雖然Manchester人臉數(shù)據(jù)庫遠比ORL數(shù)據(jù)庫全面，但因發(fā)表的比較結(jié)果不夠多，從而遠不如ORL數(shù)據(jù)庫使用廣泛。Yale耶魯人臉庫該數(shù)據(jù)庫包括15人每個人11幅正視圖，每幅圖像具有不同的面部表情、有或者無眼鏡，這些圖像在不同光照條件下拍攝。該庫的特點就是光照變化顯著，且有面部部分遮掩。歐洲M2VTS多模型數(shù)據(jù)庫該庫是用來作為多模型輸入的通路控制實驗，它包括37個人的序列人臉圖像。每人的5幅圖像間隔一個星期，每個圖像序列包括從右側(cè)輪廓(-90度)到左側(cè)輪廓(90度)之間的圖像，而且拍攝時每個人用他們的母語從一到九數(shù)數(shù)。該庫主要用于測試多模式身份識別。美國FERET(FaceRecognitionTechnology)人臉數(shù)據(jù)庫FERET人臉數(shù)據(jù)庫是目前最大的人臉數(shù)據(jù)庫，由美國軍方研究實驗室提供，其中每人的圖像數(shù)目不等，有些人提供了更多不同視點和不同表情的照片。該數(shù)據(jù)庫中不包含戴眼鏡的照片，拍攝條件也有一定的限制。人臉大小約束在規(guī)定范圍內(nèi)。1996年6月，該數(shù)據(jù)庫己存儲了1199個人的14126幅圖像，而且逐年增加。但到目前為止，該數(shù)據(jù)庫并未提供運動圖像系列或包含語言信息。FERTE數(shù)據(jù)庫的最大缺點是非美研究機構(gòu)的獲取不便。其他數(shù)據(jù)庫還有CMU(CarnegieMellonUniversity)正面人臉數(shù)據(jù)庫，MIT單人臉數(shù)據(jù)庫等。不同的人臉數(shù)據(jù)庫，圖像的質(zhì)量和內(nèi)容也是不同的，為了客觀的、全面的測試人臉識別方法的性能，考慮不同因素對識別方法的影響，本文的人臉識別方法主要應(yīng)用了ORL、Manchester、Yale和部分FERET人臉數(shù)據(jù)庫進行測試。

第2章基于隱馬爾可夫模型的人臉識別方法引言隱馬爾可夫模型(HiddenMarkovModels，HMM)，起源于二十世紀六十年代后期，屬于信號統(tǒng)計理論模型，能夠很好的處理隨機時序數(shù)據(jù)的識別與檢測。PCA與ICA作為統(tǒng)計理論的信號處理技術(shù)，目的是將觀察到的數(shù)據(jù)進行某種線性變換，從而用低維的子空間參數(shù)描述高維的數(shù)據(jù)特征。隱馬爾可夫模型是將隨機時序數(shù)據(jù)的統(tǒng)計特性，用一個模型的參數(shù)來描述，模型參數(shù)通過訓(xùn)練樣本的統(tǒng)計學(xué)習獲得。HMM最早應(yīng)用在語音識別中，若將時序序列看成應(yīng)用對象的特征序列，HMM也可以應(yīng)用到其他領(lǐng)域，如音頻處理、手寫體識別、圖像與視覺處理等，參考Olivier所寫的“TenyearsofHMMs”。根據(jù)人臉由上至下各個區(qū)域具有自然不變的順序，這一穩(wěn)定的相似共性，個人特征僅表現(xiàn)在上述組成部分的形狀及其相互連接關(guān)系不同，即可用一個一維HMM(1D-HMM)表示人臉。進一步研究表明人臉水平方向從左至右也具有相對穩(wěn)定的空間結(jié)構(gòu)，因此可將沿垂直方向劃分的狀態(tài)分別擴充為一個1D-HMM，共同組成了一個P2D-HMM。該模型可以更加精確的描述和定義具體人臉的個人特征，是較好的描述和識別人臉的數(shù)學(xué)模型。采用P2D-HMM進行人臉識別時，精確度增加了很多，識別率提高了，訓(xùn)練和識別的復(fù)雜度也增加了很多，所以考慮繼續(xù)改善其模型結(jié)構(gòu)。支持向量機(SupportVectorMahcines，SVM)源于統(tǒng)計學(xué)習理論，它使用結(jié)構(gòu)風險最小化(SRM)原理構(gòu)造決策超平面使每一類數(shù)據(jù)之間的分類間隔最大。所以本文使用SVM取代高斯分布函數(shù)或者狀態(tài)映射矩陣建立與HMM的混合模型，每個人臉器官通過VSM進行識別，混合模型的總體結(jié)構(gòu)僅相當于一個1D-HMM，減少了訓(xùn)練識別的時間，但獲得了與P2D-HMM相當?shù)淖R別精度。本章首先介紹了HMM是如何由Markov鏈發(fā)展而來的，并且介紹了二者的區(qū)別和MHM的基本理論，包括HMM的模型和HMM中涉及的三大問題;其次介紹了基于HMM人臉識別方法的基本原理和系統(tǒng)概況;然后分別介紹了基于1D-HMM的人臉識別方法、基于P2D-HMM的人臉識別方法以及基于ICA特征和SVM/HMM的人臉識別方法，本章最后比較了不同模型的識別性能。隱馬爾可夫模型的理論基礎(chǔ)隱馬爾可夫模型屬于信號統(tǒng)計理論模型，能夠很好的處理隨機時序數(shù)據(jù)的識別與預(yù)測。HMM是由馬爾可夫鏈(Markov鏈)發(fā)展而來的。馬爾可夫鏈馬爾可夫鏈是馬爾可夫隨機過程的特殊情況，即Markov鏈是狀態(tài)和時間參數(shù)都離散的Markov過程。從數(shù)學(xué)上，可以給出如下定義：隨機序列Xn，在任一時刻n，它可以處在狀態(tài)θ1，θ2，…，θN，且它在m+k時刻所處的狀態(tài)為qm+k的概率，只與它在m時刻的狀態(tài)qm有關(guān)，而與m時刻以前它所處狀態(tài)無關(guān)，既有：(4-1)(2-2)其中，ql，q2，…，qm，…，qm+1∈(θ1，θ2，…，θN)。則稱Xn為Markov鏈，并且稱(2-3)為k步轉(zhuǎn)移概率，當pij(m，m+k)與m無關(guān)時，稱這個Markov鏈為齊次Markov鏈，此時(2-4)以后若無特別申明，Markov鏈就是指齊次Markov鏈。當k=1時，pij(1)稱為一步轉(zhuǎn)移概率，簡稱為轉(zhuǎn)移概率，記為aij，所有轉(zhuǎn)移概率aij，1≤i，j≤N可以構(gòu)成一個轉(zhuǎn)移矩陣，即(2-5)且有(2-6)由于k步轉(zhuǎn)移概率Pij(k)可由轉(zhuǎn)移概率aij得到，因此，描述Markov鏈的最重要參數(shù)就是轉(zhuǎn)移概率矩陣A。但A矩陣還決定不了初始分布，即由A求不出q1=θi的概率，這樣，完全描述Markov鏈，除A矩陣外，還必須引入初始概率矢量∏=(π1，…，πN)，其中(2-7)顯然有(2-8)實際中，Markov鏈的每一個狀態(tài)對應(yīng)于一個可觀測到的物理事件，比如天氣預(yù)測中的雨、晴、雪等，那么根據(jù)這個天氣預(yù)報的Markov鏈模型，可以計算出各種天氣(即狀態(tài))在某一時刻出現(xiàn)的概率。但更普遍的情況下，實際的狀態(tài)并不能直接觀測到，所以隱馬爾可夫模型由此發(fā)展起來。隱馬爾可夫模型隱馬爾可夫模型是在馬爾可夫鏈的基礎(chǔ)之上發(fā)展起來的。由于實際問題比Markov鏈模型描述的更為復(fù)雜，觀察到的事件并不是與狀態(tài)一一對應(yīng)的，而是通過一組概率分布相聯(lián)系，這樣的模型就稱之為HMM。HMM是一個雙重隨機過程，其一是Markov鏈，它是最基本的隨機過程，描述狀態(tài)的轉(zhuǎn)移。另一個隨機過程描述狀態(tài)和觀察值之間的統(tǒng)計對應(yīng)關(guān)系。這樣，以觀察者的角度，只能看到觀察值，而非Markov鏈模型中的觀察值與狀態(tài)一一對應(yīng)的關(guān)系，因此，不能直接看到狀態(tài)，而是通過一個隨機過程去感知狀態(tài)的存在及其特性。HMM可看作由兩層構(gòu)成:a.隱含層，它由有限個狀態(tài)，狀態(tài)轉(zhuǎn)移矩陣A和初始狀態(tài)概率分布∏組成;b.映射層，它表示每個狀態(tài)對應(yīng)觀測數(shù)據(jù)的映射，可以用狀態(tài)變換矩陣B，或者一系列概率密度函數(shù)表示，分別對應(yīng)離散的HMM和連續(xù)的HMM。根據(jù)人臉至上而下，從左至右下具有的共性結(jié)構(gòu)，本文采用1D-HMM和P2D-HMM描述人臉，下面分別介紹組成1D-HMM和P2D-HMM的主要參數(shù)。1D-HMM由N，A，B，∏參數(shù)組成，簡寫為λ={N，A，B，∏}。各參數(shù)的含義如下：?N，表示模型的狀態(tài)個數(shù)；?A={aij}，其中1≤i，j≤N，表示狀態(tài)轉(zhuǎn)移概率矩陣；?B={bj(?)}，其中1≤j≤N，表示輸出概率函數(shù)；?∏={πj}，其中1≤j≤N，表示初始狀態(tài)概率分布。己知模型λ，觀察序列O=o1…oT，Q為所有可能狀態(tài)序列的集合，觀察序列的聯(lián)合概率計算如下式：(2-9)P2D-HMM可看作是1D-HMM的擴充，即在1D-HMM的每個狀態(tài)中嵌入一個1D-HMM，該狀態(tài)被改稱為超狀態(tài)。P2D-HMM由N，A，∏，Λ參數(shù)組成，簡寫為兄={N，A，∏，Λ}。各參數(shù)的含義如下:?N，表示垂直方向超狀態(tài)的個數(shù)；?A={aKJ}，其中1≤k，j≤N，表示超狀態(tài)轉(zhuǎn)移概率矩陣；?∏={πJ}，其中1≤j≤N，表示超狀態(tài)的初始概率分布；?Λ={λJ}，其中1≤j≤N，表示嵌入每個超狀態(tài)的ID-HMM，每個λJ都具有一標準的1D-HMM所必需的參數(shù)；?NJ，表示狀態(tài)個數(shù)；?Aj={aKjJ}，其中1≤k，i≤NJ，表示狀態(tài)轉(zhuǎn)移概率矩陣；?BJ={bij(?)}，其中1≤i≤NJ，表示輸出概率函數(shù)；?∏J={π1J}，其中1≤i≤NJ，表示初始狀態(tài)概率分布。已知模型λ，觀察序列O=o11…oTrTs，QY為垂直方向的所以可能狀態(tài)，QXj為超狀態(tài)j對應(yīng)的水平方向的所以可能狀態(tài)，聯(lián)合概率的計算如下式：(2-10)其中，隱馬爾可夫模型中的三大問題欲使所建立的隱馬爾可夫模型能解決實際問題，以下三個問題必須加以解決：問題1：己知觀察序列O和模型λ={N，A，B，∏}，如何計算由此模型產(chǎn)生此觀察序列的概率P{O|λ}問題2：己知觀察序列O和模型λ={N，A，B，∏}，如何確定一個合理的狀態(tài)序列，使其能最佳的產(chǎn)生O，即如何選擇最佳的狀態(tài)序列Q=q1，q2，…，qT問題3：如何根據(jù)觀察序列不斷修正模型參數(shù)A，B，∏，使P{O|λ}最大問題1實質(zhì)上是一個模型評估問題，因為P{O|λ}反映了觀察序列與模型吻合的程度。在模式識別中，可以通過計算、比較P{O|λ}，從多個模型參數(shù)中選擇出與觀察序列匹配的最好的那個模型，這也是HMM用于模式識別的原理所在。為了解決這個問題，前人已研究出了“前向一后向”算法(Forward-BackwardAlgorithm)。問題2的關(guān)鍵在于選用怎樣的最佳準則來決定狀態(tài)的轉(zhuǎn)移。一種可能的最佳準則是:選擇狀態(tài)qi，使它們在各t時刻都是最可能的狀態(tài)，即(2-11)有時存在這樣的問題:如出現(xiàn)不允許的轉(zhuǎn)移，即aij=0，那么，對這些i和j所得到的狀態(tài)序列就是不可能狀態(tài)序列。也就是說，上式得到的解只是在每個時刻決定一個最可能的狀態(tài)，而沒有考慮整體結(jié)構(gòu)，相鄰時間的狀態(tài)和觀察序列的長度等問題。針對這個缺點要求人們研究一種在最佳狀態(tài)序列基礎(chǔ)上的整體約束的最佳準則，并用此準則找出一條最好的狀態(tài)序列。目前，解決這個問題的最好方案是Vietbri算法。問題3實質(zhì)上就是如何訓(xùn)練模型，估計、優(yōu)化模型參數(shù)的問題。這個問題在三個問題中最難，因為沒有解析法可用來求解最大似然模型，所以只能使用疊代法(如:Baum一Welch算法)或使用最佳梯度法。在和節(jié)中，本文將以不同HMM的人臉識別方法為例具體介紹“前向一后向算法”、Vitebri算法和Baum-Welch算法在模式識別中的具體應(yīng)用，有關(guān)以上三種算法的詳細內(nèi)容可以參考文獻[60]。隱馬爾可夫模型的類型根據(jù)觀測值的取值不同，HMM可分為離散的和連續(xù)的。本文節(jié)介紹的HMM，如果其觀測值是M個離散可數(shù)的觀察值中的一個，則稱之為離散HMM，某個狀態(tài)qj對應(yīng)的觀察值的統(tǒng)計特性是由一組概率bJK，k=1，…，M來描述。連續(xù)的MMH，指觀察值的可能取值只能用一個概率密度函數(shù)bJ(q)表示。根據(jù)狀態(tài)轉(zhuǎn)移的類型不同，HMM可分為遍歷的(Ergodic)和從左到右的(Left-to-right，又稱從上至下的Top-to-bottom)。前者表示狀態(tài)轉(zhuǎn)移是任意的，可以到本身和其他所有狀態(tài)，如圖2-1(a)。后者表示狀態(tài)轉(zhuǎn)移只限于本身和下一個狀態(tài)，如圖2-1(b)。人臉由于各個區(qū)域(頭發(fā)、額頭、眼睛、鼻子和嘴巴)具有自然不變的順序，通常采用從左到右型的HMM。圖2-1幾種典型的馬爾可夫鏈示意圖(a)四狀態(tài)遍歷型馬爾可夫鏈(b)四狀態(tài)由左至右型馬爾可夫鏈基于隱馬爾可夫模型的人臉識別方法概述基于HMM人臉識別的基本原理根據(jù)人臉由上至下各個區(qū)域(頭發(fā)、額頭、眼睛、鼻子和嘴巴)具有自然不變的順序，個人特征僅表現(xiàn)在上述組成部分的形狀及其相互連接關(guān)系不同，即可用一個1D-HMM表示人臉，如圖2-2(a)。上述人臉5個部分的人臉特征對應(yīng)HMM的狀態(tài)序列，狀態(tài)的出現(xiàn)及其轉(zhuǎn)移可用模型中的概率矩陣描述，提取圖像的象素點亮度值(或其他特征)作為觀測序列。對于既定的人臉，所對應(yīng)的HMM應(yīng)當是唯一的。進一步研究表明人臉水平方向從左至右也具有相對穩(wěn)定的空間結(jié)構(gòu)，因此可將沿垂直方向劃分的狀態(tài)分別擴充為一個1D-HMM。垂直方向的狀態(tài)就稱為超狀態(tài)，水平方向嵌入的狀態(tài)就稱為子狀態(tài)，共同組成了一個P2D-HMM，如圖2-2(b)圖2-2用HMM建立人臉模型的基本原理圖(a)1D?HMM人臉模型(b)P2D?HMM人臉模型基于HMM人臉識別的系統(tǒng)概述基于HMM的人臉識別系統(tǒng)，必須首先選擇HMM的結(jié)構(gòu)(是1D-HMM，還是P2D-HMM)。HMM的結(jié)構(gòu)不同使得特征提取、模型訓(xùn)練和識別中基本算法和系統(tǒng)結(jié)構(gòu)都會有所不同，但關(guān)于圖像的預(yù)處理和最后的決策方法都是相同的。本文首先介紹對輸入圖像的預(yù)處理和決策方法，關(guān)于特征提取、模型訓(xùn)練的具體算法將在基于1D-HMM和P2D-HMM人臉識別方法時分別介紹。圖2-3為基于HMM人臉識別系統(tǒng)的原理圖，其中“CommonHMM”代表人臉的普遍結(jié)構(gòu)，由訓(xùn)練集中所有人臉圖像獲得，它的作用主要有以下兩個方面:一作為各個對象的人臉模型訓(xùn)練的初始化參數(shù)，可以極大提高收斂速度；二是完成對人臉庫中不存在的新對象(NewSubject)的拒識(Reject)。如果輸入的是一幅彩色圖像，比如RGB顏色模式圖像，預(yù)處理階段首先將其轉(zhuǎn)換為YCbCr顏色模型，然后進行膚色初篩，得到人臉的可能區(qū)域，最后歸一化成方塊灰度圖像后，就可以用條狀或塊狀窗進行一定步長的遍歷掃描，提取特征序列了。本文采用層次結(jié)構(gòu)的判決來完成人臉的識別，如圖2-4。首先通過計算特征序列O在“CommonHMM”模型參λcommon下的概率P(O|λcommon)，判別是否人臉。若是，再計算特征序列在各個對象MHM模型參數(shù)λi下的概率P(O|λi)，與P(O|λcommon)比較，判別是否庫中己有對象的人臉，若是，輸出max{P(O|λi)}的對象標號i。圖2-3人臉識別系統(tǒng)原理圖圖層次結(jié)構(gòu)的決策原理圖基于一維隱馬爾可夫模型的人臉識別方法上文介紹了用HMM建立人臉模型的基本原理和基于MHM人臉識別系統(tǒng)的概況，以下介紹關(guān)于基于1D-HMM人臉特征提取、模型訓(xùn)練的具體算法。特征提取1D-HMM對人臉圖像區(qū)域提取觀察序列，采用條狀窗口從上至下的遍歷掃描，如圖2-5。有文獻采用每個窗口所含象素的灰度值作為觀察向量，維數(shù)太高，且對影響識別的光線、角度等因素敏感。所以本文選取每個窗口的K-L變換(即PCA)系數(shù)作為觀察向量。也可以提取二維離散傅立葉變換(即2D-DCT)系數(shù)作為觀察向量?？紤]到K-L變換系數(shù)是均方誤差意義下的最佳變換，實驗中識別效果比2D-DCT系數(shù)略好些。所以本文在結(jié)構(gòu)較簡單的1D-HMM人臉識別中提取CPA系數(shù)作為觀察向量。而在基于P2D-HMM人臉識別中，本文提取2D-DCT系數(shù)作為特征向量，主要鑒于與JPGE圖像壓縮標準兼容，且有快速算法。圖2-5條狀窗口對圖像從上至下的遍歷掃面示意圖圖2-6由左至右依次為頭發(fā),額頭,眼睛,鼻子和嘴對應(yīng)的典型KLT系數(shù)條狀窗口掃描得到的象素灰度值，排列成一列向量，維數(shù)為LxX，所有的M個樣本構(gòu)成(LxX)xM的矩陣。求得它的協(xié)方差矩陣和前十個最大的特征根，重新構(gòu)造特征空間。提取的特征就為掃描窗所含象素灰度值在這個特征空間的投影的系數(shù)。圖2-6就是對應(yīng)人臉特征區(qū)域(如頭發(fā)、額頭、眼睛、鼻子和嘴)的典型觀察向量。模型訓(xùn)練掃描整幅圖像得到T個觀察向量，構(gòu)成觀察序列。為了使得觀察序列能與真實的狀態(tài)轉(zhuǎn)移對應(yīng)起來，還必須對用Viterbi算法和K均值聚類對序列分段。Viterbi算法用來尋找觀測序列O=(ol，o2，…，oT)對應(yīng)的最佳狀態(tài)序列Q=(q1，q2，…，qT)，并且計算在最佳狀態(tài)序列條件下的概率。定義變量:(2-12)具體算法如下：a.初始化：(2-13)b.遞推：(2-14)(2-15)c.終止：(2-16)d.最佳狀態(tài)序列：(2-17)本文將已分段的序列輸入初始化的HMM，首先用Forward-Backward算法求得前向概率αi(j)和后向概率βi(j)，再用Buam-welch算法進行反復(fù)參數(shù)重估直至收斂，這樣就得到訓(xùn)練人臉樣本的HMM。重估過程如下:定義ξi(i，j)表示在己知觀察序列O和模型λ的情況下，t時刻處于狀態(tài)i，t+1時刻處于狀態(tài)j的概率，定義γi(i)為給定觀察序列O和模型λ的條件下。t時刻處于狀態(tài)i的概率。表示在觀察序列中，從狀態(tài)i出發(fā)的狀態(tài)轉(zhuǎn)移次數(shù)的期望，表示觀察序列中，從狀態(tài)i到j(luò)的狀態(tài)轉(zhuǎn)移次數(shù)的期望，可知(2-18)(2-19)模型中的三個參數(shù)的重估結(jié)果如下式：(2-20)然后計算P(O|λ)，反復(fù)重估參數(shù)至收斂，得到訓(xùn)練樣本的1D-HMM人臉模型。分類識別HMM本身就是一個分類器。以O(shè)RL人臉庫為例，首先劃分訓(xùn)練集和測試集，然后將訓(xùn)練集中的圖像分對象分別訓(xùn)練，得到每個對象的人臉HMM模型。人臉識別時，測試集中任取一幅圖像，先通過條狀窗掃描獲得觀測序列，即提取的人臉特征，然后用Forward-Backward算法計算待測區(qū)域提取的觀察向量在不同對象的1D-HMM參數(shù)下的概率，實際中一般用Viterbi算法計算概率，這樣運算速度比較快。最后通過比較概率的大小即可作出決策。分析基于1D-HMM的人臉識別過程，影響識別效果可能有以下因素：狀態(tài)數(shù)N、窗口寬度L，掃描重疊寬度M。文獻[62]就以上因素對人臉識別性能進行了詳細比較和分析，本文也認為取5個狀態(tài)分別對應(yīng)人臉的前額、眼睛、鼻子、嘴和下巴，描述和代表人臉的宏觀特征理論是比較合理的，識別性能也最好。并且對于窗口寬度L，只要重疊寬度M足夠大，對識別性能影響不大。重疊寬度大，識別效果好，通常取M=L-1。本文的識別系統(tǒng)最終選取N=5、L=8、M=7的掃描方式。基于偽二維隱馬爾可夫模型的人臉識別方法P2D-HMM最早應(yīng)用在字符識別中，后來證明用它描述二維圖像也是行之有效的。圖2-2所示的拓撲結(jié)構(gòu)說明了用P2D-HMM建立人臉模型的原理，它和用1D-HMM人臉模型的區(qū)別在于它不但能表現(xiàn)人臉從上至下的空間結(jié)構(gòu)，還能表現(xiàn)水平方向從左至右的空間結(jié)構(gòu)，表現(xiàn)在HMM結(jié)構(gòu)中使用1D-HMM替代超狀態(tài)的概率分布。同時因為水平方向的狀態(tài)變化僅限于超狀態(tài)內(nèi)，所以分析處理比真正二維的隱馬爾可夫模型(2D-HMM)簡單。文獻[62]中曾對不同狀態(tài)數(shù)的模型人臉識別性能進行了詳細比較和分析。本文選取5個超狀態(tài)分別對應(yīng)人臉的宏觀特征，每個超狀態(tài)內(nèi)嵌入的狀態(tài)分別提取人臉的局部區(qū)域特征，嵌入狀態(tài)數(shù)取(3，6，6，6，3)的結(jié)構(gòu)具有較好的識別精度，如圖2-2(b)。圖2-7塊狀窗對圖像從左到右、從上至下的遍歷掃描示意圖X為圖像的水平像素點總數(shù)；Y為圖像的垂直像素點總數(shù)；M為從上到下遍歷掃描的步長；Q為從左到右遍歷掃描的步一長；L為從上至下掃描的塊狀窗口在垂直方向的長度；P為從上至下掃描的塊狀窗口在水平方向的長度；T為遍歷掃描的窗口數(shù)；為了更好的提取人臉的二維空間特征，P2D-HMM觀察序列采用塊狀窗遍歷掃描方法，如圖2-7。在人臉圖像和可能含人臉的待檢測區(qū)域，用含象素點數(shù)為PxL的掃描窗從左到右、由上至下滑動，獲取觀察圖像塊。相鄰窗口在垂直方向和水平方向分別有M行、Q列重疊。如果直接取采樣窗內(nèi)的象素點灰度值構(gòu)造觀察向量，同樣存在維數(shù)太大，易受噪聲干擾的缺點。本文選取8x8的掃描窗，做2D-DCT變換，得到8x8的2D-DCT系數(shù)。DCT變換如下式：用三角窗取DCT系數(shù)矩陣的前15個系數(shù)，就得到了一個觀察向量。若采用16x16的掃描窗，得到的識別效果與8x8相近，但是8x8的掃描窗與JEPG標準兼容，觀察向量維數(shù)少。這樣提取DCT系數(shù)作為觀察向量，對JPEG壓縮的人臉圖像可以直接在壓縮域進行識別，無需解壓，如圖2-8。圖2-8壓縮域上人臉識別示意圖本文訓(xùn)練時采用75%的重疊掃描，M=8，Q=6。識別時，重疊掃描為零，直接使用壓縮域的參數(shù)，獲得較好的識別效果，這與前人所研究所討論的相符。訓(xùn)練基于P2D-HMM的人臉模型和訓(xùn)練1D-HMM的人臉模型類似，用塊狀窗遍歷掃描得到觀察序列后，對觀察序列進行Viterbi分段，Buam-Welch算法重估參數(shù)。由于P2D-HMM在每個超狀態(tài)中嵌入了一個1D-HMM，所以具體算法有所不同。基于I以特征和SMV/1翎以的人臉識別方法采用P2D-HMM進行人臉識別時，精確度增加了很多，識別率最高可達100%，(基于ORL人臉庫)。但是因為它將16-30個子狀態(tài)嵌入到4~5個超狀態(tài)中，訓(xùn)練和識別的復(fù)雜度也增加了很多。將SVM引入HMM，建立SVM/HMM的混合人臉識別模型可以簡化P2D-HMM的結(jié)構(gòu)，同時保證識別精度不變。SVM源于統(tǒng)計學(xué)習理論，它使用結(jié)構(gòu)風險最小化(SRM)原理構(gòu)造決策超平面使每一類數(shù)據(jù)之間的分類間隔最大。與HMM和ANN相比，SVM具有以下優(yōu)勢：訓(xùn)練過程中，分類模型自動構(gòu)造，不需要事先指定；SVM可以在小樣本訓(xùn)練前提下完成;采用SRM原理，SVM訓(xùn)練的結(jié)果使其識別的實際風險小，而非僅僅經(jīng)驗風險小。SVM/HMM的混合模型最早使用在語音識別中。我們將SVM/HMM應(yīng)用于人臉識別，用SVM的輸出取代高斯分布函數(shù)或者狀態(tài)映射矩陣(離散碼本)建立與HMM的混合模型。每個人臉器官通過SVM進行分類，混合模型相當于一個1D-HMM。所以在保證識別率的前提下，SVM/HMM模型較簡練，減少了分析識別的時間。由于ICA提取的人臉特

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人臉識別文檔

文檔簡介

溫馨提示

最新文檔

評論

人臉識別文檔

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔