深度學(xué)習(xí)--人臉識別

上傳人：小*** IP屬地：天津上傳時(shí)間：2021-11-23 格式：DOC 頁數(shù)：36 大小：1.26MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩31頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Deep Learning Identity-Preserving Face Space Related works for feature learning1. Learning-based descriptors2 Deep modelsNetwork ArchitectureXianhao Gan本征臉（eigenface ）方法是人臉識別的基準(zhǔn)技術(shù)，并已成為事實(shí)上的工業(yè)標(biāo)準(zhǔn), 該方法基于主成分分析（PCA）PCA是將分散在一組變量上的信息集中到某幾個(gè)綜合指標(biāo)（主成分）上的數(shù)學(xué)方法，實(shí)際上起著數(shù)據(jù)降維的作用，并保證降維過程最大化保留原數(shù)據(jù)的差異。這對最大化類間差異（即不同人之間的差異）

2、并最小化類內(nèi)差異（即同一人的不同圖像間的差異）很有效用PCA將2維數(shù)據(jù)降到1維的例子，綠色點(diǎn)表示二維數(shù)據(jù)，PCA的目標(biāo)就是找到這樣一條直線，使得所有點(diǎn)在這條直線上的投影點(diǎn)之間的平均距離最大。也就是最大化地保留了原數(shù)據(jù)的差異性。本征臉方法如果將本征向量恢復(fù)成圖像，這些圖像很像人臉, 因此稱為“本征臉”。本征臉法認(rèn)為圖像的結(jié)構(gòu)信息對于識別最重要，計(jì)算本征值和對應(yīng)的本征向量作為代數(shù)特征進(jìn)行識別，具有無需提取眼、嘴、鼻等幾何特征的優(yōu)點(diǎn)，但在單樣本時(shí)識別率不們J,且在人臉模式數(shù)較大時(shí)計(jì)算量大。M. Turk & A. Pentland, JCN91本征特征(eigenfeature

3、 )方法利用PCA分析眼、鼻、嘴等特征，即本征特征方法R. Brunelli & T. Poggio, TPAMI93A. Pentland et al., CVPR94這實(shí)際上相當(dāng)于：為若干重要的特征建立本征空間，然后將多個(gè) 本征空間集成起來本征臉vs本征特征*卷矗吊誦峑高蒔社:去征承誦i甬扃範(fàn)特征，二者各有優(yōu)勢A. Pentland et al., CVPR94A. Pentland et al., CVPR94待識別圖像本征臉識別結(jié)果本征特征識別結(jié)果A. Pentland et al., CVPR94本征臉vs本征特征將二者結(jié)合，可以得到更好的識別效果同樣，這實(shí)際上相當(dāng)于：為若干

4、重要的特征建立本征空間，然后將多個(gè)本征空間集應(yīng)起來由于嘴部受表情影響很嚴(yán)重，因此未考慮嘴部特征難題一一能否自動(dòng)確定:該用哪些特征？（眼睛？鼻子？嘴？）特征的確切位置在哪兒?（從哪兒到哪兒算眼睛?深度模型(Deep models)受限波爾茲曼機(jī)RBM深度信念網(wǎng)絡(luò)DBN卷積受限波爾茲曼機(jī)CRBM混合神經(jīng)網(wǎng)絡(luò)受限波爾茲曼機(jī)CNN-RBM"深度模型”是手段，“特征學(xué)習(xí)”是目的!深度學(xué)習(xí)1 什么是深度學(xué)習(xí)？2.深度學(xué)習(xí)的基本思想3.深度學(xué)習(xí)的常用方法1) 自動(dòng)編碼機(jī)(AutoEncoder)2) 稀疏編碼(Sparse Coding)3) 受限波爾茲曼機(jī)(Restrict Boltzma

5、nn Machine ,RBM)什么是深度學(xué)習(xí)?2006年，加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗Geoffrey Hinton和他的學(xué)生RuslanSalakhutdinov在科學(xué)上發(fā)表了一篇文章，開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域，其動(dòng) 機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，它模仿人腦的機(jī)制來解釋數(shù)據(jù)，例如圖像，聲音和文本，它是無監(jiān)督學(xué)習(xí)的一種。深度學(xué)習(xí)的實(shí)質(zhì)，是通過構(gòu)建具有器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù)，來學(xué)習(xí)更有用的特征, 從而最終提升分類或預(yù)測的準(zhǔn)確性。深度學(xué)習(xí)的基本思想假設(shè)我們有一個(gè)系統(tǒng)S,它有n層（S1,Sn）,它的輸入是I

6、,輸出是O,形象地表示為：I =>S仁S2=> =>Sn => O,如果輸出O等于輸入I,即輸入I經(jīng)過這個(gè)系統(tǒng)變化之后沒有任何的信息損失。輸入層隱藏層輸出層深度學(xué)習(xí)的常用方法:1 .自動(dòng)編碼機(jī)(AutoEncoder)Deep Learning最簡單的一種方法是利用的特點(diǎn)，自動(dòng)編碼器就是一種盡可能復(fù)現(xiàn)輸入信號的神經(jīng)網(wǎng)絡(luò)。為了實(shí)現(xiàn)這種復(fù)現(xiàn)，自動(dòng)編碼器就必須捕捉可以代表輸入數(shù)據(jù)的最重要的因素，就像PCA那樣，找到可以代表原信息的主要成分。1）給定無標(biāo)簽數(shù)據(jù)，用非監(jiān)督學(xué)習(xí)學(xué)習(xí)特征predictiontargetpredictionErrorError稀疏自動(dòng)編碼器(Spa

7、rse AutoEncoder):如果在AutoEncoder的基礎(chǔ)上加上L1的Regularity限制(L1主要是約束每一層中的節(jié)點(diǎn)中大部分都要為0, 只有少數(shù)不為0,這就是Sparse名字的來源)，我們就可以得到Sparse AutoEncoder法。-input： X code： h WTX-loss：厶（X;W） = |"力 X+入工”I稀疏自動(dòng)編碼器(Sparse AutoEncoder)InputPatchFiltersFeaturesSparse Coding2稀疏編碼(Sparse Coding)如果我們把輸出必須和輸入相等的,同時(shí)利用線性代數(shù)中的概念，即0二+ &

8、amp;2恤2+ an*(Dn, ©是基，坷是系數(shù)，我們可以得到這樣一個(gè)優(yōu)化問題：Min 11-01,其中I表示輸入，O表示輸岀。通過求解這個(gè)最優(yōu)化式子，我們可以求得系數(shù)坷和基這些系數(shù)和基就是輸入的另外一種近似表達(dá)。因此，它們可以用來表達(dá)輸入I,這個(gè)過程也是自動(dòng) 學(xué)習(xí)得到的。如果我們在上述式子上加上L1的Regularity 限制，得到：Min 11-01 + u*(laj + la2l + . + lan I)3受限波爾茲曼機(jī)RBM假設(shè)有一個(gè)二部圖(二分圖)，每一層的節(jié)點(diǎn)之間沒有鏈接，一層是可視層，即輸入數(shù)據(jù)層(V), 層是隱藏層(h),如果假設(shè)所有的節(jié)點(diǎn)都是隨機(jī)二值變量節(jié)

9、點(diǎn)(只能取0或者1值)，同時(shí)假設(shè) 全概率分布p(v,h)滿足Boltzmann分布，我們稱這個(gè)模型是 Restricted BoltzmannMachine (RBM)。L深度信念網(wǎng)絡(luò)(Deep Belief Networks )深度信念網(wǎng)絡(luò)是一個(gè)包含多層隱層（隱層數(shù)大于2）的概率模型，每一層從前一層的隱含單元捕獲高度相關(guān) 的關(guān)聯(lián)。DBNs是一個(gè)概率生成模型，與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡(luò)相對，生成模型是建立一個(gè)觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布，對P(Observation|Label)和 P(Label|Observation)都做亍評估。典型的DNBs，可視數(shù)據(jù)v和隱含向量h的關(guān)系可以用概

10、率表示成如下所示形式：DBN structure3RBM2h1Visible layervHidden layersDirected belief netsHinton et al., 2006P(v, h叭,H)二 P( V I H )P(H I h2).j(hl 山2)p(hZ , h，)卷積波爾茲曼機(jī)(Convolutional RBM)InputC1S2 C3 S4 CRBM是為識別二維圖像信息而特殊設(shè)計(jì)的一個(gè)多層感知器。概念示范：輸入圖像通過與m個(gè)可訓(xùn)練的濾波器和對加偏置進(jìn)行卷積, 在C1層產(chǎn)生m個(gè)特征映射圖，然后特征映射圖中每組的n個(gè)像素再進(jìn) 行求和，加權(quán)值，加偏置，通過一個(gè)

11、Sigmoid函數(shù)得到ni個(gè)S2層的特征映射圖。這些映射圖再進(jìn)過濾波得到C3層。這個(gè)層級結(jié)構(gòu)再和S2樣產(chǎn)生S4。最終，這些像素值被光柵化，并連接成一個(gè)向量輸入到傳統(tǒng) 的神經(jīng)網(wǎng)絡(luò)，得到輸出。卷積波爾茲曼機(jī)(Convolutional RBM)卷積波爾茲曼機(jī)(Convolutional RBM)a權(quán)值共享Fullyconnected neural netLocally connected neural net Spatial CQrrelation local Setter to pvt resources elsewhere1Example： 1000x1000 imoeIM hidde

12、nunitf 10MU pormtersHiExample 1000x1000 imae IM hiakfefl units Filter size： 10x10 100M panafneters減少參數(shù)的方法：/每個(gè)神經(jīng)元無需對全局圖像做感受，只需感受局部區(qū)域(Feature Map),在高層會(huì)將這些感受不同局部的神經(jīng)元綜合起來獲得全局信息。 /每個(gè)神經(jīng)元參數(shù)設(shè)為相同，即權(quán)值共享，也即每個(gè)神經(jīng)元用同一個(gè)卷積核去卷積圖像。多濾波器情形Learn multipJe filtersEg： 1000x1000100 FiltersFilter Size： 10x1010K parometers口每

13、層隱層神經(jīng)元的個(gè)數(shù)按濾波器種類的數(shù)量翻倍口每層隱層參數(shù)個(gè)數(shù)僅與濾波器大小、濾波器種類的多少有關(guān)例如：隱含層的每個(gè)神經(jīng)元都連接 10x10像素圖像區(qū)域，同時(shí)有100種卷積核(濾波器)。則參數(shù)總個(gè)數(shù) 8 為：(10x10+1) xl00=10100個(gè)不同的顏色表示不同種類的濾波器卷積波爾茲曼機(jī)(Convolutional RBM)隱層神經(jīng)元數(shù)量的確定OExompie： 1000x1000 image LM hidden units Filter srze： 10x10 100M parametersSTATTONAftlTy? Statistics is Simikxr at differ

14、ent locationsRanz神經(jīng)元數(shù)量與輸入圖像大小、濾波器大小和濾波器的滑動(dòng)步長有關(guān)。例如，輸入圖像是1000x1000像素，濾波器大小是10x10,假設(shè)濾波器間沒有里疊，即步長為10,這樣隱層的神經(jīng) 元個(gè)數(shù)就是(1000x1000 )/ (10x10)=10000個(gè)口卷積過程:用一個(gè)可訓(xùn)練的濾波器fx去卷積一個(gè)輸入的圖像(第一階段是輸入的圖像，后面的階段就是FeatureMapT),然后加一個(gè)偏置bx,得到卷積層Cx?？谧俞姌舆^程:每鄰域n個(gè)像素通過)Q步驟變?yōu)橐粋€(gè)像素，然后通過標(biāo)量Wx+i加權(quán)，再增加偏Sbx+1, 然后通過一個(gè)sigmoid激活函數(shù)，產(chǎn)生一個(gè)大概縮小n

15、倍的特征映射圖5+1。Fl P特征臉法FIP (Face Identity-Preserving)特征學(xué)習(xí) 采用的是一種多層深度模型，不像DNB與DBM 只利用全局特征，它結(jié)合了的特征，網(wǎng)絡(luò)架構(gòu)類似于(卷積波爾茲曼機(jī))，但FIP是一種的特征學(xué)習(xí)方式，并且FIP要求能重建恢復(fù)正面的人臉，因此這種方法對姿態(tài)和光照變量具有更好的魯棒性。(a) LBP： Local Binary Pattern(局部二值模式)(b) LE:an unsupervised feature learning method,PCA(c) CRBM:卷積受限波爾茲曼機(jī)FIP:Face IdentityPreservi

16、ngFIP深度模型網(wǎng)絡(luò)架構(gòu)(Architecture of the deep network)Reconstruction LayerFeature Extraction LayersHPn0=%X96w V15X5Loully Connoted and Pooling05X5 LocallyX Connected andPooling ,AT*av?|KWWW-224X24X3224n2=24X 24X32H“96X 96coftnectal5X 5Lcxal»vConnected映射圖32£=1,它是通過一個(gè)包含32個(gè)子矩陣的權(quán)第一個(gè)特征提取層中，Xo經(jīng)過Xi層后產(chǎn)生32個(gè)特征重矩陣Wi濾波后，對Xo的某個(gè)局部特征的稀疏保留。IF1 =附明;；昭2W? e Rno43X# =扛0)? = V2

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)--人臉識別

文檔簡介

溫馨提示

最新文檔

評論

深度學(xué)習(xí)--人臉識別

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔