HistogramsofOrientedGradientsforHumanDetection翻譯_第1頁
HistogramsofOrientedGradientsforHumanDetection翻譯_第2頁
HistogramsofOrientedGradientsforHumanDetection翻譯_第3頁
HistogramsofOrientedGradientsforHumanDetection翻譯_第4頁
HistogramsofOrientedGradientsforHumanDetection翻譯_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、用于人體檢測的方向梯度直方圖 Navneet Dalal,Bill Triggs    摘要       我們研究了視覺目標(biāo)檢測的特征集問題,并用線性SVM方法進(jìn)行人體檢測來測試,通過與當(dāng)前的基于邊緣和梯度的描述子進(jìn)行實(shí)驗(yàn)對比,得出方向梯度直方圖(Histograms of Oriented Gradient,HOG)描述子在行人檢測方面表現(xiàn)更加突出。我們研究了計(jì)算過程中每一階段的影響,得出小尺度梯度(fine-scale gradients)、精細(xì)方向采樣(fine orientat

2、ion binning)、粗糙空域抽樣(coarse spatial binning)以及重疊描述子塊的局部對比度歸一化(local contrastnormalization in overlapping descriptor blocks)都對最終結(jié)果有重要作用。這種方法在最初的MIT行人數(shù)據(jù)庫上表現(xiàn)近乎完美,所以我們引入了一個更具挑戰(zhàn)性的包含1800個不同姿勢和背景的已標(biāo)注人體數(shù)據(jù)集。  1 引言       由于人體姿勢和外表的多變,在圖像中檢測人體是一項(xiàng)具有挑戰(zhàn)性的工作。首先需要的就是一個強(qiáng)壯的特征集,使

3、得在不同光照和背景下都能清晰地分辨出人體。我們研究了人體檢測的特征集問題,局部歸一化的HOG描述子相比于現(xiàn)存的特征集(包括小波17,22)有更好的表現(xiàn)。相比于邊緣方向直方圖(EdgeOrientation Histograms4,5)、SIFT(12)、形狀上下文(Shape Contexts1),HOG是在網(wǎng)格密集的大小統(tǒng)一的細(xì)胞單元(dense grid of uniformlyspaced cells)上進(jìn)行計(jì)算,而且為了提高性能,還采用了重疊的局部對比度歸一化(overlapping local contrastnormalizations)。我們用行人檢測(人體是大部分可見的并且基本

4、上是直立的)進(jìn)行測試,為了保證速度和簡潔性,使用線性SVM作為分類器。HOG檢測器在MIT的行人數(shù)據(jù)集(17,18)上表現(xiàn)相當(dāng)好,所以我們又引入了一個更具挑戰(zhàn)性的包含1800個不同姿勢和背景的已標(biāo)注人體數(shù)據(jù)集。正在進(jìn)行的工作表明,我們的特征集對于其他基于形狀的目標(biāo)檢測也同樣好。        第2節(jié)中簡要介紹了在人體檢測上前人的研究工作,第3節(jié)是HOG方法的總體介紹,第4節(jié)介紹了我們使用的數(shù)據(jù)集,第5-6節(jié)是HOG方法的詳細(xì)介紹以及不同處理階段的實(shí)驗(yàn)結(jié)果,第7節(jié)是結(jié)論和總結(jié)。  2 前人的研究工作

5、0;      在目標(biāo)檢測方向上有大量的文獻(xiàn),這里只列舉與人體檢測有關(guān)的論文18,17,22,16,20。6是一篇綜述。Papageorgiou等18提出了一種使用糾正哈爾小波(rectified Haarwavelet)作為特征的多項(xiàng)式SVM行人檢測方法,以及17中基于子窗口的改進(jìn)方法。Depoortere等給出了論文2中方法的一個最優(yōu)化版本。Gavrila和Philomen8采用一種更直接的方法,提取邊緣圖并將其與樣本進(jìn)行匹配,使用chamfer距離作為評判標(biāo)準(zhǔn),這種方法已被用在一個實(shí)時(shí)行人檢測系統(tǒng)中7。Viola等22提出了一種高效的運(yùn)動

6、人體檢測器,使用AdaBoost來訓(xùn)練一串漸進(jìn)復(fù)雜的基于類Haar小波和時(shí)空差的區(qū)域拒絕規(guī)則。Ronfard等19提出了一種關(guān)節(jié)式的身體檢測器,他通過將基于SVM的肢體分類器合并到動態(tài)規(guī)劃框架中的一階和二階高斯濾波來實(shí)現(xiàn),與Felzenszwalb和Huttenlocher3,以及Ioffe和Forsyth9的方法相似。 Mikolajczyk等16提出了一種方向位置直方圖和二值梯度幅值相結(jié)合的身體部位檢測器,能夠檢測臉、頭、以及身體上部或下部的前視或側(cè)視輪廓。相比之下,我們的檢測器結(jié)構(gòu)更簡單,使用單一檢測窗口,但行人檢測的效果更好。  3 算法概述 &

7、#160;     此節(jié)是HOG特征提取方法的概述,實(shí)現(xiàn)細(xì)節(jié)在第6節(jié)。此方法基于對稠密網(wǎng)格中歸一化的局部方向梯度直方圖的計(jì)算。相似的特征在過去十年中越來越多的被使用4,5,12,15。此類方法的基本觀點(diǎn)是:局部目標(biāo)的外表和形狀可以被局部梯度或邊緣方向的分布很好的描述,即使我們不知道對應(yīng)的梯度和邊緣的位置。在實(shí)際操作中,將圖像分為小的細(xì)胞單元(cells),每個細(xì)胞單元計(jì)算一個梯度方向(或邊緣方向)直方圖。為了對光照和陰影有更好的不變性,需要對直方圖進(jìn)行對比度歸一化,可以通過將細(xì)胞單元組成更大的塊(blocks)并歸一化塊內(nèi)的所有細(xì)胞單元來實(shí)現(xiàn)。我們將歸一

8、化的塊描述符叫做HOG描述子。將檢測窗口中的所有塊的HOG描述子組合起來就形成了最終的特征向量,然后使用SVM分類器進(jìn)行人體檢測,見圖1。 圖1               圖1描述了我們的特征提取和目標(biāo)檢測流程。檢測窗口劃分為重疊的塊,在塊中計(jì)算HOG描述子,形成的特征向量放到線性SVM中進(jìn)行目標(biāo)/非目標(biāo)的分類。檢測窗口在整個圖像的所有位置和尺度上進(jìn)行掃描,并在輸出的用來檢測目標(biāo)的金字塔上進(jìn)行非極大值抑制,本文主要講特征提取的過程。 

9、       方向直方圖的使用已有很多先例13,4,5,但是直到Lowe的SIFT尺度不變特征點(diǎn)提取12,才算達(dá)到成熟。SIFT類型的方法在12,14的程序中表現(xiàn)相當(dāng)出色。形狀上下文1方法研究單元和塊的形狀,最初只使用邊緣像素個數(shù)而不是方向直方圖,就已經(jīng)獲得不錯的結(jié)果。這些稀疏特征的成功,不禁使得作為稠密特征的HOG方法的效果和簡易性黯然失色,我們希望我們的研究可以改變這一情況。特別地,我們的非正式實(shí)驗(yàn)表明,即使現(xiàn)在最好的基于特征點(diǎn)的方法,在人體檢測方面比我們方法的錯檢率也要高上至少1-2個數(shù)量級,主要是因?yàn)檫@些基于特征點(diǎn)的檢測器不能

10、可靠地檢測人體結(jié)構(gòu)。        HOG和SIFT特征有個優(yōu)點(diǎn),它們提取的邊緣和梯度特征能很好的抓住局部形狀的特點(diǎn),并且由于是在局部進(jìn)行提取,所以對幾何和光學(xué)變化都有很好的不變性:變換或旋轉(zhuǎn)對于足夠小的區(qū)域影響很小。對于人體檢測,在粗糙的空域采樣(coarse spatial sampling)、精細(xì)的方向采樣(fine orientationsampling)和較強(qiáng)的局部光學(xué)歸一化(stronglocal photometric normalization)這些條件下,只要行人大體上能夠保持直立的姿勢,就容許有一些細(xì)微的

11、肢體動作,這些細(xì)微的動作可以被忽略而不影響檢測效果。    4 數(shù)據(jù)集和研究方法       數(shù)據(jù)集       我們在兩個不同的數(shù)據(jù)集上進(jìn)行了測試,第一個是MIT的行人數(shù)據(jù)庫18,包含城市場景中的509個訓(xùn)練圖和200個測試圖(加上這些圖片的左右翻轉(zhuǎn)圖),此數(shù)據(jù)集只包含正面和背面兩種視角,并且人體的動作有限。我們的檢測器在此數(shù)據(jù)集上表現(xiàn)近乎完美,所以我們制作了一個新的更具挑戰(zhàn)性的數(shù)據(jù)集,“INRIA”,包含從各種人體照片中剪

12、切得到1805個64*128的行人圖片。這些人體大多數(shù)是站立的,但朝向各異并且背景多變,有些背景中還有人群。       研究方法       我們選擇了1239個行人圖片以及他們的左右翻轉(zhuǎn)圖作為訓(xùn)練的正樣本,所以總共2478個正樣本。從1218個沒有行人的圖片中隨機(jī)截取12180個檢測窗口大小的子圖作為初始的負(fù)樣本。用初始分類器檢測這些負(fù)樣本,記錄所有分類錯誤的負(fù)樣本,這就是所謂的難例(hard examples)。然后,把分類錯誤的負(fù)樣本(難例)集加入

13、到初始的訓(xùn)練集中,重新訓(xùn)練,生成最終的分類器。這種二次訓(xùn)練的處理過程顯著提高了每個檢測器的表現(xiàn)(在我們的默認(rèn)檢測器中使每個窗口的誤報(bào)率(FPPW False Positives Per Window)下降了5%)。        為了量化檢測器的性能,我們提出了一個在雙對數(shù)坐標(biāo)上的評價(jià)曲線Detection ErrorTradeoff(DET),即縱坐標(biāo)是漏檢率(miss rate,可以是1-recall rate(查全率、命中率)或者 ),橫坐標(biāo)是每個窗口的誤報(bào)率FPPW,兩個值都是越低越好。這種評價(jià)方

14、法對于微小的概率變化都能檢測到,我們經(jīng)常使用在10-4FPPW時(shí)的漏檢率作為結(jié)果性能的參考點(diǎn)。DET曲線比較易變,稍微降低漏檢率就等價(jià)于在漏檢率不變時(shí)大幅增加誤報(bào)率FPPW。例如,對于我們的默認(rèn)檢測器在FPPW為10-4時(shí),降低漏檢率1%相當(dāng)于在漏檢率不變時(shí)以1.57倍的因子減少?FPPW。  5 結(jié)果綜述       我們在此節(jié)比較HOG檢測器與已存在的一些方法的總體表現(xiàn)。我們的HOG檢測器基于矩形塊(R-HOG)或環(huán)形極坐標(biāo)塊(C-HOG)以及線性或核函數(shù)SVM,與Haar小波、PCA-SIFT或形狀上下文方法

15、進(jìn)行對比,這些方法的簡要介紹如下:       廣義Haar小波       這種方法是定向類Haar小波(oriented Haar-like wavelets)的擴(kuò)展,與論文17中使用的方法類似(更優(yōu)于)。這種特征是從9*9和12*12定向一階和二階45度微分濾波器以及對應(yīng)的二階微分xy濾波器改進(jìn)得來。       PCA-SIFT     &

16、#160; 此描述子基于用PCA算法將梯度圖投影到從訓(xùn)練圖片中獲得的基底上11。Ke和Sukthankar表明此描述子在基于特征點(diǎn)的圖像匹配上要優(yōu)于SIFT,但此說法有爭議14。我們對此算法的實(shí)現(xiàn)使用16*16的塊,以及和我們的HOG描述子同樣的設(shè)定,PCA投影基底從正樣本圖片計(jì)算得到。       形狀上下文ShapeContexts       最初的形狀上下文1使用二值邊緣投票在極坐標(biāo)中統(tǒng)計(jì)bin,與邊緣方向無關(guān)。我們用1個方向bin的HOG描述子模擬了這一方

17、法。使用內(nèi)徑2個像素,外徑8個像素的16個角向和3個徑向間隔獲得最好結(jié)果。我們測試了基于梯度和邊緣投票的方法,邊緣閾值進(jìn)行自動選擇來最優(yōu)化檢測結(jié)果。       結(jié)果       圖3是不同的檢測器在MIT和INRIA測試集上的實(shí)驗(yàn)結(jié)果。 圖3(a) 圖3(b)          結(jié)果表明,HOG檢測器要顯著優(yōu)于小波、PCA-SIFT、形狀上下文方法,在MI

18、T數(shù)據(jù)集上相比于其他方法有非常明顯性能提升,在INRIA數(shù)據(jù)集上FPPW值有至少一個數(shù)量級的下降。我們的類Haar小波檢測器比MIT的小波檢測器效果好,因?yàn)槲覀兪褂昧?階微分并對輸出向量進(jìn)行了對比度歸一化。圖3(a)同樣顯示了MIT的最優(yōu)方法及其集成的檢測器的結(jié)果(從17的實(shí)驗(yàn)結(jié)果中插值計(jì)算得來),然而由于我們不知道17中的數(shù)據(jù)集如何劃分為訓(xùn)練集和測試集,所以無法進(jìn)行精確的對比。矩形塊(R-HOG)和環(huán)形塊(C-HOG)檢測器表現(xiàn)相似,C-HOG有輕微的邊緣信息。原始條形(定向2階微分)擴(kuò)展R-HOG檢測器的特征維數(shù)增加了一倍,同時(shí)性能也有較大提升(在10-4FPPW時(shí)降低2%的漏檢率)。如果

19、將線性SVM替換為高斯核函數(shù)SVM,在10-4FPPW時(shí)有大約3%的性能提升,但以更高的運(yùn)行時(shí)間為代價(jià)。以二值邊緣投票(EC-HOG)代替梯度幅值權(quán)重投票(C-HOG)會在10-4FPPW時(shí)降低大約5%的性能,如果忽略方向信息性能下降會更多,即使增加更多的空間或徑向bin也不管用。PCA-SIFT的表現(xiàn)很差勁,原因之一是,相比于11,為了保留住同樣的變化信息,需要更多的主向量,這可能是由于沒有特征點(diǎn)檢測器后空間配準(zhǔn)能力變得更弱了。  6 算法實(shí)現(xiàn)和性能研究       在次節(jié)中我們會給出HOG算法的詳細(xì)實(shí)現(xiàn),并系統(tǒng)

20、地分析不同的參數(shù)對性能的影響。檢測器參數(shù)如下:無伽馬校正的RGB顏色空間;梯度算子為-1,0,1并且無平滑;梯度方向離散化(投票)到0-180間的9個bin中;塊(block)大小為16*16,細(xì)胞單元(cell)大小為8*8;高斯濾波參數(shù)為8;L2-Hys塊歸一化;塊移動步長為8個像素;檢測窗口為64*128;線性SVM分類器。        圖4總結(jié)了不同的HOG參數(shù)對總體檢測效果的影響,這些接下來我們會詳細(xì)討論,得出的結(jié)論是:要想檢測器性能好,需要精細(xì)尺度的微分(不需要平滑),梯度方向直方圖的bin盡量多,尺寸適度的、

21、歸一化的、重疊的描述子塊。        6.1 伽馬/顏色規(guī)范化       我們用不同的冪值(gamma參數(shù))評價(jià)了幾種顏色空間,有灰度空間、RGB、LAB,結(jié)果表明,這些規(guī)范化對結(jié)果影響很小,可能是由于隨后的描述子歸一化能達(dá)到相似的效果。如果顏色信息可用,我們的特征提取會使用顏色信息,RGB和LAB顏色空間的結(jié)果相似,但如果使用灰度空間,在10-4FPPW時(shí)有1.5%的性能下降。對每個顏色通道進(jìn)行平方根gamma壓縮(即gamma參數(shù)為1/2),會在

22、10-4FPPW時(shí)有1%的性能提升;如果將gamma參數(shù)改為對數(shù),則會造成2%的性能下降。  6.2 梯度計(jì)算       不同的梯度計(jì)算方法對檢測器性能有很大影響,但事實(shí)證明最簡單的梯度算子結(jié)果是最好的。我們先進(jìn)行高斯平滑,然后應(yīng)用幾種離散的微分模版來計(jì)算梯度。我們測試了不同平滑尺度(包括=0即不平滑)的高斯平滑,也測試了不同的梯度模版,包括一維模版(-1,1、-1,0,1、1,-8,0,8,-1),3*3的Sobel模版,以及2*2的對角線模版 和(最緊湊的中心二維微分模版)。簡單的-1,0,1模版在

23、=0時(shí)表現(xiàn)最好。使用更大的模版往往會降低性能,而且增加高斯平滑也會降低性能:當(dāng)平滑尺度從0變?yōu)?時(shí),10-4FPPW下的查全率(recallrate)從89%下降到80%,如圖4(a)。在=0時(shí),5個因子的一維模版1,-8,0,8,-1比-1,0,1模版在10-4FPPW下有1%的性能下降,2*2的對角線模版有1.5%的性能下降,無中心的-1,1模版也會導(dǎo)致1.5%的性能下降,推測是由于x和y方向上差分中心的不一致導(dǎo)致方向估計(jì)不準(zhǔn)確。        對于帶顏色的圖像,分別計(jì)算每個顏色通道的梯度,以范數(shù)最大者作為該點(diǎn)的梯度向量

24、。 圖4(a)  6.3 空間/方向bin統(tǒng)計(jì)       計(jì)算細(xì)胞單元(cell)內(nèi)每個像素的梯度,為某個基于方向的bin投票(vote),從而形成方向梯度直方圖。細(xì)胞單元可以是矩形的或者環(huán)形(極坐標(biāo)中的扇形)的。直方圖的方向bin在0度-180度(無符號梯度)或者0度-360度(有符號梯度)之間均分。為了減少混疊現(xiàn)象,梯度投票在相鄰bin的中心之間需要進(jìn)行方向和位置上的雙線性插值。投票的權(quán)重根據(jù)梯度幅值進(jìn)行計(jì)算,可以取幅值本身、幅值的平方或者幅值的平方根。實(shí)踐表明,使用梯度本身作為投票權(quán)重效果最好。&

25、#160;       精細(xì)的方向編碼對取得好的結(jié)果至關(guān)重要,然而空間采樣可以做的相當(dāng)粗糙。如圖4(b)所示,增加方向bin的個數(shù)可以顯著提高檢測器的性能,直到大約9個bin為止,這里所用的是無符號梯度的0度-180度均分方向直方圖。如果包括梯度符號信息(方向范圍為0度-360度,類似SIFT描述子中使用的方向直方圖)會導(dǎo)致性能下降,即使bin的個數(shù)加倍來保存原始方向信息也不行。對于人體檢測來說,衣服和背景顏色的多半可能使得梯度符號信息無意義,但對于其他目標(biāo)檢測,例如汽車、摩托車,梯度符號信息是有用的。 圖4(b) 

26、; 6.4 歸一化和描述子塊       由于局部光照的變化,以及前景背景對比度的變化,使得梯度強(qiáng)度的變化范圍非常大,這就需要對梯度做局部對比度歸一化。我們測試了多種不同的歸一化策略,大多數(shù)都是將細(xì)胞單元組成更大的空間塊(block),然后針對每個塊進(jìn)行對比度歸一化。最終的描述子是檢測窗口內(nèi)所有塊內(nèi)的細(xì)胞單元的直方圖構(gòu)成的向量。事實(shí)上,塊之間是有重疊的,也就是說,每個細(xì)胞單元的直方圖都會被多次用于最終的描述子的計(jì)算。此方法看起來有冗余,但可以顯著的提升性能。圖4(d)顯示了將重疊區(qū)域從0增加到重疊3/4塊時(shí),10-4FPPW

27、下有4%的性能提升。 圖4(d)          我們測試了兩種幾何形狀的塊,一種是矩形的塊,稱為R-HOG;一種是極坐標(biāo)中的環(huán)形塊,稱為C-HOG。       R-HOG       R-HOG塊與SIFT12描述子中使用的塊很相似,但用法不同。R-HOG塊描述子在單一尺度的稠密網(wǎng)格空間中進(jìn)行計(jì)算,無主方向,并且作為更大的檢測窗口描述子的一部分被使用,檢測窗口描

28、述子中明確含有塊之間的相對位置信息。而SIFT特征點(diǎn)描述子在多尺度空間下計(jì)算,具有尺度不變性,并需要旋轉(zhuǎn)到其主方向上,而且SIFT描述子是獨(dú)立使用的。SIFT描述子適合稀疏、寬基線的匹配,R-HOG描述子適合表示稠密空間的編碼。其他的先例包括Freeman和Roth4的邊緣方向直方圖。R-HOG塊可以用三個參數(shù)表示:,,塊大小為*,細(xì)胞單元大小為*,每個細(xì)胞單元有個方向bin。        圖5顯示了在10-4FPPW時(shí)漏檢率隨不同的細(xì)胞單元和塊尺寸的變化情況。對于人體檢測,每個塊內(nèi)含3*3個細(xì)胞單元,每個細(xì)胞單元含6*6

29、個像素時(shí)最優(yōu),此時(shí)漏檢率大約為10.4%。事實(shí)上,無論塊尺寸為多大,細(xì)胞單元為6-8個像素寬時(shí)性能最優(yōu)巧合的是,我們的測試圖片中人體大約也是6-8個像素寬。每個塊內(nèi)含2*2或3*3個細(xì)胞單元時(shí)最優(yōu)。除此之外,結(jié)果不好:當(dāng)塊過大時(shí),對局部圖像的適應(yīng)性變差;當(dāng)塊過小時(shí),有價(jià)值的空間信息減少。 圖5,10-4FPPW時(shí)漏檢率隨細(xì)胞單元和塊尺寸的變化情況。塊步長(塊重疊區(qū)域)固定在塊尺寸的一半(即重疊區(qū)域?yàn)?/2),細(xì)胞單元為6*6個像素,每個塊內(nèi)含3*3個細(xì)胞單元時(shí)性能最優(yōu),漏檢率大約為10.4%        

30、;  就像SIFT論文12中描述的,在統(tǒng)計(jì)直方圖bin之前用高斯加權(quán)使得塊邊緣的像素的權(quán)重降低是有很用的。經(jīng)試驗(yàn),在10-4FPPW時(shí)使用 =  0.5 *block_width的二維高斯核進(jìn)行加權(quán)可使性能提升1%左右。        我們還測試了在描述子中使用不同的細(xì)胞單元尺寸和不同的塊尺寸,性能有稍微的提高(在10-4FPPW時(shí)提高3%),但同時(shí)會大幅增加描述子尺寸。        此外,我們還測試了垂直塊(含2*1個細(xì)胞

31、單元)、水平塊(含1*2個細(xì)胞單元)以及既有垂直塊又有水平塊的描述子。垂直塊和垂直+水平塊明顯比只有水平塊要好,但還是不如2*2的方形塊好。       C-HOG       我們的環(huán)形塊描述子與形狀上下文1類似,只不過,每個細(xì)胞單元包含一個以梯度為權(quán)重的方向棧,而不是單純的方向無關(guān)的邊緣計(jì)數(shù)。極坐標(biāo)網(wǎng)格的想法源于允許精細(xì)的相鄰結(jié)構(gòu)編碼與粗糙的廣域上下文編碼相結(jié)合的思想,以及信號由視覺向人類大腦皮層的轉(zhuǎn)換是對數(shù)級的這一事實(shí)21。實(shí)時(shí)證明,含有很少的半徑bin的描述

32、子結(jié)果最好,所以實(shí)際中幾乎不會有不均勻的情況出現(xiàn)??梢詫-HOG簡單看做中心環(huán)繞編碼的一種高級形式。        C-HOG的塊有兩種形式,一種是中間有一個完整細(xì)胞單元的形式(類似14中的GLOH特征),另一種是中心單元被分為四個90度扇形的形式,類似形狀上下文方法,如下圖所示。 我們只提供中心有完整細(xì)胞單元的C-HOG的結(jié)果,相比于中心被分割的C-HOG,這種方法有更少的空間劃分,但實(shí)際效果卻是相同的。C-HOG可以用四個參數(shù)表示:角度bin的個數(shù),半徑bin的個數(shù),中心圓的半徑(以像素為單位),子半徑的伸展

33、因子。要想保證好的性能,至少需要兩個半徑bin(一個中心半徑、一個周圍的半徑),四個角度bin。增加額外的半徑bin并不能改善多少性能,如果增加角度bin的個數(shù)反而會降低性能(從4個增加到12個會在10-4FPPW時(shí)降低1.3%的性能)。中心圓的半徑為4個像素時(shí)最好,但3或5像素結(jié)果相似。將伸展因子從2增加到3性能不會變化。為細(xì)胞單元的投票加上高斯權(quán)重或逆高斯權(quán)重不會改變性能。形狀上下文方向(只含一個方向bin)需要更精細(xì)的空間子劃分才能表現(xiàn)良好。       塊歸一化策略    &#

34、160;  我們對上面介紹的每種幾何形狀的塊都測試了四種歸一化方法。        假設(shè)v是未經(jīng)歸一化的描述子向量。        vk是v的k范數(shù),k=1,2,是一個很小的常數(shù)        (a)L2-norm(L2范數(shù)):        (b)L2-Hys:先計(jì)算L2范數(shù),然后進(jìn)行限幅(限制v的最大值為

35、0.2)和再歸一化,12中有描述。        (c)L1-norm(L1范數(shù)):        (d)L1-sqrt:L1范數(shù)取平方根,即 ,實(shí)際上是將描述子向量看作是概率分布,然后計(jì)算它們之間的Bhattacharya(巴氏)距離。        如圖4(c)所示,L2-Hys、L2-norm、L1-sqrt的表現(xiàn)差不多一樣好,簡單的L1-norm會使性能下降5%,如果完

36、全不進(jìn)行歸一化會導(dǎo)致性能下降27%(都是指10-4FPPW時(shí))。我們還調(diào)整參數(shù)的值進(jìn)行測試,但結(jié)果表明檢測器性能對于值的變化并不敏感。 圖4(c)         中心環(huán)繞歸一化       我們研究了中心環(huán)繞式的細(xì)胞單元?dú)w一化方法,利用每個細(xì)胞單元和環(huán)繞其周圍的細(xì)胞單元(利用二維高斯權(quán)重進(jìn)行加權(quán))的能量對該細(xì)胞單元進(jìn)行歸一化,然而結(jié)果如圖4(c)中的”Window norm”曲線所示,這種方法相比于基于塊的歸一化方法會使性能下降(在1

37、0-4FPPW時(shí)降低2%)。其中一個原因是由于沒有重疊的塊,每個細(xì)胞單元僅在最終的描述子中被使用一次。改變高斯加權(quán)的參數(shù)也并不會引起結(jié)果的變化。        為了闡明這點(diǎn),考慮有重疊塊的R-HOG檢測器。訓(xùn)練好的線性SVM分類器的參數(shù)會衡量每個塊中的每個細(xì)胞單元在最終的判定決策中起多少作用。圖6(b,f)表明最重要的細(xì)胞單元是包含主要的人體輪廓(特別是頭部、肩部和足部)的那些,用這些細(xì)胞單元相對于輪廓外的塊進(jìn)行歸一化。也就是說,不管訓(xùn)練圖片中的背景如何復(fù)雜,檢測器檢測的主要是人體輪廓相對于背景的差異,而不是內(nèi)部的邊緣或輪廓

38、相對于前景的差異。衣服上的圖案和身體姿勢的變化使得人體輪廓內(nèi)部的區(qū)域不適合作為可靠的檢測特征,而且前景到輪廓的過度可能由于平滑陰影而混淆。圖6(c,g)表明人體輪廓內(nèi)部的梯度(尤其是垂直梯度)一般都是有害的特征,可能是因?yàn)檫@些特征會引起誤報(bào),在這些誤報(bào)中長的垂直條紋會被當(dāng)做頭部或腿。 圖6,HOG描述子最有用的信息來自于人體輪廓周圍(尤其是頭部、肩部、足部),最有效的塊是以人體輪廓外沿的背景為中心的那些塊。(a)訓(xùn)練樣本的平均梯度圖,(b)每個像素表示塊中以此像素為中心的最大正SVM權(quán)重,(c)與(b)類似,負(fù)SVM權(quán)重,(d)一張測試圖,(e)計(jì)算得到的R-HOG描述子,(f)正S

39、VM權(quán)重支持的R-HOG描述子,(g)負(fù)SVM權(quán)重支持的R-HOG描述子  6.5 檢測窗口和上下文       我們用的64*128大小的檢測窗口在人體周圍會產(chǎn)生大約16個像素的空白邊緣。圖4(e)表明此空白邊緣增加了有助于檢測的上下文信息。將空白邊緣從16像素減少到8像素(48*112大小的檢測窗口)會在10-4FPPW時(shí)導(dǎo)致6%的性能下降。保持窗口大小為64*128不變,增加人體的尺寸(同樣會使空白邊緣減少),雖然使得人體的解析度變高,但也會導(dǎo)致性能下降。 圖4(e)  6.6 分類器       我們默認(rèn)使用帶有松弛變量(C=0.01)的線性SVM分類器SVMLight10(在原版SVM上稍作改動使得處理大規(guī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論