多光照環(huán)境下的第一人稱手部檢測_第1頁
多光照環(huán)境下的第一人稱手部檢測_第2頁
多光照環(huán)境下的第一人稱手部檢測_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

作品名稱:多光照環(huán)境下的第一人稱手部檢測大類:自然科學類學術(shù)論文小類:信息技術(shù)簡介:隨著谷歌眼鏡等第一人稱設(shè)備的相繼發(fā)布,在第一人稱設(shè)備上可以實現(xiàn)更多類似手眼協(xié)調(diào)交互,手持物體識別等應用。而手部檢測在此類應用中是一個基本問題。為了嘗試解決第一人稱攝像頭中進行多光照下手部識別所遇到的挑戰(zhàn),我們在一些新的和他人公開的數(shù)據(jù)集上,分析了現(xiàn)有局域特征的有效性,指出在特征上進行稀疏選擇,以及使用對全局光照進行建模能有效提升算法的性能。詳細介紹:【摘要】在本文中我們考慮第一人稱攝像頭下的手部檢測問題。手部檢測,在類似谷歌眼鏡或者是MIT第六感這樣的第一人稱設(shè)備的應用中,是一個重要而基本的問題,是進行人機交互,手持物體識別,手眼協(xié)調(diào)識別等應用的必要條件。對比于傳統(tǒng)的手部識別方法,第一人稱攝像頭遇到了許多新的挑戰(zhàn),比如光照條件的改變,以及攝像機的快速運動和復雜的手部行為。為了嘗試解決這些新環(huán)境下的挑戰(zhàn),我們建立了一個標定過的室內(nèi)/室外第一人稱手部識別數(shù)據(jù)集,包含2億個像素實例,覆蓋了各種不同光照環(huán)境下的手部照片。使用我們的數(shù)據(jù)集以及另一些公開的數(shù)據(jù)集,我們分析了現(xiàn)有局域特征的有效性。我們的分析指出在特征上進行稀疏選擇,以及使用全局特征對全局光照進行建模能夠有效提升算法的性能。更進一步我們提出使用模型推薦系統(tǒng),在候選子模型中選取較好的模型來進行檢測,方法進一步提升了整個流程的準確率。我們發(fā)布的方法能夠顯著地超過現(xiàn)有的基準算法?!竞喗椤吭诒卷椖恐形覀冎饕铝τ谘芯康谝蝗朔Q攝像頭下的像素級手部檢測問題。第一人稱攝像頭是指由用戶佩戴在頭頂向前下方進行拍攝的攝像頭。比較著名的例子是MIT在10年前提出的“第六感”,以及谷歌公司在最近提出的谷歌眼鏡設(shè)備,這些都是第一人稱的攝像設(shè)備。除此之外,許多大公司如微軟,NEC等,都在試圖研究類似的設(shè)備。在第一人稱攝像頭中,頭部與手部的交互是一個很重要的問題。在“第六感”的設(shè)計原型中,大量的應用需要依賴手勢交互實現(xiàn),如利用手勢來控制攝像機的拍照功能。、但是在任意條件下進行手勢識別是極為困難的,第六感的設(shè)計者試圖利用彩色指套來方便識別的過程,但這樣不僅問題沒有被得到良好的解決,能夠應用的場景也受到了極大的限制。相比于第三人稱的攝像頭,例如監(jiān)控攝像頭,或者電視游戲機攝像頭(Kinect);第一人稱攝像頭處在一個更為理想的交互視角,能夠更好地捕捉特定用戶的行為,來進行一些特別的應用例如分析用戶抓握的物體,或者進行手眼協(xié)調(diào)的相關(guān)應用。所以最近,第一人稱攝像頭的應用成為一個非常流行的問題,有很多工作類似理解手眼協(xié)調(diào)和識別人類的日常生活行為在頂級的會議上被發(fā)表出來。為了更好的在這些應用中獲得人類的行為,本文主要討論的是一個底層問題,即在第一人稱攝像頭中進行像素級的手部檢驗。手部檢驗是一個重要而基本的問題,是一些應用類似手勢識別,手部追蹤,抓取物體識別,人體運動識別和理解手部交互活動的組成部分。對比于之前手部檢測類的工作,這個問題第一人稱攝像頭下?lián)碛性S多新的特性,也遇到許多新的挑戰(zhàn)。不同于經(jīng)常被用來進行手勢識別或者肢體語言識別的第三人稱靜止的攝像頭,第一人稱攝像頭往往會遇到非常多的大移動,因為他被穿戴在用戶的頭上。而這些移動往往還會引起巨大的光照環(huán)境改變,例如當用戶從室內(nèi)走到室外時。強烈的攝像機運動導致無法使用傳統(tǒng)的方法來應用攝像頭配準及背景剪除技術(shù)。同樣地,大的光照環(huán)境改變會引起圖片上提取到的底層特征出現(xiàn)較大的變化,影響手部檢測的性能。幸運的是,第一人稱的攝像頭經(jīng)常被佩戴在一個特定的用戶身上,并且攝像機所處的“物理世界”往往是同一個用戶在有一定范圍限定的環(huán)境。這樣首先用戶膚色的“內(nèi)在顏色”就不會隨著時間所發(fā)生變化。在本文的工作中,致力于解決第一人稱攝像頭手部檢測所遇到的這些挑戰(zhàn)。我們發(fā)布了一個超過1000張標定圖像的手部圖像數(shù)據(jù)集,數(shù)據(jù)集拍攝于不同的光照和背景環(huán)境。每張照片被作了像素集的分割標定。因此數(shù)據(jù)集總共超過4億的像素樣本。使用這個數(shù)據(jù)集以及一些其他研究者發(fā)布的數(shù)據(jù)集,我們對較為常用的底層特征都進行了測試。并且我們嘗試結(jié)合全局光照信息,利用集成學習或者說結(jié)構(gòu)化判斷的思想對手部檢驗進行提升。我們提出了一個基于稀疏特征選擇,以及依賴于全局特征的結(jié)構(gòu)化判斷方案并比較和超過了幾個常見的基準方法。更進一步,我們利用一個模型推薦系統(tǒng)對性能作了進一步提升?;谌中畔⒒蛘呤亲幽P椭g的差異,推薦系統(tǒng)可以選出性能較好的子模型進行手部檢驗。我們將一種新型的動態(tài)模型選擇方法應用到了第一人稱的手勢識別中。這種方法可以有效地提升算法的運行速度和性能?!鞠嚓P(guān)工作]】(1)手部檢測在這里我們回顧一下各種在移動攝像頭中,進行像素級手部檢驗的工作。相關(guān)的工作可以被大致劃分類三類。1.利用局部特征進行檢驗。2.利用基于照片全局的信息進行檢驗。3.利用運動信息進行檢驗。(2)基于局部特征的方法在大多數(shù)情況下,對于手部識別來說,圖像局部的顏色信息是一個簡單而又強的特征,是一種最為經(jīng)典的膚色檢驗手段。Jones和Rehg最早提出利用混合高斯模型來對膚色與非膚色區(qū)域進行建模。他們的方法被證明可以有效地在互聯(lián)網(wǎng)圖片上提取膚色的區(qū)域。顏色建模的方法還時常與跟蹤相結(jié)合來考慮動態(tài)更新的膚色檢驗問題。(3)基于全局匹配的方法全局的方法主要是利用模板匹配的方法,使用一個二維的樣例圖像來形成一個稀疏或稠密的模板數(shù)據(jù)庫進行匹配或從一個3維的手部模型進行二維投影進行匹配。這些方法即使在手的一部分被遮擋的時候,還是能夠有效地對手進行檢測。不過,如果需要支持對遮擋魯棒的檢測,這個方法經(jīng)常要在一個非常大的空間進行搜索,并且必須加載一個追蹤的方法來限制搜索的結(jié)果。(4)基于運動的方法之前也有一些工作針對利用運動信息來增強手部識別的性能。這些利用運動信息進行手勢的識別工作,其主要優(yōu)勢是盡可能的與顏色信息無關(guān),因此能夠較好地適應各種光照的變化。這些工作所利用的底層特征,往往需要提取一段時間內(nèi)稠密或者是稀疏的光流,再利用軌跡空間分解的方法,來分辨前景(手)與背景的運動。一個主要的問題是無論是稀疏還是稠密的光流,都需要較長的時間來提取,并且這些方法往往無法直接處理靜止的前景,需要進一步結(jié)合其他的方法來使用。傳統(tǒng)的手部檢驗主要基于顏色信息,需要提前知道顏色的統(tǒng)計信息,不過優(yōu)勢是對運動有非常好的魯棒性。不過,皮膚所反射的顏色往往隨著環(huán)境的變化快速改變,一個簡單的分類器往往不能適應所有的情況。之前的工作發(fā)現(xiàn)可以利用一些動態(tài)的模型來適應皮膚顏色的變化\。不過這樣模型需要利用自己判斷的結(jié)果進行學習,往往在很多步之后出現(xiàn)漂移。在第一人稱攝像頭的相關(guān)應用中,攝像頭是移動并且不固定的(例如用戶會在室內(nèi)和室外行走)。所以在相應的手勢交互應用中,算法應該能夠在一個非常廣泛的光照條件下進行檢測,并且對攝像機和物體的運動有很好的魯棒性。在本工作中,我們首先展示了可以使用一些已有的特征,在不同的光照條件下對手進行檢測。然后,我們利用整張圖全局的直方圖作為一個全局特征,來尋找一個與待測試圖像光照環(huán)境相近環(huán)境下,訓練出的手部檢驗模型。不過,因為圖片的直方圖會同時受到光照環(huán)境,以及圖片內(nèi)容的影響。依靠直方圖來選擇模型的方法,很難推廣到一個同光照環(huán)境但是顯示的內(nèi)容非常不同的場景(例如手在一個訓練集中沒有見過的室外環(huán)境,陽光的色度和亮度基本相同),于是我們又提出了利用推薦系統(tǒng)來進一步解決這個問題的方案。(5)推薦系統(tǒng)Matikainen等人等人在2012年發(fā)表了一個有關(guān)利用模型推薦系統(tǒng)來進行運動識別的工作,這個工作說明了利用模型推薦可以有效地提升分類器的性能。并且在訓練數(shù)據(jù)較為缺乏的情況下,可以利用跨數(shù)據(jù)庫的模型來提升性能。不過在他們的工作中,他們假設(shè)測試場景的分布是靜態(tài)的。而我們之前說過在第一人稱的手部檢測相關(guān)應用中,場景不再是靜態(tài)的,而是會隨著用戶的移動而發(fā)生改變。在本文中我們將提到一個不需要先驗分類器來作為探針的模型推薦系統(tǒng),來嘗試解決這樣一個動態(tài)場景下的分類問題。一個模型推薦問題,與經(jīng)典的監(jiān)督學習指出有所不同在于,分類器能夠更多擁有根據(jù)帶測試任務(wù)的輸入特征的分布改變自己參數(shù)的性能。類似的想法在近幾年的機器學習中成為一個重要的話題,很多統(tǒng)計學習的新框架都在討論這個問題,例如局域適應學習(domainadaptation),轉(zhuǎn)換學習(transductivelearning),核密度估計(kerneldensityratioestima

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論