基于局部信息融合的行為識(shí)別研究_第1頁(yè)
基于局部信息融合的行為識(shí)別研究_第2頁(yè)
基于局部信息融合的行為識(shí)別研究_第3頁(yè)
基于局部信息融合的行為識(shí)別研究_第4頁(yè)
基于局部信息融合的行為識(shí)別研究_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄TOC\o"1-3"\h\u摘要 IAbstract II第1章緒論 11.1研究目的及意義 11.2國(guó)內(nèi)外研究現(xiàn)狀 31.2.1基于傳統(tǒng)的手工提取特征方法 31.2.2基于深度學(xué)習(xí)的方法 41.3研究難點(diǎn) 61.4研究?jī)?nèi)容 71.5本文的結(jié)構(gòu)安排 8第2章人體行為識(shí)別技術(shù) 92.1行為識(shí)別流程 92.2基于手工特征的人體行為識(shí)別方法 102.2.1基于軌跡跟蹤的特征提取方法 102.2.2基于時(shí)空興趣點(diǎn)的采樣方法 112.3基于深度學(xué)習(xí)的人體行為識(shí)別方法 112.3.1雙流網(wǎng)絡(luò) 122.3.23D卷積網(wǎng)絡(luò) 132.3.3受限波爾茲曼機(jī) 132.3.4循環(huán)神經(jīng)網(wǎng)絡(luò) 142.4本章小結(jié) 15第3章基于關(guān)鍵幀的局部信息融合的分段視頻識(shí)別網(wǎng)絡(luò) 963.1時(shí)序分段網(wǎng)絡(luò) 1763.2關(guān)鍵幀提取網(wǎng)絡(luò) 1973.3KFSN網(wǎng)絡(luò)結(jié)構(gòu) 2083.3KFSN網(wǎng)絡(luò)訓(xùn)練 2093.3KFSN網(wǎng)絡(luò)測(cè)試 203.3本章小結(jié) 20第4章實(shí)驗(yàn)結(jié)果與分析 214.1數(shù)據(jù)集簡(jiǎn)介 214.1.1UCF101數(shù)據(jù)集 214.1.2HMDB51數(shù)據(jù)集 224.2實(shí)驗(yàn)結(jié)果與分析 224.2.1實(shí)驗(yàn)內(nèi)容 224.2.2實(shí)驗(yàn)結(jié)果 234.2本章小結(jié) 25第5章總結(jié)與展望 265.1總結(jié) 265.2未來(lái)展望 26參考文獻(xiàn) 28致謝 32 第1章緒論1.1研究目的及意義 近年來(lái),隨著中國(guó)經(jīng)濟(jì)社會(huì)和國(guó)民經(jīng)濟(jì)的快速發(fā)展,公共安全和一些突發(fā)情況等問(wèn)題日益增加,世界各國(guó)越來(lái)越重視國(guó)內(nèi)公共場(chǎng)所的安全與預(yù)防。所以視頻監(jiān)視系統(tǒng)越來(lái)越多地用于各種公共場(chǎng)所,包括國(guó)際機(jī)場(chǎng)、火車站、辦公室、住宅區(qū)等地的安裝了大量視頻監(jiān)視攝像頭。近年來(lái),隨著中國(guó)安全和智慧城市建設(shè)等各項(xiàng)政策的實(shí)施和進(jìn)一步發(fā)展與深化,金融等領(lǐng)域的用戶公共安防意識(shí)的也在不斷提高和增強(qiáng),視頻圖像監(jiān)控的市場(chǎng)保持了強(qiáng)勁增長(zhǎng)的良好勢(shì)頭。自2008年以來(lái),中國(guó)每年新增使用的攝像頭數(shù)量已超過(guò)百萬(wàn),并且每年的增長(zhǎng)率仍超過(guò)20%。視頻監(jiān)控?cái)?shù)字化為視頻監(jiān)控?cái)?shù)字化系統(tǒng)的用戶提供了許多視頻監(jiān)控資源,但同時(shí)也帶來(lái)了一些問(wèn)題。例如,這些監(jiān)控?cái)z像機(jī)并不能起到主動(dòng)進(jìn)行視頻監(jiān)視的作用,相反,只是僅記錄攝像頭錄下的內(nèi)容和視頻。這樣的視頻監(jiān)視系統(tǒng)具有兩個(gè)主要缺點(diǎn)。首先,如果發(fā)生異常情況,安全人員只能在事件發(fā)生后查看監(jiān)視記錄,或者因?yàn)楣ぷ魇韬龆斐傻倪z漏、誤報(bào)或者漏報(bào)的狀況產(chǎn)生。其次,視頻監(jiān)控需要大量時(shí)間和人力、物力以及許多資源的長(zhǎng)期投入。管理和維護(hù)監(jiān)控?cái)z像系統(tǒng)所需的時(shí)間也令人咋舌。且大量的監(jiān)控?cái)z像頭一年365天每天24小時(shí)不間斷地運(yùn)行會(huì)制造出大量視頻數(shù)據(jù),這使得視頻數(shù)據(jù)的檢索變得非常困難,與此同時(shí)還會(huì)產(chǎn)生許多錯(cuò)誤和不必要的視頻數(shù)據(jù)。因此,這種類型的視頻監(jiān)視系統(tǒng)常被認(rèn)為是“事后諸葛亮”,而沒(méi)有提前預(yù)警功能的監(jiān)控功能。 為了更好地解決上述的一些問(wèn)題和缺陷,計(jì)算機(jī)視覺(jué)圖像處理技術(shù)直接融入到視頻監(jiān)控圖像處理系統(tǒng)中。對(duì)視頻數(shù)據(jù)的信息流執(zhí)行圖像處理的工作,例如圖像處理和目標(biāo)信息分析,以自動(dòng)檢測(cè)和確定特定目標(biāo),并跟蹤目標(biāo)動(dòng)作以分析特定的目標(biāo)行為并為該目標(biāo)行為創(chuàng)建相關(guān)記錄。同時(shí),智能算法可以自動(dòng)實(shí)時(shí)監(jiān)視所有公共場(chǎng)所,以準(zhǔn)確識(shí)別外部事件。例如,如果在海關(guān)、銀行、停車場(chǎng)等各種公共場(chǎng)所發(fā)生危險(xiǎn)或可疑的非法活動(dòng),系統(tǒng)將立即通知安全人員,并向監(jiān)視人員提供當(dāng)前監(jiān)視視頻,可以及時(shí)有效地防止危險(xiǎn)發(fā)生。同時(shí),計(jì)算機(jī)視覺(jué)圖像處理技術(shù)有效地降低了視頻監(jiān)控圖像處理系統(tǒng)的容錯(cuò)率,輕松加快了系統(tǒng)內(nèi)部的視頻檢索過(guò)程,并減少了垃圾視頻數(shù)據(jù)的產(chǎn)生。 計(jì)算機(jī)視覺(jué)技術(shù)主要應(yīng)用了生物視覺(jué)原理,來(lái)對(duì)圖像進(jìn)行采集,然后在采用高級(jí)圖像傳感器設(shè)備進(jìn)行圖像運(yùn)算和處理。這種類別的傳感裝置與人眼的功能效果是一樣的,而對(duì)獲取的圖像的分析和處理需要直接或間接的依賴于計(jì)算機(jī)。計(jì)算機(jī)覺(jué)技術(shù)可以收集和分析周圍3D世界的圖像,且作為一門交叉性的學(xué)科,它不僅涉及現(xiàn)代計(jì)算機(jī)基礎(chǔ)科學(xué)、數(shù)學(xué)、光學(xué)、控制科學(xué)、神經(jīng)心理學(xué)、神經(jīng)生理學(xué)、神經(jīng)病學(xué)和臨床病理學(xué)等自然學(xué)科,還涉及到哲學(xué)、認(rèn)知心理學(xué)、視覺(jué)美學(xué)等社會(huì)科學(xué)。如今,計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用已經(jīng)在各個(gè)行業(yè)領(lǐng)域大展宏圖,特別是在工業(yè)生產(chǎn)中,例如工業(yè)機(jī)械零件的檢測(cè)和測(cè)量。當(dāng)前,一些人工視覺(jué)技術(shù)不能達(dá)到的檢測(cè)和測(cè)量的水平,計(jì)算機(jī)視覺(jué)技術(shù)就可以做到。 目標(biāo)檢測(cè)、跟蹤、人體行為的識(shí)別和理解是目前計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)十分重要的研究課題。目標(biāo)偵測(cè)、目標(biāo)分類和跟蹤是視頻監(jiān)控中主要分析的三個(gè)方向,屬于計(jì)算機(jī)視覺(jué)監(jiān)視任務(wù)處理中的的低級(jí)和中級(jí)任務(wù)處理部分。更高級(jí)的視覺(jué)處理需要?jiǎng)幼鞯淖R(shí)別和理解,它是對(duì)監(jiān)控目標(biāo)的具體行為模式進(jìn)行分析和識(shí)別,并用自然語(yǔ)言等手段加以解釋。這是視頻監(jiān)視系統(tǒng)的最終目標(biāo)任務(wù)之一。 目前行為的識(shí)別通常是以人體的行為活動(dòng)作為主要觀察和研究的對(duì)象。人體的行為是人體行動(dòng)的一種方式,是表達(dá)人對(duì)于環(huán)境或者其他物體的一種反應(yīng)。多數(shù)的情況下,人體是通過(guò)肢體的各種運(yùn)動(dòng)來(lái)描述或表達(dá)復(fù)雜的人體行為,即人體的運(yùn)動(dòng)由肢體的各種運(yùn)動(dòng)組合組成。因此,通過(guò)人體的運(yùn)動(dòng)來(lái)分析人體的行為就成為理解人體行為的一種有效途徑。研究運(yùn)動(dòng)目標(biāo),特別是對(duì)人體運(yùn)動(dòng)目標(biāo)的不同行為和動(dòng)作的識(shí)別具有重要的理論意義,它涉及的范圍包括計(jì)算機(jī)人體視覺(jué)、模式識(shí)別、機(jī)器視覺(jué)學(xué)習(xí)、數(shù)據(jù)挖掘、認(rèn)知心理學(xué)等許多領(lǐng)域。人類行為識(shí)別的研究仍處于初步理論和研究之中。雖然已經(jīng)出現(xiàn)了多種行為識(shí)別算法,但大多數(shù)算法僅限于嚴(yán)格標(biāo)準(zhǔn)化的實(shí)驗(yàn)研究環(huán)境中,并不適用于各種復(fù)雜且可修改的真實(shí)環(huán)境。在模式識(shí)別和機(jī)器視覺(jué)學(xué)習(xí)中,目標(biāo)運(yùn)動(dòng)識(shí)別涉及選擇和評(píng)估適當(dāng)?shù)倪\(yùn)動(dòng)識(shí)別模型,優(yōu)化分類器以及最小化訓(xùn)練樣本估計(jì)誤差或模型分類算法誤差。所以需要估計(jì)和學(xué)習(xí)感知模型的未知參數(shù)。如何根據(jù)理論和先驗(yàn)知識(shí)對(duì)運(yùn)動(dòng)目標(biāo)的結(jié)構(gòu)進(jìn)行合理的建模,提取有效的特征,設(shè)計(jì)合適的分類器,以及如何選擇可行的模型和優(yōu)化分類算法都是這個(gè)領(lǐng)域需要研究和解決的主要問(wèn)題。因此,目標(biāo)的行為識(shí)別對(duì)于學(xué)習(xí)和研究現(xiàn)代計(jì)算機(jī)統(tǒng)計(jì)學(xué)具有十分重要的意義和重要研究?jī)r(jià)值。從認(rèn)知心理學(xué)的角度來(lái)看,認(rèn)知心理學(xué)主要是研究人對(duì)所輸入的各種信息如何進(jìn)行表征、存儲(chǔ)、加工并將其轉(zhuǎn)化為知識(shí),運(yùn)用這些知識(shí)來(lái)控制和指導(dǎo)自己的行為和解決各種問(wèn)題。圖像序列中人類行為識(shí)別的研究使用計(jì)算機(jī)來(lái)分析計(jì)算機(jī)輸入的圖像序列,并使用計(jì)算機(jī)對(duì)人類行為的視覺(jué)感知進(jìn)行低級(jí)處理。執(zhí)行后,模型和分類器將基本圖像特征轉(zhuǎn)換為高級(jí)語(yǔ)言。這包括人們?cè)谀睦镆约八麄冊(cè)谧鍪裁?。這類似于現(xiàn)代認(rèn)知心理學(xué)的機(jī)制。因此,人類行為識(shí)別的研究與發(fā)展為進(jìn)一步研究人類視覺(jué)和各種心理活動(dòng)提供了新的思路和方法。同時(shí),在人體的行為識(shí)別的研究中,還涉及到計(jì)算機(jī)視覺(jué)中從底層圖像特征到高層圖像語(yǔ)義之間的許多關(guān)系和問(wèn)題。因此,該研究對(duì)象的方案和發(fā)現(xiàn)對(duì)計(jì)算機(jī)視覺(jué)及其他對(duì)應(yīng)分析領(lǐng)域的成長(zhǎng)帶有非常重要的意義。 總之,視頻流中包含大量的有用的信息,如何讓現(xiàn)有的大量的傳感器和數(shù)字視頻監(jiān)控管理系統(tǒng)進(jìn)行智能化的工作,已開(kāi)始逐步得到廣大科研工作者、政府和商家的高度重視,視頻人體行為識(shí)別具有重要的研究?jī)r(jià)值與意義。1.2國(guó)內(nèi)外研究現(xiàn)狀 基于視頻流的行為分析和理解正在成為計(jì)算機(jī)視覺(jué)領(lǐng)域中越來(lái)越重要和關(guān)注的研究方向。其核心研究重點(diǎn)是使用計(jì)算機(jī)視覺(jué)模式識(shí)別圖像信號(hào)處理和其他技術(shù)來(lái)執(zhí)行視頻流目標(biāo)序列。了解室外監(jiān)視區(qū)域中行人行為的目標(biāo)檢測(cè),目標(biāo)分類,目標(biāo)跟蹤從而進(jìn)行分析。目標(biāo)檢測(cè)是視頻監(jiān)控圖像處理系統(tǒng)的基礎(chǔ),屬于低層次的計(jì)算機(jī)視覺(jué)問(wèn)題,目前已經(jīng)有了很多較為成熟的檢測(cè)算法。必須準(zhǔn)確地對(duì)場(chǎng)景中的移動(dòng)對(duì)象進(jìn)行分類,以便可以進(jìn)一步跟蹤和分析場(chǎng)景中的移動(dòng)對(duì)象。而作為視頻監(jiān)控圖像處理系統(tǒng)中最基本的功能之一的目標(biāo)跟蹤,是當(dāng)前制約視頻監(jiān)控圖像處理系統(tǒng)發(fā)展的一個(gè)主要瓶頸。而如何對(duì)人的行為進(jìn)行分析和識(shí)別是近幾年被廣泛關(guān)注的一個(gè)研究熱點(diǎn),它研究的主要是如何對(duì)人的行為運(yùn)動(dòng)模式進(jìn)行分析和識(shí)別,這可以輕松地視為時(shí)變運(yùn)動(dòng)數(shù)據(jù)的分類和匹配,即將測(cè)試序列與標(biāo)準(zhǔn)操作的預(yù)校準(zhǔn)參考數(shù)據(jù)序列進(jìn)行匹配。1.2.1基于傳統(tǒng)的手工提取特征方法 在人工智能和深度學(xué)習(xí)問(wèn)世之前,設(shè)計(jì)圖像特征不僅要人工修復(fù)人類行為,而且要修復(fù)諸如特征提取,特征表示和行為分類之類的固定過(guò)程,這也是本文研究的主要方向?;谌斯ぴO(shè)計(jì)的圖像特點(diǎn)的運(yùn)動(dòng)鑒別方案可以將其分成基于全局特點(diǎn)的人體動(dòng)作識(shí)別和基于局部特點(diǎn)的人體動(dòng)作識(shí)別。全局特點(diǎn)獲取的基本完成方案是先從視頻圖像中偵測(cè)出人體的動(dòng)作和位置,然后以人體為區(qū)域的核心,然后繪制形狀,和區(qū)域的輪廓等。錄制視頻中的人類行為特征證明了在視頻動(dòng)作中使用姿勢(shì)變化來(lái)訓(xùn)練和構(gòu)建整體模型。Bobick等人提出的基于全局函數(shù)的代表性方法。包含動(dòng)作形狀的圖像(MEI)和動(dòng)作歷史幀數(shù)(MHI)。此方案重點(diǎn)用于兩個(gè)相鄰的幀數(shù),其中在幀之間執(zhí)行導(dǎo)數(shù)運(yùn)算以獲得人的行為的特征表示。這種方法的優(yōu)勢(shì)在于,它可以清晰地保留視頻中人類行為的時(shí)間特征,但是在某種程度上取決于人類輪廓的手動(dòng)分割,并且對(duì)顏色,光線,對(duì)比度和遮擋問(wèn)題進(jìn)行分析。但是在空間有限的視頻場(chǎng)景不容易處理?;谶\(yùn)動(dòng)局部功能的視頻運(yùn)動(dòng)識(shí)別算法不需要視頻的預(yù)先分割。常見(jiàn)的局部特征包括局部,邊,角,曲線和具有特殊屬性的區(qū)域。人類行為的局部特征也稱為局部興趣點(diǎn)。這是空間或時(shí)間的突然變化。其中,最具代表性的局部功能是時(shí)空點(diǎn)(STIP)。這需要對(duì)人類行為視頻的時(shí)間尺度進(jìn)行重大更改,并且必須能夠準(zhǔn)確檢測(cè)行為的關(guān)鍵點(diǎn)。但是,人類行為的許多特征都有執(zhí)行速度慢和執(zhí)行過(guò)程中關(guān)鍵部分功能稀疏等問(wèn)題。這也嚴(yán)重影響隨后人類行為的特征。為了解決視頻中人體操作點(diǎn)稀疏的問(wèn)題,提出了一種基于光流函數(shù)的密集軌跡算法和人工改進(jìn)的密集軌跡采樣算法。在深度學(xué)習(xí)算法廣泛應(yīng)用于運(yùn)動(dòng)識(shí)別領(lǐng)域之前,特征獲取是最高效的一種方案。DT算法的基本流程是采用光流場(chǎng)獲取在視頻幀排列中采用的密集采樣點(diǎn)的動(dòng)作痕跡,并采用動(dòng)作痕跡提取方法,在使用梯度直方圖(HOG)。方向光流直方圖(HOF),運(yùn)動(dòng)邊界直方圖(邊界的歷史運(yùn)動(dòng),MBH),軌跡函數(shù)軌跡和其他4個(gè)函數(shù)。HOF是基于灰色直方圖計(jì)算的,而其他則基于密集的光流。最后,使用Fisher向量來(lái)回編碼圖像特征,然后使用圖像特點(diǎn)進(jìn)行編譯的效果訓(xùn)練維持向量機(jī)(SVM)分類裝置。IDT優(yōu)化了SURF并使用關(guān)鍵點(diǎn)來(lái)配對(duì)上一個(gè)和下一個(gè)幀數(shù)圖像的兩幀的光流點(diǎn),有效消除了由于攝像機(jī)移動(dòng)過(guò)程而改變視頻背景的影響。這稱為扭曲光學(xué)流程圖。不過(guò),按照密集采樣的鑒別方案對(duì)于動(dòng)態(tài)背景動(dòng)作鑒別任務(wù)的運(yùn)算需求非常高。這包括許多影響行為感知效果的冗余背景變化計(jì)算)。深度學(xué)習(xí)并不是傳統(tǒng)的手動(dòng)提取,而是采用深度網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)的特點(diǎn)。一些研究人員使用深層結(jié)構(gòu)對(duì)視頻進(jìn)行分類。通過(guò)使用分層特征表示,深度網(wǎng)絡(luò)學(xué)習(xí)方法可以捕獲局部特征和上下文信息,并在大型視頻數(shù)據(jù)集中使用高級(jí)信息)。Simonyan等人研究出來(lái)了兩流卷積神經(jīng)網(wǎng)絡(luò)(兩流網(wǎng)絡(luò))。他們把最初始的視頻幀率里面的圖像數(shù)據(jù)解析成空間靜態(tài)信息流和時(shí)間動(dòng)態(tài)新流。在空間網(wǎng)絡(luò)領(lǐng)域中,它們降單個(gè)相框進(jìn)行形式攜帶。以及在視頻幀數(shù)里面描繪出的指定的場(chǎng)景和目標(biāo)信息。1.2.2基于深度學(xué)習(xí)的方法 Simonyan等人提出了一個(gè)雙流卷積神經(jīng)網(wǎng)絡(luò)(Two-StreamNetwork),他們將原始的視頻圖像信息分解成空間靜態(tài)數(shù)據(jù)流和時(shí)間動(dòng)態(tài)數(shù)據(jù)流,在空間網(wǎng)絡(luò)部分以單個(gè)圖像幀的外觀形式,攜帶了視頻描繪的特定的場(chǎng)景和目標(biāo)信息。其自身靜態(tài)的外表形式是一個(gè)很有用的線索,因?yàn)橐恍﹦?dòng)作很明顯地與特定的目標(biāo)之間有聯(lián)系。在時(shí)間網(wǎng)絡(luò)部分,以多個(gè)幀上的運(yùn)動(dòng)外觀形式,表達(dá)了特定的觀察者(攝像機(jī))和特定的目標(biāo)者的運(yùn)動(dòng)。并將深度卷積神經(jīng)網(wǎng)絡(luò)用于兩個(gè)特定的數(shù)據(jù)流中來(lái)進(jìn)行特征的提取,最后使用SVM分類器對(duì)網(wǎng)絡(luò)輸出結(jié)果進(jìn)行行為識(shí)別。Hausknecht等人提出利用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)來(lái)做雙流卷積神經(jīng)網(wǎng)絡(luò)的時(shí)間網(wǎng)絡(luò)部分的融合,效果還不錯(cuò),在UCF101數(shù)據(jù)庫(kù)上的識(shí)別率達(dá)到88.6%。Ji等人首先在實(shí)驗(yàn)中使用3D卷積神經(jīng)網(wǎng)絡(luò)從視頻中學(xué)習(xí)時(shí)空特征,然后在下一步中使用LSTM對(duì)視頻序列進(jìn)行分類。Tran等人提出3D卷積神經(jīng)網(wǎng)絡(luò)C3D,其將33卷積擴(kuò)展到3×3×3卷積,2×2融合擴(kuò)展到2×2×2,輸入視頻圖像16幀。實(shí)驗(yàn)中發(fā)現(xiàn),時(shí)域方向卷積核大小為3時(shí)效果最好。相比2D卷積神經(jīng)網(wǎng)絡(luò),3D卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)量很大,訓(xùn)練變得更加困難,且需要更多的訓(xùn)練數(shù)據(jù)。相比其他類型的方法,C3D一次可以處理多個(gè)視頻圖像幀,所以其計(jì)算效率更高。Carreira等人提出了I3D卷積神經(jīng)網(wǎng)絡(luò),把原始的雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的2D卷積擴(kuò)展為3D卷積。由于時(shí)間維度不能縮減過(guò)快,前兩個(gè)池化層的卷積核大小是1×2×2,最后的池化層的卷積核大小是2×7×7。和原始的雙流卷積神經(jīng)網(wǎng)絡(luò)不同的一點(diǎn)是,這里的雙流卷積神經(jīng)網(wǎng)絡(luò)的兩個(gè)網(wǎng)絡(luò)分支是單獨(dú)訓(xùn)練的,測(cè)試時(shí)才融合它們的預(yù)測(cè)結(jié)果。Diba等人提出了時(shí)空3D卷積網(wǎng)絡(luò)T3D,一方面是采用了3DDenseNet結(jié)構(gòu),區(qū)別于原來(lái)網(wǎng)絡(luò)的Inception和ResNet結(jié)構(gòu);另一方面是使用了不同尺度的卷積來(lái)捕捉視頻信息。Qiu等人提出了偽3D殘差網(wǎng)絡(luò)P3D,用一個(gè)1×3×3的空間方向卷積和一個(gè)3×1×1的時(shí)間方向卷積來(lái)近似原3×3×3卷積,改進(jìn)了ResNet內(nèi)部神經(jīng)網(wǎng)絡(luò)連接中的卷積形式。通過(guò)組合這三種不同的卷積模塊,進(jìn)而得到P3DResNet。P3DResNet無(wú)論是在參數(shù)數(shù)量還是運(yùn)行速度等方面都對(duì)3D卷積神經(jīng)網(wǎng)絡(luò)C3D作出了優(yōu)化。除了光流信息之外,一些學(xué)者還利用視頻的其他模態(tài)如音頻和視頻中的物體信息來(lái)捕捉視頻分類的補(bǔ)充信息。Donahue等人提出了長(zhǎng)時(shí)遞歸卷積神經(jīng)網(wǎng)絡(luò)(Long-termRecurrentConvolutionalNetwork,LRCN),這個(gè)網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)CNN和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)結(jié)合在一起對(duì)視頻中的有用信息進(jìn)行特征提取,單幀的視頻圖像信息通過(guò)CNN獲取特征,然后將CNN的輸出按輸入時(shí)間順序通過(guò)LSTM,這樣最終將視頻數(shù)據(jù)在空間和時(shí)間維度上進(jìn)行特征表征,在UCF101數(shù)據(jù)庫(kù)上得到了82.92%的平均識(shí)別率。Baccouche等人提出使用稀疏卷積自定義編碼器網(wǎng)絡(luò)來(lái)學(xué)習(xí)視頻塊的時(shí)空興趣特征,在KTH數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明其方法能與人工設(shè)計(jì)特征的方法取得類似的效果。Le等人將對(duì)獨(dú)立子空間的分析(IndependentSubspaceAnalysis,ISA)算法擴(kuò)展到三維的視頻數(shù)據(jù)上,使用一種無(wú)監(jiān)督的學(xué)習(xí)算法對(duì)視頻塊進(jìn)行建模。首先在輸入的局部視頻塊上使用獨(dú)立子空間分析算法,學(xué)習(xí)得到相應(yīng)的網(wǎng)絡(luò)后將較大塊的輸入圖像進(jìn)行卷積,將卷積計(jì)算得到的結(jié)果組合起來(lái)作為下一層的輸入;實(shí)驗(yàn)證明該算法更適用于環(huán)境復(fù)雜的視頻數(shù)據(jù)集,因此在Hollywood2數(shù)據(jù)集上得到了更好的結(jié)果,比手工特征提取中的時(shí)空興趣點(diǎn)特征提取算法識(shí)別率提高了將近10%。\o"M.D.Zeiler"Zeiler等人提出使用卷積限制玻爾茲曼機(jī)來(lái)學(xué)習(xí)一個(gè)視頻中相鄰兩幀的時(shí)空特征,在KTH和Hollywood2視頻數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,利用深度學(xué)習(xí)得到的時(shí)空特征與人工設(shè)計(jì)的HOG、HOF等特征能在識(shí)別結(jié)果上取得類似的結(jié)果。Chen等人提出空間-時(shí)間深度信念網(wǎng)絡(luò)(Space-TimeDeepBeliefNetwork,ST-DBN),ST-DBN使用玻爾茲曼機(jī)將空間抽取層和時(shí)間抽取層組合在一起在視頻數(shù)據(jù)上提取不變特征,并在KTH數(shù)據(jù)庫(kù)上獲得了91.13%的識(shí)別率。目前,基于深度學(xué)習(xí)方法的行為識(shí)別,在準(zhǔn)確度上達(dá)到了甚至超越了手工提取特征的準(zhǔn)確度,并且基于深度學(xué)習(xí)的識(shí)別方法具有良好的泛化性,針對(duì)不同類型的數(shù)據(jù)集都可以取得良好的識(shí)別效果,而且避免了復(fù)雜手工提取特征的過(guò)程。通過(guò)以上的對(duì)比分析可以很清楚地看出,深度學(xué)習(xí)不僅技術(shù)上具有優(yōu)良的泛用性,即針對(duì)不同類型的行為數(shù)據(jù)集都同樣能獲得較好的識(shí)別效果,且避免了復(fù)雜的傳統(tǒng)手工特征提取的過(guò)程,用基于機(jī)器的深度特征學(xué)習(xí)代替了基于人類先驗(yàn)經(jīng)驗(yàn)的特征提取,獲得了與傳統(tǒng)的手工特征識(shí)別結(jié)果持平甚至是更好的識(shí)別率。因此,基于深度學(xué)習(xí)的人體行為識(shí)別方法具有很大的科學(xué)研究和應(yīng)用價(jià)值。1.3研究難點(diǎn) 到目前為止,識(shí)別技術(shù)取得了長(zhǎng)足的進(jìn)步。盡管在上層,下層和中層正在不斷的創(chuàng)新,但是目前而言,行為識(shí)別算法的成熟度遠(yuǎn)遠(yuǎn)不夠,因?yàn)槟壳皼](méi)有適用于所有行為分類識(shí)別的算法。所以仍然有很多嚴(yán)重的問(wèn)題需要解決。此類研究的比較難的部分主要在于以下幾點(diǎn): 1.動(dòng)作類內(nèi)類間的變化太大在大多數(shù)行為運(yùn)動(dòng)中,同一運(yùn)動(dòng)會(huì)出現(xiàn)各種形式,例如走路,并且可以在不同的背景環(huán)境中完成。步行的步伐和速度從慢到快變化,步行的步伐也在不時(shí)的變化著。有些很短,有些很長(zhǎng)。其他操作具有相似的性能結(jié)果。特別是,某些非周期性的肢體運(yùn)動(dòng)(例如在交通信號(hào)燈上行走)與正常的行走速度明顯不同。會(huì)看到行為表現(xiàn)的類型很多,每種行為都有很多變化,所以行為意識(shí)研究也有很多問(wèn)題。 2.環(huán)境背景等影響在計(jì)算機(jī)視覺(jué)研究的各個(gè)領(lǐng)域,環(huán)境照明,背景變化和其他因素都是最大的挑戰(zhàn)。主要存在各種變化和觀點(diǎn),從不同角度觀看時(shí),可以用相同的動(dòng)作獲得不同的動(dòng)態(tài)圖像。另外,由于人和背景彼此遮擋,因此難以提取視頻的特征,這就需要利用計(jì)算機(jī)對(duì)行為進(jìn)行分類和識(shí)別。一些學(xué)者提出了用于多視圖相機(jī)融合和處理的3D重建技術(shù),以解決多視圖和遮擋的問(wèn)題。其他影響因素包括動(dòng)態(tài)場(chǎng)景變化和凌亂的背景,環(huán)境照明的變化以及低分辨率圖像和視頻。 3.時(shí)間變化的影響 眾所周知,人體的所有行為都離不開(kāi)時(shí)間這個(gè)重要的因素。而我們拍攝的照片和視頻其實(shí)際存儲(chǔ)的格式和速率也有很大的可能不同,其視頻的播放速度有慢也有快,這使得所提出的行為識(shí)別系統(tǒng)對(duì)照片和視頻存儲(chǔ)格式的實(shí)際回放速度不敏感。 4.數(shù)據(jù)的獲取和標(biāo)注由于將行為識(shí)別問(wèn)題的基本問(wèn)題視為分類問(wèn)題,因此學(xué)習(xí)分類模型是需要研究很多的行為數(shù)據(jù)。然而這些數(shù)據(jù)大多數(shù)都是視頻數(shù)據(jù)。視頻數(shù)據(jù)里面的每個(gè)動(dòng)作的現(xiàn)實(shí)位置和時(shí)間都非常不確定,其持續(xù)時(shí)間也不確定。同時(shí),需要對(duì)視頻中相同動(dòng)作的不同表示以及不同動(dòng)作之間的考慮。數(shù)據(jù)中信息的差異性,多樣性和包容性。該收集過(guò)程的工作量不小?;ヂ?lián)網(wǎng)上有幾個(gè)公共可用的視頻數(shù)據(jù)集,任何人都可以用來(lái)進(jìn)行行為識(shí)別實(shí)驗(yàn)。 另外,手動(dòng)標(biāo)記視頻數(shù)據(jù)非常困難,并且工作量太重。當(dāng)然,有一些學(xué)者也提出了一些自動(dòng)標(biāo)注的方法,比如說(shuō)可以利用網(wǎng)頁(yè)圖片作為搜索引擎,在電影視頻中使用字幕,并使用與電影說(shuō)明匹配的文本信息等。1.4研究?jī)?nèi)容 卷積神經(jīng)網(wǎng)絡(luò)在基于視頻的行為識(shí)別方面難以深入發(fā)展的原因是因?yàn)殚L(zhǎng)視頻在理解行為視頻方面起著重要作用,且生活中的各種監(jiān)控視頻數(shù)據(jù)也基本都是長(zhǎng)視頻,但是主流的神經(jīng)網(wǎng)絡(luò)通常只關(guān)注短視頻。這些挑戰(zhàn)促使我們來(lái)解決以下兩個(gè)主要問(wèn)題:1.如何設(shè)計(jì)一種有效的基于視頻的行為識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)W習(xí)視頻的特征表現(xiàn)進(jìn)而能夠用于長(zhǎng)視頻的行為識(shí)別。2.如何在有限的訓(xùn)練樣本下學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型。 本文在對(duì)基于視頻流的人體行為識(shí)別相關(guān)的關(guān)鍵技術(shù)進(jìn)行大量文獻(xiàn)查閱和研究的基礎(chǔ)上,提出了一種基于關(guān)鍵幀的局部信息融合的分段視頻識(shí)別網(wǎng)絡(luò),能夠在一段長(zhǎng)視頻序列中通過(guò)稀疏采樣的方法提取短片斷,這些視頻片段在時(shí)間維度上服從均勻分布,利用雙流卷積神經(jīng)網(wǎng)絡(luò)從采樣得到的視頻片段中搜集信息,并在UCF101和HMDB51兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證所提出的方法的有效性。1.5本文的結(jié)構(gòu)安排本文的主要研究分為五章,每章的主要研究如下。第一章簡(jiǎn)要介紹了相關(guān)的研究背景以及人類行為識(shí)別研究的重要性。下面介紹國(guó)內(nèi)外學(xué)者在傳統(tǒng)手部特征提取方法和人類行為識(shí)別領(lǐng)域的研究進(jìn)展。深度學(xué)習(xí)技術(shù)從兩個(gè)方面進(jìn)行了分析。最后,介紹了當(dāng)前行為意識(shí)研究中遇到的困難,并重點(diǎn)剖析的主要分析方向和研究的布局。第二章對(duì)人體行為識(shí)別技術(shù)進(jìn)行綜述,先介紹了行為識(shí)別流程,然后介紹了國(guó)內(nèi)外在人體行為識(shí)別領(lǐng)域的常見(jiàn)方法,分別從基于手工特征和基于深度學(xué)習(xí)兩方面進(jìn)行討論。第三章介紹本文擬采用的網(wǎng)絡(luò)結(jié)構(gòu),首先介紹了該方法的基礎(chǔ)網(wǎng)絡(luò)時(shí)序分段網(wǎng)絡(luò)(TSN),然后介紹了本文擬采取的關(guān)鍵幀提取網(wǎng)絡(luò),接下來(lái)介紹了本文采用的行為識(shí)別網(wǎng)絡(luò)的訓(xùn)練與測(cè)試部分。第四章,對(duì)于分析結(jié)果進(jìn)行詳細(xì)的總結(jié),并解析出對(duì)應(yīng)的實(shí)驗(yàn)細(xì)節(jié)上面的問(wèn)題。第五章:概述和觀點(diǎn),本文中的工作和研究結(jié)果的概述以及后續(xù)工作的預(yù)測(cè)。

第2章人體行為識(shí)別技術(shù)行為識(shí)別的目標(biāo)是從一個(gè)未知的視頻或者是圖像序列中自動(dòng)分析出其中正在進(jìn)行的行為的起始點(diǎn)并預(yù)測(cè)其終點(diǎn)。簡(jiǎn)單的行為識(shí)別即動(dòng)作分類,任意給定一段視頻,只需將其正確分類得到視頻中已知的動(dòng)作類別。復(fù)雜點(diǎn)的行為識(shí)別是視頻中不僅僅只包含一個(gè)動(dòng)作類別,而是有多個(gè),系統(tǒng)需自動(dòng)的識(shí)別出動(dòng)作的類別以及動(dòng)作的起始時(shí)刻和終止時(shí)刻。一般來(lái)說(shuō),行為識(shí)別系統(tǒng)的最終目標(biāo)是自動(dòng)分析出視頻中有哪些人(who),在什么時(shí)刻(when),什么地方(where),干什么事情(what),即所謂的“W4系統(tǒng)”。2.1行為識(shí)別流程 首先給出行為識(shí)別的流程框圖如圖2.1所示。訓(xùn)練輸出提取分類器行為特征提取行為識(shí)別結(jié)果訓(xùn)練輸出提取分類器行為特征提取行為識(shí)別結(jié)果人體行為視頻圖2.1行為識(shí)別流程圖 人體行為視頻可以通過(guò)成像設(shè)備獲取,隨著成像設(shè)備的發(fā)展,從早期普通彩色單目攝像機(jī)到后來(lái)多模態(tài)相機(jī)的出現(xiàn)使得行為視頻的數(shù)據(jù)類型更加豐富。人體行為特征是從視頻數(shù)據(jù)中提取到的關(guān)鍵信息的表征,是行為識(shí)別中的關(guān)鍵部分,其好壞直接影響識(shí)別的性能。人體行為的分類是指將人體行為特征向量作為輸入,通過(guò)機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)分類器,將需要識(shí)別的人體行為特征向量輸入到這個(gè)分類器中,從而得到類別的分類結(jié)果。 若是將視頻特征提取作為最關(guān)鍵性的標(biāo)準(zhǔn),現(xiàn)如今的視頻人體行為在識(shí)別方法方面是能夠分為這樣兩個(gè)大的類別的: 1.將深度學(xué)習(xí)作為重要的分類依據(jù)。對(duì)于深度學(xué)習(xí),我們?cè)趯?duì)迭代學(xué)習(xí)加以充分利用的基礎(chǔ)上,自動(dòng)地將相關(guān)的特征向量提取出來(lái)。這樣,我們就能夠借助于深度模型,得到相應(yīng)類別。而在依據(jù)數(shù)據(jù)標(biāo)簽的情況下,我們還能夠在對(duì)反向傳播方式進(jìn)行充分利用的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)模型的參數(shù)加以調(diào)整。這樣,理想的分類效果就能夠最終地取得了。相當(dāng)于分類器的,為模型最后的這樣兩個(gè)層:一是Softmax層;二是全連接層。而作為學(xué)習(xí)過(guò)程的整個(gè)模型的訓(xùn)練,實(shí)際上即為端到端的。 2.將傳統(tǒng)的手工方面特征作為最主要基礎(chǔ)的識(shí)別方法。對(duì)于視頻的底層行為方面的特征,首當(dāng)其沖的為對(duì)于專家設(shè)計(jì)特征的加以利用。在此基礎(chǔ)上,實(shí)施上述底層特征的預(yù)處理。這樣,過(guò)擬合會(huì)因?yàn)閿?shù)據(jù)間相關(guān)性的消除而得到有效預(yù)防。緊接著的是把所處理的底層特征編碼變?yōu)槎ㄩL(zhǎng)的特征向量。我們的訓(xùn)練好行為分離器就能夠在系列處理之后而得到了。2.2基于手工特征的人體行為識(shí)別方法 圖2.2所表示的,即為通常情況這樣的人體行為識(shí)別方法方面的流程:將手工特征作為重要的基礎(chǔ)。第一,在實(shí)施了視頻數(shù)據(jù)的連續(xù)幀的連續(xù)采樣的基礎(chǔ)上,我們就能夠?qū)⒁幌盗械牟蓸狱c(diǎn)得出來(lái);第二,對(duì)于上述的采樣點(diǎn),實(shí)施專家所設(shè)計(jì)施工特征提取方法前提條件下的手工方面特征的提??;第三,對(duì)于前述所提取手工特征進(jìn)行編碼的合并,從而得到特征向量;第四,將前一步操作所形成的特征向量向行為分類器進(jìn)行輸入并且實(shí)施分類訓(xùn)練;第五,在把手工特征向量提取出來(lái)的情況下,我們就能夠得到相應(yīng)的分類結(jié)果。特征向量提取手工特征描述編碼采樣點(diǎn)采樣人體行為視頻特征向量提取手工特征描述編碼采樣點(diǎn)采樣人體行為視頻訓(xùn)練訓(xùn)練行為識(shí)別結(jié)果行為識(shí)別結(jié)果分類器 圖2.2基于手工特征的行為識(shí)別方法流程 世界范圍的許許多多專家和學(xué)者們,曾經(jīng)在深度學(xué)習(xí)沒(méi)有被引用至人體行為識(shí)別這樣一個(gè)重要的領(lǐng)域前,將許多類型的手工特征設(shè)計(jì)了出來(lái),并且實(shí)施了許多嘗試。這之中典型的如常見(jiàn)的SpaceTimeInterestPoints以及Trajectories之類。2.2.1基于軌跡跟蹤的特征提取方法 Wang等人提出的基于密集軌跡(DenseTrajectories,DT)的行為識(shí)別方法和經(jīng)過(guò)改進(jìn)的密集軌跡(ImprovedDenseTrajectories,IDT)的行為識(shí)別方法是深度學(xué)習(xí)之前最好的人體行為識(shí)別方法。密集軌跡人體行為識(shí)別算法的主要步驟為:密集采樣、軌跡追蹤、軌跡描述、特征編碼與識(shí)別。首先對(duì)視頻圖像進(jìn)行多尺度密集特征點(diǎn)采樣,保證多個(gè)不同尺度的各個(gè)采樣點(diǎn)能同時(shí)覆蓋圖像所有空間位置。通過(guò)計(jì)算每連續(xù)15幀圖像特征點(diǎn)的鄰域光流估計(jì)特征點(diǎn)的運(yùn)動(dòng),得到運(yùn)動(dòng)軌跡特征(trajectory)。改進(jìn)的IDT算法除了運(yùn)動(dòng)軌跡特征外,基于HOG,HOF,MBH的三種特征串行融合的特征用以描述光流,并利用詞袋特征編碼方式對(duì)每段軌跡對(duì)應(yīng)的一組特征(HOG,HOF,MBH)編碼。為了消除相機(jī)運(yùn)動(dòng)產(chǎn)生的光流信息,減少光流估計(jì)運(yùn)動(dòng)軌跡的干擾,利用SURF特征進(jìn)行特征點(diǎn)匹配,并改用特征編碼效果更好的費(fèi)舍爾矢量(FisherVector,F(xiàn)V)特征編碼方式。FV同樣也是先用大量特征訓(xùn)練碼書(shū),然后再用碼書(shū)對(duì)特征進(jìn)行編碼。相機(jī)背景運(yùn)動(dòng)光流消除、軌跡特征在后期的行為識(shí)別算法中得到了極大借鑒,常見(jiàn)的有將軌跡特征與深度學(xué)習(xí)結(jié)合的行為識(shí)別算法?;诘玫降奶卣?,利用分類器根據(jù)特征所帶信息,將特征輸入分類器識(shí)別行為。2.2.2基于時(shí)空興趣點(diǎn)的采樣方法時(shí)空興趣點(diǎn)(SpaceTimeInterestPoint,STIP)能夠同時(shí)考慮到視頻的空間信息和時(shí)間信息,是一種常用的行為識(shí)別運(yùn)動(dòng)特征表示方法。STIP特征提取出視頻序列中時(shí)間和空間運(yùn)動(dòng)變化劇烈的人體區(qū)域,如揮手的手掌和手肘以及踢球的足部。由于其較好的運(yùn)動(dòng)描述能力,被廣泛應(yīng)用于視頻序列中的人體行為識(shí)別。常用的檢測(cè)時(shí)空興趣點(diǎn)的方法有三種:Dollar檢測(cè)方法、Harris3D角點(diǎn)檢測(cè)方法和稠密網(wǎng)絡(luò)檢測(cè)方法。聚焦于時(shí)空,作出了顯著變化區(qū)域檢測(cè)的為Harris2D。而在充分利用統(tǒng)計(jì)所得像素直方圖的情況下,研究者實(shí)施了行為特征向量方面的描述。不過(guò),對(duì)于上述檢測(cè)方法,Dollar等人提出諸如其所檢測(cè)到的穩(wěn)定的時(shí)刻在興趣點(diǎn)方面存在著嚴(yán)重的數(shù)量不足的問(wèn)題。在此基礎(chǔ)上,他們還將這樣的看法提了出來(lái):借助于Gabor濾波器進(jìn)行濾波,我們是能夠在可測(cè)量時(shí)間維度之上進(jìn)行濾波的。更為重要的是,在空間維度上,我們還能夠在運(yùn)用高斯濾波器基礎(chǔ)上進(jìn)行濾波。就由這種檢測(cè)方法檢測(cè)到穩(wěn)定時(shí)空興趣點(diǎn)而言,是有著數(shù)量會(huì)因?yàn)榫植苦徲驂K尺寸大小變化而發(fā)生相應(yīng)變化的特征的。在這之后,Willems等人又在Harris2D的基礎(chǔ)上提出了這樣的時(shí)空興趣點(diǎn)檢測(cè)的具體方法:將Harris3D作為重要的依托。在對(duì)Hessian矩陣的計(jì)算前提之下,興趣點(diǎn)檢測(cè)時(shí)間的復(fù)雜度因此而大大地下降了。研究者還將其跟諸如HOG和HOF以及MBH實(shí)施了深入的比較。其結(jié)果說(shuō)明:在采樣方式方面,就興趣點(diǎn)而言,稠密的要優(yōu)勝于稀疏的。 盡管對(duì)這樣兩個(gè)方面的影響較為敏感,基于時(shí)空興趣點(diǎn)特征提取方法的效果在背景復(fù)雜的情況下還是很好的。2.3基于深度學(xué)習(xí)的人體行為識(shí)別方法 就傳統(tǒng)的手工特征方法而言,這些方面的復(fù)雜場(chǎng)景之中的問(wèn)題,實(shí)際上是不就普適性的:一是視角的變化;二是遮擋;三是光照。所以,要至數(shù)據(jù)之中對(duì)行為特征進(jìn)行自動(dòng)學(xué)習(xí),深度學(xué)習(xí)方式的效果更好。圖2.3所表示的,即為文章之中所提出的將深度學(xué)習(xí)作為基礎(chǔ)的人體行為識(shí)別方法的流程框架。輸出行為識(shí)別結(jié)果深度學(xué)習(xí)模型輸入RGB連續(xù)幀或光流圖像輸出行為識(shí)別結(jié)果深度學(xué)習(xí)模型輸入RGB連續(xù)幀或光流圖像圖2.3基于深度學(xué)習(xí)的行為識(shí)別方法流程 在行為識(shí)別方法之中,將深度學(xué)習(xí)作為重要基礎(chǔ)的,主要有這樣兩種:一是3D卷積網(wǎng)絡(luò);二是雙流網(wǎng)絡(luò)。2.3.1雙流網(wǎng)絡(luò) 下面的圖2.4所表示的,即為2014年Simonyan提出了基于雙流網(wǎng)絡(luò)結(jié)構(gòu)的行為識(shí)別方法的基本流程。這樣的結(jié)構(gòu),可以分為兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)方面的分支:一是時(shí)間;二是空間。他們的網(wǎng)絡(luò)結(jié)構(gòu)是一樣的。前者先對(duì)視頻系列里面相鄰兩幀進(jìn)行光流圖像的計(jì)算并且對(duì)多幀堆疊的光流圖像實(shí)時(shí)時(shí)序信息提取。后者在將空間特征值視頻在RGB圖像里面予以提取出來(lái),并且在對(duì)上述兩個(gè)網(wǎng)絡(luò)進(jìn)行得分融合的基礎(chǔ)上取得結(jié)果。而視頻行為識(shí)別的準(zhǔn)確性也是得益于這樣的方法而在很大程度上提升了。圖2.4雙流網(wǎng)絡(luò)框架 在準(zhǔn)確率較高的同時(shí),基于雙流網(wǎng)絡(luò)架構(gòu)的識(shí)別方法需要實(shí)施光流圖像的提取。而兩個(gè)網(wǎng)絡(luò)的分開(kāi)訓(xùn)練,則是特別耗時(shí)的。這樣,實(shí)時(shí)性要求是難以達(dá)到的。并且這樣的方法對(duì)長(zhǎng)時(shí)建模能力不足。2.3.23D卷積網(wǎng)絡(luò) 對(duì)于單幀圖像CNN特征的學(xué)習(xí),現(xiàn)如今的行為識(shí)別方法一般情況所使用的都是將圖像2D卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)的。其結(jié)果是:不同連續(xù)幀的信息連續(xù),許多時(shí)候就會(huì)被忽略。這樣,視頻里面動(dòng)作處理方面的信息會(huì)大量地丟失掉。所以,對(duì)3D卷積網(wǎng)絡(luò)的充分利用,實(shí)際上是這方面研究的重要方向之一。2010年,上述的行為識(shí)別法為Ji等人第一次地提了出來(lái)。對(duì)視頻,沿著這樣兩個(gè)維度,我們是能夠?qū)嵤r(shí)空特征提取的:一是時(shí)間;二是空間。圖2.5所表示的,即為3D卷積操作。借助于高層特征的規(guī)則化,這些研究者做到了把3D卷積網(wǎng)絡(luò)跟各種各樣的架構(gòu)的有機(jī)結(jié)合。KHLWKHLWDD<LKK圖2.53D卷積操作 在圍繞視頻連續(xù)幀實(shí)施所組成的三維立方體3D卷積特征提取的基礎(chǔ)上,這樣的網(wǎng)絡(luò)能夠?qū)⒁曨l圖像這兩個(gè)維度方面的特征信息加以捕捉:一是空間;二是時(shí)間。更為重要的是,網(wǎng)絡(luò)運(yùn)行的速度,受益于對(duì)于多幀圖像的一次性處理,在很大程度上得到了提升。一方面是識(shí)別的準(zhǔn)確性并不高,另一方面是對(duì)于硬件處理器有著較高的性能方面的要求,在一方面是計(jì)算開(kāi)銷特別大,這樣的3D卷積網(wǎng)絡(luò)所存在的優(yōu)勢(shì)僅僅表現(xiàn)在無(wú)需對(duì)光流圖像進(jìn)行預(yù)先提取方面。在這樣的情況下,對(duì)于雙流網(wǎng)絡(luò)思想,在最先進(jìn)的方法之中予以了有機(jī)結(jié)合。也就是說(shuō),從對(duì)行為識(shí)別方法性能提升的角度,做到了對(duì)于光流圖像的充分利用。2.3.3受限玻爾茲曼機(jī) 作為可視化生成網(wǎng)絡(luò)模型,RBM實(shí)際上為能夠借助于輸入層數(shù)據(jù)集對(duì)概率分布進(jìn)行學(xué)習(xí)的模型。在充分借助于門控受限玻爾茲曼機(jī)前提下,Taylor等人在視頻系統(tǒng)里面運(yùn)動(dòng)信息的學(xué)習(xí)之中,采用了無(wú)監(jiān)督的可視化方式。對(duì)于網(wǎng)絡(luò)參數(shù)的微調(diào)和生成,這些研究人員是借助于卷積生成算法實(shí)施的。這樣,運(yùn)動(dòng)敏感特征就能夠得到有效提取。這樣的模型,在KTH數(shù)據(jù)集以及Hollywood2數(shù)據(jù)集方面的識(shí)別效果特別突出。而借助于高斯受限玻爾茲曼機(jī)實(shí)施視頻中人體運(yùn)動(dòng)差異特征的學(xué)習(xí),是Tran等人所提出的較為有效的先進(jìn)方法。對(duì)于一個(gè)兩幀間差異減函數(shù)進(jìn)行定義,使得人體動(dòng)作得以在簡(jiǎn)單時(shí)空顯著圖方面創(chuàng)建成功。這樣,淺層RBM可以更為容易地對(duì)這樣的時(shí)空顯著圖里面動(dòng)作加以學(xué)習(xí)。 在無(wú)監(jiān)督學(xué)習(xí)之中,做到了對(duì)于無(wú)標(biāo)簽數(shù)據(jù)的直接利用,實(shí)際上為基于受限玻爾茲曼機(jī)方法的顯著優(yōu)勢(shì)所在。這就使得我們能夠取得可計(jì)算時(shí)空特征的重要表示方法。2.3.4循環(huán)神經(jīng)網(wǎng)絡(luò)在針對(duì)時(shí)間序列數(shù)據(jù)的建模之中,RNN,亦即循環(huán)神經(jīng)網(wǎng)絡(luò)一般情況下都是用在貢獻(xiàn)度為標(biāo)準(zhǔn)的自動(dòng)建模上面。而要實(shí)現(xiàn)這樣兩個(gè)重要方面的累積,就要借助于自動(dòng)控制相關(guān)方面的數(shù)據(jù)貢獻(xiàn)度來(lái)進(jìn)行:一是歷史信息;二是時(shí)間序列。所以,就這樣兩方面來(lái)說(shuō),RNN的性能是特別強(qiáng)大的:一是特征學(xué)習(xí);二是時(shí)域動(dòng)態(tài)特征的建模。而在對(duì)LSTM加以充分利用的基礎(chǔ)上,我們能夠做到部分地解決RNN所普遍地存在著的梯度消失方面問(wèn)題。下面的圖2.5所表示的,即為L(zhǎng)STM的結(jié)構(gòu)。相關(guān)字母的含義如下::輸出門;:遺忘門;:輸入門;:當(dāng)前的狀態(tài)輸入;:上一時(shí)刻的輸出隱藏狀態(tài)。圖2.5LSTM單元的結(jié)構(gòu)通過(guò)對(duì)相鄰幀間進(jìn)行時(shí)序相關(guān)性的充分利用實(shí)施視頻里面人體行為方面時(shí)序特征的建模,實(shí)際上是以循環(huán)神經(jīng)網(wǎng)絡(luò)作為重要的前提條件的。不過(guò),這方面的識(shí)別準(zhǔn)確性離預(yù)期值的距離還很遠(yuǎn)。2.4本章小結(jié) 本章首先從行為識(shí)別的流程著手,行為識(shí)別方法按特征提取方式的不同大致可以分為兩類,基于傳統(tǒng)手工特征的行為識(shí)別方法和基于深度學(xué)習(xí)的行為識(shí)別方法。第2節(jié)介紹基于傳統(tǒng)手工特征的行為識(shí)別方法中常見(jiàn)的基于軌跡跟蹤的特征提取方法以及基于時(shí)空興趣點(diǎn)的采樣方法。第3節(jié)介紹基于深度學(xué)習(xí)的行為識(shí)別方法,概述了基礎(chǔ)的雙流網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)兩種,以及常見(jiàn)的受限玻爾茲曼機(jī)和循環(huán)神經(jīng)網(wǎng)絡(luò)。

第3章基于關(guān)鍵幀的局部信息融合的分段視頻識(shí)別網(wǎng)絡(luò) 在本章節(jié)中,本文將詳細(xì)介紹如何使用基于關(guān)鍵幀的局部信息融合的分段視頻識(shí)別網(wǎng)絡(luò)(KeyFrameSegmentNetwork,KFSN)進(jìn)行行為識(shí)別。首先,介紹了時(shí)序分段網(wǎng)絡(luò)(TemporalSegmentNetworks,TSN)的基本概念。在此基礎(chǔ)上,改進(jìn)了TSN得到KFSN網(wǎng)絡(luò)。最后,將介紹KFSN網(wǎng)絡(luò)的訓(xùn)練和測(cè)試細(xì)節(jié)。3.1時(shí)序分段網(wǎng)絡(luò)經(jīng)典的雙流網(wǎng)絡(luò)(Two-StreamNetwork)對(duì)于視頻的信息利用率低。原來(lái)的雙流網(wǎng)絡(luò)(Two-StreamNetwork)在訓(xùn)練空間網(wǎng)絡(luò)時(shí)僅使用一張RGB圖,在訓(xùn)練時(shí)間網(wǎng)絡(luò)時(shí)僅用一組堆疊光流圖,這明顯不足以代表整段視頻。因此,時(shí)序分段網(wǎng)絡(luò)(TemporalSegmentNetworks,TSN)提出了一種新的時(shí)序分段方法來(lái)使用該雙流網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)對(duì)視頻分段,來(lái)增加視頻利用率。該網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖所示:圖3.1TSN網(wǎng)絡(luò)結(jié)構(gòu)圖具體來(lái)說(shuō),TSN是將一個(gè)輸入的人體行為視頻分成了等長(zhǎng)的3個(gè)視頻片段,每個(gè)片段中再隨機(jī)任意選取一小段。從這選出的一小段中隨機(jī)取出一幀作為雙流網(wǎng)絡(luò)的空間流卷積神經(jīng)網(wǎng)絡(luò)的輸入,再將這個(gè)小視頻片段的一組堆疊的光流圖作為時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)的輸入。每一個(gè)視頻片段都可以直接得到一個(gè)該視頻分類的分?jǐn)?shù),將這些片段所得分?jǐn)?shù)進(jìn)行結(jié)合(結(jié)合方法:平均、加權(quán)平均、取最大值)得到最終的類別分?jǐn)?shù),即最終識(shí)別結(jié)果,因?yàn)橛玫搅苏麄€(gè)視頻的信息(雖然并沒(méi)有充分應(yīng)用),所以這是一種視頻級(jí)的預(yù)測(cè)。來(lái)自3個(gè)片段的類別分?jǐn)?shù)最終融合產(chǎn)生最后的視頻的識(shí)別結(jié)果。兩個(gè)網(wǎng)絡(luò)都帶有完全同步的的網(wǎng)絡(luò)參數(shù),所以在全部代碼片段上都享有同步的數(shù)值。3.2關(guān)鍵幀提取網(wǎng)絡(luò) 因?yàn)門SN是從分出的3個(gè)片段中隨機(jī)選取RGB幀來(lái)作為空間流網(wǎng)絡(luò)的輸入,而隨機(jī)幀的選擇是任意的,有很大的可能會(huì)選取到攜帶信息很少的幀,這對(duì)最后的行為識(shí)別結(jié)果會(huì)有一定的影響。而且僅僅只把視頻分成3段也會(huì)造成信息的丟失。所以本文提出了基于關(guān)鍵幀的局部信息融合的分段視頻識(shí)別網(wǎng)絡(luò)(KeyFrameSegmentNetwork,KFSN),先將視頻分成多段,然后每段再提取關(guān)鍵幀作為空間流卷積神經(jīng)網(wǎng)絡(luò)的輸入。關(guān)鍵幀提取網(wǎng)絡(luò)如圖3.2所示:圖3.2關(guān)鍵幀提取網(wǎng)絡(luò) 深度網(wǎng)絡(luò)首先逐幀地為視頻中的每個(gè)幀提取深層特征,然后將它們傳遞給網(wǎng)絡(luò)的自適應(yīng)池模塊(AdaptivePooling),該模塊在考慮它們?cè)诰W(wǎng)絡(luò)內(nèi)部可以預(yù)測(cè)的重要性的同時(shí),遞歸地給它們進(jìn)行pool和排序,排序越靠前的幀所含信息越多,其中變量預(yù)測(cè)幀圖像中含有信息的重要性。該方法是對(duì)時(shí)域的特征進(jìn)行Pooling,而不是限制在空域的特征中。根據(jù)幀的重要性設(shè)定權(quán)值,該幀含有的有用信息的可能性越大,權(quán)重就越高,最后的PooledFeature獲得的有用信息就越多,無(wú)用信息就越少。自適應(yīng)池模塊中使用的神經(jīng)網(wǎng)絡(luò)是多層感知器模型(多層感知器,MLP)。該網(wǎng)絡(luò)由三個(gè)完全連接的網(wǎng)絡(luò)組成,它們是簡(jiǎn)單,快速和自適應(yīng)的。輸入到網(wǎng)絡(luò)的是當(dāng)前圖像幀的pooled特征和下一幀特征的殘差,用殘差可以讓網(wǎng)絡(luò)關(guān)注到之前沒(méi)有看到的特征,進(jìn)而決定是否對(duì)它Pool。網(wǎng)絡(luò)通過(guò)反向傳播,會(huì)不斷優(yōu)化MLP,這樣就使得在訓(xùn)練的過(guò)程中,可以很好地選出關(guān)鍵幀,丟掉無(wú)用幀。3.3KFSN網(wǎng)絡(luò)結(jié)構(gòu) 像我們?cè)谇拔挠懻摰哪菢?,?dāng)前的雙流網(wǎng)絡(luò)的一個(gè)明顯問(wèn)題是它們無(wú)法進(jìn)行長(zhǎng)時(shí)建模。這主要是由于它們對(duì)時(shí)間上下文的訪問(wèn)和分析有限,因?yàn)樗鼈兇嬖趩螏臻g網(wǎng)絡(luò))或小片段(時(shí)間網(wǎng)絡(luò))中的單幀堆棧上來(lái)進(jìn)行一些操作。然而,復(fù)雜的動(dòng)作,如體育動(dòng)作,在相對(duì)較長(zhǎng)的時(shí)間段內(nèi)包含多個(gè)階段,在這些行動(dòng)中,如果不能將長(zhǎng)時(shí)的時(shí)間結(jié)構(gòu)運(yùn)用到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,那對(duì)于行為識(shí)別來(lái)說(shuō)會(huì)造成信息上的缺失。為了解決這個(gè)問(wèn)題,本文提出了基于關(guān)鍵幀的局部信息融合的分段視頻識(shí)別網(wǎng)絡(luò)(KeyFrameSegmentNetwork,KFSN),一個(gè)如圖3.2所示的網(wǎng)絡(luò)框架,使整個(gè)視頻的動(dòng)態(tài)建模成為可能。 具體而言,本文中提出的分段視頻識(shí)別網(wǎng)絡(luò)框架旨在說(shuō)明如何最大化整個(gè)視頻序列的視覺(jué)信息以進(jìn)行視頻級(jí)別預(yù)測(cè)。識(shí)別網(wǎng)絡(luò)由空間流卷積神經(jīng)網(wǎng)絡(luò)和時(shí)間流卷積組成。分段視頻識(shí)別網(wǎng)絡(luò)不能在單個(gè)幀或幀堆棧上執(zhí)行,可以對(duì)從整個(gè)視頻中稀疏采樣的一系列短視頻片段執(zhí)行此操作。此序列中的每個(gè)短視頻剪輯都會(huì)生成自己的運(yùn)動(dòng)類別初步預(yù)測(cè),并將短視頻剪輯之間的一致性用作整個(gè)視頻的視頻級(jí)別的預(yù)測(cè)。在網(wǎng)絡(luò)訓(xùn)練期間,在雙流網(wǎng)絡(luò)結(jié)構(gòu)中使用剪切級(jí)別的預(yù)測(cè)損耗值,而是迭代更新模型參數(shù)以優(yōu)化視頻級(jí)別的預(yù)測(cè)損耗值。圖3.2KFSN網(wǎng)絡(luò)結(jié)構(gòu)圖 首先,給定一個(gè)視頻,將其分割成個(gè)時(shí)間等長(zhǎng)的段落,然后,KFSN對(duì)視頻片段序列建模如下:(3.1) 這里是一個(gè)視頻幀序列。每個(gè)幀都是從對(duì)應(yīng)的視頻片段中得到的關(guān)鍵幀。是一個(gè)帶有參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)的函數(shù),該函數(shù)對(duì)關(guān)鍵幀進(jìn)行操作,生成一個(gè)動(dòng)作類的類別分?jǐn)?shù)。分段一致性函數(shù)結(jié)合多個(gè)短視頻片段的輸出,活的到這些短視頻片段之間的分類數(shù)值展現(xiàn)出一致性。按照這類分段的識(shí)別,預(yù)測(cè)數(shù)值將悉知全部視頻中每個(gè)動(dòng)作類的概率。對(duì)此本文采用了大量使用的Softmax數(shù)值來(lái)用作預(yù)測(cè)函數(shù)。融合標(biāo)準(zhǔn)類別交叉熵閾值損失,獲取到了一個(gè)分段一致性函數(shù)的最終損失函數(shù)為-(-)(3.2)其中,為動(dòng)作類的數(shù)量,為與動(dòng)作類相關(guān)的真實(shí)(groundtruth)標(biāo)簽。在實(shí)驗(yàn)中,將片段的初始數(shù)量設(shè)置為3,隨著實(shí)驗(yàn)的深入再逐步增加的數(shù)量。在實(shí)驗(yàn)中,使用協(xié)商一致函數(shù)的最簡(jiǎn)單形式,其中=。對(duì)此采用的聚合數(shù)值從全部短視頻部分上的相同類的獲取中判斷出一個(gè)動(dòng)作類得分。本文對(duì)聚合函數(shù)選用平均評(píng)估法用于報(bào)告最終的識(shí)別精度。為了優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的參數(shù),可以利用多個(gè)短視頻片段,用標(biāo)準(zhǔn)的反向傳播運(yùn)算聯(lián)合優(yōu)化模型數(shù)值。在反向傳播的步驟里面,模型數(shù)值相比對(duì)于損耗值的梯度可以運(yùn)算為(3.3)其中,為分段視頻識(shí)別網(wǎng)絡(luò)將視頻所劃分的段數(shù)。 同時(shí),對(duì)于全部的視頻進(jìn)行一次固定,本文使用一個(gè)稀疏幀率采樣方案,其中獲取到的的視頻片段中只涵蓋了少量的幀,只不過(guò)這些幀都屬于關(guān)鍵幀。與密集時(shí)間采樣視頻幀的工作量相比,它已經(jīng)大大降低了在幀上評(píng)估CNN的時(shí)間計(jì)算難度和成本。3.4KFSN網(wǎng)絡(luò)訓(xùn)練分段視頻識(shí)別網(wǎng)絡(luò)為視頻級(jí)學(xué)習(xí)提供了一個(gè)堅(jiān)實(shí)的框架,但要實(shí)現(xiàn)最優(yōu)性能,需要考慮一些實(shí)際問(wèn)題,如訓(xùn)練樣本的數(shù)量有限等。為此,本文研究了在視頻數(shù)據(jù)上訓(xùn)練深度卷積網(wǎng)絡(luò)的一系列良好實(shí)踐,這些實(shí)踐也直接適用于學(xué)習(xí)分段識(shí)別網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu):網(wǎng)絡(luò)結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中的重要元素。許多研究表明,更深的網(wǎng)絡(luò)結(jié)構(gòu)可以提高目標(biāo)識(shí)別性能。但是,原始的雙流網(wǎng)絡(luò)使用的是相對(duì)較淺的網(wǎng)絡(luò)結(jié)構(gòu)(AlexNet)。在本文中,我們將BN-Inception網(wǎng)絡(luò)用作構(gòu)建雙流卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。像原始的雙流卷積神經(jīng)網(wǎng)絡(luò)一樣,KFSN的空間流卷積神經(jīng)網(wǎng)絡(luò)也可以在RGB圖像上執(zhí)行,但是時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)將一組連續(xù)的堆疊光流場(chǎng)作為輸入。網(wǎng)絡(luò)輸入:原始的雙流卷積神經(jīng)網(wǎng)絡(luò)最初使用RGB圖像作為空間流網(wǎng)絡(luò)的輸入,并使用堆棧光流場(chǎng)作為時(shí)間流網(wǎng)絡(luò)的輸入。本問(wèn)還使用了雙流網(wǎng)絡(luò)結(jié)構(gòu),但與原始的雙流網(wǎng)絡(luò)不同之處在于,稀疏采樣的關(guān)鍵幀集被用作空間流卷積神經(jīng)網(wǎng)絡(luò)的輸入。以獲取運(yùn)動(dòng)信息的輸入字段的效果。網(wǎng)絡(luò)訓(xùn)練:由于動(dòng)作識(shí)別數(shù)據(jù)集的數(shù)量相對(duì)較小,訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)面臨著過(guò)度擬合的風(fēng)險(xiǎn)。如果目標(biāo)數(shù)據(jù)集無(wú)法提供足夠的訓(xùn)練樣本,則預(yù)訓(xùn)練是初始化深度卷積網(wǎng)絡(luò)并降低過(guò)度擬合風(fēng)險(xiǎn)的有效方法。如果空間流網(wǎng)絡(luò)接收到RGB圖像作為輸入,那么本文將把ImageNet初始化模型訓(xùn)練為網(wǎng)絡(luò)初始化。在訓(xùn)練的時(shí)候,批次歸一化層按照對(duì)比縮放各個(gè)樣本批次中樣本的平均值以及平均差,并把平均值和方差變量成為標(biāo)準(zhǔn)高斯分布。這可以加快訓(xùn)練收斂速度,但是,如果訓(xùn)練樣本的數(shù)值存在一定的限制,則由于偏移量預(yù)計(jì)會(huì)形成過(guò)度重合。所以,在初始化預(yù)訓(xùn)練模型之后,除第一精準(zhǔn)化層的平均值和方差參數(shù)外,所有批處理標(biāo)準(zhǔn)化層的均值和方差參數(shù)都會(huì)被凍結(jié)。由于光流和RGB圖像的激活值分布各不不同,所以第一卷積層和批歸一化層的激活值遍布也各不相同,所以需要預(yù)算對(duì)應(yīng)的均值和方差。以此同時(shí),在BN-Inception全局池化層之后附加了輟學(xué)層,從而可以進(jìn)一步預(yù)防擬合。輟學(xué)層設(shè)置:將空間流網(wǎng)絡(luò)調(diào)整為0.8,時(shí)間流網(wǎng)絡(luò)調(diào)整為0.7。3.5KFSN網(wǎng)絡(luò)測(cè)試由于在KFSN中片段級(jí)的卷積神經(jīng)網(wǎng)絡(luò)共享模型參數(shù),因此所學(xué)習(xí)到的模型可以進(jìn)行幀評(píng)估。具體來(lái)說(shuō),本文采用與原始的雙流網(wǎng)絡(luò)相同的測(cè)試方案——即從動(dòng)作視頻中采樣了固定數(shù)量(在本文的實(shí)驗(yàn)中是25)的幀。同時(shí),從視頻序列采樣的幀在四個(gè)角和中心進(jìn)行修剪,然后水平翻轉(zhuǎn)以擴(kuò)展數(shù)據(jù)。對(duì)于時(shí)空兩個(gè)網(wǎng)絡(luò)的融合,本文取它們的加權(quán)平均值。在分段視頻識(shí)別網(wǎng)絡(luò)框架內(nèi)學(xué)習(xí)時(shí),空間流網(wǎng)絡(luò)與時(shí)間流網(wǎng)絡(luò)的性能差距要比原始的雙流卷積神經(jīng)網(wǎng)絡(luò)小?;谶@一事實(shí),本文將空間流的權(quán)值設(shè)為1,將時(shí)間流的權(quán)值設(shè)為1.5。3.6本章小結(jié) 本章首先對(duì)TSN網(wǎng)絡(luò)進(jìn)行了簡(jiǎn)單介紹,然后研究了本文采用的關(guān)鍵幀提取方案,再爾分析了KFSN的網(wǎng)絡(luò)結(jié)構(gòu),最后分析了KFSN網(wǎng)絡(luò)的網(wǎng)絡(luò)訓(xùn)練以及網(wǎng)絡(luò)偵測(cè)等等。

第4章實(shí)驗(yàn)結(jié)果與分析行為識(shí)別在目前的許多高新技術(shù)領(lǐng)域都有很廣泛的應(yīng)用,實(shí)現(xiàn)行為識(shí)別的高精準(zhǔn)識(shí)別率己成為許多專家學(xué)者的目標(biāo)。目前,由于硬件技術(shù)的發(fā)展和實(shí)時(shí)監(jiān)控?cái)z像頭的普及,基于視頻的行為識(shí)別獲得了更多的普及與發(fā)展。本章采用一種分段視頻識(shí)別的方法完成高精度的人體動(dòng)作鑒別,還會(huì)在UCF101數(shù)據(jù)集以及HMDB51數(shù)據(jù)集上進(jìn)行詳細(xì)的分析。4.1數(shù)據(jù)集簡(jiǎn)介本文主要采用了UCF101數(shù)據(jù)集和HMDB51數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),本小節(jié)將對(duì)這兩個(gè)數(shù)據(jù)集的結(jié)構(gòu)進(jìn)行詳細(xì)概述。4.1.1UCF101數(shù)據(jù)集UCF101是從YouTube收集的行為識(shí)別數(shù)據(jù)集,用于具有101個(gè)動(dòng)作類別的真實(shí)動(dòng)作視頻。行為數(shù)據(jù)集是UCF50行為數(shù)據(jù)集的擴(kuò)展,其中包括50個(gè)動(dòng)作類別。UCF101當(dāng)前是動(dòng)作類別和視頻樣本數(shù)量最多的數(shù)據(jù)庫(kù)之一。 UCF101擁有來(lái)自101個(gè)動(dòng)作類別的13320個(gè)動(dòng)作視頻,320x240的視頻分辨率,運(yùn)動(dòng)識(shí)別數(shù)據(jù)和攝像機(jī)動(dòng)作,物體的外觀和姿勢(shì),物體的差異和變化率,大視角,凌亂的環(huán)境背景,以及燈光的巨大差異,使其成為現(xiàn)實(shí)有史以來(lái)最困難的數(shù)據(jù)集之一。101個(gè)不同動(dòng)作類別的視頻可以細(xì)分為25個(gè)組,每個(gè)組可以包含4-7個(gè)不同動(dòng)作的視頻。來(lái)自同一組的視頻可能具有一些共同的特征,例如相似的背景,相似的人物等。UCF101數(shù)據(jù)集的動(dòng)作類別大致可劃分為5種類型:1.人與周圍物體的接觸和互動(dòng);2.僅身體動(dòng)作;3.人與人的互動(dòng);4.樂(lè)器演奏;5.體育運(yùn)動(dòng)。

圖4.1UCF101中6類行為的樣本圖像幀4.1.2HMDB51數(shù)據(jù)集布朗大學(xué)發(fā)布的HMDB51數(shù)據(jù)集于2011年發(fā)布。許多的視頻片段來(lái)源于一些電影,和一些視頻數(shù)據(jù)公共數(shù)據(jù)庫(kù)(例如Prelinger檔案)和在線視頻庫(kù)(例如YouTube和Google)。該數(shù)據(jù)集包含6849個(gè)視頻樣本,并分為51個(gè)動(dòng)作類別。每個(gè)類別至少包含101個(gè)剪輯后的視頻,視頻分辨率為320×240。HMDB51數(shù)據(jù)集的動(dòng)作類別可以分為五種類型:1.一般的面部動(dòng)作,如微笑;2.人與人的互動(dòng);3.一般的身體動(dòng)作;4.面部與對(duì)象交互;5.身體與目標(biāo)的交互行為。圖4.2HMDB51中6類行為的樣本圖像幀4.2實(shí)驗(yàn)結(jié)果與分析本小節(jié)將對(duì)本次實(shí)驗(yàn)的設(shè)備和參數(shù)設(shè)置進(jìn)行詳細(xì)的闡述,并且采用視頻行為識(shí)別率評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果和數(shù)據(jù)進(jìn)行詳細(xì)的分析和總結(jié)。4.2.1實(shí)驗(yàn)內(nèi)容 本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)的代碼編寫(xiě)采用的是caffe+python2.7.12,深度學(xué)習(xí)的框架是OpenMPI+OpenCV。該方法在UCF101數(shù)據(jù)集以及HMDB51數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。 KFSN總共有37個(gè)網(wǎng)絡(luò)層,2個(gè)池層,32個(gè)卷積層,2個(gè)完全連接的層以及其他丟棄層。除非第一卷積層的卷積層的大小為7x7,否則其他每個(gè)卷積層的卷積核分別為1x1和3x3。 在本實(shí)驗(yàn)中,將會(huì)采用低批量隨機(jī)梯度下降算法來(lái)運(yùn)行網(wǎng)絡(luò)的參數(shù)。對(duì)此,批樣品的數(shù)值調(diào)節(jié)成256,動(dòng)量的高低調(diào)節(jié)成0.9。采用ImageNet的預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)權(quán)重的數(shù)值。實(shí)驗(yàn)剛開(kāi)始的時(shí)候?qū)W習(xí)速率參數(shù)設(shè)置還是呈現(xiàn)出很小的狀態(tài)。對(duì)于空間流卷積神經(jīng)網(wǎng)絡(luò),初始學(xué)習(xí)率調(diào)節(jié)成0.001,并且每2000次迭代后降低到其自身的學(xué)習(xí)率0.1。整個(gè)訓(xùn)練過(guò)程在4500次迭代后停止。對(duì)于時(shí)間流網(wǎng)絡(luò),學(xué)習(xí)率被初始化為0.005,經(jīng)過(guò)1200和1800次迭代后,學(xué)習(xí)率降低到自己的學(xué)習(xí)率0.1。最大迭代次數(shù)設(shè)置為2000。為了提取光流,在本實(shí)驗(yàn)中,我們選擇使用OpenDAV中實(shí)現(xiàn)的CUDA的TVL1光流提取算法來(lái)提取光流圖。為了加快訓(xùn)練速度,在分割視頻后,首先使用關(guān)鍵幀提取網(wǎng)絡(luò)AdaScan提出RGB關(guān)鍵幀,然后從關(guān)鍵幀中提取光流,最后提取關(guān)鍵幀并將其發(fā)送到空間流卷積神經(jīng)網(wǎng)絡(luò)。4.2.2實(shí)驗(yàn)結(jié)果 在本小節(jié)中,本文將重點(diǎn)研究分段識(shí)別網(wǎng)絡(luò)KFSN的良好效果,包括不同的訓(xùn)練策略與不同的輸入方式,在這次實(shí)驗(yàn)中,本文在UCF101數(shù)據(jù)集上執(zhí)行了所有實(shí)驗(yàn)。 具體來(lái)說(shuō),本文比較了三種不同的訓(xùn)練策略:(1)不使用預(yù)訓(xùn)練文件直接進(jìn)行訓(xùn)練(FromScratch);(2)只訓(xùn)練空間流網(wǎng)絡(luò)(Pre-trainSpatial);(3)兩個(gè)網(wǎng)絡(luò)部分一起訓(xùn)練(Spatial+Temporal)。訓(xùn)練時(shí)將UCF101每個(gè)類別的90%樣本用于訓(xùn)練,10%樣本用于測(cè)試,每次訓(xùn)練時(shí)隨機(jī)選取90%樣本用于訓(xùn)練。三種訓(xùn)練方式結(jié)果如表4.1所示:表4.1在UCF101上進(jìn)行不同訓(xùn)練策略的結(jié)果(段號(hào)k=3)訓(xùn)練策略SpatialConvNetTemporalConvNetTwo-StreamTwo-Stream72.7%81.0%87.0%FromScratch47.8%81.2%81.6%Pre-trainSpatial82.1%81.2%88.9%Spatial+Temporal82.1%83.5%89.8% 首先,我們看到不使用預(yù)訓(xùn)練文件直接進(jìn)行訓(xùn)練(FromScratch)的訓(xùn)練效果遠(yuǎn)不如原始的雙流網(wǎng)絡(luò)(Two-Stream),這意味著精心設(shè)計(jì)的訓(xùn)練策略能有效降低過(guò)擬合風(fēng)險(xiǎn),特別是對(duì)于空間流網(wǎng)絡(luò)(SpatialConvNet)而言。然后,只在空間流網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練(Pre-trainSpatial)與兩個(gè)流相結(jié)合的預(yù)訓(xùn)練(Spatial+Temporal)相比較,發(fā)現(xiàn)訓(xùn)練臨時(shí)流用于初始化兩個(gè)流能獲得比原始雙流網(wǎng)絡(luò)更好的性能,從而提高識(shí)別精確率達(dá)到89.8%。 然后是不同輸入方式的比較。(1)僅輸入提取出的RGB視頻關(guān)鍵幀;(2)僅輸入光流圖;(3)關(guān)鍵幀與光流圖相結(jié)合輸入。結(jié)果如下表所示:表4.2在UCF101和HMDB51探討不同輸入方式的結(jié)果(段號(hào)k=3)UCF101HMDB51RGB85.3%RGB51.6%Flow89.9%Flow64.2%RGB+Flow94.2%RGB+Flow69.6% 從表中可以看出,僅輸入單個(gè)RGB圖像關(guān)鍵幀的效果最差,光流圖次之,而RGB關(guān)鍵幀和光流圖結(jié)合一起輸入的效果最好。這是因?yàn)閱为?dú)的RGB幀缺少時(shí)序信息,視頻中對(duì)應(yīng)的數(shù)據(jù)的顯示的結(jié)果不準(zhǔn)確?;诠饬鲌?chǎng)的運(yùn)算很輕易的就會(huì)受到噪聲的干擾,從而影響光線的變化以及對(duì)雜亂背景也會(huì)產(chǎn)生影響,因此很難將快速物體和目標(biāo)物體的背景光流場(chǎng)與單個(gè)背景光流場(chǎng)結(jié)合在一起。所以,單獨(dú)的RGB幀或光流場(chǎng)均不能完整表達(dá)視頻信息,需要兩相結(jié)合,一起作為神經(jīng)網(wǎng)絡(luò)的輸入才能更好的表示視頻信息。接下來(lái)將KFSN與其它常用的行為識(shí)別網(wǎng)絡(luò)做一個(gè)效果對(duì)比,結(jié)果如下:表4.3KFSN與其它常見(jiàn)行為識(shí)別方法對(duì)比結(jié)果(段號(hào)k=3)UCF101HMDB51Two-Stream88.0%Two-Stream59.4%VideoMarwin85.2%C3D63.7%T3D90.3%T3D59.2%MPR88.6%MoFAP65.5%TDD+FV88.6%Two-Stream+LSTM63.2%LTC91.8%LTC64.8%TSC69.0%TSC94.0%TSN94.0%TSN69.2%KFSN94.2%KFSN69.6% 從表中結(jié)果可以看出,KFSN的效果明顯優(yōu)于別的行為識(shí)別網(wǎng)絡(luò)。這是因?yàn)閯e的網(wǎng)絡(luò)大都是從整段視頻中隨機(jī)或者間接選取視頻幀輸入網(wǎng)絡(luò),并沒(méi)有充分用到整段視頻的信息,而本文采用稀疏采樣策略,充分利用了整段視頻的信息。而且為進(jìn)一步加強(qiáng)信息的利用,還選取了關(guān)鍵幀來(lái)進(jìn)行實(shí)驗(yàn)。 為了進(jìn)一步探究分段識(shí)別網(wǎng)絡(luò)的優(yōu)越性,將視頻分段數(shù)加大,結(jié)果如表4.4所示:表4.4KFSN上輸入視頻不同分段設(shè)置結(jié)果UCF101HMDB51段號(hào)KRGB+Flow段號(hào)KRGB+Flow394.2%369.6%494.4%469.7%594.6%569.8%694.7%669.8%794.9%769.9%895.0%870.0%995.0%970.1%1095.0%1070.1% 從上表可以看出,增加視頻分段的段數(shù)對(duì)于識(shí)別結(jié)果有明顯的提升,但是當(dāng)段數(shù)到達(dá)一定數(shù)目之后識(shí)別率就不再改變。這是因?yàn)閁CF101數(shù)據(jù)集和HMDB51數(shù)據(jù)集里的視頻大多都不是真正意義上的長(zhǎng)視頻,多數(shù)是不超過(guò)20秒的,所以分段到達(dá)一定程度之后就沒(méi)多大效果了。4.3本章小結(jié) 本章首先對(duì)實(shí)驗(yàn)所采用的兩個(gè)數(shù)據(jù)集UCF101和HMDB51數(shù)據(jù)集進(jìn)行了簡(jiǎn)單的介紹說(shuō)明。接著對(duì)KFSN神經(jīng)網(wǎng)絡(luò)模型在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)內(nèi)容進(jìn)行介紹,對(duì)兩個(gè)經(jīng)典數(shù)據(jù)集的識(shí)別率和實(shí)驗(yàn)數(shù)據(jù)進(jìn)行詳細(xì)的研究。最終結(jié)果表明,對(duì)UCF101和HMDB51數(shù)據(jù)集的研究結(jié)果的識(shí)別率優(yōu)于大多數(shù)人類行為識(shí)別網(wǎng)絡(luò),本文提出的KFSN網(wǎng)絡(luò)也明顯提高了UCF101數(shù)據(jù)集和HMDB51數(shù)據(jù)集的人體行為識(shí)別率。

第5章總結(jié)與展望 本文首先對(duì)行為識(shí)別領(lǐng)域進(jìn)行了理論研究與可靠性分析,結(jié)合前人工作進(jìn)一步提出自己的研究理論,并利用多組實(shí)驗(yàn)論證所提出方法的有效性,同時(shí)研究方案的好壞會(huì)對(duì)往后研究產(chǎn)生很大的影響。5.1總結(jié)當(dāng)下,計(jì)算機(jī)視覺(jué)領(lǐng)域成長(zhǎng)非常之迅速,對(duì)于視頻中的人類動(dòng)作的識(shí)別技術(shù)研究已成為國(guó)內(nèi)外計(jì)算機(jī)視覺(jué)領(lǐng)域的重中之重。廣泛用于視頻圖像監(jiān)視,人機(jī)交互和動(dòng)畫(huà)制作。人類行為識(shí)別技術(shù)已經(jīng)成為人們?nèi)粘I钪凶畛S玫募夹g(shù)之一。伴隨人工智能以及物聯(lián)網(wǎng)領(lǐng)域與深度機(jī)器學(xué)習(xí)相關(guān)的理論的迅速成長(zhǎng),本文研究出來(lái)一些解決辦法來(lái)完善這個(gè)問(wèn)題。此項(xiàng)深入研究的關(guān)鍵要素是如何合理利用人類學(xué)習(xí)和相關(guān)方法,以更有效地完成人工智能視頻監(jiān)視系統(tǒng)中的人類動(dòng)作識(shí)別任務(wù)。本文重點(diǎn)介紹視頻中人類行為識(shí)別的研究任務(wù)。首先,簡(jiǎn)要介紹和解釋研究背景以及視頻中人類行為識(shí)別的重要性。其次,在動(dòng)作識(shí)別領(lǐng)域,視頻和深度學(xué)習(xí)理論中人類動(dòng)作識(shí)別技術(shù)的發(fā)展。分析實(shí)際的研究和應(yīng)用。接下來(lái),分析并打破了當(dāng)前人類行為感知研究的困難和挑戰(zhàn),并在長(zhǎng)視頻中有效地利用了信息技術(shù)。在如何采用高效的方案來(lái)利用視頻識(shí)別網(wǎng)絡(luò)KFSN,從而改善長(zhǎng)期視頻中視頻圖像信息的使用。最后,對(duì)本文提出的方法進(jìn)行了測(cè)試,并基于深度神經(jīng)網(wǎng)絡(luò)的客觀性能指標(biāo)和人類行為識(shí)別任務(wù)的識(shí)別率來(lái)分析其有效性。UCF101數(shù)據(jù)集的最大識(shí)別率達(dá)到95.0%,而HMDB51數(shù)據(jù)集的最大識(shí)別率達(dá)到70.1%。5.2未來(lái)展望目前,隨著人工智能和計(jì)算機(jī)視覺(jué)技術(shù)的不斷更新和發(fā)展,人體行為識(shí)別技術(shù)已經(jīng)取得了很大的研究成果。雖然在人體行為識(shí)別技術(shù)取得了些許成果,但是其仍存在計(jì)算量大、實(shí)用性低、對(duì)于復(fù)雜背景的人體行為識(shí)別仍有一定的難度等挑戰(zhàn)。本文對(duì)人體行為識(shí)別技術(shù)進(jìn)行了研究,雖然獲得了一些進(jìn)展,但是還存在許多不足和需要改進(jìn)的地方,主要是以下幾個(gè)方面:1.本文的研究只是基于簡(jiǎn)單的實(shí)驗(yàn)背景下的行為研究,而且數(shù)據(jù)集較單一,但是在實(shí)際場(chǎng)合中人體行為視頻數(shù)據(jù)是非常復(fù)雜的,所以該研究方法并不能成為現(xiàn)實(shí)中的通用模型??梢栽趯?shí)時(shí)復(fù)雜的背景環(huán)境下以及多攝像頭多視角方面進(jìn)行進(jìn)一步的研究,對(duì)于這一方向的研究還具有廣泛的學(xué)術(shù)研究與技術(shù)應(yīng)用前景,依然還有很大的改進(jìn)空間和發(fā)展?jié)摿Α?.目前,人類行為識(shí)別主要在某些標(biāo)準(zhǔn)數(shù)據(jù)集的有限動(dòng)作進(jìn)行識(shí)別,并進(jìn)一步增強(qiáng)了現(xiàn)有的簡(jiǎn)單行為識(shí)別和理解功能,并啟用了更復(fù)雜場(chǎng)景的事件。了解增強(qiáng)視覺(jué)是從低級(jí)到高級(jí)處理階段的重要部分。同樣,當(dāng)前現(xiàn)有的行為識(shí)別方法通常在訓(xùn)練后使用,并且只能在訓(xùn)練過(guò)程中識(shí)別預(yù)定義的動(dòng)作類別?;旧希@些是相同的短期運(yùn)動(dòng),幾乎沒(méi)有變化,并且自主機(jī)器學(xué)習(xí)不足以實(shí)現(xiàn)目標(biāo)運(yùn)動(dòng),因?yàn)橛捎谶h(yuǎn)距離運(yùn)動(dòng)的各種連續(xù)變化,序列運(yùn)動(dòng)識(shí)別尚未得到很好的研究?;趯?duì)運(yùn)動(dòng)和場(chǎng)景的先驗(yàn)知識(shí)。沒(méi)有要執(zhí)行的功能。對(duì)于包含不同運(yùn)動(dòng)的長(zhǎng)運(yùn)動(dòng)序列,準(zhǔn)確確定運(yùn)動(dòng)的開(kāi)始和結(jié)束時(shí)刻應(yīng)該是未來(lái)研究工作的方向。 這意味著使用實(shí)時(shí)監(jiān)視視頻系統(tǒng)來(lái)檢測(cè)和跟蹤移動(dòng)目標(biāo)并識(shí)別人類行為仍然需要大量工作。大多數(shù)科學(xué)技術(shù)工作者需要積極研究。隨著科學(xué)研究的深入,我們相信人們?cè)谝曨l行為識(shí)別領(lǐng)域的研究和應(yīng)用也將帶來(lái)更大的進(jìn)步和實(shí)際發(fā)展。參考文獻(xiàn)[1]中國(guó)安全防范產(chǎn)品行業(yè)協(xié)會(huì).中國(guó)安防行業(yè)“十二五”(2011-2015年)發(fā)展規(guī)劃.中國(guó)安防,2011,3:2-9.[2]鄭世寶.智能視頻監(jiān)控技術(shù)與應(yīng)用[J].電視技術(shù),2009,33(1):94-96.[3]李彤.智能視頻監(jiān)控下的多目標(biāo)跟蹤技術(shù)研究[D]:[博士學(xué)位論文].北京:中國(guó)科學(xué)技術(shù)大學(xué),2013.[4]Vicente,Munoz,Molina,etal.Embeddedvisionmodulesfortrackingandcountingpeople[J].IEEETransactionsonInstrumentationandMeasurement,2009,58(9):3004-3011.[5]賈云得.機(jī)器視覺(jué)[M].北京:科學(xué)出版社,2002.[6]NaylorM,AttwoodCI.Annotateddigitalvideoforintelligentsurveillanceandoptimizedretrieval:Finalreport[R].ADVISORconnortium,2003,(2003):2.[7]CoifmanB,BeymerD,MclauchlanP,etal.Areal-timecomputervisionsystemforvehicletrackingandtrafficsurveillance[J].

TransportationResearchPartC:EmergingTechnologies,2001,6(4):271-288.[8]Magee,DerekR.Trackingmultiplevehiclesusingforeground,backgroundandmotionmodels[J].ImageandVisionComputing,2004,22(2):143-155.[9]Aggarwal,JakeK,QuinCai.Humanmotionanalysis:Areview[J].Computervisionandimageunderstanding,2001,73(3):428-440.[10]王亮,胡衛(wèi)明,譚鐵牛.人運(yùn)動(dòng)的視覺(jué)分析綜述[J].計(jì)算機(jī)學(xué)報(bào),2002,25(3):225-237.[11]杜友田,陳峰,徐文立等.基于視覺(jué)的人的運(yùn)動(dòng)識(shí)別綜述[J].電子學(xué)報(bào),2007,35(1):84-90.[12]付朝霞.基于視頻流的人體目標(biāo)檢測(cè)與行為識(shí)別研究[D]:[博士學(xué)位論文].太原:中北大學(xué)信號(hào)與信息處理系,2013.[13]BobickW,AaronF,JamesDavis.TherecognitionofhumanmovementusingtemporaltemplatesforPatternAnalysisandMachineIntelligence[J].IEEETransactionsonpatternanalysisandmachineintelligence,2003,23(3):257-267.[14]IvanLaptev.Onspace-timeinterestpoints[J].InternationalJournalofComputerVision,2005,64(2):107-123.[15]WangHeng,KlaserAlexander,SchmidCordelia,etal.Densetrajectoriesandmotionboundarydescriptorsforactionrecognition[J].InternationalJournalofComputerVision,2013,103(1):60–79.[16]WangHeng,SchmidCordelia.ActionRecognitionwithImprovedTrajectories[J].ProceedingsoftheIEEEinternationalconferenceoncomputervision,2013,2013:3551-3558.[17]DalalNavneet,BillTriggs.Histogramsoforientedgradientsforhumandetection[J].IEEEcomputersocietyconferenceoncomputervisionandpatternrecognition,2005,2005:886–893.[18]DalalNavneet,BillTriggs,CordeliaSchmid.Humandetectionusingorientedhistogramsofflowandappearance[C].ProceedingsoftheEuropeanConferenceonComputerVision,2006.[19]IvanLaptev,MarszalekM,SchmidC,etal.LearningRealisticHumanActionsfromMovies[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2008.[20]KarenSimonyan,AndrewZisserman.Two-StreamConvolutionalNetworksforActionRecognitioninVideos[J].AdvancesinNeuralInformationProcessingSystems.2014,2014:568–576.[21]MatthewHausknecht,JoeYue-HeiNg,SudheendraVijayanarasimhan,etal.BeyondShortSnippets:DeepNetworksforVideoClassification[J].IEEEComputerSocietyConferenceonComputerVision,2015,4694-4702.[22]HochreiterS,Schmidhuber.LongShort-TermMemory[J].NeuralComputation,1997,9(8):1735-1780.[23]KhurramSoomro,AmirRoshanZamir,MubarakShah.UCF101:ADatasetof101HumanActionClassesFromVideosinTheWild[J].CRCV-TR-12-01,2012.[24]ShuiwangJi,WeiXu,MingYang,etal.3DConvolutionalNeuralNetworksforHumanActionRecognition[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2013,35(1):221-231.[25]DuTran,LubomirBourdev,RobFergus,etal.LearningSpatiotemporalFeatureswith3DConvolutionalNetworks[J].ProceedingsofIEEEInternationalConferenceonComputerVision,2015,2015:4489-4497.[26]JoaoCarreira,AndrewZisserman.QuoVadis,ActionRecognition?ANewModelandtheKineticsDataset[J].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2017,2017:6299-6308.[27]AliDiba,MohsenFayyaz,VivekSharma,etal.Temporal3DConvNets:NewArchitectureandTransferLearningforVideoClassification[J].ComputerVisionandPatternRecognition(CVPR),2017.[28]QiuZhaofan,YaoTing,MeiTao.LearningSpatio-TemporalRepresentationwithPseudo-3DResidualNetworks[J].ComputerVisionandPatternRecognition(CVPR),2017.[29]DonahueJ,HendricksAnne,GuadarramaS,etal.Long-termrecurrentconvolutionalnetworksforvisualrecognitionanddescription[J].ComputerVisionandPatternRecognition(CVPR),2015,2015:2625-2634.[30]BaccoucheM,MamaletF,WolfC,etal.Sequentialdeeplearningforhumanactionrecognition[J].InInternationalworkshoponhumanbehaviorunderstanding,2011,2011(11):29-39.[31]SchuldtC,LaptevI,CAPUTOB.RecognizingHumanActions:ALocalSVMApproach[C].Proceedingsofthe17thInternationalConferenceonPatternRecognition,2004,2004:23-26.[32]LeQV,ZouWY,YeungSY,etal.Learninghierarchicalinvariantspatio-temporalfeaturesforactionrecognitionwithindependentsubspaceanalysis[J].IEEEcomputersocietyconferenceoncomputervisionandpatternrecognition,2011,2011(6):3361-3368.[33]MarszalekM,LaptevI,SchmidC.ActionsinContext[C].ProceedingsofIEEEConferen

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論