基于深度學習的行人重識別算法研究

上傳人：1*** IP屬地：廣東上傳時間：2023-08-28 格式：DOCX 頁數(shù)：3 大?。?8.76KB 積分：12 舉報 版權申訴

全文預覽已結束

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

基于深度學習的行人重識別算法研究

0基于深度學習網(wǎng)絡的reid行人重建（reid）是在不重疊監(jiān)控區(qū)域內(nèi)識別同一個人，并在計算機視覺和其他領域引起學術界的關注。從最近相關研究可以發(fā)現(xiàn)，深度神經(jīng)網(wǎng)絡被廣泛應用于ReID任務。利用大規(guī)模的PersonReID數(shù)據(jù)集，如CUHK03、Market-1501和DukeMTMC-Reid，使采用深度學習網(wǎng)絡的ReID取得了很好的性能。目前的一些ReID方法本文的主要思想就是通區(qū)域分割，來獲得不同粒度的特征，將全局和局部特征以及更細粒度的局部特征，通過一個網(wǎng)絡的不同分支得到這些特征，每個分支都對不同的分割塊進行特征提取。使得不同級別的網(wǎng)絡分支能夠關注不同粒度的分辨信息，也能夠有效兼顧整體信息。損失函數(shù)部分只使用了在深度學習中非常常見的SoftmaxLoss與TripletLoss。1新圖式的語義特征編碼深度神經(jīng)網(wǎng)絡能夠在整個行人圖像中提取主體上的近似響應，通過此機制獲取行人局部區(qū)域特征作為更細粒度的特征，特定語義的分區(qū)不需要在局部區(qū)域標記出來，將原始圖像進行等分就可以。通過實驗表明，判別響應的粒度隨著水平條帶數(shù)目的增加確實變得更細。在此原理基礎上，提出了采用一種不同粒度的網(wǎng)絡，該網(wǎng)絡結構是多分支網(wǎng)絡，其中一個為全局分支另外兩個為局部分支。在該網(wǎng)絡的兩個局部分支部分，參考中基礎網(wǎng)絡部分為ResNet-50。然后對ResNet-50進行了調整，使用ResNet-50前三層提取圖像的基礎特征，將后續(xù)部分劃分為3個獨立的分支，即在高層次的語義級特征采用3個獨立分支，分別為全局分支、part-2、part-3。第一個全局分支負責整張圖片的全局信息提取，Part-2會將圖片分為上下兩個部分提取中粒度的語意信息，Part-3會將圖片分為上中下三個部分提取更細粒度的信息。這三個分支既有合作又有分工，前面三個低層權重是共享的，后面的高級層每層的權重是獨立的，這樣就能夠像人類認知事物的原理一樣即可以看到行人的整體信息與又可以兼顧到多粒度的局部信息。下面兩個分支是Part-2跟Part-3，在第四層的位置，初始有一個stride等于2的下采樣的操作與全局分支相同，將其stride改成1，相當于沒有下采樣，這個地方的尺寸就不會縮小，所以Part-2跟Part-3在第五層特征圖比全局分支大一倍的尺寸。接下來對part-2跟part-3做一個從上到下的縱向分割，part-2在第五層特征圖譜分成兩塊，part-3對特征圖譜從上到下分成三塊。在分割完成后，對其進行pooling，相當于求一個最值，采用的是Max-pooling，得到一個2048維的向量。但是part-2跟part-3的操作跟全局分支是不一樣的，part-2有兩個pooling，目的是強制part-2去學習細節(jié)的聯(lián)合信息。后面從2048維做成256維，這個主要方便特征計算，因為可以降維，更快更有效。在測試的時候，把這8個256維的特征串聯(lián)一個2048維的特征，用這個特征替代前面輸入的圖片，使用歐氏距離作為兩個行人相似度的度量。2類標簽的距離度量采用SoftmaxLoss與TripletLoss。其中SoftmaxLoss可表示為：n為批量，xi為第i個樣本的特征，yi為xi對應的類標簽，Wj和bj為類j的權重及偏置，C為類的數(shù)目。TripletLoss函數(shù)公式可表示為：該方法采用歐式距離進行度量，+表示當[]內(nèi)的值大于零的時候，把[]得到的值作為損失，當[]內(nèi)的值小于零的時候，損失值為零。當x＿a與x＿n之間的距離<x＿a與x＿p之間的距離加這里寫圖片描述時，[]內(nèi)的值大于零，就會產(chǎn)生損失。當x＿a與x＿n之間的距離>=x＿a與x＿p之間的距離加這里寫圖片描述時，損失為零。3結果與分析3.1gpu/3gjm錨點本次實驗采用Anaconda的py-torchframework，SGDmomentum為0.9，Learningrate：0.01(init)，1e-3(40epoch)，1e-4(50epoch)，使用GPU型號為GTX1080Ti、操作系統(tǒng)為Windows10。3.2行人矩形框的檢測Market-1501數(shù)據(jù)集是在清華校園采集得到的。有6個攝像頭進行不同角度及場景拍，5個攝像頭為高清拍攝，另外1個是較低像素攝像頭。共采集到行人1501人、能夠檢測到的行人矩形框多達32668個。由至少2個及以上數(shù)量的攝像頭對每個行人進行圖像采集，每個攝像頭可能拍到行人的多張不同圖像。將采集到的數(shù)據(jù)進行劃分，其中訓練集含有751人，一共12936張圖像，平均每個人有17.2張圖像作為訓練時的數(shù)據(jù)；測試集為剩下的750人，一共19732張圖像，平均每個人有26.3張測試數(shù)據(jù)。另外3368張作為query的行人檢測矩形框是已經(jīng)規(guī)定好的，在gallery中，通過DPM檢測器對圖像數(shù)據(jù)進行檢測得到行人檢測矩形框。3.3不同網(wǎng)絡模型下的仿真結果將多分支卷積神經(jīng)網(wǎng)絡與其他的方法相對比，singlerank-1情況下，采用TriNet方法的準確率為84.9%，采用AACN方法的準確率為85.9%，采用DPFL方法的準確率為88.6%，而本文采用多分支的網(wǎng)絡結構可以將準確率提高到90.1

人人文庫> 全部分類> 專業(yè)文獻 > 學術論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于深度學習的行人重識別算法研究

文檔簡介

溫馨提示

最新文檔

評論

基于深度學習的行人重識別算法研究

文檔簡介

溫馨提示

最新文檔

評論

相關文檔