2024AI視頻智能分析技術(shù)與應(yīng)?_第1頁(yè)
2024AI視頻智能分析技術(shù)與應(yīng)?_第2頁(yè)
2024AI視頻智能分析技術(shù)與應(yīng)?_第3頁(yè)
2024AI視頻智能分析技術(shù)與應(yīng)?_第4頁(yè)
2024AI視頻智能分析技術(shù)與應(yīng)?_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI視頻智能分析技術(shù)與應(yīng)用AI視頻智能分析技術(shù)與應(yīng)?(?)?、什么是AI視頻智能分析?視頻智能分析已滲透到生活生產(chǎn)中的方方面面。從生活中的刷臉支付、停車場(chǎng)的車牌識(shí)別、工廠園區(qū)的煙火識(shí)別、工地的工裝安全帽識(shí)別到車間零部件智能檢測(cè),視頻智能分析無(wú)處不在。簡(jiǎn)單來(lái)說(shuō),AI視頻智能分析是通過(guò)人工智能技術(shù)處理和分析視頻數(shù)據(jù)的方法。圖1.AI視頻智能分析示意圖如圖1所示,監(jiān)控視頻與媒體視頻經(jīng)AI視頻分析引擎分析處理,輸出對(duì)象、屬性、行為以及事件。對(duì)象分析:視頻分析的重要任務(wù)是結(jié)構(gòu)化目標(biāo)的識(shí)別,包括人、車、物的位置與類別信息,結(jié)合業(yè)務(wù)系統(tǒng)產(chǎn)生價(jià)值應(yīng)用。如人員電子圍欄、車流量統(tǒng)計(jì)等應(yīng)用。屬性分析:屬性是被測(cè)目標(biāo)顏色、大小、長(zhǎng)寬、位置等描述性信息??煽糠€(wěn)定的屬性信息可產(chǎn)生極具價(jià)值的業(yè)務(wù)應(yīng)用。如鋼廠板材的長(zhǎng)款測(cè)量、板材的位置追蹤等應(yīng)用。行為分析:行為是被測(cè)目標(biāo)在特定時(shí)間段內(nèi)產(chǎn)生的動(dòng)作以及表現(xiàn)出的行為等描述性信息。與屬性分析相比時(shí)序特性更明顯,因此,在技術(shù)實(shí)現(xiàn)上也更加復(fù)雜??蓱?yīng)用至異常行為動(dòng)作或動(dòng)作流程檢測(cè)中。如打架檢測(cè)、摔倒檢測(cè)、操作規(guī)范檢測(cè)中。事件分析:事件是對(duì)象、屬性、行為等要素的綜合。事件分析為強(qiáng)業(yè)務(wù)導(dǎo)向分析,通過(guò)AI視頻分析引擎建立端到端的事件智能分析。如跨模態(tài)視頻檢索,通過(guò)輸入對(duì)象、屬性、行為等文字性描述,檢索目標(biāo)視頻。?、AI視頻智能分析有那些技術(shù)?圖2.視頻內(nèi)容分析技術(shù)1、?標(biāo)檢測(cè)技術(shù)目標(biāo)檢測(cè)任務(wù)是識(shí)別目標(biāo)類別并定位目標(biāo)在圖像中位置。因此,其解決的問(wèn)題為是什么?在哪?基于深度學(xué)習(xí)的目標(biāo)檢測(cè)發(fā)展近十年,成果頗豐,其中代表性方法包括基于anchor的onestage與twostage方法。下面介紹twostage經(jīng)典模型Faster-RCNN以及onestage經(jīng)典模型Yolov5。圖3目標(biāo)檢測(cè)示意圖一階段與兩階段的區(qū)別在于是否需要生成Proposalbox。兩階段模型首先通過(guò)RPN網(wǎng)絡(luò)生成無(wú)類別的Proposalbox,再經(jīng)模型分類Proposalbox類別并精確回歸Proposalbox坐標(biāo);一階段模型通過(guò)anchor機(jī)制直接預(yù)測(cè)目標(biāo)類別與目標(biāo)坐標(biāo)。兩者區(qū)別如圖4所示。圖4.兩階段與一階段方法架構(gòu)Faster-RCNNFaster-RCNN網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,分為stage1與stage2。stage1主要任務(wù)是依靠rpn網(wǎng)絡(luò)生成proposalboxes;stage2主要是任務(wù)是對(duì)proposalbox進(jìn)行分類與精確定位。下面介紹其細(xì)節(jié)。圖5.FasterRCNN網(wǎng)絡(luò)示意圖第一階段:原始圖像經(jīng)backbone提取特征并輸出featuremap。backbone為vgg16,經(jīng)16倍下采樣并后接512個(gè)3*3*512的filters輸出featuremap。featuremap的每個(gè)點(diǎn)作為anchorpoint并以此產(chǎn)生3種比例與3種大小的anchorbox,因此,每個(gè)featuremap上的每個(gè)點(diǎn)處負(fù)責(zé)預(yù)測(cè)9種anchor的類別與偏移量。為此,在featuremap后接18個(gè)1*1*512的filters,提取18種特征,預(yù)測(cè)9個(gè)anchor為前景或背景的概率;在featuremap后接36個(gè)1*1*512的filters,提取36種特征,預(yù)測(cè)9個(gè)anchor的4個(gè)坐標(biāo)。我們?cè)趂eaturemap的每個(gè)點(diǎn)上分配了9個(gè)anchorboxes。為訓(xùn)練RPN網(wǎng)絡(luò)中的分類(二分類)與回歸,需要對(duì)每個(gè)anchor進(jìn)行標(biāo)注,即標(biāo)注每個(gè)anchorbox為1(前景)或0(背景)以及每個(gè)anchorbox的groundtruth的坐標(biāo)。對(duì)于一個(gè)60*40的featuremap來(lái)說(shuō)產(chǎn)生的anchorbox為60*40*9=21.6k個(gè),去除邊界處越界的框,并經(jīng)過(guò)nms處理剩余6k左右。最后通過(guò)每個(gè)anchorbox的score得分排序篩選出128個(gè)前景與128個(gè)背景anchorbox,利用這256個(gè)anchorbox進(jìn)行RPN訓(xùn)練。正樣本的選取條件為:a)與groundtruth具有最大IOU的anchorbox;b)與任意的groudtruth的IOU大于0.7的anchorbox。滿足a)或b)任意一個(gè)條件則可被選為正樣本。負(fù)樣本的選取條件為:與所有的groundtruth的IOU均小于0.3。IOU在0.3-0.7之間的anchorbox忽略不參與訓(xùn)練。經(jīng)過(guò)RPN網(wǎng)絡(luò)訓(xùn)練,原始圖像經(jīng)RPN網(wǎng)絡(luò)會(huì)輸出256個(gè)proposal。圖6.RPN網(wǎng)絡(luò)結(jié)構(gòu)圖圖7.FasterRCNN網(wǎng)絡(luò)結(jié)構(gòu)圖第二階段:原始圖像經(jīng)RPN網(wǎng)絡(luò)產(chǎn)生一系列proposalboxes。這些proposalboxes會(huì)在backbone所產(chǎn)生的featuremap上提取相應(yīng)特征,由于每個(gè)proposalbox的大小不同,后續(xù)網(wǎng)絡(luò)連接了全連接層因此要求每個(gè)proposalbox的輸出大小恒定,為此對(duì)于每個(gè)proposalbox后接ROIPooling模塊將每個(gè)proposalbox的輸出轉(zhuǎn)換為7*7*512后接全連接層用于proposalbox的分類與坐標(biāo)回歸。其訓(xùn)練過(guò)程分為四步:第一步:?jiǎn)为?dú)訓(xùn)練RPN網(wǎng)絡(luò),使用ImageNet分類任務(wù)的權(quán)重對(duì)BackboneCNN網(wǎng)絡(luò)進(jìn)行初始化。并且端到端微調(diào)用于生成regionproposal(整個(gè)RPN網(wǎng)絡(luò)權(quán)重均更新)。第二步:?jiǎn)为?dú)訓(xùn)練FastRCNN網(wǎng)絡(luò),使用ImageNet分類任務(wù)的權(quán)重對(duì)BackboneCNN網(wǎng)絡(luò)進(jìn)行初始化,使用RPN生成的proposal作為輸入訓(xùn)練FastRCNN網(wǎng)絡(luò)(整個(gè)FastRCNN網(wǎng)絡(luò)權(quán)重均更新)。第三步:微調(diào)RPN網(wǎng)絡(luò),利用FastRCNN網(wǎng)絡(luò)對(duì)RPN網(wǎng)絡(luò)與FastRCNN網(wǎng)絡(luò)的共享卷積層進(jìn)行初始化,同時(shí)固定共享卷積層,只微調(diào)RPN網(wǎng)絡(luò)獨(dú)有的部分,完成訓(xùn)練得到最終的RPN網(wǎng)絡(luò)(只更新RPN網(wǎng)絡(luò)獨(dú)有的部分)。第四步:微調(diào)FastRCNN網(wǎng)絡(luò),利用第三步模型對(duì)FastRCNN的共享卷積層進(jìn)行初始化,同時(shí)固定共享卷積層,只微調(diào)FastRCNN網(wǎng)絡(luò)獨(dú)有的部分,完成FastRCNN網(wǎng)絡(luò)訓(xùn)練(至更新FastRCNN網(wǎng)絡(luò)獨(dú)有部分)。經(jīng)過(guò)以上四步,RPN與FastRCNN共享卷積層保持一致,并獨(dú)自享有各自的網(wǎng)絡(luò)部分,完成regionproposal生成與FastRCNN目標(biāo)檢測(cè)。總的來(lái)說(shuō)FasterRCNN的核心為RPN網(wǎng)絡(luò),解決了傳統(tǒng)selectivesearch在候選框生成上的速度問(wèn)題。并成為兩階段目標(biāo)檢測(cè)模型的典范。圖8.yolov5結(jié)構(gòu)示意圖圖9.yolov5訓(xùn)練與推理yolov5的網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖8所示,分為輸入層、特征提取層、特征融合層、檢測(cè)層以及輸出層。特征提取層:采用CSP-Darknet53作為Backbone。提取1/8,1/16以及1/32圖像特征。其核心主要由CBS算子、C3算子以及SPPF算子構(gòu)成。特征融合層:采用FPN以及作為特征融合層。YOLO系列將Faster-RCNN網(wǎng)絡(luò)結(jié)構(gòu)中的RPN是預(yù)測(cè)是否為前景。Faster-RCNN是在下采樣16倍之后的特征圖上做RegionProposal的預(yù)測(cè)。假如統(tǒng)一采用下采樣16倍的特征圖直接預(yù)測(cè)目標(biāo)會(huì)導(dǎo)致小目標(biāo)類別難以預(yù)測(cè),原因是16倍下采樣率網(wǎng)絡(luò)層數(shù)較淺,用于分類的語(yǔ)義特征不夠豐富。而如果為提高小目標(biāo)語(yǔ)義特征繼續(xù)下采樣特征圖,會(huì)導(dǎo)致小目標(biāo)類別與位置預(yù)測(cè)精度下降,原因是小目標(biāo)在原圖中占的像素少,下采樣倍數(shù)過(guò)大導(dǎo)致在最終的特征圖中占的像素非常少,甚至小于1*1(比如20*20下采樣32倍為0.625*0.625),因此特征圖中用于預(yù)測(cè)的像素點(diǎn)可能包含其他物體或背景的特征導(dǎo)致類別與坐標(biāo)預(yù)測(cè)精度下降。同時(shí)對(duì)于大目標(biāo)的預(yù)測(cè),深層特征能夠提取豐富的語(yǔ)義特征用于其類別判定,但隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)提取的特征感受野大、整體性強(qiáng),但是局部細(xì)節(jié)信息不準(zhǔn)確,而這些局部的細(xì)節(jié)特定包含著物體的位置信息,因此,網(wǎng)絡(luò)層數(shù)的加深對(duì)于大目標(biāo)的檢測(cè)位置信息不夠準(zhǔn)確。為此,YOLO系列引入了多尺度檢測(cè)層FPN,下采樣率大的檢測(cè)層感受野大,用于檢測(cè)大目標(biāo);下采樣率小的檢測(cè)層感受野小,用于檢測(cè)小目標(biāo)。下采樣率小的淺層特征細(xì)節(jié)與位置信息豐富;下采樣率大的深層特征整體與語(yǔ)義信息豐富。在檢測(cè)小目標(biāo)時(shí),將深層特征進(jìn)行上采樣并與淺層特征在通道方向上進(jìn)行疊加;在檢測(cè)大目標(biāo)時(shí),將融合后的淺層特征直接下采樣并與深層特征在通道方向上進(jìn)行疊加。特征融合層充分利用深層網(wǎng)絡(luò)語(yǔ)義特征用于識(shí)別;充分利用淺層網(wǎng)絡(luò)位置特征用于定位。檢測(cè)層:YOLO在檢測(cè)層上采用了三種尺度,用于檢測(cè)大、中、小三種不同尺寸的目標(biāo)。在三個(gè)檢測(cè)層中,每個(gè)檢測(cè)層特征圖上的每個(gè)點(diǎn)分配三個(gè)不同形狀尺寸的anchor,并由檢測(cè)層在每個(gè)點(diǎn)處預(yù)測(cè)物體類別、物體相對(duì)于每個(gè)anchor的偏移量,物體相對(duì)于anchor的寬與高。對(duì)于每個(gè)點(diǎn)預(yù)測(cè)3*(80+4+1)=255種元素。因此,對(duì)于20*20,40*40以及80*80的三種檢測(cè)頭,預(yù)測(cè)輸出為8400*3*(80+4+1)=25200*85。其中,80表示80類目標(biāo),4為目標(biāo)相對(duì)于anchor中心點(diǎn)的偏移量x,y、目標(biāo)寬與anchor寬的比例因子w,目標(biāo)高相對(duì)于anchor高的比例因子h,1表示目標(biāo)置信度。圖10.yolov5s-6.0網(wǎng)絡(luò)結(jié)構(gòu)圖yolov5的訓(xùn)練與推理過(guò)程如下:訓(xùn)練:訓(xùn)練:定義網(wǎng)絡(luò)結(jié)構(gòu)yolov5s,m,l,x并獲取每張圖片的groundtruth;根據(jù)anchor與groundtruth確定正負(fù)樣本并擴(kuò)充正樣本;根據(jù)正負(fù)樣本、網(wǎng)絡(luò)預(yù)測(cè)值pred以及groundtruth計(jì)算loss;反向傳播更新網(wǎng)絡(luò)參數(shù),設(shè)定訓(xùn)練輪數(shù)與超參數(shù),完成網(wǎng)絡(luò)訓(xùn)練,保存網(wǎng)絡(luò)參數(shù)。推理:推理:加載網(wǎng)絡(luò)模型與權(quán)重,輸入預(yù)測(cè)圖片;網(wǎng)絡(luò)前向傳播,獲取預(yù)測(cè)結(jié)果25200*85;根據(jù)置信度閾值0.45過(guò)濾部分結(jié)果,根據(jù)nms對(duì)預(yù)測(cè)結(jié)果再次過(guò)濾;輸出目標(biāo)檢測(cè)結(jié)果x,y,w,h,c,p。有關(guān)正負(fù)樣本的確定方法如下:有關(guān)正負(fù)樣本的確定方法如下:yolov5的正負(fù)樣本確定方法不同于Faster-RCNN中的RPN網(wǎng)絡(luò)以及yolov3中的基于IOU劃分方法。其依據(jù)的規(guī)則為groundtruth與anchor的寬高比,同時(shí)一個(gè)groundtruth可由多個(gè)anchor預(yù)測(cè),一方面增加了目標(biāo)召回的幾率,另一方面增加了正樣本數(shù)量緩解了正負(fù)樣本不均衡問(wèn)題。圖11.yolov5跨分支預(yù)測(cè)圖12.yolov5跨grid以及跨anchor預(yù)測(cè)跨分支預(yù)測(cè):跨分支預(yù)測(cè):不同于yolov3,一個(gè)groundtruth只能由一個(gè)anchor預(yù)測(cè),即也只能通過(guò)一個(gè)分支預(yù)測(cè)。yolov5可以通過(guò)三個(gè)分支同時(shí)對(duì)目標(biāo)預(yù)測(cè),優(yōu)勢(shì)如上述。如圖11所示,一個(gè)groundtruth最多可由三個(gè)分支的anchor同時(shí)預(yù)測(cè),只要其滿足正樣本的條件。跨grid預(yù)測(cè):yolov5為擴(kuò)增正樣本,以負(fù)責(zé)預(yù)測(cè)目標(biāo)的grid為中心,從其上、下、左、右四個(gè)方向選擇兩個(gè)距離groundtruth中最近的兩個(gè)grid也負(fù)責(zé)預(yù)測(cè)該目標(biāo)。這樣預(yù)測(cè)groundtruth的grid由1個(gè)變?yōu)?個(gè)??鏰nchor預(yù)測(cè):yolov5采用基于寬高比的匹配策略。記groundtruth寬高與anchor的寬高比為r1,anchor的寬高與groundtruth寬高記為r2。在r1與r2中選擇大值記為r。若r<4,則該anchor為正樣本。因此,對(duì)于1個(gè)groundtruth,與之匹配的anchor最多為3*3*3=27個(gè)。例如:圖12中與紅色的groundtruth匹配的anchor有branch1_grid1_anchor1,branch2_grid1_anchor等。2、?標(biāo)跟蹤技術(shù)目標(biāo)跟蹤的任務(wù)是關(guān)聯(lián)時(shí)序目標(biāo)身份,簡(jiǎn)單的說(shuō)是當(dāng)前目標(biāo)是上一時(shí)刻的哪個(gè)目標(biāo)?因此,其解決的主要問(wèn)題為目標(biāo)數(shù)據(jù)關(guān)聯(lián)與匹配。目標(biāo)跟蹤技術(shù)應(yīng)用領(lǐng)域廣泛,小到目標(biāo)計(jì)數(shù)統(tǒng)計(jì)、大到軍事精確制導(dǎo)。如圖13所示,時(shí)刻1檢測(cè)出兩個(gè)目標(biāo),并記為目標(biāo)a,目標(biāo)b;時(shí)刻2檢測(cè)出兩個(gè)目標(biāo),并記為目標(biāo)a',目標(biāo)b'。跟蹤即判斷a'是上一時(shí)刻的a還是b,同理判斷b'是上一時(shí)刻的a還是b。這樣對(duì)于每個(gè)目標(biāo)分配一個(gè)唯一id,相同的目標(biāo)共享同一id,隨著時(shí)間推移,相同的目標(biāo)在時(shí)間上與空間上被關(guān)聯(lián)到了一起,每個(gè)目標(biāo)形成一條軌跡。據(jù)此可進(jìn)行業(yè)務(wù)功能的應(yīng)用與分析。圖13.目標(biāo)追蹤示意圖對(duì)于目標(biāo)追蹤其核心問(wèn)題為數(shù)據(jù)的關(guān)聯(lián)匹配。因此,需要設(shè)計(jì)一個(gè)判斷準(zhǔn)則來(lái)評(píng)價(jià)兩個(gè)目標(biāo)是否相似??偟膩?lái)說(shuō)這些方法主要包括:距離相似性度量a.距離相似性度量圖14.距離相似性度量示意圖距離相似性度量主要以位置、大小、形狀、速度等指標(biāo),采用歐式距離或馬氏距離評(píng)價(jià)兩目標(biāo)的相似性。對(duì)于量綱一致且變量之間獨(dú)立無(wú)相關(guān)性的可采用歐式距離。反之,采用馬氏距離。外觀相似性度量b.外觀相似性度量圖15.特征相似性度量示意圖外觀相似性度量采用目標(biāo)外觀特征評(píng)價(jià)相似性,這些特征主要通過(guò)神經(jīng)網(wǎng)絡(luò)提取,例如,deepsort提取每個(gè)目標(biāo)的128維特征并采用余弦距離度量其相似性。位置相似性度量c.位置相似性度量圖16.位置相似性度量示意圖位置相似性度量的另一常用指標(biāo)為IOU(交并比),兩個(gè)目標(biāo)重疊的區(qū)域與兩個(gè)目標(biāo)集合的區(qū)域的比值,可評(píng)價(jià)兩個(gè)目標(biāo)的重疊區(qū)域,且為無(wú)量綱的指標(biāo)范圍0-1,完全重疊為1,無(wú)重疊為0。為熟悉目標(biāo)追跟實(shí)現(xiàn)原理,下面介紹目標(biāo)跟蹤的經(jīng)典算法deepsort。在介紹之前需了解其前身sort算法。sortsort全稱simpleonlineandrealtimetracking,是多目標(biāo)跟蹤算法(mot)。核心思想:基于目標(biāo)檢測(cè)結(jié)果,采用卡爾曼濾波算法與匈牙利算法關(guān)聯(lián)前后目標(biāo),實(shí)現(xiàn)跟蹤。具體算法流程如下:圖17.sort算法流程圖概要流程:檢測(cè)當(dāng)前幀目標(biāo)->當(dāng)前幀目標(biāo)與上一幀軌跡匹配->預(yù)測(cè)下一幀軌跡。詳細(xì)算法整體流程如下:第一步:利用第一幀檢測(cè)到的Detections創(chuàng)建對(duì)應(yīng)的Tracks,初始化卡爾曼濾波,并基于該幀的Tracks預(yù)測(cè)下一幀Tracks。第二步:檢測(cè)當(dāng)前幀的Detections并與上一幀預(yù)測(cè)的Tracks進(jìn)行IOUMatch。得到匹配代價(jià)矩陣CostMatrix。第三步:匈牙利算法根據(jù)costmatrix對(duì)當(dāng)前幀所有目標(biāo)的檢測(cè)框與上一幀預(yù)測(cè)得到的軌跡框的匹配。匹配結(jié)果有三種。第一種,檢測(cè)框與軌跡框匹配得到MatchedTracks;第二種檢測(cè)框未匹配到軌跡框得到Unmatcheddetections;第三種,軌跡框未匹配到檢測(cè)框得到UnmatchedTracks。第四步:對(duì)MatchedTracks更新卡爾曼濾波并預(yù)測(cè)下一幀Tracks;對(duì)UnmatchedDetections分配新的Tracks并初始化卡爾曼濾波,預(yù)測(cè)下一幀Tracks;對(duì)UnmatchedTracks直接刪除。第五步:重復(fù)第二步至第四步,至視頻結(jié)束。sort算法有什么問(wèn)題?sort算法只利用了位置、大小、速度等信息的相似性度量,速度快是其優(yōu)勢(shì)。但是,其存在同一目標(biāo)id,切換頻繁的問(wèn)題,即同一目標(biāo)在跟蹤過(guò)程中會(huì)跟丟。這主要由以下原因造成:第一,目標(biāo)長(zhǎng)時(shí)間遮擋,重新出現(xiàn),造成跟蹤丟失。原因,一方面目標(biāo)經(jīng)遮擋后重新出現(xiàn)的運(yùn)動(dòng)信息與遮擋前預(yù)測(cè)的運(yùn)動(dòng)信息存在差異,無(wú)法匹配;另一方面,UnmathedTracks無(wú)保留機(jī)制已經(jīng)被刪除,重新出現(xiàn)只能重新分配NewTracks.第二,目標(biāo)漏檢,重新檢出,ID重新分配。由于檢測(cè)器的性能,當(dāng)前幀目標(biāo)未檢出,上一幀Tracks被判為UnmatchedTracks被刪除,重新檢測(cè)的目標(biāo)只能重新分配新的ID,造成目標(biāo)跟丟。deepsort為解決長(zhǎng)時(shí)間遮擋跟丟的問(wèn)題,提出了deepsort算法。deepsort全稱simpleonlinerealtimetrackingwithadeepassociationmetric。相比于sort主要引入了外觀相似性度量解決長(zhǎng)時(shí)間遮擋跟丟問(wèn)題。在sort基礎(chǔ)上增加的部分:MatchingCascade,TracksConfirmed機(jī)制。整體流程圖如下:圖18.deepsort算法流程圖概要流程:檢測(cè)當(dāng)前幀目標(biāo)->當(dāng)前幀目標(biāo)與上一幀軌跡匹配(MatchingCascade&IOUMatch)->預(yù)測(cè)下一幀軌跡。詳細(xì)算法整體流程如下:第一步:利用第一幀檢測(cè)到的Detections創(chuàng)建對(duì)應(yīng)的Tracks,并初始化卡爾曼濾波,預(yù)測(cè)下一幀的Tracks。第一幀預(yù)測(cè)的Tracks狀態(tài)為Unconfirmed狀態(tài),Tracks連續(xù)3幀匹配到Detections才轉(zhuǎn)化為Confirmed狀態(tài)。第二步:檢測(cè)當(dāng)前幀的Detections,并與上一幀的Tracks進(jìn)行IOUMatching,計(jì)算兩者代價(jià)矩陣CostMatrix。第三步:對(duì)于UnconfirmedTracks,根據(jù)CostMatrix以及匈牙利算法,對(duì)Detections與Tracks進(jìn)行匹配。匹配結(jié)果有三種,第一種,Detections與Tracks完成匹配得到MatchedTracks;第二種,Detections未匹配到Tracks,這時(shí)為Detections分配一個(gè)新的Tracks;第三種Tracks未匹配到Detections,此時(shí)由于Tracks一次都沒(méi)有匹配到Detections,因此,為Unconfirmed狀態(tài),直接刪除該Tracks。對(duì)于MatchedTracks更新卡爾曼濾波,并預(yù)測(cè)下一幀Tracks;對(duì)于NewTracks初始化卡爾曼濾波并預(yù)測(cè)下一幀Tracks。第四步:反復(fù)進(jìn)行第二步與第三步,至出現(xiàn)ConfirmedTracks或視頻結(jié)束。第五步:通過(guò)卡爾曼濾波預(yù)測(cè)下一幀的ConfirmedTracks與UnconfirmedTracks。對(duì)于ConfirmedTracks,執(zhí)行MatchingCascade級(jí)聯(lián)匹配Detections與上一幀Tracks。級(jí)聯(lián)匹配策略:外觀信息歐式距離與運(yùn)動(dòng)信息馬氏距離的加權(quán)來(lái)評(píng)價(jià)兩目標(biāo)的相似性。對(duì)于外觀信息,每次Tracks與Detections匹配上,都會(huì)保存匹配的Detections的外觀特征,每個(gè)Tracks最多包含100個(gè)最新的歷史外觀特征,當(dāng)前幀Detections個(gè)Tracks的100個(gè)歷史外觀特征進(jìn)行歐式距離計(jì)算,并取最小的距離作為當(dāng)前Detection與該Track的外觀相似度。對(duì)于運(yùn)動(dòng)信息,當(dāng)前幀Detections與上一幀Tracks計(jì)算馬氏距離。對(duì)Detections與Tracks所計(jì)算的外觀相似度與運(yùn)動(dòng)信息馬氏距離的加權(quán)和作為CostMatrix。在實(shí)際的操作中,代價(jià)矩陣的計(jì)算只利用了外觀相似度。根據(jù)匈牙利算法對(duì)Detections與Tracks進(jìn)行匹配。對(duì)匹配結(jié)果,通過(guò)Detections與Tracks的外觀相似度與馬氏距離的乘積門限閾值進(jìn)行過(guò)濾。注意:ConfirmedTracks按照失聯(lián)匹配的次數(shù)從少到多與Detections進(jìn)行匹配,這樣做是因?yàn)?,失?lián)少的Tracks為最新的Tracks與Detections匹配成功的可能性更大。第六步:執(zhí)行完成MatchingCascade輸出三種狀態(tài),第一種,Detections與Tracks完成匹配得到MatchedTracks;第二種,Detections未匹配到Tracks得到UnmatchedDetections;第三種,Tracks未匹配到Detections得到UnmatchedTracks。對(duì)于UnmatchedDetections與UnmatchedTracks以及UnconfirmedTracks輸入IOUMatch再次進(jìn)行匹配,輸出三種匹配結(jié)果。第一種,MatchedTracks,進(jìn)入下一個(gè)循環(huán);第二種,UnmatchedDetections,重新分配NewTracks;第三種,UnmatchedTracks,對(duì)于UnconfirmedTracks直接刪除,對(duì)于ConfirmedTracks判斷其失聯(lián)匹配的次數(shù)max_age,如果失聯(lián)匹配次數(shù)大于30次(可定義其他值),認(rèn)為目標(biāo)已經(jīng)從視野消失,將目標(biāo)軌跡進(jìn)行刪除;如果失聯(lián)匹配次數(shù)小于等于30次(可定義其他值),對(duì)失聯(lián)匹配次數(shù)+1,進(jìn)入下一輪匹配。第七步:反復(fù)進(jìn)行第五步至第六步至視頻結(jié)束。什么是MatchingCascade?所謂MatchingCascade即級(jí)聯(lián)匹配。通過(guò)外觀相似性度量與運(yùn)動(dòng)信息的馬氏距離度量,評(píng)價(jià)檢測(cè)目標(biāo)框與軌跡框的相似性。比如跟蹤的行人被障礙物長(zhǎng)時(shí)間遮擋,當(dāng)行人走出遮擋物重新出現(xiàn)時(shí),所處的位置與進(jìn)入遮擋物前的位置可能差異較大,即IOU很低或者為0,IOUMatch是匹配不上的。但是,進(jìn)入遮擋物前后的行人一般在外表特征上不會(huì)發(fā)生明顯變化,即兩者的外表特征相似度高,利用MatchingCascade可以對(duì)該種情況的行人進(jìn)行召回。AI視頻智能分析技術(shù)與應(yīng)?(?)?、AI視頻智能分析有那些技術(shù)?3、動(dòng)作?為識(shí)別技術(shù)動(dòng)作行為識(shí)別是預(yù)測(cè)目標(biāo)在當(dāng)前時(shí)刻或一段時(shí)間內(nèi)的狀態(tài)。該技術(shù)廣泛應(yīng)用至動(dòng)作識(shí)別、流程規(guī)范化識(shí)別以及視頻分類等場(chǎng)景。如校園打架暴力檢測(cè)、工廠工人操作流程規(guī)范性檢測(cè)、摔倒行為檢測(cè)等。此外還可用于視頻分類。例如,抖音視頻、快手視頻、百度視頻每天上傳數(shù)以萬(wàn)計(jì)的長(zhǎng)短視頻,這些視頻需要進(jìn)行分類并賦予泛標(biāo)簽,從而進(jìn)行視頻推薦、廣告推薦。因此,高效準(zhǔn)確的視頻理解至關(guān)重要。圖19.動(dòng)作行為識(shí)別示意圖視頻識(shí)別與圖像識(shí)別兩者的重要區(qū)別是是否對(duì)時(shí)間序列建模。因?yàn)?,視頻是多幀圖像的組合,同時(shí)具有時(shí)間序列特性。比如,開(kāi)門與關(guān)門兩個(gè)動(dòng)作,從一個(gè)時(shí)間方向預(yù)測(cè)是關(guān)門,相反方向是開(kāi)門。如果不考慮時(shí)序特性,僅進(jìn)行圖像融合,神經(jīng)網(wǎng)絡(luò)對(duì)兩個(gè)視頻動(dòng)作的預(yù)測(cè)可能是同一個(gè)結(jié)果。如圖19所示,每個(gè)視頻片段經(jīng)解碼處理成為單幀圖像,對(duì)單幀圖像進(jìn)行特征提取獲得空間特征,同時(shí)采樣時(shí)間方向建模,獲取幀時(shí)序特征,最后經(jīng)過(guò)特征融合與分類輸出視頻類別。這是常規(guī)的視頻分類方法。對(duì)于時(shí)序特征的提取,常用的方法包括3D-CNN,RNN,LSTM等。而這些模型參數(shù)量大、計(jì)算開(kāi)銷大。對(duì)于視頻分類高效、準(zhǔn)確尤為重要,特別是對(duì)于算力有限的邊緣嵌入式設(shè)備的在線視頻分析。下面介紹動(dòng)作行為預(yù)測(cè)中的典型網(wǎng)絡(luò)模型TSM(TemporalShiftModule)。圖20.TSM模塊核心思想:在時(shí)間方向上對(duì)特征通道數(shù)據(jù)移動(dòng),實(shí)現(xiàn)時(shí)序信息交換,同時(shí)不增加計(jì)算成本。解釋一下,神經(jīng)網(wǎng)絡(luò)對(duì)輸入張量進(jìn)行特征提取獲取特征圖,假設(shè)當(dāng)前幀獲取的特征圖的個(gè)數(shù)為C,為了使下一幀能夠獲取當(dāng)前幀的特征信息,從當(dāng)前幀C個(gè)特征圖中選取一部分(假設(shè)C/8)傳至下一幀,當(dāng)前幀的部分特征圖(C/8)與下一幀的特征圖(7*C/8)共同構(gòu)成了下一幀的特征圖。這樣就實(shí)現(xiàn)了時(shí)序間的信息傳遞。如圖20所示,(b)在時(shí)間方向上進(jìn)行特征移動(dòng),即當(dāng)前時(shí)刻的一部分特征移向了前一時(shí)刻;一部分特征移向了下一時(shí)刻。該移動(dòng)方式適用于離線的視頻分析。(c)在時(shí)間方向上進(jìn)行單向移動(dòng),即當(dāng)前時(shí)刻的部分特征移向下一時(shí)刻,該移動(dòng)方式適用于在線視頻分析。問(wèn)題1:為什么TSM不增加計(jì)算成本?卷積操作可以分為移動(dòng)與乘積兩部分操作。移動(dòng)是常規(guī)的指針偏移操作幾乎不消耗計(jì)算量;卷積核與張量的乘積耗費(fèi)計(jì)算量。因此,TSM選擇在通道方向上的移動(dòng)操作,既降低了計(jì)算量,同時(shí)實(shí)現(xiàn)時(shí)序特征交換。問(wèn)題2:TSM移動(dòng)的特征圖比例多少合適?如果移動(dòng)的當(dāng)前幀的特征圖比例過(guò)多,雖然不會(huì)增加計(jì)算量不會(huì)產(chǎn)生計(jì)算耗時(shí),但是會(huì)涉及到數(shù)據(jù)在內(nèi)存中的移動(dòng),這部分移動(dòng)也會(huì)增加耗時(shí)。數(shù)據(jù)移動(dòng)量越大,耗時(shí)越大。同時(shí)特征圖移動(dòng)比例過(guò)大,會(huì)造成當(dāng)前幀特征圖空間建模能力下降。為此,對(duì)于雙向移動(dòng)的TSM模塊,比例選擇1/4,即每個(gè)方向上移動(dòng)1/8特征圖;對(duì)于單向移動(dòng)的TSM模塊,比例選擇1/8。經(jīng)測(cè)試,該比例下的預(yù)測(cè)精度高,同時(shí)由于數(shù)據(jù)移動(dòng)產(chǎn)生的耗時(shí)低。問(wèn)題3:TSM模塊特征提取放在什么位置?TSM模塊提供了兩種插入位置,一種是放到殘差網(wǎng)絡(luò)之前,另一種是放到殘差分支中。對(duì)于第一種,如圖21(a),該方式將時(shí)移特征作為主干特征,殘差分支與直連分支均基于主干特征操作。該方式會(huì)損壞當(dāng)前時(shí)刻特征的空間學(xué)習(xí)能力,特別是時(shí)移比例較大的情況。對(duì)于第二種,如圖21(b),該方式將時(shí)移特征插入至殘差分支,不僅能夠保留原始空間特征,同時(shí)能夠?qū)W習(xí)到時(shí)移特征,解決了方式第一種特征學(xué)習(xí)能力不足導(dǎo)致的網(wǎng)絡(luò)退化問(wèn)題。圖21.TSM模塊類型如圖22所示,當(dāng)前層的FeatureMapX經(jīng)時(shí)移操作得到新的特征圖Shift,后接卷積操作得到的結(jié)果與輸入X進(jìn)行Add操作,從而得到輸出。圖22.ResidualTSM可自定義對(duì)特征提取網(wǎng)絡(luò)的某些層,實(shí)現(xiàn)ResidualTSM,并將時(shí)移特征傳遞至下一時(shí)刻。圖23.TSM在線預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)TSM在線預(yù)測(cè)推理過(guò)程如下:簡(jiǎn)單的說(shuō),對(duì)于每一幀,保存殘差塊的前1/8個(gè)特征圖至緩存中。下一幀將當(dāng)前特征圖的前1/8用緩存中的特征圖代替,1/8的舊特征圖與7/8的當(dāng)前特征圖組合生成下一層,并重復(fù)該過(guò)程。第一步:將當(dāng)前時(shí)刻該層的特征圖的前1/8用緩存中舊的1/8來(lái)代替,并將1/8舊特征圖與7/8當(dāng)前特征圖組合生成至下一層;第二步:當(dāng)前時(shí)刻的下一層,重復(fù)第一步的方法,依次循環(huán)完成當(dāng)前時(shí)刻所有殘差層的特征圖更新,同時(shí)完成緩存更新。第三步:對(duì)于歷史前N個(gè)時(shí)刻的logit輸出進(jìn)行平均,輸出這N個(gè)時(shí)刻的所構(gòu)成的視頻片段的預(yù)測(cè)結(jié)果,完成動(dòng)作預(yù)測(cè)。TSM通過(guò)時(shí)間維度上的特征移動(dòng)實(shí)現(xiàn)了不同時(shí)刻特征信息的交換與融合,同時(shí)基于多個(gè)時(shí)刻預(yù)測(cè)值的均值預(yù)測(cè)類別,兼顧了速度與性能,為視頻分類經(jīng)典模型。4、時(shí)序動(dòng)作定位技術(shù)時(shí)序動(dòng)作定位簡(jiǎn)稱TAL(TemporalActionLocalization)是視頻理解中的重要分支。其解決的主要問(wèn)題為,定位動(dòng)作發(fā)生的開(kāi)始時(shí)刻與結(jié)束時(shí)刻。TAL技術(shù)應(yīng)用廣泛,如流程性動(dòng)作的始末點(diǎn)分析;海量視頻的智能剪輯;廣告的智能檢測(cè)與插播等場(chǎng)景都離不開(kāi)時(shí)序動(dòng)作定位技術(shù)。比如機(jī)場(chǎng)中通過(guò)TAL技術(shù)來(lái)定位飛機(jī)在什么時(shí)間段完成了什么節(jié)點(diǎn)動(dòng)作,電視臺(tái)通過(guò)TAL技術(shù)鑒別廣告播放與結(jié)束時(shí)刻,從而進(jìn)行目標(biāo)廣告植入。圖24.時(shí)序動(dòng)作定位示意圖如圖24所示,時(shí)序動(dòng)作定位核心問(wèn)題為在時(shí)間方向上預(yù)測(cè)動(dòng)作的起點(diǎn)與終點(diǎn),同時(shí)給出起點(diǎn)終點(diǎn)之間的視頻類別。圖25.時(shí)序動(dòng)作定位方法怎樣預(yù)測(cè)起止點(diǎn)與動(dòng)作類別?怎樣預(yù)測(cè)起止點(diǎn)與動(dòng)作類別?滑窗法預(yù)測(cè)起止點(diǎn)與類別,最直接的方法是給定不同大小的滑窗,在時(shí)序視頻上進(jìn)行滑動(dòng),然后判斷滑窗內(nèi)的動(dòng)作類別。圖26.滑窗法時(shí)序動(dòng)作預(yù)測(cè)候選框預(yù)測(cè)法類比于兩階段的目標(biāo)檢測(cè)算法,第一階段通過(guò)RPN網(wǎng)絡(luò)生成候選框,第二階段對(duì)候選框進(jìn)行分類與坐標(biāo)修正?;诤蜻x框法的時(shí)序動(dòng)作定位遵循類似的思路。首先,原始視頻經(jīng)2DCNN或3DCNN提取1D卷積特征;其次,通過(guò)模型生成動(dòng)作候選區(qū)間,最后預(yù)測(cè)每個(gè)候選區(qū)間內(nèi)動(dòng)作類別,并對(duì)候選區(qū)間進(jìn)行修正。圖27.候選框預(yù)測(cè)法滑窗法與候選區(qū)間法,本質(zhì)上都是基于預(yù)先設(shè)定的區(qū)域間框?qū)^(qū)間內(nèi)動(dòng)作類別進(jìn)行預(yù)測(cè),同時(shí)修正區(qū)間邊界。這類方法統(tǒng)稱為自頂向下方法。聽(tīng)著很熟悉,沒(méi)錯(cuò),類似于姿態(tài)識(shí)別當(dāng)中的自頂向下方法。受限于預(yù)先設(shè)定的窗口,所定位的動(dòng)作的起止位置不夠準(zhǔn)確。起?點(diǎn)預(yù)測(cè)法起止點(diǎn)預(yù)測(cè)法屬于自底向上的預(yù)測(cè)方法也稱作localtoglobal先局部后整體。首先,通過(guò)局部特征預(yù)測(cè)動(dòng)作的開(kāi)始時(shí)刻與結(jié)束時(shí)刻;其次,將開(kāi)始時(shí)刻與結(jié)束時(shí)刻合成候選區(qū)間;最后,預(yù)測(cè)候選區(qū)間內(nèi)的動(dòng)作類別。圖28.BSN網(wǎng)絡(luò)結(jié)構(gòu)下面介紹自底向上時(shí)序動(dòng)作定位算法BSN(BSN:BoundarySensitiveNetworkforTemporalActionProposalGeneration)該方法主要分為以下三步:第一步:BSN在視頻片段的每個(gè)時(shí)間點(diǎn)上預(yù)測(cè)輸出一個(gè)動(dòng)作開(kāi)始的概率,結(jié)束的概率以及當(dāng)前時(shí)間點(diǎn)屬于某個(gè)動(dòng)作的概率,同時(shí)生成<startprob,endprob,actionprob>時(shí)間序列作為局部信息;第二步:使用localtoglobal方式組合高概率值的開(kāi)始點(diǎn)與結(jié)束點(diǎn),生成不同大小,不同邊界準(zhǔn)確性的proposal;第三步:利用proposallevel特征來(lái)評(píng)估每個(gè)proposal的置信度,并從第二步中檢索出高置信度的proposal。隨著自注意力Transformer在圖像分類、目標(biāo)檢測(cè)中表現(xiàn)出的強(qiáng)大能力,在時(shí)序動(dòng)作定位中也產(chǎn)生了令人印象深刻的性能,并出現(xiàn)了如ActionFormer等模型,鑒于篇幅限制,暫不做詳細(xì)介紹。什么是視頻內(nèi)容檢索?5、視頻內(nèi)容檢索技術(shù)什么是視頻內(nèi)容檢索?視頻內(nèi)容檢索即通過(guò)檢索關(guān)鍵詞、圖片、視頻從海量視頻底庫(kù)中檢索出目標(biāo)視頻。本質(zhì)上是向量檢索,即對(duì)底庫(kù)視頻進(jìn)行數(shù)字化編碼形成能表征視頻特征的向量T,同時(shí)對(duì)檢索內(nèi)容進(jìn)行向量數(shù)字化編碼形成檢索向量S。檢索即通過(guò)特征比對(duì)從海量底庫(kù)視頻T中檢索出檢索出S。能檢索什么?能檢索什么?視頻內(nèi)容檢索區(qū)別于傳統(tǒng)的基于關(guān)鍵詞的檢索,是一種新型的內(nèi)容檢索方式,更符合用戶習(xí)慣與用戶檢索需求。視頻內(nèi)容檢索可檢索視頻文字、視頻目標(biāo)、相似內(nèi)容視頻、相似語(yǔ)義視頻。應(yīng)用場(chǎng)景?應(yīng)用場(chǎng)景?該技術(shù)廣泛應(yīng)用至數(shù)字資產(chǎn)管理、海量視頻檢索、視頻侵權(quán)檢測(cè)以及視頻推薦系統(tǒng)中。單從檢索精度上來(lái)說(shuō),涉及兩個(gè)問(wèn)題:?jiǎn)栴}1:如何有效對(duì)視頻內(nèi)容進(jìn)行向量化形成Embedding?問(wèn)題2:如何度量檢索S與底庫(kù)T之間的相似性?圖29.視頻內(nèi)容Embedding方法如圖29所示,對(duì)視頻進(jìn)行Embedding的方法大致分為三類:第一類:基于內(nèi)容的Embedding該類方法主要采用特征提取網(wǎng)絡(luò)對(duì)視頻中序列幀進(jìn)行向量化編碼,形成2048或768維度的向量。通過(guò)非時(shí)序或時(shí)序網(wǎng)絡(luò)提取每幀特征,同時(shí)進(jìn)行特征融合形成表征該視頻特征的全局Embedding。同時(shí),細(xì)粒度的內(nèi)容Embedding還包括視頻中的目標(biāo)、人臉、文字Embedding。第二類:基于語(yǔ)義的Embedding該類方法主要采用視覺(jué)編碼器如ResNet50,Vit-Base/32等對(duì)視頻中的圖片進(jìn)行Embedding。在此基礎(chǔ)上通過(guò)映射網(wǎng)絡(luò)將視覺(jué)特征映射至語(yǔ)義空間,得到每幀圖片的語(yǔ)義Embedding。其中映射網(wǎng)絡(luò)通過(guò)CLIP/ChineseCLIP訓(xùn)練得到,即通過(guò)數(shù)億對(duì)的圖文對(duì)訓(xùn)練獲取。第三類:基于結(jié)構(gòu)化的Embedding該類方法主要采用視頻圖像中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行Embedding。比如頁(yè)面點(diǎn)贊量、收藏量、關(guān)注量信息、用戶的觀看時(shí)長(zhǎng)、是否評(píng)論等行為信息對(duì)視頻進(jìn)行Embedding。在推薦系統(tǒng)中應(yīng)用居多。圖30.視頻內(nèi)容檢索方法如圖30.視頻內(nèi)容檢索方法根據(jù)模態(tài)的不同可分為同模態(tài)檢索與跨模態(tài)檢索。同模態(tài)檢索表示檢索內(nèi)容與底庫(kù)內(nèi)容形式相同(同為文本、圖片、視頻),跨模態(tài)檢索表示檢索內(nèi)容與底庫(kù)形式異同(文本->視頻),相似性對(duì)量方法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論