版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
體育視頻標(biāo)注和解析,本研究有大力支持本次體育視頻內(nèi)容標(biāo)注與分析技術(shù)研究的關(guān)鍵詞是內(nèi)容、研究、體育、技術(shù)、視頻、
一、發(fā)展本研究的意義
近年來,數(shù)字視頻得到了廣泛應(yīng)用,如視頻點(diǎn)播、數(shù)字電視、數(shù)字圖書館、視頻會(huì)議、遠(yuǎn)程教育等。,這已經(jīng)被越來越多的人所接受和熟悉。面對大量涌現(xiàn)的視頻數(shù)據(jù),如何找到所需的視頻信息成為亟待解決的問題。
簡單的視頻名稱查詢和類似錄像機(jī)的播放功能已經(jīng)不能滿足人們的需求。就像一本書通常有目錄和索引來幫忙人們快速瀏覽和查詢內(nèi)容一樣,一個(gè)視頻也需要有效的目錄和索引。傳統(tǒng)的辦法需要人們對視頻內(nèi)容進(jìn)行標(biāo)記,非常費(fèi)時(shí)費(fèi)勁,尤其是在視頻資源數(shù)量巨大或者處理速度接近實(shí)時(shí)的情況下。所有的手工辦法都會(huì)遇到難以克服的困難。為了解決這一問題,20世紀(jì)90年代以來,出現(xiàn)了基于內(nèi)容的視頻分析與檢索[1][2][3]。其核心是通過計(jì)算機(jī)分析和理解視頻內(nèi)容,建立結(jié)構(gòu)和語義索引,方便用戶檢索。
巨大的商業(yè)前景和重要的學(xué)術(shù)價(jià)值吸引了來自不同行業(yè)和學(xué)術(shù)界的研究人員對這一問題進(jìn)行研究。一些原型系統(tǒng)相繼提出,主要有IBM的QBIC/CueVideo[4][5],Virage公司的視頻引擎體育視頻,即體育比賽的電視轉(zhuǎn)播,作為一個(gè)重要的應(yīng)用領(lǐng)域,一直備受關(guān)注。體育比賽通常很長,但對于大多數(shù)觀眾來說,只有一小局部是真正關(guān)懷的,很可能會(huì)被反復(fù)觀看。示例,一場跳水比賽往往持續(xù)幾個(gè)小時(shí),但其中令人興奮的局部——運(yùn)發(fā)動(dòng)跳入水中的過程只有幾分鐘。人們需要一種方便快捷的方式來獲取體育視頻的內(nèi)容。,卡耐基梅隆大學(xué)的InforMedia與其他視頻相比,體育視頻有自己的特點(diǎn)。首先,體育視頻中有一些領(lǐng)域相關(guān)的語義事件,比方運(yùn)發(fā)動(dòng)在跳水比賽中的跳水、足球比賽中的射門等。這些語義事件通常是視頻中最有價(jià)值的局部,需要標(biāo)記以便于檢索。其次,體育比賽一般都有很強(qiáng)的結(jié)構(gòu)性,比方跳水比賽由幾個(gè)回合組成。每一輪由幾個(gè)玩家等組成。為了方便瀏覽視頻內(nèi)容,需要根據(jù)這些結(jié)構(gòu)對原始視頻數(shù)據(jù)進(jìn)行分析,并組織成一個(gè)分層目錄。本課題的目標(biāo)是研究體育視頻內(nèi)容的語義標(biāo)注和結(jié)構(gòu)分析技術(shù)。,哥倫比亞大學(xué)的VideoQ雖然由于目前的技術(shù)水平,無法實(shí)現(xiàn)全自動(dòng)、通用的視頻內(nèi)容理解,但本課題的研究將證明局部解決計(jì)劃是可能的、有價(jià)值的,我們的研究也將為最終的全面解決計(jì)劃奠定根底。除了學(xué)術(shù)意義,本課題的研究還可以有下列直接應(yīng)用:等。這些努力最終促成了國際規(guī)范MPEG-7(多媒體內(nèi)容描述接口)的誕生。然而,隨著問題的深入,研究者面臨著更大的障礙:機(jī)器對視覺/聽覺內(nèi)容的理解,即難以建立底層特征與高級語義之間的聯(lián)系。同樣的問題困擾人工智能領(lǐng)域多年。人們普遍認(rèn)為,找到一個(gè)普遍的解決方法是極其困難的。因此,一些研究反而側(cè)重于解決特定領(lǐng)域的應(yīng)用問題,如新聞、電影等。在這些特定領(lǐng)域中,通過結(jié)合相應(yīng)的領(lǐng)域知識(shí),可以在低級特征和高級語義之間建立某種聯(lián)系。
[6]
[7]
[8]
1.視頻數(shù)據(jù)庫:適用于各類體育專業(yè)人士或愛好者查詢、瀏覽、管理采集的體育比賽視頻數(shù)據(jù)。目前,我們已經(jīng)應(yīng)用于國家體育總局的研究工程——跳水訓(xùn)練圖像分析軟件系統(tǒng)的開發(fā)。通過對跳水比賽視頻內(nèi)容的標(biāo)注和分析,可以方便快捷地實(shí)現(xiàn)典型動(dòng)作的視頻數(shù)據(jù)庫。
2.Web多媒體發(fā)布:適用于新聞或體育網(wǎng)站在Web上及時(shí)發(fā)布體育多媒體信息。如今,越來越多的人習(xí)慣于從互聯(lián)網(wǎng)上獲取最新信息。基于我們的技術(shù),我們可以第一時(shí)間編輯和發(fā)布包括綜合圖片、文本、視頻和音頻在內(nèi)的體育多媒體信息。
3.個(gè)人移動(dòng)效勞:適用于無線效勞提供商為個(gè)人提供定制的彩信效勞。我們的內(nèi)容標(biāo)注和解析技術(shù)可以為冗長的體育視頻生成摘要,從而可以根據(jù)用戶的個(gè)人喜好和終端能力將體育彩信發(fā)送到移動(dòng)設(shè)備。
二、國內(nèi)外研究現(xiàn)狀分析
國際上對體育視頻的研究始于20世紀(jì)90年代中期,屬于視頻檢索領(lǐng)域的一個(gè)子課題。與新聞視頻領(lǐng)域的成功[9][10][11]相比,體育視頻的研究相對較少,難度更大。這主要是因?yàn)樾侣勔曨l具有根本一致的時(shí)域結(jié)構(gòu)和場景語義,即首先是播音員的鏡頭,然后是新聞報(bào)道,最后回到播音員的鏡頭進(jìn)行后面的新聞報(bào)道。然而,體育視頻并沒有這樣統(tǒng)一的結(jié)構(gòu)和語義。目前,對體育視頻的研究還處于探索的初級階段,對其過程和辦法還沒有統(tǒng)一的結(jié)論,也沒有實(shí)用的系統(tǒng)可以投入使用。
1、鏡頭檢測
通常,在分析體育視頻之前,需要將其分成鏡頭。所謂鏡頭,是指攝像機(jī)連續(xù)拍攝的一組幀序列,通常被認(rèn)為是視頻的最小結(jié)構(gòu)單元。為了分割鏡頭,需要檢測鏡頭邊界。鏡頭之間有兩種邊界:突變和漸變。當(dāng)突變發(fā)生時(shí),鏡頭直接切換到下一個(gè)鏡頭;在漸變的過程中,從一個(gè)鏡頭到下一個(gè)鏡頭會(huì)有一個(gè)連續(xù)的多幀變化過程,主要包括淡出淡入、溶解、擦拭等。淡出是指視頻幀逐漸淡出,直到屏幕完全變黑,然后下一個(gè)鏡頭的幀圖像逐漸出現(xiàn)。溶解意味著前一個(gè)鏡頭的幀圖像逐漸含糊,而后一個(gè)鏡頭的幀圖像逐漸增強(qiáng)。
鏡頭檢測的關(guān)鍵問題是如何辨別鏡頭之間的切換和相機(jī)或物體移動(dòng)引起的鏡頭變化。因此,漸變比突變更難發(fā)覺。早期的工作主要集中在突變檢測上,最近更多的研究集中在漸變的分析上。
鏡頭檢測辦法可以分為兩類:非壓縮域和壓縮域。在[12][13]中,實(shí)驗(yàn)評估了未壓縮域中的各種鏡頭檢測算法。與未壓縮域的辦法相比,基于壓縮域的辦法不需要對視頻編碼流進(jìn)行解碼,而是直接利用壓縮域的特征如DCT系數(shù)、運(yùn)動(dòng)矢量、宏塊信息等進(jìn)行分析。從而提高處理速度[14][15][16][17]。如今,大量視頻數(shù)據(jù)以壓縮格式(如MPEG)存儲(chǔ),因此基于壓縮域的辦法往往具有更大的實(shí)用價(jià)值。
2.語義標(biāo)注
語義標(biāo)注是指對體育視頻中的語義事件進(jìn)行檢測和標(biāo)注,其本質(zhì)是根據(jù)預(yù)先定義的類別對視頻片段進(jìn)行辨認(rèn)。目前,國內(nèi)外對體育視頻的研究實(shí)際上都集中在這方面,相關(guān)工作介紹如下。
Y.龔等人首先提出了對足球比賽視頻的分析[18]。他們結(jié)合足球比賽的現(xiàn)場知識(shí),通過白線辨認(rèn)、攝像頭運(yùn)動(dòng)檢測、足球和球員檢測等分析,推斷出視頻的內(nèi)容,包括球場上的什么地方、投籃、角球等。比方場景靠近球門區(qū),足球向球門移動(dòng),就可以推斷是射門。實(shí)驗(yàn)結(jié)果說明,該系統(tǒng)能夠準(zhǔn)確辨認(rèn)球場位置,到達(dá)90%,但射門和角球的辨認(rèn)率只有53%,這主要是由于高速運(yùn)動(dòng)和遮擋,使得足球的檢測更加困難。
哥倫比亞大學(xué)的徐鵬和其他人察看到,足球比賽可以分為兩種狀態(tài):踢和暫停(示例,因?yàn)榍虺鼋缁蛘卟门性谠囂叫缘靥?。他們開發(fā)了一個(gè)系統(tǒng),可以檢測視頻中的足球比賽是在進(jìn)行還是暫停[19]。系統(tǒng)分兩步分析足球視頻。首先,根據(jù)顏色分析,得到每幀的草色比。此功能用于將幀標(biāo)記為三種類型:全局視圖、放大視圖和特寫視圖。在檢測過程中,該算法可以學(xué)習(xí)并自動(dòng)調(diào)整草的顏色和分類決策。然后對視頻幀進(jìn)行上述分類標(biāo)記后,根據(jù)經(jīng)驗(yàn)總結(jié)出的規(guī)那么(示例,全景通常是游戲,特寫通常是游戲休息等。)來判斷游戲是進(jìn)行中還是暫停。實(shí)驗(yàn)中使用了4個(gè)來自不同足球比賽的5分鐘片段,檢測準(zhǔn)確率最好為86.5%,最差為67.3%。
清華大學(xué)的羅鳴等人還以足球?yàn)槔岢隽艘粋€(gè)體育視頻分析系統(tǒng)[21]。他們的系統(tǒng)根據(jù)視場顏色的比例和關(guān)鍵幀中物體的大小,將鏡頭分為遠(yuǎn)攝和近攝。此外,對于長焦拍攝,他們察看到快速相機(jī)移動(dòng)通常會(huì)在拍攝或長傳過程中含糊圖像,因此他們提出根據(jù)幀圖像的含糊程度來檢測足球比賽中的這些事件。實(shí)驗(yàn)結(jié)果說明
DrewD.Saur等人直接利用基于MPEG壓縮域的特征實(shí)現(xiàn)了籃球視頻內(nèi)容的自動(dòng)分析和標(biāo)注[22]。該算法首先基于壓縮域DC圖分割鏡頭,然后計(jì)算每個(gè)P幀的運(yùn)動(dòng)矢量大小。考慮到特寫鏡頭一般比廣角鏡頭變化更激烈,視頻分為廣角鏡頭和特寫鏡頭。對于廣角鏡頭,進(jìn)行了進(jìn)一步的分析。
Y.微軟研究院的芮等人提出了一種根據(jù)音頻特征檢測棒球比賽中精彩事件的辦法,計(jì)算量較小,適用于計(jì)算能力有限的環(huán)境[23]。他們的算法基于機(jī)器學(xué)習(xí),即講述者的興奮語音辨認(rèn)和棒球擊打聲檢測,然后將它們與概率混合來推斷最終的興奮片段。實(shí)驗(yàn)說明,與人工標(biāo)注的精彩片段相比,該算法的準(zhǔn)確率可達(dá)75%。
類似地,對于棒球,張等人通過檢測和辨認(rèn)比賽中得分和狀態(tài)的字幕顯示來分析語義事件[24][25]的發(fā)生,示例觸地得分和最后一投(投手被送出)。他們使用視頻文本檢測和辨認(rèn)技術(shù)來分析游戲中的字幕信息。利用領(lǐng)域知識(shí)模型進(jìn)一步提高了辨認(rèn)結(jié)果。
一場體育比賽播出時(shí),通常會(huì)在精彩事件發(fā)生后及時(shí)穿插慢動(dòng)作重播,這也吸引了眾多研究者的關(guān)注迪。張?jiān)噲D提出一個(gè)體育視頻分析的總體框架3、結(jié)構(gòu)分析。為了兼顧效率和準(zhǔn)確性,他認(rèn)為事件檢測可以分為兩個(gè)步驟,即基于壓縮域分析的初級階段和基于對象級的驗(yàn)證階段。首先,選擇壓縮域的一些特征,如顏色和運(yùn)動(dòng),通過統(tǒng)計(jì)學(xué)習(xí)實(shí)現(xiàn)事件的初選。其次,根據(jù)總結(jié)的領(lǐng)域規(guī)那么對候選場景中的對象進(jìn)行分割。比方網(wǎng)球比賽的發(fā)球擊球,圖像中應(yīng)該有一個(gè)較大的場地區(qū)域,下方應(yīng)該有一個(gè)較小的球員物體。J.Assfalg等人認(rèn)為體育視頻鏡頭一般可以分為三類:場地、運(yùn)發(fā)動(dòng)和觀眾一個(gè)視頻通常包含數(shù)百個(gè)鏡頭,尤其是體育視頻。這主要是因?yàn)樵陔娨曓D(zhuǎn)播一場體育比賽時(shí),會(huì)有多個(gè)攝像頭從不同的角度拍攝比賽,它們之間的頻繁切換就構(gòu)成了鏡頭。為了更好地訪問視頻內(nèi)容,除了語義標(biāo)注,還需要對鏡頭進(jìn)行有效的組織。結(jié)構(gòu)分析的任務(wù)是通過鏡頭組織為視頻數(shù)據(jù)流建立一個(gè)類似于書目的分層瀏覽結(jié)構(gòu)。。場館鏡頭聚焦于運(yùn)動(dòng)本身,由大塊一致的色彩區(qū)域和場館線條代表。在運(yùn)發(fā)動(dòng)的鏡頭中,運(yùn)發(fā)動(dòng)作為物體出現(xiàn)在前景中,而背景變得含糊。在觀眾鏡頭中,個(gè)體往往是不清晰的,觀眾作為一個(gè)整體可以看作是一種質(zhì)感?;谶@些理解,他們通過邊緣提取它們。本次體育視頻的內(nèi)容標(biāo)注與分析技術(shù)研究的關(guān)鍵詞是內(nèi)容、研究、體育、技術(shù)、視頻、分析等。,可以有效辨認(rèn)三種鏡頭。名詞〔noun的縮寫〕Babaguchi結(jié)合了文本和視覺特征來檢測體育視頻中的事件以圖1跳水比賽的樹形結(jié)構(gòu)4.摘要為代表,一些研究者提出了一種通用的視頻結(jié)構(gòu)分析辦法。他們通過時(shí)間約束聚類辦法將視覺上相似的鏡頭和時(shí)間上相鄰的鏡頭聚類在一起,然后基于聚類組構(gòu)建場景轉(zhuǎn)換圖或高級場景。然后形成分層的瀏覽結(jié)構(gòu)。但這種統(tǒng)一的結(jié)構(gòu)組織(如[34]將視頻分為幀/鏡頭/組/場景四層)并不適合體育視頻的分析,主要是因?yàn)轶w育游戲有其特定的結(jié)構(gòu)(如圖1所示),對體育視頻的分析要結(jié)合這一領(lǐng)域知識(shí)。。文本信息來自電視信號中的隱藏字幕。首先,通過在文本中搜索與事件相關(guān)的關(guān)鍵詞,我們估計(jì)事件的可能時(shí)間段。然后,分析該時(shí)間段內(nèi)鏡頭的視覺特征,計(jì)算與已有事件實(shí)例的匹配度,檢測與事件相關(guān)的鏡頭。。通過檢測重播事件,并在之前的視頻中找到內(nèi)容相同的正常場景,可以為冗長的體育視頻生成令人稱心的精彩指數(shù)。
[27]
[28]
[29]
[30]
[31]
[32]
[33]
[34]
[35]
綜上所述,基于對國內(nèi)外研究現(xiàn)狀的調(diào)查,我們得出下列結(jié)論:
(1)特征選擇要結(jié)合領(lǐng)域知識(shí)。領(lǐng)域知識(shí)包括游戲相關(guān)和制作相關(guān)。與游戲相關(guān)的領(lǐng)域特征波及特定的運(yùn)動(dòng),示例足球比賽中的草和顏色的比例以及籃球比賽中快攻時(shí)攝像機(jī)的移動(dòng)。制作相關(guān)的領(lǐng)域特征適用于大局部體育視頻的分析,主要來自于體育視頻制作的總結(jié),比方精彩場景的回放、運(yùn)發(fā)動(dòng)和分?jǐn)?shù)信息的字幕顯示等。結(jié)合這兩種領(lǐng)域知識(shí),選擇適宜的特征進(jìn)行分析是
(2)多模態(tài)融合分析代表了一種新的研究趨勢。除了視覺特征之外,整合體育視頻中包含的音頻特征和文本信息可以有效提高視頻分析的準(zhǔn)確性。這也是近年來的研究熱點(diǎn)。在體育視頻中,一個(gè)語義事件往往是多模式的敘述,如運(yùn)發(fā)動(dòng)的跳水工程既有視覺運(yùn)動(dòng),又有聽覺踏板聲和水輸入聲,因此僅分析其中一種模式是不完整的。因此,在體育視頻中,有必要對語義事件進(jìn)行綜合分析。
(3)盡量考慮壓縮域的特征分析。一場體育比賽持續(xù)幾個(gè)小時(shí),其視頻數(shù)據(jù)也非常龐大,因此提高處理速度是有意義的,這在一些需要實(shí)時(shí)應(yīng)用的場合也是必要的。直接基于壓縮域的分析可以顯著提高處理速度,無需完全解碼。[22][31]說明,基于壓縮域的分析不僅可以大大減少計(jì)算量,而且可以得到更好的結(jié)果。
(4)基于統(tǒng)計(jì)的事件檢測辦法優(yōu)于基于規(guī)那么的辦法。早期的研究大多使用基于規(guī)那么的辦法。然而,體育視頻中的事件檢測往往需要綜合各種特征分析辦法,適應(yīng)不同的場景。這些都增加了直接設(shè)置規(guī)那么的難度。與統(tǒng)計(jì)算法相比,它易于混合各種特征,具有一定的學(xué)習(xí)能力,因此具有較大的實(shí)用價(jià)值。
(5)無視事件之間關(guān)系的研究。體育比賽中的各種語義事件不是孤立的,而是有一定的因果關(guān)系或概率相關(guān)性。因此,對各種事件及其關(guān)系的綜合分析對于提高分析的準(zhǔn)確性和深度是有價(jià)值的。
(6)不足體育視頻內(nèi)容的結(jié)構(gòu)分析。雖然很多文章都提到了體育視頻的結(jié)構(gòu)分析,但他們的結(jié)構(gòu)分析主要集中在根本場景的分解上,如[20]將足球視頻分為比賽進(jìn)行和暫停,[31]檢測網(wǎng)球比賽的發(fā)球場景。體育視頻的結(jié)構(gòu),如圖1所示,通常是多層目錄結(jié)構(gòu)。在檢測根本場景的根底上,有必要進(jìn)一步研究高層結(jié)構(gòu)的分析。
(7)體育視頻內(nèi)容分析沒有統(tǒng)一的框架。[31]提出了視頻分析的通用框架,但他們的系統(tǒng)主要實(shí)現(xiàn)語義事件的檢測,不足對視頻結(jié)構(gòu)的充沛分析。根據(jù)體育視頻的特點(diǎn)和應(yīng)用需求,我們認(rèn)為視頻分析的過程應(yīng)該有一個(gè)根本的框架,這對于進(jìn)一步的研究無疑是有意義的。
三是研究目標(biāo)、內(nèi)容和需要解決的關(guān)鍵技術(shù)
本課題的目標(biāo)是研究體育視頻內(nèi)容的語義標(biāo)注和結(jié)構(gòu)分析技術(shù)。在實(shí)際研究中,我們主要選擇跳水比賽作為研究對象。跳水在中國極具欣賞性,是奧運(yùn)優(yōu)勢工程,深受人們喜愛。跳水比賽具有一般體育比賽的典型特征,如層次結(jié)構(gòu)、領(lǐng)域相關(guān)語義事件等。通過對內(nèi)容分析技術(shù)的研究,最終實(shí)現(xiàn)一個(gè)潛水視頻查詢系統(tǒng)。
如果把視頻看作一種語言敘述,則視頻分析在某種程度上與自然語言理解非常相似,其目的是使計(jì)算機(jī)能夠理解信息的內(nèi)容,從而實(shí)現(xiàn)智能信息處理。自然語言理解作為人工智能的一個(gè)重要研究方向,已經(jīng)有40多年的歷史。新興的視頻分析研究一定有很多值得借鑒的地方。自然語言理解一般以詞匯為根本處理對象,包括自動(dòng)分詞、詞性標(biāo)注、句法分析等階段。同樣,由于鏡頭是視頻中內(nèi)容敘述完整的最小單元,我們將鏡頭作為體育視頻分析的根本單元,提出了如圖2所示的體育視頻內(nèi)容分析框架。
圖2體育視頻內(nèi)容分析框架
1、鏡頭檢測
與自動(dòng)分詞類似,鏡頭檢測以鏡頭為根本單位分解視頻流。鏡頭檢測是視頻內(nèi)容分析的根底步驟,對整個(gè)系統(tǒng)的性能影響很大。雖然鏡頭檢測是一個(gè)普遍問題,但在體育視頻中也有其特殊要求:
(1)針對大量的運(yùn)動(dòng)視頻數(shù)據(jù),算法要能實(shí)現(xiàn)快速檢測;
(2)運(yùn)動(dòng)視頻中有大量的運(yùn)動(dòng),算法要盡量防止運(yùn)動(dòng)帶來的誤判;
(3)作為后期分析的根底,算法要有較高的精度。
2.模式學(xué)習(xí)和語義標(biāo)注
鏡頭檢測后的視頻流是一組鏡頭序列。在此根底上,語義標(biāo)注通過事件檢測對鏡頭序列進(jìn)行標(biāo)記。我們使用基于統(tǒng)計(jì)的辦法來辨認(rèn)語義事件。在辨認(rèn)時(shí),我們首先通過學(xué)習(xí)訓(xùn)練樣本建立一個(gè)分類器,然后使用這個(gè)分類器來辨認(rèn)鏡頭中的事件。需要解決下列問題:
(1)多模式提取和選擇領(lǐng)域相關(guān)特征來表示語義事件;
(2)應(yīng)用壓縮域分析提高處理速度;
(3)設(shè)計(jì)好學(xué)習(xí)分類模型,實(shí)現(xiàn)高精度辨認(rèn);
(4)標(biāo)記鏡片應(yīng)有利于后續(xù)的結(jié)構(gòu)分析。
3.語法描述和結(jié)構(gòu)分析
語義標(biāo)注后,結(jié)構(gòu)分析的任務(wù)是通過分析視頻標(biāo)注序列生成體育視頻的分層瀏覽結(jié)構(gòu)。目前這個(gè)領(lǐng)域還沒有好的算法。為了解決這個(gè)問題,我們基于自然語言理解中的語法分析思想,使用語法來定義語法規(guī)那么。將語法描述引入結(jié)構(gòu)分析具有下列優(yōu)點(diǎn):(1)根據(jù)語法描述,我們可以(2)實(shí)現(xiàn)領(lǐng)域知識(shí)和具體算法的別離。這樣,我們只需要引入相應(yīng)的語法描述,就可以使用統(tǒng)一的解析器來分析不同類型的體育比賽。關(guān)鍵技術(shù)包括:
(1)自動(dòng)生成體育視頻的分級瀏覽目錄;
(2)在實(shí)際應(yīng)用中,視頻流可能不完整或標(biāo)記不正確,解析器要有良好的容錯(cuò)能力;
(3)對于數(shù)據(jù)量較大的體育視頻,對結(jié)構(gòu)分析的效率要求較高。
第四,提出研究辦法、技術(shù)路線和可行性分析
1.基于壓縮域的鏡頭分割算法
體育視頻中常見的漸變主要有溶解和擦除,尤其是一些有特效的漸變,如圖3所示。這些特定的擦除模式通常出現(xiàn)在慢速鏡像回放的開始和結(jié)束,辨認(rèn)這個(gè)鏡頭邊界非常有價(jià)值?,F(xiàn)有的壓縮域算法主要成功地進(jìn)行了剪切檢測,但對漸變的研究很少。我們將研究一種有效的漸變檢測辦法,該辦法綜合了壓縮域中的DCT系數(shù)、運(yùn)動(dòng)矢量和宏塊信息。
圖3體育視頻中特定圖案的擦除
2.體育視頻中語義事件的檢測
(1)通過地標(biāo)邊界檢測辨認(rèn)重放事件
[1]重播分為三種:重復(fù)播放的同一個(gè)鏡頭;同樣的鏡頭以慢動(dòng)作模式重播;同一個(gè)場景是由不同的攝像機(jī)從不同的視角拍攝的。很難通過直接從內(nèi)容中比擬重放事件和先前視頻鏡頭之間的相似性來準(zhǔn)確辨認(rèn),尤其是對于最后的重放。
通過對體育比賽電視轉(zhuǎn)播的察看,我們可以發(fā)現(xiàn),精彩片段的重播通常是以一個(gè)象征性的鏡頭切換引入,然后以類似的變化結(jié)束,如圖3所示。因此,重放事件的檢測實(shí)際上可以歸因于這個(gè)符號鏡頭邊界的檢測,從而簡化了問題。我們將主要研究這種辦法。
(2)使用視頻文本辨認(rèn)來確定狀態(tài)事件
狀態(tài)性事件直接關(guān)系到體育競賽的狀態(tài)變化。通常比賽狀態(tài)變化時(shí),電視轉(zhuǎn)播會(huì)給視頻添加相關(guān)字幕。比方跳水比賽運(yùn)發(fā)動(dòng)進(jìn)入賽場,會(huì)有文字表明運(yùn)發(fā)動(dòng)的名字和要做的動(dòng)作。在一輪結(jié)束時(shí),將顯示該輪所有玩家的分?jǐn)?shù)。
根據(jù)這一特點(diǎn),我們提出通過檢測和辨認(rèn)視頻中的文本來檢測狀態(tài)事件。這種辦法包括兩個(gè)層次。首先,我們可以通過檢測視頻文本[36][37][38][39][40]來初步確定狀態(tài)事件的發(fā)生。然后,我們通過關(guān)鍵詞匹配辨認(rèn)檢測到的文本并辨認(rèn)狀態(tài)事件的類別。比方運(yùn)發(fā)動(dòng)入場的字幕顯示中有“回合〞、“排名〞、“DD〞(難度)和“Total〞(總分)等關(guān)鍵詞。通過匹配這些關(guān)鍵詞,可以判斷當(dāng)前鏡頭是運(yùn)發(fā)動(dòng)入場的狀態(tài)事件。
(3)結(jié)合視頻和音頻雙模的目標(biāo)事件檢測。
在目標(biāo)工程中,往往有明顯的運(yùn)動(dòng)和聽覺特征,如運(yùn)發(fā)動(dòng)的跳水工程,既有視覺運(yùn)動(dòng)又有聽覺踏板聲和入水聲。視頻和音頻融合的分析防止了僅利用視覺或聽覺特征無法完整描述語義事件的缺乏,能夠有效提高辨認(rèn)準(zhǔn)確率。
在辨認(rèn)過程中,我們采用了混合隱馬爾可夫模型和支持向量機(jī)的辦法[41]。支持向量機(jī)通過結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)那么,可以在小樣本條件下實(shí)現(xiàn)有效分類。然而,支持向量機(jī)只是一個(gè)靜態(tài)分類器,不能很好地模擬時(shí)間序列過程。相反,隱馬爾可夫模型可以更好地處理隨機(jī)時(shí)間序列數(shù)據(jù)的辨認(rèn)。然而,它不能保證訓(xùn)練好的模型能夠很好地對未知數(shù)據(jù)進(jìn)行分類。這樣,通過將兩者混合,并將靜態(tài)數(shù)據(jù)辨認(rèn)效果較好的支持向量機(jī)引入隱馬爾可夫模型,可以獲得最正確的視頻流數(shù)據(jù)辨認(rèn)效果。
3、語法指導(dǎo)
本次體育視頻內(nèi)容標(biāo)注與分析技術(shù)研究的關(guān)鍵詞是內(nèi)容、研究、體育、技術(shù)、視頻、結(jié)構(gòu)分析。
為了分析輸入體育視頻數(shù)據(jù)的結(jié)構(gòu),我們首先需要描述這類體育游戲的語法規(guī)那么。喬姆斯基將語法分為四種類型,即0型語法(或短語語法)、1型語法(或高低文敏感語法)、2型語法(或高低文無關(guān)語法)和3型語法(或常規(guī)語法)。模型越高,施加的約束越多,語言的描述也越多。
我們用高低文無關(guān)語法來描述體育競賽的結(jié)構(gòu),主要是基于下列考慮:(1)高低文無關(guān)語法可以充沛描述體育競賽的樹形結(jié)構(gòu);(2)高低文無關(guān)語法廣泛應(yīng)用于自然語言理解、句法模式辨認(rèn)、編譯技術(shù)等領(lǐng)域,其技術(shù)相對成熟;(3)基于高低文無關(guān)語法的解析器不僅能有效生成視頻的分層瀏覽樹,而且具有很強(qiáng)的錯(cuò)誤處理能力。
終結(jié)符r、b、e、u分別代表一輪比賽的結(jié)束、一名選手比賽的開始、一名選手比賽的結(jié)束和總桿,非終結(jié)符和和是結(jié)構(gòu)單位,分別代表每一輪比賽和每一名選手的比賽。對于語義標(biāo)注序列“buuuuuuuuuueeur〞,用語法分析器進(jìn)行分析,得到其層次結(jié)構(gòu)“[buuuuuuuue][buuuuuuuue]euR]〞。序列最后一個(gè)“r〞前的“EU〞是錯(cuò)誤標(biāo)記,可以通過錯(cuò)誤恢復(fù)策略進(jìn)行處理(示例,當(dāng)發(fā)現(xiàn)終止符不匹配時(shí),會(huì)彈出并給出警告)。因?yàn)榛诮y(tǒng)計(jì)的視頻序列語義標(biāo)注存在一定的不確定性。如果錯(cuò)誤標(biāo)簽具有高度確實(shí)定性,那么可以認(rèn)為錯(cuò)誤發(fā)生在它之前。
以上,我們通過基于壓縮域的鏡頭分割、語義事件檢測和句法指導(dǎo)的結(jié)構(gòu)分析,實(shí)現(xiàn)了體育視頻的內(nèi)容標(biāo)注和分析。雖然我們主要以跳水視頻為例進(jìn)行分析,但該技術(shù)完全可以應(yīng)用于其他類似的體育視頻,甚至是一般的視頻處理。我們的研究說明,盡管目前的技術(shù)水平,它是完全自動(dòng)的。通用的視頻內(nèi)容理解是不可能的,但通過有效的人機(jī)交互和應(yīng)用相關(guān)模型,新技術(shù)將能夠面對大量視頻信息的挑戰(zhàn),給人們帶來更豐盛、更便捷的體驗(yàn)。
動(dòng)詞〔verb的縮寫〕預(yù)期研究成果和創(chuàng)新
一種有效的壓縮域鏡頭邊界檢測算法
體育視頻中慢鏡像回放的檢測辦法
基于壓縮域的視頻文本檢測與分割
體育視頻中狀態(tài)事件的辨認(rèn)
視音頻融合的事件檢測
基于語法的體育視頻結(jié)構(gòu)分析
一種通用的體育視頻內(nèi)容分析框架及其系統(tǒng)實(shí)現(xiàn)
第六,現(xiàn)有工作根底
1.現(xiàn)有資源:
4.96G潛水游戲視頻數(shù)據(jù),總時(shí)長約8小時(shí)20分鐘;
5.33G足球比賽視頻數(shù)據(jù),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025塔機(jī)租賃合同(詳細(xì)版)
- 2025車位買賣合同
- 2024年高純超細(xì)氧化硅纖維項(xiàng)目資金需求報(bào)告代可行性研究報(bào)告
- 智慧醫(yī)療下的醫(yī)院食堂智能點(diǎn)餐系統(tǒng)分析
- 2024年核酸疫苗項(xiàng)目資金籌措計(jì)劃書代可行性研究報(bào)告
- 科技輔助下的小學(xué)數(shù)學(xué)自主學(xué)習(xí)能力培養(yǎng)
- 江蘇省靖江市2024-2025學(xué)年七年級上學(xué)期1月期末道德與法治試題(含答案)
- 2025年外研銜接版九年級歷史上冊階段測試試卷含答案
- 2025年華東師大版選修3物理下冊階段測試試卷含答案
- 2025年北師大新版九年級物理下冊階段測試試卷含答案
- 中醫(yī)診療方案腎病科
- 人教版(2025新版)七年級下冊數(shù)學(xué)第七章 相交線與平行線 單元測試卷(含答案)
- 完整2024年開工第一課課件
- 從跨文化交際的角度解析中西方酒文化(合集5篇)xiexiebang.com
- 中藥飲片培訓(xùn)課件
- 醫(yī)院護(hù)理培訓(xùn)課件:《早產(chǎn)兒姿勢管理與擺位》
- 《論文的寫作技巧》課件
- 空氣自動(dòng)站儀器運(yùn)營維護(hù)項(xiàng)目操作說明以及簡單故障處理
- 2022年12月Python-一級等級考試真題(附答案-解析)
- T-CHSA 020-2023 上頜骨缺損手術(shù)功能修復(fù)重建的專家共識(shí)
- Hypermesh lsdyna轉(zhuǎn)動(dòng)副連接課件完整版
評論
0/150
提交評論