通信學論文-數(shù)字視頻信息的索引研究 .doc_第1頁
通信學論文-數(shù)字視頻信息的索引研究 .doc_第2頁
通信學論文-數(shù)字視頻信息的索引研究 .doc_第3頁
通信學論文-數(shù)字視頻信息的索引研究 .doc_第4頁
通信學論文-數(shù)字視頻信息的索引研究 .doc_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

通信學論文-數(shù)字視頻信息的索引研究1、引言視頻(Video)是源于廣播電視業(yè)的術語,指內(nèi)容隨著時間變化的圖像(Picture)序列,也稱為活動圖像(MotionPicture)。廣義的視頻有電影、電視和計算機動畫等不同類型,狹義上的視頻主要是指電視類視頻。視頻是一種重要的視覺信息源。隨著各種數(shù)字影像設備的發(fā)展與遍及,以及多媒體技術和Internet的發(fā)展,人們面對的視頻信息種類迅速地增長,如電影、電視、視頻會議、監(jiān)控錄像等。僅中央電視臺(CCTV)截至2003年就保存有約30萬盤視頻節(jié)目,目前CCTV開設有15套節(jié)目(日播出量超過300小時,其中約有1/3是首播節(jié)目)、6套付費電視頻道,以每天保存8090h的首播節(jié)目計算,每年新增節(jié)目將會達到3萬小時以上1。面對如此巨量的視頻信息,人們迫切希望改進傳統(tǒng)的對視頻數(shù)據(jù)的線性查找方式,研發(fā)出能夠快速定位和部分析取的視頻數(shù)據(jù)獲取技術。要達到這樣的目標,首先需要將視頻數(shù)據(jù)有序化,即對視頻信息進行有效的索引,使之便于檢索2。從目前來看,數(shù)據(jù)庫信息、文本信息、圖形圖像信息的檢索已進入成熟期,已有許多實用的檢索工具和產(chǎn)品,而視頻信息的檢索目前還處于研究階段,雖然已有一些實驗原型和個別針對特定領域的檢索工具,但目前還無普遍實用的工具和產(chǎn)品。其主要原因是,與其他信息(如文本、圖像等)相比,視頻信息主要有如下一些特點:(1)信息內(nèi)涵豐富;(2)無“顯式”的結(jié)構;(3)存檔方式、視頻格式和編碼標準較多;(4)數(shù)據(jù)量大。近年來,許多研究人員在文本信息、圖形圖像信息檢索技術的基礎上,對視頻信息檢索技術進行了大量的研究,研究內(nèi)容涉及視頻信息的存儲組織、內(nèi)容分析、特征抽取、索引方法、匹配算法、檢索算法、檢索結(jié)果的評估和視頻信息的表現(xiàn)形式等諸多方面。本文在分析視頻信息的隱含結(jié)構基礎上,研究視頻信息的索引對象、索引模型和索引結(jié)構。2、視頻信息的隱含結(jié)構與索引對象目前的視頻文檔都是以節(jié)目(或稱為作品)為單位表現(xiàn)某個主題,其數(shù)據(jù)在組織時無“顯式”的結(jié)構和索引信息(如同一本無目錄和章節(jié)標題的書籍),用戶只能采用線性方式觀看和欣賞。傳統(tǒng)的視頻信息的消費往往是以節(jié)目為單位進行的,即查找某一電視節(jié)目(電視片、廣告片、某場體育比賽等),但不同類型的用戶(消費型、研究型、創(chuàng)作型和應用型3),在不同的場合下(通過電視、網(wǎng)絡、PDA、移動電話等)可能有不同的視頻消費要求,即可能需要以鏡頭、場景或故事單元為單位進行消費。例如,籃球教練需要查找“姚明進攻”的視頻鏡頭、司機在“塞車”時利用PDA收看某場足球比賽的精彩片段或畫面等等。所以,對視頻信息進行“結(jié)構化”,并針對不同的結(jié)構層次對象進行索引,是實現(xiàn)基于內(nèi)容的視頻信息檢索的基礎。2.1視頻信息的隱含結(jié)構從形式上看,視頻信息本身是一種無“顯式”結(jié)構的流媒體,即數(shù)據(jù)流本身無明顯的“章節(jié)、段落”結(jié)構,但從構成和語義上看,視頻信息蘊涵著幀、鏡頭、場景、故事單元和節(jié)目這樣的層次型結(jié)構。其中,幀、鏡頭和節(jié)目是視頻信息的物理組成成分,而場景和故事單元則是語義上的邏輯組成成分。視頻是內(nèi)容隨著時間變化的圖像序列,其最小組成單位是幀(Frame),即一幅幅靜止圖像;針對一個對象或事件的、攝像機一次拍攝產(chǎn)生的幀集合稱為一個鏡頭(Shot);發(fā)生在某一場地的、針對某一對象、具有相對獨立的敘事情節(jié)的一個或多個連續(xù)鏡頭構成一個場景(Scene);故事單元(StoryUnit)是指針對某一事件的、具有相對完整的故事情節(jié)的一個或多個連續(xù)場景的集合,例如電視連續(xù)劇中的每一節(jié)節(jié)目、NBA比賽中的每一節(jié)比賽;節(jié)目(Program)是獨立的完整的視頻文檔,通常表述一個完整的故事或事件。視頻信息的這種隱含結(jié)構,可用如下的數(shù)學模型表述:shotframe,ii1sceneshotii1story_unitscene,ii1programstory_unit,ii12.2視頻索引對象的分割與選取視頻信息蘊涵著幀、鏡頭、場景、故事單元和節(jié)目這樣的層次型結(jié)構,為了滿足不同的應用需求,視頻信息的索引應在各個層次上分別展開,即對視頻信息的索引,不僅要以節(jié)目為對象,而且需要在視頻分割的基礎上以幀、鏡頭、場景和故事單元為對象分別進行索引。節(jié)目和幀是視頻信息固有的自然層次,而鏡頭、場景和故事單元則要通過對視頻內(nèi)容的分析、采用各種算法進行分割才能得到。(1)幀對象的選取雖然幀是視頻信息固有的自然層次,但一個視頻文檔由太多的幀組成(每秒2530幀),且?guī)g存在大量的信息冗余以及用戶不感興趣的幀圖像,這就需要采取一定的策略進行幀的“選取”,找出一定數(shù)量的“代表幀”(也稱為“關鍵幀”)。目前代表幀的選取大多是在鏡頭分割的基礎上,以鏡頭為單元分別進行代表幀的選取,選取算法主要是以鏡頭的首幀、尾幀或中間幀為代表幀。筆者認為,代表幀的選取還應考慮兩個方面:一是對于不同體裁(類型)的視頻,應采用不同的選取方法,且代表幀的數(shù)量也應區(qū)別對待;二是可以通過幀圖像的相似性比較,對幀進行聚類,從幀數(shù)最多的類中選取代表幀(因為持續(xù)時間長的畫面往往更具有代表性)。(2)鏡頭分割鏡頭是視頻節(jié)目構成的基本單元,也是視頻消費時的最小邏輯單元。一個完整的視頻節(jié)目通常由若干個鏡頭組成,例如一部2小時的電影通常由數(shù)百個鏡頭組成。鏡頭之間的切換形式主要有突變和漸變兩大類,漸變又可分為隱現(xiàn)(Dissolve)、淡入/淡出(Fade)和擦除(Wipe)等不同類型,文獻4列出了常見的10種鏡頭變換形式,在實際的應用中可能有上百種鏡頭變換效果。采用人工方式進行視頻分割是十分費時的。近十多年來,電子工程和計算機科學等領域的學者從不同的角度研究出了多種自動鏡頭檢測的方法,其基本思想大多為比較相鄰幀之間的相似性。目前鏡頭檢測技術的方法分類主要有以下三種:根據(jù)所處理的視頻是否為壓縮數(shù)據(jù)進行分類,如文獻4所述,將鏡頭變換檢測方法分為基于解壓的全圖像序列的識別方法、直接基于壓縮視頻的識別方法和基于確定變換模型的識別方法;根據(jù)檢測的鏡頭變換類型進行分類,如文獻5所述,將鏡頭變換檢測方法分為突變檢測(HardCutDetection)、淡入/淡出檢測(FadeDetection)和隱現(xiàn)檢測(DissolveDetection)等類型;根據(jù)檢測時所采用的視頻特征進行分類,可以將鏡頭變換檢測方法分為基于亮度/顏色(Intensity/color)的檢測、基于紋理(Texture)的檢測、基于邊緣(Edges/contours)的檢測、基于運動(Motion)信息的檢測,等等。鏡頭突變檢測的技術相對比較成熟,一般采用基于顏色直方圖比較法即可得到較高的準確率。但對于形式多樣的漸變切換檢測,通常需要采用多種檢測手段進行綜合檢測,這也是目前鏡頭檢測研究的難點和熱點之一。(3)場景分割場景是發(fā)生在某一場地或針對某一對象(或動作)的、具有相對獨立的敘事情節(jié)的一個或多個連續(xù)鏡頭的集合。有時一個場景就是一個鏡頭,有時一個場景是從不同角度反映同一場地(或?qū)ο蠡騽幼鳎┑亩鄠€鏡頭的組合。目前場景分割(也可稱為場景構建)一般是在鏡頭分割的基礎上,采用鏡頭聚集的方式實現(xiàn)。文獻6提出了一種通過構造層次型“場景變換圖”的方法實現(xiàn)場景分割的思路,場景變換圖中的結(jié)點表示鏡頭、邊表示變換,基于場景變換圖,利用顏色的相似性計算對鏡頭進行層次聚類,形成的每一個子圖即為一個場景;文獻7提出了一種在鏡頭分割基礎上,利用運動信息(包括攝像機運動和對象運動)、鏡頭長度和顏色屬性進行場景檢測的方法。(4)故事單元分割在影視制作過程中,導演根據(jù)劇本的內(nèi)容,按照敘述的邏輯并根據(jù)創(chuàng)作意圖,合乎邏輯地、富有表現(xiàn)力地、有節(jié)奏地把鏡頭連接起來,構成完整的銀幕形象,形成比鏡頭更高一級的結(jié)構故事單元8。故事單元是指針對某一事件的、具有相對完整的故事情節(jié)的一個或多個連續(xù)場景(鏡頭)的集合。故事單元分割的基本思想也是在鏡頭分割的基礎上,結(jié)合領域知識對鏡頭(或場景)進行聚類分析。故事單元的理解主要是從語義層次上進行的,其長度(大?。┎]有確切的定義和界限,需要更多地考慮視頻節(jié)目的類型、體裁等領域知識。對于不同類型的視頻節(jié)目,其故事單元的劃分有不同的形式。例如,對于電視連續(xù)劇,可以將每一集看作一個故事單元;對于體育節(jié)目,可以根據(jù)其本身所固有的時間間隔進行分割,或根據(jù)主要事件(如得分、進球等)進行分割等。2.3視頻索引對象的數(shù)據(jù)結(jié)構數(shù)據(jù)模型是直接面向計算機系統(tǒng)(數(shù)據(jù)庫)中數(shù)據(jù)的邏輯結(jié)構。在常見的數(shù)據(jù)庫系統(tǒng)中,根據(jù)實體集之間的不同結(jié)構,通常把數(shù)據(jù)模型分為層次模型、網(wǎng)狀模型、關系模型和面向?qū)ο竽P退姆N。目前成熟的、主流的數(shù)據(jù)庫管理系統(tǒng)絕大多數(shù)是采用關系模型,并在此基礎上擴展了面向?qū)ο蟮某绦蛟O計功能。鑒于這種情況,可以考慮視頻索引對象的數(shù)據(jù)結(jié)構采用如下的關系數(shù)據(jù)模式:節(jié)目Program(節(jié)目號pNO,索引信息p)故事單元StoryUnit(節(jié)目號pNo,故事單元號uNO,索引信息u)場景Scene(節(jié)目號pNo,故事單元號uNO,場景號eNO,索引信息e)鏡頭Shot(節(jié)目號pNo,故事單元號uNO,場景號eNO,鏡頭號sNO,索引信息s)代表幀KeyFrame(節(jié)目號pNo,故事單元號uNO,場景號eNO,鏡頭號sNO,幀號fNO,索引信息f)在實現(xiàn)時,節(jié)目號由分類號和編號兩部分組成,其中分類號應采用類似于中圖分類號的編碼體系,分類方法可參考TVAnytime論壇制定的分類策略(SP003v1312);故事單元號、場景號、鏡頭號和幀號可采用視頻片段的起止時間碼(SMPTE使用的時間碼格式為:小時:分鐘:秒:幀);各索引對象的索引信息可根據(jù)后續(xù)討論的索引模型創(chuàng)建。3、視頻信息的索引模型3.1視頻信息的內(nèi)容模型視頻包含有豐富的信息內(nèi)容,針對同一段視頻,不同的人、在不同的情形之下觀看,通常有不同的感受,即使是同一個人多次觀看同一段視頻,往往也會有不同的感受。針對視頻所包含的信息內(nèi)容,許多學者從不同的學科出發(fā),對其進行了較為深入的研究。其中,較有代表性的是文獻9提出的視頻內(nèi)容分類模型,如圖2所示。該模型根據(jù)人類視覺感知和認識事物的規(guī)律,將視頻內(nèi)容分為三個層次:第一層(低層)為用戶觀看視頻時首先感知的視覺信息,如顏色、紋理、形狀、運動等;第二層(中間層)為通過邏輯推理而得的、基于對象(Object)的感知信息,如視頻中包含(描述)的人物、地點、時間等;第三層(高層)為通過智能推理而得的、基于知識(Knowledge)的感知信息,它反映了視頻本身的語義,以及由此而來的感受,如某視頻片段為暴力鏡頭、歡慶場景、劫機事件等等。這種視頻內(nèi)容建模方式為基于內(nèi)容的視頻信息索引提供了有益的指導。3.2視頻信息的描述需求與索引模型視頻信息內(nèi)涵的豐富性、用戶檢索需求的多樣性,決定了在對視頻信息進行索引時,應盡可能地從各個層次和側(cè)面進行全方位的描述。根據(jù)MPEG7的目標要求10,對視頻信息的描述至少應包括如下的信息:(1)有關內(nèi)容的產(chǎn)生和發(fā)展進程的描述信息(如導演/作者、標題、版本等);(2)與內(nèi)容使用有關的信息(如版權、使用歷程、宣傳計劃等);(3)有關內(nèi)容存儲特性的信息(如存儲格式、編碼等);(4)有關內(nèi)容的低層特性的信息(如顏色、紋理、音質(zhì)、音調(diào)描述等);(5)從內(nèi)容捕捉到的實體的概念化信息(如對象和事件,對象間的交互作用等);(6)利于瀏覽視頻內(nèi)容的信息(如概要、變更、空間和頻率等);(7)關于用戶和內(nèi)容交互作用的信息(如用戶選擇、使用歷史等)。根據(jù)MPEG7提出的描述要求及視頻內(nèi)容分類模型,可以考慮采用如圖3所示的視頻索引模型。在該索引模型中,視頻信息的索引分為外部信息索引和基于內(nèi)容的索引。外部信息索引是指基于視頻文檔外部的、不依賴于其內(nèi)容的信息索引,用于視頻文檔的標識和檢索,如標題、作者、時間、文檔大小、存儲格式與編碼格式、使用信息(軟硬件要求、使用要求、版權等)等等?;趦?nèi)容的索引又可以分為結(jié)構索引、低層特征索引、中間層對象索引和高層語義索引,后三種索引與圖2所示的視頻內(nèi)容模型相對應。結(jié)構索引是指節(jié)目、場景、鏡頭、幀之間的層次結(jié)構與關系等;低層特征索引是基于視頻信息的物理特征信息(如顏色、紋理、運動、音質(zhì)、音調(diào)等)進行索引;中間層的索引是對視頻中可識別對象(如時間、地點、人物等)的索引;高層語義索引用于描述視頻中包含的事件及相關的感受。3.3視頻對象與索引類型的關系不同(層次)的視頻對象對應著不同的索引,其對應關系如表1所示。幀的索引包含低層特征索引、中間層對象索引和高層語義索引。其中,低層特征可以自動地提取,中間層對象可以采用人工或半自動化(基于圖像識別技術)的方式進行標引,高層語義可以采用人工輸入方式進行標引。表1視頻對象與索引類型索引外部信息結(jié)構索引低層特征中間層對象高層語義對象索引索引

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論