數(shù)字視頻信息研究論文_第1頁
數(shù)字視頻信息研究論文_第2頁
數(shù)字視頻信息研究論文_第3頁
數(shù)字視頻信息研究論文_第4頁
數(shù)字視頻信息研究論文_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)字視頻信息研究論文 1、引言 視頻(Video)是源于廣播電視業(yè)的術(shù)語,指內(nèi)容隨著時(shí)間變化的圖像(Picture)序列,也稱為活動(dòng)圖像(MotionPicture)。廣義的視頻有電影、電視和計(jì)算機(jī)動(dòng)畫等不同類型,狹義上的視頻主要是指電視類視頻。 視頻是一種重要的視覺信息源。隨著各種數(shù)字影像設(shè)備的發(fā)展與遍及,以及多媒體技術(shù)和Internet的發(fā)展,人們面對(duì)的視頻信息種類迅速地增長(zhǎng),如電影、電視、視頻會(huì)議、監(jiān)控錄像等。僅中央電視臺(tái)(CCTV)截至2003年就保存有約30萬盤視頻節(jié)目,目前CCTV開設(shè)有15套節(jié)目(日播出量超過300小時(shí),其中約有1/3是首播節(jié)目)、6套付費(fèi)電視頻道,以每天保存80

2、90h的首播節(jié)目計(jì)算,每年新增節(jié)目將會(huì)達(dá)到3萬小時(shí)以上1。面對(duì)如此巨量的視頻信息,人們迫切希望改進(jìn)傳統(tǒng)的對(duì)視頻數(shù)據(jù)的線性查找方式,研發(fā)出能夠快速定位和部分析取的視頻數(shù)據(jù)獲取技術(shù)。要達(dá)到這樣的目標(biāo),首先需要將視頻數(shù)據(jù)有序化,即對(duì)視頻信息進(jìn)行有效的索引,使之便于檢索2。 從目前來看,數(shù)據(jù)庫信息、文本信息、圖形圖像信息的檢索已進(jìn)入成熟期,已有許多實(shí)用的檢索工具和產(chǎn)品,而視頻信息的檢索目前還處于研究階段,雖然已有一些實(shí)驗(yàn)原型和個(gè)別針對(duì)特定領(lǐng)域的檢索工具,但目前還無普遍實(shí)用的工具和產(chǎn)品。其主要原因是,與其他信息(如文本、圖像等)相比,視頻信息主要有如下一些特點(diǎn): (1)信息內(nèi)涵豐富; (2)無“顯式”的

3、結(jié)構(gòu); (3)存檔方式、視頻格式和編碼標(biāo)準(zhǔn)較多; (4)數(shù)據(jù)量大。 近年來,許多研究人員在文本信息、圖形圖像信息檢索技術(shù)的基礎(chǔ)上,對(duì)視頻信息檢索技術(shù)進(jìn)行了大量的研究,研究?jī)?nèi)容涉及視頻信息的存儲(chǔ)組織、內(nèi)容分析、特征抽取、索引方法、匹配算法、檢索算法、檢索結(jié)果的評(píng)估和視頻信息的表現(xiàn)形式等諸多方面。本文在分析視頻信息的隱含結(jié)構(gòu)基礎(chǔ)上,研究視頻信息的索引對(duì)象、索引模型和索引結(jié)構(gòu)。 2、視頻信息的隱含結(jié)構(gòu)與索引對(duì)象 目前的視頻文檔都是以節(jié)目(或稱為作品)為單位表現(xiàn)某個(gè)主題,其數(shù)據(jù)在組織時(shí)無“顯式”的結(jié)構(gòu)和索引信息(如同一本無目錄和章節(jié)標(biāo)題的書籍),用戶只能采用線性方式觀看和欣賞。傳統(tǒng)的視頻信息的消費(fèi)往往

4、是以節(jié)目為單位進(jìn)行的,即查找某一電視節(jié)目(電視片、廣告片、某場(chǎng)體育比賽等),但不同類型的用戶(消費(fèi)型、研究型、創(chuàng)作型和應(yīng)用型3),在不同的場(chǎng)合下(通過電視、網(wǎng)絡(luò)、PDA、移動(dòng)電話等)可能有不同的視頻消費(fèi)要求,即可能需要以鏡頭、場(chǎng)景或故事單元為單位進(jìn)行消費(fèi)。例如,籃球教練需要查找“姚明進(jìn)攻”的視頻鏡頭、司機(jī)在“塞車”時(shí)利用PDA收看某場(chǎng)足球比賽的精彩片段或畫面等等。所以,對(duì)視頻信息進(jìn)行“結(jié)構(gòu)化”,并針對(duì)不同的結(jié)構(gòu)層次對(duì)象進(jìn)行索引,是實(shí)現(xiàn)基于內(nèi)容的視頻信息檢索的基礎(chǔ)。 2.1視頻信息的隱含結(jié)構(gòu) 從形式上看,視頻信息本身是一種無“顯式”結(jié)構(gòu)的流媒體,即數(shù)據(jù)流本身無明顯的“章節(jié)、段落”結(jié)構(gòu),但從構(gòu)成和

5、語義上看,視頻信息蘊(yùn)涵著幀、鏡頭、場(chǎng)景、故事單元和節(jié)目這樣的層次型結(jié)構(gòu)。其中,幀、鏡頭和節(jié)目是視頻信息的物理組成成分,而場(chǎng)景和故事單元?jiǎng)t是語義上的邏輯組成成分。 視頻是內(nèi)容隨著時(shí)間變化的圖像序列,其最小組成單位是幀(Frame),即一幅幅靜止圖像;針對(duì)一個(gè)對(duì)象或事件的、攝像機(jī)一次拍攝產(chǎn)生的幀集合稱為一個(gè)鏡頭(Shot);發(fā)生在某一場(chǎng)地的、針對(duì)某一對(duì)象、具有相對(duì)獨(dú)立的敘事情節(jié)的一個(gè)或多個(gè)連續(xù)鏡頭構(gòu)成一個(gè)場(chǎng)景(Scene);故事單元(StoryUnit)是指針對(duì)某一事件的、具有相對(duì)完整的故事情節(jié)的一個(gè)或多個(gè)連續(xù)場(chǎng)景的集合,例如電視連續(xù)劇中的每一節(jié)節(jié)目、NBA比賽中的每一節(jié)比賽;節(jié)目(Program

6、)是獨(dú)立的完整的視頻文檔,通常表述一個(gè)完整的故事或事件。視頻信息的這種隱含結(jié)構(gòu),可用如下的數(shù)學(xué)模型表述: shotframe,ii1 sceneshotii1 story_unitscene,ii1 programstory_unit,ii1 2.2視頻索引對(duì)象的分割與選取 視頻信息蘊(yùn)涵著幀、鏡頭、場(chǎng)景、故事單元和節(jié)目這樣的層次型結(jié)構(gòu),為了滿足不同的應(yīng)用需求,視頻信息的索引應(yīng)在各個(gè)層次上分別展開,即對(duì)視頻信息的索引,不僅要以節(jié)目為對(duì)象,而且需要在視頻分割的基礎(chǔ)上以幀、鏡頭、場(chǎng)景和故事單元為對(duì)象分別進(jìn)行索引。節(jié)目和幀是視頻信息固有的自然層次,而鏡頭、場(chǎng)景和故事單元?jiǎng)t要通過對(duì)視頻內(nèi)容的分析、采用各

7、種算法進(jìn)行分割才能得到。 (1)幀對(duì)象的選取 雖然幀是視頻信息固有的自然層次,但一個(gè)視頻文檔由太多的幀組成(每秒2530幀),且?guī)g存在大量的信息冗余以及用戶不感興趣的幀圖像,這就需要采取一定的策略進(jìn)行幀的“選取”,找出一定數(shù)量的“代表幀”(也稱為“關(guān)鍵幀”)。 目前代表幀的選取大多是在鏡頭分割的基礎(chǔ)上,以鏡頭為單元分別進(jìn)行代表幀的選取,選取算法主要是以鏡頭的首幀、尾幀或中間幀為代表幀。筆者認(rèn)為,代表幀的選取還應(yīng)考慮兩個(gè)方面:一是對(duì)于不同體裁(類型)的視頻,應(yīng)采用不同的選取方法,且代表幀的數(shù)量也應(yīng)區(qū)別對(duì)待;二是可以通過幀圖像的相似性比較,對(duì)幀進(jìn)行聚類,從幀數(shù)最多的類中選取代表幀(因?yàn)槌掷m(xù)時(shí)間

8、長(zhǎng)的畫面往往更具有代表性)。 (2)鏡頭分割 鏡頭是視頻節(jié)目構(gòu)成的基本單元,也是視頻消費(fèi)時(shí)的最小邏輯單元。一個(gè)完整的視頻節(jié)目通常由若干個(gè)鏡頭組成,例如一部2小時(shí)的電影通常由數(shù)百個(gè)鏡頭組成。鏡頭之間的切換形式主要有突變和漸變兩大類,漸變又可分為隱現(xiàn)(Dissolve)、淡入/淡出(Fade)和擦除(Wipe)等不同類型,文獻(xiàn)4列出了常見的10種鏡頭變換形式,在實(shí)際的應(yīng)用中可能有上百種鏡頭變換效果。 采用人工方式進(jìn)行視頻分割是十分費(fèi)時(shí)的。近十多年來,電子工程和計(jì)算機(jī)科學(xué)等領(lǐng)域的學(xué)者從不同的角度研究出了多種自動(dòng)鏡頭檢測(cè)的方法,其基本思想大多為比較相鄰幀之間的相似性。目前鏡頭檢測(cè)技術(shù)的方法分類主要有以

9、下三種: 根據(jù)所處理的視頻是否為壓縮數(shù)據(jù)進(jìn)行分類,如文獻(xiàn)4所述,將鏡頭變換檢測(cè)方法分為基于解壓的全圖像序列的識(shí)別方法、直接基于壓縮視頻的識(shí)別方法和基于確定變換模型的識(shí)別方法; 根據(jù)檢測(cè)的鏡頭變換類型進(jìn)行分類,如文獻(xiàn)5所述,將鏡頭變換檢測(cè)方法分為突變檢測(cè)(HardCutDetection)、淡入/淡出檢測(cè)(FadeDetection)和隱現(xiàn)檢測(cè)(DissolveDetection)等類型; 根據(jù)檢測(cè)時(shí)所采用的視頻特征進(jìn)行分類,可以將鏡頭變換檢測(cè)方法分為基于亮度/顏色(Intensity/color)的檢測(cè)、基于紋理(Texture)的檢測(cè)、基于邊緣(Edges/contours)的檢測(cè)、基于運(yùn)動(dòng)

10、(Motion)信息的檢測(cè),等等。 鏡頭突變檢測(cè)的技術(shù)相對(duì)比較成熟,一般采用基于顏色直方圖比較法即可得到較高的準(zhǔn)確率。但對(duì)于形式多樣的漸變切換檢測(cè),通常需要采用多種檢測(cè)手段進(jìn)行綜合檢測(cè),這也是目前鏡頭檢測(cè)研究的難點(diǎn)和熱點(diǎn)之一。 (3)場(chǎng)景分割 場(chǎng)景是發(fā)生在某一場(chǎng)地或針對(duì)某一對(duì)象(或動(dòng)作)的、具有相對(duì)獨(dú)立的敘事情節(jié)的一個(gè)或多個(gè)連續(xù)鏡頭的集合。有時(shí)一個(gè)場(chǎng)景就是一個(gè)鏡頭,有時(shí)一個(gè)場(chǎng)景是從不同角度反映同一場(chǎng)地(或?qū)ο蠡騽?dòng)作)的多個(gè)鏡頭的組合。 目前場(chǎng)景分割(也可稱為場(chǎng)景構(gòu)建)一般是在鏡頭分割的基礎(chǔ)上,采用鏡頭聚集的方式實(shí)現(xiàn)。文獻(xiàn)6提出了一種通過構(gòu)造層次型“場(chǎng)景變換圖”的方法實(shí)現(xiàn)場(chǎng)景分割的思路,場(chǎng)景變換

11、圖中的結(jié)點(diǎn)表示鏡頭、邊表示變換,基于場(chǎng)景變換圖,利用顏色的相似性計(jì)算對(duì)鏡頭進(jìn)行層次聚類,形成的每一個(gè)子圖即為一個(gè)場(chǎng)景;文獻(xiàn)7提出了一種在鏡頭分割基礎(chǔ)上,利用運(yùn)動(dòng)信息(包括攝像機(jī)運(yùn)動(dòng)和對(duì)象運(yùn)動(dòng))、鏡頭長(zhǎng)度和顏色屬性進(jìn)行場(chǎng)景檢測(cè)的方法。 (4)故事單元分割 在影視制作過程中,導(dǎo)演根據(jù)劇本的內(nèi)容,按照敘述的邏輯并根據(jù)創(chuàng)作意圖,合乎邏輯地、富有表現(xiàn)力地、有節(jié)奏地把鏡頭連接起來,構(gòu)成完整的銀幕形象,形成比鏡頭更高一級(jí)的結(jié)構(gòu)故事單元8。故事單元是指針對(duì)某一事件的、具有相對(duì)完整的故事情節(jié)的一個(gè)或多個(gè)連續(xù)場(chǎng)景(鏡頭)的集合。故事單元分割的基本思想也是在鏡頭分割的基礎(chǔ)上,結(jié)合領(lǐng)域知識(shí)對(duì)鏡頭(或場(chǎng)景)進(jìn)行聚類分析

12、。 故事單元的理解主要是從語義層次上進(jìn)行的,其長(zhǎng)度(大?。┎]有確切的定義和界限,需要更多地考慮視頻節(jié)目的類型、體裁等領(lǐng)域知識(shí)。對(duì)于不同類型的視頻節(jié)目,其故事單元的劃分有不同的形式。例如,對(duì)于電視連續(xù)劇,可以將每一集看作一個(gè)故事單元;對(duì)于體育節(jié)目,可以根據(jù)其本身所固有的時(shí)間間隔進(jìn)行分割,或根據(jù)主要事件(如得分、進(jìn)球等)進(jìn)行分割等。 2.3視頻索引對(duì)象的數(shù)據(jù)結(jié)構(gòu) 數(shù)據(jù)模型是直接面向計(jì)算機(jī)系統(tǒng)(數(shù)據(jù)庫)中數(shù)據(jù)的邏輯結(jié)構(gòu)。在常見的數(shù)據(jù)庫系統(tǒng)中,根據(jù)實(shí)體集之間的不同結(jié)構(gòu),通常把數(shù)據(jù)模型分為層次模型、網(wǎng)狀模型、關(guān)系模型和面向?qū)ο竽P退姆N。目前成熟的、主流的數(shù)據(jù)庫管理系統(tǒng)絕大多數(shù)是采用關(guān)系模型,并在此基礎(chǔ)

13、上擴(kuò)展了面向?qū)ο蟮某绦蛟O(shè)計(jì)功能。鑒于這種情況,可以考慮視頻索引對(duì)象的數(shù)據(jù)結(jié)構(gòu)采用如下的關(guān)系數(shù)據(jù)模式: 節(jié)目Program(節(jié)目號(hào)pNO,索引信息p) 故事單元StoryUnit(節(jié)目號(hào)pNo,故事單元號(hào)uNO,索引信息u) 場(chǎng)景Scene(節(jié)目號(hào)pNo,故事單元號(hào)uNO,場(chǎng)景號(hào)eNO,索引信息e) 鏡頭Shot(節(jié)目號(hào)pNo,故事單元號(hào)uNO,場(chǎng)景號(hào)eNO,鏡頭號(hào)sNO,索引信息s) 代表幀KeyFrame(節(jié)目號(hào)pNo,故事單元號(hào)uNO,場(chǎng)景號(hào)eNO,鏡頭號(hào)sNO,幀號(hào)fNO,索引信息f) 在實(shí)現(xiàn)時(shí),節(jié)目號(hào)由分類號(hào)和編號(hào)兩部分組成,其中分類號(hào)應(yīng)采用類似于中圖分類號(hào)的編碼體系,分類方法可參考T

14、VAnytime論壇制定的分類策略(SP003v1312);故事單元號(hào)、場(chǎng)景號(hào)、鏡頭號(hào)和幀號(hào)可采用視頻片段的起止時(shí)間碼(SMPTE使用的時(shí)間碼格式為:小時(shí):分鐘:秒:幀);各索引對(duì)象的索引信息可根據(jù)后續(xù)討論的索引模型創(chuàng)建。 3、視頻信息的索引模型 3.1視頻信息的內(nèi)容模型 視頻包含有豐富的信息內(nèi)容,針對(duì)同一段視頻,不同的人、在不同的情形之下觀看,通常有不同的感受,即使是同一個(gè)人多次觀看同一段視頻,往往也會(huì)有不同的感受。針對(duì)視頻所包含的信息內(nèi)容,許多學(xué)者從不同的學(xué)科出發(fā),對(duì)其進(jìn)行了較為深入的研究。其中,較有代表性的是文獻(xiàn)9提出的視頻內(nèi)容分類模型,如圖2所示。 該模型根據(jù)人類視覺感知和認(rèn)識(shí)事物的規(guī)

15、律,將視頻內(nèi)容分為三個(gè)層次:第一層(低層)為用戶觀看視頻時(shí)首先感知的視覺信息,如顏色、紋理、形狀、運(yùn)動(dòng)等;第二層(中間層)為通過邏輯推理而得的、基于對(duì)象(Object)的感知信息,如視頻中包含(描述)的人物、地點(diǎn)、時(shí)間等;第三層(高層)為通過智能推理而得的、基于知識(shí)(Knowledge)的感知信息,它反映了視頻本身的語義,以及由此而來的感受,如某視頻片段為暴力鏡頭、歡慶場(chǎng)景、劫機(jī)事件等等。這種視頻內(nèi)容建模方式為基于內(nèi)容的視頻信息索引提供了有益的指導(dǎo)。 3.2視頻信息的描述需求與索引模型 視頻信息內(nèi)涵的豐富性、用戶檢索需求的多樣性,決定了在對(duì)視頻信息進(jìn)行索引時(shí),應(yīng)盡可能地從各個(gè)層次和側(cè)面進(jìn)行全方

16、位的描述。根據(jù)MPEG7的目標(biāo)要求10,對(duì)視頻信息的描述至少應(yīng)包括如下的信息: (1)有關(guān)內(nèi)容的產(chǎn)生和發(fā)展進(jìn)程的描述信息(如導(dǎo)演/作者、標(biāo)題、版本等); (2)與內(nèi)容使用有關(guān)的信息(如版權(quán)、使用歷程、宣傳計(jì)劃等); (3)有關(guān)內(nèi)容存儲(chǔ)特性的信息(如存儲(chǔ)格式、編碼等); (4)有關(guān)內(nèi)容的低層特性的信息(如顏色、紋理、音質(zhì)、音調(diào)描述等); (5)從內(nèi)容捕捉到的實(shí)體的概念化信息(如對(duì)象和事件,對(duì)象間的交互作用等); (6)利于瀏覽視頻內(nèi)容的信息(如概要、變更、空間和頻率等); (7)關(guān)于用戶和內(nèi)容交互作用的信息(如用戶選擇、使用歷史等)。 根據(jù)MPEG7提出的描述要求及視頻內(nèi)容分類模型,可以考慮采用

17、如圖3所示的視頻索引模型。 在該索引模型中,視頻信息的索引分為外部信息索引和基于內(nèi)容的索引。 外部信息索引是指基于視頻文檔外部的、不依賴于其內(nèi)容的信息索引,用于視頻文檔的標(biāo)識(shí)和檢索,如標(biāo)題、作者、時(shí)間、文檔大小、存儲(chǔ)格式與編碼格式、使用信息(軟硬件要求、使用要求、版權(quán)等)等等。 基于內(nèi)容的索引又可以分為結(jié)構(gòu)索引、低層特征索引、中間層對(duì)象索引和高層語義索引,后三種索引與圖2所示的視頻內(nèi)容模型相對(duì)應(yīng)。結(jié)構(gòu)索引是指節(jié)目、場(chǎng)景、鏡頭、幀之間的層次結(jié)構(gòu)與關(guān)系等;低層特征索引是基于視頻信息的物理特征信息(如顏色、紋理、運(yùn)動(dòng)、音質(zhì)、音調(diào)等)進(jìn)行索引;中間層的索引是對(duì)視頻中可識(shí)別對(duì)象(如時(shí)間、地點(diǎn)、人物等)的

18、索引;高層語義索引用于描述視頻中包含的事件及相關(guān)的感受。 3.3視頻對(duì)象與索引類型的關(guān)系 不同(層次)的視頻對(duì)象對(duì)應(yīng)著不同的索引,其對(duì)應(yīng)關(guān)系如表1所示。 幀的索引包含低層特征索引、中間層對(duì)象索引和高層語義索引。其中,低層特征可以自動(dòng)地提取,中間層對(duì)象可以采用人工或半自動(dòng)化(基于圖像識(shí)別技術(shù))的方式進(jìn)行標(biāo)引,高層語義可以采用人工輸入方式進(jìn)行標(biāo)引。 表1視頻對(duì)象與索引類型索引 外部信息結(jié)構(gòu)索引低層特征中間層對(duì)象高層語義 對(duì)象索引索引索引索引 (代表幀) 鏡頭 場(chǎng)景 故事單元 節(jié)目 鏡頭的索引主要是中間層對(duì)象索引和高層語義索引。其中,鏡頭的中間層對(duì)象描述是在幀的中間層對(duì)象描述基礎(chǔ)上進(jìn)行擴(kuò)充,高層語義

19、可以采用人工輸入與自動(dòng)提?。ㄖ饕侵咐谜Z音識(shí)別與文字識(shí)別等技術(shù)直接從視頻信息中提取)相結(jié)合的方式生成。 場(chǎng)景和故事單元的索引主要有結(jié)構(gòu)索引和高層語義索引。其結(jié)構(gòu)索引用于描述鏡頭之間的關(guān)系,高層語義索引描述的是在鏡頭語義基礎(chǔ)上形成的敘事(故事)情節(jié)。 節(jié)目的索引包含外部信息索引、結(jié)構(gòu)索引和高層語義索引。 3.4索引類型與檢索方式的關(guān)系 視頻信息的檢索主要有三種類型,即結(jié)合在線相關(guān)反饋機(jī)制的基于示例的檢索(Query-by-Example)、基于關(guān)鍵詞檢索(Query-by-Keyword)和基于導(dǎo)航機(jī)制的視頻瀏覽(VideoBrowsing),它們與索引類型的對(duì)應(yīng)關(guān)系如表2所示。 表2檢索方式

20、與索引類型 索引外部信息結(jié)構(gòu)索引低層特征中間層對(duì)高層語義 索引索引象索引索引 檢索方式 示例的檢索 關(guān)鍵詞檢索 視頻瀏覽 4、存在的問題及探討 面對(duì)急劇增長(zhǎng)的視頻信息,如何高效且合理地對(duì)其進(jìn)行索引是視頻信息重用和消費(fèi)的基礎(chǔ)。雖然近年來的研究已取得不少的進(jìn)展,但仍然存在許多有待解決的問題。有些問題是屬于“技術(shù)”層面的,如視頻分割、代表幀提取、圖像理解、文字識(shí)別、語音識(shí)別等,有些問題是屬于“非技術(shù)”層面的,如視頻元數(shù)據(jù)標(biāo)準(zhǔn)、文本描述的規(guī)范性、視頻作品的規(guī)范化等。下面就一些“非技術(shù)性”問題進(jìn)行探討。 4.1視頻信息的元數(shù)據(jù)標(biāo)準(zhǔn) 信息的索引描述是信息的元數(shù)據(jù),索引項(xiàng)的確立依賴于元數(shù)據(jù)標(biāo)準(zhǔn)的制定。針對(duì)不

21、同的資源類型、不同的用途、不同的機(jī)構(gòu)建立了多種不同的元數(shù)據(jù)標(biāo)準(zhǔn)。隨著數(shù)字視頻技術(shù)的發(fā)展,針對(duì)數(shù)字視頻信息的元數(shù)據(jù)研究也在不斷地深入,并已出現(xiàn)了一些基于不同目標(biāo)的元數(shù)據(jù)模式或標(biāo)準(zhǔn),如數(shù)字電視元數(shù)據(jù)標(biāo)準(zhǔn)(DVB-SI、TV-Anytime和SMPTE等)、視頻軟硬件廠商推出的元數(shù)據(jù)標(biāo)準(zhǔn)(Apple公司的QuickTime、Microsoft公司的WindowsMedia等)以及MPEG-7等11。 由于視頻信息本身固有的復(fù)雜性,使得視頻信息在創(chuàng)建、存儲(chǔ)、傳輸和使用等過程中需要不同的管理信息(元數(shù)據(jù))。筆者認(rèn)為,根據(jù)視頻元數(shù)據(jù)的發(fā)展現(xiàn)狀,在研究和制定元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)應(yīng)注意三點(diǎn):一是這些元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)整合在

22、統(tǒng)一的框架之內(nèi),在統(tǒng)一的視頻元數(shù)據(jù)框架基礎(chǔ)上形成面向不同應(yīng)用的子集;二是視頻元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)適應(yīng)MPEG制定的“多媒體描述框架”MPEG-7標(biāo)準(zhǔn);三是采用通用的XML語言語法。 4.2文本索引信息的規(guī)范性 雖然基于示例的視頻檢索是最簡(jiǎn)便的檢索手段,但用戶往往不會(huì)有現(xiàn)成的示例,且目前現(xiàn)有技術(shù)很難高效地為普通用戶提供一個(gè)初始查詢示例。目前來看,利用文本信息對(duì)視頻信息進(jìn)行索引(即基于關(guān)鍵字的視頻檢索),既符合一般用戶的檢索習(xí)慣,又可借助日趨成熟的文本檢索技術(shù)。文獻(xiàn)3較為深入地探討了基于文本信息的視頻索引及其相關(guān)技術(shù),特別是文本信息獲取的途徑。 在采用文本信息對(duì)視頻信息進(jìn)行索引(包含外部信息索引、中間層對(duì)

23、象索引和語義索引)時(shí),無論這些文本信息是人工輸入的,還是自動(dòng)提取或生成的,均需要考慮文本描述的規(guī)范性,即如何對(duì)視頻信息的某種特征和屬性(如視頻節(jié)目的類型、流派等)進(jìn)行表述。對(duì)此應(yīng)從兩個(gè)方面進(jìn)行研究并制定相關(guān)的標(biāo)準(zhǔn):一是對(duì)于一些可面向所有視頻文檔的通用屬性,應(yīng)建立相關(guān)的分類標(biāo)準(zhǔn)和詞匯表,目前TVAnytime論壇在這方面已做出了開創(chuàng)性工作,在其已制定的元數(shù)據(jù)規(guī)范(SP003v13)中已經(jīng)定義了一個(gè)獨(dú)特的文檔結(jié)構(gòu)來綜合節(jié)目描述、用戶描述、分類策略12;二是對(duì)于特定類型的視頻節(jié)目(如各種體育比賽),應(yīng)建立相關(guān)的對(duì)象、事件描述標(biāo)準(zhǔn)和詞匯表。 4.3視頻文檔的規(guī)范化 目前文本文檔的論文格式規(guī)范和著錄標(biāo)準(zhǔn)

24、(例如章節(jié)、標(biāo)題的格式,每一篇論文均需要給出標(biāo)題、作者、摘要、關(guān)鍵詞,等等),為文本文檔的管理、索引、檢索和瀏覽等帶來了極大的便利。 對(duì)于視頻作品(文檔)來說,也應(yīng)該且急需制定出相應(yīng)的視頻文檔規(guī)范,這包括兩個(gè)方面:一是規(guī)定視頻作品必須有著錄標(biāo)準(zhǔn),應(yīng)能提供相應(yīng)的視頻摘要(文本的、圖像的、視頻的)、關(guān)鍵詞(關(guān)鍵幀)等元數(shù)據(jù),作者和相關(guān)的制作人員對(duì)作品的理解最深、主題把握最準(zhǔn),由這些人員給出的相關(guān)信息(元數(shù)據(jù))顯然是最為有效的視頻索引信息;二是應(yīng)制定視頻文檔的格式規(guī)范,也能像文本文檔一樣提供結(jié)構(gòu)化的信息,包括視頻的組織、結(jié)構(gòu)層次等信息。要解決視頻文檔的規(guī)范化問題,需要從兩個(gè)方面努力:一是各種規(guī)范和標(biāo)

25、準(zhǔn);二是開發(fā)相應(yīng)的視頻“寫作”工具。 5、結(jié)語 隨著計(jì)算機(jī)處理能力、網(wǎng)絡(luò)帶寬和多媒體技術(shù)的發(fā)展,視頻信息越來越成為人們消費(fèi)信息資源的主要形式之一。如何高效且合理地對(duì)視頻信息進(jìn)行分析、組織和索引,以便于檢索和重用,需要多個(gè)學(xué)科人員的共同努力。目前的研究大多集中在對(duì)現(xiàn)有視頻信息進(jìn)行分析與處理,以解決現(xiàn)有視頻信息的利用等問題上。筆者認(rèn)為,未來視頻信息的增長(zhǎng)將會(huì)越來越快,對(duì)于視頻信息組織與管理的研究,更需要重視新視頻標(biāo)準(zhǔn)的制定,即盡快制定出全新的、便于管理和使用的視頻文檔格式和制作規(guī)范,從根本上解決視頻信息的“無結(jié)構(gòu)”問題,并為視頻索引和檢索提供有用的信息。 【參考文獻(xiàn)】 1宋宜純.CCTV音像資料館業(yè)務(wù)系統(tǒng)的技術(shù)特點(diǎn).http:/www.tech-/broadcast/journal/ibi/00316985.html(AccessedDec.10,2004) 2蘇新寧.視頻信息索引技術(shù)研究進(jìn)展.情報(bào)學(xué)報(bào),2004(4):410416 3嚴(yán)明,秦嘉杭.基于文本信息的數(shù)字視頻檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論