數(shù)字視頻信息研究論文

上傳人：瑪*** IP屬地：四川上傳時(shí)間：2021-08-17 格式：DOC 頁數(shù)：17 大?。?2KB 積分：9.6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩12頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)字視頻信息研究論文 1、引言視頻（Video）是源于廣播電視業(yè)的術(shù)語，指內(nèi)容隨著時(shí)間變化的圖像（Picture）序列，也稱為活動(dòng)圖像（MotionPicture）。廣義的視頻有電影、電視和計(jì)算機(jī)動(dòng)畫等不同類型，狹義上的視頻主要是指電視類視頻。視頻是一種重要的視覺信息源。隨著各種數(shù)字影像設(shè)備的發(fā)展與遍及，以及多媒體技術(shù)和Internet的發(fā)展，人們面對(duì)的視頻信息種類迅速地增長(zhǎng)，如電影、電視、視頻會(huì)議、監(jiān)控錄像等。僅中央電視臺(tái)（CCTV）截至2003年就保存有約30萬盤視頻節(jié)目，目前CCTV開設(shè)有15套節(jié)目（日播出量超過300小時(shí)，其中約有1/3是首播節(jié)目）、6套付費(fèi)電視頻道，以每天保存80

2、90h的首播節(jié)目計(jì)算，每年新增節(jié)目將會(huì)達(dá)到3萬小時(shí)以上1。面對(duì)如此巨量的視頻信息，人們迫切希望改進(jìn)傳統(tǒng)的對(duì)視頻數(shù)據(jù)的線性查找方式，研發(fā)出能夠快速定位和部分析取的視頻數(shù)據(jù)獲取技術(shù)。要達(dá)到這樣的目標(biāo)，首先需要將視頻數(shù)據(jù)有序化，即對(duì)視頻信息進(jìn)行有效的索引，使之便于檢索2。從目前來看，數(shù)據(jù)庫信息、文本信息、圖形圖像信息的檢索已進(jìn)入成熟期，已有許多實(shí)用的檢索工具和產(chǎn)品，而視頻信息的檢索目前還處于研究階段，雖然已有一些實(shí)驗(yàn)原型和個(gè)別針對(duì)特定領(lǐng)域的檢索工具，但目前還無普遍實(shí)用的工具和產(chǎn)品。其主要原因是，與其他信息（如文本、圖像等）相比，視頻信息主要有如下一些特點(diǎn)：（1）信息內(nèi)涵豐富；（2）無“顯式”的

3、結(jié)構(gòu)；（3）存檔方式、視頻格式和編碼標(biāo)準(zhǔn)較多；（4）數(shù)據(jù)量大。近年來，許多研究人員在文本信息、圖形圖像信息檢索技術(shù)的基礎(chǔ)上，對(duì)視頻信息檢索技術(shù)進(jìn)行了大量的研究，研究?jī)?nèi)容涉及視頻信息的存儲(chǔ)組織、內(nèi)容分析、特征抽取、索引方法、匹配算法、檢索算法、檢索結(jié)果的評(píng)估和視頻信息的表現(xiàn)形式等諸多方面。本文在分析視頻信息的隱含結(jié)構(gòu)基礎(chǔ)上，研究視頻信息的索引對(duì)象、索引模型和索引結(jié)構(gòu)。 2、視頻信息的隱含結(jié)構(gòu)與索引對(duì)象目前的視頻文檔都是以節(jié)目（或稱為作品）為單位表現(xiàn)某個(gè)主題，其數(shù)據(jù)在組織時(shí)無“顯式”的結(jié)構(gòu)和索引信息（如同一本無目錄和章節(jié)標(biāo)題的書籍），用戶只能采用線性方式觀看和欣賞。傳統(tǒng)的視頻信息的消費(fèi)往往

4、是以節(jié)目為單位進(jìn)行的，即查找某一電視節(jié)目（電視片、廣告片、某場(chǎng)體育比賽等），但不同類型的用戶（消費(fèi)型、研究型、創(chuàng)作型和應(yīng)用型3），在不同的場(chǎng)合下（通過電視、網(wǎng)絡(luò)、PDA、移動(dòng)電話等）可能有不同的視頻消費(fèi)要求，即可能需要以鏡頭、場(chǎng)景或故事單元為單位進(jìn)行消費(fèi)。例如，籃球教練需要查找“姚明進(jìn)攻”的視頻鏡頭、司機(jī)在“塞車”時(shí)利用PDA收看某場(chǎng)足球比賽的精彩片段或畫面等等。所以，對(duì)視頻信息進(jìn)行“結(jié)構(gòu)化”，并針對(duì)不同的結(jié)構(gòu)層次對(duì)象進(jìn)行索引，是實(shí)現(xiàn)基于內(nèi)容的視頻信息檢索的基礎(chǔ)。 2.1視頻信息的隱含結(jié)構(gòu) 從形式上看，視頻信息本身是一種無“顯式”結(jié)構(gòu)的流媒體，即數(shù)據(jù)流本身無明顯的“章節(jié)、段落”結(jié)構(gòu)，但從構(gòu)成和

5、語義上看，視頻信息蘊(yùn)涵著幀、鏡頭、場(chǎng)景、故事單元和節(jié)目這樣的層次型結(jié)構(gòu)。其中，幀、鏡頭和節(jié)目是視頻信息的物理組成成分，而場(chǎng)景和故事單元?jiǎng)t是語義上的邏輯組成成分。視頻是內(nèi)容隨著時(shí)間變化的圖像序列，其最小組成單位是幀（Frame），即一幅幅靜止圖像；針對(duì)一個(gè)對(duì)象或事件的、攝像機(jī)一次拍攝產(chǎn)生的幀集合稱為一個(gè)鏡頭（Shot）；發(fā)生在某一場(chǎng)地的、針對(duì)某一對(duì)象、具有相對(duì)獨(dú)立的敘事情節(jié)的一個(gè)或多個(gè)連續(xù)鏡頭構(gòu)成一個(gè)場(chǎng)景（Scene）；故事單元（StoryUnit）是指針對(duì)某一事件的、具有相對(duì)完整的故事情節(jié)的一個(gè)或多個(gè)連續(xù)場(chǎng)景的集合，例如電視連續(xù)劇中的每一節(jié)節(jié)目、NBA比賽中的每一節(jié)比賽；節(jié)目（Program

6、）是獨(dú)立的完整的視頻文檔，通常表述一個(gè)完整的故事或事件。視頻信息的這種隱含結(jié)構(gòu)，可用如下的數(shù)學(xué)模型表述： shotframe，ii1 sceneshotii1 story_unitscene，ii1 programstory_unit，ii1 2.2視頻索引對(duì)象的分割與選取視頻信息蘊(yùn)涵著幀、鏡頭、場(chǎng)景、故事單元和節(jié)目這樣的層次型結(jié)構(gòu)，為了滿足不同的應(yīng)用需求，視頻信息的索引應(yīng)在各個(gè)層次上分別展開，即對(duì)視頻信息的索引，不僅要以節(jié)目為對(duì)象，而且需要在視頻分割的基礎(chǔ)上以幀、鏡頭、場(chǎng)景和故事單元為對(duì)象分別進(jìn)行索引。節(jié)目和幀是視頻信息固有的自然層次，而鏡頭、場(chǎng)景和故事單元?jiǎng)t要通過對(duì)視頻內(nèi)容的分析、采用各

7、種算法進(jìn)行分割才能得到。（1）幀對(duì)象的選取雖然幀是視頻信息固有的自然層次，但一個(gè)視頻文檔由太多的幀組成（每秒2530幀），且?guī)g存在大量的信息冗余以及用戶不感興趣的幀圖像，這就需要采取一定的策略進(jìn)行幀的“選取”，找出一定數(shù)量的“代表幀”（也稱為“關(guān)鍵幀”）。目前代表幀的選取大多是在鏡頭分割的基礎(chǔ)上，以鏡頭為單元分別進(jìn)行代表幀的選取，選取算法主要是以鏡頭的首幀、尾幀或中間幀為代表幀。筆者認(rèn)為，代表幀的選取還應(yīng)考慮兩個(gè)方面：一是對(duì)于不同體裁（類型）的視頻，應(yīng)采用不同的選取方法，且代表幀的數(shù)量也應(yīng)區(qū)別對(duì)待；二是可以通過幀圖像的相似性比較，對(duì)幀進(jìn)行聚類，從幀數(shù)最多的類中選取代表幀（因?yàn)槌掷m(xù)時(shí)間

8、長(zhǎng)的畫面往往更具有代表性）。（2）鏡頭分割鏡頭是視頻節(jié)目構(gòu)成的基本單元，也是視頻消費(fèi)時(shí)的最小邏輯單元。一個(gè)完整的視頻節(jié)目通常由若干個(gè)鏡頭組成，例如一部2小時(shí)的電影通常由數(shù)百個(gè)鏡頭組成。鏡頭之間的切換形式主要有突變和漸變兩大類，漸變又可分為隱現(xiàn)（Dissolve）、淡入/淡出（Fade）和擦除（Wipe）等不同類型，文獻(xiàn)4列出了常見的10種鏡頭變換形式，在實(shí)際的應(yīng)用中可能有上百種鏡頭變換效果。采用人工方式進(jìn)行視頻分割是十分費(fèi)時(shí)的。近十多年來，電子工程和計(jì)算機(jī)科學(xué)等領(lǐng)域的學(xué)者從不同的角度研究出了多種自動(dòng)鏡頭檢測(cè)的方法，其基本思想大多為比較相鄰幀之間的相似性。目前鏡頭檢測(cè)技術(shù)的方法分類主要有以

9、下三種：根據(jù)所處理的視頻是否為壓縮數(shù)據(jù)進(jìn)行分類，如文獻(xiàn)4所述，將鏡頭變換檢測(cè)方法分為基于解壓的全圖像序列的識(shí)別方法、直接基于壓縮視頻的識(shí)別方法和基于確定變換模型的識(shí)別方法；根據(jù)檢測(cè)的鏡頭變換類型進(jìn)行分類，如文獻(xiàn)5所述，將鏡頭變換檢測(cè)方法分為突變檢測(cè)（HardCutDetection）、淡入/淡出檢測(cè)（FadeDetection）和隱現(xiàn)檢測(cè)（DissolveDetection）等類型；根據(jù)檢測(cè)時(shí)所采用的視頻特征進(jìn)行分類，可以將鏡頭變換檢測(cè)方法分為基于亮度/顏色（Intensity/color）的檢測(cè)、基于紋理（Texture）的檢測(cè)、基于邊緣（Edges/contours）的檢測(cè)、基于運(yùn)動(dòng)

10、（Motion）信息的檢測(cè)，等等。鏡頭突變檢測(cè)的技術(shù)相對(duì)比較成熟，一般采用基于顏色直方圖比較法即可得到較高的準(zhǔn)確率。但對(duì)于形式多樣的漸變切換檢測(cè)，通常需要采用多種檢測(cè)手段進(jìn)行綜合檢測(cè)，這也是目前鏡頭檢測(cè)研究的難點(diǎn)和熱點(diǎn)之一。（3）場(chǎng)景分割場(chǎng)景是發(fā)生在某一場(chǎng)地或針對(duì)某一對(duì)象（或動(dòng)作）的、具有相對(duì)獨(dú)立的敘事情節(jié)的一個(gè)或多個(gè)連續(xù)鏡頭的集合。有時(shí)一個(gè)場(chǎng)景就是一個(gè)鏡頭，有時(shí)一個(gè)場(chǎng)景是從不同角度反映同一場(chǎng)地（或?qū)ο蠡騽?dòng)作）的多個(gè)鏡頭的組合。目前場(chǎng)景分割（也可稱為場(chǎng)景構(gòu)建）一般是在鏡頭分割的基礎(chǔ)上，采用鏡頭聚集的方式實(shí)現(xiàn)。文獻(xiàn)6提出了一種通過構(gòu)造層次型“場(chǎng)景變換圖”的方法實(shí)現(xiàn)場(chǎng)景分割的思路，場(chǎng)景變換

11、圖中的結(jié)點(diǎn)表示鏡頭、邊表示變換，基于場(chǎng)景變換圖，利用顏色的相似性計(jì)算對(duì)鏡頭進(jìn)行層次聚類，形成的每一個(gè)子圖即為一個(gè)場(chǎng)景；文獻(xiàn)7提出了一種在鏡頭分割基礎(chǔ)上，利用運(yùn)動(dòng)信息（包括攝像機(jī)運(yùn)動(dòng)和對(duì)象運(yùn)動(dòng)）、鏡頭長(zhǎng)度和顏色屬性進(jìn)行場(chǎng)景檢測(cè)的方法。（4）故事單元分割在影視制作過程中，導(dǎo)演根據(jù)劇本的內(nèi)容，按照敘述的邏輯并根據(jù)創(chuàng)作意圖，合乎邏輯地、富有表現(xiàn)力地、有節(jié)奏地把鏡頭連接起來，構(gòu)成完整的銀幕形象，形成比鏡頭更高一級(jí)的結(jié)構(gòu)故事單元8。故事單元是指針對(duì)某一事件的、具有相對(duì)完整的故事情節(jié)的一個(gè)或多個(gè)連續(xù)場(chǎng)景（鏡頭）的集合。故事單元分割的基本思想也是在鏡頭分割的基礎(chǔ)上，結(jié)合領(lǐng)域知識(shí)對(duì)鏡頭（或場(chǎng)景）進(jìn)行聚類分析

12、。故事單元的理解主要是從語義層次上進(jìn)行的，其長(zhǎng)度（大?。┎]有確切的定義和界限，需要更多地考慮視頻節(jié)目的類型、體裁等領(lǐng)域知識(shí)。對(duì)于不同類型的視頻節(jié)目，其故事單元的劃分有不同的形式。例如，對(duì)于電視連續(xù)劇，可以將每一集看作一個(gè)故事單元；對(duì)于體育節(jié)目，可以根據(jù)其本身所固有的時(shí)間間隔進(jìn)行分割，或根據(jù)主要事件（如得分、進(jìn)球等）進(jìn)行分割等。 2.3視頻索引對(duì)象的數(shù)據(jù)結(jié)構(gòu) 數(shù)據(jù)模型是直接面向計(jì)算機(jī)系統(tǒng)（數(shù)據(jù)庫）中數(shù)據(jù)的邏輯結(jié)構(gòu)。在常見的數(shù)據(jù)庫系統(tǒng)中，根據(jù)實(shí)體集之間的不同結(jié)構(gòu)，通常把數(shù)據(jù)模型分為層次模型、網(wǎng)狀模型、關(guān)系模型和面向?qū)ο竽Ｐ退姆N。目前成熟的、主流的數(shù)據(jù)庫管理系統(tǒng)絕大多數(shù)是采用關(guān)系模型，并在此基礎(chǔ)

13、上擴(kuò)展了面向?qū)ο蟮某绦蛟O(shè)計(jì)功能。鑒于這種情況，可以考慮視頻索引對(duì)象的數(shù)據(jù)結(jié)構(gòu)采用如下的關(guān)系數(shù)據(jù)模式：節(jié)目Program（節(jié)目號(hào)pNO，索引信息p）故事單元StoryUnit（節(jié)目號(hào)pNo，故事單元號(hào)uNO，索引信息u）場(chǎng)景Scene（節(jié)目號(hào)pNo，故事單元號(hào)uNO，場(chǎng)景號(hào)eNO，索引信息e）鏡頭Shot（節(jié)目號(hào)pNo，故事單元號(hào)uNO，場(chǎng)景號(hào)eNO，鏡頭號(hào)sNO，索引信息s）代表幀KeyFrame（節(jié)目號(hào)pNo，故事單元號(hào)uNO，場(chǎng)景號(hào)eNO，鏡頭號(hào)sNO，幀號(hào)fNO，索引信息f）在實(shí)現(xiàn)時(shí)，節(jié)目號(hào)由分類號(hào)和編號(hào)兩部分組成，其中分類號(hào)應(yīng)采用類似于中圖分類號(hào)的編碼體系，分類方法可參考T

14、VAnytime論壇制定的分類策略（SP003v1312）；故事單元號(hào)、場(chǎng)景號(hào)、鏡頭號(hào)和幀號(hào)可采用視頻片段的起止時(shí)間碼（SMPTE使用的時(shí)間碼格式為：小時(shí)：分鐘：秒：幀）；各索引對(duì)象的索引信息可根據(jù)后續(xù)討論的索引模型創(chuàng)建。 3、視頻信息的索引模型 3.1視頻信息的內(nèi)容模型視頻包含有豐富的信息內(nèi)容，針對(duì)同一段視頻，不同的人、在不同的情形之下觀看，通常有不同的感受，即使是同一個(gè)人多次觀看同一段視頻，往往也會(huì)有不同的感受。針對(duì)視頻所包含的信息內(nèi)容，許多學(xué)者從不同的學(xué)科出發(fā)，對(duì)其進(jìn)行了較為深入的研究。其中，較有代表性的是文獻(xiàn)9提出的視頻內(nèi)容分類模型，如圖2所示。該模型根據(jù)人類視覺感知和認(rèn)識(shí)事物的規(guī)

15、律，將視頻內(nèi)容分為三個(gè)層次：第一層（低層）為用戶觀看視頻時(shí)首先感知的視覺信息，如顏色、紋理、形狀、運(yùn)動(dòng)等；第二層（中間層）為通過邏輯推理而得的、基于對(duì)象（Object）的感知信息，如視頻中包含（描述）的人物、地點(diǎn)、時(shí)間等；第三層（高層）為通過智能推理而得的、基于知識(shí)（Knowledge）的感知信息，它反映了視頻本身的語義，以及由此而來的感受，如某視頻片段為暴力鏡頭、歡慶場(chǎng)景、劫機(jī)事件等等。這種視頻內(nèi)容建模方式為基于內(nèi)容的視頻信息索引提供了有益的指導(dǎo)。 3.2視頻信息的描述需求與索引模型視頻信息內(nèi)涵的豐富性、用戶檢索需求的多樣性，決定了在對(duì)視頻信息進(jìn)行索引時(shí)，應(yīng)盡可能地從各個(gè)層次和側(cè)面進(jìn)行全方

16、位的描述。根據(jù)MPEG7的目標(biāo)要求10，對(duì)視頻信息的描述至少應(yīng)包括如下的信息：（1）有關(guān)內(nèi)容的產(chǎn)生和發(fā)展進(jìn)程的描述信息（如導(dǎo)演/作者、標(biāo)題、版本等）；（2）與內(nèi)容使用有關(guān)的信息（如版權(quán)、使用歷程、宣傳計(jì)劃等）；（3）有關(guān)內(nèi)容存儲(chǔ)特性的信息（如存儲(chǔ)格式、編碼等）；（4）有關(guān)內(nèi)容的低層特性的信息（如顏色、紋理、音質(zhì)、音調(diào)描述等）；（5）從內(nèi)容捕捉到的實(shí)體的概念化信息（如對(duì)象和事件，對(duì)象間的交互作用等）；（6）利于瀏覽視頻內(nèi)容的信息（如概要、變更、空間和頻率等）；（7）關(guān)于用戶和內(nèi)容交互作用的信息（如用戶選擇、使用歷史等）。根據(jù)MPEG7提出的描述要求及視頻內(nèi)容分類模型，可以考慮采用

17、如圖3所示的視頻索引模型。在該索引模型中，視頻信息的索引分為外部信息索引和基于內(nèi)容的索引。外部信息索引是指基于視頻文檔外部的、不依賴于其內(nèi)容的信息索引，用于視頻文檔的標(biāo)識(shí)和檢索，如標(biāo)題、作者、時(shí)間、文檔大小、存儲(chǔ)格式與編碼格式、使用信息（軟硬件要求、使用要求、版權(quán)等）等等。基于內(nèi)容的索引又可以分為結(jié)構(gòu)索引、低層特征索引、中間層對(duì)象索引和高層語義索引，后三種索引與圖2所示的視頻內(nèi)容模型相對(duì)應(yīng)。結(jié)構(gòu)索引是指節(jié)目、場(chǎng)景、鏡頭、幀之間的層次結(jié)構(gòu)與關(guān)系等；低層特征索引是基于視頻信息的物理特征信息（如顏色、紋理、運(yùn)動(dòng)、音質(zhì)、音調(diào)等）進(jìn)行索引；中間層的索引是對(duì)視頻中可識(shí)別對(duì)象（如時(shí)間、地點(diǎn)、人物等）的

18、索引；高層語義索引用于描述視頻中包含的事件及相關(guān)的感受。 3.3視頻對(duì)象與索引類型的關(guān)系不同（層次）的視頻對(duì)象對(duì)應(yīng)著不同的索引，其對(duì)應(yīng)關(guān)系如表1所示。幀的索引包含低層特征索引、中間層對(duì)象索引和高層語義索引。其中，低層特征可以自動(dòng)地提取，中間層對(duì)象可以采用人工或半自動(dòng)化（基于圖像識(shí)別技術(shù)）的方式進(jìn)行標(biāo)引，高層語義可以采用人工輸入方式進(jìn)行標(biāo)引。表1視頻對(duì)象與索引類型索引外部信息結(jié)構(gòu)索引低層特征中間層對(duì)象高層語義對(duì)象索引索引索引索引（代表幀）鏡頭場(chǎng)景故事單元節(jié)目鏡頭的索引主要是中間層對(duì)象索引和高層語義索引。其中，鏡頭的中間層對(duì)象描述是在幀的中間層對(duì)象描述基礎(chǔ)上進(jìn)行擴(kuò)充，高層語義

19、可以采用人工輸入與自動(dòng)提?。ㄖ饕侵咐谜Z音識(shí)別與文字識(shí)別等技術(shù)直接從視頻信息中提取）相結(jié)合的方式生成。場(chǎng)景和故事單元的索引主要有結(jié)構(gòu)索引和高層語義索引。其結(jié)構(gòu)索引用于描述鏡頭之間的關(guān)系，高層語義索引描述的是在鏡頭語義基礎(chǔ)上形成的敘事（故事）情節(jié)。節(jié)目的索引包含外部信息索引、結(jié)構(gòu)索引和高層語義索引。 3.4索引類型與檢索方式的關(guān)系視頻信息的檢索主要有三種類型，即結(jié)合在線相關(guān)反饋機(jī)制的基于示例的檢索（Query-by-Example）、基于關(guān)鍵詞檢索（Query-by-Keyword）和基于導(dǎo)航機(jī)制的視頻瀏覽（VideoBrowsing），它們與索引類型的對(duì)應(yīng)關(guān)系如表2所示。表2檢索方式

20、與索引類型索引外部信息結(jié)構(gòu)索引低層特征中間層對(duì)高層語義索引索引象索引索引檢索方式示例的檢索關(guān)鍵詞檢索視頻瀏覽 4、存在的問題及探討面對(duì)急劇增長(zhǎng)的視頻信息，如何高效且合理地對(duì)其進(jìn)行索引是視頻信息重用和消費(fèi)的基礎(chǔ)。雖然近年來的研究已取得不少的進(jìn)展，但仍然存在許多有待解決的問題。有些問題是屬于“技術(shù)”層面的，如視頻分割、代表幀提取、圖像理解、文字識(shí)別、語音識(shí)別等，有些問題是屬于“非技術(shù)”層面的，如視頻元數(shù)據(jù)標(biāo)準(zhǔn)、文本描述的規(guī)范性、視頻作品的規(guī)范化等。下面就一些“非技術(shù)性”問題進(jìn)行探討。 4.1視頻信息的元數(shù)據(jù)標(biāo)準(zhǔn) 信息的索引描述是信息的元數(shù)據(jù)，索引項(xiàng)的確立依賴于元數(shù)據(jù)標(biāo)準(zhǔn)的制定。針對(duì)不

21、同的資源類型、不同的用途、不同的機(jī)構(gòu)建立了多種不同的元數(shù)據(jù)標(biāo)準(zhǔn)。隨著數(shù)字視頻技術(shù)的發(fā)展，針對(duì)數(shù)字視頻信息的元數(shù)據(jù)研究也在不斷地深入，并已出現(xiàn)了一些基于不同目標(biāo)的元數(shù)據(jù)模式或標(biāo)準(zhǔn)，如數(shù)字電視元數(shù)據(jù)標(biāo)準(zhǔn)（DVB-SI、TV-Anytime和SMPTE等）、視頻軟硬件廠商推出的元數(shù)據(jù)標(biāo)準(zhǔn)（Apple公司的QuickTime、Microsoft公司的WindowsMedia等）以及MPEG-7等11。由于視頻信息本身固有的復(fù)雜性，使得視頻信息在創(chuàng)建、存儲(chǔ)、傳輸和使用等過程中需要不同的管理信息（元數(shù)據(jù)）。筆者認(rèn)為，根據(jù)視頻元數(shù)據(jù)的發(fā)展現(xiàn)狀，在研究和制定元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)應(yīng)注意三點(diǎn)：一是這些元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)整合在

22、統(tǒng)一的框架之內(nèi)，在統(tǒng)一的視頻元數(shù)據(jù)框架基礎(chǔ)上形成面向不同應(yīng)用的子集；二是視頻元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)適應(yīng)MPEG制定的“多媒體描述框架”MPEG-7標(biāo)準(zhǔn)；三是采用通用的XML語言語法。 4.2文本索引信息的規(guī)范性雖然基于示例的視頻檢索是最簡(jiǎn)便的檢索手段，但用戶往往不會(huì)有現(xiàn)成的示例，且目前現(xiàn)有技術(shù)很難高效地為普通用戶提供一個(gè)初始查詢示例。目前來看，利用文本信息對(duì)視頻信息進(jìn)行索引（即基于關(guān)鍵字的視頻檢索），既符合一般用戶的檢索習(xí)慣，又可借助日趨成熟的文本檢索技術(shù)。文獻(xiàn)3較為深入地探討了基于文本信息的視頻索引及其相關(guān)技術(shù)，特別是文本信息獲取的途徑。在采用文本信息對(duì)視頻信息進(jìn)行索引（包含外部信息索引、中間層對(duì)

23、象索引和語義索引）時(shí)，無論這些文本信息是人工輸入的，還是自動(dòng)提取或生成的，均需要考慮文本描述的規(guī)范性，即如何對(duì)視頻信息的某種特征和屬性（如視頻節(jié)目的類型、流派等）進(jìn)行表述。對(duì)此應(yīng)從兩個(gè)方面進(jìn)行研究并制定相關(guān)的標(biāo)準(zhǔn)：一是對(duì)于一些可面向所有視頻文檔的通用屬性，應(yīng)建立相關(guān)的分類標(biāo)準(zhǔn)和詞匯表，目前TVAnytime論壇在這方面已做出了開創(chuàng)性工作，在其已制定的元數(shù)據(jù)規(guī)范（SP003v13）中已經(jīng)定義了一個(gè)獨(dú)特的文檔結(jié)構(gòu)來綜合節(jié)目描述、用戶描述、分類策略12；二是對(duì)于特定類型的視頻節(jié)目（如各種體育比賽），應(yīng)建立相關(guān)的對(duì)象、事件描述標(biāo)準(zhǔn)和詞匯表。 4.3視頻文檔的規(guī)范化目前文本文檔的論文格式規(guī)范和著錄標(biāo)準(zhǔn)

24、（例如章節(jié)、標(biāo)題的格式，每一篇論文均需要給出標(biāo)題、作者、摘要、關(guān)鍵詞，等等），為文本文檔的管理、索引、檢索和瀏覽等帶來了極大的便利。對(duì)于視頻作品（文檔）來說，也應(yīng)該且急需制定出相應(yīng)的視頻文檔規(guī)范，這包括兩個(gè)方面：一是規(guī)定視頻作品必須有著錄標(biāo)準(zhǔn)，應(yīng)能提供相應(yīng)的視頻摘要（文本的、圖像的、視頻的）、關(guān)鍵詞（關(guān)鍵幀）等元數(shù)據(jù)，作者和相關(guān)的制作人員對(duì)作品的理解最深、主題把握最準(zhǔn)，由這些人員給出的相關(guān)信息（元數(shù)據(jù)）顯然是最為有效的視頻索引信息；二是應(yīng)制定視頻文檔的格式規(guī)范，也能像文本文檔一樣提供結(jié)構(gòu)化的信息，包括視頻的組織、結(jié)構(gòu)層次等信息。要解決視頻文檔的規(guī)范化問題，需要從兩個(gè)方面努力：一是各種規(guī)范和標(biāo)

25、準(zhǔn)；二是開發(fā)相應(yīng)的視頻“寫作”工具。 5、結(jié)語隨著計(jì)算機(jī)處理能力、網(wǎng)絡(luò)帶寬和多媒體技術(shù)的發(fā)展，視頻信息越來越成為人們消費(fèi)信息資源的主要形式之一。如何高效且合理地對(duì)視頻信息進(jìn)行分析、組織和索引，以便于檢索和重用，需要多個(gè)學(xué)科人員的共同努力。目前的研究大多集中在對(duì)現(xiàn)有視頻信息進(jìn)行分析與處理，以解決現(xiàn)有視頻信息的利用等問題上。筆者認(rèn)為，未來視頻信息的增長(zhǎng)將會(huì)越來越快，對(duì)于視頻信息組織與管理的研究，更需要重視新視頻標(biāo)準(zhǔn)的制定，即盡快制定出全新的、便于管理和使用的視頻文檔格式和制作規(guī)范，從根本上解決視頻信息的“無結(jié)構(gòu)”問題，并為視頻索引和檢索提供有用的信息。【參考文獻(xiàn)】 1宋宜純.CCTV音像資料館業(yè)務(wù)系統(tǒng)的技術(shù)特點(diǎn).http:/www.tech-/broadcast/journal/ibi/00316985.html（AccessedDec.10,2004） 2蘇新寧.視頻信息索引技術(shù)研究進(jìn)展.情報(bào)學(xué)報(bào)，2004（4）:410416 3嚴(yán)明，秦嘉杭.基于文本信息的數(shù)字視頻檢

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)字視頻信息研究論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)字視頻信息研究論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔