視頻檢索技術(shù)課件_第1頁
視頻檢索技術(shù)課件_第2頁
視頻檢索技術(shù)課件_第3頁
視頻檢索技術(shù)課件_第4頁
視頻檢索技術(shù)課件_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1視頻檢索技術(shù)1.視頻檢索簡述

隨著計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,信息高速公路的建設(shè),以及多媒體的推廣應(yīng)用,各種視頻資料源源不斷地產(chǎn)生,隨之建立起了越來越多的視頻數(shù)據(jù)庫,出現(xiàn)了數(shù)字圖書館、數(shù)字博物館、數(shù)字電視、視頻點播、遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療等許多新的服務(wù)形式和信息交流手段。在傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)中,信息的檢索一般以數(shù)值和字符型為主,而在多媒體數(shù)據(jù)庫中集成圖像、視頻、音頻等非格式化信息,它們具有數(shù)據(jù)量大、信息不定長、結(jié)構(gòu)復(fù)雜等特點。每一種媒體數(shù)據(jù)都有一些難以用字符和數(shù)字符號描述的內(nèi)容線索,如圖像中某一對象的形狀、顏色和紋理,視頻中的運動,聲音的音調(diào)等。當(dāng)用戶要利用這些線索對數(shù)據(jù)進(jìn)行檢索時,首先要將其人工轉(zhuǎn)化為文本或關(guān)鍵詞形式,這種轉(zhuǎn)換帶有一定的主觀性,且極其費時,因而僅僅基于關(guān)鍵詞的檢索已不能滿足用戶的檢索要求。數(shù)據(jù)庫及其它信息系統(tǒng)不僅要能對圖像、視頻和聲音等媒體進(jìn)行存儲以及基于關(guān)鍵字的檢索,而且要對多媒體數(shù)據(jù)內(nèi)容進(jìn)行自動語義分析、表達(dá)和檢索。1視頻檢索技術(shù)1.視頻檢索簡述2

視頻檢索就是要從大量的視頻數(shù)據(jù)中找到所需的視頻片段。根據(jù)所給出的例子或是特征描述,系統(tǒng)就能夠自動的找到所需的視頻片片段。根據(jù)提交視頻內(nèi)容的不同,視頻檢索一般分為鏡頭檢索和片段檢索。目前視頻檢索的多數(shù)研究還集中在鏡頭檢索上。而片段檢索方面的研究則剛剛開始。實際上,從用戶的角度分析,他們對視頻數(shù)據(jù)庫的查詢通常會是一個視頻片段而很少會是單個的物理鏡頭。從信息量的角度分析,由幾個鏡頭組成的視頻片段有比單個鏡頭更多的語義,它可以表示用戶感興趣的事件。因此查詢的結(jié)果也比較有意義。由于視頻拍攝的多樣性和后期編輯的復(fù)雜性,片段的相似性有多種可能。把片段檢索分為這樣兩種類型:精確檢索和相似性檢索。一個完整的視頻檢索系統(tǒng)的關(guān)鍵技術(shù)主要有:關(guān)鍵幀提取、圖像特征提取、圖像特征的相似性度量、查詢方式、以及視頻片段匹配等方法。視頻檢索是一門交叉學(xué)科,以圖像處理、模式識別、計算機(jī)視覺、圖像理解等領(lǐng)域的知識為基礎(chǔ),從認(rèn)知科學(xué)、人工智能、數(shù)據(jù)庫管理系統(tǒng)及人機(jī)交互,信息檢索等領(lǐng)域,引入媒體數(shù)據(jù)表示和數(shù)據(jù)模型,從而設(shè)計出可靠、有效的檢索算法,系統(tǒng)結(jié)構(gòu)以及友好的人機(jī)界面。2視頻檢索就是要從大量的視頻數(shù)據(jù)中找到所需的3

目前,國內(nèi)外已研發(fā)出了多個基于內(nèi)容的視頻檢索系統(tǒng),主要有五種,如下:

1:QBIC系統(tǒng):QBIC(QueryByImageContent)是由IBMAlmaden研究中心開發(fā)的,是“基于內(nèi)容”檢索系統(tǒng)的典型代表。此系統(tǒng)主要利用顏色、紋理、形狀、攝像機(jī)和對象運動等描述視頻內(nèi)容,并以此實現(xiàn)其檢索。QBIC提供了對靜止圖像及視頻信息基于內(nèi)容的檢索手段,允許用戶使用例子圖像、構(gòu)建草圖、以及顏色和紋理模式、鏡頭和目標(biāo)運動等信息對大型圖像和視頻數(shù)據(jù)庫進(jìn)行查詢。在視頻數(shù)據(jù)分析方面包括了鏡頭檢測、運動估計、層描述、代表幀生成等多種視頻處理手段。

2:VisualSeek系統(tǒng):VisualSeek是美國哥倫比亞大學(xué)電子工程系與電信研究中心圖像和高級電視實驗室共同研究的、一種在互聯(lián)網(wǎng)上使用的“基于內(nèi)容”的檢索系統(tǒng)。它實現(xiàn)了互聯(lián)網(wǎng)上的“基于內(nèi)容”的圖像/視頻檢索系統(tǒng),提供了一套供人們在Web上搜索和檢索圖像及視頻的工具。3目前,國內(nèi)外已研發(fā)出了多個基于內(nèi)容的視頻檢索系統(tǒng)43:VideoQ是由美國哥倫比亞大學(xué)研究開發(fā)的一套全自動基于內(nèi)容的視頻查詢系統(tǒng)。它擴(kuò)充了傳統(tǒng)的關(guān)鍵字和主題導(dǎo)航的查詢方法,允許用戶使用視覺特征和時空關(guān)系來檢索視頻。

4:TV—FI系統(tǒng):TV—FI(TsinghuaVideoFindIt)是清華大學(xué)開發(fā)的視頻節(jié)目管理系統(tǒng)。該系統(tǒng)可提供視頻數(shù)據(jù)入庫、基于內(nèi)容的瀏覽、檢索等功能,并提供多種數(shù)據(jù)訪問模式,包括基于關(guān)鍵字查詢、示例查詢、按視頻結(jié)構(gòu)瀏覽及按用戶自定義類別進(jìn)行瀏覽等。43:VideoQ是由美國哥倫比亞大學(xué)研究開發(fā)的一套全自動5下面對視頻檢索的原理進(jìn)行簡要的介紹。2.基于內(nèi)容的視頻檢索

基于內(nèi)容的視頻分析和檢索研究的目的是通過對視頻內(nèi)容進(jìn)行計算機(jī)處理、分析和理解,建立結(jié)構(gòu)和索引,以實現(xiàn)方便有效的視頻信息獲取。它是根據(jù)視頻的內(nèi)容以及上下文關(guān)聯(lián),在大規(guī)模視頻數(shù)據(jù)中進(jìn)行檢索?;趦?nèi)容的視頻檢索包括很多技術(shù),如:視頻結(jié)構(gòu)的分析(鏡頭檢測技術(shù))、視頻數(shù)據(jù)的自動索引和視頻聚類等。目前,在基于內(nèi)容的視頻檢索技術(shù)的研究方面,除了識別和描述圖像的顏色,紋理,形狀和空間關(guān)系外,其他主要集中在視頻鏡頭分割,特征的提取和描述(包括:視覺特征,顏色,紋理和形狀及運動信息和對象信息等),關(guān)鍵幀提取和結(jié)構(gòu)分析等方面。基于內(nèi)容的視頻檢索的系統(tǒng)框圖見下圖。5下面對視頻檢索的原理進(jìn)行簡要的介紹。2.基于內(nèi)容的視頻檢索6基于內(nèi)容的視頻檢索的系統(tǒng)框圖如下:6基于內(nèi)容的視頻檢索的系統(tǒng)框圖如下:72.1視頻幀提取

視頻檢索的目的就是要從大量的視頻數(shù)據(jù)中找到所需的視頻片段。視頻數(shù)據(jù)是一個二維非結(jié)構(gòu)化的圖像序列,要實現(xiàn)基于內(nèi)容的視頻檢索,首先要從多媒體文件中提取視頻幀序列,然后對這些圖像流進(jìn)行處理,使之成為結(jié)構(gòu)性的數(shù)據(jù),提取其特征,從而達(dá)到檢索目的。首先,介紹幾個關(guān)于視頻的基本概念。幀(Frame):視頻流中的基本組成單元,每一幀均可看成是一幅獨立的圖像。視頻流數(shù)據(jù)就是由連續(xù)圖像幀構(gòu)成的。幀是視頻的最小單位。鏡頭(Shot):攝像機(jī)拍下的不間斷幀序列,是視頻數(shù)據(jù)流進(jìn)一步結(jié)構(gòu)化的基礎(chǔ)。同一組鏡頭中,視頻幀的圖像特征基本保持穩(wěn)定。若相鄰圖像幀之間的特征發(fā)生了明顯變化,則認(rèn)為是發(fā)生了鏡頭變換。關(guān)鍵幀(KeyFrame):關(guān)鍵幀是代表鏡頭內(nèi)容的圖像幀。在一個視頻鏡頭內(nèi),關(guān)鍵幀的數(shù)目遠(yuǎn)小于鏡頭所包含的圖像幀的數(shù)目。用關(guān)鍵幀代表鏡頭可以大大減小計算復(fù)雜性。場景(Scene):語義上相關(guān)和時間上相鄰的若干組鏡頭組成了一個場景。場景是視頻所蘊涵的高層抽象概念和語義的表達(dá)。像鏡頭可以由關(guān)鍵幀代表一樣,場景也可以使用屬于這個場景的所有鏡頭所對應(yīng)的關(guān)鍵幀集合來表示。72.1視頻幀提取視頻檢索的目的就是要從8

DirectShow是為播放各種類型的視頻數(shù)據(jù)、音頻數(shù)據(jù)或其他多媒體數(shù)據(jù)而設(shè)計的。DirectShow支持MPEG(包括MP3、AVI、MOV、WAV、DVD等格式)。借助于DirectShow,可以很容易地實現(xiàn)多種格式的多媒體數(shù)據(jù)的回放、傳輸和捕獲。DirectShow使用FilterGraph的模型來管理整個數(shù)據(jù)流的處理過程。利用DirectShow強(qiáng)大的功能,我們可以這樣實現(xiàn)幀的提取。首先建立過濾器圖表,與特定的多媒體流相關(guān)聯(lián),然后加視頻抓幀過濾器進(jìn)圖表,并設(shè)置回調(diào)函數(shù)。當(dāng)圖表運行時,抓幀過濾器抓取流過的視頻幀(可進(jìn)行設(shè)置,可以是每一幀,也可以是間隔固定幀),把抓取的幀存儲在視頻庫中。利用DirectShow能夠使開發(fā)者專注于各自的分析和處理,而無需考慮帶有共性的實現(xiàn)細(xì)節(jié),極大地降低了多媒體應(yīng)用開發(fā)的復(fù)雜度,并提高了其開發(fā)效率。

892.2鏡頭檢測技術(shù)

在基于內(nèi)容的視頻檢索中,鏡頭是視頻數(shù)據(jù)分析、編輯制作和檢索的基本單元。鏡頭邊界檢測的好壞將直接影響著視頻的結(jié)構(gòu)化以及后續(xù)的瀏覽與檢索。因此,它是實現(xiàn)基于內(nèi)容檢索的基礎(chǔ)和重要步驟。鏡頭檢測也可以看作是一個分割問題——視頻時域分割。視頻時域分割主要采用基于邊界的方法。境頭邊界檢測算法的思路就是:第一,幀間差的計算。對幀視頻提取各自不同的視覺或運動特征,并對不同幀進(jìn)行幀間差計算。第二,鏡頭邊界的判斷。獲取幀間差之后,設(shè)定一個判斷準(zhǔn)則,將獲得的幀間差按照準(zhǔn)則來判斷視頻鏡頭是否發(fā)生了轉(zhuǎn)變。其過程如圖2.2所示。其中,F(xiàn)(i)代表第I幀視頻,D(i)代表第i幀視頻和第i+1幀視頻的幀間差,S(k)代表檢測到的第k個鏡頭邊界。鏡頭邊界檢測的算法主要有:基于模板匹配的算法、基于直方圖的算法、基于邊緣的算法、基于運動分析的算法和基于壓縮視頻的算法。92.2鏡頭檢測技術(shù)在基于內(nèi)容的視10圖2-2鏡頭邊界檢測過程如下所示:10圖2-2鏡頭邊界檢測過程如下所示:11

下面對基于模板匹配的算法進(jìn)行介紹。直接用相鄰兩幀對應(yīng)像素差的絕對值之和作為幀間差,公式如下:(2.1)

其中,表示第i幀和第i+1幀的幀間差,表示像素的相應(yīng)位置,和分別表示第i幀和第i+1幀在處的像素值。N和M分別表示幀的高度與寬度。該算法雖然計算簡單,容易實現(xiàn)。但是,由于對像素位置的局限,使其對噪聲以及物體和相機(jī)的運動都比較的敏感,很多情況下,物體很小的運動便會造成較大的誤差。1112

改進(jìn)的鏡頭邊界檢測算法:

RGB模型是一種最簡單最常用的顏色模型,是由國際照明委員會制定。它表示紅、綠、藍(lán)三種單色光按照一定的比例可以復(fù)合出其他任何顏色。RGB空間雖然比較簡單,但也有不足之處。首先,它不能很好的與人眼感知相匹配,因此不能直觀反映人的直覺感知。其次,由于該模型的三個顏色分量不僅各自包含了物體本身的顏色信息、和外部光強(qiáng)信息,相互之間還具有較高的相關(guān)性,這使得顏色聚類特性不是很好,不適于以彩色處理為目的的應(yīng)用。HSV顏色空間是孟塞爾彩色空間的簡化形式,能夠較好符合人眼感知特性,是較為適合人視覺特性的色彩空間;所以需要將RGB顏色模型與HSV顏色模型進(jìn)行轉(zhuǎn)化。12改進(jìn)的鏡頭邊界檢測算法:RGB模13

圖2-3RGB顏色模型圖2-4HSV顏色模型13圖2-3RGB顏色模型圖142.3視頻關(guān)鍵幀的提取

鏡頭通常是在一個場景下拍攝的,所以一個鏡頭下的各幀圖像會有相當(dāng)多的重復(fù)信息。因此,通常選取能夠描述鏡頭主要內(nèi)容的幀,作為關(guān)鍵幀,來簡潔的表達(dá)鏡頭。一個鏡頭可以有一個或多個關(guān)鍵幀,這取決于鏡頭內(nèi)容的復(fù)雜程度。提取關(guān)鍵幀的目的有兩個方面:(1)靜態(tài)表示視頻節(jié)目的主題和主要內(nèi)容,而不是動態(tài)的細(xì)節(jié)。(2)從關(guān)鍵幀中提取顏色、紋理和形狀特征,以作為視頻摘要和數(shù)據(jù)庫索引的數(shù)據(jù)源,而不需要對每個畫面都重復(fù)。因此,關(guān)鍵幀應(yīng)該具有代表性,不僅應(yīng)代表主題方面的特征,還應(yīng)該視特征的不同而不同。因此,對關(guān)鍵幀的選取一般采用保守原則,即“寧多勿少”。同時,在代表特征不具體的情況一下,一般去掉重復(fù)(或冗余)幀。當(dāng)選取多幅關(guān)鍵幀時,用于關(guān)鍵幀選取的準(zhǔn)則是優(yōu)先考慮關(guān)鍵幀之間的不相似性,即以幀之間相似度作為衡量依據(jù),每次尋找關(guān)鍵幀都保證各關(guān)鍵幀之間具有最小相似度,以使關(guān)鍵幀帶有最大信息量。下面介紹關(guān)鍵幀提取的經(jīng)典方法——基于幀平均的算法。像素幀平均法和直方圖幀平均法是關(guān)鍵幀提取的經(jīng)典方法。由于它們具有相同的基本思想,不同的只是選取的衡量平均值的特征,所以將其歸為一類,并統(tǒng)稱為幀平均法。像素幀平均法是取一視頻段中所有幀的某位置上的像素值求其平均來作為比較的標(biāo)準(zhǔn),將視頻段中此位置像素值最為接近平均值的幀,作為該視頻段的關(guān)鍵幀。直方圖幀平均法則是選取所有幀直圖的平均值作為標(biāo)準(zhǔn),將直方圖最接近平均值的幀作為該視頻段的關(guān)鍵幀。該算法雖然計算簡單,所選取的幀也能最大程度上接近平均值,但是對一個鏡頭只選取一個關(guān)鍵幀,不能夠全面的描述其內(nèi)容,尤其是對內(nèi)容變化較大的鏡頭。142.3視頻關(guān)鍵幀的提取鏡頭通常是在一個152.4特征提取

視頻關(guān)鍵幀提取后,就要對各個鏡頭進(jìn)行特征提取,建立視頻單元索引。即提取鏡頭的顏色、紋理以及運動甚至高級語義等各種特征,形成描述鏡頭的特征空間,以此作為視頻聚類和檢索的依據(jù)。視頻特征分為靜態(tài)特征和動態(tài)特征。靜態(tài)特征主要有顏色、紋理和形狀等。顏色是圖像最顯著的特征,與其它特征相比,顏色特征計算簡單、性質(zhì)穩(wěn)定,對于旋轉(zhuǎn),平移,尺度變化都不敏感。顏色特征包括顏色直方圖,主要顏色,平均亮度等。其中,利用主要顏色和平均亮度進(jìn)行圖像的相似匹配是很粗略的,可作為層次檢索方法的粗查。為了能夠在大規(guī)模圖像數(shù)據(jù)集中進(jìn)行快速的搜索,Smith和Change等人提出了顏色集的概念:首先將RGB顏色空間轉(zhuǎn)換為視覺上一致空間HSV,然后量化為m個顏色條,顏色集就定義為量化后的顏色空間中顏色的一種選擇。152.4特征提取視頻關(guān)鍵幀提取后,就要對各個162.5相似性度量

基于內(nèi)容的視頻檢索主要是依賴它的視覺特征和時間特性。提交樣例視頻,查詢相似的視頻是最常用的檢索方式。所以,要想設(shè)計一個準(zhǔn)確可靠的基于內(nèi)容的視頻檢索系統(tǒng),就必須定義好怎樣的視頻才是相似的,即要解決視頻相似性度量問題。視頻的檢索是一種相似性的檢索,它是在提取幀圖像的特征后,通過比較幀特征的相似性,來找到與給定的樣例視頻相近的視頻片段,從而完成視頻的檢索。在檢索過程中,相似性的判斷是至關(guān)重要的一步,其直接影響著檢索結(jié)果是否準(zhǔn)確,而這種判斷就是相似性度量。其實在該定義中,只是考慮了相似性度量的一個方面,實際上,一個合理的相似性度量應(yīng)該綜合考慮三個因素,即特征相似性、順序相似性和時間跨度性。162.5相似性度量基于內(nèi)容的視頻檢索主要是依17紋理是與物體表面材質(zhì)有關(guān)的圖像特征,具有照明不變性。紋理分析方法主要分為兩類,即結(jié)構(gòu)方法和統(tǒng)計方法。結(jié)構(gòu)方法是假定圖像有較小的紋理基元排列而成,只適用于規(guī)則的結(jié)構(gòu)紋理分析;統(tǒng)計方法是對圖像的顏色強(qiáng)度的空間分布信息進(jìn)行統(tǒng)計。形狀分析首先需要采用合適的圖像分割算法把不同對象從圖像中分割來,再用各種方法進(jìn)行匹配測量。形狀特征表示的一個重要準(zhǔn)則是要求對位移、旋轉(zhuǎn)、縮放的不變性,通常形狀的表示可以分為基于邊界和基于區(qū)域兩類。運動特征反映了視頻的時域變化,也是檢索的重要內(nèi)容。運動分析的方法有基于光流方程的方法、基于塊的方法、像素遞歸方法和貝葉斯方法等,但這些方法計算量都比較大。于是,Tonomura等人提出了x線斷層分析的方法,將整視頻序列沿時間軸進(jìn)行切片,從切片圖像中分析運動情況。Patel和Sethi提出利用MPEG中的B幀和P幀的運動向量來避免光流計算和塊匹配。17紋理是與物體表面材質(zhì)有關(guān)的圖像特征,具有照明不變性。紋理18參考文獻(xiàn)

[1]弓洪瑋.視頻檢索綜述[J].工程技術(shù)研究,2009,246~147.[2]楊強(qiáng),尹德輝,馬森.視頻檢索技術(shù)應(yīng)用及其發(fā)展趨勢[J].電視技術(shù),2007,31(2):88~89.[3]趙偉,冀小平.基于內(nèi)容的視頻檢索關(guān)鍵技術(shù)研究[J].科技情報開發(fā)與經(jīng)濟(jì),2009,19(4):117~118.[4]劉安文,支垮,張瑞,盛驍杰,楊小康.基于語義概念的視頻檢索系統(tǒng)的設(shè)計與實現(xiàn)[J].中國圖象圖形學(xué)報,2008,13(10):2055~2058.[5]劉安文.視頻檢索中概念檢測技術(shù)的研究與應(yīng)用[D].上海:上海交通大學(xué),2009.[6]苗盼盼.基于內(nèi)容的視頻檢索若干技術(shù)研究[D].南京:南京理工大學(xué),2010.[7]羅鳳玲.視頻檢索中的特征提取方法研究[D].安徽:國防科學(xué)技術(shù)大學(xué),

2002.[8]金燕.基于內(nèi)容的視頻檢索技術(shù)研究[D].山東:山東大學(xué),2008.[9]王帥.基于運動特征的視頻檢索技術(shù)[D].黑龍江:哈爾濱工業(yè)大學(xué),2007.[10]聞劍鋒,李戰(zhàn)懷.一種基于運動軌跡的視頻檢索方法[J].計算機(jī)科學(xué),2002,

29(8):237~241.18參考文獻(xiàn)

[1]弓洪瑋.視頻檢索綜述[J].工程19視頻檢索技術(shù)1.視頻檢索簡述

隨著計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,信息高速公路的建設(shè),以及多媒體的推廣應(yīng)用,各種視頻資料源源不斷地產(chǎn)生,隨之建立起了越來越多的視頻數(shù)據(jù)庫,出現(xiàn)了數(shù)字圖書館、數(shù)字博物館、數(shù)字電視、視頻點播、遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療等許多新的服務(wù)形式和信息交流手段。在傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)中,信息的檢索一般以數(shù)值和字符型為主,而在多媒體數(shù)據(jù)庫中集成圖像、視頻、音頻等非格式化信息,它們具有數(shù)據(jù)量大、信息不定長、結(jié)構(gòu)復(fù)雜等特點。每一種媒體數(shù)據(jù)都有一些難以用字符和數(shù)字符號描述的內(nèi)容線索,如圖像中某一對象的形狀、顏色和紋理,視頻中的運動,聲音的音調(diào)等。當(dāng)用戶要利用這些線索對數(shù)據(jù)進(jìn)行檢索時,首先要將其人工轉(zhuǎn)化為文本或關(guān)鍵詞形式,這種轉(zhuǎn)換帶有一定的主觀性,且極其費時,因而僅僅基于關(guān)鍵詞的檢索已不能滿足用戶的檢索要求。數(shù)據(jù)庫及其它信息系統(tǒng)不僅要能對圖像、視頻和聲音等媒體進(jìn)行存儲以及基于關(guān)鍵字的檢索,而且要對多媒體數(shù)據(jù)內(nèi)容進(jìn)行自動語義分析、表達(dá)和檢索。1視頻檢索技術(shù)1.視頻檢索簡述20

視頻檢索就是要從大量的視頻數(shù)據(jù)中找到所需的視頻片段。根據(jù)所給出的例子或是特征描述,系統(tǒng)就能夠自動的找到所需的視頻片片段。根據(jù)提交視頻內(nèi)容的不同,視頻檢索一般分為鏡頭檢索和片段檢索。目前視頻檢索的多數(shù)研究還集中在鏡頭檢索上。而片段檢索方面的研究則剛剛開始。實際上,從用戶的角度分析,他們對視頻數(shù)據(jù)庫的查詢通常會是一個視頻片段而很少會是單個的物理鏡頭。從信息量的角度分析,由幾個鏡頭組成的視頻片段有比單個鏡頭更多的語義,它可以表示用戶感興趣的事件。因此查詢的結(jié)果也比較有意義。由于視頻拍攝的多樣性和后期編輯的復(fù)雜性,片段的相似性有多種可能。把片段檢索分為這樣兩種類型:精確檢索和相似性檢索。一個完整的視頻檢索系統(tǒng)的關(guān)鍵技術(shù)主要有:關(guān)鍵幀提取、圖像特征提取、圖像特征的相似性度量、查詢方式、以及視頻片段匹配等方法。視頻檢索是一門交叉學(xué)科,以圖像處理、模式識別、計算機(jī)視覺、圖像理解等領(lǐng)域的知識為基礎(chǔ),從認(rèn)知科學(xué)、人工智能、數(shù)據(jù)庫管理系統(tǒng)及人機(jī)交互,信息檢索等領(lǐng)域,引入媒體數(shù)據(jù)表示和數(shù)據(jù)模型,從而設(shè)計出可靠、有效的檢索算法,系統(tǒng)結(jié)構(gòu)以及友好的人機(jī)界面。2視頻檢索就是要從大量的視頻數(shù)據(jù)中找到所需的21

目前,國內(nèi)外已研發(fā)出了多個基于內(nèi)容的視頻檢索系統(tǒng),主要有五種,如下:

1:QBIC系統(tǒng):QBIC(QueryByImageContent)是由IBMAlmaden研究中心開發(fā)的,是“基于內(nèi)容”檢索系統(tǒng)的典型代表。此系統(tǒng)主要利用顏色、紋理、形狀、攝像機(jī)和對象運動等描述視頻內(nèi)容,并以此實現(xiàn)其檢索。QBIC提供了對靜止圖像及視頻信息基于內(nèi)容的檢索手段,允許用戶使用例子圖像、構(gòu)建草圖、以及顏色和紋理模式、鏡頭和目標(biāo)運動等信息對大型圖像和視頻數(shù)據(jù)庫進(jìn)行查詢。在視頻數(shù)據(jù)分析方面包括了鏡頭檢測、運動估計、層描述、代表幀生成等多種視頻處理手段。

2:VisualSeek系統(tǒng):VisualSeek是美國哥倫比亞大學(xué)電子工程系與電信研究中心圖像和高級電視實驗室共同研究的、一種在互聯(lián)網(wǎng)上使用的“基于內(nèi)容”的檢索系統(tǒng)。它實現(xiàn)了互聯(lián)網(wǎng)上的“基于內(nèi)容”的圖像/視頻檢索系統(tǒng),提供了一套供人們在Web上搜索和檢索圖像及視頻的工具。3目前,國內(nèi)外已研發(fā)出了多個基于內(nèi)容的視頻檢索系統(tǒng)223:VideoQ是由美國哥倫比亞大學(xué)研究開發(fā)的一套全自動基于內(nèi)容的視頻查詢系統(tǒng)。它擴(kuò)充了傳統(tǒng)的關(guān)鍵字和主題導(dǎo)航的查詢方法,允許用戶使用視覺特征和時空關(guān)系來檢索視頻。

4:TV—FI系統(tǒng):TV—FI(TsinghuaVideoFindIt)是清華大學(xué)開發(fā)的視頻節(jié)目管理系統(tǒng)。該系統(tǒng)可提供視頻數(shù)據(jù)入庫、基于內(nèi)容的瀏覽、檢索等功能,并提供多種數(shù)據(jù)訪問模式,包括基于關(guān)鍵字查詢、示例查詢、按視頻結(jié)構(gòu)瀏覽及按用戶自定義類別進(jìn)行瀏覽等。43:VideoQ是由美國哥倫比亞大學(xué)研究開發(fā)的一套全自動23下面對視頻檢索的原理進(jìn)行簡要的介紹。2.基于內(nèi)容的視頻檢索

基于內(nèi)容的視頻分析和檢索研究的目的是通過對視頻內(nèi)容進(jìn)行計算機(jī)處理、分析和理解,建立結(jié)構(gòu)和索引,以實現(xiàn)方便有效的視頻信息獲取。它是根據(jù)視頻的內(nèi)容以及上下文關(guān)聯(lián),在大規(guī)模視頻數(shù)據(jù)中進(jìn)行檢索。基于內(nèi)容的視頻檢索包括很多技術(shù),如:視頻結(jié)構(gòu)的分析(鏡頭檢測技術(shù))、視頻數(shù)據(jù)的自動索引和視頻聚類等。目前,在基于內(nèi)容的視頻檢索技術(shù)的研究方面,除了識別和描述圖像的顏色,紋理,形狀和空間關(guān)系外,其他主要集中在視頻鏡頭分割,特征的提取和描述(包括:視覺特征,顏色,紋理和形狀及運動信息和對象信息等),關(guān)鍵幀提取和結(jié)構(gòu)分析等方面?;趦?nèi)容的視頻檢索的系統(tǒng)框圖見下圖。5下面對視頻檢索的原理進(jìn)行簡要的介紹。2.基于內(nèi)容的視頻檢索24基于內(nèi)容的視頻檢索的系統(tǒng)框圖如下:6基于內(nèi)容的視頻檢索的系統(tǒng)框圖如下:252.1視頻幀提取

視頻檢索的目的就是要從大量的視頻數(shù)據(jù)中找到所需的視頻片段。視頻數(shù)據(jù)是一個二維非結(jié)構(gòu)化的圖像序列,要實現(xiàn)基于內(nèi)容的視頻檢索,首先要從多媒體文件中提取視頻幀序列,然后對這些圖像流進(jìn)行處理,使之成為結(jié)構(gòu)性的數(shù)據(jù),提取其特征,從而達(dá)到檢索目的。首先,介紹幾個關(guān)于視頻的基本概念。幀(Frame):視頻流中的基本組成單元,每一幀均可看成是一幅獨立的圖像。視頻流數(shù)據(jù)就是由連續(xù)圖像幀構(gòu)成的。幀是視頻的最小單位。鏡頭(Shot):攝像機(jī)拍下的不間斷幀序列,是視頻數(shù)據(jù)流進(jìn)一步結(jié)構(gòu)化的基礎(chǔ)。同一組鏡頭中,視頻幀的圖像特征基本保持穩(wěn)定。若相鄰圖像幀之間的特征發(fā)生了明顯變化,則認(rèn)為是發(fā)生了鏡頭變換。關(guān)鍵幀(KeyFrame):關(guān)鍵幀是代表鏡頭內(nèi)容的圖像幀。在一個視頻鏡頭內(nèi),關(guān)鍵幀的數(shù)目遠(yuǎn)小于鏡頭所包含的圖像幀的數(shù)目。用關(guān)鍵幀代表鏡頭可以大大減小計算復(fù)雜性。場景(Scene):語義上相關(guān)和時間上相鄰的若干組鏡頭組成了一個場景。場景是視頻所蘊涵的高層抽象概念和語義的表達(dá)。像鏡頭可以由關(guān)鍵幀代表一樣,場景也可以使用屬于這個場景的所有鏡頭所對應(yīng)的關(guān)鍵幀集合來表示。72.1視頻幀提取視頻檢索的目的就是要從26

DirectShow是為播放各種類型的視頻數(shù)據(jù)、音頻數(shù)據(jù)或其他多媒體數(shù)據(jù)而設(shè)計的。DirectShow支持MPEG(包括MP3、AVI、MOV、WAV、DVD等格式)。借助于DirectShow,可以很容易地實現(xiàn)多種格式的多媒體數(shù)據(jù)的回放、傳輸和捕獲。DirectShow使用FilterGraph的模型來管理整個數(shù)據(jù)流的處理過程。利用DirectShow強(qiáng)大的功能,我們可以這樣實現(xiàn)幀的提取。首先建立過濾器圖表,與特定的多媒體流相關(guān)聯(lián),然后加視頻抓幀過濾器進(jìn)圖表,并設(shè)置回調(diào)函數(shù)。當(dāng)圖表運行時,抓幀過濾器抓取流過的視頻幀(可進(jìn)行設(shè)置,可以是每一幀,也可以是間隔固定幀),把抓取的幀存儲在視頻庫中。利用DirectShow能夠使開發(fā)者專注于各自的分析和處理,而無需考慮帶有共性的實現(xiàn)細(xì)節(jié),極大地降低了多媒體應(yīng)用開發(fā)的復(fù)雜度,并提高了其開發(fā)效率。

8272.2鏡頭檢測技術(shù)

在基于內(nèi)容的視頻檢索中,鏡頭是視頻數(shù)據(jù)分析、編輯制作和檢索的基本單元。鏡頭邊界檢測的好壞將直接影響著視頻的結(jié)構(gòu)化以及后續(xù)的瀏覽與檢索。因此,它是實現(xiàn)基于內(nèi)容檢索的基礎(chǔ)和重要步驟。鏡頭檢測也可以看作是一個分割問題——視頻時域分割。視頻時域分割主要采用基于邊界的方法。境頭邊界檢測算法的思路就是:第一,幀間差的計算。對幀視頻提取各自不同的視覺或運動特征,并對不同幀進(jìn)行幀間差計算。第二,鏡頭邊界的判斷。獲取幀間差之后,設(shè)定一個判斷準(zhǔn)則,將獲得的幀間差按照準(zhǔn)則來判斷視頻鏡頭是否發(fā)生了轉(zhuǎn)變。其過程如圖2.2所示。其中,F(xiàn)(i)代表第I幀視頻,D(i)代表第i幀視頻和第i+1幀視頻的幀間差,S(k)代表檢測到的第k個鏡頭邊界。鏡頭邊界檢測的算法主要有:基于模板匹配的算法、基于直方圖的算法、基于邊緣的算法、基于運動分析的算法和基于壓縮視頻的算法。92.2鏡頭檢測技術(shù)在基于內(nèi)容的視28圖2-2鏡頭邊界檢測過程如下所示:10圖2-2鏡頭邊界檢測過程如下所示:29

下面對基于模板匹配的算法進(jìn)行介紹。直接用相鄰兩幀對應(yīng)像素差的絕對值之和作為幀間差,公式如下:(2.1)

其中,表示第i幀和第i+1幀的幀間差,表示像素的相應(yīng)位置,和分別表示第i幀和第i+1幀在處的像素值。N和M分別表示幀的高度與寬度。該算法雖然計算簡單,容易實現(xiàn)。但是,由于對像素位置的局限,使其對噪聲以及物體和相機(jī)的運動都比較的敏感,很多情況下,物體很小的運動便會造成較大的誤差。1130

改進(jìn)的鏡頭邊界檢測算法:

RGB模型是一種最簡單最常用的顏色模型,是由國際照明委員會制定。它表示紅、綠、藍(lán)三種單色光按照一定的比例可以復(fù)合出其他任何顏色。RGB空間雖然比較簡單,但也有不足之處。首先,它不能很好的與人眼感知相匹配,因此不能直觀反映人的直覺感知。其次,由于該模型的三個顏色分量不僅各自包含了物體本身的顏色信息、和外部光強(qiáng)信息,相互之間還具有較高的相關(guān)性,這使得顏色聚類特性不是很好,不適于以彩色處理為目的的應(yīng)用。HSV顏色空間是孟塞爾彩色空間的簡化形式,能夠較好符合人眼感知特性,是較為適合人視覺特性的色彩空間;所以需要將RGB顏色模型與HSV顏色模型進(jìn)行轉(zhuǎn)化。12改進(jìn)的鏡頭邊界檢測算法:RGB模31

圖2-3RGB顏色模型圖2-4HSV顏色模型13圖2-3RGB顏色模型圖322.3視頻關(guān)鍵幀的提取

鏡頭通常是在一個場景下拍攝的,所以一個鏡頭下的各幀圖像會有相當(dāng)多的重復(fù)信息。因此,通常選取能夠描述鏡頭主要內(nèi)容的幀,作為關(guān)鍵幀,來簡潔的表達(dá)鏡頭。一個鏡頭可以有一個或多個關(guān)鍵幀,這取決于鏡頭內(nèi)容的復(fù)雜程度。提取關(guān)鍵幀的目的有兩個方面:(1)靜態(tài)表示視頻節(jié)目的主題和主要內(nèi)容,而不是動態(tài)的細(xì)節(jié)。(2)從關(guān)鍵幀中提取顏色、紋理和形狀特征,以作為視頻摘要和數(shù)據(jù)庫索引的數(shù)據(jù)源,而不需要對每個畫面都重復(fù)。因此,關(guān)鍵幀應(yīng)該具有代表性,不僅應(yīng)代表主題方面的特征,還應(yīng)該視特征的不同而不同。因此,對關(guān)鍵幀的選取一般采用保守原則,即“寧多勿少”。同時,在代表特征不具體的情況一下,一般去掉重復(fù)(或冗余)幀。當(dāng)選取多幅關(guān)鍵幀時,用于關(guān)鍵幀選取的準(zhǔn)則是優(yōu)先考慮關(guān)鍵幀之間的不相似性,即以幀之間相似度作為衡量依據(jù),每次尋找關(guān)鍵幀都保證各關(guān)鍵幀之間具有最小相似度,以使關(guān)鍵幀帶有最大信息量。下面介紹關(guān)鍵幀提取的經(jīng)典方法——基于幀平均的算法。像素幀平均法和直方圖幀平均法是關(guān)鍵幀提取的經(jīng)典方法。由于它們具有相同的基本思想,不同的只是選取的衡量平均值的特征,所以將其歸為一類,并統(tǒng)稱為幀平均法。像素幀平均法是取一視頻段中所有幀的某位置上的像素值求其平均來作為比較的標(biāo)準(zhǔn),將視頻段中此位置像素值最為接近平均值的幀,作為該視頻段的關(guān)鍵幀。直方圖幀平均法則是選取所有幀直圖的平均值作為標(biāo)準(zhǔn),將直方圖最接近平均值的幀作為該視頻段的關(guān)鍵幀。該算法雖然計算簡單,所選取的幀也能最大程度上接近平均值,但是對一個鏡頭只選取一個關(guān)鍵幀,不能夠全面的描述其內(nèi)容,尤其是對內(nèi)容變化較大的鏡頭。142.3視頻關(guān)鍵幀的提取鏡頭通常是在一個332.4特征提取

視頻關(guān)鍵幀提取后,就要對各個鏡頭進(jìn)行特征提取,建立視頻單元索引。即提取鏡頭的顏色、紋理以及運動甚至高級語義等各種特征,形成描述鏡頭的特征空間,以此作為視頻聚類和檢索的依據(jù)。視頻特征分為靜態(tài)特征和動態(tài)特征。靜態(tài)特征主要有顏色、紋理和形狀等。顏色是圖像最顯著的特征,與其它特征相比,顏色特征計算簡單、性質(zhì)穩(wěn)定,對于旋轉(zhuǎn),平移,尺度變化都不敏感。顏色特征包括顏色直方圖,主要顏色,平均亮度等。其中,利用主要顏色和平均亮度進(jìn)行圖像的相似匹配是很粗略的,可作為層次檢索方法的粗查。為了能夠在大規(guī)模圖像數(shù)據(jù)集中進(jìn)行快速的搜索,Smith和Change等人提出了顏色集的概念:首先將RGB顏色空間轉(zhuǎn)換為視覺上一致空間HSV,然后量化為m個顏色條,顏色集就定義為量化后的顏色空間中顏色的一種選擇。152.4特征提取視頻關(guān)鍵幀提取后,就要對各個342.5相似性度量

基于內(nèi)容的視頻檢索主要是依賴它的視覺特征和時間特性。提交樣例視頻,查詢相似的視頻是最常用的檢索方式。所以,要想設(shè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論