多媒體內(nèi)容檢索與管理_第1頁
多媒體內(nèi)容檢索與管理_第2頁
多媒體內(nèi)容檢索與管理_第3頁
多媒體內(nèi)容檢索與管理_第4頁
多媒體內(nèi)容檢索與管理_第5頁
已閱讀5頁,還剩112頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多媒體內(nèi)容檢索與管理李穎

吳昊

趙艷當(dāng)前第1頁\共有117頁\編于星期四\22點(diǎn)2多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第2頁\共有117頁\編于星期四\22點(diǎn)

31.1多媒體概念多媒體信息媒體多媒體技術(shù)多媒體即媒介,承載、傳輸和表現(xiàn)信息的手段指集數(shù)據(jù)、文字、圖形、圖像、聲音和視頻等為一體的綜合媒體信息指利用計(jì)算機(jī)將文本、圖形、圖像、聲音、動(dòng)畫、視頻等多種媒體信息進(jìn)行處理和綜合集成,以供人機(jī)交互使用的一個(gè)計(jì)算機(jī)應(yīng)用分支當(dāng)前第3頁\共有117頁\編于星期四\22點(diǎn)Page

41.2多媒體數(shù)據(jù)庫系統(tǒng)多媒體數(shù)據(jù)的特點(diǎn)數(shù)據(jù)量大

結(jié)構(gòu)復(fù)雜數(shù)據(jù)傳輸?shù)倪B續(xù)性時(shí)序性-同步機(jī)制當(dāng)前第4頁\共有117頁\編于星期四\22點(diǎn)Page

51.2多媒體數(shù)據(jù)庫系統(tǒng)多媒體數(shù)據(jù)庫傳統(tǒng)數(shù)據(jù)庫存儲(chǔ)和處理復(fù)雜對(duì)象面向應(yīng)用強(qiáng)調(diào)媒體獨(dú)立性處理的應(yīng)用對(duì)象不同,處理的方式也不同具有更強(qiáng)的對(duì)象訪問手段強(qiáng)調(diào)終端用戶界面的靈活性和多樣性存儲(chǔ)和處理格式化數(shù)據(jù)單一的數(shù)據(jù)模型簡單的查詢方式提供準(zhǔn)確的查詢當(dāng)前第5頁\共有117頁\編于星期四\22點(diǎn)1.2多媒體數(shù)據(jù)庫系統(tǒng)MDBS的層次結(jié)構(gòu)多媒體數(shù)據(jù)庫系統(tǒng)的核心任務(wù)是實(shí)時(shí)地綜合處理圖、文、聲信息集中型A指由單獨(dú)一個(gè)MDBMS來建立和管理不同媒體的數(shù)據(jù)庫,并由這個(gè)MDBMS來管理對(duì)象空間及目的數(shù)據(jù)的集成。協(xié)作型C協(xié)作型MDBS是由多個(gè)數(shù)據(jù)庫管理系統(tǒng)組成的,這些數(shù)據(jù)庫管理系統(tǒng)之間沒有主從之分,但能相互通信,協(xié)調(diào)工作。主從型B每一個(gè)數(shù)據(jù)庫都有自己的管理系統(tǒng),稱為從MDBMS,各自管理自己的數(shù)據(jù)庫。這些從MDBMS又受一個(gè)被稱為主MDBMS的統(tǒng)一控制和管理。當(dāng)前第6頁\共有117頁\編于星期四\22點(diǎn)1.2多媒體數(shù)據(jù)庫系統(tǒng)集中型組織結(jié)構(gòu)7當(dāng)前第7頁\共有117頁\編于星期四\22點(diǎn)1.2多媒體數(shù)據(jù)庫系統(tǒng)主從型組織結(jié)構(gòu)8當(dāng)前第8頁\共有117頁\編于星期四\22點(diǎn)1.2多媒體數(shù)據(jù)庫系統(tǒng)協(xié)作型組織結(jié)構(gòu)9當(dāng)前第9頁\共有117頁\編于星期四\22點(diǎn)1.3多媒體數(shù)據(jù)庫(MDB)

傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的主要處理對(duì)象是整數(shù)、實(shí)數(shù)、字符串等簡單類型數(shù)據(jù),但這種格式數(shù)據(jù)很難實(shí)現(xiàn)對(duì)人臉、指紋、人的聲音等事物的有效描述。傳統(tǒng)數(shù)據(jù)庫的層次結(jié)構(gòu)如下:10當(dāng)前第10頁\共有117頁\編于星期四\22點(diǎn)1.3多媒體數(shù)據(jù)庫(MDB)

傳統(tǒng)數(shù)據(jù)庫的層次結(jié)構(gòu)可以在用戶給出查詢條件后迅速地檢索到正確的信息,但面對(duì)圖像、聲音、視頻等無格式數(shù)據(jù),如何設(shè)定檢索條件,如何查詢所需結(jié)果等,都是無法直接實(shí)現(xiàn)的。

因此就必須尋找恰當(dāng)?shù)慕Y(jié)構(gòu)分層形式,已有多種層次劃分,包括對(duì)傳統(tǒng)數(shù)據(jù)庫的擴(kuò)展、對(duì)面向?qū)ο髷?shù)據(jù)庫的擴(kuò)展、超媒體層次擴(kuò)展等。雖然各有所不同,但大都是從最低層增加對(duì)多媒體數(shù)據(jù)的控制與支持,在最高層支持多媒體的綜合表現(xiàn)和用戶的查詢描述,在中間增加對(duì)多媒體數(shù)據(jù)的關(guān)聯(lián)和超鏈的處理。11當(dāng)前第11頁\共有117頁\編于星期四\22點(diǎn)1.3多媒體數(shù)據(jù)庫(MDB)綜合各多媒體數(shù)據(jù)的層次結(jié)構(gòu)如下:最高層支持多媒體的綜合表現(xiàn)和用戶的查詢描述,完成用戶對(duì)多媒體信息的查詢描述和得到多媒體信息的查詢結(jié)果中間層增加對(duì)多媒體數(shù)據(jù)的關(guān)聯(lián)和超鏈的處理,對(duì)現(xiàn)實(shí)世界用多媒體數(shù)據(jù)信息進(jìn)行的描述,也是多媒體數(shù)據(jù)庫中在全局概念下的一個(gè)整體視圖,該層為上層的用戶接口、下層的多媒體數(shù)據(jù)存儲(chǔ)和存取建立起一個(gè)在邏輯上統(tǒng)一的通道通過存取與存儲(chǔ)數(shù)據(jù)模型描述媒體數(shù)據(jù)的邏輯位置安排、相互的內(nèi)容關(guān)聯(lián)、特征與數(shù)據(jù)的關(guān)系等,并完成多媒體數(shù)據(jù)的邏輯存儲(chǔ)與存取。底層增加對(duì)多媒體數(shù)據(jù)的控制與支持。建立在多媒體操作系統(tǒng)之上,對(duì)不同性質(zhì)媒體分別進(jìn)行相應(yīng)的分割、識(shí)別、變換等操作,并確定物理存儲(chǔ)的位置和方法,以實(shí)現(xiàn)對(duì)各種媒體的最基本數(shù)據(jù)的管理和操縱12當(dāng)前第12頁\共有117頁\編于星期四\22點(diǎn)1.4多媒體數(shù)據(jù)庫管理系統(tǒng)(MDBMS)

在多媒體系統(tǒng)中存在著聲音、文字、圖形、視頻等媒體信息,與傳統(tǒng)的計(jì)算機(jī)應(yīng)用系統(tǒng)中只存在字符、數(shù)值相比擴(kuò)充很大,這就需要一種新的管理系統(tǒng)對(duì)多媒體數(shù)據(jù)庫進(jìn)行管理。這種MDBMS能像傳統(tǒng)的數(shù)據(jù)庫那樣對(duì)多媒體數(shù)據(jù)進(jìn)行有效地組織、管理和存取,并可以實(shí)現(xiàn)以下功能:多媒體數(shù)據(jù)庫對(duì)象的定義、多媒體數(shù)據(jù)存取、多媒體數(shù)據(jù)庫運(yùn)行控制、多媒體數(shù)據(jù)庫建立與維護(hù)、多媒體數(shù)據(jù)庫在網(wǎng)絡(luò)上的通信功能等。13當(dāng)前第13頁\共有117頁\編于星期四\22點(diǎn)Page

141.4多媒體數(shù)據(jù)庫管理系統(tǒng)(MDBMS)數(shù)據(jù)操作功能管理各種媒體數(shù)據(jù)網(wǎng)絡(luò)功能MDBMS的基本功能A、表示和處理各種媒體數(shù)據(jù),如文本、圖像、音頻、視頻等。B、反映和管理各種媒體數(shù)據(jù)的特性,或各種媒體數(shù)據(jù)之間的空間或時(shí)間的關(guān)聯(lián)。A、提供對(duì)無格式數(shù)據(jù)的查詢搜索功能B、對(duì)不同媒體提供不同的操作方法,如圖形、圖像的編輯處理,聲音數(shù)據(jù)的剪輯等。A、解決分布在網(wǎng)絡(luò)上的多媒體庫中數(shù)據(jù)的定義、存儲(chǔ)、操作問題。B、對(duì)數(shù)據(jù)的一致性、安全性、并發(fā)性進(jìn)行管理。當(dāng)前第14頁\共有117頁\編于星期四\22點(diǎn)1.4多媒體數(shù)據(jù)庫管理系統(tǒng)(MDBMS)多媒體數(shù)據(jù)庫管理系統(tǒng)MDBMS(MultimediaDatabaseManagementSystem)一般由用戶界面、存儲(chǔ)子系統(tǒng)、特征數(shù)據(jù)庫、索引子系統(tǒng)、檢索子系統(tǒng)和數(shù)據(jù)分析子系統(tǒng)等部分組成。其中用戶界面采用B/S方式實(shí)現(xiàn),該用戶界面需要支持用戶以圖形方式進(jìn)行基于內(nèi)容的查詢,同時(shí)也需要支持傳統(tǒng)文本方式的查詢。其體系結(jié)構(gòu)如下圖:15當(dāng)前第15頁\共有117頁\編于星期四\22點(diǎn)1.4多媒體數(shù)據(jù)庫管理系統(tǒng)(MDBMS)16當(dāng)前第16頁\共有117頁\編于星期四\22點(diǎn)17多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第17頁\共有117頁\編于星期四\22點(diǎn)Page

182.1多媒體內(nèi)容處理概念級(jí)內(nèi)容感知特性邏輯關(guān)系特指特征多媒體數(shù)據(jù)的內(nèi)容概念的層次視覺特性,如顏色、視覺對(duì)象、紋理、草圖、形狀、體積、空間關(guān)系、輪廓、等,聽覺特性如音調(diào)、音色、音質(zhì)等。音視頻對(duì)象的時(shí)間和空間關(guān)系,語義和上下文關(guān)聯(lián)等。與應(yīng)用相關(guān)的媒體特征,如人的體形特征、面部特征、指紋特征等。對(duì)象的語義表達(dá),例如利用文本的描述,通過分類和目錄來組織層次瀏覽,用鏈來組織上下文關(guān)聯(lián)。當(dāng)前第18頁\共有117頁\編于星期四\22點(diǎn)2.1多媒體內(nèi)容處理多媒體內(nèi)容的處理如下圖所示可分為三大部分:a、內(nèi)容獲取、b、內(nèi)容描述和c、內(nèi)容操縱。首先要對(duì)原始媒體進(jìn)行處理并提取內(nèi)容,然后用標(biāo)準(zhǔn)形式描述所提取的內(nèi)容,以支持各種內(nèi)容的查詢、檢索、索引等內(nèi)容的操縱。19當(dāng)前第19頁\共有117頁\編于星期四\22點(diǎn)2.1多媒體內(nèi)容處理

內(nèi)容獲取是通過對(duì)各種內(nèi)容的分析和處理而獲得媒體內(nèi)容的過程。多媒體數(shù)據(jù)的重要成分是空間和時(shí)間結(jié)構(gòu),首先必須分割出圖像對(duì)象、視頻的時(shí)間結(jié)構(gòu)、運(yùn)動(dòng)對(duì)象,以及這些對(duì)象之間的關(guān)系,然后提取顯著的區(qū)別特征和人的視覺、聽覺感知特征來表示媒體和媒體對(duì)象的性質(zhì)。20當(dāng)前第20頁\共有117頁\編于星期四\22點(diǎn)2.1多媒體內(nèi)容處理

內(nèi)容描述就是針對(duì)獲取的內(nèi)容進(jìn)行描述。為了支持?jǐn)?shù)據(jù)管理的靈活性、數(shù)據(jù)資源的全球化和互操作性,描述必須基于一定的標(biāo)準(zhǔn)。MPEG-7標(biāo)準(zhǔn)被稱為“多媒體內(nèi)容描述接口”,主要采用描述子(Descriptor)和描述模式來分別描述媒體的特性及其關(guān)系。描述子是特征的表示法,一個(gè)描述子就是定義特征的語法和語義學(xué)。MPEG-7標(biāo)準(zhǔn)定義了一系列的描述結(jié)構(gòu)、一種詳細(xì)說明描述結(jié)構(gòu)的語言、描述定義語言(DDL)和多種編碼描述方法。21當(dāng)前第21頁\共有117頁\編于星期四\22點(diǎn)2.1多媒體內(nèi)容處理內(nèi)容操縱主要針對(duì)內(nèi)容的用戶操作和應(yīng)用。有許多這方面的名詞和術(shù)語。查詢(Query)是面向用戶的術(shù)語,多用于數(shù)據(jù)庫操作、檢索(Retrieval)是在索引支持下的快速信息獲取方式、搜索(Search)常用于Internet的搜索引擎、摘要(Summarization,Excerpt)是適合于視頻和音頻等時(shí)基媒體的特殊操作、瀏覽(Browsing)可以線性或非線性地存取結(jié)構(gòu)化的內(nèi)容、過濾(Filtering)是與檢索相反的一種信息存取方式。22當(dāng)前第22頁\共有117頁\編于星期四\22點(diǎn)2.2基于內(nèi)容的多媒體信息檢索基于內(nèi)容檢索(Contentbased),就是從媒體數(shù)據(jù)中提取出特定的信息線索,根據(jù)這些線索從大量存儲(chǔ)在數(shù)據(jù)庫中的媒體中進(jìn)行查找,檢索出具有相似特征的媒體數(shù)據(jù)出來。

多媒體數(shù)據(jù)的“內(nèi)容”表示多媒體信息的含義、要旨、主題和顯著的性質(zhì)、實(shí)質(zhì)性的東西、物理細(xì)節(jié)等,而多媒體內(nèi)容處理技術(shù)要基于對(duì)內(nèi)容的基本定義。23當(dāng)前第23頁\共有117頁\編于星期四\22點(diǎn)Page

242.2基于內(nèi)容的多媒體信息檢索多媒體信息檢索的特點(diǎn)相似性檢索:CBR采用一種近似匹配的方法和技術(shù),逐步求精來獲得查詢和檢索結(jié)果,每一層的中間結(jié)果是一個(gè)集合,不斷減少集合的范圍,直到定位到查找的目標(biāo)直接從內(nèi)容中提取信息線索:CBR直接對(duì)文本、圖像、視頻、音頻進(jìn)行分析,從中抽取內(nèi)容特征,然后利用這些內(nèi)容特征建立索引并進(jìn)行檢索。滿足用戶多層次的檢索要求:CBR檢索系統(tǒng)通常由媒體庫、特征庫和知識(shí)庫組成。大型數(shù)據(jù)庫(集)的快速檢索:CBR往往擁有數(shù)量巨大、種類繁多的多媒體數(shù)據(jù)庫,能夠?qū)崿F(xiàn)對(duì)多媒體信息的快速檢索。當(dāng)前第24頁\共有117頁\編于星期四\22點(diǎn)2.3內(nèi)容檢索的關(guān)鍵技術(shù)基于內(nèi)容的多媒體數(shù)據(jù)庫管理系統(tǒng)除了解決媒體信息的存儲(chǔ),還要求能夠從媒體數(shù)據(jù)中分析、抽取可供檢索的內(nèi)容特征,用于信息的檢索。其關(guān)鍵技術(shù)主要有特征抽取、特征分析和特征匹配。特征提取:提取各種特征,如顏色,紋理,形狀等。根據(jù)提取的特征不同,采取不同的處理,例如提取形狀特征,就需要先進(jìn)行圖像分割和邊緣提取等步驟。選擇合適的算法,并在效率和精確性方面加以改進(jìn),以適應(yīng)檢索的需要,并實(shí)現(xiàn)特征的提取。特征分析:對(duì)圖像的各種特征進(jìn)行分析,選擇提取效率高、信息濃縮性好的特征,或者將幾種特征進(jìn)行組合,用到檢索領(lǐng)域。特征匹配:選擇何種模型來衡量圖像特征間的相似度。25當(dāng)前第25頁\共有117頁\編于星期四\22點(diǎn)2.3內(nèi)容檢索的關(guān)鍵技術(shù)基于內(nèi)容多媒體數(shù)據(jù)庫管理系統(tǒng)的的功能框架如下圖所示。26當(dāng)前第26頁\共有117頁\編于星期四\22點(diǎn)2.4基于內(nèi)容的多媒體信息檢索體系結(jié)構(gòu)基于內(nèi)容檢索系統(tǒng)結(jié)構(gòu)由特征分析子系統(tǒng)、特征提取子系統(tǒng)、數(shù)據(jù)庫、查詢接口、檢索引擎和索引過濾等子系統(tǒng)組成,同時(shí)需要相應(yīng)的知識(shí)輔助支持特定領(lǐng)域的內(nèi)容處理。27當(dāng)前第27頁\共有117頁\編于星期四\22點(diǎn)2.4基于內(nèi)容的多媒體信息檢索體系結(jié)構(gòu)特征分析:該子系統(tǒng)負(fù)責(zé)將需要入庫的媒體進(jìn)行分割或節(jié)段化,標(biāo)識(shí)出需要的對(duì)象或內(nèi)容關(guān)鍵點(diǎn),以便有針對(duì)性的對(duì)目標(biāo)進(jìn)行特征提取。特征標(biāo)識(shí)可通過用戶輸入或系統(tǒng)定義。特征提取對(duì)用戶提供或系統(tǒng)標(biāo)明的媒體對(duì)象進(jìn)行特征提取處理。提取特征時(shí)需要知識(shí)處理模塊的輔助,與標(biāo)準(zhǔn)化的知識(shí)定義直接有關(guān)。數(shù)據(jù)庫包含多媒體數(shù)據(jù)庫和特征數(shù)據(jù)庫,分別存放多媒體數(shù)據(jù)同對(duì)應(yīng)的特征數(shù)據(jù),它們彼此之間存在著一定的對(duì)應(yīng)關(guān)系。特征庫中包含了由用戶輸入的和預(yù)處理自動(dòng)提取的特征數(shù)據(jù),通過檢索引擎組織與媒體類型相匹配的索引來達(dá)到快速搜索的目的。28當(dāng)前第28頁\共有117頁\編于星期四\22點(diǎn)2.4基于內(nèi)容的多媒體信息檢索體系結(jié)構(gòu)查詢接口,即人機(jī)交互界面,友好的人機(jī)交互界面是檢索系統(tǒng)不可缺少的。在基于內(nèi)容的檢索中,由于特征不直觀,因此必須為用戶提供一個(gè)可視化的輸入手段,還應(yīng)在用戶界面提供查詢結(jié)果的創(chuàng)覽功能,即為用戶提供初步查詢結(jié)果的返回,系統(tǒng)會(huì)根據(jù)用戶選擇的排序標(biāo)準(zhǔn)(如顏色、旋律、節(jié)拍等),按照相似度的大小將結(jié)果排列后,返回給用戶。檢索引擎,檢索要將特征提取值和特征庫中的值進(jìn)行比較,得到一個(gè)相似度。不同的媒體各自具有不同的相似度算法,這些算法也稱為相似性測度函數(shù)。檢索引擎使用相似性測度函數(shù)集去進(jìn)行比較,從而確定與特征庫的值最接近的多媒體數(shù)據(jù)。索引過濾在大規(guī)模多媒體數(shù)據(jù)檢索過程中,為了提高檢索效率,常在檢索引擎進(jìn)行匹配之前采用索引過濾方法,取出高維特征用于匹配。29當(dāng)前第29頁\共有117頁\編于星期四\22點(diǎn)2.4基于內(nèi)容的多媒體信息檢索體系結(jié)構(gòu)如果用戶對(duì)系統(tǒng)返回的查詢結(jié)果不滿意怎么辦?相關(guān)返饋技術(shù)30當(dāng)前第30頁\共有117頁\編于星期四\22點(diǎn)2.5基于內(nèi)容的多媒體信息檢索中的相關(guān)反饋技術(shù)在基于內(nèi)容的檢索過程中相關(guān)反饋是一個(gè)相當(dāng)重要的過程。因?yàn)閮H僅基于圖像低層特征很難給出令人滿意的結(jié)果,主要原因是圖像低層特征和高層語義間存在著很大的差距。相關(guān)反饋技術(shù)就是為了解決這個(gè)問題而提出的,一方面需要找出更有效的多媒體表示方法,另一方面通過人機(jī)交互來捕捉和建立低層特征和高層語義之間的關(guān)聯(lián)。

相關(guān)反饋技術(shù)的基本思想是建立一個(gè)由用戶參與的交互過程,在交互過程逐步求得精確的查詢結(jié)果。在檢索過程中,系統(tǒng)根據(jù)用戶的查詢要求返回檢索結(jié)果,用戶可以對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià)和標(biāo)記,并將這些信息反饋給系統(tǒng),系統(tǒng)則根據(jù)這些反饋信息進(jìn)行學(xué)習(xí),并返回新的查詢結(jié)果,從而使得檢索結(jié)果更加滿足用戶的要求。31當(dāng)前第31頁\共有117頁\編于星期四\22點(diǎn)2.5基于內(nèi)容的多媒體信息檢索中的相關(guān)反饋技術(shù)相關(guān)反饋結(jié)構(gòu)圖如下:32當(dāng)前第32頁\共有117頁\編于星期四\22點(diǎn)參考文獻(xiàn)[1]鄭繼文,吳吉義.多媒體數(shù)據(jù)庫管理系統(tǒng)的關(guān)鍵技術(shù)分析[J].微型機(jī)與應(yīng)用,2007(6):94-96.[2]徐險(xiǎn)峰.基于內(nèi)容的多媒體信息檢索技術(shù)[J].現(xiàn)代情報(bào),2005,25(3):134-136.[3]李松濤,鐘建寧.基于內(nèi)容的多媒體數(shù)據(jù)庫管理系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(12):214-216.[4]柳群英.基于內(nèi)容的音頻信息檢索技術(shù)[J].現(xiàn)代情報(bào),2005(6):91-93.[5]黃麗娟.基于內(nèi)容的多媒體信息檢索[J].現(xiàn)代圖書情報(bào)技術(shù),2000(5):40-43.[6]武獻(xiàn)宇,謝金龍,米志強(qiáng).基于內(nèi)容信息檢索技術(shù)研究[J].電腦知識(shí)與技術(shù),2009,5(8):1923-1924.[7]李廣建,黃永文.基于內(nèi)容的信息檢索[J].中國圖書館學(xué)會(huì)2000年會(huì)論文,2000:111-118.[8]黃敬泉,韓冰.基于內(nèi)容的檢索新進(jìn)展[J].現(xiàn)代計(jì)算機(jī),2010:38-40.[9]黃志軍,曾斌.多媒體數(shù)據(jù)庫技術(shù)[M].北京:國防工業(yè)出版社,2005:91-115.[10]高陽.數(shù)據(jù)庫技術(shù)與應(yīng)用[M].北京:電子工業(yè)出版社,2003:316-318.當(dāng)前第33頁\共有117頁\編于星期四\22點(diǎn)34多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第34頁\共有117頁\編于星期四\22點(diǎn)Page

353.1基于內(nèi)容檢索的實(shí)現(xiàn)技術(shù)1、模式識(shí)別將用戶提供的目標(biāo)媒體數(shù)據(jù)對(duì)象與數(shù)據(jù)庫中的源媒體數(shù)據(jù)對(duì)象進(jìn)行模糊匹配,然后讀取數(shù)據(jù)進(jìn)行表示。這種檢索方式精確度較低,查詢執(zhí)行時(shí)間較長。2、特征提取將基于媒體內(nèi)容的檢索轉(zhuǎn)換為基于媒體內(nèi)容特征的檢索。特征檢索就是從媒體數(shù)據(jù)中提取特定的信息線索特征,然后再根據(jù)這些數(shù)據(jù)特征在數(shù)據(jù)集合中檢索出具有相似特征的媒體數(shù)據(jù)來。當(dāng)前第35頁\共有117頁\編于星期四\22點(diǎn)Page

363.1基于內(nèi)容檢索的實(shí)現(xiàn)技術(shù)多媒體特征的多維性空間特征,有對(duì)象的紋理和形狀特征以及對(duì)象的空間關(guān)系等;時(shí)間特征,有對(duì)象隨時(shí)間變化的軌跡,如音樂片段的持續(xù)時(shí)間。特征表示是多層的:(1)客觀特征:反映多媒體數(shù)據(jù)本身具備的特性,如對(duì)象的顏色、形狀、紋理、音頻頻率等。(2)主觀特征:指人們對(duì)多媒體數(shù)據(jù)的主觀感知,如對(duì)情緒(快樂、憤怒)和風(fēng)格的描述。(3)作品特征:如作者、廠家、導(dǎo)演等信息。(4)合成特征:包括場景合成、編輯信息、用戶的喜好等。(5)概念(高層特征):用于描述事件和活動(dòng)等概念。當(dāng)前第36頁\共有117頁\編于星期四\22點(diǎn)Page

373.1基于內(nèi)容檢索的實(shí)現(xiàn)技術(shù)基本檢索步驟:對(duì)入庫的多媒體數(shù)據(jù)進(jìn)行特征提取以提取的媒體特征建立索引輸入用戶描述將用戶描述與庫中媒體進(jìn)行相似性匹配在相似性匹配的結(jié)果中選擇最終結(jié)果常用的圖像特征有顏色、紋理、形狀等,音頻特征有音量、頻率分布、無聲率等,視頻特征有關(guān)鍵幀、運(yùn)動(dòng)對(duì)象等當(dāng)前第37頁\共有117頁\編于星期四\22點(diǎn)Page

383.2多媒體內(nèi)容檢索過程整個(gè)過程可以分為下面幾個(gè)步驟:(1)初始查詢說明。用戶查找一個(gè)對(duì)象時(shí),最初可以用示例查詢(QBE)或查詢語言來形成一個(gè)查詢。系統(tǒng)提取該示例的特征或把查詢描述映射為具體的特征向量。(2)相似性匹配。將查詢特征與特征庫中的特征按照一定的匹配算法進(jìn)行相似匹配。(3)滿足一定相似性條件的一組候選結(jié)果,按相似度大小排列后返回給用戶。(4)特征調(diào)整。用戶可以挑選系統(tǒng)返回的查詢結(jié)果,直至得到滿意的結(jié)果;或者從候選結(jié)果中選擇一個(gè)示例。根據(jù)用戶給出的結(jié)果相關(guān)度反饋,對(duì)查詢進(jìn)行特征調(diào)整,形成一個(gè)新的查詢。(5)逐步縮小查詢范圍,重復(fù)步驟(2)~(5),直到用戶對(duì)查詢結(jié)果滿意為止。當(dāng)前第38頁\共有117頁\編于星期四\22點(diǎn)Page

393.3基于內(nèi)容檢索系統(tǒng)概念基于內(nèi)容檢索(CBR,Content-BasedRetrieval)每一種媒體數(shù)據(jù)都有難以用符號(hào)化方法來描述的信息線索(如圖像中的顏色、視頻中的事件、音頻中的音調(diào)等)。當(dāng)用戶希望利用這些信息線索來對(duì)多媒體數(shù)據(jù)進(jìn)行檢索時(shí),傳統(tǒng)的數(shù)據(jù)庫檢索多采用基于關(guān)鍵字的檢索方式,并且在許多情況下媒體內(nèi)容難以用幾個(gè)關(guān)鍵字來進(jìn)行充分描述,作為關(guān)鍵字的圖像特征的選取也有很大的主觀性。另一方面,用戶很難將這些信息線索轉(zhuǎn)化成某種符號(hào)形式。因此,要求數(shù)據(jù)庫系統(tǒng)能對(duì)多媒體數(shù)據(jù)進(jìn)行內(nèi)容語義分析,以便達(dá)到更深的檢索層次,這就是所謂的基于內(nèi)容檢索當(dāng)前第39頁\共有117頁\編于星期四\22點(diǎn)Page

403.3基于內(nèi)容檢索系統(tǒng)概念基于內(nèi)容檢索主要特點(diǎn)①從媒體內(nèi)容中提取信息線索?;趦?nèi)容檢索突破了傳統(tǒng)的基于關(guān)鍵字檢索的局限,直接對(duì)圖像、視頻、音頻等進(jìn)行分析,抽取特征,使得檢索更接近于媒體對(duì)象。②提取特征的方法多種多樣。以圖像特征提取為例,可以提取形狀、顏色、紋理和輪廓等多種特征。③人機(jī)交互。一般來說,用戶對(duì)特征比較敏感,能夠迅速分辨出目標(biāo)的輪廓、音樂的旋律等。如果對(duì)象很多,則用戶很難記住這些對(duì)象的特征,從大量數(shù)據(jù)中查找目標(biāo)的效率也非常低,但計(jì)算機(jī)能夠輕松地做到這一點(diǎn)。因此,在使用基于內(nèi)容檢索系統(tǒng)時(shí),用戶與計(jì)算機(jī)配合進(jìn)行檢索。當(dāng)前第40頁\共有117頁\編于星期四\22點(diǎn)Page

413.3基于內(nèi)容檢索系統(tǒng)概念基于內(nèi)容檢索主要特點(diǎn)④近似匹配?;趦?nèi)容檢索時(shí)一種近似匹配過程。在檢索過程中,采用逐步求精的方法,每一層的中間結(jié)果是一個(gè)集合,不斷地減小該集合的范圍,直到定位到目標(biāo)為止。這一特點(diǎn)與數(shù)據(jù)庫檢索的精確匹配算法顯然不一樣。⑤綜合利用多種相關(guān)技術(shù)?;趦?nèi)容檢索可以利用圖像處理、語音信號(hào)處理、模式識(shí)別、知識(shí)庫系統(tǒng)、計(jì)算機(jī)圖形學(xué)、數(shù)據(jù)庫管理系統(tǒng)、信息檢索等眾多領(lǐng)域的研究成果和研究方法,來研究各種新的媒體數(shù)據(jù)表示和數(shù)據(jù)模型、高效可靠的查詢處理算法、智能查詢接口以及與應(yīng)用領(lǐng)域無關(guān)的系統(tǒng)結(jié)構(gòu)。當(dāng)前第41頁\共有117頁\編于星期四\22點(diǎn)Page

423.3基于內(nèi)容檢索系統(tǒng)概念基于內(nèi)容檢索系統(tǒng)體系結(jié)構(gòu)主要模塊如下:(1)目標(biāo)標(biāo)識(shí)模塊(2)特征提取模塊(3)數(shù)據(jù)庫模塊(4)查詢接口模塊(5)檢索引擎模塊(6)索引/過濾模塊當(dāng)前第42頁\共有117頁\編于星期四\22點(diǎn)Page

433.4未來的主要研究問題(1)綜合的多特征檢索技術(shù)(2)高層概念和低層特征的關(guān)聯(lián)。(3)高維索引技術(shù)(4)時(shí)序媒體的內(nèi)容結(jié)構(gòu)化(5)用戶查詢界面(6)數(shù)據(jù)模型(7)性能評(píng)價(jià)(8)內(nèi)容描述標(biāo)準(zhǔn)(9)多媒體信息安全當(dāng)前第43頁\共有117頁\編于星期四\22點(diǎn)44多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第44頁\共有117頁\編于星期四\22點(diǎn)Page

454.1圖像檢索的發(fā)展基于內(nèi)容的圖像檢索涉及信息檢索、圖像處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、人工智能等諸多研究領(lǐng)域關(guān)于圖像信息的檢索技術(shù)經(jīng)歷了圖像特征文本描述→圖像表層視覺特征→圖像語義內(nèi)在特征的3個(gè)階段。當(dāng)前第45頁\共有117頁\編于星期四\22點(diǎn)Page

464.1圖像檢索的發(fā)展圖像特征文本描述20世紀(jì)70年代末人工文字注解圖像利用文本檢索實(shí)現(xiàn)對(duì)圖像特征的查找費(fèi)時(shí)費(fèi)力不完整反映圖像表層視覺特征20世紀(jì)90年代初使用顏色、紋理及形狀等視覺特征實(shí)現(xiàn)了圖像視覺內(nèi)容特征的檢索以圖找圖查詢模式圖像語義內(nèi)在特征智能檢索解決圖像簡單視覺特征和用戶檢索豐富語義之間存在的"語義鴻溝"問題的關(guān)鍵當(dāng)前第46頁\共有117頁\編于星期四\22點(diǎn)Page

474.1圖像檢索的發(fā)展基于內(nèi)容的圖像檢索技術(shù)研究的4個(gè)熱點(diǎn)最初的圖像檢索研究主要集中于如何選擇合適的全局特征去描述圖像內(nèi)容和采用什么樣的相似性度量方法進(jìn)行圖像匹配。第二個(gè)研究熱點(diǎn)是基于區(qū)域的圖像檢索方法,其主要思想是通過圖像分割技術(shù)提取出圖像中的物體,然后對(duì)每個(gè)區(qū)域使用局部特征來描述,綜合每個(gè)區(qū)域特征可得到圖像的特征描述。前兩個(gè)研究方向可稱為以圖像為中心的方法,對(duì)于用戶的需求缺乏分析。第三個(gè)研究熱點(diǎn)就是針對(duì)這一問題展開的,借助相關(guān)反饋的思想,根據(jù)用戶需求及時(shí)調(diào)整系統(tǒng)檢索時(shí)用的特征和相似性度量方法,從而縮小底層特征和高層語義之間的差距。第四個(gè)研究熱點(diǎn)是研究如何從多種渠道獲取圖像語義信息,如何將圖像底層特征與圖像關(guān)鍵詞結(jié)合進(jìn)行圖像自動(dòng)標(biāo)注以提高檢索準(zhǔn)確率等。當(dāng)前第47頁\共有117頁\編于星期四\22點(diǎn)Page

484.2基于內(nèi)容圖像檢索的系統(tǒng)結(jié)構(gòu)圖基于內(nèi)容圖像檢索的體系結(jié)構(gòu)分為特征提取和查詢兩個(gè)子系統(tǒng):(1)預(yù)處理包括圖像格式的轉(zhuǎn)換、規(guī)格化,圖像的增強(qiáng)與去噪等功能。(2)目標(biāo)標(biāo)識(shí)即標(biāo)識(shí)出圖像中用戶感興趣的區(qū)域或?qū)ο?,以便針?duì)目標(biāo)進(jìn)行特征提取并查詢。(3)特征提取包括提取圖像顏色、紋理、形狀、空間位置關(guān)系等特征。當(dāng)前第48頁\共有117頁\編于星期四\22點(diǎn)Page

494.2基于內(nèi)容圖像檢索的系統(tǒng)結(jié)構(gòu)圖基于內(nèi)容圖像檢索的體系結(jié)構(gòu)(4)數(shù)據(jù)庫由圖像庫、特征庫和知識(shí)庫組成。圖像庫為數(shù)字化的圖像信息,特征庫包含自動(dòng)提取的內(nèi)容特征,知識(shí)庫包含專門和通用知識(shí),有利于查詢優(yōu)化和快速匹配,知識(shí)庫中知識(shí)表達(dá)可以更換以適用于各種不同的應(yīng)用領(lǐng)域。當(dāng)前第49頁\共有117頁\編于星期四\22點(diǎn)Page

504.2基于內(nèi)容圖像檢索的系統(tǒng)結(jié)構(gòu)圖基于內(nèi)容圖像檢索的體系結(jié)構(gòu)(5)查詢接口提供一個(gè)友好的用戶界面。包括可視化的輸入手段和結(jié)果瀏覽功能。(6)檢索引擎中包括一個(gè)有效可靠的相似性測度函數(shù)集。(7)檢索引擎通過索引/過濾模塊達(dá)到快速檢索的目的。當(dāng)前第50頁\共有117頁\編于星期四\22點(diǎn)Page

514.3基于內(nèi)容圖像檢索的特點(diǎn)主要特點(diǎn)有:(1)基于內(nèi)容檢索突破了傳統(tǒng)的基于表達(dá)式檢索的局限,從媒體內(nèi)容中提取信息線索。利用圖像內(nèi)容特征建立索引進(jìn)行檢索。使得檢索過程更加有效,適應(yīng)性更強(qiáng)。(2)基于內(nèi)容圖像檢索是一種近似匹配的技術(shù)。由于相同內(nèi)容的圖像有不同的表現(xiàn)方式,例如同一場景下的圖片有遠(yuǎn)景和近景之分。而且圖像信息的內(nèi)容比較豐富,相互關(guān)聯(lián)性比較強(qiáng)。(3)大型數(shù)據(jù)庫的快速檢索。在實(shí)際的多媒體數(shù)據(jù)庫中,不僅數(shù)據(jù)量巨大,而且種類和數(shù)量繁多,因此要求CBIR技術(shù)快速地實(shí)現(xiàn)對(duì)多媒體信息的檢索。(4)以相關(guān)反饋為有效手段。當(dāng)用戶提供一幅查詢草圖(sketch)或圖像,并要求找出與此相似的圖像時(shí),其意識(shí)中已經(jīng)有了相似性判別標(biāo)準(zhǔn)。理想情況下,系統(tǒng)的相似性度量應(yīng)該與用戶的判別一致,它涉及人類視覺系統(tǒng)對(duì)圖像的認(rèn)知和高層語義的解釋。因此通過用戶的相關(guān)反饋,檢索系統(tǒng)學(xué)習(xí)用戶的意圖和準(zhǔn)則來指導(dǎo)圖像檢索過程,有效提高圖像檢索的效率。當(dāng)前第51頁\共有117頁\編于星期四\22點(diǎn)Page

524.4基于內(nèi)容圖像檢索方法的分類基于內(nèi)容的圖像檢索方法可分為外部圖例查詢、內(nèi)部圖例查詢、草圖查詢和綜合查詢。早在1980年就有文獻(xiàn)提出了圖倒查詢的概念,圖例查詢是一種由一幅或多幅圖像實(shí)例構(gòu)造查詢的圖像檢索技術(shù)。1、外部圖例查詢示例圖像來源于檢索系統(tǒng)的外部優(yōu)勢在于用戶在表達(dá)其信息需求時(shí)的簡單性。用戶僅需提供一幅或多幅圖像,或許也需要調(diào)整一些參數(shù),如各種特征的權(quán)重等。檢索過程中并不需要特定的數(shù)據(jù)庫查詢語言方面的知識(shí)。

缺點(diǎn)當(dāng)用戶很難提供一個(gè)示例圖像時(shí),外部圖倒查詢的可用性將大打折扣。也許在某種情況下,在系統(tǒng)外部尋找一幅示例圖片所付出的代價(jià)甚至有可能超過直接在數(shù)據(jù)庫中尋找圖像的代價(jià)??傊?,外部圖例查詢的優(yōu)點(diǎn)是易用,缺點(diǎn)是需要付出一定的努力向系統(tǒng)提供外部示例圖像。當(dāng)前第52頁\共有117頁\編于星期四\22點(diǎn)Page

534.4基于內(nèi)容圖像檢索方法的分類2、內(nèi)部圖例查詢示例圖片是從檢索系統(tǒng)的數(shù)據(jù)庫中選出的。系統(tǒng)在其他方面的功能與外部示例圖片基本上一致。為了比較內(nèi)部與外部示例查詢,拿搶劫嫌疑犯的照片的檢索作例子。目擊者沒有必要一張一張地翻閱警察局存檔的嫌疑犯照片庫,通過圖例查詢,目擊者可以先選擇一張看上去比較像嫌疑犯的照片,比如兩者都有絡(luò)腮胡子,然后從系統(tǒng)給出的所有相似者列表中快速確定搜索目標(biāo)。優(yōu)勢在于不再需要為了進(jìn)行圖例查詢而首先從外界尋求或構(gòu)造一幅示例圖片。缺點(diǎn):系統(tǒng)要求用戶必須首先在數(shù)據(jù)庫中找到一幅類似的圖片,這個(gè)過程可能是相當(dāng)費(fèi)時(shí)費(fèi)力的。所以內(nèi)部圖例查詢經(jīng)常與其他檢索方法結(jié)合使用以避免這個(gè)問題。比如可以先通過直接查詢縮小圖像搜索范圍,然后再使用內(nèi)部圖例查詢??傊瑑?nèi)部圖例查詢的優(yōu)點(diǎn)是用戶不再為獲得一個(gè)外部示例圖片而煩惱,缺點(diǎn)是仍然需要用戶付出努力在數(shù)據(jù)庫中找到一幅合適的示例圖片。當(dāng)前第53頁\共有117頁\編于星期四\22點(diǎn)Page

544.4基于內(nèi)容圖像檢索方法的分類3、草圖查詢示例圖像由用戶創(chuàng)建。用戶為他希望得到的圖像勾畫一張草圖。檢索系統(tǒng)為此必須為用戶提供一些圖像部件(如各類紋理)和作圖工具。我們還是拿前面提到的搶劫嫌疑犯的照片檢索作例子,這里向系統(tǒng)輸入的示例圖像是一張嫌疑犯的簡略肖像草圖,它是由有關(guān)專家根據(jù)目擊者的敘述描畫的。有時(shí)目擊者可以通過組合一些諸如頭發(fā)、鼻子、眼睛等部件的照片而構(gòu)造一張臉。缺點(diǎn)是它要求用戶或多或少要有一些藝術(shù)才能。由于大多數(shù)的用戶不具備足夠的這方面的才能,草圖查詢在大多數(shù)的場合下僅用來指出圖像中對(duì)象的位置或一些對(duì)象的全局屬性??梢?,草圖查詢的優(yōu)點(diǎn)是用戶可以根據(jù)需要指出最重要、最感興趣的圖像細(xì)節(jié),缺點(diǎn)是草圖的創(chuàng)建不像想象的那么容易,而且很難建立草圖與圖像之間的映射關(guān)系。當(dāng)前第54頁\共有117頁\編于星期四\22點(diǎn)Page

554.4基于內(nèi)容圖像檢索方法的分類4、綜合檢索方法大多數(shù)的圖像檢索系統(tǒng)都或多或少地綜合應(yīng)用了上述的各種檢索方法。系統(tǒng)可以對(duì)同一個(gè)數(shù)據(jù)庫提供多種檢索方法的接口,但更有意義的是在一次檢索會(huì)話中綜合應(yīng)用不同的檢索技術(shù)。后一種情況下,檢索系統(tǒng)將是多個(gè)應(yīng)用不同檢索方法的子系統(tǒng)的有機(jī)集成,子系統(tǒng)之間通過輸入與輸出的對(duì)接完成通信與交互。當(dāng)前第55頁\共有117頁\編于星期四\22點(diǎn)Page

564.5基于內(nèi)容圖像檢索的應(yīng)用1.知識(shí)產(chǎn)權(quán)保護(hù)許多知識(shí)產(chǎn)權(quán)的載體都是圖像,最明顯的是商標(biāo)和藝術(shù)作品。毫無疑問,利用基于內(nèi)容的圖像檢索技術(shù)實(shí)現(xiàn)商標(biāo)的專用圖形標(biāo)記的自動(dòng)審查具有非?,F(xiàn)實(shí)的意義。2.新一代網(wǎng)上搜索和數(shù)字圖書館新一代網(wǎng)上搜索引擎應(yīng)該具有協(xié)助用戶從海量而且無序的網(wǎng)上圖像資源中尋找符合要求的圖像的能力。除了對(duì)圖像內(nèi)容的分析外,基于Web的圖像搜索引擎還要提供友好的查詢界面和快速的聯(lián)機(jī)反應(yīng)能力。3.醫(yī)學(xué)和遙感圖像的分析和處理盡管傳統(tǒng)的圖像處理領(lǐng)域早就開始涉足醫(yī)學(xué)和遙感圖像的分析和處理的研究,但它們?nèi)匀皇且粋€(gè)開放的研究課題,無論是民用還是軍事,醫(yī)學(xué)和遙感圖像的分析和處理都具有非常重大的現(xiàn)實(shí)意義。特別當(dāng)圖像規(guī)模增加時(shí),準(zhǔn)確有效的圖像分析手段以及快速的圖像識(shí)別和檢索技術(shù)將凸現(xiàn)其重要性。當(dāng)前第56頁\共有117頁\編于星期四\22點(diǎn)Page

574.5基于內(nèi)容圖像檢索的應(yīng)用4.犯罪與安全預(yù)防當(dāng)將圖像的內(nèi)容限制在特定領(lǐng)域時(shí),基于內(nèi)容的圖像檢索技術(shù)將找到更為具體的應(yīng)用。例如,安全部門可以將人的主要特征(如指紋和臉部)的圖像存儲(chǔ)在數(shù)據(jù)庫中,通過指紋識(shí)別和人臉識(shí)別就有可能從大量的指紋庫或者人臉庫中自動(dòng)識(shí)別出特定的目標(biāo)。毫無疑問,這具有重大的社會(huì)價(jià)值?;ヂ?lián)網(wǎng)的飛速發(fā)展也帶來另外一個(gè)負(fù)面的影響,即網(wǎng)上不健康內(nèi)容的大量增加,特別是一些低級(jí)趣味的圖片。在某些情況下可能需要對(duì)這些信息進(jìn)行過濾?;趦?nèi)容的圖像檢索技術(shù)完全可以應(yīng)用到類似的具有圖像過濾需求的應(yīng)用中。除此以外,基于內(nèi)容的圖像檢索技術(shù)還可以應(yīng)用到設(shè)計(jì)(時(shí)裝、裝潢和結(jié)構(gòu))、遠(yuǎn)程教育以及個(gè)人相冊管理等方面。當(dāng)前第57頁\共有117頁\編于星期四\22點(diǎn)Page

584.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較1.基于文本的圖像檢索TBIR傳統(tǒng)的圖像檢索方法.它是在對(duì)圖像進(jìn)行文本標(biāo)注的基礎(chǔ)上,對(duì)圖像進(jìn)行基于關(guān)鍵字的檢索.在這種技術(shù)下,對(duì)圖像的檢索變成了對(duì)關(guān)鍵字的查找,是一種基于關(guān)鍵詞的匹配查找過程.其基本步驟是先對(duì)圖像文件建立相應(yīng)的關(guān)鍵詞或描述字段,它通過對(duì)圖像的名稱、編號(hào)、內(nèi)容描述、圖像大小、圖像所在文件的大小、圖像來源、作者、建立圖像的時(shí)間、存儲(chǔ)地點(diǎn)等關(guān)鍵性的信息采用自動(dòng)標(biāo)引或進(jìn)行人工注釋,并進(jìn)行圖像的特征抽取,建立圖像索引數(shù)據(jù)庫,然后按全文數(shù)據(jù)庫管理,采用全文數(shù)據(jù)庫檢索方法.該方法的實(shí)質(zhì)是把圖像檢索轉(zhuǎn)換為對(duì)與該圖像對(duì)應(yīng)的文本檢索.當(dāng)前第58頁\共有117頁\編于星期四\22點(diǎn)Page

594.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較2.

TBIR的優(yōu)點(diǎn)和問題優(yōu)點(diǎn):易于實(shí)現(xiàn)人工干預(yù),所以它的查準(zhǔn)率是相當(dāng)高,仍常用于輔助其他圖像檢索技術(shù),以進(jìn)一步提高檢索性能.存在的困難:文本描述難以充分表達(dá)圖像的豐富內(nèi)容圖像中則往往含有大量需要定量描述的信息許多圖像的特征難以用文本描述表達(dá)文本描述又具有一定的主觀性文本描述難以實(shí)現(xiàn)基于圖像視覺特征的相似性檢索海量數(shù)據(jù)下人工標(biāo)注的開銷太大當(dāng)前第59頁\共有117頁\編于星期四\22點(diǎn)Page

604.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較3.

TBIR與CBIR的比較TBIR與CBIR有著各自的優(yōu)勢和不足,下面列表比較了兩種方法.當(dāng)前第60頁\共有117頁\編于星期四\22點(diǎn)Page

614.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較3.

TBIR與CBIR的比較TBIR在一定程度上回避了對(duì)復(fù)雜的可視化元素的識(shí)別難題,符合人們熟悉的檢索習(xí)慣,實(shí)現(xiàn)簡單,由于圖像在手工標(biāo)注時(shí)圖像的標(biāo)注有太多的主觀性、缺乏統(tǒng)一的標(biāo)準(zhǔn),仍舊局限在文本檢索的范圍下,通過受控詞匯來描述圖像,無法對(duì)圖像內(nèi)容理解,而且其在表達(dá)復(fù)雜的或是難以表達(dá)的圖像內(nèi)容時(shí)有極大的局限性.

CBIR恰相反,主要利用對(duì)直觀形象的特征元素的分析來標(biāo)引圖像,具有一定的客觀性,如每幅圖像的色彩直方圖是確定的.但是CBIR算法復(fù)雜,實(shí)現(xiàn)成本高,難以建立從底層圖像特征到高層語義的聯(lián)系,檢索的準(zhǔn)確性較低.如果能將二者結(jié)合起來取長補(bǔ)短,則網(wǎng)絡(luò)環(huán)境下圖像檢索技術(shù)必有新的進(jìn)展.當(dāng)前第61頁\共有117頁\編于星期四\22點(diǎn)Page

624.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較4.TBIR與CBIR的結(jié)合運(yùn)用網(wǎng)頁圖像的內(nèi)容不僅包含在自身的圖像數(shù)據(jù)中又包含于它所HTML檔的文字描述中.Web圖像的這種特點(diǎn)提供了TBIR與CBIR結(jié)合運(yùn)用的機(jī)會(huì).人們對(duì)圖像間相似度的判斷體現(xiàn)出多重標(biāo)準(zhǔn),既有語義標(biāo)準(zhǔn)又有低層特征標(biāo)準(zhǔn),而且不同的人在判斷標(biāo)準(zhǔn)上也有差異.因此,一個(gè)有效的Web圖像檢索系統(tǒng)要便于根據(jù)不同用戶的標(biāo)準(zhǔn)進(jìn)行調(diào)整,這就要求將文字描述和圖像低層屬性進(jìn)行合理利用.當(dāng)前第62頁\共有117頁\編于星期四\22點(diǎn)Page

634.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較4.TBIR與CBIR的結(jié)合運(yùn)用為此有機(jī)整合TBIR和CBIR,構(gòu)建了一個(gè)基于web的圖像檢索系統(tǒng),使二者互為補(bǔ)充,這樣系統(tǒng)就可同時(shí)獲取圖像的低層和高層特征.

用戶可以通過關(guān)鍵詞開始檢索一個(gè)查詢,而返回結(jié)果后再選擇可以作為查詢樣圖的圖像進(jìn)行基于內(nèi)容屬性的檢索.通過頁面分析器從網(wǎng)頁中自動(dòng)抽取能反映圖像語義信息的符號(hào)和文字,然后按照傳統(tǒng)的文本信息檢索技術(shù),建立圖像的語義特征庫.利用概念之間的關(guān)系對(duì)提取的語義概念進(jìn)行關(guān)聯(lián)映射,從而對(duì)其進(jìn)行更廣泛意義的自動(dòng)標(biāo)注.當(dāng)前第63頁\共有117頁\編于星期四\22點(diǎn)Page

644.6基于文本與基于內(nèi)容的圖像檢索技術(shù)的比較4.TBIR與CBIR的結(jié)合運(yùn)用這種結(jié)合方式有利于從更全面準(zhǔn)確的分析Web圖像,同時(shí)可以緩解基于內(nèi)容檢索在獲取圖像抽象的高級(jí)語義上的難度.當(dāng)前第64頁\共有117頁\編于星期四\22點(diǎn)Page

654.7基于內(nèi)容圖像檢索的典型系統(tǒng)當(dāng)前第65頁\共有117頁\編于星期四\22點(diǎn)Page

66主要參考文獻(xiàn)[1].張騫,基于文本的與基于內(nèi)容的圖像檢索技術(shù)比較研究.情報(bào)探索,2012(01):第111-113頁.[1].阿斯艷·哈米提與阿不都熱西提·哈米提,基于文本的圖像檢索與基于內(nèi)容的圖像檢索技術(shù)的比較研究.首都師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(04):第6-9頁.[3]肖明.基于內(nèi)容的多媒體信息索引與檢索概論[M].北京:人民郵電出版社,2009.8.

[4]馬修軍.多媒體數(shù)據(jù)庫與內(nèi)容檢索[M].北京:北京大學(xué)出版社,2007.7.[5]周明全,耿國華,等.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學(xué)出版社,2007.7.當(dāng)前第66頁\共有117頁\編于星期四\22點(diǎn)67多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第67頁\共有117頁\編于星期四\22點(diǎn)基于內(nèi)容的音頻檢索基本概念基于內(nèi)容的音頻檢索系統(tǒng)基本結(jié)構(gòu)關(guān)鍵技術(shù)音頻特征提取基于內(nèi)容的音頻分割與識(shí)別分類音頻檢索方式典型的音頻系統(tǒng)簡介68當(dāng)前第68頁\共有117頁\編于星期四\22點(diǎn)5.1基于內(nèi)容的音頻檢索—基本概念思考:

傳統(tǒng)的音頻檢索?存在的問題?69當(dāng)前第69頁\共有117頁\編于星期四\22點(diǎn)5.1基于內(nèi)容的音頻檢索—基本概念傳統(tǒng)的音頻檢索基于文本的,即通過人工方式生成多媒體信息的文本描述,如文件說明、歌曲名稱等,然后采用文本檢索技術(shù)實(shí)現(xiàn)對(duì)多媒體信息的檢索。存在的問題70當(dāng)前第70頁\共有117頁\編于星期四\22點(diǎn)5.1基于內(nèi)容的音頻檢索—基本概念基于內(nèi)容的音頻檢索

指研究如何利用音頻的幅度、頻譜等物理特征,響度、音高、音色等聽覺特征,詞字、旋律等語義特征實(shí)現(xiàn)與音頻內(nèi)容信息相關(guān)的檢索。

核心思想是通過一定的計(jì)算處理,分析音頻的結(jié)構(gòu)和語義,建立它們的結(jié)構(gòu)化的組織和索引,使得“無序”的音頻變的“有序”,從而有利于用戶的檢索和瀏覽。

主要有兩個(gè)方面的含義:一是檢索音頻內(nèi)容本身,如通過“哼”某音樂的曲調(diào)查找此音樂;二是檢索與音頻內(nèi)容相關(guān)的信息,如通過語音查找說話人等。71當(dāng)前第71頁\共有117頁\編于星期四\22點(diǎn)5.2基于內(nèi)容的音頻檢索—系統(tǒng)基本結(jié)構(gòu)一般可把基于內(nèi)容的音頻數(shù)據(jù)庫檢索系統(tǒng)看作是介于信息用戶和數(shù)據(jù)庫之間的一種信息服務(wù)系統(tǒng)?;趦?nèi)容的音頻檢索,一般分為音頻特征提取、音頻識(shí)別分類、檢索三個(gè)過程。72當(dāng)前第72頁\共有117頁\編于星期四\22點(diǎn)Page

735.2基于內(nèi)容的音頻檢索—系統(tǒng)基本結(jié)構(gòu)特征提取特征提取指的是尋找原始音頻信號(hào)表達(dá)形式,提取能代表原始信號(hào)的數(shù)據(jù)。要提取特征和屬性,通常要對(duì)數(shù)據(jù)庫中的多媒體數(shù)據(jù)項(xiàng)進(jìn)行預(yù)處理。因?yàn)樵跈z索過程中,其實(shí)是對(duì)這些特征和屬性而不是對(duì)信息項(xiàng)本身進(jìn)行搜索和比較,所以特征提取的質(zhì)量決定著檢索結(jié)果。音頻識(shí)別分類音頻識(shí)別分類是對(duì)音頻進(jìn)行歸類劃分,分類本身可以是一種檢索方式,也可以作為檢索的一個(gè)輔助手段,歸類越精確,一般來說檢索就越準(zhǔn)確。檢索檢索的過程是一個(gè)匹配的過程,根據(jù)音頻特征問的相似度給出檢索結(jié)果。檢索系統(tǒng)一般分為兩部分:一部分是數(shù)據(jù)庫的生成,即音頻數(shù)據(jù)及其特征錄入到數(shù)據(jù)庫;一部分是數(shù)據(jù)庫查詢,即用戶通過輸入音頻或輸入特征字符串在數(shù)據(jù)庫中查找所需要的音頻。當(dāng)前第73頁\共有117頁\編于星期四\22點(diǎn)5.2基于內(nèi)容的音頻檢索——系統(tǒng)基本結(jié)構(gòu)圖:音頻檢索系統(tǒng)的一般結(jié)構(gòu)74當(dāng)前第74頁\共有117頁\編于星期四\22點(diǎn)5.3關(guān)鍵技術(shù)(音頻特征提取)音頻特征提取

音頻特征提取是整個(gè)基于內(nèi)容的音頻檢索技術(shù)的核心技術(shù)。音頻內(nèi)容描述是在音頻內(nèi)容獲取的基礎(chǔ)之上進(jìn)行的,同時(shí)是進(jìn)一步進(jìn)行音頻特征相似度匹配的必要前提。音頻時(shí)域特征的提取音頻頻域特征的提取75當(dāng)前第75頁\共有117頁\編于星期四\22點(diǎn)5.3關(guān)鍵技術(shù)(音頻特征提?。┮纛l時(shí)域特征的提取時(shí)域(時(shí)間—幅值)表示法是最基本的音頻信號(hào)表示技術(shù),它把音頻信號(hào)表示成隨時(shí)間變化而變化的幅值。假定靜音表示成0,若聲壓高于靜音時(shí)的平衡氣壓,則信號(hào)值為正,否則為負(fù)。平均能量:說明了音頻信號(hào)的強(qiáng)度,可用于靜音檢測,對(duì)于一個(gè)音頻例子,如這個(gè)音頻例子中的某一短時(shí)幀的平均能量低于一個(gè)事先設(shè)定的閾值,則可判定該短時(shí)幀為靜音。過零率:指每秒內(nèi)信號(hào)值通過零值的次數(shù),一定程度上說,它說明了平均信號(hào)頻率。一般語音信號(hào)由單詞構(gòu)成,單詞又由元音和輔音交替的音節(jié)組成,輔音信號(hào)的過零率低,而元音信號(hào)的過零率高。語音信號(hào)開始和結(jié)束都大量集中了輔音信號(hào),所以其開始和結(jié)束部分的過零率總會(huì)有顯著升高,利用過零率可判斷語音是否開始和結(jié)束。靜音比:表示靜音的聲音片段的比例??捎?jì)算為靜音時(shí)段的總和與音頻片段總長度之間的比值。76當(dāng)前第76頁\共有117頁\編于星期四\22點(diǎn)5.3關(guān)鍵技術(shù)(音頻特征提?。┮纛l頻域特征的提取傅里葉變換可分解出音頻信號(hào)的頻率成分,可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調(diào)等。帶寬:說明了聲音的頻率范圍,音樂通常比語音信號(hào)具有更高的帶寬。頻譜中心:也稱亮度,是一個(gè)聲音頻譜能量分布的中心點(diǎn)。語音與音樂相比,頻譜中心較低。諧音:頻率為最低頻率的倍數(shù)的頻譜成分稱為諧音。在有諧音的聲音中,頻譜成分大部分是最低頻率的整數(shù)倍數(shù),音樂通常比其他聲音具有更多的諧音。音調(diào):是聽覺分辨聲音高低的特性,完全由頻率決定,可通過頻譜估計(jì)。是一個(gè)主觀特征,與基本頻率有關(guān),但不等同于基本頻率。然而,在實(shí)踐中,一般將基本頻率作為音調(diào)的近似值。77當(dāng)前第77頁\共有117頁\編于星期四\22點(diǎn)5.4關(guān)鍵技術(shù)(音頻分割與識(shí)別)基于內(nèi)容的音頻分割與識(shí)別基于特征閾值的分割和分類算法基于模型的音頻分割和識(shí)別算法78當(dāng)前第78頁\共有117頁\編于星期四\22點(diǎn)5.4關(guān)鍵技術(shù)(音頻分割與識(shí)別)基于特征閾值的分割和分類算法

利用不同類型音頻信號(hào)轉(zhuǎn)換時(shí)某些聽覺特征會(huì)發(fā)生較大變化的現(xiàn)象,在特征發(fā)生突變的地方對(duì)音頻序列進(jìn)行分割,再進(jìn)行后續(xù)處理。這種方法需要預(yù)先確定不同特征之間變化的閾值,根據(jù)閾值判斷是否應(yīng)該分割。

優(yōu)點(diǎn):計(jì)算比較簡單

缺點(diǎn):特征閾值的選取比較困難,主要依靠前人的經(jīng)驗(yàn)值,并且

對(duì)于不同的應(yīng)用,閾值也是不確定的。79當(dāng)前第79頁\共有117頁\編于星期四\22點(diǎn)5.4關(guān)鍵技術(shù)(音頻分割與識(shí)別)基于模型的音頻分割和識(shí)別算法這種方法是基于模型的,它通過訓(xùn)練模型去模擬某類音頻的動(dòng)態(tài)變化,然后根據(jù)這個(gè)模型的變化確定最佳的分割。這種方法要求事先給出一批帶有類別標(biāo)記的訓(xùn)練樣本,通過有指導(dǎo)的學(xué)習(xí)訓(xùn)練來生成分類器,進(jìn)而對(duì)測試樣本集合的待分類樣本進(jìn)行測試以衡量其分類性能。目前應(yīng)用比較成功的是隱馬爾可夫模型(HiddenMarkovModel:HMM)和高斯模型(GaussianModel)。

基于模型的分割分類方法具有豐實(shí)的理論基礎(chǔ)、簡單的實(shí)現(xiàn)機(jī)制等特點(diǎn),因而為目前的大多數(shù)音頻分類系統(tǒng)所采用。80當(dāng)前第80頁\共有117頁\編于星期四\22點(diǎn)基于內(nèi)容的音頻索引和檢索通常采用的步驟(1)將音頻數(shù)據(jù)分類,通常可分為語音、音樂和噪聲等類型。(2)不同類型的音頻數(shù)據(jù)可以以不同的方式進(jìn)行處理和索引。如,對(duì)語音可運(yùn)用語音識(shí)別技術(shù)且可基于識(shí)別過的詞匯對(duì)其進(jìn)行索引。(3)查詢音頻片段要同樣地進(jìn)行分類、處理和索引。(4)根據(jù)查詢索引和數(shù)據(jù)中音頻索引之間的相似性,對(duì)音頻片段進(jìn)行檢索。5.5關(guān)鍵技術(shù)(音頻檢索)81當(dāng)前第81頁\共有117頁\編于星期四\22點(diǎn)5.5關(guān)鍵技術(shù)(音頻檢索)基于內(nèi)容的音頻檢索方式基于語音技術(shù)的檢索音樂索引和檢索結(jié)構(gòu)化音樂的索引和檢索

基于樣本的音樂的索引和檢索82當(dāng)前第82頁\共有117頁\編于星期四\22點(diǎn)5.6關(guān)鍵技術(shù)(基于語音技術(shù)的檢索)基于語音技術(shù)的檢索

語音檢索是以語音為中心的檢索,采用語音識(shí)別等處理技術(shù)。如電臺(tái)節(jié)目、電話交談、會(huì)議錄音等?;谡Z音技術(shù)的檢索是利用語音處理技術(shù)檢索音頻信息。過去人們對(duì)語音信號(hào)處理開展了大量的研究,許多成果可以用于語音檢索。83當(dāng)前第83頁\共有117頁\編于星期四\22點(diǎn)5.6關(guān)鍵技術(shù)(基于語音技術(shù)的檢索)1利用大詞匯語音識(shí)別技術(shù)進(jìn)行檢索

這種方法是利用自動(dòng)語音識(shí)別(ASR)技術(shù)把語音轉(zhuǎn)換為文本,從而可以采用文本檢索方法進(jìn)行檢索。雖然好的連續(xù)語音識(shí)別系統(tǒng)在小心地操作下可以達(dá)到90%以上的詞語正確度,但在實(shí)際應(yīng)用中,如電話和新聞產(chǎn)播等,識(shí)別率并不高。2基于子詞單元進(jìn)行檢索當(dāng)語音識(shí)別系統(tǒng)處理各方面無限制主題的大范圍語音資料時(shí),識(shí)別性能會(huì)變差,尤其當(dāng)一些專業(yè)詞匯(如人名、地點(diǎn))不在系統(tǒng)詞庫中時(shí)。一種變通的方法是利用子詞(SubWord)索引單元,當(dāng)執(zhí)行查詢時(shí),用戶的查詢首先被分解為子詞單元,然后將這些單元的特征與庫中預(yù)先計(jì)算好的特征進(jìn)行匹配。84當(dāng)前第84頁\共有117頁\編于星期四\22點(diǎn)5.6關(guān)鍵技術(shù)(基于語音技術(shù)的檢索)3基于識(shí)別關(guān)鍵詞進(jìn)行檢索在無約束的語音中自動(dòng)檢測詞或短語通常稱為關(guān)鍵詞的發(fā)現(xiàn)(Spotting)。利用該技術(shù),識(shí)別或標(biāo)記出長段錄音或音軌中反映用戶感興趣的事件,這些標(biāo)記就可以用于檢索。如通過捕捉體育比賽解說詞中“進(jìn)球”的詞語可以標(biāo)記進(jìn)球的內(nèi)容。4基于說話人的辨認(rèn)進(jìn)行分割這種技術(shù)是簡單地辨別出說話人話音的差別,而不是識(shí)別出說的是什么。它在合適的環(huán)境中可以做到非常準(zhǔn)確。利用這種技術(shù),可以根據(jù)說話人的變化分割錄音,并建立錄音索引。如用這種技術(shù)檢測視頻或多媒體資源的聲音軌跡中的說話人的變化,建立索引和確定某種類型的結(jié)構(gòu)(如對(duì)話)。例如,分割和分析會(huì)議錄音,分割的區(qū)段對(duì)應(yīng)于不同的說話人,可以方便地直接瀏覽長篇的會(huì)議資料。85當(dāng)前第85頁\共有117頁\編于星期四\22點(diǎn)音樂索引和檢索音樂的類型有兩種:結(jié)構(gòu)化的(或綜合的)音樂和基于樣本的音樂。5.7關(guān)鍵技術(shù)(音樂索引和檢索)86當(dāng)前第86頁\共有117頁\編于星期四\22點(diǎn)5.7關(guān)鍵技術(shù)(音樂索引和檢索)結(jié)構(gòu)化音樂的索引和檢索結(jié)構(gòu)化音樂和聲音效果是由一系列指令或算法來表示的。最常見的結(jié)構(gòu)化音樂是MIDI,它把音樂表示成大量的音符和控制指令。由于結(jié)構(gòu)化音頻的簡明結(jié)構(gòu)和音符描述的原因,沒有必要從音頻信號(hào)中抽取特征,因此結(jié)構(gòu)化音頻更便于檢索。對(duì)于結(jié)構(gòu)化音樂和聲音效果,由于兩個(gè)音符序列之間的相似性定義的困難性,基于相似性的檢索很復(fù)雜。目前一種可行的方法是基于音符序列的音調(diào)變化來檢索音樂。其基本思想是:查詢聲音和數(shù)據(jù)庫聲音文件中的每個(gè)音符(第一個(gè)音符除外)都被轉(zhuǎn)換成相對(duì)前一個(gè)音符的音調(diào)變化。音調(diào)變化有三種狀態(tài):該音符比前一音符高(U)、該音符比前一音符低(D)和該音符與前一音符相同或相似(S)。按這種規(guī)則,任意一段旋律可轉(zhuǎn)化為一個(gè)包含字母u、D、S的符號(hào)序列,檢索任務(wù)也就變成了一個(gè)字符串匹配過程。該方法是針對(duì)基于樣本的聲音檢索提出的,也同樣適用于結(jié)構(gòu)化聲音檢索,根據(jù)音符音階可較容易地獲得音調(diào)變化。87當(dāng)前第87頁\共有117頁\編于星期四\22點(diǎn)5.7關(guān)鍵技術(shù)(音樂索引和檢索)基于樣本的音樂的索引和檢索一是基于抽取的聲音特征集合

在這種音樂檢索方法中,對(duì)每種聲音(包括查詢)抽取聽覺特征集,將其表示成一個(gè)矢量。通過計(jì)算查詢音樂和每個(gè)存儲(chǔ)音樂片段相應(yīng)的特征矢量之間的近似度來計(jì)算它們的相似性。二是基于音樂音符的音調(diào)該方法與基于音調(diào)的結(jié)構(gòu)化音樂檢索相似。二者之間的主要區(qū)別在于基于音調(diào)的音樂檢索必須抽取或估計(jì)每個(gè)音符的音調(diào)。該方法的基本思想為:由于音樂的每個(gè)音符都是由它的音調(diào)表示的,因此一個(gè)音樂片段或部分可表示成一個(gè)序列或音調(diào)串。檢索是以查詢音樂和每個(gè)存儲(chǔ)音樂片段相應(yīng)的音調(diào)串之間的相似性為基礎(chǔ),音調(diào)跟蹤和串相似測量是檢索過程的關(guān)鍵。88當(dāng)前第88頁\共有117頁\編于星期四\22點(diǎn)典型音頻系統(tǒng)介紹IBM的ViaVoice語音識(shí)別已趨于成熟劍橋大學(xué)的VMR系統(tǒng)VideoMailRetrievalUsingVoice音頻處理較出色美國Musclefish公司基于內(nèi)容的音頻檢索系統(tǒng)Content-BasedRetrievalofAudio較為完整的原型系統(tǒng)對(duì)音頻的檢索和分類有較高的準(zhǔn)確率89當(dāng)前第89頁\共有117頁\編于星期四\22點(diǎn)90多媒體內(nèi)容檢索與管理1多媒體數(shù)據(jù)庫2多媒體內(nèi)容管理3多媒體內(nèi)容檢索6基于內(nèi)容視頻檢索5基于內(nèi)容音頻檢索4基于內(nèi)容圖像檢索當(dāng)前第90頁\共有117頁\編于星期四\22點(diǎn)基于內(nèi)容的視頻檢索基本概念基于內(nèi)容的視頻檢索的基本原理關(guān)鍵技術(shù)鏡頭切割關(guān)鍵幀提取特征提取視頻索引和檢索典型的視頻系統(tǒng)簡介91當(dāng)前第91頁\共有117頁\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念思考:一:傳統(tǒng)的視頻檢索?存在的問題?二:基于內(nèi)容的視頻檢索?92當(dāng)前第92頁\共有117頁\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念93當(dāng)前第93頁\共有117頁\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念基于內(nèi)容的視頻檢索基于內(nèi)容的視頻檢索(Content-BasedVideoRetrieval),根據(jù)視頻的內(nèi)容和上下文關(guān)系,對(duì)大規(guī)模視頻數(shù)據(jù)庫中的視頻數(shù)據(jù)進(jìn)行檢索。它在沒有人工參與的情況下,自動(dòng)提取并描述視頻的特征和內(nèi)容。

通過對(duì)非結(jié)構(gòu)化的視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析和處理,采用視頻分割技術(shù),將連續(xù)的視頻流劃分為具有特定語義的視頻片段—鏡頭,作為檢索的基本單元,在此基礎(chǔ)上進(jìn)行代表幀(representativeframe)的提取和動(dòng)態(tài)特征的提取,形成描述鏡頭的特征索引鏡頭組織和特征索引,采用視頻聚類等方法研究鏡頭之間的關(guān)系,把內(nèi)容相近的鏡頭組合起來,逐步縮小檢索范圍,直至查詢到所需的視頻數(shù)據(jù)視頻分割、代表幀和動(dòng)態(tài)特征提取是基于內(nèi)容的視頻檢索的關(guān)鍵技術(shù)。94當(dāng)前第94頁\共有117頁\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念基于內(nèi)容的視頻檢索的特點(diǎn)

它區(qū)別于傳統(tǒng)的基于關(guān)鍵字的檢索手段,融合了視頻分割、關(guān)鍵幀和動(dòng)態(tài)特征提取等關(guān)鍵技術(shù),具有如下特點(diǎn):95當(dāng)前第95頁\共有117頁\編于星期四\22點(diǎn)6.1基于內(nèi)容的視頻檢索—基本概念基本概念幀

組成視頻的最小單位,一幀可以看作一幅靜態(tài)的圖像。視頻數(shù)據(jù)流就是由連續(xù)圖像幀構(gòu)成的。鏡頭

由一系列幀組成的一段視頻,是相鄰幀的短序列,它描述同一場景,表示的是一個(gè)攝像機(jī)操作、一個(gè)事件或連續(xù)的動(dòng)作。例如,在新聞視頻中,每個(gè)新聞項(xiàng)目都對(duì)應(yīng)著一個(gè)鏡頭。

鏡頭是視頻檢索的基本單位。關(guān)鍵幀

即指從視頻數(shù)據(jù)中抽取出來的、能概括鏡頭特征和內(nèi)容的一些靜態(tài)圖像。場景

是一組語義上相關(guān)聯(lián)及時(shí)間上相鄰的連續(xù)鏡頭序列,是視頻信息最小的語義單位。96當(dāng)前第96頁\共有117頁\編于星期四\22點(diǎn)6.2基于內(nèi)容的視頻檢索—基本原理基于內(nèi)容的視頻處理過程視頻首先被分割成各個(gè)鏡頭,并實(shí)現(xiàn)對(duì)各個(gè)鏡頭的特征提取,得到一個(gè)盡可能充分反映鏡頭內(nèi)容的特征空間,這個(gè)特征空間將作為視頻聚類和檢索的依據(jù)。其中,特征提取包括關(guān)鍵幀中的視覺特征(靜態(tài)特征,如從顏色、紋理、形狀)和鏡頭的運(yùn)動(dòng)特征(動(dòng)態(tài)特征)的提取。然后,根據(jù)提取的關(guān)于鏡頭的動(dòng)態(tài)特性和關(guān)鍵幀的一些靜態(tài)特性,進(jìn)行索引。最終,用戶可以通過一種簡單方便的方法瀏覽和檢索視頻。圖視頻數(shù)據(jù)處理流程97當(dāng)前第97頁\共有117頁\編于星期四\22點(diǎn)6.2基于內(nèi)容的視頻檢索—基本原理基于內(nèi)容的視頻檢索系統(tǒng)由索引、查詢、檢索三大模塊組成。索引模塊中,系統(tǒng)運(yùn)用鏡頭切割,關(guān)鍵幀抽取,特征提取等技術(shù)對(duì)視頻信息進(jìn)行預(yù)處理,并實(shí)現(xiàn)視頻特征索引的建立;查詢模塊是實(shí)現(xiàn)人機(jī)交互的重要接口,通過該模塊用戶可以容易地實(shí)現(xiàn)互信息查詢,即用戶可以較容易地向系統(tǒng)提交自己的各項(xiàng)特征要求(包括視頻示例特征提取),并可根據(jù)對(duì)檢索結(jié)果的進(jìn)一步特征提取實(shí)現(xiàn)較精確檢索;檢索模塊主要實(shí)現(xiàn)視頻特征索引與用戶提交的各項(xiàng)特征的相似度計(jì)算、特征匹配,并根據(jù)相關(guān)度進(jìn)行結(jié)果排序提交。98當(dāng)前第98頁\共有117頁\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)鏡頭切割基本概念從一個(gè)鏡頭到一個(gè)鏡頭的轉(zhuǎn)換稱為鏡頭切換。通常,鏡頭之間的切換方式主要可分為兩大類:突變和漸變。99當(dāng)前第99頁\共有117頁\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)鏡頭切割基本思想鏡頭檢測的基本思想:對(duì)比相鄰圖像幀之間的特征,確定其是否發(fā)生較大變化。如果發(fā)生較大變化,則意味著視頻鏡頭發(fā)生轉(zhuǎn)變。目前視頻鏡頭分割技術(shù)主要根據(jù)鏡頭在發(fā)生切換時(shí)其視頻數(shù)據(jù)所反映的變化來進(jìn)行。由于一個(gè)鏡頭內(nèi)的相鄰幀間的變化不會(huì)很大,它們之間的特征差值總會(huì)限定在某個(gè)閾值內(nèi)。在鏡頭突變時(shí),突變點(diǎn)前后兩個(gè)相鄰幀通常在內(nèi)容上都顯示著很大的量的變化,如果特征差值超過了給定的閾值,則意味著出現(xiàn)一個(gè)分割邊界。因此,鏡頭檢測的關(guān)鍵問題一:如何測量相鄰幀之間的差別;二:選擇合適的閾值。100當(dāng)前第100頁\共有117頁\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)鏡頭突變檢測101當(dāng)前第101頁\共有117頁\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)鏡頭漸變檢測

對(duì)于鏡頭的漸變切換,由于相鄰幀之間的特征差值很小,通常要比鏡頭閾值低得多,但卻又高于鏡頭內(nèi)的差值,因此,很難用單個(gè)的閾值來檢測,更為復(fù)雜有效的分割方法必須被采用。

雙比較技術(shù)要求使用兩個(gè)差值閾值:閾值Tb用于檢測正常的鏡頭切變;閾值Ts則較小,用于檢測在漸變可能出現(xiàn)的地方、可能出現(xiàn)的幀。在鏡頭邊界檢測過程中,使用差值度量對(duì)相鄰的幀進(jìn)行比較。102當(dāng)前第102頁\共有117頁\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)103當(dāng)前第103頁\共有117頁\編于星期四\22點(diǎn)6.3關(guān)鍵技術(shù)(鏡頭切割)閾值的確定

所謂合適的閾值,指這個(gè)閾值既能容忍單個(gè)幀較小的變化,同時(shí)又能檢測到真實(shí)的邊界。一個(gè)“嚴(yán)格”的切分閾值如果對(duì)視頻幀中的細(xì)微差別都比較敏感,就會(huì)使視頻流切分過細(xì),可能使得在沒有鏡頭轉(zhuǎn)移的時(shí)候,視頻幀仍然被切分。這會(huì)使視頻鏡頭的切分失去意義。另一方面,如果一個(gè)切分閾值過于“寬松”,則不能檢測到視頻幀所發(fā)生的強(qiáng)烈特征變化,也就不能檢測到視頻鏡頭發(fā)生轉(zhuǎn)化。

通常閾值被選定為幀與幀之差的平均值加上一個(gè)小的容忍值。104當(dāng)前第104頁\共有117頁\編于星期四\22點(diǎn)6.4關(guān)鍵技術(shù)(關(guān)鍵幀提?。╆P(guān)鍵幀提取關(guān)鍵幀是表達(dá)鏡頭內(nèi)容的代表幀,是從視頻數(shù)據(jù)中抽取出來的、能概括鏡頭內(nèi)容的靜態(tài)圖像。因此,關(guān)鍵幀的抽取是建立視頻數(shù)據(jù)索引的關(guān)鍵。105當(dāng)前第105頁\共有117頁\編于星期四\22點(diǎn)6.4關(guān)鍵技術(shù)(關(guān)鍵幀提?。┌宴R頭首幀和尾幀選為關(guān)鍵幀通過對(duì)拍攝者或制作者的心理分析,研究者認(rèn)為視頻信息制造者總是希望鏡頭的開始就能抓住觀眾的眼球,鏡頭的結(jié)尾能夠讓觀眾回味無窮。因此,首幀往往決定了鏡頭的主題,尾幀通常表示一種特寫。所以,選擇首幀和尾幀作為鏡頭的關(guān)鍵幀不失為一種較為簡便和有效的方法。選擇顯著變化幀作為關(guān)鍵幀一個(gè)鏡頭其幀序列的圖像特征可能變化很大,即首幀和尾幀不能概括鏡頭全部內(nèi)容,需要從中抽取新的幀。這種選取方法為:將鏡頭中的每一幀與首尾幀顏色直方圖進(jìn)行比較,如果它與首尾幀均存在顯著變化,將其作為關(guān)鍵幀,繼續(xù)將未比較過的幀與這三個(gè)幀比較,若三個(gè)幀均有顯著差異也作為關(guān)鍵幀。如此比較下去,直至比較完畢。106當(dāng)前第106頁\共有117頁\編于星期四\22點(diǎn)6.4關(guān)鍵技術(shù)(關(guān)鍵幀提?。骄ㄟx取關(guān)鍵幀計(jì)算鏡頭中所有幀的某個(gè)位置像素的平均值,然后選擇在該位置上像素值最接近平均值的那一幀作為關(guān)鍵幀。另一種方法是直方圖平均法,即,選擇與鏡頭平均直方圖最接近的那一幀作為關(guān)鍵幀。根據(jù)關(guān)鍵對(duì)象確定關(guān)鍵幀把關(guān)鍵幀分解成更小的單元,從這些更小的單元中獲取關(guān)鍵對(duì)象,這些關(guān)鍵對(duì)象可以從關(guān)鍵幀中抽取,也可從鏡頭甚至全局中抽取。如電視劇中的主要人物畫像等。有了關(guān)鍵對(duì)象就可以根據(jù)適當(dāng)?shù)牟呗赃x取關(guān)鍵幀。如,關(guān)鍵幀的圖像中必須有關(guān)鍵對(duì)象;具有多個(gè)關(guān)鍵對(duì)象的幀;根據(jù)關(guān)鍵對(duì)象的顏色、形狀和運(yùn)動(dòng)的平均值等屬性比較出關(guān)鍵幀。107當(dāng)前第107頁\共有117頁\編于星期四\22點(diǎn)6.5關(guān)鍵技術(shù)(特征提?。┨卣魈崛√卣魈崛】煞譃殛P(guān)鍵幀中的視覺特征和鏡頭的運(yùn)動(dòng)特征的提取,具體包括:顏色、紋理、形狀和運(yùn)動(dòng)等幾個(gè)方面。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論