版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第10章多媒體信息檢索10.1基于內容的圖像信息檢索10.2圖像特征提取10.3圖像相似量度10.4基于內容的視頻信息檢索10.5基于內容的音頻信息檢索10.6小結思考題隨著網絡帶寬的增加,通過網絡提供音頻、視頻服務成為可能。第十六次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告表明,最受歡迎的八大熱門服務中,在線音樂占45.6%,在線影視占37.8%。可見,包含音視頻等多媒體的信息服務已經成為互聯(lián)網絡上的熱點。
但是,如何在浩如煙海的網絡中找到所需要的多媒體信息呢?前面的章節(jié)已經學習了文本檢索的相關技術,在某種程度上,這些技術同樣適用于多媒體信息檢索,但多媒體信息本身具有獨特的性質,所以多媒體信息檢索還需要特殊的處理技術。多媒體信息檢索是根據用戶的要求,對圖像、文本、聲音、視頻等多媒體信息進行檢索,得到用戶所需的信息。本章將從網絡圖像、音頻、視頻等三方面展開多媒體信息檢索技術的學習。
多媒體信息檢索主要分為兩種:基于關鍵字的多媒體信息檢索和基于內容的多媒體信息檢索。前者通過對多媒體信息作文字標注或描述來建立索引,后者則通過提取多媒體信息的內容特征來建立索引。從網絡上進行多媒體信息檢索的流程示意圖如圖10-1所示。圖10-1網絡多媒體信息檢索流程示意圖可見,多媒體信息檢索的流程類似于普通的信息檢索流程,所不同的主要是解析和特征提取兩個步驟。在解析時,不丟棄圖像、音頻、視頻等信息,而是需要對它們進行一定的預處理,例如對圖像來說,每個網頁上的圖像非常多,但大多數是網頁的裝飾圖,并不是真正反映網頁內容的圖像。所以,應該把這些圖像去掉,去掉的原則可以根據具體的情況制定,如像素值小于某個閾值,或者圖像的長寬比例大于某個閾值的圖像先被去掉,初篩后留下的圖像才送去進行特征提取。采取文本標注的方式建立索引,一般需要人工進行,隨著多媒體數據的飛速增長,人工標注變得越來越不現(xiàn)實,而且受到語言種類的限制。所以,基于內容的多媒體信息檢索引起了極大的關注。本章也將重點介紹基于內容的多媒體信息檢索以及相關的特征提取技術。
多媒體信息資源包括圖形圖像,音頻和視頻等信息,多媒體信息檢索除了可以按照傳統(tǒng)的關鍵字檢索外,還可以按照多媒體資源中涵蓋的內容來檢索,如可以檢索所有含有老虎的圖像,雖然可能錯誤地檢索出含有貓的圖像,但比起傳統(tǒng)的檢索方法,已經有了本質的不同。本章重點介紹基于內容的多媒體信息檢索,并且根據多媒體資源的表現(xiàn)形式,把它分為基于內容的圖像檢索、基于內容的視頻檢索、基于內容的音頻檢索三大類。
10.1基于內容的圖像信息檢索
可以說,幾乎每一個Web頁面上都有圖像,這些圖像有些是和頁面主題相關的,而大部分是一些Logo或廣告圖像。如何有效地檢索出所需的網絡圖像是一個難題。
傳統(tǒng)的按照關鍵字的圖像檢索仍然起著重要的作用,如著名網站Google,它提供的圖像檢索基本是按照關鍵字進行的,Google分析頁面上圖像附近的文字、圖像標題以及許多其他元素來確定圖像的內容,Google還使用復雜的算法來刪除重復的內容,并確保在搜索結果中首先顯示質量最好的圖像。目前,可通過Google檢索到的圖像超過3.9億幅。這種檢索方法的檢索性能關鍵要看對內容的描述是否準確,相對于基于內容的圖像檢索來說,按照關鍵字檢索圖像準確率效果更好。但是按照關鍵字的檢索具有如下缺點:
(1)面對WWW上成千上萬幅的圖像,對它們進行正確的文本索引,是非常困難的事情。
(2)文本描述不可避免地帶有主觀性,不同的人從同一幅圖像里讀出的信息可能大相徑庭。
(3)一幅圖像勝似千言萬語,多少關鍵詞才可能代表一幅圖像呢?
(4)依賴于文本描述所使用的語言種類。
基于內容的圖像檢索(Content-BasedImageRetrieval,CBIR)可以在一定程度克服上述缺陷。CBIR提取每幅圖像的視覺內容(如色彩、紋理和形狀等)作為其索引,用戶選擇具有代表性的一幅或多幅例子圖像,依據圖像視覺特征的相似度進行查詢,然后由系統(tǒng)查找與例子圖像在視覺內容上相似的圖像,按相似度大小排列返回給用戶,或者用戶制定圖像的主要視覺特征,如紅色,按照指定的顏色來檢索。一般來說,基于內容的網絡圖像檢索流程如圖10-2所示。圖10-2基于內容的網絡圖像檢索流程示意圖首先將機器人下載回來的圖像進行視覺特征分析,主要包括顏色、形狀和紋理特征的提取,形成特征索引;用戶檢索時,通過提交例圖或直接的特征查詢,再通過同樣的顏色、形狀和紋理特征提取,形成特征向量;然后,將該特征向量和索引庫中的特征向量進行相似度計算;最后輸出超過閾值或者按相似度大小排列的圖像。
可見,基于內容的圖像檢索關鍵在于特征提取和相似度的計算,所以,這也是本章重點講述的內容。
目前國內外已有不少應用于實驗環(huán)境的CBIR系統(tǒng),其中比較有名的有IBM公司開發(fā)的最早商業(yè)化QBIC系統(tǒng),哥倫比亞大學研發(fā)的WebSEEK系統(tǒng)、麻省理工學院研發(fā)的Photobook系統(tǒng)。
1.QBIC
QBIC[1]是基于圖像內容查詢的英文縮寫(QueryByImageContent)。QBIC系統(tǒng)是由國際商用機器公司IBM(InternationalBusinessMachinery)Almaden研究中心研發(fā)的第一個商業(yè)化的基于內容的圖像檢索系統(tǒng)。該系統(tǒng)的框架和采用的技術對后來的圖像檢索系統(tǒng)產生了深刻的影響。QBIC系統(tǒng)支持基于范例圖像的查詢方式,也支持通過由用戶構造的草圖、輪廓和選定的色彩與紋理樣式的查找方式,以及其他一些查詢方式。在QBIC的最新版系統(tǒng)中,基于文本的關鍵字查找方式與基于內容的相似性查找方式相結合,共同完成查找功能。
2.Virage
Virage[2]是由Virage有限公司開發(fā)的基于內容的圖像檢索引擎。同QBIC系統(tǒng)一樣,它也支持基于色彩、色彩布局、紋理和結構特征(對象邊緣)的視覺查詢功能。但Virage比QBIC在技術上向前邁了一步,Virage支持以上四種基本查詢的任意組合的查詢方式。用戶還可以根據需要來調整一些基本圖像特征的權重。Jeffery等人進一步提出了圖像管理的開放式框架,他們將圖像的視覺特征分為兩類:一類是通用特征(如色彩、形狀或紋理),一類是領域相關的特征(如用于人臉識別、癌細胞檢測的特征)。根據不同領域的具體需要,各種專用的基本特征就可以加入到這個開放式結構中來。
3.Photobook
Photobook[3]是美國麻省理工學院的多媒體實驗室所開發(fā)的用于圖像查詢和瀏覽的交互式工具。它由三個子系統(tǒng)組成,分別負責提取形狀、紋理、人臉特征。這樣一來,用戶就可以分別在這三個子系統(tǒng)中根據相應的特征來進行查找。然而,對于不同的領域,沒有哪一種“最好”的特征能夠完美地描述一幅圖像,所以,在Photobook更新一些的版本FourEyes中,Picard等人提出了把用戶加入到圖像注釋和檢索過程中的想法。更進一步,由于人的感知是主觀的,他們又提出了“模型集合”來結合人的因素。實驗表明,這種方法對于交互式圖像注釋來說非常有效。
4.VisualSEEK和WebSEEK
VisualSEEK[4]是美國哥倫比亞大學電子工程系與電信研究中心圖像和高級電視實驗室共同研究的基于內容的搜索引擎,而WebSEEK是一種面向WWW的文本或圖像搜索引擎,也都是由哥倫比亞大學開發(fā)的。這兩個系統(tǒng)的主要技術特點是采用了圖像區(qū)域之間空間關系和從壓縮域中提取的視覺特征,包括顏色特征和基于小波變換的紋理特征。為了加快檢索速度,系統(tǒng)采用基于二叉樹的索引算法。VisualSEEK可同時支持基于視覺特征的查詢和基于空間關系的查詢。比如,用戶如果要查找一幅“日落”的圖像,那用戶的查詢可以是一幅草圖:草圖的上半部分是桔紅色的區(qū)域,下半部分是藍綠色的區(qū)域。而WebSEEK是一個面向WWW的搜索引擎,它不僅支持基于關鍵字的查找,還支持基于視覺內容的查找。
5.MARS
MARS[5]是伊利諾斯大學Urbana-Champaign分校(UIUC)開發(fā)的多媒體分析和檢索系統(tǒng)(MultimediaAnalysisandRetrievalSystem)的英文縮寫。MARS無論在研究角度還是應用領域都和其他的圖像檢索系統(tǒng)有很大的差異。這主要體現(xiàn)在MARS是一個多學科交叉融合的產物,包括計算機視覺、數據庫管理系統(tǒng)以及傳統(tǒng)的信息檢索技術。MARS在科研方面的主要特點包括數據庫管理系統(tǒng)DBMS和信息檢索技術IR的結合(如何進行分級的精確匹配),索引和檢索技術的融合(即檢索算法如何發(fā)揮底層索引結構的優(yōu)點),以及計算機和人的融合(相關反饋技術)。MARS系統(tǒng)的重點并不在于找到所謂“最好”的圖像特征,而在于根據實際的應用環(huán)境和用戶需要在檢索框架中動態(tài)地組合調整各種不同的圖像特征。MARS在圖像檢索領域正式提出了相關反饋的體系結構。相關反饋的技術在各種層次上融合到檢索的過程中,包括查詢向量的優(yōu)化、相似度算法的自動選擇以及圖像特征權重的調整。
10.2圖像特征提取
10.2.1顏色特征
1.顏色模型
顏色、形狀和紋理是圖像中三種最重要的低層視覺特征,相比之下,其中的顏色特征提取方法又較為成熟。在基于內容的圖像檢索中,希望提取出來的特征具有尺度不變性、旋轉不變性、平移不變性等優(yōu)良特性,以使圖像在發(fā)生了縮放、移動或旋轉等變化后,不影響檢索的效果,或影響很小。
圖像中的顏色具有鮮明的特點,顏色特征提取的方法很多,相對形狀特征和紋理特征而言,顏色特征提取方法較為有效和成熟,在基于內容圖像檢索中顏色特征得到了廣泛的應用。顏色特征的提取可以選擇不同的顏色模型進行,其提取的效果也會截然不同,直接影響檢索的效果。下面分別介紹幾種常用的顏色模型[6],針對不同的應用,可選擇合適的顏色模型。
根據顏色模型的用途,常用的顏色模型可分為兩類:一類是面向諸如彩色顯示器或打印機之類的硬設備的顏色模型,如RGB模型、CMY模型等;另一類是面向視覺感知的顏色模型,這類模型更接近人的視覺感知,適合用來分析圖像特征,如HSI模型、HSV模型、Lab模型等,本節(jié)重點介紹RGB模型和HSI模型。
1)RGB模型
RGB模型是面向硬設備的最常用的顏色模型,如圖10-3所示。根據人眼結構,所有顏色都可看做是三個基本顏色——紅、綠、藍的不同組合,用(R,G,B)表示,例如:(255,0,0)表示紅色,(0,0,0)表示黑色。每種顏色分量的值在[0,255]區(qū)間變化。
將RGB模型建立在笛卡兒坐標系統(tǒng)里,其中3個軸分別為R、G、B,如圖10-3所示。RGB模型的空間是個正方形,從黑到白的灰度值分布在從原點到離原點最遠頂點間的連線上,而立方體內其余各點對應不同的顏色,可用從原點到該點的向量表示。有時為了計算方便,將立方體歸一化為單位立方體,讓所有的R、G、B的值都在區(qū)間[0,1]之中。圖10-3RGB色彩立方體面向硬設備的顏色模型與人類的視覺感知有一定距離,很難將一個顏色和一個(R,G,B)向量畫上等號,換句話說,看到一種顏色,不太可能知道它對應的RGB分量值,或者反過來,看到一個RGB向量,不可能很快直覺到它的顏色。所以,為了分析圖像的顏色特征,一般不直接采用RGB模型,而是將它轉換成其他與人的視覺感知接近的顏色模型。
2)HSI模型
HSI模型如圖10-4所示,它是面向顏色處理的最常見的模型,其中H表示色調,S表示飽和度,I表示亮度,人區(qū)分顏色就常用這三種基本特征量。亮度與物體的反射率成正比,一般來說,如果一個圖像無色彩,那么就只有亮度這一個分量。對彩色來說,顏色中滲入白色越多就越明亮,滲入黑色越多亮度就越小。色調是與混合光譜中主要光波長相聯(lián)系的。飽和度與一定色調的純度有關,純光譜色是完全飽和的,隨
著白光的加入飽和度逐漸減少。色調和飽和度合起來又稱為色度,所以顏色可用亮度和色度共同表示。圖10-4HSI模型的坐標系統(tǒng)[6]從圖10-4可見HSI模型的坐標系統(tǒng)接近圓柱坐標系統(tǒng)。對其中的任意一個色點P,其H值對應指向該點的向量與R軸的夾角。這個點的S值與指向該點的向量長度成正比,越長越飽和。在這個模型中,I的值與該點所在平面與最下對應黑色點的距離成正比。如果色點在I軸上,則其S值為零而H沒有定義,這些點也稱奇異點。奇異點的存在是HSI模型的一個缺點,而且在奇異點附近,R、G、B值的微小變化會引起H、S、I值的明顯變化。
RGB空間的彩色圖像可以方便地轉換到HSI空間。如果一幀圖像的R、G、B分量都已經歸一化到了[0,1]區(qū)間,則其對應的HSI模型中的H、S、I分量可由下面的公式計算求得:(10-1)(10-2)(10-3)由公式直接算出的H值在[0°,360°]之間,為使H落在[0,1]之間,可令H=H/360°進行轉換。當S=0時,H沒有意義,此時可定義H為0;另外,當I=0或I=1時,討論S也沒有意義。
2.顏色特征提取
顏色特征的表達方法有很多,常用的有直方圖法、累加直方圖法、局部累加直方圖法等。本節(jié)重點介紹這3種方法,并作簡要的比較。
1)顏色直方圖
顏色直方圖是表示圖像顏色統(tǒng)計特征的最直觀的方法,就是在選定顏色模型的基礎上,統(tǒng)計出每種分量在各個顏色級別的像素數占圖像像素總數的比例,得到圖像各種顏色分量的比例分布,即直方圖。直方圖可以用數學公式表示為(10-4)式中:k代表顏色特征值的級別;L是顏色特征級別的總數;nk是圖像中具有K級別顏色特征值的像素的個數;N是圖像像素總數。
圖10-5(a)用三個級別構造了一幀圖像,假設這三個級別的顏色的I分量分別為I1、I2和I3,例圖中I分量為I1和I2的像素數均占總像素數的25%,I分量為I3的像素數占總像素數的50%,所以得出的I分量直方圖如圖10-5(b)所示。上述的顏色直方圖也稱為統(tǒng)計直方圖。
圖10-6是原圖及它的縮放圖、旋轉圖和位移圖。圖10-7是原圖及其縮放圖、旋轉圖和位移圖的RGB分量和灰度直方圖,其各分量的直方圖是一樣的,這是一個非常優(yōu)美的特性。圖10-5直方圖統(tǒng)計方法示例圖10-6原圖及其縮放、旋轉和位移圖圖10-7原圖及其縮放圖、旋轉圖和位移圖的RGB分量和灰度直方圖一般來說,統(tǒng)計直方圖具有如下一些優(yōu)點:
(1)縮放不變性。圖像進行縮放,不引起顏色直方圖變化。
(2)旋轉不變性。圖像進行旋轉,不引起顏色直方圖的變化。
(3)位移不變性。圖像進行移動,不引起顏色直方圖的變化。
(4)雙峰特性。如果圖像中的前景和背景分明,直方圖出現(xiàn)明顯的雙峰特性。
但是,顏色直方圖也有一些缺點,不利于表征圖像的內容本質,如:顏色直方圖只是對顏色分量級別的像素點進行了統(tǒng)計,完全丟失了空間信息,由此造成兩幅不同內容的圖像,顏色直方圖卻可能相同,如圖10-8所示。圖10-8兩幅不同的圖像具有相同的顏色直方圖對圖10-8所示的這種情況,如果單憑顏色直方圖來辨識圖像,就會跟實際情況發(fā)生很大的偏差。這時可采用分塊計算直方圖的方法,稍后介紹分塊直方圖。
另外,當圖像中的顏色級別不能取遍所有級別時,統(tǒng)計直方圖中會出現(xiàn)一些零值。這些零值的出現(xiàn)會對計算直方圖的相交帶來很大影響,從而使得算出的匹配值并不能正確地反映兩圖間的顏色差別。這個問題在一定程度上可通過加大圖像特征取值的間隔(即量化間隔Δ),減少特征取值數量來克服。但這種簡單量化存在一個問題。以色調特征為例,對兩個相近顏色,量化既可能將它們量化到同一個色調上,也可能將其量化到不同的兩個色調上,即量化可能拉近它們的距離也可能拉大它們的距離。這種問題多出現(xiàn)在量化間隔的邊界附近,由量化本身造成。另外一種解決方法是采用累積直方圖(或累加直方圖),累積直方圖能大大減少原統(tǒng)計直方圖中出現(xiàn)的零值數量,使兩種顏色在特征軸上的距離保持與它們之間的相似度成正比。
2)累加直方圖
在選定顏色模型的基礎上,統(tǒng)計每種顏色分量的像素數占圖像像素總數的比例,并把前面i級顏色分量的比例累加起來,得到一個逐漸遞增的直方圖,這就是累加直方圖,如圖10-9所示。累加直方圖用數學公式表示為(10-5)式中:k表示特征的取值;L是特征可取值的個數;nk是圖像中具有特征值為K的像素的個數;N是圖像像素總數。圖10-9累加直方圖的計算示例圖10-9(b)是圖10-9(a)的累加直方圖,圖中橫軸表示按照從低到高的顏色分量級別,不難理解,最后那個級別的值為100%。
累加直方圖比起一般直方圖有它的優(yōu)越性,基本解決了前面提到的“零值”問題。
3)分塊直方圖
為了克服統(tǒng)計直方圖丟失空間信息帶來的問題,將圖像劃分為不同的塊,對每個塊再計算直方圖,這種方法叫做分塊直方圖。
正如圖10-8所示,因為統(tǒng)計直方圖丟失了空間信號,兩幅完全不同的圖像,它們的統(tǒng)計直方圖表示可能完全相同。為了克服這個問題,有人提出分塊直方圖的方法[7-8]。利用分塊直方圖進行檢索時,首先把整幅圖像進行劃分,這樣圖像就由劃分出的小塊組成;然后對每小塊圖像計算統(tǒng)計直方圖;最后,計算并累加不同圖像對應小塊的直方圖距離,并據此進行圖像的相似匹配,完成圖像的檢索。這種方法找回了部分的空間信息,所以,可以部分解決上面提到的問題。該算法由于在圖像各小塊的基礎上探討顏色的比例關系,因而摻入了圖像的部分空間信息。讀者可以想象,假如分塊足夠小,小到只有一個像素,這時會出現(xiàn)什么情況呢?使用分塊直方圖方法,最重要的是如何分塊。塊分得越大,計算量的增加雖然不會太大,但摻入的空間信息會越粗;塊分得越小,計算量越大,但摻入的空間信息越多。如何分塊,需要針對實際應用問題進行權衡。Stricker認為圖像中最有意義的區(qū)域位于圖像的中心部分,因而將圖像固定分為5塊,如圖10-10(a)所示。MARS檢索系統(tǒng)則將圖像分為5×5塊。還有很多分塊的方法,圖10-10(b)是一種規(guī)則的分塊方法,所分塊的大小可變。圖10-10分塊方法圖例分塊直方圖的計算方法很簡單,下面介紹兩種計算方法。
(1)首先,將一幅圖像P分成M×M個小塊(M不宜太大),每一塊用Pi表示,其中i=1,2,…,M×M。然后,分別對每一小塊Pi,用前面介紹的一般直方圖的方法計算各小塊的一般直方圖,得到:(10-6)式中:Hi(k)為Pi的顏色統(tǒng)計直方圖;k表示顏色級別;L是顏色級別總數;nik是分塊Pi中顏色級別為K的像素的個數,Ni是分塊Pi的像素總數。然后,把每個塊的顏色統(tǒng)計直方圖結合起來,得到一個L×(M×M)維向量,它可作為圖像P的顏色特征。這種方法能夠很好地表達圖像的空間分布信息,但它的缺點是增大了顏色特征的維數,增大了要儲存的信息量,也增大了計算量。
(2)首先,將一幅圖P分成M×M個小塊(M可取較大值),每一塊用Pi表示,其中i=1,2,…,M×M。然后,分別計算每一小塊Pi的顏色分量平均值,可得:(10-7)其中,Di為分塊Pi的區(qū)域,f(x,y)為像素點(x,y)的顏色值,Ni是分塊Pi的像素總數。計算所得的M×M維向量H(i)便可作為圖像P的特征向量。10.2.2形狀特征提取
形狀是刻畫物體的本質特征之一,利用形狀來檢索圖像無疑可提高檢索的準確率。利用形狀進行匹配有3個問題值得注意[6]:首先,要獲得有關目標的形狀參數,常要先對圖像進行分割、增強,從而得到圖像中物體的邊界點;其次,目標形狀的描述是一個非常復雜的問題,要受到人的主觀感受的影響;最后,從不同視角角度獲取的圖像中目標形狀可能會有很大差別,為準確進行匹配,需要解決平移、尺度、旋轉不變性的問題。通常形狀表達可分成兩類:基于邊界的和基于區(qū)域的,前者利用的是形狀的外邊界,而后者則利用整個形狀區(qū)域。基于邊界的描述主要有:多邊形描述、樣條曲線擬合和傅里葉描述子等?;趨^(qū)域的特征描述法有區(qū)域的面積、圓形度、形狀的縱橫比(AspectRation)、不變矩(InvariantMoment)等。
不變矩在形狀特征表達中具有重要的作用,本節(jié)重點介紹Hu[9]的不變矩。Hu在1962年首先基于代數不變量引入矩不變量,通過對幾何矩的非線性組合,導出了一組對于圖像平移、旋轉、尺度變化的不變矩,可用于圖像的檢索。下面主要介紹Hu不變矩的計算[9]:
定義10-1
大小為M×N的二維圖像,{f(i,j),i=0,1,2,…,M;j=0,1,2,…,N},其p+q階矩定義如下式所示:(10-8)其中,p和q可取所有的非負整數值。特殊地,當p=0,q=0時,其零階矩為(10-9)對于二值圖像,令其背景值為0,形狀區(qū)域內值為1,則零階矩表示該形狀區(qū)域的面積。
定義10-2
圖像的p+q階中心矩:為了保證形狀特征的位置不變性,還必須計算中心矩,即以物體的質心為原點計算圖像的不變矩值,p+q階中心矩定義如下:(10-10)式中,(,)是圖像的質心,其定義如下:(10-11)再利用下式對中心矩進行歸一化處理,得到歸一化的中心矩ηpq:(10-12)Hu將中心矩進行不同的組合,得到7個具有平移、旋轉和尺度不變性的矩:(10-12)為了加深讀者對Hu矩的理解,特構造了如圖10-11的原圖、縮放圖、平移圖及旋轉圖,分別計算它們的7個Hu矩。
利用本節(jié)的定義,計算上述各圖的7個不變矩,得到結果如表10-1所示。圖10-11原圖及其平移圖、縮小圖、放大圖和旋轉圖從表中數據清晰地看到,這7個矩具有平移、尺度和旋轉不變的優(yōu)美特性。利用這些不變矩可以檢索到即使經過了平移、旋轉、縮放的相似圖像。10.2.3紋理特征提取
目前,圖像的紋理尚無統(tǒng)一明確的定義,不同的學者對紋理有不同的理解,但涵義基本相同。Hawkins[10]認為紋理標志具有三個要素:①局部的空間變化次序在更大的區(qū)域內不斷重復;②次序是由基本元素非隨機排列而組成;③紋理區(qū)域內任何地方都有大致相同的結構尺寸。Duda[11]認為紋理可以看成是表示灰度空間分布的屬性。Haralick[12]則認為紋理是由大量或多或少相似的紋理元(texton)或模式組成的一種結構,即組成紋理的基元及它們之間的相互關系,這二者構成了紋理的兩個基本特征。徐建華[13]則把紋理理解為圖像灰度在空間上的變化和重復,或圖像中反復出現(xiàn)的局部模式(紋理單元)和它們的排列規(guī)則。圖10-12是選自Brodatz紋理圖像庫中的具有典型紋理特征的一些紋理圖像。圖10-12Brodatz紋理圖像如何識別出圖像中的紋理,方法有很多,可分為兩大類:結構方法和統(tǒng)計方法。結構方法主要描述紋理單元及其周期性排列的空間幾何特征和排列規(guī)則,如形態(tài)學、圖論、拓撲等方法;將復雜的紋理圖像通過特征提取和分割,得到局部基元和它們的屬性及其相互關系,對紋理基元及其排列規(guī)則進行描述、分析和解釋。統(tǒng)計方法是以人的直觀感覺為基礎的,它根據像素灰度的統(tǒng)計特征確定紋理特征,如直方圖統(tǒng)計特征法、自相關函數法等。相比之下,紋理的統(tǒng)計分析方法占主導地位,紋理的統(tǒng)計分析方法可進一步分為傳統(tǒng)的統(tǒng)計方法、基于模型的統(tǒng)計方法、基于頻譜分析的方法。紋理識別的關鍵是紋理特征的表示方法。
下面就介紹兩種常用的紋理特征描述方法。
1.Tamura紋理特征
從圖10-12這些典型的紋理圖像中可以發(fā)現(xiàn),圖像中的紋理是像素值在空間分布上呈現(xiàn)一定的規(guī)律,使感官上的紋理呈現(xiàn)出一定的方向性、粗細、線像性、對比性等。Tamura在人類視覺心理學的基礎上,提出了一種數學方法來描述紋理的這些特征[14],包括:粗糙度(coarseness)、對比度(contrast)、方向度(directionality)、線像度(linelikeness)、規(guī)整度(regularity)和粗略度(roughness)。其中,前三個分量對于圖像檢索來說尤其重要,下面簡要介紹這些紋理特征參數的定義。
粗糙度:一幅大小為M×N的二維圖像,{f(i,j),i=0,1,2,…,M;j=0,1,2,…,N},粗糙度定義為如下計算公式:
式中,Sbest(i,j)=2k,而每個像素點k值的計算可以通過使式(10-14)中的E值最大獲得:(10-13)(10-14)而平均像素強度Ak(i,j)由式(10-15)求得:(10-15)上述的粗糙度計算結果是一個數,對于一幅大而復雜的圖像,這種定義未免粗糙,所以,有人也使用直方圖方式來描述Sbest的分布,這種改進后的粗糙度特征能夠表達具有多種不同紋理特征的圖像或區(qū)域,因此對圖像檢索更為有利。
對比度:對比度定義為公式(10-16):(10-16)其中,μA是圖像灰度的四階中心矩,σ是圖像的標準方差。對比度值從某個角度反映了整幅圖像的全局灰度分布狀況。方向度:方向度的計算需要首先計算每個像素處的梯度向量。該向量的模和方向分別定義為(10-17)
其中ΔH和ΔV分別是通過圖像卷積圖10-13所示的兩個3×3操作符所得的水平和垂直方向上的變化量。圖10-13梯度計算的卷積算子(10-18)在圖像陣列上移動卷積算子,即可得到每個像素點的梯度向量。在此基礎上,定義方向直方圖HD(k)如下:(10-19)式中:Nθ(k)表示滿足的像素點個數,t是梯度閾值。如果一幅圖像的紋理具有明顯的方向性,在方向直方圖上就會表現(xiàn)出局部峰值;反之,如果是沒有明顯方向性的圖像,其方向直方圖則無明顯的峰值表現(xiàn)。為了更定量地表達圖像總體的方向性,Tamura還通過采用統(tǒng)計每個峰值二階矩的方法來定義,具體如下所示:
式中:p代表方向直方圖中的某個峰值;np為方向直方圖中所有的峰值個數;ωp代表該峰值p所對應的谷范圍;而fp是峰值p對應的位置;r是影響離散化水平的一個規(guī)范化因子。
線像度:如果一幅圖像的紋理是由一些線條組成的,那么該圖像的線像度很高,為此首先構造一個大小為M×M的方向共生矩陣PDd。矩陣的元素PDd(i,j)是兩個距離相隔為d的像素之間的相關性,其中一個像素的方向值為i,另外一個像素的方向值為j,這里的方向值可以用上述的梯度方向來表示。則紋理的線像度定義為(10-20)
規(guī)整度:紋理的規(guī)整度定義為Fcrs、Fcon、Fdir、Fltn的標準方差和,計算公式如下:(10-21)(10-22)粗略度:根據心理學實驗,該參數計算方法如下:(10-23)上述公式給出了Tamura紋理特征的計算方法。該方法的優(yōu)點是從視覺的心理學角度出發(fā)提出了紋理表示方法,各個性質都具有直觀的視覺意義,所以,在QBIC和MARS系統(tǒng)中都包含了這一特征。
2.基于灰度共生矩陣的紋理特征
20世紀70年代,Haralick等提出了著名的灰度共生矩陣紋理特征表示方法,主要的依據是他們認為紋理是通過灰度的空間相關性展現(xiàn)出來的,所以,該方法首先根據圖像像素之間的關系,構造一個灰度共生矩陣(graytonecooccurrencematrix),再從中提出有意義的統(tǒng)計數據作為紋理特征的表示。
灰度共生矩陣以統(tǒng)計成對灰度值出現(xiàn)的概率為基礎。設M是某幅圖像的灰度共生矩陣,則每個矩陣元素表示θ方向上相隔d像素遠的一對像素分別具有灰度級i和j的出現(xiàn)概率,可用式(10-24)計算:(10-24)式中,N(d,θ)表示處于位置關系(d,θ)的像素對的個數,N(i,j|d,θ)表示處于位置關系(d,θ)的像素對中,一對像素分別具有的灰度級i和j的像素對個數。相應的矩陣可記為M(d,θ)。請注意,θ方向可以有0°、45°、90°、135°等,如圖10-14所示。圖10-14灰度級分別為i和j,相距d=1的一對像素點的θ示意一般來說,圖像的灰度有256級,灰度共生矩陣的構建需要消耗很大的計算量和存儲量,為了減少計算和存儲開銷,往往采取降低灰度級數的方法。下面舉例說明如何構造灰度共生矩陣。
【例10-1】
設有一幀4×4大小的圖像,灰度級別是0、1、2和3共4個級別,圖像點陣的灰度分布如下所示,試構建灰度共生矩陣M(1,0°)。解:根據題意,d=1,θ=0°,灰度級別的組合(i,j)可以有(0,0)、(0,1)、(0,2)、(0,3)、(1,0)、(1,1)、(1,2)、(1,3)、(2,0)、(2,1)、(2,2)、(2,3)、(3,0)、(3,1)(3,2)(3,3)等幾種情況,則有:
N(0,0|1,0°)=#{{(1,1),(1,2)},{(1,2),(1,1)},{(2,1),
(2,2)},{(2,2),(2,1)}}=4
N(0,1|1,0°)=#{{(1,2),(1,3)},{(2,2),(2,3)}}=2
N(0,2|1,0°)=#{{(3,1),(3,2)}}=1
N(0,3|1,0°)=#{}=0
N(1,0|1,0°)=#{{(1,2),(1,3)},{(2,2),(2,3)}}=2
N(1,1|1,0°)=#{{(1,3),(1,4)},{(1,4),(1,3)},{(2,3),
(2,4)},{(2,4),(2,3)}}=4
N(1,2|1,0°)=#{}=0
N(1,3|1,0°)=#{}=0
N(2,0|1,0°)=#{{(3,2),(3,1)}}=1
N(2,1|1,0°)=#{}=0
N(2,2|1,0°)=#{{(3,2),(3,3)},{(3,3),(3,2)},{(3,3),
(3,4)},{(3,4),(3,3)},{(4,1),(4,2)},
{(4,2),(4,1)}}=6
N(2,3|1,0°)=#{{(4,2),(4,3)}}=1
N(3,0|1,0°)=#{}=0
N(3,1|1,0°)=#{}=0
N(3,2|1,0°)=#{{(4,3),(4,2)}}=1
N(3,3|1,0°)=#{{(4,3),(4,4)},{(4,4),(4,3)}}=1
而N(d,θ)=24,用N(d,θ)去除上述各項,得到共生矩陣的各個元素P,比如:
P(0,0|1,0°)=4/24,其他各項略,最后得到灰度共生矩陣M(1,0°)如下:
從上面的求解過程可以清晰地看到,θ=0°的灰度共生矩陣反映了水平方向的成對灰度分布狀況,一定程度上表征了圖像的紋理特征。讀者可以試著計算M(1,45°)、M(1,90°)等。
由于灰度共生矩陣體現(xiàn)了圖像的紋理特征,從該矩陣得到的一些統(tǒng)計參數可以定量地描述這些紋理特征,常用的參數有灰度共生矩陣熵、慣性矩、能量、對比度、均勻性等,它們可分別使用下面的公式來計算。熵:(10-25)能量(二階矩):(10-26)對比度(慣性矩):(10-27)均勻度(局部平穩(wěn)):(10-28)熵表示圖像中紋理的非均勻程度或復雜程度,紋理越均勻,熵越大;紋理越復雜,熵越小。能量是對圖像灰度均勻性的測量。
10.3圖像相似量度
上一節(jié)介紹的顏色、形狀和紋理等低級視覺特征的提取,是基于內容的圖像檢索的基礎和關鍵,它可以將圖像的內容用數學的方法進行定量的表示,接下來就是如何比較待檢索的圖像和數據庫中的圖像,看它們是否相似,是否可以作為檢索結果輸出給用戶。
相似性度量方法的好壞影響到圖像檢索的性能;而相似性度量的計算復雜性影響到圖像檢索的用戶響應時間。所以,選擇一種恰當的相似量度計算方法,可以提高圖像檢索的性能。相似度量實際上可以使用兩個向量間的距離來量度,兩個向量間的距離越大,相似度越小。反之,兩個向量間的距離越小,相似度越大。下面介紹幾種常見的距離量度[15]。首先定義D(e,d)為示例圖像e和圖像數據庫中圖像d之間的距離量度,Hd(k)和He(k)分別為圖像d、e的特征量(一般是向量)。
1.Minkowski量度
Minkowski距離可以定義為(10-29)
如果圖像特征的每維元素都同等重要,那么可以使用Minkowski距離來表示兩幅圖像之間的距離,距離越大,相似度越小??梢允褂镁嚯x的倒數來表征相似度。上面的定義中,p=1,2,3,…,對應的D(e,d)分別被稱為L1,L2,L3距離。當p=2時,此時的Minkowski距離稱為歐式距離。當p=1時,Minkowski距離變成如下的形式(L1距離):(10-30)直方圖相交法可以認為是L1距離的一種特殊形式,圖像e和圖像d的直方圖之間的相交距離(也叫city-block距離)定義為(10-31)
2.Quadratic量度
Minkowski量度對所有的特征向量平均對待,而沒有考慮特征向量之間的關系。然而在實際情況下,各個特征向量之間是有關聯(lián)的,為了解決這個問題,可以采用以下Quadratic量度:(10-32)這里A=[Aij]為一個對稱矩陣,表示特征向量之間的相關性,元素Aij表示特征i和特征j之間的相似程度。相對于歐氏距離,Ouadratic量度考慮到各特征向量之間的相關性,檢索結果更加符合人的視覺感觀,只是要計算出特征間的相關性是一件費時耗力的工作。
3.Mahalanobis量度
當特征向量之間具有相關性,而且各個特征向量對圖像內容展現(xiàn)的貢獻大小不同時,一般可以采用Mahalanobis量度。Mahalanobis量度定義為(10-33)式中,C表示特征向量協(xié)方差矩陣??梢宰魅缦碌亩x來表示兩個圖像向量之間的相似程度:(10-34)式中,di表示圖像庫中第i個圖像。當樣例圖e和待比較圖d完全相似時,S(e,d)=1。當樣例圖e和待比較圖d完全不相似時,S(e,d)=0。
10.4基于內容的視頻信息檢索
多媒體信息檢索中,視頻信息檢索是一個不可分割的分支,廣泛應用于電視臺、傳媒、教學、安防等多種行業(yè)。要完成視頻信息檢索,首先要了解視頻信息的特點。
視頻信息可以看成由一系列連續(xù)的視頻幀構成,在一個鏡頭下拍攝下來的連續(xù)視頻幀構成一個鏡頭,鏡頭內的視頻幀內容變化不大,所以可以用關鍵幀來描述鏡頭;表達某個特定獨立故事或語義的鏡頭構成場景,即場景是由一些語義相關的鏡頭組成,值得注意的是構成場景的鏡頭不一定在時間上連續(xù)。圖10-15是一個視頻幀、鏡頭和場景的示意圖。圖10-15數字視頻序列結構視頻幀是組成一段視頻最基本的單元。一系列的視頻幀組成人眼所看見的連續(xù)的視頻。為了方便地檢索視頻,一般先將視頻進行鏡頭分割(鏡頭邊界檢測)、關鍵幀提??;得到關鍵幀以后,就可以按照圖像檢索的方法來檢索視頻了。所以視頻檢索的關鍵是進行鏡頭分割和關鍵幀提取。
視頻序列被分割為鏡頭,并提取出關鍵幀及其特征作為鏡頭的描述后,就可以建立基于關鍵幀的視頻檢索框架了。用戶可以根據需要,給出一幅類似的圖像、手繪的圖像輪廓、大致的對象形狀等。根據用戶的例子,系統(tǒng)計算得到相應的特征,然后跟存儲下來的視頻關鍵幀相應的特征進行匹配,最后將關聯(lián)的視頻序列或其指針按相似度大小排序輸出給用戶。10.4.1鏡頭分割
鏡頭是視頻數據的基本單元,大部分視頻是通過編輯一個個鏡頭連接而成,所以首先要把視頻自動地分割成一個個的鏡頭,作為基本的索引單元,這個過程就稱為鏡頭分割,或鏡頭邊界檢測(ShotBoundaryDetection)。它是實現(xiàn)基于內容的視頻檢索的第一步,直接影響到視頻檢索的效果,鏡頭邊界的檢測算法按處理對象可分為[16]:非壓縮域鏡頭邊界檢測算法和壓縮域鏡頭邊界檢測算法。非壓縮域(像素域)鏡頭邊界檢測算法是針對未經壓縮的數字視頻的,它可以利用視頻幀的像素域信息,提取其特征向量,然后比較在連續(xù)的時間段內,相鄰兩幀視頻圖像的特征向量在某個時刻是否發(fā)生了質的變化(比如差值是否超過了設定的閾值),如果是,就認為在該時刻發(fā)生了鏡頭的切換,標記為鏡頭的邊界。
壓縮域鏡頭邊界檢測算法主要是針對MPEG壓縮視頻的。由于越來越多的視頻數據以MPEG壓縮形式進行捕捉、傳輸和存儲,因而有必要對MPEG壓縮視頻進行研究。近年來開始出現(xiàn)的直接對壓縮視頻進行鏡頭檢測的算法,主要有以下兩類:
一類以日本的Yasuyaki[17]和美國普林斯頓的Yeo[18]為代表,他們都是利用I幀的DC序列,考察前后兩個I幀DC圖的色度相似性,在鏡頭轉換時,色度變化一般較大。這類方法的缺點是檢測精度不高,因為鏡頭轉換可能發(fā)生在兩個I幀之間,另外沒有利用運動信息,難以區(qū)分鏡頭運動和漸變。另一類方法以Zhang[19]為代表,利用B幀和P幀的運動向量,在鏡頭轉換時,B幀和P幀中采用預測編碼的宏塊數較少,這類方法雖然比較簡單,但是I幀中沒有運動向量,且MPEG中運動估計采用了塊匹配方法,運動向量不一定表示真實的運動,因而檢測精度不高。
按出發(fā)點的不同,鏡頭邊界檢測算法可分為:基于幀間差的方法和基于模型的方法;基于幀間差的方法因其簡單有效,使用較為廣泛,下面就介紹這種方法。在發(fā)生鏡頭轉換時視頻數據將發(fā)生一系列的變化,這種變化表現(xiàn)在顏色差異突然增大、對象形狀的改變和運動的不連續(xù)性等各方面。一般而言,同一個鏡頭內的各幀之間差異較小,不同鏡頭的幀間差異較大?;趲g差的方法就是利用某種特征,對視頻幀進行比較,當幀間差大于某個閾值時就認為是鏡頭的邊界?;趲g差的方法必須選擇合適的閾值,同時鏡頭漸變時幀間差增大不夠明顯,而鏡頭內的運動也會引起幀間差的增大,可能造成鏡頭的誤判。按計算幀間差使用特征向量的不同,鏡頭邊界檢測算法又可分為:基于像素或塊的方法、基于直方圖的方法、基于邊緣特征的方法、基于運動向量的方法和基于DCT系數的方法等。
這些方法各有優(yōu)缺點,基于像素或塊的方法由Nagasaka和Tanaka提出,它計算前后兩幀對應像素(或塊)亮度差或顏色差的絕對值之和。它的一種改進是計算亮度差或顏色差的絕對值超過某一閾值的像素總數。這類方法的缺點是對噪聲和運動比較敏感,因為它嚴格地局限于像素的位置,噪聲和物體運動都會使幀間差增大,從而導致錯誤的鏡頭邊界檢測。10.4.2關鍵幀提取
關鍵幀是指在一個鏡頭內存在的一幀或者若干視頻幀,能夠表達該鏡頭的主要內容。提取關鍵幀之后,就可以用很小的數據量把一個鏡頭的特性表示出來,從而達到壓縮龐大檢索容量的目的。
視頻關鍵幀的提取算法一般分為靜態(tài)關鍵幀提取和動態(tài)關鍵幀提取兩種類型。靜態(tài)關鍵幀提取是以鏡頭為單位來提取的。靜態(tài)關鍵幀提取一般只適合于靜止的鏡頭。動態(tài)關鍵幀提取則是根據鏡頭內視頻幀之間的變化程度來動態(tài)地將鏡頭分割成分鏡頭,進而對每個分鏡頭提取關鍵幀。
根據關鍵幀提取機理的不同,關鍵幀提取算法又可分為特定關鍵幀法[20]、幀平均法[21]和基于邊緣信息特征的方法等。
1.特定幀提取法
特定幀提取算法就是在一個鏡頭或分鏡頭內選定特定位置的視頻幀作為關鍵幀。它分為靜態(tài)特定幀法和動態(tài)特定幀法兩種類型。
靜態(tài)特定幀法是在已經分好的鏡頭內選取特定位置的視頻幀作為關鍵幀,比如可以選取鏡頭或者分鏡頭的首幀、中間幀、尾幀來作為該鏡頭或者分鏡頭的關鍵幀。靜態(tài)特定幀算法簡單,計算量非常小,但是它往往不能夠正確地放映鏡頭內視頻內容的變化,不適用于在運動變化較多的視頻內提取關鍵幀。動態(tài)特定幀法則首先根據鏡頭內視頻內容的變化情況,用幀間差比較的方法來劃分鏡頭,對每個被劃分出來的分鏡頭選取特定位置的視頻幀作為該分鏡頭的關鍵幀。動態(tài)特定幀法通常用鏡頭或者分鏡頭的第一幀作為關鍵幀,然后將后續(xù)的視頻幀與其比較,當發(fā)現(xiàn)當前幀和關鍵幀的幀間差大于某個閾值時,則認為鏡頭內發(fā)生了較大的變化或者運動較為激烈,將當前幀設定為關鍵幀,后續(xù)的視頻幀序列繼續(xù)與其作比較來提取關鍵幀。因此,動態(tài)特定幀法可以看成是將一個鏡頭劃分為多個分鏡頭,提取每個分鏡頭的首幀作為關鍵幀。其流程圖如圖10-16所示。圖10-16動態(tài)特定關鍵幀提取算法流程圖特定幀算法的特點是計算簡單,計算量小,獲得的關鍵幀數目最少,特別適合于內容活動性很小或者基本不變的鏡頭,但該方法對于提取的關鍵幀往往并不是最好的代表幀,其視頻檢索的性能可能較差。
2.幀平均法
幀平均法選取鏡頭中特性與鏡頭內所有視頻幀的平均特性最為接近的視頻幀作為該鏡頭的關鍵幀。一般存在兩種計算視頻段幀平均的方法:像素幀平均計算法和直方圖幀平均計算方法。像素幀平均方法計算視頻段中所有視頻幀在每一個像素點位置的平均值作為視頻段在該點的平均值,直方圖幀平均法則是計算視頻段中所有視頻幀的直方圖的平均值作為幀平均值。一般采用直方圖幀平均方法來計算視頻段的幀平均,直方圖幀平均法的優(yōu)點是能夠抑止視頻運動對幀平均計算和關鍵幀提取的影響,并且計算量相對較小。對于視頻關鍵幀提取的幀平均法,也分為靜態(tài)幀平
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025江蘇省安全員《A證》考試題庫
- 靈芝種植產業(yè)基地項目可行性研究報告-靈芝市場需求持續(xù)擴大
- 廣州中醫(yī)藥大學《試劑生產工藝》2023-2024學年第一學期期末試卷
- 2025青海省建筑安全員-B證考試題庫及答案
- 廣州醫(yī)科大學《哲學通論》2023-2024學年第一學期期末試卷
- 2025遼寧建筑安全員考試題庫
- 2025年江蘇建筑安全員考試題庫及答案
- 2025年-江蘇省安全員《B證》考試題庫及答案
- 《FOOD中國飲食文化》課件
- 【語文課件】冀中的地道戰(zhàn)課件
- 你比我猜成語
- 異質結完整分
- 膿毒癥1小時bundle質量控制
- 第7講 高斯光束的聚焦和準直課件
- 骨科患者術后疼痛管理的新進展
- 小學生三好學生競選演講稿PPT幻燈片
- 01S201室外消火栓安裝圖集
- 蒸餾酒及配制酒衛(wèi)生檢驗原始記錄
- 高一英語外研版必修一(2019)Unit 1 Period 8 Writing-Writing a journal entry(學案)
- 鉆井HSE作業(yè)風險控制
- S7-200SMARTPLC應用技術PPT完整全套教學課件
評論
0/150
提交評論