




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、多媒體信息檢索南京中醫(yī)藥大學(xué)文獻(xiàn)檢索教研室教學(xué)內(nèi)容多媒體信息檢索基礎(chǔ)知識(shí)多媒體信息檢索的方式多媒體信息檢索的分類(lèi)檢索概述多媒體:把不同的但相互關(guān)聯(lián)的媒體集成在一起而產(chǎn)生的一種存儲(chǔ)、傳播和表現(xiàn)信息的載體,通常包括文本、音頻、圖形、圖像、動(dòng)畫(huà)和視頻。多媒體信息:是各種媒體的組合體,即將音頻、視頻、圖像和計(jì)算機(jī)技術(shù)、通信技術(shù)集成到同一數(shù)字環(huán)境中,以協(xié)同表示更豐富和復(fù)雜的信息。多媒體信息檢索:是多媒體信息的特征元數(shù)據(jù)提取、索引建庫(kù),相似度匹配運(yùn)算,識(shí)別和返回用戶(hù)所需信息,通過(guò)與用戶(hù)之間的反饋,不斷優(yōu)化、調(diào)整顯示結(jié)果的過(guò)程。多媒體信息的特點(diǎn)數(shù)據(jù)量龐大數(shù)據(jù)類(lèi)型繁多相關(guān)性強(qiáng),同步性高動(dòng)態(tài)性強(qiáng)多媒體信息的分類(lèi)
2、按作用于人體感官形式劃分視覺(jué)類(lèi)媒體:點(diǎn)陣圖像、矢量圖形、動(dòng)畫(huà)、視頻、符號(hào)和文字等聽(tīng)覺(jué)類(lèi)媒體:波形聲音、語(yǔ)音和音樂(lè)等觸覺(jué)類(lèi)媒體:環(huán)境媒體,如皮膚感覺(jué)的溫度、濕度活動(dòng)媒體抽象事實(shí)媒體按照國(guó)際電信聯(lián)盟ITU-T 建議劃分感覺(jué)媒體表示媒體表現(xiàn)媒體存儲(chǔ)媒體傳輸媒體重點(diǎn)討論的是感覺(jué)媒體和表示媒體,即聲音、圖形、圖像、文字、視頻和動(dòng)畫(huà)等圖形與圖像圖形與圖像文件通?;旆Q(chēng)為圖片文件。特性分辨率 :圖片文件都要在計(jì)算機(jī)的顯示器屏幕上顯示出來(lái),顯示器是用均勻排列的像素來(lái)顯示畫(huà)面的,因此文件也是由許多的像素來(lái)組成。一張圖片其橫行的像素個(gè)數(shù)和豎列的像素個(gè)數(shù)便決定了該圖片的大小。如800600,1024768顏色數(shù):通常
3、,圖片顏色數(shù)的可能的取值有:2色(這時(shí)圖片只有黑白兩色)、16色、256色、16位增強(qiáng)色(共216即65536種顏色)、24仿真彩色(共224即16777216種顏色)等。自然圖片的顏色數(shù)越多,圖片的視覺(jué)效果就越好。圖片文件的格式類(lèi)型位圖:是由許多個(gè)像素點(diǎn)組成的圖片,相應(yīng)的圖片文件記錄了圖形或圖像的每一個(gè)像素點(diǎn)的位置及代表該像素顏色的數(shù)值等信息。根據(jù)有無(wú)壓縮或壓縮的方法等,該類(lèi)型的圖片文件又分為許多種格式,如:.bmp圖 、.tif圖 、.gif圖 、.jpg圖。矢量圖:是計(jì)算機(jī)通過(guò)數(shù)學(xué)運(yùn)算而產(chǎn)生的圖形,而不是像位圖那樣逐點(diǎn)描述的,因此,該圖形所占容量很小,而且它的顯示效果不受大小或顯示器分辨
4、率的影響。矢量圖的文件格式視生成它的軟件的不同而不同。矢量圖形格式也很多,如AdobeIllustrator的*.AI、*.EPS和SVG、AutoCAD的*.dwg和dxf、CorelDRAW的*.cdr、windows標(biāo)準(zhǔn)圖元文件*.wmf和增強(qiáng)型圖元文件*.emf等等。聲音波形音頻:是從真實(shí)的聲音錄制并數(shù)字化后而得到的一種聲音文件,這樣的一個(gè)過(guò)程稱(chēng)為聲音采樣。采樣頻率越高,錄制的聲音效果就越好,需要花費(fèi)的代價(jià)是聲音文件需要的存儲(chǔ)空間加大了。波形音頻文件常見(jiàn)的格式有: Wave文件(*.wav) 、MPEG音頻文件(.mp1.mp2.mp3)、RealAudio文件(ra.rm.ram)
5、、WMA(.wma)格式 。MIDI是樂(lè)器數(shù)字接口(Musical Instuments Digital Interface)的英文縮寫(xiě),是數(shù)字音樂(lè)電子合成樂(lè)器的統(tǒng)一的國(guó)際標(biāo)準(zhǔn)。MIDI音樂(lè)是利用電子合成技術(shù)來(lái)模擬各種樂(lè)器音效的方法生成,它并不對(duì)聲音進(jìn)行采樣和量化,記錄的也不是聲音本身,它只是像記錄樂(lè)譜一樣將每個(gè)音符記錄為一個(gè)類(lèi)似樂(lè)譜符號(hào)的數(shù)字,并且規(guī)定了各種音調(diào)的混合發(fā)音,最后通過(guò)合成器將這些數(shù)字轉(zhuǎn)化為對(duì)應(yīng)的音效進(jìn)而組合成為音樂(lè)播出。MIDI文件的數(shù)據(jù)量要比波形音頻文件小得多,可用于滿(mǎn)足播放較長(zhǎng)時(shí)間的音樂(lè)需要。MIDI音樂(lè)畢竟是電子合成模擬的,其聲音效果遠(yuǎn)不如真實(shí)樂(lè)器的效果,而且回放的質(zhì)量受
6、聲卡的影響比較大。視頻幀 :數(shù)字視頻利用人的眼睛的視覺(jué)暫留原理,將一系列順序排列的靜態(tài)畫(huà)面連續(xù)播放,從而產(chǎn)生動(dòng)態(tài)效果,其中的每一個(gè)畫(huà)面就是該視頻文件的一幀。 全運(yùn)動(dòng)播放:播放速度在30幀s以上,播放的效果才不會(huì)感到跳躍和閃爍,這樣的播放速度即所謂全運(yùn)動(dòng)播放。 全屏幕播放:視頻的播放滿(mǎn)足畫(huà)面大小為640 x 480以上、顏色在256色以上,即可以在整個(gè)顯示器屏禁區(qū)域播放,而不僅僅是在一個(gè)小窗口播放,即為全屏幕播放。數(shù)字視頻文件格式動(dòng)畫(huà)文件:指由相互關(guān)聯(lián)的若干幀靜止圖象所組成的圖象序列,這些靜止圖象連續(xù)播放便形成一組動(dòng)畫(huà),通常用來(lái)完成簡(jiǎn)單的動(dòng)態(tài)過(guò)程演示;該類(lèi)型的圖片文件又分為許多種格式,如:GIF
7、文件.GIF。影像文件:主要指那些包含了實(shí)時(shí)的音頻、視頻信息的多媒體文件,其多媒體信息通常來(lái)源于視頻輸入設(shè)備,由于同時(shí)包含了大量的音頻、視頻信息。 如AVI文件(.AVI ) 、QuickTime文件(.MOV/.QT )、MPEG文件 (.MPEG/.MPG/.DAT )、RealVideo文件 (.RM )。數(shù)字視頻文件格式AVI:Video for Windows所使用的文件稱(chēng)為音頻-視頻交錯(cuò)文件(Audio-Video Interleaved),文件擴(kuò)展名為AVI。AVI格式的文件將視頻信號(hào)和音頻信號(hào)混合交錯(cuò)地存儲(chǔ)在一起,是一種不需要專(zhuān)門(mén)硬件參與就可以實(shí)現(xiàn)大量視頻壓縮的視頻文件格式。在
8、各種多媒體演示系統(tǒng)中被廣泛應(yīng)用。AVI文件使用的壓縮方法有好幾種,主要使用有損壓縮,壓縮比高。MOV文件:MOV文件格式是Quick for Windows視頻處理軟件所選用的視頻文件格式,與AVI文件格式相同,MOV文件也采用Intel公司的Indeo視頻有損壓縮技術(shù)以及視頻信息與音頻信息混排技術(shù),一般認(rèn)為,MOV文件的圖像質(zhì)量較AVI格式好。它是Macintosh計(jì)算機(jī)用的視頻文件格式。MPG文件格式:PC機(jī)上的全屏幕活動(dòng)視頻的標(biāo)準(zhǔn)文件為MPG格式文件,也稱(chēng)為系統(tǒng)文件或隔行數(shù)據(jù)流。DAT文件格式:DAT是Video CD或Karaoke CD(卡拉 OK)數(shù)據(jù)文件的擴(kuò)展名,也是基于MPEG
9、壓縮方法的一種文件格式。 DIR文件格式:DIR是Macromedia公司使用的Director多媒體著作工具產(chǎn)生的電影文件格式。數(shù)字視頻文件格式多媒體應(yīng)用中使用的動(dòng)畫(huà)文件主要有GIF、AVI、SWF等等。GIF文件:可保存單幀或多幀圖像,支持循環(huán)播放。GIF文件小,是網(wǎng)絡(luò)唯一支持的動(dòng)畫(huà)圖形格式,在因特網(wǎng)上非常流行。GIF與JPG的區(qū)別在于它支持透明格式,雖然圖像壓縮比不及JPG文件,但是具有更快的傳送速度。SWF文件:是Macromedia公司的Flash動(dòng)畫(huà)文件格式,需要用專(zhuān)門(mén)的播放器才能播放,所占內(nèi)存空間小,在網(wǎng)頁(yè)上使用廣泛。多媒體數(shù)據(jù)庫(kù)是多媒體技術(shù)與數(shù)據(jù)庫(kù)相結(jié)合產(chǎn)生的一種新型數(shù)據(jù)庫(kù)。常
10、包括圖像數(shù)據(jù)庫(kù)、視頻數(shù)據(jù)庫(kù)和音頻數(shù)據(jù)庫(kù)構(gòu)造方法在關(guān)系數(shù)據(jù)庫(kù)的基礎(chǔ)上構(gòu)造多媒體數(shù)據(jù)庫(kù)在面向?qū)ο髷?shù)據(jù)庫(kù)的基礎(chǔ)上構(gòu)造多媒體數(shù)據(jù)庫(kù)分布式超媒體數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別處理的數(shù)據(jù)對(duì)象、數(shù)據(jù)類(lèi)型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)模型和應(yīng)用對(duì)象都不同、處理方式也不同。多媒體數(shù)據(jù)庫(kù)存儲(chǔ)和處理復(fù)雜對(duì)象,其存儲(chǔ)技術(shù)需要增加新的功能,如數(shù)據(jù)壓縮和解壓。多媒體數(shù)據(jù)庫(kù)面向應(yīng)用,沒(méi)有單一的數(shù)據(jù)模型適應(yīng)所有情況多媒體數(shù)據(jù)庫(kù)強(qiáng)調(diào)媒體獨(dú)立性多媒體數(shù)據(jù)庫(kù)強(qiáng)調(diào)對(duì)象的物理表現(xiàn)和交互方式,強(qiáng)調(diào)最終用戶(hù)界面的靈活性和多樣性。多媒體數(shù)據(jù)庫(kù)具有更強(qiáng)的對(duì)象訪問(wèn)手段。多媒體數(shù)據(jù)模型擴(kuò)充關(guān)系模型:關(guān)系數(shù)據(jù)庫(kù)中存儲(chǔ)了多媒體對(duì)象的位置信息,如關(guān)鍵詞、 文本
11、標(biāo)題、數(shù)據(jù)的存儲(chǔ)路徑及名稱(chēng)等描述信息面向?qū)ο蟮臄?shù)據(jù)模型: OODB,利用ODQL語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)庫(kù)的查詢(xún),在SQL功能的基礎(chǔ)之上增加了適合基于內(nèi)容檢索的機(jī)制,如復(fù)雜的信息建模能力。超媒體數(shù)據(jù)模型P297多媒體信息檢索的流程主要工作流程: 內(nèi)容獲取、內(nèi)容描述、內(nèi)容操作先對(duì)原始媒體進(jìn)行處理,提取內(nèi)容,然后用標(biāo)準(zhǔn)形式對(duì)它們進(jìn)行描述,來(lái)支持用戶(hù)對(duì)內(nèi)容的操作。內(nèi)容獲取通過(guò)各種內(nèi)容分析和處理,而獲得媒體內(nèi)容的過(guò)程,它包括信息分割、特征提取兩個(gè)部分。信息分割分成圖像分割與視頻分割。內(nèi)容獲取核心是特征提取。特征提取就是提取內(nèi)容顯著的特征和人的視覺(jué)、聽(tīng)覺(jué)方面的感知特征來(lái)表示媒體和媒體對(duì)象的性質(zhì),特征提取有自動(dòng)特征提
12、取和人工交互或提取兩種方式。多媒體信息檢索的方式基于文本方式的多媒體信息檢索基于內(nèi)容的多媒體信息檢索基于文本方式的多媒體信息檢索首先對(duì)多媒體進(jìn)行人工分析并抽取反映該多媒體物理性和內(nèi)容特征的關(guān)鍵詞,然后對(duì)這些關(guān)鍵詞進(jìn)行文字著錄或標(biāo)引,建立類(lèi)似于文本文獻(xiàn)的標(biāo)引著錄數(shù)據(jù)庫(kù),從而將對(duì)多媒體信息檢索轉(zhuǎn)變成對(duì)上述關(guān)鍵詞的檢索。普及程度:是現(xiàn)行網(wǎng)絡(luò)檢索系統(tǒng)中的主流方式。檢索方式:信息分類(lèi)、擴(kuò)展名、關(guān)鍵詞優(yōu)勢(shì):實(shí)現(xiàn)原理相對(duì)簡(jiǎn)單,技術(shù)成熟劣勢(shì):具有主觀性,仁者見(jiàn)仁、智者見(jiàn)智;多媒體信息的多維性,人工描述難以窮盡普通搜索引擎搜索圖片、圖像格式:image:文件名功能:檢索含有指定文件名圖像的所有網(wǎng)頁(yè)。搜索多媒體信
13、息格式:media: text功能:檢索文件的名字中含有指定文字的多媒體信息圖像搜索引擎圖像搜索引擎是專(zhuān)門(mén)用來(lái)搜索圖形圖像的搜索引擎。它與文字搜索引擎不同的是,查到的最終結(jié)果,不是文字形式的類(lèi)目名、網(wǎng)站名和網(wǎng)頁(yè)內(nèi)容,而是一幅幅縮微圖片,以及與圖片相關(guān)的介紹和地址鏈接。Google圖片搜索(http:/)Yahoo圖片搜索(http:/)百度圖片搜索(http:/)WebSEEK (:8008/)Lycos (http:/) Alltheweb圖像搜索(http:/) 視頻搜索引擎Google視頻搜索http:/.hk/videohp?hl=zh-CN百度視頻搜索http:/ SoSo視頻搜索/
14、音樂(lè)搜索引擎搜刮網(wǎng)( http:/ )百度MP3搜索/ 雅虎MP3搜索 http:/ 中搜Mp3搜索 /搜狗音樂(lè)搜索 http:/ 愛(ài)問(wèn)音樂(lè)搜索引擎 http:/音樂(lè)方面的專(zhuān)業(yè)共享網(wǎng)站九天音樂(lè)網(wǎng)()基于內(nèi)容的多媒體信息檢索基于內(nèi)容特征的信息檢索技術(shù)(Content Based Retrieval,簡(jiǎn)稱(chēng)CBR),是一種新的檢索技術(shù),是對(duì)多媒體對(duì)象的內(nèi)容及上下文語(yǔ)義環(huán)境進(jìn)行檢索原理:提取特征并進(jìn)行量化,表示成向量空間,建立索引庫(kù),將用戶(hù)提問(wèn)轉(zhuǎn)化成向量,并與已有信息的向量空間進(jìn)行相似度匹配計(jì)算。常用多媒體文件特征: 圖像:顏色、紋理及時(shí)空關(guān)系等 視頻:對(duì)象運(yùn)動(dòng)特征、顏色和光線(xiàn)變化等 音頻:時(shí)域、頻域
15、、時(shí)頻、短時(shí)幀和音頻特征等普及程度:局限在較小的數(shù)據(jù)集合上,大多只是實(shí)驗(yàn)室研究成果優(yōu)勢(shì):源于多媒體內(nèi)容本身的特征信息,具有客觀性劣勢(shì):復(fù)雜度高 語(yǔ)言鴻溝 選取好的特征的難度大、特征的量化、建模、建立向量空間復(fù)雜?;趦?nèi)容的多媒體信息檢索系統(tǒng)體系結(jié)構(gòu)媒體數(shù)據(jù)特征提取目標(biāo)標(biāo)識(shí)媒體庫(kù)特征庫(kù)知識(shí)庫(kù)知識(shí)輔助用戶(hù)查詢(xún)接口檢索引擎索引/過(guò)濾數(shù)據(jù)庫(kù)特征提取子系統(tǒng)數(shù)據(jù)庫(kù)查詢(xún)子系統(tǒng)基于內(nèi)容的多媒體信息檢索特點(diǎn)(1) 相似性檢索:CBR采用一種近似匹配(或局部匹配)的方法和技術(shù)逐步求精來(lái)獲得查詢(xún)和檢索結(jié)果,摒棄了傳統(tǒng)的精確匹配技術(shù),避免了因采用傳統(tǒng)檢索方法所帶來(lái)的不確定性。(2) 直接從內(nèi)容中提取信息線(xiàn)索:CBR直
16、接對(duì)文本、圖像、視頻、音頻進(jìn)行分析,從中抽取內(nèi)容特征,然后利用這些內(nèi)容特征建立索引并進(jìn)行檢索。(3) 滿(mǎn)足用戶(hù)多層次的檢索要求:CBR檢索系統(tǒng)通常由媒體庫(kù)、特征庫(kù)和知識(shí)庫(kù)組成。媒體庫(kù)包含多媒體數(shù)據(jù),如文本、圖像、音頻、視頻等;特征庫(kù)包含用戶(hù)輸入的特征和預(yù)處理自動(dòng)提取的內(nèi)容特征;知識(shí)庫(kù)包含領(lǐng)域知識(shí)和通用知識(shí),其中的知識(shí)表達(dá)可以更換,以適應(yīng)各種不同領(lǐng)域的應(yīng)用要求。(4) 大型數(shù)據(jù)庫(kù)(集)的快速檢索:CBR往往擁有數(shù)量巨大、種類(lèi)繁多的多媒體數(shù)據(jù)庫(kù),能夠?qū)崿F(xiàn)對(duì)多媒體信息的快速檢索?;趦?nèi)容的多媒體信息檢索步驟對(duì)入庫(kù)的多媒體數(shù)據(jù)進(jìn)行特征提取以提取的媒體特征建立索引輸入用戶(hù)描述將用戶(hù)描述與庫(kù)中媒體進(jìn)行相似
17、性匹配在相似性匹配的結(jié)果中選擇最終結(jié)果檢索過(guò)程用戶(hù)需求媒體資源內(nèi)容查詢(xún)內(nèi)容索引匹配基于內(nèi)容的圖像檢索基于內(nèi)容圖像檢索(Content Based Image Retrieval,簡(jiǎn)稱(chēng)CBIR),即從圖像庫(kù)中查找含有特定目標(biāo)的圖像,也包括從連續(xù)的視頻圖像中檢索含有特定目標(biāo)的視頻片段。步驟:特征提取:提取各種特征,如顏色,紋理,形狀等。根據(jù)提取的特征不同,采取不同的處理,比如提取形狀特征,就需要先進(jìn)行圖像分割和邊緣提取等步驟。選擇合適的算法,并在效率和精確性方面加以改進(jìn),以適應(yīng)檢索的需要,實(shí)現(xiàn)特征提取模塊。特征分析:對(duì)圖像的各種特征進(jìn)行分析,選擇提取效率高、信息濃縮性好的特征,或者將幾種特征進(jìn)行組
18、合,用到檢索領(lǐng)域。特征匹配:選擇何種模型來(lái)衡量圖像特征間的相似度。CBIR的基本原理CBIR的基本原理形式化定義:任給定一個(gè)檢索圖像示例P,計(jì)算其特征向量F=(F1,F(xiàn)2,F(xiàn)3,F(xiàn)n),其中Fi為圖像的第i種特征;根據(jù)F檢索圖像特征索引庫(kù),得到與F距離最小的特征向量F,則F所對(duì)應(yīng)的圖像P即為與P最相似的檢索結(jié)果。CBIR系統(tǒng)典型的架構(gòu)如右所示 基于內(nèi)容的圖像索引技術(shù)圖像特征提取技術(shù)顏色特征紋理特征形狀特征圖像索引主要技術(shù)顏色直方圖、顏色矩顏色集、顏色聚合向量、顏色相關(guān)圖Tamura紋理特征自回歸紋理模型基于小波變換的紋理特征傅里葉性狀描述符形狀無(wú)關(guān)矩其他形狀特征CBIR的特點(diǎn)屬于模糊查詢(xún),檢索
19、結(jié)果不是唯一的基于內(nèi)容的圖像檢索與文字檢索的一個(gè)主要區(qū)別是,基于內(nèi)容的檢索都是屬于模糊查詢(xún),一般不會(huì)給出單一的檢索結(jié)果,輸出的是一個(gè)結(jié)果排序集合,按照?qǐng)D像的相似程度,從最像到最不像。最后需要由人來(lái)判斷最終的結(jié)果是否滿(mǎn)足檢索需要,是人機(jī)結(jié)合的典范;由計(jì)算機(jī)來(lái)做大量簡(jiǎn)單煩瑣的工作,由人做分析工作。檢索結(jié)果是逐漸逼近:檢索過(guò)程中不斷修訂檢索條件,可以逐步達(dá)到最終的檢索結(jié)果;通過(guò)調(diào)整特征參數(shù)組合,可以得到不同的檢索結(jié)果。計(jì)算工作量大:每次查詢(xún)都需要根據(jù)臨時(shí)提交的特征標(biāo)準(zhǔn),對(duì)全部特征值進(jìn)行匹配運(yùn)算;數(shù)據(jù)計(jì)算時(shí)對(duì)計(jì)算機(jī)的要求高,查詢(xún)時(shí)間相對(duì)長(zhǎng)一些。CBIR的應(yīng)用防止犯罪等司法部門(mén):應(yīng)用人臉識(shí)別技術(shù),根據(jù)專(zhuān)
20、家對(duì)犯罪嫌疑人的頭像特征的描繪圖像,定位犯罪人的真實(shí)面目。軍事領(lǐng)域:可以用于武器的精確制導(dǎo),通過(guò)實(shí)時(shí)獲取的圖像信息,對(duì)其進(jìn)行解譯,保證打擊的準(zhǔn)確性。版權(quán)保護(hù)領(lǐng)域:針對(duì)商標(biāo)與設(shè)計(jì)專(zhuān)利類(lèi)的圖像進(jìn)行檢索,防止專(zhuān)利糾紛的產(chǎn)生。建筑和工程設(shè)計(jì):通過(guò)對(duì)建筑及工程設(shè)計(jì)物體的圖像檢索,可以聚類(lèi)相同風(fēng)格特色的建筑及工程設(shè)計(jì)產(chǎn)品。廣告業(yè)、藝術(shù)設(shè)計(jì):應(yīng)用圖像檢索,可以找到需要的各種素材,進(jìn)行藝術(shù)設(shè)計(jì)的再創(chuàng)造。CBIR的應(yīng)用醫(yī)學(xué)領(lǐng)域:對(duì)各種醫(yī)學(xué)透視CT圖像進(jìn)行檢索,可以快速定位類(lèi)似病例,及時(shí)快速的幫助病人找到病因,會(huì)對(duì)臨床、醫(yī)學(xué)研究、遠(yuǎn)程醫(yī)療、異地會(huì)診乃至醫(yī)學(xué)教育等方面產(chǎn)生積極和深遠(yuǎn)的影響。古生物學(xué)、考古學(xué):通過(guò)對(duì)古
21、生物化石圖像的解釋?zhuān)_定古生物所屬類(lèi)型等信息,便于發(fā)現(xiàn)新的物種;應(yīng)用于古文物的圖像檢索,通過(guò)對(duì)比,簽定文物的真?zhèn)?、所屬歷史時(shí)期等。地理信息系統(tǒng)和遙感:對(duì)遙感圖像的檢索,主要是解譯影像數(shù)據(jù)中的建筑、村莊、耕地等不同種類(lèi)地物信息,制作實(shí)時(shí)、準(zhǔn)確、逼真效果的專(zhuān)題圖件,應(yīng)用于地理信息系統(tǒng)中矢量處理模塊。安全技術(shù):應(yīng)用指紋、眼膜識(shí)別技術(shù),對(duì)用戶(hù)的指紋或者眼膜提取圖像特征進(jìn)行匹配,鑒定用戶(hù)真實(shí)身份。顏色檢索圖像檢索系統(tǒng)中應(yīng)用最基本的方法基于顏色特征的圖像檢索需要解決三個(gè)問(wèn)題:顏色的表示顏色特征的提取基于顏色的相似度量 顏色的表示取決于色彩空間的選擇,不同的場(chǎng)合采用的方式也是不同,常見(jiàn)的有RGB、 HSI(
22、色調(diào)(H),飽和度(S),亮度(I)模型等在基于顏色特征的索引算法中通常用顏色統(tǒng)計(jì)直方圖、累積直方圖來(lái)表示圖像的顏色特征 顏色特征索引的相似度匹配算法根據(jù)其顏色索引內(nèi)容和算法的不同而不同,主要包括直方圖相交法、Manhattan距離、絕對(duì)距離(L1)、二次距離(L2)、歐幾里德距離等 顏色空間顏色特征顏色特征是在圖像檢索中應(yīng)用最為廣泛的視覺(jué)特征,主要原因在于顏色往往和圖像中包含的物體或場(chǎng)景十分相關(guān)。此外,與其他特征相比,顏色特征計(jì)算簡(jiǎn)單,同時(shí)對(duì)圖像本身的尺寸、方向、視角的依賴(lài)性較小,具有較好的緊致性。顏色特征其中nk為圖像中顏色取值為k的像素個(gè)數(shù),n為像素總數(shù),K為可能的顏色取值范圍。 這樣計(jì)
23、算得到的顏色直方圖就是一個(gè)K維的特征向量。顏色直方圖所描述的是不同色彩在整幅圖像中所占的比例,而并不關(guān)心每種色彩所處的空間位置,所以特別適合描述那些不需要考慮特定物體空間位置的圖像內(nèi)容。顏色特征形狀檢索基于形狀的檢索包括兩種:一是基于輪廓線(xiàn)的檢索,二是直接針對(duì)特定形狀的圖形進(jìn)行檢索。燈管 杯子基于輪廓線(xiàn)的檢索 特定形狀 形狀特征形狀是描述圖像內(nèi)容的一個(gè)重要特征。它常與目標(biāo)聯(lián)系在一起,又一定的語(yǔ)義含義,因而可以看作是比顏色或紋理要高層一些的特征。但另一方面,對(duì)形狀的表達(dá)比對(duì)顏色或紋理的表達(dá)從本質(zhì)上要復(fù)雜得多,常需要先對(duì)圖像進(jìn)行分割。由于當(dāng)前的技術(shù)無(wú)法做到準(zhǔn)確和通用的自動(dòng)圖像分割,圖像檢索中的形狀
24、特征只能在特定應(yīng)用場(chǎng)合使用。在這些應(yīng)用中,利用特定領(lǐng)域知識(shí)可以從圖像中分割獲得包含的目標(biāo)(物體或區(qū)域)。形狀特征一般來(lái)說(shuō),形狀特征有兩種表示方法,一種是輪廓特征,一種是區(qū)域特征。前者適用于對(duì)形狀邊界的描述,而后者則適用于表達(dá)形狀包含的整個(gè)區(qū)域。這兩類(lèi)形狀特征的最典型方法分別是傅立葉描述符(Fourier Descriptor)和形狀無(wú)關(guān)矩(Moment Invariants)。形狀特征傅立葉描述符傅立葉描述符的主要思想是將經(jīng)過(guò)傅立葉變換后的邊界作為形狀特征。從輪廓上的任一點(diǎn)開(kāi)始繞輪廓一周可以定義一個(gè)復(fù)數(shù)序列:對(duì)其進(jìn)行離散傅立葉變換,就得到輪廓的傅立葉描述:在此基礎(chǔ)上,文獻(xiàn)提出了一種改進(jìn)的傅立葉
25、算法,這種算法不僅對(duì)噪音具有很好的魯棒性,而且對(duì)幾何變換具有不變性,更加適合圖像檢索的需要。紋理特征紋理特征也是一種全局特征,它也描述了圖像或圖像區(qū)域所對(duì)應(yīng)景物的表面性質(zhì)。但由于紋理只是一種物體表面的特性,并不能完全反映出物體的本質(zhì)屬性,所以?xún)H僅利用紋理特征是無(wú)法獲得高層次圖像內(nèi)容的。與顏色特征不同,紋理特征不是基于像素點(diǎn)的特征,它需要在包含多個(gè)像素點(diǎn)的區(qū)域中進(jìn)行統(tǒng)計(jì)計(jì)算。在模式匹配中,這種區(qū)域性的特征具有較大的優(yōu)越性,不會(huì)由于局部的偏差而無(wú)法匹配成功。作為一種統(tǒng)計(jì)特征,紋理特征常具有旋轉(zhuǎn)不變性,并且對(duì)于噪聲有較強(qiáng)的抵抗能力。但是,紋理特征也有其缺點(diǎn),一個(gè)很明顯的缺點(diǎn)是當(dāng)圖像的分辨率變化的時(shí)候
26、,所計(jì)算出來(lái)的紋理可能會(huì)有較大偏差。另外,由于有可能受到光照、反射情況的影響,從2-D圖像中反映出來(lái)的紋理不一定是3-D物體表面真實(shí)的紋理。 紋理特征Tamura紋理特征基于對(duì)紋理的視覺(jué)感知心理學(xué)研究,Tamura等人提出了紋理特征的表達(dá)方法。Tamura紋理特征的6個(gè)分量對(duì)應(yīng)于心理學(xué)角度的紋理特征的6種屬性,分別是粗糙度(coarseness )、對(duì)比度(contrast)、方向度(directionality)、線(xiàn)像度(linelikeness)、規(guī)整度(regularity)、粗略度(roughness),其中粗糙度、方向度和對(duì)比度在檢索中最為重要。在Tamura表示中的所有紋理性質(zhì)都是
27、有意義的,與人的主觀感受比較吻合,這使得Tamura紋理表示在圖象檢索中非常具有吸引力,而且可提供一個(gè)更有友好的用戶(hù)界面。 各特征的優(yōu)缺點(diǎn)比較基于內(nèi)容檢索各類(lèi)技術(shù)顏色特征紋理特征形狀特征綜合特征優(yōu)點(diǎn)平移、尺度、旋轉(zhuǎn)不變性,良好的穩(wěn)定性反映圖像本身的面貌旋轉(zhuǎn)不變性任何兩種圖像的形狀不會(huì)相同,形狀包含的語(yǔ)義信息更多不同特征優(yōu)勢(shì)互補(bǔ),提高檢索的靈活性缺點(diǎn)顏色對(duì)圖像大小、方向等不敏感當(dāng)圖像的分辨率發(fā)生變化,計(jì)算出來(lái)的紋理可能會(huì)有較大偏差不具備尺度、旋轉(zhuǎn)不變性最優(yōu)權(quán)重自動(dòng)分配的實(shí)現(xiàn)比較困難不同特征的相對(duì)特點(diǎn) 相對(duì)特點(diǎn)顏色VS紋理顏色VS形狀紋理VS形狀前者充分利用色彩信息側(cè)重圖像整體信息的描述平移、旋轉(zhuǎn)
28、、尺度不變性紋理特征比較容易獲得后者利用圖像的灰度信息更偏重于局部平移不變性形狀特征的計(jì)算比較復(fù)雜基于內(nèi)容的圖像檢索方法基于圖例的圖像檢索方法外部圖像查詢(xún)內(nèi)部圖像查詢(xún)草圖查詢(xún)綜合檢索方法利用檢索系統(tǒng)外部圖像進(jìn)行檢索查詢(xún)提問(wèn)的圖像是檢索系統(tǒng)內(nèi)部的圖像用戶(hù)先畫(huà)出一幅草圖,再根據(jù)草圖在系統(tǒng)中查詢(xún)自己想要的圖像現(xiàn)有的圖像檢索系統(tǒng)通常都是綜合利用上述方法圖像綜合檢索方法示意圖草圖數(shù)字圖像抽象特征用戶(hù)輸入草圖檢索外部圖像檢索直接檢索瀏覽圖像綜合檢索示意圖圖像圖像圖像圖像相似度比較方法基于內(nèi)容的圖像檢索是通過(guò)計(jì)算查詢(xún)與候選圖像之間視覺(jué)特征的相似度來(lái)完成。在對(duì)圖像內(nèi)容進(jìn)行描述的時(shí)候主要采用特征向量的方式,因此
29、,常用的圖像相似度比較方法也是基于向量空間模型的,可以將向量特征看作是向量空間中的點(diǎn),通過(guò)計(jì)算兩點(diǎn)之間的接近程度來(lái)衡量圖像之間的相似度。常用的圖像相似度比較方法如下:直方圖相交、二次距離、馬氏距離、歐拉距離、非幾何的相似度方法圖像的相似度度量方法 Minkowsky距離二次式距離、直方圖相交法、余弦距離等檢索效果評(píng)價(jià)設(shè)R為檢索到的結(jié)果圖像數(shù),S為檢索結(jié)果中相關(guān)的圖像數(shù),D為整個(gè)圖像庫(kù)中相關(guān)圖像數(shù),則查全率為:查準(zhǔn)率為:檢索效果評(píng)價(jià)命中準(zhǔn)確率排序測(cè)評(píng)法、匹配百分?jǐn)?shù)、ANMRR等基于內(nèi)容的圖像檢索系統(tǒng)QBICViragePhotobookVisualSEEK WebSEEKRetrieval Wa
30、re MMISQBIChttp:/IBM Almaden研究中心開(kāi)發(fā)的第一個(gè)商用基于內(nèi)容的圖像及視頻檢索系統(tǒng)提供對(duì)靜止圖像及視頻信息基于內(nèi)容的檢索手段支持圖像例子、繪制草圖或定制圖像特征模板來(lái)檢索圖像庫(kù)顏色使用RGB,YIQ,Lab和MTM顏色空間紋理使用改進(jìn)的Tamura表示:粗糙度,對(duì)比度和方向性等形狀特征有目標(biāo)面積、各階矩、離心率和主軸方向等草圖特征,如邊界各點(diǎn)的切線(xiàn)方向等開(kāi)發(fā)了基于聚類(lèi)的索引技術(shù)VirageVirage的VIR Image Engine類(lèi)似于QBIC系統(tǒng)特色:將特征進(jìn)行歸類(lèi),用戶(hù)查詢(xún)時(shí)可以對(duì)特征進(jìn)行任意組合Photobookhttp:/vismod/demos/phot
31、obook/由MIT的媒體實(shí)驗(yàn)室開(kāi)發(fā)研制圖像在存儲(chǔ)時(shí)按人臉、形狀或紋理特性自動(dòng)分類(lèi)圖像根據(jù)類(lèi)別通過(guò)顯著語(yǔ)義特征壓縮編碼VisualSEEK/ln/dvmm/researchProjects/MultimediaIndexing/VisualSEEk/VisualSEEk.htm美國(guó)哥倫比亞大學(xué)開(kāi)發(fā)的圖像查詢(xún)系統(tǒng)主要特點(diǎn)是用到了圖像區(qū)域的空間關(guān)系查詢(xún)和直接從壓縮數(shù)據(jù)中提取視覺(jué)特征Retrieval Ware http:/tools/retrievalware.html是由 Excalibur 科技有限公司開(kāi)發(fā)的一種基于內(nèi)容的圖像檢索工具。早期版本中,可以看到該系統(tǒng)的重點(diǎn)在于運(yùn)用神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)圖
32、像檢索。在比較新的版本中r提供基于6種圖像屬性的檢索,分別是顏色、形狀、紋理、顏色結(jié)構(gòu)、亮度結(jié)構(gòu)和縱橫比。顏色屬性是對(duì)圖像的顏色及其所占的比率進(jìn)行測(cè)定,但并不包括對(duì)顏色的結(jié)構(gòu)或位置的測(cè)定,這一項(xiàng)是由顏色結(jié)構(gòu)屬性控制的;形狀屬性指圖像中物體的輪廓或線(xiàn)條的相對(duì)方位、彎曲度及對(duì)比度;紋理屬性是指圖像的平滑度或粗糙度,一幅圖的表面特性;亮度屬性是指構(gòu)成圖像的象素組合的亮度。 香港公共圖書(shū)館的多媒體信息系統(tǒng)(MMIS).hk/web/guestIBM和分包商ICO于1999年底開(kāi)始承建190萬(wàn)美元的數(shù)字圖書(shū)館項(xiàng)目被認(rèn)為是世界上最大且最復(fù)雜的“中文/英文”雙語(yǔ)圖書(shū)館服務(wù)之一采用的DB2 Text 和Image Extenders既支持文本查找,也支持圖片查找相似顏色相似形狀相似內(nèi)容基于內(nèi)容的視頻檢索通過(guò)對(duì)非結(jié)構(gòu)化的視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析和處理,采用視頻分割技術(shù),將連續(xù)的視頻流劃分為具有特定語(yǔ)義的視頻片段鏡頭,作為檢索的基本單元,在此基礎(chǔ)上進(jìn)行代表幀(representative frame)的提取和動(dòng)態(tài)特征的提取,形成描述鏡頭的特征索引鏡頭組織和特征索引,采用視頻聚類(lèi)等方法研究鏡頭之間的關(guān)系,把內(nèi)容相近的鏡頭組合起來(lái),逐步縮小檢索范圍,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 項(xiàng)目管理8項(xiàng)管理制度
- 餐飲安全管理管理制度
- 全覆蓋團(tuán)員管理制度
- 生產(chǎn)班組6s管理制度
- 酒店管理幾級(jí)管理制度
- 規(guī)范中考管理制度心得
- 飯店前廳日常管理制度
- 食品調(diào)料倉(cāng)庫(kù)管理制度
- 項(xiàng)目紀(jì)律制度管理制度
- 銷(xiāo)售門(mén)窗團(tuán)隊(duì)管理制度
- 國(guó)外中學(xué)物理實(shí)驗(yàn)教學(xué)現(xiàn)狀分析
- 基于核心素養(yǎng)的初中英語(yǔ)閱讀教學(xué)策略講座培訓(xùn)課件
- 醫(yī)院國(guó)家安全主題班會(huì)
- 失信應(yīng)急和響應(yīng)演練記錄
- 2024-2029年中國(guó)新一代信息技術(shù)行業(yè)發(fā)展分析及發(fā)展前景與投資研究報(bào)告
- 醫(yī)院反恐知識(shí)課件
- 唱給小蘿卜頭的歌
- 社會(huì)基本矛盾在歷史發(fā)展中的作用
- 主題班會(huì)教案理解時(shí)尚,追求真美
- 新型電力系統(tǒng)簡(jiǎn)介演示
- 傳統(tǒng)戲曲的角色扮演與表演藝術(shù)
評(píng)論
0/150
提交評(píng)論