




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于內(nèi)容的視覺(jué)信息檢索Oge Marques , Borko FurhtFlorida Atlantic University, USA本章主要對(duì)視覺(jué)信息檢索(Visual Information Retrieval,簡(jiǎn)寫為 VIR)系統(tǒng)特別是基于內(nèi)容的視覺(jué)信息檢索(Content-Based Visual Information Retrieval, 簡(jiǎn)寫為CBVIR)系統(tǒng)領(lǐng)域作了一個(gè)綜述。本章闡述了該領(lǐng)域的一些主要概念以及系統(tǒng)設(shè)計(jì)時(shí)所面臨的主要問(wèn)題,并回顧評(píng)價(jià)了當(dāng)前已有的一些系統(tǒng)原型以及商業(yè)上的解決方案,同時(shí)指出了該領(lǐng)域中比較有前途的研究方向。緒論近年來(lái),數(shù)字化格式的視聽信息量成指數(shù)級(jí)增長(zhǎng)
2、,每天都會(huì)有成G字節(jié)級(jí)的新的圖像、聲音和視頻產(chǎn)生和存儲(chǔ),這些構(gòu)成了一個(gè)巨大的、分布式的、未組織的多媒體信息庫(kù),其中的大部分信息可以通過(guò)互聯(lián)網(wǎng)訪問(wèn)到。多媒體信息的數(shù)字化、壓縮和存儲(chǔ)已經(jīng)變得很普及、很簡(jiǎn)單,而且成本也大大降低了,這些都可以通過(guò)現(xiàn)存的大量的硬件和軟件來(lái)完成,但是如果以后要對(duì)這些信息進(jìn)行高效率的檢索則需要進(jìn)行大量的額外工作。對(duì)多媒體庫(kù)中多媒體數(shù)據(jù)的檢索主要有三種方法:1、自由瀏覽(Free browsing):用戶順序?yàn)g覽圖像、聲音和視頻文件集,當(dāng)發(fā)現(xiàn)所想要的信息時(shí)便停止瀏覽。2、基于文本的檢索(Text-based retrieval):在編目階段(cataloguing stage
3、)給視聽文件加上文本信息(元數(shù)據(jù)),在檢索階段,這些附加的文本信息被用來(lái)引導(dǎo)常規(guī)的基于文本的搜索引擎查找所需要的數(shù)據(jù)。3、基于內(nèi)容的檢索(Content-based retrieval):用戶搜索多媒體庫(kù)中有關(guān)圖像、聲音或者視頻片斷的實(shí)際內(nèi)容的信息?;趦?nèi)容的搜索引擎將這些信息按照某種方式進(jìn)行轉(zhuǎn)換以便對(duì)數(shù)據(jù)庫(kù)進(jìn)行查詢,檢索出能盡量滿足用戶要求的結(jié)果。 前兩種方法都有嚴(yán)重的局限性和可擴(kuò)展性問(wèn)題。自由瀏覽只適用于臨時(shí)用戶使用,而不適用于那些經(jīng)常要獲取具體的多媒體信息以進(jìn)行專業(yè)應(yīng)用的用戶。這是一個(gè)冗長(zhǎng)、效率低下而且耗時(shí)的過(guò)程,對(duì)大型的數(shù)據(jù)庫(kù)而言,這是完全不實(shí)用的。 基于文本的檢索在編目階段存在著兩個(gè)
4、重大的問(wèn)題: a)需要花費(fèi)相當(dāng)多的時(shí)間和精力手工對(duì)每一幅獨(dú)立的圖像或者視頻片斷進(jìn)行標(biāo)注; b)對(duì)內(nèi)容進(jìn)行標(biāo)注時(shí)由于人的主觀性而帶來(lái)了不精確性。這兩個(gè)問(wèn)題隨著多媒體信息的搜集量的增大而更加嚴(yán)重,很可能會(huì)使得后期的檢索出現(xiàn)錯(cuò)誤。基于文本的檢索需要前期對(duì)多媒體數(shù)據(jù)進(jìn)行標(biāo)注,這樣導(dǎo)致它的效率低下且具有很大的局限性,為了解決這些問(wèn)題,來(lái)自于圖像處理和計(jì)算機(jī)視覺(jué)方向的研究人員開始研究更可行的多媒體信息(特別是圖像和視頻片斷)檢索方法基于內(nèi)容的檢索方法,即圖像和視頻將根據(jù)它們的視覺(jué)內(nèi)容(如:顏色、紋理、對(duì)象的形狀和運(yùn)動(dòng),等等)建立索引,而不是手工用關(guān)鍵字進(jìn)行標(biāo)注?;趦?nèi)容的視覺(jué)信息檢索(CBVIR)的研究始
5、于上個(gè)世紀(jì)九十年代早期,而且很有可能在二十一世紀(jì)的最初十年里持續(xù)下去。目前,許多大學(xué)和大公司的研究小組都在這個(gè)領(lǐng)域積極地進(jìn)行研究,許多系統(tǒng)原型和商業(yè)產(chǎn)品也已經(jīng)研制成功,但是目前的解決方案與視覺(jué)信息檢索的最終目標(biāo),即使用戶以快速、高效、語(yǔ)義上有意義的(semantically meaningful)、友好的且位置相對(duì)獨(dú)立(location-independent)的方式從海量的視覺(jué)信息中檢索出圖像或者視頻片斷,仍有很大的差距。 本章下面的內(nèi)容組織如下:在第二節(jié)我們將回顧C(jī)BVIR系統(tǒng)的基本原理;第三節(jié)將討論設(shè)計(jì)一個(gè)CBVIR系統(tǒng)的主要問(wèn)題;第四節(jié)概述現(xiàn)存的(包括商業(yè)性的和研究性的在內(nèi))一些CBV
6、IR系統(tǒng);第五節(jié)敘述在這一領(lǐng)域出現(xiàn)的的一些open研究問(wèn)題(open research problems);第六節(jié)描述了作者們開發(fā)的一個(gè)CBVIR系統(tǒng)MUSE的主要特征;最后,第七節(jié)是對(duì)本章的總結(jié)評(píng)論。CBVIR系統(tǒng)基本原理預(yù)備知識(shí)視覺(jué)信息檢索(VIR)是計(jì)算機(jī)科學(xué)與工程學(xué)科中一個(gè)相對(duì)比較新的研究領(lǐng)域。與傳統(tǒng)的信息檢索類似,VIR系統(tǒng)的主要目標(biāo)是檢索出所有的與用戶的查詢相關(guān)的圖像(或圖像序列),同時(shí)在檢索的結(jié)果中應(yīng)盡可能的去掉不相關(guān)的圖像。對(duì)信息的檢索與對(duì)數(shù)據(jù)的檢索的著重點(diǎn)恰恰相反。視覺(jué)信息檢索系統(tǒng)必須能夠解釋文檔(圖像)的內(nèi)容并將它們按照與用戶查詢的相關(guān)程度進(jìn)行排列。這個(gè)解釋過(guò)程包括從文檔(
7、圖像)里抽?。ㄕZ(yǔ)義)信息并用這些信息與用戶要求進(jìn)行匹配。視覺(jué)信息檢索研究的發(fā)展得到了多個(gè)研究領(lǐng)域的支持(如圖1所示),尤其是:基于文本的信息檢索,圖像處理和計(jì)算機(jī)視覺(jué),模式識(shí)別,多媒體數(shù)據(jù)庫(kù)組織,多維索引(multidimensional indexing),psychological modeling of user behavior,人機(jī)交互,等等。圖1 視覺(jué)信息檢索結(jié)合了許多研究方向VIR系統(tǒng)根據(jù)用于查詢檢索圖像或視頻文件的屬性的不同可以大體上可以分為兩代(Del Bimbo ,1999): 第一代VIR系統(tǒng):使用文本進(jìn)行查詢,例如查詢“紅色的法拉利”或者“凡高的作品”。它們非常依賴于元
8、數(shù)據(jù)(字符串,關(guān)鍵字,或者完整的腳本full scripts) 第二代(CB)VIR系統(tǒng):支持基于內(nèi)容的查詢,對(duì)圖像而言,其中內(nèi)容的概念包含:感覺(jué)屬性(例如:顏色、形狀、紋理),語(yǔ)義上的基本要素(例如:對(duì)象、角色、場(chǎng)景),還有主觀的屬性(例如:印象、情緒和與感覺(jué)屬性相關(guān)的意圖)。許多的第二代系統(tǒng)都將基于內(nèi)容的技術(shù)作為一個(gè)補(bǔ)充,而不是選擇代替基于文本的方法。一個(gè)典型CBVIR系統(tǒng)的體系結(jié)構(gòu)圖二顯示了一般CBVIR系統(tǒng)的結(jié)構(gòu)圖,系統(tǒng)的主要組成部分有: 用戶界面(User interface):友好的圖形化用戶界面,用于向數(shù)據(jù)庫(kù)提出查詢,瀏覽結(jié)果,查看選中的圖像或者視頻片斷; 查詢/搜索引擎(Que
9、ry / search engine):負(fù)責(zé)根據(jù)用戶提交的參數(shù)在數(shù)據(jù)庫(kù)中進(jìn)行搜索; 數(shù)字圖像和視頻存儲(chǔ)器(Digital image and video archive):數(shù)字化、壓縮的圖像和視頻片斷的存儲(chǔ)庫(kù); 視覺(jué)信息摘要(Visual summaries):圖像和視頻內(nèi)容的簡(jiǎn)單表示,例如圖像的索引圖像或視頻的關(guān)鍵幀; 索引(Indexes):圖像或視頻片斷的指針; 數(shù)字化和壓縮(Digitization and compression):將圖像和視頻片斷轉(zhuǎn)化為壓縮的數(shù)字化格式的硬件和軟件; 編目(Cataloguing):從原始圖像和視頻中抽取特征建立相應(yīng)的索引。圖2:CBVIR系統(tǒng)結(jié)構(gòu)圖
10、由于大量現(xiàn)成的硬件和軟件的存在,數(shù)字化和壓縮過(guò)程已經(jīng)變得相當(dāng)簡(jiǎn)單。許多情況下,圖像和視頻的生成和存儲(chǔ)都直接使用壓縮的數(shù)字化格式。編目階段的工作主要是從圖像和視頻片段的視覺(jué)內(nèi)容中抽取特征。特別的,在處理視頻的情況下,原始的視頻片斷被分成若干塊,這些塊被成為場(chǎng)景(scenes),它們還可以被進(jìn)一步細(xì)分為鏡頭(shots)。每一個(gè)有意義的視頻單位都被編上索引,同時(shí)系統(tǒng)存儲(chǔ)一個(gè)相對(duì)應(yīng)的視覺(jué)信息摘要,代表性的為一個(gè)關(guān)鍵幀(keyframe)。在處理圖像的情況下,相對(duì)應(yīng)的過(guò)程為對(duì)象的分割過(guò)程,該過(guò)程已在少數(shù)系統(tǒng)中得到實(shí)現(xiàn)。在兩種情況下,元數(shù)據(jù)都是在編目階段中被加入到視覺(jué)內(nèi)容中。基于文本的視覺(jué)信息檢索系統(tǒng)必
11、須要用手工給圖像和視頻文件添加元語(yǔ)言,而CBVIR系統(tǒng)則最低限度或者根本不使用元語(yǔ)言。數(shù)字化、壓縮和編目一般而言都是離線完成的。一旦這三個(gè)步驟完成,數(shù)據(jù)庫(kù)中不但包含了這些圖像和視頻文件本身,還可能包含這些文件或片段的簡(jiǎn)化表示以及用作相應(yīng)圖像或視頻的指針的索引集。用戶與CBVIR系統(tǒng)的在線交互如圖2的上半部分所示。用戶通過(guò)圖形用戶界面(GUI)提出查詢,系統(tǒng)根據(jù)用戶所提交的查詢由搜索引擎查找與所需圖像或視頻文件相對(duì)應(yīng)的索引,最終的結(jié)果將通過(guò)一種易于瀏覽查看的方式返回給用戶,同時(shí)還應(yīng)當(dāng)可以根據(jù)部分返回結(jié)果來(lái)改進(jìn)查詢。用戶觀點(diǎn)(Perspective)用戶接口是CBVIR系統(tǒng)的一個(gè)極為重要的組成部分
12、。理想的用戶接口應(yīng)當(dāng)是簡(jiǎn)單的、容易的、友好的、功能的(functional)并且是可定制的。它應(yīng)當(dāng)以一種清楚直覺(jué)的方式提供用戶瀏覽、查看、搜索和檢索的能力。這種集成是非常重要的,因?yàn)橛脩舨粫?huì)一直只是由查詢搜索引擎得到最佳匹配,有時(shí)用戶需要檢查最初少數(shù)的最佳匹配,瀏覽它們,查看它們的內(nèi)容,改進(jìn)查詢,最終檢索到所要的圖像或視頻片斷。大多數(shù)VIR系統(tǒng)允許使用如下所述的多種不同的方式中的一種或多種對(duì)視覺(jué)信息數(shù)據(jù)庫(kù)進(jìn)行搜索: 交互式瀏覽(Interactive browsing):方便那些對(duì)要搜索的圖像或視頻沒(méi)什么了解的用戶使用。聚類技術(shù)可以用來(lái)將視覺(jué)上相似的圖像組織成組,同時(shí)可以最小化顯示給用戶的圖像
13、中非用戶要求的圖像數(shù)量。 Navigation with customized categories:(leisure users often find it very convenient to navigate through a subject hierarchy to get to the target subject and then browse or search that limited subset of images.)使用戶方便地對(duì)主題層次進(jìn)行導(dǎo)航以找到目標(biāo)主題,然后瀏覽或搜索這個(gè)圖像的子集。 使用X進(jìn)行查詢(Query by X)其中X可能為: 一幅實(shí)例圖像(an im
14、age example):許多系統(tǒng)允許用戶指定一幅圖像作為實(shí)例并且搜索與它最相似的圖像,按照相似度評(píng)分的遞減順序進(jìn)行排列; 一幅草圖(a visual sketch):一些系統(tǒng)提供用戶一系列的工具,用戶可以將頭腦中的圖像或視頻片斷用草圖畫出來(lái); 視覺(jué)特征的詳細(xì)說(shuō)明(specification of visual features):視覺(jué)特征的詳細(xì)說(shuō)明都直接給出,這樣可能會(huì)吸引到更多有機(jī)數(shù)的用戶; 一個(gè)關(guān)鍵字或者完整的文本(a keyword or complete text):第一代VIR系統(tǒng)依賴于用戶輸入的關(guān)鍵字,用戶查找那些事先用關(guān)鍵字標(biāo)注過(guò)的視覺(jué)信息。我們希望查詢操作應(yīng)該盡可能的簡(jiǎn)單、直
15、觀而且盡量接近與人對(duì)相似性的感知。用戶會(huì)更喜歡系統(tǒng)提供像“顯示更多與此圖像相似的圖像”這樣的功能選項(xiàng),而不是提供一個(gè)復(fù)雜的交互工具來(lái)編輯圖像的顏色直方圖并執(zhí)行新的搜索。后一種方式可能會(huì)有利于有經(jīng)驗(yàn)且有圖像處理方面知識(shí)的用戶,但它并不適合一般用戶所以具有一定的局限性。我們認(rèn)為,理想的CBVIR系統(tǒng)查詢應(yīng)當(dāng)對(duì)用戶隱藏復(fù)雜的查詢處理技術(shù)內(nèi)幕。對(duì)視覺(jué)媒體的搜索應(yīng)當(dāng)像“當(dāng)我看到它時(shí),我便知道它”那樣具有不精確性(A search through visual media should be as imprecise as “I know it when I see it.”)。設(shè)計(jì)者的觀點(diǎn)設(shè)計(jì)一個(gè)CBV
16、IR系統(tǒng)的一些主要方面有:特征的抽取和表示,降低維數(shù)處理(dimension reduction)和多維索引的建立,圖像語(yǔ)義的抽取,以及用戶相關(guān)反饋機(jī)制的設(shè)計(jì)。下面的章節(jié)將會(huì)對(duì)這些要點(diǎn)進(jìn)行更為詳細(xì)的研究。特征的抽取和表示CBVIR系統(tǒng)應(yīng)該能夠自動(dòng)地抽取用于描述圖像或視頻內(nèi)容的視覺(jué)特征。這些特征包括顏色、紋理、大小、形狀和運(yùn)動(dòng)信息。在特定的上下文中,特征的抽取過(guò)程可以被擴(kuò)展,以發(fā)現(xiàn)其它專門的屬性,例如:人臉或者對(duì)象。由于感知的主觀性,已知的特征并不存在著最好的表示方法。舉個(gè)例子說(shuō),顏色信息可以用不同的顏色模型(如:RGB、 HSV、 YcbCr)和數(shù)學(xué)結(jié)構(gòu)(如顏色直方圖、顏色矩color mom
17、ents、color sets或者顏色相關(guān)曲線圖color correlograms)來(lái)表示。與此類似的,紋理可以使用共生矩陣、Tamura紋理特征或者小波(Wavelets)來(lái)表示。降低維數(shù)處理(Dimension Reduction) 和多維索引的建立抽取出的特征聚合成某種合適的數(shù)據(jù)結(jié)構(gòu)或者數(shù)學(xué)結(jié)構(gòu)(例如:標(biāo)準(zhǔn)化特征向量),另外選擇合適的度量標(biāo)準(zhǔn)(例如:歐幾里德距離)來(lái)度量一幅圖像與任何其它圖像之間的相似度。在這個(gè)階段,主要的問(wèn)題有:特征向量的維數(shù)比較高;歐幾里德距離度量具有局限性,雖然它在數(shù)學(xué)方面是比較完美的,但是它不能有效地模擬人的視覺(jué)感知。高維索引的解決方案包括:降低特征向量的維數(shù)以
18、及使用高效的多維索引技術(shù)。降低維數(shù)一般而言或者用Karhunen-Loeve轉(zhuǎn)換或者使用聚類技術(shù)。多維索引技術(shù)的實(shí)例包括使用專門的數(shù)據(jù)結(jié)構(gòu)(例如:k-d樹、R-樹和它們的變形)。為了解決歐幾里德相似度量的局限性,研究人員提出了使用聚類和神經(jīng)網(wǎng)絡(luò)的方法。圖像語(yǔ)義的抽取人對(duì)視覺(jué)內(nèi)容的感知很大程度上依賴于場(chǎng)景的高層語(yǔ)義信息。如今的計(jì)算機(jī)視覺(jué)技術(shù)只是低層次的(單個(gè)象素級(jí)的)研究?;诘蛯犹卣鞯腃BVIR系統(tǒng)只能提供如下的一些查詢:查詢所有的含有30的紅色、10的橙色以及60的白色象素點(diǎn)的圖像,其中橙色的RGB定義為:R255,G130,B0。查詢所有的圖像,特征為藍(lán)藍(lán)的天空下一片綠色的草地。查詢所有的
19、圖像,它們是某特定圖像的旋轉(zhuǎn)樣式。在通常情況下,用戶都試圖尋找所需圖像的高層語(yǔ)義特征,例如:“一個(gè)漂亮的玫瑰花園”,“一個(gè)擊球手打中一個(gè)棒球”或者“一輛貴重的賽車”。在低層特征與高層語(yǔ)義之間并不存在一個(gè)簡(jiǎn)單直接的映射。這兩者之間的距離通常被稱作“語(yǔ)義鴻溝”。如今有兩種方法可以用來(lái)最大程度的縮小語(yǔ)義鴻溝。第一種是給圖像加入盡可能多的元語(yǔ)言,這種方法早已被討論過(guò)而且被認(rèn)為是很不現(xiàn)實(shí)的;第二種是結(jié)合學(xué)習(xí)算法使用用戶相關(guān)反饋技術(shù)進(jìn)行大量的用戶交互,使得系統(tǒng)能夠?qū)W習(xí)理解查詢操作的語(yǔ)義上下文。相關(guān)反饋早期在CBVIR領(lǐng)域努力要實(shí)現(xiàn)的主要目標(biāo)是開發(fā)全自動(dòng)、開放循環(huán)(open-loop)的系統(tǒng)。研究者們希望當(dāng)
20、前的計(jì)算機(jī)視覺(jué)和圖像處理技術(shù)能足夠應(yīng)付圖像的查詢和檢索。這些系統(tǒng)的成功率也鼓舞了研究者們開始嘗試另一種不同的途徑,即強(qiáng)調(diào)交互性以及比較明確地將用戶考慮到處理循環(huán)中。這種改變的例子可以從MIT多媒體實(shí)驗(yàn)室研究人員在該領(lǐng)域的研究工作中看出,他們從對(duì)“自動(dòng)的” Photobook的研究轉(zhuǎn)入到對(duì)“交互式的”FourEyes的研究?!跋嚓P(guān)反饋”主要指的是這樣的一個(gè)過(guò)程:系統(tǒng)從用戶那里搜集關(guān)于特征、圖像、圖像區(qū)域或者局部的返回結(jié)果的相關(guān)性信息。這種反饋可以用許多種方法來(lái)實(shí)現(xiàn),每一種系統(tǒng)都可以按某種特定的方式使用反饋來(lái)提高系統(tǒng)的性能。相關(guān)反饋的作用在于將查詢向相關(guān)圖像的方向“轉(zhuǎn)移”,避開不相關(guān)的圖像(Gev
21、ers ,Smeulders ,1999)。相關(guān)反饋機(jī)制已經(jīng)在當(dāng)前的CBVIR系統(tǒng)中得到應(yīng)用,例如:MIT的FourEyes系統(tǒng),UIUC的MARS系統(tǒng)和NEC的PicHunter系統(tǒng),等等。在支持相關(guān)反饋的CBVIR系統(tǒng)中,一個(gè)典型的搜索包括查詢以及后續(xù)重復(fù)進(jìn)行的用戶反饋。相關(guān)反饋的使用使得用戶與系統(tǒng)的交互更加簡(jiǎn)單,更加自然。通過(guò)選擇圖像、圖像區(qū)域或者圖像特征,用戶可以用這樣那樣的方式告訴系統(tǒng)他的要求,而沒(méi)有使用草圖或者關(guān)鍵字等方式來(lái)描述用戶要求時(shí)系統(tǒng)所承受的負(fù)擔(dān)。如何使用用戶交互得到的信息以及如何提煉CBVIR系統(tǒng)要返回的結(jié)果有許多種方法。有一種途徑著重于查詢階段,試圖使用相關(guān)反饋得到的信
22、息來(lái)改進(jìn)查詢;另一種選擇是使用相關(guān)反饋來(lái)修改特征的權(quán)重,例如MARS中使用的方案;第三種思路是使用相關(guān)反饋來(lái)構(gòu)造新的特征;第四種可能性是使用相關(guān)反饋信息來(lái)更新數(shù)據(jù)庫(kù)中的每幅圖像就是目標(biāo)圖像的概率,也就是通過(guò)用戶與系統(tǒng)進(jìn)行交互來(lái)預(yù)測(cè)目標(biāo)圖像。后一種方案已經(jīng)在PicHunter系統(tǒng)中得到采用。系統(tǒng)設(shè)計(jì)要點(diǎn)CBVIR系統(tǒng)的設(shè)計(jì)過(guò)程中出現(xiàn)了很多問(wèn)題和挑戰(zhàn),其中的一些已經(jīng)得到了總結(jié)(Marques ,F(xiàn)urht ,1999)?;谖覀冮_發(fā)MUSE系統(tǒng)的經(jīng)驗(yàn),我們總結(jié)了CBVIR系統(tǒng)設(shè)計(jì)者在開始實(shí)現(xiàn)CBVIR原型之前所必須要解決的一系列的問(wèn)題。系統(tǒng)將要使用哪些特征以及如何引入?特征抽取階段是這個(gè)難題中相當(dāng)
23、重要的一塊。好的特征抽取算法單方面并不能保證CBVIR系統(tǒng)完全成功。但是,一個(gè)系統(tǒng)中如果關(guān)于圖像的低層內(nèi)容的知識(shí)不足以建立圖像之間視覺(jué)相似性的概念,那么該系統(tǒng)也不會(huì)表現(xiàn)出很好的性能。(However, no system will exhibit a good performance if its knowledge about the images low-level contents is less than the minimum required to establish the notion of visual similarity between images.)大多數(shù)系統(tǒng)會(huì)抽取顏
24、色和紋理信息進(jìn)行編碼,有的系統(tǒng)也會(huì)抽取頻率相關(guān)的信息,例如使用數(shù)學(xué)變換。特殊的應(yīng)用往往需要專門的特征和算法,例如人臉識(shí)別。抽取出的特征信息往往被組織成特征向量的形式,圖像之間的相似度由距離度量標(biāo)準(zhǔn)來(lái)表示,距離越大,相似度越小。系統(tǒng)如何知道使用可哪些特征以及如何給某個(gè)特殊的查詢優(yōu)先權(quán)?如果系統(tǒng)工作在一個(gè)無(wú)約束的圖像庫(kù)下,那么找出哪些特征應(yīng)當(dāng)被考慮到以及根據(jù)這些特征的重要程度來(lái)為每個(gè)特征分配特定的權(quán)重將不是一件很簡(jiǎn)單的事。在某一個(gè)查詢中很重要的到了下一個(gè)查詢中可能會(huì)毫不相關(guān)。處理這個(gè)問(wèn)題由兩種方法:(a)在提交查詢前讓用戶明確指出哪些特征是重要的;(b)基于用戶交互和相關(guān)反饋,使用機(jī)器學(xué)習(xí)技術(shù)來(lái)推
25、斷每個(gè)特征的重要性。QBIC使用了前一種方法,MARS則使用了后一種方法。選擇什么樣的相似度量方法?最廣泛采用的相似性模型是度量,假定人的相似性感知可以被近似的通過(guò)度量特征向量之間的距離(代表性的使用歐幾里德距離)估計(jì)出。非歐幾里德的度量方法尚未進(jìn)行深入研究(Rui, Huang, Chang ,1999),更好的相似模型正在研究中。降維和索引過(guò)程應(yīng)該使用什么技術(shù)?Karhunen-Loeve變換(KLT)是對(duì)特征向量進(jìn)行降維處理的較為完善的技術(shù),同時(shí)研究人員正在尋找一種最佳的多維索引技術(shù),近些年一種新的基于樹的方法被提出來(lái)。在Rui、 Huang 和 Chang (Rui,,Huang, C
26、hang ,1999)所作的調(diào)查中包含了許多特殊的算法。系統(tǒng)應(yīng)該支持什么樣的查詢?決定選用什么樣的查詢方式應(yīng)該考慮到用戶的需要以及實(shí)現(xiàn)每種模式的復(fù)雜度的折衷。例如支持基于文本的搜索,需要花費(fèi)額外的精力對(duì)每幅進(jìn)入數(shù)據(jù)庫(kù)的圖像進(jìn)行注釋,同時(shí)支持基于實(shí)例的查詢(QBE)操作需要更復(fù)雜的圖像相似度度量。一些研究者們提出根據(jù)類別的導(dǎo)航與基于內(nèi)容的檢索之間可以著到一個(gè)有意義的平衡。當(dāng)用戶提交了一個(gè)視覺(jué)信息查詢時(shí),圖像的子集已經(jīng)被限定到以個(gè)特定的類別中去,這樣作可以提高速度(需要考慮的圖像變少了)而且還可以加入關(guān)于查詢的語(yǔ)義信息(層次樹中的類別和它的父類會(huì)告知用戶關(guān)注的主題)。如何評(píng)價(jià)結(jié)果的質(zhì)量?Bench
27、marking視覺(jué)信息檢索解決方案是an open problem,研究人員仍然在爭(zhēng)論如何為這個(gè)目的找出一套圖像、一個(gè)查詢集以及評(píng)價(jià)標(biāo)準(zhǔn)。用標(biāo)準(zhǔn)化的方法比較兩種解決方案之間的差別仍然是不可行的,每一個(gè)系統(tǒng)都具有它本身的數(shù)量上的和質(zhì)量上的度量標(biāo)準(zhǔn)。 .圖像文件應(yīng)該存放到哪里?圖像文件實(shí)際存放位置的不同(在本地硬盤上還是在互聯(lián)網(wǎng)上)會(huì)給系統(tǒng)的設(shè)計(jì)帶來(lái)很大的差異。當(dāng)圖像文件不是存放在本地時(shí),設(shè)計(jì)者應(yīng)該考慮到眾多的問(wèn)題,我們指出其中的一些如下:需要在本地存儲(chǔ)遠(yuǎn)程數(shù)據(jù)庫(kù)中圖像的索引圖或者鏡像副本;實(shí)際圖象可能會(huì)變得不可用(臨時(shí)地或永久地);網(wǎng)絡(luò)擁塞可能會(huì)帶來(lái)性能的下降;根據(jù)圖像庫(kù)的變動(dòng)使用不同的策略更新
28、索引。用戶怎樣提出相關(guān)反饋以及與之對(duì)應(yīng)系統(tǒng)應(yīng)該完成什么工作?CBVIR系統(tǒng)要支持用戶相關(guān)反饋存在著許多重要問(wèn)題。第一個(gè)就是于用戶的接口問(wèn)題以及系統(tǒng)要求用戶如何與之交互,如何使用例子來(lái)表達(dá)他們對(duì)圖形的看法,使用哪些特征來(lái)度量相似度以及部分的返回結(jié)果。 一些系統(tǒng)只需要最低限度的用戶操作(例如用戶評(píng)價(jià)結(jié)果時(shí)好的、壞的或者都不對(duì)),其它的系統(tǒng)需要用戶對(duì)結(jié)果的質(zhì)量給出一個(gè)具體的數(shù)值。第二個(gè)問(wèn)題關(guān)于復(fù)雜的數(shù)學(xué)計(jì)算,主要是由下面的情況所帶來(lái):用戶相關(guān)反饋信息以及根據(jù)它來(lái)調(diào)整查詢,計(jì)算每個(gè)特征的重要性,計(jì)算每幅圖像是目標(biāo)圖像的概率,等等。 如果需要的話,系統(tǒng)應(yīng)該具有哪些學(xué)習(xí)能力?CBVIR系統(tǒng)有許多的理由使用
29、無(wú)人管理的學(xué)習(xí)算法:學(xué)習(xí)特征向量如何于圖像的自然組相關(guān)聯(lián),如何標(biāo)注這些組;找出要將圖像歸為特定的類中時(shí)有用的特征;根據(jù)一系列的先驗(yàn)概率以及計(jì)算對(duì)每幅圖像是所需要的圖像的概率進(jìn)行修正,同時(shí)還要考慮到相關(guān)反饋的信息。在CBVIR系統(tǒng)中貝葉斯學(xué)習(xí)和聚類技術(shù)是最常用的學(xué)習(xí)技術(shù)之一。系統(tǒng)中還要包括哪些支持工具?一系列的支持工具的引入可以增強(qiáng)CBVIR系統(tǒng)的性能。一組基礎(chǔ)的圖像處理函數(shù)即使這種工具的一個(gè)例子,這些函數(shù)允許基于實(shí)例查詢系統(tǒng)的用戶在提交查詢前對(duì)樣本圖象進(jìn)行簡(jiǎn)單的編輯(如:裁剪等等)。CBVIR系統(tǒng)實(shí)例近年來(lái),不管在商業(yè)上還是在研究領(lǐng)域,都出現(xiàn)了大量的CBVIR系統(tǒng)。下面會(huì)對(duì)現(xiàn)存的一些CBVIR
30、系統(tǒng)作一個(gè)簡(jiǎn)要的介紹,具體細(xì)節(jié)可以從文中所給出的互聯(lián)網(wǎng)站點(diǎn)和文獻(xiàn)目錄中獲取。QBICQBIC (Query By Image Content 基于圖像內(nèi)容查詢) 系統(tǒng)是由國(guó)際商用機(jī)器公司(IBM)研制成功的。該系統(tǒng)的設(shè)計(jì)框架和采用的技術(shù)對(duì)后來(lái)的圖像系統(tǒng)產(chǎn)生了深刻的影響。QBIC系統(tǒng)基于例子圖像的查詢方式,也支持通過(guò)由用戶構(gòu)造的草圖、輪廓和選定的色彩和紋理樣式的查找方式。在QBIC的最新版系統(tǒng)中,基于文本的關(guān)鍵字查找方式與基于內(nèi)容的相似性查找方式相結(jié)合,共同完成查找功能。QBIC演示程序可以在如下的網(wǎng)址中找到:。PhotobookPhotobook是美國(guó)麻省理工大學(xué)的多媒體實(shí)驗(yàn)室所開發(fā)的用于圖像
31、查詢和瀏覽的交互式工具。它由三個(gè)子系統(tǒng)組成,分別負(fù)責(zé)提取形狀、紋理、人臉特征。這樣一來(lái),用戶可以分別在這三個(gè)子系統(tǒng)中根據(jù)相應(yīng)的特征來(lái)進(jìn)行查找。另外的關(guān)于Photobook的資料可以在下面的網(wǎng)址中找到:。FourEyesFourEyes相當(dāng)于是Photobook的一個(gè)改良版本,它包括了相關(guān)反饋機(jī)制。通過(guò)給出一組正的和負(fù)的例子,系統(tǒng)決定使用哪個(gè)模型或者幾個(gè)模型的組合并學(xué)習(xí)哪個(gè)組合能最好的解決特殊類別的問(wèn)題。當(dāng)系統(tǒng)遇到一個(gè)與它以前所解決的問(wèn)題類似的新問(wèn)題時(shí),F(xiàn)ourEyes能在比第一次更快的時(shí)間內(nèi)解決問(wèn)題。更多的關(guān)于系統(tǒng)的細(xì)節(jié)可以從如下的網(wǎng)址獲?。?NetraNetra系統(tǒng)是在UCSB大學(xué)的Alex
32、andria數(shù)字化圖書館(Alexandria Digital Library 縮寫為ADL )項(xiàng)目中。它從分割后的圖像區(qū)域中提取顏色、形狀、紋理和空間位置信息,并依靠這些信息從數(shù)據(jù)庫(kù)中查找相似的區(qū)域。在線演示網(wǎng)址為:。Netra的新版本Netra2著重于組最后處理的顏色圖像區(qū)域和本地的顏色特征,演示網(wǎng)址為:.。MARSMARS (Multimedia Analysis and Retrieval System,多媒體分析和檢索系統(tǒng))是伊利諾斯大學(xué)Urbana-Champaign分校開發(fā)的。MARS系統(tǒng)的重點(diǎn)不在于找到所謂“最好”的圖像特征,而在于根據(jù)實(shí)際的應(yīng)用環(huán)境和用戶需要在檢索框架中動(dòng)態(tài)地
33、組合調(diào)整各種不同的圖像特征。MARS在圖像檢索領(lǐng)域正式提出了相關(guān)反饋的體系結(jié)構(gòu)。相關(guān)反饋的技術(shù)在各種層次上融合到檢索的過(guò)程中,包括查詢向量的優(yōu)化,相似度算法的自動(dòng)選擇,以及圖像特征權(quán)重的調(diào)整。MARS系統(tǒng)的更多信息可以在下面的網(wǎng)址找到:。PicToSeekPicToSeek是由阿姆斯特但大學(xué)開發(fā)的一個(gè)圖像搜索引擎。PicToSeek使用autonomous Web crawlers從互聯(lián)網(wǎng)搜集圖像。然后系統(tǒng)對(duì)搜集的圖像自動(dòng)地進(jìn)行編目并按照預(yù)先定義的類別進(jìn)行分類,系統(tǒng)還抽取這些圖像的相關(guān)特征。用戶可以使用多種方法對(duì)PicToSeek系統(tǒng)進(jìn)行查詢,可以使用圖像特征、實(shí)例圖像或者簡(jiǎn)單地瀏覽預(yù)計(jì)算的圖
34、像目錄。PicToSeek的演示版可在如下的網(wǎng)址找到: isis/zomax/ 。VisualSEEkVisualSEEk是由哥倫比亞大學(xué)開發(fā)的一系列CBVIR系統(tǒng)中的一部分。它同時(shí)支持基于視覺(jué)特征的查詢和基于空間關(guān)系的查詢。它的在線演示程序可以在下面的網(wǎng)址中找到:k/ 。PicHunterPicHunter是由NEC新澤西研究所開發(fā)的一個(gè)CBVIR系統(tǒng)。PicHunter使用了相關(guān)反饋和貝葉斯準(zhǔn)則來(lái)預(yù)測(cè)目標(biāo)圖像。ImageRoverImageRover是由波士頓大學(xué)開發(fā)的一個(gè)CBVIR系統(tǒng)。這是一個(gè)基于Web的工具,它通過(guò)一系列的自動(dòng)化儀器搜集關(guān)于HTML頁(yè)面的信息。這些儀器使用向量的格式收
35、集、處理和存儲(chǔ)圖像元數(shù)據(jù),用戶對(duì)系統(tǒng)進(jìn)行查詢時(shí)搜索這些向量格式的元數(shù)據(jù),然后系統(tǒng)以索引圖像的形式向用戶返回相關(guān)反饋的結(jié)果,用戶選擇與他們搜索要求相關(guān)的圖像,這樣便可以利用系統(tǒng)的基于內(nèi)容的搜索能力直到用戶找到所需的圖像。更多的細(xì)節(jié)內(nèi)容可以從如下的網(wǎng)址找到:。WebSEEkWebSEEk在通過(guò)Web robots對(duì) HTML進(jìn)行收集處理上與ImageRover類似,雖然它也有視頻搜索和收集的優(yōu)點(diǎn)。它是由哥倫比亞大學(xué)開發(fā)的,相應(yīng)演示程序的站點(diǎn)為:。VirageVirage是由Virage有限公司開發(fā)的商業(yè)化的基于內(nèi)容的圖像檢索引擎。Virage支持基于顏色、顏色布局、紋理和結(jié)構(gòu)特征(對(duì)象邊緣)的查詢
36、功能,而且還支持以上四種基本查詢的任意組合的查詢方式。用戶還可以根據(jù)需要來(lái)調(diào)整基本圖像特征的權(quán)重。更多的關(guān)于Virage產(chǎn)品的信息可以在如下的網(wǎng)址找到:。Visual RetrievalWareVisual RetrievalWare是由Excalibur Technologies Corp開發(fā)的CBVIR系統(tǒng)。與Virage類似,它支持多種視覺(jué)查詢特征的組合,這些特征的權(quán)重由用戶設(shè)定。在2000年底,Excalibur改名為Convera.。Convera公司的產(chǎn)品信息可以在如下網(wǎng)址找到:。AMOREAmore (Advanced Multimedia Oriented Retrieval
37、Engine,高級(jí)面向多媒體檢索引擎)是由NEC USA的一個(gè)分支機(jī)構(gòu)C & C Research Laboratories (CCRL)開發(fā)的具有圖像檢索能力的一個(gè)搜索引擎。它并不能夠通過(guò)自動(dòng)儀器對(duì)整個(gè)Web進(jìn)行搜索,但是它有一個(gè)自動(dòng)儀器(他們叫它harvest gatherer)用來(lái)對(duì)來(lái)自用戶給定的URL的圖像進(jìn)行scour和分類。系統(tǒng)使用Harvest Information Discovery and Access System進(jìn)行文本編目(indexing)和搜索,使用面向內(nèi)容的圖象檢索(COIR)對(duì)圖像進(jìn)行標(biāo)引(index)并對(duì)這些圖像進(jìn)行檢索。COIR使用基于區(qū)域的方式,
38、使用顏色、紋理和位置進(jìn)行indexing。對(duì)用戶而言,除了URL地址,所有的事都是自動(dòng)完成。關(guān)于AMORE的更多信息可以在如下網(wǎng)址找到:BlobworldBlobworld是由U.C. Berkeley開發(fā)的CBVIR系統(tǒng)。程序自動(dòng)地將圖像分割為不同的區(qū)域,這些區(qū)域大體上與對(duì)象或?qū)ο蟮囊徊糠窒鄬?duì)應(yīng),系統(tǒng)支持用戶基于照片或圖像所包含的對(duì)象的查詢。他們?cè)诓檎姨囟▽?duì)象方面的做法是有效的,不足之處是,正如大多數(shù)的系統(tǒng)一樣,改系統(tǒng)只關(guān)注于“低層”特征而很少關(guān)心這些特征的空間組織關(guān)系。Blobworld系統(tǒng)同時(shí)支持基于文本和基于內(nèi)容的搜索。該系統(tǒng)在對(duì)用戶相關(guān)反饋的支持方面也是很有效的,因?yàn)樗故玖颂峤粓D像
39、的內(nèi)部表示以及查詢的結(jié)果。因此,與其它的一些考慮顏色直方圖相似度量的系統(tǒng)有所不同的是,該系統(tǒng)能夠幫助用戶理解為什么他們得到了某個(gè)結(jié)果。其他的公司和產(chǎn)品在過(guò)去的一些年里許多公司進(jìn)入了視覺(jué)搜索解決方案的這片新開辟的市場(chǎng)。這些公司包括:Ereo (), Cobion (), LookThatU,和 ImageLock ()。OPEN研究問(wèn)題以及未來(lái)發(fā)展方向視覺(jué)信息檢索是一個(gè)比較活躍的研究領(lǐng)域,許多open問(wèn)題仍然處于研究階段,其中的一些最突出的技術(shù)挑戰(zhàn)和研究機(jī)遇包括:用戶與系統(tǒng)之間更好的協(xié)作大家公認(rèn)CBVIR系統(tǒng)如果在處理循環(huán)中允許用戶的介入且允許他們提供相關(guān)反饋信息,則系統(tǒng)將只會(huì)達(dá)到可接受的性能。
40、研究人員仍在研究用戶如何給出相關(guān)反饋的信息以及系統(tǒng)如何進(jìn)行相應(yīng)的處理的細(xì)節(jié)。最小化圖像低層特征與人對(duì)圖象內(nèi)容的解釋之間的語(yǔ)義鴻溝視覺(jué)信息查詢的高層的概念與使用計(jì)算機(jī)視覺(jué)技術(shù)從圖像中抽取的低層的特征之間的區(qū)別用文字表述為“語(yǔ)義鴻溝”。最小化這個(gè)語(yǔ)義鴻溝的最有希望的方法是結(jié)合聯(lián)機(jī)的相關(guān)反饋信息使用脫機(jī)學(xué)習(xí)算法。使系統(tǒng)面向Web基于Web的搜索時(shí)使用的基于文本的搜索引擎還沒(méi)有相應(yīng)的能力完成對(duì)視覺(jué)信息的搜索。元數(shù)據(jù)的表示還沒(méi)有一個(gè)標(biāo)準(zhǔn),縮短系統(tǒng)的最大可承受的響應(yīng)時(shí)間,是目前需要克服的兩大困難。 高維索引目前,對(duì)高效的支持非歐幾里德的相似度度量方法的高維索引技術(shù)以及相似性函數(shù)功能運(yùn)行時(shí)它們自適應(yīng)進(jìn)行改動(dòng)
41、的研究很活躍,但還沒(méi)有找到最終的解決方案。性能評(píng)價(jià)的標(biāo)準(zhǔn)化以及標(biāo)準(zhǔn)化基準(zhǔn)套件和實(shí)驗(yàn)臺(tái)的創(chuàng)造人們一致公認(rèn)需要一系列標(biāo)準(zhǔn)化的的圖像、查詢和性能度量方法來(lái)對(duì)不同的解決方案之間進(jìn)行比較。國(guó)際模式識(shí)別聯(lián)合會(huì)(IAPR)的一個(gè)技術(shù)委員會(huì)(TC)正試圖解決這個(gè)問(wèn)題,到目前位置還未有一個(gè)最終的結(jié)果。人對(duì)圖像內(nèi)容的感知對(duì)人的視覺(jué)感知的心理物理特征(psychophysical aspects of human visual perception)的深入研究能夠使得我們對(duì)人如何進(jìn)行視覺(jué)相似性判斷有進(jìn)一步的了解,同時(shí)也會(huì)幫助提高CBVIR系統(tǒng)的性能help improve the performance of CB
42、VIR systems without precluding the inclusion of the human user in the loop。 訪問(wèn)圖像視頻數(shù)據(jù)庫(kù)的新的visual interfaces查詢、瀏覽以及視覺(jué)信息圖像庫(kù)的定位方法都需要進(jìn)行改進(jìn),尤其是視頻信息引入后。計(jì)算機(jī)視覺(jué)與其他學(xué)科和媒體相集合圖像數(shù)據(jù)庫(kù)系統(tǒng)的成功離不開計(jì)算機(jī)視覺(jué)領(lǐng)域、數(shù)據(jù)庫(kù)領(lǐng)域以及其它一些研究領(lǐng)域研究人員的通力協(xié)作。MUSE:具有相關(guān)反饋機(jī)制的基于內(nèi)容的圖象檢索系統(tǒng)相關(guān)背景過(guò)去的兩年中作者一直在研究MUSE,這是一個(gè)具有相關(guān)反饋機(jī)制和學(xué)習(xí)能力的CBVIR系統(tǒng)。這個(gè)項(xiàng)目的目的是建立一個(gè)從大型的庫(kù)中檢索視覺(jué)
43、信息的智能化系統(tǒng)。其中的一些目標(biāo)包括:圖3:MUSE:結(jié)構(gòu)示意圖 簡(jiǎn)潔、簡(jiǎn)單、友好的用戶接口 從用戶交互學(xué)習(xí)的能力 用戶透明度:對(duì)用戶隱藏檢索引擎復(fù)雜的低層細(xì)節(jié) 對(duì)其他媒體種類的可擴(kuò)展性,尤其是視頻系統(tǒng)綜述圖3顯示了MUSE的主要組成部分。部分的系統(tǒng)操作是脫機(jī)狀態(tài)下完成的,還有一些操作是聯(lián)機(jī)執(zhí)行的。脫機(jī)階段的工作包括:特征抽取、圖像的表示以及庫(kù)中每幅圖像的組織。聯(lián)機(jī)交互由用戶通過(guò)GUI命令執(zhí)行。系統(tǒng)抽取用戶選出的相關(guān)圖像的特征并與所有其它的圖像特征相比較。根據(jù)相似度比較的結(jié)果來(lái)更新圖像是目標(biāo)圖像的概率并進(jìn)行排列。根據(jù)這些,系統(tǒng)存儲(chǔ)學(xué)習(xí)信息并決定下一步將顯示哪一張候選圖像。經(jīng)過(guò)一系列的循環(huán)重復(fù),
44、目標(biāo)圖像將會(huì)在屏幕上顯示出來(lái)。用戶的觀點(diǎn)MUSE的用戶接口比較簡(jiǎn)單、簡(jiǎn)潔,而且還很直觀(如圖4)。它包括一個(gè)菜單,兩個(gè)工具條和一個(gè)工作區(qū),工作區(qū)被分為兩個(gè)部分:左邊包括一個(gè)選定的圖像(可選的);右邊作為一個(gè)瀏覽器,它的具體細(xì)節(jié)依賴于操作模式。MUSE支持四種操作模式:自由瀏覽,隨機(jī)瀏覽,根據(jù)實(shí)例查詢以及相關(guān)反饋(不需要實(shí)例圖像)。在自由瀏覽模式下(如圖5),瀏覽器顯示當(dāng)前用戶所選擇的目錄下圖像的索引圖像。隨機(jī)模式下(如圖6),在顯示索引圖像之前打亂了目錄的內(nèi)容,working as a baseline against which the fourth mode (relevance feed
45、back) can be compared?;趯?shí)例的查詢模式(如圖7)已經(jīng)被實(shí)現(xiàn)用于當(dāng)做特征抽取和相似度度量階段的實(shí)驗(yàn)臺(tái)。使用一個(gè)圖像(左邊)作為例子,最好的匹配顯示在瀏覽器。最后,相關(guān)反饋模式起始于一個(gè)隨機(jī)的圖像的子集,基于用戶的輸入(指定每幅圖像是好的、壞的或者兩者都不是)系統(tǒng)來(lái)理解哪幅圖像是目標(biāo)圖像。在一個(gè)典型的使用相關(guān)反饋模式的交互中,用戶最初會(huì)在瀏覽器部分看見(jiàn)一個(gè)圖像的子集(如圖8)。圖4 MUSE:用戶界面根據(jù)每幅圖像與目標(biāo)圖像(例如:加拿大國(guó)旗)的相似與相異程度,在點(diǎn)擊GO按鈕之前,用戶可以不選或者選擇多個(gè)當(dāng)前顯示的圖像標(biāo)上“好”(good)或者“壞”(bad)標(biāo)記。與每幅圖像
46、相對(duì)應(yīng)的選擇按鈕會(huì)相應(yīng)的變?yōu)榫G色(該圖被認(rèn)為是好的例子)或者紅色(該圖被認(rèn)為是壞的例子)。在系統(tǒng)使用中,用戶所要做的也僅僅是選擇圖像和點(diǎn)擊GO按鈕這兩件事。一旦檢測(cè)到用戶已經(jīng)點(diǎn)擊了GO按鈕,系統(tǒng)首先檢驗(yàn)是否有圖像被選中。如果有如象被選中,系統(tǒng)重新計(jì)算每幅圖像就是目標(biāo)圖像的概率,并顯示一個(gè)新的更接近與目標(biāo)圖像的圖像子集(如圖9)。如果用戶開始并沒(méi)有選擇任何的圖像,系統(tǒng)會(huì)顯示四張新的隨機(jī)選擇的圖像。經(jīng)過(guò)一系列的重復(fù)操作,系統(tǒng)最終會(huì)得到目標(biāo)圖像(在本例中只需要進(jìn)行一次重復(fù)工作)。圖5 MUSE:自由瀏覽模式圖6 MUSE:隨機(jī)瀏覽模式圖7 MUSE:實(shí)例查詢模式圖8 MUSE:相關(guān)反饋模式:初始屏幕
47、圖9 MUSE:相關(guān)反饋模式:最優(yōu)結(jié)果BEHIND THE SCENES目前的MUSE原型僅僅支持基于顏色特征的檢索,將來(lái)MUSE的最終版預(yù)期將支持顏色相關(guān)特征組、紋理相關(guān)特征組和形狀相關(guān)特征組的檢索。顏色信息使用顏色相關(guān)曲線圖(color correlograms)進(jìn)行抽取,兩幅圖像的顏色相關(guān)曲線圖之間的比較使用L1距離度量方法。作為結(jié)果的特征向量使用PAM算法的一種變形組織成為組(clusters)。MUSE使用的是基于圖像相似性的信息檢索的一種概率模型。在這種模型下,給每幅圖像賦一個(gè)概率值,即這幅圖像是目標(biāo)圖像的概率。在用戶每次根據(jù)圖像間相似度選擇標(biāo)注圖像后系統(tǒng)重新計(jì)算這些概率值。在每次
48、迭代的最后,數(shù)據(jù)庫(kù)中的每幅圖像的概率值都被校正過(guò),系統(tǒng)將根據(jù)這些概率值顯示那些最佳的圖像。MUSE支持兩種方式的學(xué)習(xí)。在會(huì)話(session)中修改圖像概率的過(guò)程從本質(zhì)上來(lái)講是一種學(xué)習(xí)理解用戶參數(shù)選擇以及相應(yīng)回答的方法。這種學(xué)習(xí)我們叫它“會(huì)話內(nèi)學(xué)習(xí)”(intra-session learning)。MUSE系統(tǒng)已經(jīng)擴(kuò)展到支持“會(huì)話內(nèi)學(xué)習(xí)”方法,也就是,使用對(duì)在某次會(huì)話過(guò)程中的用戶交互進(jìn)行學(xué)習(xí)所得到的信息,來(lái)提高系統(tǒng)在以后的會(huì)話中遇到類似情況時(shí)的性能。允許用戶保存恢復(fù)profiles就是完成這個(gè)目標(biāo)的一種方法。每次用戶登錄系統(tǒng)時(shí),用戶可以選擇檢索已經(jīng)存在的登錄profiles,或者建立一個(gè)新的p
49、rofile,或者也可以忽略所有的profiles。Profiles的例子可以是多樣的,如:“賽車愛(ài)好者”,“莎朗斯通的影迷”或者“世界上的旗幟”。通過(guò)存儲(chǔ)profiles用戶可以花費(fèi)最小的額外代價(jià)間接地向系統(tǒng)提供語(yǔ)義層次的信息,即在每次的會(huì)話中保存或者恢復(fù)一次profile。MUSE使用貝葉斯網(wǎng)絡(luò)模型來(lái)估計(jì)assess用戶的要求和基于用戶與系統(tǒng)的交互的profiles??赡艿膽?yīng)用在本系統(tǒng)中所提出的絕大多數(shù)思想都能夠滿足任意其它的視覺(jué)信息檢索系統(tǒng)的需要。在MUSE系統(tǒng)開發(fā)過(guò)程中,系統(tǒng)使用了通用的圖像文件和專門的圖象庫(kù)進(jìn)行測(cè)試。由于掃描儀和數(shù)碼相機(jī)的普及以及相應(yīng)價(jià)格的降低,家庭照片也越來(lái)越多的以
50、數(shù)字格式進(jìn)行存儲(chǔ),為了能夠使得家庭用戶能夠簡(jiǎn)單、智能化的管理這些照片并對(duì)這些照片進(jìn)行編目,家庭照片管理可以成為本項(xiàng)目結(jié)果的一個(gè)具體應(yīng)用,在這方面潛在著一個(gè)很大的市場(chǎng)。Such a system would help minimizing the well-known phenomenon of pictures that are never retrieved, organized, and therefore enjoyed, ending up in a shoe box, or its digital equivalent, a folder in the home PCs hard d
51、isk.如何提高系統(tǒng)處理家庭照片相關(guān)處理的能力,如人臉識(shí)別,室內(nèi)與室外的分類,等等,這可能是我們?cè)谝院蟮腗USE版本中所要考慮的研究方向。結(jié)束語(yǔ)本章中我們對(duì)基于內(nèi)容的圖像檢索系統(tǒng)進(jìn)行了回顧和評(píng)價(jià)。我們介紹了一個(gè)CBVIR系統(tǒng)的體系結(jié)構(gòu),列出了設(shè)計(jì)開發(fā)這些系統(tǒng)的open問(wèn)題。CBVIR領(lǐng)域的潛在市場(chǎng)已經(jīng)吸引了許多公司和大學(xué)的關(guān)注,也出現(xiàn)了一些商業(yè)性和研究性的系統(tǒng)原型。有興趣的讀者可以從本章中所提供的地址找到更多的信息。在本章的最后我們?cè)敿?xì)介紹了由作者開發(fā)的一個(gè)CBVIR系統(tǒng)原型。參考: 畢 業(yè) 論 文論文題目學(xué) 院專 業(yè)年 級(jí)姓 名指導(dǎo)教師職 稱(200 年 月)教務(wù)處制畢業(yè)設(shè)計(jì)說(shuō)明書與畢業(yè)論文
52、撰寫的規(guī)范化要求一篇完整的畢業(yè)設(shè)計(jì)說(shuō)明書或畢業(yè)論文有題目、摘要及關(guān)鍵詞、目錄、引言(前言)、正文、結(jié)論、謝辭、參考文獻(xiàn)、附錄等幾部分構(gòu)成。要求理工科專業(yè)不少于4000字,文科專業(yè)不少于6000字。一、畢業(yè)設(shè)計(jì)說(shuō)明書撰寫的主要內(nèi)容與基本要求一份完整的畢業(yè)設(shè)計(jì)說(shuō)明書應(yīng)包括如下主要內(nèi)容:1題目設(shè)計(jì)課題名稱,要求簡(jiǎn)潔、確切、鮮明。2中外文摘要及關(guān)鍵詞應(yīng)扼要敘述本設(shè)計(jì)的主要內(nèi)容、特點(diǎn),文字要簡(jiǎn)練。中文摘要約300字左右;外文摘要約250個(gè)實(shí)詞左右。關(guān)鍵詞35個(gè)。3目錄主要內(nèi)容的目錄。4前言應(yīng)說(shuō)明本設(shè)計(jì)的目的、意義、范圍及應(yīng)達(dá)到的技術(shù)要求;簡(jiǎn)述本課題在國(guó)內(nèi)(外)的發(fā)展概況及存在的問(wèn)題;本設(shè)計(jì)的指導(dǎo)思想;闡
53、述本設(shè)計(jì)應(yīng)解決的主要問(wèn)題。 5正文(1)設(shè)計(jì)方案論證:應(yīng)說(shuō)明設(shè)計(jì)原理并進(jìn)行方案選擇。應(yīng)說(shuō)明為什么要選擇這個(gè)方案(包括各種方案的分析、比較);還應(yīng)闡述所采用方案的特點(diǎn)(如采用了何種新技術(shù)、新措施、提高了什么性能等)。(2)設(shè)計(jì)及計(jì)算部分:這是設(shè)計(jì)說(shuō)明書的重要組成部分,應(yīng)詳細(xì)寫明設(shè)計(jì)結(jié)果及計(jì)算結(jié)果。(3)樣機(jī)或試件的各種實(shí)驗(yàn)及測(cè)試情況:包括實(shí)驗(yàn)方法、線路及數(shù)據(jù)處理等。(4)方案的校驗(yàn):說(shuō)明所設(shè)計(jì)的系統(tǒng)是否滿足各項(xiàng)性能指標(biāo)的要求,能否達(dá)到預(yù)期效果。校驗(yàn)的方法可以是理論分析(即反推算),包括系統(tǒng)分析;也可以是實(shí)驗(yàn)測(cè)試及計(jì)算機(jī)的上機(jī)運(yùn)算等。6結(jié)論概括說(shuō)明本設(shè)計(jì)的情況和價(jià)值 ,分析其優(yōu)點(diǎn)、特色,有何創(chuàng)新,
54、性能達(dá)到何水平,并指出其中存在的問(wèn)題和今后的改進(jìn)方向。7謝辭簡(jiǎn)述自己通過(guò)本設(shè)計(jì)的體會(huì),并對(duì)指導(dǎo)老師和協(xié)助完成設(shè)計(jì)的有關(guān)人員表示謝意。8參考文獻(xiàn)應(yīng)列出主要參考文獻(xiàn)。9附錄將各種篇幅較大的圖紙、數(shù)據(jù)表格、計(jì)算機(jī)程序等作為附錄附于說(shuō)明書之后。二、畢業(yè)論文撰寫的主要內(nèi)容與基本要求1題目題目應(yīng)該簡(jiǎn)短、明確,要有概括性,讓人看后能大致了解文章的確切內(nèi)容、專業(yè)的特點(diǎn)和學(xué)科的范疇。題目的字?jǐn)?shù)要適當(dāng),一般不宜超過(guò)20字。字體為2中外文摘要及關(guān)鍵詞摘要也稱內(nèi)容提要,應(yīng)當(dāng)以濃縮的形式概括研究課題的主要內(nèi)容、方法和觀點(diǎn),以及取得的主要成果和結(jié)論,應(yīng)反映整個(gè)論文的精華。中文摘要約300字左右為宜,同時(shí)要求寫出250個(gè)實(shí)
55、詞左右的外文摘要。關(guān)鍵詞3-5個(gè)。摘要應(yīng)寫得扼要、準(zhǔn)確,一般在畢業(yè)論文全文完成后再寫摘要。在寫作中要注意以下幾點(diǎn):(1)用精練、概括的語(yǔ)言表達(dá),每項(xiàng)內(nèi)容均不宜展開論證。(2)要客觀陳述,不宜加主觀評(píng)價(jià)。(3)成果和結(jié)論性意見(jiàn)是摘要的重點(diǎn)內(nèi)容,在文字上用量較多,以加深讀者的印象。(4)要獨(dú)立成文,選詞用語(yǔ)要避免與全文尤其是前言和結(jié)論雷同。(5)既要寫得簡(jiǎn)短扼要,又要行文活潑,在詞語(yǔ)潤(rùn)色、表達(dá)方法和章法結(jié)構(gòu)上要盡可能寫得有文采,以喚起讀者對(duì)全文的閱讀的興趣。3目錄(必要時(shí))論文編寫完成后,為了醒目和便于讀者閱讀,可為論文編寫一個(gè)目錄。目錄可分章節(jié),每一章節(jié)之后應(yīng)編寫頁(yè)碼。4前言前言是全篇論文的開場(chǎng)白,它包括:(1)選題的緣由。(2)對(duì)本課題已有研究情況的評(píng)述。(3)說(shuō)明所要解決的問(wèn)題和采用的手段、方法。(4)概括成果及意義。作為摘要和前言,雖然所定的內(nèi)容大體相同,但仍有很大的區(qū)別。區(qū)別主要在于:摘要一般要寫得高度概括、簡(jiǎn)略,前言則可以稍微具體些;摘要的某些內(nèi)容,如結(jié)論意見(jiàn),可以作為籠統(tǒng)的表達(dá),而前言中所有的內(nèi)容則必須明確表達(dá);摘要不寫選題的緣由,前言則明確反映;在文字量上前言一般多于摘要。5正文正文是作者對(duì)自己研究工作的詳細(xì)表述。它占全文的較多篇幅。主要內(nèi)容包括研究工作的基本前提、假設(shè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 業(yè)務(wù)合作框架協(xié)議書
- 樓上住房滲水協(xié)議書
- 試驗(yàn)檢測(cè)分包協(xié)議書
- 委托拖車協(xié)議書樣本
- 重慶珠寶回購(gòu)協(xié)議書
- 商戶進(jìn)場(chǎng)物業(yè)協(xié)議書
- 買房賠償協(xié)議書范本
- 酒店聘請(qǐng)經(jīng)理協(xié)議書
- 離婚調(diào)解協(xié)議書離婚
- 駐廠工人安全協(xié)議書
- 2025年浙江安防職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)必考題
- 奔馳事故留修專員年終總結(jié)
- 2025電工(高級(jí)技師)技能鑒定精練考試指導(dǎo)題庫(kù)及答案(濃縮500題)
- 患者隱私保護(hù)培訓(xùn)課件
- 《校園安全教育(第二版)》 課件全套 項(xiàng)目1-8 走進(jìn)安全教育 -確保實(shí)習(xí)安全
- 2025年人民法院信息技術(shù)服務(wù)中心招聘應(yīng)屆高校畢業(yè)生高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- GB/T 45159.2-2024機(jī)械振動(dòng)與沖擊黏彈性材料動(dòng)態(tài)力學(xué)性能的表征第2部分:共振法
- 2025年全球及中國(guó)財(cái)務(wù)報(bào)表審計(jì)服務(wù)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年浙江金華市軌道交通集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 2023年高考化學(xué)試卷(河北)(解析卷)
- 電力平安工作規(guī)程
評(píng)論
0/150
提交評(píng)論