版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、畢業(yè)論文圖像檢索技術研究在網(wǎng)絡和多媒體技術越來越發(fā)達的今天,信息檢索技術成了現(xiàn)在計算機領域的重要 內容,而圖像檢索技術正是這其屮的重耍內容z-o網(wǎng)絡資源的極大豐富以及圖像檢索 技術不斷發(fā)展成熟,使得圖像檢索技術的應用領域不斷擴人,這為圖像檢索技術的繼續(xù) 研究提供條件。以此同時,隨著網(wǎng)絡傳送速度與計算機信息處理速度的提高,網(wǎng)頁中對多媒體信息 的使用變得十分普及,特別是圖像信息,己經(jīng)成為表示網(wǎng)頁內容不可缺少的組成部分。 在實現(xiàn)對網(wǎng)頁屮文本信息提取的同時,如何再為用戶抽取所需的圖片資料,是信息檢索 中一個垂要的方面。于是各種基于web的圖像檢索系統(tǒng)應運而生。它們采用不同的工作 方式,極大地方便了用戶
2、對網(wǎng)上圖像進行檢索。木文首先介紹各種圖像檢索技術的工作原理、研究現(xiàn)狀、相關圖像檢索引擎與發(fā)展 趨勢;然后,對兒種比較熱門的圖像檢索算法進行研究和對比。關鍵字:圖像檢索檢索引擎文本處理 信息檢索 相似度 相關反饋目 錄1前言11.1課題來源112現(xiàn)有的圖像檢索技術21.2.1檢索引擎的工作原理21.2.2圖像檢索引擎的檢索途徑31.2.3對幾個基木引擎的分析41.2.4檢索引擎的基本要點51.3圖像檢索的發(fā)展方向62基于顏色的圖像檢索72.1顏色特征提取72.2相似度計算92.3實驗結果93基于紋理的圖像檢索93.1紋理特征提取93.2相似度計算103.3實驗結果104綜合顏色和紋理特征的圖像檢
3、索104.1綜合特征檢索的思想104.2和關反饋114.3實驗結果及結論115基t web的圖像檢索125.1文本與圖像之間的關系125.1.1表示圖像內容的文木標記125.1.2文本的權值比較135.2圖像信息檢索135.2.1檢索模型與相似度135.2.2分詞技術和匹配方法155.3檢索反饋175.4實驗結果186總結18參考文獻19abstract20致 謝錯誤!未定義書簽。仲愷農業(yè)工程學院畢業(yè)論文(設計)成績評定表錯誤!未定義書簽。1前言1.1課題來源據(jù)統(tǒng)計,人類接受的外部信息,70%以上來自視覺,圖像作為一種內容豐富,表現(xiàn) 直觀的多媒體信息被大量廣泛地使用,如何有效管理、檢索圖像信息
4、成為迫切需耍解決 的問題。傳統(tǒng)的基于文本的檢索無法滿足海量環(huán)境下多媒體信息庫的檢索要求。為了克 服基于文本方法的局限性,出現(xiàn)了基于內容的圖像檢索。隨著多媒體技術及internet網(wǎng)絡的迅速發(fā)展,圖像來源不斷擴大,大容屋高速存儲 系統(tǒng)為圖像的海量存儲提供了基本保障,各行各業(yè)對圖像的使用越來越多,圖像信息資 源的管理和檢索也就顯得越來越重要。但由于internet本身結構上、管理上的問題,想 要在internet準確、快速、全面地找到自己所想要的圖像,卻變成了件非常不容易的事。由于internet現(xiàn)有的問題:內容沒有結構;網(wǎng)上信息量龐大月.還在不斷的增加。因 此,網(wǎng)絡產生了檢索引擎。雖然這些給網(wǎng)絡
5、用戶提供了不少的幫助,但由于偏離準確、 快速、全面地檢索口己所要的圖像還相當遙遠,所以對圖像檢索還要作很大的研究。根據(jù)國內外現(xiàn)有的檢索引擎和國際上的有關研究小組的種種資料表明,現(xiàn)有的網(wǎng)絡 資源和檢索引擎有如下特點:(1) 索引的數(shù)據(jù)種類豐富,如文字、圖像、聲音等多媒體。數(shù)據(jù)的存取協(xié)議也是多種 多樣的,如 http、ftp、news、gopher 等;(2) 索引數(shù)據(jù)量大,以致不可能有某個數(shù)據(jù)庫能包括整個internet的索引,目前最 大的檢索引擎,其屮的索引也只不過覆蓋了 internet的一小部分;(3) 資源消耗太大,系統(tǒng)需要將html文件傳送至本地然后分析,大量占用昂貴的網(wǎng) 絡帶寬和cp
6、u資源,增加被檢索結點的負擔。另外由于現(xiàn)有的檢索引擎一般是集中式的, 所以檢索引擎服務器本身的硬件配置也極高,才能處理龐人的數(shù)據(jù)量和及時地響應用戶 的查詢請求;(4) 不能有效解決索引失效問題,很多時候,檢索引擎會返回無效的查詢結果;(5) 各檢索丁具各行其事,不能相互協(xié)作,在一定意義上講是一種資源的浪費。二十一世紀是一個多元化的信息社會,對圖像的需求將是前所未有的巨人的,圖像 數(shù)據(jù)庫也將得到長足的發(fā)展。因此,圖像檢索系統(tǒng)具有廣闊的應用前景。1.2現(xiàn)有的圖像檢索技術近年來隨著用戶對網(wǎng)上圖像檢索要求的不斷增長,各種圖像檢索引擎應運而生,它 們各自以不同的工作方式為用戶提供各種檢索途徑,使網(wǎng)上圖像
7、信息的檢索變得非常簡 單,盡管還不很完善,卻已經(jīng)可以滿足用戶的大多數(shù)要求。1.2.1檢索引擎的工作原理最基本的檢索引擎的結構,是由spider不停地從web網(wǎng)上收集數(shù)據(jù),存放在檢索引 擎的數(shù)據(jù)庫中。用戶通過檢索引擎服務器上的web接口,提出檢索請求,web server通 過cgi或其它技術訪問數(shù)據(jù)庫,并將用戶的檢索請求轉換成相應的數(shù)據(jù)存取語句,送給 數(shù)據(jù)庫引擎處理,并把查詢結果通過網(wǎng)頁顯示給用戶。網(wǎng)絡檢索的基本原理是通過網(wǎng)絡機器人定期在web網(wǎng)頁上爬行,然后發(fā)現(xiàn)新的網(wǎng)頁, 把它們取回來放到本地的數(shù)據(jù)庫屮,用戶的查詢請求可以通過查詢木地的數(shù)據(jù)庫來得到。一般來說網(wǎng)絡信息檢索的實現(xiàn)機制一般有兩種:
8、一是通過手工方式對網(wǎng)頁進行索引, 它的缺點是web的覆蓋率比較低,同時不能保證最新的信息。查詢匹配是通過用戶寫入 的關鍵字和網(wǎng)頁的描述和標題來進行匹配,而不是通過全文的匹配進行的;二是對網(wǎng)頁 進行自動的索引,這種能實現(xiàn)口動的文檔分類,實際上采用了信息提取的技術。但是在 分類準確性上可能不如手工分類。在現(xiàn)在所有運行的檢索工具來說,一般都有一個robot定期的訪問一些站點,來檢 查這些站點的變化,同時查找新的站點。一般站點有一個robot.txt文件用來說明服務器 不希望robot訪問的區(qū)域,robot都必須遵守這個規(guī)定。如果是自動索引的話,robot 在得到頁面以后,需要對該頁面根據(jù)其內容進行索
9、引,根據(jù)它的關鍵字的情況把它歸到 某一類屮。頁面的信息是通過元數(shù)據(jù)的形式保存的,典型的元數(shù)據(jù)包括標題、ip地址、 一個該頁面的簡要的介紹,關鍵字或者是索引短語、文件的大小和最后的更新的日期。 盡管元數(shù)據(jù)有一定的標準,但是很多站點都采用口己的模板。文檔提取機制和索引策略 對web檢索引擎的有效性有很大的關系。高級的檢索選項一般包括:布爾方法或者是短 語匹配和自然語言處理。一個杳詢所產生的結果按照提取機制被分成不同的等級提交給 用戶。最相關的放在最前面。每一個提取出來的文檔的元數(shù)據(jù)被顯示給用戶。同時包括 該文檔所在的url地址。另外有一些關于某一個主題的專門的引擎,它們只對某一個主題的內容進行檢索
10、和 處理,這樣信息的取全率和精度相對就比較高。冃前,圖像檢索引擎主耍通過以下兩種方法識別圖像:自動查找圖像文件。通過兩個html標簽,即imgsrc和href來檢測是否存 在可顯示的圖像文件,imgsrc表示“顯示下面的圖像文件導向的是嵌入式圖像;而 href則表示“下而是一個鏈接二導向的是被鏈接的圖像。檢索引擎通過檢查文件擴展名 來判斷其導向的是否為圖像文件,如果文件擴展名是gif或jpg,即是一個可顯示的圖像。(2) 人工干預找出圖像。進行分類,由人工對網(wǎng)上的圖像及站點進行選擇。這種方法 可以產生準確的杏詢體系,但勞動強度太大,因此要限制處理圖像的數(shù)屋。由于圖像不同于文本,需要人們按照各自
11、的理解來說明其蘊含的意義,因此圖像檢 索比文本的查詢和匹配耍困難得多。1.2.2圖像檢索引擎的檢索途徑1 關鍵詞檢索傳統(tǒng)的圖像檢索技術是基于關鍵字的精確匹配檢索,系統(tǒng)內的圖像用關鍵字標識, 檢索線索是與標識和一致的關鍵字,即輸入是關鍵字,輸出是圖像。它乂包括兩種途徑:基于圖像外部信息進行檢索。即根據(jù)圖像的文件名或冃錄名、路徑名、鏈路、alt 標簽以及圖像周圉的文本信息等外部信息進行檢索,這是fi前圖像檢索引擎采用最多的 方法。在找岀圖像文件后,圖像檢索引擎通過查看文件名或路徑名確定文件內容,也可 以通過杳看圖像的標題來阻配檢索詞。(2) 基于手工標注的檢索。手工對圖像的內容(如物體、背景、顏色
12、等)進行描述并 分類,將其標注為一系列關鍵字,并建立索引。檢索時,將主耍在這些描述詞屮檢索用 戶輸入的關鍵字。這種杳詢方式是比較準確的,一般可以獲得較好的查準率,但需人工 參與,勞動強度大,因而限制了可處理的圖像數(shù)量。另外,由于圖像所包含的信息量龐 大,不同用戶對于同一張圖像的看法又不盡相同,導致了對圖像的標注缺乏統(tǒng)一標準。2.圖像可視屬性的檢索而基于圖像內容的檢索主耍是由圖像分析軟件自動抽取圖像的顏色、形狀、紋理等 特征,建立特征索引庫,其輸入為用戶要查找的圖像的大致特征描述或示例,通過一定 相似性匹配規(guī)則,輸出為與之具有相近特征的圖像,按相似程度排列,供用戶選擇,從 而把在傳統(tǒng)圖像檢索技術
13、中一般用戶難以完成的圖像特征描述、提取與識別等難題,交 曲系統(tǒng)去解決。這是一種基于圖像本身特征層次的檢索,特別適用于檢索目標明確的查詢要求,但 冃前這種較成熟的檢索技術主耍應用丁圖像數(shù)據(jù)庫的檢索。在圖像檢索引擎中應用這種 檢索技術還有一定困難,但己有部分圖像檢索引擎嘗試了這種檢索方法。123對幾個基本引擎的分析(1) infoseek是一個簡單但是功能強大的索引,它的一個優(yōu)點是有一個而向主題檢索 的可擴展的分類。你可以把你的檢索短語和相似的分類目錄的主題短語相互參照,而那 些主題短語會自動加到你的查詢屮去。使你的檢索有更好的主題相關性。同時它也支持 對圖像的杏詢。它能夠漫游web,usenet
14、,usenet faqs等等。不支持布爾操作,但是可以 使用符號”+”和”。(2) altavista是一個大容量的,基f robot索引的search engineo它能幫你在www 網(wǎng)上檢索你所需要的網(wǎng)頁,新聞組,圖像,視頻音頻片段。altavista還支持多種語言和 簡單的自然語言查詢。altavista覆蓋面約為www網(wǎng)上可索引的網(wǎng)頁的30%(3) scour成立于1998年,自稱是第一個基于web的多媒體檢索引擎。雖嚴格講,它 并非是一個圖像檢索引擎,但可以將檢索限制在圖像檢索上。它的工作原理是在文件名、路徑名或alt標簽中檢索檢索詞。主耍使用關鍵詞檢索, 可以用”+ ”或”一 ”來
15、增加或排除關鍵詞,使用盡可能少的關鍵詞會更有效。在高級檢索中, 可以將檢索結果圖像限制在gif、bmp、jpeg等格式中。檢索結果顯示簡圖、圖像類型 (如gif、bmp)、圖像大小、最后被杳找的日期、檢索詞的阻配數(shù)量、標引使用的關鍵 詞、成功下載的可靠程度等,并同時給出圖像文件的url和源站點的url。主要缺陷是標引深度不足,查準率較低,但查全率較好。(4) 這是出ncrtec組織開發(fā)的一個”真正人工建立的完全的關鍵詞式索引”。 amazing picture machine后血的教師負責選擇圖像豐富的站點,然后對每幅選定的圖像內 容進行描述,給出關鍵詞。因此它的最人特點就是人工干預,關鍵詞檢
16、索是主要的檢索 手段。amazing picture machine的檢索結果將顯示一個簡短的標題、有關圖像的說明(如彩 色或黑白)、文件的大小、文件類型及彖素多少等,但不顯示簡圖。單擊該標題可得到原 圖像,但需由該url回溯才能找hl源站點。由于人工干預檢索過程,它的查準率極好,但這也限制了它的查全率。它的檢索范 圍很有限,只包括web上人工選擇的部分站點。(5) lycos對所收錄的圖像進行了詳盡的內容描述,并支持短語檢索,從而使其查準 率大大提高。它根據(jù)文件擴展名識別圖像,在描述詞、文件名、fl錄名或alt字段中查 詢檢索詞。結果顯示的信息極為豐富,包括簡圖、圖像大小、最后檢索日期、圖像
17、文件 名、圖像內容描述詞、圖像所在頁面等。點擊簡圖將得到原圖及更多的信息,如著作權 人和更多的相關圖像。比較而言它的檢索效果很好,速度也很快。1.2.4檢索引擎的基本要點(1) 索引文檔的容量:現(xiàn)在最大的檢索引擎可能包含了超過100,000,000個鏈接,但這 也只是整個web網(wǎng)上的一小部分。因為收集資料的robot,只能從“已知”的鏈接開始 收集網(wǎng)頁資料,而只有一小部分web網(wǎng)頁和這些“己知”的網(wǎng)頁有連接;現(xiàn)在還沒有一 個檢索引擎能夠隨網(wǎng)頁內容的更新比較及時地更新索引;(2) 覆蓋面:地理覆蓋面和主題覆蓋面;(3) 索引更新頻率:不同的檢索引擎,索引更新頻率相差很大,有的是幾周,有的是 一年
18、。索引更新頻率有兩種定義,一種比較少用的定義是新的網(wǎng)頁能被收錄進索引數(shù)據(jù) 庫中,另一種是同一頁多少時間才被檢查一次,有必要時更新索引。有的檢索引擎會對 經(jīng)常更新的網(wǎng)頁和多人訪問的網(wǎng)頁進行更頻繁的重建索引工作;(4) 采集過程:采集過程有寬度優(yōu)先、深度優(yōu)先兩種算法;一般認為寬度優(yōu)先對擴大 內容的覆蓋面有利,深度優(yōu)先算法有助于提供更多的細節(jié)資料;(5) 索引算法:有的檢索引擎只處理元標記和一小部分文檔內容,而有一些檢索引擎 則是對全文進行索引;(6) 結果顯示:有的檢索引擎只顯示網(wǎng)頁的標題,有些則有更詳細的一些信息,比如 網(wǎng)頁的內容,更新日期等;(7) 查詢算法:一個優(yōu)秀的查詢算法是很重要的,最基
19、本的布爾查詢,短語查詢,有 的檢索引擎還提供指定屬性的杳詢,比如可以指定對網(wǎng)頁的作者、主題進行杳詢。另外 有的檢索引擎還采用了相關度反饋、概念查詢等算法;(8) 用戶界面:很多檢索引擎都提供了簡單查詢和高級查詢兩個界面。并但提供了必 要的幫助和范例。1.3圖像檢索的發(fā)展方向圖像檢索技術給用戶提供了一個在互聯(lián)網(wǎng)上檢索感興趣圖像資源的有效手段,基于 文木和基于內容是圖像檢索發(fā)展的兩個分支,不過從忖前圖像檢索研究的趨勢而言,尤 其結合網(wǎng)絡環(huán)境下圖像的特征一一嵌入在具有文本內容的web文檔中,出現(xiàn)了三個不同 的研究著眼點。(1) 基于文本的檢索研究立足于文本,對圖像進行檢索。試圖將傳統(tǒng)的文本檢索技術移
20、植于對多媒體信息的 檢索上,因為基于文木的檢索技術發(fā)展已經(jīng)成熟。如page-rank方法、概率方法、位置 方法、摘要方法、分類或聚類方法、詞性標注法等,不僅技術發(fā)展較為成熟,同時分析 和實現(xiàn)的難度略小。但是因為受控詞匯木身的局限,易歧義,更新慢,所以不太容易應 對網(wǎng)絡上新月異的各類圖像。(2) 基于內容的檢索研究立足于圖像內容,對圖像進行分析和檢索。相比而言,盡管圖像檢索已經(jīng)出現(xiàn)了諸 如直方圖、顏色矩、顏色集等多種表征圖像特征的方法,但是要突破對低層次特征的分 析,實現(xiàn)更高語義上的檢索,實現(xiàn)難度大,進展慢。不過,基于內容的圖像檢索建立在 多媒體信息的內容語義上,能夠更為客觀地反映媒體本質的特征
21、。(3) 基于文本內容結合的檢索研究結合文木和內容,二者雖側重不同但卻互相補充。如果能將二者結合起來取長補短, 則網(wǎng)絡的圖像檢索技術必有新的進展。已有的圖像檢索引擎在信息的自動加工和標引方 面都有待提高,需要開發(fā)出計算機口動識別和標引圖像的算法和技術,以完善現(xiàn)有的檢 索功能,并與已有的成熟的圖像庫檢索技術相結合,這是今后應該研究的一個課題。而 且,圖像庫檢索技術也應面向網(wǎng)絡,利用網(wǎng)絡技術進行改造,提供新的www訪問界面 代替原來的應用系統(tǒng)界面。同時將巨大的圖像庫資源利用網(wǎng)絡實現(xiàn)共享。(4) 對基于內容編碼技術的研究可以說,三個方向都是相互影響和促進的,任何一個方向的進展都會促進圖像檢索 技術向
22、前更進一步。目前,國際上還沒有通用的基于內容的編碼標準。20世紀90年代初,國際上就開 始了對基于內容的圖像信息檢索方面的研究。從基本的顏色檢索,到綜合利用多種圖像 特征進行檢索,大量原型系統(tǒng)已經(jīng)推出,其中,部分已投入到實際應用中以檢驗其有效 性。同時,mpeg7標準作為基于內容的多媒體編碼標準也正在制定當中,即將成為國 際標準中的一員。因此,應盡快對mpeg-7標準進行研究,分析具編碼的實質,在此基 礎上進一步研究基于內容檢索的系統(tǒng),使我國基于內容的圖像檢索盡快走向實際應用階 段。(5) 對用戶查詢接口的研究這涉及到用戶對圖像內容的感知表達、交互方式的設計、用戶如何形成并提交查詢 等方面?,F(xiàn)
23、代多媒體信息系統(tǒng)的一個重要特征就是信息獲取過程的可交互性,人在系統(tǒng) 中是主動的。除了提供示例和描繪杏詢基木接口之外,用戶的查詢接口應提供豐富的交 互能力,使用戶在主動的交互過程屮表達對圖像語義的感知,調整查詢參數(shù)及其組合, 最終獲得滿意的查詢結果。用戶的查詢接口應該是直觀易用的,底層的特征選擇對用戶 是透明的。這里涉及到如何把用戶的查詢表達轉換為可以執(zhí)行檢索的特征矢量,如何從 交互過程屮獲取用戶的內容感知,以便選擇合適的檢索特征等問題。個優(yōu)秀的檢索引擎必須處理以下幾個問題:(1) 網(wǎng)頁的分類(2) 自然語言的處理(3) 檢索策略的調度和協(xié)作(4) 血向特定用戶的檢索。因此,現(xiàn)在有很多的網(wǎng)絡檢索
24、工具,也就是說檢索引擎采用了智能的檢索手段來增 強它的檢索能力,而圖片檢索正是其中的一人塊內容。隨著網(wǎng)上多媒體的廣泛應用,對圖像的檢索需求將會越來越迫切。未來的圖像檢索技術 將是網(wǎng)絡技術和基于內容的圖像庫檢索技術的結合。隨著多媒體信息處理技術的口益發(fā) 展和深化,圖像信息的加工、處理和檢索標準的出臺,網(wǎng)上的圖像檢索技術將會fi趨完 善,而圖像檢索引擎也將成為internet ±的新寵。2基于顏色的圖像檢索2.1顏色特征提取顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對應的景物的表而性質。一般 顏色特征是基于像素點的特征,此時所有丿曲丁圖像或圖像區(qū)域的像素都有各自的貢獻。 由于顏色對圖
25、像或圖像區(qū)域的方向、大小等變化不敏感,所以顏色特征不能很好地捕捉 圖像屮對象的局部特征。另外,僅使用顏色特征查詢時,如果數(shù)據(jù)庫很大,常會將許多不 需要的圖像也檢索出來。顏色特征是在圖像檢索屮應用最為廣泛的視覺特征,主要原因 在于顏色往往和圖像中所包含的物體或場景十分相關。此外,與其它的視覺特征相比, 顏色特征對圖像木身的尺寸、方向、視角的依賴性較小,從而具有較高的穩(wěn)定性。為了 正確地使用顏色,需要建立顏色模型。顏色特征是圖像最直觀而明顯的特征,一般采用直方圖來描述。顏色直方圖是表示 圖像中顏色分布的一種方法,它的橫軸表示顏色等級,縱軸表示在某一個顏色等級上具 有該顏色的像素在整幅圖像中所占的比
26、例,直方圖顏色空間中的每一個刻度表示了顏色 空間中的一種顏色。采用直方圖計算圖像間的相似性比較簡單,但它不能反映圖像中對 象的宇間特征。在顏色布局描述符屮,對分割好的8x8的圖像取每一塊圖像的顏色平均 值,形成一個顏色平均值矩陣,然后對其用二維離散余弦進行變換,取低頻分量作為顏 色特征??紤]到本文所選的測試圖片都是bmp圖片,以及減少計算量,提高檢索速度的 因素,木文的顏色布局描述符的提取方法如下:(1) 將整幅圖像分成4x4塊,計算每一塊中所有象素rgb三個顏色通道的顏色平均 值,并以此作為該塊的代表顏色(主顏色)。(2) 將各塊的顏色平均值進行離散余弦變換(dct),得到dct系數(shù)矩陣。d
27、ct是一種 分離的變換,是國際靜止圖像壓縮標準jpeg的基礎。由于大多數(shù)圖像的高頻分量較小, 相應于圖像高頻分量的系數(shù)經(jīng)常為零,加上人眼對高頻成分的失真不太敏感,所以可用 更粗的量化。因此,在一般檢索中可以利用部分dct系數(shù)作為特征向量。(3) 對dct系數(shù)矩陣進行z字形掃描和量化,得到dct系數(shù)。對于r、g、b三個通道,分別從dct系數(shù)中取出4個低頻分量,形成12個參數(shù), 共同構成該圖像的顏色特征向量。圖1顏色特征提取流程圖2.2相似度計算國際標準mpeg-7中建議的顏色布局描述符在匹配時使用歐式距離公式,因此在本算 法中皿配時也使用歐式距離公式,即為:e(q,巧=q工wr(rjq-rj2
28、十wg(giq-gid)2 +bj2其中,各個分量的w為權重,gi, bi分別為各個分量的第i (i=0, 1, 2, 3)個dct 系數(shù)。2.3實驗結果本文實驗的圖庫是從標準測試圖像庫corel圖像庫中選取的,包括由海灘、恐龍、大象、馬、花等組成的120副圖片,得到利用顏色特征檢索圖片的查準率和查全率3基于紋理的圖像檢索3.1紋理特征提取圖像可以看成是不同紋理區(qū)域的紐合,紋理通常定義為圖像的某種局部性質,或是對 局部區(qū)域屮像素z間關系的一種度量。紋理特征可用來對圖像屮的空間信息進行一定程 度的定量描述。在國際標準mpeg-7中建議了一種紋理特征描述符一一邊緣直方圖。邊緣 直方圖是基于圖像邊緣
29、的統(tǒng)計特征,能較好地反映口標的邊緣和紋理特征,而r運算速 度較高。因此在木文中選取邊緣直方圖來提取圖像的紋理特征。下面介紹提取的具體步 驟:(1) 將bmp圖像轉換成灰度圖。每個彖素的灰度值可以根據(jù)rgb顏色分量按下列公式 計算得到:gray(i,j)=o.ll*r(i,j)+o.59*g(i,j)+o.3*b(i,j)。(2) 將整幅圖像分成4x4塊。(3) 分別對16塊1/16子圖像進行sobel邊緣算子運算,得到邊緣圖像。(4) 統(tǒng)計子圖像中的邊緣直方圖,該直方圖包括4個直方條。(橫軸為0, 1, 2, 3 四個邊緣方向,縱軸為該方向上的彖素數(shù)占子圖像總的彖素數(shù)的比率)(5) 將16個子
30、圖像的直方條綜合起來,得到包括64個直方條的整幅圖像的邊緣直方圖。卜面介紹用sobcl算子提取圖像邊緣的具體算法:首先介紹一下sobel算法中用到的4個核模板:(1) 將圖像中的象素點的灰度值分別與以上四個方向的核模板和乘。(2) 比較四個乘積數(shù)值,取最大的那個數(shù)值,作為該象素點的新的灰度值。(3) 取適當?shù)拈撝祎,若新的灰度值2t,則認為該彖素點為邊緣點。 通過以上算法提取出圖像的邊緣。3.2相似度計算仍然采用歐式距離公式作為相似度的計算公式,如下:j63工(q-df匸0其中;qi,a為圖像q, d在邊緣直方圖中對應的第i個直方條的值。3.3實驗結果實驗平臺如2. 3所述,得出結果如下表。4
31、綜合顏色和紋理特征的圖像檢索4.1綜合特征檢索的思想對于以上三幅圖像,假設它們是原圖像的1/4圖像(其余3/4圖像與此1/4圖像相 同),如果按照本文中的利用顏色特征進行檢索,那么將得出完全相似的結論,但是實 際上這三幅圖像給人的感覺是完全不同的。因此說單一的依靠提取一種特征來進行檢索, 得出的結果往往是不盡如人意的。在本文屮,利用顏色布局描述 符結合了顏色特征和空 間關系的特點;利用邊緣直方圖作為紋理特征彌補了顏色特征缺乏空間分布信息的不足, 考慮到圖像屮的邊緣多對應口標的邊界或輪廓,邊緣 直方圖描述符在一定程度上還反映 了圖像中目標的形狀信息。因此這兩種特征描述符達到了不同特征的優(yōu)勢互補的
32、效果,而且,這兩種特征在提 取的過程屮都歸一化到了 0, 1區(qū)間,可以綜合在一起進行圖像檢索。設顏色特征的權 重為wc,紋理特征權重為wt,并且wc+wt二1,則綜合特征的相似度計算公式為:dis(q.d) =d) + wc£(g,d)4.2相關反饋由于顏色特征的權重wc和紋理特征權重wt在提取的過程中都歸一化到了 0,1區(qū)間, 而在這個區(qū)間不同的權克的選擇所得出的效杲肯眾是有差異的。為了能在實驗中得到最 佳的實驗結果,就需要對權重的值進行多次的選擇。在確定wc和wi兩個權重的取值時,將wc在20%和80%之間取值,每5%取一次值, 并計算出每次取值的圖像檢索的查全率。同時相應改變w
33、t的取值,進而得到最佳的反饋 值。4.3實驗結果及結論通過上述的反饋實驗,得出關系圖如下:圖6權重取值反饋關系曲圖6可見當wc=0. 6左右時,圖像的檢索查全率最高,于是選取wc二0.6, wt二0.4來 分別進行顏色和紋理的單一特征分別檢索以及顏色和紋理特征相結合的圖像檢索。同樣利用上述的平臺,得出綜合利用顏色和紋理的檢索方法的查準率和查全率,并 以z和單獨利用顏色或紋理的檢索方法進行比對。從表中的數(shù)據(jù)可以看出,利用綜合特征進行圖像檢索得到的查準率和查全率都要高 于使用任何一種單一方法進行圖像檢索得到的查準率和查全率。通過以上的實驗結果數(shù) 據(jù)可以看出:本文屮綜合利用顏色和紋理特征進行圖像檢索
34、的效果比使用單一特征進行 檢索的效果更好,更符合人的視覺要求。因此,本文提出的綜合顏色和紋理特征進行圖 像檢索的方法是有效的,有意義的方法。5基于web的圖像檢索5.1文本與圖像之間的關系在文本檢索中,檢索引擎主要考慮web頁中相關文字信息以及它的語義,這些文本 信息反映出網(wǎng)頁的內容,但不完全與網(wǎng)頁屮圖片的內容一致。在html網(wǎng)頁屮,根據(jù)html 語言的格式,捕獲反映圖片信息的文字信息,分析這些文本的語義具有重要的意義。如 在html文檔中img標記以及其周圍的文字信息,與網(wǎng)頁中的插圖的內容有著密切的聯(lián) 系。5.1.1表示圖像內容的文本標記為了能識別嵌入網(wǎng)頁中圖片的內容,必須仔細檢索html文
35、檔中能反映出圖像內容的 標記與其中的文本。經(jīng)過對html網(wǎng)頁格式的分析與對大量實際網(wǎng)頁的研究,可知以下幾 個方面的標記與文本和圖像內容有著最為密切的聯(lián)系。(1) 圖像的說明,這些文木出現(xiàn)在圖像的周圍,用一句過多句話表示出圖像的內容, 當圖像被置于表格中時,同一單元或相鄰單元格內的文字也常用與表示圖像的含義。(2) 圖像的標題,通常用一個關鍵詞表示圖像信息。(3) 圖像的標簽,使用一段短語說明圖片的摘要信息,圖片無法顯示時用標簽的文木 取代圖片,顯示摘要信息。(4) 網(wǎng)頁的標題,該標題反映出網(wǎng)頁的屮心內容,作為表現(xiàn)網(wǎng)頁內容的圖片與網(wǎng)頁的 標題z間也有著一定的聯(lián)系。以上討論的是iitml中文檔和嵌
36、入網(wǎng)頁中圖像文本信息的關系,當然還存在其他的文 本與多媒體信息和圖像有關。但是作為檢索引擎要考慮的方血,既要保證抽取信息的準 確性,也要兼顧程序執(zhí)行中時間、空間的復雜度。過多地引入與圖像關系不是十分緊密 的內容作為檢索的依據(jù),會引入檢索時的躁聲干擾,降低檢索效率。5.1.2文本的權值比較以上討論了網(wǎng)頁屮對圖像信息的描述,在圖像的檢索中,首先是要建立描述圖片內 容特征的查詢語句,然后比較、區(qū)分描述信息與查詢語句z間的異同,獲取需耍檢索的 圖像。但以上信息在對圖像描述時側重于不同角度,同時與圖像信息的聯(lián)系程度也不一 樣。圖像標題和網(wǎng)頁標題是簡單的詞條,兩者中相對來說圖像標題更接近圖像的主題內 容。
37、圖像的標簽和圖像的說明是文本信息對圖像內容的描述,后者相對來說更為詳細。 所以在比較、區(qū)分齊類文本信息以決定是否符合檢索耍求時,它們所占的權值應該是有 所不同的。根據(jù)信息的重耍程度,他們所占的權值大小按次序如下:image caption>tmage title>image alternate>page title5.2圖像信息檢索在web 'p對圖像的檢索,也就是對圖像信息的檢索,根據(jù)圖像自身所帶的信息,選 其中某一種或幾種進行檢索,進而檢索到相關的圖像,再經(jīng)過選取得到所需的圖像。而web檢索引擎采用何種檢索模型,它所提供檢索質量將直接影響到檢索的效果。 現(xiàn)在使用較
38、多的是布爾檢索模型、概率檢索模型、概率推理網(wǎng)絡模型和向量空間模型。 這里采用的是近年來使用較多且效果較好的一種信息檢索模型:向量空間模型。5.2.1檢索模型與相似度在用向量空間模型進行檢索的時候,首先把描述網(wǎng)頁中的圖片的文字信息看作是有 序的詞條序列,這樣把以上歸納的信息分別稱為:icw, ttw, taw, ptwo在應用模型時, 我首先要將這些信息向量化,把文檔映射為一個特征向量v(d)二(tl, 31(d);;tn, 3 n(d),其ti (i=l, 2, , n)為一列互不雷同的詞條項,i (d)為ti在d中的權值,一 般被定義為ti在d屮岀現(xiàn)頻率tfi(d)的函數(shù),即©s)
39、 = 0(/(d)在信息檢索中常用的詞條權值計算方法為tf-idf函數(shù)0 = /()xlog()其中n為所有文檔的數(shù)h,ni為含有詞條ti的文檔數(shù)廿。tf-idf公式有很多變種,下 面是一個常用的tf-idf公式:n /()log(+ 0.1) 。()=i “®j£(/()2><log2(儀+ 0.1)v ;=1億根據(jù)公式,文檔集屮包含某一詞條的文檔越多,說明它區(qū)分文檔類別屬性的能力越低,其權值越小;另一方而,某一文檔屮某一詞條出現(xiàn)的頻率越高,說明它區(qū)分文檔內 容屬性的能力越強,其權值越大。兩文檔z間的相似度可以用其對應的向量z間的夾角余弦來表示,即文檔di,
40、dj的 相似度可以表示為藝 ©a)s(4)sim(di,dj = cos0 慮勻=丿i nnj (工吠(/)(工吠(心)v k=lk=l進行查詢的過程中,先將查詢條件q進行向量化,主要依據(jù)布爾模型:當仃在查詢條件q中時,將對應的第i坐標置為1,否則置為0,即jl 2q也就是說當兩詞條完全相同時,這一項為1,其余情況為0??梢钥闯鑫臋n含有完全和同的詞條時,相似度=1;而其中無相同時的詞條時,相似度二0。從而文檔d與查詢q的相似度為,3)x0simg,d) =/ 'tj(乞如s)(乞弟)v z=11=1根據(jù)文檔z間的相似度,結合機器學習的一些算法如神經(jīng)網(wǎng)絡算法,k-近鄰算法和貝葉
41、斯分類算法等,可以將文檔集分類劃分為一些小的文檔子集。在查詢過程屮,可以計算出每個文檔與查詢的相似度,進而可以根據(jù)相似度的大小, 將杏詢的結果進行排序。向量空間模型可以實現(xiàn)文檔的自動分類和對查詢結果的相似度排序,能夠有效提高 檢索效率;它的缺點是相似度的計算量大,當有新文檔加入時,則必須重新計算詞的權 值。5.2.2分詞技術和匹配方法1. 常用的切詞算法如下:(1) 最大正向匹配法基木思想是:設d為詞典,max表示d中的最大詞長,sir為待切分的字串。它是每 次從str中取氏度為max的子串與d中的詞進行匹配。若成功,則該子串為詞,指針后 移max個漢字后繼續(xù)匹配,否則子串逐次減一進行匹配。(
42、2) 逆向最大匹配法它的基木原理與前面的相同,不同的是分詞的掃描方向,它是從右至左取子串進行 匹配。統(tǒng)計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大阻配 的錯誤率為1/245,它切分的準確率上比正向匹配法有很人提高。(3) 基于詞頻的統(tǒng)計方法統(tǒng)計方法一般不依賴于詞典,而是將原文中任意前后緊鄰的兩個字作為一個詞進行 岀現(xiàn)頻率的統(tǒng)計,出現(xiàn)的次數(shù)越高,成為一個詞的可能性也就越大。在頻率超過某個預 先設定得閾值時,就將其作為一個詞進行索引。這種方法能夠有效地提取出未登錄詞。2. 匹配方法:(1)詞典存儲格式:首先對存儲形式進行建模,結構是3層樹形結構,如下一層存儲所有單字。第二
43、層保存所有的雙字詞和多字詞的前兩個字(因為,也許會 出現(xiàn)abc為詞,但ab不是詞的情況),并對兩者做不同標記(t/f) o侮一個可成詞的單 字對應一系列第二層結點,用來存儲所有以該字為詞首的雙字(包括上述兩種情況)。 并且,在這里,針對每一個雙字,需要記錄以該雙字為詞首的所有詞的最大長度,實際 中,可以保存除去該雙字部分的最大長度(記為n)。笫三層存儲以某一雙字為首的所有詞。 為了減少存儲空間,只存儲除去該雙字以外的部分(如上圖所示)。每一層各結點需按 某種次序排列,可使用hash.二分查找等方法進行查詢。采用這種層次的存儲結構,可 以很快把查詢詞的工作縮小到一個很小的范圍內,有利于分詞效率的
44、提高。(2)匹配方法由于詞庫屮的最大詞長通常大于所切分出的詞長,為了提高切分的效率,不采用逐 次減一個字的方法,而是使用正向逐一增長的方法。假設對一個句子c1c2進行分詞處理,算法描述如下:1)兩個字(開始時為c1c2),在詞典中杏詢c1c2是否存在2)不存在,則c1為單字詞,一次分詞結束,返回1。3)存在,判斷c1c2是否為詞,并從詞典中獲取該詞下層節(jié)點漢字的最大長度,設 為n4)若n二0, 次分詞結束,保存結果。5)否則,i二2,轉 6)。6 ) i二i+1,若 i二n+3,轉 8);否則,轉 7)。7)再取一個字(此處為ci),判斷第三層中是否有以c3ci開始的字(不需要恰 好匹配,只耍
45、匹配開始的i個字就可以了)。8)若存在,分詞結束,返回最近一次能夠恰好匹配的c3cj(j<i),并與c1c2 組合成詞。如果是c1c2,則根據(jù)c1c2的標記判斷是雙字詞還是分為兩個單字詞。9)否則,轉6)。(3)統(tǒng)計方法運用由于詞典的不完全性,許多詞可能不會在字典中登錄,為了處理句了中的未登錄詞, 我們在原有的算法中嵌入詞頻統(tǒng)計方法,將某些出現(xiàn)頻率較高的連續(xù)字段作為一個詞切 分,我們首先對頻度設定一個閾值f。設已對c1cn進行切分,由切分算法和歧義處理算法得到c1ci為一個詞, cjcn為一個詞,ci與cj之間皆為單字詞,即c1ci和cjcn是相鄰最近的 兩個多字詞,則將ci + 1cj
46、-l作為一個多字詞進行詞頻統(tǒng)計,在對文章全部切分完畢 之后,若ci+1cjl的出現(xiàn)次數(shù)達到f時,則將其看作一個詞,否則,將其拆分為單 字詞。同時,對于相同或相近專業(yè)和領域建立起動態(tài)詞庫,將出統(tǒng)計得到的詞不斷加入詞 庫屮,可以實現(xiàn)對詞典的動態(tài)維護。以上通過將基于詞典的處理方法和基于頻率的統(tǒng)計方法結合起來匹配檢索運算,不 僅保證了切分速度快、精度高的優(yōu)點,而且能夠結合上下文,最大限度的識別人名、地 名、專業(yè)術語等未登錄詞。5.3檢索反饋由于初時的杳詢語句常常與我們所要的圖像內容不符,使得我們找不到我們想要的 東西,因此,許多系統(tǒng)都引入了相關反饋,即通過選擇一些正確/錯誤的例了作為反饋, 來逐漸提高
47、檢索的結果。借鑒文木信息檢索的方法,我們在系統(tǒng)屮也引入了相關反饋來 修改用戶提交的查詢,使得修改后的查詢逐步接近用戶真正的需求,來提高系統(tǒng)的性能。 通過相關反饋對用戶提交的查詢的修改,檢索的性能比原先有了一定的提高。不過,人 多數(shù)相關反饋并不具有記憶能力,每次反饋后的結杲只能提高本次查詢結果。因此我們 引入了語義網(wǎng)絡,把侮次反饋的結杲記錄到語義網(wǎng)絡中,使得系統(tǒng)的效杲隨著使用次數(shù) 的増加而逐步提高。本文介紹的反饋系統(tǒng),主要集中在對查詢語句(q1,w1,q2, w2,,qm, wm)中wj的 修整中,查詢語句中對初始wj的定義具有一定的偏差,反饋系統(tǒng)可以適當調整wj,使查 詢語句(q1,w1,q2
48、,w2,,qm,wm)更反映檢索的目的。當査詢到m=r+n幅圖片時,其中 r幅圖片與h標相關,門幅圖片與h標無關。反饋系統(tǒng)可根據(jù)用戶的反饋結果,重新生成 查詢語句如下:=+ -x £pfr f=n /=r+l其中矢量p是檢索結呆圖像網(wǎng)頁的矢量表示,在矢量p,屮,選擇在相似度計算中有貢 獻的分量作為反饋信息。在公式中,一般選y二1 , 0 3 (1,0( a <1 ,卩與ci值 的選取影響著反饋深度,也直接影響著檢索的精度。實踐表明,具有反饋系統(tǒng)的圖像檢 索系統(tǒng)要比無反饋的圖像檢索精度提高10%左右,而且m越小,檢索的精度越高。我們在設計檢索系統(tǒng)時,提供反饋無反饋選擇,并且在反饋
49、系統(tǒng)中提供取值的選擇。當m取值較小時,直接顯示檢索到的圖像,并供用戶選擇是否與冃標圖像的相關性。 以上都是為了改善用戶界面,便于反饋系統(tǒng)的應用。下面是測得當m二1時,檢索精度與反 饋中系數(shù)a、b之間關系的曲線,圖中可以得出a二0.1時檢索精度precision取最大值, 圖2中可以得出b在0.50.6之間時檢索精度precision取最人值。從圖1和圖2乂可以得 出,當a二0二0無反饋時檢索精度precision二48%,當q二0. 1 , 3=0.5或0. 6時檢索精度 precision =61%,引入反饋系統(tǒng)使檢索精度提高了13%。5.4實驗結果為檢驗檢索模型,下載含有圖像的4000多個
50、中文網(wǎng)頁(來口 1000多個urls),對這 些html文檔進行檢索。在查詢語句建立以后,通過詞條網(wǎng)對具有相同語義的詞條進行擴 充,構建符合查詢要求的多個iqw,然后分別計算出各自的相似度,根據(jù)相似度規(guī)定的臨 界值,得出查詢的結果。實驗表明,合理地選取相似度臨界值可以保證較高檢索精度與 檢索完全度。從圖11屮可以看出,當相似度臨界值0.6時,能保證檢索精度80%,從圖12屮看岀, 當相似度臨界值0.6時,能保證檢索完全度60%。當相似度臨界值取0.6時,本檢索模型 可以保證檢索精度80%,而檢索完全度60%。為決定icw, itw, iaw, ptw在相似度計算中的權值,測試從0.11.0的所
51、有系數(shù)。 最終得hilcw, itw, 1aw, ptw的權值分別為04、0.3、0.2、0. 1時,能比較合理地反映 出圖片與這些文本的相關性,保證檢索的準確性。6總結本文概括介紹了圖像檢索的現(xiàn)狀和發(fā)展方向,并對其中幾個算法進行了分析和比較。 在了解了檢索引擎的檢索原理公式和反饋原理之后,可以根據(jù)其理論做出相應的檢索引 擎,并能作出比較檢索效杲。但為了能更好的使用,還得去仔細更好的給文檔進行分類, 更多的對此引擎進行反饋訓練查詢等,使得web檢索引擎具有更好的智能性和個性化的特 點。在畢業(yè)論文的過程中,遇到了很多的問題。首先,圖像檢索的算法對我來說過于深 奧,為此我看了很多的關于這方面的算法
52、的研究,大概能知道具體的思路了。本人的水 平和技術都很有限,論文里可能存在著某些問題和錯誤,在這方而希望能得到老師們的 體諒,本人也將繼續(xù)努力。最后,在這個論文的編寫中,我確實學到了不少東西,在眼界和思想上都得到了一 定的擴展,尤其是關于圖像這方面,以前幾乎沒接觸過這方面的知識,現(xiàn)在也能人概知 道關于這方面的發(fā)展和相關的技術。而我在今后也將更加努力的學習,擴展自己的見識, 提高口己的能力。參考文獻1 張量,詹國華,袁貞明.基于web的圖像檢索計算機工程,2002. 5.2 朱學芳.多媒體信息處理與檢索技術m,電子工業(yè)出版社,2003: 167-173.3 陳漂,徐宏炳,王能斌.協(xié)作式web資源
53、發(fā)現(xiàn)系統(tǒng)模型,計算機學報,1998.4: 62-67.4 陽小華,周龍曝.world wide web的索引與査詢技術,計算機科學,1997: 108-112.5 吳立徳等,大規(guī)模中文文本處理,上海:復旦大學出版社,1997: 50-168.6 李唐,解讀網(wǎng)絡圖像檢索引擎,internet網(wǎng)絡,20017 陳立娜,internet 上的圖像檢索技術,http:/www. yesky. com, 2001. 58 黃博士,網(wǎng)絡環(huán)境下的圖像檢索技術,中國計算機用戶,2003.12.309 dunlop md. 1991 multimedia information retrieval, phd.
54、thesis. computing sciencedepartment, university of g1asgow, report 1991/r21.10 ellen m. voorhees and yuan-wang hou, "vector expansi on in a large collection”,firsttext retrieval conference trect, 1993.11 frisse m e, 1988. searching for information in a hypertext medical handbookcommunications o
55、f the acm, 3 17, pp. 880-886.12 r. price, t. s chua, and s-al-hawamdeh, applying relevanee feedback on a photo archivalsystem. journal of information science, 18:203-215, 199213 wniblack, rbarber, and w. equitz the qbib project:querying images by content usingcolor, texture, and shape. technical report, ibm rj 920381511, feb, 199314 shih-fu chang, william chen, and hari sundaram, semantic visual template - linking visualfetures to sernantics. teee intern conference on image processi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 塔吊租賃服務合同
- 旅游度假區(qū)玻璃幕墻施工合同
- 特色農業(yè)溫室大棚建造合同
- 游戲俱樂部彩鋼瓦工程合同
- 親子劇演員招募合同書
- 家居租賃合同:家具電器包含
- 機場綠化施工合同模板
- 正式推出二手房合同簽訂APP
- 體育館消防工程安裝合同
- 氣象觀測車租賃協(xié)議
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設計規(guī)范
- 綜合實踐活動課《早餐與健康》優(yōu)質課件
- 《中華民族共同體概論》考試復習題庫(含答案)
- 2022-2023學年武漢市江岸區(qū)七年級英語上學期期中質量檢測卷附答案
- 新能源汽車技術職業(yè)生涯人物訪談報告
- 小班綜合活動《出生的秘密》
- 習題參考答案
- 綠化養(yǎng)護報價表(共8頁)
- 結構工程工作危害分析(JHA)
- 列管式冷卻器GLC型冷卻器尺寸表
- 中考物理專題21 歐姆定律的動態(tài)電路計算(原卷版)
評論
0/150
提交評論