演示的技巧無憂畢設網(wǎng)ppt課件_第1頁
演示的技巧無憂畢設網(wǎng)ppt課件_第2頁
演示的技巧無憂畢設網(wǎng)ppt課件_第3頁
演示的技巧無憂畢設網(wǎng)ppt課件_第4頁
演示的技巧無憂畢設網(wǎng)ppt課件_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Web中圖像的檢索技術研究 本文來自無憂畢設網(wǎng)wybsw 聯(lián)系QQ: 375279829作作 者:劉曉流通者:劉曉流通指導老師:張指導老師:張 量量 2004.6.10摘 要 隨著網(wǎng)絡技術和計算機技術的飛速發(fā)展,網(wǎng)絡搜索技術越來越受到人們的重視。如今,雖然網(wǎng)絡檢索技術已走向成熟和完善,但還是不能滿足人們的需求。 在本文,我首先要向大家介紹一般網(wǎng)絡搜索技術的基本原理、發(fā)展現(xiàn)狀和它的發(fā)展趨勢。在第二章我們則講述基于Web的圖像檢索技術,解析搜索過程中分詞技術的應用、檢索模型和相似度他們之間的具體關系。上一張上一張 本文來自無憂畢設網(wǎng)wybsw 聯(lián)系QQ: 375279829引引 言言 研究現(xiàn)狀:

2、隨著網(wǎng)絡傳送速度與計算機信息處理速度的提高,網(wǎng)頁中對多媒體信息的使用變得十分普及,特別是圖像信息,己經(jīng)成為表示網(wǎng)頁內(nèi)容不可缺少的組成部分。因此人們對多媒體信息的檢索需求也就隨之隨之變得特別迫切。但由于圖像檢索系統(tǒng)涉及了多學科的知識,實現(xiàn)和應用的難度相當高,所以已有的圖像檢索系統(tǒng)都有這樣或那樣的缺陷。 而傳統(tǒng)的信息檢索主要集中于文字的檢索,在多媒體方面的研究并不是很多?;ヂ?lián)網(wǎng)上的多媒體以圖像為主,因此圖像的檢索就成為了目前研究的熱點。 圖像檢索經(jīng)歷了兩個階段:第一階段是以文本為基礎的檢索。第二階段是以圖像自身的內(nèi)容為基礎的檢索。上一張上一張 引引 言言 發(fā)展趨勢 立足于文本,對圖像進行檢索。試圖

3、將傳統(tǒng)的文本檢索技術移植于對多媒體信息的檢索上 立足于圖像內(nèi)容,對圖像進行分析和檢索。 結(jié)合文本和內(nèi)容,進行融合性研究。發(fā)揮各自的優(yōu)勢促進圖像的高效、簡單檢索方式的實現(xiàn) 上一張上一張 引引 言言 存在的問題: 由于搜索引擎技術的開發(fā)牽涉到信息檢索、人工智能等許多基礎研究領域的理論和技術,中文搜索引擎的開發(fā)就更涉及到語言習慣的差異、智能切分詞等棘手的問題,而且中文搜索引擎技術的起步也較晚,還遠沒能滿足中國網(wǎng)民的需求。因此我們現(xiàn)在要做的是研究出適合中國大眾的簡單有效的搜索技術。上一張上一張 基于基于Web的圖象搜索的圖象搜索 引擎的搜索途徑 : 1. 關鍵詞檢索 (1)基于圖像外部信息進行檢索 (

4、2) 基于手工標注的檢索 2.圖象可視屬性的檢索上一張上一張 基于基于Web的圖象搜索的圖象搜索 文本圖像間關系 在文本檢索中,搜索引擎主要考慮Web頁中相關文字信息以及它的語義,這些文本信息反映出網(wǎng)頁的內(nèi)容,但不完全與網(wǎng)頁中圖片的內(nèi)容一致。在HTML網(wǎng)頁中,根據(jù)HTML語言的格式,捕獲反映圖片信息的文字信息,分析這些文本的語義具有重要的意義。上一張上一張 基于基于Web的圖象搜索的圖象搜索 圖像的文本標記 (1)圖像的說明 :圖像說明文本 (2)圖像的標題 :圖像關鍵詞 (3)圖像的標簽 :說明圖片摘要信息的短語 (4)網(wǎng)頁的標題 :反映網(wǎng)頁中心內(nèi)容 上一張上一張 基于基于Web的圖象搜索的

5、圖象搜索 文本權值間的關系 在圖像的檢索中,首先是要建立描述圖片內(nèi)容特征的查詢語句,然后比較、區(qū)分它們之間的異同,獲取需要檢索的圖像。但它們對圖像描述時側(cè)重不同,同時與圖像信息的聯(lián)系程度也不同。如圖像標題和網(wǎng)頁標題是簡單的詞條,兩者中相對來說圖像標題更接近圖像的主題內(nèi)容。所以在比較、區(qū)分各類文本信息以決定是否符合檢索要求時,它們所占的權值應該是有所不同的。根據(jù)信息的重要程度,他們所占的權值大小按次序如下: Image CaptionImage TitleImage AlternatePage Title 上一張上一張 基于基于Web的圖象搜索的圖象搜索 圖像檢索模型 Web搜索引擎采用何種檢索

6、模型,它所提供檢索質(zhì)量將直接影響到檢索的效果。這里采用向量空間模型。上一張上一張 基于基于Web的圖象搜索的圖象搜索 向量模型中權值計算 在這里我們一般采用比較簡單的統(tǒng)計法來計算它的權值。公式如下: 在信息檢索中常用的詞條權值計算方法為 TF-IDF 函數(shù):)()(dtfdii)log()(iinNdtf上一張上一張 基于基于Web的圖象搜索的圖象搜索 相似度算法 兩文檔di,dj之間的相似度可以用其對應的向量之間的夾角余弦來表示:nkjknkiknkjkikjiddddddSim12121)()()()()(cos),(上一張上一張 基于基于Web的圖象搜索的圖象搜索 進行查詢的過程中,先將

7、查詢條件Q進行向量化,主要依據(jù)布爾模型: 當ti在查詢條件Q中時,將對應的第i坐標置為1,否則置為0,即 也就是說當兩詞條完全相同時,這一項為1,其余情況為0??梢钥闯鑫臋n含有完全相同的詞條時,相似度=1;而其中無相同時的詞條時,相似度=0。QtQtqiii01上一張上一張 基于基于Web的圖象搜索的圖象搜索 從而文檔d與查詢Q的相似度為: 根據(jù)文檔之間的相似度在查詢過程中,可以計算出每個文檔與查詢的相似度,進而可以根據(jù)相似度的大小,將查詢的結(jié)果進行排序。niiniiniiiqdqddQSim12121)()()(),(上一張上一張 基于基于Web的圖象搜索的圖象搜索 分詞技術和匹配方法 1.

8、 常用的切詞算法如下: (1)最大正向匹配法 (2)逆向最大匹配法 (3)基于詞頻的統(tǒng)計方法 由于這些設計思想都不怎么好,所以這里我們將提出改良的匹配法。上一張上一張 基于基于Web的圖象搜索的圖象搜索 詞典存儲格式: 第一層存儲所有單字,第二層保存所有的雙字詞和多字詞的前兩個字,第三層存儲以某一雙字為首的所有詞。 A1A3A2A1B1(f,n1)A1C1(t,n3)A1B2(t,n2)AnA1D1(t,n4)F1G2H1G2H1R1T1上一張上一張 基于基于Web的圖象搜索的圖象搜索 匹配方法 假設對一個句子C1C2進行分詞處理,算法描述如下: 1) 兩個字開始時為C1C2),在詞典中查詢C1C2是否存在 2) 不存在,則C1為單字詞,一次分詞結(jié)束,返回1。 3) 存在,判斷C1C2是否為詞,并從詞典中獲取該詞下層節(jié)點漢字的最大長度,設為n 4) 若n=0,一次分詞結(jié)束,保存結(jié)果。 5) 否則,i=2,轉(zhuǎn)6)。 6 ) i=i+1,若i=n+3,轉(zhuǎn)8);否則,轉(zhuǎn)7)。 7) 再取一個字此處為Ci),判斷第三層中是否有以C3Ci開始的字(不需要恰好匹配,只要匹配開始的i個字就可以了)。 8) 若存在,分詞結(jié)束,返回最近一次能夠恰好匹配的C3Cj(j80%,而檢索完全度60%。 上一張上一張 本文來自無憂畢設網(wǎng)wybsw 聯(lián)系QQ: 375

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論