搜索引擎優(yōu)化圖片信息技巧_第1頁
搜索引擎優(yōu)化圖片信息技巧_第2頁
搜索引擎優(yōu)化圖片信息技巧_第3頁
搜索引擎優(yōu)化圖片信息技巧_第4頁
搜索引擎優(yōu)化圖片信息技巧_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Web圖片搜索引擎設計基于文本的圖片信息提取大綱圖片檢索技術簡介 我們設計的系統(tǒng)總體結構 圖片文字信息提取 無用圖片過濾 一些統(tǒng)計規(guī)律 結合文本與內(nèi)容的方法(后期打算)圖片檢索技術分類基于文本利用某種提取方法獲得與圖片內(nèi)容相關的文本信息, 利用傳統(tǒng)文本檢索方法提供檢索.基于內(nèi)容提取圖片中的可視化特征,比如顏色,形狀,紋理 等,對特征建索引,提供相似查詢.基于語義理解可是特征的語義信息,可以利用文字查詢可視 特征.基于文本優(yōu)點符合用戶查詢習慣(關鍵字查詢) 適合復雜語義查詢(比如查"奧運會") 利用已有的技術積累(文本檢索) 性能好缺點提取的信息不夠準確 文字描述不能保證全面

2、性 不能基于內(nèi)容相似查詢基于內(nèi)容優(yōu)點可以查詢相似圖片 對圖片來源要求低(不需要額外文字信息)缺點技術不成熟 效率低 復雜語義無法表示基于語義通過理解圖片中的可視特征來建立低層 特征到高層語義的映射(比如:能夠理 解大海是藍色的) .符合人類理解圖片 的自然方式. 開始大量的研究,在未來會有很大的發(fā) 展.我們的選擇基于文字理由目前的大型圖片搜索引擎基本上都是以基于 文字的檢索為主體. 性能良好 已有大量的網(wǎng)頁資源可供使用. 開發(fā)周期較短.我們設計的系統(tǒng)的結構處理用戶查詢請 求和結果顯示 提供檢索功能Index Data Build index(核心)提取 圖片相關的文 字信息search Sea

3、rcher Web server/ UI Get thumbnail Image thumbnail repositoryInternetExtractorWeb pagescrawlUserSpiderImages負責抓取網(wǎng)頁 和圖片生成和存放圖 片縮略圖系統(tǒng)工作過程1. 2. 3. 4. 5.抓取網(wǎng)頁和圖片 從網(wǎng)頁中提取圖片相關的文字信息 利用圖片生成縮略圖 對提取到的文字信息建倒排索引 提供查詢核心圖片信息提取 (Extractor)信息來源HTML文檔用于組織文字和圖片等 通過分析HTML文檔找到圖片和相關的文字提取方法不能確知網(wǎng)頁作者組織信息的方法,所以利 用啟發(fā)式規(guī)則 將最可能與某

4、圖片相關的位置的文字作為圖 片的文字描述信息常用提取模式<img>標記從src獲取圖片來源 從alt獲取相關文字信息(注意可能為文件名) 獲得width和height,用于以后的過濾常用提取模式(續(xù))<a>標記從href獲得URL,判斷是否為圖片(簡單的 根據(jù)擴展名,不處理動態(tài)內(nèi)容) 從title獲得相關文字信息 從anchor_text獲得圖片的文字信息(通常最 準確)常用提取模式(續(xù))網(wǎng)頁的標題圖片與所在網(wǎng)頁相關,因此和網(wǎng)頁的標題相 關 提取<title>下的文字.有時<title>下還會嵌 套標記,需要去除.有時<title>使

5、用缺省的 名字(比如new page或者Untitled Document),需要過濾常用提取模式(續(xù)) 鏈接到圖片所在網(wǎng)頁的文本和網(wǎng)頁的標題一樣,這是對網(wǎng)頁的描述,所 以Some_info可能和xxx.jpg相關 需要跨頁面的信息提取a.html<a href="a.htm">Some_info</a> xxx.jpg常用提取模式(續(xù))網(wǎng)頁的meta標記也是對網(wǎng)頁內(nèi)容的描述 可以提取其中的keywords和description的值常用提取模式(續(xù))圖片的URL圖片的URL可能含有相關信息(path和 file_name) 判斷path和file_

6、name是否為中文,或者為 英文單詞,是則可能有意義 不考慮站點的domain_name,太泛常用提取模式(續(xù))關聯(lián)的<a>和<img>嵌套<a href="foo.html"><img src="xxx.jpg"></a>則xxx.jpg和foo.html的內(nèi)容相關,可以使用 xxx.jpg foo.html foo.html的標題作為文字信息并列<a href="foo">anchor_text</a> <a href="foo&q

7、uot;><img src="xxx.jpg"></a>則xxx.jpg和anchor_text相關,可以用anchor_text 作為文字信息常用提取模式(續(xù))<table>結構組織結果比較多樣化相關的文字和圖片放到同一個<td>中; 相關的文字和圖片放在同一個<tr>下的兩個<td>里; 相關的文字和圖片放在兩個相鄰的<tr>內(nèi); 以某種其他的規(guī)律出現(xiàn)在<table>里提取時需要判斷使用的是哪一種組織方式常用提取模式(續(xù))圖片周圍文字比較難于界定"周圍&quo

8、t;的含義. 基于流的方式,圖片所在HTML流中位置前 后一段固定的距離Hello, world<img src="xxx.jpg">你好,世界常用提取模式(續(xù))圖片周圍文字(續(xù))基于DOM的方式與圖片具有共同最低祖先的文字節(jié)點 <form> <form> <div><img src="xxx.jpg"></div> <font>some_text</font> <font> <div> </form>Some_text&l

9、t;img>目前系統(tǒng)中使用的模式<img>標記信息 <a>標記信息 網(wǎng)頁標題 圖片的URL <table>結構 圖片周圍文字 (DOM) 網(wǎng)頁meta信息 鏈接到圖片所在網(wǎng) 頁的文本 關聯(lián)的<a>和 <img>信息提取方法基于DOM的方法將HTML文檔解析為DOM樹,遍歷所有的節(jié) 點,利用DOM接口的方法獲取相關信息. 優(yōu)點實現(xiàn)簡單,有開放的DOM解析工具可用 (HTMLTidy) 利用部分結構信息,提取信息準確度稍高缺點需要解析DOM,效率較低信息提取方法(續(xù))基于流的方法直接通過字符串查找來定位所要提取的信息 優(yōu)點只關注幾個

10、tag,不需要解析DOM,速度快缺點不太注重結構信息,準確性不如DOM方式高信息提取方法(續(xù))基于wrapper的方法利用HTML的半結構特點來準確的獲得文字 與圖片的對應關系 優(yōu)點對于固定的結構模式,可以準確的提取到信息缺點效率較低 實現(xiàn)稍復雜無用圖片過濾初衷Web上提取到的圖片有很大部分是意義不大 的圖片,用于裝飾頁面和做廣告 去除這些圖片可以有效的減小系統(tǒng)數(shù)據(jù)規(guī)模, 提高圖片質(zhì)量和檢索效率無用圖片過濾(續(xù))依然使用啟發(fā)式規(guī)則 過濾模式文件尺寸比較小(包括長寬和大小)利用HTML提取到width和height,以及實際圖片 的widt h和height長寬比例比較大 同一網(wǎng)頁內(nèi)有多個<

11、;img>引用它重要的圖片不會在一頁內(nèi)出現(xiàn)多次 出現(xiàn)多次的通常是裝飾圖片發(fā)現(xiàn)的一些統(tǒng)計規(guī)律GIF和JPG圖片的區(qū)別GIF只有256色,但可動態(tài),通常用于裝飾性 圖片和廣告 JPG壓縮比高,常用于存儲大尺寸文件 通常情況下,JPG圖片有意義的比例要大大 高于GIF發(fā)現(xiàn)的一些統(tǒng)計規(guī)律(續(xù))GIF和JPG圖片的區(qū)別(續(xù))統(tǒng)計結果統(tǒng)計隨機抓取的82455張圖片,其中GIF有53815 張,JPG有28640張 抽樣分析,間隔抽GIF圖片268張,抽JPG圖片 284張 人工評價樣本,得到: GIF中12%有意義,JPG中49%有意義發(fā)現(xiàn)的一些統(tǒng)計規(guī)律(續(xù))<a>和<img>

12、;引用圖片的區(qū)別<img>可在網(wǎng)頁上看到圖片,屬于"插入" 方式,是裝飾和廣告的方法 <a>不能在網(wǎng)頁上直接可見,屬于"鏈接" 方式,不能用于裝飾和廣告,通常用于將圖 片作為目標對象提供 通常,<a>引用的圖片有意義的比例要高于 <img>發(fā)現(xiàn)的一些統(tǒng)計規(guī)律(續(xù))<a>和<img>引用圖片的區(qū)別(續(xù))統(tǒng)計結果對3148499張圖片進行來源標記統(tǒng)計,來自<a> 的有77279張,來自<img>的有3071220張 抽樣分析,間隔抽取<a>的387張,

13、<img>的 308張 人工評價樣本,得到: 來自<a>的有意義圖片比例為:74%,來自 <img>的有意義比例為:37%發(fā)現(xiàn)的一些統(tǒng)計規(guī)律(續(xù))圖片引用次數(shù)的區(qū)別引用次數(shù)的多少可以在一定程度上反映圖片 的重要性 通常<a>引用的圖片引用次數(shù)越高則圖片越 重要 <img>引用的圖片因為受到裝飾性和廣告圖 片的影響,引用次數(shù)規(guī)律性不強發(fā)現(xiàn)的一些統(tǒng)計規(guī)律(續(xù))圖片引用次數(shù)的區(qū)別(續(xù))統(tǒng)計圖不同標記來源的統(tǒng)計折線圖 100% 80% 有意義比例 60% 40% 20% 0% 5 10 15 50-99 引用次數(shù) <a> <img>發(fā)現(xiàn)的一些統(tǒng)計規(guī)律(續(xù))以上的這些規(guī)律對于改進無用圖片過濾 和查詢結果圖片排序有重要的價值.結合文本和內(nèi)容的方法利用基于內(nèi)容的提取方法,可以得到圖 片的可視特征組成的向量 考慮如何與得到的文本向量相結合來改 進信息的相關性,從而改進圖片搜索引 擎的查詢效果(作為未來系統(tǒng)改進方向)結合文本和內(nèi)容的方法(續(xù))先文本后內(nèi)容的方法先用文本查詢,得到初始圖片集,用戶挑選 相近的圖片,進行內(nèi)容相似查詢,最終得到 想要的圖片拼接兩個向量在查詢時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論