搜索引擎優(yōu)化圖片信息技巧_第1頁
搜索引擎優(yōu)化圖片信息技巧_第2頁
搜索引擎優(yōu)化圖片信息技巧_第3頁
搜索引擎優(yōu)化圖片信息技巧_第4頁
搜索引擎優(yōu)化圖片信息技巧_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Web圖片搜索引擎設(shè)計(jì)基于文本的圖片信息提取大綱圖片檢索技術(shù)簡(jiǎn)介 我們?cè)O(shè)計(jì)的系統(tǒng)總體結(jié)構(gòu) 圖片文字信息提取 無用圖片過濾 一些統(tǒng)計(jì)規(guī)律 結(jié)合文本與內(nèi)容的方法(后期打算)圖片檢索技術(shù)分類基于文本利用某種提取方法獲得與圖片內(nèi)容相關(guān)的文本信息, 利用傳統(tǒng)文本檢索方法提供檢索.基于內(nèi)容提取圖片中的可視化特征,比如顏色,形狀,紋理 等,對(duì)特征建索引,提供相似查詢.基于語義理解可是特征的語義信息,可以利用文字查詢可視 特征.基于文本優(yōu)點(diǎn)符合用戶查詢習(xí)慣(關(guān)鍵字查詢) 適合復(fù)雜語義查詢(比如查"奧運(yùn)會(huì)") 利用已有的技術(shù)積累(文本檢索) 性能好缺點(diǎn)提取的信息不夠準(zhǔn)確 文字描述不能保證全面

2、性 不能基于內(nèi)容相似查詢基于內(nèi)容優(yōu)點(diǎn)可以查詢相似圖片 對(duì)圖片來源要求低(不需要額外文字信息)缺點(diǎn)技術(shù)不成熟 效率低 復(fù)雜語義無法表示基于語義通過理解圖片中的可視特征來建立低層 特征到高層語義的映射(比如:能夠理 解大海是藍(lán)色的) .符合人類理解圖片 的自然方式. 開始大量的研究,在未來會(huì)有很大的發(fā) 展.我們的選擇基于文字理由目前的大型圖片搜索引擎基本上都是以基于 文字的檢索為主體. 性能良好 已有大量的網(wǎng)頁資源可供使用. 開發(fā)周期較短.我們?cè)O(shè)計(jì)的系統(tǒng)的結(jié)構(gòu)處理用戶查詢請(qǐng) 求和結(jié)果顯示 提供檢索功能Index Data Build index(核心)提取 圖片相關(guān)的文 字信息search Sea

3、rcher Web server/ UI Get thumbnail Image thumbnail repositoryInternetExtractorWeb pagescrawlUserSpiderImages負(fù)責(zé)抓取網(wǎng)頁 和圖片生成和存放圖 片縮略圖系統(tǒng)工作過程1. 2. 3. 4. 5.抓取網(wǎng)頁和圖片 從網(wǎng)頁中提取圖片相關(guān)的文字信息 利用圖片生成縮略圖 對(duì)提取到的文字信息建倒排索引 提供查詢核心圖片信息提取 (Extractor)信息來源HTML文檔用于組織文字和圖片等 通過分析HTML文檔找到圖片和相關(guān)的文字提取方法不能確知網(wǎng)頁作者組織信息的方法,所以利 用啟發(fā)式規(guī)則 將最可能與某

4、圖片相關(guān)的位置的文字作為圖 片的文字描述信息常用提取模式<img>標(biāo)記從src獲取圖片來源 從alt獲取相關(guān)文字信息(注意可能為文件名) 獲得width和height,用于以后的過濾常用提取模式(續(xù))<a>標(biāo)記從href獲得URL,判斷是否為圖片(簡(jiǎn)單的 根據(jù)擴(kuò)展名,不處理動(dòng)態(tài)內(nèi)容) 從title獲得相關(guān)文字信息 從anchor_text獲得圖片的文字信息(通常最 準(zhǔn)確)常用提取模式(續(xù))網(wǎng)頁的標(biāo)題圖片與所在網(wǎng)頁相關(guān),因此和網(wǎng)頁的標(biāo)題相 關(guān) 提取<title>下的文字.有時(shí)<title>下還會(huì)嵌 套標(biāo)記,需要去除.有時(shí)<title>使

5、用缺省的 名字(比如new page或者Untitled Document),需要過濾常用提取模式(續(xù)) 鏈接到圖片所在網(wǎng)頁的文本和網(wǎng)頁的標(biāo)題一樣,這是對(duì)網(wǎng)頁的描述,所 以Some_info可能和xxx.jpg相關(guān) 需要跨頁面的信息提取a.html<a href="a.htm">Some_info</a> xxx.jpg常用提取模式(續(xù))網(wǎng)頁的meta標(biāo)記也是對(duì)網(wǎng)頁內(nèi)容的描述 可以提取其中的keywords和description的值常用提取模式(續(xù))圖片的URL圖片的URL可能含有相關(guān)信息(path和 file_name) 判斷path和file_

6、name是否為中文,或者為 英文單詞,是則可能有意義 不考慮站點(diǎn)的domain_name,太泛常用提取模式(續(xù))關(guān)聯(lián)的<a>和<img>嵌套<a href="foo.html"><img src="xxx.jpg"></a>則xxx.jpg和foo.html的內(nèi)容相關(guān),可以使用 xxx.jpg foo.html foo.html的標(biāo)題作為文字信息并列<a href="foo">anchor_text</a> <a href="foo&q

7、uot;><img src="xxx.jpg"></a>則xxx.jpg和anchor_text相關(guān),可以用anchor_text 作為文字信息常用提取模式(續(xù))<table>結(jié)構(gòu)組織結(jié)果比較多樣化相關(guān)的文字和圖片放到同一個(gè)<td>中; 相關(guān)的文字和圖片放在同一個(gè)<tr>下的兩個(gè)<td>里; 相關(guān)的文字和圖片放在兩個(gè)相鄰的<tr>內(nèi); 以某種其他的規(guī)律出現(xiàn)在<table>里提取時(shí)需要判斷使用的是哪一種組織方式常用提取模式(續(xù))圖片周圍文字比較難于界定"周圍&quo

8、t;的含義. 基于流的方式,圖片所在HTML流中位置前 后一段固定的距離Hello, world<img src="xxx.jpg">你好,世界常用提取模式(續(xù))圖片周圍文字(續(xù))基于DOM的方式與圖片具有共同最低祖先的文字節(jié)點(diǎn) <form> <form> <div><img src="xxx.jpg"></div> <font>some_text</font> <font> <div> </form>Some_text&l

9、t;img>目前系統(tǒng)中使用的模式<img>標(biāo)記信息 <a>標(biāo)記信息 網(wǎng)頁標(biāo)題 圖片的URL <table>結(jié)構(gòu) 圖片周圍文字 (DOM) 網(wǎng)頁meta信息 鏈接到圖片所在網(wǎng) 頁的文本 關(guān)聯(lián)的<a>和 <img>信息提取方法基于DOM的方法將HTML文檔解析為DOM樹,遍歷所有的節(jié) 點(diǎn),利用DOM接口的方法獲取相關(guān)信息. 優(yōu)點(diǎn)實(shí)現(xiàn)簡(jiǎn)單,有開放的DOM解析工具可用 (HTMLTidy) 利用部分結(jié)構(gòu)信息,提取信息準(zhǔn)確度稍高缺點(diǎn)需要解析DOM,效率較低信息提取方法(續(xù))基于流的方法直接通過字符串查找來定位所要提取的信息 優(yōu)點(diǎn)只關(guān)注幾個(gè)

10、tag,不需要解析DOM,速度快缺點(diǎn)不太注重結(jié)構(gòu)信息,準(zhǔn)確性不如DOM方式高信息提取方法(續(xù))基于wrapper的方法利用HTML的半結(jié)構(gòu)特點(diǎn)來準(zhǔn)確的獲得文字 與圖片的對(duì)應(yīng)關(guān)系 優(yōu)點(diǎn)對(duì)于固定的結(jié)構(gòu)模式,可以準(zhǔn)確的提取到信息缺點(diǎn)效率較低 實(shí)現(xiàn)稍復(fù)雜無用圖片過濾初衷Web上提取到的圖片有很大部分是意義不大 的圖片,用于裝飾頁面和做廣告 去除這些圖片可以有效的減小系統(tǒng)數(shù)據(jù)規(guī)模, 提高圖片質(zhì)量和檢索效率無用圖片過濾(續(xù))依然使用啟發(fā)式規(guī)則 過濾模式文件尺寸比較小(包括長寬和大小)利用HTML提取到width和height,以及實(shí)際圖片 的widt h和height長寬比例比較大 同一網(wǎng)頁內(nèi)有多個(gè)<

11、;img>引用它重要的圖片不會(huì)在一頁內(nèi)出現(xiàn)多次 出現(xiàn)多次的通常是裝飾圖片發(fā)現(xiàn)的一些統(tǒng)計(jì)規(guī)律GIF和JPG圖片的區(qū)別GIF只有256色,但可動(dòng)態(tài),通常用于裝飾性 圖片和廣告 JPG壓縮比高,常用于存儲(chǔ)大尺寸文件 通常情況下,JPG圖片有意義的比例要大大 高于GIF發(fā)現(xiàn)的一些統(tǒng)計(jì)規(guī)律(續(xù))GIF和JPG圖片的區(qū)別(續(xù))統(tǒng)計(jì)結(jié)果統(tǒng)計(jì)隨機(jī)抓取的82455張圖片,其中GIF有53815 張,JPG有28640張 抽樣分析,間隔抽GIF圖片268張,抽JPG圖片 284張 人工評(píng)價(jià)樣本,得到: GIF中12%有意義,JPG中49%有意義發(fā)現(xiàn)的一些統(tǒng)計(jì)規(guī)律(續(xù))<a>和<img>

12、;引用圖片的區(qū)別<img>可在網(wǎng)頁上看到圖片,屬于"插入" 方式,是裝飾和廣告的方法 <a>不能在網(wǎng)頁上直接可見,屬于"鏈接" 方式,不能用于裝飾和廣告,通常用于將圖 片作為目標(biāo)對(duì)象提供 通常,<a>引用的圖片有意義的比例要高于 <img>發(fā)現(xiàn)的一些統(tǒng)計(jì)規(guī)律(續(xù))<a>和<img>引用圖片的區(qū)別(續(xù))統(tǒng)計(jì)結(jié)果對(duì)3148499張圖片進(jìn)行來源標(biāo)記統(tǒng)計(jì),來自<a> 的有77279張,來自<img>的有3071220張 抽樣分析,間隔抽取<a>的387張,

13、<img>的 308張 人工評(píng)價(jià)樣本,得到: 來自<a>的有意義圖片比例為:74%,來自 <img>的有意義比例為:37%發(fā)現(xiàn)的一些統(tǒng)計(jì)規(guī)律(續(xù))圖片引用次數(shù)的區(qū)別引用次數(shù)的多少可以在一定程度上反映圖片 的重要性 通常<a>引用的圖片引用次數(shù)越高則圖片越 重要 <img>引用的圖片因?yàn)槭艿窖b飾性和廣告圖 片的影響,引用次數(shù)規(guī)律性不強(qiáng)發(fā)現(xiàn)的一些統(tǒng)計(jì)規(guī)律(續(xù))圖片引用次數(shù)的區(qū)別(續(xù))統(tǒng)計(jì)圖不同標(biāo)記來源的統(tǒng)計(jì)折線圖 100% 80% 有意義比例 60% 40% 20% 0% 5 10 15 50-99 引用次數(shù) <a> <img>發(fā)現(xiàn)的一些統(tǒng)計(jì)規(guī)律(續(xù))以上的這些規(guī)律對(duì)于改進(jìn)無用圖片過濾 和查詢結(jié)果圖片排序有重要的價(jià)值.結(jié)合文本和內(nèi)容的方法利用基于內(nèi)容的提取方法,可以得到圖 片的可視特征組成的向量 考慮如何與得到的文本向量相結(jié)合來改 進(jìn)信息的相關(guān)性,從而改進(jìn)圖片搜索引 擎的查詢效果(作為未來系統(tǒng)改進(jìn)方向)結(jié)合文本和內(nèi)容的方法(續(xù))先文本后內(nèi)容的方法先用文本查詢,得到初始圖片集,用戶挑選 相近的圖片,進(jìn)行內(nèi)容相似查詢,最終得到 想要的圖片拼接兩個(gè)向量在查詢時(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論