




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 多少人在使用搜索引擎 全球范圍內(nèi)84%的互聯(lián)網(wǎng)用戶使用搜索引擎,其中超過一半的人幾乎每天使用。 95%以上的中國網(wǎng)民使用過搜索引擎,84.5%的用戶將搜索引擎作為得知新網(wǎng)站的主要途徑。 商用搜索引擎競爭日趨激烈(市場規(guī)模約56億元)。 從2007年9月開始,中國成為全球首個每月搜索請求超過100億次的國家 搜索引擎與性能評價 對搜索引擎用戶:選擇最有效獲取信息的媒介 對廣告商:選擇最有效的盈利平臺 對研究人員:算法改進、性能監(jiān)控 效果評價是信息檢索相關研究的基礎內(nèi)容 評價在信息檢索系統(tǒng)的研發(fā)中一直處于核心的地位,以致于算法與它們的效果評價方式是合二為一的。 (Saracevic, 1995)
2、 如何對網(wǎng)絡信息檢索系統(tǒng)進行評價 Cranfield評價方法 被應用在包括TREC在內(nèi)的幾乎所有主流的信息檢索研究工作中。 評價組成: 文本語料庫,查詢樣例集,標準答案集 Cranfield評價方式的優(yōu)勢 有效控制系統(tǒng)變量 可以跨系統(tǒng)比較的評價結(jié)果 網(wǎng)絡信息檢索評測語料庫 建立評測語料庫的必要性 信息檢索是實證學科 真實規(guī)模的評測語料是算法有效性的保證 研究人員獨立構建存在困難 海量網(wǎng)絡資源抓取 真實用戶需求獲取 大規(guī)模用戶查詢的答案標注 建立評測語料庫的可能性 產(chǎn)業(yè)界與研究界的合作 搜索引擎日志被合理應用 文本信息檢索會議(TREC) NIST組織的研討文本檢索技術的國際性論壇 大規(guī)模文本檢
3、索系統(tǒng)的標準評測平臺 與網(wǎng)絡信息檢索相關的評測語料 VLC track (VLC, VLC2, WT2g, WT10g) 6 years, 300 topics, 100gB Web track (.GOV corpus) 3 years, 550 topics, 1.25 M pages, 18gB Terabyte track (.GOV2 corpus) 3 years, 1800 topics, 27 M pages, 400gB 863中文信息處理與智能人機接口評測 語料庫規(guī)模 30G 數(shù)據(jù) 30個查詢,pooling方式確定答案 4個系統(tǒng)參加評測 現(xiàn)場評測 參與系統(tǒng)少 側(cè)重系統(tǒng)穩(wěn)定
4、性和效率 SEWM評測 北京大學網(wǎng)絡實驗室組織 類似TREC的評測架構 文本語料庫:CWT100g, CWT200g 去重、去除垃圾,37M網(wǎng)頁 查詢語料庫:來自天網(wǎng)查詢?nèi)罩?2005-2007 三年的時間 1185 導航類查詢 285 信息類查詢 標注方式:人工標注,pooling方法 經(jīng)驗總結(jié) 文本語料 抓取相對高質(zhì)量的網(wǎng)絡數(shù)據(jù) VLC2 = WT10g,.GOV, .GOV2,CWT200g 查詢語料 真實反映用戶需求 TREC Web, Terabyte;SEWM 標注語料 規(guī)模保證 TREC million query track: efficiency, not effective
5、ness 主要困難 文本語料庫構建 規(guī)模問題 Google (8 billion +), Yahoo! (20 billion +), Sogou (10 billion +) 達到Billion/Terabyte量級,保證研究成果的可信性 網(wǎng)頁質(zhì)量篩選 網(wǎng)頁質(zhì)量相對較高:重復語料、垃圾語料的處理。 輔助語料的構建問題 鏈接關系語料 網(wǎng)頁質(zhì)量評估數(shù)據(jù) 點擊日志信息 主要困難 查詢語料庫構建 規(guī)模問題 有充分的代表性 考慮到標注工作量 查詢樣例選擇 真實用戶需求 有充分的代表性 覆蓋不同用戶信息需求 主要困難 標注語料庫構建 Voorhees 估計,對一個規(guī)模為800萬的文檔集合進行針對1個查詢
6、主題的相關性評判需要耗費1名標注人員9個月的工作時間 TREC提出pooling方法,在保證評價結(jié)果可靠性的基礎上大大減少了評判工作量 缺點:處理的查詢數(shù)目少,針對小規(guī)模的查詢集合,仍需要耗費十余名標注人員1-2個月的工作時間 設計思路 海量規(guī)模、符合大多數(shù)研究機構的處理能力 能夠代表中文互聯(lián)網(wǎng)的基本情況 能夠代表中文搜索引擎用戶的需求情況 客觀全面評價網(wǎng)絡信息檢索系統(tǒng)性能 實現(xiàn)思路 利用搜索引擎資源 網(wǎng)頁抓取、查詢?nèi)罩精@取、網(wǎng)頁質(zhì)量評估數(shù)據(jù)獲取 使用自動化的查詢語料標注方法 構建過程網(wǎng)頁文本語料庫標注語料庫查詢語料庫檢索結(jié)果結(jié)果池手工標注網(wǎng)頁文本語料庫查詢語料庫標注語料庫用戶查詢?nèi)罩咀ト鹘y(tǒng)
7、方式傳統(tǒng)方式SogouT構建方式構建方式自動標注生成 查詢語料庫構建 用戶查詢頻度的分布情況 2008年6月的日志數(shù)據(jù) 查詢頻度最高的前10000個查詢詞 用戶查詢總數(shù)的萬分之六點五,覆蓋超過56%的用戶需求 抽樣方式 2008年6月搜狗搜索引擎查詢?nèi)罩?選取查詢量最高的10000個用戶查詢 用戶查詢需求 抽樣標注 導航類約占30.6%,信息類約占69.4% 具有充分的代表性 規(guī)模大: 我們所知最大規(guī)模的信息檢索評測查詢集合 覆蓋率高:覆蓋%以上的用戶查詢需求 核心問題: 如何提高結(jié)果標注的自動化程度 利用偽相關反饋的方法進行結(jié)果自動標注 偽相關反饋的結(jié)果被認為是答案 Soboroff et.
8、al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 標注的準確程度和可靠性不高 對查詢詞的近義詞集合進行標注 根據(jù)結(jié)果網(wǎng)頁的查詢詞及近義詞詞頻進行評判 Amitay et.al, 2004 初始標注工作量大,評判的可靠性不高 核心問題: 如何提高結(jié)果標注的自動化程度 利用用戶行為分析方法 Joachims et.al.(1997) 創(chuàng)建了一個元搜索接口,將不同搜索引擎的結(jié)果加以混雜,把用戶點擊不同結(jié)果的情況加以記錄,并以此作為評判依據(jù) 用戶行為分析的思路值得肯定 缺點:改變用戶檢索習慣、個體用戶行為不可靠等 我們的研究思路 通過對搜索引擎記錄下的
9、用戶行為日志進行分析,不額外增加用戶負擔。 使用用戶群體,而不是個體的點擊行為作為依據(jù) 對查詢集合結(jié)果進行標注 個體用戶可能在點擊過程中出現(xiàn)謬誤 用戶群體的點擊信息則是很大程度上可靠的 統(tǒng)計用戶群體的點擊行為,進而對查詢對應的結(jié)果進行標注 結(jié)果標注的可靠性分析 結(jié)果標注是否準確 結(jié)果標注是否全面 用戶行為的可靠性分析 對導航類查詢 結(jié)果唯一,不存在“找不全”的問題 搜索引擎檢索性能高,點擊準確度較可靠 能夠發(fā)現(xiàn)用戶的關注熱點,如“163” = “搜狗” = 適合作為搜索性能自動評測的對象 用戶行為的可靠性分析 對信息事務類查詢(以查詢詞”電影”為例) 不同搜索引擎的點擊分布差異大 存在著搜索引
10、擎對用戶行為的偏置性影響 索引數(shù)據(jù)偏置 檢索策略偏置 結(jié)果不唯一,全面性難以保證 不適合使用單一搜索引擎的日志信息,作為完全自動評測的對象00.05123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27baidugoogleyahoosogou 針對導航類查詢的結(jié)果自動標注 利用單個搜索引擎的點擊信息即可完成 焦點假設:不同用戶具有相同的導航類別檢索需求時,他們的點擊都會集中在其檢索目標網(wǎng)頁(或其鏡像)上。 網(wǎng)頁r 針對查詢q的點擊集中度 q的點擊集中度最高的r即為其檢索目標頁面)
11、(#)(#),(qofSessionrclicksthatqofSessionrResultqQueryClickFocus 針對導航類查詢的結(jié)果自動標注 標注算法:尋找針對q的ClickFocus值最大的r 標注樣例查詢自動標注的URL讀寫網(wǎng)http:/ 針對信息事務類查詢需求的答案自動標注 基于多搜索引擎用戶行為挖掘1. 利用單搜索引擎用戶行為挖掘方式,進行各自獨立的標注2. 借鑒Pooling做法,綜合不同標注者(這里為搜索引擎用戶的宏觀行為)的意見 需要考慮的因素 用戶點擊行為差異 用戶訪問量差異 搜索引擎相對重要性的差異 基于多搜索引擎用戶行為挖掘的標注算法 需要考慮的因素 用戶點擊
12、行為差異 用戶訪問量差異 查詢分布差異 搜索引擎相對重要性的差異 綜合考慮以上因素,計算某個結(jié)果對于某個查詢的置信度)/(qurlPi 合并計算結(jié)果url對于查詢q的置信度 基于單搜索引擎進行答案標注的可信度 依據(jù)查詢用戶數(shù)來計算jjjiiqSEPqSEurlPqurlP)|(),|()|()|(qSEPjjjjjSEinqofsessionSEinqofsessionqSEP)(log(#)(log(#)|( 單獨某個搜索引擎標注答案的可信程度 依據(jù)此搜索引擎的用戶點擊的宏觀集中程度來確定),|(qSEurlPji)(#)(#),|(),|(jjijijiSEinqofSessionSEin
13、urlclickthatqofSessionsqSEurlCDqSEurlP 查詢點擊分布合并模型其中, 反映不同搜索引擎的在結(jié)果標注中的重要程度jjjijjjjjjjiiSEinqofSessionSEinurlclickthatqofSessionsSEinqofsessionSEinqofsessionqSEPqSEurlPqurlP)(#)(#)(log(#)(log(#)|(),|()|(j 例:查詢“瘋狂英語”BaiduGoogleY/ / //
14、Sogou合并后的答案標注結(jié)果合并后的答案標注結(jié)果/ / 實驗數(shù)據(jù) Sogou搜索8個月查詢?nèi)罩?超過7億條日志信息) 針對其中高頻導航類查詢進行自動標注 對每個時間段抽取約5%的數(shù)據(jù)進行手工檢查時間段時間段標注查詢數(shù)標注查詢數(shù)檢驗樣例檢驗樣例數(shù)數(shù)樣例集合樣例集合準確度準確度Jun. 06 - Aug. 0613,902695 98.13%Sept.06 - Nov. 0613,884694 97.41%Dec. 06 - Jan. 0711,296565 96.64% 與手工評價結(jié)果類似 利用用戶群體行為分析方法
15、進行搜索引擎自動性能評價是可行的 SogouT自動標注語料庫 10000個查詢主題,65465個標注答案 抽樣其中5%的查詢進行檢查(500個) 由兩名標注人員手工檢查(1人標注,1人檢查)總數(shù)標注錯誤 標注正確正確率信息類查詢對應的答案10114296995.85%導航類查詢對應的答案3652534093.15% 文本語料庫構建 網(wǎng)頁抓取 網(wǎng)絡爬蟲種子選取策略 標注語料庫所包含的65465個網(wǎng)頁 Sogou網(wǎng)絡爬蟲種子集合所包含的網(wǎng)站 防止爬蟲黑洞 必要的垃圾網(wǎng)頁過濾(黑名單) 必要的低質(zhì)量頁面、無內(nèi)容網(wǎng)頁過濾(爬蟲判斷) 只抓取HTML網(wǎng)頁內(nèi)容 抓取到約1億網(wǎng)頁時停止 文本語料庫構成 1.
16、387億網(wǎng)頁 存儲空間約5 Terabyte,gzip壓縮后約1.01 Terabyte 鏈接關系圖 鏈接關系數(shù)目約33.4億條 存儲空間約24 Gigabyte (gzip壓縮) 網(wǎng)頁質(zhì)量評估數(shù)據(jù) 所有網(wǎng)頁對應的SogouRank值(site-based PageRank) SogouT語料獲取 文本語料:http:/ 7z壓縮后約500G,硬盤方式發(fā)布,需交納硬盤成本費約500元。 鏈接關系:http:/ 與文本語料共同發(fā)布 查詢語料與標注語料 訓練集:http:/ 500個經(jīng)過手工檢驗的查詢及對應答案 更大規(guī)模的查詢與標注語料如何獲??? “搜索儀”在線評測系統(tǒng) http:/searchE
17、 2008年11月底左右推出 SogouE1:500個查詢對應的標注語料 SogouE2:3000個查詢對應的標注語料 SogouE3:6500個查詢對應的標注語料 “搜索儀”在線評測系統(tǒng) 用戶注冊后,即可獲取SogouE1 SogouE3對應的查詢語料(只有SogouE1對應的標注語料) 用戶根據(jù)SogouE1對檢索系統(tǒng)進行訓練,并改進系統(tǒng)設計與算法 用戶隨時提交對查詢語料進行檢索得到的檢索結(jié)果,并獲得根據(jù)SogouE2即時反饋的檢索評價 搜索儀網(wǎng)站根據(jù)評價結(jié)果對用戶系統(tǒng)進行排名并隨時公布、更新。 “搜索儀”在線評測系統(tǒng) 定期召開的信息檢索與內(nèi)容安全全國會議(NCIRCS)上,組織專門的評測論壇 使用SogouE3對用戶提交的結(jié)果進行進一步驗證 邀請系統(tǒng)性能領先的研究人員進行交流 Http:/searchE Http:/searchE 主要特點 客觀真實反映搜索引擎總體性能 近似即時反饋 查詢語料規(guī)模大,且隨用戶關注情況更新,反映熱點 功能演示!搜狗實驗室網(wǎng)站:http:/ Online at: http:/ Liu, Yupeng Fu, Min Zhang, Shaoping Ma, Liyun Ru. Au
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 默契中考語文作文
- 物流搬運設備選型指南考核試卷
- 描寫北京初二上冊語文作文
- 健身器材制造業(yè)資本運作與投融資策略考核試卷
- 殘疾人權益倡導與法律援助考核試卷
- 空氣流量測量考核試卷
- 柑橘種植園農(nóng)業(yè)產(chǎn)業(yè)鏈優(yōu)化策略考核試卷
- 玻璃保溫容器行業(yè)人才培養(yǎng)與選拔考核試卷
- 傾聽高三語文作文
- 滾動軸承市場與發(fā)展趨勢考核試卷
- V帶傳動設計說明書
- 酒店投標書范本
- 與農(nóng)戶的收購協(xié)議書范本
- GB/T 30819-2024機器人用諧波齒輪減速器
- 中國特種兵課件
- 梁板結(jié)構:雙向板
- 警營開放日活動方案
- 吊籃高處作業(yè)安全交底
- 彩票物流配送服務投標方案(技術方案)
- DB3301-T 65.28-2024 反恐怖防范系統(tǒng)管理規(guī)范 第28部分:硬質(zhì)隔離設施
- 預付款三方監(jiān)管協(xié)議書模板
評論
0/150
提交評論