版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 多少人在使用搜索引擎 全球范圍內(nèi)84%的互聯(lián)網(wǎng)用戶使用搜索引擎,其中超過一半的人幾乎每天使用。 95%以上的中國網(wǎng)民使用過搜索引擎,84.5%的用戶將搜索引擎作為得知新網(wǎng)站的主要途徑。 商用搜索引擎競爭日趨激烈(市場規(guī)模約56億元)。 從2007年9月開始,中國成為全球首個每月搜索請求超過100億次的國家 搜索引擎與性能評價 對搜索引擎用戶:選擇最有效獲取信息的媒介 對廣告商:選擇最有效的盈利平臺 對研究人員:算法改進、性能監(jiān)控 效果評價是信息檢索相關(guān)研究的基礎(chǔ)內(nèi)容 評價在信息檢索系統(tǒng)的研發(fā)中一直處于核心的地位,以致于算法與它們的效果評價方式是合二為一的。 (Saracevic, 1995)
2、 如何對網(wǎng)絡(luò)信息檢索系統(tǒng)進行評價 Cranfield評價方法 被應(yīng)用在包括TREC在內(nèi)的幾乎所有主流的信息檢索研究工作中。 評價組成: 文本語料庫,查詢樣例集,標(biāo)準答案集 Cranfield評價方式的優(yōu)勢 有效控制系統(tǒng)變量 可以跨系統(tǒng)比較的評價結(jié)果 網(wǎng)絡(luò)信息檢索評測語料庫 建立評測語料庫的必要性 信息檢索是實證學(xué)科 真實規(guī)模的評測語料是算法有效性的保證 研究人員獨立構(gòu)建存在困難 海量網(wǎng)絡(luò)資源抓取 真實用戶需求獲取 大規(guī)模用戶查詢的答案標(biāo)注 建立評測語料庫的可能性 產(chǎn)業(yè)界與研究界的合作 搜索引擎日志被合理應(yīng)用 文本信息檢索會議(TREC) NIST組織的研討文本檢索技術(shù)的國際性論壇 大規(guī)模文本檢
3、索系統(tǒng)的標(biāo)準評測平臺 與網(wǎng)絡(luò)信息檢索相關(guān)的評測語料 VLC track (VLC, VLC2, WT2g, WT10g) 6 years, 300 topics, 100gB Web track (.GOV corpus) 3 years, 550 topics, 1.25 M pages, 18gB Terabyte track (.GOV2 corpus) 3 years, 1800 topics, 27 M pages, 400gB 863中文信息處理與智能人機接口評測 語料庫規(guī)模 30G 數(shù)據(jù) 30個查詢,pooling方式確定答案 4個系統(tǒng)參加評測 現(xiàn)場評測 參與系統(tǒng)少 側(cè)重系統(tǒng)穩(wěn)定
4、性和效率 SEWM評測 北京大學(xué)網(wǎng)絡(luò)實驗室組織 類似TREC的評測架構(gòu) 文本語料庫:CWT100g, CWT200g 去重、去除垃圾,37M網(wǎng)頁 查詢語料庫:來自天網(wǎng)查詢?nèi)罩?2005-2007 三年的時間 1185 導(dǎo)航類查詢 285 信息類查詢 標(biāo)注方式:人工標(biāo)注,pooling方法 經(jīng)驗總結(jié) 文本語料 抓取相對高質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù) VLC2 = WT10g,.GOV, .GOV2,CWT200g 查詢語料 真實反映用戶需求 TREC Web, Terabyte;SEWM 標(biāo)注語料 規(guī)模保證 TREC million query track: efficiency, not effective
5、ness 主要困難 文本語料庫構(gòu)建 規(guī)模問題 Google (8 billion +), Yahoo! (20 billion +), Sogou (10 billion +) 達到Billion/Terabyte量級,保證研究成果的可信性 網(wǎng)頁質(zhì)量篩選 網(wǎng)頁質(zhì)量相對較高:重復(fù)語料、垃圾語料的處理。 輔助語料的構(gòu)建問題 鏈接關(guān)系語料 網(wǎng)頁質(zhì)量評估數(shù)據(jù) 點擊日志信息 主要困難 查詢語料庫構(gòu)建 規(guī)模問題 有充分的代表性 考慮到標(biāo)注工作量 查詢樣例選擇 真實用戶需求 有充分的代表性 覆蓋不同用戶信息需求 主要困難 標(biāo)注語料庫構(gòu)建 Voorhees 估計,對一個規(guī)模為800萬的文檔集合進行針對1個查詢
6、主題的相關(guān)性評判需要耗費1名標(biāo)注人員9個月的工作時間 TREC提出pooling方法,在保證評價結(jié)果可靠性的基礎(chǔ)上大大減少了評判工作量 缺點:處理的查詢數(shù)目少,針對小規(guī)模的查詢集合,仍需要耗費十余名標(biāo)注人員1-2個月的工作時間 設(shè)計思路 海量規(guī)模、符合大多數(shù)研究機構(gòu)的處理能力 能夠代表中文互聯(lián)網(wǎng)的基本情況 能夠代表中文搜索引擎用戶的需求情況 客觀全面評價網(wǎng)絡(luò)信息檢索系統(tǒng)性能 實現(xiàn)思路 利用搜索引擎資源 網(wǎng)頁抓取、查詢?nèi)罩精@取、網(wǎng)頁質(zhì)量評估數(shù)據(jù)獲取 使用自動化的查詢語料標(biāo)注方法 構(gòu)建過程網(wǎng)頁文本語料庫標(biāo)注語料庫查詢語料庫檢索結(jié)果結(jié)果池手工標(biāo)注網(wǎng)頁文本語料庫查詢語料庫標(biāo)注語料庫用戶查詢?nèi)罩咀ト鹘y(tǒng)
7、方式傳統(tǒng)方式SogouT構(gòu)建方式構(gòu)建方式自動標(biāo)注生成 查詢語料庫構(gòu)建 用戶查詢頻度的分布情況 2008年6月的日志數(shù)據(jù) 查詢頻度最高的前10000個查詢詞 用戶查詢總數(shù)的萬分之六點五,覆蓋超過56%的用戶需求 抽樣方式 2008年6月搜狗搜索引擎查詢?nèi)罩?選取查詢量最高的10000個用戶查詢 用戶查詢需求 抽樣標(biāo)注 導(dǎo)航類約占30.6%,信息類約占69.4% 具有充分的代表性 規(guī)模大: 我們所知最大規(guī)模的信息檢索評測查詢集合 覆蓋率高:覆蓋%以上的用戶查詢需求 核心問題: 如何提高結(jié)果標(biāo)注的自動化程度 利用偽相關(guān)反饋的方法進行結(jié)果自動標(biāo)注 偽相關(guān)反饋的結(jié)果被認為是答案 Soboroff et.
8、al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 標(biāo)注的準確程度和可靠性不高 對查詢詞的近義詞集合進行標(biāo)注 根據(jù)結(jié)果網(wǎng)頁的查詢詞及近義詞詞頻進行評判 Amitay et.al, 2004 初始標(biāo)注工作量大,評判的可靠性不高 核心問題: 如何提高結(jié)果標(biāo)注的自動化程度 利用用戶行為分析方法 Joachims et.al.(1997) 創(chuàng)建了一個元搜索接口,將不同搜索引擎的結(jié)果加以混雜,把用戶點擊不同結(jié)果的情況加以記錄,并以此作為評判依據(jù) 用戶行為分析的思路值得肯定 缺點:改變用戶檢索習(xí)慣、個體用戶行為不可靠等 我們的研究思路 通過對搜索引擎記錄下的
9、用戶行為日志進行分析,不額外增加用戶負擔(dān)。 使用用戶群體,而不是個體的點擊行為作為依據(jù) 對查詢集合結(jié)果進行標(biāo)注 個體用戶可能在點擊過程中出現(xiàn)謬誤 用戶群體的點擊信息則是很大程度上可靠的 統(tǒng)計用戶群體的點擊行為,進而對查詢對應(yīng)的結(jié)果進行標(biāo)注 結(jié)果標(biāo)注的可靠性分析 結(jié)果標(biāo)注是否準確 結(jié)果標(biāo)注是否全面 用戶行為的可靠性分析 對導(dǎo)航類查詢 結(jié)果唯一,不存在“找不全”的問題 搜索引擎檢索性能高,點擊準確度較可靠 能夠發(fā)現(xiàn)用戶的關(guān)注熱點,如“163” = “搜狗” = 適合作為搜索性能自動評測的對象 用戶行為的可靠性分析 對信息事務(wù)類查詢(以查詢詞”電影”為例) 不同搜索引擎的點擊分布差異大 存在著搜索引
10、擎對用戶行為的偏置性影響 索引數(shù)據(jù)偏置 檢索策略偏置 結(jié)果不唯一,全面性難以保證 不適合使用單一搜索引擎的日志信息,作為完全自動評測的對象00.05123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27baidugoogleyahoosogou 針對導(dǎo)航類查詢的結(jié)果自動標(biāo)注 利用單個搜索引擎的點擊信息即可完成 焦點假設(shè):不同用戶具有相同的導(dǎo)航類別檢索需求時,他們的點擊都會集中在其檢索目標(biāo)網(wǎng)頁(或其鏡像)上。 網(wǎng)頁r 針對查詢q的點擊集中度 q的點擊集中度最高的r即為其檢索目標(biāo)頁面)
11、(#)(#),(qofSessionrclicksthatqofSessionrResultqQueryClickFocus 針對導(dǎo)航類查詢的結(jié)果自動標(biāo)注 標(biāo)注算法:尋找針對q的ClickFocus值最大的r 標(biāo)注樣例查詢自動標(biāo)注的URL讀寫網(wǎng)http:/ 針對信息事務(wù)類查詢需求的答案自動標(biāo)注 基于多搜索引擎用戶行為挖掘1. 利用單搜索引擎用戶行為挖掘方式,進行各自獨立的標(biāo)注2. 借鑒Pooling做法,綜合不同標(biāo)注者(這里為搜索引擎用戶的宏觀行為)的意見 需要考慮的因素 用戶點擊行為差異 用戶訪問量差異 搜索引擎相對重要性的差異 基于多搜索引擎用戶行為挖掘的標(biāo)注算法 需要考慮的因素 用戶點擊
12、行為差異 用戶訪問量差異 查詢分布差異 搜索引擎相對重要性的差異 綜合考慮以上因素,計算某個結(jié)果對于某個查詢的置信度)/(qurlPi 合并計算結(jié)果url對于查詢q的置信度 基于單搜索引擎進行答案標(biāo)注的可信度 依據(jù)查詢用戶數(shù)來計算jjjiiqSEPqSEurlPqurlP)|(),|()|()|(qSEPjjjjjSEinqofsessionSEinqofsessionqSEP)(log(#)(log(#)|( 單獨某個搜索引擎標(biāo)注答案的可信程度 依據(jù)此搜索引擎的用戶點擊的宏觀集中程度來確定),|(qSEurlPji)(#)(#),|(),|(jjijijiSEinqofSessionSEin
13、urlclickthatqofSessionsqSEurlCDqSEurlP 查詢點擊分布合并模型其中, 反映不同搜索引擎的在結(jié)果標(biāo)注中的重要程度jjjijjjjjjjiiSEinqofSessionSEinurlclickthatqofSessionsSEinqofsessionSEinqofsessionqSEPqSEurlPqurlP)(#)(#)(log(#)(log(#)|(),|()|(j 例:查詢“瘋狂英語”BaiduGoogleY/ / //
14、Sogou合并后的答案標(biāo)注結(jié)果合并后的答案標(biāo)注結(jié)果/ / 實驗數(shù)據(jù) Sogou搜索8個月查詢?nèi)罩?超過7億條日志信息) 針對其中高頻導(dǎo)航類查詢進行自動標(biāo)注 對每個時間段抽取約5%的數(shù)據(jù)進行手工檢查時間段時間段標(biāo)注查詢數(shù)標(biāo)注查詢數(shù)檢驗樣例檢驗樣例數(shù)數(shù)樣例集合樣例集合準確度準確度Jun. 06 - Aug. 0613,902695 98.13%Sept.06 - Nov. 0613,884694 97.41%Dec. 06 - Jan. 0711,296565 96.64% 與手工評價結(jié)果類似 利用用戶群體行為分析方法
15、進行搜索引擎自動性能評價是可行的 SogouT自動標(biāo)注語料庫 10000個查詢主題,65465個標(biāo)注答案 抽樣其中5%的查詢進行檢查(500個) 由兩名標(biāo)注人員手工檢查(1人標(biāo)注,1人檢查)總數(shù)標(biāo)注錯誤 標(biāo)注正確正確率信息類查詢對應(yīng)的答案10114296995.85%導(dǎo)航類查詢對應(yīng)的答案3652534093.15% 文本語料庫構(gòu)建 網(wǎng)頁抓取 網(wǎng)絡(luò)爬蟲種子選取策略 標(biāo)注語料庫所包含的65465個網(wǎng)頁 Sogou網(wǎng)絡(luò)爬蟲種子集合所包含的網(wǎng)站 防止爬蟲黑洞 必要的垃圾網(wǎng)頁過濾(黑名單) 必要的低質(zhì)量頁面、無內(nèi)容網(wǎng)頁過濾(爬蟲判斷) 只抓取HTML網(wǎng)頁內(nèi)容 抓取到約1億網(wǎng)頁時停止 文本語料庫構(gòu)成 1.
16、387億網(wǎng)頁 存儲空間約5 Terabyte,gzip壓縮后約1.01 Terabyte 鏈接關(guān)系圖 鏈接關(guān)系數(shù)目約33.4億條 存儲空間約24 Gigabyte (gzip壓縮) 網(wǎng)頁質(zhì)量評估數(shù)據(jù) 所有網(wǎng)頁對應(yīng)的SogouRank值(site-based PageRank) SogouT語料獲取 文本語料:http:/ 7z壓縮后約500G,硬盤方式發(fā)布,需交納硬盤成本費約500元。 鏈接關(guān)系:http:/ 與文本語料共同發(fā)布 查詢語料與標(biāo)注語料 訓(xùn)練集:http:/ 500個經(jīng)過手工檢驗的查詢及對應(yīng)答案 更大規(guī)模的查詢與標(biāo)注語料如何獲??? “搜索儀”在線評測系統(tǒng) http:/searchE
17、 2008年11月底左右推出 SogouE1:500個查詢對應(yīng)的標(biāo)注語料 SogouE2:3000個查詢對應(yīng)的標(biāo)注語料 SogouE3:6500個查詢對應(yīng)的標(biāo)注語料 “搜索儀”在線評測系統(tǒng) 用戶注冊后,即可獲取SogouE1 SogouE3對應(yīng)的查詢語料(只有SogouE1對應(yīng)的標(biāo)注語料) 用戶根據(jù)SogouE1對檢索系統(tǒng)進行訓(xùn)練,并改進系統(tǒng)設(shè)計與算法 用戶隨時提交對查詢語料進行檢索得到的檢索結(jié)果,并獲得根據(jù)SogouE2即時反饋的檢索評價 搜索儀網(wǎng)站根據(jù)評價結(jié)果對用戶系統(tǒng)進行排名并隨時公布、更新。 “搜索儀”在線評測系統(tǒng) 定期召開的信息檢索與內(nèi)容安全全國會議(NCIRCS)上,組織專門的評測論壇 使用SogouE3對用戶提交的結(jié)果進行進一步驗證 邀請系統(tǒng)性能領(lǐng)先的研究人員進行交流 Http:/searchE Http:/searchE 主要特點 客觀真實反映搜索引擎總體性能 近似即時反饋 查詢語料規(guī)模大,且隨用戶關(guān)注情況更新,反映熱點 功能演示!搜狗實驗室網(wǎng)站:http:/ Online at: http:/ Liu, Yupeng Fu, Min Zhang, Shaoping Ma, Liyun Ru. Au
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025股份轉(zhuǎn)讓合同
- 煤礦集中檢修方案
- 襄陽防腐木屋施工方案
- 青島垂直植物墻施工方案
- 2024-2025學(xué)年高中歷史 專題八 當(dāng)今世界經(jīng)濟的全球化趨勢 第三課 經(jīng)濟全球化的世界說課稿 人民版必修2
- 凈化設(shè)備合同范例
- 28 棗核 說課稿-2023-2024學(xué)年統(tǒng)編版語文三年級下冊
- Unit 3 Fit for life Welcome to the unit 說課稿-2024-2025學(xué)年高中英語譯林版(2020)選擇性必修第二冊
- 橋面防腐木施工方案
- 線性系統(tǒng)理論鄭大鐘第二版
- 寧騷公共政策學(xué)完整版筆記
- 走進奧運奧運知識簡介
- 項目負責(zé)人考試題庫含答案
- GB/T 7251.5-2017低壓成套開關(guān)設(shè)備和控制設(shè)備第5部分:公用電網(wǎng)電力配電成套設(shè)備
- 2023年湖南高速鐵路職業(yè)技術(shù)學(xué)院高職單招(數(shù)學(xué))試題庫含答案解析
- 中考語文非連續(xù)性文本閱讀10篇專項練習(xí)及答案
- 勇者斗惡龍9(DQ9)全任務(wù)攻略
- 經(jīng)顱磁刺激的基礎(chǔ)知識及臨床應(yīng)用參考教學(xué)課件
- 小學(xué)語文人教四年級上冊第四單元群文閱讀“神話故事之人物形象”PPT
- ISO 31000-2018 風(fēng)險管理標(biāo)準-中文版
評論
0/150
提交評論