




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、網(wǎng)頁搜索評(píng)測方法介紹提 綱 評(píng)測詞選取 Fitness評(píng)測 NDCG評(píng)測 整體人工評(píng)測 Case跟蹤 盲測 在線相關(guān)性監(jiān)測評(píng)測詞選取評(píng)測詞選取(1/7)1.介紹 評(píng)測系統(tǒng)的源頭,影響評(píng)測結(jié)果的可信度和準(zhǔn)確性。 進(jìn)行科學(xué)客觀的檢索串抽樣,盡可能覆蓋用戶實(shí)際的檢 索分布。 特征維度:頻次、長度、類型、類別、時(shí)間評(píng)測詞選取評(píng)測詞選取(1/7)2.分類 導(dǎo)航型(navigation) 檢索意圖明確,準(zhǔn)確定位目標(biāo)網(wǎng)站(I want to go xxx) 示例:QQ郵箱、新浪網(wǎng)、北京大學(xué) 信息型(information) 查找圍繞關(guān)鍵詞的全方位描述,以期對(duì)該關(guān)鍵詞有所了解 (I want to know
2、about xxx) 示例:劉謙、士兵突擊、九寨溝評(píng)測詞選取評(píng)測詞選取(1/7)2.分類(續(xù)) 事務(wù)型(transaction) 檢索意圖明確,只是不知道該需求應(yīng)該在哪個(gè)網(wǎng)站獲得 (I want to get xxx) 示例:2009考研大綱、超級(jí)兔子下載、越獄在線觀看 常規(guī)型(common) 檢索意圖不明確、類型特征模糊、錯(cuò)誤串等評(píng)測詞選取評(píng)測詞選取(1/7)3.方法FitnessFitness評(píng)測評(píng)測(2/7)1.介紹 計(jì)算兩個(gè)排序之間的擬合度 綜合考慮位置得分、位置和相對(duì)位置 自主設(shè)計(jì) 每個(gè)query在兩家引擎結(jié)果的擬合度 多個(gè)query在兩家引擎結(jié)果的平均擬合度FitnessFitne
3、ss評(píng)測評(píng)測(2/7)2.計(jì)算公式njjjjjiiselfrankstdrankselfrankweightNFitness1*)1 () 1|(|*1其中:a:為可調(diào)參數(shù),0a j ,并且第i項(xiàng)權(quán)值大于第j項(xiàng),則第i和第j項(xiàng)稱為一個(gè)逆序?qū)?。fn(a,b) 定義為查詢詞 返回結(jié)果的權(quán)值序列中區(qū)間 a, b 內(nèi)的逆序?qū)φ伎倲?shù)對(duì)的比例。則 NnnfNRPR1)10, 1 (110整體人工評(píng)測整體人工評(píng)測(4/7)5)指標(biāo)MSL10含義:Mean Search Length,平均查找長度。該值越大表明引擎的相關(guān)性越差。計(jì)算方法:對(duì)于每個(gè)查詢詞qn(n=1,N),在第k家搜索引擎,定義第一條得分大于1
4、(Excellent/Good)的結(jié)果出現(xiàn)的位置為Pkn,則 NnknPNkMSL11)(10整體人工評(píng)測整體人工評(píng)測(4/7)3.2覆蓋度指標(biāo)1)指標(biāo)DPR10含義:Duplicate Rate,結(jié)果重復(fù)率。計(jì)算方法:若兩條結(jié)果內(nèi)容相同,則認(rèn)為兩者重復(fù)。對(duì)于每個(gè)查詢詞qn(n=1,N),在第k家搜索引擎,定義重復(fù)結(jié)果數(shù)為Dkn,(抓取前10條)實(shí)際返回結(jié)果數(shù)為Ckn,則NnknknCDNkDPR11)(10整體人工評(píng)測整體人工評(píng)測(4/7)2)指標(biāo)LAC10含義:Lack,未達(dá)鏈率,返回結(jié)果未達(dá)10條的查詢詞數(shù)占總查詢詞數(shù)的比例。計(jì)算方法:需要返回10條結(jié)果,但對(duì)于查詢qn(n=1,N),搜
5、索引擎k返回的實(shí)際結(jié)果數(shù)為Ckn,則LAC10計(jì)算如下:其中,NnnqfNkLAC1)(1)(10)10()10(,10)(knknnCifCifqf整體人工評(píng)測整體人工評(píng)測(4/7)3)指標(biāo)DSR含義:Displayed Search Result Number,引擎自身顯示的平均返回結(jié)果數(shù)。計(jì)算方法:對(duì)于查詢qn(n=1,N),抓取搜索引擎k返回頁面顯示的結(jié)果數(shù)為Cnk,則NnnkCNkDSR11)(整體人工評(píng)測整體人工評(píng)測(4/7)4)指標(biāo)ASR含義:Actual Search Result Number,引擎實(shí)際返回的平均結(jié)果數(shù)計(jì)算方法:構(gòu)造一個(gè)晦澀查詢詞表(由M個(gè)返回結(jié)果數(shù)在1至40
6、0的詞語構(gòu)成),對(duì)于其中的每個(gè)查詢詞qn(n=1,M),在同一天抓取各個(gè)引擎實(shí)際返回的結(jié)果數(shù)Cnk,則MnnkCMkASR11)(整體人工評(píng)測整體人工評(píng)測(4/7)3.3時(shí)新度指標(biāo)1)指標(biāo)MAG10含義:Mean Age,結(jié)果頁面的平均年齡。計(jì)算方法:對(duì)于每個(gè)查詢詞qn(n=1,N),在第k家搜索引擎的第i條結(jié)果記為Rkni,f(Rkni)定義為第i條結(jié)果的年齡,計(jì)算方法為:從快照庫中獲取引擎抓取該條結(jié)果的時(shí)間戳,以天為單位計(jì)算與當(dāng)前日期的時(shí)間差。則NnikniRfNkMAG1101)(1011)(10整體人工評(píng)測整體人工評(píng)測(4/7)2)指標(biāo)MDR10含義:Mean Dead Rate,首頁
7、死鏈率(可根據(jù)位置加權(quán))。計(jì)算方法:對(duì)于每個(gè)查詢詞qn(n=1,N),在第k家搜索引擎的第i條結(jié)果記為Rkni,則NnikniRfNkMDR1101)(1011)(10)()(,01)(不是死鏈為死鏈kniknikniRifRifRf整體人工評(píng)測整體人工評(píng)測(4/7)3)指標(biāo)NAP10含義:New Average Precision,新詞及熱點(diǎn)詞查詢準(zhǔn)確率。計(jì)算方法:對(duì)于每個(gè)查詢詞qn(n=1,N),在第k家搜索引擎的第i條結(jié)果記為Rkni,則其中, U為標(biāo)準(zhǔn)答案集合。)()(,01)(URifURifiRfkniknikniNnikniRfNkNAP1101)(1011)(10整體人工評(píng)測整
8、體人工評(píng)測(4/7)4)指標(biāo)HHIT含義:Hot Hit,熱點(diǎn)命中率計(jì)算方法:用最新網(wǎng)頁在各搜索引擎中的命中率來衡量搜索結(jié)果的新鮮度指標(biāo)。采取抽樣方法,選取一定數(shù)量的最新網(wǎng)頁,建立樣本池,各搜索引擎對(duì)樣本池中網(wǎng)頁的平均命中率可以作為衡量新鮮度的指標(biāo)之一。整體人工評(píng)測整體人工評(píng)測(4/7)3.4展示功能指標(biāo)1)指標(biāo)THR10含義:Title Highlighted Rate,查詢詞在結(jié)果標(biāo)題中高亮顯示的比例。計(jì)算方法:對(duì)于長度小于8bytes(四個(gè)漢字)的每個(gè)查詢詞qn(n=1,N),在第k家搜索引擎的第i條結(jié)果記為Rkni,則NnikniRfNkTHR1101)(1011)(10otherwi
9、se)(,01)(標(biāo)題高亮顯示查詢詞knikniRifRf整體人工評(píng)測整體人工評(píng)測(4/7)2)指標(biāo)AHR10含義:Abstract Highlighted Rate,查詢詞在結(jié)果摘要中高亮顯示的比例。計(jì)算方法:對(duì)于長度小于8 bytes(四個(gè)漢字)的每個(gè)查詢詞qn(n=1,N),在第k家搜索引擎的第i條結(jié)果記為Rkni,則NnikniRfNkAHR1101)(1011)(10otherwise)(,01)(摘要高亮顯示查詢詞knikniRifRf整體人工評(píng)測整體人工評(píng)測(4/7)3.5用戶行為指標(biāo)1)指標(biāo)RCTR含義:Result Click Through Rate,用戶在返回結(jié)果鏈接中的
10、點(diǎn)擊率。計(jì)算方法:對(duì)于用戶查詢行為輸入的每個(gè)查詢詞qn(n=1,N),用戶在搜索引擎返回頁面中點(diǎn)擊的結(jié)果鏈接數(shù)為Cn ,則NnnCNRCTR11整體人工評(píng)測整體人工評(píng)測(4/7)2)指標(biāo)TRCTR含義:Top Result Click Through Rate,用戶在前10條返回結(jié)果中的點(diǎn)擊率。計(jì)算方法:對(duì)于用戶查詢行為輸入的每個(gè)查詢詞qn(n=1,N),用戶在搜索引擎返回的前10條結(jié)果中點(diǎn)擊的結(jié)果鏈接數(shù)為Cn,則NnnCNTRCTR11整體人工評(píng)測整體人工評(píng)測(4/7)3)指標(biāo)ATCTR含義:Also Try CTR,推薦相關(guān)詞的點(diǎn)擊率。計(jì)算方法: 對(duì)于用戶查詢行為輸入的每個(gè)查詢詞qn(n=
11、1,N),用戶在搜索引擎返回的結(jié)果頁面中點(diǎn)擊推薦查詢詞的次數(shù)為Cn ,則NnnCNATCTR11整體人工評(píng)測整體人工評(píng)測(4/7)4)指標(biāo)SCTR含義:Spelling CTR,拼寫提示詞點(diǎn)擊率。計(jì)算方法:對(duì)于用戶查詢行為輸入的每個(gè)查詢詞qn(n=1,N),用戶在搜索引擎返回的結(jié)果頁面中點(diǎn)擊拼寫提示詞的次數(shù)為Cn ,則NnnCNSCTR11整體人工評(píng)測整體人工評(píng)測(4/7)5)指標(biāo)RRLC含義:Reciprocal Rank of Last Click,最后一次點(diǎn)擊結(jié)果鏈接的位置倒數(shù)。計(jì)算方法:對(duì)于用戶查詢行為輸入的每個(gè)查詢詞qn(n=1,N),用戶在搜索引擎返回的結(jié)果中最后一次點(diǎn)擊的鏈接的位
12、置為 Pn,則NnnPNRRLC111整體人工評(píng)測整體人工評(píng)測(4/7)3.6結(jié)果2009.02.10部分相關(guān)性指標(biāo)CaseCase跟蹤跟蹤(5/7)1.介紹 Case跟蹤,即針對(duì)檢索串及其檢索結(jié)果在我們引擎和對(duì)手引擎中的狀態(tài)跟蹤和相關(guān)性分析 主要用于收集相關(guān)性效果不好的案例,分析產(chǎn)生的具體原因,并分配到相關(guān)人員予以解決 是確定下一步搜索引擎優(yōu)化方向的依據(jù)和驅(qū)動(dòng)之一CaseCase跟蹤跟蹤(5/7)1.介紹(續(xù)) 將搜搜和百度結(jié)果差別較大的檢索串,提交給自動(dòng)分析程序和質(zhì)量專員分析具體原因 周期性自動(dòng)輸出報(bào)表,匯集bug問題給相關(guān)負(fù)責(zé)人處理,并自動(dòng)輸出到bugtrace 對(duì)質(zhì)量專員要求高,涉及相
13、關(guān)性、平臺(tái)、下載多類數(shù)據(jù)和多個(gè)系統(tǒng) 全面、精準(zhǔn)、耗時(shí)費(fèi)力CaseCase跟蹤跟蹤(5/7)2.系統(tǒng)CaseCase跟蹤跟蹤(5/7)2.系統(tǒng)(續(xù))CaseCase跟蹤跟蹤(5/7)2.系統(tǒng)(續(xù))CaseCase跟蹤跟蹤(5/7)2.系統(tǒng)(續(xù))CaseCase跟蹤跟蹤(5/7)2.系統(tǒng)(續(xù))CaseCase跟蹤跟蹤(5/7)2.系統(tǒng)(續(xù))CaseCase跟蹤跟蹤(5/7)2.系統(tǒng)(續(xù))盲測盲測(6/7)1.介紹 Side by Side Logo-Hide 以實(shí)際用戶體驗(yàn)衡量引擎的整體質(zhì)量 決定能否上線的重要依據(jù) 內(nèi)部用戶到外部用戶盲測盲測(6/7)2.系統(tǒng)盲測盲測(6/7)2.系統(tǒng)(續(xù))盲測盲測(6/7)3.結(jié)果在線相關(guān)性監(jiān)測在線相關(guān)性監(jiān)測(7/7)1.介紹 實(shí)時(shí)相關(guān)性監(jiān)測 :fitness指標(biāo) 五種類別:導(dǎo)航、信息、事務(wù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋁瓶項(xiàng)目可行性分析報(bào)告(模板參考范文)
- 直線形隔膜閥行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報(bào)告
- 2020-2025年中國多旋翼無人機(jī)行業(yè)發(fā)展趨勢預(yù)測及投資戰(zhàn)略咨詢報(bào)告
- 危險(xiǎn)化學(xué)品企業(yè)重大危險(xiǎn)源安全評(píng)估報(bào)告
- 軟包鋰電池鋁塑膜新建項(xiàng)目可行性研究報(bào)告建議書申請(qǐng)格式范文
- 中國藥皂市場競爭格局及投資戰(zhàn)略規(guī)劃報(bào)告
- “十三五”重點(diǎn)項(xiàng)目-工藝性項(xiàng)目可行性研究報(bào)告
- 中國硫酸銨行業(yè)發(fā)展?jié)摿Ψ治黾巴顿Y方向研究報(bào)告
- 2025年建筑裝飾石開采行業(yè)深度研究分析報(bào)告
- 中國客戶關(guān)系系統(tǒng)行業(yè)市場全景評(píng)估及發(fā)展戰(zhàn)略研究報(bào)告
- 北京體育職業(yè)學(xué)院《機(jī)器人操作系統(tǒng)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025安徽雙鶴藥業(yè)限責(zé)任公司招聘30人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2022年RDPAC認(rèn)證考試備考題庫700題(含答案)
- 2025年春新外研版(三起)英語三年級(jí)下冊課件 Unit2第2課時(shí)Speedup
- 人教版(新)九年級(jí)下冊化學(xué)全冊教案教學(xué)設(shè)計(jì)及教學(xué)反思
- 2025年浙江省國土空間規(guī)劃研究院招聘歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年安徽省安慶市公安警務(wù)輔助人員招聘190人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 7.1力教學(xué)課件-2024-2025學(xué)年初中物理人教版八年級(jí)下冊
- 小學(xué)生勤儉節(jié)約課件
- 化工行業(yè)生產(chǎn)過程安全管理升級(jí)策略方案
- 慢性胰腺炎病教學(xué)查房
評(píng)論
0/150
提交評(píng)論