版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
信息獲取技術(shù)的評估
(RetrievalEvaluation)李曉明,北京大學(xué)信息科學(xué)技術(shù)學(xué)院2004年12月2日1信息獲取技術(shù)的評估
(RetrievalEvaluatio提要引言常用的評估指標評估的實踐(評測)2提要引言2引言關(guān)于IR領(lǐng)域文本技術(shù)系統(tǒng)用戶(普通,大量)文本語義的豐富性(以及文本集合本身的變化),用戶需求的多樣性,模型的簡單化系統(tǒng)表現(xiàn)的終極評判在于它們所針對的用戶群的評價(大量,長時間)對系統(tǒng)的評估常常是基于對所包含各項技術(shù)評估基礎(chǔ)上的無論是從研究方法還是工程實踐的角度,我們都需要能夠評估各個單項技術(shù)對系統(tǒng)行為可能的貢獻更進一步地,若能將設(shè)計指標和評價指標結(jié)合起來則最好3引言關(guān)于IR領(lǐng)域3System=t1+t2+…+tl系統(tǒng)包含若干技術(shù),t某人發(fā)明了一個新的t,評價它的方式:用它替換系統(tǒng)中的相應(yīng)技術(shù),看對總的效果的貢獻單獨在一個評測環(huán)境中評價前者往往代價較高(時間,費用)例如研究搜索引擎排序算法的不一定有機會擺弄真正的,有大規(guī)模用戶的搜索引擎后者可能和真實系統(tǒng)應(yīng)用有距離能對這距離有把握也行4System=t1+t2+…+tl系統(tǒng)包含若干技評估(技術(shù),系統(tǒng))用戶關(guān)心(系統(tǒng)的):F={f1,f2,…,fn}相關(guān)性,新穎性,完整性,速度,…但代價等原因使完整的評估比較困難我們要確定(技術(shù)的):G={g1,g2,…,gm}較小的代價能完成對它們的測試對它們測試的結(jié)果和f1,f2,…,fn有很好的對應(yīng)最好還能有一套設(shè)計指標:P={p1,p2,…,pk}能使我們心里有數(shù):它們實現(xiàn)的程度對g1,g2,…,gm貢獻的關(guān)系(防止“irrelevance”)5評估(技術(shù),系統(tǒng))用戶關(guān)心(系統(tǒng)的):F={f1,f2,汽車用戶關(guān)心:速度,啟動加速度,剎車距離,…發(fā)動機測試:轉(zhuǎn)速,扭矩,馬力發(fā)動機設(shè)計:排量,氣缸數(shù),點火方式,…汽車工業(yè)的實踐已經(jīng)證明了它們之間對應(yīng)關(guān)系的有效性(盡管不是100%)6汽車用戶關(guān)心:速度,啟動加速度,剎車距離,…6計算機用戶關(guān)心:速度性能測試:SPEC設(shè)計:主頻,CPI,字長,Cache大小,…計算機工業(yè)的實踐也基本證明它們的對應(yīng)關(guān)系是有效的7計算機用戶關(guān)心:速度7大學(xué)用戶(社會)關(guān)心:培養(yǎng)能夠為人類社會的進步充分發(fā)揮潛能的人測試:政府高級官員的數(shù)量,大文豪、大科學(xué)家的數(shù)量,…設(shè)計的具體追求:得獎數(shù),發(fā)表論文數(shù)(影響因子),博士學(xué)位獲得者人數(shù),科研經(jīng)費數(shù),…實踐證明如何?8大學(xué)用戶(社會)關(guān)心:培養(yǎng)能夠為人類社會的進步充分發(fā)揮潛能的評估不斷地對現(xiàn)有的F,G,P(及其相互關(guān)系)提出疑問,提出改進,是研究評估的人們應(yīng)該考慮的基本任務(wù)我們需要了解現(xiàn)在的F,G,P是些什么(如何定義的,如何能得到),但僅此不夠。事物都是在一個“目的”和“手段”鏈中發(fā)展的,這種鏈接關(guān)系的緊密程度就決定了達到目的的優(yōu)化程度(效果、效率)9評估不斷地對現(xiàn)有的F,G,P(及其相互關(guān)系)提出疑問,提信息獲取技術(shù)評估的“森林”10信息獲取技術(shù)評估的“森林”10以批判的眼光看Pr,Re,F“Precisionandrecallhavebeenusedextensivelytoevaluatetheretrievalperformanceofretrievalalgorithms.However,amorecarefulreflectionrevealsproblemswiththesetwomeasures.”(page81,ModernInformationRetrieval)11以批判的眼光看Pr,Re,F“Precisionandr先回顧它們的定義和計算要評價技術(shù)T,對于給定的查詢,q,總體文檔集合D記R:D中和q相關(guān)文檔的集合,|R|:R的大小A:算法T獲取的文檔集合,|A|:A的大小|Ra|:R和A交集的大小12先回顧它們的定義和計算要評價技術(shù)T,對于給定的查詢,q,總體查準率和召回率基礎(chǔ)定義圖示CollectionAnswerSet|A|RelevantDocs|R|RelevantDocsinAnswerSet|Ra|13查準率和召回率基礎(chǔ)定義圖示CollectionAnswer需要考慮的幾個問題定義了,不等于能算了如何算得針對(Q,D)的Pr,Re?另外,人們認為在一定的排序意義上考察Pr,Re更有意義。“rankedA”,沿著這個rank,考察“查準率(精度)隨召回率變化的情況”符合許多IR系統(tǒng)的實際情況,通常都會在結(jié)果集合上定義一個序14需要考慮的幾個問題定義了,不等于能算了141515平均精度對recall增加時對應(yīng)的精度求平均值和“原始定義”的區(qū)別?這樣的“平均精度”有什么不好?16平均精度對recall增加時對應(yīng)的精度求平均值這樣的“平均精“針對11點標準召回率的精度”人們建議在一些特殊的點上給出Re和Pr的關(guān)系Re=0%,10%,…,100%,對應(yīng)的Pr于是就能很方便地講“召回率為20%的時候精度為X”之類的結(jié)論也還有“3點標準”的說法:25%,50%,75%如果D中相關(guān)文檔的個數(shù)是10的倍數(shù),且如果算法給出的“RankedA”包含了所有相關(guān)文檔,得到這些點就會很簡單;否則要考慮如何插值的問題17“針對11點標準召回率的精度”人們建議在一些特殊的點上給出R“省事的”例子D={d1,…,d1000},對查詢q,所有相關(guān)文檔集合(共10個元素):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}查詢的返回結(jié)果序:d123*,d84,d56*,d6,d8,d9*,d511,d5*,d39*,d129,d187,d25*,d38,d44*,d57,d71*,d48,d250,d113,d3*,d200,d144,d11,d89*,d1Ranking:*^*^^*^**^^*^*^*^^^*^^^*^Recall:.1.1.2.2.2.3.3.4.5.5.5.6.6.7.7.8.8.8.8.9.9.9.911Precisio:1.5.67.5.4.5.43.5.55.5.45.5.46.5.46.5.47.5.42.45.43.41.39.42.418“省事的”例子D={d1,…,d1000},對查詢q,所有相11standardrecalllevel其實只有10個點??1911standardrecalllevel其實只有10但實際上經(jīng)常不是這樣得到的結(jié)果集合不包含所有的相關(guān)元素實踐上常常只是返回排序較高的若干元素因此不能得到需要的recall值D中相關(guān)元素的個數(shù)不是10的倍數(shù)于是能直接得到的recall值不一定包含0%,10%,20%,30%,…,100%20但實際上經(jīng)常不是這樣得到的結(jié)果集合不包含所有的相關(guān)元素20例子所有相關(guān)文檔集合(共10個元素):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}只能得到5個有效的recall值:10%,20%,30%,40%,50%對查詢q返回的結(jié)果序:d123*d84d56*d6d8d9*d511d129d187d25*d38d48d250d113d3*21例子所有相關(guān)文檔集合(共10個元素):Rq={d3,d2222插值(interpolation)目標是在11個標準召回率上都有精度值可以想出各種“合理的”方法(例如將已知的點連起來),不同的方法結(jié)果會不一樣(因此做比較時要講清楚)P(rj)=maxP(r),rj≤r≤rj+1取在下一個標準召回率之間的已知召回率對應(yīng)的最大精度值P(rj)=maxP(r),rj≤r取往后的已知召回率對應(yīng)的最大的精度值(這得到的是階梯函數(shù),單調(diào)性。如何考慮返回的結(jié)果不包括所有相關(guān)文檔?23插值(interpolation)目標是在11個標準召回率上我們最終關(guān)心對Q的總體情況ri取標準召回率,Nq是所考察Q的大小。這樣得到一個技術(shù)(算法)在(Q,D)上精度的宏觀表現(xiàn)24我們最終關(guān)心對Q的總體情況ri取標準召回率,Nq是所考察Q的F指數(shù)用一個量來表示precision和recall的綜合效果How?人們定義:為什么不是:25F指數(shù)用一個量來表示precision和recall的綜合效A(P,R)和H(P,R)并不一致例如:P1=0.1,R1=0.83:A(P1,R1)=0.42,H(P1,R1)=0.197;P2=0.3,R2=0.3:A(P2,R2)=0.3,H(P2,R2)=0.3也就是說,A(P1,R1)>A(P2,R2),但H(P1,R1)<H(P2,R2)(當然也可以舉出它們一致的例子)26A(P,R)和H(P,R)并不一致例如:26指標定義的傾向在P+R一定的情況下,希望它們接近。換句話說,這個指標不掩蓋P,R一個方面特別的不足27指標定義的傾向在P+R一定的情況下,希望它們接近。換句話說,召回不足分子小精度不夠分母大28召回不足分子小28基于P,R,F的評估小結(jié)給定包含一個新算法的IR系統(tǒng)(測試),一個測試文檔集合D,一個查詢集合Q={q}一個事先確定的相關(guān)集合的集合G(Q)我們確定這個算法的P-R圖和F值29基于P,R,F的評估小結(jié)給定29流程對于Q的每一個元素q:得到一個有序結(jié)果集s(q)=<d1,d2,…dq>與G(q)對比,依序計算s(q)中元素的r[i]和p[i],i=1,2,…,q選擇一種合適的插值方式,得到p[i]在r=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1處的插值如果r[q]<>1,則令它其后的標準點上的p=0對Q的所有元素,在標準召回點上求p的平均值給出平均值的統(tǒng)計表和P-R圖30流程對于Q的每一個元素q:303131還要算F:得出一個數(shù)對每一個查詢q,得到標準召回點上的F,即Fq(i)=2*p[i]*r(i)/(p(i)+r(i)),i=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1在查詢內(nèi)求平均(micro-average)Fq=∑Fq(i),i=0,.1,.2,…,.9,1進一步在查詢間求平均(macro-average)F=∑Fq,q∈Q32還要算F:得出一個數(shù)對每一個查詢q,32困難與不適有可能D和Q太大,得出G(Q)代價太高“相關(guān)”的含義因人而異如此定義的P,R,F適于“批處理”評估,沒有體現(xiàn)交互式信息檢索過程(現(xiàn)代IR系統(tǒng)的典型特征)如此定義的P,R,F依賴于返回結(jié)果的線性序,但有些系統(tǒng)不一定有這樣的序什么是評估搜索引擎排序算法最好的方法(如果你沒有搜索引擎的話)?33困難與不適有可能D和Q太大,得出G(Q)代價太高333434演講完畢,謝謝觀看!演講完畢,謝謝觀看!信息獲取技術(shù)的評估
(RetrievalEvaluation)李曉明,北京大學(xué)信息科學(xué)技術(shù)學(xué)院2004年12月2日36信息獲取技術(shù)的評估
(RetrievalEvaluatio提要引言常用的評估指標評估的實踐(評測)37提要引言2引言關(guān)于IR領(lǐng)域文本技術(shù)系統(tǒng)用戶(普通,大量)文本語義的豐富性(以及文本集合本身的變化),用戶需求的多樣性,模型的簡單化系統(tǒng)表現(xiàn)的終極評判在于它們所針對的用戶群的評價(大量,長時間)對系統(tǒng)的評估常常是基于對所包含各項技術(shù)評估基礎(chǔ)上的無論是從研究方法還是工程實踐的角度,我們都需要能夠評估各個單項技術(shù)對系統(tǒng)行為可能的貢獻更進一步地,若能將設(shè)計指標和評價指標結(jié)合起來則最好38引言關(guān)于IR領(lǐng)域3System=t1+t2+…+tl系統(tǒng)包含若干技術(shù),t某人發(fā)明了一個新的t,評價它的方式:用它替換系統(tǒng)中的相應(yīng)技術(shù),看對總的效果的貢獻單獨在一個評測環(huán)境中評價前者往往代價較高(時間,費用)例如研究搜索引擎排序算法的不一定有機會擺弄真正的,有大規(guī)模用戶的搜索引擎后者可能和真實系統(tǒng)應(yīng)用有距離能對這距離有把握也行39System=t1+t2+…+tl系統(tǒng)包含若干技評估(技術(shù),系統(tǒng))用戶關(guān)心(系統(tǒng)的):F={f1,f2,…,fn}相關(guān)性,新穎性,完整性,速度,…但代價等原因使完整的評估比較困難我們要確定(技術(shù)的):G={g1,g2,…,gm}較小的代價能完成對它們的測試對它們測試的結(jié)果和f1,f2,…,fn有很好的對應(yīng)最好還能有一套設(shè)計指標:P={p1,p2,…,pk}能使我們心里有數(shù):它們實現(xiàn)的程度對g1,g2,…,gm貢獻的關(guān)系(防止“irrelevance”)40評估(技術(shù),系統(tǒng))用戶關(guān)心(系統(tǒng)的):F={f1,f2,汽車用戶關(guān)心:速度,啟動加速度,剎車距離,…發(fā)動機測試:轉(zhuǎn)速,扭矩,馬力發(fā)動機設(shè)計:排量,氣缸數(shù),點火方式,…汽車工業(yè)的實踐已經(jīng)證明了它們之間對應(yīng)關(guān)系的有效性(盡管不是100%)41汽車用戶關(guān)心:速度,啟動加速度,剎車距離,…6計算機用戶關(guān)心:速度性能測試:SPEC設(shè)計:主頻,CPI,字長,Cache大小,…計算機工業(yè)的實踐也基本證明它們的對應(yīng)關(guān)系是有效的42計算機用戶關(guān)心:速度7大學(xué)用戶(社會)關(guān)心:培養(yǎng)能夠為人類社會的進步充分發(fā)揮潛能的人測試:政府高級官員的數(shù)量,大文豪、大科學(xué)家的數(shù)量,…設(shè)計的具體追求:得獎數(shù),發(fā)表論文數(shù)(影響因子),博士學(xué)位獲得者人數(shù),科研經(jīng)費數(shù),…實踐證明如何?43大學(xué)用戶(社會)關(guān)心:培養(yǎng)能夠為人類社會的進步充分發(fā)揮潛能的評估不斷地對現(xiàn)有的F,G,P(及其相互關(guān)系)提出疑問,提出改進,是研究評估的人們應(yīng)該考慮的基本任務(wù)我們需要了解現(xiàn)在的F,G,P是些什么(如何定義的,如何能得到),但僅此不夠。事物都是在一個“目的”和“手段”鏈中發(fā)展的,這種鏈接關(guān)系的緊密程度就決定了達到目的的優(yōu)化程度(效果、效率)44評估不斷地對現(xiàn)有的F,G,P(及其相互關(guān)系)提出疑問,提信息獲取技術(shù)評估的“森林”45信息獲取技術(shù)評估的“森林”10以批判的眼光看Pr,Re,F“Precisionandrecallhavebeenusedextensivelytoevaluatetheretrievalperformanceofretrievalalgorithms.However,amorecarefulreflectionrevealsproblemswiththesetwomeasures.”(page81,ModernInformationRetrieval)46以批判的眼光看Pr,Re,F“Precisionandr先回顧它們的定義和計算要評價技術(shù)T,對于給定的查詢,q,總體文檔集合D記R:D中和q相關(guān)文檔的集合,|R|:R的大小A:算法T獲取的文檔集合,|A|:A的大小|Ra|:R和A交集的大小47先回顧它們的定義和計算要評價技術(shù)T,對于給定的查詢,q,總體查準率和召回率基礎(chǔ)定義圖示CollectionAnswerSet|A|RelevantDocs|R|RelevantDocsinAnswerSet|Ra|48查準率和召回率基礎(chǔ)定義圖示CollectionAnswer需要考慮的幾個問題定義了,不等于能算了如何算得針對(Q,D)的Pr,Re?另外,人們認為在一定的排序意義上考察Pr,Re更有意義。“rankedA”,沿著這個rank,考察“查準率(精度)隨召回率變化的情況”符合許多IR系統(tǒng)的實際情況,通常都會在結(jié)果集合上定義一個序49需要考慮的幾個問題定義了,不等于能算了145015平均精度對recall增加時對應(yīng)的精度求平均值和“原始定義”的區(qū)別?這樣的“平均精度”有什么不好?51平均精度對recall增加時對應(yīng)的精度求平均值這樣的“平均精“針對11點標準召回率的精度”人們建議在一些特殊的點上給出Re和Pr的關(guān)系Re=0%,10%,…,100%,對應(yīng)的Pr于是就能很方便地講“召回率為20%的時候精度為X”之類的結(jié)論也還有“3點標準”的說法:25%,50%,75%如果D中相關(guān)文檔的個數(shù)是10的倍數(shù),且如果算法給出的“RankedA”包含了所有相關(guān)文檔,得到這些點就會很簡單;否則要考慮如何插值的問題52“針對11點標準召回率的精度”人們建議在一些特殊的點上給出R“省事的”例子D={d1,…,d1000},對查詢q,所有相關(guān)文檔集合(共10個元素):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}查詢的返回結(jié)果序:d123*,d84,d56*,d6,d8,d9*,d511,d5*,d39*,d129,d187,d25*,d38,d44*,d57,d71*,d48,d250,d113,d3*,d200,d144,d11,d89*,d1Ranking:*^*^^*^**^^*^*^*^^^*^^^*^Recall:.1.1.2.2.2.3.3.4.5.5.5.6.6.7.7.8.8.8.8.9.9.9.911Precisio:1.5.67.5.4.5.43.5.55.5.45.5.46.5.46.5.47.5.42.45.43.41.39.42.453“省事的”例子D={d1,…,d1000},對查詢q,所有相11standardrecalllevel其實只有10個點??5411standardrecalllevel其實只有10但實際上經(jīng)常不是這樣得到的結(jié)果集合不包含所有的相關(guān)元素實踐上常常只是返回排序較高的若干元素因此不能得到需要的recall值D中相關(guān)元素的個數(shù)不是10的倍數(shù)于是能直接得到的recall值不一定包含0%,10%,20%,30%,…,100%55但實際上經(jīng)常不是這樣得到的結(jié)果集合不包含所有的相關(guān)元素20例子所有相關(guān)文檔集合(共10個元素):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}只能得到5個有效的recall值:10%,20%,30%,40%,50%對查詢q返回的結(jié)果序:d123*d84d56*d6d8d9*d511d129d187d25*d38d48d250d113d3*56例子所有相關(guān)文檔集合(共10個元素):Rq={d3,d5722插值(interpolation)目標是在11個標準召回率上都有精度值可以想出各種“合理的”方法(例如將已知的點連起來),不同的方法結(jié)果會不一樣(因此做比較時要講清楚)P(rj)=maxP(r),rj≤r≤rj+1取在下一個標準召回率之間的已知召回率對應(yīng)的最大精度值P(rj)=maxP(r),rj≤r取往后的已知召回率對應(yīng)的最大的精度值(這得到的是階梯函數(shù),單調(diào)性。如何考慮返回的結(jié)果不包括所有相關(guān)文檔?58插值(interpolation)目標是在11個標準召回率上我們最終關(guān)心對Q的總體情況ri取標準召回率,Nq是所考察Q的大小。這樣得到一個技術(shù)(算法)在(Q,D)上精度的宏觀表現(xiàn)59我們最終關(guān)心對Q的總體情況ri取標準召回率,Nq是所考察Q的F指數(shù)用一個量來表示precision和recall的綜合效果How?人們定義:為什么不是:60F指數(shù)用一個量來表示precision和recall的綜合效A(P,R)和H(P,R)并不一致例如:P1=0.1,R1=0.83:A(P1,R1)=0.42,H(P1,R1)=0.197;P2=0.3,R2=0.3:A(P2,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度婚姻法律咨詢合同:訴訟離婚與協(xié)議離婚選擇策略
- 2025版門樓安全防范系統(tǒng)設(shè)計與實施合同4篇
- 二零二五版環(huán)保型排水系統(tǒng)設(shè)計施工一體化合同4篇
- 2025年度教育培訓(xùn)機構(gòu)派遣教師勞動合同
- 2025年度個人住房抵押借款合同范本(全新修訂版)2篇
- 2025年度成人外語培訓(xùn)機構(gòu)課程及教學(xué)資源轉(zhuǎn)讓合同4篇
- 2025年度鋼構(gòu)結(jié)構(gòu)檢測分包服務(wù)合同
- 2025年跨境電子商務(wù)平臺合作經(jīng)營合同2篇
- 2025年度個人貨運貨物安全處理合同范本大全4篇
- 林地生態(tài)補償與扶貧合作合同(2025版)3篇
- 新蘇教版三年級下冊科學(xué)全冊知識點(背誦用)
- 鄉(xiāng)鎮(zhèn)風(fēng)控維穩(wěn)應(yīng)急預(yù)案演練
- 腦梗死合并癲癇病人的護理查房
- 蘇教版四年級上冊脫式計算300題及答案
- 犯罪現(xiàn)場保護培訓(xùn)課件
- 扣款通知單 采購部
- 電除顫操作流程圖
- 湖北教育出版社三年級下冊信息技術(shù)教案
- 設(shè)計基礎(chǔ)全套教學(xué)課件
- IATF16949包裝方案評審表
- 1 運行方案說明
評論
0/150
提交評論