




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、目錄評估數(shù)據(jù)融合中得分歸一化的方法21 Abstract22 Introduction23數(shù)據(jù)融合44 不同得分歸一化方法對數(shù)據(jù)融合效果的影響61.method62.result105 在不同的分?jǐn)?shù)秩區(qū)間內(nèi)相關(guān)文件的分布情況12線性轉(zhuǎn)化:12實(shí)驗(yàn)過程136 Conclusion15評估數(shù)據(jù)融合中得分歸一化的方法1 AbstractIn data fusion, score normalization is a step to make scores, which are obtained from different component systems for all documents, c
2、omparable to each other. It is an step for effective data fusion algorithms such as CombSum and CombMNZ to combine them. In this paper, we evaluate four linear score normalization methods, namely the fitting method, Zero-one, Sum, and ZMUV, through extensive experiments. The experimental results sho
3、w that the fitting method and Zero-one appear to be the two leading methods.數(shù)據(jù)融合把多個信息系統(tǒng)的數(shù)據(jù)融合到一起,形成一致性的數(shù)據(jù)模型;評分歸一化是數(shù)據(jù)融合算法不可缺少的一步,是打分過程的一個步驟,我們從所有文件不同的系統(tǒng)成分中獲取分?jǐn)?shù)并相互比較。在本篇文獻(xiàn)中,評估四種線性評分規(guī)一化方法,即,the fitting method, Zero-one, Sum, and ZMUV,通過大量的實(shí)驗(yàn)結(jié)果證明the fitting method and Zero-one是兩種更好的方法。2 Introduction在信息檢索
4、中,數(shù)據(jù)融合是被很多研究者研究和建立的好的方法數(shù)據(jù)融合就是把多個信息系統(tǒng)的數(shù)據(jù)融合到一起,形成一致性的數(shù)據(jù)模型。數(shù)據(jù)融合的主要思想是整合多重信息檢索系統(tǒng)中得到的檢索文件到一個列表中,通過給定的檢索,我們能更準(zhǔn)確的評估所有相關(guān)的文件。它為運(yùn)行有效的信息檢索系統(tǒng)提供一種選擇。它也被用來在萬維網(wǎng)環(huán)境中,作為一種元搜索引擎,從其他的搜索引擎中融合合成的文件。元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。元搜索:隨著互聯(lián)網(wǎng)的迅猛發(fā)展,Web信息成爆炸式增長的趨勢,如何更好、更全、更快地從中獲取對我們有價值的信息,成為信息檢索領(lǐng)域研究的最主要任務(wù)。然而任何一個普通的搜索
5、引擎都無法覆蓋所有的Web信息,因此,在檢索時,希望能夠同時使用不同的搜索引擎來提高檢索的覆蓋率以及查全率,獲取更多、更好的有價值結(jié)果。為此,元搜索引擎在這種需求驅(qū)使下誕生并發(fā)展起來。元 搜索指的是通過向多個搜索引擎發(fā)送搜索請求,將所得到的結(jié)果進(jìn)行合并,以試圖得到更好的結(jié)果列表呈現(xiàn)給用戶的一種搜索方式。考慮到針對一個搜索,每個通用搜索引擎能夠給出很多相關(guān)的文檔,元搜索可以通過將多個通用搜索引擎結(jié)果合并比較來發(fā)現(xiàn)其中更為相關(guān)的文檔,從而提升前k個結(jié)果中的精確度和相關(guān)度。當(dāng)前元搜索主要研究的問題有以下三個方面。(1)數(shù)據(jù)庫/搜索引擎選擇問題(database selection problem)該
6、問題主要研究對于一個給定的query,如何選擇那些更有可能返回相關(guān)度更高文檔的搜索引擎進(jìn)行檢索。(2)文檔選擇問題(Document selection problem)該問題主要研究對于選擇的搜索引擎,需要從這些搜索引擎中選取多少文檔。(3)結(jié)果合并問題(Result merging problem)該問題主要研究如何將從各個搜索引擎得到的結(jié)果進(jìn)行合并,以給出更好的檢索排序。對于用戶提交的查詢,元搜索會將查詢query提交給不同的成員搜索引擎。由于不同成員搜索引擎返回的結(jié)果不僅數(shù)量多,且存在重復(fù)的問題,如何選擇返回的查詢結(jié)果以及對選擇的結(jié)果進(jìn)行合并排序,直接影響到元搜索搜索引擎的整體性能。目
7、前主流的對搜索結(jié)果合并排序的方法主要有兩種,一種是基于相關(guān)性評分(relevance score)的方法;一種是基于返回結(jié)果的rank值的方法。(1)基于相關(guān)性評分的方法該方法的主要思路是依據(jù)不同的成員搜索引擎對于固定的查詢詞與文檔集之間一一對應(yīng)的相關(guān)性評分的值,來確定最終返回給用戶的文檔排序結(jié)果。在計算最終返回給用戶的文檔集與查詢的相關(guān)性評分的方法中,有基于評分的最大值(CombMAX)、最小值(CombMIN)、和值(CombSUM)、平均值(CombAVG)以及CombMNZ(multiply-by-number-non-zero)等。設(shè)搜索引擎集合為D,i表示其中第i個搜索引擎,對于C
8、ombSUM、CombAVG以及CombMNZ有統(tǒng)一形式的計算公式,即對于某個query,其中reli(d)為成員搜索引擎i中,文檔d與query的相關(guān)性評分;表示相關(guān)性評分中非零值的數(shù)目。對于不同的r值,表示不同的計算方法,r=0時,即是上面求和值的方法CombSUM;r=1時,表示上面CombMNZ的方法;r=1時,表示求平均值CombAVG的方法。上面方法中,由于不同的成員搜索引擎對于查詢與文檔的相關(guān)性評分的標(biāo)準(zhǔn)不同,所以在進(jìn)行上述計算之前需要對相關(guān)性評分進(jìn)行歸一化處理。求取查詢與文檔的相關(guān)性評分后,按照相關(guān)性評分的大小對文檔進(jìn)行排序,返回給用戶排序的結(jié)果。除了上述計算方法外,基于相關(guān)性
9、評分的合并排序,還有對各成員搜索引擎相關(guān)性評分進(jìn)行線性組合的方法(linear combination)。 上述的處理方法中并沒有對不同成員搜索引擎的性能進(jìn)行區(qū)分,實(shí)際上,不同搜索引擎在搜索性能上還是存在差距的,線性組合的方法考慮到這種差距,對來自不同成員搜索引擎的相關(guān)性評分增加不同的權(quán)重,相對于上述簡單的求取某個平均值或者是和值,這種方法更加合理。其計算公式如下式中ai表示不同成員搜索引擎的權(quán)重,這種權(quán)重的獲取方式很多,典型的有取不同搜索引擎訓(xùn)練集的平均準(zhǔn)確率(AP)。(2)基于返回結(jié)果的rank值的方法這種方法的主要思路是依據(jù)不同成員搜索引擎對某個查詢返回文檔集的rank位置排序,并不需要
10、原始的成員搜索引擎的相關(guān)性評分?;谙嚓P(guān)性評分的算法總體上會比基于返回結(jié)果的rank位置的性能更好。但是從算法的成本上來說,基于相關(guān)性評分的算法需要事先知道成員搜索引擎的相關(guān)性評分,這個在實(shí)際搜索引擎中是存在很大困難的,而獲取返回結(jié)果的rank位置排序是容易的。因此在實(shí)際的應(yīng)用當(dāng)中,基于返回結(jié)果的rank位置的合并排序算法更受青睞。3數(shù)據(jù)融合數(shù)據(jù)融合是一個框架,采集并集成各種信息源、多媒體和多格式信息,它是一個把多源信息通過合適的方法結(jié)合起來得到一個更滿意的結(jié)果的過程。傳感器是數(shù)據(jù)的來源,傳感器不一定是物理形式的,數(shù)據(jù)源或者信息源甚至人工數(shù)據(jù)都稱為傳感器;融合是一種數(shù)據(jù)加工過程,算法將隨著數(shù)據(jù)
11、源的不同以及融合的目標(biāo)的不同而不同。對于數(shù)據(jù)融合算法有幾種因素需要考慮:在這三方面已經(jīng)做了很多的研究。對于一個component result(整合結(jié)果),它包含一組秩序列的文件,有時基于信息的需要我們通常用每一個文件關(guān)聯(lián)的分?jǐn)?shù)來表示文件的評估相關(guān)性,而不是用秩數(shù)。本篇文獻(xiàn)我們假設(shè)所有整合系統(tǒng)(搜索引擎)為檢索的文件提供分?jǐn)?shù),不同的整合系統(tǒng)用不同的打分機(jī)制,這種不同不僅是范圍也是分布的不同。因此一個有效的數(shù)據(jù)融合算法有必要進(jìn)行分?jǐn)?shù)的標(biāo)準(zhǔn)化。例如 Fox and Shaw 設(shè)計的 CombSum和CombMNZ算法就整合了評分的歸一化.兩者的區(qū)別:而Lee 介紹了一種線性轉(zhuǎn)換的得分歸一化的方法本
12、文的參考文獻(xiàn)介紹了四種線性標(biāo)準(zhǔn)化的方法:目標(biāo):評估四種線性標(biāo)準(zhǔn)化方法,(Zero-one, the fitting method, Sum and ZMUV),一些實(shí)驗(yàn)結(jié)果也有利于我們更好的從總體上了解分?jǐn)?shù)標(biāo)準(zhǔn)化。4 不同得分歸一化方法對數(shù)據(jù)融合效果的影響1. method美國國家標(biāo)準(zhǔn)和科技機(jī)構(gòu) (National Institute of Standards and Technology, 簡稱 NIST)和美國情報局先進(jìn)研發(fā)活動 (Advanced Research and Development Activity center of the U.S. Department of Defe
13、nse, 簡稱 DARDA 合作舉辦“文字檢索會議”(The Text REtrieval Conference, TREC3) 目標(biāo):其目的是在信息檢索社區(qū)的研究中為大規(guī)模評估文本檢索方法提供必要的基礎(chǔ)設(shè)施支持。TREC 7: /presentations/TREC7/index.htmTREC 8: /presentations/t8.presentations.htmlTREC 9: /presentations/t9.presentations.htmlTREC2001:
14、/presentations/t2001.presentations.html2.result對比在相同的融合算法中不同分?jǐn)?shù)標(biāo)準(zhǔn)化方法得到融合結(jié)果的效率。The Fitting method 中,統(tǒng)一選取范圍0.06,0.6 CombMNZ算法中,因?yàn)閆MUV 半數(shù)結(jié)果為負(fù)值,故對每一個規(guī)范化分?jǐn)?shù)加2,ZMUV方法換為,ZMUV2方法。選用四組結(jié)果,是TREC 7,8,9,2001的子集,每一次查詢包含1000篇文件,平均準(zhǔn)確率大于等于0.15,每組隨機(jī)選擇3-10個系統(tǒng)運(yùn)用兩種算法的數(shù)據(jù)融合,200篇用來測試任何給定數(shù)目的結(jié)果。平均標(biāo)準(zhǔn)率被用來評估四種方
15、法:四種規(guī)范化方法在兩種數(shù)據(jù)融合方法中有相似的效率,可以觀察到,所有方法中ZMUV2總是最差的,the fitting method0.06-0.6 ,和 Zero-one相對于其他兩種方法較好。5 在不同的分?jǐn)?shù)秩區(qū)間內(nèi)相關(guān)文件的分布情況線性轉(zhuǎn)化:對于線性的轉(zhuǎn)換方法,它把所有值都放在一個范圍里:設(shè)置了兩Max和min表示標(biāo)準(zhǔn)化分?jǐn)?shù)的最大最小值,r max 和r min分別表示原始分?jǐn)?shù)的最大最小值。對于任何一個原始分?jǐn)?shù)r_s,用以下公式標(biāo)準(zhǔn)化:對于任何一種線性轉(zhuǎn)化方法都可以轉(zhuǎn)化為另一種線性方法相應(yīng)的分?jǐn)?shù),例如:分?jǐn)?shù)標(biāo)準(zhǔn)化的目的就是使不同的結(jié)果(results)具有可比性,理想情況下,如果在分?jǐn)?shù)與
16、相關(guān)概率之間有著線性的聯(lián)系,對于CombSum這樣的算法很有利。此時,我們對于從n個信息檢索系統(tǒng)中得到的n 個results有如下倆個條件: 實(shí)驗(yàn)過程:接下來我們將進(jìn)行實(shí)驗(yàn)來驗(yàn)證哪個得分規(guī)整的范圍符合上述兩個條件,過程如下:1、first, for a result, we normalize the scores of its documents using a given score normalization method. 2、Next we divide the whole range of scores into a certain number of intervals. The
17、n for every interval, we count the number of relevant documents (num) and the total score (t score) obtained by all the documents in that interval. 3、In this way the ratio of num and t score can be defined for every interval. We compare these ratios to investigate if the score normalization method i
18、s a good method or not.在部分2,我們用相同的四組結(jié)果(results),用四種方法標(biāo)準(zhǔn)化,超過50次的查詢,the fitting method 0.06-0.6, Zero-one, Sum and ZMUV1 (a variation of ZMUV, which added 1 to every score normalized with ZMUV)ZMUV1是ZMUV的一種變化,在每一標(biāo)準(zhǔn)分值上加1.對所有標(biāo)準(zhǔn)化的結(jié)果分為20組,每組對應(yīng)一個間隔,那個組的所有文件的分值都會處于相同的間隔上。對于每一個間隔,我們獲得相關(guān)文件的數(shù)目 (num) 和總分?jǐn)?shù) (t score) 并計算比值,比較這些比值來估計分?jǐn)?shù)標(biāo)準(zhǔn)化方法的好壞。對于the fitting method, 我們劃分0.06,0.6 為20個相等的間隔 0.06,0.087), 0.087,0.114),., 0.573,0.6. 對于 Zero-one, 我們劃分 0,1 為 0,0.05), 0.05,0.1),., 0.95,1. 對于 Sum, 我們把 0,1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 地理-撒哈拉以南非洲-經(jīng)濟(jì)發(fā)展課件-2024-2025學(xué)年七年級地理下學(xué)期(人教版2024)
- T/BPC 0140-2019“我從新疆來”農(nóng)副產(chǎn)品運(yùn)營平臺評價體系
- 尾礦資源化利用2025年技術(shù)突破生態(tài)恢復(fù)實(shí)踐與案例集
- 數(shù)字化浪潮中的公路貨運(yùn)2025年效率提升與物流行業(yè)智能化發(fā)展趨勢研究報告
- 廣播影視行業(yè)媒體融合2025年:新媒體平臺內(nèi)容生產(chǎn)模式研究報告
- T/BAS 002-2020團(tuán)體標(biāo)準(zhǔn)綜合評價規(guī)范
- 智力障礙音樂治療
- Q/HD 00001-2019架空輸電線路無人機(jī)巡檢技術(shù)規(guī)程
- 車工工藝學(xué)(第六版)課件:車圓錐和特形面
- 脾破裂護(hù)理三級查房
- 配電室火災(zāi)應(yīng)急處置預(yù)案
- 2024年高考英語考前押題密卷(全國卷1)(含答案與解析)
- 遼寧省盤錦市遼河油田實(shí)驗(yàn)中學(xué)2023-2024學(xué)年九年級下學(xué)期開學(xué)考試數(shù)學(xué)試題(原卷版)
- 中小學(xué)-預(yù)防性騷擾與性侵害-1-課件
- xx市體育中心設(shè)計說明
- 2024年江蘇省南通市如皋市中考一模語文試題
- 08J933-1體育場地與設(shè)施(一)
- 2024-2030年中國納米抗體藥物行業(yè)運(yùn)行現(xiàn)狀及發(fā)展行情監(jiān)測研究報告
- 2023年高考物理分題型多維刷題練專題19熱學(xué)中的變質(zhì)量氣體問題(原卷版+解析)
- 如何喚醒孩子學(xué)習(xí)的內(nèi)驅(qū)力
- 跨境電商合伙投資協(xié)議書
評論
0/150
提交評論