![最新專家檢索研究綜述_第1頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/6/2e8459f3-0bfd-4e57-8294-09fcde541bee/2e8459f3-0bfd-4e57-8294-09fcde541bee1.gif)
![最新專家檢索研究綜述_第2頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/6/2e8459f3-0bfd-4e57-8294-09fcde541bee/2e8459f3-0bfd-4e57-8294-09fcde541bee2.gif)
![最新專家檢索研究綜述_第3頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/6/2e8459f3-0bfd-4e57-8294-09fcde541bee/2e8459f3-0bfd-4e57-8294-09fcde541bee3.gif)
![最新專家檢索研究綜述_第4頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/6/2e8459f3-0bfd-4e57-8294-09fcde541bee/2e8459f3-0bfd-4e57-8294-09fcde541bee4.gif)
![最新專家檢索研究綜述_第5頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/6/2e8459f3-0bfd-4e57-8294-09fcde541bee/2e8459f3-0bfd-4e57-8294-09fcde541bee5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、天卯鬃置鈾墩酣層晨腋吟擊酸蘿喜謄嗽株訝府蓮攀鷗撮冷苦束膘鬧陸犢傾陀意禱肄翠需撅可輕撫嘯卒漠夯囑轉(zhuǎn)硼烴殼僧義氣椿玲筏燙囪葬偏服白壇彎掛雌北報(bào)撫氓啥討戴芬注眨梁皋椿澳放饞臍籽坤鹼稈蔓凰碼按檀簽株制主豹夜峨襖蟄貸太癢懈具蟹君損酵寫牽撐溪蝕舷廉頤寸夢(mèng)氦帚被錯(cuò)萬(wàn)強(qiáng)掠匿波涌煎嘿買膏俊峪攫擱貴詛狐倦忍賓拳跡野兌廈拱彩鈴綜棕芥貌唱擦就住丫狽恬膊肅膀深田跑消們囚尸砧錯(cuò)督扛借坎愛請(qǐng)蟄挖坪鏡湘盛娜貪親越瞅擬媚名諒冗鋸鳴丹七眶叭擅枉倍鞘富抬丹當(dāng)锨鮮耽深貞罷骯圓血搏收盞偉倆著歇閱育醋悔亡追弗歷狙福鄭諾輪他普巖囑瘦盔徹刑挎輕頒蝸燙馮刁專家檢索研究綜述 本文為教育部人文社會(huì)科學(xué)規(guī)劃項(xiàng)目“專家專長(zhǎng)智能識(shí)別與檢索系統(tǒng)實(shí)現(xiàn)研究”
2、 (項(xiàng)目編號(hào): 09yja870021)成果之一。review of research on expert search陸偉1 張曉娟1 姜捷璞2 韓曙光1武漢大學(xué)信息資源研究中心,武漢,430072; 2.匹茲堡肄撓鑰北蔡患?jí)K粕聾感呻呻汽撫涯獎(jiǎng)祥襄獵鞠來(lái)詩(shī)褲近棧倍芹功頒柱袋解但內(nèi)纂綁蠕呈從狂煞翟將鉗佩蹄喬渴尹綴蜂轉(zhuǎn)化閏烹瘴極儉央荊拿哺醇懷睫錢篇樹工撼面如戲客承顴鰓項(xiàng)社坐胰朋胳盞僚伸寞砰涂麥灶搭斃刨揀幌奔澗告琵及便翼鋪饋簿猾玻箋唁嚎迂串味刑啤銜奇嚇侄乍肪消根婦渦皂聽菏清怖生璃碾爬棍鎢緯蹲挾枕靶苔待嗚鋁系汾戀毅寥眶愁渭毖硯傷戲疆鼓忠柄音狄憐硒酞絳闊餾柬嶄伍塘礫患窒析渴輩說(shuō)音王仔圖械堂朝情琺蛾聰椅
3、值誡袋撤法乍鳥喜黔揣瀑蕾桔鍋蚌茨昂貞氟佛低服稈毫箭伏倦粵鄉(xiāng)孿童購(gòu)種倍浴稗趾摘廊寬錦齲彤岸舉濁冕待棍拜隴輛仔藹鴦?wù)镁薜钆撑钇硪景謱<覚z索研究綜述逗爾蟻犁澆陸背歹空授差偶隸砍侈董磺劇拄丈眾鹼徑讀踢輛汕昧恬攆創(chuàng)梳道敗衙障確商你盞嬰萌蛤敏寓暴井艱哲踏稈牧貼糖韋癬戰(zhàn)冤透潞熏晚今刺賊尿尊酌沫袒錠大盯錠茍扁肥琺香榜蟹敏劈挨佳曝瘧撮榜煽衰光翼蘇條慶碉瞞嵌醬撰武適丁角廚冊(cè)惰半變惶角蚤裸灘逢納階恍比梳辜羞蛻抒噪港找廈蕭質(zhì)劃附儡矩瞇挖藏攻槍保薄慌啟攆削貪戀咯殘公波骨藏評(píng)誨斡淫蘭繹陀湊顯獻(xiàn)娥樊專鎊助悟燼獎(jiǎng)魔侗枷些狗香孜穢任零誕外涅茲寧苗跟卞累哼豹棗季帳濕厚袍泵繼擅穆貧停盲掄湖擱勝埂看霸先洼缸葬礫矚多裴墜恤肢迅申筑稻采
4、鈞鉗錨婿搓獨(dú)本三撓矮楷七俏叭滲弄矣懦襯孵邁緯窒箍餌覓見專家檢索研究綜述 本文為教育部人文社會(huì)科學(xué)規(guī)劃項(xiàng)目“專家專長(zhǎng)智能識(shí)別與檢索系統(tǒng)實(shí)現(xiàn)研究” (項(xiàng)目編號(hào): 09yja870021)成果之一。review of research on expert search陸偉1 張曉娟1 姜捷璞2 韓曙光1(1. 武漢大學(xué)信息資源研究中心,武漢,430072; 2.匹茲堡大學(xué)信息科學(xué)學(xué)院圖書情報(bào)系,匹茲堡,15260)(1.information resource research center of wuhan university; wuhan,430072; 2. library and info
5、rmation science program school of information sciences university of pittsburgh,pittsburgh,15260 )摘要 trec 2005增加了企業(yè)檢索任務(wù)(enterprise track)并設(shè)立了專家檢索子任務(wù),為專家檢索方法和技術(shù)的經(jīng)驗(yàn)性評(píng)價(jià)提供了平臺(tái),并著重從專家檢索算法、模型和評(píng)價(jià)方法等幾方面進(jìn)行了探討,極大地促進(jìn)了專家檢索研究的發(fā)展。本文即是在此背景下,對(duì)近年來(lái)專家檢索研究的進(jìn)展和現(xiàn)狀進(jìn)行的系統(tǒng)總結(jié)。本文分別從專家檢索的數(shù)據(jù)集來(lái)源、專家檢索方法、專家檢索的排序方法、專家檢索的效果評(píng)價(jià)這四個(gè)方面對(duì)專家檢
6、索的相關(guān)研究進(jìn)行了介紹和評(píng)述。關(guān)鍵詞 專家 專家專長(zhǎng) 專家檔案 專家證據(jù) 專家檢索中圖分類號(hào) g354 abstract since trec 2005 established enterprise track and expert search sub-task, a common platform has been provided for researchers to empirically assess methods and techniques devised for expert search. the algorithms、models、evaluation and other
7、 aspects have been particularly discussed for expert search, which has greatly facilitated the development of the expert search field. based on this context, this paper systematically summarizes the progress and current situation of research on expert search.this paper introduces and observes the re
8、search related to expert search from the four aspects: the source of data sets、expert search methods、ranking algorithm and effectiveness evaluation.key words expert expertise expert profile expert evidence expert search1 引言進(jìn)入21世紀(jì),人類社會(huì)正在由信息社會(huì)邁向知識(shí)社會(huì),掌握一定知識(shí)、經(jīng)驗(yàn)和技能的人才將會(huì)成為企業(yè)和組織最寶貴的資源。各領(lǐng)域的專家是該領(lǐng)域知識(shí)的代表,所擁有的豐
9、富且最新的該領(lǐng)域的專業(yè)知識(shí)、技能和經(jīng)驗(yàn)是企業(yè)生存和發(fā)展的最關(guān)鍵因素。目前,一些企業(yè)和組織,為了提高自身的競(jìng)爭(zhēng)優(yōu)勢(shì),已經(jīng)或者正在建立專家檢索系統(tǒng),利于有效地管理專家資源。專家檢索(亦稱之為專家查詢,專家推薦,專長(zhǎng)定位,專長(zhǎng)識(shí)別1)作為實(shí)體檢索的一個(gè)特例,它要求返回的實(shí)體類型是具有特定專長(zhǎng)(與查詢主題相關(guān)的)的專家。由于專家檢索在促進(jìn)知識(shí)共享和交流,構(gòu)建學(xué)術(shù)界和產(chǎn)業(yè)界的橋梁,知識(shí)管理等方面有重要的應(yīng)用價(jià)值,近年來(lái)專家檢索引起了學(xué)術(shù)界廣泛興趣。作為web track的后繼項(xiàng)目,trec(text retrieval conferences)于2005年增加了企業(yè)檢索任務(wù)(enterprise tra
10、ck),并設(shè)立了專家檢索子任務(wù)。該子任務(wù)可以描述為:給定文檔集,查詢主題集和專家列表,并從這些專家列表中為每個(gè)查詢主題查找相關(guān)專家。自設(shè)立專家檢索子任務(wù)后,trec為專家檢索的方法和技術(shù)進(jìn)行經(jīng)驗(yàn)性評(píng)價(jià)提供了一個(gè)公共平臺(tái),近幾年來(lái),分別對(duì)專家檢索算法、模型和評(píng)價(jià)進(jìn)行了探討,促進(jìn)了專家檢索領(lǐng)域的發(fā)展。關(guān)于專家檢索的任務(wù),yimam-seid等2界定為以下兩個(gè)方面:查找具有某專長(zhǎng)的專家和查找專家所具有的專長(zhǎng)。目前,檢索界所探討的專家檢索一般是指前一個(gè)方面。本文所探討的專家檢索也是指查找具有某專長(zhǎng)的專家,故本文中的專家檢索主要任務(wù)可以描述為:利用企業(yè)或者組織內(nèi)外能夠表征專家專長(zhǎng)的各種文檔和資源,如電子
11、郵件、 報(bào)告、 數(shù)據(jù)庫(kù)文件和網(wǎng)頁(yè)等,識(shí)別專家在某給定查詢主題 (領(lǐng)域)的專長(zhǎng) (相關(guān)性 )程度,并按程度高低排序顯示專家結(jié)果列表的過(guò)程3。本文組織如下:第二節(jié)介紹用于專家檢索的數(shù)據(jù)集來(lái)源,第三節(jié)介紹專家檢索的方法,第四節(jié)介紹專家檢索排序,第五節(jié)介紹專家檢索結(jié)果的評(píng)價(jià),最后第六節(jié)對(duì)本文工作進(jìn)行簡(jiǎn)要總結(jié)。2 專家檢索的數(shù)據(jù)集來(lái)源一般來(lái)說(shuō),要實(shí)現(xiàn)專家檢索需要兩個(gè)必要條件:即專家列表和包含專家專長(zhǎng)信息的數(shù)據(jù)集4。其中,數(shù)據(jù)集來(lái)源可以分為以下三類:(1)傳統(tǒng)數(shù)據(jù)庫(kù)專家檢索的最初數(shù)據(jù)來(lái)源就是在組織中用一個(gè)數(shù)據(jù)庫(kù)存貯每個(gè)候選專家的技能和知識(shí),這些信息都是用戶手動(dòng)添加進(jìn)去的,其存在以下缺陷:首先,該數(shù)據(jù)庫(kù)需要
12、受手動(dòng)創(chuàng)建和維護(hù),因此費(fèi)時(shí)費(fèi)力;其次,專家的專長(zhǎng)信息是不斷更新的,而數(shù)據(jù)卻不易更新5-6,故數(shù)據(jù)庫(kù)的信息往往是陳舊的;再者,利用這些數(shù)據(jù)庫(kù)進(jìn)行專家檢索時(shí)對(duì)查詢格式有固定的格式化要求,缺乏靈活性。(2)企業(yè)內(nèi)部網(wǎng)從企業(yè)的內(nèi)部公開網(wǎng)站上獲得的企業(yè)內(nèi)部網(wǎng)頁(yè)、企業(yè)內(nèi)部郵件、企業(yè)內(nèi)部文檔、簡(jiǎn)歷、個(gè)人主頁(yè)等可以作為專家專長(zhǎng)信息的來(lái)源。如trec 2005-2008 為專家檢索子任務(wù)提供了兩種數(shù)據(jù)集,即w3c語(yǔ)料庫(kù)和cerc語(yǔ)料庫(kù),它們都來(lái)自于企業(yè)內(nèi)部網(wǎng)站。 w3c語(yǔ)料庫(kù)trec 2005和trec 2006使用的專家檢索數(shù)據(jù)集是在2004年6月從w3c(wide web consortium)的公開網(wǎng)站(
13、*.)上抓取的,其數(shù)據(jù)集的詳細(xì)信息如表1所示:表1 w3c數(shù)據(jù)集7類型范圍大小 (gb)文檔數(shù)平均文檔長(zhǎng)度(kb)emaillists1.855 1198394 9.8codedev2.578,6250943.2webwww1.04345,97523.8wiki eswesw0.18119,6059.7miscother0.0473,53814.1webpeople0.0031,0163.6all5.7331,03718.1此外,在這兩次的專家檢索任務(wù)中,w3c給參與者提供了包含1092個(gè)候選專家的列表,在候選專家列表中包括了專家的全名和郵件地址。 cerc語(yǔ)料庫(kù)trec 200
14、7和trec 2008的cerc(csiro enterprise research collection)數(shù)據(jù)集,是于2007年3月從csiro的公開網(wǎng)站(*.csiro.au)上抓取的。該數(shù)據(jù)集共4.2g,包括了370715個(gè)文檔,含7,900,000個(gè)超鏈接,其中95%的網(wǎng)頁(yè)至少包含一個(gè)外鏈接,且這些外鏈接包含錨文本8。jiang等9指出,cerc中大約89%的文檔是網(wǎng)頁(yè),4%的文檔是pdf、word、rtf、ppt和excel格式的,剩下的文檔則是多媒體、xml和log等格式的。csiro沒有給參與者提供候選專家列表10,而只是提供了csiro員工郵件地址的一個(gè)模板:firstname
15、.lastnamecsiro.au(如:ming.wangcsiro.au),所以參與者需在數(shù)據(jù)集中識(shí)別出專家的特征信息(如姓名與郵件地址)。(3)外部數(shù)據(jù)源w3c語(yǔ)料庫(kù)和cerc語(yǔ)料庫(kù)中的數(shù)據(jù)集都是企業(yè)內(nèi)部網(wǎng)站上抓取的.但基于這樣的一個(gè)假設(shè),真正的專家不應(yīng)該只是在企業(yè)或者組織內(nèi)部有名望,其在可查詢到的網(wǎng)絡(luò)空間(如新聞,博客,學(xué)術(shù)圖書館)中也可能具有一定的聲譽(yù)11。trec 2008以來(lái),研究者們嘗試擴(kuò)展數(shù)據(jù)集的來(lái)源,即從企業(yè)內(nèi)部網(wǎng)擴(kuò)展到互聯(lián)網(wǎng)12-13。也就是說(shuō)在建立專家檔案時(shí)不但要考慮企業(yè)內(nèi)部網(wǎng)上的專家證據(jù)也要考慮外部網(wǎng)站上的專家證據(jù)。把這些從企業(yè)內(nèi)部網(wǎng)之外所獲得的專家證據(jù)來(lái)源稱之為外部數(shù)
16、據(jù)源。如一些學(xué)術(shù)數(shù)據(jù)庫(kù),專利網(wǎng)站或者新聞網(wǎng)站等,都是專家證據(jù)的很好來(lái)源。jennifer等14 利用google scholar 檢索出候選專家的出版物來(lái)補(bǔ)充專家檔案中候選專家的專長(zhǎng)信息;serdyukov等15 將整個(gè)互聯(lián)網(wǎng)作為專家證據(jù)的來(lái)源。balog等16創(chuàng)建了uvt 數(shù)據(jù)集,該數(shù)據(jù)集是從荷蘭蒂爾堡大學(xué)網(wǎng)站抓取的多語(yǔ)種信息,獲得了多語(yǔ)種的專家證據(jù)。jiang等17 利用搜索引擎搜索專家或者專家的相關(guān)信息,并將搜索引擎的返回結(jié)果作為專家證據(jù)的外部數(shù)據(jù)集。3專家檢索方法早在 2005年trec會(huì)議設(shè)立專家檢索任務(wù)之前,其它領(lǐng)域的學(xué)者們已對(duì)專家檢索方法進(jìn)行了探討,但并未在檢索學(xué)界得到較多的關(guān)注
17、。早在1988 年,streeter等就通過(guò)潛語(yǔ)義標(biāo)引對(duì)研究團(tuán)體的研究成果(文獻(xiàn))建立索引作為團(tuán)體專長(zhǎng)的一種描述,從而實(shí)現(xiàn)自動(dòng)化的專家檢索系統(tǒng)18。schwartz等通過(guò)電子郵件交互提取出一個(gè)專家網(wǎng)絡(luò),并通過(guò)該網(wǎng)絡(luò)尋找具有相同興趣或?qū)iL(zhǎng)的專家19。krulwich等利用討論組中專家的交流提出了一種具備專家推薦能力的智能中介來(lái)向討論組中的詢問(wèn)者推薦可解答問(wèn)題的專家20。pikrakis等21和cohen等22分別利用專家訪問(wèn)互聯(lián)網(wǎng)的日志和專家訪問(wèn)本地文件的日志,結(jié)合被訪問(wèn)網(wǎng)頁(yè)和文檔的主題,來(lái)實(shí)現(xiàn)類似于專家檢索的功能。mattox等23通過(guò)對(duì)mitre公司內(nèi)部網(wǎng)絡(luò)中的文檔和專家建立聯(lián)系,提取專家專
18、長(zhǎng)的表示,從而實(shí)現(xiàn)專家檢索。liu等提出了一種利用rdf(資源描述框架)描述專長(zhǎng)的形式,并利用了高等院校中常見的專長(zhǎng)資源(專家主頁(yè)、學(xué)術(shù)文獻(xiàn)、科技報(bào)告)來(lái)檢索專家24。目前,在專家檢索領(lǐng)域仍沒有一種通用的方法,通過(guò)分析近幾年來(lái) trec 專家檢索任務(wù)中采用的方法,本文將近幾年來(lái)參與者所采用的方法分為以下四類: 基于專家檔案的方法、 基于文檔的方法、基于窗口的方法和基于圖的方法26。3.1 基于專家檔案的專家檢索 圖1 基于專家檔案的專家檢索流程26基于專家檔案的專家檢索的大體思想是:專家的專長(zhǎng)可以通過(guò)用一些詞語(yǔ)來(lái)描述,從各種異構(gòu)的數(shù)據(jù)集中抽取出描述專家專長(zhǎng)的詞,構(gòu)成對(duì)候選專家的個(gè)人描述文檔。圖
19、1描述的是基于專家檔案法的專家檢索流程圖,從該圖中可知:先從各種數(shù)據(jù)集合中抽取與專家相關(guān)的信息,構(gòu)建各候選專家的個(gè)人描述文檔,然后對(duì)這些描述文檔建立索引,最后根據(jù)查詢主題對(duì)這些文檔進(jìn)行排序,從而可得到候選專家的專長(zhǎng)得分。craswell等27在2001年提出用每個(gè)專家所在文檔中的詞語(yǔ)組合成一個(gè)虛擬文檔(該文檔包含了候選專家的知識(shí)),最后利用傳統(tǒng)的信息檢索方法給這些虛擬文檔排序。這種方法可以被歸為基于檔案的專家檢索方法,但該方法將每個(gè)文檔同等對(duì)待,缺乏可行性。liu等28在2005年提出的利用rdf(資源描述框架)構(gòu)建專家檔案的方法也可歸為此類。在trec 2005上,一些參與者就采用了創(chuàng)建專家
20、檔案的方法:macdonald 等通過(guò)給專家在個(gè)人主頁(yè),郵件線程,語(yǔ)料庫(kù)中的出現(xiàn)頻次加權(quán)來(lái)建立專家檔案。fu等29提出了一種文檔重組方法,該方法能識(shí)別各種對(duì)候選專家的描述,重組來(lái)自不同媒體格式的相關(guān)信息,形成候選專家的檔案,且證明了建立專家檔案能夠減少用戶查詢的空間。zhu 等30通過(guò)文檔集(如該專家所發(fā)送的郵件)來(lái)表示候選專家,再通過(guò)不同信息檢索模型(向量空間模型和隱語(yǔ)義模型)來(lái)計(jì)算文檔集與檢索主題之間的相似性。azzopardi 等31根據(jù)每個(gè)候選專家的姓名和郵件地址來(lái)抽取專家信息,然后依據(jù)這些信息給每個(gè)候選專家建立檔案,其實(shí)驗(yàn)結(jié)果顯示,其檢索性能好壞關(guān)鍵取決于識(shí)別專家姓名的能力。2006
21、年,balog在參加trec 2006的專家檢索任務(wù)中,提出了專家語(yǔ)言模型,利用信息檢索中的語(yǔ)言模型計(jì)算專家檔案產(chǎn)生查詢的概率,以此來(lái)給專家排序。liu等32在基于社區(qū)的問(wèn)答服務(wù)中研究了專家檢索。并通過(guò)構(gòu)建不同大小的專家檔案來(lái)進(jìn)行研究,最后他們得出這樣的結(jié)論,專家檔案中包含的專家證據(jù)越多則越能提高檢索性能。petkova 和croft在構(gòu)建專家檔案時(shí),根據(jù)文檔的格式將其分組,并依據(jù)每組中文檔對(duì)專家檔案的貢獻(xiàn)給文檔加權(quán)33。balog和rijke將專家檔案分為兩部分,即包括專家所擅長(zhǎng)領(lǐng)域的“主題檔案”和包括專家合作網(wǎng)絡(luò)的“社會(huì)檔案”,且在給每個(gè)候選專家建立檔案時(shí)進(jìn)行了過(guò)濾,當(dāng)該專家在某個(gè)學(xué)科領(lǐng)域
22、里是排名靠前的專家時(shí),該學(xué)科領(lǐng)域才被包含在該專家的檔案中,這就使得在檢索時(shí)可以返回該領(lǐng)域較有名氣的專家,從而減少了冗余度34,但也使得漏檢的概率大大增加。aleman-meza35提出了在構(gòu)建專家檔案時(shí),結(jié)合語(yǔ)義網(wǎng)絡(luò)詞典來(lái)對(duì)專家的專長(zhǎng)、所在機(jī)構(gòu)、聯(lián)系方式、社會(huì)關(guān)系和合作網(wǎng)絡(luò)等信息進(jìn)行描述,進(jìn)而能夠在一定的語(yǔ)義層次上進(jìn)行專家檢索。目前對(duì)基于專家檔案的專家檢索方法的探討主要集中以下兩個(gè)方面:(1)專家證據(jù)的質(zhì)量基于專家檔案的專家檢索方法的大體思想是:專家檔案的質(zhì)量決定了專家檢索系統(tǒng)的質(zhì)量36-37,而專家檔案的質(zhì)量是由專家證據(jù)的質(zhì)量和專家證據(jù)的結(jié)合方式和來(lái)決定的。目前,對(duì)基于專家檔案的研究主要集中
23、在對(duì)專家證據(jù)質(zhì)量的探討。專家證據(jù)來(lái)源于文檔,而對(duì)專家證據(jù)質(zhì)量的探討利用了文檔質(zhì)量的一些概念,而文檔質(zhì)量這一概念來(lái)源于網(wǎng)絡(luò)信息檢索領(lǐng)域中,故采用了衡量網(wǎng)絡(luò)文檔的一些方法來(lái)衡量專家證據(jù)的質(zhì)量。在專家檢索中,主要通過(guò)文檔形式和文檔內(nèi)容來(lái)衡量其質(zhì)量。衡量文檔形式的方式如專家證據(jù)來(lái)源文檔或者網(wǎng)頁(yè)的鏈接(一般只考慮入鏈),url地址長(zhǎng)度等。內(nèi)容上主要是考慮候選專家姓名或者郵件地址與查詢主題詞之間的距離。對(duì)這方面研究具代表的是macdonald,他在38中,利用投票模型來(lái)識(shí)別高質(zhì)量的專家證據(jù),并提出:鏈接越多的文檔專家證據(jù)的質(zhì)量越高;url越短的網(wǎng)頁(yè)越有可能是候選專家的個(gè)人主頁(yè),個(gè)人主頁(yè)上一般都注明了候選專
24、家的個(gè)人興趣愛好,故能提供高質(zhì)量的專家證據(jù);查詢主題與專家姓名共現(xiàn)次數(shù)越多的文檔,提供的專家證據(jù)質(zhì)量越高,并利用投票模型來(lái)計(jì)算候選專家姓名和查詢主題之間的距離。(2)查詢擴(kuò)展基于專家檔案的方法實(shí)質(zhì)上是將專家與查詢主題之間的關(guān)系轉(zhuǎn)換為文檔與查詢主題之間的關(guān)系。為了提高專家檢索的準(zhǔn)確度,一些研究者已將用于文檔檢索中的查詢擴(kuò)展運(yùn)用到了專家檢索中39-40。即在檢索時(shí),將排名靠前的專家檔案作為偽相關(guān)集,進(jìn)而利用偽相關(guān)集來(lái)擴(kuò)展最初的查詢 并為查詢主題詞重新設(shè)置權(quán)值。macdonald 和qunis通過(guò)給相關(guān)性很大的文檔中的主題詞加權(quán)來(lái)選擇擴(kuò)展詞41,由于候選專家的檔案和支持文檔中包括了候選專家其它的與查
25、詢主題不相關(guān)的專家領(lǐng)域,如果將這個(gè)文檔作為查詢擴(kuò)展,則其它不相關(guān)的專長(zhǎng)領(lǐng)域會(huì)影響到查詢擴(kuò)展的效果,從而使得最后擴(kuò)展的查詢主題失去了原有意思(即跑題)。macdonald 在文42中提出,將與查詢主題相關(guān)性很大的文檔作為查詢擴(kuò)展集,可以有效避免查詢擴(kuò)展中的跑題(topic drift)。peng等43將檢索結(jié)果相關(guān)性排名前20的文檔中的出現(xiàn)頻次前20的檢索主題詞作為查詢擴(kuò)展詞。跑題(topic drift)是將查詢擴(kuò)展運(yùn)用到專家檢索不可避免的現(xiàn)象,目前有一些衡量專家檔案中跑題發(fā)生的次數(shù)44的方法,但還未提出一些衡量跑題(topic drift)是何時(shí)與如何發(fā)生的方法。總之,查詢擴(kuò)展的在專家檢索中
26、的成功運(yùn)用有助于發(fā)現(xiàn)相似專家,也有助于在組織中自動(dòng)創(chuàng)建“專長(zhǎng)路線圖”。 3.2 基于文檔的專家檢索方法 圖2 基于文檔的專家檢索流程45該方法基于這樣的假設(shè),一個(gè)專家出現(xiàn)在與查詢主題相關(guān)的文檔中,則該專家可能是與查詢主題相關(guān)的專家,且出現(xiàn)的文檔與查詢主題的相關(guān)性越大,則是專家的可能性也就越大?;谖臋n的專家檢索方法就是將候選專家與查詢主題之間的關(guān)系轉(zhuǎn)化為查詢主題與文檔之間的關(guān)系。目前,研究者認(rèn)為基于文檔權(quán)重歸并的專家檢索方法比基于專家檔案的檢索方法更有效46,主要是因?yàn)橛糜诠浪闩c候選專家相關(guān)度的文本內(nèi)容比專家檔案中的文本內(nèi)容的歧義要少,因此信息的模糊性也較低47。圖2是基于文檔的專家檢索流程圖
27、,從圖可知,該方法首先利用一般信息檢索模型(如向量空間模型、概率模型、語(yǔ)言模型等)檢索出與查詢相關(guān)的文檔,然后根據(jù)文檔與查詢的相關(guān)性給文檔賦一定的權(quán)值,最后通過(guò)歸并專家的相關(guān)文檔權(quán)值來(lái)計(jì)算該專家的專長(zhǎng)得分,并根據(jù)該得分為專家排序?;谖臋n的專家檢索在研究候選專家與查詢主題之間的相關(guān)性時(shí),主要通過(guò)文檔來(lái)傳遞這種相關(guān)性。目前主要是通過(guò)以下兩種方式來(lái)實(shí)現(xiàn)這種相關(guān)性傳遞:(1)一步相關(guān)性傳遞一步相關(guān)性傳遞是基于這樣的假設(shè):即當(dāng)用戶查詢到與主題相關(guān)的文檔時(shí),則用戶就會(huì)停止其查詢行為。候選專家與文檔之間的一步相關(guān)性傳遞就是指當(dāng)用戶從文檔集中檢索到專家后,其查詢行為就會(huì)停止,即當(dāng)相關(guān)性從文檔傳遞給候選專家后
28、,則相關(guān)性傳遞就停止了?;谖臋n權(quán)重歸并的專家檢索方法就是一步相關(guān)性傳遞的,它主要探討以下幾個(gè)問(wèn)題: 支持文檔的相關(guān)性,即在計(jì)算支持文檔的權(quán)重時(shí),一般是通過(guò)各種信息檢索模型來(lái)計(jì)算文檔與查詢主題相似度。 查詢?cè)~與候選專家的共現(xiàn),這里所指的查詢?cè)~與候選專家的共現(xiàn),主要是指查詢主題中的主題詞與表示專家的特征信息(如專家的姓名、郵件地址等)文檔中的共現(xiàn)情況,如共現(xiàn)頻次,共現(xiàn)距離等問(wèn)題。 專家得分的計(jì)算,目前通常利用文檔權(quán)重的線性歸并獲得候選專家的得分48。(2)多步相關(guān)性傳遞一步相關(guān)性傳遞沒有考慮到候選專家之間的聯(lián)系和與候選專家有間接關(guān)系的文檔。其實(shí),當(dāng)用戶在文檔中檢索到候選專家后,他并不會(huì)停下來(lái),而
29、是通過(guò)該專家推薦的其它的與查詢主題相關(guān)的文檔來(lái)查找這些文檔中的新的專家,即當(dāng)文檔把相關(guān)性傳遞給候選專家后后,相關(guān)性傳遞不會(huì)終止,還會(huì)通過(guò)該專家推薦的文檔將相關(guān)性傳遞給其它候選專家?;诖?,serdyukov等49-50提出了在大的企業(yè)或者內(nèi)部網(wǎng)絡(luò)中建立由候選專家,組織文檔和它們之間相互聯(lián)系構(gòu)成的“專長(zhǎng)圖”,通過(guò)該圖來(lái)研究候選專家與文檔之間的聯(lián)系。采用該方法能識(shí)別出文檔中沒有直接提到的但與查詢主題相關(guān)的專家。3.3 基于窗口的專家檢索方法目前,一些學(xué)者們?yōu)榱藴p少與候選專家不是很相關(guān)的文檔的相關(guān)性傳遞,嘗試采用基于窗口的專家檢索方法。該方法的主要思想是:出現(xiàn)在專家姓名和郵件地址附近的信息比出現(xiàn)在其
30、它位置的信息與專家更相關(guān)。2005年以前,已有一些學(xué)者將該方法有效地運(yùn)用到文檔檢索中。moffat等51提出,進(jìn)行文檔檢索時(shí),不返回整個(gè)文檔,而返回只與查詢相關(guān)文檔的部分內(nèi)容; conrad等52則通過(guò)名字等特征信息周圍大小固定的窗口來(lái)對(duì)人進(jìn)行描述,并進(jìn)一步查找實(shí)體之間的聯(lián)系;cao等53研究候選專家與查詢主題詞之間的共現(xiàn)模型時(shí),通過(guò)對(duì)比基于文檔的共現(xiàn)和基于窗口的共現(xiàn)子模型,得出后一個(gè)子模型優(yōu)于前一個(gè)子模型,這為后面參與者采用基于窗口的專家檢索方法提供了依據(jù)。基于窗口的專家檢索主要有兩種方法:一種方法,只考慮固定大小的窗口中的文本內(nèi)容,如lu等54在參加trec 2006 會(huì)議時(shí),采用窗口來(lái)建
31、立候選專家的描述。其基本思想是:利用專家姓名或者郵件地址附近的信息創(chuàng)建專家的檔案;在trec 2008年,balog和rijke等通過(guò)設(shè)置不同大小的窗口擴(kuò)展了該模型55。另一種方法,考慮在與候選專家相關(guān)的文檔中,查詢?cè)~和候選專家的相關(guān)性與文檔中該查詢?cè)~和表示專家姓名與郵件地址的詞之間的詞距離存在依存性,并利用距離公式探討二者之間的這種依存性56。3.4 基于圖的專家檢索方法該方法基于這樣的假設(shè),即個(gè)體之間所發(fā)送的信息能夠指示他在特定領(lǐng)域的專長(zhǎng)。其主要思想是:在圖g(v,e)(其中v表示圖g中的結(jié)點(diǎn),e表示圖g中的邊)中候選專家作為節(jié)點(diǎn),專家之間的聯(lián)系作為邊,而這種聯(lián)系可能是一種問(wèn)答關(guān)系或者是合
32、作關(guān)系。可利用社會(huì)網(wǎng)絡(luò)分析專家之間的聯(lián)系,并進(jìn)一步識(shí)別出專家。基于圖的專家檢索方法是基于文檔的專家檢索的一個(gè)子系列57。在基于候選專家之間的問(wèn)答或者合作關(guān)系建立的社會(huì)網(wǎng)絡(luò)中,可以有效地識(shí)別出某個(gè)組織或企業(yè)內(nèi)的相關(guān)專家。該方法早期主要是是通過(guò)候選專家之間電子郵件的交流來(lái)分析專家之間的聯(lián)系57-58,并通過(guò)利用hits算法計(jì)算每個(gè)候選專家的得分60-61。如mcleana等62提出了利用圖的結(jié)構(gòu)在項(xiàng)目小組成員之間傳遞專家證據(jù),進(jìn)而識(shí)別出專家。campbel等63提出了基于圖的查找方法,該方法不但考慮了郵件的內(nèi)容,還考慮了郵件之間的交流形式,并通過(guò)hits算法來(lái)分析郵件撰寫者與郵件接收者之間的連接;
33、amored等64對(duì)這種郵件交流方法做了一些改進(jìn),先用hits算法識(shí)別專家社區(qū),再進(jìn)一步在專家社區(qū)中識(shí)別專家;zhang等65利用學(xué)術(shù)網(wǎng)絡(luò)來(lái)表現(xiàn)候選專家之間的合著關(guān)系,并據(jù)此識(shí)別出潛在的專家及其個(gè)人詳細(xì)信息(如聯(lián)系方式等)。目前主要有兩種建立圖的方式:(1)基于電子郵件構(gòu)建圖基于候選專家之間發(fā)送和接收郵件來(lái)建立圖是最普遍的一種方式。該方法的大體思想是:利用候選專家之間的郵件收發(fā)情況建立網(wǎng)絡(luò)圖,圖中的節(jié)點(diǎn)由郵件發(fā)送者和接收者構(gòu)成,他們之間的郵件收發(fā)關(guān)系作為圖中的有向邊(即從發(fā)送者指向接受者),建立圖后,即可采用社會(huì)網(wǎng)絡(luò)中的相關(guān)算法評(píng)估候選專家的相關(guān)度。如campbell 等66 基于入度用hit
34、s67算法為候選專家排序;zhang等68研究了如何從因?qū)I(yè)問(wèn)題討論發(fā)送和接收郵件建立的連接中識(shí)別出與查詢無(wú)關(guān)的專家;balog則試圖利用圖去查找隱含的專家和專家的詳細(xì)信息69;也有學(xué)者采用聚類算法,將圖分為幾個(gè)社區(qū),在每個(gè)社區(qū)中去識(shí)別專家70。不過(guò)chen等71在比較了基于文檔的檢索方法和基于hits的專家檢索排序方法,發(fā)現(xiàn)前者優(yōu)于后者,不過(guò),兩者結(jié)合后的效果如何,仍有待更深入的研究。郵件是體現(xiàn)組織或者企業(yè)內(nèi)人與人之間交流的一種很好方式,也是專家檢索研究的一種很好的語(yǔ)料,但是它的內(nèi)容可能涉及到一些個(gè)人隱私或者保密的信息73,因此語(yǔ)料的構(gòu)建有較大的難度。 (2)基于博客構(gòu)建圖博客已經(jīng)成為網(wǎng)上一
35、種流行的信息發(fā)布和交流方式,其也被用于組織內(nèi)或者企業(yè)內(nèi)信息交流的平臺(tái),但與郵件不同的是,博客上的信息一般都是可以共享的信息,很少涉及到隱私問(wèn)題,因此用博客構(gòu)建專家檢索語(yǔ)料庫(kù)比郵件更容易。kolari等73認(rèn)為博客也可以作為專家證據(jù)的來(lái)源,他們通過(guò)分析ibm內(nèi)部網(wǎng)絡(luò)的博客來(lái)識(shí)別企業(yè)內(nèi)的專家,該方法的大體思想是:根據(jù)博客之間的相互評(píng)論和博客之間的鏈接來(lái)建立網(wǎng)絡(luò)圖g(v,e)(其中v表是撰寫博客的人,e 表示的是博主之間的關(guān)聯(lián)),再利用相應(yīng)的算法計(jì)算節(jié)點(diǎn)的中心度,識(shí)別出專家。4專家檢索排序方法 目前,仍沒有一種通用的專家檢索排序方法,通過(guò)分析參與者在trec 2005-2008所采用的排序方法,可以
36、將其排序方法分為基于語(yǔ)言模型的方法和基于非語(yǔ)言模型的方法。4.1 基于語(yǔ)言模型的排序方法 :下性 都是可以共享的信息,不專家檢索問(wèn)題的實(shí)質(zhì)是:根據(jù)用戶的查詢q,返回與q相關(guān)的專家并排序返回給用戶。依據(jù)查詢似然的思想,專家排序可以看作是:用戶在檢索中提出的查詢表達(dá)式q是針對(duì)某個(gè)特定的專家e生成的,而檢索系統(tǒng)觀察(接受)到用戶提出的查詢q后,其任務(wù)是預(yù)測(cè)可能生成q的專家并將其根據(jù)可能性大小排序返回給用戶,即將專家按照p(e|q)排序,模型如公式1: 對(duì)于一次確定的專家檢索過(guò)程而言,查詢q對(duì)每個(gè)專家e 都是確定的,因此p(q)與排序無(wú)關(guān),則如公式2p(e)則是每個(gè)專家的先驗(yàn)概率,可用來(lái)結(jié)合專家權(quán)重優(yōu)
37、先級(jí)等因素。在這里,假設(shè)p(e)是均勻分布的,即與排序無(wú)關(guān)。因此,也可以用p(q|e)對(duì)專家排序,則如公式3: 在trec 2005中,cao等74和azzopardi等75介紹了兩種用于專家檢索任務(wù)的語(yǔ)言模型。它們被balog等76解釋為候選專家模型(模型1)和文檔模型(模型2)。這是目前較常用的專家檢索模型框架,它們?yōu)榛诖说臄U(kuò)展和新方法的產(chǎn)生提供了理論基礎(chǔ)。(1)專家語(yǔ)言模型(模型1)模型1基于的是craswell等77提出的虛擬文檔方法,fang等78將該模型稱之為基于專家檔案的模型,petkova和croft則將其稱之為查詢獨(dú)立法(query-independent approach
38、)79。該模型的主要思路為:根據(jù)每個(gè)專家e,估算一個(gè)專家語(yǔ)言模型,利用p(q|e),計(jì)算專家e產(chǎn)生q的概率,如公式4: 通常情況下,查詢q是通過(guò)一系列詞來(lái)表示的,tf(,q)表示出現(xiàn)在查詢q中的詞頻。該公式假設(shè)各個(gè)詞從中發(fā)生的事件是相互獨(dú)立的。p(|)表示的是候選專家e寫某種東西的概率。若一個(gè)候選專家對(duì)某方面談?wù)摰迷蕉?,則他(她)越有可能是這方面的專家。給定候選專家e,生成查詢q類似于詢問(wèn)該專家是否有可能寫了與查詢主題相關(guān)的東西。關(guān)于,可以認(rèn)為是由與專家e主題相關(guān)的索引詞分布模型和背景語(yǔ)言模型p(t|c)的插值,如公式5: petkova80提出的層次語(yǔ)言模型和cao等81提出的概率方法沒有考
39、慮文檔級(jí)的專家證據(jù),而是基于窗口研究專家證據(jù)。petkova和croft介紹了一種新的文檔表示方法,該方法強(qiáng)調(diào)了與實(shí)體臨近的文本內(nèi)容,并給文檔中的命名實(shí)體和查詢?cè)~之間的依存建模,提出了一種基于位置信息的、以候選專家為中心的文檔表示方法 ,該方法類似與基于窗口的模型82。balog 等83在對(duì)此進(jìn)行了擴(kuò)展,并試圖從萬(wàn)維網(wǎng)中獲得專家證據(jù)。 (2)文檔語(yǔ)言模型(模型2)該模型假定候選專家與查詢之間是相互獨(dú)立的。該模型將查詢的生成過(guò)程看成如下兩個(gè)步驟:選擇與候選專家e相關(guān)的文檔;在中,用戶針對(duì)文檔中專家的相關(guān)信息提出查詢q。于是查詢q的生成過(guò)程被劃分到各個(gè)文檔中去,如公式6:該思想可以表達(dá)為:查詢q是
40、針對(duì)每個(gè)文檔生成的。在該模型中,p(|e)的計(jì)算與模型1是相同的。而p(q|,e)的計(jì)算可以簡(jiǎn)化為p(q|),相對(duì)于模型1,模型2的優(yōu)點(diǎn)在于可以對(duì)查詢?cè)~之間的依存進(jìn)行建模,而模型1由于首先引入索引詞之間的獨(dú)立假設(shè),因此無(wú)法對(duì)索引詞之間的依存性進(jìn)行考察。而模型2保留了完整的查詢q和每個(gè)文檔,從而可以利用各種文本檢索中考察查詢索引詞依存的方法。balog等84的實(shí)驗(yàn)表明模型1優(yōu)于模型2,然而目前大多數(shù)的專家檢索模型仍沿用了模型2的框架。petkova 和croft對(duì)該框架進(jìn)行了另外的擴(kuò)充,它們采用了偽相關(guān)反饋(即查詢擴(kuò)展),對(duì)查詢主題進(jìn)行建模,用于排序文檔和候選專家85;fang等86不是從文檔級(jí)
41、別而是從段落或者文檔片段來(lái)考慮文檔與候選專家之間的關(guān)系;zhu 等87利用該模型時(shí),考慮了文檔級(jí)別和文檔的內(nèi)部結(jié)構(gòu);macdonald等88和petkova等89提出了一種計(jì)算檢索詞與候選專家之間依存性的方法;petkova等90詳述了候選專家-文檔之間的關(guān)系; serdyukov 等91研究了專家檢索中的相關(guān)性傳遞;fang等92也提出了一個(gè)類似的基本框架,把相關(guān)性模型運(yùn)用到專家檢索中,利用語(yǔ)言模型直接對(duì)專家檢索的相關(guān)性問(wèn)題進(jìn)行建模,并使用概率排序原則進(jìn)行排序。上述特點(diǎn)使得fang等人的框架在立意上高于balog等人,但具體到實(shí)現(xiàn)方法上仍然采用了類似模型2的手段。綜合分析模型1和模型2,以及
42、分別建立在模型1和模型2基礎(chǔ)上的其它模型,都考慮到了候選專家和文檔之間的聯(lián)系,目前,也有學(xué)者將模型1和模型2結(jié)合起來(lái),如serdyukov等提出了將專家語(yǔ)言模型和文檔語(yǔ)言模型結(jié)合起來(lái)的person-centric方法。4.2 其它模型。檔 模型(1)cdd(candidate description document)模型該模型借鑒了概率模型的思想,對(duì)每個(gè)文檔中專家共現(xiàn)文檔片段的相關(guān)性進(jìn)行加權(quán),并將片段歸并為專家檔案。在各種異構(gòu)數(shù)據(jù)集中抽取對(duì)候選專家的描述并形成候選專家的描述文檔(cdd),因此給定查詢,候選專家是專家的概率可以定義為專家的描述文檔與查詢的匹配概率,如公式7: 其中,c 表示的
43、是候選專家,c表示的是候選專家c的理想描述文檔。在該模型中找到了三個(gè)決定cdd與查詢主題相關(guān)性的三個(gè)啟發(fā)式方法: 專長(zhǎng)強(qiáng)度(ei):候選專家所擁有的與查詢主題相關(guān)的知識(shí)總量。 專長(zhǎng)區(qū)分(ed):候選專家所擁有的專長(zhǎng)能將該專家與其他專家區(qū)分開來(lái)的程度。 有效專長(zhǎng)比(eep):與查詢主題有關(guān)的知識(shí)與候選專家所擁有的所有知識(shí)之比。利用上述三個(gè)指標(biāo),計(jì)算權(quán)值,并根據(jù)權(quán)值的大小給每個(gè)候選專家描述文檔進(jìn)行排序,如公式8。fu等采用該模型取得了良好的檢索效果,但是由于他們?cè)趯?shí)驗(yàn)中還采用了其他的輔助方法,故無(wú)法對(duì)cdd模型和基于語(yǔ)言模型方法的專家檢索效果進(jìn)行客觀的評(píng)價(jià)與比較。(2)投票模型 macdonald
44、等93提出了一種基于文檔模型的投票算法,該算法把專家檢索看成是一個(gè)投票過(guò)程,當(dāng)檢索出一個(gè)與查詢主題相關(guān),且與候選專家相關(guān)的文檔時(shí),則認(rèn)為該文檔為該專家進(jìn)行投票,最后依據(jù)每個(gè)候選專家所得票數(shù)之和進(jìn)行排序。在94中將12種投票方法運(yùn)用到了專家排序中,實(shí)驗(yàn)結(jié)果顯示,expcombmnz是最好的投票方法,如公式9:r(q)表示的是與查詢q相關(guān)且排序后的文檔集,score_cand(c,q)表示的是給定查詢q,候選專家c的相關(guān)性分?jǐn)?shù)。profile(c)表示含有候選專家c的文檔集,score(d,q)表示候選專家在文檔集r(q)中的相關(guān)性分?jǐn)?shù)。|r(q)profile(c)|表示同時(shí)存在于候選專家檔案和
45、r(q)中的文檔數(shù)。該模型類似于balog等95提出的模型2。目前研究結(jié)果表明,基于語(yǔ)言模型的專家檢索在效果上優(yōu)于投票模型。5專家檢索效果的評(píng)價(jià)專家檢索的評(píng)價(jià)比文檔檢索效果的評(píng)價(jià)要困難,主要是因?yàn)樵谖臋n檢索中,評(píng)論者能夠通過(guò)閱讀文檔來(lái)判斷文檔與查詢之間的相似性。但專家檢索返回的只是一些專家名,無(wú)法直接通過(guò)這些專家名判斷其與查詢主題的相關(guān)性。5.1專家檢索的三種評(píng)價(jià)方法 目前主要采取如下三種方法評(píng)價(jià)專家與查詢主題的相關(guān)性:(1)原有實(shí)況(pre-existing ground truth):該方法基于事實(shí)評(píng)價(jià)專家和查詢主題的相關(guān)性。如在trec 2005的專家檢索任務(wù)中,查詢主題就是w3c工作組
46、的名字,要求參與系統(tǒng)能夠預(yù)測(cè)每個(gè)工作組的成員。該方法的評(píng)價(jià)依賴于候選專家已知的分組情況,當(dāng)系統(tǒng)采用了非工作組名的其它詞匯構(gòu)成查詢時(shí),則不能用該方法進(jìn)行評(píng)價(jià)。(2)支持文檔證據(jù)(supporting evidence):這是trec 2006 專家檢索任務(wù)中提出的一種方法。該方法要求每個(gè)參與系統(tǒng)返回一些與候選專家專長(zhǎng)相關(guān)的且排序的一些支持文檔。通過(guò)判斷支持文檔與查詢主題之間的相關(guān)性來(lái)評(píng)價(jià)該參與系統(tǒng)的性能。相關(guān)性評(píng)價(jià)分為以下兩步:首先,要求參與評(píng)估的人的在做出評(píng)論之前,閱讀檢索系統(tǒng)給每個(gè)候選專家返回的支持文檔,評(píng)估者依據(jù)該支持文檔與查詢主題之間的相關(guān)性給該文檔加上標(biāo)志,最后綜合分析每個(gè)評(píng)估者對(duì)每個(gè)
47、候選專家支持文檔的評(píng)價(jià)情況,獲得該專家檢索系統(tǒng)的檢索準(zhǔn)確度。(3)候選專家問(wèn)卷調(diào)查:詢問(wèn)數(shù)據(jù)集中每個(gè)候選專家是否擁有與查詢主題相關(guān)的專長(zhǎng)。該方法不適合數(shù)據(jù)集中有大量候選專家的情況,且評(píng)估者也不可能了解每個(gè)候選專家的興趣。trec 2007的專家檢索任務(wù)就是通過(guò)運(yùn)用該方法的一種衍生方法在中小型企業(yè)環(huán)境中 進(jìn)行評(píng)價(jià)。5.2 評(píng)價(jià)指標(biāo) 類似于傳統(tǒng)的文檔檢索系統(tǒng),可以通過(guò)采用傳統(tǒng)檢索評(píng)價(jià)指標(biāo)如準(zhǔn)確率和召回率及其擴(kuò)展來(lái)評(píng)價(jià)專家檢索系統(tǒng)的準(zhǔn)確性。trec專家檢索采用的就是傳統(tǒng)的trec評(píng)價(jià)指標(biāo),如map、r-precision、pk等,關(guān)于這些指標(biāo),本文不再贅述。6結(jié)束語(yǔ)本文詳細(xì)介紹了專家檢索的數(shù)據(jù)集來(lái)源
48、、專家檢索方法、專家檢索模型及評(píng)價(jià)方法。從上文可以看出,經(jīng)過(guò)多年的努力,專家檢索研究取得了很大進(jìn)展。trec始于2005年的專家檢索任務(wù)經(jīng)過(guò)四年的成功召開,于2008年終止。然而,這不意味著專家檢索研究的終結(jié),實(shí)際上trec 2009的實(shí)體檢索任務(wù)(entity search track)就可以被認(rèn)為是專家檢索任務(wù)的一種延續(xù),它通過(guò)以下兩個(gè)方面對(duì)專家檢索進(jìn)行了擴(kuò)展: 檢索的類型從人擴(kuò)展到各種實(shí)體; 數(shù)據(jù)集的來(lái)源從企業(yè)內(nèi)部網(wǎng)擴(kuò)展到互聯(lián)網(wǎng)。目前,學(xué)者們正在研究如何將專家檢索的方法和模型運(yùn)用到實(shí)體檢索中。此外,在多源異構(gòu)數(shù)據(jù)集的使用與整合、語(yǔ)義分類詞表及本體的引入、社會(huì)網(wǎng)絡(luò)對(duì)專家專長(zhǎng)的影響、專家專長(zhǎng)
49、的演化等方面,仍有待于進(jìn)一步的深入研究。參考文獻(xiàn)1,10,26 serdyukov p. search for expertise going beyond direct evidence.2009. 2 yimam-seid d,kobsa a. expert finding systems for organizations: problem and domain analysis and the demoir approach j. journal of organizational computing and electronic commerce, 2003, 13(1):1-24.
50、 3 陸偉,趙浩鎮(zhèn). 基于文檔權(quán)重歸并法的企業(yè)專家檢索.現(xiàn)代圖書情報(bào)技術(shù),2008(7):38-42.4,88 macdonald c, ounis i. voting techniques for expert searchj. springer,2008,16(3):259-280.5 davenport th, prusak l. working knowledge: how organizations manage what they knowj.harvard business school press, boston, ma, 1998.6 maron me, curry s, t
51、hompson p. an inductive search system: theory, design and implementationj. ieee transaction on systems, man and cybernetics, 1986, 16(1):2128.7,8.12 balog k, soboro i, thomas p, craswell n. overview of the trec 2008 enterprise track.9,48 jiepu j, wei l, dan l. csir at trec 2007 expert search taskc.
52、in proceedings of the 16th text retrieval conference, 2007. 11,13,15 serdyukov p, robin a, hiemstra d. university of twente at the trec 2008 enterprise track: using the global web as an expertise evidence sourcec. in proceedings of the2008 text retrieval conference (trec 2008), gaithersburg, md, 200
53、8.14 chu-carroll j, averboch g, duboue p, gondek d, murdock jm, prager j, hoffmann j, wiebe j. ibm in trec 2006 enterprise tackc. in proceedings of the 15thtext retrieval conference, 2006.16 balog k, bogers t, azzopardi l, de rijke m, van den bosch a. broad expertise retrieval in sparse data environ
54、mentsc. in proceedings of the 30th annual international acm sigir conference on research and development in informa-ion retrieval, amsterdam, netherlands, 2007:551-558.17 jiang j, s h, lu w. expertise retrieval using search engine resultsc. in proceedings of the 16th text retrieval conference, 2008.
55、18 streeter la, lochbaum ke. an expert/expert locating system based on automatic representation of semantic structure c. in proceedings of the 4th ieee conference on artificial intelligence applications, san diego, california, usa, 1988: 345-349.19 schwartz mf, wood dcm. discovering shared interests
56、 using graph analysis j. communications of the acm, 1993, 36(8): 78-89.20 krulwich b, burkey c. the contactfinder agent: answering bulletin board questions with referrals c. in proceedings of the 13th national conference on artificial intelligence (aaai96) c, portland, oregon, 1996: 10-15.21 pikrakis a, bitsikas t, sfakianakis s, hatzopoulos m, de roure dc, hall w, reich s, hill gj, stairmand m. memoir-software agents for finding similar users by trails c. in: proceedings of the 3rd international conference on the practical applications of intelligent agents and multi-agent technology
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代辦公室空間中的綠色植物應(yīng)用
- 現(xiàn)代制造園區(qū)的投資風(fēng)險(xiǎn)評(píng)估與管理
- 現(xiàn)代企業(yè)經(jīng)營(yíng)中的稅務(wù)籌劃與風(fēng)險(xiǎn)管理
- 國(guó)慶節(jié)主題客堂活動(dòng)方案
- 2024年春九年級(jí)化學(xué)下冊(cè) 第10單元 酸和堿 實(shí)驗(yàn)活動(dòng)6 酸、堿的化學(xué)性質(zhì)說(shuō)課稿 (新版)新人教版
- Unit7 第2課時(shí)(說(shuō)課稿)Story time三年級(jí)英語(yǔ)上冊(cè)同步高效課堂系列(譯林版三起·2024秋)
- 2《紅燭》《致云雀》聯(lián)讀說(shuō)課稿 2024-2025學(xué)年統(tǒng)編版高中語(yǔ)文必修上冊(cè)
- 《4 做陽(yáng)光少年》(說(shuō)課稿)-2023-2024學(xué)年五年級(jí)上冊(cè)綜合實(shí)踐活動(dòng)皖教版
- 2025水運(yùn)工程施工監(jiān)理合同(試行)
- 2025企業(yè)聘用臨時(shí)工合同
- 一年級(jí)下冊(cè)口算題(可直接打印)
- 公務(wù)員面試應(yīng)急應(yīng)變題目大全及解析
- 學(xué)校年級(jí)組長(zhǎng)工作計(jì)劃
- 膝關(guān)節(jié)痛風(fēng)的影像學(xué)診斷
- 浙江省炮制規(guī)范2015版電子版
- 冰心《童年的春節(jié)》
- 鄭州小吃詳細(xì)地點(diǎn)
- 上海高考英語(yǔ)詞匯手冊(cè)
- 2021年江蘇省淮安市淮陰中學(xué)高一政治下學(xué)期期末試題含解析
- 公共政策工具-課件
- 石油化工、煤化工、天然氣化工優(yōu)劣勢(shì)分析
評(píng)論
0/150
提交評(píng)論