版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、引言信息檢索的目標(biāo)是“所得即所需”(What you Get Is What You Want)。一個(gè)具體的體現(xiàn)就是:不同的用戶(hù)在使用同樣查詢(xún)的時(shí)候可能獲得不同的結(jié)果;更進(jìn)一步,同一個(gè)用戶(hù)在不同時(shí)間或者不同地點(diǎn)發(fā)出同樣的查詢(xún)可能獲得不同的結(jié)果。例如,同一個(gè)用戶(hù)對(duì)“java”信息的需求:在工作時(shí)間希望得到有關(guān)編程語(yǔ)言java的相關(guān)文檔,在休息時(shí)間希望得到有關(guān)java島的旅游信息。為了達(dá)到這樣的目的,檢索系統(tǒng)需要充分地理解并掌握檢索活動(dòng)的主體(用戶(hù))和客體(資源)。面對(duì)這樣的挑戰(zhàn),人們一方面在信息資源端做工作,提出了語(yǔ)義網(wǎng)(Semantic Web,也稱(chēng)為語(yǔ)義Web)的概念,使得檢索系統(tǒng)能夠更好地
2、理解內(nèi)容,從而使檢索結(jié)果更符合檢索的條件;另一方面是在用戶(hù)端做工作,通過(guò)各種手段獲得用戶(hù)的特征信息并進(jìn)行用戶(hù)建模,使用用戶(hù)個(gè)性化信息來(lái)修正查詢(xún)條件,從而改善檢索結(jié)果。這兩個(gè)方面的研究對(duì)達(dá)到“所得即所需”的目標(biāo)起到了很大的推動(dòng)作用。盡管語(yǔ)義網(wǎng)和用戶(hù)建模技術(shù)極大地提高了檢索系統(tǒng)的智能化、個(gè)性化水平,但是,人們也已經(jīng)意識(shí)到,將資源和用戶(hù)分開(kāi)來(lái)考慮,難以達(dá)到“所得即所需”的目標(biāo)。必須用系統(tǒng)的觀(guān)點(diǎn)來(lái)看待信息檢索活動(dòng),也就是說(shuō),用戶(hù)檢索的結(jié)果應(yīng)該是特定“環(huán)境”下的結(jié)果,這個(gè)環(huán)境就是檢索過(guò)程的上下文(context)。考慮了上下文的檢索稱(chēng)為上下文信息檢(Contextual Information Retr
3、ieval,CIR)。1上下文信息檢索的概念Word Net是Princeton大學(xué)的心理學(xué)家、語(yǔ)言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語(yǔ)言學(xué)的英語(yǔ)詞典。在Word Net2.1中,上下文(context)被定義如下:)語(yǔ)言學(xué)上下文,即在一個(gè)語(yǔ)言單位附近的片斷,用以幫助解釋該語(yǔ)言單位。)環(huán)境,即一種情形或事件發(fā)生于其中的環(huán)境和背景。信息檢索領(lǐng)域中,上下文最初是指“自然語(yǔ)言處理中的文檔片段”,專(zhuān)門(mén)用于自然語(yǔ)言學(xué)中指代短語(yǔ)或句子在實(shí)際應(yīng)用中的語(yǔ)言環(huán)境。它在自然語(yǔ)言處理中的價(jià)值體現(xiàn)在兩個(gè)方面:一方面,在自然語(yǔ)言知識(shí)獲取的過(guò)程中,上下文是知識(shí)獲取的來(lái)源,在相應(yīng)推理機(jī)制下,上下文本身就是知識(shí);另一方
4、面,在自然語(yǔ)言處理的應(yīng)用問(wèn)題解決過(guò)程中,上下文扮演著解決問(wèn)題所需信息和資源提供者的重要角色。從20世紀(jì)中期開(kāi)始發(fā)展的信息檢索系統(tǒng),基本上是千人一面(one size fits all),不同用戶(hù)提出同一查詢(xún),得到的答案完全相同。這種模式帶來(lái)的最大問(wèn)題就是不夠人性化,難以準(zhǔn)確地滿(mǎn)足不同用戶(hù)的個(gè)性化需求。所以,人們最先關(guān)注的是和用戶(hù)有關(guān)的上下文,即把用戶(hù)有關(guān)的信息引入檢索系統(tǒng)以滿(mǎn)足用戶(hù)的“所得即所需”。文獻(xiàn)6于2000年總結(jié)的Web搜索中的上下文信息主要包括和用戶(hù)查詢(xún)意圖以及用戶(hù)查詢(xún)表達(dá)相關(guān)的信息。文獻(xiàn)7也指出上下文和個(gè)性化檢索緊密相關(guān),用來(lái)幫助提高用戶(hù)檢索體驗(yàn),需要理解每一個(gè)用戶(hù)查找信息的模式習(xí)
5、慣、用戶(hù)目標(biāo),以及信息本身。然而,對(duì)信息檢索系統(tǒng)而言,可利用的上下文并不僅限于此。2002年9月在Massachusetts Amherst大學(xué)智能信息檢索中心(the Center for Intelligent Information Retrieval)召開(kāi)的關(guān)于智能信息檢索未來(lái)研究方向和發(fā)展的研討會(huì)上,許多信息檢索領(lǐng)域頂級(jí)研究者經(jīng)過(guò)討論給出了上下文信息檢索定義8,即:定義(上下文信息檢索,Contextual Information Retrieval,CIR)就是把有關(guān)用戶(hù)、查詢(xún)的上下文知識(shí)和信息檢索技術(shù)融合在一起,統(tǒng)一組織在一個(gè)整體框架內(nèi),以向用戶(hù)提供最適合用戶(hù)需求的檢索信息。隨著
6、人們對(duì)CIR的關(guān)注,2003年第12屆TREC(Text Retrieval Conference)國(guó)際會(huì)議第一次增加了HARD評(píng)測(cè)(High Accuracy Retrieval from Documents Track)。HARD評(píng)測(cè)的目的是考察用戶(hù)及其相關(guān)信息對(duì)檢索過(guò)程和檢索結(jié)果評(píng)估的影響,即考察信息檢索過(guò)程中上下文(如用戶(hù)地域特點(diǎn)、文檔風(fēng)格等上下文信息)對(duì)信息檢索性能的影響。2004年第屆IRiX(Information Retrieval in Context)研討會(huì)在第27屆SIGIR上舉行,并一舉成為SIGIR2004上參會(huì)人數(shù)最多、最受人關(guān)注的研討會(huì)。該研討會(huì)的總目標(biāo)是如何在信
7、息檢索過(guò)程中考慮上下文因素以提高用戶(hù)信息需求滿(mǎn)意度。在該研討會(huì)上,信息檢索領(lǐng)域中的上下文定義如下。定義2(上下文,Context)信息檢索中的上下文包括一切與檢索查詢(xún)相關(guān)的任務(wù)信息、交互歷史信息、用戶(hù)信息等明確給出或隱含在檢索交互環(huán)境中的相關(guān)信息。從定義中可以看出,只要和用戶(hù)檢索過(guò)程相關(guān)的一切隱含或明確的信息都將是智能個(gè)性化信息檢索的上下文,都可能用于優(yōu)化檢索系統(tǒng),提高檢索性能。因此,智能信息檢索的上下文實(shí)際上是無(wú)所不在,無(wú)處不在。事實(shí)上,從20世紀(jì)90年代后期以來(lái),圍繞信息檢索、信息推薦等信息服務(wù)系統(tǒng)的上下文的研究就層出不窮,有許多研究成果已經(jīng)成功運(yùn)用在實(shí)際系統(tǒng)中來(lái)幫助提高效率和性能,如針對(duì)
8、用戶(hù)興趣的相關(guān)反饋技術(shù)、針對(duì)Web文檔鏈接內(nèi)容的Page Rank技術(shù)、針對(duì)用戶(hù)訪(fǎng)問(wèn)歷史記錄的Web日志分析技術(shù)等,并取得了一系列重要成果。這為人們進(jìn)一步挖掘可用上下文以幫助提高檢索效果樹(shù)立了信心,指明了方向。在2007年歐洲信息檢索大會(huì)上(European Conference On Information Retrieval,ECIR),Yahoo公司新興搜索技術(shù)(Emerging Search Technology)部門(mén)的Andrei Broder指出上下文信息不僅在當(dāng)前第三代搜索引擎實(shí)現(xiàn)滿(mǎn)足“查詢(xún)背后的需求”(the need behind the query)目標(biāo)中起著關(guān)鍵作用,更在
9、未來(lái)第四代搜索引擎實(shí)現(xiàn)“上下文驅(qū)動(dòng)的信息推送”(context driven information supply)目標(biāo)中占據(jù)主導(dǎo)地位。2CIR中的上下文因素及其分類(lèi)2.1學(xué)術(shù)界的觀(guān)點(diǎn)Peter Ingwersen等人把信息檢索系統(tǒng)中涉及的上下文因素抽象概括為六大因素,表示為一個(gè)上下文分層嵌套模型(Nested Model of context stratification for IR),如圖所示。該模型作者認(rèn)為,傳統(tǒng)信息檢索技術(shù)更多的是關(guān)注檢索對(duì)象本身以及檢索對(duì)象之間的特征,如詞語(yǔ)、段落以及文檔內(nèi)容的超級(jí)鏈接等;如今,信息檢索系統(tǒng)的上下文技術(shù)開(kāi)始轉(zhuǎn)向用戶(hù)檢索對(duì)話(huà)過(guò)程中(session-ti
10、me)可獲取的上下文信息,如鼠標(biāo)移動(dòng)、打印保存等操作,即轉(zhuǎn)向從交互式過(guò)程中獲取用戶(hù)的上下文信息。圖1Peter Ingwersen等人提出的分層嵌套的上下文模型2005年IRiX(Information Retrieval in Context)研討會(huì)上研究者則把信息檢索中的上下文看作是包含了信息檢索過(guò)程中涉及的各種因素的超類(lèi),把各種因素不同取值之間的組合看作情景(Situation),把每種因素的取值可能性看作是任務(wù)(Task)。上下文中包含的因素主要是個(gè)方面的,分別是系統(tǒng)、用戶(hù)和環(huán)境。其中每一方面的因素又包含多種因素,如用戶(hù)方面包括動(dòng)機(jī)(Motivation)、知識(shí)(Knowledge)、
11、歷史(History)和個(gè)體差異(Individual differences)等,系統(tǒng)方面包括資源(Resource)、檢索模型(Retrieval Model)、設(shè)備(Device)、接口(Interface)等方面。2.2 產(chǎn)業(yè)界的觀(guān)點(diǎn)Andrei Broder在2007年歐洲信息檢索大會(huì)上強(qiáng)調(diào)了當(dāng)前和未來(lái)上下文信息在信息檢索過(guò)程中的重要性,指出當(dāng)前第三代檢索技術(shù)是依賴(lài)上下文信息滿(mǎn)足“查詢(xún)背后的需求”(the need behind the query),并提出未來(lái)第四代檢索技術(shù)需要實(shí)現(xiàn)“上下文驅(qū)動(dòng)的信息推送”(context driven information supply)。同時(shí),
12、他指出第三代搜索引擎中上下文中的決定因素(Context Determination)包括空間信息(如user local/target location)、查詢(xún)信息(如previous queries)、個(gè)人信息(如user profile)、明確信息(如user choice of a vertical search)以及潛在信息(如use Google from China, use )等種。除了上面學(xué)術(shù)界給出的闡述外,產(chǎn)業(yè)界給出了更為實(shí)用的基于上下文的信息檢索的說(shuō)明。他們把基于上下文的信息檢索看作是由信息檢索領(lǐng)域種技術(shù)構(gòu)成的三維空間上的一個(gè)平面。這種技術(shù)保障了對(duì)上下文信息的獲取和挖掘,
13、如圖所示。這種技術(shù)分別是:1)智能的文本挖掘和數(shù)據(jù)挖掘,通過(guò)自動(dòng)文本概念標(biāo)注、模式發(fā)現(xiàn)和實(shí)體知識(shí)識(shí)別等技術(shù)發(fā)現(xiàn)各種可用的信息;2)靈活的內(nèi)容構(gòu)建技術(shù),能從結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)源中發(fā)現(xiàn)獨(dú)立的XML模式和相關(guān)關(guān)聯(lián);3)高性能的檢索技術(shù),面對(duì)超大規(guī)模的數(shù)據(jù)能進(jìn)行迅速和可擴(kuò)展的內(nèi)容處理和檢索。圖產(chǎn)業(yè)界關(guān)于上下文檢索的一種觀(guān)點(diǎn)2.3 本文的分類(lèi)觀(guān)點(diǎn)縱觀(guān)上面的討論,Peter Ingwersen等人的看法層次分明,抽象意義明顯;2005年IRiX研討會(huì)上給出的結(jié)論比較系統(tǒng)、清楚自然,更便于在實(shí)現(xiàn)過(guò)程中區(qū)分和理解;Andrei Broder給出的上下文更符合Internet上搜索引擎環(huán)境下的應(yīng)用;而產(chǎn)業(yè)界
14、則在技術(shù)層面上給出了挖掘應(yīng)用上下文因素的相關(guān)分析。結(jié)合以上討論和上下文信息在信息檢索領(lǐng)域已有的研究成果,本文把人們當(dāng)前比較關(guān)注的上下文因素按照信息檢索的邏輯流程分為3個(gè)類(lèi)別,如圖3所示,分別是用戶(hù)上下文、文檔上下文和系統(tǒng)上下文。圖3本文對(duì)檢索系統(tǒng)中上下文因素的分類(lèi))用戶(hù)上下文:檢索系統(tǒng)中圍繞用戶(hù)的上下文信息,如用戶(hù)的興趣、愛(ài)好等,以及用戶(hù)的查詢(xún)?nèi)罩?、檢索反饋行為等。用戶(hù)上下文提供了理解用戶(hù)需求的信息,是現(xiàn)在實(shí)現(xiàn)個(gè)性化檢索及未來(lái)實(shí)現(xiàn)上下文驅(qū)動(dòng)的信息推送服務(wù)的必要條件之一。為了便于詳細(xì)解析和用戶(hù)有關(guān)的上下文信息,本文把用戶(hù)上下文分為用戶(hù)靜態(tài)上下文和檢索任務(wù)上下文兩個(gè)類(lèi)別。用戶(hù)靜態(tài)上下文和用戶(hù)的專(zhuān)業(yè)
15、背景、工作內(nèi)容、愛(ài)好、經(jīng)驗(yàn)、生活習(xí)慣、理解水平等因素密切相關(guān);檢索任務(wù)上下文包括檢索任務(wù)的內(nèi)容、特點(diǎn)、發(fā)生時(shí)間、作用范圍、發(fā)生背景等方面,一方面反映用戶(hù)本次信息需求的內(nèi)容,另一方面反映用戶(hù)檢索需求的變化和遷移。用戶(hù)靜態(tài)上下文描述了用戶(hù)檢索需求的一種長(zhǎng)期特點(diǎn),是用戶(hù)長(zhǎng)期檢索興趣的反映;檢索任務(wù)上下文描述了用戶(hù)檢索需求的一種短期特點(diǎn),是用戶(hù)短期檢索需求的反映。)文檔上下文:文檔是指信息檢索的目標(biāo)對(duì)象。文檔的內(nèi)容特征、使用范圍、產(chǎn)生的時(shí)間和地點(diǎn)以及其它元數(shù)據(jù)(meta data)信息等都屬于文檔上下文。文檔內(nèi)容特征包括文檔的書(shū)寫(xiě)語(yǔ)言、術(shù)語(yǔ)化程度(專(zhuān)業(yè)性程度)、布局特點(diǎn)等因素。除了文檔內(nèi)容外,對(duì)Web
16、網(wǎng)頁(yè)而言,超鏈分析(link analysis)、布局分析(block analysis)可以較準(zhǔn)確地挖掘出其特征;對(duì)Pdf、Word等文檔而言,元數(shù)據(jù)分析、布局分析能更有效地發(fā)現(xiàn)其特點(diǎn)。另外,整個(gè)文檔集的組織結(jié)構(gòu)、文檔之間的關(guān)系等獨(dú)立于單個(gè)文檔之外的信息也屬于文檔上下文的范疇。)系統(tǒng)上下文:反映了信息檢索系統(tǒng)實(shí)現(xiàn)過(guò)程中的相關(guān)特征,如采用的索引機(jī)制、檢索模型、檢索界面等。3 CIR研究現(xiàn)狀3.1用戶(hù)上下文3.1.1用戶(hù)靜態(tài)上下文用戶(hù)靜態(tài)上下文包括用戶(hù)的專(zhuān)業(yè)背景、工作內(nèi)容、愛(ài)好、經(jīng)驗(yàn)、生活習(xí)慣、理解水平等各種和用戶(hù)個(gè)體相關(guān)的許多因素,用戶(hù)建模(user modeling)就是對(duì)用戶(hù)上下文中的因素
17、進(jìn)行模型表示。當(dāng)前,研究者比較關(guān)注對(duì)用戶(hù)上下文中用戶(hù)認(rèn)知特點(diǎn)(cognitive characteristics)的建模,如興趣、技能、偏好等。隨著近年來(lái)語(yǔ)義Web(Semantic Web)和本體(Ontology)技術(shù)的發(fā)展,許多研究紛紛以本體為工具來(lái)分析和描述用戶(hù)上下文。文獻(xiàn)25在具有層次關(guān)系的輕量級(jí)本體ODP(Open Directory Project)上對(duì)用戶(hù)查詢(xún)興趣進(jìn)行擴(kuò)展:把用戶(hù)興趣歸納到ODP上的不同類(lèi)別上,把用戶(hù)對(duì)某個(gè)類(lèi)別下的實(shí)例興趣度的50%加到其父類(lèi)別上,達(dá)到由下層到上層對(duì)用戶(hù)興趣進(jìn)行擴(kuò)展的目的。文獻(xiàn)6提出基于Lycos的目錄層次結(jié)構(gòu)構(gòu)建一個(gè)表示用戶(hù)興趣的個(gè)性化層次樹(shù),
18、以幫助實(shí)現(xiàn)Web的個(gè)性化瀏覽。文獻(xiàn)把用27戶(hù)的研究興趣建立在ODP之上,并通過(guò)計(jì)算搜索結(jié)果網(wǎng)頁(yè)所屬類(lèi)別和用戶(hù)興趣所屬類(lèi)別之間的語(yǔ)義距離來(lái)實(shí)現(xiàn)個(gè)性化的檢索。這些研究使用的本體大都集中在一些大型的通用本體,所利用的語(yǔ)義關(guān)系大都是父子關(guān)系,還缺乏對(duì)本體信息更充分的利用和進(jìn)一步挖掘,如本體上概念之間的關(guān)聯(lián)關(guān)系、建立在更細(xì)粒度上(如領(lǐng)域本體)的分析等。信息檢索系統(tǒng)中常通過(guò)用戶(hù)描述文件(user profile)為每個(gè)用戶(hù)刻畫(huà)其用戶(hù)特征。用戶(hù)描述文件可以表示成加權(quán)向量模型、層次結(jié)構(gòu)模型、加權(quán)語(yǔ)義網(wǎng)模型、書(shū)簽和目錄結(jié)構(gòu)等,存儲(chǔ)時(shí)可以采用純文本文件、XML文件、關(guān)系數(shù)據(jù)庫(kù)、XML數(shù)據(jù)庫(kù)等各種形式。獲取用戶(hù)上下
19、文最為直接簡(jiǎn)單的方法就是由用戶(hù)自我提供確認(rèn)。系統(tǒng)可以在用戶(hù)注冊(cè)該系統(tǒng)時(shí)獲取相關(guān)的用戶(hù)上下文信息,如年齡、專(zhuān)業(yè)、興趣等。NEC研究所(NECResearch Institute)著名的Inquirus項(xiàng)目6就是通過(guò)用戶(hù)手工選擇查詢(xún)類(lèi)別來(lái)獲取相應(yīng)的用戶(hù)上下文信息;Google Personal也是由用戶(hù)選擇興趣所屬類(lèi)別來(lái)創(chuàng)建用戶(hù)描述文件的。然而,通過(guò)許多研究調(diào)查表明人工方式獲得的用戶(hù)上下文并不很準(zhǔn)確,原因在于大部分用戶(hù)不愿意花費(fèi)精力認(rèn)真準(zhǔn)確地填寫(xiě)自己的相關(guān)信息。針對(duì)許多系統(tǒng)并不能獲得用戶(hù)準(zhǔn)確上下文信息的問(wèn)題,人們提出許多自動(dòng)獲取方法來(lái)獲得用戶(hù)靜態(tài)上下文,如相關(guān)反饋(Relevant Feedbac
20、k, RF,RF)、機(jī)器學(xué)習(xí)(Machine learning, ML)、數(shù)據(jù)挖掘(Data Mining, DM)等。這些方法通過(guò)對(duì)用戶(hù)操作歷史、用戶(hù)訪(fǎng)問(wèn)過(guò)的資源特征、用戶(hù)訪(fǎng)問(wèn)日志等信息的統(tǒng)計(jì)分析來(lái)獲取某方面的用戶(hù)上下文,幫助創(chuàng)建用戶(hù)描述文件。例如,文獻(xiàn)12介紹了使用關(guān)聯(lián)規(guī)則挖掘用戶(hù)的Web日志以構(gòu)建用戶(hù)的個(gè)性化描述文件;WY.Men等人提出根據(jù)用戶(hù)的點(diǎn)擊歷史自動(dòng)把用戶(hù)興趣定位到Y(jié)ahoo的某個(gè)類(lèi)別層次上,從而確定用戶(hù)的個(gè)性化信息;文獻(xiàn)2通過(guò)增量式文本挖掘方式(incremental text mining)發(fā)現(xiàn)用戶(hù)興趣。為了獲取更準(zhǔn)確的用戶(hù)上下文信息,這些自動(dòng)方法或者需要長(zhǎng)期用戶(hù)的檢索任務(wù)
21、上下文信息,或者需要與用戶(hù)上下文人工獲取方式結(jié)合起來(lái)。3.1.2檢索任務(wù)上下文檢索任務(wù)上下文提供圍繞用戶(hù)檢索目的的上下文信息,包括檢索任務(wù)的內(nèi)容特點(diǎn)、發(fā)生時(shí)間、發(fā)生地點(diǎn)(IP地址)、作用范圍、發(fā)生背景(客戶(hù)端背景)、用戶(hù)的反饋信息、響應(yīng)操作等許多因素。根據(jù)這些因素的變化性和復(fù)雜性,我們把檢索任務(wù)上下文分為簡(jiǎn)單因素和復(fù)雜因素兩類(lèi),兩類(lèi)因素比較如表所列。簡(jiǎn)單因素包括用戶(hù)提交檢索時(shí)可以獲得的一次性數(shù)據(jù),這類(lèi)數(shù)據(jù)在用戶(hù)的一次查詢(xún)過(guò)程中基本沒(méi)有變化,如檢索內(nèi)容、發(fā)生時(shí)間、發(fā)生地點(diǎn)、發(fā)生背景等因素。根據(jù)這些簡(jiǎn)單因素,結(jié)合文檔集的特點(diǎn),檢索系統(tǒng)可以在第一次返回檢索結(jié)果時(shí)向用戶(hù)提供更適合其需求的文檔。例如:根
22、據(jù)發(fā)出查詢(xún)用戶(hù)的地址,搜索引擎可以判斷用戶(hù)的使用語(yǔ)言偏好以向用戶(hù)提供適合用戶(hù)語(yǔ)言閱讀的檢索結(jié)果;根據(jù)用戶(hù)發(fā)出查詢(xún)的時(shí)間,例如是在普通工作時(shí)間內(nèi)還是在休假時(shí)間內(nèi),搜索引擎可以把用戶(hù)更滿(mǎn)意的結(jié)果排在前面。Yahoo公司的基于上下文的信息檢索工具Y!Q1首先做到的就是從用戶(hù)在Web頁(yè)面上選取的上下文中識(shí)別出用戶(hù)需求并把相關(guān)頁(yè)面返回給用戶(hù)。復(fù)雜因素是指和用戶(hù)進(jìn)行該檢索時(shí)對(duì)檢索過(guò)程和檢索結(jié)果的響應(yīng)相關(guān)的因素,和簡(jiǎn)單因素相比,這類(lèi)數(shù)據(jù)動(dòng)態(tài)不定,如用戶(hù)的反饋信息、響應(yīng)操作、查詢(xún)持續(xù)時(shí)間等。根據(jù)復(fù)雜因素,系統(tǒng)可以將反饋結(jié)果應(yīng)用在用戶(hù)查看下一頁(yè)的結(jié)果排列上。Steve Fox把復(fù)雜因素又劃分為結(jié)果級(jí)別(Resu
23、lt-Level)和會(huì)話(huà)級(jí)別(Session-Level),并詳細(xì)列出了每一級(jí)別上更為細(xì)致的因素。表檢索任務(wù)上下文中的簡(jiǎn)單因素和復(fù)雜因素的比較簡(jiǎn)單因素復(fù)雜因素共同點(diǎn)都是圍繞用戶(hù)檢索任務(wù)的上下文信息區(qū)別在用戶(hù)的一次查詢(xún)過(guò)程中基本沒(méi)有變化和用戶(hù)在檢索過(guò)程中的響應(yīng)行為有關(guān),動(dòng)態(tài)不定具體因素包括檢索內(nèi)容、發(fā)生時(shí)間、發(fā)生地點(diǎn)、發(fā)生背景等用戶(hù)的反饋信息、響應(yīng)操作、查詢(xún)持續(xù)時(shí)間等復(fù)雜因素與用戶(hù)在檢索過(guò)程中的響應(yīng)行為有關(guān),而相關(guān)反饋技術(shù)是獲得這些因素最為重要的方法之一。相關(guān)反饋技術(shù)不僅在創(chuàng)建用戶(hù)描述文件時(shí)可用于獲取用戶(hù)的興趣和偏好,對(duì)即時(shí)提高檢索性能、滿(mǎn)足用戶(hù)短期查詢(xún)也有很好的效果。相關(guān)反饋分為明確反饋(ex
24、plicit feedback)、偽反饋(pseudo feedback)、潛在反饋(implicit feedback)種形式。明確反饋是指由用戶(hù)明確給出是否滿(mǎn)意檢索結(jié)果的評(píng)價(jià)。由于大部分用戶(hù)在檢索過(guò)程中不愿主動(dòng)參與,因此在Web檢索系統(tǒng)中單獨(dú)應(yīng)用較少;即使有用戶(hù)主動(dòng)參與了明確反饋,效果也不是很好。偽反饋是一種沒(méi)有用戶(hù)參與的方法,它假設(shè)第一次檢索結(jié)果中Top-N 篇文檔正是用戶(hù)所需,并把這種假設(shè)的反饋信息通過(guò)查詢(xún)擴(kuò)展(query expansion)技術(shù)調(diào)整新查詢(xún)的結(jié)果排序。偽反饋中可提取出許多信息,如段落和概念等,用于優(yōu)化檢索性能,提取出真正有助于增強(qiáng)了解用戶(hù)個(gè)性化的上下文信息將更具有意義
25、。偽反饋是應(yīng)用較多的一種方法,但它基于的前提假設(shè)“Top-N篇文檔與用戶(hù)所需相關(guān)”值得進(jìn)一步關(guān)注。文獻(xiàn)7曾通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)偽反饋的效果受N值的影響較大,因此提出了兩階段混合模型的解決方法。潛在反饋是指在用戶(hù)檢索和瀏覽檢索結(jié)果的過(guò)程中由檢索系統(tǒng)自動(dòng)收集有關(guān)用戶(hù)響應(yīng)行為的反饋信息,并把反饋信息及時(shí)應(yīng)用到當(dāng)次檢索結(jié)果的優(yōu)化調(diào)整上。潛在反饋由于具有不需用戶(hù)主動(dòng)配合、能即時(shí)修正檢索結(jié)果的優(yōu)點(diǎn),因此成為當(dāng)前研究領(lǐng)域獲取檢索任務(wù)上下文最主要的方法。也有人對(duì)潛在反饋的效果存有疑慮,但研究8表明通過(guò)潛在結(jié)構(gòu)化的個(gè)性化信息進(jìn)行的個(gè)性化Web檢索性能要比明確反饋信息的效果好,文獻(xiàn)9也得出了類(lèi)似的結(jié)論,并且通過(guò)進(jìn)一步研究
26、表明在越復(fù)雜的檢索任務(wù)中,潛在反饋的效果越明顯。隨著人們對(duì)檢索任務(wù)上下文內(nèi)容更細(xì)致的挖掘應(yīng)用,針對(duì)檢索任務(wù)上下文的潛在反饋模型也成為最近研究的重點(diǎn),如文獻(xiàn)9針對(duì)用戶(hù)的點(diǎn)擊流(click through)信息提出一種基于決策理論的潛在反饋模型;文獻(xiàn)4針對(duì)用戶(hù)與Top-N文檔交互的上下文信息提出一種基于啟發(fā)式的二元投票模型(Binary Voting Model)。3.2資源上下文超鏈分析技術(shù)主要針對(duì)Web文檔超鏈分析技術(shù)主要針對(duì)Web文檔中的超級(jí)鏈接(hypertext)信息,早期曾在Lawrence Page和Sergey Brin等提出的Page Rank算法中實(shí)現(xiàn)1??紤]到重要的文檔會(huì)有更
27、多的鏈接指向它,Page Rank算法從文檔頁(yè)面上的進(jìn)鏈(back ward link)和出鏈(forward link)數(shù)量出發(fā)計(jì)算每個(gè)頁(yè)面的權(quán)重。近年來(lái),人們又提出了面向主題(topic-sensitive)的Page Rank算法和基于PPV(Personalized Page Rank Vector)的個(gè)性化Page Rank算法,這些算法都是在原有Page Rank的基礎(chǔ)上增加了主題特征、用戶(hù)偏好等其它上下文因素來(lái)計(jì)算頁(yè)面的權(quán)重。除了Page Rank算法,Kleinberg提出的HITS(Hypertext Induced Topic Search)算法也是超鏈分析技術(shù)中的一個(gè)重要
28、算法,與Page Rank的全局平均思想不同,HITS算法針對(duì)一個(gè)查詢(xún)請(qǐng)求分析權(quán)威頁(yè)面(Authority)和樞軸(Hub)頁(yè)面來(lái)計(jì)算頁(yè)面的重要程度。然而HITS算法還是單純從文檔中的超級(jí)鏈接出發(fā),忽略了文檔中的其它因素。有許多算法研究文檔如何分塊,這些文獻(xiàn)大都從視覺(jué)位置、內(nèi)容模式方面著手;也有一些研究專(zhuān)門(mén)從文檔分塊角度研究特征,如分塊的重要性、分塊的吸引性、分塊的語(yǔ)義性、分塊的指向性等;這些研究在分析分塊特征時(shí)常常依據(jù)的是塊中詞語(yǔ)的熵信息,或者根據(jù)鏈接的統(tǒng)計(jì)信息,或者根據(jù)分塊中的語(yǔ)義信息。布局分析的一個(gè)重要意義在于充分挖掘文檔特征,以用于提高信息檢索性能。3.3系統(tǒng)上下文信息檢索系統(tǒng)所采用的
29、檢索模型是系統(tǒng)上下文中關(guān)鍵的一種。信息檢索領(lǐng)域中經(jīng)典的種檢索模型分別是布爾模型、向量模型和概率模型,它們分別基于集合論、代數(shù)論和Bayesian概率論。布爾模型基于簡(jiǎn)單的關(guān)鍵詞匹配但檢索效果很差;向量模型雖然提供了更好的改進(jìn)但缺乏一個(gè)規(guī)范的框架;Bayesian概率論最大的優(yōu)勢(shì)在于提供了一個(gè)完整的框架以便人們把檢索中的各種因素組合在一起考慮。各種模型及其相應(yīng)的模型擴(kuò)展在文獻(xiàn)2中介紹得比較詳細(xì),本文不再一一列舉。檢索系統(tǒng)中檢索界面決定了人機(jī)交互(human-computer interaction)的內(nèi)容,和檢索系統(tǒng)中的其它上下文信息配合使用,對(duì)實(shí)現(xiàn)智能個(gè)性化檢索非常關(guān)鍵。檢索界面主要包括接受用
30、戶(hù)的查詢(xún)輸入和顯示結(jié)果兩個(gè)部分。對(duì)查詢(xún)輸入界面,一方面可以在布局設(shè)計(jì)上考慮滿(mǎn)足不同用戶(hù)的使用偏好和習(xí)慣,另一方面可以在功能上考慮向用戶(hù)及時(shí)推送其感興趣的檢索信息。如當(dāng)前的Google,一方面針對(duì)不同地區(qū)用戶(hù)自動(dòng)推出不同的語(yǔ)言版本以適應(yīng)用戶(hù)的語(yǔ)言習(xí)慣,另一方面結(jié)合世界新聞事件不斷更換其標(biāo)志圖案(logo)以向用戶(hù)推送最新消息。根據(jù)我們使用Web搜索引擎的經(jīng)驗(yàn),結(jié)果顯示界面往往根據(jù)我們使用Web搜索引擎的經(jīng)驗(yàn),結(jié)果顯示界面往往是把從海量信息中篩選出的大量信息顯示給用戶(hù),因此除了檢索性能,結(jié)果顯示界面的設(shè)計(jì)常常影響用戶(hù)對(duì)該檢索系統(tǒng)是否偏好。好的結(jié)果顯示界面一方面在布局上要簡(jiǎn)潔清晰、便于瀏覽查看,另一
31、方面在功能上還能幫助用戶(hù)理解個(gè)性化的檢索結(jié)果、提高用戶(hù)的檢索效率。例如,在檢索結(jié)果列表中加入準(zhǔn)確的文檔摘要信息,高亮度顯示影響文檔排序的關(guān)鍵詞,按類(lèi)別顯示文檔列表等都是比較有效的方法。除了接受查詢(xún)部分和顯示結(jié)果部分,Jaime Teevan認(rèn)為增加個(gè)性化參數(shù)控制(control over key personalized parameters)部分也非常重要。雖然這部分功能用戶(hù)可能較少使用,但提供給用戶(hù)簡(jiǎn)易快捷的調(diào)整功能還是可以幫助用戶(hù)獲得更加滿(mǎn)意的檢索效果的。另外,我們把獨(dú)立于檢索系統(tǒng)之外的社會(huì)環(huán)境也看作系統(tǒng)上下文的一部分。這些上下文是指隱藏在社會(huì)生活、國(guó)際背景和文化趨勢(shì)中的一些外界常規(guī)或突
32、發(fā)信息。擁有及時(shí)社會(huì)環(huán)境的信息檢索系統(tǒng)可以向用戶(hù)提供更準(zhǔn)確更及時(shí)的信息。這類(lèi)上下文有兩種方式可以獲得,一種是人工收集,另一種是系統(tǒng)自動(dòng)收集。人工收集是由工作人員根據(jù)現(xiàn)實(shí)生活,人工收集這類(lèi)上下文;系統(tǒng)自動(dòng)收集是指對(duì)所有用戶(hù)檢索日志進(jìn)行統(tǒng)計(jì)分析及對(duì)比比較,發(fā)現(xiàn)這類(lèi)上下文。兩種方法相比而言,人工收集方式具有響應(yīng)速度快、準(zhǔn)確率高等特點(diǎn),而系統(tǒng)自動(dòng)收集往往能發(fā)現(xiàn)潛在的社會(huì)環(huán)境信息,從而更易于滿(mǎn)足大部分人群潛在的檢索需求。如谷歌搜索引擎 能自動(dòng)向用戶(hù)提供和用戶(hù)輸入字面最接近的、最常出現(xiàn)的前10個(gè)查詢(xún),而網(wǎng)易3總是把系統(tǒng)統(tǒng)計(jì)得出的熱門(mén)搜索顯示在其主頁(yè)面上,以向用戶(hù)傳遞人們當(dāng)前最為關(guān)心的信息。4CIR研究面臨
33、的挑戰(zhàn)盡管自從上個(gè)世紀(jì)五六十年代開(kāi)始的信息檢索技術(shù)研究歷史已達(dá)半個(gè)多世紀(jì),并且已經(jīng)發(fā)展到當(dāng)前依賴(lài)上下文信息滿(mǎn)足“查詢(xún)背后的需求”的第三代檢索技術(shù);盡管各地研究者在理解用戶(hù)個(gè)性化興趣、解析文檔特征、發(fā)展不斷具有適應(yīng)性的檢索模型等方面進(jìn)行了多角度研究,并不斷從機(jī)器學(xué)習(xí)、人工智能、自然語(yǔ)言處理、數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)挖掘等領(lǐng)域借鑒方法和思路;但是面對(duì)不斷出現(xiàn)的超大規(guī)模在線(xiàn)數(shù)據(jù),面對(duì)快速發(fā)展的語(yǔ)義網(wǎng)資源,面對(duì)用戶(hù)對(duì)檢索效果越來(lái)越高的檢索要求,基于上下文的信息檢索技術(shù)還面臨著多重挑戰(zhàn)。1)深入理解用戶(hù)需求并建模無(wú)論是當(dāng)前第三代依賴(lài)上下文信息滿(mǎn)足“查詢(xún)背后的需求”的檢索技術(shù),還是未來(lái)第四代實(shí)現(xiàn)“上下文驅(qū)動(dòng)的信息
34、推送”(context driven information supply)技術(shù),只有深入理解用戶(hù)個(gè)性化的需求才能達(dá)到真正使用戶(hù)滿(mǎn)意。雖然有許多研究在用戶(hù)靜態(tài)上下文和檢索任務(wù)上下文領(lǐng)域進(jìn)行了有效的嘗試,但如何深入理解用戶(hù)需求有待進(jìn)一步研究,尤其在用戶(hù)需求背景比較復(fù)雜、需求周期變換不定、需求形式多樣化的情況下。文獻(xiàn)5曾把用戶(hù)上網(wǎng)搜索的需求形式分成類(lèi):對(duì)信息的需求(例如:找新聞、找評(píng)論、找帖子等)、對(duì)導(dǎo)航的需求(找某個(gè)特定網(wǎng)站)和對(duì)交易的需求(例如:下載軟件、在線(xiàn)購(gòu)物、訂機(jī)票等)。然而,面對(duì)不斷增長(zhǎng)的海量數(shù)據(jù),我們還需要在理解用戶(hù)的個(gè)體需求背景下加深用戶(hù)需求動(dòng)機(jī)的分析,例如了解用戶(hù)已有的和查詢(xún)相關(guān)
35、的知識(shí)背景等。當(dāng)然,在深入理解用戶(hù)需求的同時(shí)也可能會(huì)帶來(lái)暴露隱私的危險(xiǎn)性,這也是個(gè)性化信息檢索中一直期待研究的重要問(wèn)題。2)加強(qiáng)語(yǔ)義理解語(yǔ)義網(wǎng)描述了信息資源的語(yǔ)義數(shù)據(jù)模型,提供了計(jì)算機(jī)理解內(nèi)容的基礎(chǔ)。隨著語(yǔ)義和本體技術(shù)的發(fā)展,大家普遍認(rèn)為按照本體標(biāo)注和組織資源可以方便計(jì)算機(jī)之間基于語(yǔ)義的交換和處理。當(dāng)前的檢索系統(tǒng)雖然大量利用了文檔上下文信息,特別是文檔內(nèi)容中的信息如超鏈接、標(biāo)簽、文檔視覺(jué)形式以及其它各種形式的元數(shù)據(jù)類(lèi)別等信息。但是,本質(zhì)上這些方法仍然還是靠句法結(jié)構(gòu),基本上是用單詞來(lái)匹配文本,缺乏對(duì)文檔含義的真正理解。如何適應(yīng)語(yǔ)義網(wǎng)上的處理方式以實(shí)現(xiàn)和語(yǔ)義網(wǎng)資源和服務(wù)的無(wú)縫連接以及如何深入理解文
36、檔含義和用戶(hù)需求的含義都需要深入的語(yǔ)義分析。已有的研究在利用大規(guī)模通用本體如Word Net、OPT等上面取得了提高,但面向領(lǐng)域、粒度細(xì)致的語(yǔ)義分析和改進(jìn)仍需深入研究。3)提供融合上下文的檢索模型檢索模型是檢索系統(tǒng)的核心算法,信息檢索領(lǐng)域中已經(jīng)成功發(fā)展了向量空間模型、概率模型和統(tǒng)計(jì)語(yǔ)言模型等種經(jīng)典模型,并且還出現(xiàn)了新型的檢索模型如基于引力的檢索模型(Gravitation-based model)等。對(duì)經(jīng)典的向量空間模型而言,雖然已經(jīng)有潛在語(yǔ)義分析(Latent Sementic Analysis)、向量空間基(vector space bases)等方法把文檔的上下文融入到向量空間模型中,但
37、如何把各種上下文信息合理地融入到檢索模型中的研究還不多見(jiàn)。近十年來(lái)統(tǒng)計(jì)語(yǔ)言模型是被強(qiáng)烈看好的一種支持融入上下文信息的檢索模型。對(duì)統(tǒng)計(jì)語(yǔ)言模型而言,線(xiàn)性插值法是研究過(guò)程中常用的方法之一。然而線(xiàn)性插值項(xiàng)的系數(shù)并不是一件容易確定的事情,特別是在涉及到多種不同類(lèi)型的上下文信息時(shí)。因此,對(duì)如何把各類(lèi)不同上下文信息合理地融入到檢索模型而言,還有許多值得研究的問(wèn)題。4)CIR標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集和基準(zhǔn)測(cè)試查詢(xún)眾所周知,TREC會(huì)議上的測(cè)試數(shù)據(jù)集已成為信息檢索領(lǐng)域公認(rèn)的標(biāo)準(zhǔn)數(shù)據(jù)集。其中的HARD評(píng)測(cè)上也專(zhuān)門(mén)提供了考察像用戶(hù)位置、文檔風(fēng)格、文檔語(yǔ)言等上下文信息的標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)。但信息檢索過(guò)程中包含用戶(hù)、文檔、系統(tǒng)等不同種類(lèi)的上下文,在TREC標(biāo)準(zhǔn)數(shù)據(jù)集中加入更多標(biāo)準(zhǔn)化的不同類(lèi)型的上下文信息,特別是便于語(yǔ)義理解的上下文信息如提供標(biāo)準(zhǔn)的領(lǐng)域本體,對(duì)考察查詢(xún)效果的影響具有重要意義。5)由被動(dòng)要求轉(zhuǎn)為主動(dòng)推送事實(shí)上,“Contextual Information Retrieval”具有一語(yǔ)雙關(guān)的含義,可以具有兩種解釋形式,分別是基于上下文的信息檢索(retrieval determined by context)和上下文中的信息檢索(retrieval determined in context)。這兩種解釋分別代表著當(dāng)前第三代信息檢索
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個(gè)人房產(chǎn)抵押權(quán)抵押權(quán)轉(zhuǎn)讓合同3篇
- 2025年度個(gè)人貸款擔(dān)保轉(zhuǎn)讓合同4篇
- 2025版住宅室內(nèi)精裝修與裝飾工程施工合同5篇
- 人類(lèi)的起源和發(fā)展課件2
- 出租車(chē)行業(yè)環(huán)保措施考核試卷
- 團(tuán)隊(duì)建設(shè)力量培養(yǎng)項(xiàng)目計(jì)劃書(shū)考核試卷
- 印刷業(yè)科技創(chuàng)新與成果轉(zhuǎn)化考核試卷
- 二零二五年度藝術(shù)品交易居間代理合同樣本3篇
- 2025年創(chuàng)業(yè)創(chuàng)新貸款協(xié)議
- 2025年合作知名作者的高需求小說(shuō)電子書(shū)協(xié)議
- 廣東省佛山市2025屆高三高中教學(xué)質(zhì)量檢測(cè) (一)化學(xué)試題(含答案)
- 人教版【初中數(shù)學(xué)】知識(shí)點(diǎn)總結(jié)-全面+九年級(jí)上冊(cè)數(shù)學(xué)全冊(cè)教案
- 2024年全國(guó)體育單招英語(yǔ)考卷和答案
- 食品安全管理制度可打印【7】
- 2024年九年級(jí)語(yǔ)文中考名著閱讀《儒林外史》考前練附答案
- 抖音麗人行業(yè)短視頻直播項(xiàng)目運(yùn)營(yíng)策劃方案
- 2024年江蘇揚(yáng)州市邗城文化旅游發(fā)展有限公司招聘筆試參考題庫(kù)含答案解析
- 小學(xué)六年級(jí)數(shù)學(xué)100道題解分?jǐn)?shù)方程
- 社區(qū)獲得性肺炎護(hù)理查房?jī)?nèi)科
- 淺談提高中學(xué)生歷史學(xué)習(xí)興趣的策略
- 項(xiàng)目管理實(shí)施規(guī)劃-無(wú)錫萬(wàn)象城
評(píng)論
0/150
提交評(píng)論