基于本地文檔庫(kù)的搜索引擎自動(dòng)排序算法

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-09-10 格式：DOCX 頁(yè)數(shù)：8 大?。?4.16KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩3頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于本地文檔庫(kù)的搜索引擎自動(dòng)排序算法

隨著公司規(guī)模的擴(kuò)大，公司積累了大量文檔和業(yè)務(wù)數(shù)據(jù)，這些資源分散在公司的各種應(yīng)用程序和服務(wù)器上，無(wú)法有效使用。另一方面，員工無(wú)法通過(guò)有效手段獲取必要的資源。另一方面，大量資源處于閑置狀態(tài)，無(wú)法有效使用。公司搜索引擎的出現(xiàn)改變了這種情況。通過(guò)整合公司內(nèi)部不同的資源，公司搜索為公司內(nèi)部提供了一個(gè)標(biāo)準(zhǔn)化的信息搜索接口，提高了公司資源的使用水平。企業(yè)搜索引擎作為一種特殊的企業(yè)內(nèi)部的搜索服務(wù),帶有鮮明的業(yè)務(wù)特性.與互聯(lián)網(wǎng)搜索引擎相比,企業(yè)搜索引擎具有許多特性.首先,互聯(lián)網(wǎng)的搜索內(nèi)容對(duì)于用戶來(lái)說(shuō)都是未知的,而企業(yè)級(jí)的搜索對(duì)象已知.在對(duì)這些信息進(jìn)行索引時(shí),用戶需要按照內(nèi)容而不是通過(guò)分析網(wǎng)頁(yè)之間的鏈接關(guān)系進(jìn)行排列.其次,與互聯(lián)網(wǎng)搜索引擎相比,企業(yè)搜索引擎要求具有嚴(yán)格的安全性和高可靠性.針對(duì)企業(yè)網(wǎng)中不同的用戶對(duì)不同的資源,其使用權(quán)限都可能不一樣,需要企業(yè)搜索引擎能夠?qū)τ脩簟①Y源、權(quán)限分級(jí)管理和控制,確保系統(tǒng)的安全.最后,與互聯(lián)網(wǎng)搜索引擎服務(wù)不同,企業(yè)內(nèi)部的搜索結(jié)果將直接參與到企業(yè)的運(yùn)行和決策過(guò)程中,而前者僅提供信息參考的角色.所以,對(duì)于搜索的結(jié)果處理,搜索過(guò)程中采用相關(guān)智能技術(shù)以達(dá)到準(zhǔn)確定位目標(biāo)信息非常重要.本文擬將個(gè)性化技術(shù)引入企業(yè)搜索引擎中,根據(jù)用戶對(duì)不同信息關(guān)注程度的不同,使用戶關(guān)注度較高的結(jié)果排在結(jié)果列表的前面,關(guān)注度較低的結(jié)果排在后面,從而提高企業(yè)搜索引擎查詢結(jié)果的準(zhǔn)確性.本文提出了一種基于本地文檔庫(kù)的個(gè)性化檢索算法,該算法由3部分構(gòu)成:個(gè)性化表示、更新與結(jié)果排序算法.首先,與傳統(tǒng)基于內(nèi)容的個(gè)性化檢索算法廣泛采用的通過(guò)關(guān)鍵詞向量表示用戶個(gè)性的方法不同,本文采用本地文檔庫(kù)的方式表示用戶個(gè)性.基于關(guān)鍵詞向量的表示方法通過(guò)對(duì)用戶瀏覽的歷史文檔的分析,提取若干關(guān)鍵詞構(gòu)成關(guān)鍵詞向量,并對(duì)關(guān)鍵詞賦予不同權(quán)值,以權(quán)值的大小體現(xiàn)用戶個(gè)性.基于本地文檔集的方法首先將用戶瀏覽的歷史文檔分類(lèi),并評(píng)定用戶對(duì)不同分類(lèi)的喜好程度.本地文檔庫(kù)由從各分類(lèi)中抽取的文檔構(gòu)成,用戶越喜好的分類(lèi),在本地文檔庫(kù)中所占的文檔數(shù)越多.本地文檔庫(kù)通過(guò)屬于各分類(lèi)文檔數(shù)的多少體現(xiàn)用戶個(gè)性.其次,個(gè)性化更新算法.由于傳統(tǒng)基于內(nèi)容的個(gè)性化檢索算法采用關(guān)鍵詞權(quán)值的方法度量用戶個(gè)性,而用戶短期的瀏覽歷史對(duì)關(guān)鍵詞權(quán)值的改變影響微小,因此傳統(tǒng)基于內(nèi)容的個(gè)性化檢索算法很難對(duì)用戶近期的興趣轉(zhuǎn)移作出快速反映.本文提出的基于本地文檔集的個(gè)性化表示方法采用模糊推理技術(shù),可以迅速捕捉用戶近期的興趣轉(zhuǎn)移,只需要對(duì)本地文檔庫(kù)中的文檔進(jìn)行簡(jiǎn)單的增加或刪除,即可體現(xiàn)用戶個(gè)性的轉(zhuǎn)移.最后,本文提出的結(jié)果排序算法通過(guò)將企業(yè)搜索引擎的查詢結(jié)果與本地文檔庫(kù)中的文檔進(jìn)行相似性比較,對(duì)結(jié)果重新排序,體現(xiàn)用戶的個(gè)性.綜上所述,本文的主要貢獻(xiàn)是提出了基于本地文檔庫(kù)的個(gè)性化表示方法,并給出基于此方法的個(gè)性化排序算法.與傳統(tǒng)基于內(nèi)容的個(gè)性化檢索算法相比,本文提出的算法能夠?qū)τ脩襞d趣的轉(zhuǎn)移作出快速反映,并給出更能體現(xiàn)用戶個(gè)性的查詢結(jié)果.1協(xié)作過(guò)濾算法目前存在著許多個(gè)性化服務(wù)系統(tǒng),文獻(xiàn)對(duì)這些系統(tǒng)的優(yōu)缺點(diǎn)進(jìn)行了比較和總結(jié).這些個(gè)性化算法主要分為3類(lèi):基于規(guī)則的個(gè)性化檢索算法、基于內(nèi)容的個(gè)性化檢索算法和協(xié)作過(guò)濾算法.基于規(guī)則的系統(tǒng)利用預(yù)定義的規(guī)則對(duì)信息進(jìn)行過(guò)濾.其優(yōu)點(diǎn)是簡(jiǎn)單、直接,缺點(diǎn)是規(guī)則質(zhì)量很難保證.基于內(nèi)容的個(gè)性化系統(tǒng)利用資源和用戶興趣的相似性來(lái)過(guò)濾信息.其關(guān)鍵問(wèn)題是用戶的個(gè)性化表示方法和相似性計(jì)算.其優(yōu)點(diǎn)是簡(jiǎn)單、有效,缺點(diǎn)是難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格,且不能為用戶發(fā)現(xiàn)新的感興趣的資源.協(xié)作過(guò)濾系統(tǒng)利用用戶之間的相似性來(lái)檢索信息,它能夠?yàn)橛脩舭l(fā)現(xiàn)新的感興趣的內(nèi)容.其關(guān)鍵問(wèn)題是對(duì)興趣相似的用戶聚類(lèi).其缺點(diǎn)是需要用戶的參與,且容易暴露用戶的隱私.2形成分類(lèi)根據(jù)的個(gè)性化排序本文擬根據(jù)用戶偏好,從用戶瀏覽的歷史文檔中抽取一部分典型文檔,構(gòu)成一個(gè)小型文檔庫(kù).以此文檔庫(kù)描述用戶個(gè)性,并對(duì)通用企業(yè)搜索引擎返回的檢索結(jié)果進(jìn)行個(gè)性化排序.由于這個(gè)小型文檔庫(kù)保存在本地,故又稱為本地文檔庫(kù).首先對(duì)用戶瀏覽的歷史文檔進(jìn)行聚類(lèi),通過(guò)對(duì)所形成的每一類(lèi)文檔集的屬性進(jìn)行模糊推理,得到用戶偏好.根據(jù)用戶對(duì)各分類(lèi)喜好程度的不同,分配從不同分類(lèi)抽取的文檔數(shù)量.上述構(gòu)建過(guò)程需要解決3個(gè)問(wèn)題:1)對(duì)于某個(gè)分類(lèi),需要確定反映用戶偏好的屬性;2)需要根據(jù)這些屬性計(jì)算用戶對(duì)某個(gè)分類(lèi)的喜好程度;3)需要根據(jù)用戶對(duì)不同分類(lèi)的喜好程度確定從該分類(lèi)抽取的文檔數(shù).下面將分別解決上述3個(gè)問(wèn)題.2.1di的屬性本文采用通過(guò)對(duì)用戶歷史瀏覽文檔的分析,發(fā)現(xiàn)用戶的個(gè)性化需求.具體地,設(shè)t1表示過(guò)去的某個(gè)時(shí)間點(diǎn),將從t1到聚類(lèi)算法運(yùn)行的時(shí)間點(diǎn)t2為止用戶所瀏覽的所有文檔構(gòu)成的集合記為D,稱文檔集D為用戶瀏覽的歷史文檔集,稱時(shí)間段(t2-t1)為用戶的瀏覽歷史.目前有很多成熟的文檔聚類(lèi)工具(如WEKA等),因此可以利用這些工具對(duì)文檔集D進(jìn)行聚類(lèi)分析.設(shè)經(jīng)過(guò)聚類(lèi)分析后,文檔集D被劃分為n個(gè)互不相交的分類(lèi),分別用D1,D2,…,Dn,表示,且D=D1∪D2∪…∪Dn.設(shè)第i個(gè)分類(lèi)Di由m篇文檔構(gòu)成,記為Di={di1,di2,…,dim}.可以根據(jù)Di的屬性了解用戶對(duì)第i個(gè)分類(lèi)的喜好程度.本文主要利用Di的兩個(gè)屬性描述用戶對(duì)該分類(lèi)的喜好程度.第1個(gè)屬性稱為“文檔數(shù)”,表示第i個(gè)分類(lèi)所包含的文檔個(gè)數(shù)|Di|;第2個(gè)屬性稱為“冷卻時(shí)間”.分類(lèi)Dt的冷卻時(shí)間的計(jì)算方法如式(1)所示:設(shè)文檔dij最后一次被用戶訪問(wèn)的時(shí)間為tij,則t2-tij表示分類(lèi)Di的第j個(gè)文檔最后一次被用戶訪問(wèn)的時(shí)間與時(shí)間點(diǎn)t2的時(shí)間間隔,式(1)定義的冷卻時(shí)間表示第i個(gè)分類(lèi)所有文檔被用戶最后一次訪問(wèn)的時(shí)間距時(shí)間點(diǎn)t2的平均時(shí)間間隔.用戶對(duì)某個(gè)分類(lèi)的喜好程度可以按照如下的啟發(fā)式判定:若用戶訪問(wèn)屬于某個(gè)分類(lèi)的文檔數(shù)量越多,且用戶對(duì)這些文檔訪問(wèn)的時(shí)間都是最近發(fā)生的,則說(shuō)明用戶越喜歡該分類(lèi).我們用分類(lèi)的文檔數(shù)屬性描述用戶瀏覽該分類(lèi)文檔的數(shù)量,用分類(lèi)的冷卻時(shí)間屬性度量用戶訪問(wèn)該分類(lèi)文檔與當(dāng)前時(shí)間的間隔.據(jù)此,上述啟發(fā)式等價(jià)于如下規(guī)則:屬于某個(gè)分類(lèi)的文檔數(shù)越多,且該分類(lèi)的冷卻時(shí)間越短,用戶越喜歡該分類(lèi).在構(gòu)建的本地文檔庫(kù)中,應(yīng)該包含更多從該分類(lèi)中抽取的文檔.除文檔數(shù)和冷卻時(shí)間外,還有其他屬性可以用來(lái)表達(dá)用戶對(duì)某分類(lèi)的喜好程度,在以后的工作中將考慮更多屬性,以進(jìn)一步提高描述用戶偏好的準(zhǔn)確性.下面要解決的問(wèn)題是如何利用第i個(gè)分類(lèi)的文檔數(shù)和冷卻時(shí)間量化用戶對(duì)該分類(lèi)的喜好程度.本文擬采用基于模糊推理的技術(shù)實(shí)現(xiàn).2.2模糊推理技術(shù)模糊推理技術(shù)主要采用基于模糊規(guī)則的推理方法解決問(wèn)題.運(yùn)用模糊推理技術(shù)解決問(wèn)題分3步完成.1)模糊化.其目的是通過(guò)隸屬函數(shù)將精確數(shù)據(jù)模糊化.例如,用于描述屬于一個(gè)分類(lèi)的文檔數(shù)的模糊集共包括3個(gè)元素{多,中,少},而第i個(gè)分類(lèi)的文檔數(shù)|Di|是一個(gè)精確值,模糊化通過(guò)隸屬函數(shù)給出這個(gè)精確值屬于上述模糊集3個(gè)元素的程度.2)模糊推理.完成了對(duì)所有輸入精確值的模糊化后,就可以利用模糊規(guī)則進(jìn)行推理.例如某條模糊規(guī)則是“若分類(lèi)所包含的文檔數(shù)多且分類(lèi)的冷卻時(shí)間短,則用戶喜好該分類(lèi)”.利用第1步計(jì)算的結(jié)果,及上述模糊規(guī)則即可計(jì)算出用戶對(duì)該分類(lèi)的“喜好程度”.3)去模糊化.模糊推理得到的結(jié)論也是模糊的,去模糊化將其轉(zhuǎn)換為精確數(shù)據(jù)用于以后的計(jì)算.例如,在本文中需要將用戶對(duì)各個(gè)分類(lèi)的喜好程度轉(zhuǎn)換某個(gè)具體數(shù)值,為確定從各分類(lèi)中抽取的文檔數(shù)作準(zhǔn)備.下面將詳細(xì)介紹將模糊推理技術(shù)應(yīng)用于確定用戶偏好的3個(gè)步驟.2.2.1分類(lèi)冷卻時(shí)間的歸一化第2.1節(jié)為分類(lèi)確定了兩個(gè)反映用戶個(gè)性的屬性——文檔數(shù)和冷卻時(shí)間.與這兩個(gè)屬性對(duì)應(yīng)的模糊集是:與文檔數(shù)對(duì)應(yīng)的模糊集是{多,中,少},與冷卻時(shí)間對(duì)應(yīng)的模糊集是{短,中,長(zhǎng)}.給定一個(gè)精確的文檔數(shù)或冷卻時(shí)間,需要一個(gè)隸屬函數(shù)對(duì)其進(jìn)行模糊化.隸屬函數(shù)用于描述一個(gè)精確值隸屬于模糊集中某個(gè)元素的程度.對(duì)上述兩個(gè)屬性,本文均采用如圖1所示的隸屬函數(shù).該函數(shù)的橫軸表示待模糊化的精確值,縱軸表示精確值屬于模糊集中某元素的程度.圖1所示的隸屬函數(shù)的橫軸范圍為,故需要對(duì)每個(gè)分類(lèi)的文檔數(shù)和冷卻時(shí)間進(jìn)行歸一化處理.分類(lèi)冷卻時(shí)間的歸一化方法見(jiàn)式(2),其中n表示分類(lèi)個(gè)數(shù).將式(2)中的改變?yōu)閨Di|即為分類(lèi)文檔數(shù)的歸一化公式.圖1所示的隸屬函數(shù)橫軸上(0.25,0.45)和(0.65,0.85)兩個(gè)區(qū)域值得注意.根據(jù)隸屬函數(shù)的定義,如果某分類(lèi)的文檔數(shù)或冷卻時(shí)間經(jīng)過(guò)歸一化處理后未落入這兩個(gè)范圍內(nèi),則這個(gè)精確值只屬于一個(gè)模糊元素;否則,該精確值同時(shí)屬于兩個(gè)模糊元素,精確值所對(duì)應(yīng)的縱坐標(biāo)表示此精確值屬于某個(gè)模糊元素的程度.2.2.2模糊推理的應(yīng)用本文的推理規(guī)則利用模糊元素推理用戶對(duì)各分類(lèi)的喜好程度,而推理規(guī)則主要由相關(guān)領(lǐng)域?qū)＜抑贫?利用分類(lèi)的文檔數(shù)和冷卻時(shí)間定義用戶對(duì)分類(lèi)喜好程度的模糊規(guī)則定義如表1所示.用于描述用戶對(duì)某分類(lèi)喜好程度的模糊集定義為{很喜歡,較喜歡,一般,較沒(méi)興趣,沒(méi)興趣},分別對(duì)應(yīng)表1中的5,4,3,2,1.表1共給出了9條模糊規(guī)則,采用“&”運(yùn)算表示模糊規(guī)則被觸發(fā)的條件.例如,若某分類(lèi)的文檔數(shù)多(對(duì)應(yīng)表1中的Many)&冷卻時(shí)間短(對(duì)應(yīng)表1中的short),則用戶“很喜歡”該分類(lèi)(表1中Many和short交叉處的數(shù)字為5).下面通過(guò)一個(gè)例子講解模糊推理的過(guò)程.假設(shè)經(jīng)過(guò)歸一化處理后,若第i個(gè)分類(lèi)Di的文檔數(shù)為0.3,根據(jù)圖1所示的隸屬函數(shù)可以計(jì)算出分類(lèi)Di的文檔數(shù)屬于“少”的程度為0.75,屬于“中”的程度為0.25,屬于“多”的程度為0.分類(lèi)Di的冷卻時(shí)間數(shù)為0.5,表明該類(lèi)文檔的冷卻時(shí)間屬于“中”的程度為1,屬于其他兩種情況的程度為0.利用隸屬程度和9條模糊推理規(guī)則可以計(jì)算出用戶對(duì)分類(lèi)Di的偏好程度.具體方法是:對(duì)規(guī)則“若某分類(lèi)的文檔數(shù)中冷卻時(shí)間中,則用戶喜好該分類(lèi)的程度一般”,分類(lèi)Di的文檔數(shù)屬于中的程度為0.25,其冷卻時(shí)間屬于中的程度為1.根據(jù)模糊推理系統(tǒng)對(duì)運(yùn)算符“&”的定義,取文檔數(shù)和冷卻時(shí)間的較小值作為推理規(guī)則結(jié)論的支持度.即用戶對(duì)分類(lèi)Di喜好程度“一般”的支持度為0.25.采用相同方法根據(jù)其他8條規(guī)則,分別計(jì)算出用戶對(duì)分類(lèi)Di“較喜歡”、“喜歡”、“一般”、“較沒(méi)興趣”和“沒(méi)興趣”的支持度.2.2.3模糊元素偏好度計(jì)算去模糊化指將用戶對(duì)分類(lèi)Di的喜好程度轉(zhuǎn)換為某個(gè)精確值,轉(zhuǎn)換的方法如下:令模糊集{很喜歡,較喜歡,一般,較沒(méi)興趣,沒(méi)興趣}中各模糊元素所對(duì)應(yīng)的權(quán)值為1/20,1/21,1/22,1/23和1/24.設(shè)2.2.2節(jié)計(jì)算的用戶對(duì)分類(lèi)Di的5種喜好支持度為S1,S2,S3,S4,S5,則用戶對(duì)分類(lèi)Di喜好程度去模糊化的結(jié)果由式(3)給出:2.3設(shè)計(jì)聚類(lèi)分配算法設(shè)本地文檔庫(kù)中共包含N個(gè)文檔,則可以按照用戶對(duì)不同分類(lèi)喜好程度的不同計(jì)算分配給該分類(lèi)的抽樣文檔個(gè)數(shù).設(shè)聚類(lèi)算法將用有戶瀏覽的歷史文檔集聚集為n個(gè)分類(lèi),利用式(3)計(jì)算出用戶對(duì)每個(gè)分類(lèi)的喜好程度,則從第i個(gè)分類(lèi)Di中抽取的文檔數(shù)由式(4)給出:最后,將剩余的個(gè)文檔名額平均分配給用戶最喜好的個(gè)分類(lèi).3本地醫(yī)療設(shè)計(jì)及本地醫(yī)療庫(kù)構(gòu)建算法確定了每個(gè)分類(lèi)的抽樣文檔數(shù)后,需要選擇抽取文檔的方法,本文提出3種文檔抽取方法.1)隨機(jī)抽樣.設(shè)第i個(gè)分類(lèi)Di中包含的文檔數(shù)為|Di|,為每個(gè)文檔分配1個(gè)[1,|Di|]范圍內(nèi)的自然數(shù)作為該文檔的ID.若要從該分類(lèi)中抽取個(gè)文檔數(shù),只需在[1,|Di|]范圍內(nèi)產(chǎn)生個(gè)互不相同的隨機(jī)數(shù),ID與隨機(jī)數(shù)對(duì)應(yīng)的文檔即為被抽樣的文檔.2)中心抽樣.設(shè)第i個(gè)分類(lèi)Di的聚類(lèi)中心向量為Vi,將分類(lèi)Di中的所有文檔向量與V,進(jìn)行相似性比較,選擇其中與Vi最相似的個(gè)文檔作為抽樣文檔.3)覆蓋抽樣.設(shè)分類(lèi)Di的聚類(lèi)中心向量為Vi,該向量共包含W個(gè)關(guān)鍵詞.分類(lèi)中的第j篇文檔的文檔向量包含Wj個(gè)關(guān)鍵詞.從分類(lèi)Di中最多選擇個(gè)文檔,使這些文檔對(duì)應(yīng)的文檔向量所包含的關(guān)鍵詞構(gòu)成的集合最大限度地覆蓋W.分別對(duì)聚類(lèi)算法形成的各分類(lèi)進(jìn)行抽樣,將抽樣文檔合并在一起就得到本地文檔庫(kù).定期運(yùn)行本地文檔庫(kù)構(gòu)建算法即可完成對(duì)本地?cái)?shù)據(jù)庫(kù)的更新,反映用戶最新的個(gè)性偏好.完整的本地文檔庫(kù)構(gòu)建算法如下所示:算法1.本地文檔集建立算法.4本地醫(yī)療知識(shí)數(shù)據(jù)庫(kù)的應(yīng)用本地運(yùn)行的個(gè)性化結(jié)果排序算法如下所示:算法2.基于本地文檔集的結(jié)果排序算法.算法首先將從用戶處接收的查詢?cè)~發(fā)往企業(yè)搜索引擎查詢.企業(yè)搜索引擎將查詢結(jié)果集的每一篇文檔轉(zhuǎn)換為關(guān)鍵詞向量并返回客戶端.客戶端利用本地文檔庫(kù)對(duì)企業(yè)搜索引擎返回的結(jié)果進(jìn)行重新排序,具體計(jì)算方法如下:取出企業(yè)搜索引擎返回的一篇文檔的關(guān)鍵詞向量,計(jì)算這篇文檔與本地文檔庫(kù)中所有文檔關(guān)鍵詞向量的相似度,將所有相似度結(jié)果累加就得到這篇文檔的排序值.顯然,若一篇文檔與本地文檔集中相似的文檔個(gè)數(shù)越多,相似度越大,則這篇文檔排序值就越大.因?yàn)樵谶x擇構(gòu)成本地文檔庫(kù)的過(guò)程中,是根據(jù)用戶對(duì)不同分類(lèi)喜好程度的不同對(duì)各分類(lèi)進(jìn)行文檔數(shù)分配的.可以保證用戶偏好在對(duì)結(jié)果排序值的計(jì)算過(guò)程中得到體現(xiàn).5實(shí)驗(yàn)1:本地城市遠(yuǎn)程高效資源庫(kù)下面通過(guò)3組實(shí)驗(yàn)驗(yàn)證本文提出的基于本地文檔集的個(gè)性化表示和結(jié)果排序算法可以體現(xiàn)出用戶的個(gè)性偏好.實(shí)驗(yàn)的設(shè)置如下:我們采用由1778篇新聞組文檔構(gòu)成的文檔集作為測(cè)試集,并通過(guò)聚類(lèi)算法將這些文檔分為3個(gè)分類(lèi).文檔集全集構(gòu)成遠(yuǎn)程文檔庫(kù),從屬于不同分類(lèi)的文檔集中抽取一定數(shù)量的文檔構(gòu)成的集合表示用戶在本地瀏覽了遠(yuǎn)程文檔庫(kù)中相關(guān)分類(lèi)的文檔.為了度量個(gè)性化排序算法的性能,本文采用統(tǒng)計(jì)各分類(lèi)在查詢結(jié)果集排名前50個(gè)結(jié)果中所占的比例作為度量標(biāo)準(zhǔn).Solr作為一款開(kāi)源的搜索引擎核心被廣泛運(yùn)用,它可以給出未經(jīng)過(guò)個(gè)性化處理的搜索結(jié)果.本文采用Solr作為基準(zhǔn),與本文提出的個(gè)性化算法的處理結(jié)果進(jìn)行比較,從而體現(xiàn)出用戶個(gè)性對(duì)結(jié)果的影響.實(shí)驗(yàn)的具體內(nèi)容如下:首先,本文共提出了3種抽樣方法:實(shí)驗(yàn)1(見(jiàn)5.1節(jié))通過(guò)改變用戶瀏覽某分類(lèi)的文檔數(shù)和分類(lèi)的冷卻時(shí)間,尋找一種最好的抽樣方法;其次,實(shí)驗(yàn)2(見(jiàn)5.2節(jié))采用實(shí)驗(yàn)1所選的抽樣方法構(gòu)建本地文檔庫(kù),考察本地文檔庫(kù)所包含的文檔數(shù)對(duì)本文提出的個(gè)性化排序算法的影響;最后,實(shí)驗(yàn)3(見(jiàn)5.3節(jié))將本文提出的個(gè)性化排序算法與傳統(tǒng)基于關(guān)鍵詞權(quán)值的個(gè)性化排序算法進(jìn)行比較,說(shuō)明本文提出的算法可以對(duì)用戶個(gè)性的變化作出更迅速的反應(yīng),并更突出用戶的個(gè)性.5.13種抽樣方法的實(shí)驗(yàn)結(jié)果比較本實(shí)驗(yàn)通過(guò)在4種不同的用戶瀏覽各分類(lèi)文檔數(shù)和各分類(lèi)冷卻時(shí)間設(shè)置條件下,比較3種抽樣方法的優(yōu)劣.實(shí)驗(yàn)的所有數(shù)據(jù)均是向搜索引擎發(fā)送5個(gè)查詢?cè)~所得實(shí)驗(yàn)結(jié)果的平均值.各實(shí)驗(yàn)的參數(shù)設(shè)置如下:在所有子實(shí)驗(yàn)中均固定本地文檔庫(kù)所包含的文檔數(shù)為200.在子實(shí)驗(yàn)1中,設(shè)置用戶瀏覽3個(gè)分類(lèi)的文檔數(shù)之比為1:0.6:0.2,瀏覽3個(gè)分類(lèi)的冷卻時(shí)間之比為1:0.6:0.2,實(shí)驗(yàn)結(jié)果如圖2(a)所示.顯然,文檔數(shù)的比值越高說(shuō)明用戶瀏覽該分類(lèi)的文檔數(shù)越多,而冷卻時(shí)間的比值越高,說(shuō)明用戶越久沒(méi)有訪問(wèn)該分類(lèi)中的文檔.因此子實(shí)驗(yàn)1中模擬的場(chǎng)景是在很久以前用戶關(guān)心分類(lèi)1,但隨著時(shí)間的推移,用戶最近的興趣正轉(zhuǎn)向分類(lèi)3.根據(jù)圖2(a)所示的實(shí)驗(yàn)結(jié)果,“Solr”表示沒(méi)有經(jīng)過(guò)個(gè)性化算法處理的排序結(jié)果,“隨機(jī)抽樣”、“中心抽樣”和“覆蓋抽樣”分別表示本地文檔集采用隨機(jī)抽樣、抽取與各分類(lèi)中心距離最近的文檔以及覆蓋分類(lèi)中心向量的方式構(gòu)成.圖2(a)中,按3種抽樣方法形成的本地文檔庫(kù)對(duì)結(jié)果排序后,3種抽樣方法使第1個(gè)分類(lèi)在前50個(gè)結(jié)果中所占比例較Solr都有所下降,而對(duì)第3個(gè)分類(lèi),3種抽樣方法較Solr的都有所增加.說(shuō)明個(gè)性化排序算法檢查到了用戶個(gè)性的轉(zhuǎn)移,盡管當(dāng)前用戶瀏覽第3個(gè)分類(lèi)中的文檔數(shù)還比較小,但也可以適當(dāng)增加屬于第3個(gè)分類(lèi)的文檔在前50個(gè)結(jié)果中所占的比例.在這組實(shí)驗(yàn)中,覆蓋抽樣表現(xiàn)最好,即分類(lèi)1下降最多,分類(lèi)3增加最多.子實(shí)驗(yàn)2的參數(shù)設(shè)置為:3個(gè)分類(lèi)文檔數(shù)之比為1:0.6:0.2,冷卻時(shí)間之比為1:1:1.該實(shí)驗(yàn)中各分類(lèi)的冷卻時(shí)間相同,因此通過(guò)文檔數(shù)體現(xiàn)用戶個(gè)性.顯然,分類(lèi)1的文檔數(shù)最多,表明用戶最關(guān)心分類(lèi)1.實(shí)驗(yàn)結(jié)果如圖2(b)所示,對(duì)分類(lèi)1在結(jié)果集所占的比例,3種抽樣的個(gè)性化方法較Solr均有不同程度的提高,而對(duì)于分類(lèi)3,3種抽樣方法較Solr均有所抑制,正確反映了用戶偏好的變化.進(jìn)一步,中心抽樣方法較其他兩種方法表現(xiàn)得更好.子實(shí)驗(yàn)3的參數(shù)設(shè)置為:3個(gè)分類(lèi)文檔數(shù)之比為1:0.6:0.2,冷卻時(shí)間之比為0.2:0.6:1.由此可見(jiàn),用戶瀏覽分類(lèi)1的文檔數(shù)最多,且冷卻時(shí)間最短,因此對(duì)分類(lèi)1非常關(guān)注,而對(duì)分類(lèi)3則完全相反.圖2(c)的實(shí)驗(yàn)結(jié)果也驗(yàn)證了這一點(diǎn),基于抽樣的3種方法在前50個(gè)結(jié)果中對(duì)屬于分類(lèi)1的文檔數(shù)較Solr均有更大幅度的增加,對(duì)分類(lèi)3則剛好相反.同樣是中心抽樣方法表現(xiàn)最好.子實(shí)驗(yàn)4的參數(shù)設(shè)置為:3個(gè)分類(lèi)文檔數(shù)之比為1:1:1,冷卻時(shí)間之比為1:0.6:0.2.在文檔數(shù)相同的條件下,冷卻時(shí)間越短說(shuō)明用戶越關(guān)心某類(lèi)文檔.因此用戶最關(guān)心分類(lèi)3,圖2(d)的實(shí)驗(yàn)結(jié)果驗(yàn)證了這一點(diǎn),對(duì)屬于分類(lèi)3的文檔在前50個(gè)結(jié)果的比例,抽樣方法較Solr均有明顯的增加,仍然是中心抽樣方法增加最明顯.綜合上述4個(gè)實(shí)驗(yàn),中心抽樣方法是3種抽樣方法中效果最好的一種.5.2dn:400和dn的分類(lèi)結(jié)果根據(jù)5.1節(jié)得到的結(jié)果,3種抽樣方法中,中心抽樣方法的效果最好,因此本實(shí)驗(yàn)采用中心抽樣方法,測(cè)試本地文檔庫(kù)所包含的文檔數(shù)對(duì)本文提出的個(gè)性化排序算法的影響.具體地,測(cè)試本地文檔庫(kù)包含的文檔數(shù)(documentnumber,DN)分別為200和400兩種情況下,基于中心抽樣的個(gè)性化排序算法反應(yīng)用戶個(gè)性變化的及時(shí)性.本實(shí)驗(yàn)共包括4個(gè)子實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示.各實(shí)驗(yàn)的參數(shù)設(shè)置如下:在子實(shí)驗(yàn)1中,設(shè)置用戶瀏覽3個(gè)分類(lèi)的文檔數(shù)之比為1:0.6:0.2,瀏覽3個(gè)分類(lèi)的冷卻時(shí)間之比為1:0.6:0.2,實(shí)驗(yàn)結(jié)果如圖3(a),所示.子實(shí)驗(yàn)1中模擬的場(chǎng)景是在很久以前用戶關(guān)心分類(lèi)1,但隨著時(shí)間的推移,用戶最近的興趣正轉(zhuǎn)向分類(lèi)3.根據(jù)圖3(a)所示的實(shí)驗(yàn)結(jié)果,“Solr”表示沒(méi)有經(jīng)過(guò)個(gè)性化算法處理的排序結(jié)果,DN=200和DN=400分別表示本地文檔集包含的文檔數(shù)為200和400且經(jīng)過(guò)個(gè)性化算法處理的排序結(jié)果.經(jīng)中心抽樣方法對(duì)結(jié)果排序后,分類(lèi)1在前50個(gè)結(jié)果中的比例較Solr的排序結(jié)果都有所下降,而對(duì)第3個(gè)分類(lèi),DN=200和DN=400較Solr的都有所增加.通過(guò)比較DN=200和DN=400減小和增加的幅度可知,在這組實(shí)驗(yàn)中,DN=400比較DN=200更能反映用戶個(gè)性的變化.子實(shí)驗(yàn)2的參數(shù)設(shè)置為:3個(gè)分類(lèi)文檔數(shù)之比為1:0.6:0.2,冷卻時(shí)間之比為1:1:1.分類(lèi)1的文檔數(shù)最多,表明用戶最關(guān)心分類(lèi)1,實(shí)驗(yàn)結(jié)果如圖3(b)所示.對(duì)分類(lèi)1在結(jié)果集所占的比例,DN=400所增加的比例較DN=200高,而對(duì)于分類(lèi)3,DN=400較DN=200有更強(qiáng)的抑制作用,因此子實(shí)驗(yàn)2說(shuō)明DN=400表現(xiàn)得更好.子實(shí)驗(yàn)3的參數(shù)設(shè)置為:3個(gè)分類(lèi)文數(shù)之比為1:0.6:0.2,冷卻時(shí)間之比為0.2:0.6:1.說(shuō)明用戶對(duì)分類(lèi)1非常關(guān)注,而對(duì)分類(lèi)3則完全相反.圖3(c)的的實(shí)驗(yàn)結(jié)果同樣說(shuō)明DN=400時(shí)的表現(xiàn)要好于DN=200的情況,其解釋同子實(shí)驗(yàn)1和實(shí)驗(yàn)2,在此不再贅述.子實(shí)驗(yàn)4的參數(shù)設(shè)置為:3個(gè)分類(lèi)文檔數(shù)之比為1:1:1,冷卻時(shí)間之比為1:0.6:0.2.說(shuō)明用戶最關(guān)心分類(lèi)3,圖3(d)的實(shí)驗(yàn)結(jié)果說(shuō)明DN=400時(shí)的表現(xiàn)更好.綜合以上4個(gè)實(shí)驗(yàn)的結(jié)果可知,適當(dāng)增加本地文檔集所包含的文檔數(shù)可以更好地體現(xiàn)用戶偏好.5.3實(shí)驗(yàn)結(jié)果與分析本實(shí)驗(yàn)將基于本地文檔集的個(gè)性化排序算法和基于關(guān)鍵詞的個(gè)性化排序算法進(jìn)行對(duì)比.基于關(guān)鍵詞的個(gè)性化排序算法的主要思想是從用戶瀏覽的歷史文檔中提取關(guān)鍵詞.通過(guò)對(duì)用戶瀏覽文檔的分析,賦予這些關(guān)鍵詞不同的權(quán)值,以體現(xiàn)不同關(guān)鍵詞代表用戶個(gè)性的強(qiáng)度,將查詢結(jié)果集中的代表各文檔的關(guān)鍵詞向量與該關(guān)鍵詞向量進(jìn)行相似性比較,根據(jù)相似度的高低確定其在新結(jié)果集中的排序.本實(shí)驗(yàn)共包括2個(gè)子實(shí)驗(yàn).子實(shí)驗(yàn)1將測(cè)試文檔集聚集為3個(gè)分類(lèi),實(shí)驗(yàn)結(jié)果如圖4所示,根據(jù)5.1和5.2節(jié)所得到的結(jié)果,本文提出的基于本地文檔集的個(gè)性化排序算法所設(shè)定的參數(shù)為采用中心抽樣方法構(gòu)建本地文檔集,且文檔集中包含的文檔數(shù)為400.圖4中的Document-Based-1表示本文提出算法在用戶瀏覽3個(gè)分類(lèi)的文檔數(shù)之比為1:0.6:0.2,瀏覽3個(gè)分類(lèi)的冷卻時(shí)間之比為0.2:0.6:1條件下的實(shí)驗(yàn)結(jié)果.圖4中的Document-Based-2表示本文提出算法在用戶瀏覽3個(gè)分類(lèi)的文檔數(shù)之比為1:0.6:0.2,瀏覽3個(gè)分類(lèi)的冷卻時(shí)間之比為1:0.6:0.2條件下的實(shí)驗(yàn)結(jié)果.圖4中的KeywordBased表示傳統(tǒng)基于關(guān)鍵詞的個(gè)性化排序算法的實(shí)驗(yàn)結(jié)果.Document-Based-1的實(shí)驗(yàn)設(shè)置模擬用戶對(duì)分類(lèi)1非常關(guān)注,而對(duì)分類(lèi)3則完全相反.圖4的實(shí)驗(yàn)結(jié)果顯示與基于關(guān)鍵詞的方法相比,DocumentBased-1所得到的結(jié)果集中屬于分類(lèi)1的文檔高于Keyword-Based方法,而屬于分類(lèi)3的文檔數(shù)低于Keyword-Based方法.說(shuō)明基于關(guān)鍵詞的方法相比,本文提出的方法對(duì)用戶感興趣的分類(lèi)在結(jié)果集中進(jìn)行了增強(qiáng),而對(duì)用戶不感興趣的分類(lèi)在結(jié)果集中進(jìn)行了消弱.Document-Based-2的實(shí)驗(yàn)設(shè)置模擬用戶的興趣從分類(lèi)1轉(zhuǎn)移到分類(lèi)3.根據(jù)圖4所示的實(shí)驗(yàn)結(jié)果,與基于

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于本地文檔庫(kù)的搜索引擎自動(dòng)排序算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于本地文檔庫(kù)的搜索引擎自動(dòng)排序算法

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔