基于上下文推薦系統(tǒng)_第1頁
基于上下文推薦系統(tǒng)_第2頁
基于上下文推薦系統(tǒng)_第3頁
基于上下文推薦系統(tǒng)_第4頁
基于上下文推薦系統(tǒng)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于上下文推薦系統(tǒng)壹壹簡介貳貳時間上下文信息叁叁地點上下文信息基于時間推薦基于地點推薦基于情緒推薦簡介 基于鄰域、標(biāo)簽的推薦系統(tǒng)算法主要集中研究了如何聯(lián)系用戶興趣和品,將最符合用戶興趣的物品推薦給用戶,但忽略了用戶所處的上下文。這些上下文包括用戶訪問推薦系統(tǒng)的時間、地點、心情等。因為用戶所處的環(huán)境對用戶選擇有很大的影響,準(zhǔn)確理解用戶的上下文信息,并將該信息應(yīng)用于推薦系統(tǒng)算法是設(shè)計好的推薦系統(tǒng)的關(guān)鍵步驟。 關(guān)于上下文推薦的研究,可以參考Alexander Tuzhilin教授(個人主頁hhtp://atuzhilin/)的一篇綜述“Context Aware

2、 Recom-mender Systems”.這片文章主要將基于情緒的音樂推薦。 本節(jié)主要介紹時間上下文、地點上下文和情緒上下文等信息,并討論如何將這寫上下文信息建模到推薦算法中。這里介紹的仍然是TopN推薦,即如何給用戶生成一個長度為N的推薦列表。1.1 時間效應(yīng)簡介時間效應(yīng)簡介 時間是一重要的上下文信息,它對用戶興趣的影響表現(xiàn)在以下幾個方面: 用戶興趣是變化的用戶興趣是變化的。這種變化是因為用戶自身原因發(fā)生的變化。比如年齡增加、工作時間的增加和季節(jié)變化等。想要準(zhǔn)確預(yù)測用戶興趣,就要考慮用戶最近行為,但這只是針對漸變的用戶興趣。 物品有生命周期物品有生命周期。不同系統(tǒng)的物品具有不同的生命周期

3、。 季節(jié)效應(yīng)季節(jié)效應(yīng)。季節(jié)效應(yīng)主要反映了時間本身對用戶的影響。在2011年ACM推薦大會曾舉辦相關(guān)比賽(http:/ 時間上下文信息 加入時間信息后,推薦系統(tǒng)從靜態(tài)系統(tǒng)變成動態(tài)系統(tǒng),用戶行為數(shù)據(jù)也變時間序列。包含時間信息的用戶行為數(shù)據(jù)集由一系列三元組構(gòu)成。其中每個三元組(u,i,t)代表用戶 u 在時刻 t 對物品 I 產(chǎn)生過行為。系統(tǒng)時間特性: 數(shù)據(jù)集每天獨立用戶數(shù)的增加情況數(shù)據(jù)集每天獨立用戶數(shù)的增加情況。在不同系統(tǒng)中用戶行為是不一樣的,因此我們首先需要確認(rèn)系統(tǒng)的增長情況。 系統(tǒng)物品變化情況系統(tǒng)物品變化情況。如新聞網(wǎng)站的時間周期比購物網(wǎng)站的時間周期短。 用戶訪問情況。用戶訪問情況。為了度量訪

4、問情況,我們可以通過統(tǒng)計用戶的平均活躍的天數(shù),同時也可以統(tǒng)計相隔T天來系統(tǒng)的用戶重合度。1.2 時間上下文信息1.物品的生存周期和系統(tǒng)的時效性物品的生存周期和系統(tǒng)的時效性 不同類型的網(wǎng)站的物品具有不同的生命周期,我們可以用如下指標(biāo)度量網(wǎng)站中物品的生命周期。物品平均在線天數(shù)物品平均在線天數(shù)。如果一個物品在某天被至少一個用戶產(chǎn)生過行為,就定義該物品在這一天在線。我們通過物品的平均在線天數(shù)度量一類物品的生存周期。物品的平均在線天數(shù)和物品的流行度應(yīng)該成正比。相隔相隔T天系統(tǒng)物品流行度向量的平均相似度天系統(tǒng)物品流行度向量的平均相似度。取系統(tǒng)中相鄰T天的兩天,分別計算這兩天的物品流行度,得到兩個流行度向量

5、。計算這兩個向量的余弦相似度。如果相似度大,說明系統(tǒng)的物品在間隔T天的時間沒有發(fā)生太大變化,從而說明系統(tǒng)時效不強,物品平均在線時間長。反之。展示了4個數(shù)據(jù)集中物品流行度和物品在線天數(shù)之間的關(guān)系展示了4個數(shù)據(jù)集中相隔T天物品流行度和的平均相似度??傮w趨勢是下降。1.3 推薦系統(tǒng)的實時性 用戶是不斷變化的,因為用戶不斷有新行為。一個實時的推薦系統(tǒng)需要實時響應(yīng)用戶新的行為,讓推薦列表不斷變化,從而滿足用戶不斷變化的興趣。實現(xiàn)推薦系統(tǒng)的實時性除了對用戶行為的存取有實時性要求,還要求推薦算法本身具有實時性,這意味著:實時推薦系統(tǒng)不能每天都給所有用戶離線計算推薦結(jié)果,然后在線展示 結(jié)果。所以要求用戶訪問推

6、薦系統(tǒng)時,都根據(jù)用戶這個時間點前的行為 (主要是顯性反饋)實時計算推薦結(jié)果。推薦算法需要平衡考慮用戶的近期行為和長期行為,即要讓推薦列表反 應(yīng)出用戶近期行為所體現(xiàn)的興趣變化,又不能讓推薦列表完全受用戶近 期行為的影響,要保證推薦列表對用戶興趣預(yù)測的延續(xù)性。1.4 推薦系統(tǒng)的時間多樣性 推薦系統(tǒng)的每天推薦結(jié)果的變化程度被定義為推薦系統(tǒng)的時間多樣性。那時間多樣性和用戶滿意度之間存在什么關(guān)系?下面有3中推薦系統(tǒng)。A給用戶推薦最熱門的10部電影。B從最熱門的100部電影中推薦10部給用戶,但每周都有7部電影推薦結(jié)果不在上周的推薦列表中。C 每次都從所有電影中隨機挑選10部電影給用戶。研究人員進行用戶調(diào)

7、查實驗,發(fā)現(xiàn)如下現(xiàn)象。(具體結(jié)果參考“TemporalDiversity in Recommender Systems”)A,B算法的平均分明顯高于C算法。這說明純粹的隨機推薦雖有高的時間多樣性,但不能保證推薦精度。A算法的平均分隨時間逐漸下降,但B算法的平均分隨時間基本保持不變。這說明A算法沒有時間多樣性,用戶滿意度就不斷下降,這也說明保證時間多樣性的重要性。問題問題:如何在不損失精度的情況下提高推薦結(jié)果的時間多樣性?1.4 推薦系統(tǒng)的時間多樣性提高推薦結(jié)果的時間多樣性需分兩步解決: 首先,需要保證推薦系統(tǒng)能夠在用戶有新行為后及時調(diào)整推薦結(jié)果,使推薦結(jié)果滿足用戶最近興趣。這種方法需要分兩種情

8、況分析: 第一是從系統(tǒng)的實時性分析。 第二,即使是實時系統(tǒng),由于使用了不同算法,也具有不同的時間多樣性。 其次,需要保證推薦系統(tǒng)在用戶沒有新的行為時也能經(jīng)常變化一下結(jié)果,具有一定的時間多樣性。以下有三種解決思路:u 在生成推薦結(jié)果是加入一定的隨機性。u 記錄用戶每天推薦結(jié)果,然后在每天給用戶進行推薦時,對用戶以前看過的推薦結(jié)果進行適當(dāng)降權(quán)。u 每天給用戶使用不同的推薦算法。時間多樣性不是絕對的。首先保證推薦的精度,在此基礎(chǔ)上適當(dāng)考慮時間多樣性不是絕對的。首先保證推薦的精度,在此基礎(chǔ)上適當(dāng)考慮時間多樣性。時間多樣性。1.5 時間上下文推薦算法最近最熱門最近最熱門 就是給用戶推薦最近最熱門的物品。

9、給定時間T,物品 I 最近的流行度 可以定義為:)(TniTtTraintiuitTTn,),()(11)(其中a是時間衰減參數(shù)時間上下文相關(guān)的時間上下文相關(guān)的ItemCF算法算法 基于物品的個性化推薦算法有兩個核心部分:p 利用用戶行為離線計算物品之間的相似度;p 根據(jù)用戶的歷史行為和物品相似度矩陣,給用戶做在線個性化推薦。 時間信息在上面兩個部分中有重要應(yīng)用,這體現(xiàn)在兩種時間效應(yīng)上。p 物品相似度物品相似度 用戶在相隔很短的時間內(nèi)喜歡的物品具有更高相似度。p 在線推薦在線推薦 用戶近期行為性比用戶很久之前行為,更能體現(xiàn)用戶現(xiàn)在的興趣。因此在預(yù)測用戶興趣時,應(yīng)加重用戶近期行為權(quán)重。基于物品的

10、協(xié)同過濾算法:基于物品的協(xié)同過濾算法:)()(1),()()(jNiNjisimjNiNu)(),(),(uNjjisimiup物品的相似度:用戶u對物品i的興趣:加入時間信息的基于物品的協(xié)同過濾算法:加入時間信息的基于物品的協(xié)同過濾算法:)()()(),()()(jNiNttfjisimjNiNuujuiujuiujuittttf11)(與時間相關(guān)的衰減項衰減函數(shù):a 是時間衰減參數(shù),不同系統(tǒng)取值不同。如果系統(tǒng)用戶是時間衰減參數(shù),不同系統(tǒng)取值不同。如果系統(tǒng)用戶興趣變化很快,就該取比較大的興趣變化很快,就該取比較大的a時間信息對預(yù)測公式的影響:時間信息對預(yù)測公式的影響:一般來說用戶現(xiàn)在的行為和

11、用戶最近的行為關(guān)系更大。),()(011),(),(kiSuNjujttjisimiup其中, 是當(dāng)前時間。上面公式表明, 越靠近 ,和物品j相似的物品就會在用戶u的推薦列表中獲得越高的排名。 是時間衰減參數(shù),不同數(shù)據(jù)集選擇不同的值。0tujt0t時間上下文相關(guān)的時間上下文相關(guān)的UserCF算法:算法:UserCF算法基本思想是給用戶推薦和他興趣相似的其他用戶喜歡的物品。我們從以下兩方面利用時間信息改進UserCF算法。p 用戶興趣相似度用戶興趣相似度 如果兩用戶同時或者間隔較短的時間內(nèi)喜歡相同物品,那么這兩個用戶應(yīng)該有更大的興趣相似度。p 相似興趣用戶的最近行為相似興趣用戶的最近行為 在得到

12、一組和u相似用戶后,這組用戶最近的興趣顯然比這組用戶很久之前的興趣更接近用戶u今天的興趣。即我們應(yīng)該給用戶推薦和他興趣相似的用戶最近最近喜歡的物品。)()(11)()()()()()(vNuNttwvNuNvNuNwvNuNiviuiuvuv),(0),()(11) ,() ,(kuSvviviuvkuSvviuvttrwiuprwiup1.6 時間段圖模型 時間段圖模型G(U, ,I, ,E,w, )是個二分圖。U 是用戶節(jié)點集合, 是用戶時間段節(jié)點集合。一個用戶時間段節(jié)點 和用戶u在時刻 t 喜歡的物品通過邊相連。I 是物品節(jié)點集合, 是物品時間段節(jié)點集合。一個物品在時間節(jié)點 會和所用在時

13、刻t 喜歡物品i的用戶通過邊相連。E是邊集合,它包含了3種邊:用戶u對物品i有行為,則存在邊如果用戶u在t時刻對物品i有行為,那么存在兩條邊w(e)定義了邊的權(quán)重, 定義定點的權(quán)重。USISIutSv IitSv Evveiu),(Evvevveituiut),(),()(e提出用路徑融合算法路徑融合算法來度量圖上兩個頂點的相關(guān)性。一般說,圖上兩個相關(guān)性比較高的頂點一般具有如下特征:p 兩個頂點之間與很多路徑相連;p 兩頂點之間的路徑比較短;p兩個頂點之間的路徑不經(jīng)過出度比較大的頂點。為什么?路徑融合算法路徑融合算法首先提取出兩個頂點之間長度小于一個閾值的所有路徑,然后根據(jù)每條路徑經(jīng)過的頂點給

14、每條路徑賦予一定權(quán)重,最后將兩個頂點之間所有路徑的權(quán)重之和作為兩個頂點的相關(guān)度。假設(shè)P= , , 是連接 和 的一條路徑,這條路徑的權(quán)重取決于這條路徑經(jīng)過的所有頂點和邊:1v2vnv)(p111)(),()()()(niiiiinvoutvvwvvpOut(v)表示頂點v的出度。 定義頂點的權(quán)重, 定義了邊的權(quán)重。 1 , 0()(iv 1 , 0(),(1iivvw1vnv對于頂點 和 ,令 頂點之間的相關(guān)度相關(guān)度可以定義:vv),(kvvp),()(),(kvvpppvvd對于時間段圖模型,所有邊的權(quán)重都定義為1,而頂點的權(quán)重 定義:)(vIUSvIvSvaUvav11)( 是兩個參數(shù),控

15、制不同頂點的權(quán)重 1 , 0,1.7 離線實驗 數(shù)據(jù)集為(u,i,t)三元組組成。將物品i按照用戶u對物品的行為時間t從早到晚排序,然后將用戶u最后一個產(chǎn)生行為的物品作為測試集。并將這之前用戶u對物品的行為記錄作為訓(xùn)練集。用準(zhǔn)確率和召回率來評測推薦算法的精度。 實驗結(jié)果實驗結(jié)果:當(dāng)數(shù)據(jù)集的時效性不強時,融合時間信息算法和其它不融合時間信息算法無明顯區(qū)別;當(dāng)數(shù)據(jù)集的時效性很強時,融合時間信息算法優(yōu)于其它不融合時間信息算法。2. 地點上下文信息不同地區(qū)的用戶興趣不同,用戶到不同的地方,興趣也會改變。基于位置的推薦算法:基于位置的推薦算法: 明尼蘇達大學(xué)的研究人員提出一個稱為LARS(Locatio

16、n Aware Recomm-Ender System,位置感知推薦系統(tǒng))的和用戶地點相關(guān)的推薦系統(tǒng)。該系統(tǒng)首先將物品分兩類,一類是有空間屬性的,比如餐館、商店、旅游景點等,另一類是無空間屬性的物品,比如圖書和電影等。同時,它將用戶也分為兩類,一類是有空間屬性的,比如用戶地址,另一類是沒有空間屬性信息的。使用的數(shù)據(jù)集有三種形式:p (用戶,用戶位置,物品,評分),它使用的是MovieLens數(shù)據(jù)集。該數(shù)據(jù)集給出了用戶郵編(用戶位置)。p (用戶,物品,物品位置,評分),使用FourSquare的數(shù)據(jù)集,該數(shù)據(jù)集包含用戶對不同地方的餐館、景點、商店評分。p (用戶,用戶位置,物品,物品位置,評分

17、)LARS通過分析前兩種數(shù)據(jù)集,發(fā)現(xiàn)了用戶興趣和地點相關(guān)的兩種特征。p 興趣本地化興趣本地化 不同地方和國家的用戶興趣存在著很大差異p 活動本地化活動本地化 一個用戶往往在附近地區(qū)活動?;谖恢猛扑]要考慮推薦地點和用戶當(dāng)前地點的距離。 (用戶,用戶位置,物品,評分)(用戶,用戶位置,物品,評分)數(shù)據(jù)集,LARS的基本思想是將數(shù)據(jù)集根據(jù)用戶的位置劃分成很多子集。因為位置信息是個樹狀結(jié)構(gòu)。因此,數(shù)據(jù)集也會劃分成一個樹狀結(jié)構(gòu)。每個用戶根據(jù)位置信息分配到葉子節(jié)點中。LARS就利用這個葉子節(jié)點上的行為數(shù)據(jù),通過ItemCF給用戶進行推薦。缺點缺點是每個節(jié)點上用戶數(shù)少,用戶行為數(shù)據(jù)過于稀疏,無法訓(xùn)練出一個

18、好的的推薦算法。解決方法解決方法是從根節(jié)點到葉子節(jié)點的過程中,利用每個中間節(jié)點上的數(shù)據(jù)訓(xùn)練出一個推薦模型,然后給用戶生成推薦列表。最終的推薦結(jié)果是這一系列推薦列表的加權(quán)。作者稱這種算法為金字塔模型。金字塔模型。而金字塔的深度影響了推薦系統(tǒng)的性能,因而深度是算法一個重要指標(biāo)。 (用戶,物品,物品位置,評分)數(shù)據(jù)集,LASR首先忽略物品位置信,利用ItemCF算法計算用戶u對物品i的興趣(u,i),但最終物品物品I在用戶u的推薦列表權(quán)重定義為: RecScore(u,i) = p(u,i) TravelPenalty(u,i) 公式中, TravelPenalty(u,i)表示物品i的位置對用戶u的代價。計算基本思想是對于物品i與用戶u之前評分的所有物品的位置計算距離的平均值(或者最小值)。為了避免計算用戶對所有物品的TravelPenalty,LARS在計算用戶u對物品i的興趣度RecScore(u,i) 時,首先對用戶曾經(jīng)評分的物品,找到和他距離小于一個閾值d的所有物品,然后將這些物品的集合作為候選集。(用戶,用戶位置,物品,物品位置,評

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論