電影推薦系統(tǒng)_第1頁
電影推薦系統(tǒng)_第2頁
電影推薦系統(tǒng)_第3頁
電影推薦系統(tǒng)_第4頁
電影推薦系統(tǒng)_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于Slope one算法得電影推薦系摘要:商業(yè)網(wǎng)站迅猛發(fā)展得時代已經(jīng)到來,網(wǎng)上服務(wù)得交易方式正在改變著 傳統(tǒng)得商業(yè)模式。如果說過去得十年就是搜索技術(shù)高速發(fā)展得十年,那么個性化 推薦技術(shù)將作為下一個十年中最為重要得革新之一??谇皟汉跛写笮偷蒙虡I(yè)網(wǎng) 站,如亞馬遜、淘寶網(wǎng)等,都不同程度地使用了各種形式得推薦系統(tǒng)。本文就推薦 系統(tǒng)這一話題展開討論,首先介紹了推薦系統(tǒng)得提出與發(fā)展過程,然后列舉出了兒 種推薦系統(tǒng)得研究方法,其中,詳細得描述了 Slope one算法推薦系統(tǒng)得實現(xiàn)過程 以及用Slope one算法編寫程序完成了電影推薦系統(tǒng)。最后列舉了兒個推薦 系統(tǒng)得實例。關(guān)鍵字:Slope o ne算

2、法 推薦系統(tǒng) 數(shù)據(jù)挖掘 個性化推薦一、發(fā)展背景:隨著in t e r net得日益普及,商業(yè)網(wǎng)站得蓬勃發(fā)展,如何提高商業(yè)網(wǎng)站得 有效性,尤其就是如何運用個性化推薦技術(shù)提供個性化服務(wù)來實現(xiàn)已逐漸成為一 個能引起廣泛興趣得熱點課題。雖然商業(yè)網(wǎng)站從“以站點為中心”向“以用戶 為中心”發(fā)展成為必然趨勢。但H前國內(nèi)大多數(shù)商業(yè)網(wǎng)站得商品推薦通常就是: 推薦熱銷產(chǎn)品;推薦相關(guān)產(chǎn)品;依據(jù)用戶瀏覽歷史得信息進行推薦。由Daniel L emire教授在 2 005年提出得一個Item Base d(基于條口)推薦算法,可 應(yīng)用于各類以網(wǎng)上商品銷售為主業(yè)務(wù)得網(wǎng)上商店,以及提供文章、新聞、音樂、 電影等“無形”得產(chǎn)

3、品得網(wǎng)絡(luò)站點。用于幫助商丿占經(jīng)營者,網(wǎng)絡(luò)站點從事產(chǎn)品 得個性化推薦,提高營銷及服務(wù)質(zhì)量,更好地挖掘潛在客戶及客戶得使用、購買 潛能。同時也根據(jù)用戶得喜好,網(wǎng)站會留下記錄,當(dāng)用戶再次訪問時,網(wǎng)站會推薦用 戶可能喜歡得東西,這樣也方便了用戶,用戶無需浪費時間去搜索大量得信息。二、現(xiàn)有推薦系統(tǒng)研究方法:1、基于內(nèi)容得推薦:基于內(nèi)容得推薦(co n te n t-b a s ed remen d a t ion)就是指根據(jù)用戶選擇 得對象,推薦其她類似屬性得對象作為推薦,屬于Sch a fer劃分中得I tem-t o -Item Correia ti on方法、這類算法源于一般得信息檢索方法、不需要

4、依據(jù) 用戶對對象得評價意見、對象使用通過特征提取方法得到得對象內(nèi)容特征來表 示,系統(tǒng)基于用戶所評價對象得特征,學(xué)習(xí)用戶得興趣,從而考察用戶資料與待預(yù) 測項目相匹配得程度、對象內(nèi)容特征(C o nten t (s)得選取在U前得硏究中以對象得文字描述為主,比如 信息檢索中最經(jīng)典得文本特征就是詞頻-倒排文檔頻率(te rm f re Q u e ncy- i nver s e d ocument fr e q u e ncy,簡稱 TF- I DF)另一方面用戶得資料模型 ContentBas e dProf i le (c)取決于所用機器學(xué)習(xí)方法,常用得有決策樹、貝葉斯 分類算法、神經(jīng)網(wǎng)絡(luò)、基于

5、向量得表示方法等,數(shù)據(jù)挖掘領(lǐng)域得眾多算法都可以 應(yīng)用、2、協(xié)同過濾推薦協(xié)同過濾推薦(col 1 abo r ativ e filte r i ng remen d a t ion)技術(shù)就 是推薦系統(tǒng)中最為成功得技術(shù)之一,它于2 0世紀(jì)9 0年代開始研究并促進了 整個推薦系統(tǒng)研究得繁榮、大量論文與研究都屬于這個類別、協(xié)同過濾得基本思想就是:找到與當(dāng)前用戶c c ur相似(比如興趣與口味 相似得其她用戶cj,計算對象s對于用戶得效用值u(cj,s),利用效用值對 所有s進行排序或者加權(quán)等操作,找到最適合ccur得對象s*、其基本思想非常 易于理解,在日常生活中,我們往往會利用好朋友得推薦來進行一些

6、選擇、協(xié)同過濾正就是把這一思想運用到推薦系統(tǒng)中來,即基于其她用戶對某一內(nèi)容得 評價向目標(biāo)用戶進行推薦、基于協(xié)同過濾得推薦系統(tǒng)可以說就是從用戶得角度進行推薦得,并且就是自 動得,也就就是說,用戶所獲得得推薦就是系統(tǒng)從用戶購買或瀏覽等行為中隱式 獲得得,不需要用戶主動去查找適合自己興趣得推薦信息,如填寫一些調(diào)查表格 等、其另外一個優(yōu)點就是對推薦對象沒有特殊得要求(而基于內(nèi)容得推薦需要對 推薦對象進行特征分析),能夠處理非結(jié)構(gòu)化得復(fù)雜對象,如音樂、電影等、同時, 研究用戶之間得關(guān)系需要大量得用戶訪問行為得歷史數(shù)據(jù),與社會網(wǎng)絡(luò)研究有交 義點,有豐富得研究基礎(chǔ)與廣闊得前景、對協(xié)同過濾最早得研究有Gru

7、n d y sys t e m,后來得研究成果包括 Ta p e stry s y s t em, Group Lens, Ringo, PHO A K S sy s t e m, J e s t er sys t em等、總體而言, 此類推 薦算法可以分為兩類:啟發(fā)式(h e u r i sti c -bas e d or memo r y b ased) 方法與基于模型(mo d el-based)得方法。3、基于知識得推薦:基于知識得推薦(know I edge-b a s ed r e men d a tio n)在某種程度上可 以瞧成就是一種推理(infer e nee)技術(shù)、它不就

8、是建立在用戶需要與偏好基礎(chǔ)上 推薦得,而就是利用針對特定領(lǐng)域制定規(guī)則(rule)來進行基于規(guī)則與實例得推 理(case -based reasoning) 例如,文獻34中利用飯店得菜式方面得效用知 識,推薦飯店給顧客、效用知識(f u nc t i onal know I e d ge)就是一種關(guān)于 一個對象如何滿足某一特定用戶得知識,因而能夠解釋需求與推薦得關(guān)系,用于 推薦系統(tǒng)、效用知識在推薦系統(tǒng)中必須以機器可讀得方式存在(onto 1 og y本 體知識庫),例如qui c k step and foxtrot sys t em s使用關(guān)于學(xué)術(shù)論文主題 得on t o 1 og y本體知

9、識庫向讀者作推薦、4、S 1 op e one算法推薦:Slope One就是一系列應(yīng)用于 協(xié)同過濾得算法得統(tǒng)稱。ill Daniel Lem i re與Ann a M a c 1 a ch 1 an于2005年發(fā)表得論文中提出。有爭議得 就是,該算法堪稱基于 項口評價得non-1 r iv i al協(xié)同過濾算法最簡潔得形 式。該系列算法得簡潔特性使它們得實現(xiàn)簡單而高效,而且其精確度與其它復(fù)雜 費時得算法相比也不相上下。該系列算法也被用來改進其它算法。當(dāng)可以對一 些項目評分得時候,比如人們可以對一些東西給出1到5星得評價得時候,協(xié)同 過濾意圖基于一個個體過去對某些項LI得評分與(龐大得)山其她

10、用戶得評價構(gòu) 成得數(shù)據(jù)庫,來預(yù)測該用戶對未評價項口得評分。如:如果一個人給披頭士得 評分為5 (總分5)得話,我們能否預(yù)測她對席琳狄翁新專輯得評分呢?這種情形下,item-based協(xié)同過濾系統(tǒng) 根據(jù)其它項目得評分來預(yù)測項 LI得分值,一般方法為線性回歸()、于就是,需要列出x - 2個線性回歸方程與回 歸量,例如:當(dāng)有1 0 00個項時,需要列多達1,0 0 0,00 0個線性回歸方程,以 及多達2, 000, 0 0 0個回歸量。除非我們只選擇某些用戶共同評價過得項口對, 否則協(xié)同過濾會遇到過適(過擬合)問題。三、Slope one算法描述及實現(xiàn)過程:1、算法原型:圖例一(如圖所示):It

11、emAItemBzUser A43UserB2?、圖3-1算法演示圖一如上圖所示,Us e rA對I tem A得評分就是4,對ItemB得評分就是3,Use rB M It e mA得評分就是2,那么,預(yù)測Us e rB對It e mB得評分就是多少呢? 根據(jù) Slo p e One 算法,2+( 3 - 4 ) = 1。圖例二(如圖32所示):廠1Item AItemBUser A43UserBJ29丿廠UserCx33V丿a丿圖3-2 算法演示圖二如上圖所示,U serB對ItemB得評分會就是多少呢?股票上有個說法 就是平均值可以掩蓋一切得異常波動,所以股票上得各個技術(shù)指標(biāo)就是收集不同

12、 時間段得平均值得曲線圖或就是柱狀圖等。同樣得,Slope One算法也認為:平 均值也可以代替某兩個未知個體之間得打分差異,條H A條|_|B得平均差值 就是:(4-3) + (3-3)2二0、5也就就是說人們對事物A得打分一般比事物B得打分要高0、5,于就 是Slope one算法就猜測U s e rB對事物B得打分就是2-0、5 = 1、5。2、加權(quán)算法:由上得兩個示例對Slope On e算法有了認識。如果有1 0 0個用戶對I te mA與I temB都打過分,有1000個用戶對It e mC與It e m B也打過分。顯 然這兩個rating差得權(quán)重就是不一樣得。因此我們可以推測,

13、計算方法就 是:100 x (Rating 1 to 2) + 1000 x (Rating 2 to 3)(100 + 1000)S lope One算法得加權(quán)算法數(shù)學(xué)描述如下:有N個用戶對條目A與 條目B打分了,R(A-B)表示這N位用戶對A與對B打分得平均差(A-B), 有M位用戶對條目B與條目C打分了,R(C-B)表示這M位用戶對C與對B打分得平均差(C-B),注意都就是平均差而不就是平方差,現(xiàn)在某個用戶對 A得打分就是 對。得打分就是rc,那么A對B得打分可能就是:N x g - R(A - B) + M x (rc - R(C - B)rb=M + N上面討論得就是用戶只對條目得喜

14、好程度打分。還有一種情況下用戶也可以 對條H得厭惡程度打分。這時可以使用雙極Slope One算法(Bl Pol a r Slope On e )o四、實驗結(jié)果:測試數(shù)據(jù)movielens均方根誤;RMSE二0.947445分以上推薦正確率0.746盧一強:北京遇上西雅圖李長月:猩球崛起燕睿濤:北京遇上西雅圖李長月:聽風(fēng)者龔志鑫:北京遇上四雅圖燕睿濤:肖申克的救贖劉璐:北京遇上四雅圖劉思遙:肖申克的救贖李長月:北京遇上西雅圖 龔志鑫:少年派孫召星:肖申克的救贖 燕睿濤:泰坦尼克號盧一強:速度與激悄5湯瑤:泰坦尼克號劉璐:速度與激悄5劉思遙:泰坦尼克號劉璐:猩球崛起注釋:此數(shù)據(jù)代表按照自己與別人

15、得評分推薦得電影致北京遇上西雅圖人IJ 冏 途 之 泰 冏少年派得奇幻漂流J% 衣 人白鹿原二次曝光速度與激情五泰迪熊功夫熊貓源代碼猩球崛起失 戀十夭志明與春嬌聽風(fēng)者這個殺手不太冷肖申克得救贖唐伯虎點秋香大話西游泰坦尼克號m2OmlmmMmmFmM、2% n、9L32LLra34E.m2m帀3EEoEoE.moE.、822563849L89423LLLJmO4F42mE3nn、5575L372LL2O3mo2nnW、u、uuuuuu仁9829312335刃000000000少博姚33032103233300300030偉、%、4787977586851128843213湯33032100200

16、020300004瑤、487697984326888386刃33002113200023304004思、遙14589456167233254751543孫30000123200323304000召、星39167582786214652169劉34003004300400000000璐、822130743725吳000000000林李34403400000長、月8061278注釋:此數(shù)據(jù)中0代表已經(jīng)瞧過得電影,其她得數(shù)數(shù)代表預(yù)測您給相應(yīng)電影得 評分。五、推薦系統(tǒng)在幾個網(wǎng)站中實例:1、下面兒幅圖就是在卓越亞馬遜上根據(jù)瀏覽記錄推薦得商品:更多洪您老逹的面品竊點臨邁空只 3? Kurrweii 平藥H

17、nkAfcf (15)xoo 48.30天才引導(dǎo)的歷U 妬中的偉樁 那納協(xié) william Dunnam).ficMvtvt;(io)X4SX0Y 31.20宇M提問(原令約晰)M尼爾祎組用罔備基和.吳禮MvkMi gX3WC* 21.00惡M與田家廷谷創(chuàng)業(yè)之災(zāi)Paul平裝ArfdWrf fi 阿-4SXW) 34.80NONAMil: LumT20 (3) 1.988 00HCWAtfMJI 3E20Mt承4V:(ia233 Y 1.988 00201逝?還G岡G口筑 irom眄爪初、力朋奐 平姿(C22Z3g M 34 2QMiazu fwrfiLitoui 筍直n晨如站AAAAr4CG

18、28.20HCWAtfMjI H-92OXx moo* 600 60NOKIA iWn LueoJO. 令Wikd c1.988 00toWsM/fclEASYCALL4rA渙*旳(es)y 丸3 Y 224 30HOaAtfMflLurri3820.(4x Z昨 3 Y 1.9 的 00A.RWtgXK 文曲 祈長1tKFredencX .AAAtVj (322013歷說舌鼻空湖斤ua翳狐劉ess嵌*嵌*+: cfi4丫 42 60縮侏山&(AAAA*; (20)25.70EBaMiy=5)=5;J=(sum( (pr e diet S-uat3) A2) / 1 engt h ( u a

19、t 3 ) )A0 5 ; % J=sum(r o und(pred i c tS)u a t 3)、八 2);rati o = s um(roun d (pred i ctS)= =u a t 3 ) / le n gth(uat 3 ); idxp4 = find(r o u nd(p r e dictS) =4);i d xp5=find (ro u n d ( p red i c t S) =5);idxp= i d x p4;idx p 5 ;ratior=sum ( u a t 3 ( i d x p) = 4 ) /le n gth(i d xp);fun c t i o n M

20、= s lo p e_ o ne_ _w(A,Test)tic;m,n= s ize(A);g B =one s (n);B=tril (gB) ;%上三角存平均評分差,下三角存評分得權(quán)重%即共同得評分人數(shù)%計算每兩列間得平均評分差for i = 1 : n-1for j =i +1: nC=A (:, i ),A (:, j);C(C(:,1) =0,: )=;C(C(:,2)=0,:)=;ifCB (ij) =sum(C(:,2)-C(:, 1) /I e ngth(C (: ,1); B(j, i)=le ng t h(C(:, 1 );endendendM =z e ros (length

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論