版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于隱反饋的協(xié)同過濾推薦模型技術(shù)創(chuàng)新,變革未來智慧IT目 錄010203模型簡介模型結(jié)構(gòu)模型運行模型總結(jié)04一. WR-MF( Weighted Regularized Matrix Factorization )模型顯反饋與隱反饋 協(xié)同過濾是指在預(yù)測一個用戶對物品的喜好程度時,不僅僅依賴于該用戶的歷史記錄,同時也要考慮其他用戶的歷史記錄。其基本假設(shè)是興趣相投、擁有共同經(jīng)驗的群體未來會喜歡相似的物品。協(xié)同過濾建模主要使用用戶對物品的歷史交互數(shù)據(jù),也稱為反饋數(shù)據(jù)。根據(jù)交互行為是否反映用戶對物品的喜好程度可以把反饋數(shù)據(jù)分為兩類:顯式反饋,通常是指評分,直接反映用戶對物品的喜好程度,例如豆瓣網(wǎng)提供用
2、戶對電影15的評分;隱式反饋,例如點擊、購買、看視頻、聽音樂等行為,其不能直接揭示用戶是否喜歡一個物品,但能側(cè)面反映出用戶對物品的興趣。 1.模型簡介相比于顯式反饋,互聯(lián)網(wǎng)內(nèi)容提供商更容易獲得隱式反饋,例如電商/視頻網(wǎng)站可以從服務(wù)器日志中直接獲得用戶的點擊/觀看歷史。由于不需要用戶顯式提供打分,隱式反饋中的選擇偏差較小,而且其規(guī)模相對較大。因此隱反饋推薦的應(yīng)用更為廣泛。與顯式反饋類似,可以將隱式反饋數(shù)據(jù)描述為一個二維矩陣Y;不同的是這里Y中的每一個元素不是一個具體的打分,而是代表用戶是否選擇了某一物品:1代表選擇,0代表沒有選擇。因此,建模隱式反饋更像是一個二分類問題預(yù)測用戶選擇一個物品的概率
3、。 1.模型簡介隱反饋推薦算法 1.模型簡介背景介紹一般而言,用戶基于物品的顯性反饋是可以出顯示出用戶對物品的喜好程度的。但是現(xiàn)實生活中其實還存在著很多的隱性反饋(比如購買記錄、瀏覽記錄,搜索記錄等),這一類數(shù)據(jù)普遍都存在一個缺陷,即它們是很難有證據(jù)顯示出用戶對該物品的不喜歡程度畢竟用戶的打分才是最直接表示喜好的一種行為。所以如何處理隱性數(shù)據(jù),以及如何顯示出用戶對物品的喜好程度,成為了隱反饋推薦中亟待解決的問題。 1.模型簡介模型選型 大多數(shù)推薦系統(tǒng)主要關(guān)注用戶的顯示反饋行為,如評分等,忽略用戶的隱式反饋信息,如瀏覽記錄等。 但是,顯示反饋信息并不總是容易得到,在很多情況下,隱反饋則很容易進行
4、收集。傳統(tǒng)的基于顯示反饋的方法僅僅考慮了評分項,忽略了隱反饋中的大量缺失項目,明顯不適用于隱反饋的推薦中。 為此,Hu等人在論文Collaborative Filtering for Implicit Feedback Datasets (ICDM ,2008)中提出WR-MF(Weighted Regularized Matrix Factorization)模型1。WR-MF模型引入了用戶的喜好程度和置信程度來建模隱反饋數(shù)據(jù),同時設(shè)計了交替最小二乘法( alternating least squares ,ALS)優(yōu)化算法求解模型,效果取得到明顯的提升1 Hu Y, Koren Y, Vo
5、linsky C. Collaborative Filtering for Implicit Feedback DatasetsC/ICDM. 2008, 8: 263-272. 1.模型簡介模型選型WR-MF模型解決了隱反饋中對負反饋數(shù)據(jù)建模的問題,將隱反饋中的正樣本和負樣本統(tǒng)一建模,為隱反饋推薦算法的發(fā)展打下了重要基礎(chǔ)。 由于在實際應(yīng)用中,用戶和物品的數(shù)據(jù)量是十分巨大的。為此,作者對于模型的優(yōu)化并沒有采用隨機梯度下降等算法進行優(yōu)化,而是設(shè)計了線性時間復雜度的ALS優(yōu)化算法,使得其對于大型稀疏數(shù)據(jù)仍然能保持較好的預(yù)測性能,加快了模型的收斂速度,在工業(yè)界和大規(guī)模數(shù)據(jù)中也得到了廣泛的應(yīng)用。目前,
6、在Apacha Mahout和Spark中均提供了ALS算法和并行計算的支持,通過Hadoop(/users/recommender/intro-als-hadoop.html )平臺的支持,我們可以很容易的實現(xiàn)工業(yè)級別下的個性化推薦系統(tǒng)的搭建, 1.模型簡介參數(shù)解釋 符號解釋評分數(shù)據(jù)|或者次數(shù)的數(shù)據(jù)用戶u對物品i的喜好程度m用戶數(shù)量n物品數(shù)量X用戶特征向量的矩陣(每一行代表用戶, m* f ,f是潛在特征向量的大小)Y物品特征向量的矩陣(每一列代表物品,n* f) 2.模型結(jié)構(gòu)模型框架 由于隱性反饋數(shù)據(jù)是不能顯示用戶的喜好程度的,畢竟用戶的打分才是最直接表示喜好的一種行為。所以如何處理隱性數(shù)
7、據(jù),以及如何顯示出用戶對item的喜好程度,成為了隱反饋推薦要研究的重要問題。 WR-MF模型把隱性反饋數(shù)據(jù)轉(zhuǎn)換成了兩個維度,一個是喜好程度(preference),代表用戶是否喜好該物品,另一個是置信程度(confidence),表示用戶對物品喜好的置信程度。以此,得出最后的分數(shù)。 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu)更新過程 2.模型結(jié)構(gòu) 然后,令導數(shù)為0可得: 把x和y帶入損失函數(shù),使得損失函數(shù)最小。重復上面2和3步驟,直到達到自己想要的損失函數(shù)的最低值或者達到更新多少次的要求。 2.模型結(jié)構(gòu)數(shù)據(jù)集劃分根據(jù)用戶的交互時間排序,采取leave one out策略,對于每一
8、位用戶,我們將其交互記錄中最新的一條作為測試集,剩下的數(shù)據(jù)作為訓練集。 3.模型運行數(shù)據(jù)集我們使用Movielens-100k來評價模型的表現(xiàn) 。MovieLens-100k 是一份被廣泛使用于驗證 CF 算法表現(xiàn)效果的電影評分數(shù)據(jù)集。MovieLens 具有多個版本,在ALS實驗中我們選擇。在這個版本的 MovieLens 數(shù)據(jù)集中,包含943個用戶對于1682部電影,擁有100000次評分記錄。數(shù)據(jù)集地址:/datasets/movielens/。對于其中的評分項,我們將其分數(shù)全部置1,僅代表用戶與該物品發(fā)生過交互。 3.模型運行判斷對用戶更新還是對物品進行更新代碼實踐-離線PyCharm
9、環(huán)境根據(jù)ALS推導進行更新 3.模型運行運行結(jié)果單組參數(shù)下,迭代20次后,模型的HR和NDCG的結(jié)果 3.模型運行正則化參數(shù) alpha超參數(shù)迭代次數(shù)潛在特征向量維度代碼調(diào)優(yōu) 3.模型運行正則化參數(shù)正則化參數(shù)用來防止網(wǎng)絡(luò)的過擬合情況,從上圖可以發(fā)現(xiàn):正則化參數(shù)為0.01時,網(wǎng)絡(luò)表現(xiàn)較好。 3.模型運行alpha超參數(shù)alpha參數(shù)用來控制模型的置信程度,從上圖可以發(fā)現(xiàn):alpha參數(shù)為4時,網(wǎng)絡(luò)表現(xiàn)較好。 3.模型運行迭代次數(shù) 迭代次數(shù) 迭代次數(shù)迭代次數(shù)控制著網(wǎng)絡(luò)的收斂程度,一般隨著攜帶次數(shù)的增加,網(wǎng)絡(luò)表現(xiàn)也會變好。 3.模型運行潛在特征向量維度潛在特征向量維度控制著模型的表現(xiàn)力,隨著維度的增
10、加,模型的效果也便也會隨之變好,同時,模型的復雜度也會提高,過擬合情況也會越發(fā)嚴重。超過一定值時,甚至會導致模型效果變差。從上圖可以發(fā)現(xiàn):特征向量維度為30時,網(wǎng)絡(luò)表現(xiàn)較好。 3.模型運行 WR-MF研究了隱式反饋數(shù)據(jù)集下的協(xié)同過濾推薦,這是一種非常常見的情況。我們的主要發(fā)現(xiàn)之一是隱式用戶觀察應(yīng)該轉(zhuǎn)換為兩個成對的量級:偏好和置信水平。 換句話說,對于每個用戶 - 項目對,我們從輸入數(shù)據(jù)推導出估計用戶是否喜歡或不喜歡該項目(“偏好”)并將此估計與置信水平相結(jié)合。這種偏好置信區(qū)分在廣泛使用的顯式反饋數(shù)據(jù)集中沒有被納入考慮中,但在分析隱式反饋方面推薦起著關(guān)鍵作用。 4.模型總結(jié)目 錄010203模型
11、簡介模型結(jié)構(gòu)模型運行模型總結(jié)04二.eALS(element-wise ALS )模型模型選型 WR-MF模型雖然在隱反饋推薦中取得了較好的表現(xiàn),然而,其模型也存在著以下不足: 對于隱反饋中的負反饋數(shù)據(jù),WR-MF模型采用給與相同的置信度(權(quán)重)進行建模,然而,真實情況中,用戶對于負反饋的偏好肯定是不一樣的,統(tǒng)一權(quán)重的建模方式在某種程度上限制了模型的表現(xiàn)。 WR-MF模型采用ALS算法進行優(yōu)化,只適用于離線情況下的推薦。對于在線推薦,我們需要重新訓練整個模型,限制了模型的適用范圍考慮到以上問題,He等人在WR-MF模型的基礎(chǔ)上,提出了eALS(element-wise ALS )模型1,解決了
12、以上不足,進一步發(fā)展了隱反饋推薦。1 He X, Zhang H, Kan M Y, et al. Fast matrix factorization for online recommendation with implicit feedbackC/Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2016: 549-558. 1.模型簡介eALS介紹eALS模型解決了WR-MF模型上述的兩個不足。eALS模
13、型根據(jù)物品流行度對缺失數(shù)據(jù)(負反饋)進行加權(quán),這比統(tǒng)一權(quán)重假設(shè)更有效和靈活。然而,這種不均勻的加權(quán)在學習模型時提出了效率挑戰(zhàn)。為了解決這個問題,我們專門設(shè)計了一種基于元素交替最小二乘(eALS)的新學習算法。優(yōu)化具有可變加權(quán)缺失數(shù)據(jù)的MF模型。我們利用這種高效優(yōu)化算法,然后無縫地設(shè)計增量更新策略,在給定新反饋的情況下立即更新模型,使得其可以同時應(yīng)用于在線和離線環(huán)境中,是目前基于矩陣分解方法中的最優(yōu)模型。 1.模型簡介模型結(jié)構(gòu) 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu)流行度加權(quán)許多Web 2.0系統(tǒng)的在其推薦界面傾向于展示其網(wǎng)站的熱門項目。在所有其他因素相同的情況下,一般來說,用戶更容易了解其熱門項目,因此我
14、們可以合理地認為用戶對熱門項目的錯過更可能代表用戶對于該物品沒有興趣。為了解釋這種現(xiàn)象,我們根據(jù)物品的受歡迎程度對ci進行參數(shù)化計算: 2.模型結(jié)構(gòu)更新過程 2.模型結(jié)構(gòu)在線更新當離線訓練好的模型部署到實際環(huán)境中,會不斷的出現(xiàn)新的用戶、物品以及交互。eALS提出了一種增量更新的策略,即在原有模型的基礎(chǔ)上,對于新的信息進行單獨的更新 2.模型結(jié)構(gòu)數(shù)據(jù)集我們在Yelp和Amazon數(shù)據(jù)集上進行了實驗。Yelp是美國最大點評網(wǎng)站。我們使用其在2015年舉辦的Yelp Challenge比賽中公開的數(shù)據(jù)集(/dataset challenge)。Amazon則是美國最大的在線購物網(wǎng)站,我們使用的是其電
15、影觀看記錄數(shù)據(jù)集(/data/web-Amazon-links.html)。對于其中的評分項,我們將其分數(shù)全部置1,代表用戶與該物品發(fā)生過交互。其數(shù)據(jù)集統(tǒng)計信息如下:DatesetReviewItemUserSparsityYelp731,67125,81525,67799.89%Amazon5,020,70575,389117,17699.94% 3.模型運行更新模型的緩存矩陣更新代碼(/hexiangnan/sigir16-eals)更新用戶和物品矩陣 3.模型運行結(jié)果分析:作者在Amazon和Yelp數(shù)據(jù)集上進行了實驗。從上圖可以發(fā)現(xiàn),隨著模型迭代次數(shù)的增加,模型的效果野越來越好,其中eALS模型的效果在二份數(shù)據(jù)集上一直優(yōu)于其他模型。 3.模型運行從上圖可以發(fā)現(xiàn),隨著潛在特征向量維度的增加,模型的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年飾品商鋪租賃與品牌合作與市場拓展合同3篇
- 2025版互聯(lián)網(wǎng)數(shù)據(jù)中心相關(guān)方環(huán)境管理協(xié)議3篇
- 二零二五版鋼筋焊接工藝用工合同模板范文2篇
- 二零二五版模具維修改型與產(chǎn)業(yè)融合合同4篇
- 2025年道路工程質(zhì)量檢測與驗收合同3篇
- 2025年度個人股份代持及轉(zhuǎn)讓法律文件3篇
- 2025年度采礦權(quán)出讓合同范本:礦產(chǎn)資源勘查開發(fā)技術(shù)規(guī)范3篇
- 2025年度冰箱智能互聯(lián)技術(shù)合作協(xié)議3篇
- 二零二五年度新能源用地抵押借款合同3篇
- 二零二五版定制家具銷售與售后服務(wù)協(xié)議7篇
- 2024年社區(qū)警務(wù)規(guī)范考試題庫
- 2024年食用牛脂項目可行性研究報告
- 消防安全隱患等級
- 溫室氣體(二氧化碳和甲烷)走航監(jiān)測技術(shù)規(guī)范
- 部編版一年級語文下冊第一單元大單元教學設(shè)計
- 《保單檢視專題》課件
- 北京地鐵13號線
- 2023山東春季高考數(shù)學真題(含答案)
- 職業(yè)衛(wèi)生法律法規(guī)和標準培訓課件
- 高二下學期英語閱讀提升練習(二)
- 民事訴訟證據(jù)清單模板
評論
0/150
提交評論