版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第12章推薦算法目錄CONTENTS12.1推薦系統(tǒng)簡介12.2基于最近鄰的協(xié)同過濾推
薦算法原理與實現(xiàn)12.3基于隱語義分析的推薦模型12.4基于標(biāo)簽的推薦算法12.5本章小結(jié)12.1推薦系統(tǒng)簡介學(xué)習(xí)基礎(chǔ)學(xué)習(xí)認(rèn)知能力信息素養(yǎng)高搜索引擎在一定程度上緩解了信息過載帶來的問題,但在海量的信息中想要找到用戶滿意的內(nèi)容也是非常耗時的。此外,搜索引擎是根據(jù)用戶提供的關(guān)鍵詞或關(guān)鍵短語被動地為用戶提供檢索結(jié)果,不同用戶提供的關(guān)鍵詞或關(guān)鍵短語相同,檢索結(jié)果也會相同,未體現(xiàn)出用戶的個性化需要。推薦系統(tǒng)根據(jù)用戶偏好特點,主動為用戶提供符合個性化需求的信息內(nèi)容,而不需要用戶提供關(guān)鍵詞或關(guān)鍵短語。有報告顯示,2019年我國數(shù)據(jù)產(chǎn)量總規(guī)模為3.9ZB,相當(dāng)于3.9萬億GB,同比增加29.3%。按容量算,這些數(shù)據(jù)可填滿1245億個32GB的iPad。人均數(shù)據(jù)產(chǎn)量為3TB,相當(dāng)于每人每天產(chǎn)生超8個GB的數(shù)據(jù),同比增加25%。12.1推薦系統(tǒng)簡介基于物品的協(xié)同過濾、基于內(nèi)容的推薦、基于矩陣分解的協(xié)同過濾、基于社交關(guān)系的推薦、基于深度學(xué)習(xí)等一些代表性的推薦算法被提出,推薦系統(tǒng)的發(fā)展歷程如圖12-1所示。12.1推薦系統(tǒng)簡介一個完整的推薦系統(tǒng)由三部分組成:用戶、推薦方法和項目資源,如圖12-2所示。12.1推薦系統(tǒng)簡介協(xié)同過濾是目前應(yīng)用最為廣泛、最為成功的推薦技術(shù)之一。按照實現(xiàn)策略,協(xié)同過濾推薦算法分為兩類:基于內(nèi)存的協(xié)同過濾和基于模型的協(xié)同過濾。由于基于模型的推薦算法主要計算代價是在離線階段完成,在線計算工作量較少,可在很短的時間內(nèi)完成推薦,因此可應(yīng)用于大規(guī)模數(shù)據(jù)集上。按照推薦策略和數(shù)據(jù)來源,推薦算法可分為以下幾類:協(xié)同過濾推薦、基于內(nèi)容的推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于知識的推薦和基于社交網(wǎng)絡(luò)的推薦。各類推薦算法的優(yōu)勢及局限性如表12-1所示。12.1推薦系統(tǒng)簡介12.1推薦系統(tǒng)簡介12.1.4推薦系統(tǒng)的評估方法1.數(shù)據(jù)集目前,網(wǎng)絡(luò)上存在很多用于推薦系統(tǒng)研究的公開數(shù)據(jù)集,如Movielens、Epinions、Tencent、Douban、Flixster、Bookcrossing、Ciao、FilmTrust等。按照是否包含社交關(guān)系信息,這些數(shù)據(jù)可分為兩類:具有直接社交關(guān)系的數(shù)據(jù)集和不具有直接社交關(guān)系的數(shù)據(jù)集。Epinions、Tencent、Douban等包含有社交關(guān)系,Movielens不包含社交關(guān)系信息。12.1推薦系統(tǒng)簡介2.評測方法平均絕對誤差和均方根誤差是最常用的衡量推薦準(zhǔn)確率好壞的方法,通過計算預(yù)測評分與真實評分的偏離程度衡量預(yù)測結(jié)果是否準(zhǔn)確。平均絕對誤差計算公式如下:precision@N(P@N)和recall@N(R@N也是常用來評估推薦系統(tǒng)準(zhǔn)確率的評價指標(biāo)。12.1推薦系統(tǒng)簡介準(zhǔn)確率和召回率的評估方法描述如下:多樣性定義12.2基于最近鄰的協(xié)同過濾推薦算法原理與實現(xiàn)基于近鄰用戶的協(xié)同過濾推薦的主要思想就是利用近鄰用戶的觀點進行推薦,其可以描述為:當(dāng)需要為一個用戶A進行個性化推薦時,可先找到和用戶A有相似興趣的其他用戶,然后把那些用戶喜歡的、而用戶A沒有的物品推薦給A。12.2基于最近鄰的協(xié)同過濾推薦算法原理與實現(xiàn)2.Top-N推薦Top-N推薦的數(shù)據(jù)來源一般是隱式的交互行為,這些隱式的行為也可以量化為具體的用戶對物品的偏好程度。兩個用戶對各個項目的評分可分別用u和v表示,他們的余弦相似性可通過夾角余弦值度量:12.2基于最近鄰的協(xié)同過濾推薦算法原理與實現(xiàn)(2)獲取候選項目集合在確定了近鄰用戶集合后,可根據(jù)近鄰用戶集合中每個用戶喜歡的物品與目標(biāo)用戶喜歡的物品進行對比,將目標(biāo)用戶沒有發(fā)現(xiàn)過的物品作為候選項目集合。(3)計算目標(biāo)用戶對項目的興趣度12.2基于最近鄰的協(xié)同過濾推薦算法原理與實現(xiàn)3.評分預(yù)測對于顯式的用戶評分,在推薦過程中,通常先利用用戶的近鄰關(guān)系來為目標(biāo)用戶對未知項目進行評分預(yù)測,再根據(jù)預(yù)測評分大小產(chǎn)生推薦列表。與Top-N推薦的主要區(qū)別體現(xiàn)在計算用戶之間的相似性方法與預(yù)測評分的方法上。12.2基于最近鄰的協(xié)同過濾推薦算法原理與實現(xiàn)【例12-1】根據(jù)下面的用戶對電影的評分?jǐn)?shù)據(jù),利用基于用戶的協(xié)同過濾推薦算法為用戶“馮小寧”推薦可能喜歡的影片。評分?jǐn)?shù)據(jù)用Python字典表示如下:{'劉娜':{'馬迭爾旅館的槍聲':2.5,'長津湖':3.5,'集結(jié)號':3.0,'今年這個夏天有異性':3.5,'東京愛情攻略':2.5,'熊出沒':3.0},'吳林':{'馬迭爾旅館的槍聲':3.0,'長津湖':3.5,'集結(jié)號':1.5,'今年這個夏天有異性':5.0,'熊出沒':3.0,'東京愛情攻略':3.5},'馮小寧':{'馬迭爾旅館的槍聲':2.5,'長津湖':4.0,'今年這個夏天有異性':3.5,'熊出沒':4.0},12.2基于最近鄰的協(xié)同過濾推薦算法原理與實現(xiàn)defrecomand2(self,user,n=1):item={}ave=dict()w_uv={}fornear_u,sindict(self.get_nearst_user(user,n)).items():#最相近的N個用戶
print("推薦的用戶:",(near_u,s))print(self.data[near_u],len(near_u))pre_rating=0.0form,ratingsinself.data[near_u].items():#推薦的用戶的電影列表
ifmnotinself.data[user].keys():#當(dāng)前user沒有看過
ifmnotinitem.keys():item[m]={}item[m][near_u]=ratingsave[near_u]=float(sum(self.data[near_u].values()))/len(near_u)w_uv[near_u]=self.pearson(self.data[user],self.data[near_u])12.2基于最近鄰的協(xié)同過濾推薦算法原理與實現(xiàn)12.2.2基于近鄰項目的協(xié)同過濾推薦12.2基于最近鄰的協(xié)同過濾推薦算法原理與實現(xiàn)余弦相似性計算兩個項目的相似度。用戶對項目的感興趣程度:余弦相似度:12.3基于隱語義分析的推薦模型假設(shè)用戶-項目評分矩陣為R,用戶潛在因子矩陣為P,項目潛在特征因子矩陣為Q,則有:R為已知矩陣,P和Q是需要我們所要求解的矩陣。為了得到最優(yōu)的P和Q,采用最小二乘法,使真實值R與預(yù)測值的誤差最小即:
利用梯度下降法訓(xùn)練參數(shù):12.3基于隱語義分析的推薦模型defrecommend(pre_list,k):#pre_list為排好序的項目列表,k為推薦的項目數(shù)量
recommend_list=[]#推薦列表
len=len(pre_list)ifk>=len:recommend_list=pre_listelse:foriinrange(k):recommend_list.append(pre_list[i])returnrecommend_list12.3基于隱語義分析的推薦模型迭代次數(shù):0損失值:13.561690756251004迭代次數(shù):4000損失值:0.11730824185649366推薦[(4,4.138192050686209),(2,3.5157664788522753)]預(yù)測的評分矩陣[[4.968252033.106006483.515766482.891672354.13819205][3.043441043.323938763.063317572.060513014.88266383][3.999693451.956655413.950659952.668899063.03512292][3.93402342.970954922.287813712.121575873.65345007][4.193748553.911016582.954715912.350897885.0648346]]12.4基于標(biāo)簽的推薦算法一個最簡單的標(biāo)簽推薦系統(tǒng)就是利用用戶給物品標(biāo)注的情況,預(yù)測用戶對物品感興趣的程度:基于TF-IDF對以上用戶對物品感興趣的情況進行改進,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024新版?zhèn)€體勞動協(xié)議樣本版
- 2024監(jiān)理服務(wù)擴展合同標(biāo)準(zhǔn)文本一
- 2025年度新能源汽車充電樁采購安裝合同3篇
- 二零二五年科技園區(qū)PPP項目合同第三、四章技術(shù)創(chuàng)新與產(chǎn)業(yè)支持細則3篇
- 唐山科技職業(yè)技術(shù)學(xué)院《吉他(二)》2023-2024學(xué)年第一學(xué)期期末試卷
- 蘇州農(nóng)業(yè)職業(yè)技術(shù)學(xué)院《美國文學(xué)史與作品選讀》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年度班主任班級管理師徒實踐合作協(xié)議3篇
- 事業(yè)單位專任人員2024河南聘用協(xié)議模板版
- 石家莊城市經(jīng)濟職業(yè)學(xué)院《制藥工程學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度玻璃制品出口貿(mào)易合同3篇
- 第一單元 史前時期 原始社會與中華文明的起源 單元檢測試題 2024-2025學(xué)年統(tǒng)編版七年級歷史上冊
- 計算機網(wǎng)絡(luò)基礎(chǔ)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2024中國華電集團限公司校園招聘高頻500題難、易錯點模擬試題附帶答案詳解
- 2024年國家公務(wù)員考試行測真題及答案(完整版)
- 污水處理設(shè)施設(shè)備升級改造項目資金申請報告-超長期特別國債投資專項
- 五年級上冊小數(shù)乘除豎式計算題200道及答案
- 2024年東南亞工業(yè)氣瓶市場深度研究及預(yù)測報告
- 棉花良種選育與遺傳育種
- SH/T 3078-2024 立式圓筒形料倉工程設(shè)計規(guī)范(正式版)
- 快遞驛站承包協(xié)議書
- 基于視覺果蔬識別的稱重系統(tǒng)設(shè)計
評論
0/150
提交評論