Chapter11-林子雨-大數(shù)據(jù)技術(shù)原理與應用-大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應用(年1月29日版本)32_第1頁
Chapter11-林子雨-大數(shù)據(jù)技術(shù)原理與應用-大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應用(年1月29日版本)32_第2頁
Chapter11-林子雨-大數(shù)據(jù)技術(shù)原理與應用-大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應用(年1月29日版本)32_第3頁
Chapter11-林子雨-大數(shù)據(jù)技術(shù)原理與應用-大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應用(年1月29日版本)32_第4頁
Chapter11-林子雨-大數(shù)據(jù)技術(shù)原理與應用-大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應用(年1月29日版本)32_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、廈門大學計算機科學系 2016年版第11章 大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應用 (PPT版本號:2016年1月29日版本) 大數(shù)據(jù)技術(shù)原理與應用/post/bigdata溫馨提示:編輯幻燈片母版,可以修改每頁PPT的廈大校徽和底部文字提綱11.1推薦系統(tǒng)統(tǒng)概述11.2推薦算法法協(xié)同過濾濾11.3協(xié)同過濾濾實踐電影推薦薦系統(tǒng)歡迎訪問問大數(shù)據(jù)技技術(shù)原理理與應用用教材官方方網(wǎng)站:http:/dblab./post/bigdata本PPT是如下教教材的配配套講義義:21世紀高等等教育計計算機規(guī)規(guī)劃教材材大數(shù)據(jù)技技術(shù)原理理與應用用概念、存存儲、處處理、分分析與應應用(2015年6月第1版)廈門大學學 林子子雨編編

2、著,人人民郵電電出版社社ISBN:978-7-115-39287-911.1推薦薦系統(tǒng)概概述11.1.1什么是推推薦系統(tǒng)統(tǒng)11.1.2長尾理論論11.1.3推薦方法法11.1.4推薦系統(tǒng)統(tǒng)模型11.1.5推薦系統(tǒng)統(tǒng)的應用用11.1.1什什么是是推薦系系統(tǒng)互聯(lián)網(wǎng)的的飛速發(fā)發(fā)展使我我們進入入了信息息過載的的時代,搜索引引擎可以以幫助我我們查找找內(nèi)容,但只能能解決明明確的需需求為了讓用用戶從海海量信息息中高效效地獲得得自己所所需的信信息,推推薦系統(tǒng)統(tǒng)應運而而生。推推薦系統(tǒng)統(tǒng)是大數(shù)數(shù)據(jù)在互互聯(lián)網(wǎng)領(lǐng)領(lǐng)域的典典型應用用,它可可以通過過分析用用戶的歷歷史記錄錄來了解解用戶的的喜好,從而主主動為用用戶推薦薦其

3、感興興趣的信信息,滿滿足用戶戶的個性性化推薦薦需求“長尾”概念于于2004年提出,用來描描述以亞亞馬遜為為代表的的電子商商務網(wǎng)站站的商業(yè)業(yè)和經(jīng)濟濟模式電子商務務網(wǎng)站銷銷售種類類繁多,雖然絕絕大多數(shù)數(shù)商品都都不熱門門,但這這些不熱熱門的商商品總數(shù)數(shù)量極其其龐大,所累計計的總銷銷售額將將是一個個可觀的的數(shù)字,也許會會超過熱熱門商品品所帶來來的銷售售額因此,可可以通過過發(fā)掘長長尾商品品并推薦薦給感興興趣的用用戶來提提高銷售售額。這這需要通通過個性性化推薦薦來實現(xiàn)現(xiàn)11.1.2長長尾理理論熱門推薦薦是常用的的推薦方方式,廣泛應用用于各類網(wǎng)站站中,如熱門排行行榜。但熱門推薦薦的主要要缺陷在在于推薦薦的范

4、圍圍有限,所推薦薦的內(nèi)容容在一定定時期內(nèi)內(nèi)也相對對固定個性化推推薦可通通過推薦系統(tǒng)統(tǒng)來實現(xiàn)。推薦系系統(tǒng)通過發(fā)掘掘用戶的的行為記記錄,找找到用戶戶的個性性化需求求,發(fā)現(xiàn)現(xiàn)用戶潛潛在的消消費傾向向,從而而將長尾尾商品準準確地推推薦給需需要它的的用戶,進而提升升銷量,實現(xiàn)用戶戶與商家家的雙贏贏11.1.2長長尾理理論推薦系統(tǒng)統(tǒng)的本質(zhì)質(zhì)是建立立用戶與與物品的的聯(lián)系,根據(jù)推推薦算法法的不同同,推薦薦方法包包括如下下幾類:專家推薦薦:人工工推薦,由資深深的專業(yè)業(yè)人士來來進行物物品的篩篩選和推推薦,需需要較多多的人力力成本基于統(tǒng)計計的推薦薦:基于于統(tǒng)計信信息的推推薦(如如熱門推推薦),易于實實現(xiàn),但但對用戶

5、戶個性化化偏好的的描述能能力較弱弱基于內(nèi)容容的推薦薦:通過過機器學學習的方方法去描描述內(nèi)容容的特征征,并基基于內(nèi)容容的特征征來發(fā)現(xiàn)現(xiàn)與之相相似的內(nèi)內(nèi)容協(xié)同過濾濾推薦:應用最最早和最最為成功功的推薦方法法之一,利用與目標用戶戶相似的用戶已有的商品評價價信息,來預測測目標用用戶對特特定商品品的喜好好程度混合推薦薦:結(jié)合多種推薦薦算法來提升推推薦效果果11.1.3推推薦方方法一個完整整的推薦薦系統(tǒng)通通常包括括3個組成模模塊:用用戶建模模模塊、推薦對對象建模模模塊、推薦算算法模塊塊:用戶建模模模塊:對用戶進進行建模模,根據(jù)據(jù)用戶行行為數(shù)據(jù)據(jù)和用戶戶屬性數(shù)數(shù)據(jù)來分分析用戶戶的興趣趣和需求求推薦對象象建模

6、模模塊:根根據(jù)對象象數(shù)據(jù)對推薦對對象進行行建模推薦算法法模塊:基于用戶戶特征和和物品特特征,采采用推薦薦算法計計算得到到用戶可可能感興興趣的對對象,并根據(jù)推薦薦場景對對推薦結(jié)結(jié)果進行行一定調(diào)整,將將推薦結(jié)結(jié)果最終展示給用用戶11.1.4推推薦系系統(tǒng)模型型圖11-1推推薦系統(tǒng)統(tǒng)基本架架構(gòu)目前在推推薦系統(tǒng)統(tǒng)已廣泛泛應用于于電子商商務、在在線視頻頻、在線線音樂、社交網(wǎng)網(wǎng)絡等各各類網(wǎng)站站和應用用中如亞馬遜遜網(wǎng)站利利用用戶戶的瀏覽覽歷史記記錄來為為用戶推推薦商品品,推薦薦的主要要是用戶戶未瀏覽覽過,但但可能感感興趣、有潛在在購買可可能性的的商品11.1.5推推薦系系統(tǒng)的應應用圖11-2亞馬遜網(wǎng)網(wǎng)站根據(jù)據(jù)

7、用戶的的瀏覽記記錄來推推薦商品品推薦系統(tǒng)統(tǒng)在在線線音樂應應用中也也逐漸發(fā)發(fā)揮作用用。音樂樂相比于于電影數(shù)數(shù)量更為為龐大,個人口口味偏向向也更為為明顯,僅依靠靠熱門推推薦是遠遠遠不夠夠的蝦米音樂樂網(wǎng)根據(jù)據(jù)用戶的的音樂收收藏記錄錄來分析析用戶的的音樂偏偏好,以以進行推推薦。例例如,推推薦同一一風格的的歌曲,或是推推薦同一一歌手的的其他歌歌曲11.1.5推推薦系系統(tǒng)的應應用圖11-3蝦蝦米音樂樂網(wǎng)根據(jù)據(jù)用戶的的音樂收收藏來推推薦歌曲曲推薦技術(shù)術(shù)從被提提出到現(xiàn)現(xiàn)在已有有十余年年,在多多年的發(fā)發(fā)展歷程程中誕生生了很多多新的推推薦算法法。協(xié)同同過濾作作為最早早、最知知名的推推薦算法法,不僅僅在學術(shù)術(shù)界得到

8、到了深入入研究,而且至至今在業(yè)業(yè)界仍有有廣泛的的應用協(xié)同過濾濾可分為為基于用用戶的協(xié)協(xié)同過濾濾和基于于物品的的協(xié)同過過濾11.2.1基于用戶戶的協(xié)同同過濾(UserCF)11.2.2基于物品品的協(xié)同同過濾(ItemCF)11.2.3UserCF算法和ItemCF算法的對對比11.2 協(xié)同同過濾基于用戶戶的協(xié)同同過濾算算法(簡簡稱UserCF算法)在在1992年被提出出,是推薦系系統(tǒng)中最最古老的的算法UserCF算法符合合人們對對于“趣趣味相投投”的認認知,即即興趣相相似的用用戶往往往有相同同的物品品喜好:當目標用用戶需要要個性化化推薦時時,可以以先找到到和目標標用戶有有相似興興趣的用用戶群體體

9、,然后后將這個個用戶群群體喜歡歡的、而而目標用用戶沒有有聽說過過的物品品推薦給給目標用用戶UserCF算法的實實現(xiàn)主要要包括兩兩個步驟驟:第一步:找到和和目標用用戶興趣趣相似的的用戶集集合第二步:找到該該集合中中的用戶戶所喜歡歡的、且且目標用用戶沒有有聽說過過的物品品推薦給給目標用用戶11.2.1基基于用用戶的協(xié)協(xié)同過濾濾(UserCF)11.2.1基基于用用戶的協(xié)協(xié)同過濾濾(UserCF)圖11-4基于用戶戶的協(xié)同同過濾(User CF)實現(xiàn)UserCF算法的關(guān)關(guān)鍵步驟驟是計算算用戶與與用戶之之間的興興趣相似似度。目目前較多多使用的的相似度度算法有:泊松相關(guān)關(guān)系數(shù)(PersonCorrela

10、tionCoefficient)余弦相似似度(Cosine-basedSimilarity)調(diào)整余弦弦相似度度(AdjustedCosineSimilarity)給定用戶戶u和用戶v,令N(u)表示用戶戶u感興趣的的物品集集合,令令N(v)為用戶v感興趣的的物品集集合,則則使用余余弦相似似度進行行計算用用戶相似似度的公公式為:11.2.1基基于用用戶的協(xié)協(xié)同過濾濾(UserCF)由于很多多用戶相相互之間間并沒有有對同樣樣的物品品產(chǎn)生過過行為,因此其其相似度度公式的的分子為為0,相似度度也為0我們可以利用用物品到到用戶的的倒排表表(每個個物品所所對應的的、對該該物品感感興趣的的用戶列列表),僅對

11、有有對相同同物品產(chǎn)產(chǎn)生交互互行為的的用戶進進行計算算11.2.1基基于用用戶的協(xié)協(xié)同過濾濾(UserCF)圖11-5物品到用用戶倒排排表及用用戶相似似度矩陣陣得到用戶戶間的相相似度后后,再使使用如下下公式來來度量用用戶u對物品i的興趣程程度Pui:其中,S(u,K)是和用戶戶u興趣最接接近的K個用戶的的集合,N(i)是喜歡物物品i的用戶集集合,Wuv是用戶u和用戶v的相似度度,rvi是隱反饋饋信息,代表用用戶v對物品i的感興趣趣程度,為簡化化計算可可令rvi=1對所有物物品計算算Pui后,可以以對Pui進行降序處理理,取前前N個物品作作為推薦薦結(jié)果展展示給用用戶u(稱為Top-N推薦)11.2

12、.1基基于用用戶的協(xié)協(xié)同過濾濾(UserCF)基于物品品的協(xié)同同過濾算算法(簡簡稱ItemCF算法)是是目前業(yè)業(yè)界應用用最多的的算法。無論是是亞馬遜遜還是Netflix,其推薦薦系統(tǒng)的的基礎(chǔ)都都是ItemCF算法ItemCF算法是給給目標用用戶推薦薦那些和和他們之之前喜歡歡的物品品相似的的物品。ItemCF算法主要要通過分分析用戶戶的行為為記錄來來計算物物品之間間的相似似度該算法基基于的假假設是:物品A和物品B具有很大大的相似似度是因因為喜歡歡物品A的用戶大大多也喜喜歡物品品B。例如,該算法法會因為為你購買買過數(shù)數(shù)據(jù)挖掘掘?qū)д摱o你你推薦機器學學習實戰(zhàn)戰(zhàn),因因為買過過數(shù)據(jù)據(jù)挖掘?qū)д摰牡挠脩舳?/p>

13、多數(shù)也購購買了機器學學習實戰(zhàn)戰(zhàn)11.2.2基基于物物品的協(xié)協(xié)同過濾濾(ItemCF)11.2.2基基于物物品的協(xié)協(xié)同過濾濾(ItemCF)圖11-6基于物品品的協(xié)同同過濾(Item CF)ItemCF算法與UserCF算法類似似,計算也分為兩兩步:第一步:計算物物品之間間的相似似度;第二步:根據(jù)物物品的相相似度和和用戶的的歷史行行為,給給用戶生生成推薦薦列表。ItemCF計算的是是物品相似似度,再再使用如如下公式式來度量量用戶u對物品j的興趣程程度Puj(與UserCF類似):11.2.2基基于物物品的協(xié)協(xié)同過濾濾(ItemCF)ItemCF算法通過過建立用用戶到物物品倒排排表(每每個用戶戶喜

14、歡的的物品的的列表)來計算算物品相似似度11.2.2基基于物物品的協(xié)協(xié)同過濾濾(ItemCF)圖11-7用戶戶到物品品倒排表表及物品品相似度度矩陣UserCF算法和ItemCF算法的思思想、計算過過程都相相似兩者最主要的的區(qū)別:UserCF算法推薦薦的是那那些和目目標用戶戶有共同同興趣愛愛好的其其他用戶戶所喜歡歡的物品品ItemCF算法推薦薦的是那些和目目標用戶戶之前喜喜歡的物物品類似似的其他他物品UserCF算法的推推薦更偏偏向社會會化,而而ItemCF算法的推推薦更偏偏向于個個性化11.2.3UserCF算法和和ItemCF算法的的對比UserCF算法的推推薦更偏偏向社會會化:適合應用用于

15、新聞聞推薦、微博話話題推薦薦等應用用場景,其推薦薦結(jié)果在在新穎性性方面有有一定的的優(yōu)勢UserCF缺點:隨著用戶戶數(shù)目的的增大,用戶相相似度計算復雜雜度越來來越高。而且UserCF推薦結(jié)果果相關(guān)性性較弱,難以對推薦結(jié)果果作出解解釋,容易受大大眾影響響而推薦薦熱門物物品ItemCF算法的推推薦更偏偏向于個個性化:適合應應用于電子商務務、電影影、圖書書等應用用場景,可以利利用用戶戶的歷史史行為給給推薦結(jié)結(jié)果作出出解釋,讓用戶戶更為信信服推薦薦的效果果ItemCF缺點:傾向于推推薦與用用戶已購購買商品品相似的的商品,往往會會出現(xiàn)多多樣性不不足、推推薦新穎穎度較低低的問題題11.2.3UserCF算法

16、和和ItemCF算法的的對比11.3協(xié)同同過濾實實踐11.3.1實踐背景景11.3.2數(shù)據(jù)處理理11.3.3計算相似似度矩陣陣11.3.4計算推薦薦結(jié)果11.3.5展示推薦薦結(jié)果我們選擇擇以MovieLens公開數(shù)據(jù)據(jù)集作為實驗驗數(shù)據(jù),采用ItemCF算法,使使用Python語言來實實現(xiàn)一個個簡易的的電影推推薦系統(tǒng)統(tǒng)具體采用用的MovieLens100k數(shù)據(jù)集包包括了1000名用戶對對1700部電影的的評分記記錄,每每個用戶戶都至少少對20部電影進進行過評評分,一一共有100000條電影評評分記錄錄基于這個個數(shù)據(jù)集集,我們們解決的的是一個個評分預預測問題題,即如如何通過過已知的的用戶評評分記錄

17、錄來預測測未知的的用戶評評分對于用戶戶未進行行評分的的電影,我們希希望能夠夠預測出出一個評評分,而而這個評評分反過過來也可可以用于于猜測用用戶是否否會喜歡歡這部電電影,從從而決定定是否給給用戶推推薦該電電影11.3.1實實踐背背景用戶對電電影評分分的數(shù)據(jù)格式式如下,包含了用戶ID、電影ID、評分、評分時時間戳通過評分分數(shù)據(jù),我們便便可以采采用如余余弦相似似度來計計算用戶戶之間的的相似度度11.3.2實實踐數(shù)數(shù)據(jù)圖11-8用用戶對電電影的評評分數(shù)據(jù)據(jù)具體實現(xiàn)現(xiàn)流程如如下(具具體代碼碼見教材材):預處理:讀取數(shù)數(shù)據(jù),提提取評分分計算相似似度:使使用余弦弦相似度度計算電電影間的的相似度度計算推薦薦結(jié)

18、果:針對目目標用戶戶,對該該用戶未未評分的的電影計計算預測測評分展示推薦薦結(jié)果:對計算算的評分分進行降降序排序序,取Top-N個結(jié)果,作為最最終的推推薦結(jié)果果11.3.3實實踐流流程例如我們們對用戶戶ID為1的用戶,取10個推薦結(jié)結(jié)果如下下:11.3.3實實踐流流程圖11-10推推薦結(jié)結(jié)果本章小結(jié)結(jié)本章內(nèi)容容首先介介紹了推推薦系統(tǒng)統(tǒng)的概念念,推薦薦系統(tǒng)可可幫助用用戶從海海量信息息中高效效地獲得得自己所所需的信信息接著介紹紹了不同同的推薦薦方法以以及推薦薦系統(tǒng)在在電子商商務、在在線音樂樂等網(wǎng)站站中的具具體應用用本章重點點介紹了了協(xié)同過過濾算法法,協(xié)同同過濾算算法是最最早推出出的推薦薦算法,至今仍

19、仍獲得廣廣泛的應應用,協(xié)協(xié)同過濾濾包括基基于用戶戶的協(xié)同同過濾算算法(UserCF)和基于于物品的的協(xié)同過過濾算法法(ItemCF)。這兩兩種協(xié)同同過濾算算法思想想相近,核心是是計算用用戶、物物品的相相似度,依據(jù)相相似度來來做出推推薦。然然而,這這兩種協(xié)協(xié)同過濾濾算法各各自適合合的應用用場景不不同,UserCF適合社交交化應用用,可作作出新穎穎的推薦薦,而ItemCF則適合用用于電子子商務、電影等等應用。在具體體實踐中中,常常常結(jié)合多多種推薦薦算法來來提升推推薦效果果本章最后后通過一一個具體體的實例例,介紹紹了如何何使用Python語言實現(xiàn)現(xiàn)一個簡簡易的電電影推薦薦系統(tǒng),深化對對推薦系系統(tǒng)的認

20、認識附錄:主主講教師師主講教師師:林子子雨林子雨,男,1978年出生,博士(畢業(yè)于于北京大大學),現(xiàn)為廈廈門大學學計算機機科學系系助理教教授(講講師),曾任廈廈門大學學信息科科學與技技術(shù)學院院院長助助理、晉晉江市發(fā)發(fā)展和改改革局副副局長。中國高高校首個個“數(shù)字字教師”提出者者和建設設者,廈廈門大學學數(shù)據(jù)庫庫實驗室室負責人人,廈門門大學云云計算與與大數(shù)據(jù)據(jù)研究中中心主要要建設者者和骨干干成員,2013年度廈門門大學獎獎教金獲獲得者。主要研研究方向向為數(shù)據(jù)據(jù)庫、數(shù)數(shù)據(jù)倉庫庫、數(shù)據(jù)據(jù)挖掘、大數(shù)據(jù)據(jù)、云計計算和物物聯(lián)網(wǎng),編著出出版中國國高校第第一本系系統(tǒng)介紹紹大數(shù)據(jù)據(jù)知識的的專業(yè)教教材大數(shù)據(jù)技技術(shù)原理理與應用用并成為暢暢銷書籍籍,編著著并免費費網(wǎng)絡發(fā)發(fā)布40余萬字中中國高校校第一本本閃存數(shù)數(shù)據(jù)庫研研究專著著閃存數(shù)據(jù)據(jù)庫概念念與技術(shù)術(shù);主講廈廈門大學學計算機機系本科科生課程程數(shù)據(jù)庫系系統(tǒng)原理理和研究生生課程分布式數(shù)數(shù)據(jù)庫大數(shù)據(jù)技技術(shù)基礎(chǔ)礎(chǔ)。具有豐豐富的政政府和企企業(yè)信息息化培訓訓經(jīng)驗,曾先后后給中國國移動通通信集團團公司、福州馬馬尾區(qū)政政府、福福建省物物聯(lián)網(wǎng)科科學研究究院、石石獅市物物流協(xié)會會、廈門門市物流流協(xié)會、福建龍龍巖卷煙煙

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論