大數(shù)據(jù)技術(shù)原理與應(yīng)用大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用課件_第1頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用課件_第2頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用課件_第3頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用課件_第4頁
大數(shù)據(jù)技術(shù)原理與應(yīng)用大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用課件_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

廈門大學(xué)計(jì)算機(jī)科學(xué)系2016年版

第11章大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用

(PPT版本號(hào):2016年1月29日版本)

《大數(shù)據(jù)技術(shù)原理與應(yīng)用》/post/bigdata溫馨提示:編輯幻燈片母版,可以修改每頁P(yáng)PT的廈大校徽和底部文字廈門大學(xué)計(jì)算機(jī)科學(xué)系提綱11.1推薦系統(tǒng)概述11.2推薦算法–協(xié)同過濾11.3協(xié)同過濾實(shí)踐–電影推薦系統(tǒng)歡迎訪問《大數(shù)據(jù)技術(shù)原理與應(yīng)用》教材官方網(wǎng)站:/post/bigdata本PPT是如下教材的配套講義:21世紀(jì)高等教育計(jì)算機(jī)規(guī)劃教材《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲(chǔ)、處理、分析與應(yīng)用》(2015年6月第1版)廈門大學(xué)林子雨編著,人民郵電出版社ISBN:978-7-115-39287-9提綱11.1推薦系統(tǒng)概述歡迎訪問《大數(shù)據(jù)技術(shù)原理與應(yīng)用》11.1 推薦系統(tǒng)概述11.1.1 什么是推薦系統(tǒng)11.1.2 長尾理論11.1.3 推薦方法11.1.4 推薦系統(tǒng)模型11.1.5 推薦系統(tǒng)的應(yīng)用11.1 推薦系統(tǒng)概述11.1.1 什么是推薦系統(tǒng)11.1.1什么是推薦系統(tǒng)互聯(lián)網(wǎng)的飛速發(fā)展使我們進(jìn)入了信息過載的時(shí)代,搜索引擎可以幫助我們查找內(nèi)容,但只能解決明確的需求為了讓用戶從海量信息中高效地獲得自己所需的信息,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用,它可以通過分析用戶的歷史記錄來了解用戶的喜好,從而主動(dòng)為用戶推薦其感興趣的信息,滿足用戶的個(gè)性化推薦需求11.1.1什么是推薦系統(tǒng)互聯(lián)網(wǎng)的飛速發(fā)展使我們進(jìn)入了信息“長尾”概念于2004年提出,用來描述以亞馬遜為代表的電子商務(wù)網(wǎng)站的商業(yè)和經(jīng)濟(jì)模式電子商務(wù)網(wǎng)站銷售種類繁多,雖然絕大多數(shù)商品都不熱門,但這些不熱門的商品總數(shù)量極其龐大,所累計(jì)的總銷售額將是一個(gè)可觀的數(shù)字,也許會(huì)超過熱門商品所帶來的銷售額因此,可以通過發(fā)掘長尾商品并推薦給感興趣的用戶來提高銷售額。這需要通過個(gè)性化推薦來實(shí)現(xiàn)11.1.2長尾理論“長尾”概念于2004年提出,用來描述以亞馬遜為代表的電子商熱門推薦是常用的推薦方式,廣泛應(yīng)用于各類網(wǎng)站中,如熱門排行榜。但熱門推薦的主要缺陷在于推薦的范圍有限,所推薦的內(nèi)容在一定時(shí)期內(nèi)也相對(duì)固定個(gè)性化推薦可通過推薦系統(tǒng)來實(shí)現(xiàn)。推薦系統(tǒng)通過發(fā)掘用戶的行為記錄,找到用戶的個(gè)性化需求,發(fā)現(xiàn)用戶潛在的消費(fèi)傾向,從而將長尾商品準(zhǔn)確地推薦給需要它的用戶,進(jìn)而提升銷量,實(shí)現(xiàn)用戶與商家的雙贏11.1.2長尾理論熱門推薦是常用的推薦方式,廣泛應(yīng)用于各類網(wǎng)站中,如熱門排行榜推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系,根據(jù)推薦算法的不同,推薦方法包括如下幾類:專家推薦:人工推薦,由資深的專業(yè)人士來進(jìn)行物品的篩選和推薦,需要較多的人力成本基于統(tǒng)計(jì)的推薦:基于統(tǒng)計(jì)信息的推薦(如熱門推薦),易于實(shí)現(xiàn),但對(duì)用戶個(gè)性化偏好的描述能力較弱基于內(nèi)容的推薦:通過機(jī)器學(xué)習(xí)的方法去描述內(nèi)容的特征,并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容協(xié)同過濾推薦:應(yīng)用最早和最為成功的推薦方法之一,利用與目標(biāo)用戶相似的用戶已有的商品評(píng)價(jià)信息,來預(yù)測目標(biāo)用戶對(duì)特定商品的喜好程度混合推薦:結(jié)合多種推薦算法來提升推薦效果11.1.3推薦方法推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系,根據(jù)推薦算法的不同,推一個(gè)完整的推薦系統(tǒng)通常包括3個(gè)組成模塊:用戶建模模塊、推薦對(duì)象建模模塊、推薦算法模塊:用戶建模模塊:對(duì)用戶進(jìn)行建模,根據(jù)用戶行為數(shù)據(jù)和用戶屬性數(shù)據(jù)來分析用戶的興趣和需求推薦對(duì)象建模模塊:根據(jù)對(duì)象數(shù)據(jù)對(duì)推薦對(duì)象進(jìn)行建模推薦算法模塊:基于用戶特征和物品特征,采用推薦算法計(jì)算得到用戶可能感興趣的對(duì)象,并根據(jù)推薦場景對(duì)推薦結(jié)果進(jìn)行一定調(diào)整,將推薦結(jié)果最終展示給用戶11.1.4推薦系統(tǒng)模型圖11-1推薦系統(tǒng)基本架構(gòu)一個(gè)完整的推薦系統(tǒng)通常包括3個(gè)組成模塊:用戶建模模塊、推薦對(duì)目前在推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、在線視頻、在線音樂、社交網(wǎng)絡(luò)等各類網(wǎng)站和應(yīng)用中如亞馬遜網(wǎng)站利用用戶的瀏覽歷史記錄來為用戶推薦商品,推薦的主要是用戶未瀏覽過,但可能感興趣、有潛在購買可能性的商品11.1.5推薦系統(tǒng)的應(yīng)用圖11-2亞馬遜網(wǎng)站根據(jù)用戶的瀏覽記錄來推薦商品目前在推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、在線視頻、在線音樂、社交推薦系統(tǒng)在在線音樂應(yīng)用中也逐漸發(fā)揮作用。音樂相比于電影數(shù)量更為龐大,個(gè)人口味偏向也更為明顯,僅依靠熱門推薦是遠(yuǎn)遠(yuǎn)不夠的蝦米音樂網(wǎng)根據(jù)用戶的音樂收藏記錄來分析用戶的音樂偏好,以進(jìn)行推薦。例如,推薦同一風(fēng)格的歌曲,或是推薦同一歌手的其他歌曲11.1.5推薦系統(tǒng)的應(yīng)用圖11-3蝦米音樂網(wǎng)根據(jù)用戶的音樂收藏來推薦歌曲推薦系統(tǒng)在在線音樂應(yīng)用中也逐漸發(fā)揮作用。音樂相比于電影數(shù)量更推薦技術(shù)從被提出到現(xiàn)在已有十余年,在多年的發(fā)展歷程中誕生了很多新的推薦算法。協(xié)同過濾作為最早、最知名的推薦算法,不僅在學(xué)術(shù)界得到了深入研究,而且至今在業(yè)界仍有廣泛的應(yīng)用協(xié)同過濾可分為基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾11.2.1 基于用戶的協(xié)同過濾(UserCF)11.2.2 基于物品的協(xié)同過濾(ItemCF)11.2.3 UserCF算法和ItemCF算法的對(duì)比11.2協(xié)同過濾推薦技術(shù)從被提出到現(xiàn)在已有十余年,在多年的發(fā)展歷程中誕生了很基于用戶的協(xié)同過濾算法(簡稱UserCF算法)在1992年被提出,是推薦系統(tǒng)中最古老的算法UserCF算法符合人們對(duì)于“趣味相投”的認(rèn)知,即興趣相似的用戶往往有相同的物品喜好:當(dāng)目標(biāo)用戶需要個(gè)性化推薦時(shí),可以先找到和目標(biāo)用戶有相似興趣的用戶群體,然后將這個(gè)用戶群體喜歡的、而目標(biāo)用戶沒有聽說過的物品推薦給目標(biāo)用戶UserCF算法的實(shí)現(xiàn)主要包括兩個(gè)步驟:第一步:找到和目標(biāo)用戶興趣相似的用戶集合第二步:找到該集合中的用戶所喜歡的、且目標(biāo)用戶沒有聽說過的物品推薦給目標(biāo)用戶11.2.1基于用戶的協(xié)同過濾(UserCF)基于用戶的協(xié)同過濾算法(簡稱UserCF算法)在1992年被11.2.1基于用戶的協(xié)同過濾(UserCF)圖11-4基于用戶的協(xié)同過濾(UserCF)11.2.1基于用戶的協(xié)同過濾(UserCF)圖11-4實(shí)現(xiàn)UserCF算法的關(guān)鍵步驟是計(jì)算用戶與用戶之間的興趣相似度。目前較多使用的相似度算法有:泊松相關(guān)系數(shù)(PersonCorrelationCoefficient)余弦相似度(Cosine-basedSimilarity)調(diào)整余弦相似度(AdjustedCosineSimilarity)給定用戶u和用戶v,令N(u)表示用戶u感興趣的物品集合,令N(v)為用戶v感興趣的物品集合,則使用余弦相似度進(jìn)行計(jì)算用戶相似度的公式為:11.2.1基于用戶的協(xié)同過濾(UserCF)實(shí)現(xiàn)UserCF算法的關(guān)鍵步驟是計(jì)算用戶與用戶之間的興趣相似由于很多用戶相互之間并沒有對(duì)同樣的物品產(chǎn)生過行為,因此其相似度公式的分子為0,相似度也為0我們可以利用物品到用戶的倒排表(每個(gè)物品所對(duì)應(yīng)的、對(duì)該物品感興趣的用戶列表),僅對(duì)有對(duì)相同物品產(chǎn)生交互行為的用戶進(jìn)行計(jì)算11.2.1基于用戶的協(xié)同過濾(UserCF)圖11-5物品到用戶倒排表及用戶相似度矩陣由于很多用戶相互之間并沒有對(duì)同樣的物品產(chǎn)生過行為,因此其相似得到用戶間的相似度后,再使用如下公式來度量用戶u對(duì)物品i的興趣程度Pui:其中,S(u,K)是和用戶u興趣最接近的K個(gè)用戶的集合,N(i)是喜歡物品i的用戶集合,Wuv是用戶u和用戶v的相似度,rvi是隱反饋信息,代表用戶v對(duì)物品i的感興趣程度,為簡化計(jì)算可令rvi=1對(duì)所有物品計(jì)算Pui后,可以對(duì)Pui進(jìn)行降序處理,取前N個(gè)物品作為推薦結(jié)果展示給用戶u(稱為Top-N推薦)11.2.1基于用戶的協(xié)同過濾(UserCF)得到用戶間的相似度后,再使用如下公式來度量用戶u對(duì)物品i的興基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用最多的算法。無論是亞馬遜還是Netflix,其推薦系統(tǒng)的基礎(chǔ)都是ItemCF算法ItemCF算法是給目標(biāo)用戶推薦那些和他們之前喜歡的物品相似的物品。ItemCF算法主要通過分析用戶的行為記錄來計(jì)算物品之間的相似度該算法基于的假設(shè)是:物品A和物品B具有很大的相似度是因?yàn)橄矚g物品A的用戶大多也喜歡物品B。例如,該算法會(huì)因?yàn)槟阗徺I過《數(shù)據(jù)挖掘?qū)д摗范o你推薦《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》,因?yàn)橘I過《數(shù)據(jù)挖掘?qū)д摗返挠脩舳鄶?shù)也購買了《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》11.2.2基于物品的協(xié)同過濾(ItemCF)基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用11.2.2基于物品的協(xié)同過濾(ItemCF)圖11-6基于物品的協(xié)同過濾(ItemCF)11.2.2基于物品的協(xié)同過濾(ItemCF)圖11-6ItemCF算法與UserCF算法類似,計(jì)算也分為兩步:第一步:計(jì)算物品之間的相似度;第二步:根據(jù)物品的相似度和用戶的歷史行為,給用戶生成推薦列表。ItemCF計(jì)算的是物品相似度,再使用如下公式來度量用戶u對(duì)物品j的興趣程度Puj(與UserCF類似):11.2.2基于物品的協(xié)同過濾(ItemCF)ItemCF算法與UserCF算法類似,計(jì)算也分為兩步:11ItemCF算法通過建立用戶到物品倒排表(每個(gè)用戶喜歡的物品的列表)來計(jì)算物品相似度11.2.2基于物品的協(xié)同過濾(ItemCF)圖11-7用戶到物品倒排表及物品相似度矩陣ItemCF算法通過建立用戶到物品倒排表(每個(gè)用戶喜歡的物品UserCF算法和ItemCF算法的思想、計(jì)算過程都相似兩者最主要的區(qū)別:UserCF算法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品ItemCF算法推薦的是那些和目標(biāo)用戶之前喜歡的物品類似的其他物品UserCF算法的推薦更偏向社會(huì)化,而ItemCF算法的推薦更偏向于個(gè)性化11.2.3UserCF算法和ItemCF算法的對(duì)比UserCF算法和ItemCF算法的思想、計(jì)算過程都相似11UserCF算法的推薦更偏向社會(huì)化:適合應(yīng)用于新聞推薦、微博話題推薦等應(yīng)用場景,其推薦結(jié)果在新穎性方面有一定的優(yōu)勢(shì)UserCF缺點(diǎn):隨著用戶數(shù)目的增大,用戶相似度計(jì)算復(fù)雜度越來越高。而且UserCF推薦結(jié)果相關(guān)性較弱,難以對(duì)推薦結(jié)果作出解釋,容易受大眾影響而推薦熱門物品ItemCF算法的推薦更偏向于個(gè)性化:適合應(yīng)用于電子商務(wù)、電影、圖書等應(yīng)用場景,可以利用用戶的歷史行為給推薦結(jié)果作出解釋,讓用戶更為信服推薦的效果ItemCF缺點(diǎn):傾向于推薦與用戶已購買商品相似的商品,往往會(huì)出現(xiàn)多樣性不足、推薦新穎度較低的問題11.2.3UserCF算法和ItemCF算法的對(duì)比UserCF算法的推薦更偏向社會(huì)化:適合應(yīng)用于新聞推薦、微博11.3 協(xié)同過濾實(shí)踐11.3.1 實(shí)踐背景11.3.2 數(shù)據(jù)處理11.3.3 計(jì)算相似度矩陣11.3.4 計(jì)算推薦結(jié)果11.3.5 展示推薦結(jié)果11.3 協(xié)同過濾實(shí)踐11.3.1 實(shí)踐背景我們選擇以MovieLens公開數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),采用ItemCF算法,使用Python語言來實(shí)現(xiàn)一個(gè)簡易的電影推薦系統(tǒng)具體采用的MovieLens100k數(shù)據(jù)集包括了1000名用戶對(duì)1700部電影的評(píng)分記錄,每個(gè)用戶都至少對(duì)20部電影進(jìn)行過評(píng)分,一共有100000條電影評(píng)分記錄基于這個(gè)數(shù)據(jù)集,我們解決的是一個(gè)評(píng)分預(yù)測問題,即如何通過已知的用戶評(píng)分記錄來預(yù)測未知的用戶評(píng)分對(duì)于用戶未進(jìn)行評(píng)分的電影,我們希望能夠預(yù)測出一個(gè)評(píng)分,而這個(gè)評(píng)分反過來也可以用于猜測用戶是否會(huì)喜歡這部電影,從而決定是否給用戶推薦該電影11.3.1實(shí)踐背景我們選擇以MovieLens公開數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),采用It用戶對(duì)電影評(píng)分的數(shù)據(jù)格式如下,包含了用戶ID、電影ID、評(píng)分、評(píng)分時(shí)間戳通過評(píng)分?jǐn)?shù)據(jù),我們便可以采用如余弦相似度來計(jì)算用戶之間的相似度11.3.2實(shí)踐數(shù)據(jù)圖11-8用戶對(duì)電影的評(píng)分?jǐn)?shù)據(jù)用戶對(duì)電影評(píng)分的數(shù)據(jù)格式如下,包含了用戶ID、電影ID、評(píng)分具體實(shí)現(xiàn)流程如下(具體代碼見教材):預(yù)處理:讀取數(shù)據(jù),提取評(píng)分計(jì)算相似度:使用余弦相似度計(jì)算電影間的相似度計(jì)算推薦結(jié)果:針對(duì)目標(biāo)用戶,對(duì)該用戶未評(píng)分的電影計(jì)算預(yù)測評(píng)分展示推薦結(jié)果:對(duì)計(jì)算的評(píng)分進(jìn)行降序排序,取Top-N個(gè)結(jié)果,作為最終的推薦結(jié)果11.3.3實(shí)踐流程具體實(shí)現(xiàn)流程如下(具體代碼見教材):11.3.3實(shí)踐流程例如我們對(duì)用戶ID為1的用戶,取10個(gè)推薦結(jié)果如下:11.3.3實(shí)踐流程圖11-10推薦結(jié)果例如我們對(duì)用戶ID為1的用戶,取10個(gè)推薦結(jié)果如下:11.3本章小結(jié)本章內(nèi)容首先介紹了推薦系統(tǒng)的概念,推薦系統(tǒng)可幫助用戶從海量信息中高效地獲得自己所需的信息接著介紹了不同的推薦方法以及推薦系統(tǒng)在電子商務(wù)、在線音樂等網(wǎng)站中的具體應(yīng)用本章重點(diǎn)介紹了協(xié)同過濾算法,協(xié)同過濾算法是最早推出的推薦算法,至今仍獲得廣泛的應(yīng)用,協(xié)同過濾包括基于用戶的協(xié)同過濾算法(UserCF)和基于物品的協(xié)同過濾算法(ItemCF)。這兩種協(xié)同過濾算法思想相近,核心是計(jì)算用戶、物品的相似度,依據(jù)相似度來做出推薦。然而,這兩種協(xié)同過濾算法各自適合的應(yīng)用場景不同,UserCF適合社交化應(yīng)用,可作出新穎的推薦,而ItemCF則適合用于電子商務(wù)、電影等應(yīng)用。在具體實(shí)踐中,常常結(jié)合多種推薦算法來提升推薦效果本章最后通過一個(gè)具體的實(shí)例,介紹了如何使用Python語言實(shí)現(xiàn)一個(gè)簡易的電影推薦系統(tǒng),深化對(duì)推薦系統(tǒng)的認(rèn)識(shí)本章小結(jié)本章內(nèi)容首先介紹了推薦系統(tǒng)的概念,推薦系統(tǒng)可幫助用戶附錄:主講教師主講教師:林子雨林子雨,男,1978年出生,博士(畢業(yè)于北京大學(xué)),現(xiàn)為廈門大學(xué)計(jì)算機(jī)科學(xué)系助理教授(講師),曾任廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院院長助理、晉江市發(fā)展和改革局副局長。中國高校首個(gè)“數(shù)字教師”提出者和建設(shè)者,廈門大學(xué)數(shù)據(jù)庫實(shí)驗(yàn)室負(fù)責(zé)人,廈門大學(xué)云計(jì)算與大數(shù)據(jù)研究中心主要建設(shè)者和骨干成員,2013年度廈門大學(xué)獎(jiǎng)教金獲得者。主要研究方向?yàn)閿?shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng),編著出版中國高校第一本系統(tǒng)介紹大數(shù)據(jù)知識(shí)的專業(yè)教材《大數(shù)據(jù)技術(shù)原理與應(yīng)用》并成為暢銷書籍,編著并免費(fèi)網(wǎng)絡(luò)發(fā)布40余萬字中國高校第一本閃存數(shù)據(jù)庫研究專著《閃存數(shù)據(jù)庫概念與技術(shù)》;主講廈門大學(xué)計(jì)算機(jī)系本科生課程《數(shù)據(jù)庫系統(tǒng)原理》和研究生課程《分布式數(shù)據(jù)庫》《大數(shù)據(jù)技術(shù)基礎(chǔ)》。具有豐富的政府和企業(yè)信息化培訓(xùn)經(jīng)驗(yàn),曾先后給中國移動(dòng)通信集團(tuán)公司、福州馬尾區(qū)政府、福建省物聯(lián)網(wǎng)科學(xué)研究院、石獅市物流協(xié)會(huì)、廈門市物流協(xié)會(huì)、福建龍巖卷煙廠等多家單位和企業(yè)開展信息化培訓(xùn),累計(jì)培訓(xùn)人數(shù)達(dá)2000人以上。掃一掃訪問個(gè)人主頁附錄:主講教師主講教師:林子雨林子雨,男,1978年出生,博附錄:大數(shù)據(jù)學(xué)習(xí)教材推薦歡迎訪問《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲(chǔ)、處理、分析與應(yīng)用》教材官方網(wǎng)站:/post/bigdata掃一掃訪問教材官網(wǎng)《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲(chǔ)、處理、分析與應(yīng)用》,由廈門大學(xué)計(jì)算機(jī)科學(xué)系林子雨博士編著,是中國高校第一本系統(tǒng)介紹大數(shù)據(jù)知識(shí)的專業(yè)教材。全書共有13章,系統(tǒng)地論述了大數(shù)據(jù)的基本概念、大數(shù)據(jù)處理架構(gòu)Hadoop、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫、分布式并行編程模型MapReduce、流計(jì)算、圖計(jì)算、數(shù)據(jù)可視化以及大數(shù)據(jù)在互聯(lián)網(wǎng)、生物醫(yī)學(xué)和物流等各個(gè)領(lǐng)域的應(yīng)用。在Hadoop、HDFS、HBase和MapReduce等重要章節(jié),安排了入門級(jí)的實(shí)踐操作,讓讀者更好地學(xué)習(xí)和掌握大數(shù)據(jù)關(guān)鍵技術(shù)。本書可以作為高等院校計(jì)算機(jī)專業(yè)、信息管理等相關(guān)專業(yè)的大數(shù)據(jù)課程教材,也可供相關(guān)技術(shù)人員參考、學(xué)習(xí)、培訓(xùn)之用。附錄:大數(shù)據(jù)學(xué)習(xí)教材推薦歡迎訪問《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概附錄:中國高校大數(shù)據(jù)課程公共服務(wù)平臺(tái)掃一掃訪問平臺(tái)主頁/post/bigdata-teaching-platform/掃一掃觀看3分鐘FLASH動(dòng)畫宣傳片附錄:中國高校大數(shù)據(jù)課程公共服務(wù)平臺(tái)掃一掃訪問平臺(tái)主頁httDepartmentofComputerScience,XiamenUniversity,2016DepartmentofComputerScience廈門大學(xué)計(jì)算機(jī)科學(xué)系2016年版

第11章大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用

(PPT版本號(hào):2016年1月29日版本)

《大數(shù)據(jù)技術(shù)原理與應(yīng)用》/post/bigdata溫馨提示:編輯幻燈片母版,可以修改每頁P(yáng)PT的廈大?;蘸偷撞课淖謴B門大學(xué)計(jì)算機(jī)科學(xué)系提綱11.1推薦系統(tǒng)概述11.2推薦算法–協(xié)同過濾11.3協(xié)同過濾實(shí)踐–電影推薦系統(tǒng)歡迎訪問《大數(shù)據(jù)技術(shù)原理與應(yīng)用》教材官方網(wǎng)站:/post/bigdata本PPT是如下教材的配套講義:21世紀(jì)高等教育計(jì)算機(jī)規(guī)劃教材《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲(chǔ)、處理、分析與應(yīng)用》(2015年6月第1版)廈門大學(xué)林子雨編著,人民郵電出版社ISBN:978-7-115-39287-9提綱11.1推薦系統(tǒng)概述歡迎訪問《大數(shù)據(jù)技術(shù)原理與應(yīng)用》11.1 推薦系統(tǒng)概述11.1.1 什么是推薦系統(tǒng)11.1.2 長尾理論11.1.3 推薦方法11.1.4 推薦系統(tǒng)模型11.1.5 推薦系統(tǒng)的應(yīng)用11.1 推薦系統(tǒng)概述11.1.1 什么是推薦系統(tǒng)11.1.1什么是推薦系統(tǒng)互聯(lián)網(wǎng)的飛速發(fā)展使我們進(jìn)入了信息過載的時(shí)代,搜索引擎可以幫助我們查找內(nèi)容,但只能解決明確的需求為了讓用戶從海量信息中高效地獲得自己所需的信息,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用,它可以通過分析用戶的歷史記錄來了解用戶的喜好,從而主動(dòng)為用戶推薦其感興趣的信息,滿足用戶的個(gè)性化推薦需求11.1.1什么是推薦系統(tǒng)互聯(lián)網(wǎng)的飛速發(fā)展使我們進(jìn)入了信息“長尾”概念于2004年提出,用來描述以亞馬遜為代表的電子商務(wù)網(wǎng)站的商業(yè)和經(jīng)濟(jì)模式電子商務(wù)網(wǎng)站銷售種類繁多,雖然絕大多數(shù)商品都不熱門,但這些不熱門的商品總數(shù)量極其龐大,所累計(jì)的總銷售額將是一個(gè)可觀的數(shù)字,也許會(huì)超過熱門商品所帶來的銷售額因此,可以通過發(fā)掘長尾商品并推薦給感興趣的用戶來提高銷售額。這需要通過個(gè)性化推薦來實(shí)現(xiàn)11.1.2長尾理論“長尾”概念于2004年提出,用來描述以亞馬遜為代表的電子商熱門推薦是常用的推薦方式,廣泛應(yīng)用于各類網(wǎng)站中,如熱門排行榜。但熱門推薦的主要缺陷在于推薦的范圍有限,所推薦的內(nèi)容在一定時(shí)期內(nèi)也相對(duì)固定個(gè)性化推薦可通過推薦系統(tǒng)來實(shí)現(xiàn)。推薦系統(tǒng)通過發(fā)掘用戶的行為記錄,找到用戶的個(gè)性化需求,發(fā)現(xiàn)用戶潛在的消費(fèi)傾向,從而將長尾商品準(zhǔn)確地推薦給需要它的用戶,進(jìn)而提升銷量,實(shí)現(xiàn)用戶與商家的雙贏11.1.2長尾理論熱門推薦是常用的推薦方式,廣泛應(yīng)用于各類網(wǎng)站中,如熱門排行榜推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系,根據(jù)推薦算法的不同,推薦方法包括如下幾類:專家推薦:人工推薦,由資深的專業(yè)人士來進(jìn)行物品的篩選和推薦,需要較多的人力成本基于統(tǒng)計(jì)的推薦:基于統(tǒng)計(jì)信息的推薦(如熱門推薦),易于實(shí)現(xiàn),但對(duì)用戶個(gè)性化偏好的描述能力較弱基于內(nèi)容的推薦:通過機(jī)器學(xué)習(xí)的方法去描述內(nèi)容的特征,并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容協(xié)同過濾推薦:應(yīng)用最早和最為成功的推薦方法之一,利用與目標(biāo)用戶相似的用戶已有的商品評(píng)價(jià)信息,來預(yù)測目標(biāo)用戶對(duì)特定商品的喜好程度混合推薦:結(jié)合多種推薦算法來提升推薦效果11.1.3推薦方法推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系,根據(jù)推薦算法的不同,推一個(gè)完整的推薦系統(tǒng)通常包括3個(gè)組成模塊:用戶建模模塊、推薦對(duì)象建模模塊、推薦算法模塊:用戶建模模塊:對(duì)用戶進(jìn)行建模,根據(jù)用戶行為數(shù)據(jù)和用戶屬性數(shù)據(jù)來分析用戶的興趣和需求推薦對(duì)象建模模塊:根據(jù)對(duì)象數(shù)據(jù)對(duì)推薦對(duì)象進(jìn)行建模推薦算法模塊:基于用戶特征和物品特征,采用推薦算法計(jì)算得到用戶可能感興趣的對(duì)象,并根據(jù)推薦場景對(duì)推薦結(jié)果進(jìn)行一定調(diào)整,將推薦結(jié)果最終展示給用戶11.1.4推薦系統(tǒng)模型圖11-1推薦系統(tǒng)基本架構(gòu)一個(gè)完整的推薦系統(tǒng)通常包括3個(gè)組成模塊:用戶建模模塊、推薦對(duì)目前在推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、在線視頻、在線音樂、社交網(wǎng)絡(luò)等各類網(wǎng)站和應(yīng)用中如亞馬遜網(wǎng)站利用用戶的瀏覽歷史記錄來為用戶推薦商品,推薦的主要是用戶未瀏覽過,但可能感興趣、有潛在購買可能性的商品11.1.5推薦系統(tǒng)的應(yīng)用圖11-2亞馬遜網(wǎng)站根據(jù)用戶的瀏覽記錄來推薦商品目前在推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、在線視頻、在線音樂、社交推薦系統(tǒng)在在線音樂應(yīng)用中也逐漸發(fā)揮作用。音樂相比于電影數(shù)量更為龐大,個(gè)人口味偏向也更為明顯,僅依靠熱門推薦是遠(yuǎn)遠(yuǎn)不夠的蝦米音樂網(wǎng)根據(jù)用戶的音樂收藏記錄來分析用戶的音樂偏好,以進(jìn)行推薦。例如,推薦同一風(fēng)格的歌曲,或是推薦同一歌手的其他歌曲11.1.5推薦系統(tǒng)的應(yīng)用圖11-3蝦米音樂網(wǎng)根據(jù)用戶的音樂收藏來推薦歌曲推薦系統(tǒng)在在線音樂應(yīng)用中也逐漸發(fā)揮作用。音樂相比于電影數(shù)量更推薦技術(shù)從被提出到現(xiàn)在已有十余年,在多年的發(fā)展歷程中誕生了很多新的推薦算法。協(xié)同過濾作為最早、最知名的推薦算法,不僅在學(xué)術(shù)界得到了深入研究,而且至今在業(yè)界仍有廣泛的應(yīng)用協(xié)同過濾可分為基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾11.2.1 基于用戶的協(xié)同過濾(UserCF)11.2.2 基于物品的協(xié)同過濾(ItemCF)11.2.3 UserCF算法和ItemCF算法的對(duì)比11.2協(xié)同過濾推薦技術(shù)從被提出到現(xiàn)在已有十余年,在多年的發(fā)展歷程中誕生了很基于用戶的協(xié)同過濾算法(簡稱UserCF算法)在1992年被提出,是推薦系統(tǒng)中最古老的算法UserCF算法符合人們對(duì)于“趣味相投”的認(rèn)知,即興趣相似的用戶往往有相同的物品喜好:當(dāng)目標(biāo)用戶需要個(gè)性化推薦時(shí),可以先找到和目標(biāo)用戶有相似興趣的用戶群體,然后將這個(gè)用戶群體喜歡的、而目標(biāo)用戶沒有聽說過的物品推薦給目標(biāo)用戶UserCF算法的實(shí)現(xiàn)主要包括兩個(gè)步驟:第一步:找到和目標(biāo)用戶興趣相似的用戶集合第二步:找到該集合中的用戶所喜歡的、且目標(biāo)用戶沒有聽說過的物品推薦給目標(biāo)用戶11.2.1基于用戶的協(xié)同過濾(UserCF)基于用戶的協(xié)同過濾算法(簡稱UserCF算法)在1992年被11.2.1基于用戶的協(xié)同過濾(UserCF)圖11-4基于用戶的協(xié)同過濾(UserCF)11.2.1基于用戶的協(xié)同過濾(UserCF)圖11-4實(shí)現(xiàn)UserCF算法的關(guān)鍵步驟是計(jì)算用戶與用戶之間的興趣相似度。目前較多使用的相似度算法有:泊松相關(guān)系數(shù)(PersonCorrelationCoefficient)余弦相似度(Cosine-basedSimilarity)調(diào)整余弦相似度(AdjustedCosineSimilarity)給定用戶u和用戶v,令N(u)表示用戶u感興趣的物品集合,令N(v)為用戶v感興趣的物品集合,則使用余弦相似度進(jìn)行計(jì)算用戶相似度的公式為:11.2.1基于用戶的協(xié)同過濾(UserCF)實(shí)現(xiàn)UserCF算法的關(guān)鍵步驟是計(jì)算用戶與用戶之間的興趣相似由于很多用戶相互之間并沒有對(duì)同樣的物品產(chǎn)生過行為,因此其相似度公式的分子為0,相似度也為0我們可以利用物品到用戶的倒排表(每個(gè)物品所對(duì)應(yīng)的、對(duì)該物品感興趣的用戶列表),僅對(duì)有對(duì)相同物品產(chǎn)生交互行為的用戶進(jìn)行計(jì)算11.2.1基于用戶的協(xié)同過濾(UserCF)圖11-5物品到用戶倒排表及用戶相似度矩陣由于很多用戶相互之間并沒有對(duì)同樣的物品產(chǎn)生過行為,因此其相似得到用戶間的相似度后,再使用如下公式來度量用戶u對(duì)物品i的興趣程度Pui:其中,S(u,K)是和用戶u興趣最接近的K個(gè)用戶的集合,N(i)是喜歡物品i的用戶集合,Wuv是用戶u和用戶v的相似度,rvi是隱反饋信息,代表用戶v對(duì)物品i的感興趣程度,為簡化計(jì)算可令rvi=1對(duì)所有物品計(jì)算Pui后,可以對(duì)Pui進(jìn)行降序處理,取前N個(gè)物品作為推薦結(jié)果展示給用戶u(稱為Top-N推薦)11.2.1基于用戶的協(xié)同過濾(UserCF)得到用戶間的相似度后,再使用如下公式來度量用戶u對(duì)物品i的興基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用最多的算法。無論是亞馬遜還是Netflix,其推薦系統(tǒng)的基礎(chǔ)都是ItemCF算法ItemCF算法是給目標(biāo)用戶推薦那些和他們之前喜歡的物品相似的物品。ItemCF算法主要通過分析用戶的行為記錄來計(jì)算物品之間的相似度該算法基于的假設(shè)是:物品A和物品B具有很大的相似度是因?yàn)橄矚g物品A的用戶大多也喜歡物品B。例如,該算法會(huì)因?yàn)槟阗徺I過《數(shù)據(jù)挖掘?qū)д摗范o你推薦《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》,因?yàn)橘I過《數(shù)據(jù)挖掘?qū)д摗返挠脩舳鄶?shù)也購買了《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》11.2.2基于物品的協(xié)同過濾(ItemCF)基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用11.2.2基于物品的協(xié)同過濾(ItemCF)圖11-6基于物品的協(xié)同過濾(ItemCF)11.2.2基于物品的協(xié)同過濾(ItemCF)圖11-6ItemCF算法與UserCF算法類似,計(jì)算也分為兩步:第一步:計(jì)算物品之間的相似度;第二步:根據(jù)物品的相似度和用戶的歷史行為,給用戶生成推薦列表。ItemCF計(jì)算的是物品相似度,再使用如下公式來度量用戶u對(duì)物品j的興趣程度Puj(與UserCF類似):11.2.2基于物品的協(xié)同過濾(ItemCF)ItemCF算法與UserCF算法類似,計(jì)算也分為兩步:11ItemCF算法通過建立用戶到物品倒排表(每個(gè)用戶喜歡的物品的列表)來計(jì)算物品相似度11.2.2基于物品的協(xié)同過濾(ItemCF)圖11-7用戶到物品倒排表及物品相似度矩陣ItemCF算法通過建立用戶到物品倒排表(每個(gè)用戶喜歡的物品UserCF算法和ItemCF算法的思想、計(jì)算過程都相似兩者最主要的區(qū)別:UserCF算法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品ItemCF算法推薦的是那些和目標(biāo)用戶之前喜歡的物品類似的其他物品UserCF算法的推薦更偏向社會(huì)化,而ItemCF算法的推薦更偏向于個(gè)性化11.2.3UserCF算法和ItemCF算法的對(duì)比UserCF算法和ItemCF算法的思想、計(jì)算過程都相似11UserCF算法的推薦更偏向社會(huì)化:適合應(yīng)用于新聞推薦、微博話題推薦等應(yīng)用場景,其推薦結(jié)果在新穎性方面有一定的優(yōu)勢(shì)UserCF缺點(diǎn):隨著用戶數(shù)目的增大,用戶相似度計(jì)算復(fù)雜度越來越高。而且UserCF推薦結(jié)果相關(guān)性較弱,難以對(duì)推薦結(jié)果作出解釋,容易受大眾影響而推薦熱門物品ItemCF算法的推薦更偏向于個(gè)性化:適合應(yīng)用于電子商務(wù)、電影、圖書等應(yīng)用場景,可以利用用戶的歷史行為給推薦結(jié)果作出解釋,讓用戶更為信服推薦的效果ItemCF缺點(diǎn):傾向于推薦與用戶已購買商品相似的商品,往往會(huì)出現(xiàn)多樣性不足、推薦新穎度較低的問題11.2.3UserCF算法和ItemCF算法的對(duì)比UserCF算法的推薦更偏向社會(huì)化:適合應(yīng)用于新聞推薦、微博11.3 協(xié)同過濾實(shí)踐11.3.1 實(shí)踐背景11.3.2 數(shù)據(jù)處理11.3.3 計(jì)算相似度矩陣11.3.4 計(jì)算推薦結(jié)果11.3.5 展示推薦結(jié)果11.3 協(xié)同過濾實(shí)踐11.3.1 實(shí)踐背景我們選擇以MovieLens公開數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),采用ItemCF算法,使用Python語言來實(shí)現(xiàn)一個(gè)簡易的電影推薦系統(tǒng)具體采用的MovieLens100k數(shù)據(jù)集包括了1000名用戶對(duì)1700部電影的評(píng)分記錄,每個(gè)用戶都至少對(duì)20部電影進(jìn)行過評(píng)分,一共有100000條電影評(píng)分記錄基于這個(gè)數(shù)據(jù)集,我們解決的是一個(gè)評(píng)分預(yù)測問題,即如何通過已知的用戶評(píng)分記錄來預(yù)測未知的用戶評(píng)分對(duì)于用戶未進(jìn)行評(píng)分的電影,我們希望能夠預(yù)測出一個(gè)評(píng)分,而這個(gè)評(píng)分反過來也可以用于猜測用戶是否會(huì)喜歡這部電影,從而決定是否給用戶推薦該電影11.3.1實(shí)踐背景我們選擇以MovieLens公開數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),采用It用戶對(duì)電影評(píng)分的數(shù)據(jù)格式如下,包含了用戶ID、電影ID、評(píng)分、評(píng)分時(shí)間戳通過評(píng)分?jǐn)?shù)據(jù),我們便可以采用如余弦相似度來計(jì)算用戶之間的相似度11.3.2實(shí)踐數(shù)據(jù)圖11-8用戶對(duì)電影的評(píng)分?jǐn)?shù)據(jù)用戶對(duì)電影評(píng)分的數(shù)據(jù)格式如下,包含了用戶ID、電影ID、評(píng)分具體實(shí)現(xiàn)流程如下(具體代碼見教材):預(yù)處理:讀取數(shù)據(jù),提取評(píng)分計(jì)算相似度:使用余弦相似度計(jì)算電影間的相似度計(jì)算推薦結(jié)果:針對(duì)目標(biāo)用戶,對(duì)該用戶未評(píng)分的電影計(jì)算預(yù)測評(píng)分展示推薦結(jié)果:對(duì)計(jì)算的評(píng)分進(jìn)行降序排序,取Top-N個(gè)結(jié)果,作為最終的推薦結(jié)果11.3.3實(shí)踐流程具體實(shí)現(xiàn)流程如下(具體代碼見教材):11.3.3實(shí)踐流程例如我們對(duì)用戶ID為1的用戶,取10個(gè)推薦結(jié)果如下:11.3.3實(shí)踐流程圖11-10推薦結(jié)果例如我們對(duì)用戶ID為1的用戶,取10個(gè)推薦結(jié)果如下:11.3本章小結(jié)本章內(nèi)容首先介紹了推薦系統(tǒng)的概念,推薦系統(tǒng)可幫助用戶從海量信息中高效地獲得自己所需的信息接著介紹了不同的推薦方法以及推薦系統(tǒng)在電子商務(wù)、在線音樂等網(wǎng)站中的具體應(yīng)用本章重點(diǎn)介紹了協(xié)同過濾算法,協(xié)同過濾算法是最早推出的推薦算法,至

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論