版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第十三講 大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用提綱大數(shù)據(jù)應(yīng)用概覽大數(shù)據(jù)應(yīng)用概覽第第11章章 大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用用11.1 推薦系統(tǒng)概述推薦系統(tǒng)概述11.2 推薦算法推薦算法 協(xié)同過(guò)濾協(xié)同過(guò)濾11.3 協(xié)同過(guò)濾實(shí)踐協(xié)同過(guò)濾實(shí)踐 電影推薦系電影推薦系統(tǒng)統(tǒng)第第12章章 大數(shù)據(jù)在生物醫(yī)學(xué)領(lǐng)域的大數(shù)據(jù)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用應(yīng)用12.1 基于大數(shù)據(jù)的綜合健康服務(wù)基于大數(shù)據(jù)的綜合健康服務(wù)平臺(tái)平臺(tái)第第13章章 大數(shù)據(jù)的其他應(yīng)用大數(shù)據(jù)的其他應(yīng)用13.1 大數(shù)據(jù)在物流領(lǐng)域中的應(yīng)用大數(shù)據(jù)在物流領(lǐng)域中的應(yīng)用大數(shù)據(jù)應(yīng)用概覽11.1推薦系統(tǒng)概述n 11.1.1 什么是推薦系統(tǒng)n 11.1.2 長(zhǎng)尾理論n 11
2、.1.3 推薦方法n 11.1.4 推薦系統(tǒng)模型n 11.1.5 推薦系統(tǒng)的應(yīng)用n 互聯(lián)網(wǎng)的飛速發(fā)展使我們進(jìn)入了信息過(guò)載的時(shí)代,搜索引擎可以幫助我們查找內(nèi)容,但只能解決明確的需求n 為了讓用戶從海量信息中高效地獲得自己所需的信息,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用,它可以通過(guò)分析用戶的歷史記錄來(lái)了解用戶的喜好,從而主動(dòng)為用戶推薦其感興趣的信息,滿足用戶的個(gè)性化推薦需求n 推薦系統(tǒng)是自動(dòng)聯(lián)系用戶和物品的一種工具,和搜索引擎相比,推薦系統(tǒng)通過(guò)研究用戶的興趣偏好,進(jìn)行個(gè)性化計(jì)算。推薦系統(tǒng)可發(fā)現(xiàn)用戶的興趣點(diǎn),幫助用戶從海量信息中去發(fā)掘自己潛在的需求11.1.1 什么是推薦系統(tǒng)n
3、推薦系統(tǒng)可以創(chuàng)造全新的商業(yè)和經(jīng)濟(jì)模式,幫助實(shí)現(xiàn)長(zhǎng)尾商品的銷售n “長(zhǎng)尾”概念于2004年提出,用來(lái)描述以亞馬遜為代表的電子商務(wù)網(wǎng)站的商業(yè)和經(jīng)濟(jì)模式n 電子商務(wù)網(wǎng)站銷售種類繁多,雖然絕大多數(shù)商品都不熱門,但這些不熱門的商品總數(shù)量極其龐大,所累計(jì)的總銷售額將是一個(gè)可觀的數(shù)字,也許會(huì)超過(guò)熱門商品所帶來(lái)的銷售額n 因此,可以通過(guò)發(fā)掘長(zhǎng)尾商品并推薦給感興趣的用戶來(lái)提高銷售額。這需要通過(guò)個(gè)性化推薦來(lái)實(shí)現(xiàn)11.1.2 長(zhǎng)尾理論n 熱門推薦是常用的推薦方式,廣泛應(yīng)用于各類網(wǎng)站中,如熱門排行榜。但熱門推薦的主要缺陷在于推薦的范圍有限,所推薦的內(nèi)容在一定時(shí)期內(nèi)也相對(duì)固定。無(wú)法實(shí)現(xiàn)長(zhǎng)尾商品的推薦n 個(gè)性化推薦可通過(guò)
4、推薦系統(tǒng)來(lái)實(shí)現(xiàn)。推薦系統(tǒng)通過(guò)發(fā)掘用戶的行為記錄,找到用戶的個(gè)性化需求,發(fā)現(xiàn)用戶潛在的消費(fèi)傾向,從而將長(zhǎng)尾商品準(zhǔn)確地推薦給需要它的用戶,進(jìn)而提升銷量,實(shí)現(xiàn)用戶與商家的雙贏11.1.2 長(zhǎng)尾理論n 推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系,根據(jù)推薦算法的不同,推薦方法包括如下幾類:專家推薦基于統(tǒng)計(jì)的推薦基于內(nèi)容的推薦協(xié)同過(guò)濾推薦混合推薦11.1.3 推薦方法n 一個(gè)完整的推薦系統(tǒng)通常包括3個(gè)組成模塊:用戶建模模塊、推薦對(duì)象建模模塊、推薦算法模塊:用戶建模模塊:對(duì)用戶進(jìn)行建模,根據(jù)用戶行為數(shù)據(jù)和用戶屬性數(shù)據(jù)來(lái)分析用戶的興趣和需求推薦對(duì)象建模模塊:根據(jù)對(duì)象數(shù)據(jù)對(duì)推薦對(duì)象進(jìn)行建模推薦算法模塊:基于用戶特征和
5、物品特征,采用推薦算法計(jì)算得到用戶可能感興趣的對(duì)象,并根據(jù)推薦場(chǎng)景對(duì)推薦結(jié)果進(jìn)行一定調(diào)整,將推薦結(jié)果最終展示給用戶11.1.4 推薦系統(tǒng)模型圖11-1 推薦系統(tǒng)基本架構(gòu) n 目前推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、在線視頻、在線音樂(lè)、社交網(wǎng)絡(luò)等各類網(wǎng)站和應(yīng)用中n 如亞馬遜網(wǎng)站利用用戶的瀏覽歷史記錄來(lái)為用戶推薦商品,推薦的主要是用戶未瀏覽過(guò),但可能感興趣、有潛在購(gòu)買可能性的商品11.1.5 推薦系統(tǒng)的應(yīng)用圖11-2 亞馬遜網(wǎng)站根據(jù)用戶的瀏覽記錄來(lái)推薦商品n 推薦系統(tǒng)在在線音樂(lè)應(yīng)用中也逐漸發(fā)揮作用。音樂(lè)相比于電影數(shù)量更為龐大,個(gè)人口味偏向也更為明顯,僅依靠熱門推薦是遠(yuǎn)遠(yuǎn)不夠的n 蝦米音樂(lè)網(wǎng)根據(jù)用戶的音樂(lè)
6、收藏記錄來(lái)分析用戶的音樂(lè)偏好,以進(jìn)行推薦。例如,推薦同一風(fēng)格的歌曲,或是推薦同一歌手的其他歌曲11.1.5 推薦系統(tǒng)的應(yīng)用圖11-3 蝦米音樂(lè)網(wǎng)根據(jù)用戶的音樂(lè)收藏來(lái)推薦歌曲n 推薦技術(shù)從被提出到現(xiàn)在已有十余年,在多年的發(fā)展歷程中誕生了很多新的推薦算法。協(xié)同過(guò)濾作為最早、最知名的推薦算法,不僅在學(xué)術(shù)界得到了深入研究,而且至今在業(yè)界仍有廣泛的應(yīng)用n 協(xié)同過(guò)濾可分為基于用戶的協(xié)同過(guò)濾和基于物品的協(xié)同過(guò)濾n 11.2.1 基于用戶的協(xié)同過(guò)濾(UserCF)n 11.2.2 基于物品的協(xié)同過(guò)濾(ItemCF)n 11.2.3 UserCF算法和ItemCF算法的對(duì)比11.2 協(xié)同過(guò)濾n 基于用戶的協(xié)同過(guò)
7、濾算法(簡(jiǎn)稱UserCF算法)在1992年被提出,是推薦系統(tǒng)中最古老的算法n UserCF算法的實(shí)現(xiàn)主要包括兩個(gè)步驟:第一步:找到和目標(biāo)用戶興趣相似的用戶集合第二步:找到該集合中的用戶所喜歡的、且目標(biāo)用戶沒(méi)有聽說(shuō)過(guò)的物品推薦給目標(biāo)用戶11.2.1 基于用戶的協(xié)同過(guò)濾(UserCF)圖11-4 基于用戶的協(xié)同過(guò)濾(User CF)11.2.1 基于用戶的協(xié)同過(guò)濾(UserCF)n 實(shí)現(xiàn)UserCF算法的關(guān)鍵步驟是計(jì)算用戶與用戶之間的興趣相似度。目前較多使用的相似度算法有:泊松相關(guān)系數(shù)(Person Correlation Coefficient)余弦相似度(Cosine-based Simila
8、rity)調(diào)整余弦相似度(Adjusted Cosine Similarity)n 給定用戶u和用戶v,令N(u)表示用戶u感興趣的物品集合,令N(v)為用戶v感興趣的物品集合,則使用余弦相似度進(jìn)行計(jì)算用戶相似度的公式為:11.2.1 基于用戶的協(xié)同過(guò)濾(UserCF)n 由于很多用戶相互之間并沒(méi)有對(duì)同樣的物品產(chǎn)生過(guò)行為,因此其相似度公式的分子為0,相似度也為0n 我們可以利用物品到用戶的倒排表(每個(gè)物品所對(duì)應(yīng)的、對(duì)該物品感興趣的用戶列表),僅對(duì)有對(duì)相同物品產(chǎn)生交互行為的用戶進(jìn)行計(jì)算11.2.1 基于用戶的協(xié)同過(guò)濾(UserCF)圖11-5 物品到用戶倒排表及用戶相似度矩陣用戶物品物品用戶用戶
9、用戶n 得到用戶間的相似度后,再使用如下公式來(lái)度量用戶u對(duì)物品i的興趣程度Pui:n 其中,S(u, K)是和用戶u興趣最接近的K個(gè)用戶的集合,N(i)是喜歡物品i的用戶集合,Wuv是用戶u和用戶v的相似度,rvi是隱反饋信息,代表用戶v對(duì)物品i的感興趣程度,為簡(jiǎn)化計(jì)算可令rvi=1n 對(duì)所有物品計(jì)算Pui后,可以對(duì)Pui進(jìn)行降序處理,取前N個(gè)物品作為推薦結(jié)果展示給用戶u(稱為Top-N推薦)11.2.1 基于用戶的協(xié)同過(guò)濾(UserCF)n 基于物品的協(xié)同過(guò)濾算法(簡(jiǎn)稱ItemCF算法)是目前業(yè)界應(yīng)用最多的算法。無(wú)論是亞馬遜還是Netflix,其推薦系統(tǒng)的基礎(chǔ)都是ItemCF算法n Item
10、CF算法是給目標(biāo)用戶推薦那些和他們之前喜歡的物品相似的物品。ItemCF算法主要通過(guò)分析用戶的行為記錄來(lái)計(jì)算物品之間的相似度n 該算法基于的假設(shè)是:物品A和物品B具有很大的相似度是因?yàn)橄矚g物品A的用戶大多也喜歡物品B。11.2.2 基于物品的協(xié)同過(guò)濾(ItemCF)圖11-6 基于物品的協(xié)同過(guò)濾(Item CF)11.2.2 基于物品的協(xié)同過(guò)濾(ItemCF)n ItemCF算法與UserCF算法類似,計(jì)算也分為兩步:第一步:計(jì)算物品之間的相似度第二步:根據(jù)物品的相似度和用戶的歷史行為,給用戶生成推薦列表11.2.2 基于物品的協(xié)同過(guò)濾(ItemCF)n ItemCF算法通過(guò)建立用戶到物品倒排
11、表(每個(gè)用戶喜歡的物品的列表)來(lái)計(jì)算物品相似度11.2.2 基于物品的協(xié)同過(guò)濾(ItemCF)圖11-7用戶到物品倒排表及物品相似度矩陣用戶物品物品物品n ItemCF計(jì)算的是物品相似度,再使用如下公式來(lái)度量用戶u對(duì)物品j的興趣程度Puj(與UserCF類似):11.2.2 基于物品的協(xié)同過(guò)濾(ItemCF)其中,S(j, K)是和物品j最相似的K個(gè)物品的集合,N(u)是用戶u喜歡的物品的集合,wji物品i和物品j的相似度,rui是隱反饋信息,代表用戶u對(duì)物品i的感興趣程度,為簡(jiǎn)化計(jì)算可令rvi=1n UserCF算法和ItemCF算法的思想、計(jì)算過(guò)程都相似n 兩者最主要的區(qū)別:UserCF算
12、法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品ItemCF算法推薦的是那些和目標(biāo)用戶之前喜歡的物品類似的其他物品UserCF算法的推薦更偏向社會(huì)化,而ItemCF算法的推薦更偏向于個(gè)性化11.2.3 UserCF算法和ItemCF算法的對(duì)比圖11-4 基于用戶的協(xié)同過(guò)濾(User CF)圖11-6 基于物品的協(xié)同過(guò)濾(Item CF)n UserCF算法的推薦更偏向社會(huì)化:適合應(yīng)用于新聞推薦、微博話題推薦等應(yīng)用場(chǎng)景,其推薦結(jié)果在新穎性方面有一定的優(yōu)勢(shì)n UserCF缺點(diǎn):隨著用戶數(shù)目的增大,用戶相似度計(jì)算復(fù)雜度越來(lái)越高。而且UserCF推薦結(jié)果相關(guān)性較弱,難以對(duì)推薦結(jié)果作出解釋,
13、容易受大眾影響而推薦熱門物品n ItemCF算法的推薦更偏向于個(gè)性化:適合應(yīng)用于電子商務(wù)、電影、圖書等應(yīng)用場(chǎng)景,可以利用用戶的歷史行為給推薦結(jié)果作出解釋,讓用戶更為信服推薦的效果n ItemCF缺點(diǎn):傾向于推薦與用戶已購(gòu)買商品相似的商品,往往會(huì)出現(xiàn)多樣性不足、推薦新穎度較低的問(wèn)題11.2.3 UserCF算法和ItemCF算法的對(duì)比12.1基于大數(shù)據(jù)的綜合健康服務(wù)平臺(tái)大數(shù)據(jù)存儲(chǔ)數(shù)據(jù)源層技術(shù)支撐層業(yè)務(wù)層交互層用戶層個(gè)人用戶網(wǎng)絡(luò)醫(yī)院獨(dú)立體檢機(jī)構(gòu)社區(qū)衛(wèi)生服務(wù)機(jī)構(gòu)區(qū)域醫(yī)療信息平臺(tái)新農(nóng)合醫(yī)保社保大數(shù)據(jù)處理基于大數(shù)據(jù)的健康評(píng)估技術(shù)基于大數(shù)據(jù)的個(gè)性化診療技術(shù)面向普遍人群的通用型健康服務(wù)面向特定人群的主題式健
14、康服務(wù)面向決策、科研等機(jī)構(gòu)的循證醫(yī)學(xué)數(shù)據(jù)服務(wù)面向健康服務(wù)機(jī)構(gòu)的信息服務(wù)醫(yī)療衛(wèi)生機(jī)構(gòu)專業(yè)健康服務(wù)機(jī)構(gòu)決策機(jī)構(gòu)科研機(jī)構(gòu)健康服務(wù)相關(guān)機(jī)構(gòu)個(gè)人用戶疾控中心門戶網(wǎng)站呼叫中心移動(dòng)終端平臺(tái)接入API開放應(yīng)用平臺(tái)服務(wù)第三方檢測(cè)機(jī)構(gòu)大數(shù)據(jù)集成、存儲(chǔ)安全隱私數(shù)據(jù)標(biāo)準(zhǔn)目標(biāo):構(gòu)建覆蓋全生命周期、內(nèi)涵豐富、結(jié)構(gòu)合理的以人為本全面連續(xù)的綜合健康服務(wù)體系,利用大數(shù)據(jù)技術(shù)和智能設(shè)備技術(shù),提供線上線下相結(jié)合的公眾健康服務(wù),實(shí)現(xiàn)“未病先防、已病早治、既病防變、愈后防復(fù)”,滿足社會(huì)公眾多層次、多方位的健康服務(wù)需求,提升人民群眾的身心健康水平。13.1 大數(shù)據(jù)在物流領(lǐng)域的應(yīng)用菜鳥網(wǎng)絡(luò)到底是什么?中國(guó)智能物流骨干網(wǎng),又名“菜鳥”菜鳥網(wǎng)
15、絡(luò)計(jì)劃在5到8年內(nèi),打造一個(gè)全國(guó)性的超級(jí)物流網(wǎng)。這個(gè)網(wǎng)絡(luò)能在24小時(shí)內(nèi)將貨物運(yùn)抵國(guó)內(nèi)任何地區(qū),能支撐日均300億元(年度約10萬(wàn)億元)的巨量網(wǎng)絡(luò)零售額。1000億元投資物流基礎(chǔ)設(shè)施 強(qiáng)強(qiáng)聯(lián)手共建智能骨干網(wǎng)絡(luò)物流信息系統(tǒng)向所有的制造商、網(wǎng)商、快遞公司、第三方物流公司完全開放智能物流集成商案例:阿里巴巴的中國(guó)智能物流骨干網(wǎng)(智能物流集成商案例:阿里巴巴的中國(guó)智能物流骨干網(wǎng)(地網(wǎng)地網(wǎng))本章小結(jié)n 本章內(nèi)容首先介紹了推薦系統(tǒng)的概念,推薦系統(tǒng)可幫助用戶從海量信息中高效地獲得自己所需的信息n 接著介紹了不同的推薦方法以及推薦系統(tǒng)在電子商務(wù)、在線音樂(lè)等網(wǎng)站中的具體應(yīng)用n 本章重點(diǎn)介紹了協(xié)同過(guò)濾算法,協(xié)同過(guò)濾
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025石材長(zhǎng)期采購(gòu)合同
- 2025年度國(guó)防科技產(chǎn)業(yè)核心秘密保護(hù)合同3篇
- 2025年度遠(yuǎn)程教育兼職教師聘任合同3篇
- 2025年度農(nóng)村房屋買賣合同協(xié)議書(含農(nóng)村電商合作)2篇
- 2025年度公司公務(wù)車借用及維修保養(yǎng)協(xié)議范本3篇
- 二零二五年度企業(yè)核心高管聘用合同:企業(yè)戰(zhàn)略轉(zhuǎn)型升級(jí)合作協(xié)議3篇
- 2025農(nóng)村宅基地置換項(xiàng)目宅基地置換補(bǔ)償評(píng)估協(xié)議
- 2025年度婚姻財(cái)產(chǎn)保全與風(fēng)險(xiǎn)評(píng)估協(xié)議3篇
- 二零二五年度老舊小區(qū)電梯加裝工程合同3篇
- 二零二五年度特色農(nóng)業(yè)機(jī)械租賃合作框架協(xié)議2篇
- 礦山治理專項(xiàng)研究報(bào)告范文
- 國(guó)家開放大學(xué)2023年7月期末統(tǒng)一試《11124流行病學(xué)》試題及答案-開放本科
- 貨運(yùn)安全生產(chǎn)管理制度
- 施工圖審查招標(biāo)文件范文
- 幼兒園中班體育《我們愛運(yùn)動(dòng)》+課件
- 郭錫良《古代漢語(yǔ)》課件
- 外研版四年級(jí)英語(yǔ)下冊(cè)(一年級(jí)起點(diǎn))全冊(cè)完整課件
- 防止電力生產(chǎn)事故的-二十五項(xiàng)重點(diǎn)要求(2023版)
- 教研室主任崗位申請(qǐng)書
- 職業(yè)培訓(xùn)師的8堂私房課:修訂升級(jí)版
- 改擴(kuò)建工程施工圖設(shè)計(jì)說(shuō)明
評(píng)論
0/150
提交評(píng)論