《推系統(tǒng) 第2版》 課件全套 劉宏志 Lec1 推系統(tǒng)-概述-Lec11 社交推_第1頁
《推系統(tǒng) 第2版》 課件全套 劉宏志 Lec1 推系統(tǒng)-概述-Lec11 社交推_第2頁
《推系統(tǒng) 第2版》 課件全套 劉宏志 Lec1 推系統(tǒng)-概述-Lec11 社交推_第3頁
《推系統(tǒng) 第2版》 課件全套 劉宏志 Lec1 推系統(tǒng)-概述-Lec11 社交推_第4頁
《推系統(tǒng) 第2版》 課件全套 劉宏志 Lec1 推系統(tǒng)-概述-Lec11 社交推_第5頁
已閱讀5頁,還剩284頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

推薦系統(tǒng)推薦系統(tǒng)動(dòng)機(jī)(為什么要學(xué))利用推薦系統(tǒng)可以解決實(shí)際應(yīng)用難題使得平臺(tái)、用戶、供應(yīng)商等多方受益內(nèi)容(主要講什么)各種個(gè)性化推薦系統(tǒng)的框架與流程常用推薦算法的思想、原理和實(shí)現(xiàn)目標(biāo)(能學(xué)到什么)理解常用推薦算法的原理、思想學(xué)會(huì)根據(jù)應(yīng)用和場(chǎng)景選擇或構(gòu)造合適的推薦算法實(shí)踐通過推薦系統(tǒng)解決實(shí)際應(yīng)用問題信息爆炸:每分鐘…數(shù)據(jù)摩爾定律:全球在2010年進(jìn)入ZB(萬億GB)時(shí)代,數(shù)據(jù)量?jī)赡攴环?learn/data-never-sleeps-8

信息超載多即是少少即是多推薦系統(tǒng)發(fā)展背景:互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展→信息爆炸→信息超載推薦系統(tǒng):一種主動(dòng)的信息過濾系統(tǒng)將信息過濾過程由“用戶主動(dòng)搜索”轉(zhuǎn)變?yōu)椤跋到y(tǒng)主動(dòng)推送”一種個(gè)性化的雙邊匹配系統(tǒng)幫助用戶發(fā)現(xiàn)其所喜好的或需要的小眾、非主流商品幫助商戶將其商品展現(xiàn)在對(duì)它們感興趣的用戶面前搜索:滿足用戶的主動(dòng)需求用戶知道自己要什么用戶知道該如何描述推薦:挖掘并滿足用戶的潛在需求項(xiàng)目(Items)搜索推薦商品、電影、音樂、新聞、工作崗位、…推薦系統(tǒng)發(fā)展背景:互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展→信息爆炸→信息超載互聯(lián)網(wǎng)上的物品普遍存在長(zhǎng)尾(longtail)現(xiàn)象推薦系統(tǒng):一種主動(dòng)的信息過濾系統(tǒng)將信息過濾過程由“用戶主動(dòng)搜索”轉(zhuǎn)變?yōu)椤跋到y(tǒng)主動(dòng)推送”一種個(gè)性化的雙邊匹配系統(tǒng)幫助用戶發(fā)現(xiàn)其所喜好的或需要的小眾、非主流商品幫助商戶將其商品展現(xiàn)在對(duì)它們感興趣的用戶面前亞馬遜銷量的43%:傳統(tǒng)實(shí)體店所售書籍亞馬遜銷量的57%:只在亞馬遜上銷售的書籍按銷售量排序的物品種類銷售量銷量小但種類多的產(chǎn)品或服務(wù)由于總量巨大,累積總收益超過主流產(chǎn)品的現(xiàn)象推薦系統(tǒng)發(fā)展背景:互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展→信息爆炸→信息超載互聯(lián)網(wǎng)上的物品普遍存在長(zhǎng)尾(longtail)現(xiàn)象推薦系統(tǒng):一種主動(dòng)的信息過濾系統(tǒng)將信息過濾過程由“用戶主動(dòng)搜索”轉(zhuǎn)變?yōu)椤跋到y(tǒng)主動(dòng)推送”一種個(gè)性化的雙邊匹配系統(tǒng)幫助用戶發(fā)現(xiàn)其所喜好的或需要的小眾、非主流商品幫助商戶將其商品展現(xiàn)在對(duì)它們感興趣的用戶面前推薦系統(tǒng)“Weareleavingtheageofinformationandenteringtheageofrecommendation.”

—ChrisAndersonin“TheLongTail”推薦系統(tǒng)的價(jià)值Netflix:2/3的電影觀看時(shí)長(zhǎng)Amazon:35%的銷售量GoogleNews:38%的新聞點(diǎn)擊量……推薦系統(tǒng)的價(jià)值從平臺(tái)的角度幫助其提高用戶的滿意度和忠誠(chéng)度,同時(shí)給其帶來豐厚的收益從用戶的角度幫助其解決信息超載問題,提高其決策效率,提升其幸福感從供應(yīng)商的角度幫助其進(jìn)行精準(zhǔn)的商品推銷,提高銷售量,降低營(yíng)銷成本從行業(yè)的角度幫助其更加多元化、健康的發(fā)展,幫助尾部商家得以生存和發(fā)展推薦系統(tǒng)動(dòng)機(jī)(為什么要學(xué))利用推薦系統(tǒng)可以解決實(shí)際應(yīng)用難題使得平臺(tái)、用戶、供應(yīng)商等多方受益內(nèi)容(主要講什么)個(gè)性化推薦系統(tǒng)的框架與流程常用推薦算法的思想、原理和實(shí)現(xiàn)目標(biāo)(能學(xué)到什么)理解常用推薦算法的原理、思想學(xué)會(huì)根據(jù)應(yīng)用和場(chǎng)景選擇或構(gòu)造合適的推薦算法實(shí)踐通過推薦系統(tǒng)解決實(shí)際應(yīng)用問題推薦系統(tǒng)的發(fā)展歷史1992:Xerox公司開發(fā)出基于協(xié)同過濾的內(nèi)部新聞組文檔推薦系統(tǒng)Tapestry1994:MIT和明尼蘇達(dá)大學(xué)推出基于協(xié)同過濾的跨網(wǎng)絡(luò)新聞推薦GroupLens1998:Amazon推出基于項(xiàng)目的協(xié)同過濾算法,實(shí)現(xiàn)個(gè)性化的線上商品推薦2003:Google開創(chuàng)AdWords盈利模式,根據(jù)用戶搜索關(guān)鍵詞推薦相關(guān)廣告2007:Google為AdWords添加了個(gè)性化元素2006~2009:Netflix主辦百萬美金大獎(jiǎng)賽,將其電影推薦準(zhǔn)確率提高10%

……個(gè)性化推薦在音樂、求職等諸多領(lǐng)域得到了成功應(yīng)用,并慢慢成為各種互聯(lián)網(wǎng)應(yīng)用的一種標(biāo)配“IfIhave3millioncustomersontheWeb,Ishouldhave3millionstoresontheWeb”--JeffBezos,AmazonCEO個(gè)性化推薦系統(tǒng)框架個(gè)性化推薦映射函數(shù)f:U×I→R輸入:用戶畫像(U):評(píng)分、偏好、人口統(tǒng)計(jì)學(xué)資料、上下文等項(xiàng)目畫像(I):項(xiàng)目描述(屬性)、內(nèi)容等計(jì)算:興趣度或相關(guān)度(R),用于排序輸出:針對(duì)每個(gè)用戶,給出項(xiàng)目排序列表推薦系統(tǒng)用戶畫像對(duì)用戶的特點(diǎn)和興趣進(jìn)行建模從用戶相關(guān)的各種數(shù)據(jù)中挖掘或抽取出用戶在不同屬性上的標(biāo)簽例如:年齡、性別、職業(yè)、婚姻狀態(tài)、興趣、未來可能行為等主要過程:標(biāo)簽體系的建立:層次化結(jié)構(gòu),逐層細(xì)分標(biāo)簽的獲?。ㄙx值):事實(shí)標(biāo)簽:既定事實(shí),可從原始數(shù)據(jù)中直接得到,如:性別模型標(biāo)簽:用戶潛在特性,通過模型計(jì)算得出,如:用戶興趣預(yù)測(cè)標(biāo)簽:對(duì)用戶未來行為的預(yù)測(cè),例如:用戶流失預(yù)測(cè)偏好品牌偏好主題購(gòu)買頻率消費(fèi)水平收入狀況學(xué)歷婚否職業(yè)年齡性別基本屬性消費(fèi)特征興趣偏好用戶畫像對(duì)用戶的特點(diǎn)和興趣進(jìn)行建模從用戶相關(guān)的各種數(shù)據(jù)中挖掘或抽取出用戶在不同屬性上的標(biāo)簽例如:年齡、性別、職業(yè)、婚姻狀態(tài)、興趣、未來可能行為等主要過程:標(biāo)簽體系的建立:層次化結(jié)構(gòu),逐層細(xì)分標(biāo)簽的獲?。ㄙx值):事實(shí)標(biāo)簽:既定事實(shí),可從原始數(shù)據(jù)中直接得到,如:性別模型標(biāo)簽:用戶潛在特性,通過模型計(jì)算得出,如:用戶興趣預(yù)測(cè)標(biāo)簽:對(duì)用戶未來行為的預(yù)測(cè),例如:用戶流失預(yù)測(cè)項(xiàng)目畫像對(duì)項(xiàng)目的特點(diǎn)進(jìn)行建模從項(xiàng)目相關(guān)的各種數(shù)據(jù)中挖掘和抽取出項(xiàng)目在不同屬性上的標(biāo)簽實(shí)現(xiàn)對(duì)項(xiàng)目(例如商品、服務(wù)等)的精準(zhǔn)的定位項(xiàng)目畫像的過程和用戶畫像相同標(biāo)簽體系的建立(需要領(lǐng)域知識(shí))和標(biāo)簽的獲取(賦值)項(xiàng)目標(biāo)簽:項(xiàng)目自身內(nèi)容和屬性相關(guān)的標(biāo)簽和用戶(行為)相關(guān)的一些標(biāo)簽,例如:目標(biāo)用戶群推薦系統(tǒng)目標(biāo)是將用戶和項(xiàng)目進(jìn)行匹配,因此用戶畫像和項(xiàng)目畫像會(huì)相互影響推薦系統(tǒng)動(dòng)機(jī)(為什么要學(xué))利用推薦系統(tǒng)可以解決實(shí)際應(yīng)用難題使得平臺(tái)、用戶、供應(yīng)商等多方受益內(nèi)容(主要講什么)個(gè)性化推薦系統(tǒng)的框架與流程常用推薦算法的思想、原理和實(shí)現(xiàn)目標(biāo)(能學(xué)到什么)理解常用推薦算法的原理、思想學(xué)會(huì)根據(jù)應(yīng)用和場(chǎng)景選擇或構(gòu)造合適的推薦算法實(shí)踐通過推薦系統(tǒng)解決實(shí)際應(yīng)用問題推薦算法分類算法思想基于人口統(tǒng)計(jì)學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識(shí)、混合推薦應(yīng)用問題評(píng)分預(yù)測(cè)vs.Top-N推薦目標(biāo)函數(shù)點(diǎn)級(jí)排序?qū)W習(xí)vs.對(duì)級(jí)排序?qū)W習(xí)vs.列表級(jí)排序?qū)W習(xí)用戶參與單邊推薦vs.雙邊匹配數(shù)據(jù)表示矩陣表示vs.特征向量vs.圖模型基于算法思想的分類基于人口統(tǒng)計(jì)學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識(shí)的推薦基于人口統(tǒng)計(jì)學(xué):根據(jù)用戶基本信息推薦相似用戶喜愛的項(xiàng)目基于內(nèi)容:根據(jù)用戶過去喜好的項(xiàng)目推薦相似的項(xiàng)目協(xié)同過濾:根據(jù)用戶行為信息推薦相似用戶喜愛的項(xiàng)目基于關(guān)聯(lián)規(guī)則:啤酒&尿布(數(shù)據(jù)挖掘)基于知識(shí):基于(偏好)約束、本體推理基于算法思想的分類基于人口統(tǒng)計(jì)學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識(shí)的推薦基于人口統(tǒng)計(jì)學(xué):根據(jù)用戶基本信息推薦相似用戶喜愛的項(xiàng)目基于內(nèi)容:根據(jù)用戶過去喜好的項(xiàng)目推薦相似的項(xiàng)目協(xié)同過濾:根據(jù)用戶行為信息推薦相似用戶喜愛的項(xiàng)目基于關(guān)聯(lián)規(guī)則:啤酒&尿布(數(shù)據(jù)挖掘)基于知識(shí):基于(偏好)約束、本體推理基于算法思想的分類基于人口統(tǒng)計(jì)學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識(shí)的推薦基于人口統(tǒng)計(jì)學(xué):根據(jù)用戶基本信息推薦相似用戶喜愛的項(xiàng)目基于內(nèi)容:根據(jù)用戶過去喜好的項(xiàng)目推薦相似的項(xiàng)目協(xié)同過濾:根據(jù)用戶行為信息推薦相似用戶喜愛的項(xiàng)目基于算法思想的分類基于人口統(tǒng)計(jì)學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識(shí)的推薦基于人口統(tǒng)計(jì)學(xué):根據(jù)用戶基本信息推薦相似用戶喜愛的項(xiàng)目基于內(nèi)容:根據(jù)用戶過去喜好的項(xiàng)目推薦相似的項(xiàng)目協(xié)同過濾:根據(jù)用戶行為信息推薦相似用戶喜愛的項(xiàng)目基于知識(shí):根據(jù)用戶的顯式需求和專業(yè)領(lǐng)域知識(shí)進(jìn)行推薦

匹配度度量:(Price:LIB;Size:CIB;RAM:MIB;GPU:0-1匹配)推薦方法優(yōu)點(diǎn)缺點(diǎn)基于人口統(tǒng)計(jì)學(xué)不需要?dú)v史數(shù)據(jù)沒有冷啟動(dòng)問題個(gè)性化程度低推薦效果一般基于內(nèi)容結(jié)果直觀,容易解釋新用戶問題推薦結(jié)果缺乏新穎性協(xié)同過濾發(fā)現(xiàn)新的興趣點(diǎn)不需要領(lǐng)域知識(shí)個(gè)性化、自動(dòng)化程度高數(shù)據(jù)稀疏問題新用戶問題基于知識(shí)沒有冷啟動(dòng)問題結(jié)果具有可解釋性知識(shí)獲取困難混合推薦:通過多種技術(shù)的組合來避免或彌補(bǔ)各自的弱點(diǎn)基于應(yīng)用問題的分類評(píng)分預(yù)測(cè)目標(biāo):根據(jù)用戶歷史評(píng)分和其他相關(guān)數(shù)據(jù),預(yù)測(cè)用戶對(duì)候選項(xiàng)目評(píng)分值評(píng)價(jià)指標(biāo):預(yù)測(cè)評(píng)分和真實(shí)評(píng)分之間的偏差,例如:均方根誤差

RMSETop-N推薦目標(biāo):根據(jù)用戶歷史行為(如:點(diǎn)擊)和其他相關(guān)數(shù)據(jù),預(yù)測(cè)用戶對(duì)候選項(xiàng)目的感興趣程度,并據(jù)此對(duì)項(xiàng)目排序以給出排在最前N個(gè)的項(xiàng)目列表評(píng)價(jià)指標(biāo):分類準(zhǔn)確度和排序合理性,例如:精確度、召回率、AUC、nDCG等推薦系統(tǒng)動(dòng)機(jī)(為什么要學(xué))利用推薦系統(tǒng)可以解決實(shí)際應(yīng)用難題使得平臺(tái)、用戶、供應(yīng)商等多方受益內(nèi)容(主要講什么)各種個(gè)性化推薦系統(tǒng)的框架與流程常用推薦算法的思想、原理和實(shí)現(xiàn)目標(biāo)(能學(xué)到什么)理解常用推薦算法的原理、思想學(xué)會(huì)根據(jù)應(yīng)用和場(chǎng)景選擇或構(gòu)造合適的推薦算法實(shí)踐通過推薦系統(tǒng)解決實(shí)際應(yīng)用問題協(xié)同過濾基本思想?yún)f(xié)同過濾(CollaborativeFiltering,CF):利用集體智慧,借鑒相關(guān)人群的觀點(diǎn)進(jìn)行推薦基本假設(shè):過去興趣相似的用戶在未來的興趣也會(huì)相似相似的用戶會(huì)產(chǎn)生相似的(歷史)行為數(shù)據(jù)偏好相似推薦算法分類Top-N推薦vs.評(píng)分預(yù)測(cè)輸入(輸出):隱式的0-1偏好vs.顯式的評(píng)分基于鄰域的方法vs.基于模型的方法利用局部(鄰域)信息vs.基于全局信息在內(nèi)存中存儲(chǔ)(記憶)整個(gè)數(shù)據(jù)集vs.訓(xùn)練出抽象模型協(xié)同過濾基于鄰域(記憶)基于用戶基于項(xiàng)目圖擴(kuò)散基于模型矩陣分解關(guān)聯(lián)規(guī)則機(jī)器學(xué)習(xí)協(xié)同過濾的一般步驟收集數(shù)據(jù)目標(biāo):收集能反映用戶偏好的數(shù)據(jù)尋找鄰域:相似的用戶(或項(xiàng)目)計(jì)算推薦結(jié)果:根據(jù)鄰域信息計(jì)算推薦結(jié)果收集數(shù)據(jù)計(jì)算推薦結(jié)果尋找鄰域訓(xùn)練模型顯式反饋:用戶主動(dòng)地向系統(tǒng)表達(dá)其偏好,一般需要用戶在消費(fèi)完項(xiàng)目后進(jìn)行額外反饋隱式反饋:隱含用戶對(duì)項(xiàng)目偏好的行為數(shù)據(jù),是用戶在探索或消費(fèi)項(xiàng)目過程中正常操作收集用戶行為數(shù)據(jù)用戶行為類型特征作用評(píng)分

顯式整數(shù),取值[0,n]精確的用戶偏好點(diǎn)擊流

隱式一組用戶點(diǎn)擊一定程度上反映用戶的注意力和喜好

頁面停留時(shí)間隱式一組時(shí)間信息一定程度上反映用戶的注意力和喜好保存書簽

隱式布爾值,取值0或1較精確的用戶偏好標(biāo)記標(biāo)簽(Tag)隱式一些詞語可以分析出用戶的情感和興趣

購(gòu)買

隱式布爾值,取值0或1明確的用戶興趣對(duì)比分析:

數(shù)量、質(zhì)量基于用戶的協(xié)同過濾:User-CF基于用戶的CF(User-CF)基本思想:基于用戶對(duì)項(xiàng)目的歷史偏好找到相鄰(相似)的用戶將鄰居(相似)用戶喜歡的項(xiàng)目推薦給當(dāng)前用戶假設(shè):與我興趣相似的用戶喜歡的項(xiàng)目,我也會(huì)喜歡關(guān)鍵:尋找相似用戶用戶相似度度量用戶相似度

用戶/項(xiàng)目項(xiàng)目a項(xiàng)目b項(xiàng)目c項(xiàng)目d項(xiàng)目e用戶A?√?√?用戶B√√√用戶C√√√用戶D√√用戶相似度:示例計(jì)算假設(shè):用戶A購(gòu)買過項(xiàng)目{b,d},用戶B購(gòu)買過{a,b,c},…

用戶項(xiàng)目列表Ab,dBa,b,cCa,b,dDa,e

興趣度預(yù)測(cè)

用戶/項(xiàng)目項(xiàng)目a項(xiàng)目b項(xiàng)目c項(xiàng)目d項(xiàng)目e用戶A?√√用戶B√√√用戶C√√√用戶D√√假設(shè):用戶A購(gòu)買過項(xiàng)目{b,d},用戶B購(gòu)買過{a,b,c},…目標(biāo):為用戶A推薦項(xiàng)目

推薦排序:p(A,a)>p(A,c)>p(A,e)User-CF:計(jì)算推薦結(jié)果用戶項(xiàng)目列表Ab,dBa,b,cCa,b,dDa,e項(xiàng)目a項(xiàng)目b項(xiàng)目c項(xiàng)目d項(xiàng)目e用戶A?√?√用戶B√√√用戶C√√√用戶D√√

基于User-CF的推薦系統(tǒng)

用戶購(gòu)買項(xiàng)目Ab,dBa,b,cCa,b,dDa,eABCDA11/42/30B1/411/21/4C2/31/211/4D01/41/41用戶鄰域AB,CBA,CCA,BDB,C歷史行為數(shù)據(jù)用戶相似度(Jaccard)用戶鄰域(K=2)用戶相似度改進(jìn):IUF下面哪一組用戶更相似?用戶A和B都買過《新華字典》用戶C和D都買過《RecommenderSystemsHandbook》逆用戶頻率(InverseUserFrequency)基本思想:懲罰熱門項(xiàng)目?jī)蓚€(gè)用戶對(duì)冷門項(xiàng)目有過同樣行為更能說明他們興趣相似計(jì)算:懲罰系數(shù):fi

=

log

(n/ni)n表示總用戶數(shù);ni表示對(duì)項(xiàng)目i有過正反饋的用戶數(shù)

User-CF的缺點(diǎn)難以形成有意義的鄰域集合很多用戶兩兩之間只有很少的共同反饋而僅有的共同反饋的項(xiàng)目,往往是熱門項(xiàng)目(缺乏區(qū)分度)隨著用戶行為數(shù)據(jù)的增加,用戶間相似度可能變化很快離線(offline)算法難以瞬間更新推薦結(jié)果

基于項(xiàng)目的協(xié)同過濾:Item-CF基于項(xiàng)目的CF(Item-CF)基本思想:基于用戶對(duì)項(xiàng)目的反饋(偏好)尋找相似(相關(guān))的項(xiàng)目根據(jù)用戶的歷史反饋(偏好)行為,給他推薦相似的項(xiàng)目假設(shè):我過去喜歡某類項(xiàng)目,將來還會(huì)喜歡類似(相關(guān))項(xiàng)目關(guān)鍵:尋找相似(相關(guān))項(xiàng)目項(xiàng)目相似(相關(guān))度度量項(xiàng)目相似度

假設(shè):用戶A購(gòu)買過{b,d};用戶B購(gòu)買過項(xiàng)目{a,b,c};…依此構(gòu)建用戶-項(xiàng)目倒排表:項(xiàng)目a被用戶B、C、D購(gòu)買過,…項(xiàng)目相似度:示例計(jì)算項(xiàng)目相似度:用戶項(xiàng)目列表Ab,dBa,b,cCa,b,dDa,e項(xiàng)目用戶列表aB,C,DbA,B,CcBdA,CeDJaccardabcdea11/2b1/210c100d010e0001興趣度預(yù)測(cè)

用戶/項(xiàng)目項(xiàng)目a項(xiàng)目b項(xiàng)目c項(xiàng)目d項(xiàng)目e用戶A?√√用戶B√√√用戶C√√√用戶D√√基于Item-CF的推薦系統(tǒng)

項(xiàng)目相似度(Jaccard)abcdea11/21/31/41/3b1/211/32/30c1/31/3100d1/42/3010e1/30001項(xiàng)目用戶列表aB,C,DbA,B,CcBdA,CeD用戶-項(xiàng)目倒排表項(xiàng)目鄰域(K=3)項(xiàng)目鄰域ab,c,eba,c,dca,bda,bea項(xiàng)目相似度改進(jìn)

基于鄰域的評(píng)分預(yù)測(cè)評(píng)分預(yù)測(cè)

用戶\項(xiàng)目abcdA533?B3112C3333協(xié)同過濾的一般步驟收集數(shù)據(jù)目標(biāo):收集能反映用戶偏好的數(shù)據(jù)尋找鄰域:相似的用戶(或項(xiàng)目)計(jì)算推薦結(jié)果:根據(jù)鄰域信息計(jì)算預(yù)測(cè)評(píng)分收集數(shù)據(jù)計(jì)算推薦結(jié)果尋找鄰域訓(xùn)練模型User-CF:Item-CF:

用戶u有過評(píng)分的項(xiàng)目集合用戶u對(duì)項(xiàng)目i的評(píng)分余弦相似度(用戶)用戶u和v的余弦相似度:用戶u和v都有過評(píng)分的項(xiàng)目集合用戶abcdA533?B3112C3333

基于User-CF的評(píng)分預(yù)測(cè)

收集數(shù)據(jù)計(jì)算推薦結(jié)果尋找鄰域用戶abcdA533?B3112C3333

用戶u和v都有過評(píng)分的項(xiàng)目集合用戶u對(duì)項(xiàng)目i的評(píng)分用戶u的評(píng)分平均值Pearson相似度(用戶)用戶u和v的Pearson相似度:

Pearson相似度(用戶)

用戶abcdA533?B3112C3333預(yù)測(cè)修正基于用戶的CF基于項(xiàng)目的CF

用戶\項(xiàng)目abcdA533?B3112C3333評(píng)分預(yù)測(cè):示例

收集數(shù)據(jù)計(jì)算推薦結(jié)果尋找鄰域用戶\項(xiàng)目abcdA533?B3112C3333基于二部圖的協(xié)同過濾傳統(tǒng)鄰域方法的缺點(diǎn)范圍限制問題:只考慮和用戶有過共同評(píng)價(jià)(或購(gòu)買)項(xiàng)目的相鄰用戶計(jì)算空間復(fù)雜度較大:需在內(nèi)存中保存整個(gè)用戶-項(xiàng)目反饋(評(píng)分)集合(矩陣)數(shù)據(jù)稀疏/冷啟動(dòng)問題:用戶一般只會(huì)評(píng)價(jià)(或購(gòu)買)少量項(xiàng)目基于二部圖的協(xié)同過濾

用戶項(xiàng)目列表Ab,dBa,b,cCa,b,dDa,e激活擴(kuò)散假設(shè):用戶反饋過的項(xiàng)目都具有用戶偏好的某種屬性用戶偏好可以在圖中節(jié)點(diǎn)間傳遞基本思想:根據(jù)用戶偏好的傳遞性來挖掘用戶潛在偏好信息標(biāo)準(zhǔn)的協(xié)同過濾:路徑長(zhǎng)度=3,UA-Ib-UB-Ic擴(kuò)展路徑長(zhǎng)度,例如:路徑長(zhǎng)度=5,

UA-Ib-UB-Ic-UC-Ia用戶/項(xiàng)目abcdA--1--1B--111C1--1--激活擴(kuò)散:給定目標(biāo)用戶圖擴(kuò)散:從目標(biāo)用戶節(jié)點(diǎn)出發(fā),沿圖中邊進(jìn)行擴(kuò)散直至達(dá)到給定的最大擴(kuò)散步長(zhǎng)確定候選項(xiàng)目集:擴(kuò)散過程中到達(dá)過的所有項(xiàng)目,去除目標(biāo)用戶有過正反饋的項(xiàng)目項(xiàng)目排序:排序依據(jù):首次到達(dá)步數(shù)和到達(dá)次數(shù)如果首次到達(dá)步數(shù)相同(設(shè)為k),則根據(jù)k步到達(dá)次數(shù)做進(jìn)一步的排序激活擴(kuò)散:系統(tǒng)角度

步數(shù)\用戶ABCD3a,cd,ec,eb,c,d5a,c,ed,ec,eb,d,c用戶項(xiàng)目列表Ab,dBa,b,cCa,b,dDa,e物質(zhì)擴(kuò)散假設(shè):擴(kuò)散過程中每條邊的影響不完全相同可避免活躍用戶或熱門項(xiàng)目偏置的問題基本思想:將用戶的偏好屬性表示為節(jié)點(diǎn)所擁有的資源(或能量)每個(gè)節(jié)點(diǎn)平均地將自己擁有的物質(zhì)分享給相鄰的節(jié)點(diǎn),滿足守恒律物質(zhì)擴(kuò)散:系統(tǒng)角度

基于模型的協(xié)同過濾協(xié)同過濾算法分類基于鄰域的方法vs.基于模型的方法利用局部(鄰域)信息vs.基于全局信息在內(nèi)存中存儲(chǔ)(記憶)整個(gè)數(shù)據(jù)集vs.訓(xùn)練出抽象模型協(xié)同過濾基于鄰域(記憶)基于用戶基于項(xiàng)目圖擴(kuò)散基于模型矩陣分解關(guān)聯(lián)規(guī)則機(jī)器學(xué)習(xí)基本思想:利用集體智慧,借鑒相關(guān)人群的觀點(diǎn)進(jìn)行推薦基于關(guān)聯(lián)規(guī)則的協(xié)同過濾購(gòu)買尿布的顧客兩者都購(gòu)買的顧客購(gòu)買啤酒的顧客關(guān)聯(lián)規(guī)則關(guān)聯(lián):自然界中兩個(gè)事件同時(shí)或先后發(fā)生的一種聯(lián)系可分為:簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)關(guān)聯(lián)規(guī)則描述在交易中項(xiàng)目之間同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式通過量化的數(shù)字描述項(xiàng)目A的出現(xiàn)對(duì)項(xiàng)目B的出現(xiàn)有多大的影響形如

A

B的蘊(yùn)含式,A和B為不相交的項(xiàng)集,例:{尿布}

{啤酒}

基本概念全項(xiàng)集事務(wù)關(guān)聯(lián)規(guī)則事務(wù)數(shù)據(jù)集(如右圖)事務(wù)標(biāo)識(shí)TID:每一個(gè)事務(wù)關(guān)聯(lián)著一個(gè)標(biāo)識(shí)TIDItems1i1,i2,i32i1,i33i1,i44i2,i5,i6關(guān)聯(lián)規(guī)則度量名稱描述公式置信度

A出現(xiàn)的前提下,B出現(xiàn)的概率P(B|A)支持度

A、B同時(shí)出現(xiàn)的概率

P(A∪B)期望可信度

B出現(xiàn)的概率

P(B)改善度

置信度對(duì)期望可信度的比值

P(B|A)/P(B)規(guī)則:A

B購(gòu)買尿布的顧客兩者都購(gòu)買的顧客購(gòu)買啤酒的顧客{尿布}

{啤酒}?{牛奶}

{面包}?關(guān)聯(lián)規(guī)則度量

關(guān)聯(lián)規(guī)則度量:示例規(guī)則:規(guī)則:?

關(guān)聯(lián)規(guī)則挖掘目標(biāo):給定一個(gè)交易數(shù)據(jù)集D產(chǎn)生支持度和置信度分別大于給定閾值的關(guān)聯(lián)規(guī)則兩個(gè)參數(shù):最小支持度閾值:

min_support;最小置信度度閾值:

min_conf兩個(gè)基本步驟找出頻繁項(xiàng)集:支持度(S(I))大于最小支持度閾值的所有項(xiàng)集找出強(qiáng)關(guān)聯(lián)規(guī)則由頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則保留置信度大于最小置信度閾值的關(guān)聯(lián)規(guī)則

生成頻繁項(xiàng)集Na?vealgorithm:Brute-forceapproach計(jì)算每個(gè)可能項(xiàng)集的支持度:O(n?2m)把格結(jié)構(gòu)中每個(gè)項(xiàng)集作為候選項(xiàng)集:O(2m),m表示總項(xiàng)數(shù)針對(duì)每個(gè)候選項(xiàng)集,和每個(gè)事務(wù)比較以確定支持度計(jì)數(shù):O(n),n表示總事務(wù)數(shù)abdcabacadbcbdcd?abcabdbcdacdabcd{a,b,c,d}項(xiàng)目集的格結(jié)構(gòu)Apriori算法基本思想:利用先驗(yàn)(Apriori)原理減少候選項(xiàng)集的數(shù)量

迭代搜索:由頻繁(k-1)-項(xiàng)集構(gòu)建候選k-項(xiàng)集先驗(yàn)原理(AprioriPrinciple)若A是一個(gè)頻繁項(xiàng)集,則A的每一個(gè)子集都是一個(gè)頻繁項(xiàng)集若A是非頻繁項(xiàng)集,則A的所有超集都是非頻繁項(xiàng)集方法:

逐層(level-wise)搜索初始化:找到所有的頻繁1-項(xiàng)集迭代:擴(kuò)展頻繁(k-1)-項(xiàng)集得到候選k-項(xiàng)集剪枝:剪除不滿足最小支持度的候選項(xiàng)集abdcabacadbcbdcd?abcabdbcdacdabcd基于支持度的剪枝:示例剪枝Apriori算法:示例事務(wù)數(shù)據(jù)集計(jì)算支持度C1L1L2C2C2計(jì)算支持度C3L3計(jì)算支持度TID項(xiàng)目1b,d2a,b,c3a,b,d4a,e項(xiàng)集支持度{a}33{c}1kq2ce0c2{e}1項(xiàng)集支持度{a}33imigmsw2項(xiàng)集{a,b}{a,d}{b,d}項(xiàng)集支持度{a,b}2{a,d}1{b,d}2項(xiàng)集支持度{a,b}2{b,d}2項(xiàng)集{a,b,d}項(xiàng)集支持度{a,b,d}1設(shè)min_support=2剪枝{a}



{a}

smi4auoy6aokac

關(guān)聯(lián)規(guī)則的相關(guān)分析強(qiáng)關(guān)聯(lián)規(guī)則不一定有價(jià)值候選規(guī)則:

{a}支持度=50%,置信度≈67%=>強(qiáng)關(guān)聯(lián)規(guī)則規(guī)則的誤導(dǎo):整體購(gòu)買{a}的可能性是75%(期望可信度),比67%還大事實(shí):和{a}是負(fù)相關(guān)的TID項(xiàng)目1b,d2a,b,c3a,b,d4a,e項(xiàng)集支持度{a}33yswukqm2項(xiàng)集支持度{a,b}2{b,d}2提升度與相關(guān)度

TID項(xiàng)目1b,d2a,b,c3a,b,d4a,e項(xiàng)集支持度{a}33oy8um0e2項(xiàng)集支持度{a,b}2{b,d}2矩陣分解模型矩陣分解基本假設(shè):基于觀察到的所有用戶歷史行為數(shù)據(jù)可以推測(cè)出用戶和項(xiàng)目的潛在特征表示(畫像)基本思想:將歷史行為數(shù)據(jù)表示為矩陣:隱式反饋矩陣vs評(píng)分矩陣通過矩陣分解挖掘(學(xué)習(xí))用戶和項(xiàng)目的潛在表示,降低數(shù)據(jù)維度理論依據(jù):奇異值分解

(SingularValueDecomposition,SVD)1.3-1.31.6-0.5-2.41.72.5-0.10.51.2-2.1-1.10.9-1.9-0.31.5-1.41.00.80.10.30.8-0.61.00.41.11.92.30.3-2.0-1.5-1.7-1.7-1.1-1.5-0.5-0.3-1.60.20.10.3-0.52.21.1-.50.70.70.2~4531312445533212245452243442331隱語義模型LFM

隱語義空間:示例隱語義模型LFM:示例

1.3-1.31.6-0.5-2.41.72.5-0.10.51.2-2.1-1.10.9-1.9-0.31.5-1.41.00.80.10.30.8-0.61.00.41.11.92.30.3-2.0-1.5-1.7-1.7-1.1-1.5-0.5-0.3-1.60.20.10.3-0.52.21.1-.50.70.70.2~評(píng)分矩陣R用戶隱特征矩陣P

重構(gòu)評(píng)分矩陣R’45313124455332122454522434423315432452331312248345-16531302112621420534052233243406432443331隱語義模型LFM:目標(biāo)函數(shù)

12…i…n12..u..m

....

....

R

≈×m×nm×kk×n4531312445533212245452243442331過擬合與正則化

引導(dǎo)一些不重要的參數(shù)被減少到0或可以被忽略,以降低模型的復(fù)雜度奧卡姆剃刀原理:"如無必要,勿增實(shí)體",即"簡(jiǎn)單有效原理"參數(shù)學(xué)習(xí):隨機(jī)梯度下降法

Lossx

參數(shù)學(xué)習(xí):交替最小二乘法

概率矩陣分解模型概率矩陣分解模型(PMF)矩陣分解的困難:由于系統(tǒng)噪音存在,不可能做出完美的分解評(píng)分矩陣R中包含很多未知元素(稀疏矩陣)貝葉斯觀點(diǎn):評(píng)分矩陣R是系統(tǒng)觀測(cè)值用戶和項(xiàng)目隱特征矩陣U和V可看作系統(tǒng)內(nèi)部特征,是需要估計(jì)的參數(shù)目標(biāo):根據(jù)觀測(cè)得到的評(píng)分值R,推理系統(tǒng)隱藏的參數(shù)U和V概率分布假設(shè)

貝葉斯推理

參數(shù)估計(jì):最大后驗(yàn)概率估計(jì)(MAP)

限制性PMF

限制性PMF

基于矩陣分解的Top-N推薦動(dòng)機(jī)

基于正樣本過采樣的矩陣分解

基于負(fù)樣本欠采樣的矩陣分解基本思想:通過對(duì)負(fù)樣本進(jìn)行欠采樣(undersampling)從未觀測(cè)到反饋行為的樣本中采樣出一個(gè)和正樣本集相當(dāng)?shù)募献鳛樨?fù)樣本集采樣策略:隨機(jī)均勻:假設(shè)每個(gè)未觀測(cè)到反饋的樣本都是負(fù)樣本且影響相同面向用戶:某用戶反饋過的項(xiàng)目越多,則其還未反饋過的項(xiàng)目越可能是負(fù)樣本面向項(xiàng)目:項(xiàng)目越熱門,用戶越可能知道其存在,還未反饋就越可能是負(fù)樣本采樣策略

正反饋

權(quán)值“負(fù)”反饋

權(quán)重隨機(jī)均勻采樣面向用戶采樣面向項(xiàng)目采樣基于負(fù)樣本欠采樣的矩陣分解

采樣策略

正反饋

權(quán)值“負(fù)”反饋

權(quán)重隨機(jī)均勻采樣面向用戶采樣面向項(xiàng)目采樣基于內(nèi)容的推薦協(xié)同過濾的不足協(xié)同過濾的基本思想:利用集體智慧,根據(jù)相關(guān)人群的行為進(jìn)行推薦協(xié)同過濾的不足:依賴于對(duì)用戶和項(xiàng)目交互行為數(shù)據(jù)的挖掘項(xiàng)目冷啟動(dòng):無法向用戶推薦新項(xiàng)目(常見于新聞咨詢、短視頻等推薦)數(shù)據(jù)稀疏:難以(或無法)為不活躍的(反饋行為少的)用戶進(jìn)行推薦103基于內(nèi)容的推薦基本思想:為用戶推薦與他感興趣(過去喜好)的項(xiàng)目?jī)?nèi)容相似的項(xiàng)目發(fā)掘用戶曾經(jīng)喜歡過(例如:購(gòu)買過)項(xiàng)目的特性,并推薦類似的項(xiàng)目主要步驟:項(xiàng)目建模:構(gòu)建描述項(xiàng)目的結(jié)構(gòu)化特征用戶建模:根據(jù)用戶的歷史行為和相關(guān)項(xiàng)目信息,刻畫用戶的偏好特征生成推薦列表:根據(jù)項(xiàng)目特征和用戶偏好特征的匹配程度對(duì)項(xiàng)目進(jìn)行排序基于內(nèi)容的推薦系統(tǒng)框架基于記憶的推薦

關(guān)鍵:計(jì)算項(xiàng)目之間的(內(nèi)容)相似度基于向量空間模型的文本相似度向量空間模型VSM向量空間模型(VectorSpaceModel,VSM)一種把文本內(nèi)容表示為標(biāo)識(shí)符向量的代數(shù)模型將非結(jié)構(gòu)化文本描述數(shù)據(jù)進(jìn)行向量化表示,使其具備可計(jì)算性詞袋模型基本思想:BagofWords(BoW)將文檔看作是由若干詞構(gòu)成的一個(gè)集合,即以詞作為標(biāo)識(shí)符示例:三個(gè)簡(jiǎn)單的文本文檔:

文檔d1:Johnlikestoplayfootball.

文檔d2:Jacklikestoplaybasketball.

文檔d3:Jackplanstotravel.Johnplanstotraveltoo.基于這三個(gè)文本文檔(語料庫(kù)),可構(gòu)造一個(gè)詞典,如下:Dictionary={1.“John”,2.

“l(fā)ikes”,3.“to”,4.“play”,5.“football”,6.“Jack”,7.

“basketball”,8.“plans”,9.“travel”,10.“too”}文本文檔的詞袋表示:(結(jié)構(gòu)化表示)文檔d1:[1,1,1,1,1,0,0,0,0,0]文檔d2:[0,1,1,1,0,1,1,0,0,0]

文檔d3:[1,0,2,0,0,1,0,2,2,1]t1t2t3TF-IDF模型

齊普夫定律TF-IDF模型

IDF值

詞DF

(ni)IDF值t11000010t2500020.3t31010003t41100004TF-IDF模型:示例Frequencyd1d2d3d4car1040200auto520400football00820on5202010原始詞頻(Frequency)

d1d2d3d4car110.50auto0.50.510football000.21on0.50.50.50.5

IDFcar30.12auto30.12football20.30on40

d1d2d3d4car0.120.120.060auto0.060.060.120football000.060.3on0000模型改進(jìn)動(dòng)機(jī):包含所有詞的文檔向量表示通常會(huì)非常長(zhǎng)并且很稀疏簡(jiǎn)化詞典:去停用詞、詞干還原、特征選擇等去停用詞:停用詞是指不具備文檔區(qū)分度的詞語,這些幾乎在所有文檔中都會(huì)出現(xiàn)例如英文中的“a”、“the”、“on”等,中文中的“了”、“的”等詞干還原:用單詞的詞干替換單詞的變體,例如將“went”替換為“go”特征選擇:選取n個(gè)最具代表性的(關(guān)鍵)詞對(duì)文本進(jìn)行表示,以去掉文本中的噪聲

向量相似度度量

語義相似度基于語義的內(nèi)容相似度動(dòng)機(jī):基于關(guān)鍵詞的模型雖思想簡(jiǎn)單、實(shí)現(xiàn)容易,但其只關(guān)注詞形,忽略了詞義導(dǎo)致無法準(zhǔn)確地計(jì)算一些文本的相似度例如,“番茄”和“西紅柿”,詞形上完全不同,但詞義相同,即語義相同基于語義的文本相似度依賴于額外的語義知識(shí)基于知識(shí)庫(kù)(Knowledge-Based)vs.基于語料庫(kù)(Corpus-Based)基于顯式語義的模型vs.基于隱式語義(用法)的模型WordNet基于本體的內(nèi)容相似度

基于本體的相似度模型

基于網(wǎng)絡(luò)知識(shí)的文本相似度本體庫(kù)或語義信息網(wǎng)絡(luò)存在實(shí)體(本體)不全、更新速度慢等問題網(wǎng)絡(luò)知識(shí)(例如:維基百科、百度百科等)的覆蓋范圍更廣、更新速度更快顯式語義分析(ESA)顯式語義分析ESA算法:示例

GlossaryofCueSportsAmericanFootballStrategyBaseballBostonRedSoxd1204.556d21.11.21.20.5基于語料庫(kù)的文本相似度

基于知識(shí)的推薦動(dòng)機(jī)傳統(tǒng)推薦方法(基于內(nèi)容和基于協(xié)同過濾)適合于推薦書籍、電影、新聞等高頻、低成本的消費(fèi)品不適合推薦房產(chǎn)、汽車、專業(yè)設(shè)備、金融服務(wù)等低頻、高成本的項(xiàng)目原因:用戶冷啟動(dòng):無法向新用戶(無歷史行為數(shù)據(jù)的用戶)推薦項(xiàng)目低頻行為:歷史行為年代久遠(yuǎn),時(shí)間間隔長(zhǎng),缺乏參考意義風(fēng)險(xiǎn)高:購(gòu)買房產(chǎn)、汽車、金融服務(wù)等項(xiàng)目的成本和風(fēng)險(xiǎn)都很高基于知識(shí)的推薦基本思想:利用用戶的顯式需求和項(xiàng)目的領(lǐng)域知識(shí)為用戶進(jìn)行推薦三種基本類型:基于約束的推薦vs.基于效用的推薦vs.基于實(shí)例的推薦基于約束的推薦基于約束的推薦基本思想:根據(jù)用戶給定的顯式需求(約束集)推薦合適的候選項(xiàng)目把推薦任務(wù)看作是一個(gè)解決約束滿足問題的過程應(yīng)用領(lǐng)域:不經(jīng)常被購(gòu)買且產(chǎn)品復(fù)雜的領(lǐng)域例如:房產(chǎn)、專業(yè)設(shè)備、金融服務(wù)等示例:購(gòu)買筆記本電腦

用戶總是希望能夠以較低的成本(例如:價(jià)格)獲得較高質(zhì)量或性能的項(xiàng)目當(dāng)用戶對(duì)目標(biāo)領(lǐng)域還不夠了解時(shí),給出的約束集通常不切實(shí)際,找不到合適的項(xiàng)目約束放寬算法:MinRlex

01100011100111001001111011001101項(xiàng)目-約束滿足矩陣PQRS約束放寬算法:示例

01100011100111001001111011001101基于效用的推薦基于效用的推薦

基于效用的推薦:示例

取值性能經(jīng)濟(jì)性price01006size50100RAM40100GPUyes100no30

性能[40%]經(jīng)濟(jì)性[60%]效用值[排名]7.6

[4]8.5[1]7.6

[4]6.7[8]7.6[4]7.6

[4]8.4

[3]8.5

[1]評(píng)分規(guī)則項(xiàng)目效用基于實(shí)例的推薦基于實(shí)例的推薦

基于距離的匹配度度量

基于實(shí)例的推薦:示例

基于實(shí)例的推薦:示例

pricesizeRAMGPU匹配度排名1.00.50.81.00.2400.4620.42910.55040.9000.846010.70410.9650.615000.38670.65010.14300.38380.7200.3850.14310.614200.385110.60430.9150.7310.14300.423510.615000.3966混合推薦系統(tǒng)混合推薦目標(biāo):提升系統(tǒng)的準(zhǔn)確度和穩(wěn)定性動(dòng)機(jī):各種基礎(chǔ)推薦算法雖然各有利弊,但相互之間存在互補(bǔ)現(xiàn)狀:Netflix、Amazon、淘寶、頭條等平臺(tái)都采用混合推薦混合推薦:通過多種算法的組合來避免或彌補(bǔ)各自的弱點(diǎn)(取長(zhǎng)補(bǔ)短)推薦方法優(yōu)點(diǎn)缺點(diǎn)基于人口統(tǒng)計(jì)學(xué)能為新用戶推薦個(gè)性化程度低協(xié)同過濾個(gè)性化程度高結(jié)果具有新穎性數(shù)據(jù)稀疏問題冷啟動(dòng)問題基于內(nèi)容能推薦新項(xiàng)目容易解釋用戶冷啟動(dòng)結(jié)果缺乏新穎性基于知識(shí)沒有冷啟動(dòng)問題結(jié)果具有可解釋性需要人工交互

知識(shí)獲取困難Netflix百萬美金公開賽$1millionprizefora10%improvementoverNetflix’scurrentmovierecommender/classifier(MSE=0.9514)1個(gè)月,接近5%2個(gè)月,接近6%6個(gè)月,接近7%1年,接近8%3年,超過10%一個(gè)由工程師和統(tǒng)計(jì)學(xué)家組成的七人團(tuán)隊(duì)奪得了大獎(jiǎng)理論依據(jù)與方法分類誤差分析

不同推薦模型的信息源示意圖只有模型組合才可能還原問題的全貌!混合/組合方法分類根據(jù)是否使用標(biāo)注樣本:有監(jiān)督組合vs.無監(jiān)督組合根據(jù)基模型之間的依賴關(guān)系:并行式混合vs.串行式混合vs.整體式混合混合/組合并行式串行式整體式混合/組合有監(jiān)督無監(jiān)督常見無監(jiān)督組合模型包括:各種Bagging算法;例如隨機(jī)森林(RandomForest)等無監(jiān)督組合訓(xùn)練測(cè)試假設(shè)各個(gè)基模型的貢獻(xiàn)相同常見有監(jiān)督組合模型:各種Boosting和Stacking算法;例如AdaBoost、GBDT等有監(jiān)督組合訓(xùn)練測(cè)試從標(biāo)注數(shù)據(jù)中學(xué)習(xí)組合模型并行式vs.串行式vs.整體式并行式混合:各基模型可獨(dú)立、并行地進(jìn)行訓(xùn)練或構(gòu)造串行式混合:后面基模型的訓(xùn)練或構(gòu)造依賴于前面的基模型整體式混合:只包含一個(gè)推薦單元通過預(yù)處理和組合多個(gè)知識(shí)源將多模型整合在一起并行式混合并行式混合基本思想:直接對(duì)已有推薦器(基推薦器)的輸出結(jié)果進(jìn)行混合無需對(duì)現(xiàn)有基推薦器做任何修改方法分類:加權(quán)式混合vs.切換式混合vs.排序混合加權(quán)式混合

加權(quán)推薦(0.5:0.5)項(xiàng)目171項(xiàng)目24.52項(xiàng)目33.53項(xiàng)目40.54推薦器1項(xiàng)目161項(xiàng)目20項(xiàng)目332項(xiàng)目413推薦器2項(xiàng)目182項(xiàng)目291項(xiàng)目343項(xiàng)目40加權(quán)式混合

HongzhiLiu,YingpengDu,ZhonghaiWu.AEM:AttentionalEnsembleModelforPersonalizedClassifierWeightLearning,

PatternRecognition,96,10697:1-8,2019切換式混合(Switching)動(dòng)機(jī):在不同場(chǎng)景,針對(duì)不同用戶,各基推薦器的性能表現(xiàn)可能有較大差異活躍用戶、新用戶(不活躍用戶)、新項(xiàng)目(冷門項(xiàng)目)、熱門項(xiàng)目基本思想:在不同的場(chǎng)景下選擇不同的基推薦器切換式混合(Switching)

排序混合動(dòng)機(jī):加權(quán)式混合要求各基推薦器的輸出在同一范圍內(nèi)并且采用相同的量綱基本思想:采用基于排序的方式來進(jìn)行歸一化處理對(duì)各基推薦器輸出的推薦(排序)列表進(jìn)行混合排序,以形成最終排序列表常用方法:波達(dá)計(jì)數(shù)(BordaCount)、凱梅尼優(yōu)化(KemenyOptimization)、成對(duì)投票表決波達(dá)計(jì)數(shù)法(BordaCount)Borda

Count:

score(a)

=

4+

5+

3=12;

score(b)

=

3+3+5=11;

…基本思想:根據(jù)各排序列表對(duì)項(xiàng)目進(jìn)行重新打分,并采用加和的方式計(jì)算最終得分;Top-N推薦:排在第1位的得N分,排在第2位的得N-1分,…,排在最后一位的得1分串行式混合串行式混合基本假設(shè):基推薦器之間存在一定的依賴關(guān)系后面的基推薦器的構(gòu)造或輸出依賴于前面的基推薦器的輸出方法分類:級(jí)聯(lián)過濾

vs.級(jí)聯(lián)學(xué)習(xí)級(jí)聯(lián)過濾

級(jí)聯(lián)過濾推薦結(jié)果項(xiàng)目181項(xiàng)目20項(xiàng)目342項(xiàng)目40推薦器1項(xiàng)目161項(xiàng)目20項(xiàng)目332項(xiàng)目413推薦器2項(xiàng)目182項(xiàng)目291項(xiàng)目343項(xiàng)目40后續(xù)推薦器不會(huì)引入額外項(xiàng)目

級(jí)聯(lián)過濾基本思想:基推薦器按一定規(guī)則排序,后面的推薦器對(duì)前面推薦器的結(jié)果進(jìn)行優(yōu)化關(guān)鍵:基推薦器的選擇和排序:算法效果、算法復(fù)雜度召回-排序框架就是典型的級(jí)聯(lián)過濾方法級(jí)聯(lián)學(xué)習(xí)動(dòng)機(jī):級(jí)聯(lián)過濾是一種嚴(yán)格基于優(yōu)先級(jí)的混合方法如果前面(高優(yōu)先級(jí))的推薦器出現(xiàn)錯(cuò)誤(刪除了一些相關(guān)項(xiàng)目),后面的推薦器將無法挽回基本思想:在應(yīng)用或驗(yàn)證階段和加權(quán)式混合類似不同之處在于訓(xùn)練階段,級(jí)聯(lián)學(xué)習(xí)依賴于串行(逐個(gè))訓(xùn)練各基推薦器常用方法:Boosting集成模型,例如:AdaBoost、GBDT等級(jí)聯(lián)學(xué)習(xí):

Adaboost在每一輪基學(xué)習(xí)器訓(xùn)練完成后都會(huì)更新樣本權(quán)重,再訓(xùn)練下一個(gè)基學(xué)習(xí)器;對(duì)于分類錯(cuò)誤的樣本,加大其對(duì)應(yīng)權(quán)重;而對(duì)于分類正確的樣本,降低其權(quán)重整體式混合整體式混合基本思想:通過對(duì)算法進(jìn)行內(nèi)部調(diào)整,將多個(gè)知識(shí)源或多種方法整合在一起整體上看只包含一個(gè)推薦單元常用方法:特征組合

vs.特征擴(kuò)充

vs.基于圖模型的混合特征組合

特征擴(kuò)充MelvilleP,et

al.Content-boostedcollaborativefilteringforimprovedrecommendations,

AAAI2002:187-192.基于圖模型的混合基于圖模型的混合基本思想:利用圖(Graph)將多種不同的信息整合在一起進(jìn)行統(tǒng)一表示將推薦問題轉(zhuǎn)化為一個(gè)圖搜索(GraphSearch)或邊預(yù)測(cè)問題目標(biāo):使推薦具有一個(gè)全面、統(tǒng)一的表示,能靈活支持多種推薦方法基于雙層圖模型的混合推薦基本思想:對(duì)用戶-項(xiàng)目二部圖進(jìn)行擴(kuò)展,得到一個(gè)雙層圖通過查找與目標(biāo)用戶節(jié)點(diǎn)高度關(guān)聯(lián)的項(xiàng)目節(jié)點(diǎn),進(jìn)而得出推薦列表雙層圖:一層為用戶層,另一層為項(xiàng)目層兩層之間的邊為層間連接(表示用戶對(duì)項(xiàng)目的反饋)用戶層中每個(gè)節(jié)點(diǎn)代表一個(gè)用戶,用戶節(jié)點(diǎn)之間的邊表示用戶之間的相似關(guān)系項(xiàng)目層中每個(gè)節(jié)點(diǎn)代表一個(gè)項(xiàng)目,項(xiàng)目節(jié)點(diǎn)之間的邊表示項(xiàng)目之間的相似關(guān)系項(xiàng)目層(基于內(nèi)容)用戶層(基于人口統(tǒng)計(jì)學(xué))用戶反饋行為基于雙層圖模型的混合推薦基于內(nèi)容的推薦:從與目標(biāo)用戶關(guān)聯(lián)的項(xiàng)目節(jié)點(diǎn)開始,通過項(xiàng)目層的邊探索其他相關(guān)項(xiàng)目基于用戶的協(xié)同過濾:從目標(biāo)用戶節(jié)點(diǎn)開始,先在用戶層搜索相似用戶,再通過層之間的邊探索相關(guān)項(xiàng)目混合推薦:從目標(biāo)用戶節(jié)點(diǎn)開始,通過利用圖中所有(三種)類型的邊探索相關(guān)項(xiàng)目項(xiàng)目層(基于內(nèi)容)用戶層(基于人口統(tǒng)計(jì)學(xué))用戶反饋行為基于內(nèi)容推薦基于用戶協(xié)同過濾目標(biāo)用戶協(xié)同用戶推薦系統(tǒng)評(píng)測(cè)評(píng)測(cè)視角針對(duì)同一問題,不同推薦算法可能會(huì)生成不同的推薦列表這些推薦結(jié)果是否合理?哪個(gè)更好?從不同參與方的角度,需構(gòu)建不同的評(píng)測(cè)方法和評(píng)價(jià)指標(biāo)用戶的角度、商家或平臺(tái)的角度、算法研究員的角度等項(xiàng)目層(基于內(nèi)容)用戶層(基于人口統(tǒng)計(jì)學(xué))用戶反饋行為基于內(nèi)容推薦基于用戶協(xié)同過濾目標(biāo)用戶協(xié)同用戶項(xiàng)目流行度頭部長(zhǎng)尾部從長(zhǎng)尾部分推薦項(xiàng)目評(píng)測(cè)視角用戶好的推薦系統(tǒng)應(yīng)該能降低其信息獲取的交互成本應(yīng)該優(yōu)先從“長(zhǎng)尾”區(qū)域選擇項(xiàng)目進(jìn)行推薦,推薦用戶可能真正喜歡的項(xiàng)目商家或平臺(tái)好的推薦系統(tǒng)應(yīng)能增加“用戶點(diǎn)擊率”、“用戶轉(zhuǎn)化率”、“平臺(tái)活躍度”等能夠?yàn)樯碳一蚱脚_(tái)帶來收益或利潤(rùn)算法研究員好的推薦系統(tǒng)應(yīng)該能夠準(zhǔn)確預(yù)測(cè)用戶對(duì)項(xiàng)目的偏好程度并且在某些指標(biāo)上表現(xiàn)得比現(xiàn)有的系統(tǒng)更好實(shí)驗(yàn)方法在線實(shí)驗(yàn)A/B測(cè)試(A/BTests):一種典型的在線實(shí)驗(yàn)方法,本質(zhì)是分離式組間實(shí)驗(yàn),也叫對(duì)照實(shí)驗(yàn)將具有相同特征的用戶均勻分配到各實(shí)驗(yàn)組,以避免出現(xiàn)數(shù)據(jù)偏差優(yōu)缺點(diǎn):保證所有算法所處環(huán)境的一致性;實(shí)驗(yàn)結(jié)果客觀、準(zhǔn)確成本高、風(fēng)險(xiǎn)大,容易導(dǎo)致用戶流失用戶調(diào)查基本思想:通過尋找少量的真實(shí)用戶或領(lǐng)域?qū)<遥瑢?duì)系統(tǒng)進(jìn)行試用觀測(cè)并記錄用戶的行為以及他們對(duì)系統(tǒng)滿意度的反饋(問卷調(diào)查)分析試用用戶的行為和反饋來了解被測(cè)系統(tǒng)的性能優(yōu)缺點(diǎn):不會(huì)因體驗(yàn)較差而導(dǎo)致真實(shí)用戶流失能夠了解真實(shí)用戶對(duì)系統(tǒng)的評(píng)價(jià)時(shí)間周期相對(duì)較長(zhǎng),需要邀請(qǐng)用戶、用戶試用、用戶反饋、反饋分析離線實(shí)驗(yàn)假設(shè):收集到的用戶歷史行為與系統(tǒng)部署后的用戶行為相似基本思想:通過用戶的歷史行為數(shù)據(jù)來模擬用戶與系統(tǒng)的交互行為優(yōu)點(diǎn):不需要真實(shí)用戶的參與,成本低、速度快過濾不合適算法,為成本高的用戶調(diào)查和在線實(shí)驗(yàn)提供較小的算法候選集評(píng)價(jià)指標(biāo)Top-N推薦評(píng)價(jià)指標(biāo)通常采用分類準(zhǔn)確度指標(biāo)或是基于排序的指標(biāo)例如:精確度、召回率、AUC、MAP、nDCG等評(píng)分預(yù)測(cè)評(píng)價(jià)指標(biāo)基于預(yù)測(cè)評(píng)分和真實(shí)評(píng)分的誤差來構(gòu)建評(píng)價(jià)指標(biāo)例如:平均絕對(duì)誤差、平均平方誤差(均方誤差)、均方根誤差等其他評(píng)價(jià)指標(biāo)例如:多樣性、新穎性、覆蓋率等評(píng)價(jià)指標(biāo):分類準(zhǔn)確率分類準(zhǔn)確度

混淆矩陣真實(shí)值預(yù)測(cè)值分類準(zhǔn)確度

混淆矩陣真實(shí)值預(yù)測(cè)值F1與F-Measure

ROC曲線

縱軸:橫軸:0.01.01.0ROC曲線AUC真陽性率TPR假陽性率FPR混淆矩陣真實(shí)值正例(Positive)負(fù)例(Negative)預(yù)測(cè)值正例(Positive)負(fù)例(Negative)AUC值

評(píng)價(jià)指標(biāo):排序、評(píng)分及其他基于排序的評(píng)價(jià)指標(biāo)

基于排序的評(píng)價(jià)指標(biāo):MAP

基于排序的評(píng)價(jià)指標(biāo):nDCG

基于排序的評(píng)價(jià)指標(biāo):nDCG

評(píng)分預(yù)測(cè)評(píng)價(jià)指標(biāo)評(píng)分預(yù)測(cè)準(zhǔn)確度

符號(hào)含義用戶u對(duì)項(xiàng)目i的實(shí)際評(píng)分系統(tǒng)的預(yù)測(cè)評(píng)分測(cè)試數(shù)據(jù)集評(píng)分預(yù)測(cè)準(zhǔn)確度:歸一化

符號(hào)含義用戶評(píng)分區(qū)間的最大值用戶評(píng)分區(qū)間的最小值其它常用評(píng)價(jià)指標(biāo)

公開數(shù)據(jù)集離線實(shí)驗(yàn)數(shù)據(jù)集動(dòng)機(jī):為離線驗(yàn)證一個(gè)算法或系統(tǒng)的性能,需在實(shí)驗(yàn)數(shù)據(jù)集上對(duì)其進(jìn)行評(píng)測(cè)針對(duì)不同類型的算法,需要使用不同類型的數(shù)據(jù)集為驗(yàn)證算法的穩(wěn)定性,通常還需在多個(gè)不同的數(shù)據(jù)集上對(duì)其進(jìn)行評(píng)測(cè)數(shù)據(jù)來源:常用數(shù)據(jù)集:MovieLens、Netflix、Last.FM、AmazonProduct等各種數(shù)據(jù)競(jìng)賽平臺(tái),例如Kaggle、天池等MovieLens數(shù)據(jù)集推薦系統(tǒng)領(lǐng)域最為常用的實(shí)驗(yàn)數(shù)據(jù)集MovieLens:一個(gè)非商業(yè)性的、以研究為目的的實(shí)驗(yàn)性電影推薦網(wǎng)站允許用戶對(duì)自己看過的電影進(jìn)行評(píng)分,評(píng)分區(qū)間為1~5分根據(jù)用戶歷史評(píng)分信息,預(yù)測(cè)對(duì)未看電影的評(píng)分和并為其推薦電影目前該數(shù)據(jù)集有三個(gè)不同規(guī)模的子數(shù)據(jù)集(數(shù)據(jù)采樣)MovieLens-100K:943個(gè)用戶對(duì)1682部電影的十萬條評(píng)分?jǐn)?shù)據(jù)MovieLens-1M:6040個(gè)用戶對(duì)3900部電影的一百萬條評(píng)分?jǐn)?shù)據(jù)MovieLens-10M:71567個(gè)用戶對(duì)10681部電影的一千萬條評(píng)分?jǐn)?shù)據(jù)每個(gè)用戶至少給20部電影評(píng)過分(刪除評(píng)分過少用戶,數(shù)據(jù)過濾)/datasets/movielens/消費(fèi)者評(píng)論數(shù)據(jù)集Epinions數(shù)據(jù)集:E是一個(gè)知名的消費(fèi)者評(píng)論網(wǎng)站用戶可以在該網(wǎng)站上評(píng)價(jià)(評(píng)論、評(píng)分)自己使用過的商品其他用戶可以查看這些打分和評(píng)論,并給出肯定或者反對(duì)的評(píng)價(jià)網(wǎng)站會(huì)為每個(gè)用戶建立一個(gè)信任用戶列表數(shù)據(jù)集特色:包含評(píng)分?jǐn)?shù)據(jù)、評(píng)論文本、社交關(guān)系等下載地址:/epinions.htmlYelp數(shù)據(jù)集:Yelp是美國(guó)一個(gè)著名的商戶點(diǎn)評(píng)網(wǎng)站囊括各地餐館、購(gòu)物中心、酒店、旅游等領(lǐng)域的商戶用戶可以在Yelp網(wǎng)站上給商戶打分、提交評(píng)論、交流購(gòu)物體驗(yàn)等數(shù)據(jù)集特色:包含用戶評(píng)分、評(píng)論文本、商戶屬性等下載地址:/dataset電商數(shù)據(jù)集Amazonproduct數(shù)據(jù)集:電商評(píng)論數(shù)據(jù)集從亞馬遜(Amazon)電商平臺(tái)上爬取的用戶-商品數(shù)據(jù)用戶對(duì)商品的評(píng)論信息(評(píng)分、文本、投票等)商品的屬性信息(描述、類別、價(jià)格、品牌和特性)包含多種產(chǎn)品數(shù)據(jù)(子集):書籍、電子產(chǎn)品、家居廚房等下載地址:/data/amazon/links.htmlRetailrocket數(shù)據(jù)集:電商用戶行為數(shù)據(jù)集包含1407580個(gè)用戶對(duì)商品的2756101次行為和對(duì)應(yīng)的時(shí)間戳多種類型的行為:瀏覽、添加購(gòu)物車、購(gòu)買等包含商品屬性信息:類別、有效性等下載地址:/retailrocket/ecommerce-dataset基于位置的社交數(shù)據(jù)集Foursquare和Gowalla為用戶提供基于地理位置信息的社交網(wǎng)絡(luò)服務(wù)允許用戶通過手機(jī)與好友分享自己的位置由此產(chǎn)生大規(guī)模的基于位置的用戶社交網(wǎng)絡(luò)關(guān)系數(shù)據(jù)和用戶軌跡數(shù)據(jù)每個(gè)用戶信息包含:用戶的社交關(guān)系,歷史簽到地點(diǎn)和對(duì)應(yīng)的簽到時(shí)間數(shù)據(jù)集特色:包含時(shí)空維度信息,為基于軌跡數(shù)據(jù)的推薦提供了驗(yàn)證數(shù)據(jù)源下載地址:Foursquare數(shù)據(jù)集:/datasets/FoursquareGowalla數(shù)據(jù)集:

/data/loc-Gowalla.html

其它常用數(shù)據(jù)集JesterJoke數(shù)據(jù)集JesterJoke是一個(gè)網(wǎng)上推薦和分享笑話的網(wǎng)站評(píng)分區(qū)間為-10~10的實(shí)數(shù)難度較低:數(shù)據(jù)稠密(稀疏度只有55.9%),包含的項(xiàng)目數(shù)少下載地址:/dataset/Netflix數(shù)據(jù)集來自于電影租賃網(wǎng)站Netflix大約10億項(xiàng)評(píng)分(1~5分)以及每項(xiàng)評(píng)分對(duì)應(yīng)的時(shí)間戳難度大:數(shù)據(jù)規(guī)模巨大,且包含大量的冷啟動(dòng)用戶下載地址:/netflix-inc/netflix-prize-data其它:Last.FM音樂推薦、Book-Crossing圖書社區(qū)、豆瓣點(diǎn)評(píng)社區(qū)等基于排序?qū)W習(xí)的推薦A=3.6B=2.6A=2.5B=2.6RMSE(S1)>RMSE(S2)A點(diǎn)級(jí)排序模型(Pointwise)

對(duì)級(jí)排序模型(Pairwise)

列表級(jí)排序模型(Listwise)

Pointwisevs.Pairwisevs.Listwise

點(diǎn)級(jí)排序?qū)W習(xí)對(duì)級(jí)排序?qū)W習(xí)列表級(jí)排序?qū)W習(xí)信息完全度不完全部分完全完全輸入輸出樣本復(fù)雜度性能表現(xiàn)差中好對(duì)級(jí)排序?qū)W習(xí)模型基本思想排序模型:f(x)原始用戶-項(xiàng)目相關(guān)度(評(píng)分)空間用戶對(duì)項(xiàng)目對(duì)的相對(duì)偏好空間對(duì)級(jí)排序?qū)W習(xí):基本框架

對(duì)級(jí)排序?qū)W習(xí):基本框架

RankingSVM

RankBoost

RankNet

貝葉斯個(gè)性化排序

BayesianPersonalizedRanking

(BPR)隱反饋矩陣&用戶相對(duì)偏好矩陣目標(biāo)函數(shù)

目標(biāo)函數(shù)

目標(biāo)函數(shù)

參數(shù)學(xué)習(xí)

算法偽代碼

協(xié)同對(duì)級(jí)排序?qū)W習(xí)CPLR

CollaborativePairwiseLearningtoRank動(dòng)機(jī)與假設(shè)動(dòng)機(jī):BPR算法的不足對(duì)于給定用戶u,所有未觀測(cè)到反饋的項(xiàng)目都是負(fù)樣本(即用戶u不喜歡)且用戶u對(duì)它們的偏好相同對(duì)于給定用戶u,所有觀測(cè)到反饋的項(xiàng)目都是正樣本(即用戶u喜歡)且用戶u對(duì)它們的偏好相同用戶之間相互獨(dú)立,互不影響基本假設(shè):借鑒協(xié)同過濾CF的思想用戶將會(huì)偏好于與他有相同或相似興趣的其他用戶喜好的項(xiàng)目用戶過去喜好過某項(xiàng)目,在將來也會(huì)喜歡相同或類似的項(xiàng)目基本思想

目標(biāo)函數(shù)

目標(biāo)函數(shù)

性能評(píng)估當(dāng)β=0時(shí),即不考慮協(xié)同集和剩余集之間的偏好關(guān)系時(shí),CPLR退化為BPR列表級(jí)排序?qū)W習(xí)模型算法分類基本思想:直接對(duì)項(xiàng)目的排序列表進(jìn)行優(yōu)化有兩種主要優(yōu)化方式:排序指標(biāo)優(yōu)化vs排序損失優(yōu)化直接對(duì)基于排序的評(píng)價(jià)指標(biāo)進(jìn)行優(yōu)化例如CLiMF算法、P-Push算法、CofiRank算法等通過代理損失函數(shù)或是函數(shù)不等式放縮將其轉(zhuǎn)化為連續(xù)函數(shù)構(gòu)造針對(duì)排序的目標(biāo)(損失)函數(shù)進(jìn)行優(yōu)化RankCosine算法使用正確排序與預(yù)測(cè)排序之間余弦相似度作為目標(biāo)函數(shù)ListNet算法使用正確排序與預(yù)測(cè)排序之間的KL距離作為損失函數(shù)P-PushCR算法

指標(biāo)平滑化

基于情境感知的推薦推薦系統(tǒng)的目標(biāo)在恰當(dāng)?shù)臅r(shí)間、恰當(dāng)?shù)牡攸c(diǎn)、恰當(dāng)?shù)膱?chǎng)合,通過恰當(dāng)?shù)拿浇?,給用戶推薦能滿足用戶偏好、需求和意圖的信息情境信息能對(duì)某些事情產(chǎn)生影響的條件和環(huán)境沒有形成統(tǒng)一的定義,刻畫情感和環(huán)境的因素統(tǒng)稱為情境信息除“用戶-項(xiàng)目”評(píng)分信息外,影響推薦系統(tǒng)且能輔助預(yù)測(cè)的所有因素常用情境信息:物理:時(shí)間、地點(diǎn)(位置)、天氣、溫度、

用戶行為等社交:和什么人在一起(同伴)交互媒體:訪問設(shè)備

(PC、Pad)、正瀏覽的媒體類型(文本、圖片、視頻)情緒:用戶當(dāng)前的心情、用戶意圖(購(gòu)買意圖)、用戶體驗(yàn)、認(rèn)知情境=(內(nèi)在)情感+(外部)環(huán)境情境信息獲取與表示情境信息:獲取顯式獲取通過直接問問題或引導(dǎo)性的方式顯式獲得這些信息例如,音樂推薦中通過提供帶標(biāo)簽的音樂集引導(dǎo)用戶自己選擇當(dāng)前的心情:輕松、傷感、安靜、興奮等,和當(dāng)前的場(chǎng)景:散步、學(xué)習(xí)、駕駛、睡前等隱式獲取隱式地從數(shù)據(jù)或環(huán)境中獲得例如:通過手機(jī)GPS獲得用戶位置信息;利用事務(wù)時(shí)間戳獲得時(shí)間情境信息推理獲取通過統(tǒng)計(jì)或機(jī)器學(xué)習(xí)方法推斷出情境信息例如:根據(jù)用戶當(dāng)前所處地點(diǎn)類型(公司vs家庭)和當(dāng)前時(shí)間(工作時(shí)間vs休息時(shí)間)可推理出用戶當(dāng)前意圖:工作需要還是生活所需情境信息表示:數(shù)據(jù)立方體數(shù)據(jù)立方體的每個(gè)維都有一個(gè)關(guān)系表與之相關(guān)聯(lián)每類情境信息對(duì)應(yīng)于數(shù)據(jù)立方體的一個(gè)維情境信息可以看成維表所有屬性笛卡爾積的子集情境信息表示:樹狀層次結(jié)構(gòu)

融合情境信息的推薦系統(tǒng)問題定義

情境預(yù)過濾基本過程:利用情境信息過濾掉無關(guān)的“用戶-項(xiàng)目”評(píng)分?jǐn)?shù)據(jù)從而構(gòu)建符合當(dāng)前情境的數(shù)據(jù)集然后采用傳統(tǒng)推薦算法以過濾后的數(shù)據(jù)集為輸入產(chǎn)生結(jié)果例如:基于時(shí)間預(yù)過濾的推薦D[Time=t](User,Item,Rating)表示過濾后的評(píng)分?jǐn)?shù)據(jù)集稱為情境化分片(contextualsegment)情境可以泛化:周一晚上10:00→周一晚上→工作日晚上→晚上→任意時(shí)間女朋友→朋友→熟人→任意伙伴情境后過濾基本過程:在推薦生成階段不考慮情境信息的影響基于傳統(tǒng)推薦模型生成Top-N推薦列表對(duì)Top-N推薦列表進(jìn)行調(diào)整以生成符合情境的最終推薦結(jié)果兩種調(diào)整方式:(在給定的情境下)從Top-N推薦列表中過濾掉無關(guān)的項(xiàng)目(基于給定的情境)調(diào)整Top-N推薦列表的排序情境化建模將情境信息融入推薦生成過程直接在推薦函數(shù)中把情境信息作為預(yù)測(cè)用戶評(píng)分的顯式因素來考慮生成的是真正的多維推薦函數(shù)與情境預(yù)過濾和情境后過濾相比:需處理高維數(shù)據(jù),最為復(fù)雜卻最能有效挖掘用戶、項(xiàng)目、情境三者之間的關(guān)聯(lián)關(guān)系適用于情境信息與用戶偏好耦合度緊密的情況兩種形式:基于鄰域的方法vs.基于模型的方法基于鄰域的情境化建模

基于模型的情境化建模一些傳統(tǒng)模型可以擴(kuò)展到多維空間中矩陣分解

=>張量分解、因子分解機(jī)(FactorizationMachines)基于機(jī)器學(xué)習(xí)算法的模型=>Bayes模型、邏輯回歸、SVM、…隨著維度的增加待估計(jì)參數(shù)將呈指數(shù)級(jí)增長(zhǎng)=>馬爾可夫鏈-蒙特卡羅模型(MCMC)基于張量分解的推薦基本思想:將傳統(tǒng)的用戶-項(xiàng)目二維模型s:User×Item→Rating擴(kuò)展為包含情境的多維模型s:User×Item×Context→Rating基于張量表示模型,通過張量分解算法,得到用戶在不同情境對(duì)項(xiàng)目的偏好程度張量:一個(gè)幾何量,由在某參考坐標(biāo)系中一定數(shù)目的分量的集合所規(guī)定向量Vector:秩為1的張量(有大小和一個(gè)方向)Dyad:秩為2的張量(有大小和兩個(gè)方向)Triad:秩為3的張量(有大小和三個(gè)方向)因子分解機(jī)FM

基于FM的情境化建模

基于FM的情境化建模:示例

DeepFM算法動(dòng)機(jī):為了同時(shí)考慮高階特征組合與低階特征組合基本思想:將FM與DNN相結(jié)合,利用多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)高階特征之間的相互關(guān)系兩部分組成:FM部分與DNN部分兩者

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論