




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
薦喙薦喙-'5'■!
|||=廿應(yīng)推薦算法調(diào)研報告推薦系統(tǒng)概述1.1推薦系統(tǒng)定義面對互聯(lián)網(wǎng)上海量的信息資源,人們往往很難從海量的信息中得到符合自身需求的信息,從而降低了信息的使用效率,也就產(chǎn)生了所謂的“信息過(InformationOverload)問題。推薦系統(tǒng)的基本原理是,首先對用戶的歷史行為數(shù)據(jù),如瀏覽、購買、評論和打分等情況進(jìn)行保存,然后根據(jù)用戶的這些使用記錄挖掘用戶偏好信息,分析用戶的喜好并構(gòu)建用戶興趣模型。當(dāng)用戶瀏覽信息時,它可為不同的用戶主動推薦其可能感興趣的信息,提供個性化的服務(wù),以滿足不同用戶的不同需求。搜索引擎和推薦系統(tǒng)的本質(zhì)區(qū)別是:搜索引擎需要用戶手動查找信息,相當(dāng)于用戶去“Pull”信息,用戶是主動的,搜索引擎是被動的;而推薦系統(tǒng)自動提供信息給用戶,相當(dāng)于推薦系統(tǒng)去“Push”信息,推薦系統(tǒng)是主動的,用戶是被動的。推薦算法推薦系統(tǒng)有3個重要的模塊:用戶建模模塊、推薦對象建模模塊、模塊。通用的推薦系統(tǒng)模型流程如圖1所示推薦算法J刪人侗好O-U? aIH1推抹樂址通川検唄推薦系統(tǒng)把用戶模型中興趣需求信息和推薦對象模型中的特征信息匹配,同時使用相應(yīng)的推薦算法進(jìn)行計算篩選,找到用戶可能感興趣的推薦對象,然后推薦給用戶。用戶模型是關(guān)于用戶信息需求、興趣、偏好和使用習(xí)慣等知識的表示模型,為了保證用戶模型的準(zhǔn)確性和時效性,用戶建模部件還要負(fù)責(zé)收集用戶的反饋信息,實現(xiàn)對用戶模型的實時或周期性更新。推薦對象的描述文件中的對象特征和用戶的描述文件中的興趣偏好進(jìn)行推薦計算,獲得推薦對象的推薦度,所以推薦對象的描述文件與用戶的描述文件密切相關(guān),通常的做法是用同樣的方法來表達(dá)用戶的興趣偏好和推薦對象。推薦算法是完成推薦的核心部件,其實現(xiàn)用戶模型與信息對象模型之間的匹配,對用戶未訪問的信息項目進(jìn)行評分預(yù)測,并依據(jù)預(yù)測評分生成相應(yīng)的推薦信息項目集合。1.2幾種代表性的推薦系統(tǒng)表1.1推薦系統(tǒng)的應(yīng)用FieldRecommendatie門SysE-CommerceAmazon,com.eBay.Ski-europe.com.Levis.WebPageFab.Foxtrot.ifWeb.MEMOIR.METIOREW.ProfBui1der\Qu1C.Quickstep.$iteseer.SurfLen.MusicCDNOW.CqCoA.Music.Yahoo,com.Ringo.MovieNetfiljcuom.Noviefinder.com.Reel.com.NovieLens.NewsGroupLens.PHOAKS.P~Tango.Goog1eNews.下面列舉幾個較有代表性的推薦系統(tǒng):Amazon推薦系統(tǒng):Amazon是美國最大的一家網(wǎng)絡(luò)電子商務(wù)公司,位于華盛頓州的西雅圖,它是網(wǎng)絡(luò)上最早開始經(jīng)營電子商務(wù)的公司之一,成立于1995年,Amazon研究電子商務(wù)的推薦系統(tǒng)長達(dá)10年時間,Amazon利用網(wǎng)站系統(tǒng)記錄的海量日志和回饋信息等數(shù)據(jù)實現(xiàn)了基于協(xié)同過濾的混合推薦算法。推薦系統(tǒng)從海量的數(shù)據(jù)中挖掘用戶興趣模型,為不同用戶提供不同的個性化的推薦服務(wù),這在一定程度上提高了用戶的購物體驗,進(jìn)而也提升了自己的銷售額,Amazon的推薦系統(tǒng)為其提供了近35%的商品銷售額。TAPESTRY:這個協(xié)同過濾推薦系統(tǒng)是目前已知最早的在實際應(yīng)用的推薦系統(tǒng),它是由XeroxPARC研究中心提出的,被用來過濾電子郵件。TAPESTRY系統(tǒng)的運行機(jī)制大體如下:用戶設(shè)定感興趣的郵件類型;用戶向系統(tǒng)發(fā)出郵件需求;系統(tǒng)給用戶提供許多相關(guān)的郵件;用戶從收到的郵件中按自己的需求挑選出至少三封郵件;系統(tǒng)記錄用戶的選擇,把其轉(zhuǎn)換成用戶特征;系統(tǒng)依據(jù)用戶特征為用戶過濾郵件。奇藝推薦引擎:2011年奇藝推出了三套推薦引擎,這表示用戶在不明確相關(guān)信息而無法進(jìn)行搜索的情況下,依然有可能找到自己所喜歡的東西。奇藝通過用戶的記錄和習(xí)慣建立其興趣模型,然后,根據(jù)不同用戶的興趣模型進(jìn)行個性化的推薦。GoogleNews:它采用統(tǒng)計隱含語義標(biāo)引(PLSI)、訪問計數(shù)和基于MinHash聚類的協(xié)同過濾三種方法來產(chǎn)生推薦,針對用戶群體龐大和更新異常頻繁的新聞領(lǐng)域而開發(fā),它將不同算法產(chǎn)生的推薦采用一個線性模型結(jié)合起來。系統(tǒng)將基于訪問計數(shù)產(chǎn)生的推薦視為用戶短期行為特征,將基于用戶產(chǎn)生的推薦(MinHash和PLSI)看作是用戶長期行為特征。GroupLens:它是一個文章推薦系統(tǒng),根據(jù)用戶提交的對文章的評分信息,計算用戶與用戶之間的相似度,找到當(dāng)前用戶的最近鄰居集合,然后根據(jù)最近鄰居對文章的評分狀況為當(dāng)前用戶產(chǎn)生推薦列表。幾種主流的推薦算法2?1基于內(nèi)容的推薦算法(Content-BasedRecommendation)基本思想就是給用戶推薦與他們曾經(jīng)喜歡的項目內(nèi)容相匹配的新項目?;趦?nèi)容的推薦算法不用用戶對項目的評分,它通過特定的特征提取方法得到項目特征用來表示項目,根據(jù)用戶所偏好的項目的特征來訓(xùn)練學(xué)習(xí)用戶的興趣模型,然后計算一個新項目的內(nèi)容特征和用戶興趣模型的匹配程度,進(jìn)而把匹配程度高的項目推薦給用戶。項目內(nèi)容特征通常根據(jù)項目的屬性特征(一般是文本)來建立,常用的方法有貝葉斯模型、神經(jīng)網(wǎng)絡(luò)模型、向量空間模型(VectorSpaceModel)等。用戶興趣模型一般使用與項目內(nèi)容特征同樣的方法來表示,主要是搜括用戶感興趣的項目加以分析獲取這些項目內(nèi)容特征來構(gòu)造用戶興趣模型。(1)項目表示:對項目進(jìn)行特征提取,比如最著名的特征向量空間模型,它首先將一份文本(項目)以詞袋形式來表示,然后對每一個詞用詞頻-逆向文檔頻率(TF-IDF)來計算權(quán)重,找出若干權(quán)重較大的詞作為關(guān)鍵詞(特征)。每個文本(項目)都可以表示成相同維度的一個向量Coh!住 >皿匕…}(2) 用戶興趣模型表示:總結(jié)用戶喜歡的所有項目,進(jìn)而表示用戶的興趣。Cmtent(t)(3) 推薦產(chǎn)生:計算匹配得分,效用函數(shù)為:U(tcf0=Score(E/jsr?roff基于內(nèi)容的推薦的優(yōu)點:1)簡單、有效,推薦結(jié)果直觀,容易理解,不需要領(lǐng)域知識。2)不需要用戶的歷史數(shù)據(jù),如對對象的評價等,靠對內(nèi)容特征提取,沒有關(guān)于新項目出現(xiàn)的冷啟動問題,沒有稀疏問題。(3) 能為具有特殊興趣愛好的用戶進(jìn)行推薦。(4) 有比較成熟的分類學(xué)習(xí)方法能提供支持,如數(shù)據(jù)挖掘、聚類分析等。基于內(nèi)容的推薦的缺點:(1)推薦對象特征提取能力的限制。雖然文本的特征提取較為成熟,但是其他多媒體資源比如圖像、視頻、音樂等沒有有效的特征提取方法。此外,特征提取的好壞也直接影響推薦結(jié)果。很難出現(xiàn)新的推薦結(jié)果。推薦對象的內(nèi)容特征和用戶的興趣偏好匹配才能獲得推薦,用戶將僅限于獲得跟以前類似的推薦結(jié)果,很難為用戶發(fā)現(xiàn)新的感興趣的信息。存在新用戶出現(xiàn)時的冷啟動問題。當(dāng)新用戶出現(xiàn)時,系統(tǒng)較難獲得該用戶的興趣偏好,就不能和推薦對象的內(nèi)容特征進(jìn)行匹配,該用戶將較難獲得滿意的推薦結(jié)果。對推薦對象內(nèi)容分類方法需要的數(shù)據(jù)量較大。目前,盡管分類方法很多,但構(gòu)造分類器時需要的數(shù)據(jù)量巨大,給分類帶來一定困難。不同語言的描述的用戶模型和推薦對象模型無法兼容。2?2協(xié)同過濾推薦算法(CollaborativeFilteringRecommendation)協(xié)同過濾推薦算法中,數(shù)據(jù)核心是用戶-項目(User-Item)評分矩陣R(m,n)表丨m門亟口評分撲.陣labLtIl!scrituiuratingsruHliixIIh 扎3斗334斗2232斗3352524152.2.1基于內(nèi)存的協(xié)同過濾算法(Memory-BasedCollaborativeFilteringRecommendation)(1)基于用戶一個用戶會喜歡與他有相似興趣的用戶所喜歡的項目基本步驟:計算用戶與用戶之間的相似度構(gòu)造相似性矩陣,選出KNN集合。1.余弦相似度
2.修正的余弦相似度2.修正的余弦相似度It中r斤為f項日的T均評分"3.皮爾森相關(guān)性系數(shù)(PearsonCorrelationCoefficient)v)工忙」匕口(十"£「i、FuL懸}v)"L?!浚簢崈础埃-兀1-苴中i 勺/?甘分別為用戶撫與■用戶口對于集合中所有項0的評労均值TOC\o"1-5"\h\z計算完相似性以后就可以構(gòu)造出相似性拒陣血旳:■勒1 … f弘心= ; '' ;-^.'Ll ■" S叫求出與當(dāng)前用戶相似性最高的K個用戶組成KNN集合。采用相應(yīng)的算法估計項目評分,產(chǎn)生Top-N推薦集合。1.加權(quán)平均值2.基于用戶均值的加權(quán)平均值2.基于用戶均值的加權(quán)平均值莫中’耳表示用戸心評分州t兀表爾用戶訓(xùn)勺評分均仏最后對預(yù)測評分進(jìn)行排序,推薦列表通常為預(yù)測評分最高的N個項目組成的Top-N集合。基于項目
一個用戶會喜歡與他喜歡的項目相似的項目。基本步驟:它先根據(jù)用戶-項目評分矩陣中的數(shù)據(jù),計算得出項目與項目之間的相似度,構(gòu)造相似性矩陣,然后根據(jù)相似性矩陣找出與未知項目最相似的K個鄰居項目(K-NearestNeighbors),利用當(dāng)前用戶對未知項目的近鄰項目的評分?jǐn)?shù)據(jù),預(yù)測當(dāng)前用戶對未知項目的評分狀況,然后將預(yù)測評分較高的前N個(Top-N)未知項目集合在一起為當(dāng)前用戶生成推薦列表。(1)計算項目與項目之間的相似度構(gòu)造相似性矩陣,選出KNN集合。2)采用相應(yīng)的算法估計項目評分,產(chǎn)生Top-N2)采用相應(yīng)的算法估計項目評分,產(chǎn)生Top-N推薦集合。P述二凡+2.2.2基于模型的協(xié)同過濾推薦(Model-BasedCollaborativeFilteringRecommendation)基于模型的協(xié)同過濾推薦算法采用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)以及概率統(tǒng)計等方法,對用戶-項目評分?jǐn)?shù)據(jù)的潛在復(fù)雜模式進(jìn)行學(xué)習(xí),根據(jù)當(dāng)前用戶的歷史數(shù)據(jù)為用戶建立評分預(yù)測模型(PredictiveModel),通過該模型實現(xiàn)對未知項目的評分進(jìn)行預(yù)測計算,從而為當(dāng)前用戶產(chǎn)生合理的推薦。在基于模型的協(xié)同過濾推薦可能需要離線完成,這是由于模型的訓(xùn)練和學(xué)習(xí)通常都要耗費很多的計算時間,但好處是在線的預(yù)測計算相對較快。常用的幾種模型:(1) 貝葉斯:(2)聚類:基于聚類的協(xié)同過濾算法中聚類的過程都是離線完成的,并且基于規(guī)模更小的子簇進(jìn)行推薦預(yù)測,因此與傳統(tǒng)的協(xié)同過濾算法相比具有更強(qiáng)的可擴(kuò)展性。然而,這種算法的推薦精度一般相對較伯其原因主要是利用規(guī)模更小的子簇進(jìn)行推薦損失了一部分有用的信息。(3)回歸模型:適合解決數(shù)值評分模式預(yù)測問題。(4)隱語義模型(LSI):基于隱語義模型的協(xié)同過濾算法通過在一個概率混合模型中引入隱變量來對用戶的興趣群組或者項目的類別進(jìn)行建模,推斷出該模型用戶的興趣分布或者項目的類別分布,并據(jù)此進(jìn)行推薦預(yù)測。也就是說,它通過交叉的用戶群組來發(fā)現(xiàn)用戶對于項目的偏好信息。這種模型的優(yōu)點是具有更高的精度和更強(qiáng)的可擴(kuò)展性。(5)矩陣分解(SVD):它可以將一個mXn(假設(shè)m±n)的矩陣R分解為三個矩陣U,S, V,大小分別為mXm,mXn,nXn。其中S是個對角陣,對角線上的值就是奇異值。為了降維,只保留S中最大的k個奇異值,即分別將U,S,V降為k維的方陣,得到Uk,Sk和Vk。用戶u對項目i的評分預(yù)測公式為:p心二瓦少JsdJ&Vk(i)6)馬爾科夫決策過程:協(xié)同過濾的優(yōu)點:(1)能過濾復(fù)雜的非結(jié)構(gòu)化的對象,比如電影、音樂、圖像等推薦對象。(2)善于發(fā)現(xiàn)用戶新的興趣點,有推薦新信息的能力??梢园l(fā)現(xiàn)內(nèi)容上完全不相似的資源,用戶對推薦信息的內(nèi)容事先是預(yù)料不到的。這也是協(xié)同過濾和基于內(nèi)容的過濾一個較大的差別,基于內(nèi)容的過濾推薦很多都是用戶本來就熟悉的內(nèi)容,而協(xié)同過濾可以發(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的興趣偏好。(3)隨著用戶的增多,其推薦性能會不斷提升。能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個性化學(xué)習(xí)的速度。(4)不需要專業(yè)知識即可進(jìn)行推薦。(5)以用戶為中心自動進(jìn)行推薦。協(xié)同過濾的缺點:(1)存在冷啟動問題。新進(jìn)入的用戶由于得不到他們的興趣偏好而無法獲得推薦,新的推薦項目由于沒有用戶評價它就得不到推薦。這是難點和重點。(2)存在稀疏性問題。由于用戶數(shù)目的大量增長,而且用戶之間選擇存在差異性,使得用戶的評分差別非常大。同時推薦對象的數(shù)量也大量增長,使得大量的推薦對象沒有經(jīng)過用戶的評價。這些會導(dǎo)致部分用戶無法獲得推薦,部分推薦對象得不到推薦,這就是稀疏性問題。(3)系統(tǒng)開始時推薦質(zhì)量差及推薦質(zhì)量取決于歷史數(shù)據(jù)集。2.3基于圖結(jié)構(gòu)(網(wǎng)絡(luò)結(jié)構(gòu))的推薦算法基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法不考慮用戶和項目的內(nèi)容特征,而僅僅把它們看成抽象的節(jié)點,所有算法利用的信息都藏在用戶和項目的選擇關(guān)系之中。(1)無權(quán)二部(分)圖(BipartiteGraph)假設(shè)每個項目均有一定的資源,定義邊權(quán)wij表示項目j通過二部圖邊分配給項目i的資源,通常wij和wji是不相等的?;镜亩繄D在“用戶”與“項目”節(jié)點之間的邊認(rèn)為是無權(quán)的,在資源分配過程中,每個項目將自己所有的資源通過二部圖的邊平均分配給該項目的每個用戶;反來,每個用戶又將自己所有分到的資源再次通過二部圖的邊平均分配給所參與的項目。如圖:
(a)項目節(jié)點彊初其有帝源X.(a)項目節(jié)點彊初其有帝源X.坯□項忖O用戶jr^+v/2+z/^ v/2+z/S如甜(b)項目節(jié)點將資源平均分配給用戶I】工八加十丘亍18j?9+nV/12+5^1H ^71a+5r/12-hIz/^㈡二次平閔分配后項目節(jié)點最終獲得的齋源圖1 基于二部圖的資源分配過程考慮一個由n個項目m個用戶所構(gòu)成的二部圖,二部圖表示為G(X,Y,E),E表示二部圖的邊。任意項目j分配給項目i的資源權(quán)重計算公式為:_ 1V叫円其中:k(yl)表示用戶yl的度,即與用戶yl連接的項目個數(shù);k(xj)表示項目xj的度,即與項目xj連接的用戶個數(shù);預(yù)測評分:
2)加權(quán)二部圖考慮用戶項目之間邊的權(quán)重,利用用戶-項目矩陣,圖中節(jié)點分別表示用戶和項目,邊的權(quán)重為用戶對項目的評分。項目將資源按照項目用戶之間的邊權(quán)與該項目邊權(quán)之和的比分配給用戶,第二步按照同樣的方式按照用戶項目邊權(quán)與該用戶邊權(quán)之和的比例將資源返回給項目。如圖:yU IL4.1+V/2+Z/3謐十甸IE O.at+z/4(b)項日節(jié)點按収重比將竇源分配給用戶(?yU IL4.1+V/2+Z/3謐十甸IE O.at+z/4(b)項日節(jié)點按収重比將竇源分配給用戶(?.53j+(1.2v+-G;/2dr/3+y/a+9^2l (L湊1話■+&輕(c)二次加杈資源分圧麻項H脫皿得的資源圖2 基于加取二部圖的資源分配任意項目j分配給項目i的資源權(quán)重計算公式為:其中:k(xj)表示項目xj連接所有用戶邊權(quán)之和;k(yl)表示用戶yl連接所有項目邊權(quán)之和;「山 心的gE%=J. 其他預(yù)測評分:%-■£Z月二1.0工口」1屈2.4基于關(guān)聯(lián)規(guī)則的推薦算法基于關(guān)聯(lián)規(guī)則的推薦(AssociationRule-basedRecommendation)關(guān)注用戶行為的關(guān)聯(lián)模式。通過用戶行為建立項目之間的關(guān)聯(lián)關(guān)系,通過這種關(guān)聯(lián)關(guān)系向用戶推薦其他項目。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)不同商品在銷售過程中的相關(guān)性。管理規(guī)則就是在一個交易數(shù)據(jù)庫中統(tǒng)計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y,其直觀的意義就是用戶在購買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會同時購買面包。關(guān)聯(lián)規(guī)則算法不需要領(lǐng)域知識能夠發(fā)現(xiàn)新興趣點,但規(guī)則抽取困難,時間復(fù)雜度高,個性化程度較低,可以離線進(jìn)行。其次,商品名稱的同義性問題也是關(guān)聯(lián)規(guī)則的一個難點。2.5基于知識的推薦它不是使用用戶的興趣模型進(jìn)行推薦,而是利用特定領(lǐng)域內(nèi)的共識規(guī)則來進(jìn)行基于規(guī)則的推理.效用知識(FunctionalKnowledge)是一種關(guān)于一個項目如何滿足某一特定用戶的知識,因此能解釋需要和推薦的關(guān)系,所以用戶資料可以是任何能支持推理的知識結(jié)構(gòu),它可以是用戶已經(jīng)規(guī)范化的查詢,也可以是一個更詳細(xì)的用戶需要的表示。2.6基于效用的推薦基于效用的推薦(Utility-basedRecommendation)是建立在對用戶使用項目的效用情況上計算的,效用理論認(rèn)為,某一物品的價值并不以該物品的價格為基礎(chǔ),而是該物品對人的有用程度,或是人對該物品的價值認(rèn)可程度。其核心問題是怎么樣為每一個用戶去創(chuàng)建一個效用函數(shù),因此,用戶資料模型很大程度上是由系統(tǒng)所采用的效用函數(shù)決定的?;谛в猛扑]的好處是它能把非產(chǎn)品的屬性,如提供商的可靠性(VendorReliability)和產(chǎn)品的可得性(ProductAvailability)等考慮到效用計算中。2.7主要推薦算法對比各種推薦方法都有其答自的優(yōu)點和缺點,風(fēng)表仁蕓、主要推存方法對比推茬方法優(yōu)點離點基于內(nèi)咨推茬推薦結(jié)果直觀,容鬲曜不需要領(lǐng)域知識.新用戶問題;層雜屬性不好處理;要肓足鯛埶擁構(gòu)直分類器協(xié)同迪濾推薦新異興趣繪觀、不需要毓城知識;隨著時間推移性能提高i推薦個性化、自動化程度高;能處理亙雜的非結(jié)構(gòu)化對象稱疏問題;可擴(kuò)展性問題;新用戶問題;質(zhì)量取決于歷史埶據(jù)隼;系統(tǒng)開貽時推薦質(zhì)量差i基于規(guī)則推薦能岌現(xiàn)新興趣點;不要領(lǐng)域知幟規(guī)則輙難、耗時i產(chǎn)品容同義性問題]個性化程度低;基于敷用推薦無冷開始和稀疏問題F對用戶侷好變化敏甌能考慮非產(chǎn)品特性用戶必須輸入敷用函埶i推薦是靜態(tài)的,靈君性差;屬性重疊問題1基于知識推茬能把用戶需求映射到產(chǎn)品上i能考慮非產(chǎn)品屬性知識雄義得i推薦是靜態(tài)的推薦算法的評價3.1推薦算法的測試數(shù)據(jù)集(1)MovieLens:數(shù)據(jù)集該數(shù)據(jù)集由明尼蘇達(dá)大學(xué)研究小組Groupiens從電影評分網(wǎng)站MovieLens:收集到的評分?jǐn)?shù)據(jù)構(gòu)成,按照數(shù)據(jù)規(guī)模被劃分為二個數(shù)據(jù)集,每個數(shù)據(jù)集中都包含了對應(yīng)的用戶信息、電影基本信息以及用戶評分和時間戳等,評分為區(qū)間[1,5]的整數(shù)值,評分的大小反映了用戶對特定電影項目的興趣度。較為權(quán)威,特別在CF推薦算法的評價中應(yīng)用更為廣泛。(2)bookcrossing:通過crawler程序從圖書社區(qū)收集的圖書評分?jǐn)?shù)據(jù)構(gòu)成,其包含了用戶的基本分類信息、圖書的基本信息以及用戶對圖書的評分?jǐn)?shù)據(jù),評分為區(qū)間[1,10],中的離散整數(shù)值該數(shù)據(jù)集中包含了278858名用戶對271379本圖書的1149780個評分?jǐn)?shù)據(jù)。(3)JesterJoke:通過笑話推薦網(wǎng)站Jester收集的笑話評分?jǐn)?shù)據(jù)構(gòu)成,其包含了由三個用戶笑話評分矩陣構(gòu)成的73421名匿名用戶對4100000個笑話的評分?jǐn)?shù)據(jù),評分值為區(qū)間中的連續(xù)評分值,該數(shù)據(jù)集是當(dāng)前推薦算法實驗數(shù)據(jù)集中結(jié)構(gòu)最為簡單的,評分護(hù)具已經(jīng)存儲為矩陣形式,方便了推薦算法的處理。(4)Netflix:該數(shù)據(jù)集是電影租賃網(wǎng)站Netflix針對Netflixprize推薦算法競賽而發(fā)布的電影評分?jǐn)?shù)據(jù)集,其包含了480189個匿名用戶對17770部電影的1000000000個評分?jǐn)?shù)據(jù),評分?jǐn)?shù)據(jù)為區(qū)間[1,5]的離散整數(shù)值,該數(shù)據(jù)集是現(xiàn)在常用數(shù)據(jù)集中評分?jǐn)?shù)據(jù)規(guī)模最大的數(shù)據(jù)集。還有UsenetNewsgroups包括的數(shù)據(jù)是新聞組的用戶瀏覽數(shù)據(jù)。UCI知識庫存儲了大量用于模型訓(xùn)練的樣本。3.2推薦算法的評測標(biāo)準(zhǔn)預(yù)測準(zhǔn)確度(1)平均絕對誤差(MeanAbsoluteError,MAE)計算了所有預(yù)測評分與真實評分誤差值的絕對值和的平均值均方根誤差(RMSE)RMSE=^EiiEUandtEiCpul-rut)2分類準(zhǔn)確度精準(zhǔn)率(Precision):推薦列表中符合喜好的占推薦列表的比率其中,5表示推薦算壯為用円扯產(chǎn)主的推薦黍*R點示測試垂吐中用戶u喜好的全部項日*Ji表示測試躺氏覽中的用戶數(shù)|5仃%|表示推薦集中變際被用戶喜好的頊日數(shù)量汽召回率(Recall):推薦列表中符合喜好的占系統(tǒng)中全部符合喜好的文檔的比率召回率和精準(zhǔn)率評價系統(tǒng)時的最大問題在于它們必須一起使用才能全面評價算法的好壞,綜合二者提出了一個F指標(biāo),計算方法如式:ZR排序準(zhǔn)確度排序準(zhǔn)確度用來度量推薦列表與用戶對產(chǎn)品排序的符合程度。(1)平均排隊值(Rankingscore)r「=H其中N是訓(xùn)練集中未選中的產(chǎn)品個數(shù),Li是待預(yù)測產(chǎn)品在推薦列表中的排序位置。比如給用戶的推薦列表長度為100,目標(biāo)產(chǎn)品在列表中的位置是13,那么產(chǎn)品的r值就為0.13,最后計算所有目標(biāo)產(chǎn)品的值的平均值,平均排序分越小,說明用戶喜好的產(chǎn)品排名越靠前,算法的推薦效果越好。4.推薦列表的流行性和多樣性平均度來評價推薦產(chǎn)品的流行性,使用平均海明距離來評價推薦產(chǎn)品的多樣性。度:產(chǎn)品的度代表喜好該產(chǎn)品的用戶數(shù),度越高,產(chǎn)品的流行性越大。從推薦的新鮮性的角度來考慮,推薦產(chǎn)品的平均度越小越好。2)平均海明距離:Qij為用戶i和j的推薦列表中相同的產(chǎn)品的個數(shù),L為推薦列表的長度。如果用戶和的推薦列表完全一樣,則的值等于0,如果列表完全不一樣,則的值為1。H的值越高,說明推薦列表的多樣性越好。5.其他(1)正確率(Accuracy)Accuracy=罟直中,X=2制g=吋},叩集frx為測試集常戢中預(yù)測怦分鋅F真實評分的預(yù)測評分雄臺,血E粘片皿曲內(nèi)四舍五入后的預(yù)測評分集,怙匚心尺為審實評分集"推薦算法存在問題與解決辦法4.1稀疏性問題用戶和項目的數(shù)量十分的龐大,而用戶往往只在很少的項目上有評分記錄,這就導(dǎo)致了評價矩陣是非常稀疏的,通常商業(yè)推薦系統(tǒng)的評價矩陣密度不會超過1%。這種稀疏性(Sparsity)會在相似性計算、預(yù)測評分等多個方面直接或間接影響協(xié)同過濾推薦算法的推薦質(zhì)量。解決方法:矩陣填充:主要思想是,直接預(yù)測評價矩陣中缺失的標(biāo)注信息,從而增加評價矩陣的密度。代表有:平均值填充2.預(yù)測填充:貝葉斯,神經(jīng)網(wǎng)絡(luò),訓(xùn)練模型預(yù)測缺失值;基于項目和基于用戶的方法相結(jié)合預(yù)測缺失值。降維法:主要思想是將高維的用戶標(biāo)注空間映射到隱式的低維語義空間,從而降低推薦算法對數(shù)據(jù)稀疏性的敏感程度。代表有:矩陣奇異值分解法(SVD,通過移除對相似度計算影響不顯著的用戶或者項目標(biāo)注來直接降低評價矩陣的維度,從而增加矩陣的密度。值得一提的是,著名的隱語義索引模型(LSI),簡稱也是基于SVD。PCA降維:將數(shù)據(jù)隱式映射到低維空間,只留下最大的一組線性無關(guān)組合,代表主成分。(3) 融合內(nèi)容的混合協(xié)同過濾:主要思想是引入額外的信息源,使得相似度的計算更為準(zhǔn)確。代表有:社交網(wǎng)絡(luò)信息,content-boosted(4) 基于模型的混合協(xié)同過濾4.2冷啟動問題冷啟動(Cold-Start)也可稱為新用戶與新項目問題當(dāng)新用戶或項目剛加入系統(tǒng)時,由于缺乏對應(yīng)的標(biāo)注信息,導(dǎo)致無法對這些用戶或項目進(jìn)行推薦。在推薦系統(tǒng)的整個生命周期中都有冷啟動問題。解決這個問題普遍采用基于內(nèi)容的最近鄰居查找技術(shù),其基本思想是:1) 利用聚類技術(shù)將用戶按照屬性相似性聚類,從項目屬性的角度找到新項目的最近鄰居;2) 用新項目k的所有最近鄰居的平均評分來代替已有評分的平均值Rk.解決方法:(1)聚類(2) 融合內(nèi)容:社交網(wǎng)絡(luò)信息(3) 隱變量模型(4) 概率模型4.3擴(kuò)展性問題擴(kuò)展性(Scalability)指推薦系統(tǒng)處理大規(guī)模數(shù)據(jù)并構(gòu)造相應(yīng)訓(xùn)練模型的能力。為保證系統(tǒng)的實時性,推薦系統(tǒng)需要在短時間內(nèi)快速地對用戶-項目評分矩陣中的數(shù)據(jù)進(jìn)行大量的計算,以產(chǎn)生數(shù)量龐大的推薦結(jié)果。解決:(1)降維:SVD(2)在基于內(nèi)存的方法中,基于項目的方法比基于用戶的方法具有更好的可擴(kuò)展性。(3)基于模型協(xié)同過濾方法(4) 聚類:首先對用戶或者項目進(jìn)行聚類,然后在少數(shù)的類別中尋找相似的用戶和項目,這樣可以大大縮小用戶或項目的最近鄰居搜索范圍,減少計算時間。然而這類算法因為舍棄了一部分有效信息,所以容易損失推薦精度。4.4特征提取問題對多媒體數(shù)據(jù),如圖像、音樂、視頻等的特征提取技術(shù)不成熟。4.5安全性問題進(jìn)行協(xié)同推薦時需要掌握用戶的興趣偏好等用戶信息,但用戶擔(dān)心個人數(shù)據(jù)得不到有效保護(hù)而不愿暴露個人信息。這是協(xié)同推薦長期存在的一個問題。既能得到用戶信息而提高推薦系統(tǒng)性能,又能有效保護(hù)用戶信息將是未來推薦系統(tǒng)的一個研究方向?;旌贤扑]算法由于各種推薦方法都有優(yōu)缺點,所以在實際中,組合推薦(HybridRecommendation)經(jīng)常被采用。組合推薦的目的是通過組合不同的推薦策略,達(dá)到揚長避短的目的,避免或彌補(bǔ)各自推薦技術(shù)的弱點。在組合方式上,有研究人員提出了七種組合思路:1) 加權(quán)組合(Weight):先按各自的推薦策略產(chǎn)生相應(yīng)的預(yù)測評分和推薦結(jié)果,并通過特定的權(quán)重方案將二者的預(yù)測評分進(jìn)行組合,形成整體的評分預(yù)測??梢詫⒔Y(jié)果進(jìn)行線性組合,也可以用統(tǒng)計方法投票方式。2) 動態(tài)變換(Switch):根據(jù)問題背景和實際情況,根據(jù)一定的系統(tǒng)評價標(biāo)準(zhǔn),在兩種推薦之間進(jìn)行動態(tài)地切換,以保證推薦系統(tǒng)當(dāng)前能處于最佳推薦狀態(tài),但同時只有一種推薦處于活動狀態(tài)。3) 混合(Mixed):同時采用多種推薦技術(shù)給出多種推薦結(jié)果為用戶提供參考,但當(dāng)兩種推薦產(chǎn)生的結(jié)果不一致時,需要通過一定的仲裁機(jī)制來消除兩種推薦的沖突,如強(qiáng)制設(shè)定的優(yōu)先級。4) 特征組合(Featurecombination):組合來自不同推薦數(shù)據(jù)源的特征被另一種推薦算法所采用。相互使用對方的特性,以提高特定推薦的能力5) 層疊/級聯(lián)(Cascade):先用一種推薦技術(shù)產(chǎn)生一種粗糙的推薦結(jié)果,第二種推薦技術(shù)在此推薦結(jié)果的基礎(chǔ)上進(jìn)一步作出更精確的推薦。6) 特征擴(kuò)充(Featureaugmentation):類似于級聯(lián)模式,一種技術(shù)產(chǎn)生的推薦結(jié)果中的某些附加特征信息嵌入到另一種推薦技術(shù)的特征輸入中。7) 元級別(Meta-level):該模式是對特征放大模式的推廣,其將初級推薦產(chǎn)生的模型整體應(yīng)用到另外一種推薦中,如可將所學(xué)習(xí)到的基于內(nèi)容的用戶模型直接作為協(xié)同過濾中用戶相似度計算的依據(jù),從而克服稀疏性對的影響。因為高級推薦在元數(shù)據(jù)層次上完全依賴于初級推薦,所以元層次組合模式是一種緊密稱合集成。5.1融合基于內(nèi)容和協(xié)同過濾的推薦算法組合推薦中研究和應(yīng)用最多的是基于內(nèi)容推薦和協(xié)同過濾推薦的組合。5.1.1融合社交網(wǎng)絡(luò)內(nèi)容信息的協(xié)同過濾推薦傳統(tǒng)的基于用戶的協(xié)同過濾方法利用用戶的標(biāo)注信息來計算用戶之間的相似度,在用戶標(biāo)注數(shù)量不足的情況下,用戶之間相似度計算不準(zhǔn)確導(dǎo)致系統(tǒng)無法給出準(zhǔn)確的推薦結(jié)果,這就是所謂的“新用戶問題”。例如在社交網(wǎng)絡(luò)推薦系統(tǒng)中,為新注冊的用戶進(jìn)行推薦就對應(yīng)典型的新用戶問題。社交網(wǎng)絡(luò)中,用戶擁有豐富的社交網(wǎng)絡(luò)信息(線上好友、標(biāo)簽、微博內(nèi)容)等,這些信息可以用戶來構(gòu)造用戶檔案,然后釆用基于內(nèi)容方法來進(jìn)行推薦,從而有效地緩解“新用戶問題”問題。融合社交網(wǎng)絡(luò)信息的協(xié)同過濾算法,其基本思想是利用用戶的社交網(wǎng)絡(luò)信息來解決傳統(tǒng)協(xié)同過濾算法中的數(shù)據(jù)稀疏問題和冷啟動問題。該算法首先利用用戶的微博內(nèi)容、社交網(wǎng)絡(luò)以及微博活動等三個方面的信息,建立基于社交網(wǎng)絡(luò)信息的用戶相似度模型;然后分別利用基于社交網(wǎng)絡(luò)信息的用戶相似度模型和基于評價矩陣信息的用戶相似度模型分別進(jìn)行鄰居選擇;最后通過線性融合的方式將基于兩個鄰居集合的預(yù)測值結(jié)合起來得到最終的推薦。5.1.2融合社交網(wǎng)絡(luò)信任關(guān)系的協(xié)同過濾推薦傳統(tǒng)的社交網(wǎng)絡(luò)推薦系統(tǒng)大多采用基于內(nèi)容的推薦方法,而沒有充分利用用戶之間形成的社交網(wǎng)絡(luò)關(guān)系。有效地利用用戶之間的社交網(wǎng)絡(luò)關(guān)系能夠顯著改善推薦精度并提高用戶體驗,其原因主要有兩個方面:第一,物以類聚,人以群分,用戶的社交網(wǎng)絡(luò)關(guān)系在一定程度上反應(yīng)了他們在興趣愛好上的相似點;第二,人們的興趣愛好通常容易受到朋友(或者在社交網(wǎng)絡(luò)上的在線好友)的影響。在基于用戶社交網(wǎng)絡(luò)信任關(guān)系的推薦系統(tǒng)中,用戶之間的社交網(wǎng)絡(luò)關(guān)系通常被抽象成一張圖,如圖展示了一張典型的用戶社交網(wǎng)絡(luò)關(guān)系圖,其中頂點表示
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報書審查意見
- 研究課題申報書要素
- 氣象軟課題項目申報書
- 綜合實踐課題申報書
- 原礦石采購合同范本
- 保潔公司跨省經(jīng)營合同范本
- 分店入股門店合同范例
- 教學(xué)成果培育課題申報書
- 醫(yī)院承包協(xié)議合同范本
- 2024年中國甜瓜市場調(diào)查研究報告
- 中醫(yī)護(hù)理學(xué) 課件 模塊七 中醫(yī)護(hù)理操作 項目四麥粒灸技術(shù)
- 第三方代收款協(xié)議2024年
- 人教版八年級數(shù)學(xué)上冊教案全冊
- 【獨立儲能】山西省獨立儲能政策及收益分析-中國能建
- 2024內(nèi)蒙古中考數(shù)學(xué)二輪專題復(fù)習(xí) 二次函數(shù)與幾何綜合題 類型二 面積問題(課件)
- 美團(tuán)眾包新的騎手協(xié)議來了
- 山東管理學(xué)院聲樂題庫復(fù)習(xí)題
- DL-T5796-2019水電工程邊坡安全監(jiān)測技術(shù)規(guī)范
- 高等數(shù)學(xué)教案第四章不定積分
- 2024年高考時事政治考試題庫(134題)
評論
0/150
提交評論