協(xié)同過濾外文文獻(xiàn)翻譯_第1頁
協(xié)同過濾外文文獻(xiàn)翻譯_第2頁
協(xié)同過濾外文文獻(xiàn)翻譯_第3頁
協(xié)同過濾外文文獻(xiàn)翻譯_第4頁
協(xié)同過濾外文文獻(xiàn)翻譯_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、外文:IntroductiontoRecommenderSystemApproachesofCollaborativeFiltering:NearestNeighborhoodandMatrixFactorization“Weareleavingtheageofinformationandenteringtheageofrecommendation.”Likemanymachinelearningtechniques,arecommendersystemmakespredictionbasedonusershistoricalbehaviors.Specifically,itstopredic

2、tuserpreferenceforasetofitemsbasedonpastexperience.Tobuildarecommendersystem,themosttwopopularapproachesareContent-basedandCollaborativeFiltering.Content-basedapproachrequiresagoodamountofinformationofitemsownfeatures,ratherthanusingusersinteractionsandfeedbacks.Forexample,itcanbemovieattributessuch

3、asgenre,year,director,actoretc.,ortextualcontentofarticlesthatcanextractedbyapplyingNaturalLanguageProcessing.CollaborativeFiltering,ontheotherhand,doesntneedanythingelseexceptusershistoricalpreferenceonasetofitems.Becauseitsbasedonhistoricaldata,thecoreassumptionhereisthattheuserswhohaveagreedinthe

4、pasttendtoalsoagreeinthefuture.Intermsofuserpreference,itusuallyexpressedbytwocategories.ExplicitRating,isarategivenbyausertoanitemonaslidingscale,like5starsforTitanic.Thisisthemostdirectfeedbackfromuserstoshowhowmuchtheylikeanitem.ImplicitRating,suggestsuserspreferenceindirectly,suchaspageviews,cli

5、cks,purchaserecords,whetherornotlistentoamusictrack,andsoon.Inthisarticle,Iwilltakeacloselookatcollaborativefilteringthatisatraditionalandpowerfultoolforrecommendersystems.NearestNeighborhoodThestandardmethodofCollaborativeFilteringisknownasNearestNeighborhoodalgorithm.ThereareuserbasedCFanditem-bas

6、edCF.LetsfirstlooUater-basedCF.Wehaveannmmatrixofratings,withuseru?i=1,.nanditemp?,j=1,-m.Nowwewanttopredicttheratingr?iftargetuserididnotwatch/rateanitemj.Theprocessistocalculatethesimilaritiesbetweentargetuseriandallotherusers,selectthetopXsimilarusers,andtaketheweightedaverageofratingsfromtheseXu

7、serswithsimilaritiesasweights.SimilariesiUj,_“numberofratingsWhiledifferentpeoplemayhavedifferentbaselineswhengivingratings,somepeopletendtogivehighscoresgenerally,someareprettystricteventhoughtheyaresatisfiedwithitems.Toavoidthisbias,wecansubtracteachusersaverageratingofatemswhencomputingweightedav

8、erage,andadditbackfortargetuser,shownasbelow.Similanes(uh心)(r燈一)3=0+numberofratingsTwowaystocalculatesimilarityarePearsonCorrelationandCosineSimilarity.2(%一衣)(%一X)PearsonCorrelation:Sim/movie-latentfeaturematrix.2isanrxrdiagonalmatrixcontainingthesingularvaluesoforiginalmatrix,simplyrepresentinghowi

9、mportantaspecificfeatureistopredictuserpreference.R=UZVTUWM,EGIRrxVeIRrxmTosortthevaluesof2bydecreasingabsolutevalueandtruncatematrix2tofirstkdimensions(ksingularvalues),wecanreconstructthematrixasmatrixA.TheselectionofkshouldmakesurethatAisabletocapturethemostofvariancewithintheoriginalmatrixR,soth

10、atAistheapproximationofR,A弋R.ThedifferencebetweenAandRistheerrorthatisexpectedtobeminimized.ThisisexactlythethoughtofPrincipleComponentAnalysis.WhenmatrixRisdense,UandVcouldbeeasilyfactorizedanalytically.However,amatrixofmovieratingsissupersparse.Althoughtherearesomeimputationmethodstofillinmissingv

11、alues,wewillturntoaprogrammingapproachtojustlivewiththosemissingvaluesandfindfactormatricesUandV.InsteadoffactorizingRviaSVD,wearetryingfindUandVdirectlywiththegoalthatwhenUandVmultipliedbacktogethertheoutputmatrixRistheclosestapproximationofRandnomoreasparsematrix.Thisnumericalapproximationisusuall

12、yachievedwithNon-NegativeMatrixFactorizationforrecommendersystemssincethereisnonegativevaluesinratings.Seetheformulabelow.Lookingatthepredictedratingforspecificuseranditem,itemiisnotedasavectorq?anduseruisnotedasavectorp?suchthatthedotproductofthesetwovectorsisthepredictedratingforuseruonitemi.Thisv

13、alueispresentedinthematrixRatrowuandcolumni.PredictedRatings:r:。=RHowdowefindoptimalq?andp?Likemostofmachinelearningtask,alossfunctionisdefinedtominimizethecostoferrors.min一浦+小瓦II?+帥iP)MJr?isthetrueratingsfromoriginaluser-itemmatrix.OptimizationprocessistofindtheoptimalmatrixPcomposedbyvectorp?andma

14、trixQcomposedbyvectorq?inordertominimizethesumsquareerrorbetweenpredictedratingsr?andthetrueratingsr?Also,L2regularizationhasbeenaddedtopreventoverfittingofuseranditemvectors.Itsalsoquitecommontoaddbiastermwhichusuallyhas3majorcomponents:averageratingofallitems以,averageratingofitemiminus?),以(notedas

15、baverageratinggivenbyuseruminusu(notedasb?.min口同上1f也2(入一工人+*+幾+加)+帆儼+右+層+如)OptimizationAfewoptimizationalgorithmshavebeenpopulartosolveNon-NegativeFactorization.AlternativeLeastSquareisoneofthem.Sincethelossfunctionisnon-convexinthiscase,theresnowaytoreachaglobalminimum,whileitstillcanreachagreatapp

16、roximationbyfindinglocalminimums.AlternativeLeastSquareistoholduserfactormatrixconstant,adjustitemfactormatrixbytakingderivativesoflossfunctionandsettingitequalto0,andthensetitemfactormatrixconstantwhileadjustinguserfactormatrix.Repeattheprocessbyswitchingandadjustingmatricesbackandforthuntilconverg

17、ence.IfyouapplyScikit-learnNMFmodel,youwillseeALSisthedefaultsolvertouse,whichisalsocalledCoordinateDescent.PysparkalsooffersprettyneatdecompositionpackagesthatprovidesmoretuningflexibilityofALSitself.SomeThoughtsCollaborativeFilteringprovidesstrongpredictivepowerforrecommendersystems,andrequiresthe

18、leastinformationatthesametime.However,ithasafewlimitationsinsomeparticularsituations.First,theunderlyingtastesexpressedbylatentfeaturesareactuallynotinterpretablebecausethereisnocontent-relatedpropertiesofmetadata.Formovieexample,itdoesntnecessarilytobegenrelikeSci-Fiinmyexample.Itcanbehowmotivation

19、althesoundtrackis,howgoodtheplotis,andsoon.CollaborativeFilteringislackoftransparencyandexplainabilityofthislevelofinformation.Ontheotherhand,CollaborativeFilteringisfacedwithcoldstart.Whenanewitemcomingin,untilithastoberatedbysubstantialnumberofusers,themodelisnotabletomakeanypersonalizedrecommenda

20、tions.Similarly,foritemsfromthetailthatdidntgettoomuchdata,themodeltendstogivelessweightonthemandhavepopularitybiasbyrecommendingmorepopularitems.Itsusuallyagoodideatohaveensemblealgorithmstobuildamorecomprehensivemachinelearningmodelsuchascombiningcontent-basedfilteringbyaddingsomedimensionsofkeywo

21、rdsthatareexplainable,butweshouldalwaysconsiderthetradeoffbetweenmodel/computationalcomplexityandtheeffectivenessofperformanceimprovement.中文翻譯推薦系統(tǒng)介紹協(xié)同過濾的方法:最近鄰域和矩陣分解我們正在離開信息時(shí)代,而進(jìn)入推薦時(shí)代?!毕裨S多機(jī)器學(xué)習(xí)技術(shù)一樣,推薦系統(tǒng)根據(jù)用戶的歷史行為進(jìn)行預(yù)測(cè)。具體來說,是根據(jù)過去的經(jīng)驗(yàn)來預(yù)測(cè)用戶對(duì)一組商品的偏好。要構(gòu)建推薦系統(tǒng),最流行的兩種方法是基于內(nèi)容的過濾和協(xié)作過濾?;趦?nèi)容的方法需要大量項(xiàng)目自身功能的信息,而不是使用用戶

22、的交互和反饋。例如,它可以是電影屬性(例如流派,年份,導(dǎo)演,演員等)或可以通過應(yīng)用自然語言處理提取的文章的文本內(nèi)容。另一方面,協(xié)作過濾除了用戶對(duì)一組項(xiàng)目的歷史偏好之外,不需要任何其他操作。因?yàn)樗腔跉v史數(shù)據(jù)的,所以這里的核心假設(shè)是,過去已經(jīng)同意的用戶將來也會(huì)傾向于也同意。就用戶偏好而言,它通常由兩類表示。明確評(píng)分,是用戶按滑動(dòng)比例對(duì)某項(xiàng)商品的價(jià)格,例如泰坦尼克號(hào)的評(píng)分為5星。這是用戶最直接的反饋,表明他們對(duì)商品的喜愛程度。隱含評(píng)價(jià),間接建議用戶偏好,例如頁面瀏覽量,點(diǎn)擊次數(shù),購買記錄,是否收聽音樂曲目等等。在本文中,我將仔細(xì)研究協(xié)作過濾,它是推薦系統(tǒng)的傳統(tǒng)且功能強(qiáng)大的工具。最近的鄰居協(xié)作過濾

23、的標(biāo)準(zhǔn)方法稱為最近鄰算法”。有基于用戶的CF和基于項(xiàng)目的CF。讓我們先來看看基于用戶的CF。我們有一個(gè)nXm的評(píng)分矩陣,用戶u?,i=1,.n,項(xiàng)目p?,j=1,.m?,F(xiàn)在,如果目標(biāo)用戶i沒有對(duì)項(xiàng)目j進(jìn)行觀看/評(píng)分,我們現(xiàn)在要預(yù)測(cè)評(píng)分r?o該過程將計(jì)算目標(biāo)用戶i與所有其他用戶之間的相似度,選擇排名靠前的X個(gè)相似用戶,并將來自這X個(gè)具有相似性的用戶的評(píng)分的加權(quán)平均值作為權(quán)重。Sinilaries(uit也),燈k為二Zrnumberofratings盡管不同的人給由評(píng)分時(shí)可能會(huì)有不同的基準(zhǔn),但是有些人通常會(huì)給由高分,有些人即使對(duì)項(xiàng)目感到滿意也很嚴(yán)格。為了避免這種偏差,我們可以在計(jì)算加權(quán)平均值時(shí)減

24、去每個(gè)用戶對(duì)所有項(xiàng)目的平均評(píng)分,然后將其加回到目標(biāo)用戶身上,如下所示。WSmilanes(Ui,嘮(陶-4)=?-+numberofratings一計(jì)算相似度的兩種方法是皮爾森相關(guān)和余弦相似度。(%一門)1%3PearsonCorrelation:5加(,妣)=./(為一一S物一門:mErijrkf,.r:-r;=lCosineSimilarity:Sim(%,uQ-=-IfJIftlfmmJ斗遇4VJ=ij=i基本上,該想法是找到與您的目標(biāo)用戶(最接近的鄰居)最相似的用戶,并權(quán)衡他們對(duì)某項(xiàng)的評(píng)價(jià),以此作為對(duì)目標(biāo)用戶的評(píng)價(jià)。在不了解商品和用戶本身的情況下,我們認(rèn)為兩個(gè)用戶在給同一個(gè)商品相似的評(píng)

25、分時(shí)是相似的。類似地,對(duì)于基于項(xiàng)目的CF,我們說兩個(gè)項(xiàng)目在收到來自同一用戶的相似評(píng)分時(shí)是相似的。然后,我們將通過計(jì)算來自該用戶的大多數(shù)X個(gè)類似商品的評(píng)分的加權(quán)平均值,來預(yù)測(cè)該商品的目標(biāo)用戶。基于項(xiàng)目的CF的一個(gè)關(guān)鍵優(yōu)勢(shì)是穩(wěn)定性,即與人類的口味不同,給定項(xiàng)目的評(píng)級(jí)不會(huì)隨著時(shí)間的推移而發(fā)生顯著變化。此方法有很多限制。當(dāng)附近沒有人對(duì)您要為目標(biāo)用戶預(yù)測(cè)的商品進(jìn)行評(píng)分時(shí),它不能很好地處理稀疏性。而且,隨著用戶和產(chǎn)品數(shù)量的增長,它的計(jì)算效率也不高。矩陣分解由于稀疏性和可伸縮性是標(biāo)準(zhǔn)CF方法的兩個(gè)最大挑戰(zhàn),因此由現(xiàn)了一種更高級(jí)的方法,該方法將原始稀疏矩陣分解為具有潛在因子/特征且稀疏性較低的低維矩陣。那就是

26、矩陣分解。除了解決稀疏性和可伸縮性問題之外,還有一個(gè)直觀的解釋,說明為什么我們需要低維矩陣來表示用戶的偏好。用戶對(duì)電影阿凡達(dá),重力和盜夢(mèng)空間給予了很高的評(píng)價(jià)。它們不一定是3個(gè)獨(dú)立的意見,而是表明該用戶可能更喜歡科幻電影,并且該用戶可能想要更多的科幻電影。與特定電影不同,潛在功能由更高級(jí)別的屬性表示,在這種情況下,科幻類別是潛在功能之一。矩陣分解最終給我們的是用戶與一組潛在特征對(duì)齊的程度,以及一部電影在這組潛在特征中的適應(yīng)程度。與標(biāo)準(zhǔn)最近鄰區(qū)相比,它的優(yōu)勢(shì)在于,即使兩個(gè)用戶未對(duì)任何一部電影進(jìn)行評(píng)級(jí),但如果他們共享相似的基本口味(又是潛在特征),仍然有可能找到它們之間的相似性。要了解矩陣如何分解,

27、首先要了解的是奇異值分解(SVD)o基于線性代數(shù),可以將任何實(shí)矩陣R分解為3個(gè)矩陣U,2和Vo以電影示例為例,U是nxr用戶潛伏特征矩陣,V是命r電影潛伏特征矩陣。2是一個(gè)rM對(duì)角矩陣,包含原始矩陣的奇異值,僅表示特定功能對(duì)預(yù)測(cè)用戶偏好的重要性。R=LFLVtSeIRryVeIRrxm為了通過減少絕對(duì)值對(duì)2的值進(jìn)行排序并將矩陣2截?cái)酁榍発個(gè)維(k個(gè)奇異值),我們可以將矩陣重構(gòu)為矩陣Ao選擇k應(yīng)該確保A能夠捕獲最大的方差在原始矩陣R內(nèi),A是R的近似值,A=R。A和R之間的差是期望最小化的誤差。這正是主成分分析的思想。當(dāng)矩陣R是致密的時(shí),U和V可以很容易地解析分解。但是,電影分級(jí)矩陣超級(jí)稀疏。盡管存在一些填補(bǔ)缺失值的插補(bǔ)方法,但我們將轉(zhuǎn)向一種編程方法,以僅使用那些缺失值并找到因子矩陣U和Vo我們嘗試通過以下方法直接找到U和V,而不是通過SVD對(duì)R進(jìn)行因子分解。目的是當(dāng)U和V相乘時(shí),輸由矩陣R是R的最近似值,而不再是稀疏矩陣。對(duì)于推薦系統(tǒng),通常使用非負(fù)矩陣分解實(shí)現(xiàn)此數(shù)值近似,因?yàn)樵u(píng)級(jí)中沒有負(fù)值。請(qǐng)參閱下面的公式。查看特定用戶和項(xiàng)目的預(yù)測(cè)評(píng)級(jí),將項(xiàng)目i記為向量q?將用戶u標(biāo)記為向量p?,以使這兩個(gè)向量的點(diǎn)積為用戶u對(duì)項(xiàng)目i的預(yù)測(cè)評(píng)級(jí)。該值顯示在矩陣R,中的第u行和第i歹人Pred

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論