如何從無到有建立推薦系統(tǒng)_第1頁
如何從無到有建立推薦系統(tǒng)_第2頁
如何從無到有建立推薦系統(tǒng)_第3頁
如何從無到有建立推薦系統(tǒng)_第4頁
如何從無到有建立推薦系統(tǒng)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、【Resys】如何從無到有建立推薦系統(tǒng)推薦系統(tǒng)廣泛應(yīng)用于各類網(wǎng)站,電子商務(wù)中的商品推薦、博客網(wǎng)站的文章推薦,以及幫助人們尋找音樂和影片的各類應(yīng)用。但如何才能從無到有的給網(wǎng)站配備一個(gè)推薦系統(tǒng)呢?針對(duì)這個(gè)問題,我在搜索引擎中遍尋多時(shí),但始終沒有找到滿意的答案。這期間我也加入了國(guó)內(nèi)推薦系統(tǒng)高手聚集的推薦系統(tǒng)郵件列表,其中不乏當(dāng)當(dāng)、卓越亞馬遜、豆瓣等業(yè)內(nèi)在推薦系統(tǒng)上領(lǐng)先的產(chǎn)品、技術(shù)高手,但浸淫多日卻始終無法在腦海中形成一個(gè)以內(nèi)容推薦為最終目的的產(chǎn)品框架或產(chǎn)品路線圖。這種狀態(tài)一直持續(xù)到我購買了集體智慧編程(Programming Collective Intelligence)后才得以改觀,現(xiàn)在我將此書

2、的部分讀書筆記予以整理,希望能給同樣對(duì)推薦系統(tǒng)感興趣的朋友整理出一個(gè)可操作的、適合內(nèi)容型網(wǎng)站推薦系統(tǒng)產(chǎn)品框架。正文分割線我們知道,要想了解內(nèi)容網(wǎng)站的推薦信息,最沒有技術(shù)含量的方法莫過于向朋友詢問。我們也知道,這其中有一部分人的品位會(huì)比其他人的高一些,通過觀察這些人是否通常也和我們一樣喜歡同樣的東西,可以逐漸對(duì)這些情況有所了解。不過隨著選擇越來越多,要想通過詢問一小群人來確定我們想要的東西,將會(huì)變得越來越不切實(shí)際,因?yàn)樗麄兛赡懿⒉涣私馑械倪x擇。這就是為什么人們要發(fā)展出一套被稱為協(xié)同過濾(collaborative filtering)的技術(shù)。從實(shí)際的情況看,目前我們所能接觸到的領(lǐng)先推薦系統(tǒng),包

3、括Netfilx、豆瓣、Amazon等等都是利用協(xié)同過濾技術(shù)來實(shí)現(xiàn)的。協(xié)同過濾又分成幾種:基于用戶的協(xié)同過濾、基于項(xiàng)目的協(xié)同過濾、基于模型的協(xié)同過濾。那么到底什么是協(xié)同過濾?它需要產(chǎn)品設(shè)計(jì)者做哪些事情才能實(shí)現(xiàn)?(為了讓問題簡(jiǎn)化,這里著重介紹基于用戶的協(xié)同過濾)一個(gè)基于用戶的協(xié)同過濾過濾算法通常的做法是對(duì)一大群人進(jìn)行搜索,并從中找出與我們品位相近的一小群人。算法會(huì)對(duì)這些人所偏愛的其他內(nèi)容進(jìn)行考察,并將它們組合起來構(gòu)成一個(gè)經(jīng)過排名的推薦列表。因此產(chǎn)品設(shè)計(jì)者需要理解你的網(wǎng)站需要依次做以下這幾件事情:1.搜集偏好(Collecting Preferences)要搜集偏好意味著要尋找一種表達(dá)不同人及其偏

4、好的方法。例如,豆瓣會(huì)要求用戶對(duì)每部電影用1到5顆星來評(píng)分,以此來體現(xiàn)包括本人在內(nèi)的每位影評(píng)者對(duì)某一給定影片的喜愛程度。假如你正在設(shè)計(jì)一個(gè)購物網(wǎng)站,那不妨用數(shù)字1來代表有人過去購買過某件商品,用數(shù)字0來代表未曾購買過任何商品。而對(duì)于一個(gè)新聞故事投票網(wǎng)站,我們可以分別用數(shù)字-1、0和1來表達(dá)“不喜歡”、“沒有投票”、“喜歡”。不管偏好如何表達(dá)的,你要做的是建立一種方法來使得你的用戶來參與表達(dá),并把他們表達(dá)的內(nèi)容對(duì)應(yīng)到數(shù)字以形成相應(yīng)的數(shù)據(jù)集合。2.尋找相近的用戶(Finding Similar Users)有了人們偏好的數(shù)據(jù)集后,我們需要有一種方法來確定人們?cè)谄肺环矫娴南嗨瞥潭?。為此,我們可以將?/p>

5、個(gè)人與所有其他人進(jìn)行對(duì)比,并計(jì)算他們的相似度評(píng)價(jià)值。有若干種方法可以達(dá)到此目的:歐幾里德距離(Euclidean Distance Score)、皮爾遜相關(guān)度(Person Correlation Coefficient)、余弦相似性(Cosine-based Similarity)、調(diào)整余弦相似性(Adjusted Cosine Similarity)、Jaccard系數(shù)或曼哈頓距離算法等。請(qǐng)記住,各種相似度的計(jì)算方法各有所長(zhǎng),要根據(jù)具體的應(yīng)用場(chǎng)景來選取一種或幾種綜合使用。下面以實(shí)際例子簡(jiǎn)單介紹兩種:歐幾里德距離(Euclidean Distance Score):它以經(jīng)過人們一致評(píng)價(jià)的物品

6、為坐標(biāo)軸,然后將參與評(píng)價(jià)的人繪制到圖上,并考察他們彼此間的距離遠(yuǎn)近。x軸、y軸分別代表電影Dupree和Snake,而在第一象限偏好空間里的則是每個(gè)人對(duì)這兩部電影的評(píng)分。不難發(fā)現(xiàn),Toby對(duì)Snakes和Dupree這兩部電影的評(píng)分是4.5和1.0,而LaSalle的則是4.0和2.0。按照歐幾里德距離的結(jié)論,偏好越相似的人,其在偏好空間的距離就越短。至于如何計(jì)算兩者的距離,運(yùn)用你初中學(xué)的幾何知識(shí)就行,計(jì)算兩點(diǎn)每個(gè)坐標(biāo)的差值,求平方后再相加,最后對(duì)總和取平方根。值得一提的是此方法對(duì)于數(shù)量多于兩項(xiàng)的評(píng)分也同樣適用。因此,你可以設(shè)計(jì)一個(gè)函數(shù)來計(jì)算2個(gè)用戶間的相似度,當(dāng)然前提是兩者需要有一定重合的評(píng)

7、分項(xiàng)。皮爾遜相關(guān)度(Pearson Correlation Score):它的原理是通過判斷兩組數(shù)據(jù)與某一直線擬合程度來判斷相似度。它在數(shù)據(jù)不是很規(guī)范(normalized)的時(shí)候,如影評(píng)者對(duì)影片的評(píng)價(jià)總是相對(duì)于平均水平偏離很大時(shí),會(huì)傾向于給出更好的結(jié)果。如下圖是Mick LaSalle和Gene Seymour分別對(duì)5部電影的評(píng)分(與上圖不同,x軸和y軸對(duì)應(yīng)的是兩個(gè)人),虛線被稱為最佳擬合線(best-fit line),其繪制原則是盡可能地靠近圖上的所有坐標(biāo)點(diǎn)。如果兩位評(píng)論者對(duì)所有影片的評(píng)分情況都相同,那么這條直線將成為對(duì)角線,并且會(huì)與圖上所有的坐標(biāo)點(diǎn)都相交。下圖展示了一個(gè)有著更高相關(guān)系數(shù)

8、的例子,這意味著Lisa Rose和Jack Matthews在這幾部電影上有著更高的相似度(各點(diǎn)更靠近最佳擬合曲線)。采用皮爾遜方法可以修正“夸大分值(grade inflation)”的情況。在上圖中,雖然Jack總是傾向于給出比Lisa更高的分?jǐn)?shù),但最終的直線仍然擬合度較高,這是因?yàn)樗麄儍烧哂兄鄬?duì)近似的偏好。也就是說,如果某人總是傾向于給出比另一人更高的分?jǐn)?shù),而兩者的分差又始終保持一致,則他們依然可能會(huì)存在很好的相關(guān)性。而此前提到過的歐幾里德距離評(píng)價(jià)方法,會(huì)因?yàn)橐粋€(gè)人的評(píng)價(jià)始終比另一個(gè)人更為“嚴(yán)格”(從而導(dǎo)致評(píng)價(jià)始終相對(duì)較低),而得出兩者不相近的結(jié)論,即使他們的品位很相似也是如此。而這

9、一行為是否是我們想要的結(jié)果,取決于具體的應(yīng)用場(chǎng)景。皮爾遜的相關(guān)度算法首先會(huì)找出兩位評(píng)論者都曾評(píng)價(jià)過的物品,然后計(jì)算兩者的評(píng)分總和和平方和,并求得評(píng)分的乘積之和。最后,利用這些計(jì)算結(jié)果計(jì)算出相關(guān)系數(shù):PS:公式能看懂,但我還未能從數(shù)學(xué)上去理解此公式的推導(dǎo)過程,慚愧-_-|3.為評(píng)論者打分(Ranking the Critics)理解了上一步后,這步就簡(jiǎn)單了?,F(xiàn)在只需根據(jù)指定的人員對(duì)每個(gè)人進(jìn)行打分,找出最接近的匹配結(jié)果,也即所謂該人的最近鄰。回到上面的例子,我們的目的是要尋找與自己品位相似的影評(píng)者,那么所需要做的就是以你自己為基準(zhǔn),計(jì)算每個(gè)人和你的相似度,然后排序輸出前幾項(xiàng)即可?,F(xiàn)在假設(shè)你是Tob

10、y,那么經(jīng)過這一步的計(jì)算你會(huì)得到一個(gè)你的最近鄰列表,也就是說你可能會(huì)知道Lisa、Mick和Claudia可能是和你品位最相近的3個(gè)人。4.推薦物品(Recommending Items)找到一位和你趣味相投的影評(píng)者固然不錯(cuò),但我們的最終目的是一份影片的推薦列表(上面提到過的以內(nèi)容推薦為最終目的)。當(dāng)然,簡(jiǎn)單的做法是查找與自己品位最相近的人,并從他所喜歡的影片中找出一部自己還未看過的影片,但這樣做有些隨意或者是粗糙。因?yàn)槿绻撊诉€未對(duì)某些影片做過評(píng)論,但這些影片也許就是我們所喜歡的。又或者另外的一種情況就是推薦給你某人特別熱衷的一部影片,但有其他可靠數(shù)據(jù)表明所有的其他評(píng)論者都不看好這部影片。為

11、了解決上述問題,我們需要一個(gè)經(jīng)過加權(quán)的評(píng)價(jià)值來為影片打分:上圖中Critic列是與Toby進(jìn)行相似度對(duì)比的人名,Similarity列表示他們與Toby的相似度系數(shù)。Night、Lady和Luck都是電影名,所在列是這些人對(duì)這些電影的評(píng)分。S.x打頭的那幾列給出了相似度系數(shù)和評(píng)分后相乘的結(jié)果。如此一來,相比于我們不相近的人,那些與我們相近的人將會(huì)對(duì)整體評(píng)價(jià)擁有更多的貢獻(xiàn)。那有人會(huì)問為什么不直接采用Total這行,而需要Total/Sim.Sum?這是因?yàn)?,一部受更多人評(píng)論的影片會(huì)對(duì)結(jié)果產(chǎn)生更大的影響,因此我們必須要除以Sim.Sum,它代表了所有對(duì)這部電影有過評(píng)論的評(píng)論者的相似度之和。就像Night這部電影,Total為12.89,有5個(gè)人為其評(píng)分,而Lady為8.38,4個(gè)人評(píng)分。假設(shè)電影Night有和當(dāng)前相同的Total分?jǐn)?shù)卻多了一倍的人為其評(píng)分,那最后

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論