版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、【Resys】如何從無到有建立推薦系統(tǒng)推薦系統(tǒng)廣泛應(yīng)用于各類網(wǎng)站,電子商務(wù)中的商品推薦、博客網(wǎng)站的文章推薦,以及幫助人們尋找音樂和影片的各類應(yīng)用。但如何才能從無到有的給網(wǎng)站配備一個(gè)推薦系統(tǒng)呢?針對(duì)這個(gè)問題,我在搜索引擎中遍尋多時(shí),但始終沒有找到滿意的答案。這期間我也加入了國(guó)內(nèi)推薦系統(tǒng)高手聚集的推薦系統(tǒng)郵件列表,其中不乏當(dāng)當(dāng)、卓越亞馬遜、豆瓣等業(yè)內(nèi)在推薦系統(tǒng)上領(lǐng)先的產(chǎn)品、技術(shù)高手,但浸淫多日卻始終無法在腦海中形成一個(gè)以內(nèi)容推薦為最終目的的產(chǎn)品框架或產(chǎn)品路線圖。這種狀態(tài)一直持續(xù)到我購買了集體智慧編程(Programming Collective Intelligence)后才得以改觀,現(xiàn)在我將此書
2、的部分讀書筆記予以整理,希望能給同樣對(duì)推薦系統(tǒng)感興趣的朋友整理出一個(gè)可操作的、適合內(nèi)容型網(wǎng)站推薦系統(tǒng)產(chǎn)品框架。正文分割線我們知道,要想了解內(nèi)容網(wǎng)站的推薦信息,最沒有技術(shù)含量的方法莫過于向朋友詢問。我們也知道,這其中有一部分人的品位會(huì)比其他人的高一些,通過觀察這些人是否通常也和我們一樣喜歡同樣的東西,可以逐漸對(duì)這些情況有所了解。不過隨著選擇越來越多,要想通過詢問一小群人來確定我們想要的東西,將會(huì)變得越來越不切實(shí)際,因?yàn)樗麄兛赡懿⒉涣私馑械倪x擇。這就是為什么人們要發(fā)展出一套被稱為協(xié)同過濾(collaborative filtering)的技術(shù)。從實(shí)際的情況看,目前我們所能接觸到的領(lǐng)先推薦系統(tǒng),包
3、括Netfilx、豆瓣、Amazon等等都是利用協(xié)同過濾技術(shù)來實(shí)現(xiàn)的。協(xié)同過濾又分成幾種:基于用戶的協(xié)同過濾、基于項(xiàng)目的協(xié)同過濾、基于模型的協(xié)同過濾。那么到底什么是協(xié)同過濾?它需要產(chǎn)品設(shè)計(jì)者做哪些事情才能實(shí)現(xiàn)?(為了讓問題簡(jiǎn)化,這里著重介紹基于用戶的協(xié)同過濾)一個(gè)基于用戶的協(xié)同過濾過濾算法通常的做法是對(duì)一大群人進(jìn)行搜索,并從中找出與我們品位相近的一小群人。算法會(huì)對(duì)這些人所偏愛的其他內(nèi)容進(jìn)行考察,并將它們組合起來構(gòu)成一個(gè)經(jīng)過排名的推薦列表。因此產(chǎn)品設(shè)計(jì)者需要理解你的網(wǎng)站需要依次做以下這幾件事情:1.搜集偏好(Collecting Preferences)要搜集偏好意味著要尋找一種表達(dá)不同人及其偏
4、好的方法。例如,豆瓣會(huì)要求用戶對(duì)每部電影用1到5顆星來評(píng)分,以此來體現(xiàn)包括本人在內(nèi)的每位影評(píng)者對(duì)某一給定影片的喜愛程度。假如你正在設(shè)計(jì)一個(gè)購物網(wǎng)站,那不妨用數(shù)字1來代表有人過去購買過某件商品,用數(shù)字0來代表未曾購買過任何商品。而對(duì)于一個(gè)新聞故事投票網(wǎng)站,我們可以分別用數(shù)字-1、0和1來表達(dá)“不喜歡”、“沒有投票”、“喜歡”。不管偏好如何表達(dá)的,你要做的是建立一種方法來使得你的用戶來參與表達(dá),并把他們表達(dá)的內(nèi)容對(duì)應(yīng)到數(shù)字以形成相應(yīng)的數(shù)據(jù)集合。2.尋找相近的用戶(Finding Similar Users)有了人們偏好的數(shù)據(jù)集后,我們需要有一種方法來確定人們?cè)谄肺环矫娴南嗨瞥潭?。為此,我們可以將?/p>
5、個(gè)人與所有其他人進(jìn)行對(duì)比,并計(jì)算他們的相似度評(píng)價(jià)值。有若干種方法可以達(dá)到此目的:歐幾里德距離(Euclidean Distance Score)、皮爾遜相關(guān)度(Person Correlation Coefficient)、余弦相似性(Cosine-based Similarity)、調(diào)整余弦相似性(Adjusted Cosine Similarity)、Jaccard系數(shù)或曼哈頓距離算法等。請(qǐng)記住,各種相似度的計(jì)算方法各有所長(zhǎng),要根據(jù)具體的應(yīng)用場(chǎng)景來選取一種或幾種綜合使用。下面以實(shí)際例子簡(jiǎn)單介紹兩種:歐幾里德距離(Euclidean Distance Score):它以經(jīng)過人們一致評(píng)價(jià)的物品
6、為坐標(biāo)軸,然后將參與評(píng)價(jià)的人繪制到圖上,并考察他們彼此間的距離遠(yuǎn)近。x軸、y軸分別代表電影Dupree和Snake,而在第一象限偏好空間里的則是每個(gè)人對(duì)這兩部電影的評(píng)分。不難發(fā)現(xiàn),Toby對(duì)Snakes和Dupree這兩部電影的評(píng)分是4.5和1.0,而LaSalle的則是4.0和2.0。按照歐幾里德距離的結(jié)論,偏好越相似的人,其在偏好空間的距離就越短。至于如何計(jì)算兩者的距離,運(yùn)用你初中學(xué)的幾何知識(shí)就行,計(jì)算兩點(diǎn)每個(gè)坐標(biāo)的差值,求平方后再相加,最后對(duì)總和取平方根。值得一提的是此方法對(duì)于數(shù)量多于兩項(xiàng)的評(píng)分也同樣適用。因此,你可以設(shè)計(jì)一個(gè)函數(shù)來計(jì)算2個(gè)用戶間的相似度,當(dāng)然前提是兩者需要有一定重合的評(píng)
7、分項(xiàng)。皮爾遜相關(guān)度(Pearson Correlation Score):它的原理是通過判斷兩組數(shù)據(jù)與某一直線擬合程度來判斷相似度。它在數(shù)據(jù)不是很規(guī)范(normalized)的時(shí)候,如影評(píng)者對(duì)影片的評(píng)價(jià)總是相對(duì)于平均水平偏離很大時(shí),會(huì)傾向于給出更好的結(jié)果。如下圖是Mick LaSalle和Gene Seymour分別對(duì)5部電影的評(píng)分(與上圖不同,x軸和y軸對(duì)應(yīng)的是兩個(gè)人),虛線被稱為最佳擬合線(best-fit line),其繪制原則是盡可能地靠近圖上的所有坐標(biāo)點(diǎn)。如果兩位評(píng)論者對(duì)所有影片的評(píng)分情況都相同,那么這條直線將成為對(duì)角線,并且會(huì)與圖上所有的坐標(biāo)點(diǎn)都相交。下圖展示了一個(gè)有著更高相關(guān)系數(shù)
8、的例子,這意味著Lisa Rose和Jack Matthews在這幾部電影上有著更高的相似度(各點(diǎn)更靠近最佳擬合曲線)。采用皮爾遜方法可以修正“夸大分值(grade inflation)”的情況。在上圖中,雖然Jack總是傾向于給出比Lisa更高的分?jǐn)?shù),但最終的直線仍然擬合度較高,這是因?yàn)樗麄儍烧哂兄鄬?duì)近似的偏好。也就是說,如果某人總是傾向于給出比另一人更高的分?jǐn)?shù),而兩者的分差又始終保持一致,則他們依然可能會(huì)存在很好的相關(guān)性。而此前提到過的歐幾里德距離評(píng)價(jià)方法,會(huì)因?yàn)橐粋€(gè)人的評(píng)價(jià)始終比另一個(gè)人更為“嚴(yán)格”(從而導(dǎo)致評(píng)價(jià)始終相對(duì)較低),而得出兩者不相近的結(jié)論,即使他們的品位很相似也是如此。而這
9、一行為是否是我們想要的結(jié)果,取決于具體的應(yīng)用場(chǎng)景。皮爾遜的相關(guān)度算法首先會(huì)找出兩位評(píng)論者都曾評(píng)價(jià)過的物品,然后計(jì)算兩者的評(píng)分總和和平方和,并求得評(píng)分的乘積之和。最后,利用這些計(jì)算結(jié)果計(jì)算出相關(guān)系數(shù):PS:公式能看懂,但我還未能從數(shù)學(xué)上去理解此公式的推導(dǎo)過程,慚愧-_-|3.為評(píng)論者打分(Ranking the Critics)理解了上一步后,這步就簡(jiǎn)單了?,F(xiàn)在只需根據(jù)指定的人員對(duì)每個(gè)人進(jìn)行打分,找出最接近的匹配結(jié)果,也即所謂該人的最近鄰。回到上面的例子,我們的目的是要尋找與自己品位相似的影評(píng)者,那么所需要做的就是以你自己為基準(zhǔn),計(jì)算每個(gè)人和你的相似度,然后排序輸出前幾項(xiàng)即可?,F(xiàn)在假設(shè)你是Tob
10、y,那么經(jīng)過這一步的計(jì)算你會(huì)得到一個(gè)你的最近鄰列表,也就是說你可能會(huì)知道Lisa、Mick和Claudia可能是和你品位最相近的3個(gè)人。4.推薦物品(Recommending Items)找到一位和你趣味相投的影評(píng)者固然不錯(cuò),但我們的最終目的是一份影片的推薦列表(上面提到過的以內(nèi)容推薦為最終目的)。當(dāng)然,簡(jiǎn)單的做法是查找與自己品位最相近的人,并從他所喜歡的影片中找出一部自己還未看過的影片,但這樣做有些隨意或者是粗糙。因?yàn)槿绻撊诉€未對(duì)某些影片做過評(píng)論,但這些影片也許就是我們所喜歡的。又或者另外的一種情況就是推薦給你某人特別熱衷的一部影片,但有其他可靠數(shù)據(jù)表明所有的其他評(píng)論者都不看好這部影片。為
11、了解決上述問題,我們需要一個(gè)經(jīng)過加權(quán)的評(píng)價(jià)值來為影片打分:上圖中Critic列是與Toby進(jìn)行相似度對(duì)比的人名,Similarity列表示他們與Toby的相似度系數(shù)。Night、Lady和Luck都是電影名,所在列是這些人對(duì)這些電影的評(píng)分。S.x打頭的那幾列給出了相似度系數(shù)和評(píng)分后相乘的結(jié)果。如此一來,相比于我們不相近的人,那些與我們相近的人將會(huì)對(duì)整體評(píng)價(jià)擁有更多的貢獻(xiàn)。那有人會(huì)問為什么不直接采用Total這行,而需要Total/Sim.Sum?這是因?yàn)?,一部受更多人評(píng)論的影片會(huì)對(duì)結(jié)果產(chǎn)生更大的影響,因此我們必須要除以Sim.Sum,它代表了所有對(duì)這部電影有過評(píng)論的評(píng)論者的相似度之和。就像Night這部電影,Total為12.89,有5個(gè)人為其評(píng)分,而Lady為8.38,4個(gè)人評(píng)分。假設(shè)電影Night有和當(dāng)前相同的Total分?jǐn)?shù)卻多了一倍的人為其評(píng)分,那最后
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 肇慶地區(qū)地質(zhì)地貌實(shí)習(xí)報(bào)告-總結(jié)報(bào)告模板
- 2025年中國(guó)采礦采石設(shè)備制造行業(yè)市場(chǎng)需求預(yù)測(cè)與投資戰(zhàn)略規(guī)劃分析報(bào)告
- 廣西河池市羅城縣2021-2022學(xué)年五年級(jí)上學(xué)期英語期末試卷
- 春節(jié)新媒營(yíng)銷之道
- 春節(jié)購房共筑新希望
- 二零二五年度KTV會(huì)員積分兌換與禮品采購合同3篇
- 2024煤礦安全生產(chǎn)條例、兩辦意見、硬措施試卷
- 中國(guó)電信個(gè)人工作總結(jié)
- 液壓壓力機(jī)知識(shí)培訓(xùn)課件
- 二零二五年度家庭養(yǎng)老護(hù)理員護(hù)理培訓(xùn)與就業(yè)合同3篇
- 醫(yī)療團(tuán)隊(duì)管理技巧與策略
- 《功能點(diǎn)計(jì)算方法》課件
- GB/T 451.2-2023紙和紙板第2部分:定量的測(cè)定
- 工會(huì)提案培訓(xùn)課件
- 高空拋物法律知識(shí)講座
- 射頻工程師年終總結(jié)
- 2019統(tǒng)編版高中數(shù)學(xué)A版必修第二冊(cè)教學(xué)計(jì)劃含教學(xué)進(jìn)度表(高一下學(xué)期數(shù)學(xué)教學(xué)計(jì)劃)
- 抖音短視頻運(yùn)營(yíng)部門薪酬績(jī)效方案(短視頻運(yùn)營(yíng)薪酬績(jī)效考核方案)
- 增值稅發(fā)票銷貨清單
- 貴州高等學(xué)校體育工作評(píng)價(jià)指標(biāo)體系試行
- 基于實(shí)驗(yàn)教學(xué)培養(yǎng)學(xué)生物理核心素養(yǎng)的研究
評(píng)論
0/150
提交評(píng)論