版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、【Resys】如何從無到有建立推薦系統(tǒng)推薦系統(tǒng)廣泛應(yīng)用于各類網(wǎng)站,電子商務(wù)中的商品推薦、博客網(wǎng)站的文章推薦,以及幫助人們尋找音樂和影片的各類應(yīng)用。但如何才能從無到有的給網(wǎng)站配備一個(gè)推薦系統(tǒng)呢?針對這個(gè)問題,我在搜索引擎中遍尋多時(shí),但始終沒有找到滿意的答案。這期間我也加入了國內(nèi)推薦系統(tǒng)高手聚集的推薦系統(tǒng)郵件列表,其中不乏當(dāng)當(dāng)、卓越亞馬遜、豆瓣等業(yè)內(nèi)在推薦系統(tǒng)上領(lǐng)先的產(chǎn)品、技術(shù)高手,但浸淫多日卻始終無法在腦海中形成一個(gè)以內(nèi)容推薦為最終目的的產(chǎn)品框架或產(chǎn)品路線圖。這種狀態(tài)一直持續(xù)到我購買了集體智慧編程(Programming Collective Intelligence)后才得以改觀,現(xiàn)在我將此書
2、的部分讀書筆記予以整理,希望能給同樣對推薦系統(tǒng)感興趣的朋友整理出一個(gè)可操作的、適合內(nèi)容型網(wǎng)站推薦系統(tǒng)產(chǎn)品框架。正文分割線我們知道,要想了解內(nèi)容網(wǎng)站的推薦信息,最沒有技術(shù)含量的方法莫過于向朋友詢問。我們也知道,這其中有一部分人的品位會(huì)比其他人的高一些,通過觀察這些人是否通常也和我們一樣喜歡同樣的東西,可以逐漸對這些情況有所了解。不過隨著選擇越來越多,要想通過詢問一小群人來確定我們想要的東西,將會(huì)變得越來越不切實(shí)際,因?yàn)樗麄兛赡懿⒉涣私馑械倪x擇。這就是為什么人們要發(fā)展出一套被稱為協(xié)同過濾(collaborative filtering)的技術(shù)。從實(shí)際的情況看,目前我們所能接觸到的領(lǐng)先推薦系統(tǒng),包
3、括Netfilx、豆瓣、Amazon等等都是利用協(xié)同過濾技術(shù)來實(shí)現(xiàn)的。協(xié)同過濾又分成幾種:基于用戶的協(xié)同過濾、基于項(xiàng)目的協(xié)同過濾、基于模型的協(xié)同過濾。那么到底什么是協(xié)同過濾?它需要產(chǎn)品設(shè)計(jì)者做哪些事情才能實(shí)現(xiàn)?(為了讓問題簡化,這里著重介紹基于用戶的協(xié)同過濾)一個(gè)基于用戶的協(xié)同過濾過濾算法通常的做法是對一大群人進(jìn)行搜索,并從中找出與我們品位相近的一小群人。算法會(huì)對這些人所偏愛的其他內(nèi)容進(jìn)行考察,并將它們組合起來構(gòu)成一個(gè)經(jīng)過排名的推薦列表。因此產(chǎn)品設(shè)計(jì)者需要理解你的網(wǎng)站需要依次做以下這幾件事情:1.搜集偏好(Collecting Preferences)要搜集偏好意味著要尋找一種表達(dá)不同人及其偏
4、好的方法。例如,豆瓣會(huì)要求用戶對每部電影用1到5顆星來評分,以此來體現(xiàn)包括本人在內(nèi)的每位影評者對某一給定影片的喜愛程度。假如你正在設(shè)計(jì)一個(gè)購物網(wǎng)站,那不妨用數(shù)字1來代表有人過去購買過某件商品,用數(shù)字0來代表未曾購買過任何商品。而對于一個(gè)新聞故事投票網(wǎng)站,我們可以分別用數(shù)字-1、0和1來表達(dá)“不喜歡”、“沒有投票”、“喜歡”。不管偏好如何表達(dá)的,你要做的是建立一種方法來使得你的用戶來參與表達(dá),并把他們表達(dá)的內(nèi)容對應(yīng)到數(shù)字以形成相應(yīng)的數(shù)據(jù)集合。2.尋找相近的用戶(Finding Similar Users)有了人們偏好的數(shù)據(jù)集后,我們需要有一種方法來確定人們在品位方面的相似程度。為此,我們可以將每
5、個(gè)人與所有其他人進(jìn)行對比,并計(jì)算他們的相似度評價(jià)值。有若干種方法可以達(dá)到此目的:歐幾里德距離(Euclidean Distance Score)、皮爾遜相關(guān)度(Person Correlation Coefficient)、余弦相似性(Cosine-based Similarity)、調(diào)整余弦相似性(Adjusted Cosine Similarity)、Jaccard系數(shù)或曼哈頓距離算法等。請記住,各種相似度的計(jì)算方法各有所長,要根據(jù)具體的應(yīng)用場景來選取一種或幾種綜合使用。下面以實(shí)際例子簡單介紹兩種:歐幾里德距離(Euclidean Distance Score):它以經(jīng)過人們一致評價(jià)的物品
6、為坐標(biāo)軸,然后將參與評價(jià)的人繪制到圖上,并考察他們彼此間的距離遠(yuǎn)近。x軸、y軸分別代表電影Dupree和Snake,而在第一象限偏好空間里的則是每個(gè)人對這兩部電影的評分。不難發(fā)現(xiàn),Toby對Snakes和Dupree這兩部電影的評分是4.5和1.0,而LaSalle的則是4.0和2.0。按照歐幾里德距離的結(jié)論,偏好越相似的人,其在偏好空間的距離就越短。至于如何計(jì)算兩者的距離,運(yùn)用你初中學(xué)的幾何知識就行,計(jì)算兩點(diǎn)每個(gè)坐標(biāo)的差值,求平方后再相加,最后對總和取平方根。值得一提的是此方法對于數(shù)量多于兩項(xiàng)的評分也同樣適用。因此,你可以設(shè)計(jì)一個(gè)函數(shù)來計(jì)算2個(gè)用戶間的相似度,當(dāng)然前提是兩者需要有一定重合的評
7、分項(xiàng)。皮爾遜相關(guān)度(Pearson Correlation Score):它的原理是通過判斷兩組數(shù)據(jù)與某一直線擬合程度來判斷相似度。它在數(shù)據(jù)不是很規(guī)范(normalized)的時(shí)候,如影評者對影片的評價(jià)總是相對于平均水平偏離很大時(shí),會(huì)傾向于給出更好的結(jié)果。如下圖是Mick LaSalle和Gene Seymour分別對5部電影的評分(與上圖不同,x軸和y軸對應(yīng)的是兩個(gè)人),虛線被稱為最佳擬合線(best-fit line),其繪制原則是盡可能地靠近圖上的所有坐標(biāo)點(diǎn)。如果兩位評論者對所有影片的評分情況都相同,那么這條直線將成為對角線,并且會(huì)與圖上所有的坐標(biāo)點(diǎn)都相交。下圖展示了一個(gè)有著更高相關(guān)系數(shù)
8、的例子,這意味著Lisa Rose和Jack Matthews在這幾部電影上有著更高的相似度(各點(diǎn)更靠近最佳擬合曲線)。采用皮爾遜方法可以修正“夸大分值(grade inflation)”的情況。在上圖中,雖然Jack總是傾向于給出比Lisa更高的分?jǐn)?shù),但最終的直線仍然擬合度較高,這是因?yàn)樗麄儍烧哂兄鄬频钠?。也就是說,如果某人總是傾向于給出比另一人更高的分?jǐn)?shù),而兩者的分差又始終保持一致,則他們依然可能會(huì)存在很好的相關(guān)性。而此前提到過的歐幾里德距離評價(jià)方法,會(huì)因?yàn)橐粋€(gè)人的評價(jià)始終比另一個(gè)人更為“嚴(yán)格”(從而導(dǎo)致評價(jià)始終相對較低),而得出兩者不相近的結(jié)論,即使他們的品位很相似也是如此。而這
9、一行為是否是我們想要的結(jié)果,取決于具體的應(yīng)用場景。皮爾遜的相關(guān)度算法首先會(huì)找出兩位評論者都曾評價(jià)過的物品,然后計(jì)算兩者的評分總和和平方和,并求得評分的乘積之和。最后,利用這些計(jì)算結(jié)果計(jì)算出相關(guān)系數(shù):PS:公式能看懂,但我還未能從數(shù)學(xué)上去理解此公式的推導(dǎo)過程,慚愧-_-|3.為評論者打分(Ranking the Critics)理解了上一步后,這步就簡單了。現(xiàn)在只需根據(jù)指定的人員對每個(gè)人進(jìn)行打分,找出最接近的匹配結(jié)果,也即所謂該人的最近鄰?;氐缴厦娴睦?,我們的目的是要尋找與自己品位相似的影評者,那么所需要做的就是以你自己為基準(zhǔn),計(jì)算每個(gè)人和你的相似度,然后排序輸出前幾項(xiàng)即可。現(xiàn)在假設(shè)你是Tob
10、y,那么經(jīng)過這一步的計(jì)算你會(huì)得到一個(gè)你的最近鄰列表,也就是說你可能會(huì)知道Lisa、Mick和Claudia可能是和你品位最相近的3個(gè)人。4.推薦物品(Recommending Items)找到一位和你趣味相投的影評者固然不錯(cuò),但我們的最終目的是一份影片的推薦列表(上面提到過的以內(nèi)容推薦為最終目的)。當(dāng)然,簡單的做法是查找與自己品位最相近的人,并從他所喜歡的影片中找出一部自己還未看過的影片,但這樣做有些隨意或者是粗糙。因?yàn)槿绻撊诉€未對某些影片做過評論,但這些影片也許就是我們所喜歡的。又或者另外的一種情況就是推薦給你某人特別熱衷的一部影片,但有其他可靠數(shù)據(jù)表明所有的其他評論者都不看好這部影片。為
11、了解決上述問題,我們需要一個(gè)經(jīng)過加權(quán)的評價(jià)值來為影片打分:上圖中Critic列是與Toby進(jìn)行相似度對比的人名,Similarity列表示他們與Toby的相似度系數(shù)。Night、Lady和Luck都是電影名,所在列是這些人對這些電影的評分。S.x打頭的那幾列給出了相似度系數(shù)和評分后相乘的結(jié)果。如此一來,相比于我們不相近的人,那些與我們相近的人將會(huì)對整體評價(jià)擁有更多的貢獻(xiàn)。那有人會(huì)問為什么不直接采用Total這行,而需要Total/Sim.Sum?這是因?yàn)?,一部受更多人評論的影片會(huì)對結(jié)果產(chǎn)生更大的影響,因此我們必須要除以Sim.Sum,它代表了所有對這部電影有過評論的評論者的相似度之和。就像Night這部電影,Total為12.89,有5個(gè)人為其評分,而Lady為8.38,4個(gè)人評分。假設(shè)電影Night有和當(dāng)前相同的Total分?jǐn)?shù)卻多了一倍的人為其評分,那最后
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年XX企業(yè)領(lǐng)導(dǎo)力發(fā)展與企業(yè)文化塑造
- 教案解析:2024年眼鏡設(shè)計(jì)新趨勢
- 2024年百雀羚企業(yè)文化與未來展望
- 2024年繪本?。骸短蛹倚⊥谩氛n件與戲劇教育結(jié)合
- 2024年歷史教案:未來的教學(xué)理念與實(shí)踐
- 第47屆世界技能大賽江蘇省選拔賽-美發(fā)項(xiàng)目技術(shù)工作文件
- 2024年春季班《沁園春長沙》教案及教學(xué)反思
- 2024年新編《長恨歌》教學(xué)課件:解讀經(jīng)典之作
- 2024年初中生語文復(fù)句學(xué)習(xí)課件大全
- 白公鵝產(chǎn)業(yè)布局:2024年市場現(xiàn)狀及未來趨勢
- DB35T 2113-2023 幸福河湖評價(jià)導(dǎo)則
- 湖北省武漢市部分重點(diǎn)中學(xué)2025屆物理高一第一學(xué)期期中學(xué)業(yè)水平測試試題含解析
- 2024年秋大作業(yè):中華民族現(xiàn)代文明有哪些鮮明特質(zhì),建設(shè)中華民族現(xiàn)代文明的路徑是什么?附答案(六篇集合)
- 安保工作考核表
- 中國鐵路國際有限公司招聘考試試卷2022
- 電子政務(wù)概論-形考任務(wù)5(在線測試權(quán)重20%)-國開-參考資料
- 古代小說戲曲專題-形考任務(wù)2-國開-參考資料
- 構(gòu)美-空間形態(tài)設(shè)計(jì)學(xué)習(xí)通課后章節(jié)答案期末考試題庫2023年
- 產(chǎn)萬噸高密度聚乙烯聚合工段工藝設(shè)計(jì)
- 醫(yī)院關(guān)鍵財(cái)務(wù)管理崗位定期輪換與交接制度
- [推薦考試復(fù)習(xí)資料]2020R1快開門式壓力容器操作考試及R1快開門式壓力容器操作實(shí)操考試視頻
評論
0/150
提交評論