版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、推薦系統(tǒng)作者:苗原聯(lián)系方式:編輯ppt目標(biāo) 推薦系統(tǒng)的意義 基于內(nèi)容推薦 協(xié)同過濾推薦 頻繁模式挖掘 標(biāo)簽系統(tǒng) 推薦結(jié)果評價編輯ppt推薦系統(tǒng)的意義 隨著信息技術(shù)的迅速發(fā)展和信息內(nèi)容的日益增長,“信息過載”問題愈來愈嚴(yán)重,愈發(fā)帶來很大的信息負(fù)擔(dān)。 施拉姆施拉姆信息選擇公式信息選擇公式,人們對媒體的注意或選擇的可能性(然率)與它能夠提供的報償(價值)程度成正比,與人們獲得它的代價(費力)程度成反比。 人們愿意用最小的代價獲取價值最大的新聞信息。人們愿意用最小的代價獲取價值最大的新聞信息。編輯ppt推薦系統(tǒng)的意義 在互聯(lián)網(wǎng)時代由于網(wǎng)絡(luò)技術(shù)能以很低的成本讓人們?nèi)カ@得更多的信息和選擇,事 實上,每一個
2、人的品味和偏好都并非和主流人群完全一致,當(dāng)我們發(fā)現(xiàn)得越多,我們就越能體會到我們需要更多的選擇。如果說搜索引擎體現(xiàn)著馬 太效應(yīng)的話,那么長尾理論則闡述了推薦系統(tǒng)發(fā)揮的價值。編輯ppt推薦系統(tǒng)的意義編輯ppt基于內(nèi)容推薦信息來源: 物品基本信息 用戶的基本信息 用戶和物品之間的信息編輯ppt基于內(nèi)容推薦(人口統(tǒng)計學(xué)的推薦)基于人口統(tǒng)計學(xué)的推薦思想:根據(jù)系統(tǒng)用戶的基本信息發(fā)現(xiàn)用戶的相關(guān)程度,然后將相似用戶喜愛的其他物品推薦給當(dāng)前用戶編輯ppt基于內(nèi)容推薦(人口統(tǒng)計學(xué)的推薦)A用戶基本信息:年齡25-30歲,性別:女年齡分:0-10 10-25 25-30 30-35 35-60 60-B用戶基本信息
3、:年齡30-35歲,性別:男C用戶基本信息:年齡25-30歲,性別:女性別:男 女a(chǎn)(3,1)b(4,0)c(3,1)編輯ppt基于內(nèi)容推薦(人口統(tǒng)計學(xué)的推薦)余弦相似性編輯ppt基于內(nèi)容推薦(人口統(tǒng)計學(xué)的推薦)優(yōu)缺點:(1)由于不使用當(dāng)前用戶對物品的喜好歷史數(shù)據(jù),所以對于新用戶來講沒有“冷啟動”的問題;(2)可能涉及到一些與信息發(fā)現(xiàn)問題本身無關(guān)卻比較敏感的信息,比如用戶的年齡等,這些用戶信息不是很好獲?。痪庉媝pt基于內(nèi)容推薦(物品內(nèi)容推薦)系統(tǒng)首先對物品的屬性進行建模,圖中用類型作為屬性。通過 相似度計算,發(fā)現(xiàn)電影A和C相似度較高,因為他們都屬于愛情類。系統(tǒng)還會發(fā)現(xiàn)用戶A喜歡電影A,由此得
4、出結(jié)論,用戶A很可能對電影C也感興趣。于是將電影 C推薦給A。編輯ppt基于內(nèi)容推薦(物品內(nèi)容推薦)物品相似度計算方法物品相似度計算方法: 基于物品基本信息 基于語義特征編輯ppt基于內(nèi)容推薦(物品內(nèi)容推薦)TF-IDF算法:自動提取關(guān)鍵詞算法:自動提取關(guān)鍵詞如果如果某個詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映某個詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性,正是我們所需要的關(guān)鍵詞。了這篇文章的特性,正是我們所需要的關(guān)鍵詞。編輯ppt基于內(nèi)容推薦(物品內(nèi)容推薦)優(yōu)缺點優(yōu)缺點:能能很好的建模用戶的口味,能提供更加精確的推薦很好的建模用戶的口味,能提
5、供更加精確的推薦;物品物品相似度的分析僅僅依賴于物品本身的特征,這里沒有考慮人對物品的態(tài)度相似度的分析僅僅依賴于物品本身的特征,這里沒有考慮人對物品的態(tài)度;因為因為需要基于用戶以往的喜好歷史做出推薦,所以對于新用戶有需要基于用戶以往的喜好歷史做出推薦,所以對于新用戶有“冷啟動冷啟動”的的問題;問題;編輯ppt基于協(xié)同過濾推薦 基于用戶的協(xié)同過濾(user-based CF) 基于商品的協(xié)同過濾(item-based CF)信息來源: 用戶和物品之間的信息編輯ppt基于協(xié)同過濾推薦( user-based CF ) 思想:根據(jù)所有用戶對物品或者信息的偏好,發(fā)現(xiàn)與當(dāng)前用戶口味和偏好相似的“鄰居”用
6、戶群,為當(dāng)前戶進行推薦;編輯ppt基于協(xié)同過濾推薦( item-based CF ) 思想:使用所有用戶對物品或者信息的偏好,發(fā)現(xiàn)物品和物品之間的相似度,然后根據(jù)用戶的歷史偏好信息,將類似的物品推薦給用戶;編輯ppt基于協(xié)同過濾推薦( item-based CF )考慮到大多數(shù)電商網(wǎng)站多人多熱門商品要遠少于人數(shù),一般會選擇基于物品的協(xié)同過濾算法。編輯ppt基于協(xié)同過濾推薦編輯ppt基于協(xié)同過濾推薦優(yōu)缺點優(yōu)缺點: 不需要考慮物品內(nèi)容和人口屬性,需要歷史記錄。 由于需要用戶的歷史偏好,所以存在新用戶的“冷啟動”問題;編輯ppt頻繁模式挖掘 關(guān)聯(lián)規(guī)則挖掘的典型案例: 購物籃問題 在商場中擁有大量的商
7、品(項目),如:牛奶、面包等,客戶將所購買的商品放入到自己的購物籃中。 編輯ppt頻繁模式挖掘(支持度與置信度支持度與置信度 )關(guān)聯(lián)關(guān)聯(lián)規(guī)則的規(guī)則的支持度支持度 如果交易數(shù)據(jù)庫D中s的交易包含AB,則稱規(guī)則A =B在事務(wù)集D上的支持度為s。Support(A=B)=P(AB) 關(guān)聯(lián)關(guān)聯(lián)規(guī)則的規(guī)則的置信度置信度 如果交易數(shù)據(jù)庫D中,包含A的交易中有c(%)的交易同時也包含B,稱規(guī)則的置信度為c。(條件概率)Confidence (A =B)=P(B|A) =support(A = B)/support(A)(注:這里的U是指在交易中同時出現(xiàn)A和B) 編輯ppt頻繁模式挖掘查找所有的規(guī)則 A=C
8、具有最小支持度和可信度 支持度 , s , 一次交易中包含 A 、 C 的可能性 置信度 , c, 包含 A 的交易中也包含 C 的條件概率 編輯ppt頻繁模式挖掘rule A=C : support = support( A C ) = 50% confidence = support( A C )/support( A ) = 66.7% rule C =A (50%, 100%) 編輯ppt頻繁模式挖掘(頻繁項集 )項集 (Itemset): a set of items 例如 acm=a, c, m , sup=3 頻繁項集(高頻項集) 如果項集滿足最小支持度,則稱之為頻繁項集 如果
9、min_sup = 3, 則 acm 是頻繁項集 如果頻繁項集中包含 K 個項,則稱為頻繁 K 項集 編輯ppt頻繁模式挖掘(Apriori算法 )尋找最大頻繁集逐層搜索的迭代方法。 用k-項集探求(k+1)-項集。 具體地: 首先找出頻繁1-項集,該集合記為L 用L找出頻繁2-項集的集合L 如此繼續(xù)下去,直到找到最大頻繁項集 該方法,主要有連接和剪枝兩步構(gòu)成。 編輯ppt標(biāo)簽系統(tǒng)編輯ppt標(biāo)簽系統(tǒng) 表明物品是什么 比如是一只鳥,就會有“鳥”這個詞的標(biāo)簽 表明物品的種類 比如在Delicious的書簽中,表示一個網(wǎng)頁類別的標(biāo)簽包括 article(文章)、blog(博客)、 book(圖書)等。 表明誰擁有物品 比如很多博客的標(biāo)簽中會包括博客的作者等信息。 表達用戶的觀點 比如用戶認(rèn)為網(wǎng)頁很有趣,就會打上標(biāo)簽funny(有趣),認(rèn)為很無聊,就會打上標(biāo)簽boring(無聊)。 用戶相關(guān)的標(biāo)簽 比如 my favorite(我最喜歡的)、my comment(我的評論)等。 用戶的任務(wù) 比如 to read(即將閱讀)、job search(找工作)編輯ppt基于標(biāo)簽系統(tǒng)的推薦編輯ppt標(biāo)簽系統(tǒng) KNN聚類算法編輯ppt標(biāo)簽系統(tǒng) 主題模型算法編輯ppt標(biāo)簽系統(tǒng) 用戶畫像用戶畫像的核心工作是為用戶打標(biāo)簽,打標(biāo)簽的重要目的之一是為了讓人能夠理解并且方便計算機處理。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 長期機械租賃合同范本
- 兒子撫養(yǎng)的離婚協(xié)議書案例
- 企業(yè)貸款擔(dān)保合同風(fēng)險評估
- 2024年學(xué)校聘用臨時工協(xié)議書模板
- 廣告制作合同示例
- 家具交易合同樣本
- 2024年公司合作條款示范文本
- 工程施工居間合同范本
- 股權(quán)合作協(xié)議書撰寫心得
- 高端家具銷售合同格式
- 07項目部事故隱患排查清單
- ZZ036 新能源汽車維修賽題-2023年全國職業(yè)院校技能大賽擬設(shè)賽項賽題(10套)
- 人教版五年級上冊簡易方程《用字母表示數(shù)例4》
- ZZ031 園林微景觀設(shè)計與制作賽項賽題-2023年全國職業(yè)院校技能大賽擬設(shè)賽項賽題完整版(10套)
- 體育看齊教案
- 學(xué)生突出心理問題防治工作實施方案
- 醫(yī)院各部門科室崗位職責(zé)
- 花樣跳繩臂交叉跳繩 教學(xué)設(shè)計
- 全科醫(yī)學(xué)科 糖尿病病例 SOAP病歷模板
- GB/T 8151.13-2012鋅精礦化學(xué)分析方法第13部分:鍺量的測定氫化物發(fā)生-原子熒光光譜法和苯芴酮分光光度法
- GB/T 32555-2016城市基礎(chǔ)設(shè)施管理
評論
0/150
提交評論