下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于用戶畫像的推薦系統(tǒng)文獻(xiàn)綜述1.1國(guó)內(nèi)外研究現(xiàn)狀及評(píng)述1.1.1用戶畫像研究現(xiàn)狀用戶畫像(UserProfiling,UP),也叫做用戶建模(UserModeling),一般指通過定義用戶屬性,給用戶一個(gè)簡(jiǎn)短、有效的描述。在大數(shù)據(jù)分析與深度學(xué)習(xí)概念出現(xiàn)之前,用戶畫像己經(jīng)成為了商業(yè)智能、信息系統(tǒng)領(lǐng)域的重要研究方向[3]。20世紀(jì)90年代以來,通過自動(dòng)化技術(shù),隱式的獲取用戶的反饋數(shù)據(jù),以此進(jìn)行用戶畫像的推斷,成為主流方法途徑。傳統(tǒng)的用戶興趣、個(gè)性、行為習(xí)慣等畫像信息的理解在推薦系統(tǒng)等傳統(tǒng)信息檢索、數(shù)據(jù)挖掘任務(wù)中己經(jīng)存在了很久。用戶畫像技術(shù)最早出現(xiàn)在90年代后期,通常意義上按照用戶屬性、檔案(Profile)的表示策略將用戶畫像技術(shù)分為以下四大類,其中有一類為基于用戶興趣/偏好的畫像方法。用戶的興趣和偏好始終是用戶檔案信息的重點(diǎn),在基于內(nèi)容的推薦系統(tǒng),除了良好的表示項(xiàng)目外,還需要準(zhǔn)確的理解用戶的興趣檔案,這樣才能對(duì)癥下藥。Carmagnola提出通過用戶產(chǎn)生的標(biāo)簽入手來發(fā)現(xiàn)用戶的興趣檔案。Sugiyama等人提出了通過用戶瀏覽行為、結(jié)果評(píng)分等信息,構(gòu)建用戶的偏好檔案的方法。在用戶畫像與推薦系統(tǒng)的研究中,劉廣東設(shè)計(jì)并實(shí)現(xiàn)基于用戶畫像的商品推送系統(tǒng)。趙榮霞以WordPress為研究對(duì)象提出了基于用戶畫像的WordPress博文推薦理論。王智囊將醫(yī)學(xué)畫像的研究應(yīng)用于推薦算法中,提出了基于SVD的協(xié)同過濾與融合畫像Tag標(biāo)簽特征的推薦算法。目前有不少學(xué)者進(jìn)行了用戶畫像相關(guān)的研究,例如Meguebli等人提出了構(gòu)建用戶畫像,以用戶評(píng)論為切入點(diǎn),實(shí)現(xiàn)新聞內(nèi)容的個(gè)性化推送。Kanoje等人介紹了用戶分析的相關(guān)技術(shù),論述了用戶建模的重要性。Grcar等人針對(duì)網(wǎng)站用戶,通過內(nèi)容過濾、協(xié)同過濾,使用行為挖掘等方式對(duì)用戶進(jìn)行建模。杜卿提出了借助標(biāo)簽對(duì)用戶建模,以實(shí)現(xiàn)用戶的個(gè)性化服務(wù)。王冬羽基于移動(dòng)互聯(lián)網(wǎng)應(yīng)用,設(shè)計(jì)了用戶畫像系統(tǒng)用于分析用戶行為。在工業(yè)界,越來越多的互聯(lián)網(wǎng)公司都在進(jìn)行用戶畫像系統(tǒng)的建設(shè)。例如國(guó)內(nèi)的美團(tuán),在外賣O2O領(lǐng)域,圍繞用戶使用外賣服務(wù)的生命周期作為基礎(chǔ)畫像,通過精準(zhǔn)的產(chǎn)品推薦或者價(jià)格策略實(shí)現(xiàn)運(yùn)營(yíng)目標(biāo)。OTA領(lǐng)域的攜程搭建了用戶畫像平臺(tái),其畫像廣泛應(yīng)用于個(gè)性化推薦,針對(duì)旅游市場(chǎng),攜程將其運(yùn)用于“房型排序”以及“機(jī)票排序”等特色領(lǐng)域。國(guó)外的Twitter通過用戶行為構(gòu)建用戶畫像,預(yù)測(cè)用戶的影響力從而制定進(jìn)一步的市場(chǎng)營(yíng)銷策略。全球最大的視頻網(wǎng)站YouTube,通過用戶畫像,收集用戶的基本屬性,觀看數(shù)據(jù),以及相關(guān)的信息,結(jié)合推薦算法為用戶推薦喜歡的視頻。1.1.1推薦系統(tǒng)的研究現(xiàn)狀20世紀(jì)90年代提出了推薦系統(tǒng)的概念,至今已近30年。期間推薦系統(tǒng)的研究和應(yīng)用得到了飛速的發(fā)展。推薦系統(tǒng)是一種特殊的信息過濾系統(tǒng),通過分析用戶偏好信息,在項(xiàng)目集中找到可能會(huì)符合其偏好的項(xiàng)目,然后主動(dòng)向用戶提供推薦。在推薦系統(tǒng)中,“項(xiàng)目”被定義為系統(tǒng)為用戶推薦的物品、信息等用戶所需要的資源。像在淘寶網(wǎng)中項(xiàng)目為商品,網(wǎng)易云音樂中項(xiàng)目為歌曲,今日頭條中項(xiàng)目為新聞。推薦系統(tǒng)的設(shè)計(jì)目標(biāo)是在用戶缺乏相關(guān)領(lǐng)域經(jīng)驗(yàn)或者面對(duì)海量信息而不知所措時(shí),為用戶提供一種智能的信息過濾的方法。在眾多推薦技術(shù)中,協(xié)同過濾算法和基于內(nèi)容的過濾算法是被研究最多的兩種方法?;趦?nèi)容的過濾算法(Content-BasedFiltering,CBF)起源于信息檢索技術(shù),是最早使用在推薦系統(tǒng)中的一種算法。CBF就是對(duì)項(xiàng)目信息進(jìn)行相應(yīng)的處理,形成表示項(xiàng)目?jī)?nèi)容的特征描述。并且,同用戶進(jìn)行信息交流的時(shí)候,會(huì)自主的將用戶訪問過的所有歷史記錄下來,而且還會(huì)在用戶所訪問的信息的基礎(chǔ)上對(duì)其進(jìn)行用戶建模(UserModeling),這樣就能夠?qū)τ脩舻南嚓P(guān)興趣進(jìn)行特征描述(UserProfile)。在以上操作的基礎(chǔ)上,就可以將興趣描述同用戶還沒有訪問過的信息進(jìn)行度量,這樣就能夠從中選擇用戶還沒有訪問但又與該描述相近的項(xiàng)目從而推薦給用戶。其特點(diǎn)是只需要對(duì)系統(tǒng)中的該用戶進(jìn)行關(guān)注即可,不需要對(duì)別的用戶進(jìn)行關(guān)注,分析自己的相關(guān)信息后,要對(duì)其進(jìn)行總結(jié),主要對(duì)用戶訪問的信息或服務(wù)所具有的共性進(jìn)行總結(jié),最后將與所得結(jié)果有相同特性的項(xiàng)目推薦給用戶。由于現(xiàn)代信息技術(shù)的蓬勃發(fā)展,出現(xiàn)了海量的數(shù)據(jù),如:語音數(shù)據(jù)、視頻數(shù)據(jù)等,由于這些數(shù)據(jù)的數(shù)據(jù)量大,數(shù)據(jù)維數(shù)高,使得人們難以對(duì)其特征進(jìn)行提取,所以基于內(nèi)容的協(xié)同過濾算法將面臨這嚴(yán)峻的挑戰(zhàn)。由于該算法只對(duì)用戶自己的相關(guān)信息進(jìn)行分析,因此要向用戶推薦相關(guān)信息時(shí),對(duì)用戶潛在興趣的發(fā)現(xiàn)能力有所不足1992年Goldberg提出“協(xié)同過濾”(CollaborativeFiltering,CF)的概念,并在后來被廣泛的研究和應(yīng)用。協(xié)同過濾假設(shè),如果兩個(gè)用戶A和B在一些項(xiàng)目上具有相似的行為習(xí)慣(例如購買、閱讀、觀影等),那么他們?cè)谄渌?xiàng)目上也具有相似的偏好,協(xié)同過濾因此也被稱為社會(huì)過濾或協(xié)作過濾[2][3]。明尼蘇達(dá)大學(xué)的GroupLens研究團(tuán)隊(duì)在1994年提出了基于協(xié)同過濾的開源框架,GroupLens[4]。并在1997年將其在新聞組服務(wù)中進(jìn)行了實(shí)現(xiàn)[5]。GroupLens系統(tǒng)的出現(xiàn)對(duì)推薦系統(tǒng)來說具有劃時(shí)代的意義,該系統(tǒng)是自推薦系統(tǒng)的基礎(chǔ),現(xiàn)在的許多系統(tǒng)都是在GroupLens的框架的基礎(chǔ)上進(jìn)行改進(jìn)。當(dāng)該系統(tǒng)被構(gòu)建出來后,為了對(duì)該系統(tǒng)的性能進(jìn)行更近一步的完善,向人們提供了MovieLens推薦系統(tǒng)[6],MovieLens系統(tǒng)根據(jù)觀看者的評(píng)分向用戶推薦電影,據(jù)此出現(xiàn)了推薦算法中普遍使用的MovieLens數(shù)據(jù)集,本文實(shí)驗(yàn)部分也將使用該數(shù)據(jù)集進(jìn)行。協(xié)同過濾算法和基于內(nèi)容的過濾算法,這兩種算法有著許多的不同之處,主要的不同之處在于推薦的策略。協(xié)同過濾算法是一種不需要了解用戶偏好,僅使用用戶對(duì)商品的歷史評(píng)分?jǐn)?shù)據(jù)來預(yù)測(cè)用戶對(duì)未知商品的評(píng)分,來產(chǎn)生推薦的技術(shù)。協(xié)同過濾算法簡(jiǎn)單、有效,在很多領(lǐng)域的推薦系統(tǒng)中得到了大量實(shí)際應(yīng)用。雖然CF算法可以克服CBF算法中存在的諸多缺點(diǎn),但隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大,傳統(tǒng)的CF算法逐漸暴露出數(shù)據(jù)稀疏性的問題[7],嚴(yán)重制約了該技術(shù)的應(yīng)用。因此,許多研究都圍繞如何解決數(shù)據(jù)稀疏性這一問題展開,相應(yīng)產(chǎn)生了許多推薦技術(shù)。Sarwar等人通過奇異值分解(SingularValueDecomposition,SVD)方法來減少用戶-項(xiàng)目評(píng)分矩陣的維度[8]。Koren等人在傳統(tǒng)的FM模型里加入了隱式評(píng)分信息,提出了考慮領(lǐng)域影響的SVD++算法[9]。這兩種方法都是通過將高維的評(píng)分矩陣映射到低維空間,得到相對(duì)稠密的評(píng)分矩陣來解決數(shù)據(jù)稀疏問題,但這樣會(huì)造成推薦精度有所降低。Karypis等人提出了基于項(xiàng)目的協(xié)同過濾算法(Item-basedCF,IBCF),像在電商領(lǐng)域主要是用戶不斷增長(zhǎng),而項(xiàng)目數(shù)基于趨于穩(wěn)定,因此項(xiàng)目的相似性更加穩(wěn)定。以上方法都是在原有評(píng)分?jǐn)?shù)據(jù)的基礎(chǔ)上,通過矩陣分解、聚類等機(jī)器學(xué)習(xí)的方法來緩解數(shù)據(jù)稀疏問題。結(jié)合其它有用信息是另外一種緩解數(shù)據(jù)稀疏性問題的重要手段,這種方法的思想是在其它方法的基礎(chǔ)之上引入額外的信息源,使得發(fā)現(xiàn)的鄰居用戶能更為準(zhǔn)確,從而緩解數(shù)據(jù)稀疏問題。Balabanovic等人根據(jù)基于內(nèi)容和協(xié)同過濾優(yōu)勢(shì)互補(bǔ)的特點(diǎn),提出了兩者混合的方法。Melville等人提出了一種名為content-boosted的協(xié)同過濾方法,該方法引入了額外的文本信息來為用戶提供推薦。Ziegler等人提出把產(chǎn)品的散裝分類信息融合到協(xié)同過濾算法中來解決數(shù)據(jù)稀疏性問題。BaQ等人首先通過用戶統(tǒng)計(jì)信息進(jìn)行用戶的聚類,然后與矩陣分解后合成的新評(píng)分矩陣,來共同進(jìn)行最近鄰計(jì)算與推薦。He等人將用戶的社交信息融入到推薦中,提出了SNRS推薦系統(tǒng)。Shambour等人引入了評(píng)分信任度的思想,直接通過用戶信任度與項(xiàng)目信任度來進(jìn)行評(píng)分預(yù)測(cè),摒棄了傳統(tǒng)的相似度計(jì)算。吳一帆等人提出了結(jié)合用戶背景信息的推薦算法,該算法首先將用戶背景信息進(jìn)行量化,然后通過量化后的用戶背景信息計(jì)算用戶之間的相似度,來預(yù)測(cè)評(píng)分矩陣中空閑處的評(píng)分并填充到其中,然后再通過傳統(tǒng)的協(xié)同過濾算法進(jìn)行推薦。黃
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024至2030年中國(guó)口腔內(nèi)窺鏡四分割處理器數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 高頻接收機(jī)課程設(shè)計(jì)
- 清明實(shí)踐課程設(shè)計(jì)
- 2024年中國(guó)須膏市場(chǎng)調(diào)查研究報(bào)告
- 中國(guó)茶胺酸行業(yè)產(chǎn)銷需求及前景動(dòng)態(tài)預(yù)測(cè)研究報(bào)告(2024-2030版)
- 中國(guó)聚乙烯催化劑行業(yè)發(fā)展?fàn)顩r及需求規(guī)模預(yù)測(cè)研究報(bào)告(2024-2030版)
- 生物競(jìng)賽 課程設(shè)計(jì)理念
- 中國(guó)筆制造行業(yè)發(fā)展前景與趨勢(shì)預(yù)測(cè)分析研究報(bào)告(2024-2030版)
- 中國(guó)白油行業(yè)銷售狀況與應(yīng)用前景預(yù)測(cè)研究報(bào)告(2024-2030版)
- 中國(guó)玻璃鋼化糞池行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告(2024-2030版)
- 《移動(dòng)平臺(tái)開發(fā)技術(shù)》課件
- 產(chǎn)品銷售經(jīng)理培訓(xùn)課件
- 酒店管理的安全與衛(wèi)生管理
- 蔬菜種植方案
- 運(yùn)維人員安全意識(shí)培訓(xùn)內(nèi)容
- 零碳建筑評(píng)價(jià)標(biāo)準(zhǔn)
- 小學(xué)語文-24香港璀璨的明珠教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- AI在藥物研發(fā)中的應(yīng)用
- 建設(shè)工程質(zhì)量檢測(cè)方案-技術(shù)標(biāo)部分
- 我的應(yīng)許之地:以色列的榮耀與悲情
- 量檢具培訓(xùn) 最終版
評(píng)論
0/150
提交評(píng)論