




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于Baseline SVD主動(dòng)學(xué)習(xí)算法的推薦系統(tǒng)摘 要: 推薦系統(tǒng)是一種解決信息過(guò)載的新型技術(shù),為理解決推薦系統(tǒng)中新用戶帶來(lái)的冷啟動(dòng)問(wèn)題,提出一種基于主動(dòng)學(xué)習(xí)的推薦系統(tǒng)。主動(dòng)學(xué)習(xí)方法能有效減少需要標(biāo)記的樣本數(shù)量,快速建立模型,在此選擇將主動(dòng)學(xué)習(xí)方法和Baseline SVD推薦算法結(jié)合起來(lái),通過(guò)記錄模型訓(xùn)練得到的預(yù)估評(píng)價(jià)的改變程度,認(rèn)為改變最大的樣例即是最具有信息量的樣例,供新用戶標(biāo)記,并重新訓(xùn)練模型。通過(guò)與其他選擇策略進(jìn)展實(shí)驗(yàn)比較,證實(shí)了該方法確實(shí)有效解決了新用戶帶來(lái)的冷啟動(dòng)問(wèn)題。關(guān)鍵詞: 推薦系統(tǒng); 主動(dòng)學(xué)習(xí); Baseline SVD; 樣例選擇Recommender system b
2、ased on Baseline SVD active learning algorithm0 引 言1 非個(gè)性化推薦,隨機(jī)推薦或者推薦熱門,這種方法不夠個(gè)性化,系統(tǒng)必須累積一定數(shù)量的數(shù)據(jù)才能啟動(dòng)推薦系統(tǒng);2 根據(jù)用戶注冊(cè)信息做出推薦,用戶的注冊(cè)信息往往是有限的,這樣的推薦偏向粗粒度;3 主動(dòng)詢問(wèn),該方法通過(guò)與用戶交流,主動(dòng)獲取建立模型需要的相關(guān)知識(shí),快速建立準(zhǔn)確模型。推薦系統(tǒng)中,在將推薦產(chǎn)品呈現(xiàn)給用戶時(shí),一方面期望得到用戶的滿意度,另一方面期望能從用戶的操作中學(xué)習(xí)到用戶的偏好,這正是主動(dòng)學(xué)習(xí)所致力的,因此將主動(dòng)學(xué)習(xí)結(jié)合推薦系統(tǒng)是不謀而合的6。國(guó)外研究人員目前常用的算法是將貝葉斯理論作為樣本選
3、擇策略,AMAspect Model算法為基準(zhǔn)學(xué)習(xí)器7。Jin等針對(duì)模型本身不確定性的問(wèn)題,提出了改進(jìn),使得用戶參數(shù)向著準(zhǔn)確的方向增長(zhǎng)8。Rasoul Karimi提出一種基于矩陣分解的主動(dòng)學(xué)習(xí)算法,選出預(yù)估評(píng)分最低的樣本供用戶選擇9。2 基于主動(dòng)學(xué)習(xí)的Baseline SVD算法為解決新用戶問(wèn)題,本文選擇將主動(dòng)學(xué)習(xí)策略和推薦算法結(jié)合起來(lái)的方法,以加快冷啟動(dòng)速度。主動(dòng)學(xué)習(xí)根據(jù)樣本選擇策略,從提問(wèn)池中選擇一個(gè)樣本供新用戶標(biāo)記,并不斷修正模型,直到模型穩(wěn)定為止,訓(xùn)練模型的過(guò)程如圖1所示,這是一個(gè)不斷迭代的過(guò)程。主動(dòng)學(xué)習(xí)的核心是樣本選擇策略,目前常用的樣本選擇策略有:基于不確定性縮減的算法,基于誤差
4、縮減的算法和基于版本空間縮減的算法。將主動(dòng)學(xué)習(xí)策略與其他應(yīng)用做結(jié)合的研究很多,例如基于主動(dòng)學(xué)習(xí)的字符識(shí)別10、文本分類等。由于不同的學(xué)習(xí)算法需要不同的主動(dòng)學(xué)習(xí)策略,基于AM算法的主動(dòng)選擇策略并不適用于Baseline SVD算法,并且他們的模型太過(guò)復(fù)雜,本文選擇Baseline SVD作為基準(zhǔn)學(xué)習(xí)器,提出了一種基于評(píng)分改變程度作為樣例選擇的策略。在每次提問(wèn)后,都會(huì)重新訓(xùn)練,同時(shí)給出新的預(yù)估評(píng)分,預(yù)估評(píng)分波動(dòng)較大的物品認(rèn)為是最不能確定,也是最具信息量的。圖2中,a的預(yù)估評(píng)分在不同輪數(shù)之間的評(píng)分差變化很大,而b的預(yù)估評(píng)分相對(duì)于要穩(wěn)定很多,相對(duì)于后者,不能確定a的評(píng)分的可能性更大,得到該樣本的標(biāo)記可
5、以讓模型更快趨于穩(wěn)定,使用式6來(lái)衡量這種改變程度的大?。簀=1cnt-1rj+1u,i'-rju,i'cnt-1 6i*=argmaxi'I'j=1cnt-1rj+1u,i-rju,icnt-1 7式中:cnt表示模型訓(xùn)練的總次數(shù);I表示為標(biāo)注樣本的集合;rju,i'表示第j次模型;用戶u對(duì)i的預(yù)估評(píng)分,在所有未評(píng)分的物品,最終選出該值最大的物品供用戶標(biāo)記,該式的意義是連續(xù)兩次模型計(jì)算出來(lái)的預(yù)估評(píng)分差的平均值。詳細(xì)算法流程如圖3所示。3 實(shí)驗(yàn)分析實(shí)驗(yàn)使用經(jīng)典的Movielens作為數(shù)據(jù)集,采用離線模擬的方式。為了更好地模擬在線用戶的實(shí)際情況,將Movie
6、lens中的用戶分成兩部分,選擇一部分用戶和其所評(píng)價(jià)過(guò)的電影數(shù)據(jù)作為初始的訓(xùn)練集,認(rèn)為這些用戶已經(jīng)不是新用戶。剩下來(lái)的用戶作為新用戶,并將這一部分用戶評(píng)價(jià)電影的數(shù)據(jù)再拆分成兩個(gè)部分,每個(gè)用戶隨機(jī)預(yù)留20個(gè)電影評(píng)分作為最終的測(cè)試集,其他部分的電影評(píng)分作為提問(wèn)池。本文假設(shè)用戶對(duì)每個(gè)電影都具有打分的才能,系統(tǒng)每次從提問(wèn)池中選擇電影樣本,供用戶答復(fù),再將這些被標(biāo)注好的樣本放入訓(xùn)練集后,重新訓(xùn)練模型。初始化時(shí),從提問(wèn)池中隨機(jī)抽取該新用戶的3個(gè)樣本放入訓(xùn)練集中,詳細(xì)的訓(xùn)練集和測(cè)試集的分布如表2所示。 表2 Movielens訓(xùn)練集和測(cè)試集的分布經(jīng)過(guò)研究測(cè)試,Baseline SVD算法在Movielens
7、數(shù)據(jù)集中,選擇隱分類數(shù)為200時(shí)效果較好,其中,學(xué)習(xí)速率選擇0.02,正那么系數(shù)選擇0.05。為了反映本文提出的算法性能,選擇以下兩種策略作為比較算法:1 隨機(jī)選擇。每次從提問(wèn)池中隨機(jī)選擇一部用戶需要標(biāo)記的電影。2 選擇熱門。每次從提問(wèn)池中選擇熱門的電影,熱門產(chǎn)品的定義為,訓(xùn)練集中被看的次數(shù)最多的電影。為評(píng)價(jià)本文提出的算法,使用RMSE11作為算法的評(píng)價(jià)指標(biāo),本文將最大的迭代次數(shù)選為8,8次迭代過(guò)后,模型對(duì)新用戶的推薦根本趨向平穩(wěn)。為了更好地反映結(jié)果,對(duì)每個(gè)實(shí)驗(yàn)都進(jìn)展重復(fù)實(shí)驗(yàn),最后結(jié)果取平均值,有:由圖4可以得出以下結(jié)論,選擇熱門產(chǎn)品的方案最差,雖然流行度高的電影普及度最廣,但是其對(duì)于個(gè)性化的
8、推薦模型建立并不能做出很大的奉獻(xiàn),其RMSE下降速度最慢。隨機(jī)選擇策略接近于被動(dòng)學(xué)習(xí)中,被動(dòng)累積數(shù)據(jù)的情況,本文提出的方法在實(shí)驗(yàn)初期,RMSE的數(shù)值下降速度最快,明顯加快了冷啟動(dòng)速度,隨著提問(wèn)次數(shù)增加,RMSE和隨機(jī)選擇方法效果接近。本文提出的算法在每次提問(wèn)時(shí),僅需維護(hù)一個(gè)記錄累計(jì)評(píng)分改變的矩陣,為每一個(gè)新用戶選擇評(píng)分改變最大的物品,算法復(fù)雜度較小,也易于理解。4 結(jié) 語(yǔ)本文提出了一種基于主動(dòng)學(xué)習(xí)的推薦算法,以解決推薦系統(tǒng)中新用戶問(wèn)題。該方法將預(yù)估評(píng)分的改變程度作為樣本選擇策略,認(rèn)為預(yù)估評(píng)分改變較大的樣例是模型最不能確定的,所含信息量較大。實(shí)驗(yàn)證明,該方法確實(shí)能有效減緩用戶的冷啟動(dòng)。但是本文中
9、的實(shí)驗(yàn)是基于用戶總能答復(fù)任何問(wèn)題的假設(shè)前提,這在現(xiàn)實(shí)中是不成立的,因此,將用戶標(biāo)記樣本的才能結(jié)合樣例選擇策略將是今后的研究重點(diǎn)。參考文獻(xiàn)2 王國(guó)霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述J.計(jì)算機(jī)工程與應(yīng)用, 2021,487:66?76.3 Lemire D, Maclachlan A. Slope one predictors for online rating?based collaborative filtering C/ Proceedings of SIAM Data Mining. Newport Beach, California: SDM, 2005, 5: 1?5.4 YEHUDA K
10、oren. Factor in the neighbors: scalable and accurate collaborative filtering J. ACM Transactions on Knowledge Discovery from Data, 2021, 41: 1?10.6 RUBENS Neil, KAPLAN Dain, SUGIYAMA Masashi. Active learning in recommender systems M/ Anon. Recommender Systems Handbook. US: Springer, 2021: 736?767.8 JIN R, SI L. A bayesian approach toward active learning for collaborative filtering C/ Proc
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物化學(xué)基礎(chǔ)知識(shí)測(cè)試及答案
- 員工保密及競(jìng)業(yè)禁止協(xié)議書(shū)模板
- 2025年宣城市旌德縣某國(guó)有控股企業(yè)招聘6人(第四批次)筆試參考題庫(kù)附帶答案詳解
- 2025年上半年定西市通渭縣事業(yè)單位招考考試(121名)易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025中國(guó)能建新疆院校園招聘(56人)筆試參考題庫(kù)附帶答案詳解
- 2025年上半年安徽省蕪湖無(wú)為縣城管局公開(kāi)招聘協(xié)管員15人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽省滁州市來(lái)安縣招聘政府購(gòu)買服務(wù)人員98人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽省旌德縣事業(yè)單位招考易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025“才聚齊魯成就未來(lái)”山東省國(guó)有資產(chǎn)投資控股有限公司社會(huì)招聘2人筆試參考題庫(kù)附帶答案詳解
- 2025年上半年安徽滁州學(xué)院招聘專職輔導(dǎo)員10人(第二批)易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 中醫(yī)適宜技術(shù)-中藥熱奄包
- 2024年江蘇省南通市國(guó)家保安員資格考試題庫(kù)國(guó)編版
- 防火涂料質(zhì)量保證書(shū)
- 第九課 漂亮的班牌 教案 五下信息科技河南大學(xué)版
- 人教版高中語(yǔ)文必修3-梳理探究2《文學(xué)作品的個(gè)性化解讀》-(共45張)(部編)課件
- 礦產(chǎn)資源開(kāi)發(fā)合同備忘錄范本
- 2024年廣州市高三二模普通高中畢業(yè)班綜合測(cè)試(二) 英語(yǔ)試卷及答案
- 大模型在刑偵技術(shù)中的應(yīng)用探索
- 2024年中國(guó)科學(xué)技術(shù)大學(xué)創(chuàng)新班物理試題答案詳解
- 城鄉(xiāng)的規(guī)劃法解讀
- 2024年全國(guó)鄉(xiāng)村醫(yī)生資格考試專業(yè)基礎(chǔ)知識(shí)復(fù)習(xí)題庫(kù)及答案(共150題)
評(píng)論
0/150
提交評(píng)論