版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Web搜索
郭軍
北京郵電大學(xué)
第6章信息推薦關(guān)聯(lián)規(guī)則挖掘的基本算法可信關(guān)聯(lián)規(guī)則及其挖掘算法基于FPT的超團(tuán)模式快速挖掘算法協(xié)同過(guò)濾推薦的基本算法基于局部偏好的協(xié)同過(guò)濾推薦算法基于個(gè)性化主動(dòng)學(xué)習(xí)的協(xié)同過(guò)濾面向排序的協(xié)同過(guò)濾引言應(yīng)用舉例在電子商務(wù)系統(tǒng)中,新商品會(huì)不斷推出,向一個(gè)用戶(hù)主動(dòng)提供哪些商品信息便是一個(gè)典型的信息推薦問(wèn)題InformationRetrieval被檢索的文檔相對(duì)穩(wěn)定用戶(hù)查詢(xún)需求不同InformationFilter信息資源動(dòng)態(tài)變化用戶(hù)需求相對(duì)固定InformationRecommendation信息資源動(dòng)態(tài)變化用戶(hù)的需求不確切,只能通過(guò)歷史數(shù)據(jù)和相關(guān)數(shù)據(jù)進(jìn)行挖掘(預(yù)測(cè))信息推薦技術(shù)的種類(lèi)基于內(nèi)容(contentbased)對(duì)用戶(hù)和商品的描述信息分別建模通過(guò)比較兩類(lèi)模型之間關(guān)聯(lián)度(相似度)進(jìn)行推薦基于關(guān)聯(lián)(associationbased)通過(guò)歷史上的交易或評(píng)價(jià)數(shù)據(jù)挖掘用戶(hù)之間、商品之間、用戶(hù)-商品之間的關(guān)聯(lián)性基于上述關(guān)聯(lián)性預(yù)測(cè)用戶(hù)對(duì)商品的態(tài)度不需要關(guān)于用戶(hù)和商品的描述信息通常也不需要領(lǐng)域知識(shí)關(guān)聯(lián)規(guī)則挖掘(AssociationRulesMining)和協(xié)同過(guò)濾(CollaborativeFiltering)是兩種主要算法關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)挖掘的一個(gè)重要研究方向1993年,IBM的R.Agrawal等人提出在大型商品交易數(shù)據(jù)庫(kù)中挖掘商品項(xiàng)(Item)之間的關(guān)聯(lián)規(guī)則的問(wèn)題,并提出Apriori算法后提出多種改進(jìn)算法,以減小計(jì)算量或內(nèi)存的占用量最初主要應(yīng)用在大型超市的商品關(guān)系的挖掘等方面目前已在信息推薦中得到重要應(yīng)用協(xié)同過(guò)濾算法來(lái)自信息推薦系統(tǒng)方法:通過(guò)他人對(duì)某一商品已知的需求來(lái)預(yù)測(cè)一個(gè)用戶(hù)對(duì)該商品未知的需求基本假設(shè):歷史上的需求類(lèi)似,則當(dāng)前的需求也類(lèi)似算法的核心:通過(guò)歷史數(shù)據(jù)找出與被預(yù)測(cè)用戶(hù)有類(lèi)似需求的用戶(hù)(組)基于用戶(hù)(Userbased)的算法基于項(xiàng)目(Itembased)的算法關(guān)聯(lián)規(guī)則挖掘的基本算法基本定義I={i1,i2,…,im}為m個(gè)不同項(xiàng)目的集合事務(wù)數(shù)據(jù)庫(kù)D={T1,T2,…,Tn},其中每個(gè)交易Ti是I中一組項(xiàng)目的集合關(guān)聯(lián)規(guī)則就是一個(gè)形如X→Y的蘊(yùn)涵式,其中X?I,Y?I,而且X∩Y=支持度和置信度是傳統(tǒng)關(guān)聯(lián)規(guī)則的主要客觀度量如果D中S%的事務(wù)同時(shí)包含X和Y,則關(guān)聯(lián)規(guī)則X→Y的支持度為S%,記support(X→Y)=S%若D中包含X的事務(wù)中有C%也包含Y,則關(guān)聯(lián)規(guī)則X→Y的置信度為C%,記confidence(X→Y)=P(Y|X)=C%同時(shí)滿(mǎn)足最小支持度閾值和最小置信度閾值的規(guī)則稱(chēng)為強(qiáng)規(guī)則挖掘關(guān)聯(lián)規(guī)則問(wèn)題就是產(chǎn)生強(qiáng)規(guī)則的問(wèn)題Apriori算法關(guān)聯(lián)規(guī)則挖掘可以分解為兩個(gè)步驟找出D中滿(mǎn)足minSup的k項(xiàng)集,由這些項(xiàng)集生成關(guān)聯(lián)規(guī)則找出置信度不小于minConf的規(guī)則頻繁項(xiàng)集的向下封閉性頻繁項(xiàng)集的所有非空子集一定是頻繁項(xiàng)集Apriori算法把由頻繁k-1項(xiàng)集的集合Fk-1生成頻繁k項(xiàng)集的集合Fk的過(guò)程分為連接和剪枝兩步連接和剪枝連接:將Fk-1中的項(xiàng)集進(jìn)行連接,產(chǎn)生k項(xiàng)集的集合Ck假設(shè)f1和f2是Fk-1中的項(xiàng)集,記fi[j]為fi的第j項(xiàng),并令fi[j-1]≤fi[j]如果f1和f2滿(mǎn)足:(f1[1]=f2[1])∧…∧(f1[k-2]=f2[k-2])∧(f1[k-1]<f2[k-1])那么稱(chēng)f1和f2是可連接的,進(jìn)行連接操作,結(jié)果為一個(gè)k項(xiàng)集f1[1]f1[2]…f1[k-1]f2[k-1]剪枝:將生成的Ck中的非頻繁項(xiàng)集刪除Ck中的某個(gè)候選頻繁k項(xiàng)集不被刪除的條件是:它的所有k-1項(xiàng)子集都在Fk-1中Ck中保留下來(lái)的k項(xiàng)集構(gòu)成Fk遞推挖掘方法首先產(chǎn)生頻繁1項(xiàng)集F1,然后是頻繁2項(xiàng)集F2,直到某個(gè)r值使得Fr為空,算法停止在第k次循環(huán)中,先產(chǎn)生k項(xiàng)集的集合Ck頻繁項(xiàng)集Fk是Ck的一個(gè)子集:Ck中的每個(gè)元素需在交易數(shù)據(jù)庫(kù)中進(jìn)行驗(yàn)證來(lái)決定其是否加入FkApriori算法的兩大缺點(diǎn)可能產(chǎn)生大量的候選集需要重復(fù)掃描數(shù)據(jù)庫(kù)Apriori算法例
數(shù)據(jù)庫(kù)中的項(xiàng)目列表TID
ListofItemID001
002
003
004
005
006
007
008ABCDEFGABCDGHIEFGHJCDEGIABCDGIFIJEGHIDIminsup=40%minconf=80%AJIHGFEDCB3345436362JABDFH4243244424CDG:CD→G(4/4)CG→D(4/4)
DG→C(4/4)DI:D→I(4/5)I→D(4/6)EG:E→G(4/4)G→E(4/6)GI:G→I(4/6)I→G(4/6)CD→G(50%100%)CG→D(50%100%)DG→C(50%100%)D→I(50%80%)E→G(50%100%)43CECGCIEGEIGICDDEDGDICECGCIEGEIGICDDEDGDICDGDGIDGIApriori算法描述輸入:事務(wù)數(shù)據(jù)庫(kù)D,最小支持度minsup輸出:頻繁項(xiàng)目集合F符號(hào):X—項(xiàng)目集合;Fi—頻繁i-項(xiàng)集集合步驟:(1)F1={X|XD,support(X)minsup};(2)for(k=2;Fk-1!=;k=k+1){(3) Ck=apriori_gen(Fk-1,minsup);(4) foralltransactionstD{(5) support(C)=support(C)+1,CCk}(6) Fk={C|CCk,support(C)minsup};}(7)F=Fk;Apriori算法的優(yōu)化剪枝技術(shù)原理項(xiàng)集是頻繁的當(dāng)且僅當(dāng)它的所有子集都是頻繁的如果Ck中某個(gè)候選項(xiàng)集有任意一個(gè)(k-1)子集不屬于Fk-1,則這個(gè)項(xiàng)集就應(yīng)被剪掉散列用于生成頻繁2項(xiàng)集F2劃分把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊采樣利用數(shù)據(jù)子集進(jìn)行挖掘,然后在整個(gè)數(shù)據(jù)集中驗(yàn)證基于FPT的算法
韓家煒[Han00]提出利用頻繁模式樹(shù)FPT進(jìn)行頻繁模式挖掘的FP-growth算法1)采用FPT存放數(shù)據(jù)庫(kù)的主要信息,算法只需掃描數(shù)據(jù)庫(kù)兩次2)不需要產(chǎn)生候選項(xiàng)集,從而減少了產(chǎn)生和測(cè)試候選項(xiàng)集所耗費(fèi)的大量時(shí)間3)采用分而治之的方式對(duì)數(shù)據(jù)庫(kù)進(jìn)行挖掘,在挖掘過(guò)程中,大大減少了搜索空間FPT的樹(shù)結(jié)構(gòu)構(gòu)成標(biāo)記為“null”的根節(jié)點(diǎn)(root)項(xiàng)前綴子樹(shù)(itemprefixsubtrees)的集合頻繁項(xiàng)頭表(frequent-itemheadertable)項(xiàng)前綴子樹(shù)中的每個(gè)節(jié)點(diǎn)包含5個(gè)域item-namecountnode-linkchildren-linkparent-link頻繁項(xiàng)頭表中的每行至少存儲(chǔ)兩個(gè)域item-namenode-linkFPT例
CreateFPtree()算法Step1掃描DB中的每個(gè)事務(wù)ti,收集由所有項(xiàng)構(gòu)成的集合F及其支持度Step2根據(jù)最小支持度,獲得F中的頻繁項(xiàng),并按照支持度降序的順序?qū)⑺鼈兎湃隖PT的項(xiàng)頭表Step3建立FPT的根節(jié)點(diǎn)T,并將其標(biāo)記為“null”Step4對(duì)DB中的每個(gè)事務(wù)ti,根據(jù)項(xiàng)頭表選擇ti中的頻繁項(xiàng)并對(duì)它們進(jìn)行排序以構(gòu)成ri;如果ri不為空,調(diào)用insert_tree(ri,T)Step5輸出以T為根節(jié)點(diǎn)的FPTinsert_tree()算法輸入:項(xiàng)集{p1,P},節(jié)點(diǎn)N輸出:無(wú)符號(hào):n代表樹(shù)中節(jié)點(diǎn)N的子節(jié)點(diǎn)Step1若有N的子節(jié)點(diǎn)n,使得n.item-name=p1.item-name,則n.count=n.count+1,否則轉(zhuǎn)Step2Step2建立N的子節(jié)點(diǎn)n,執(zhí)行n.item-name=p1.item-name;n.parent-link=N;n.count=1;將節(jié)點(diǎn)n加入到項(xiàng)p1.item-name的節(jié)點(diǎn)鏈接node-link中Step3如果P不為空,則繼續(xù)調(diào)用insert_tree(P,n)111FP-Growth例NullGECD6I133minsup=40%minconf=80%GIDC6654I4CD2利用條件FP樹(shù)得到頻繁項(xiàng)集:GEGDCIDGI
數(shù)據(jù)庫(kù)中的項(xiàng)目列表TIDListofItemID001
002
003
004
005
006
007
008ABCDEFG:GDCEABCDGHI:GIDCEFGHJ:GECDEGI:GlDCEABCDGI:GIDCFIJ:IEGHI:GIEDI:IDE4E1EE1D1111NullGECD6I133GIDC6654I4CD2E4E1EE1D1111NullGECD4111I2CDE1EE111NullGCD411I2CD{E}{E}NullG4{EG}cond.fp-treeofE可信關(guān)聯(lián)規(guī)則及其挖掘算法在數(shù)據(jù)分布嚴(yán)重傾斜的情況下,會(huì)遇到最小支持度難以設(shè)定的問(wèn)題支持度稍一偏高,就會(huì)漏掉很多重要的置信度較高的關(guān)聯(lián)規(guī)則支持度稍一偏低,就會(huì)產(chǎn)生大量的虛假規(guī)則抑制虛假規(guī)則的產(chǎn)生[Omie03]提出了all-confidence興趣度測(cè)度[Xiong03]提出h-confidence興趣度測(cè)度可信關(guān)聯(lián)規(guī)則相關(guān)定義設(shè)I={i1,i2,…,im}是m個(gè)不同項(xiàng)目的集合
給定事務(wù)數(shù)據(jù)庫(kù)D={T1,T2,…,Tn}若存在k個(gè)項(xiàng)目x1,…,xk,對(duì)于i,j∈{1,…,k}(i≠j)有(xixj)∧(﹁xi﹁xj)則稱(chēng)由這k個(gè)項(xiàng)目構(gòu)成k項(xiàng)可信關(guān)聯(lián)規(guī)則
(CredibleAssociationRule,CAR),記為R(x1,…,xk)(xixj)(xixj)xixj。其物理含義為:若xi出現(xiàn),則xj出現(xiàn);若xi不出現(xiàn),則xj不出現(xiàn),即xi與xj是同現(xiàn)的規(guī)則中的各個(gè)項(xiàng)目具有很強(qiáng)的親密度/共現(xiàn)度,任意一個(gè)項(xiàng)目的出現(xiàn)很強(qiáng)地暗示規(guī)則中其他項(xiàng)目也會(huì)出現(xiàn)可信度度量k-項(xiàng)可信關(guān)聯(lián)規(guī)則的可信度定義為規(guī)則中任意項(xiàng)目出現(xiàn)時(shí),所有項(xiàng)目同時(shí)出現(xiàn)的概率:
重要性質(zhì):k-項(xiàng)集的可信度不大于其任意子集的可信度例:事務(wù)數(shù)據(jù)庫(kù)中的交易有1000項(xiàng),其中包含項(xiàng)A的交易有20,包含項(xiàng)B的交易有900項(xiàng),同時(shí)包含項(xiàng)AB的交易有15項(xiàng)性質(zhì)命題1:設(shè)可信關(guān)聯(lián)規(guī)則x1x2的置信度為D中x1的支持度為sup(x1),x2的支持度為sup(x2),則有命題2:設(shè)傳統(tǒng)關(guān)聯(lián)規(guī)則x1x2的置信度為C1,
x2x1的置信度為C2,則有用鄰接矩陣求2項(xiàng)可信集2項(xiàng)集鄰接矩陣A={aij}(i,j=1,…n)被定義為:(1)如果T中有且僅有k個(gè)事務(wù)包含項(xiàng)目集{vi,vj}(i≠j)則矩陣中的元素aij=k(2)如果T中有且僅有k個(gè)事務(wù)包含項(xiàng)目vi,則矩陣中的元素aii=k2項(xiàng)集鄰接矩陣記為D2可信關(guān)聯(lián)規(guī)則vi
vj的置信度=2項(xiàng)可信集鄰接矩陣若2項(xiàng)集鄰接矩陣D2中非對(duì)角線(xiàn)元素aij所對(duì)應(yīng)的可信關(guān)聯(lián)規(guī)則的置信度小于minconf,則令aij=0,由此形成2項(xiàng)可信集鄰接矩陣,記為Dc2對(duì)Dc2中的每一個(gè)非零元素aij(i≠j),若項(xiàng)目vi和vj的支持度均大于1項(xiàng)集的最小支持度閾值minsup,則稱(chēng)aij對(duì)應(yīng)的項(xiàng)目集{vi,vj}為2項(xiàng)可信集計(jì)算鄰接矩陣
數(shù)據(jù)庫(kù)中的項(xiàng)目列表TIDListofItemID001
002
003
004
005
006
007
008ABCDEFGIABCGHICEFGHIJCDEGIABCEGIFIJCEGHIDI2-項(xiàng)集鄰接矩陣itemABCDEFGHIJA3331213130B3331213130C3362526361D1123212030E2252525251F1121232132G3362526361H1130213331I3363536382J0010121122通過(guò)鄰接矩陣求可信2-項(xiàng)集
可信2-項(xiàng)集鄰接矩陣
minconf=0.5minsup=0itemABCDEFGHIJA3330003000B3330003000C3360506360D0003000000E0050505050F0000030002G3360506360H0030003300I0060506080J0000020002EBCDIFAGHJ由k項(xiàng)可信集生成(k+1)項(xiàng)可信集EBCDIFAGHJABC
ABG
ACG
BCG
CEG
CEI
CGH
CGI
EGIABCG
CEGIAB
AC
AG
BC
BG
CE
CG
CH
CI
EG
EI
FJ
GH
GIABC
ABG
ACG
BCG
CEG
CEI
CGH
CGI
EGIABCG
CEGICGH
FJEBCDIFAGHJEBCDIFAGHJEBCDIFAGHJEBCDIFAGHJFJABCG
CEGICGH
FJ定理設(shè)x1,x2,x3為項(xiàng)目集I中的3個(gè)項(xiàng)目,并且任意兩項(xiàng)構(gòu)成的規(guī)則的可信度分別為Cx1x2,Cx2x3,Cx1x3,設(shè)C2min=min{Cx1x2,Cx2x3,Cx1x3},則由x1,x2,x3構(gòu)成的可信關(guān)聯(lián)規(guī)則的可信度Cx1x2x3滿(mǎn)足:(1)Cx1x2x3C2min(2)Cx1x2x3max{0,1.5C2min-0.5}推論設(shè)x1,x2,…,xk,xk+1為項(xiàng)目集I中的k+1個(gè)項(xiàng)目,任意k項(xiàng)構(gòu)成的規(guī)則的可信度分別為Cx1x2…xk,…,Cx2x3…xk+1,設(shè)其中最小的可信度為Ckmin,則這k+1個(gè)項(xiàng)目構(gòu)成的規(guī)則的可信度Cx1x2…xkxk+1滿(mǎn)足:(1)Cx1x2…xkxk+1
Ckmin(2)Cx1x2…xkxk+1
max{0,((k+1)Ckmin-1)/k}(3)Cx1x2…xkxk+1
max{0,1-(k+1)(1-C2min)/2}基于極大團(tuán)挖掘可信關(guān)聯(lián)規(guī)則算法特點(diǎn)可以忽略最小支持度的限制采用鄰接矩陣產(chǎn)生2-項(xiàng)可信集,進(jìn)而利用極大團(tuán)思想產(chǎn)生所有的可信集實(shí)驗(yàn)結(jié)果表明,相對(duì)于相關(guān)統(tǒng)計(jì)算法及超團(tuán)挖掘算法等常見(jiàn)算法具有更高的效率和準(zhǔn)確性。各種度量都適用于該方法步驟k-項(xiàng)集≠TF結(jié)束計(jì)算所有1項(xiàng)集,2項(xiàng)集的支持度,存放到鄰接矩陣中用鄰接矩陣求可信2-項(xiàng)集k=2極大團(tuán)方法由可信k項(xiàng)集求所有(k+1)-項(xiàng)集,k++基于FPT的超團(tuán)模式快速挖掘算法h-置信度:設(shè)項(xiàng)集P={i1,i2,…,im}(m≥2),定義其h置信度為min{conf(i1i2,…,im),…,conf(imi1,…,im-1)},記為hconf(P)其中conf為傳統(tǒng)關(guān)聯(lián)規(guī)則的置信度超團(tuán)模式:滿(mǎn)足sup(P)≥且hconf(P)≥的含有m(m≥2)個(gè)項(xiàng)目的項(xiàng)集P
m被稱(chēng)為超團(tuán)模式P的長(zhǎng)度是最小支持度閾值是最小h置信度閾值當(dāng)為0時(shí),超團(tuán)模式變?yōu)轭l繁模式極大超團(tuán)模式:一個(gè)含有m個(gè)項(xiàng)目的超團(tuán)模式HP,若其任意超集都不再是超團(tuán)模式,則被稱(chēng)為極大超團(tuán)模式h-置信度設(shè)項(xiàng)集P={a1,a2,…,am}(m2),定義其h-置信度對(duì)于含有m(m2)個(gè)項(xiàng)目的項(xiàng)集P,若sup(P)且hconf(P),則稱(chēng)P是超團(tuán)模式(hypercliquepattern)極大超團(tuán)模式超團(tuán)模式是可信關(guān)聯(lián)規(guī)則的一種特定形式
基于FPT的超團(tuán)模式和極大超團(tuán)模式挖掘算法特點(diǎn)統(tǒng)一了超團(tuán)模式和極大超團(tuán)模式的挖掘遞歸處理,無(wú)需存儲(chǔ)大量候選項(xiàng)集多種剪枝策略最小支持度剪枝策略、最大支持度剪枝策略、項(xiàng)目自剪枝策略、剩余項(xiàng)目剪枝策略比原有的超團(tuán)模式和極大超團(tuán)模式挖掘算法效率高挖掘思路首先將數(shù)據(jù)庫(kù)構(gòu)造為FPT按支持度依次處理每個(gè)項(xiàng)目,得到包含該項(xiàng)目的超團(tuán)模式或極大超團(tuán)模式構(gòu)造FP-tree數(shù)據(jù)庫(kù)中的項(xiàng)目列表TIDItemListSorted001
002
003
004
005abcdeabcdcefcdeabceceabdcabdcecedceabh-置信度閾值=0.65
最小支持度計(jì)數(shù)=2
項(xiàng)目支持度計(jì)數(shù)排序ceabdf543331最小支持度剪枝策略基于FPT挖掘超團(tuán)模式(含項(xiàng)目d)d的條件模式基:
(b:1,a:1,e:1)(e:1)(b:1,a:1)新的支持度計(jì)數(shù)
(a:2,b:2,e:2)可與d構(gòu)成超團(tuán)模式的項(xiàng)目:
(a:2,b:2)最小支持度剪枝策略項(xiàng)目自剪枝策略d的搜索路徑:baeb的搜索路徑:aea的搜索路徑:ee的搜索路徑:c最大支持度剪枝策略CHCP-treeof“d”:遞歸挖掘,得到超團(tuán)模式abd:2CHCP-treeof“bd”:基于FPT挖掘極大超團(tuán)模式局部極大超團(tuán)模式挖掘超團(tuán)模式時(shí),每次新產(chǎn)生的超團(tuán)模式都會(huì)包含遞歸前的超團(tuán)模式只有當(dāng)遞歸終止時(shí),產(chǎn)生的超團(tuán)模式P才有可能是極大超團(tuán)模式,定義P為局部極大超團(tuán)模式例:上例中超團(tuán)模式:abd:2協(xié)同過(guò)濾推薦的基本算法協(xié)同過(guò)濾推薦系統(tǒng):預(yù)測(cè)用戶(hù)A是否喜歡項(xiàng)目x基于用戶(hù)的推薦(用戶(hù)間協(xié)同)基于項(xiàng)目的推薦系統(tǒng)(項(xiàng)目間協(xié)同)推薦系統(tǒng)的基本數(shù)據(jù)是用戶(hù)對(duì)項(xiàng)目的評(píng)分表:假設(shè)有m個(gè)用戶(hù),n個(gè)項(xiàng)目,則評(píng)分表R就是一個(gè)m×n
的矩陣推薦系統(tǒng)的任務(wù)就是預(yù)測(cè)這個(gè)稀疏矩陣中的空缺項(xiàng)的值如何計(jì)算用戶(hù)之間或項(xiàng)目之間的相似度是推薦系統(tǒng)的核心問(wèn)題相似度測(cè)度余弦相似度(cosine)相關(guān)度(correlation)
修正的余弦相似度(adjustedcosine):預(yù)測(cè)獲得k個(gè)對(duì)x打了分的A的最相近者后,A對(duì)x的打分可以通過(guò)這k個(gè)相近者對(duì)x的打分的加權(quán)平均進(jìn)行預(yù)測(cè),所加的權(quán)重就是A與各相近者的相似度計(jì)算方法有多種,如面臨的挑戰(zhàn)精度問(wèn)題R矩陣具有天然的稀疏性為了保證精度,推薦系統(tǒng)需要盡量利用所有可以利用的信息——存儲(chǔ)整個(gè)R矩陣可伸縮性問(wèn)題當(dāng)R矩陣非常大時(shí),基于存儲(chǔ)的方法無(wú)法被采用基于模型的(modelbased)方法例如,將用戶(hù)通過(guò)聚類(lèi)等方法分成若干組,然后對(duì)各個(gè)組(類(lèi))建立描述模型——只利用用戶(hù)所在組的數(shù)據(jù)進(jìn)行計(jì)算算法的評(píng)價(jià)評(píng)價(jià)協(xié)同過(guò)濾推薦算法的常用測(cè)度是平均絕對(duì)誤差MAE(MeanAbsoluteError)設(shè){p1,p2,…pN}為用戶(hù)對(duì)項(xiàng)目的實(shí)際評(píng)分,{q1,q2,…,qN}為通過(guò)某推薦算法預(yù)測(cè)得到的對(duì)這些項(xiàng)目的評(píng)分,則基于局部偏好的協(xié)同過(guò)濾推薦算法選出k個(gè)類(lèi)代表對(duì)整個(gè)用戶(hù)數(shù)據(jù)空間中的聚類(lèi)狀況以k個(gè)中心點(diǎn)進(jìn)行描述根據(jù)每個(gè)用戶(hù)與各個(gè)類(lèi)代表之間的相似度來(lái)確定用戶(hù)與類(lèi)之間的所屬關(guān)系(程度)預(yù)測(cè)用戶(hù)A對(duì)項(xiàng)目x的評(píng)分在A所屬的所有類(lèi)中選擇類(lèi)代表在x上極化分值最大的類(lèi)利用該類(lèi)中的用戶(hù)對(duì)x的評(píng)分來(lái)預(yù)測(cè)A對(duì)x的評(píng)分兩個(gè)特殊的操作評(píng)分值的極化利用用戶(hù)對(duì)所有項(xiàng)目評(píng)分的平均值將其評(píng)分轉(zhuǎn)化為+1、0和-1評(píng)分行向量的合并操作將兩個(gè)以上的極化用戶(hù)評(píng)分向量(R矩陣中的兩個(gè)及以上行)合并為一個(gè)向量可定量地獲得被合并的用戶(hù)對(duì)于指定項(xiàng)目偏好的一致程度算法的三個(gè)主要環(huán)節(jié)類(lèi)代表的選取與計(jì)算通過(guò)聚類(lèi)的方法獲得類(lèi)代表向量用戶(hù)歸屬類(lèi)計(jì)算一個(gè)用戶(hù)可歸屬于多個(gè)相似度大于閾值的類(lèi)評(píng)分預(yù)測(cè)在用戶(hù)A所屬的各個(gè)類(lèi)中,選擇類(lèi)代表在給定的項(xiàng)目x上有最高的絕對(duì)極化分值的類(lèi)的前k個(gè)近鄰預(yù)測(cè)。k近鄰按下式求得:
基于個(gè)性化主動(dòng)學(xué)習(xí)的協(xié)同過(guò)濾基本思想:系統(tǒng)對(duì)新加入的用戶(hù)主動(dòng)提示一些對(duì)訓(xùn)練用戶(hù)模型最有幫助的項(xiàng)目讓其進(jìn)行評(píng)價(jià),以便盡快獲得其偏好特點(diǎn)應(yīng)用于以下基于模型的協(xié)同過(guò)濾系統(tǒng):對(duì)給定用戶(hù)和項(xiàng)目條件下的各種打分的概率建模,即P(r|u,i)方面模型AM(AspectModel)柔性混合模型FMM(FlexibleMixtureModel)方面模型AM是概率潛語(yǔ)義模型,將用戶(hù)看作由多方面潛在興趣構(gòu)成的“混合體”設(shè)用戶(hù)集合為U,潛在興趣集合為Z,則任意用戶(hù)u∈U對(duì)任意興趣組z∈Z都有一個(gè)歸屬的概率同一興趣組中的用戶(hù)對(duì)項(xiàng)目具有相同的打分模式,即給定潛在類(lèi)變量z,用戶(hù)u與項(xiàng)目i是相互獨(dú)立的,因此有用戶(hù)的所有個(gè)性項(xiàng)構(gòu)成用戶(hù)模型FMMAM的一種改造,將模型中的潛在變量分成兩個(gè)代表具有類(lèi)似興趣的用戶(hù)組的潛在變量zu代表具有類(lèi)似訂購(gòu)用戶(hù)的項(xiàng)目組的潛在變量zi最小化熵主動(dòng)學(xué)習(xí)一種流行的主動(dòng)學(xué)習(xí)方法是請(qǐng)用戶(hù)對(duì)能夠最大限度降低用戶(hù)模型的熵的項(xiàng)目進(jìn)行打分Bayes選擇法最小化熵的方法會(huì)導(dǎo)致每個(gè)用戶(hù)趨于只具有一個(gè)興趣方面為了對(duì)此進(jìn)行改進(jìn),提出了Bayes選擇法以加速當(dāng)前模型向“真實(shí)”模型逼近為目標(biāo)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年商場(chǎng)營(yíng)業(yè)員個(gè)人工作總結(jié)例文(五篇)
- 2024年大學(xué)輔導(dǎo)員個(gè)人工作計(jì)劃(二篇)
- 2024年商業(yè)門(mén)面房出租合同標(biāo)準(zhǔn)范文(二篇)
- 2024年學(xué)生會(huì)紀(jì)律部工作計(jì)劃例文(二篇)
- 【《淺談小學(xué)生讀寫(xiě)能力的培養(yǎng)》7300字(論文)】
- 【《房地產(chǎn)上市公司盈利能力探究(論文)》15000字】
- 2024年單位物業(yè)工程部八月份工作計(jì)劃范例(二篇)
- 2024年固定勞動(dòng)合同參考范文(五篇)
- 2024年后勤工作計(jì)劃書(shū)(二篇)
- 2024年小學(xué)二年級(jí)班主任工作總結(jié)(三篇)
- 建設(shè)工程消防驗(yàn)收技術(shù)服務(wù)項(xiàng)目方案(技術(shù)標(biāo) )
- MOOC創(chuàng)新創(chuàng)業(yè)與管理基礎(chǔ)(東南大學(xué))
- 萊州市梁郭鎮(zhèn)大郎家金礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 人工成本對(duì)建筑工程造價(jià)影響因素分析
- XX醫(yī)院高警示藥品(高危藥品)目錄
- 拆除橋梁專(zhuān)項(xiàng)施工方案范本
- 新靂切割噴墨繪圖機(jī)說(shuō)明書(shū)
- 抗美援朝精神(教案)小學(xué)生主題班會(huì)通用版
- 集團(tuán)公司五年戰(zhàn)略發(fā)展規(guī)劃
- 防造假管理程序文件
- 光的反射(課件)五年級(jí)科學(xué)上冊(cè)(蘇教版)
評(píng)論
0/150
提交評(píng)論