北郵郭軍web搜索chapter6

上傳人：2*** IP屬地：湖北上傳時(shí)間：2023-02-01 格式：PPT 頁(yè)數(shù)：60 大?。?.29MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩55頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Web搜索

郭軍

北京郵電大學(xué)

第6章信息推薦關(guān)聯(lián)規(guī)則挖掘的基本算法可信關(guān)聯(lián)規(guī)則及其挖掘算法基于FPT的超團(tuán)模式快速挖掘算法協(xié)同過(guò)濾推薦的基本算法基于局部偏好的協(xié)同過(guò)濾推薦算法基于個(gè)性化主動(dòng)學(xué)習(xí)的協(xié)同過(guò)濾面向排序的協(xié)同過(guò)濾引言應(yīng)用舉例在電子商務(wù)系統(tǒng)中，新商品會(huì)不斷推出，向一個(gè)用戶(hù)主動(dòng)提供哪些商品信息便是一個(gè)典型的信息推薦問(wèn)題InformationRetrieval被檢索的文檔相對(duì)穩(wěn)定用戶(hù)查詢(xún)需求不同InformationFilter信息資源動(dòng)態(tài)變化用戶(hù)需求相對(duì)固定InformationRecommendation信息資源動(dòng)態(tài)變化用戶(hù)的需求不確切，只能通過(guò)歷史數(shù)據(jù)和相關(guān)數(shù)據(jù)進(jìn)行挖掘(預(yù)測(cè))信息推薦技術(shù)的種類(lèi)基于內(nèi)容(contentbased)對(duì)用戶(hù)和商品的描述信息分別建模通過(guò)比較兩類(lèi)模型之間關(guān)聯(lián)度(相似度)進(jìn)行推薦基于關(guān)聯(lián)(associationbased)通過(guò)歷史上的交易或評(píng)價(jià)數(shù)據(jù)挖掘用戶(hù)之間、商品之間、用戶(hù)-商品之間的關(guān)聯(lián)性基于上述關(guān)聯(lián)性預(yù)測(cè)用戶(hù)對(duì)商品的態(tài)度不需要關(guān)于用戶(hù)和商品的描述信息通常也不需要領(lǐng)域知識(shí)關(guān)聯(lián)規(guī)則挖掘(AssociationRulesMining)和協(xié)同過(guò)濾(CollaborativeFiltering)是兩種主要算法關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)挖掘的一個(gè)重要研究方向1993年，IBM的R.Agrawal等人提出在大型商品交易數(shù)據(jù)庫(kù)中挖掘商品項(xiàng)(Item)之間的關(guān)聯(lián)規(guī)則的問(wèn)題，并提出Apriori算法后提出多種改進(jìn)算法，以減小計(jì)算量或內(nèi)存的占用量最初主要應(yīng)用在大型超市的商品關(guān)系的挖掘等方面目前已在信息推薦中得到重要應(yīng)用協(xié)同過(guò)濾算法來(lái)自信息推薦系統(tǒng)方法：通過(guò)他人對(duì)某一商品已知的需求來(lái)預(yù)測(cè)一個(gè)用戶(hù)對(duì)該商品未知的需求基本假設(shè)：歷史上的需求類(lèi)似，則當(dāng)前的需求也類(lèi)似算法的核心：通過(guò)歷史數(shù)據(jù)找出與被預(yù)測(cè)用戶(hù)有類(lèi)似需求的用戶(hù)(組)基于用戶(hù)(Userbased)的算法基于項(xiàng)目(Itembased)的算法關(guān)聯(lián)規(guī)則挖掘的基本算法基本定義I={i1,i2,…,im}為m個(gè)不同項(xiàng)目的集合事務(wù)數(shù)據(jù)庫(kù)D={T1,T2,…,Tn}，其中每個(gè)交易Ti是I中一組項(xiàng)目的集合關(guān)聯(lián)規(guī)則就是一個(gè)形如X→Y的蘊(yùn)涵式，其中X?I，Y?I，而且X∩Y=支持度和置信度是傳統(tǒng)關(guān)聯(lián)規(guī)則的主要客觀度量如果D中S%的事務(wù)同時(shí)包含X和Y，則關(guān)聯(lián)規(guī)則X→Y的支持度為S%，記support(X→Y)=S%若D中包含X的事務(wù)中有C%也包含Y，則關(guān)聯(lián)規(guī)則X→Y的置信度為C%，記confidence(X→Y)=P(Y|X)=C%同時(shí)滿(mǎn)足最小支持度閾值和最小置信度閾值的規(guī)則稱(chēng)為強(qiáng)規(guī)則挖掘關(guān)聯(lián)規(guī)則問(wèn)題就是產(chǎn)生強(qiáng)規(guī)則的問(wèn)題Apriori算法關(guān)聯(lián)規(guī)則挖掘可以分解為兩個(gè)步驟找出D中滿(mǎn)足minSup的k項(xiàng)集，由這些項(xiàng)集生成關(guān)聯(lián)規(guī)則找出置信度不小于minConf的規(guī)則頻繁項(xiàng)集的向下封閉性頻繁項(xiàng)集的所有非空子集一定是頻繁項(xiàng)集Apriori算法把由頻繁k-1項(xiàng)集的集合Fk-1生成頻繁k項(xiàng)集的集合Fk的過(guò)程分為連接和剪枝兩步連接和剪枝連接：將Fk-1中的項(xiàng)集進(jìn)行連接,產(chǎn)生k項(xiàng)集的集合Ck假設(shè)f1和f2是Fk-1中的項(xiàng)集，記fi[j]為fi的第j項(xiàng)，并令fi[j-1]≤fi[j]如果f1和f2滿(mǎn)足：(f1[1]=f2[1])∧…∧(f1[k-2]=f2[k-2])∧(f1[k-1]<f2[k-1])那么稱(chēng)f1和f2是可連接的，進(jìn)行連接操作，結(jié)果為一個(gè)k項(xiàng)集f1[1]f1[2]…f1[k-1]f2[k-1]剪枝：將生成的Ck中的非頻繁項(xiàng)集刪除Ck中的某個(gè)候選頻繁k項(xiàng)集不被刪除的條件是：它的所有k-1項(xiàng)子集都在Fk-1中Ck中保留下來(lái)的k項(xiàng)集構(gòu)成Fk遞推挖掘方法首先產(chǎn)生頻繁1項(xiàng)集F1，然后是頻繁2項(xiàng)集F2，直到某個(gè)r值使得Fr為空，算法停止在第k次循環(huán)中，先產(chǎn)生k項(xiàng)集的集合Ck頻繁項(xiàng)集Fk是Ck的一個(gè)子集:Ck中的每個(gè)元素需在交易數(shù)據(jù)庫(kù)中進(jìn)行驗(yàn)證來(lái)決定其是否加入FkApriori算法的兩大缺點(diǎn)可能產(chǎn)生大量的候選集需要重復(fù)掃描數(shù)據(jù)庫(kù)Apriori算法例

數(shù)據(jù)庫(kù)中的項(xiàng)目列表TID

ListofItemID001

002

003

004

005

006

007

008ABCDEFGABCDGHIEFGHJCDEGIABCDGIFIJEGHIDIminsup=40%minconf=80%AJIHGFEDCB3345436362JABDFH4243244424CDG:CD→G(4/4)CG→D(4/4)

DG→C(4/4)DI:D→I(4/5)I→D(4/6)EG:E→G(4/4)G→E(4/6)GI:G→I(4/6)I→G(4/6)CD→G(50%100%)CG→D(50%100%)DG→C(50%100%)D→I(50%80%)E→G(50%100%)43CECGCIEGEIGICDDEDGDICECGCIEGEIGICDDEDGDICDGDGIDGIApriori算法描述輸入:事務(wù)數(shù)據(jù)庫(kù)D，最小支持度minsup輸出:頻繁項(xiàng)目集合F符號(hào):X—項(xiàng)目集合；Fi—頻繁i-項(xiàng)集集合步驟:(1)F1={X|XD,support(X)minsup};(2)for(k=2;Fk-1!=;k=k+1){(3) Ck=apriori_gen(Fk-1,minsup);(4) foralltransactionstD{(5) support(C)=support(C)+1,CCk}(6) Fk={C|CCk,support(C)minsup};}(7)F=Fk;Apriori算法的優(yōu)化剪枝技術(shù)原理項(xiàng)集是頻繁的當(dāng)且僅當(dāng)它的所有子集都是頻繁的如果Ck中某個(gè)候選項(xiàng)集有任意一個(gè)(k-1)子集不屬于Fk-1，則這個(gè)項(xiàng)集就應(yīng)被剪掉散列用于生成頻繁2項(xiàng)集F2劃分把數(shù)據(jù)庫(kù)從邏輯上分成幾個(gè)互不相交的塊采樣利用數(shù)據(jù)子集進(jìn)行挖掘，然后在整個(gè)數(shù)據(jù)集中驗(yàn)證基于FPT的算法

韓家煒[Han00]提出利用頻繁模式樹(shù)FPT進(jìn)行頻繁模式挖掘的FP-growth算法1）采用FPT存放數(shù)據(jù)庫(kù)的主要信息，算法只需掃描數(shù)據(jù)庫(kù)兩次2）不需要產(chǎn)生候選項(xiàng)集，從而減少了產(chǎn)生和測(cè)試候選項(xiàng)集所耗費(fèi)的大量時(shí)間3）采用分而治之的方式對(duì)數(shù)據(jù)庫(kù)進(jìn)行挖掘，在挖掘過(guò)程中，大大減少了搜索空間FPT的樹(shù)結(jié)構(gòu)構(gòu)成標(biāo)記為“null”的根節(jié)點(diǎn)(root)項(xiàng)前綴子樹(shù)(itemprefixsubtrees)的集合頻繁項(xiàng)頭表(frequent-itemheadertable)項(xiàng)前綴子樹(shù)中的每個(gè)節(jié)點(diǎn)包含5個(gè)域item-namecountnode-linkchildren-linkparent-link頻繁項(xiàng)頭表中的每行至少存儲(chǔ)兩個(gè)域item-namenode-linkFPT例

CreateFPtree()算法Step1掃描DB中的每個(gè)事務(wù)ti，收集由所有項(xiàng)構(gòu)成的集合F及其支持度Step2根據(jù)最小支持度，獲得F中的頻繁項(xiàng)，并按照支持度降序的順序?qū)⑺鼈兎湃隖PT的項(xiàng)頭表Step3建立FPT的根節(jié)點(diǎn)T，并將其標(biāo)記為“null”Step4對(duì)DB中的每個(gè)事務(wù)ti，根據(jù)項(xiàng)頭表選擇ti中的頻繁項(xiàng)并對(duì)它們進(jìn)行排序以構(gòu)成ri；如果ri不為空，調(diào)用insert_tree(ri,T)Step5輸出以T為根節(jié)點(diǎn)的FPTinsert_tree()算法輸入：項(xiàng)集{p1,P}，節(jié)點(diǎn)N輸出：無(wú)符號(hào)：n代表樹(shù)中節(jié)點(diǎn)N的子節(jié)點(diǎn)Step1若有N的子節(jié)點(diǎn)n，使得n.item-name=p1.item-name，則n.count=n.count+1，否則轉(zhuǎn)Step2Step2建立N的子節(jié)點(diǎn)n，執(zhí)行n.item-name=p1.item-name;n.parent-link=N;n.count=1;將節(jié)點(diǎn)n加入到項(xiàng)p1.item-name的節(jié)點(diǎn)鏈接node-link中Step3如果P不為空，則繼續(xù)調(diào)用insert_tree(P,n)111FP-Growth例NullGECD6I133minsup=40%minconf=80%GIDC6654I4CD2利用條件FP樹(shù)得到頻繁項(xiàng)集：GEGDCIDGI

數(shù)據(jù)庫(kù)中的項(xiàng)目列表TIDListofItemID001

002

003

004

005

006

007

008ABCDEFG:GDCEABCDGHI:GIDCEFGHJ:GECDEGI:GlDCEABCDGI:GIDCFIJ:IEGHI:GIEDI:IDE4E1EE1D1111NullGECD6I133GIDC6654I4CD2E4E1EE1D1111NullGECD4111I2CDE1EE111NullGCD411I2CD{E}{E}NullG4{EG}cond.fp-treeofE可信關(guān)聯(lián)規(guī)則及其挖掘算法在數(shù)據(jù)分布嚴(yán)重傾斜的情況下，會(huì)遇到最小支持度難以設(shè)定的問(wèn)題支持度稍一偏高，就會(huì)漏掉很多重要的置信度較高的關(guān)聯(lián)規(guī)則支持度稍一偏低，就會(huì)產(chǎn)生大量的虛假規(guī)則抑制虛假規(guī)則的產(chǎn)生[Omie03]提出了all-confidence興趣度測(cè)度[Xiong03]提出h-confidence興趣度測(cè)度可信關(guān)聯(lián)規(guī)則相關(guān)定義設(shè)I={i1,i2,…,im}是m個(gè)不同項(xiàng)目的集合

給定事務(wù)數(shù)據(jù)庫(kù)D={T1,T2,…,Tn}若存在k個(gè)項(xiàng)目x1,…,xk,對(duì)于i,j∈{1,…,k}(i≠j)有(xixj)∧(﹁xi﹁xj)則稱(chēng)由這k個(gè)項(xiàng)目構(gòu)成k項(xiàng)可信關(guān)聯(lián)規(guī)則

(CredibleAssociationRule,CAR)，記為R(x1,…,xk)(xixj)(xixj)xixj。其物理含義為:若xi出現(xiàn)，則xj出現(xiàn);若xi不出現(xiàn)，則xj不出現(xiàn)，即xi與xj是同現(xiàn)的規(guī)則中的各個(gè)項(xiàng)目具有很強(qiáng)的親密度/共現(xiàn)度，任意一個(gè)項(xiàng)目的出現(xiàn)很強(qiáng)地暗示規(guī)則中其他項(xiàng)目也會(huì)出現(xiàn)可信度度量k-項(xiàng)可信關(guān)聯(lián)規(guī)則的可信度定義為規(guī)則中任意項(xiàng)目出現(xiàn)時(shí)，所有項(xiàng)目同時(shí)出現(xiàn)的概率：

重要性質(zhì)：k-項(xiàng)集的可信度不大于其任意子集的可信度例：事務(wù)數(shù)據(jù)庫(kù)中的交易有1000項(xiàng)，其中包含項(xiàng)A的交易有20，包含項(xiàng)B的交易有900項(xiàng)，同時(shí)包含項(xiàng)AB的交易有15項(xiàng)性質(zhì)命題1：設(shè)可信關(guān)聯(lián)規(guī)則x1x2的置信度為D中x1的支持度為sup(x1),x2的支持度為sup(x2)，則有命題2：設(shè)傳統(tǒng)關(guān)聯(lián)規(guī)則x1x2的置信度為C1,

x2x1的置信度為C2，則有用鄰接矩陣求2項(xiàng)可信集2項(xiàng)集鄰接矩陣A={aij}(i,j=1,…n)被定義為：(1)如果T中有且僅有k個(gè)事務(wù)包含項(xiàng)目集{vi,vj}(i≠j)則矩陣中的元素aij=k(2)如果T中有且僅有k個(gè)事務(wù)包含項(xiàng)目vi，則矩陣中的元素aii=k2項(xiàng)集鄰接矩陣記為D2可信關(guān)聯(lián)規(guī)則vi

vj的置信度=2項(xiàng)可信集鄰接矩陣若2項(xiàng)集鄰接矩陣D2中非對(duì)角線(xiàn)元素aij所對(duì)應(yīng)的可信關(guān)聯(lián)規(guī)則的置信度小于minconf，則令aij=0，由此形成2項(xiàng)可信集鄰接矩陣，記為Dc2對(duì)Dc2中的每一個(gè)非零元素aij(i≠j)，若項(xiàng)目vi和vj的支持度均大于1項(xiàng)集的最小支持度閾值minsup，則稱(chēng)aij對(duì)應(yīng)的項(xiàng)目集{vi,vj}為2項(xiàng)可信集計(jì)算鄰接矩陣

數(shù)據(jù)庫(kù)中的項(xiàng)目列表TIDListofItemID001

002

003

004

005

006

007

008ABCDEFGIABCGHICEFGHIJCDEGIABCEGIFIJCEGHIDI2-項(xiàng)集鄰接矩陣itemABCDEFGHIJA3331213130B3331213130C3362526361D1123212030E2252525251F1121232132G3362526361H1130213331I3363536382J0010121122通過(guò)鄰接矩陣求可信2-項(xiàng)集

可信2-項(xiàng)集鄰接矩陣

minconf=0.5minsup=0itemABCDEFGHIJA3330003000B3330003000C3360506360D0003000000E0050505050F0000030002G3360506360H0030003300I0060506080J0000020002EBCDIFAGHJ由k項(xiàng)可信集生成(k+1)項(xiàng)可信集EBCDIFAGHJABC

ABG

ACG

BCG

CEG

CEI

CGH

CGI

EGIABCG

CEGIAB

GIABC

ABG

ACG

BCG

CEG

CEI

CGH

CGI

EGIABCG

CEGICGH

FJEBCDIFAGHJEBCDIFAGHJEBCDIFAGHJEBCDIFAGHJFJABCG

CEGICGH

FJ定理設(shè)x1，x2，x3為項(xiàng)目集I中的3個(gè)項(xiàng)目，并且任意兩項(xiàng)構(gòu)成的規(guī)則的可信度分別為Cx1x2，Cx2x3，Cx1x3，設(shè)C2min=min{Cx1x2，Cx2x3，Cx1x3}，則由x1，x2，x3構(gòu)成的可信關(guān)聯(lián)規(guī)則的可信度Cx1x2x3滿(mǎn)足：(1)Cx1x2x3C2min(2)Cx1x2x3max{0，1.5C2min-0.5}推論設(shè)x1，x2，…，xk，xk+1為項(xiàng)目集I中的k+1個(gè)項(xiàng)目，任意k項(xiàng)構(gòu)成的規(guī)則的可信度分別為Cx1x2…xk，…，Cx2x3…xk+1，設(shè)其中最小的可信度為Ckmin，則這k+1個(gè)項(xiàng)目構(gòu)成的規(guī)則的可信度Cx1x2…xkxk+1滿(mǎn)足：(1)Cx1x2…xkxk+1

Ckmin(2)Cx1x2…xkxk+1

max{0,((k+1)Ckmin-1)/k}(3)Cx1x2…xkxk+1

max{0,1-(k+1)(1-C2min)/2}基于極大團(tuán)挖掘可信關(guān)聯(lián)規(guī)則算法特點(diǎn)可以忽略最小支持度的限制采用鄰接矩陣產(chǎn)生2-項(xiàng)可信集，進(jìn)而利用極大團(tuán)思想產(chǎn)生所有的可信集實(shí)驗(yàn)結(jié)果表明，相對(duì)于相關(guān)統(tǒng)計(jì)算法及超團(tuán)挖掘算法等常見(jiàn)算法具有更高的效率和準(zhǔn)確性。各種度量都適用于該方法步驟k-項(xiàng)集≠TF結(jié)束計(jì)算所有1項(xiàng)集，2項(xiàng)集的支持度，存放到鄰接矩陣中用鄰接矩陣求可信2-項(xiàng)集k=2極大團(tuán)方法由可信k項(xiàng)集求所有(k+1)-項(xiàng)集,k++基于FPT的超團(tuán)模式快速挖掘算法h-置信度：設(shè)項(xiàng)集P={i1,i2,…,im}(m≥2)，定義其h置信度為min{conf(i1i2,…,im),…,conf(imi1,…,im-1)}，記為hconf(P)其中conf為傳統(tǒng)關(guān)聯(lián)規(guī)則的置信度超團(tuán)模式:滿(mǎn)足sup(P)≥且hconf(P)≥的含有m(m≥2)個(gè)項(xiàng)目的項(xiàng)集P

m被稱(chēng)為超團(tuán)模式P的長(zhǎng)度是最小支持度閾值是最小h置信度閾值當(dāng)為0時(shí)，超團(tuán)模式變?yōu)轭l繁模式極大超團(tuán)模式：一個(gè)含有m個(gè)項(xiàng)目的超團(tuán)模式HP，若其任意超集都不再是超團(tuán)模式，則被稱(chēng)為極大超團(tuán)模式h-置信度設(shè)項(xiàng)集P={a1,a2,…,am}(m2)，定義其h-置信度對(duì)于含有m(m2)個(gè)項(xiàng)目的項(xiàng)集P，若sup(P)且hconf(P)，則稱(chēng)P是超團(tuán)模式(hypercliquepattern)極大超團(tuán)模式超團(tuán)模式是可信關(guān)聯(lián)規(guī)則的一種特定形式

基于FPT的超團(tuán)模式和極大超團(tuán)模式挖掘算法特點(diǎn)統(tǒng)一了超團(tuán)模式和極大超團(tuán)模式的挖掘遞歸處理，無(wú)需存儲(chǔ)大量候選項(xiàng)集多種剪枝策略最小支持度剪枝策略、最大支持度剪枝策略、項(xiàng)目自剪枝策略、剩余項(xiàng)目剪枝策略比原有的超團(tuán)模式和極大超團(tuán)模式挖掘算法效率高挖掘思路首先將數(shù)據(jù)庫(kù)構(gòu)造為FPT按支持度依次處理每個(gè)項(xiàng)目，得到包含該項(xiàng)目的超團(tuán)模式或極大超團(tuán)模式構(gòu)造FP-tree數(shù)據(jù)庫(kù)中的項(xiàng)目列表TIDItemListSorted001

002

003

004

005abcdeabcdcefcdeabceceabdcabdcecedceabh-置信度閾值=0.65

最小支持度計(jì)數(shù)=2

項(xiàng)目支持度計(jì)數(shù)排序ceabdf543331最小支持度剪枝策略基于FPT挖掘超團(tuán)模式(含項(xiàng)目d)d的條件模式基：

(b:1，a:1，e:1)(e:1)(b:1，a:1)新的支持度計(jì)數(shù)

(a:2，b:2，e:2)可與d構(gòu)成超團(tuán)模式的項(xiàng)目：

(a:2,b:2)最小支持度剪枝策略項(xiàng)目自剪枝策略d的搜索路徑:baeb的搜索路徑:aea的搜索路徑:ee的搜索路徑:c最大支持度剪枝策略CHCP-treeof“d”:遞歸挖掘，得到超團(tuán)模式abd:2CHCP-treeof“bd”:基于FPT挖掘極大超團(tuán)模式局部極大超團(tuán)模式挖掘超團(tuán)模式時(shí)，每次新產(chǎn)生的超團(tuán)模式都會(huì)包含遞歸前的超團(tuán)模式只有當(dāng)遞歸終止時(shí)，產(chǎn)生的超團(tuán)模式P才有可能是極大超團(tuán)模式，定義P為局部極大超團(tuán)模式例：上例中超團(tuán)模式：abd:2協(xié)同過(guò)濾推薦的基本算法協(xié)同過(guò)濾推薦系統(tǒng):預(yù)測(cè)用戶(hù)A是否喜歡項(xiàng)目x基于用戶(hù)的推薦(用戶(hù)間協(xié)同)基于項(xiàng)目的推薦系統(tǒng)(項(xiàng)目間協(xié)同)推薦系統(tǒng)的基本數(shù)據(jù)是用戶(hù)對(duì)項(xiàng)目的評(píng)分表:假設(shè)有m個(gè)用戶(hù)，n個(gè)項(xiàng)目，則評(píng)分表R就是一個(gè)m×n

的矩陣推薦系統(tǒng)的任務(wù)就是預(yù)測(cè)這個(gè)稀疏矩陣中的空缺項(xiàng)的值如何計(jì)算用戶(hù)之間或項(xiàng)目之間的相似度是推薦系統(tǒng)的核心問(wèn)題相似度測(cè)度余弦相似度(cosine)相關(guān)度(correlation)

修正的余弦相似度(adjustedcosine)：預(yù)測(cè)獲得k個(gè)對(duì)x打了分的A的最相近者后，A對(duì)x的打分可以通過(guò)這k個(gè)相近者對(duì)x的打分的加權(quán)平均進(jìn)行預(yù)測(cè)，所加的權(quán)重就是A與各相近者的相似度計(jì)算方法有多種，如面臨的挑戰(zhàn)精度問(wèn)題R矩陣具有天然的稀疏性為了保證精度，推薦系統(tǒng)需要盡量利用所有可以利用的信息——存儲(chǔ)整個(gè)R矩陣可伸縮性問(wèn)題當(dāng)R矩陣非常大時(shí)，基于存儲(chǔ)的方法無(wú)法被采用基于模型的(modelbased)方法例如，將用戶(hù)通過(guò)聚類(lèi)等方法分成若干組，然后對(duì)各個(gè)組(類(lèi))建立描述模型——只利用用戶(hù)所在組的數(shù)據(jù)進(jìn)行計(jì)算算法的評(píng)價(jià)評(píng)價(jià)協(xié)同過(guò)濾推薦算法的常用測(cè)度是平均絕對(duì)誤差MAE(MeanAbsoluteError)設(shè){p1,p2,…pN}為用戶(hù)對(duì)項(xiàng)目的實(shí)際評(píng)分，{q1,q2,…,qN}為通過(guò)某推薦算法預(yù)測(cè)得到的對(duì)這些項(xiàng)目的評(píng)分，則基于局部偏好的協(xié)同過(guò)濾推薦算法選出k個(gè)類(lèi)代表對(duì)整個(gè)用戶(hù)數(shù)據(jù)空間中的聚類(lèi)狀況以k個(gè)中心點(diǎn)進(jìn)行描述根據(jù)每個(gè)用戶(hù)與各個(gè)類(lèi)代表之間的相似度來(lái)確定用戶(hù)與類(lèi)之間的所屬關(guān)系(程度)預(yù)測(cè)用戶(hù)A對(duì)項(xiàng)目x的評(píng)分在A所屬的所有類(lèi)中選擇類(lèi)代表在x上極化分值最大的類(lèi)利用該類(lèi)中的用戶(hù)對(duì)x的評(píng)分來(lái)預(yù)測(cè)A對(duì)x的評(píng)分兩個(gè)特殊的操作評(píng)分值的極化利用用戶(hù)對(duì)所有項(xiàng)目評(píng)分的平均值將其評(píng)分轉(zhuǎn)化為+1、0和-1評(píng)分行向量的合并操作將兩個(gè)以上的極化用戶(hù)評(píng)分向量(R矩陣中的兩個(gè)及以上行)合并為一個(gè)向量可定量地獲得被合并的用戶(hù)對(duì)于指定項(xiàng)目偏好的一致程度算法的三個(gè)主要環(huán)節(jié)類(lèi)代表的選取與計(jì)算通過(guò)聚類(lèi)的方法獲得類(lèi)代表向量用戶(hù)歸屬類(lèi)計(jì)算一個(gè)用戶(hù)可歸屬于多個(gè)相似度大于閾值的類(lèi)評(píng)分預(yù)測(cè)在用戶(hù)A所屬的各個(gè)類(lèi)中，選擇類(lèi)代表在給定的項(xiàng)目x上有最高的絕對(duì)極化分值的類(lèi)的前k個(gè)近鄰預(yù)測(cè)。k近鄰按下式求得:

基于個(gè)性化主動(dòng)學(xué)習(xí)的協(xié)同過(guò)濾基本思想：系統(tǒng)對(duì)新加入的用戶(hù)主動(dòng)提示一些對(duì)訓(xùn)練用戶(hù)模型最有幫助的項(xiàng)目讓其進(jìn)行評(píng)價(jià)，以便盡快獲得其偏好特點(diǎn)應(yīng)用于以下基于模型的協(xié)同過(guò)濾系統(tǒng):對(duì)給定用戶(hù)和項(xiàng)目條件下的各種打分的概率建模，即P(r|u,i)方面模型AM(AspectModel)柔性混合模型FMM(FlexibleMixtureModel)方面模型AM是概率潛語(yǔ)義模型，將用戶(hù)看作由多方面潛在興趣構(gòu)成的“混合體”設(shè)用戶(hù)集合為U，潛在興趣集合為Z，則任意用戶(hù)u∈U對(duì)任意興趣組z∈Z都有一個(gè)歸屬的概率同一興趣組中的用戶(hù)對(duì)項(xiàng)目具有相同的打分模式，即給定潛在類(lèi)變量z，用戶(hù)u與項(xiàng)目i是相互獨(dú)立的，因此有用戶(hù)的所有個(gè)性項(xiàng)構(gòu)成用戶(hù)模型FMMAM的一種改造，將模型中的潛在變量分成兩個(gè)代表具有類(lèi)似興趣的用戶(hù)組的潛在變量zu代表具有類(lèi)似訂購(gòu)用戶(hù)的項(xiàng)目組的潛在變量zi最小化熵主動(dòng)學(xué)習(xí)一種流行的主動(dòng)學(xué)習(xí)方法是請(qǐng)用戶(hù)對(duì)能夠最大限度降低用戶(hù)模型的熵的項(xiàng)目進(jìn)行打分Bayes選擇法最小化熵的方法會(huì)導(dǎo)致每個(gè)用戶(hù)趨于只具有一個(gè)興趣方面為了對(duì)此進(jìn)行改進(jìn)，提出了Bayes選擇法以加速當(dāng)前模型向“真實(shí)”模型逼近為目標(biāo)

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

北郵郭軍web搜索chapter6

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

北郵郭軍web搜索chapter6

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔