版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于協(xié)作過濾的Web智能信息推薦方法
[分類號]TP18修回日期:2010-04-141引言隨著Internet的迅猛發(fā)展,全球Web站點(diǎn)數(shù)目迅速增長,如何為Web站點(diǎn)的用戶提供優(yōu)質(zhì)的服務(wù)成為一個重要的研究課題。在許多探索性研究中,個性化信息服務(wù)(PersonalizedInformationService,PIS)[1]是一種嶄新的智能信息服務(wù)方式。PIS的特征是信息服務(wù)系統(tǒng)根據(jù)每個用戶的信息需求和用戶的個性化模式,主動搜尋相關(guān)信息,并且利用在線智能推薦服務(wù)[2]或者推送(push)技術(shù),準(zhǔn)確地將用戶所需的信息傳送到相應(yīng)的用戶。在智能個性化信息服務(wù)中,最重要的服務(wù)是個性化信息推薦,目前已有一些個性化信息推薦方法。比較有代表性的方法有Schechter等人[3]提出的根據(jù)用戶的訪問路徑模式進(jìn)行推薦的方法;CooleyR等人[4]提出的從訪問日志文件中提取用戶的訪問模式進(jìn)行推薦的方法;Nasraoui[5]等人提出的采用聚類用戶訪問模式進(jìn)行推薦的方法。這些方法能夠?qū)崿F(xiàn)對用戶的信息推薦,但仍存在一些問題,主要包括:①多數(shù)個性化信息推薦方法沒有考慮利用用戶訪問頁面的時間特性。而時間特性是一種可利用的重要資源,即如果用戶對某頁面感興趣,那么就會在該頁面停留較長時間;反之,就會停留較短時間。②多數(shù)個性化信息推薦方法針對的是注冊用戶,較少考慮非注冊用戶的信息推薦。③多數(shù)個性化信息推薦方法沒有考慮用戶是否有新穎信息需求的偏好。針對現(xiàn)有個性化信息推薦方法存在的問題,本文設(shè)計了一種協(xié)作過濾方法,并將其應(yīng)用到個性化信息推薦,提出了一種基于協(xié)作過濾的Web智能信息推薦方法(WIIRM)。2基于協(xié)作過濾的Web智能信息推薦方法處理流程本文提出的Web智能信息推薦方法(WIIRM)利用協(xié)作過濾實現(xiàn)信息推薦,其處理流程分為離線處理和在線推薦兩部分。離線處理可分為兩個步驟:①對日志文件進(jìn)行數(shù)據(jù)預(yù)處理,獲得各個用戶帶有時長的用戶模式;②根據(jù)用戶模式,利用協(xié)作過濾方法建立評價矩陣,計算各用戶之間的相似度,選擇一些具有較大相似度的用戶作為相似用戶。在線推薦可分為三個步驟:①監(jiān)聽并得到當(dāng)前用戶訪問操作序列;②根據(jù)離線處理得到的用戶間相似度、評價矩陣和在線推薦部分計算出的鏈接距離因子來計算候選頁面的推薦值;③選擇推薦值大于閾值的頁面推薦給用戶。WIIRM的處理流程圖如圖1所示。圖1WIIRM流程WIIRM考慮了用戶訪問頁面的時間特性,不需要用戶注冊,在推薦時考慮了頁面的新穎性,同時實現(xiàn)了離線處理與在線推薦的結(jié)合。3離線處理3.1數(shù)據(jù)預(yù)處理[6]日志文件的數(shù)據(jù)預(yù)處理是進(jìn)行離線處理和更新的基礎(chǔ),主要步驟包括:數(shù)據(jù)凈化、用戶識別、用戶訪問操作識別、路徑完善和用戶模式識別等。經(jīng)過數(shù)據(jù)預(yù)處理后,可獲得用戶模式,并且生成每個用戶的事務(wù)模式文件,每一個用戶模式文件包含了若干個用戶模式。由于WIIRM要考慮用戶訪問頁面的時間特性,所以得到的是帶有時長的用戶模式。設(shè)L為用戶訪問操作集合,每一條訪問記錄l∈L包括:用戶主機(jī)地址l.ip,用戶ID號l.uid,被訪問Web頁的URL地址l.url,訪問時間戳l.time和訪問Web頁的時長l.timelength。定義1:帶有時長的用戶模式定義為三元組,形式化表示如下:3.2協(xié)作過濾方法協(xié)作過濾[7]是一種共享用戶間的興趣和評價的重要技術(shù),采用的方法是收集用戶對評價項目的興趣偏好,匹配出具有相似興趣偏好的用戶,對這些相似用戶共享彼此的興趣和評價。它能夠為相似用戶提供協(xié)作推薦。協(xié)作過濾方法的要素:①評價項目:用戶進(jìn)行評價的項目;②評價值:用戶對評價項目的評價值,反映了用戶對評價項目的偏好程度;③評價矩陣:多個用戶對所有項目評價的二維矩陣,其中每列表示多個用戶對一個評價項目的評價值,每行表示一個用戶對所有評價項目的評價值。本文設(shè)計的協(xié)作過濾方法主要有三個步驟:①獲取用戶對評價項目的評價值,建立評價矩陣;②根據(jù)評價矩陣計算用戶之間的相似度;③選擇一些具有較大相似度的用戶作為相似用戶以用于協(xié)作推薦。3.2.1自動獲取用戶評價傳統(tǒng)的協(xié)作過濾方法的主要問題是需要人為地提供評價,而本文設(shè)計的協(xié)作過濾方法對其進(jìn)行了改進(jìn),根據(jù)用戶模式自動獲取用戶評價,構(gòu)建評價矩陣[8]。用戶對一個頁面的評價值由用戶頁面訪問次數(shù)、頁面相對時長、訪問新鮮程度和頁面重視程度多個因素決定,這些因素由定義2-5分別表示。這些因素都可以根據(jù)帶有時長的用戶模式來計算得出。用戶對一個頁面的評價值由定義6表示,評價矩陣的由定義7表示。評價矩陣是由多個評價值組成,而評價值是根據(jù)帶有時長的用戶模式計算獲得。因此不需要人為地進(jìn)行評價,實現(xiàn)了評價矩陣的自動獲取。定義2:一個用戶u訪問一個頁面WP的次數(shù)C(u,WP)定義為:在一個固定的時間段N內(nèi),一個用戶訪問頁面WP的次數(shù)。定義3:一個用戶u訪問一個頁面WP的頁面相對時長TL(u,WP)用公式(1)表示。定義7:評價矩陣是各個用戶對所有頁面的p×q二維矩陣,其中p為用戶數(shù),q為所有頁面的數(shù)量;每個列表示多個用戶對一個頁面的評價值,每個行表示一個用戶對所有頁面的評價值,每個行列交叉的評價值為一個用戶對特定頁面的評價值。如果一個用戶沒有訪問某個頁面WP,則該用戶對WP的評價值為0。3.2.2計算用戶間的相似度對于評價矩陣它的每一個列為多個用戶對一個頁面的評價(共q個頁面),它的每一行為一個用戶對所有頁面的評價(共有p個用戶),那么用戶a和用戶u的相似度s(u,a)采用Pearson相關(guān)性系數(shù)來計算,用公式(5)表示。3.2.3選擇相似用戶當(dāng)計算出一個用戶與其他所有用戶的相似度后,選擇一些具有較大相似度的用戶作為該用戶的相似用戶。常用的選擇相似用戶的方法有兩種:①閾值法:設(shè)置一個用戶相似度閾值τ,選擇與一個用戶的相似度大于或等于τ的用戶作為相似用戶。設(shè)置高的閾值,將得到相似度較大的相似用戶,但是也往往導(dǎo)致相似用戶很少或沒有,不利于協(xié)作推薦。②最優(yōu)k個相似法:從大到小選擇k個與用戶相似度較大的用戶作為相似用戶。如果k值選擇過大,會造成某些相似用戶與該用戶的相似度過小,降低協(xié)作推薦的準(zhǔn)確度。本文采用閾值可調(diào)的閾值法或k值可調(diào)的最優(yōu)k個相似法來選擇相似用戶,以便得到較為準(zhǔn)確的相似用戶。4在線推薦[9]要進(jìn)行在線推薦,首先需要監(jiān)聽當(dāng)前用戶訪問操作序列,通常采用URL重寫、暫存Web服務(wù)器的日志文件等方法來進(jìn)行監(jiān)聽,獲取當(dāng)前用戶訪問操作序列。在收集到當(dāng)前用戶訪問操作序列以后,需要評估相似用戶訪問過的所有頁面,選擇適合的頁面作為推薦項。評估候選頁面需要考慮三個因素:①當(dāng)前用戶與候選頁面對應(yīng)用戶的相似度。它反映了當(dāng)前用戶和其他用戶的相似程度,是進(jìn)行協(xié)作推薦的最重要因素,相似度越大越應(yīng)該優(yōu)先考慮。根據(jù)離線處理部分得到了用戶間的相似度,就可直接獲取當(dāng)前用戶與候選頁面對應(yīng)用戶的相似度。②相似用戶對候選頁面的評價值。它反映了相似用戶對候選頁面的評價情況,由用戶頁面訪問次數(shù)、頁面相對時長、訪問新鮮程度和頁面重視程度多個因素決定,是進(jìn)行協(xié)作推薦的重要因素,評價值越大越應(yīng)該優(yōu)先考慮。根據(jù)離線處理得到了評價矩陣,就可直接獲取相似用戶對候選頁面的評價值。③候選頁面與當(dāng)前用戶訪問操作序列的物理距離。從新穎性的角度看,推薦一個物理鏈接上遠(yuǎn)離當(dāng)前用戶訪問操作序列的頁面是優(yōu)先考慮的對象,論文定義鏈接距離因子表示這種選擇策略。定義8:鏈接距離因子:給定頁面拓?fù)溆邢驁DG=(V,E),設(shè)r為當(dāng)前用戶訪問操作序列,vr為當(dāng)前的一個候選頁面;d(v,r,G)表示v到r中的URL之間最小物理鏈接路徑距離,v關(guān)于r鏈接距離因子計算公式為:設(shè)u為當(dāng)前訪問用戶,r為當(dāng)前用戶訪問操作序列,a為u的一個相似用戶,vr為a訪問過的一個候選頁面,根據(jù)評估候選頁面需要考慮的三個因素,候選頁面v的推薦值計算公式如下:如果v屬于當(dāng)前用戶訪問操作序列,則鏈接距離因子為0,因而其推薦值也為0。設(shè)定最小推薦值閾值δ,對所有候選頁面都計算推薦值,將大于或等于δ的候選頁面作為推薦項,由所有推薦項構(gòu)成的集合稱為推薦集。推薦集由下式表示:在線推薦的完整算法如下所示,該算法采用閾值法確定相似用戶。在線推薦的完整算法:輸入:當(dāng)前用戶u的訪問操作序列r,用戶u和其他用戶a的相似度s(u,a),用戶a對訪問過的候選頁面v的評價值E(a,v),最小推薦值閾值δ,用戶相似度閾值τ;輸出:推薦集Recommend(u,r)。5實驗結(jié)果與分析實驗的平臺是DELL服務(wù)器,其配置為P42.4G,內(nèi)存512M,Windows2000Server操作系統(tǒng),SQLServer2000數(shù)據(jù)庫管理系統(tǒng)。編程工具是C++Builder5.5。實驗數(shù)據(jù)取自建立站點(diǎn)的訪問Log文件,總的數(shù)據(jù)量是一個月的訪問記錄。經(jīng)過預(yù)處理,獲得大約800個用戶模式。實驗的評價標(biāo)準(zhǔn):從表1可以看出:設(shè)置各種參數(shù)得到的精度值都較小,而閾值為0.3時精度值最小,相對最好。這說明WIIRM給出的預(yù)測值與用戶的實際評價值相差不大,WIlRM采用的選擇相似用戶方法是有效的。對在線推薦算法進(jìn)行實驗,得到的結(jié)果如圖2所示。圖2在線推薦算法的實驗從圖2可以看出:隨著推薦過程的深入,推薦集的頁面數(shù)沒有減少,反而稍微增加。推薦集頁面數(shù)的增加意味著推薦范圍的拓寬,增加了用戶選擇新信息的可能性。這說明WIIRM給出的在線
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鈾礦開采石方施工協(xié)議
- 建筑制冷承攬施工合同
- 臨時展覽LED屏幕租賃合同
- 文化傳媒合同專用章管理指南
- 船舶電氣系統(tǒng)安裝合同
- 影劇院隔墻施工合同
- 挖掘機(jī)跨國作業(yè)合同范本
- 車禍病人出院協(xié)議書(2篇)
- 土地違約解除合同通知書
- 集合資產(chǎn)管理計劃資產(chǎn)管理合同審查要點(diǎn)
- 部編 2024版歷史七年級上冊期末(全冊)復(fù)習(xí)卷(后附答案及解析)
- 陶藝課程課件
- 王卓 企業(yè)數(shù)智化能力成熟度模型(EDMM)標(biāo)準(zhǔn)體系解讀
- 某某有限公司重大危險源安全評估報告(定稿)
- 電梯日管控、周排查、月調(diào)度制度及管控清單
- 租車位安裝充電樁合同模板
- 蘋果電腦macOS效率手冊
- 老媽是個菜販子(2022年海南中考語文試卷記敘文閱讀題及答案)
- 廠房轉(zhuǎn)租三方協(xié)議合同協(xié)議書
- 水務(wù)產(chǎn)業(yè)技術(shù)標(biāo)準(zhǔn)化
- 人教版二年級語文上冊期末考試卷及答案下載
評論
0/150
提交評論