個性化推薦服務(wù)中用戶興趣模型研究_第1頁
個性化推薦服務(wù)中用戶興趣模型研究_第2頁
個性化推薦服務(wù)中用戶興趣模型研究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、本性化保舉辦事中用戶愛好模子研究摘要本文提出了一種利用用戶欣賞頁面集的內(nèi)容信息和欣賞舉動信息,隱式地創(chuàng)立用戶愛好形貌文件的要領(lǐng)。通過對用戶欣賞的eb頁面舉行愛好度闡發(fā),并與對用戶欣賞網(wǎng)頁時的欣賞舉動闡發(fā)相合,得到了用特性矩陣表現(xiàn)的用戶愛好模子。并接納條理聚類算法和k-eans聚類算法相結(jié)合的綜合聚類算法舉行聚類,得到用愛好分類樹表現(xiàn)的用戶愛好模子。由于接納的是隱式創(chuàng)立用戶形貌文件的要領(lǐng),淘汰了因用戶參于而帶來的體系噪聲,包管了所創(chuàng)立的用戶愛好模子的正確性。關(guān)鍵詞用戶愛好模子;欣賞內(nèi)容;欣賞舉動;愛好分類樹人們正在尋求一種將用戶感愛好的信息自動保舉給用戶,對差異的用戶提供差異的辦事計謀和辦事內(nèi)容

2、的辦事形式,即本性化辦事的信息方法。用戶愛好模子是本性化辦事體系的關(guān)鍵部門,用戶愛好形貌的正確與否直接決定著本性化保舉辦事的質(zhì)量優(yōu)劣。本文提出了一種利用用戶欣賞頁面集的內(nèi)容信息和欣賞舉動信息,隱式地創(chuàng)立用戶愛好形貌文件的要領(lǐng)。該要領(lǐng)以用戶欣賞eb頁面的內(nèi)容信息和舉動信息作為數(shù)據(jù)源,接納eb開掘要領(lǐng)闡發(fā)得到較正確的用戶愛好形貌,淘汰了由于用戶到場而帶來的體系噪聲,包管了所創(chuàng)立的用戶愛好模子的正確性。1基于eb欣賞內(nèi)容和舉動闡發(fā)相結(jié)合的用戶愛好模子整個用戶愛好模子的創(chuàng)立歷程包羅eb欣賞內(nèi)容闡發(fā)和eb欣賞舉動闡發(fā)兩部門,流程圖如圖1所示。圖1用戶愛好模子創(chuàng)立流程圖eb欣賞內(nèi)容闡發(fā),就是接納eb聚類闡

3、發(fā)要領(lǐng)對用戶已欣賞的eb頁面集舉行內(nèi)容聚類,得到用戶感愛好的頁面集;eb欣賞舉動闡發(fā)是對用戶欣賞頁面時的舉動信息舉行闡發(fā),得到用戶對單一頁面的愛好濃度。將二者相結(jié)合,就得到了用戶感愛好的主題種別及對每類主題的愛好度,即用愛好分類樹表現(xiàn)的用戶愛好模子2基于eb欣賞內(nèi)容的用戶愛好闡發(fā)本文中用戶愛好模子形貌所基于的eb欣賞內(nèi)容是指用戶欣賞頁面的內(nèi)容信息,它被用于基于內(nèi)容的聚類闡發(fā)。這些頁面的內(nèi)容信息重要泉源于eb辦事器端,起首按照用戶的欣賞日記記載,得到單一用戶的欣賞汗青頁面url,然后從數(shù)據(jù)庫辦事器中取出這些url對應(yīng)的eb頁面,作為對欣賞內(nèi)容愛好形貌的數(shù)據(jù)源。2.1對欣賞網(wǎng)頁信息的數(shù)據(jù)預(yù)處置懲罰

4、與數(shù)據(jù)庫中的布局化數(shù)據(jù)比擬,eb文檔具有有限的布局,縱然具有一些布局,也是側(cè)重于格式而非文檔內(nèi)容。別的,文檔的內(nèi)容是人類所利用的天然語言,盤算機很難處置懲罰其語義。eb文本信息源的這些特別性使得現(xiàn)有的數(shù)據(jù)開掘技能無法直策應(yīng)用于其上。這就必要對文本舉行預(yù)處置懲罰,抽代替表其特性的元數(shù)據(jù),作為文檔的中心表現(xiàn)情勢。比年來應(yīng)用較多且結(jié)果較好的特性表現(xiàn)法是向量空間模子(vetrspaedelvs)法。在vs中,將文本文檔當(dāng)作由一組詞條組成,對付每一詞條,按照其在文章中的緊張程度給予必然的權(quán)重。因此,全部用于開掘的頁面文檔都可以用詞條特性矢量表現(xiàn)。要將文本表現(xiàn)為向量空間中的一個向量,就先要將文天職詞,由這

5、些特性詞作為向量的維數(shù)來表現(xiàn)文本,最初的向量表現(xiàn)完美是0、l情勢,即,假設(shè)文本中出現(xiàn)了該詞,那么文本向量的該維為l,不然為0。這類要領(lǐng)無法表現(xiàn)這個詞在文本中的作用程度,以是0、l漸漸被更正確的詞頻代替,詞頻分為絕對詞頻和相對詞頻。絕對詞頻,縱然用詞在文本中的出現(xiàn)頻率表現(xiàn)文本;相對詞頻為規(guī)一化的詞頻,其盤算要領(lǐng)重要運用tf-idf公式,如今存在多種tf-idf公式,我們可接納一種比力普及的tf-ldf公式:我們把用于開掘的頁面文檔作為一個文檔聚集。如許對付文檔聚集d=中的任一文檔,接納向量空間模子表現(xiàn)為:=此中為文檔特性向量的個數(shù),為文檔的第i個特性向量,為文檔中的權(quán)值。2.2頁面相似度函數(shù)接納

6、向量空間模子表現(xiàn)的數(shù)據(jù),必需選擇盤算兩個特性矢量之間相似性的相似度函數(shù)。如今常用的要擁有歐幾里德間隔、曼哈坦間隔和夾角余弦函數(shù)。我們在這里接納夾角余弦函數(shù)。但是在盤算時大概會碰到用于比力的兩個特性矢量長度不一樣,我們可以接納添零補齊的要領(lǐng)使兩者長度同等。夾角余弦函數(shù)如下:此中,x,y表現(xiàn)頁面x與y的相似度,與表現(xiàn)x與y對應(yīng)的特性詞的權(quán)值。頁面x與y值越相似,x,y值越大;反之那么越校3基于欣賞舉動的用戶愛好闡發(fā)研究表白,用戶許多欣賞舉動都能很好地反響用戶的愛好。文獻6指出用戶的許多行動都能表現(xiàn)用戶的愛好,如查詢、欣賞頁面和文章、標(biāo)識表記標(biāo)幟書簽、反響信息、點擊鼠標(biāo)、拖動轉(zhuǎn)動條、進步、退卻等。文

7、獻7的研究指出用戶拜候時的停頓時問、拜候次數(shù)、保存、編纂、修改等行動可以或許展現(xiàn)用戶愛好。這些舉動畢竟怎樣反響用戶的愛好,我們必要對其舉行量化估算。3.1欣賞舉動的分類從外貌上看能展現(xiàn)用戶對網(wǎng)頁p愛好度dp的欣賞舉動許多,但我們闡發(fā)創(chuàng)造,起關(guān)鍵作用的是兩種舉動:在網(wǎng)頁p上的欣賞時間tp簡稱t舉動和翻頁/拉動轉(zhuǎn)動條的次數(shù)vp簡稱v舉動。緣故原由有三:1查詢、編纂、修改等舉動肯定增長網(wǎng)頁欣賞時間和翻頁次數(shù),因此可以或許通事后者間接的得到反響。2實行了保存、標(biāo)識表記標(biāo)幟書簽等行動的頁面,假設(shè)真為用戶體貼,通常以后會被屢次調(diào)出來重新欣賞,故可表現(xiàn)為拜候次數(shù)。3點擊鼠標(biāo)行動不被思量,由于簡樸行動不克不及有效展現(xiàn)用戶愛好。3.2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論