




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、本科生畢業(yè)論文(設(shè)計(jì)) 題 目: 電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究 學(xué) 系: 信息科學(xué)系 專 業(yè): 計(jì)算機(jī)科學(xué)與技術(shù) 學(xué)生姓名: 學(xué) 號: 指導(dǎo)教師: (職 稱) 二一 年 四 月表一 本科畢業(yè)論文(設(shè)計(jì))開題報(bào)告論文(設(shè)計(jì))題目:電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究(簡述選題的目的、思路、方法、相關(guān)支持條件及進(jìn)度安排等)目的: 隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,電子商務(wù)系統(tǒng)在為用戶提供越來越多選擇的同時(shí),其結(jié)構(gòu)也變得更加復(fù)雜,用戶經(jīng)常會迷失在大量的商品信息空間中,無法順利找到自己需要的商品。電子商務(wù)推薦系統(tǒng)(Recommender System)直接與用戶交互,模擬商店銷售人員向用戶提供商品推薦,幫助用
2、戶找到他們真正所需購買的商品。近年來雖然電子商務(wù)推薦系統(tǒng)在理論和實(shí)踐中都得到了很大的發(fā)展,然而電子商務(wù)推薦系統(tǒng)仍面臨著一系列挑戰(zhàn)。針對電子商務(wù)推薦系統(tǒng)目前所面臨的主要問題,本文對電子商務(wù)推薦系統(tǒng)中推薦算法和推薦系統(tǒng)體系結(jié)構(gòu)等關(guān)鍵技術(shù)進(jìn)行探討。思路: 首先,了解課題的研究背景、研究意思以及課題的國內(nèi)外現(xiàn)狀;其次,查找相關(guān)資料,以明確電子商務(wù)推薦系統(tǒng)的基本定義、推薦系統(tǒng)體系結(jié)構(gòu)、推薦系統(tǒng)相關(guān)技術(shù)和其基礎(chǔ)理論;最后,深入了解電子商務(wù)推薦系統(tǒng)中關(guān)鍵技術(shù)的推薦算法,如關(guān)聯(lián)規(guī)則推薦算法和協(xié)同過濾推薦算法,并了解評價(jià)推薦系統(tǒng)兩個重要要素。方法:通過閱讀大量的與電子商務(wù)推薦系統(tǒng)或電子商務(wù)推薦算法相關(guān)的論文、期
3、刊、書籍,充實(shí)其實(shí)對這領(lǐng)域的了解和認(rèn)識,最后通過自身對其的認(rèn)識完成論文。相關(guān)支持條件: 在圖書館查詢相關(guān)資料,同時(shí)利用校園網(wǎng)提供的各種網(wǎng)絡(luò)數(shù)據(jù)庫資源以及利用Google學(xué)術(shù)搜索引擎等進(jìn)行論文檢索。進(jìn)步安排:第一階段(10月12月):收集大量資料,準(zhǔn)備論文所需材料;第二階段(1月2月):撰寫論文,并完成論文體系結(jié)構(gòu);第三階段(3月4月):歸納總結(jié),修改并完善論文。學(xué)生簽名:梁銳彪 2009 年 11 月 15 日指導(dǎo)教師意見: 1、同意開題( ) 2、修改后開題( ) 3、重新開題( ) 指導(dǎo)教師簽名: 年 月 日表二 本科畢業(yè)論文(設(shè)計(jì))過程檢查情況記錄表指導(dǎo)教師分階段檢查論文的進(jìn)展情況(要求
4、過程檢查記錄不少于3次):第1次檢查學(xué)生總結(jié):開始撰寫論文,整體思路大致已經(jīng)完成。指導(dǎo)教師意見:第2次檢查學(xué)生總結(jié):論文體系結(jié)構(gòu)重新調(diào)整,思路進(jìn)一步完善。指導(dǎo)教師意見:第3次檢查學(xué)生總結(jié):論文內(nèi)容進(jìn)行部分調(diào)整,刪除冗余章節(jié),增強(qiáng)論文排版規(guī)范,并增加實(shí)際性較強(qiáng)的內(nèi)容,使論文整體上得到了進(jìn)一步的充實(shí)和規(guī)范。指導(dǎo)教師意見:第4次檢查學(xué)生總結(jié):指導(dǎo)教師意見: 學(xué)生簽名: 年 月 日指導(dǎo)教師簽名: 年 月 日總體完成情況指導(dǎo)教師意見:1、按計(jì)劃完成,完成情況優(yōu)( )2、按計(jì)劃完成,完成情況良( )3、按計(jì)劃完成,完成情況中等( )4、基本按計(jì)劃完成,完成情況及格( )5、完成情況不及格( )指導(dǎo)教師簽名
5、: 年 月 日表三 本科畢業(yè)論文(設(shè)計(jì))成績評定表(試行)學(xué)生姓名學(xué)號專業(yè)成績優(yōu) 秀 良 好 中 等 及 格 不 及 格 比例成績分級(10090分)(8980分) (7970分)(6960分)(60分)選 題 有相當(dāng)強(qiáng)的理論與實(shí)踐意義。選題有比較強(qiáng)的理論與現(xiàn)實(shí)意義。選題有一定的理論或?qū)嵺`意義。選題意義不大但無不妥之處。選題不當(dāng),沒有意義。20%創(chuàng) 新 與 論 證1.用新方法進(jìn)行調(diào)查研究,采用的資料較新,研究結(jié)果有獨(dú)創(chuàng)性。2.論證思路清楚,邏輯性強(qiáng);專業(yè)知識比較扎實(shí);遵守學(xué)術(shù)規(guī)范,研究所得結(jié)論可靠。1.研究方法及視角有一定新意。2.論證思路較清楚,有一定的邏輯性;結(jié)論比較可靠。1.研究方法及視
6、角均無創(chuàng)新,但尚能從他人的觀點(diǎn)中發(fā)現(xiàn)問題。2.論證基本清楚,結(jié)論有一定可靠性。1.研究方法及視角均無創(chuàng)新之處,所得出的結(jié)論無明顯價(jià)值。2.論證不夠嚴(yán)密,超過20%的篇幅表述不清楚。1.研究方法及視角水平均一般,所得出的結(jié)論無價(jià)值。2.論證不嚴(yán)密,超過40%的篇幅表述不清楚。50%寫 作 水 平條理清晰,文字流暢;有豐富的文獻(xiàn)材料、充足的理論依據(jù)和數(shù)據(jù)。條理較為清楚,文字流暢;有文獻(xiàn)材料、充足的理論依據(jù)和數(shù)據(jù)。文字流暢;有一些文獻(xiàn)材料、理論依據(jù)和數(shù)據(jù)。文字尚算流暢;文獻(xiàn)材料、理論依據(jù)和數(shù)據(jù)較少?;靖拍畈磺?、錯別字多;文獻(xiàn)材料、理論依據(jù)和數(shù)據(jù)少。20%格 式 規(guī) 范格式正確,完全符合學(xué)術(shù)規(guī)范及學(xué)
7、院的要求,打印規(guī)范清晰。格式正確,符合學(xué)院論文格式的要求,打印清晰。格式正確,基本符合格式要求,打印規(guī)范清楚,但個別地方有錯漏。格式大部分符合論文格式的要求,并有少量錯漏。格式不符合論文格式要求,打印不清晰,錯漏較多。10%指導(dǎo)教師簽名成績(按百分制評分):表四 優(yōu)秀本科畢業(yè)論文(設(shè)計(jì))答辯情況表答辯人專 業(yè)論文(設(shè)計(jì))題目答辯小組組長成 員答辯記錄:記錄人簽名: 年 月 日表五 優(yōu)秀本科畢業(yè)論文(設(shè)計(jì))答辯成績評定表(試行)學(xué)生姓名學(xué)號專業(yè)論文題目評分項(xiàng)評 優(yōu) 條 件比例成績論文選題有相當(dāng)強(qiáng)的理論與實(shí)踐意義。15%學(xué)術(shù)內(nèi)容中心突出,邏輯嚴(yán)密,表述準(zhǔn)確,有創(chuàng)新性且在實(shí)踐中的指導(dǎo)作用較強(qiáng)。40%
8、寫作水平條理清晰,論證有力,文字流暢;有豐富的文獻(xiàn)材料、充足的理論依據(jù)和數(shù)據(jù)。15%格式規(guī)范格式正確,完全符合學(xué)術(shù)規(guī)范及學(xué)院要求,打印規(guī)范清晰。10%答辯情況答題正確,重點(diǎn)突出,論述全面,緊扣主題,表達(dá)流暢,具有很強(qiáng)的說服力。20%答辯小組成員簽名答辯成績(按百分制成績評分)注:此表用于推薦的優(yōu)秀畢業(yè)論文的答辯成績評定。學(xué)術(shù)誠信聲明本人所呈交的畢業(yè)論文,是在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果,所有數(shù)據(jù)、圖片資料均真實(shí)可靠。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他人或集體已經(jīng)發(fā)表或撰寫過的作品或成果。對本論文的研究作出重要貢獻(xiàn)的個人和集體,均已在文中以明確的方式標(biāo)明。本畢業(yè)論文的
9、知識產(chǎn)權(quán)歸屬于培養(yǎng)單位。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。本人簽名: 日期: 電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究論文摘要隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,人類已進(jìn)入信息社會和網(wǎng)絡(luò)經(jīng)濟(jì)時(shí)代,電子商務(wù)系統(tǒng)在為用戶提供越來越多選擇的同時(shí),其結(jié)構(gòu)也變得更加復(fù)雜,用戶經(jīng)常迷失在大量的商品信息空間中,無法順利找到自己需要的商品。電子商務(wù)推薦系統(tǒng)直接與用戶交互,模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到他們真正需要購買的商品,從而順利完成購買過程。在日趨激烈的競爭環(huán)境下,電子商務(wù)系統(tǒng)能有效保留用戶、防止用戶流失,提高電子商務(wù)系統(tǒng)的銷售。近年來,電子商務(wù)推薦系統(tǒng)在理論和實(shí)踐中都得到了很大發(fā)展,但是隨著
10、電子商務(wù)系統(tǒng)規(guī)模的進(jìn)一步擴(kuò)大,電子商務(wù)推薦系統(tǒng)也面臨一系列挑戰(zhàn)。針對這一系列挑戰(zhàn),本文對電子商務(wù)推薦系統(tǒng)的關(guān)鍵技術(shù)進(jìn)行有益的探討和研究。本文主要的工作包括:首先,對推薦系統(tǒng)的研究背景、研究意思和當(dāng)前推薦系統(tǒng)的國內(nèi)外現(xiàn)狀進(jìn)行系統(tǒng)綜述介紹。其次,對推薦系統(tǒng)的相關(guān)技術(shù)和系統(tǒng)結(jié)構(gòu)進(jìn)行了研究。推薦系統(tǒng)中主要的相關(guān)技術(shù)包括信息過濾、信息檢索、數(shù)據(jù)挖掘技術(shù)和協(xié)同過濾技術(shù)。而對于系統(tǒng)架構(gòu)主要分為輸入、處理和輸出三部分,各個部分都擔(dān)任著推薦系統(tǒng)的重要角色,這方面的分析為后面的工作提供了理論基礎(chǔ)。最后,對推薦算法中兩個關(guān)鍵算法技術(shù)進(jìn)行探討分析,包括關(guān)聯(lián)規(guī)則推薦算法和協(xié)同過濾推薦算法。通過對目前電子商務(wù)推薦算法面臨
11、的主要挑戰(zhàn)提出,希望通過這些研究為后續(xù)新方法的提出給予一些指導(dǎo),并對改善關(guān)鍵技術(shù)的展望。 關(guān)鍵字電子商務(wù);推薦系統(tǒng);數(shù)據(jù)挖掘 AbstractWith the popularization of Internet and development of E-Commerce, human being s have been into information society and the Internet economy era, in the meanwhile E-Commerce System offered more and more choices for the consumers,
12、 the structure of E-Commerce web site became more and more complex. This situation made it hard for consumers to find the products they wanted. To solve this issue, recommendation systems were proposed to suggest products and to provide consumers with information to help them decide which products t
13、o purchase. In the increasingly fierce competitive environment, recommendation systems can enhance E-Commerce sales by converting browsers into buyers, increasing cross-sell and building loyalty to prevent user losing. In recent years, E-Commerce Recommendation System, both in theory and practice ha
14、s been great progress. But with the further expansion of the scale of E-Commerce Systems, E-Commerce Recommendation System also faced a series of challenges. Challenge for this series, this Recommendation System on a key e-commerce technologies useful to explore and study. In this paper, mainly incl
15、ude:Firstly, this article will introduce on the recommendation system in the background, meaning and the current recommendation system systematic review status at home and abroad.Secondly, this article will study the related technologies and system architecture on the recommendation system. These re
16、lated technologies, including information filtering, information retrieval, data mining and collaborative filtering technology. The system architecture consists of input, processing and output, all parts of the recommendation system play important role in recommendation system. And this analysis pro
17、vides a theoretical basis for the work.Finally, this article will study two key algorithm of recommendation algorithm, which are association rules and collaborative filtering recommendation algorithm. Through on the current e-commerce recommendation algorithm presenting major challenges, hopes to pr
18、ovide some of the new method propose guidance to follow up research, and the prospect improving of key technologies.Keywords E-Commerce; Recommendation Systems; Data Mining目 錄第1章 緒論11.1 課題研究背景11.2 課題研究意義21.3 課題研究的國內(nèi)外現(xiàn)狀21.4 本文結(jié)構(gòu)3第2章 電子商務(wù)推薦系統(tǒng)相關(guān)技術(shù)32.1信息檢索和信息過濾32.1.1 信息檢索32.1.2 信息過濾42.2 數(shù)據(jù)挖掘技術(shù)52.2.1 數(shù)據(jù)挖
19、掘過程72.2.2 數(shù)據(jù)挖掘知識分類和數(shù)據(jù)挖掘方法82.2.3 數(shù)據(jù)挖掘與推薦系統(tǒng)92.3 協(xié)同過濾技術(shù)10第3章 電子商務(wù)推薦系統(tǒng)基礎(chǔ)理論133.1 電子商務(wù)推薦系統(tǒng)133.2 電子商務(wù)推薦系統(tǒng)的輸入和輸出143.2.1 電子商務(wù)推薦系統(tǒng)的輸入153.2.2 電子商務(wù)推薦系統(tǒng)的輸出163.3電子商務(wù)推薦系統(tǒng)分類17第4章 電子商務(wù)推薦算法204.1 電子商務(wù)推薦系統(tǒng)算法概述204.2 關(guān)聯(lián)規(guī)則推薦算法214.2.1 關(guān)聯(lián)規(guī)則挖掘224.2.1 關(guān)聯(lián)規(guī)則推薦算法244.3 協(xié)同過濾推薦算法254.3.1 User-based協(xié)同過濾推薦算法254.3.2 Item-based協(xié)同過濾推薦算法2
20、94.4 電子商務(wù)推薦算法面臨的主要挑戰(zhàn)32第5章 推薦系統(tǒng)評價(jià)要素335.1 平均絕對誤差MAE335.2 稀疏度33第6章 結(jié)論與展望34參考文獻(xiàn):35致 謝39第1章 緒論1.1 課題研究背景隨著電子商務(wù)規(guī)模的進(jìn)一步擴(kuò)大,為用戶提供越來越多選擇的同時(shí),其結(jié)構(gòu)也變得更加復(fù)雜。一方面,用戶面對大量的商品信息束手無策,用戶經(jīng)常會迷失在大量的商品信息空間中,無法順利找到自己需要的商品;另一方面,商家也失去了與消費(fèi)者的聯(lián)系。隨著電子商務(wù)應(yīng)用的領(lǐng)域越來越廣,對電子商務(wù)研究越來越深入,人工智能、Web技術(shù)與商業(yè)模型的集成研究逐步得到了重視。其中在B2C方面,推薦系統(tǒng)(Recommender Syste
21、m)成為研究和應(yīng)用的一個重點(diǎn)。在海量的商品信息中,推薦系統(tǒng)模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而順利完成購買過程,因此可以有效保留用戶,提高電子商務(wù)系統(tǒng)的銷售;商家也可以通過推薦系統(tǒng)保持與客戶的聯(lián)系,重建客戶關(guān)鍵。一方面,電子商務(wù)系統(tǒng)需要推薦系統(tǒng)的大力支持幫助用戶找到所需商品;另一方面,電子商務(wù)系統(tǒng)自身的特點(diǎn)也有利于推薦系統(tǒng)的順利實(shí)施。主要原因包括1:1)豐富的數(shù)據(jù):電子商務(wù)環(huán)境收集的各種數(shù)據(jù)比較豐富,如用戶注冊數(shù)據(jù)、用戶交易數(shù)據(jù)、用戶評分?jǐn)?shù)據(jù)、用戶購物籃信息、用戶瀏覽數(shù)據(jù)等。豐富的數(shù)據(jù)為建立多種推薦模型,產(chǎn)生高質(zhì)量的推薦提供了可能。2)電子化的數(shù)據(jù)收集:電子商務(wù)環(huán)境中
22、的各種數(shù)據(jù)通過電子化方式收集,減少了手工方式收集數(shù)據(jù)可能出現(xiàn)的人工誤差,噪音數(shù)據(jù)大大減少,各種數(shù)據(jù)的可信度比較高,數(shù)據(jù)預(yù)處理比較簡單。3)易于對推薦效果進(jìn)行評估:在電子商務(wù)中實(shí)施推薦系統(tǒng)的投資回報(bào)率易于通過電子商務(wù)Web站點(diǎn)訪問量的增加、電子商務(wù)系統(tǒng)銷售額的增加等指標(biāo)直接進(jìn)行評估。推薦系統(tǒng)具有良好的發(fā)展方向和應(yīng)用前景。推薦系統(tǒng)在幫助了客戶的同時(shí)也提高了顧客對商務(wù)活動的滿意度,換來對商務(wù)網(wǎng)站的進(jìn)一步支持。因此,近年來推薦系統(tǒng)在電子商務(wù)的應(yīng)用越來越多,幾乎所有大型的電子商務(wù)系統(tǒng),如Amazon、eBay、當(dāng)當(dāng)網(wǎng)等,都不同程度的使用了各種形式的推薦系統(tǒng)。各種提供個性化服務(wù)的Web站點(diǎn)也需要推薦系統(tǒng)的
23、大力支持。在日趨激烈的競爭環(huán)境下,電子商務(wù)推薦系統(tǒng)能有效保留用戶,提高電子商務(wù)系統(tǒng)的銷售。成功的電子商務(wù)推薦系統(tǒng)會產(chǎn)生巨大的經(jīng)濟(jì)效益。電子商務(wù)推薦系統(tǒng)在理論和實(shí)踐中都得到了很大發(fā)展。但是隨著電子商務(wù)系統(tǒng)的進(jìn)一步發(fā)展,電子商務(wù)推薦系統(tǒng)也面臨一系列挑戰(zhàn)。針對電子商務(wù)推薦系統(tǒng)面臨的主要挑戰(zhàn),本文將對電子商務(wù)推薦系統(tǒng)中的核心技術(shù)進(jìn)行了有益的探索和研究。1.2 課題研究意義推薦算法是推薦系統(tǒng)的核心,良好的推薦算法能夠及時(shí)準(zhǔn)確地計(jì)算出符合用戶需求的商品,為客戶提供良好的購物體驗(yàn)。本文對目前應(yīng)用最廣泛的協(xié)同過濾推薦算法進(jìn)行研究,并嘗試對其進(jìn)行改進(jìn),使推薦結(jié)果的實(shí)時(shí)性更好,推薦質(zhì)量更高。靈活智能的推薦系統(tǒng)能夠
24、根據(jù)不同的推薦策略進(jìn)行推薦,滿足客戶不同的需要。本文對目前電子商務(wù)推薦系統(tǒng)的體系結(jié)構(gòu)進(jìn)行了研究,提出的基于Multi-Agent的柔性電子商務(wù)推薦系統(tǒng),使推薦系統(tǒng)更加智能、自動和靈活。論文研究具有重要的理論意義和廣闊的應(yīng)用前景。1.3 課題研究的國內(nèi)外現(xiàn)狀隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,推薦系統(tǒng)逐漸成為電子商務(wù)IT技術(shù)的一個重要研究內(nèi)容,得到了越來越多研究者的關(guān)注。美國計(jì)算機(jī)學(xué)會ACM從1999年開始每年召開一次電子商務(wù)的研討會,其中關(guān)于電子商務(wù)推薦系統(tǒng)的研究文章占據(jù)了很大比重。從1999年開始此協(xié)會的數(shù)據(jù)挖掘特別興趣組SIGKDD小組設(shè)立WEBKDD討論組,主題集中在電子商務(wù)中的WEB挖掘
25、技術(shù)和推薦系統(tǒng)技術(shù),而ACM下面的信息檢索特別興趣組SIGIR在召開的第24屆研究和發(fā)展會議上,開始專門把推薦系統(tǒng)作為一個討論主題。第7屆國際人工智能聯(lián)合會議IJCAI01則把E-Business & the Intelligent Web作為一個獨(dú)立的研討小組。99年召開的人機(jī)界面會議CHI99專門設(shè)立推薦系統(tǒng)特別興趣組。同時(shí),第十五屆人工智能會議AAAI-98、第一屆知識管理應(yīng)用會議PAKM、96年協(xié)同工作會議CSCW96等也紛紛開始將電子商務(wù)推薦系統(tǒng)作為研究主題。經(jīng)過多年的努力,國內(nèi)外在電子商務(wù)推薦技術(shù)和系統(tǒng)的研究方面已取得較多的理論和應(yīng)用成果。1.4 本文結(jié)構(gòu)第一章探討了電子商務(wù)推薦系
26、統(tǒng)提出的背景及其研究意義,介紹了推薦系統(tǒng)的研究現(xiàn)狀,給出本論文的整體組織結(jié)構(gòu)。第二章介紹了電子商務(wù)推薦系統(tǒng)相關(guān)的技術(shù),探討信息檢索、信息過濾、數(shù)據(jù)挖掘技術(shù)以及協(xié)同過濾等相關(guān)技術(shù)。第三章探討了電子商務(wù)推薦系統(tǒng)的基礎(chǔ)理論,包括其定義、系統(tǒng)的輸入和輸出、分類、目前采用的各種推薦策略和相關(guān)實(shí)例。第四章分析了電子商務(wù)推薦算法在整個推薦系統(tǒng)中的重要地位,給出了電子商務(wù)推薦算法的分類原則及其分類,然后對關(guān)聯(lián)規(guī)則推薦算法和協(xié)同過濾推薦這兩種關(guān)鍵的電子商務(wù)推薦算法進(jìn)行了深入介紹。在協(xié)同過濾算法中,首先對協(xié)同過濾算法所使用的用戶數(shù)據(jù)的收集做了簡要的描述,然后詳細(xì)介紹了User-based協(xié)同過濾算法,Item-b
27、ased協(xié)同過濾算法。第五章闡述了評價(jià)推薦系統(tǒng)的兩個重要因素,包括平均絕對值誤差MAE和稀疏度。第六章總結(jié)全文,并提出對電子商務(wù)推薦系統(tǒng)中關(guān)鍵技術(shù)的展望。第2章 電子商務(wù)推薦系統(tǒng)相關(guān)技術(shù)2.1信息檢索和信息過濾推薦系統(tǒng)的關(guān)鍵技術(shù)主要包括信息檢索(IR,Information Retrieval)技術(shù)和信息過濾(IF,Information Filtering)技術(shù)。 信息檢索是在靜態(tài)信息源中搜索用戶短期的信息需求的過程;而信息過濾是對動態(tài)信息進(jìn)行篩選,著重排除不希望得到的信息,帶有即時(shí)性。雖然實(shí)現(xiàn)技術(shù)及其相似,但兩者所完成任務(wù)完全不同41。2.1.1 信息檢索信息檢索技術(shù)一般是指根據(jù)用戶需求,
28、從大規(guī)模的相對靜止的數(shù)據(jù)庫中檢索用戶需要的信息,主要滿足用戶瞬時(shí)的信息需求。信息檢索技術(shù)主要用于相對靜止的信息存儲領(lǐng)域。例如,當(dāng)用戶在數(shù)字圖書館中進(jìn)行檢索時(shí),用戶提交關(guān)鍵字反映了用戶當(dāng)前的信息需求,數(shù)字圖書館中的搜索引擎根據(jù)預(yù)先建立好的內(nèi)容檢索,檢索出用戶需要的信息。信息檢索的研究內(nèi)容主要包括索引技術(shù)和查詢技術(shù)。索引技術(shù)是對資源內(nèi)容進(jìn)行分析,從而將資源內(nèi)容表示為計(jì)算機(jī)可處理的數(shù)據(jù)結(jié)構(gòu)的過程。查詢技術(shù)根據(jù)用戶需求,查詢用戶需要的資源信息。其研究內(nèi)容主要包括查詢語言設(shè)計(jì)研究、可視化查詢接口研究、用戶請求與資源信息的匹配研究等。在很多情況下,索引技術(shù)與查詢技術(shù)是重疊的,查詢技術(shù)依賴資源信息所采用的索
29、引結(jié)構(gòu)。信息檢索系統(tǒng)的界面主要包括兩種形式。傳統(tǒng)的信息檢索系統(tǒng)主要使用關(guān)鍵字查詢接口,用戶根據(jù)自己的信息需求輸入一到兩個關(guān)鍵字,信息檢索系統(tǒng)根據(jù)用戶提交的關(guān)鍵字進(jìn)行查詢,然后向用戶返回檢索結(jié)果。目前,越來越多的信息檢索系統(tǒng)提供動態(tài)查詢接口。信息檢索系統(tǒng)動態(tài)查詢接口向用戶提供一系列的信息主題供用戶選擇,然后根據(jù)用戶的選擇向用戶提供下一層的信息主題,這樣一直進(jìn)行下去,直到用戶檢索到自己需要的信息為止。這種不斷與用戶進(jìn)行交互的動態(tài)查詢接口使得用戶能更容易的檢索到所需信息。信息檢索技術(shù)是實(shí)現(xiàn)推薦系統(tǒng)的關(guān)鍵技術(shù)。推薦系統(tǒng)根據(jù)用戶需求,搜索產(chǎn)品類別數(shù)據(jù)庫,然后返回用戶需要的信息。其搜索過程可以實(shí)時(shí)進(jìn)行,也
30、可以定期周期執(zhí)行。同時(shí),推薦系統(tǒng)提供的推薦界面既可以基于傳統(tǒng)的關(guān)鍵字查詢,也可以基于動態(tài)查詢接口。前者的例子如A中的關(guān)鍵字查詢,后者的例子如中的Advisor推薦。2.1.2 信息過濾信息過濾技術(shù)一般用戶用戶需求相對不變,但信息動態(tài)呢更新比較頻繁的情況。信息過濾系統(tǒng)主要面對的是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),它為用戶的長期信息需求提供信息過濾服務(wù)1。用戶的興趣模型可用用戶檔案文件的形式表示。信息過濾系統(tǒng)將動態(tài)信息與用戶檔案文件進(jìn)行匹配,根據(jù)匹配結(jié)果返回用戶需要的信息。信息過濾與信息檢索的區(qū)別主要包括:1)信息過濾面向用戶長期的信息需求,而信息檢索技術(shù)面向的是用戶短期的、實(shí)時(shí)的查詢。2)信息過濾用檔案
31、文件表示用戶的信息需求特征,而信息檢索技術(shù)是用關(guān)鍵詞表達(dá)用戶的查詢請求。3)信息過濾中用戶需求相對不便,但用戶訪問的是動態(tài)數(shù)據(jù)流,是從動態(tài)數(shù)據(jù)流中選擇數(shù)據(jù);信息檢索技術(shù)訪問是相對靜止的數(shù)據(jù),但用戶需求卻具有瞬時(shí)性。表2-1 信息檢索和信息過濾的區(qū)別信息檢索信息過濾信息源相對靜態(tài)的結(jié)構(gòu)化數(shù)據(jù)動態(tài)的無結(jié)構(gòu)或半結(jié)構(gòu)數(shù)據(jù)需求表示檢索詞興趣模板目標(biāo)選擇相關(guān)信息過濾掉不相關(guān)的信息用戶特點(diǎn)大范圍多用戶的短期使用小范圍少用戶的長期使用郵件系統(tǒng)信息過濾和新聞組信息服務(wù)是信息過濾技術(shù)的典型應(yīng)用。在新聞組信息服務(wù)中,用戶輸入自己感興趣的一組關(guān)鍵詞,新聞組信息服務(wù)通過關(guān)鍵詞建立用戶檔案。當(dāng)新聞組中加入新信息時(shí),信息過
32、濾系統(tǒng)對新信息進(jìn)行過濾,將滿足用戶需求的新信息反饋給用戶。新聞組信息服務(wù)也可以分析用戶訂閱的信息自動抽取關(guān)鍵詞,簡歷用戶檔案,然后通過信息過濾系統(tǒng)將用戶感興趣的新信息反饋給用戶。信息過濾技術(shù)也是實(shí)現(xiàn)推薦系統(tǒng)的關(guān)鍵技術(shù)。例如,A提供的Eyes推薦就是一個典型的基于關(guān)鍵詞檢索的信息過濾系統(tǒng)。用戶輸入基于作者、標(biāo)題、主題、ISBN和出版日期的關(guān)鍵詞,Eyes推薦根據(jù)用戶輸入的關(guān)鍵詞,建立用戶檔案。當(dāng)產(chǎn)品目錄中加入新書時(shí),Eyes推薦根據(jù)用戶輸入的關(guān)鍵詞和新書提供的相關(guān)信息,選擇用戶感興趣的新書作為推薦結(jié)果,通過E-Mail的方式推薦給用戶。2.2 數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘(DataMining),也叫數(shù)
33、據(jù)庫發(fā)現(xiàn)知識(KDD, Knowledge Discovery in Database),就是從數(shù)據(jù)庫中提取隱含的、先前未知的、潛在有用的知識或信息模式的決策支持方法。數(shù)據(jù)挖掘是20世紀(jì)90年代初針對“數(shù)據(jù)爆炸,知識貧乏”這一問題而出現(xiàn)的一種新技術(shù),是處理海量信息的有效手段。同傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)相比,數(shù)據(jù)挖掘的主要特點(diǎn)是系統(tǒng)的主動性。傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)具有確切性,是正向思維,即首先由用戶設(shè)定一個前提,然后證實(shí)或否定它,是用戶發(fā)揮主動性;而數(shù)據(jù)挖掘技術(shù)具有探索性,是一種逆向思維,即由系統(tǒng)發(fā)現(xiàn)一合適的前提,再證實(shí)或否定,是系統(tǒng)在發(fā)揮主動性。自從KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國家聯(lián)
34、合人工智能學(xué)術(shù)會議上。1995年在加拿大蒙特利爾市召開的第一屆KDD國際學(xué)術(shù)會議。隨著研究的深入,數(shù)據(jù)挖掘技術(shù)研究組建成為計(jì)算機(jī)領(lǐng)域的一個熱門課題,得到了越來越多研究者的關(guān)注。許多數(shù)據(jù)挖掘?qū)n}會議紛紛涌現(xiàn),如PAKDD,PKDD,DLSM-DataMing等。目前,數(shù)據(jù)挖掘技術(shù)在理論和應(yīng)用上都已經(jīng)得到了巨大的發(fā)展。數(shù)據(jù)挖掘能夠從關(guān)系數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù)、時(shí)間序列、空間數(shù)據(jù)、異質(zhì)數(shù)據(jù)等多種數(shù)據(jù)源中挖掘知識。數(shù)據(jù)挖掘采用的技術(shù)包括數(shù)據(jù)庫、數(shù)據(jù)倉庫和OLAP、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化、神經(jīng)元網(wǎng)絡(luò)等不同領(lǐng)域的技術(shù),如圖2.1所示。數(shù)據(jù)挖掘技術(shù)面向應(yīng)用領(lǐng)域,它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,
35、而且,要對數(shù)據(jù)進(jìn)行微觀、中觀、乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指定實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測。數(shù)據(jù)挖掘技術(shù)在金融、保險(xiǎn)、電信、大型超市等積累有大量數(shù)據(jù)的電子商務(wù)行業(yè)有著廣泛的應(yīng)用,如信用分析、風(fēng)險(xiǎn)分析、欺詐檢驗(yàn)、用戶聚類分析、消費(fèi)者習(xí)慣分析等。圖2.1 典型數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)2.2.1 數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用信息,提取的知識表示為概念(concepts)、規(guī)則(rules)規(guī)律(regularities)、模式(patterns)等形式42。從更廣泛的角度來說
36、:數(shù)據(jù)挖掘意味著在一些事實(shí)或者觀察數(shù)據(jù)的集合中尋找模式的決策支持過程。是利用各種工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系即知識的過程,是提高決策科學(xué)性的有利工具。一般來說,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一個過程的工程,一般有三個主要的階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)構(gòu)表達(dá)和解釋。也可以粗略分為:建立目標(biāo)數(shù)據(jù)集、數(shù)據(jù)清理和預(yù)處理、選擇特定的數(shù)據(jù)挖掘算法、結(jié)果的解釋和評估以及知識驗(yàn)證及應(yīng)用等幾個過程。如圖2.2所示。圖2.2 數(shù)據(jù)挖掘基本過程(1)建立目標(biāo)數(shù)據(jù)集確定數(shù)據(jù)對象,清晰地定
37、義出業(yè)務(wù)問題,一方面明確實(shí)際工作對數(shù)據(jù)挖掘的要求,另一方面通過對各種學(xué)習(xí)算法的對比而確定可用的學(xué)習(xí)算法。(2)數(shù)據(jù)清理和預(yù)處理數(shù)據(jù)的質(zhì)量影響著挖掘的結(jié)果,因?yàn)橐M(jìn)行數(shù)據(jù)清理和預(yù)處理。一般包括消除噪聲和無關(guān)數(shù)據(jù)、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、考慮時(shí)間順序,完成數(shù)據(jù)類型轉(zhuǎn)換等。(3)選擇特定的數(shù)據(jù)挖掘算法并執(zhí)行算法首先根據(jù)對問題的定義明確挖掘的任務(wù)或目的,如分類、聚類、關(guān)聯(lián)規(guī)則現(xiàn)或序列模式發(fā)現(xiàn)等。確定挖掘任務(wù)后,進(jìn)行算法的選擇。選擇實(shí)現(xiàn)算法要考慮兩個因素:一是數(shù)據(jù)特點(diǎn)各異,需要用與之相關(guān)的算法來挖掘;二是考慮用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求,有的用戶希望獲取描述型的容易理解的知識,而有的用戶只是獲取預(yù)測
38、準(zhǔn)確度盡可能高的預(yù)測型知識。(4)結(jié)果解釋和評估數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,可能存在冗余或無關(guān)的模式,需要將其剔除。也可能模式不滿足用戶要求,需要整個發(fā)現(xiàn)過程回退到前一個階段。另外,數(shù)據(jù)挖掘是面向最終用戶的,需要對發(fā)現(xiàn)的模式進(jìn)行可視化,或者將結(jié)果轉(zhuǎn)換為用戶易懂的表示方式。(5)知識驗(yàn)證及應(yīng)用將以上步驟挖掘出的知識與運(yùn)行系統(tǒng)結(jié)合,發(fā)揮知識的作用或證明知識,用預(yù)先可信的知識檢查和解決知識中可能存在的矛盾。2.2.2 數(shù)據(jù)挖掘知識分類和數(shù)據(jù)挖掘方法數(shù)據(jù)中隱藏的知識有各種各樣的形式,這些知識實(shí)際上是大量數(shù)據(jù)之間的某種關(guān)系。大致說來,數(shù)據(jù)挖掘中的知識可以分為如下幾類43:1)分類(Classificat
39、ion):將數(shù)據(jù)劃分到事先定義好的類別中去。2)回歸(Regression):將數(shù)據(jù)項(xiàng)映射到若干預(yù)定義的變量上。3)聚類(Clustering):將數(shù)據(jù)劃分到幾個聚類之中去。4)概括(Summarization):為數(shù)據(jù)的一個子集給出一個簡潔的描述。5)依賴性模型(Dependency Modeling):描述變量之間的相互依賴性。6)鏈接分析(Link Analysis):判斷數(shù)據(jù)庫或數(shù)據(jù)倉庫中字段之間存在的關(guān)系。如關(guān)聯(lián)規(guī)則。7)序列分析(Sequence Analysis):構(gòu)造順序模型,發(fā)現(xiàn)數(shù)據(jù)之間在時(shí)間上的相關(guān)性。數(shù)據(jù)挖掘是一個多學(xué)科領(lǐng)域,其采用的技術(shù)來自各個不同的領(lǐng)域,主要的數(shù)據(jù)挖掘
40、方法包括:1)統(tǒng)計(jì)分析方法:利用統(tǒng)計(jì)學(xué)和概率論對關(guān)系中各個屬性進(jìn)行統(tǒng)計(jì)分析,找出它們之間存在的關(guān)聯(lián)。2)人工神經(jīng)網(wǎng)絡(luò):模仿生物神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練進(jìn)行學(xué)習(xí)的非線性預(yù)測模型,可以完成分類,聚類等多種數(shù)據(jù)挖掘任務(wù)。3)決策樹:用樹型結(jié)構(gòu)表示決策集合,決策集合通過對數(shù)據(jù)集分析產(chǎn)生。典型的決策數(shù)方法如分類回歸樹,主要用于分類挖掘。4)遺傳算法:一種新的優(yōu)化技術(shù),基于生物進(jìn)化的概念設(shè)計(jì)了一系列過程來達(dá)到優(yōu)化的目的,包括基因組合,交又,變異和自然選擇。5)粗糙集:粗糙集是一種處理模糊和不確定性問題的新型數(shù)學(xué)工具,粗糙集可以用于數(shù)據(jù)挖掘中的數(shù)據(jù)簡化、關(guān)聯(lián)規(guī)則挖掘等。6)模糊邏輯:模糊邏輯融合了模糊集合二值邏輯
41、概念。在數(shù)據(jù)挖掘中,模糊邏輯可以用來進(jìn)行證據(jù)合成、置信度計(jì)算等。7)最近鄰技術(shù):這種技術(shù)通過K個最相似的歷史紀(jì)錄的組合來辨別新的紀(jì)錄。可以用于聚類分析、偏差分析等。8)規(guī)則歸納:通過統(tǒng)計(jì)方法歸納,提取有價(jià)值的IF-THEN規(guī)則,可用于關(guān)聯(lián)規(guī)則挖掘等。9)可視化:采用直觀的圖形方式將信息模式、數(shù)據(jù)關(guān)聯(lián)或趨勢呈現(xiàn)給決策者,決策者可以通過可視化技術(shù)交互式分析數(shù)據(jù)關(guān)系。2.2.3 數(shù)據(jù)挖掘與推薦系統(tǒng)電子商務(wù)推薦系統(tǒng)(Recommendation Systems for E-Commerce)的正式定義由Resnick和Varian在1997年給出的,“電子商務(wù)個性化推薦系統(tǒng)是利用電子商務(wù)網(wǎng)站向用戶提供
42、產(chǎn)品信息和相關(guān)建議,幫助用戶決定購買什么產(chǎn)品,通過模擬銷售人員幫助用戶完成購物過程的系統(tǒng)”。這個定義現(xiàn)在已經(jīng)被廠泛的引用。推薦系統(tǒng)的使用者是用戶,推薦的對象是項(xiàng)目。項(xiàng)目是推薦系統(tǒng)提供給用戶的產(chǎn)品或服務(wù),也即最終的推薦內(nèi)容。電子商務(wù)推薦系統(tǒng)是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)領(lǐng)域的范例44隨著電子商務(wù)的應(yīng)用,數(shù)據(jù)庫中可以收集到大量的用戶數(shù)據(jù),如用戶交易數(shù)據(jù),用戶注冊數(shù)據(jù)、用戶評分評價(jià)數(shù)據(jù)、用戶投票數(shù)據(jù)等;同時(shí),Web服務(wù)器中也保存著用戶訪問電子商務(wù)系統(tǒng)的日志數(shù)據(jù)、用戶購物籃信息等,這些數(shù)據(jù)中蘊(yùn)含著豐富的知識,基于數(shù)據(jù)挖掘的推薦系統(tǒng)通過數(shù)據(jù)挖掘技術(shù)對用戶行為和用戶屬性進(jìn)行學(xué)習(xí),從中獲取有價(jià)值的知識,根據(jù)
43、得到的知識產(chǎn)生推薦45?;跀?shù)據(jù)挖掘的推薦系統(tǒng)根據(jù)數(shù)據(jù)挖掘技術(shù)建立用戶檔案44。用戶檔案的建立可以基于對用戶長期行為的分析,如用戶的瀏覽記錄、購買歷史、性別、職業(yè)、收入、年齡等。也可以基于用戶的當(dāng)前行為,如用戶當(dāng)前的會話行為、當(dāng)前購物籃信息、當(dāng)前瀏覽商品等。電子商務(wù)推薦系統(tǒng)中的數(shù)據(jù)挖掘主要包括關(guān)聯(lián)規(guī)則挖掘和分類挖掘兩類46。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個重要研究內(nèi)容4647。在電子商務(wù)領(lǐng)域,關(guān)聯(lián)規(guī)則挖掘根據(jù)銷售數(shù)據(jù)發(fā)現(xiàn)不同商品在銷售過程中的相關(guān)性。關(guān)聯(lián)規(guī)則挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用主要包括定點(diǎn)廣告投放和商品推薦。所謂定點(diǎn)廣告投放,就是通過關(guān)聯(lián)規(guī)則挖掘,將特定廣告投放給可能感興趣的用戶。基于
44、關(guān)聯(lián)規(guī)則的商品推薦根據(jù)生成的關(guān)聯(lián)規(guī)則模型和用戶的購買行為產(chǎn)生推薦結(jié)果。分類挖掘模型根據(jù)用戶的輸入信息將之劃分為相應(yīng)類別,基于分類挖掘的推薦系統(tǒng)根據(jù)用戶輸入信息和項(xiàng)的特征信息,預(yù)測是否向用戶推薦該項(xiàng)。分類挖掘通過對訓(xùn)練集進(jìn)行學(xué)習(xí),訓(xùn)練出對應(yīng)的分類器,然后利用該分類器對新用戶進(jìn)行分類。當(dāng)訓(xùn)練集發(fā)生變化時(shí),需要重新進(jìn)行訓(xùn)練以得到新的分類器。分類挖掘模型可以通過多種機(jī)器學(xué)習(xí)方法實(shí)現(xiàn),如聚類4849、Bayesian網(wǎng)絡(luò)50、神經(jīng)網(wǎng)絡(luò)等51。2.3 協(xié)同過濾技術(shù)基于內(nèi)容的過濾(Content-based Filtering)根據(jù)信息的內(nèi)容特性進(jìn)行過濾,將信息流和用戶檔案文件進(jìn)行匹配,基于匹配程序確定該信
45、息流對用戶是否有價(jià)值。例如INFOSCOPE利用基于規(guī)則的Agent分析用戶的使用風(fēng)格、監(jiān)測信息的內(nèi)容特征、判斷其是否是用戶感興趣的,并向用戶提供建議?;趦?nèi)容的推薦技術(shù)可以用圖2.3更形象化的描述。資 源用戶A 的興趣概貌 用戶A圖2.3 基于內(nèi)容的過濾示意圖基于內(nèi)容的過濾方法主要存在如下不足52:1)特征提取的能力有限:通常只能對資源進(jìn)行比較簡單的特征提取,在一些特定領(lǐng)域如圖形、圖像、視頻、音樂等媒體,目前還沒有有效的特征提取方法。即使文本資源,其特征提取方法也只能反映資源的內(nèi)容,但是難以提取資源的質(zhì)量、風(fēng)格等信息。2)推薦的資源過于狹窄:系統(tǒng)盡可能向用戶推薦最符合用戶檔案的信息,因此,推
46、薦將局限于跟用戶以前瀏覽的資料類似的信息。協(xié)同過濾(CF,Collaborative Filtering)可以有效解決基于內(nèi)容的過濾存在的問題53。在協(xié)同過濾中,用戶通過相互協(xié)作來選擇信息,它依據(jù)其他用戶對信息作出的評價(jià)來挑選信息。協(xié)作方常常是用戶所信任的朋友、同事等,依據(jù)他們的判斷向用戶推薦信息。協(xié)同過濾方法對用戶的行為進(jìn)行分析,并不關(guān)心信息的實(shí)際內(nèi)容。自動化協(xié)同過濾系統(tǒng)通過收集用戶對信息的評價(jià),搜索具有相同興趣喜好的用戶,然后根據(jù)具有相同興趣喜好的用戶對信息的評價(jià)產(chǎn)生推薦結(jié)果。協(xié)同推薦技術(shù)可以用圖2.4形象化的表示。用戶A 的興趣概貌用戶B 的興趣概貌 用戶A 用戶B圖2.4 協(xié)同推薦技術(shù)
47、示意圖和基于內(nèi)容的過濾方法相比,協(xié)同過濾具有如下優(yōu)點(diǎn)5253:1)適合于過濾難以分析內(nèi)容的資源:協(xié)同過濾不關(guān)心資源的具體內(nèi)容,因此,在難以分析資源內(nèi)容的情況下,如圖形、圖像、視頻、音樂等,協(xié)同過濾是很好的選擇。2)新奇的推薦:協(xié)同過濾可以發(fā)現(xiàn)內(nèi)容上完全不相似的資源,用戶對推薦信息的內(nèi)容事先是預(yù)料不到的。 協(xié)同過濾推薦是當(dāng)前最成功的推薦技術(shù)。最近鄰協(xié)同過濾根據(jù)評分相似的最近鄰居的評分?jǐn)?shù)據(jù)向目標(biāo)用戶產(chǎn)生推薦。由于最近鄰居對項(xiàng)(電子商務(wù)中的商品,電影,音樂等)的評分與目標(biāo)用戶非常相似,因此目標(biāo)用戶對未評分項(xiàng)的評分可以通過最近鄰居對項(xiàng)評分的加權(quán)平均值逼近54。協(xié)同過濾推薦通過用戶對項(xiàng)的評分信息產(chǎn)生推薦
48、,用戶對項(xiàng)的評分信息可以通過隱式和顯式兩種方式得到。隱式方式通過用戶瀏覽或購買過的商品推斷用戶興趣愛好。顯式方式則讓用戶直接輸入用戶對商品的數(shù)字評分和文本評價(jià)信息協(xié)同過濾推薦系統(tǒng)通過用戶對項(xiàng)的評分信息,建立用戶檔案,然后使用不同的推薦機(jī)制提供推薦服務(wù)。最簡單的協(xié)同過濾系統(tǒng)計(jì)算所有用戶對項(xiàng)的平均評分,選擇平均評分最高的前N個項(xiàng)作為推薦結(jié)果推薦給用戶。這種推薦機(jī)制根據(jù)所有的用戶評分信息產(chǎn)生推薦,所有用戶在同一時(shí)間得到的推薦都是相同的,因此這種推薦方法又稱為非個性化推薦。Tapestry是最早提出的個性化協(xié)同過濾推薦系統(tǒng)。用戶需要明確指出與自己興趣愛好相似的其他用戶,推薦系統(tǒng)根據(jù)指定的其他用戶對商品
49、的評價(jià)信息產(chǎn)生推薦結(jié)果。與之類似,Maltz等人提出的個性化協(xié)同過濾推薦系統(tǒng)允許用戶向自己熟悉的用戶群體主動提供推薦信息。在上述協(xié)同過濾推薦系統(tǒng)中,用戶之間必須了解對方的興趣愛好,因此一般只適用于用戶數(shù)量比較小的場合。隨著電子商務(wù)系統(tǒng)的發(fā)展,用戶和項(xiàng)的數(shù)量逐漸擴(kuò)大,與之相適應(yīng),研究者提出了自動個性化協(xié)同過濾推薦系統(tǒng)。在自動個性化協(xié)同過濾推薦系統(tǒng)中,系統(tǒng)自動識別用戶的最近鄰居,根據(jù)最近鄰居對項(xiàng)的評價(jià)產(chǎn)生推薦。GroupLens是最早提出的的自動個性化協(xié)同過濾推薦系統(tǒng),用于從大量的新聞中搜索用戶感興趣的新聞列表。MovieLens自動個性化協(xié)同過濾推薦系統(tǒng)用于產(chǎn)生電影推薦。Video自動個性化協(xié)同過濾推薦系統(tǒng)和Ringo自
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版九年級下冊英語教學(xué)計(jì)劃(及進(jìn)度表)
- 2025年黨政領(lǐng)導(dǎo)干部黨章黨規(guī)黨紀(jì)黨史知識培訓(xùn)考試題庫及答案(共210題)
- 銷售試用期工作表現(xiàn)評語
- 劇本編劇合作協(xié)議
- 《移動網(wǎng)絡(luò)規(guī)劃和優(yōu)化》課件-第二章
- 地鐵站裝修資助協(xié)議
- 新建鐵路M剛構(gòu)連續(xù)梁 投標(biāo)方案(技術(shù)方案)
- 農(nóng)業(yè)科技項(xiàng)目實(shí)施效果評估方案
- 雨水收集的系統(tǒng)
- 公司員工培訓(xùn)資料
- 肺結(jié)核合并糖尿病護(hù)理查房
- 2025年安徽中醫(yī)藥高等??茖W(xué)校單招職業(yè)技能考試題庫帶答案
- 2025年南京鐵道職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫及答案1套
- 2025年河南機(jī)電職業(yè)學(xué)院單招職業(yè)技能考試題庫完整
- GB/T 18282.1-2025醫(yī)療保健產(chǎn)品滅菌化學(xué)指示物第1部分:通則
- 江蘇省建筑與裝飾工程計(jì)價(jià)定額(2014)電子表格版
- 7S管理標(biāo)準(zhǔn)-目視化管理標(biāo)準(zhǔn)
- 高填方路基施工危險(xiǎn)源辨識及風(fēng)險(xiǎn)評價(jià)
- 等截面雙鉸圓拱內(nèi)力計(jì)算
- ABB變頻器培訓(xùn)資料
- NBC(一體式)系列氣體保護(hù)焊機(jī)說明書(凱爾達(dá))
評論
0/150
提交評論