專題講座-購物網(wǎng)站商品推薦數(shù)據(jù)挖掘_第1頁
專題講座-購物網(wǎng)站商品推薦數(shù)據(jù)挖掘_第2頁
專題講座-購物網(wǎng)站商品推薦數(shù)據(jù)挖掘_第3頁
專題講座-購物網(wǎng)站商品推薦數(shù)據(jù)挖掘_第4頁
專題講座-購物網(wǎng)站商品推薦數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、項目概述項目概述n所要研究的項目:n n 基于網(wǎng)上購物系統(tǒng),運用數(shù)據(jù)挖掘技術(shù)通過對數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)的“相似性”的比對,來找出具有相似愛好的同類人群,從而可以為這些具有相同愛好的人群提供某些便利:n如:為具有相同愛好的人提供好友推薦,以供他們互相交流;n :通過對某位客戶往期所購入的商品,通過數(shù)據(jù)挖掘,通過這些商品的類別,價格,以及風(fēng)格上等的特征提取,為客戶在下次瀏覽商品時提供產(chǎn)品推薦服務(wù),以便顧客迅速找到心儀的產(chǎn)品;n :通過客戶購買商品類別、風(fēng)格等上的特征提取,以及評論的特征的提取,從而為店家提供一個營銷方向。n 關(guān)于數(shù)據(jù)挖掘關(guān)于數(shù)據(jù)挖掘n什么是數(shù)據(jù)挖掘?n 數(shù)據(jù)挖掘(Data Minin

2、g)是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個步驟。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。n數(shù)據(jù)挖掘步驟?n理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding); 獲取相關(guān)知識與技術(shù)(acquisition); 整合與檢查數(shù)據(jù)(integration and checking); 去除錯誤或不一致的數(shù)據(jù)(data cleaning); 建立模型和假設(shè)(model and hypothesis development)。 n 實際數(shù)據(jù)挖掘工作(data mining); n 測試和驗證挖掘結(jié)果(testing

3、 and verification);n 解釋和應(yīng)用(interpretation and use);數(shù)據(jù)挖掘系統(tǒng)具體原型數(shù)據(jù)挖掘系統(tǒng)具體原型數(shù)據(jù)挖掘系統(tǒng)簡圖數(shù)據(jù)挖掘系統(tǒng)簡圖關(guān)于我們的系統(tǒng)關(guān)于我們的系統(tǒng)n特性:n 基于網(wǎng)購,對所牽涉的網(wǎng)購數(shù)據(jù)庫中的毫無關(guān)聯(lián)的數(shù)據(jù),進(jìn)行相關(guān)特征上的比對,從而找出“相似性”。n關(guān)于關(guān)聯(lián)的數(shù)據(jù)庫:n 我們采用的是一個模擬數(shù)據(jù)產(chǎn)生器來產(chǎn)生眾多數(shù)據(jù),進(jìn)而進(jìn)行比對。n會運用到的主要算法:n K-means算法和KNN算法n工具及其所要運用到的語言:n eclipse開發(fā)環(huán)境、Java開發(fā)語言等K-means算法算法n k-means 算法接受輸入量 k ;然后將n個數(shù)據(jù)對

4、象劃分為 k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進(jìn)行計算的?;静襟E基本步驟n (1)從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心; n (2) 根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分; n (3) 重新計算每個(有變化)聚類的均值(中心對象); n (4) 計算標(biāo)準(zhǔn)測度函數(shù),當(dāng)滿足一定條件,如函數(shù)收斂時,則算法終止;如果條件不滿足則回到步驟。KNN算法(最鄰近算法)算法(最鄰近算法)n具體思路:

5、n 如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。1.KNN算法的簡介算法的簡介2.待處理的數(shù)據(jù)描述待處理的數(shù)據(jù)描述3.數(shù)據(jù)預(yù)處理算法描述數(shù)據(jù)預(yù)處理算法描述4.挖掘算法的具體描述挖掘算法的具體描述1.KNN算法簡介算法簡介nK最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。 2.待處理數(shù)據(jù)描述待處理數(shù)據(jù)描述n我們所處理的數(shù)據(jù)是

6、購物網(wǎng)站中,用戶購買商品的交易記錄數(shù)據(jù)。每種商品都屬于某一個特定的類別,例如,電視機屬于家用電器。我們要做的就是根據(jù)用戶的交易記錄找出和用戶有共同購買喜好的其他用戶,進(jìn)而推測出用戶可能會感興趣的商品,進(jìn)而實現(xiàn)商品推銷。3.數(shù)據(jù)與處理算法描述數(shù)據(jù)與處理算法描述n根據(jù)數(shù)據(jù)庫中的交易記錄,我們可以得到每個用戶購買商品類型的一個高維向量。Vs=k1,k2,.,kn其中ki(i=0&i=n)表示用戶s購買類型編號為i的商品的數(shù)目。 對于數(shù)據(jù)庫中的原始交易記錄數(shù)據(jù),我們要進(jìn)行預(yù)處理得到每個用戶的一個高維向量,重新存儲。購物記錄的更新的過程中并更新用戶購買各類型商品的向量數(shù)據(jù)。這一步效率也是很快的。4.挖掘

7、算法的具體描述挖掘算法的具體描述n1.當(dāng)網(wǎng)站建立好后,我們得到用戶的購買各類型商品的向量數(shù)據(jù)集合,這個數(shù)據(jù)集合可以隨著交易的增加而同時更新。當(dāng)網(wǎng)站停止運行時將該數(shù)據(jù)集存到數(shù)據(jù)庫里。n為了根據(jù)用戶s的Vs向量快速的找到和用戶s購買愛好最相似的k個其他用戶。我們采用KD樹來實現(xiàn)K鄰近查找。接下來介紹下KD樹。KD樹簡介樹簡介nKD-Tree是一種由二叉搜索樹推廣而來的用于多維檢索的樹的結(jié)構(gòu)形式(K即為空間的維數(shù))。它與二叉搜索樹不同的是它的每個結(jié)點表示k維空間的一個點,并且每一層都根據(jù)該層的分辨器(discriminator)對相應(yīng)對象做出分枝決策。頂層結(jié)點按由分辨器決定的一個維度進(jìn)行劃分,第二層

8、則按照該層的分辨器決定的一個維進(jìn)行劃分,以此類推在余下各維之間不斷地劃分。直至一個結(jié)點中的點數(shù)少于給定的最大點數(shù)時,結(jié)束劃分。 有不同的分辨器,最普通的分辨器為:n mod k(樹的根節(jié)點所在層為第0層,根結(jié)點孩子所在層為第1層,以此類推) 即:若它的左子樹非空,則其左子樹上所有結(jié)點的第i維值均小于其根結(jié)點的第i維值; 若它的右子樹非空,則其右子樹上所有結(jié)點的第i維值均大于其根結(jié)點的第i維值;并且它的左右子樹也分別為KD-Tree。KD支持的常用操作支持的常用操作n1.K維數(shù)據(jù)范圍查找n2.K維數(shù)據(jù)最鄰近查找n3.K維數(shù)據(jù)k鄰近查找如何使用如何使用KD樹來查詢出和樹來查詢出和Vs向量距離最近的向量距離最近的K個個V向量進(jìn)而得到用戶編號向量進(jìn)而得到用戶編號n我們利用預(yù)處理階段得到樹用戶購買個類型商品的向量集合構(gòu)建KD樹,然后借助KD樹來查出與Vs向量空間距離最接近的k個用戶。如何根據(jù)找出的如何根據(jù)找出的K個用戶預(yù)測用戶個用戶預(yù)測用戶s可能感興趣的商品可能感興趣的商品n我們對找出的K個用戶進(jìn)行分析。 得

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論