




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、項目概述項目概述n所要研究的項目:n n 基于網(wǎng)上購物系統(tǒng),運用數(shù)據(jù)挖掘技術(shù)通過對數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)的“相似性”的比對,來找出具有相似愛好的同類人群,從而可以為這些具有相同愛好的人群提供某些便利:n如:為具有相同愛好的人提供好友推薦,以供他們互相交流;n :通過對某位客戶往期所購入的商品,通過數(shù)據(jù)挖掘,通過這些商品的類別,價格,以及風(fēng)格上等的特征提取,為客戶在下次瀏覽商品時提供產(chǎn)品推薦服務(wù),以便顧客迅速找到心儀的產(chǎn)品;n :通過客戶購買商品類別、風(fēng)格等上的特征提取,以及評論的特征的提取,從而為店家提供一個營銷方向。n 關(guān)于數(shù)據(jù)挖掘關(guān)于數(shù)據(jù)挖掘n什么是數(shù)據(jù)挖掘?n 數(shù)據(jù)挖掘(Data Minin
2、g)是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個步驟。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。n數(shù)據(jù)挖掘步驟?n理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding); 獲取相關(guān)知識與技術(shù)(acquisition); 整合與檢查數(shù)據(jù)(integration and checking); 去除錯誤或不一致的數(shù)據(jù)(data cleaning); 建立模型和假設(shè)(model and hypothesis development)。 n 實際數(shù)據(jù)挖掘工作(data mining); n 測試和驗證挖掘結(jié)果(testing
3、 and verification);n 解釋和應(yīng)用(interpretation and use);數(shù)據(jù)挖掘系統(tǒng)具體原型數(shù)據(jù)挖掘系統(tǒng)具體原型數(shù)據(jù)挖掘系統(tǒng)簡圖數(shù)據(jù)挖掘系統(tǒng)簡圖關(guān)于我們的系統(tǒng)關(guān)于我們的系統(tǒng)n特性:n 基于網(wǎng)購,對所牽涉的網(wǎng)購數(shù)據(jù)庫中的毫無關(guān)聯(lián)的數(shù)據(jù),進(jìn)行相關(guān)特征上的比對,從而找出“相似性”。n關(guān)于關(guān)聯(lián)的數(shù)據(jù)庫:n 我們采用的是一個模擬數(shù)據(jù)產(chǎn)生器來產(chǎn)生眾多數(shù)據(jù),進(jìn)而進(jìn)行比對。n會運用到的主要算法:n K-means算法和KNN算法n工具及其所要運用到的語言:n eclipse開發(fā)環(huán)境、Java開發(fā)語言等K-means算法算法n k-means 算法接受輸入量 k ;然后將n個數(shù)據(jù)對
4、象劃分為 k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進(jìn)行計算的?;静襟E基本步驟n (1)從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心; n (2) 根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分; n (3) 重新計算每個(有變化)聚類的均值(中心對象); n (4) 計算標(biāo)準(zhǔn)測度函數(shù),當(dāng)滿足一定條件,如函數(shù)收斂時,則算法終止;如果條件不滿足則回到步驟。KNN算法(最鄰近算法)算法(最鄰近算法)n具體思路:
5、n 如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。1.KNN算法的簡介算法的簡介2.待處理的數(shù)據(jù)描述待處理的數(shù)據(jù)描述3.數(shù)據(jù)預(yù)處理算法描述數(shù)據(jù)預(yù)處理算法描述4.挖掘算法的具體描述挖掘算法的具體描述1.KNN算法簡介算法簡介nK最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。 2.待處理數(shù)據(jù)描述待處理數(shù)據(jù)描述n我們所處理的數(shù)據(jù)是
6、購物網(wǎng)站中,用戶購買商品的交易記錄數(shù)據(jù)。每種商品都屬于某一個特定的類別,例如,電視機屬于家用電器。我們要做的就是根據(jù)用戶的交易記錄找出和用戶有共同購買喜好的其他用戶,進(jìn)而推測出用戶可能會感興趣的商品,進(jìn)而實現(xiàn)商品推銷。3.數(shù)據(jù)與處理算法描述數(shù)據(jù)與處理算法描述n根據(jù)數(shù)據(jù)庫中的交易記錄,我們可以得到每個用戶購買商品類型的一個高維向量。Vs=k1,k2,.,kn其中ki(i=0&i=n)表示用戶s購買類型編號為i的商品的數(shù)目。 對于數(shù)據(jù)庫中的原始交易記錄數(shù)據(jù),我們要進(jìn)行預(yù)處理得到每個用戶的一個高維向量,重新存儲。購物記錄的更新的過程中并更新用戶購買各類型商品的向量數(shù)據(jù)。這一步效率也是很快的。4.挖掘
7、算法的具體描述挖掘算法的具體描述n1.當(dāng)網(wǎng)站建立好后,我們得到用戶的購買各類型商品的向量數(shù)據(jù)集合,這個數(shù)據(jù)集合可以隨著交易的增加而同時更新。當(dāng)網(wǎng)站停止運行時將該數(shù)據(jù)集存到數(shù)據(jù)庫里。n為了根據(jù)用戶s的Vs向量快速的找到和用戶s購買愛好最相似的k個其他用戶。我們采用KD樹來實現(xiàn)K鄰近查找。接下來介紹下KD樹。KD樹簡介樹簡介nKD-Tree是一種由二叉搜索樹推廣而來的用于多維檢索的樹的結(jié)構(gòu)形式(K即為空間的維數(shù))。它與二叉搜索樹不同的是它的每個結(jié)點表示k維空間的一個點,并且每一層都根據(jù)該層的分辨器(discriminator)對相應(yīng)對象做出分枝決策。頂層結(jié)點按由分辨器決定的一個維度進(jìn)行劃分,第二層
8、則按照該層的分辨器決定的一個維進(jìn)行劃分,以此類推在余下各維之間不斷地劃分。直至一個結(jié)點中的點數(shù)少于給定的最大點數(shù)時,結(jié)束劃分。 有不同的分辨器,最普通的分辨器為:n mod k(樹的根節(jié)點所在層為第0層,根結(jié)點孩子所在層為第1層,以此類推) 即:若它的左子樹非空,則其左子樹上所有結(jié)點的第i維值均小于其根結(jié)點的第i維值; 若它的右子樹非空,則其右子樹上所有結(jié)點的第i維值均大于其根結(jié)點的第i維值;并且它的左右子樹也分別為KD-Tree。KD支持的常用操作支持的常用操作n1.K維數(shù)據(jù)范圍查找n2.K維數(shù)據(jù)最鄰近查找n3.K維數(shù)據(jù)k鄰近查找如何使用如何使用KD樹來查詢出和樹來查詢出和Vs向量距離最近的向量距離最近的K個個V向量進(jìn)而得到用戶編號向量進(jìn)而得到用戶編號n我們利用預(yù)處理階段得到樹用戶購買個類型商品的向量集合構(gòu)建KD樹,然后借助KD樹來查出與Vs向量空間距離最接近的k個用戶。如何根據(jù)找出的如何根據(jù)找出的K個用戶預(yù)測用戶個用戶預(yù)測用戶s可能感興趣的商品可能感興趣的商品n我們對找出的K個用戶進(jìn)行分析。 得
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄉(xiāng)鎮(zhèn)農(nóng)民互助合作社合作協(xié)議
- 教師教育教學(xué)反思的有效方法試題及答案
- 弘揚雷鋒精神試題及答案
- 教學(xué)反思驅(qū)動學(xué)生問題解決能力提升試題及答案
- 商務(wù)英語行業(yè)標(biāo)準(zhǔn)試題及答案2025年
- 小學(xué)教師對話式教學(xué)實踐試題及答案
- 汽車中級考試題及答案
- 幼教專業(yè)面試題及答案
- 建筑施工安全管理標(biāo)準(zhǔn)試題及答案
- 測試題及答案100分
- 北京2025年中國環(huán)境監(jiān)測總站招聘(第二批)筆試歷年參考題庫附帶答案詳解
- “皖南八?!?024-2025學(xué)年高一第二學(xué)期期中考試-英語(譯林版)及答案
- 防洪防汛安全教育知識培訓(xùn)
- 安寧療護(hù)人文關(guān)懷護(hù)理課件
- 黑龍江省齊齊哈爾市龍江縣部分學(xué)校聯(lián)考2023-2024學(xué)年八年級下學(xué)期期中考試物理試題【含答案、解析】
- 《尋常型銀屑病中西醫(yī)結(jié)合診療指南》
- 2024-2025學(xué)年成都高新區(qū)七上數(shù)學(xué)期末考試試卷【含答案】
- 定額〔2025〕1號文-關(guān)于發(fā)布2018版電力建設(shè)工程概預(yù)算定額2024年度價格水平調(diào)整的通知
- “記憶中的人、事兒”為副標(biāo)題(四川眉山原題+解題+范文+副標(biāo)題作文“追求”主題)-2025年中考語文一輪復(fù)習(xí)之寫作
- 2024年企業(yè)員工研發(fā)補貼協(xié)議范本模板3篇
- 2024年河南省中職對口升學(xué)高考語文試題真題(解析版)
評論
0/150
提交評論