



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、煙草數(shù)據(jù)挖掘論文 1研究背景 目前現(xiàn)有的針對煙草營銷策略的研究,多采用數(shù)據(jù)挖掘的思想,基于數(shù)據(jù)挖掘的營銷策略是對終端客戶進行分類,根據(jù)用戶的銷量和誠信記錄把用戶分為多個等級,但這種分級策略只能反應用戶的銷量信息,把這個分類作為營銷策略依據(jù)太單薄,只能起一定的輔助作用。更深入地研究是根據(jù)客戶的資料和歷史訂單數(shù)據(jù)對現(xiàn)有商戶進行聚類,獲取到自主的商戶分類,但盲目的聚類會導致商戶的分類沒有實際意義,或獲取的結果是無助于營銷目的的。 2技術關鍵 本系統(tǒng)采用基于營銷目的的商戶聚類,技術關鍵包括三部分內容:數(shù)據(jù)預處理中的特征選擇、基于限制目標的商戶精確聚類和基于聚類結果的多層關聯(lián)規(guī)則算法的研究。 2.1特征
2、選擇 假定獲取的數(shù)據(jù)的維數(shù)為n,通常情況下n是很大的一個數(shù),為簡化模型,也為了防止模型陷入過擬合(維數(shù)災難),需要進行降維處理,即僅把對項目改造判定起關鍵作用的因素挑選出來。本系統(tǒng)采用PCA算法來進行降維處理,過程如下: 1)計算標準化后的矩陣Z的樣本的協(xié)方差矩陣Cov; 2)計算協(xié)方差矩陣Cov的本征向量e1,e2,en的本征值。本征值按大到小排序; 3)投影數(shù)據(jù) 到本征矢張成的空間之中,利用貢獻分析取前m個向量Y1,Y2,Ym。 2.2基于營銷目標限制的商戶精確聚類算法 現(xiàn)有聚類算法一般沒有約束條件,只根據(jù)相似度來進行聚類,為了能夠體現(xiàn)約束條件,需要在聚類相似度或者樣本距離之間把限制條件增
3、加進去,這樣在樣本聚類的時候即可使得具有相同營銷特性的樣本或者客戶被劃分到同一個類中。煙草終端商戶的大部分屬性是分類屬性,例如:地區(qū)、類別等,此外還有數(shù)字型屬性、日期型屬性,由于存在不同類型的屬性,常規(guī)的聚類算法無法使用,為此,采用把數(shù)字屬性和日期屬性劃分區(qū)間的思路,這樣可以轉化成分類屬性的方式來進行聚類。進而可建立如下商戶模型:分類對象X,X=A1=x1A2=x2Am=xm,其中xjDOM(Aj),1jm,為簡便起見,將對象X用向量(x1,x2,xm)表達,如果屬性Aj的值不存在,則Aj=。令=X1,X2,Xn為n個分類對象的集合,用集合方式表達分類對象,則Xi=xi,1,xi,2,xi,m
4、,如果屬性Aj的值不存在,則集合中不出現(xiàn)xi,j,容易得到|Xi|m。如果存在Xi,j=Xk,j,1jm,則Xi=Xk。為方便聚類,利用聚類匯總來壓縮原始數(shù)據(jù),從而達到提高算法效率的目的。一個類C可以由如下三元組(n,I,S)來表示。其中n為類C中的對象數(shù)量,I=i1,i2,iu是C內所有屬性值的集合,S=s1,s2,su,其中sj為ij在類C中的數(shù)量,ijI,1ju。集合S按升序排列,即s1s2su,這同時也暗示集合I的元素按其在C中的數(shù)量按升序排列。三元組(n,I,S)被稱作類C的聚類匯總CS,CS的三個成員分別記作CS.n、CS.I和CS.S;對于CS.I的任一元素ijCS.I,則記作C
5、S.I.ij,對于sjCS.S,則記作CS.S.sj,其中1ju。 2.3基于煙草營銷的多層關聯(lián)規(guī)則的研究 針對本項目,對關聯(lián)規(guī)則定義進行擴展,對形如:XY的關聯(lián)規(guī)則,不再限定X和Y為一個項目集,而把X和Y定義為條件的合取范式,每個條件Ai=True/False為布爾表達式。此時的Ai為一個項目集,它的含義與原來的X和Y的含義相同,如果把結果中的條件布爾表達式寫成Cj=True/False,則關聯(lián)規(guī)則有如下形式:(A1=True/False)(A2=True/False)(An=True/False)(C1=True/False)(C2=True/False)(Cm=True/False)關聯(lián)
6、規(guī)則的開采問題可以分解成以下兩個子問題: 從數(shù)據(jù)集合或交易集合D中發(fā)現(xiàn)所有的頻繁項目集。 從頻繁項目集中生成所有置信度不小于用戶定義的最小置信度minconf的關聯(lián)規(guī)則。即對任一個頻繁項目集F和F的所有非空真子集S,SF,如果sup(F)/sup(FS)minconf,則(FS)S就是一條有效的關聯(lián)規(guī)則。按上述方法發(fā)現(xiàn)所有類似的規(guī)則。這兩個步驟中第2步要相對容易,因此項目的研究將更關注第1步,由于最大頻繁項目集已經隱含了所有頻繁項目集,所以可以把發(fā)現(xiàn)頻繁項目集的問題轉化為發(fā)現(xiàn)最大頻繁項目集的問題。針對煙草營銷的客戶,進行關聯(lián)規(guī)則挖掘時,是在上一步的基礎上,即針對每一個商戶群進行規(guī)則挖掘。在獲取
7、到最大頻繁項目集后,順序生成頻繁項目集,然后獲取到可用的關聯(lián)規(guī)則。此時獲取的關聯(lián)規(guī)則是底層關聯(lián)規(guī)則,然后再采用概念樹的方法對獲取的底層關聯(lián)規(guī)則進行匯總。概念樹由煙草領域專家根據(jù)屬性的領域知識提供,按特定屬性的概念層次從一般到具體排序。樹的根結點是用any表示最一般的概念,葉結點是最具體的概念即屬性的具體值。 在獲取多層關聯(lián)規(guī)則后,能靈活確定關聯(lián)規(guī)則的前后件,分析出不同層次各事務的關聯(lián)。能分析出任意兩個事務間的關聯(lián)關系;分析出任意一項事務與其他多項事務間的關聯(lián)關系;任意幾項事務與其他一項事務間的關聯(lián)關系,或者任意幾項事務與另外幾項事務間的關聯(lián)關系。如:某一時間,某品牌煙,商戶總進貨量;某類別商戶,某品牌煙進貨量;某商戶,某段時間,某卷煙進貨量;某地址
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆遼寧省七校協(xié)作體高三11月期中考-語文試題(含答案)
- 2025年江蘇年貨運從業(yè)資格證模擬考試題
- 加強潛水裝備水下壓力測試規(guī)定
- 2025商業(yè)采購合同協(xié)議樣本
- 極坐標銑圓弧編程格式
- 二零二五版房屋買賣首付款支付協(xié)議書
- 試崗期勞動合同范例二零二五年
- 蛋糕公司積分管理制度
- 飲料生產工廠管理制度
- 車輛應急報警管理制度
- (2024版)機動車查驗員理論知識考試題庫及答案
- 2022年10月自考00233稅法試題及答案含解析
- 2024智能AI中臺白皮書
- 意大利古羅馬斗獸場課件
- 《萬以內數(shù)的認識》大單元整體設計
- 供配電技術 課件 第4章-變配電系統(tǒng)的電氣設備及選擇
- 二模沖刺動員主題班會通用課件
- 大學國旗護衛(wèi)班培訓方案
- 胃腸術后吻合口瘺的觀察與護理
- 幼兒游戲與社會性的發(fā)展
- (醫(yī)學課件)特應性皮炎
評論
0/150
提交評論