




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
CH數(shù)據(jù)挖掘與客戶關(guān)系管理第1頁/共125頁學習目標通過本章的學習,將能夠:理解數(shù)據(jù)挖掘的含義熟悉數(shù)據(jù)挖掘的功能熟悉數(shù)據(jù)挖掘的主要技術(shù)掌握數(shù)據(jù)挖掘的業(yè)務(wù)流程了解客戶關(guān)系管理對數(shù)據(jù)挖掘的需求理解數(shù)據(jù)挖掘在客戶關(guān)系管理中的作用第2頁/共125頁第10章CRM與數(shù)據(jù)挖掘10.1數(shù)據(jù)挖掘概述10.2數(shù)據(jù)挖掘的任務(wù)、技術(shù)和實施過程10.3數(shù)據(jù)挖掘在CRM中應(yīng)用10.4CRM數(shù)據(jù)挖掘應(yīng)用實例10.5數(shù)據(jù)挖掘軟件在CRM中的應(yīng)用示例第3頁/共125頁10.1數(shù)據(jù)挖掘概述10.1.1數(shù)據(jù)挖掘的產(chǎn)生10.1.2數(shù)據(jù)挖掘的定義10.1.3數(shù)據(jù)挖掘的技術(shù)10.1.4數(shù)據(jù)挖掘的功能10.1.5數(shù)據(jù)挖掘的流程10.1.6數(shù)據(jù)挖掘的發(fā)展方向第4頁/共125頁10.1.1數(shù)據(jù)挖掘的產(chǎn)生數(shù)據(jù)爆炸但知識貧乏支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)數(shù)據(jù)挖掘逐漸演變的過程第5頁/共125頁數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價值的知識可怕的數(shù)據(jù)數(shù)據(jù)爆炸但知識貧乏第6頁/共125頁數(shù)據(jù)挖掘的出現(xiàn)數(shù)據(jù)爆炸,知識貧乏苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識決策模式趨勢事實關(guān)系模型關(guān)聯(lián)規(guī)則序列目標市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府POS.人口統(tǒng)計生命周期數(shù)據(jù)爆炸但知識貧乏第7頁/共125頁
更大,更便宜的存儲器
--磁盤密度以Moore’slaw增長--存儲器價格飛快下降更快,更便宜的信息處理器--分析更多的數(shù)據(jù)--適應(yīng)更多復雜的模型--引起更多查詢技術(shù)--激起更強的可視化技術(shù)數(shù)據(jù)挖掘處理技術(shù)--數(shù)理統(tǒng)計--人工智能--機器學習支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)第8頁/共125頁數(shù)據(jù)挖掘的演化機器學習數(shù)據(jù)庫中的知識發(fā)現(xiàn)數(shù)據(jù)挖掘第9頁/共125頁10.1.2數(shù)據(jù)挖掘的定義SAS研究所(19910):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進行數(shù)據(jù)探索和建立相關(guān)模型的先進方法”。Bhavani(1999):“使用模式識別技術(shù)、統(tǒng)計和數(shù)學技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢的過程”。Handetal(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價值信息的過程”。第10頁/共125頁數(shù)據(jù)挖掘的定義技術(shù)角度的含義商業(yè)角度的含義與傳統(tǒng)方法的區(qū)別第11頁/共125頁數(shù)據(jù)挖掘的技術(shù)上的定義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括好幾層含義(1)數(shù)據(jù)源必須是真實的、大量的、含噪聲的;(2)發(fā)現(xiàn)的是用戶感興趣的知識;(3)發(fā)現(xiàn)的知識要可接受、可理解、可運用;(4)并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。
第12頁/共125頁數(shù)據(jù)挖掘的商業(yè)角度的定義按企業(yè)既定業(yè)務(wù)目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
第13頁/共125頁客戶接觸
客戶信息客戶數(shù)據(jù)庫統(tǒng)計分析與數(shù)據(jù)挖掘客戶知識發(fā)現(xiàn)客戶管理知識發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息從商業(yè)數(shù)據(jù)到商業(yè)智能第14頁/共125頁數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識.。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實用三個特征.先前未知的信息是指該信息是預先未曾預料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。在商業(yè)應(yīng)用中最典型的例子就是一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系
第15頁/共125頁10.1.3數(shù)據(jù)挖掘的功能
自動預測趨勢和行為關(guān)聯(lián)分析對象分類聚類分析概念描述偏差檢測第16頁/共125頁數(shù)據(jù)挖掘功能—預測數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個典型的例子是市場預測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產(chǎn)以及認定對指定事件最可能作出反應(yīng)的群體。
第17頁/共125頁數(shù)據(jù)挖掘功能—關(guān)聯(lián)分析數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。例如:每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關(guān)聯(lián)的支持度和可信度來描述。時序關(guān)聯(lián)是一種縱向的聯(lián)系。例如:今天銀行調(diào)整利率,明天股市的變化。第18頁/共125頁數(shù)據(jù)挖掘功能—分類按照分析對象的屬性、特征,建立不同的組類來描述事物。例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應(yīng)的貸款方案。第19頁/共125頁數(shù)據(jù)挖掘功能—聚類
數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。聚類技術(shù)在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。第20頁/共125頁數(shù)據(jù)挖掘功能—概念描述概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。第21頁/共125頁數(shù)據(jù)挖掘功能—偏差檢測數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。偏差檢測對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營的風險。
第22頁/共125頁10.1.4數(shù)據(jù)挖掘應(yīng)用應(yīng)用領(lǐng)域:銀行、電信、保險、交通、零售等商業(yè)領(lǐng)域能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷(DatabaseMarketing)客戶群體劃分(CustomerSegmentation&Classification)背景分析(ProfileAnalysis)交叉銷售(Cross-selling)客戶流失性分析(ChurnAnalysis)客戶信用記分(CreditScoring)欺詐發(fā)現(xiàn)(FraudDetection)第23頁/共125頁各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細分客戶流失客戶利潤客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析…WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁推薦商品推薦。。?;蛲诰蚧虮磉_路徑分析基因表達相似性分析基因表達共發(fā)生分析。。。銀行電信零售保險制藥生物信息科學研究。。。相關(guān)行業(yè)數(shù)據(jù)挖掘的應(yīng)用第24頁/共125頁Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決策樹DecisionTrees傾向性分析客戶保留客戶生命周期管理目標市場價格彈性分析客戶細分市場細分傾向性分析客戶保留目標市場欺詐檢測關(guān)聯(lián)分析Association市場組合分析套裝產(chǎn)品分析目錄設(shè)計交叉銷售數(shù)據(jù)挖掘的應(yīng)用第25頁/共125頁10.1.5數(shù)據(jù)挖掘未來研究方向
發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像SQL語言一樣走向形式化和標準化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)的過程中進行人機交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining),特別是在因特網(wǎng)上建立DMKD服務(wù)器,并且與數(shù)據(jù)庫服務(wù)器配合,實現(xiàn)WebMining;加強對各種非結(jié)構(gòu)化數(shù)據(jù)的開采(DataMiningforAudio&Video),如對文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采;處理的數(shù)據(jù)將會涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復雜,或者是結(jié)構(gòu)比較獨特。為了處理這些復雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復雜或獨特數(shù)據(jù)所做的費時和復雜數(shù)據(jù)準備的一些工具和軟件。交互式發(fā)現(xiàn)和知識的維護更新。
第26頁/共125頁10.2數(shù)據(jù)挖掘的任務(wù)、技術(shù)、方法和實施過程10.2.1數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)總結(jié)分類發(fā)現(xiàn)聚類分析關(guān)聯(lián)規(guī)則發(fā)現(xiàn)第27頁/共125頁10.2.2數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘的方法很多,大致可分為:統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。其中,統(tǒng)計方法可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)、以及模糊集、粗糙集、支持向量機等。機器學習中,可細分為:歸納學習方法(決策樹、規(guī)則歸納等)、基于范例的推理CBR、遺傳算法、貝葉斯信念網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)方法,可細分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學習等)等。數(shù)據(jù)庫方法主要是基于可視化的多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。
第28頁/共125頁●數(shù)據(jù)挖掘技術(shù)的分類——回顧分析:注重解決過去和現(xiàn)在的問題如:兩年來不同地區(qū)、人口和產(chǎn)品情況下的各銷售部門銷售業(yè)績分析——預測分析:在歷史信息的基礎(chǔ)上預測某些事件和行為如:建立預測模型來描述客戶的流失率——分類:根據(jù)某種標準將數(shù)據(jù)庫記錄分類到許多預先定義好的類別如:信用卡公司將客戶記錄分為好、中、差三類分類可以產(chǎn)生規(guī)則:如果一個客戶收入超過5000萬元,年齡在45-55歲之間,居住在某地區(qū),那么他的信用等級為好。數(shù)據(jù)挖掘技術(shù)第29頁/共125頁●數(shù)據(jù)挖掘技術(shù)的分類——聚類:根據(jù)某些屬性將數(shù)據(jù)庫分割為一些子集和簇
如:在了解客戶的過程中,嘗試使用從未使用過的屬性分割人群以發(fā)現(xiàn)潛在客戶的簇——關(guān)聯(lián):通過考察記錄來識別數(shù)據(jù)間的密切關(guān)系關(guān)聯(lián)關(guān)系常常表現(xiàn)為規(guī)則,常用于超市購物籃分析如:所有包含A和B的記錄中有60%同時包含C?!獣r間序列:用于幫助識別與時間有關(guān)的模式
如:通過對客戶多次購物行為的分析可以發(fā)現(xiàn)購物行為在時間上的關(guān)系常用于產(chǎn)品目錄營銷的分析數(shù)據(jù)挖掘的一般目的就是檢測、解釋和預測數(shù)據(jù)中定性的和/或定量的模式數(shù)據(jù)挖掘技術(shù)第30頁/共125頁●數(shù)據(jù)挖掘方法學——模式
數(shù)據(jù)庫中一個事件或事件的結(jié)合,這些事件比預期的要經(jīng)常發(fā)生,其實際發(fā)生率明顯不同于隨機情況下的可期望發(fā)生率。
模式是數(shù)據(jù)驅(qū)動的,一般只反映數(shù)據(jù)本身——模型
對構(gòu)建事件的源時的歷史數(shù)據(jù)庫的描述,并且能夠成功地應(yīng)用于新的數(shù)據(jù),以便對缺少的數(shù)據(jù)作出預測或?qū)ζ谕臄?shù)據(jù)作出說明。模型的一般表現(xiàn)形式數(shù)學方程式描述各客戶段的規(guī)則集計算機表示方式
模式可視化數(shù)據(jù)挖掘技術(shù)第31頁/共125頁●數(shù)據(jù)挖掘方法學——取樣
根據(jù)問題的需要采用隨機取樣的方法從數(shù)據(jù)庫中抽取數(shù)據(jù)進行挖掘,有助于迅速發(fā)現(xiàn)模式、創(chuàng)建模型
數(shù)據(jù)本身的處理過程需要驗證——驗證模型
模型創(chuàng)建過程需要保證正確
模型應(yīng)用的驗證
在依據(jù)一些歷史數(shù)據(jù)建造模型后,將模型應(yīng)用于未參與建造模型的其他類似的歷史數(shù)據(jù),比較其模型輸出結(jié)果與實際結(jié)果。數(shù)據(jù)挖掘技術(shù)第32頁/共125頁人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注,因為它為解決大復雜度問題提供了一種相對來說比較有效的簡單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個參數(shù)的問題(當然實際生物體中存在的神經(jīng)網(wǎng)絡(luò)要比我們這里所說的程序模擬的神經(jīng)網(wǎng)絡(luò)要復雜的多)。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。第33頁/共125頁決策樹決策樹把數(shù)據(jù)歸入可能對一個目標變量有不同效果的規(guī)則組。例如,我們希望發(fā)現(xiàn)可能會對直郵有反應(yīng)的個人特點。這些特點可以解釋為一組規(guī)則。第34頁/共125頁決策樹假設(shè)您是一個銷售一種新的銀行服務(wù)的直郵計劃研究的負責人。為最大程度地獲益,您希望確定基于前次促銷活動的家庭細分最有可能響應(yīng)相似的促銷活動。通常這可以通過查找最能把響應(yīng)前次促銷的家庭和沒有響應(yīng)的家庭區(qū)分開的人口統(tǒng)計信息變量的組合來實現(xiàn)。決策樹為您提供諸如誰會最好地響應(yīng)新的促銷等重要線索,并通過只郵寄給最有可能響應(yīng)的人來最大程度地獲得直郵效益,提高整體響應(yīng)率,并極有希望同時增加銷售。第35頁/共125頁決策樹建立決策樹中最上面的節(jié)點稱為根節(jié)點,是整個決策樹的開始。本例把響應(yīng)客戶作為根節(jié)點??梢钥吹剿惺盏街编]信件的人中有10%有響應(yīng)。然后根據(jù)記錄字段的不同取值建立樹的分支,如分為有住房和無住房兩組,則15%的租戶有響應(yīng),而房主則只有5%。還可以在每個分支子集中重復建立下層結(jié)點和分支。我們可以繼續(xù)分組來發(fā)現(xiàn)最有可能響應(yīng)的組群。這一組群可以表示為一個規(guī)則,如“如果收件人是租戶,有較高的家庭收入,沒有儲蓄存款賬戶,那么他有45%的響應(yīng)概率”。簡單地說,有這些特點的組群中有45%可能會對直郵有響應(yīng)。第36頁/共125頁決策樹圖第37頁/共125頁決策樹應(yīng)用決策樹也是分析消耗(流線性生產(chǎn))、發(fā)現(xiàn)交叉銷售機會、進行促銷、信用風險或破產(chǎn)分析和發(fā)覺欺詐行為的得力工具。第38頁/共125頁聚類分析聚類如同通常所說的“物以類聚”,是把一組個體按照相似性歸成若干類別。它的目的是使屬于同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的大。它反映同類事物共同性質(zhì)的特征型知識和不同事物之間的差異性質(zhì)的特征型知識。通過聚類,數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集。聚類增強了人們對客觀現(xiàn)實的認識,是進行概念描述和偏差分析的先決條件。第39頁/共125頁聚類分析簇(Cluster):一個數(shù)據(jù)對象的集合在同一個類中,對象之間具有相似性;不同類的對象之間是相異的。聚類分析把一個給定的數(shù)據(jù)對象集合分成不同的簇;聚類是一種無監(jiān)督分類法:沒有預先指定的類別;典型的應(yīng)用作為一個獨立的分析工具,用于了解數(shù)據(jù)的分布;作為其它算法的一個數(shù)據(jù)預處理步驟;第40頁/共125頁聚類分析應(yīng)用市場銷售:幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標明確的市場計劃;土地使用:在一個陸地觀察數(shù)據(jù)庫中標識那些土地使用相似的地區(qū);保險:對購買了汽車保險的客戶,標識那些有較高平均賠償成本的客戶;城市規(guī)劃:根據(jù)類型、價格、地理位置等來劃分不同類型的住宅;地震研究:根據(jù)地質(zhì)斷層的特點把已觀察到的地震中心分成不同的類;第41頁/共125頁聚類分析的評判一個好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果——簇,這些簇要具備以下兩個特點:高的簇內(nèi)相似性低的簇間相似性聚類結(jié)果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實現(xiàn);聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;第42頁/共125頁遺傳算法遺傳算法(GeneticAlgorithms)是J.H.Holland根據(jù)生物進化的模型提出的一種優(yōu)化算法。雖然GA剛提出時沒有受到重視,但近年來,人們把它應(yīng)用于學習、優(yōu)化、自適應(yīng)等問題中。模擬生物進化過程的算法,由繁殖(選擇)、交叉(重組)、
變異(突變)三個基本算子組成。遺傳算法已在優(yōu)化計算、分類、機器學習等方面發(fā)揮了顯著作用。遺傳算法是基于進化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計方法的優(yōu)化技術(shù)。
第43頁/共125頁遺傳算法GA的算法首先在解空間中取一群點,作為遺傳開始的第一代。每個點(基因)用一二進制的數(shù)字串表示,其優(yōu)劣程度用一目標函數(shù)(Fitnessfunction)來衡量。在向下一代的遺傳演變中,首先把前一代中的每個數(shù)字串根據(jù)由其目標函數(shù)值決定的概率分配到配對池中。好的數(shù)字串以高的概率被復制下來,劣的數(shù)字串被淘汰掉。然后將配對池中的數(shù)字任意配對,并對每一數(shù)字串進行交叉操作,產(chǎn)生新的子孫(數(shù)字串)。最后對新的數(shù)字串的某一位進行變異。這樣就產(chǎn)生了新的一代。按照同樣的方法,經(jīng)過數(shù)代的遺傳演變后,在最后一代中得到全局最優(yōu)解或近似最優(yōu)解。
第44頁/共125頁規(guī)則推導規(guī)則推導,從統(tǒng)計意義上對數(shù)據(jù)中的“如果-那么”規(guī)則進行尋找和推導,得到關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。第45頁/共125頁可視化技術(shù)用圖表等方式把數(shù)據(jù)特征用直觀地表述出來,如直方圖等,這其中運用的許多描述統(tǒng)計的方法??梢暬夹g(shù)面對的一個難題是高維數(shù)據(jù)的可視化。信息可視化和數(shù)據(jù)挖掘是兩個可互為補充利用的相關(guān)研究領(lǐng)域。當信息可視化作為數(shù)據(jù)挖掘的技術(shù)之一時,同其它技術(shù)相比,它有一個獨特之處:能極大地發(fā)揮用戶的主動參預性。由于對數(shù)據(jù)進行了可視化,用戶愿意進行探索(Explore),在探索過程中有可能發(fā)現(xiàn)意外的知識。第46頁/共125頁其他技術(shù)近鄰算法,將數(shù)據(jù)集合中每一個記錄進行分類的方法。統(tǒng)計分析方法,在數(shù)據(jù)庫字段項之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對它們的分析可采用回歸分析、相關(guān)分析、主成分分析等方法。模糊論方法,利用模糊集合理論,對實際問題進行模糊判斷、模糊決策、模糊模式識別、模糊簇聚分析。第47頁/共125頁●經(jīng)典方法——統(tǒng)計
統(tǒng)計可以通過對類似下列問題的回答獲得模式○在我的數(shù)據(jù)庫中存在什么模式○某個事件發(fā)生的可能性是什么○那些模式是重要的模式
統(tǒng)計的一個重要價值就是它提供了對數(shù)據(jù)庫的高層視圖,這種視圖提供了有用的信息,但不要求在細節(jié)上理解數(shù)據(jù)庫的每一條記錄。10.2.3數(shù)據(jù)挖掘方法第48頁/共125頁●經(jīng)典方法——最近鄰
通過檢測與預測對象最接近的對象的狀況對預測對象進行預測
原理:
某一特定對象可能與其他某一或某些對象比其它一些第三對象更接近;
相互之間“接近”的對象會有相似的取值
根據(jù)其中一個對象的取值,預測其最近鄰對象的預測值
商業(yè)應(yīng)用:文獻檢索市場籃子分析
應(yīng)用評價:
最近鄰的數(shù)量最近鄰的距離決定最近鄰預測的可信度數(shù)據(jù)挖掘方法第49頁/共125頁●現(xiàn)代方法——基礎(chǔ)理論有指導的學習(SupervisedLearning)歸納概念分類標準與模型分類有指導的學習的目的:建立分類模型用模型確定新數(shù)據(jù)實例的類別訓練數(shù)據(jù)(TrainingData)與檢驗集(TestSet)用于創(chuàng)建模型的數(shù)據(jù)實例稱為訓練數(shù)據(jù)用于檢驗模型的準確度的數(shù)據(jù)實例稱為檢驗集數(shù)據(jù)挖掘方法第50頁/共125頁
有指導的學習(SupervisedLearning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥10NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?第51頁/共125頁有指導的學習(SupervisedLearning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥10NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無意義的屬性數(shù)據(jù)挖掘方法第52頁/共125頁
有指導的學習(SupervisedLearning)淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數(shù)據(jù)實例(檢驗集)數(shù)據(jù)挖掘方法第53頁/共125頁無指導的學習(UnsupervisedLearning)為沒有預先定義分類標準的數(shù)據(jù)建立模型客戶ID客戶類型交易保證金帳戶交易方法交易數(shù)/月性別年齡嗜好年收入1005聯(lián)合NoOnline12.5F30-39網(wǎng)球4-5.9萬1013委托保管NoBroke0.5F50-59滑雪8-9.9萬1245聯(lián)合NoOnline3.6M20-29高爾夫2-3.9萬2110個人YesBroke22.3M30-39釣魚4-5.9萬1001個人YesOnline5.0M40-49高爾夫6-10.9萬ABC投資公司客戶表數(shù)據(jù)挖掘方法第54頁/共125頁無指導的學習(UnsupervisedLearning)區(qū)分在線投資者和經(jīng)紀人投資者的特征是什么一個新客戶未開設(shè)交易保證金帳戶,如何確定其將來是否會開設(shè)這種帳戶能建立一個預測新投資者月均交易數(shù)的模型嗎女性和男性投資者有什么不同的特征交易方式交易保證金帳戶月均交易數(shù)性別數(shù)據(jù)挖掘問題屬性哪些屬性相似性決定ABC公司的客戶分組屬性值的哪些不同之處分隔了客戶數(shù)據(jù)庫有指導的學習無指導的學習數(shù)據(jù)挖掘方法第55頁/共125頁●現(xiàn)代方法——決策樹(DecisionTree)決策樹是一種有指導學習的數(shù)據(jù)挖掘方法決策樹的組成決策節(jié)點、分支、葉子———根節(jié)點分支———葉子Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40K節(jié)點
決策樹的分支過程就是對數(shù)據(jù)進行分類的過程,利用幾個變量(每個變量對應(yīng)一個問題)來判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過程也就是數(shù)據(jù)的“純化”過程。數(shù)據(jù)挖掘方法第56頁/共125頁決策樹的算法步驟○假設(shè)T為訓練實例集○選擇一個最能區(qū)別T中實例的屬性○創(chuàng)建一個決策節(jié)點,它的值為所選擇的屬性○創(chuàng)建該節(jié)點的分支,每個分支代表所選屬性的一個唯一值○使用分支的值,將數(shù)據(jù)實例分割為子類○對于步驟5所創(chuàng)建的各個子類:★如果子類中的數(shù)據(jù)實例滿足以下條件,可按此決策樹對新數(shù)據(jù)實例指定類別☆分割中只包含一條數(shù)據(jù)實例☆分割中所有數(shù)據(jù)實例的屬性都相同☆繼續(xù)分割得到的改進不明顯★如果子類不滿足上述條件,則設(shè)T’為當前子類數(shù)據(jù)實例集合,返回步驟2數(shù)據(jù)挖掘方法第57頁/共125頁決策樹的屬性選取屬性選取標準:最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點數(shù)最小患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥10NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒數(shù)據(jù)挖掘方法第58頁/共125頁患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥10NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes敏感癥敏感癥咽炎NoYes頭痛淋巴腫感冒發(fā)燒淋巴腫NoYes咽炎NoYes數(shù)據(jù)挖掘方法決策樹的屬性選取屬性選取標準:最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點數(shù)最小第59頁/共125頁信用卡促銷數(shù)據(jù)庫收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM2103-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19○選取收入段為根節(jié)點○選取壽險促銷為輸出屬性○沿著每個分支有兩個類,選取最頻繁出現(xiàn)的類收入段2Yes2No4Yes1No3No1Yes2Yes2—3萬3—4萬4—5萬5—6萬○訓練集分類的正確性為11/15=103%數(shù)據(jù)挖掘方法第60頁/共125頁——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取信用卡保險為根節(jié)點○選取壽險促銷為輸出屬性○沿著每個分支有兩個類,選取最頻繁出現(xiàn)的類信用卡保險6Yes6No3Yes0NoNoYes○訓練集分類的正確性為9/15=60%數(shù)據(jù)挖掘方法收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM2103-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19第61頁/共125頁——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取數(shù)值型屬性年齡為根節(jié)點○選取壽險促銷為輸出屬性○依照年齡排序,對照輸出屬性進行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點年齡9Yes3No0Yes3No≤43>43○以年齡≤43結(jié)合壽險促銷=Y(jié)es,訓練集分類的正確性為12/15=80%11021029353839404142434343455555YNYYYYYYNYYNNNN數(shù)據(jù)挖掘方法收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM2103-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19第62頁/共125頁——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫的三節(jié)點決策樹○訓練集分類的正確性為13/15=810%數(shù)據(jù)挖掘方法收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM2103-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19第63頁/共125頁——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫收入段壽險促銷信用卡保險性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM2103-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19信用卡保險Yes(5/2)No(4/1)NoYes性別FMYes(3/0)信用卡數(shù)據(jù)庫的兩節(jié)點決策樹○訓練集分類的正確性為12/15=80%數(shù)據(jù)挖掘方法第64頁/共125頁——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫檢驗集收入段壽險促銷信用卡保險性別年齡檢驗結(jié)果4-5萬NoNoM42正確2-3萬NoNoM210正確3-4萬NoNoM43正確2-3萬YesNoM29錯誤年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫的三節(jié)點決策樹數(shù)據(jù)挖掘方法第65頁/共125頁●現(xiàn)代方法——K-平均值算法
K-平均值算法是一種簡單而有效的無指導學習的統(tǒng)計聚類方法,將一組數(shù)據(jù)劃分為不相關(guān)的簇算法步驟○選擇一個K值,用以確定簇的總數(shù)○在數(shù)據(jù)集中任意選擇K個數(shù)據(jù)實例,作為初始的簇中心○試用簡單的歐氏距離將其它數(shù)據(jù)實例賦予距離它們最近的簇中心○試用每個簇中的數(shù)據(jù)實例,計算每個簇的新的平均值○如果新的平均值等于次迭代的平均值,終止該過程。否則,用新平均值作為簇中心并重復步驟3-5。點A(x1,y1)與點B(x2,y2)之間的歐氏距離計算式為數(shù)據(jù)挖掘方法第66頁/共125頁K-平均值算法:例K-平均值輸入屬性實例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.選擇K=2,即將所有數(shù)據(jù)實例分為兩個簇2.選擇實例1作為第1個簇的中心,實例3作為第2個簇的中心3.計算各數(shù)據(jù)實例與C1、C2之間的歐氏距離Dist(C1-1)=0.00Dist(C2-1)=1.00C1Dist(C1-2)=3.00Dist(C2-2)=3.16C1Dist(C1-3)=1.00Dist(C2-3)=0.00C2Dist(C1-4)=2.24Dist(C2-4)=2.00C2Dist(C1-5)=2.24Dist(C2-5)=1.41C2Dist(C1-6)=6.02Dist(C2-6)=5.41C24.迭代結(jié)果得到以下兩個簇簇C1包含實例1、2,簇C2包含實例3、4、5、6YX數(shù)據(jù)挖掘方法第67頁/共125頁——K-平均值算法:例K-平均值輸入屬性實例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新計算每個簇的中心對于C1:x=(1.0+1.0)/2=1.0y=(1.5+4.5)/2=3.0
對于C2:x=(2.0+2.0+3.0+5.0)/4=3.0y=(1.5+3.5+2.5+6.0)/4=3.3105
因此,新的簇中心為C1=(1.0,3.0)C2=(3.0,3.3105)YX6.由于簇中心改變,進行第2次迭代第68頁/共125頁K-平均值算法:例K-平均值輸入屬性實例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.0Dist(C1-1)=1.50Dist(C2-1)=2.104C1Dist(C1-2)=1.50Dist(C2-2)=2.29C1Dist(C1-3)=1.80Dist(C2-3)=2.125C1Dist(C1-4)=1.12Dist(C2-4)=1.01C2Dist(C1-5)=2.06Dist(C2-5)=0.8105C2Dist(C1-6)=5.00Dist(C2-6)=3.30C2第2次迭代的結(jié)果導致了簇的變化:C1包含實例1、2和3,C2包含4、5和6YX第69頁/共125頁K-平均值算法:例K-平均值輸入屬性實例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.010.重新計算每個簇的中心對于C1:x=(1.0+1.0+2.0)/3=1.33y=(1.5+4.5+1.5)/3=2.50
對于C2:x=(2.0+3.0+5.0)/3=3.33y=(3.5+2.5+6.0)/3=4.00
因此,新的簇中心為C1=(1.33,2.50)C2=(3.33,4.00)8.由于簇中心改變,繼續(xù)進行第3次迭代YX第70頁/共125頁K-平均值算法:例數(shù)據(jù)實例與它們所對應(yīng)的簇中心之間的誤差平方和最小K-平均值算法的幾個應(yīng)用K-平均值算法的最優(yōu)聚類標準輸出結(jié)果簇中心簇點均方誤差1(2.610,4.610)(2.00,1.83)2,4,61,3,514.502(1.5,1.5)(2.105,4.125)1,32,4,5,615.943(1.8,2.10)(5,6)1,2,3,4,569.60YXYXYX第71頁/共125頁●現(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)關(guān)聯(lián)規(guī)則的表現(xiàn)形式
關(guān)聯(lián)規(guī)則是一種無指導學習的數(shù)據(jù)挖掘中最普遍的知識發(fā)現(xiàn),是指在行為上具有某種關(guān)聯(lián)的多個事物在一次事件中可能同時出現(xiàn),從而在多個事物中建立聯(lián)系規(guī)則的方法。
“如果怎么樣、怎么樣、怎么樣,那么就會怎么樣”
關(guān)聯(lián)規(guī)則的構(gòu)成前件——“如果怎么樣、怎么樣、怎么樣”
后件——“那么就怎么樣”
——如果買了西裝,就會買領(lǐng)帶
——如果買精顯彩電,就會買家庭影院系統(tǒng)第72頁/共125頁規(guī)則的構(gòu)成如果怎么樣、怎么樣、怎么樣,就會怎么樣前件,激發(fā)條件后件,結(jié)果規(guī)則表現(xiàn)為在前件所有條件成立的前提下,后件結(jié)果會以某一正確概率出現(xiàn)關(guān)聯(lián)規(guī)則(AssociationRules)第73頁/共125頁規(guī)則的置信度和支持度關(guān)聯(lián)規(guī)則(AssociationRules)規(guī)則的置信度又稱為規(guī)則的正確率,是指在前提出現(xiàn)的情況下,后件出現(xiàn)的概率規(guī)則的支持度又稱為規(guī)則的覆蓋率,是指包含規(guī)則出現(xiàn)的屬性值的交易占所有交易的百分比例:如果客戶買牛奶,那么他們也會買面包置信度:在10000次交易中客戶購買了牛奶,而且其中的5000個交易也同時購買了面包,則上述規(guī)則的置信度為5000/10000=50%支持度:在超市一個月的客戶交易中,共有600000次交易,其中購買牛奶的交易為60000次,支持度為60000/600000=10%第74頁/共125頁規(guī)則的生成——關(guān)聯(lián)規(guī)則(AssociationRules)決策樹方法規(guī)則1:如果客戶參加了信用卡保險,那么他就會參加壽險促銷(置信度=3/3=100%,支持度=3/15=20%)規(guī)則2:如果一個男性客戶沒有參加信用卡保險,那么他也不會參加壽險促銷(置信度=4/5=80%,支持度=5/15=33%)規(guī)則3:如果一個女性客戶沒有參加信用卡保險,那么她可能會參加壽險促銷(置信度=5/10=101%,支持度=10/15=410%)規(guī)則4:如果是一個女性客戶,那么她可能會參加壽險促銷(置信度=6/8=105%,支持度=8/15=53%)信用卡保險Yes(5/2)No(4/1)NoYes性別FMYes(3/0)第75頁/共125頁規(guī)則的生成●現(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)最近鄰方法規(guī)則:如果一個客戶處于●的狀況,那么他可能是一個逃款者關(guān)聯(lián)規(guī)則可以使用傳統(tǒng)的方法生成,但適當提供的屬性很多時,因為每條規(guī)則的結(jié)果可能包含大量的前提條件,使用傳統(tǒng)方法會變得不切實際。第76頁/共125頁規(guī)則的生成●現(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)
apriori方法
apriori方法步驟:
1.設(shè)置最小的屬性-值支持度要求
apriori方法是通過生成條目集,按照一定的準則要求從中選擇規(guī)則的方法。條目集是指符合一定支持度要求的“屬性-值”的組合
2.生成條目集
3.使用生成的條目集來創(chuàng)建規(guī)則第77頁/共125頁規(guī)則的生成●現(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)雜志促銷手表促銷壽險促銷信用卡保險性別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM
apriori方法:例1.設(shè)置最小的屬性-值支持度要求(>30%)
2.生成條目集單項集合條目數(shù)雜志促銷=Y(jié)10手表促銷=Y(jié)4手表促銷=N6壽險促銷=Y(jié)5壽險促銷=N5信用卡保險=N8性別=M6性別=F4單項條目集合第78頁/共125頁規(guī)則的生成●現(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)雜志促銷手表促銷壽險促銷信用卡保險性別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM
apriori方法:例雙項條目集合雙項集合條目數(shù)雜志促銷=Y(jié)&手表促銷=N4雜志促銷=Y(jié)&壽險促銷=Y(jié)5雜志促銷=Y(jié)&信用卡保險=N5雜志促銷=Y(jié)&性別=M4手表促銷=N&壽險促銷=N4手表促銷=N&信用卡保險=N5手表促銷=N&性別=M4壽險促銷=N&信用卡保險=N5壽險促銷=N&性別=M4新英卡保險=N&性別=M4信用卡保險=N&性別=F4第79頁/共125頁規(guī)則的生成●現(xiàn)代方法——關(guān)聯(lián)規(guī)則(AssociationRules)雜志促銷手表促銷壽險促銷信用卡保險性別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM
apriori方法:例確定最小置信度(如>50%),利用雙項條目集合生成規(guī)則3.使用生成的條目集來創(chuàng)建規(guī)則規(guī)則1:如果雜志促銷=Y(jié),那么壽險促銷=Y(jié)(5/10)置信度=5/10=101%,支持度=10/10=100%規(guī)則2:如果壽險促銷=Y(jié),那么雜志促銷=Y(jié)(5/5)置信度=5/5=100%,支持度=5/10=50%第80頁/共125頁規(guī)則的生成——關(guān)聯(lián)規(guī)則(AssociationRules)
市場籃子分析就是一種關(guān)聯(lián)規(guī)則的表現(xiàn)
時間序列分析是一種反映客戶行為在時間上的關(guān)聯(lián)性的關(guān)聯(lián)規(guī)則第81頁/共125頁第82頁/共125頁
第83頁/共125頁第84頁/共125頁第85頁/共125頁規(guī)則的應(yīng)用——關(guān)聯(lián)規(guī)則(AssociationRules)——以前件為目標——歸納所有前件一樣的規(guī)則——分析后件的營銷效果——設(shè)計促銷方案(完善前件)——例——收集所有前件為文具、復讀機的規(guī)則,分析這些商品打折是否促進其他高利潤商品的銷售,從而調(diào)整商品結(jié)構(gòu)、設(shè)計促銷方案第86頁/共125頁規(guī)則的應(yīng)用——關(guān)聯(lián)規(guī)則(AssociationRules)——以后件為目標——歸納所有后件一樣的規(guī)則——分析什么因素與后件有關(guān)或?qū)蠹杏绊憽O(shè)計前件促成后件——例——收集到所有后件為西裝的規(guī)則,可以幫助我們了解西裝的銷售受哪些因素的影響或與哪些因素相關(guān),從而可以考慮將這些因素集合在一起而產(chǎn)生促銷效果。第87頁/共125頁規(guī)則的應(yīng)用——關(guān)聯(lián)規(guī)則(AssociationRules)置信度低置信度高支持度高支持度低規(guī)則的置信度和支持度規(guī)則很少是正確的,但可以經(jīng)常使用規(guī)則很少是正確的,而且很少被使用規(guī)則多數(shù)情況下是正確,但很少被使用規(guī)則多數(shù)情況下是正確的,而且可以經(jīng)常使用——以置信度或支持度為目標第88頁/共125頁10.2.4數(shù)據(jù)挖掘的流程
第89頁/共125頁數(shù)據(jù)挖掘的流程確定業(yè)務(wù)對象數(shù)據(jù)準備數(shù)據(jù)挖掘結(jié)果分析和知識同化第90頁/共125頁數(shù)據(jù)挖掘的流程-確定業(yè)務(wù)對象清晰地定義出業(yè)務(wù)問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預測的,但要探索的問題應(yīng)是有預見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的。
第91頁/共125頁數(shù)據(jù)挖掘的流程-數(shù)據(jù)準備數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。數(shù)據(jù)的預處理:研究數(shù)據(jù)的質(zhì)量,為進一步的分析作準備.并確定將要進行的挖掘操作的類型。數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。
第92頁/共125頁數(shù)據(jù)挖掘的流程-數(shù)據(jù)挖掘?qū)λ玫降慕?jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成。
第93頁/共125頁數(shù)據(jù)挖掘的流程-分析和同化結(jié)果分析:解釋并評估結(jié)果,其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù)。知識的同化:將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
第94頁/共125頁數(shù)據(jù)挖掘過程工作量
在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對象是整個過程的基礎(chǔ),它驅(qū)動了整個數(shù)據(jù)挖掘過程,也是檢驗最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)。數(shù)據(jù)挖掘的過程并不是自動的,絕大多數(shù)的工作需要人工完成。其中60%的時間用在數(shù)據(jù)準備上,這說明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴格要求,而后挖掘工作僅占總工作量的10%.第95頁/共125頁數(shù)據(jù)挖掘過程工作量
第96頁/共125頁數(shù)據(jù)挖掘需要的人員
數(shù)據(jù)挖掘過程的分步實現(xiàn),不同的步會需要是有不同專長的人員,他們大體可以分為三類。業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計學有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。
第97頁/共125頁10.3數(shù)據(jù)挖掘在CRM中的應(yīng)用從客戶生命周期角度分析數(shù)據(jù)挖掘技術(shù)的應(yīng)用從行業(yè)角度分析數(shù)據(jù)挖掘技術(shù)的應(yīng)用第98頁/共125頁從客戶生命周期角度分析在客戶生命周期的過程中,各個不同的階段包含了許多重要的事件。數(shù)據(jù)挖掘技術(shù)可以應(yīng)用于客戶生命周期的各個階段提高企業(yè)客戶關(guān)系管理能力,包括爭取新的客戶,讓已有的客戶創(chuàng)造更多的利潤、保持住有價值的客戶等等。
第99頁/共125頁從客戶各生命周期角度分析第100頁/共125頁潛在客戶期市場活動及數(shù)據(jù)挖掘應(yīng)用潛在客戶獲得活動是針對目標市場的營銷活動,尋找對企業(yè)產(chǎn)品或服務(wù)感興趣的人。值得注意的是,在這個階段缺乏客戶數(shù)據(jù)。數(shù)據(jù)挖掘可以把以前的客戶對類似活動的響應(yīng)進行挖掘,從而把市場活動重點鎖定在以前的響應(yīng)者身上。一個更好的方法就是尋找和高價值的客戶類似的潛在客戶——只要一次就獲得正確的客戶。通常,獲得活動使用廣告和其它市場宣傳媒體。無論何種渠道,數(shù)據(jù)挖掘在發(fā)現(xiàn)最重要的客戶特定市場中發(fā)揮重要作用,決定著市場活動的類型、廣告空間等一些宣傳問題。
第101頁/共125頁客戶響應(yīng)期市場活動及數(shù)據(jù)挖掘應(yīng)用潛在客戶通過以下幾種途徑成為響應(yīng)者:登陸企業(yè)網(wǎng)站;撥打免費電話;填寫申請表等。把潛在客戶改變成為確定的客戶、能夠被鎖定和跟蹤的客戶。雖然響應(yīng)者還沒有購買任何產(chǎn)品或服務(wù),但他們有很大的可能性成為購買者,并成為企業(yè)客戶。數(shù)據(jù)挖掘通常被用來判定哪些潛在客戶會變成響應(yīng)者。預測模型也用來判定哪些響應(yīng)者會成為企業(yè)即得客戶。第102頁/共125頁即得客戶市場活動及數(shù)據(jù)挖應(yīng)用(1)響應(yīng)者購買企業(yè)產(chǎn)品的時候就變成了企業(yè)即得客戶。這意味著他們已經(jīng)進行了第一次的購買活動。在即得客戶階段包括許多活動。最重要的活動可以劃分為三:刺激使用(使用展現(xiàn)了客戶行為,當使用是企業(yè)收入的主要來源,刺激使用就成為企業(yè)的重要目標。使用模式因不同的客戶市場而有所不同);交叉銷售(鼓勵客戶購買與第一次購買不同的產(chǎn)品或服務(wù)的市場營銷活動);升級銷售(鼓勵客戶升級現(xiàn)有的產(chǎn)品和服務(wù)的市場營銷活動)。第103頁/共125頁即得客戶市場活動及應(yīng)用(2)即得客戶是數(shù)據(jù)挖掘的重要區(qū)域。客戶使用活動提供了客戶行為模式的最本質(zhì)的東西。預測什么時候會發(fā)生客戶活動,判定哪個客戶可能對交叉銷售和升級銷售活動做出響應(yīng)對企業(yè)來講是極具價值的。但既得客戶的行為經(jīng)常被大量詳細的交易信息所淹沒。使用數(shù)據(jù)挖掘要求從其中抽出其特點??蛻粼缙诘馁徺I和使用模式是對企業(yè)來講是非常具有價值的,在一些行業(yè),首次行為預示了未來的使用信息。這些客戶可以是高消費者或低消費者,他們可能對一個或多個產(chǎn)品感興趣。這類行為通常在早期的購買行為中明顯的表現(xiàn)出來。第104頁/共125頁客戶流失期市場活動及數(shù)據(jù)挖掘應(yīng)用在一些情況下,客戶停止購買企業(yè)產(chǎn)品。對此,有兩種基本不同的流失原因,第一種是主動離開,指的是不再是客戶的既得客戶。了解主動離開出現(xiàn)的原因非常重要,以下是客戶主動離開的一些基本原因:客戶離開了企業(yè)服務(wù)的地區(qū);客戶的生活方式發(fā)生了變化,并不再需要企業(yè)的產(chǎn)品和服務(wù);客戶已經(jīng)獲得了競爭者提供的更好的產(chǎn)品或服務(wù);客戶不再認為使用企業(yè)產(chǎn)品有任何價值。第二種是非主動離開,既被動離開。指的是即得客戶不再是一個好的客戶,通常因為他們停止支付他們的帳單。區(qū)別主動離開和被動離開對企業(yè)來說是非常重要的。數(shù)據(jù)挖掘可以通過分析以前的客戶數(shù)據(jù)得出什么樣的客戶會在將來同樣的離開。即使客戶離開,也不是所有流失的客戶就完全失去了。贏得客戶活動的目標就是重新獲得失去的客戶。第105頁/共125頁從行業(yè)角度分析數(shù)據(jù)挖掘技術(shù)的應(yīng)用CRM中數(shù)據(jù)挖掘應(yīng)用的深度和廣度針對行業(yè)的不同而有所不同,特別是針對與客戶交流頻繁、客戶支持要求高的行業(yè),如銀行、證券、保險、電信、稅務(wù)、零售、旅游、航空、醫(yī)療保健等。零售業(yè)CRM中數(shù)據(jù)挖掘的應(yīng)用電信業(yè)CRM中數(shù)據(jù)挖掘的應(yīng)用金融業(yè)CRM中數(shù)據(jù)挖掘的應(yīng)用第106頁/共125頁零售業(yè)CRM中數(shù)據(jù)挖掘的應(yīng)用零售業(yè)CRM是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域,特別是由于日益增長的Web或電子商務(wù)方式的興起零售數(shù)據(jù)挖掘可有助于識別客戶購買行為,發(fā)現(xiàn)客戶購買模式和趨勢,改進服務(wù)質(zhì)量,取得更好的客戶保持力和滿意度,提高貨品銷量比率,設(shè)計更好的貨品運輸與分銷策略,減少商業(yè)成本。例如:①使用多特征數(shù)據(jù)立方體進行銷售、客戶、產(chǎn)品、時間和地區(qū)的多維分析;②使用多維分析和關(guān)聯(lián)分析進行促銷活動的有效性分析;③序列模式挖掘可用于客戶忠誠分析;④利用關(guān)聯(lián)分析挖掘關(guān)聯(lián)信息進行購買推薦和商品參照。第107頁/共125頁電信業(yè)CRM中的數(shù)據(jù)挖掘電信業(yè)已經(jīng)迅速地從單純的提供市話服務(wù)演變?yōu)樘峁┚C合電信服務(wù)。電信網(wǎng)、因特網(wǎng)和各種其他方式的通信和計算的融合是目前的大勢所趨。利用數(shù)據(jù)挖掘技術(shù)可幫助理解商業(yè)行為、確定電信模式、捕捉盜用行為、更好的利用資源和提高服務(wù)質(zhì)量。例如:①電信數(shù)據(jù)的多維分析有助于識別和比較數(shù)據(jù)通信情況、系統(tǒng)負載、資源使用、用戶組行為、利潤等;②通過多維分析、聚類分析和孤立點分析進行盜用模式分析和異常模式識別;③通過多維關(guān)聯(lián)和序列模式分析進行電信服務(wù)組合和個性化服務(wù);④電信數(shù)據(jù)分析中可視化工具的使用。第108頁/共125頁金融業(yè)CRM中的數(shù)據(jù)挖掘大部分銀行和金融機構(gòu)除提供豐富多樣的儲蓄服務(wù)、信用服務(wù)、投資服務(wù)外,還提供保險服務(wù)和股票投資服務(wù)。在銀行和金融機構(gòu)中產(chǎn)生的金融數(shù)據(jù)通常相對比較完整、可靠,這大大方便了系統(tǒng)化
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級上冊數(shù)學教案-3信息窗一(長方體和正方體的認識)-青島版(五四學制)
- 2025年借調(diào)合同三方協(xié)議
- 《小數(shù)的大小比較》(教學設(shè)計)-2024-2025學年四年級下冊數(shù)學北師大版
- 2025年學習雷鋒精神62周年主題活動實施方案 (4份)
- 2025年學習雷鋒精神六十二周年主題活動方案 合計3份
- 蘇教版數(shù)學三年級上冊單元測試卷-第五單元-解決問題的策略含答案
- 2023年網(wǎng)絡(luò)及通信協(xié)議處理軟件資金需求報告
- 2025年呼和浩特職業(yè)學院單招職業(yè)傾向性測試題庫及答案一套
- 2025年河北旅游職業(yè)學院單招職業(yè)適應(yīng)性測試題庫及參考答案
- 2025年廣西城市職業(yè)大學單招職業(yè)傾向性測試題庫學生專用
- 食品防護評估表
- 編輯出版史考試重點整理
- (74)-17.3手性高效液相色譜法
- 淺談新生兒肺透明膜病的影像學診斷
- SMT失效模式分析PFMEA
- 國際貿(mào)易地理全套課件
- 家校共育-助孩子成長-家長會課件
- 叉形件工藝及車床夾具設(shè)計說明書
- GB/T 5916-2008產(chǎn)蛋后備雞、產(chǎn)蛋雞、肉用仔雞配合飼料
- 《中小學教育懲戒規(guī)則》(試用)試題及答案
- GB/T 23723.1-2009起重機安全使用第1部分:總則
評論
0/150
提交評論