版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、市場營銷中的數(shù)據(jù)分析方法報告內(nèi)容v 原理篇 客戶關(guān)系管理中的數(shù)量方法v 方法篇 數(shù)據(jù)分析方法概論 統(tǒng)計分析方法 數(shù)據(jù)挖掘分析方法v 工具篇 常用數(shù)據(jù)分析工具簡介v 總結(jié) 基本結(jié)論市場營銷中的數(shù)量決策問題 傳統(tǒng)的純粹定性描述方法已遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)代市場營銷實踐的需要,為了體現(xiàn)市場營銷學(xué)本身的科學(xué)性和對企業(yè)實踐的指導(dǎo)性,數(shù)據(jù)分析理論與方法在市場營銷學(xué)中占有越來越重要的地位。 理論上計量市場營銷學(xué)的出現(xiàn) 理念上數(shù)據(jù)庫營銷、關(guān)系營銷的興起 實務(wù)上數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用 探察數(shù)量決策問題的兩個視角 理論上的框架要素 實務(wù)上的業(yè)務(wù)流程視角一:市場營銷學(xué)的理論框架 核心概念營銷觀念營銷計劃營銷組織
2、營銷控制營銷審計產(chǎn)品策略定價策略分銷策略促銷策略需求分析市場細(xì)分目標(biāo)市場市場定位基礎(chǔ)理論戰(zhàn)略理論策略理論管理理論視角一示例:市場營銷中的產(chǎn)品決策 產(chǎn)品定位 定位圖分析(感知定位圖、偏好定位圖等) 新產(chǎn)品擴(kuò)散與產(chǎn)品生命周期管理 巴斯模型(BASS Model) 生長曲線模型(Growth Curve Model) 品牌決策 消費者品牌選擇模型視角二示例:電信業(yè)業(yè)務(wù)流程視圖(eTOM)運營運營實施實施保障保障計費計費運營運營支撐與支撐與就緒就緒客戶關(guān)系管理客戶關(guān)系管理服務(wù)管理與運營服務(wù)管理與運營資源管理與運營資源管理與運營供應(yīng)商供應(yīng)商/合作伙伴關(guān)系管理合作伙伴關(guān)系管理(應(yīng)用, 計算與網(wǎng)絡(luò))企業(yè)管理
3、企業(yè)管理戰(zhàn)略與戰(zhàn)略與企業(yè)企業(yè)規(guī)劃規(guī)劃財務(wù)與資產(chǎn)財務(wù)與資產(chǎn)管理管理企業(yè)質(zhì)量管理企業(yè)質(zhì)量管理管理管理,過程與過程與IT規(guī)劃規(guī)劃 & 架構(gòu)架構(gòu)股東與外部股東與外部關(guān)系管理關(guān)系管理品牌管理品牌管理,市場研究市場研究 &廣告廣告人力資源人力資源管理管理災(zāi)難恢復(fù)災(zāi)難恢復(fù),安全安全 &欺詐管理欺詐管理研究與研究與開發(fā)開發(fā),技術(shù)技術(shù)獲取獲取戰(zhàn)略戰(zhàn)略, 基礎(chǔ)設(shè)施基礎(chǔ)設(shè)施 & 產(chǎn)品產(chǎn)品產(chǎn)品產(chǎn)品周期周期管理管理基礎(chǔ)設(shè)施基礎(chǔ)設(shè)施生命周期生命周期管理管理戰(zhàn)略與戰(zhàn)略與承諾承諾營銷營銷 & 產(chǎn)品提供管理產(chǎn)品提供管理服務(wù)開發(fā)與管理服務(wù)開發(fā)與管理資源開發(fā)與管理資源開發(fā)與管理供應(yīng)鏈開發(fā)與管
4、理供應(yīng)鏈開發(fā)與管理(應(yīng)用, 計算與網(wǎng)絡(luò))客戶客戶視角二示例:理解客戶與市場 市場購買行為 消費者購買行為模型 消費者品牌選擇模型 市場需求測量 市場需求預(yù)測模型 市場細(xì)分客戶生命周期與市場營銷策略客戶生命周期客戶生命周期在不同生命在不同生命周期階段需周期階段需考慮不同問考慮不同問題題如何發(fā)現(xiàn)并獲取潛在客戶?階段A (Acquisition)客戶獲取如何把客戶培養(yǎng)成高價值客戶?階段B:(Build-up)客戶提升如何使客戶使用新電信產(chǎn)品?如何培養(yǎng)顧客忠誠度?階段C:(Climax)客戶成熟如何延長客戶“生命周期”?階段D:(Decline)客戶衰退如何贏回客戶?階段E:(Exit)客戶離網(wǎng)客戶價
5、值客戶價值多種分析主多種分析主題在不同時題在不同時期應(yīng)用期應(yīng)用客戶獲取市場細(xì)分與產(chǎn)品定位目標(biāo)客戶特征識別刺激需求提升銷售交叉銷售目標(biāo)營銷客戶保持生存分析客戶風(fēng)險客戶挽留客戶細(xì)分 細(xì)分是指將一個大的消費群體劃分成一個個細(xì)分群的動作,同屬于一個細(xì)分群的消費者彼此相似,而隸屬于不同細(xì)分群的消費者被視為不同。細(xì)分的目的可以讓管理者從一個比較高的層次上“鳥瞰”整個數(shù)據(jù)庫中的數(shù)據(jù),從而可以用不同的方法對待處于不同細(xì)分群眾的客戶,提供相對個性化的服務(wù)。 客戶細(xì)分的目的 更好的了解客戶結(jié)構(gòu) 改善客戶管理與溝通 增加客戶貢獻(xiàn)度 客戶細(xì)分中的數(shù)量方法 聚類分析 卡方自動交互檢測(CHAID)營銷策略營銷策略客戶保
6、持客戶保持基于獎賞及高成本事件驅(qū)動的保持策略專注的, 區(qū)分優(yōu)先級的Call center支持客戶獲取客戶獲取刻畫子分群的特征建立跟蹤系統(tǒng)(tracking systems)以從價值的角度監(jiān)控新來的客戶交叉銷售交叉銷售對高價值客戶進(jìn)行交叉銷售會產(chǎn)生更大的收益經(jīng)常地, 頭20%的客戶貢獻(xiàn)了將近100% 的整體利潤. 這些客戶對CRM策略開發(fā)是至關(guān)重要的。示例:基于價值的客戶細(xì)分(高價值客戶)中間層代表了客戶的大多數(shù). 他們利潤較?。╰hin margins)但容量巨大(high volume).營銷策略營銷策略定價與行為改變定價與行為改變識別服務(wù)機(jī)會 增強(qiáng)可能的定價結(jié)構(gòu)性定價以鼓勵改善收益性的行為
7、交叉銷售交叉銷售利用預(yù)測模型識別具有潛在價值的客戶利用事件營銷與關(guān)系營銷策略去增加產(chǎn)品的持有量渠道與服務(wù)的效率渠道與服務(wù)的效率識別高成本/低回報的渠道并重新部署或調(diào)整結(jié)構(gòu)定位高成本業(yè)務(wù)流程以流線化或渠道遷移示例:基于價值的客戶細(xì)分(中價值客戶)盡管數(shù)量很少 (10% to 20%) 但他們消除了很大一部分的利潤. 營銷策略營銷策略改變定價改變定價識別與負(fù)利潤相關(guān)的定價策略與行為, 鼓勵服務(wù)使用與目標(biāo)定價以增加或引入由服務(wù)改變而帶來的可能收入客戶風(fēng)險客戶風(fēng)險避免向具有信用風(fēng)險的客戶進(jìn)行交叉銷售客戶獲取客戶獲取識別低價值客戶并積極地在獲取過程中避免與這類客戶發(fā)生接觸示例:基于價值的客戶細(xì)分(低價值
8、客戶) RetirementAgeChildren IndependentWealth AccumulationFirst ChildFirst HomePre-RetirementCareer LaunchIndependenceFinancial DebutEmployment ChangeMarriageHigh Value ?High Value ?Low Value ?Low Value ?示例:基于生命階段的客戶細(xì)分客戶獲取 在大多數(shù)商業(yè)領(lǐng)域中,業(yè)務(wù)發(fā)展的主要指標(biāo)里包括新客戶的獲取能力。新客戶的獲取包括發(fā)現(xiàn)那些對你的產(chǎn)品不了解的客戶,也包括以前接受你的競爭對手服務(wù)的顧客。 客戶獲取
9、中的數(shù)量方法 特征識別(Profiling and Penetration Analysis) 響應(yīng)模型(Response Model)客戶保持 隨著行業(yè)的競爭越來越激烈和獲得一個新客戶的開支愈來愈大,保持原有客戶的工作愈來愈有價值。 客戶保持中的數(shù)量方法 流失預(yù)測模型 客戶忠誠度模型交叉銷售與提升銷售 交叉營銷是指你向現(xiàn)有的客戶提供新的產(chǎn)品和服務(wù)的營銷過程。公司與其客戶之間的商業(yè)關(guān)系是一種持續(xù)的不斷發(fā)展的關(guān)系,在這種關(guān)系建立起來以后,可以有很多種方法來不斷改善這種關(guān)系。雙方的目標(biāo)是達(dá)到雙贏的結(jié)果,客戶獲益是由于他們得到了更好更貼切的服務(wù)質(zhì)量,商家則因為增加銷售量獲利。 交叉銷售中的數(shù)量方法
10、購買傾向預(yù)測 產(chǎn)品關(guān)聯(lián)分析客戶流失 客戶流失預(yù)警 分品牌、高/中/低價值、主動/被動構(gòu)建模型 分類預(yù)測數(shù)據(jù)挖掘模型 客戶挽留流程設(shè)計 彩鈴客戶流失預(yù)警 分主動/捆綁構(gòu)建模型 分類預(yù)測數(shù)據(jù)挖掘模型 客戶挽留流程設(shè)計 競爭對手流失預(yù)警 聯(lián)通用戶流失預(yù)測 客戶挽留流程設(shè)計交叉銷售與提升銷售 購買傾向預(yù)測 彩鈴預(yù)測模型 彩信預(yù)測模型 WAP預(yù)測模型 購物藍(lán)分析 產(chǎn)品關(guān)聯(lián)分析 營銷方案關(guān)聯(lián)分析 提升銷售 價值提升預(yù)測模型營銷案預(yù)演營銷預(yù)演是為了支持業(yè)務(wù)人員營銷預(yù)演是為了支持業(yè)務(wù)人員制訂新的資費營銷方案,然后制訂新的資費營銷方案,然后對該方案在歷史數(shù)據(jù)上做相應(yīng)對該方案在歷史數(shù)據(jù)上做相應(yīng)的測算,從而根據(jù)測算
11、結(jié)果來的測算,從而根據(jù)測算結(jié)果來指導(dǎo)下一步工作。指導(dǎo)下一步工作。營銷活動管理-CMP需求名稱:需求名稱:營銷活動管理(CMP)提出時間:提出時間:2006-01-01需求提出部門:需求提出部門:市場部需求內(nèi)容描述:需求內(nèi)容描述:營銷活動管理。通過系統(tǒng)分析定位目標(biāo)營銷的客戶群,并自動生成客戶群信息進(jìn)行管理,通過實時跟蹤客戶的營銷情況進(jìn)行營銷策略的調(diào)整,并監(jiān)控渠道銷售信息。同時營銷活動完成以后進(jìn)行營銷活動的評估。需求時間計劃:需求時間計劃:計劃06年7月前完成東莞、佛山地市的推廣。需求數(shù)據(jù)要求:需求數(shù)據(jù)要求:目前系統(tǒng)數(shù)據(jù)支撐需求優(yōu)先級別:需求優(yōu)先級別:高需求實施難度:需求實施難度:較高要求配合部門
12、:要求配合部門:業(yè)務(wù)支撐中心、客戶服務(wù)部其他說明:其他說明:全省推廣需求,劉鵬負(fù)責(zé)需求分析和定位:需求分析和定位:屬于05年的需求,已經(jīng)納入日常維護(hù),今年需要推廣。根據(jù)省公司的統(tǒng)一規(guī)劃安排。省公司時間規(guī)劃:1.2006年上半年完成省、市二級規(guī)劃,東莞和佛山推廣2.2006年上半年完成三個事件營銷KPI預(yù)測模型需求名稱:需求名稱:KPI預(yù)測模型提出時間:提出時間:2006-02-23需求提出部門:需求提出部門:東莞公司需求內(nèi)容描述:需求內(nèi)容描述:KPI指標(biāo)中的收入指標(biāo)作為核心指標(biāo),規(guī)劃和預(yù)測十分重要。而收入受營銷政策與執(zhí)行的影響較大,傳統(tǒng)的歷史曲線預(yù)測方法與手段不能準(zhǔn)確預(yù)測當(dāng)期及下期的收入。實現(xiàn)
13、邏輯:將當(dāng)期營收款細(xì)拆為“當(dāng)期收入”(如購卡收入、補(bǔ)換卡收入、后付費收入等)與“分期劃扣收入”(充值卡收入、營銷活動預(yù)存款收入等)兩個部分?!爱?dāng)期收入”非常穩(wěn)定,只受季節(jié)因素影響,“分期劃扣收入” 結(jié)合號碼級數(shù)據(jù)的消費ARPU可以較為方便地預(yù)演推算。 推廣過去,針對KPI指標(biāo)的重要指標(biāo)(如收入、業(yè)務(wù)量等)都可以進(jìn)行規(guī)劃和預(yù)測,有效的幫助各部門制定相關(guān)的政策策略。需求時間計劃:需求時間計劃:無需求數(shù)據(jù)要求:需求數(shù)據(jù)要求:目前系統(tǒng)數(shù)據(jù)支撐。需求優(yōu)先級別:需求優(yōu)先級別:需求級別待定。需求實施難度:需求實施難度:高要求配合部門:要求配合部門:業(yè)務(wù)支撐中心、市場部其他說明:其他說明:區(qū)域接口人負(fù)責(zé)(劉鵬
14、)需求分析和定位:需求分析和定位:需求可行,可以通過邏輯回歸構(gòu)建模型實現(xiàn),具體的建設(shè)方案需要與相關(guān)人員進(jìn)行細(xì)化和確認(rèn)。個人客戶分群需求名稱:需求名稱:個人客戶分群提出時間:提出時間:2006-02-23需求提出部門:需求提出部門:佛山公司需求內(nèi)容描述:需求內(nèi)容描述:每個人作為消費者其對同一種產(chǎn)品的具體功能需求和關(guān)注點是不同的,因此作為為用戶服務(wù)的企業(yè),必須盡可能的考慮這些差異,發(fā)現(xiàn)這些存在于客戶整體內(nèi)部的具有不同特征或消費習(xí)慣的客戶群體,然后再根據(jù)每個群體的特征執(zhí)行針對性的管理或營銷策略。將這個把客戶分成不同群體的過程稱之為“客戶分群”。 通過對客戶合理的類別劃分,并對當(dāng)前客戶以及預(yù)期的客戶群
15、作區(qū)段分析,判斷不同區(qū)段的突出特點,對客戶總體構(gòu)成有準(zhǔn)確的認(rèn)識,對客戶的服務(wù)和營銷更具針對性。對客戶分群可以達(dá)到如下目標(biāo):了解客戶的總體構(gòu)成了解各種客戶價值的客戶群體特征了解流失客戶的客戶群體特征了解使用各種套餐的客戶群體特征了解各消費等級的客戶群體特征需求時間計劃:需求時間計劃:無需求數(shù)據(jù)要求:需求數(shù)據(jù)要求:目前系統(tǒng)數(shù)據(jù)支撐。需求優(yōu)先級別:需求優(yōu)先級別:中等需求實施難度:需求實施難度:中等要求配合部門:要求配合部門:業(yè)務(wù)支撐中心、市場部、數(shù)據(jù)業(yè)務(wù)中心其他說明:其他說明:區(qū)域接口人負(fù)責(zé)(劉敏)需求分析和定位:需求分析和定位:需求可行??蛻舴诸?聚類是根據(jù)一個或多個客戶屬性組合把所有客戶劃分成不
16、同的類,同類內(nèi)的客戶具有最大的相似性,異類間的客戶具有最大的差異性。通過對客戶合理的類別劃分,并對當(dāng)前客戶以及預(yù)期的客戶群作區(qū)段分析,判斷不同區(qū)段的突出特點,對客戶總體構(gòu)成有準(zhǔn)確的認(rèn)識,對客戶的服務(wù)和營銷更具針對性。對于各種業(yè)務(wù)(新業(yè)務(wù))可以單獨進(jìn)行客戶的細(xì)分,也可按照各種業(yè)務(wù)的綜合指標(biāo)進(jìn)行客戶細(xì)分,使市場營銷更具針對性。個人客戶價值評估需求名稱:需求名稱:個人客戶價值評估提出時間:提出時間:2006-02-23需求提出部門:需求提出部門:市場部需求內(nèi)容描述:需求內(nèi)容描述:有區(qū)別的看待個人客戶的差異性,觀察其價值特征變化,綜合考慮成本,用戶成長度,客戶消費等因素,通過建模量化個人客戶對公司的貢
17、獻(xiàn)和價值??蛻魞r值包括客戶貢獻(xiàn)與客戶成本兩個側(cè)面,對于前者,客戶的帳單金額已是很好的衡量指標(biāo),但是也需要綜合考慮其他指標(biāo)(如新業(yè)務(wù)使用情況、長途或者漫游比例等);而對于后者,由于利用財務(wù)數(shù)據(jù)進(jìn)行分?jǐn)偦蛘呋顒訂挝怀杀具M(jìn)行直接計算還需時日(等待財務(wù)部的成本分?jǐn)偣ぷ魍瓿桑十?dāng)前階段是處理貢獻(xiàn)類相關(guān)指標(biāo)以供用戶直觀考察。需求時間計劃:需求時間計劃:06年3月廣州數(shù)據(jù)集市試點需求數(shù)據(jù)要求:需求數(shù)據(jù)要求:目前系統(tǒng)數(shù)據(jù)支撐需求優(yōu)先級別:需求優(yōu)先級別:高需求實施難度:需求實施難度:高要求配合部門:要求配合部門:業(yè)務(wù)支撐中心、財務(wù)部其他說明:其他說明:負(fù)責(zé)人待定需求分析和定位:需求分析和定位:個人客戶價值如果
18、考慮成本分?jǐn)?,需要等財?wù)部開展的成本分?jǐn)偼瓿珊蟛拍芸紤]到地市的實施。新產(chǎn)品生命周期分析需求名稱:需求名稱:新產(chǎn)品生命周期分析提出時間:提出時間:2006-02-23需求提出部門:需求提出部門:數(shù)據(jù)業(yè)務(wù)中心需求內(nèi)容描述:需求內(nèi)容描述:目前地市沒有明確和急需的需求,只是有個這樣的概念和初步的想法。省公司想法是作為一個科研項目來研究和分析,希望能研究一些成果幫助市公司的市場分析和營銷策略。需求時間計劃:需求時間計劃:根據(jù)省公司的統(tǒng)一規(guī)劃安排。需求數(shù)據(jù)要求:需求數(shù)據(jù)要求:目前系統(tǒng)數(shù)據(jù)支撐需求優(yōu)先級別:需求優(yōu)先級別:高需求實施難度:需求實施難度:高要求配合部門:要求配合部門:業(yè)務(wù)支撐中心、市場部其他說明
19、:其他說明:試點科研項目,鄧逸斌、劉鵬負(fù)責(zé)需求分析和定位:需求分析和定位:題目比較難,優(yōu)先級別比較高,先按照省公司的思路和計劃安排走。初步思路進(jìn)行兩個方面的研究:1.現(xiàn)有新業(yè)務(wù)產(chǎn)品的生命周期曲線研究 本研究的內(nèi)容主要包括構(gòu)建產(chǎn)品生命周期曲線預(yù)測模型并基于相關(guān)產(chǎn)品展開數(shù)據(jù)實證研究,同時對實證結(jié)果進(jìn)行有效的業(yè)務(wù)解釋并形成合理的政策建議。2.新業(yè)務(wù)產(chǎn)品生命周期變遷之關(guān)鍵績效指標(biāo)的研究 本研究的內(nèi)容主要包括分析并總結(jié)產(chǎn)品生命周期變遷過程中對階段性轉(zhuǎn)折點具有前瞻警示作用的業(yè)務(wù)指標(biāo),并在此基礎(chǔ)之上構(gòu)建切實可行的關(guān)鍵指標(biāo)體系報告內(nèi)容v 原理篇 客戶關(guān)系管理中的數(shù)量方法v 方法篇 數(shù)據(jù)分析方法概論 統(tǒng)計分析方
20、法 數(shù)據(jù)挖掘分析方法v 工具篇 常用數(shù)據(jù)分析工具簡介v 總結(jié) 基本結(jié)論數(shù)量分析方法(Quantitative Analysis) 數(shù)量分析是對事物的數(shù)量特征、數(shù)量關(guān)系與數(shù)量變化的分析。 數(shù)量分析的類型 按照分析的目的 探索性數(shù)據(jù)分析 描述性數(shù)據(jù)分析 解釋性數(shù)據(jù)分析 按照問題的本質(zhì) 確定性分析 不確定性分析數(shù)量分析中的模型化方法 數(shù)量模型是對現(xiàn)實問題的描述和模仿 模型是為認(rèn)識目的或?qū)嵺`目的而建立的 典型的模型化過程準(zhǔn)備假設(shè)確定數(shù)學(xué)關(guān)系求解分析檢驗應(yīng)用數(shù)據(jù)分析模型nE.F.Codd的數(shù)據(jù)分析模型 絕對模型(Categorical Model):依據(jù)預(yù)定義路徑尋找原因,如查詢 解釋模型(Exeget
21、ical Model):依據(jù)多層次路徑尋找原因,如多維分析 思考模型(Contemplative Model):參數(shù)化路徑,如場景分析 公式模型(Formulaic Model):模型化路徑,如數(shù)據(jù)挖掘ReportingAd Hoc QueriesPredictive ModelingWhat happened ?Why did it happen ?What will happen ?ROI應(yīng)用復(fù)雜性應(yīng)用復(fù)雜性Stage 3Stage 2Stage 1Human DiscoveryMachine-assisted Discovery常用的數(shù)據(jù)分析方法/模型 數(shù)量分析是對事物的數(shù)量特征、數(shù)量關(guān)
22、系與數(shù)量變化的分析。 數(shù)量分析的類型 按照分析的目的 探索性數(shù)據(jù)分析 描述性數(shù)據(jù)分析 解釋性數(shù)據(jù)分析 按照問題的本質(zhì) 確定性分析 不確定性分析認(rèn)識分析數(shù)據(jù):數(shù)據(jù)測量尺度 名義尺度 有序尺度 間隔尺度 比例尺度認(rèn)識分析數(shù)據(jù):數(shù)據(jù)結(jié)構(gòu)類型 截面數(shù)據(jù)(Cross-section Data) 時間序列數(shù)據(jù)(Time-series Data) 面板數(shù)據(jù)(Panel Data)數(shù)據(jù)分析的出發(fā)點:數(shù)據(jù)矩陣 截面數(shù)據(jù)(Cross-section Data) 時間序列數(shù)據(jù)(Time-series Data) 面板數(shù)據(jù)(Panel Data)常用的統(tǒng)計分析方法 數(shù)據(jù)分類分析 聚類分析 判別分析 數(shù)據(jù)化簡分析 主成
23、分分析 因子分析 數(shù)據(jù)相關(guān)分析 回歸分析 典型相關(guān)分析 數(shù)據(jù)預(yù)測分析 時間序列預(yù)測什么是數(shù)據(jù)挖掘?DataInformationKnowledgeWisdomn存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu) To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive da
24、ta / large data set / large database / data warehouse 、Data + contextInformation + rulesKnowledge + experience為什么會出現(xiàn)數(shù)據(jù)挖掘?n數(shù)據(jù)爆炸性增長是數(shù)據(jù)挖掘技術(shù)應(yīng)運而生的根本原因。 只見樹木,不見森林(Drowning in data but starving for information) 計算復(fù)雜度 數(shù)據(jù)管理問題 數(shù)據(jù)類型的多樣性處理大容量數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)區(qū)別于其他數(shù)據(jù)分析方法的唯一標(biāo)志嗎?其他數(shù)據(jù)分析方法:統(tǒng)計學(xué)n從處理數(shù)據(jù)的角度看、 數(shù)據(jù)規(guī)模不同 數(shù)據(jù)來源不同:觀測數(shù)據(jù)(
25、Secondary Analysis) VS 試驗數(shù)據(jù)(Primary Analysis) 數(shù)據(jù)類型不同(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù))n從分析思想的角度看 更關(guān)注實證性分析(Empirical Analysis)而非探索性分析(Exploratory Analysis) 更關(guān)注模型(Model)而非算法(Algorithm)n但二者具有相當(dāng)密切的聯(lián)系 從數(shù)據(jù)分析的角度,統(tǒng)計學(xué)現(xiàn)在是且仍將是數(shù)據(jù)挖掘最重要的技術(shù)支撐和思想源泉 更加深入的滲透和交叉(如探索性數(shù)據(jù)分析,EDA)數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動的探索性分析 !數(shù)據(jù)挖掘:多學(xué)科的匯合數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學(xué)其它學(xué)科信息科學(xué)機(jī)器學(xué)習(xí)可視化人
26、工智能科學(xué)計算數(shù)據(jù)挖掘是一個過程- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)數(shù)據(jù)挖掘過程中的數(shù)據(jù)預(yù)處理n數(shù)據(jù)清洗 填充缺失值, 修均噪聲數(shù)據(jù), 識別或刪除孤立點, 并解決數(shù)據(jù)不一致問題 主要分析方法:分箱(Binning)、聚類、回歸n數(shù)據(jù)集成 多個數(shù)據(jù)庫、數(shù)據(jù)方或文件的集成n數(shù)據(jù)變換 規(guī)范化與匯總n數(shù)據(jù)簡化 減少數(shù)據(jù)量的同時, 還可以得到相同或相近的分析結(jié)果 主要分析方法:抽樣、主成分分析n數(shù)據(jù)離散化 數(shù)據(jù)簡化的一部分, 但非常重要 (尤其對
27、于數(shù)值型數(shù)據(jù)來說)數(shù)據(jù)挖掘過程中的數(shù)據(jù)探索n探索性數(shù)據(jù)分析(Exploratory Data Analysis, EDA) 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系 對數(shù)據(jù)集沒有各種嚴(yán)格假定 “玩”數(shù)據(jù)n主要任務(wù) 數(shù)據(jù)可視化(a picture is worth a thousand words) 殘差分析(數(shù)據(jù)擬合 + 殘差) 數(shù)據(jù)的重新表達(dá)(什么樣的尺度對數(shù)抑或平方跟會簡化分析?) 方法的耐抗性(對數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值)n常見方法 統(tǒng)計量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等 統(tǒng)計圖,如餅圖、直方圖、散點圖、箱尾圖等 模型,如聚類數(shù)據(jù)挖掘結(jié)果的評價n
28、興趣度度量:一個模式是有意義的,如果它易于被人理解,在某種程度上,對于新數(shù)據(jù)或者測試數(shù)據(jù)是有效的、潛在有用或者驗證了用戶渴望確認(rèn)的某些假設(shè)。 目前仍無很好的解決辦法,很大程度上仍依靠人工 不存在解決這個問題的簡單技術(shù),最終答案是不要把數(shù)據(jù)挖掘當(dāng)作脫離數(shù)據(jù)內(nèi)涵的簡單技術(shù)來運用 客觀興趣度:基于統(tǒng)計或模式的結(jié)構(gòu),如統(tǒng)計量、支持度、lift等 主觀興趣度:基于用戶對數(shù)據(jù)的確信程度,如意外程度、新奇程度或者可行動性等 過度擬合(Over-fitting)問題什么不是數(shù)據(jù)挖掘?n定量分析(Quantitative Analysis)的需要存在企業(yè)管理運行的各個側(cè)面或環(huán)節(jié),但并非所有的定量分析問題都可以歸
29、結(jié)到數(shù)據(jù)挖掘范疇的問題。 簡單的報表、圖表及多維分析仍是日常分析工作的主要內(nèi)容 小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計分析方法更成熟有效,如趨勢預(yù)測 某些特定業(yè)務(wù)問題無法用數(shù)據(jù)挖掘算法加以解決,例如資源最優(yōu)配置問題是個運籌學(xué)問題某些物流管理問題或者供應(yīng)鏈管理問題是個隨機(jī)規(guī)劃問題營銷預(yù)演本質(zhì)是個系統(tǒng)仿真問題幾個基本概念n模型(Model) vs 模式(Pattern) 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(Generalize)到總體(Population)上去 模型:對數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點,例如聚類分析 模式:對數(shù)據(jù)集的一種局部性的有限特征的描述或概
30、括,適用于數(shù)據(jù)空間的一個子集,例如關(guān)聯(lián)分析n算法(Algorithm):一個定義完備(well-defined)的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出n描述型挖掘(Descriptive) vs 預(yù)測型挖掘(Predictive) 描述型挖掘:對數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征 預(yù)測型挖掘:根據(jù)觀察到的對象特征值來預(yù)測它的其他特征值 描述型挖掘可以是目的,也可以是手段幾類基本的挖掘算法n關(guān)聯(lián)規(guī)則(模式、描述型) 發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式 例如:buy(x,”diapers”) buy(x,”beers”) 0.5%, 60%n分類與預(yù)測(模型、預(yù)測型) 發(fā)現(xiàn)能夠區(qū)分或預(yù)測
31、目標(biāo)變量(唯一的)的規(guī)則或者函數(shù) 分類的目標(biāo)變量一般是范疇型的,而預(yù)測則是數(shù)量型的,并不必然帶有任何時間延續(xù)型的暗示 例如:股票市值的預(yù)測,病人病情的判斷n聚類(模型、描述型) 對數(shù)據(jù)分組以形成新類,類標(biāo)記是未知的 例如:市場細(xì)分n孤立點探測(Outlier Detection)(模式、預(yù)測型) 分析異?;蛟肼晹?shù)據(jù)的行為模式 例如:欺詐檢測關(guān)聯(lián)規(guī)則的基本概念n基本定義 給定(1)事務(wù)數(shù)據(jù)集(2)每個事務(wù)是數(shù)據(jù)項的集合,試圖發(fā)現(xiàn)項集中的頻繁模式或關(guān)聯(lián)關(guān)系 所謂頻繁模式或者關(guān)聯(lián)規(guī)則就是一個具有“A B”形式的邏輯蘊(yùn)涵式 頻繁模式并不必然蘊(yùn)涵著因果關(guān)系或相關(guān)關(guān)系! 算法實現(xiàn)基本上基于APRIORI法
32、則:頻繁項集的所有非空子集一定也是頻繁(Frequent)的n基本分類 布爾關(guān)聯(lián)規(guī)則 vs 定量關(guān)聯(lián)規(guī)則buy(x,”diapers”) buy(x,”beers”)Age(x,”30.39”) income(x,”42k.48k”) buy(x,”PC”) 單維關(guān)聯(lián)規(guī)則 vs 多維關(guān)聯(lián)規(guī)則 單層關(guān)聯(lián)規(guī)則 vs 多層關(guān)聯(lián)規(guī)則Age(x,”30.39”) income(x,”42k.48k”) buy(x,”IBM PC”) 序列模式(Sequence Pattern)數(shù)據(jù)項是一個包含時間標(biāo)簽的序偶item(i),t關(guān)聯(lián)規(guī)則的度量n發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則 X Y Z 支持度(sup
33、port), s, 事務(wù)中包含X & Y & Z的概率 置信度(confidence), c, 事務(wù)中包含X & Y的條件下, 包含Z的條件概率n令最小支持度為50%, 最小置信度為50%, 則有A C (50%, 66.6%)C A (50%, 100%)顧客購買尿布顧客購買尿布顧客購買兩者顧客購買兩者顧客購買啤酒顧客購買啤酒對支持度與置信度的批判n示例 總共5000名學(xué)生, 其中3000人玩籃球3750人吃谷類食品2000人既玩籃球又吃谷類食品play basketball eat cereal 40%, 66.7% 是一個誤導(dǎo)規(guī)則, 因為吃谷類食品的學(xué)生占學(xué)生總數(shù)
34、的75%, 比66.7%更高play basketball not eat cereal 20%, 33.3% 其實是一個更精確的規(guī)則, 盡管它的支持度和置信度都比較低關(guān)聯(lián)規(guī)則的應(yīng)用n市場購物籃分析(Market Basket Analysis) 例如一個事務(wù)是客戶的一個購物清單,同一客戶的兩份清單被認(rèn)為是兩個不同的事務(wù) 數(shù)據(jù)項是所有可能陳列貨物的全集 目標(biāo)是發(fā)現(xiàn)同時出現(xiàn)的貨品組合間的關(guān)聯(lián)模式 應(yīng)用:商品貨價設(shè)計、倉儲規(guī)劃、網(wǎng)頁布局、產(chǎn)品目錄設(shè)計等等n交叉銷售(Cross Selling) 客戶依次購買不同產(chǎn)品的序列 目標(biāo)是發(fā)現(xiàn)在購買某一產(chǎn)品組合之后客戶可能購買的另一產(chǎn)品或服務(wù) 應(yīng)用:網(wǎng)絡(luò)故障
35、分析、網(wǎng)站門戶設(shè)計等分類問題的基本定義n給定一數(shù)據(jù)集合(訓(xùn)練集) 數(shù)據(jù)記錄由一系列變量組成 其中有一個變量是目標(biāo)分類標(biāo)簽n尋找一模型,使目標(biāo)分類變量值是其他變量值的一個函數(shù)n利用上述函數(shù),一未知分類變量值的數(shù)據(jù)記錄能夠盡可能準(zhǔn)確地被判定到某一類別中去 一般會有另一獨立地數(shù)據(jù)集(測試集)用以驗證所構(gòu)建分類函數(shù)的準(zhǔn)確性,避免過度擬合分類過程示意訓(xùn)練集訓(xùn)練集分類學(xué)習(xí)分類學(xué)習(xí)訓(xùn)練集訓(xùn)練集分類器分類器IF rank = professorOR years 6THEN tenured = yesJef is YES!分類中的決策樹(Decision Tree)歸納n決策樹 類似于流程圖的樹型結(jié)構(gòu) 內(nèi)部節(jié)點
36、代表對某個屬性的一次測試 分支代表測試的輸出結(jié)果 葉節(jié)點代表分類標(biāo)簽或分布n決策樹的生成包括兩個階段 樹的創(chuàng)建首先, 所有訓(xùn)練樣本都位于根節(jié)點遞歸地基于選擇屬性來劃分樣本集 樹的修剪識別并刪除那些反映噪聲或孤立點的分支n應(yīng)用決策樹: 對未知樣本進(jìn)行分類 在決策樹上測試樣本的各個屬性值決策樹示意age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40n示例:是否購買計算機(jī)? 聚類的基本概念n基本定義 將數(shù)據(jù)對象集劃分成事先未知的分組或類別 聚類的原則:類內(nèi)相似度高,類間相似度低 相似度一般為某種距離函數(shù)D(i
37、,j) 聚類既可以作為獨立分析工具考察數(shù)據(jù)分布結(jié)構(gòu),也可以作為其他分析方法的預(yù)處理步驟 很不幸,對聚類結(jié)果的評價一般都是主觀的n基本分類 將數(shù)據(jù)對象集劃分成事先未知的分組或類別聚類示意n 基于歐氏距離的三維空間中的聚類)|(|),(222jzizjyiyjxixjidA1A2B1xyz從算法到應(yīng)用報告內(nèi)容v 原理篇 客戶關(guān)系管理中的數(shù)量方法v 方法篇 數(shù)據(jù)分析方法概論 統(tǒng)計分析方法 數(shù)據(jù)挖掘分析方法 其他分析方法v 工具篇 常用數(shù)據(jù)分析工具簡介v 總結(jié) 基本結(jié)論數(shù)據(jù)分析軟件數(shù)據(jù)分析軟件的種類數(shù)據(jù)分析軟件的種類 按照分析模式 統(tǒng)計分析軟件 數(shù)據(jù)挖掘軟件 OLAP軟件 科學(xué)計算軟件 按照分析范圍
38、通用分析軟件 專用分析軟件 按照分析規(guī)模 企業(yè)級分析軟件 桌面級分析軟件數(shù)據(jù)分析軟件的基本特點 功能全面,系統(tǒng)地集成了多種成熟的數(shù)據(jù)分析方法 有完善的數(shù)據(jù)定義、操作和管理功能 方便地生成各種統(tǒng)計圖形和統(tǒng)計表格 使用方式簡單、靈活,有完備的聯(lián)機(jī)幫助功能 軟件開放性好,能方便地和其他軟件進(jìn)行數(shù)據(jù)交換學(xué)習(xí)使用統(tǒng)計分析軟件的基本方法 弄清分析的目的 正確收集待處理和分析的數(shù)據(jù)(目的、影響因素的剔除) 弄清分析方法的概念、含義和適用范圍。無需記憶公式 選擇一種或幾種分析方法來探索性地分析數(shù)據(jù) 讀懂計算機(jī)分析的數(shù)據(jù)結(jié)果,發(fā)現(xiàn)規(guī)律,得出結(jié)論SAS:The Power to Know SAS (Statist
39、ical Analysis System)是一個模塊化、集成化的大型應(yīng)用軟件系統(tǒng);目前國際上最流行的一種大型統(tǒng)計分析系統(tǒng);統(tǒng)計分析的標(biāo)準(zhǔn)軟件 SAS系統(tǒng)主要完成以數(shù)據(jù)為中心的四大任務(wù):數(shù)據(jù)訪問;數(shù)據(jù)管理;數(shù)據(jù)呈現(xiàn);數(shù)據(jù)分析。 它由數(shù)十個專用模塊構(gòu)成,SAS/STAT(統(tǒng)計分析);SAS/ETS(經(jīng)濟(jì)計量與時間序列分析);SAS/QC(質(zhì)量控制管理);SAS/OR(運籌學(xué));SAS/IML(矩陣運算);SAS/GRAPH(繪圖)等SPSS:Real Stat, Real Easy SPSS(Statistical Package for the Social Science)社會科學(xué)統(tǒng)計軟件包是
40、世界是著名的統(tǒng)計分析軟件之一。 SPSS for Windows是一個組合式軟件包,它集數(shù)據(jù)整理、分析功能于一身。用戶可以根據(jù)實際需要和計算機(jī)的功能選擇模塊,以降低對系統(tǒng)硬盤容量的要求,有利于該軟件的推廣應(yīng)用。 SPSS的基本功能包括數(shù)據(jù)管理、統(tǒng)計分析、圖表分析、輸出管理等等。SPSS統(tǒng)計分析過程包括描述性統(tǒng)計、均值比較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時間序列分析、多重響應(yīng)等幾大類,每類中又分好幾個統(tǒng)計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權(quán)估計、兩階段最小二乘法、非線性回歸等多個統(tǒng)計過程,而且
41、每個過程中又允許用戶選擇不同的方法及參數(shù)。SPSS也有專門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形。報告內(nèi)容v 原理篇 客戶關(guān)系管理中的數(shù)量方法v 方法篇 數(shù)據(jù)分析方法概論 統(tǒng)計分析方法 數(shù)據(jù)挖掘分析方法v 工具篇 常用數(shù)據(jù)分析工具簡介v 總結(jié) 基本結(jié)論總結(jié)總結(jié) 關(guān)鍵是業(yè)務(wù)問題的發(fā)現(xiàn)及其構(gòu)建以及切實迎合業(yè)務(wù)需要 從分析方法的角度切入討論只是手段而非目的 方法還是很重要的 方法應(yīng)該是最不會成為問題的 方法是個工具箱關(guān)于Teradata2005 Revenue by Business UnitTeradata Data WarehouseRetail SolutionsFinancial Soluti
42、ons Worldwide Customer ServicesSystemediaNCR公司概貌 Fortune 500 company Global operations in over 100 countries & territories More than 28,000 employees $6B revenue Non-pension operating income 3 point improvement to 9%50% of Top Global Retailers 60% of Top Most Admired Global Companies 90% of Top
43、Global Telco Firms60% of Top Global Airlines50% of the Top Transportation Logistic FirmsTeradata在Fortune500中的優(yōu)異表現(xiàn)Leading industries Banking Government Insurance & Healthcare Manufacturing Retail Telecommunications Transportation Logistics Travel World class customer list More than 800 customersG
44、lobal presence Over 100 countries and territories FORTUNE Global Rankings, July 2005Top Ten Ranking in Fortune 500分析型CRM是擅長之一RetailFinancial TravelCommunications InsuranceManufacturing/SourcingUnion Bank of NorwayTechnology ROI Awards Harrahs - Grand Prize Winner State of Iowa - Winner, Public Secto
45、rTDWI Best Practices Award Enterprise Data Warehouse: Union Pacific Government & Non-profit: State of MichiganWorld Class Solution Awards Jefferson County Public Schools, winner- Data Management category; GCN Agency Awards US Air Force Knowledge Systems, Material Systems Group/Enterprise Systems
46、 DivisionNCDM Database Excellence Award Fubon Financial Holding Company (Taiwan) - Silver AwardCIO Magazine Enterprise Value Awards Continental Airlines, Winner - Transportation Ace Hardware, Winner - Retail/WholesaleIntelligent Enterprise Editors Choice Awards Teradata named one of Intelligent Enterprise Dozen Most Influential CompaniesDM Review 100 Teradata - industry leader in business intelligence, data warehousing and analytics market CRM Market Leader Teradata - Market Leader in CRM Analytics categoryBest Practices in Business Intelligence LexisNexis, Managing and En
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國際投資協(xié)定動態(tài)-深度研究
- 共享平臺風(fēng)險防控策略-深度研究
- 地球觀測衛(wèi)星技術(shù)-深度研究
- 城市生態(tài)系統(tǒng)構(gòu)建-第2篇-深度研究
- 基因編輯法律倫理-深度研究
- 數(shù)字技術(shù)在雕塑藝術(shù)中的創(chuàng)新運用-深度研究
- 戰(zhàn)略資源整合策略-深度研究
- 分布式光伏發(fā)電市場分析-深度研究
- 大氣邊界層湍流研究-深度研究
- X光影像輔助診斷系統(tǒng)-深度研究
- 2024年高純氮化鋁粉體項目可行性分析報告
- 安檢人員培訓(xùn)
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期1月期末 英語試題
- 危險性較大分部分項工程及施工現(xiàn)場易發(fā)生重大事故的部位、環(huán)節(jié)的預(yù)防監(jiān)控措施
- 《榜樣9》觀后感心得體會四
- 2023事業(yè)單位筆試《公共基礎(chǔ)知識》備考題庫(含答案)
- 化學(xué)-廣東省廣州市2024-2025學(xué)年高一上學(xué)期期末檢測卷(一)試題和答案
- 2025四川中煙招聘高頻重點提升(共500題)附帶答案詳解
- EHS工程師招聘筆試題與參考答案(某大型央企)2024年
- 營銷策劃 -麗亭酒店品牌年度傳播規(guī)劃方案
- 2025年中國蛋糕行業(yè)市場規(guī)模及發(fā)展前景研究報告(智研咨詢發(fā)布)
評論
0/150
提交評論