版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第2章商務(wù)智能應(yīng)用
--分析型CRM第2章商務(wù)智能應(yīng)用
--分析1企業(yè)在擴大市場、提高效率和保持客戶的原始商業(yè)驅(qū)動力不變的情況下,如何繼續(xù)保持競爭的優(yōu)勢。有遠見的公司都會意識到,只有將自己建成能夠?qū)蛻糇鞒鲅杆俜磻?yīng)的公司才能獲得諸多收獲,這些收獲包括收入、新客戶、客戶滿意度、客戶回頭率以及公司效益的增加,從而使競爭力大為提升。企業(yè)在擴大市場、提高效率和保持客戶的原始商業(yè)驅(qū)動力不變的情況2本章內(nèi)容:CRM概述CRM與商務(wù)智能客戶行為分析客戶分類案例分析本章內(nèi)容:CRM概述3CRM概述建立客戶關(guān)系管理(CRM)系統(tǒng)的目的是賦予企業(yè)更完善的與客戶交流的能力,即從潛在客戶識別、生成有需求的客戶,到銷售完結(jié)以及不斷進行的服務(wù)和支持,提供全過程的自動化處理和更好的協(xié)調(diào)與合作,以提高客戶滿意度和客戶忠實度,增加市場機會和銷售利潤,為企業(yè)發(fā)展服務(wù)。CRM概述建立客戶關(guān)系管理(CRM)系統(tǒng)的目的是賦予企業(yè)更完4操作型CRM的設(shè)計目的是為了讓業(yè)務(wù)人員在日常的工作中能夠共享客戶資源,減少信息流動滯留點。通過市場營銷、銷售和服務(wù)等業(yè)務(wù)流程的管理,將客戶的各種信息收集并整合在一起,再將這些運營數(shù)據(jù)和外來的市場數(shù)據(jù)經(jīng)過整合和變換,裝載進DW。協(xié)作型CRM就是能夠讓企業(yè)客戶服務(wù)人員同客戶一起完成某項活動。協(xié)作型應(yīng)用目前主要由呼叫中心、客戶多渠道聯(lián)絡(luò)中心、幫助臺以及自助服務(wù)幫助導航,向客戶解釋特定內(nèi)容的網(wǎng)頁等。
操作型CRM的設(shè)計目的是為了讓業(yè)務(wù)人員在日常的工作中能夠共享5分析型CRM事實上是以改善業(yè)務(wù)管理為目的的分析活動,主要是分析現(xiàn)有的歷史數(shù)據(jù)或者操作型CRM中獲得的各種數(shù)據(jù),進而為企業(yè)的經(jīng)營、決策提供可靠的量化的依據(jù)。在一家銀行的信用卡客戶中,可能有80%的人幾乎不用信用卡交易,有10%的客戶偶爾用卡交易,剩下10%的客戶會頻繁用卡交易,而這一部分客戶可能為銀行信用卡部帶來80%的收入,所以這10%自然是最有價值的客戶。利用分析型CRM系統(tǒng)對客戶進行細分,就可以針對有價值的客戶開展特別的促銷活動、提供更個性化的服務(wù),這無疑將使企業(yè)以最小的投入獲得最大的回報。分析型CRM事實上是以改善業(yè)務(wù)管理為目的的分析活動,主要是分6商務(wù)智能與CRM如果說操作型與協(xié)作型CRM是企業(yè)的臂膀,那么分析型CRM就是企業(yè)的大腦。數(shù)據(jù)整合――提供客戶全景視圖利用數(shù)據(jù)倉庫技術(shù),可以將散落在各個業(yè)務(wù)數(shù)據(jù)庫中的客戶信息經(jīng)過ETL(抽取、轉(zhuǎn)換、加載)過程,清洗、轉(zhuǎn)化、連接、概括、集成為統(tǒng)一的分析數(shù)據(jù);同時,數(shù)據(jù)倉庫強大的數(shù)據(jù)存儲及管理能力可以對海量客戶數(shù)據(jù)有效的存儲、索引、歸類。商務(wù)智能與CRM如果說操作型與協(xié)作型CRM是企業(yè)的臂7信息提交過程企業(yè)信息系統(tǒng)最終的關(guān)注點在于信息的傳遞,實現(xiàn)從數(shù)據(jù)到信息的深層次轉(zhuǎn)化。(1)OLAP的多維立方體模型為用戶提供多維的分析視圖,通過鉆取、旋轉(zhuǎn)、切片(塊)等操作,使得用戶可以隨心所欲地對客戶數(shù)據(jù)進行多維分析,獲取關(guān)于客戶的細分市場、購買模式、盈利能力等重要信息。(2)通過簡單易用的工具使得終端用戶可以自由的按照自己的意圖來操縱數(shù)據(jù),從而為自己的業(yè)務(wù)問題提供信息支持。(3)利用企業(yè)信息門戶策略可以根據(jù)不同的用戶定制信息界面,從而保證信息在適當?shù)臅r間、通過適當?shù)氖侄?、傳遞到適當?shù)娜耸种小P畔⑻峤贿^程8客戶知識的深入挖掘(1)根據(jù)從客戶知識發(fā)掘的信息,計算客戶生命周期價值,以此作為客戶分類的依據(jù)。針對不同類別的客戶采取不同的措施;(2)預(yù)測客戶將來一段時期的需求;(3)預(yù)測客戶流失的可能性,或者采取及時的補救措施,或者做出減少不必要的投資等決策,最大限度地保留客戶和降低企業(yè)的損失;(4)測評客戶忠誠度,識別忠誠客戶。客戶知識的展現(xiàn)通過商務(wù)智能技術(shù)所獲得的客戶知識(特征、忠誠度、盈利能力、行為模式)必須通過操作和協(xié)作型CRM系統(tǒng)才能最終實現(xiàn)為客戶提供更好服務(wù)的目標,從而形成業(yè)務(wù)行動的閉環(huán),真正發(fā)揮CRM的各層次的綜合效應(yīng)??蛻糁R的深入挖掘9客戶智能系統(tǒng)結(jié)構(gòu)圖客戶智能系統(tǒng)結(jié)構(gòu)圖10構(gòu)建一個完整的智能CRM系統(tǒng)的幾個步驟:1.整合客戶信息資源對于那些以前沒有應(yīng)用過任何CRM系統(tǒng)的企業(yè)來說,首先需要把孤立的業(yè)務(wù)系統(tǒng)整合到一個統(tǒng)一的平臺之下,解決“信息孤島”。而對于己有CRM系統(tǒng)的企業(yè),則需要建立一個企業(yè)信息門戶,使客戶和企業(yè)能在一個統(tǒng)一的界面下進行數(shù)據(jù)和信息交換,從而保證客戶數(shù)據(jù)的一致性。2.建立客戶數(shù)據(jù)倉庫規(guī)劃數(shù)據(jù)倉庫,以企業(yè)的業(yè)務(wù)模型為基礎(chǔ),確定需要建立能夠描述主要業(yè)務(wù)主題的數(shù)據(jù)模型;設(shè)計數(shù)據(jù)倉庫,根據(jù)邏輯模型和性能要求進行物理模型的設(shè)計,制定數(shù)據(jù)存儲策略以及各種商業(yè)規(guī)則等;
構(gòu)建一個完整的智能CRM系統(tǒng)的幾個步驟:11(3)構(gòu)造數(shù)據(jù)分析模型根據(jù)企業(yè)需要分析的對象和目標,構(gòu)造有針對性的分析模型。針對客戶對企業(yè)的貢獻差異,構(gòu)造客戶盈利能力分析模型;針對客戶對企業(yè)信用程度的不同,構(gòu)造客戶信用分析模型;根據(jù)客戶對產(chǎn)品功能的需求不同,構(gòu)造客戶分類分析模型;根據(jù)客戶的獲得、流失情況,構(gòu)造客戶獲取流失分析模型等等。(4)建立客戶知識管理系統(tǒng)建立一個動態(tài)的客戶知識庫以及制定客戶知識的分發(fā)規(guī)則和保存機制。與客戶數(shù)據(jù)倉庫一樣,客戶知識管理系統(tǒng)也不是一開始就能建立好的,它需要在使用的過程中進行不斷地調(diào)整和完善,是一個動態(tài)完成的系統(tǒng)。(3)構(gòu)造數(shù)據(jù)分析模型12客戶行為分析(獲取新客戶、客戶流失與保持分析、客戶盈利能力分析)獲取新客戶獲取新客戶就是“說服”原本不是你的客戶的消費者成為你的客戶。這些消費者可能是對你的產(chǎn)品/服務(wù)不了解的顧客,也可能是你的產(chǎn)品/服務(wù)的潛在消費者,還可能是你競爭對手的客戶。針對這些不同的消費者需要采用不同的策略才能有效的獲取到新客戶。另外,在獲取新客戶之前,不得不確定哪些消費者是值得努力的,預(yù)測不同客戶對營銷努力的反映情況也是提高獲取新客戶成功率的一個前提。還有,客戶分優(yōu)劣,有些客戶獲得時付出的努力要比他們成為公司客戶后貢獻的利潤低,這樣的客戶還是不獲得為好??蛻粜袨榉治?獲取新客戶、客戶流失與保持分析、客戶盈利能力分13因此,企業(yè)要想通過CRM有效獲得新客戶,必須明確不同客戶的特性。目標市場在哪里?哪些客戶是企業(yè)的潛在客戶?哪些潛在客戶是優(yōu)質(zhì)客戶?客戶獲取的難易程度如何?常用的數(shù)據(jù)挖掘技術(shù)和方法有分類與預(yù)測、聚類、關(guān)聯(lián)分析和異類分析等。例如用關(guān)聯(lián)的方法,通過發(fā)現(xiàn)諸如“在購買A商品后,一段時間里顧客會接著購買商品B,而后購買商品C”這樣的知識,來形成“A-B--C”客戶行為模式。還可以對現(xiàn)有客戶特征進行聚類分析,建立客戶特征模型,以最有效地預(yù)測目標市場和發(fā)現(xiàn)潛在客戶。
因此,企業(yè)要想通過CRM有效獲得新客戶,必須明確不同客戶的特14K-近鄰分類方法
基本思想:K-近鄰分類是基于類比學習的,每個樣本代表d維空間的一個點。當給定一個未知樣本時,K-近鄰分類法將搜索樣本空間,找出最接近未知樣本的K個訓練樣本,這K個訓練樣本是未知樣本的K個“近鄰”。近鄰性一般用歐幾里德距離定義:或采用絕對值距離:缺點:計算量大優(yōu)點:適合各種數(shù)據(jù)類型的數(shù)據(jù)
K-近鄰分類方法基本思想:K-近鄰分類是基于類比學習的,每15利用K-近鄰方法進行潛在客戶預(yù)測考察的客戶自身屬性:企業(yè)總資產(chǎn)值、年銷售收入、距電器銷售公司的地理距離及企業(yè)所處地域的經(jīng)濟發(fā)達程度。客戶的消費屬性為過去一年內(nèi)對電器銷售公司的總購買額。1.數(shù)據(jù)處理:銷售公司把客戶的消費屬性分為10萬元以下、10萬至100萬、100萬500萬、500萬以上四個區(qū)間,分別取值1,2,3,4;把企業(yè)所處地域的經(jīng)濟發(fā)達程度根據(jù)實際情況分為貧困、欠發(fā)達、發(fā)達、極發(fā)達四檔,分別取值1,2,3,4;其余客戶屬性(企業(yè)總資產(chǎn)值、年銷售收入、距銷售公司的地理距離)也通過區(qū)間劃分完成量化及歸一化處理。表1是經(jīng)過標準化處理的老客戶數(shù)據(jù),表2是經(jīng)過標準化處理的潛在客戶數(shù)據(jù)。利用K-近鄰方法進行潛在客戶預(yù)測考察的客戶自身屬性:企業(yè)總資16表1老客戶數(shù)據(jù)老客戶總資產(chǎn)年銷售收入地理距離所處發(fā)達程度年總購買額11.51.61.20.4221.53.21.20.63310.80.40.2141.53.20.40.84511.60.40.4260.51.60.40.42………………………………表2潛在客戶數(shù)據(jù)潛在客戶總資產(chǎn)年銷售收入地理距離所處發(fā)達程度年總購買額A1.51.61.20.4待預(yù)測B0.81.20.40.2待預(yù)測………………………………表1老客戶數(shù)據(jù)老客戶總資產(chǎn)年銷售收入地理距離所處發(fā)達程度年總172.預(yù)測為了預(yù)測客戶A對公司電器產(chǎn)品的年購買額,我們只須從處理后的老客戶數(shù)據(jù)中找到K個最近鄰(這里設(shè)定K=2)。例如:A與客戶1的距離:D(A,l)=(1.5-1)+(2.4-1.6)+(1.6-1.2)+(0.4-0.4)=1.7,同理計算可得到:D(A,2)=1.9,D(A,3)=3,D(A,4)=2.9,D(A,5)=1.6,D(A,6)=2.5可以看出,A的2個最近鄰為老客戶1和5,可以預(yù)測其對公司電器產(chǎn)品的年購買額將在10萬和100萬之間,我們還可以從處理之前的老客戶數(shù)據(jù)庫中得到客戶1和5的實際年購買額,以對A的年購買額進行更精確的預(yù)計,假設(shè)銷售公司規(guī)定年總購買額在500萬以上的是公司的重點客戶,那么我們可以進一步預(yù)測潛在客戶的類別,從而可以指定精確的營銷計劃,來獲取客戶。2.預(yù)測18將數(shù)據(jù)挖掘應(yīng)用于客戶的獲取活動與傳統(tǒng)的市場營銷策略比較其優(yōu)勢在哪里?下面我們通過一個例子進行詳細的說明。某大銀行A進行直郵的市場營銷活動以獲取信用卡客戶,向100萬名潛在客戶提供信用卡的申請表。使用傳統(tǒng)的做法,A銀行向這100萬名潛在客戶寄出信用卡申請表,共有6%的郵件得到申請回應(yīng)。得到這些潛在客戶的回應(yīng)后,需根據(jù)信用風險程度對它們的申請進行篩選,毫無疑問,往往是信用差的潛在客戶更可能申請信用卡,所以最終篩選后的結(jié)果只有16%的回應(yīng)者是符合信用要求的,即大約占總潛在客戶的1%(6%×16%≈1%)成為最終客戶。A銀行郵寄一份申請表需花費¥1的費用,每個客戶在隨后的兩年將為銀行帶來¥125的利潤。那么用傳統(tǒng)方法營銷得到的凈回報:¥250,000(¥125×10,000-¥1×1,000,000=Y250,000)將數(shù)據(jù)挖掘應(yīng)用于客戶的獲取活動與傳統(tǒng)的市場營銷策略比較其優(yōu)勢19數(shù)據(jù)挖掘技術(shù)的應(yīng)用首先,A銀行寄出50,000份進行測試,并對反饋的結(jié)果進行分析,將這些數(shù)據(jù)作為訓練數(shù)據(jù)應(yīng)用數(shù)據(jù)挖掘算法建立預(yù)測模型,包括潛在客戶的回應(yīng)的模型(可以用決策樹方法)和信用評分模型(可以用神經(jīng)網(wǎng)絡(luò)方法)。然后,結(jié)合這兩個模型找出哪些潛在客戶的信用風險低且很大可能會接受提供的申請表。根據(jù)這些方法,A銀行在剩下的950,000個潛在客戶中選取其中信用好的700,000個進行郵寄。結(jié)果是,通過這郵寄的750,000份申請表,共收到9,000個潛在客戶接受信用卡,即接受的比率為1.2%(9,000÷750,000=1.2%),比傳統(tǒng)方法的1%提高了20個百分點。還有1,000個客戶在未寄的250,000個潛在客戶中,他們是被模型篩選掉的,很明顯,若對他們也進行郵寄的話,需花費¥250,000但他們帶來的利益只有¥125,000(¥125×1,000=¥125,000),表明為獲得這些客戶的成本是大于他們所能帶來的收益的,故將他們放棄。數(shù)據(jù)挖掘技術(shù)的應(yīng)用20表3傳統(tǒng)方法和數(shù)據(jù)挖掘方法獲取新客戶的比較指標傳統(tǒng)方法數(shù)據(jù)挖掘方法差異郵寄總數(shù)量1,000,000750,000250,000郵寄總成本¥1,000,000¥750,000¥250,000成為新客戶的數(shù)量10,0009,0001,000每個新客戶帶來的毛利¥125¥125¥0總毛利¥1,250,000¥1,125,000¥125,000凈利潤¥250,000¥375,000¥125,000數(shù)據(jù)挖掘建模成本¥0¥40000¥40000最終凈利潤¥250,000¥335,000¥85,000從表中可以看到,凈利潤增加了¥125,000,即使減去數(shù)據(jù)挖掘的成本¥40,000其最終凈利潤也還多出¥85,000。另外,本例中建立模型的投資回報率(ROT)也比較高,為212.5%(¥85,000÷¥40,000=212.5%。從而顯示了將數(shù)據(jù)挖掘技術(shù)應(yīng)用與新客戶獲取中的優(yōu)勢所在。表3傳統(tǒng)方法和數(shù)據(jù)挖掘方法獲取新客戶的比較指標傳統(tǒng)方法數(shù)據(jù)21決策樹分類方法決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。比如,在貸款申請中,要對申請的風險大小做出判斷,圖1是為了解決這個問題而建立的一棵決策樹,從中我們可以看到?jīng)Q策樹的基本組成部分:決策節(jié)點、分支和葉子。是否是否是否收入>40000工作時間>5年高負債低風險高風險低風險高風險決策樹分類方法決策樹提供了一種展示類似在什么條件下會得到什么22決策樹的每個節(jié)點子節(jié)點的個數(shù)與決策樹應(yīng)用的算法有關(guān)。如CART算法得到的決策樹每個節(jié)點有兩個分支,這種樹稱為二叉樹。允許節(jié)點含有多于兩個子節(jié)點的樹稱為多叉樹。每個分支要么是一個新的決策節(jié)點,要么是樹的結(jié)尾,稱為葉子。在沿著決策樹從上到下遍歷的過程中,在每個節(jié)點都會遇到一個問題,對每個節(jié)點上問題的不同回答導致不同的分支,最后會到達一個葉子節(jié)點。這個過程就是利用決策樹進行分類的過程,即利用幾個變量(每個變量對應(yīng)一個問題)來判斷所屬的類別(最后每個葉子會對應(yīng)一個類別)。常用的算法有分類回歸樹CART、ID3、和C4.5等決策樹的每個節(jié)點子節(jié)點的個數(shù)與決策樹應(yīng)用的算法有關(guān)。23
ID3算法運用信息熵理論,選擇當前樣本屬性集中具有最大信息增益值的屬性作為測試屬性。該屬性使得對結(jié)果劃分中的樣本分類所需的信息量最小,并反映劃分的最小隨機性或“不純性”。這種信息理論方法使得對一個對象分類所需的期望測試數(shù)目達到最小,并確保找到一棵簡單樹。設(shè)S是s個數(shù)據(jù)樣本的集合。假定類標號屬性具有m個不同值,定義m個不同類(i=1,?,m)。設(shè)是類中的樣本數(shù)。對一個給定的樣本分類所需的期望信息是:其中是任意樣本屬于的概率,并用估計。ID3算法運用信息熵理論,選擇當前樣本屬性集中具有最大信息24設(shè)屬性A為測試屬性,它具有V個不同的值用表示屬性A取值為的樣本子集屬于類的樣本數(shù)。那么按照屬性A的每個屬性值進行分割的期望信息稱作A的熵,由下式給出:在A上分割獲得的信息增益定義為:依據(jù)上述方法,計算每個屬性的信息增益,屬性的信息增益越大,區(qū)分度越大。設(shè)屬性A為測試屬性,它具有V個不同的值用表示屬性A取值為的樣25通過對一組訓練數(shù)據(jù)的學習,構(gòu)造出決策樹形式的知識表示,在決策樹的內(nèi)部結(jié)點進行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點向下的分支,在決策樹葉結(jié)點得到結(jié)論。所以從根到葉結(jié)點的一條路徑就對應(yīng)著一條規(guī)則,整棵決策樹就對應(yīng)著一組析取表達式規(guī)則。基于決策樹學習算法的一個最大的優(yōu)點就是它在學習過程中不需要使用者了解很多背景知識。這樣只要訓練實例能夠用屬性—結(jié)論式的方式表達出來,就能使用該算法來進行學習。通過對一組訓練數(shù)據(jù)的學習,構(gòu)造出決策樹形式的知識表示,在決策26Id職業(yè)收入地區(qū)年齡反應(yīng)1銷售<=2000華北年輕02銷售<=2000華東年輕13銷售<=2000華東中年04非銷售>2000華東中年15非銷售>2000華北老年16非銷售>2000其它老年17非銷售<=2000西北中年08銷售>2000華北年輕19銷售>2000西北中年010銷售<=2000西北年輕011銷售<=2000東北中年012非銷售<=2000其它中年013銷售>2000華北年輕114非銷售>2000東北中年115銷售>2000西北年輕1Id職業(yè)收入地區(qū)年齡反應(yīng)1銷售<=2000華北年輕02銷售<27根據(jù)表中的數(shù)據(jù),類反應(yīng)有兩個不同的值(0,1),因此有兩個不同的類(m=2)。設(shè)類C1=0,類C2=1。則類C1有7個樣本,類C2有8個樣本。則給定樣本分類的期望信息為:I(s1,s2)=I(7,8)=-7/15㏒2(7/15)-8/15㏒2(8/15)=0.997現(xiàn)在計算每個屬性的熵,(1)職業(yè):銷售:S11=5,S21=4則I(S11,S21)=0.991非銷售:S12=2,S22=4則I(S12,S22)=0.918信息增益:E(職業(yè))=(S11+S21)*I(S11,S21)/S+(S12+S22)*I(S12,S22)/S=0.991*9/15+0.918*6/15=0.9618GAIN(職業(yè))=0.997-0.9618=0.0352同理:(2)收入:GAIN(收入)=0.4308(3)地區(qū):GAIN(地區(qū))=0.114(4)年齡:GAIN(年齡)=0.226根據(jù)表中的數(shù)據(jù),類反應(yīng)有兩個不同的值(0,1),因此有兩個不28圖2按照“收入”分割得到的決策樹圖2按照“收入”分割得到的決策樹29圖3最終決策樹圖3最終決策樹30從圖3中我們可以很直觀的分析出客戶申請信用卡對“收入”、“年齡”、“地區(qū)”、“職業(yè)”四個屬性的反應(yīng)??梢缘贸鲆幌乱?guī)則:1)當收入小于等于2000元,如果年齡為中年的話一般沒有興趣;2)當收入小于等于2000元,來自地區(qū)為華北、西北、東北或其它的年輕人,一般沒有興趣;3)當收入小于等于2000元,來自地區(qū)為華東且為年輕人一般有興趣;4)當收入大于2000元,且來自華北、華東、東北或其它地區(qū),一般有興趣;5)當收入大于2000元,來自西北地區(qū)且為年輕人一般有興趣;6)當收入大于2000元,來自西北地區(qū)且為中年人一般沒有興趣。從圖3中我們可以很直觀的分析出客戶申請信用卡對“收入”、“年31選擇了合適的算法后,我們只需要把切分看成是把一組數(shù)據(jù)分成幾份,份與份之間盡量不同,而同一份內(nèi)的數(shù)據(jù)盡量相同。如果經(jīng)過一次切分后得到的分組,每個分組中的數(shù)據(jù)都屬于同一個類別,顯然達到這樣效果的切分方法就是我們所追求的。假定我們利用歷史數(shù)據(jù)建立了一個包含幾百個屬性、輸出的類有十幾種的決策樹,這樣的一棵樹對人來說可能太復雜了,但每一條從根結(jié)點到葉子節(jié)點的路徑所描述的含義仍然是可以理解的。決策樹的這種易理解性對數(shù)據(jù)挖掘的使用者來說是一個顯著的優(yōu)點。然而決策樹的這種明確性可能帶來誤導。比如,決策樹每個節(jié)點對應(yīng)分割的定義都是非常明確毫不含糊的,但在實際生活中這種明確可能帶來麻煩(憑什么說年收入2001的人申請信用卡,而2000的人就沒有)。另外,樹的大小與樣本數(shù)量無關(guān),計算量較小。
選擇了合適的算法后,我們只需要把切分看成是把一組數(shù)據(jù)分成幾份32客戶保持和流失客戶發(fā)展階段:潛在客戶—新客戶—滿意的客戶—留住的客戶—老客戶。經(jīng)濟學廣泛應(yīng)用的“80/20定律”(佩爾圖定律),具體到CRM中是說企業(yè)80%的利潤是由前20%的客戶所創(chuàng)造的;又如1989年的哈佛商業(yè)評論中提到若客戶保持率提高5%,平均每位客戶的價值就能增加25%到100%。這些數(shù)字都充分說明了提高客戶的忠誠度、保持好的客戶對于企業(yè)本身的利益是至關(guān)重要的。比如在美國,移動通信公司每獲得一個新用戶的成本平均是300美元,而挽留住一個老客戶的成本可能僅僅是通一個電話。客戶保持和流失客戶發(fā)展階段:潛在客戶—新客戶—滿意的客戶—留33因此客戶關(guān)系管理首先提倡的是保持現(xiàn)有客戶,實現(xiàn)現(xiàn)有客戶的重復購買是企業(yè)追求的首要目標。其次才是開拓新市場,吸引新客戶。通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)流失客戶的特征,這樣就可以在那些具有相似特征的客戶還未流失之前進行針對性的彌補。例如一家移動通信公司挖掘出的結(jié)果是:年齡在26歲以下、開通了WAP服務(wù)、移動電話價值(購買時)在1800-2800元、每月通話費在250-350元之間(包月制則是200元和280元兩檔)的男性流失的比例最高。掌握了這些信息,就可以針對每個人的貢獻,滿足他們的一些需求。因此客戶關(guān)系管理首先提倡的是保持現(xiàn)有客戶,實現(xiàn)現(xiàn)有客戶的重復34客戶流失的原因主要有以下4種類型:自然流失客戶流失不是人為因素造成的,比如客戶的搬遷和死亡等。自然流失所占的比例很小。企業(yè)可以通過建立連鎖服務(wù)網(wǎng)點和經(jīng)營分公司,或者提供網(wǎng)上服務(wù)等方式,讓客戶在任何地方、任何時候都能方便快捷地使用企業(yè)的產(chǎn)品和服務(wù),減少自然流失的發(fā)生。惡意流失是指一些客戶為了滿足自己的某些私利而離開企業(yè),比如很多電信運營商的用戶在拖欠了大額通信費用后離開這家電信運營商,選擇其他電信運營商提供的服務(wù),從而達到不交費用的目的。惡意流失在客戶流失中所占的比例也不大。企業(yè)可以通過客戶信譽管理制度和欺詐監(jiān)測來防止客戶的惡意流失行為??蛻袅魇У脑蛑饕幸韵?種類型:35競爭流失由于企業(yè)競爭對手的影響而造成的流失稱為競爭流失。市場上的競爭突出表現(xiàn)在價格戰(zhàn)和服務(wù)戰(zhàn)上。過失流失客戶流失都是由于企業(yè)自身工作中的過失引起客戶的不滿意而造成的,比如企業(yè)形象不佳、產(chǎn)品性能不好、服務(wù)態(tài)度惡劣等。過失流失在客戶流失總量中所占的比例最高,但同時也是企業(yè)可以通過采取一些有效手段來防止的。
客戶流失預(yù)測分析能幫助企業(yè)理解客戶將要離開的信號,使企業(yè)有充分的時間采取措施挽留有流失傾向的客戶。在客戶關(guān)系分析中,客戶流失預(yù)測分析模型的可解釋性非常重要,企業(yè)要能清晰地理解分類模型中的各個因素以及各個因素的作用程度,根據(jù)分類模型理解影響客戶流失的因素,以便于企業(yè)做出相應(yīng)的改進。競爭流失36影響客戶流失的因素主要從以下幾個層面考慮,競爭對手情況:競爭對手最近開發(fā)新產(chǎn)品情況、競爭對手最近開發(fā)新促銷策略;企業(yè)和員工形象:產(chǎn)品更新快慢程度、員工的態(tài)度和形象、員工的流動率、企業(yè)文化和形象;客戶購買行為:客戶是否接觸競爭對手的產(chǎn)品、客戶對企業(yè)的滿意度、客戶與企業(yè)交往的時間長度、客戶最近的購買頻率和數(shù)量的變化情況;產(chǎn)品和服務(wù)質(zhì)量:服務(wù)體制是否完善、客戶投訴是否處理、服務(wù)質(zhì)量和服務(wù)的及時性、產(chǎn)品的質(zhì)量和價格;影響客戶流失的因素主要從以下幾個層面考慮,37客戶流失模型的建立和應(yīng)用過程如下:在客戶數(shù)據(jù)倉庫中抽取適當?shù)淖侄谓M成客戶分析數(shù)據(jù)庫,為客戶描述和客戶流失模型提供數(shù)據(jù)源;客戶流失預(yù)測分析屬于數(shù)據(jù)挖掘中的分類,客戶是否己經(jīng)流失為類標號,因此,根據(jù)客戶是否流失情況,將客戶分析數(shù)據(jù)庫分離為當前客戶數(shù)據(jù)庫和流失客戶數(shù)據(jù)庫;對流失客戶數(shù)據(jù)庫進行分析,建立客戶流失模型。隨機選擇流失客戶中的2/3為訓練數(shù)據(jù),建立分類器,得出分類模型。將剩下的1/3數(shù)據(jù)作為測試數(shù)據(jù)代入分類模型中,預(yù)測準確率。如果準確率過低,則重復以上過程,直到分類模型的準確率滿足用戶的需求,得出客戶流失模型;從客戶流失模型中分析影響客戶流失的各種原因,找出企業(yè)的不足之處,發(fā)現(xiàn)流失者的行為特征。運用客戶流失模型在當前客戶數(shù)據(jù)庫中發(fā)現(xiàn)預(yù)測有流失傾向的客戶群體??蛻袅魇P偷慕⒑蛻?yīng)用過程如下:38在預(yù)測客戶的流失建模中較為常用的數(shù)據(jù)挖掘算法是CART(ClassificationandRegressionTrees,分類回歸樹),它是分類方法中決策樹的一種算法。盡管其他的一些數(shù)據(jù)挖掘技術(shù),如神經(jīng)網(wǎng)絡(luò)也可以產(chǎn)生很好的預(yù)測模型,但是這些模型很難理解。當用這些模型做預(yù)測分析時,很難對客戶流失的原因有深入的了解,更得不到如何對付客戶流失的任何線索。在這種情況下,一般需要使用決策樹或聚類技術(shù)等分類方法進一步的分類,來得到更深入的了解,所以生成的預(yù)測模型就相對復雜的多。在預(yù)測客戶的流失建模中較為常用的數(shù)據(jù)挖掘算法是CART(Cl39客戶流失數(shù)據(jù)集有其自身較為顯著的特點:客戶流失數(shù)據(jù)集中包含較多的連續(xù)值屬性,如客戶的年齡,收入信息,各項消費信息等??蛻袅魇?shù)據(jù)集是一個典型的非平衡分布數(shù)據(jù)集。流失客戶與非流失客戶之間相差的比例很大。流失客戶在數(shù)據(jù)集中一般只占一個較小的比例。分類算法在處理非平衡數(shù)據(jù)集的分類問題時,容易受到樣本類別分布的影響,對少數(shù)類的分類精度不高,其效果并不理想。例如:TeleData為某電信運營商提供的客戶信息數(shù)據(jù)集,其中包括用戶的人口統(tǒng)計特征和通信消費特征,通過數(shù)據(jù)挖掘技術(shù),挖掘出流失客戶的分類模型,從而提出策略,指導客戶挽留??蛻袅魇?shù)據(jù)集有其自身較為顯著的特點:40商務(wù)智能應(yīng)用--分析型CRM41客戶忠誠度分析客戶忠誠度一般是指客戶堅持重復購買或惠顧自己喜歡的同一品牌的產(chǎn)品或服務(wù),不受環(huán)境和市場的影響??蛻糁艺\主要表現(xiàn)在以下幾個方面:(1)會經(jīng)常反復地購買本企業(yè)的產(chǎn)品或服務(wù),甚至可以定量分析出他們的購買頻數(shù);(2)在購買企業(yè)產(chǎn)品或服務(wù)時,選擇呈多樣性,但是優(yōu)先關(guān)心和選擇其忠誠的企業(yè)品牌的產(chǎn)品或服務(wù)以及其產(chǎn)品或服務(wù)的發(fā)展情況;(3)樂于向他人推薦本企業(yè)產(chǎn)品,被推薦者相對于其他客戶會更容易地認同推薦的產(chǎn)品或服務(wù);(4)會排斥本企業(yè)的競爭對手,只要忠誠的紐帶未被打破,他們甚至不屑于略勝一籌的競爭對手。客戶忠誠度分析客戶忠誠度一般是指客戶堅持重復購買或惠顧自己喜42衡量客戶忠誠的唯一尺度就是客戶是否重復或持久地購買企業(yè)的產(chǎn)品或者服務(wù),顧客忠誠體現(xiàn)為具體的購買行為,具有很強的客觀現(xiàn)實色彩,是實實在在的。而客戶忠誠的誘因主要是客戶滿意,顧客滿意是一種期望值與感知效果的比較,是一種心理反應(yīng),它取決于顧客的“期望”,具有很強的主觀色彩。所以,客戶忠誠度分析標準是一個較為模糊的概念。首先可用聚類分析進行客戶忠誠度分析,根據(jù)所得的聚類結(jié)果,將每一類賦以具體標記,然后進行分類,構(gòu)造出忠誠客戶的具體特征?;蛘呤峭ㄟ^行業(yè)專家進行標記。在現(xiàn)有數(shù)據(jù)庫信息資源的條件限定下,客戶忠誠度的分析同客戶忠誠度具體的量化定義就有了密切的聯(lián)系。根據(jù)需要,企業(yè)可以對客戶的一些具體表現(xiàn)設(shè)定相應(yīng)的觀測變量,如:貨款到達的及時性、購物占購貨企業(yè)貨物銷量總量的比例、信息的虛假程度、貨物價格的接受程度、持續(xù)交易的時間、重復購買的次數(shù)、購買方式等。衡量客戶忠誠的唯一尺度就是客戶是否重復或持久地購買企業(yè)的產(chǎn)品43客戶忠誠度分析模型的建立和應(yīng)用過程如下:(1)根據(jù)己有定義選定相關(guān)的分析變量;(2)從企業(yè)的業(yè)務(wù)數(shù)據(jù)庫中收集整理原始數(shù)據(jù),按客戶忠誠度分析所需的字段組建企業(yè)客戶的數(shù)據(jù)倉庫系統(tǒng);(3)檢驗分類與實際的吻合程度,選取或確定合適的分類數(shù),目前許多企業(yè)設(shè)定為5類;(4)觀察分析每類的特點,給每類賦以類標記;(5)對帶有忠誠度類標記的數(shù)據(jù)建立分類模型;(6)根據(jù)忠誠度模型描述忠誠度客戶的特征,幫助企業(yè)識別忠誠客戶,根據(jù)客戶忠誠度的不同,提出相應(yīng)的營銷與客戶管理措施??蛻糁艺\度分析模型的建立和應(yīng)用過程如下:44客戶滿意度分析客戶滿意度分析模型的建立過程和客戶忠誠度分析類似:(1)首先,通過多種方式進行客戶滿意度調(diào)查,影響客戶滿意度模型的主要因素包括:服務(wù)和系統(tǒng)支持、產(chǎn)品/服務(wù)技術(shù)表現(xiàn)、客戶互動的因素、情感因素等。不同行業(yè)影響客戶滿意度的因素各不相同,但是基本都離不開這幾個層次。客戶的滿意程度一般分為5個檔次,1到5分別代表“很不滿意”、“不很滿意”、“基本滿意”、“滿意”和“很滿意’。(2)將客戶滿意度調(diào)查結(jié)果收集記錄到企業(yè)的數(shù)據(jù)庫中,構(gòu)建客戶數(shù)據(jù)倉庫,在客戶數(shù)據(jù)倉庫中抽取適當?shù)淖侄谓M成客戶滿意度分析數(shù)據(jù)。這些字段包括客戶基本描述數(shù)據(jù)和滿意度調(diào)查數(shù)據(jù)。客戶的基本描述數(shù)據(jù),包括客戶的受教育水平、客戶的性格偏好、客戶的職業(yè)等,因為這些因素會影響客戶對外界事務(wù)的態(tài)度,因此應(yīng)當給予考慮??蛻魸M意度分析客戶滿意度分析模型的建立過程和客戶忠誠度分析類45(3)客戶滿意度分析屬于數(shù)據(jù)挖掘中的分類,對客戶滿意度數(shù)據(jù)實施數(shù)據(jù)挖掘技術(shù),建立分類器,得出分類模型。(4)研究客戶滿意度的分類模型,在分類模型中越靠近上層的因素越是主要因素。找出使客戶滿意的關(guān)鍵因素,企業(yè)繼續(xù)在這些方面努力從而進一步提高客戶的滿意度。找出導致客戶不滿意的關(guān)鍵因素,幫助企業(yè)認清不足,加強管理。(3)客戶滿意度分析屬于數(shù)據(jù)挖掘中的分類,對客戶滿意度數(shù)據(jù)實46交叉銷售公司與其客戶之間的商業(yè)關(guān)系是一種持續(xù)的不斷發(fā)展的關(guān)系。在客戶與公司建立起這種雙向的商業(yè)關(guān)系后,可以有很多種方法來優(yōu)化這種關(guān)系:延長這種關(guān)系的時間在維持這樣的關(guān)系期間增加互相的接觸在每一次互相接觸中獲得更多的利潤作為公司,其目標是要達到雙贏的結(jié)果,即客戶和商家都可以從中獲益。客戶獲益是由于他們得到了更好更貼切的服務(wù)質(zhì)量,商家則因為增加了銷售量而獲利。因此,企業(yè)就需要向已有的客戶進行銷售,這就是交叉銷售。交叉銷售就是指你向現(xiàn)有的客戶提供新的產(chǎn)品和服務(wù)的營銷過程。交叉銷售公司與其客戶之間的商業(yè)關(guān)系是一種持續(xù)的不斷發(fā)展的關(guān)系47在這里,我們看一下如何回答市場人員經(jīng)常問的一個問題:“我應(yīng)該向什么人銷售什么產(chǎn)品?”。更準確的來看,這可以分成以下三個問題:1.哪些產(chǎn)品是經(jīng)常被一塊購買的?2.哪些產(chǎn)品是經(jīng)常被同類型的顧客購買的?3.顧客購買某種商品的可能性有多大?以上三個問題可以分別用數(shù)據(jù)挖掘中的關(guān)聯(lián)、聚類、預(yù)測分析加以解決。在這里,我們看一下如何回答市場人員經(jīng)常問的一個問題:“我應(yīng)該48關(guān)聯(lián)分析關(guān)聯(lián)分析就是從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知識(又稱關(guān)聯(lián)規(guī)則)。典型例子是購物籃分析。關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系,找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也不確定,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。通常關(guān)聯(lián)規(guī)則具有AB的形式,即:
A1A2
…AmB1B2…Bn,其中,Ai,Bj均是屬性或項,表示數(shù)據(jù)庫中滿足X中條件的記錄也一定滿足Y中的條件。涉及到兩個概念:支持度和可信度關(guān)聯(lián)分析關(guān)聯(lián)分析就是從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知49交易ID購買商品2000A,B,C1000A,C4000A,D5000B,E,F頻繁項集支持度{A}75%{B}50%{C}50%{A,C}50%若要確定{X,Y}Z的規(guī)則,則支持度s表示一次交易中包含{X,Y,Z}的可能性。可信度c表示包含{X,Y}的交易中也包含Z的條件概率。例如:上述表格中左邊是交易項目,右邊是根據(jù)交易的事實來確定的支持度,那么現(xiàn)在來確定在交易事實中是否存在AC的規(guī)則。Confidence(AC)=support({A,C})/support({A})=66.6%為了挖掘出具有價值的規(guī)則,通常規(guī)定最小支持度和最小置信度作為兩個參數(shù)的閾值.
交易ID購買商品2000A,B,C1000A,C4000A,50關(guān)聯(lián)規(guī)則挖掘可以分解為兩個步驟:首先找出交易項目中滿足最小支持度(minSupp)的項集(稱其為頻繁項集);然后由頻繁項集生成關(guān)聯(lián)規(guī)則,對于頻繁項集A,若BA,且置信度confidence(BA-B)不小于最小置信度minConf,則BA-B構(gòu)成關(guān)聯(lián)規(guī)則。在第一步的基礎(chǔ)上完成第二步比較容易,所以目前的研究主要集中第一步上。關(guān)聯(lián)規(guī)則的應(yīng)用:交叉銷售:基于消費者的購買模式,主動進行交叉銷售;商品擺放:將經(jīng)常一起購買的東西一起擺放;流失客戶分析:可分析是否是由于某些關(guān)鍵商品缺失引起的。關(guān)聯(lián)規(guī)則挖掘可以分解為兩個步驟:首先找出交易項目中滿足最小支51
。,Apriori算法是挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法,挖掘的對象是諸如售貨記錄之類的數(shù)據(jù)所組成的事務(wù)數(shù)據(jù)庫,而挖掘的結(jié)果則是類似于“購買面包的同時也可能購買黃油”的關(guān)聯(lián)規(guī)則。設(shè)I={I1,I2,…,Im}是項的全體構(gòu)成的集合,項的集合稱為項集,包含K個項的項集稱為K-項集。D是數(shù)據(jù)庫事務(wù)構(gòu)成的集合,其中每個事務(wù)T又是一個項集,且TI。Apriori使用一種稱作逐層搜索的迭代方法:(K-1)—項集用于搜索K-項集。即:首先找出頻繁1-項集的集合,記做L1;L1用于找出頻繁2-項集的集合L2,如此下去,直到找到Lk,k不再增加。為了提高頻繁集逐層產(chǎn)生的效率,一個稱作Apriori性質(zhì)用于壓縮搜索空間。Apriori性質(zhì):頻繁項集的所有非空子集都必須是頻繁的。根據(jù)定義項集I不滿足最小支持度閾值,則I不是頻繁的,若項A添加到I中,則結(jié)果項集(IA)不可能比I更頻繁。。,Apriori算法是挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法,挖掘的對象52連接:為了找LK,通過LK-1與自己連接產(chǎn)生候選K-項集的集合CK。設(shè):li是LK-1中的項集,li[j]表示li的第j項。則Lk-1的元素l1、l2是可以連接的,如果滿足:l1[1]=l2[1]l1[2]=l2[2]…l1[k-2]=l2[k-2]l1[k-1]<l2[k-1]則連接l1、l2的結(jié)果項集是l1[1]
l1[2]l1[k-1]l2[k-1]。剪枝:CK是LK的超集。掃描數(shù)據(jù)庫確定CK中每個候選項集的計數(shù),從而確定LK。然而CK可能很大,可以利用Apriori性質(zhì)進行剪枝。若一個候選K-項集的(k-1)-子集不在LK-1中,則該候選也不可能是頻繁的,可以從CK中刪除。Apriori算法主要由兩步組成:連接與剪枝連接:為了找LK,通過LK-1與自己連接產(chǎn)生候選K-項集的集53TID項ID列表T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3項集計數(shù){I1}6{I2}7{I3}6{I4}2{I5}2項集計數(shù){I1,I2}4{I1,I3}4{I1,I4}1{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2{I3,I5}1C1項集計數(shù){I1}6{I2}7{I3}6{I4}2{I5}2L1C2項集計數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2L2TID項ID列表T100I1,I2,I5T200I2,I4T54項集計數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2項集計數(shù){I1,I2,I3}2{I1,I2,I5}2項集計數(shù){I1,I2,I3}2{I1,I2,I5}2C3由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則:1)對于每個頻繁項集L,產(chǎn)生L的所有非空子集。2)對于L的每個非空子集S,若support(L)/support(S)minconf,則輸出規(guī)則S(L-S)項集計數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I55例如:頻繁項集l={I1,I2,I5}的非空子集有:{I1,I2},{I1,I5},{I2,I5},{I1},{I2}和{I5}。關(guān)聯(lián)規(guī)則如下:I1I2I5,confidence=2/4=50%I1I5I2,confidence=2/2=100%I2I5I1,confidence=2/2=100%I1I2I5,confidence=2/6=33%I2I1I5,confidence=2/7=29%I5I1I2,confidence=2/2=100%若最小置信度閾值為70%,則只有3個規(guī)則輸出。例如:頻繁項集l={I1,I2,I5}的非空子集有:{I1,563.3客戶分類客戶分類的方式多種多樣,企業(yè)可以根據(jù)實際需要和自身特點對客戶進行各種主題背景下的分類,例如:如果以客戶的盈利能力為橫軸,以忠誠度為縱軸,可把客戶劃分為四類:高盈利能力且忠誠、高盈利能力而不忠誠、低盈利能力而忠誠、低盈利能力而不忠誠;按照客戶滿意度可分為:非常滿意、很滿意、基本滿意、不滿意、很不滿意;也可以按照客戶的行業(yè)或行為進行分類??蛻舴诸惤Y(jié)果的有效性取決于分類指標和分類方法的選擇,用于評價分類的指標需反映出客戶的特征以及企業(yè)進行客戶分類的目的。分類指標的選擇要遵循一定的客觀規(guī)律,并應(yīng)根據(jù)企業(yè)所處的行業(yè)特點以及企業(yè)本身的實際情況來選擇恰當?shù)姆诸愔笜???蛻舴诸惖姆椒ǎ悍诸惡途垲?.3客戶分類客戶分類的方式多種多樣,企業(yè)可以根據(jù)實際需要57以K為參數(shù),把n個對象分為個簇,聚類目標是簇內(nèi)具有較高的相似度,而簇間的相似度較低。聚類的處理流程如下:首先,隨機地選擇K個對象,每個對象代表一個簇的平均值或中心。對剩余的每個對象,根據(jù)其與各個簇中心的距離,將它劃分到最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復,直到準則函數(shù)收斂。通常,采用平方誤差準則,其定義如下:K-均值聚類算法的關(guān)鍵是解決如下問題:選擇合適的簇數(shù);選擇合適的距離函數(shù)和評判函數(shù)。以K為參數(shù),把n個對象分為個簇,聚類目標是簇內(nèi)具有較高的相似58(1)確定屬性根據(jù)中國電信的行業(yè)現(xiàn)狀,可以把客戶的屬性分為三種:基本屬性、服務(wù)屬性和分析屬性。基本屬性:指客戶的原始特征,也是分辨客戶的最基本方式。包括客戶的姓名、年齡、身份證號、國籍、戶口、地區(qū)、地址、學歷、工作單位、工齡、收入、婚否、家庭狀況等客戶專有特征。服務(wù)屬性指客戶與中國電信之間由服務(wù)關(guān)系和模式而產(chǎn)生的費用與過程。包括客戶每月市內(nèi)電話費、通話次數(shù)、手機通話費、通話頻率、長途通話費及由此產(chǎn)生的服務(wù)費、安裝費等一系列相關(guān)服務(wù)費用。分析屬性指電信通過分析而產(chǎn)生的分析值。包括客戶忠誠度、行為分析指標、流失率、綜合價值等分析指標。(1)確定屬性59(2)數(shù)據(jù)標準化聚類之前一般的數(shù)據(jù)都要進行處理,這是聚類算法與其他算法的不同之處,因為聚類算法中需要計算距離??蛻艟垲愔兴玫臄?shù)據(jù)都是區(qū)間標度變量,變量的度量單位的選擇將直接影響聚類分析的結(jié)果。例如,將時間單位由“年”改為“月”,可能產(chǎn)生非常不同的聚類結(jié)果。一般情況下,所用的度量單位越小,變量可能的值域就越大,這樣對聚類結(jié)果的影響也越大,為了避免對度量單位選擇的依賴,數(shù)據(jù)應(yīng)當標準化。常用的標準化的方法是將原來的度量值轉(zhuǎn)換為無單位的值,對于客戶聚類分析中的變量我們分為三種,對每種采取不同的標準化方法。(2)數(shù)據(jù)標準化601)增益變量,即該變量的值越大,客戶價值越大,包括客戶的購買次數(shù)、客戶在本企業(yè)的消費額、客戶與企業(yè)保持交易的時間長度。對該類變量采用如下的處理方法:,2)損益變量,即該變量的值越小,客戶價值越大,包括客戶最近一次購買到現(xiàn)在的時間長度。對該類變量采用如下的處理方法:3)不能用增益和損益來衡量,即客戶提出建議或意見的次數(shù)。對該類變量采用如下的處理方法:1)增益變量,即該變量的值越大,客戶價值越大,包括客戶的購買61(3)距離度量方法的選擇K一平均聚類算法采用基于對象間的距離來計算各個對象間的相異度。(4)確定KK-均值聚類算法必須事先給定聚類的簇k的數(shù)目,在具體應(yīng)用中,一般根據(jù)聚類的目的而設(shè)定聚類簇的數(shù)目。(3)距離度量方法的選擇(4)確定K62例如客戶價值分類:RFM方法是衡量客戶價值的一種重要方法,遵循現(xiàn)代管理大師佩拍斯先生的劃分觀點,將客戶劃分為三類:最有價值客戶、最具增長性客戶、負值客戶,企業(yè)的高層經(jīng)理級決策者一般從比較宏觀的角度來了解客戶,所以將客戶分為3簇。應(yīng)用K一平均聚類算法,輸入初始參數(shù):包含47060條記錄的數(shù)據(jù)庫,k=3,聚類試驗時只選擇了幾個主要變量,其他的變量沒有參與計算。選擇的變量有:R表示客戶最近一次購買到現(xiàn)在的時間長度(天)、F表示最近兩年的購買次數(shù)、M表示最近兩年客戶在本企業(yè)的消費額、L表示客戶對企業(yè)提出建議或意見的次數(shù)。例如客戶價值分類:RFM方法是衡量客戶價值的一種重要方法,63聚類結(jié)果聚類客戶數(shù)量RFML11621214322935305220318689663181320942374764167總體平均257811625211聚類結(jié)果聚類客戶數(shù)量RFML116212143229353064另一種常見的客戶分類方法是預(yù)先建立不同客戶群的定義,數(shù)據(jù)挖掘技術(shù)要解決的是在數(shù)據(jù)中識別與已知客戶群相符的客戶,所以采用的方法是有監(jiān)督學習的分類技術(shù):決策樹、神經(jīng)網(wǎng)絡(luò)、K-近鄰等分類方法。為達到分類預(yù)測的功能,必須首先建立分類模型,這需要有一個已知客戶分類的客戶訓練數(shù)據(jù)集,所以把這種分類方式稱為有監(jiān)督的學習方法,這種分類方式常用來進行識別和預(yù)測,例如發(fā)現(xiàn)新客戶和潛在客戶等。分類的準確度由數(shù)據(jù)的質(zhì)量和選擇的分類方法確定。另一種常見的客戶分類方法是預(yù)先建立不同客戶群的定義,數(shù)據(jù)挖掘65神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注,它為解決大復雜度問題提供了一種相對來說比較有效的方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個參數(shù)的問題。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。123456神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注,它為解決大復雜度問66除了輸入層的節(jié)點,神經(jīng)網(wǎng)絡(luò)的每個節(jié)點都與很多它前面的節(jié)點(稱為此節(jié)點的輸入節(jié)點)連接在一起,每個連接對應(yīng)一個權(quán)重Wxy,此節(jié)點的值就是通過它所有輸入節(jié)點的值與對應(yīng)連接權(quán)重乘積的和作為一個函數(shù)的輸入而得到,我們把這個函數(shù)稱為活動函數(shù)或擠壓函數(shù)。如上圖中節(jié)點4輸出到節(jié)點6的值可通過如下計算得到:W14*節(jié)點1的值+W24*節(jié)點2的值常使用的神經(jīng)網(wǎng)絡(luò)是BP神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的性能與訓練用的樣本密切相關(guān)。網(wǎng)絡(luò)訓練所需要的樣本數(shù)取決于輸入-輸出非線性映射關(guān)系的復雜程度,映射關(guān)系越復雜,樣本中含的噪聲越大,為保證一定的訓練精度,所需要的樣本就越多,而且網(wǎng)絡(luò)規(guī)模越大。因此可以參考一個經(jīng)驗規(guī)則:訓練樣本數(shù)是網(wǎng)絡(luò)連接權(quán)總數(shù)的5-10倍,且訓練樣本應(yīng)該具有一定的代表性,樣本類別均衡。除了輸入層的節(jié)點,神經(jīng)網(wǎng)絡(luò)的每個節(jié)點都與很多它前面的節(jié)點(稱67fid1=fopen('f:\\simulatedata\\tcptrainsample2.txt','r');P=fscanf(fid1,'%g',[40,27031]);fid2=fopen('f:\\simulatedata\\tcptrainlabel2.txt','r');T=fscanf(fid2,'%f',[5,27031]);[Q,minp,maxp]=premnmx(P);net=newff(minmax(Q),[40,8,5],{'tansig','tansig','purelin'},'traingdm');net.trainParam.show=100;net.trainParam.lr=0.001;net.trainParam.epochs=4000;net.trainParam.goal=0.01;[net,tr]=train(net,Q,T);A=sim(net,Q);E=T-A;MSE1=mse(E);fclose(fid1);fclose(fid2);%(生成測試網(wǎng)絡(luò))fidt1=fopen('f:\\simulatedata\\tcptestselectsample.txt','r');fidt2=fopen('f:\\simulatedata\\tcptestselectlabel.txt','r')R=fscanf(fidt1,'%g',[40,29840]);%(讀入驗證數(shù)據(jù))[S,minr,maxr]=premnmx(R);T=fscanf(fidt2,'%g',[5,29840]);B=sim(net,S);E=T-B;MSE2=mse(E);%(輸出計算結(jié)果)fidt2=fopen('f:\\simulatedata\\tcptestselectresult4.txt','w');fprintf(fidt2,'%f',B);fid1=fopen('f:\\simulatedata\68MSE1=0.0428>>MSE2MSE2=0.0861MSE1=69第2章商務(wù)智能應(yīng)用
--分析型CRM第2章商務(wù)智能應(yīng)用
--分析70企業(yè)在擴大市場、提高效率和保持客戶的原始商業(yè)驅(qū)動力不變的情況下,如何繼續(xù)保持競爭的優(yōu)勢。有遠見的公司都會意識到,只有將自己建成能夠?qū)蛻糇鞒鲅杆俜磻?yīng)的公司才能獲得諸多收獲,這些收獲包括收入、新客戶、客戶滿意度、客戶回頭率以及公司效益的增加,從而使競爭力大為提升。企業(yè)在擴大市場、提高效率和保持客戶的原始商業(yè)驅(qū)動力不變的情況71本章內(nèi)容:CRM概述CRM與商務(wù)智能客戶行為分析客戶分類案例分析本章內(nèi)容:CRM概述72CRM概述建立客戶關(guān)系管理(CRM)系統(tǒng)的目的是賦予企業(yè)更完善的與客戶交流的能力,即從潛在客戶識別、生成有需求的客戶,到銷售完結(jié)以及不斷進行的服務(wù)和支持,提供全過程的自動化處理和更好的協(xié)調(diào)與合作,以提高客戶滿意度和客戶忠實度,增加市場機會和銷售利潤,為企業(yè)發(fā)展服務(wù)。CRM概述建立客戶關(guān)系管理(CRM)系統(tǒng)的目的是賦予企業(yè)更完73操作型CRM的設(shè)計目的是為了讓業(yè)務(wù)人員在日常的工作中能夠共享客戶資源,減少信息流動滯留點。通過市場營銷、銷售和服務(wù)等業(yè)務(wù)流程的管理,將客戶的各種信息收集并整合在一起,再將這些運營數(shù)據(jù)和外來的市場數(shù)據(jù)經(jīng)過整合和變換,裝載進DW。協(xié)作型CRM就是能夠讓企業(yè)客戶服務(wù)人員同客戶一起完成某項活動。協(xié)作型應(yīng)用目前主要由呼叫中心、客戶多渠道聯(lián)絡(luò)中心、幫助臺以及自助服務(wù)幫助導航,向客戶解釋特定內(nèi)容的網(wǎng)頁等。
操作型CRM的設(shè)計目的是為了讓業(yè)務(wù)人員在日常的工作中能夠共享74分析型CRM事實上是以改善業(yè)務(wù)管理為目的的分析活動,主要是分析現(xiàn)有的歷史數(shù)據(jù)或者操作型CRM中獲得的各種數(shù)據(jù),進而為企業(yè)的經(jīng)營、決策提供可靠的量化的依據(jù)。在一家銀行的信用卡客戶中,可能有80%的人幾乎不用信用卡交易,有10%的客戶偶爾用卡交易,剩下10%的客戶會頻繁用卡交易,而這一部分客戶可能為銀行信用卡部帶來80%的收入,所以這10%自然是最有價值的客戶。利用分析型CRM系統(tǒng)對客戶進行細分,就可以針對有價值的客戶開展特別的促銷活動、提供更個性化的服務(wù),這無疑將使企業(yè)以最小的投入獲得最大的回報。分析型CRM事實上是以改善業(yè)務(wù)管理為目的的分析活動,主要是分75商務(wù)智能與CRM如果說操作型與協(xié)作型CRM是企業(yè)的臂膀,那么分析型CRM就是企業(yè)的大腦。數(shù)據(jù)整合――提供客戶全景視圖利用數(shù)據(jù)倉庫技術(shù),可以將散落在各個業(yè)務(wù)數(shù)據(jù)庫中的客戶信息經(jīng)過ETL(抽取、轉(zhuǎn)換、加載)過程,清洗、轉(zhuǎn)化、連接、概括、集成為統(tǒng)一的分析數(shù)據(jù);同時,數(shù)據(jù)倉庫強大的數(shù)據(jù)存儲及管理能力可以對海量客戶數(shù)據(jù)有效的存儲、索引、歸類。商務(wù)智能與CRM如果說操作型與協(xié)作型CRM是企業(yè)的臂76信息提交過程企業(yè)信息系統(tǒng)最終的關(guān)注點在于信息的傳遞,實現(xiàn)從數(shù)據(jù)到信息的深層次轉(zhuǎn)化。(1)OLAP的多維立方體模型為用戶提供多維的分析視圖,通過鉆取、旋轉(zhuǎn)、切片(塊)等操作,使得用戶可以隨心所欲地對客戶數(shù)據(jù)進行多維分析,獲取關(guān)于客戶的細分市場、購買模式、盈利能力等重要信息。(2)通過簡單易用的工具使得終端用戶可以自由的按照自己的意圖來操縱數(shù)據(jù),從而為自己的業(yè)務(wù)問題提供信息支持。(3)利用企業(yè)信息門戶策略可以根據(jù)不同的用戶定制信息界面,從而保證信息在適當?shù)臅r間、通過適當?shù)氖侄?、傳遞到適當?shù)娜耸种?。信息提交過程77客戶知識的深入挖掘(1)根據(jù)從客戶知識發(fā)掘的信息,計算客戶生命周期價值,以此作為客戶分類的依據(jù)。針對不同類別的客戶采取不同的措施;(2)預(yù)測客戶將來一段時期的需求;(3)預(yù)測客戶流失的可能性,或者采取及時的補救措施,或者做出減少不必要的投資等決策,最大限度地保留客戶和降低企業(yè)的損失;(4)測評客戶忠誠度,識別忠誠客戶??蛻糁R的展現(xiàn)通過商務(wù)智能技術(shù)所獲得的客戶知識(特征、忠誠度、盈利能力、行為模式)必須通過操作和協(xié)作型CRM系統(tǒng)才能最終實現(xiàn)為客戶提供更好服務(wù)的目標,從而形成業(yè)務(wù)行動的閉環(huán),真正發(fā)揮CRM的各層次的綜合效應(yīng)??蛻糁R的深入挖掘78客戶智能系統(tǒng)結(jié)構(gòu)圖客戶智能系統(tǒng)結(jié)構(gòu)圖79構(gòu)建一個完整的智能CRM系統(tǒng)的幾個步驟:1.整合客戶信息資源對于那些以前沒有應(yīng)用過任何CRM系統(tǒng)的企業(yè)來說,首先需要把孤立的業(yè)務(wù)系統(tǒng)整合到一個統(tǒng)一的平臺之下,解決“信息孤島”。而對于己有CRM系統(tǒng)的企業(yè),則需要建立一個企業(yè)信息門戶,使客戶和企業(yè)能在一個統(tǒng)一的界面下進行數(shù)據(jù)和信息交換,從而保證客戶數(shù)據(jù)的一致性。2.建立客戶數(shù)據(jù)倉庫規(guī)劃數(shù)據(jù)倉庫,以企業(yè)的業(yè)務(wù)模型為基礎(chǔ),確定需要建立能夠描述主要業(yè)務(wù)主題的數(shù)據(jù)模型;設(shè)計數(shù)據(jù)倉庫,根據(jù)邏輯模型和性能要求進行物理模型的設(shè)計,制定數(shù)據(jù)存儲策略以及各種商業(yè)規(guī)則等;
構(gòu)建一個完整的智能CRM系統(tǒng)的幾個步驟:80(3)構(gòu)造數(shù)據(jù)分析模型根據(jù)企業(yè)需要分析的對象和目標,構(gòu)造有針對性的分析模型。針對客戶對企業(yè)的貢獻差異,構(gòu)造客戶盈利能力分析模型;針對客戶對企業(yè)信用程度的不同,構(gòu)造客戶信用分析模型;根據(jù)客戶對產(chǎn)品功能的需求不同,構(gòu)造客戶分類分析模型;根據(jù)客戶的獲得、流失情況,構(gòu)造客戶獲取流失分析模型等等。(4)建立客戶知識管理系統(tǒng)建立一個動態(tài)的客戶知識庫以及制定客戶知識的分發(fā)規(guī)則和保存機制。與客戶數(shù)據(jù)倉庫一樣,客戶知識管理系統(tǒng)也不是一開始就能建立好的,它需要在使用的過程中進行不斷地調(diào)整和完善,是一個動態(tài)完成的系統(tǒng)。(3)構(gòu)造數(shù)據(jù)分析模型81客戶行為分析(獲取新客戶、客戶流失與保持分析、客戶盈利能力分析)獲取新客戶獲取新客戶就是“說服”原本不是你的客戶的消費者成為你的客戶。這些消費者可能是對你的產(chǎn)品/服務(wù)不了解的顧客,也可能是你的產(chǎn)品/服務(wù)的潛在消費者,還可能是你競爭對手的客戶。針對這些不同的消費者需要采用不同的策略才能有效的獲取到新客戶。另外,在獲取新客戶之前,不得不確定哪些消費者是值得努力的,預(yù)測不同客戶對營銷努力的反映情況也是提高獲取新客戶成功率的一個前提。還有,客戶分優(yōu)劣,有些客戶獲得時付出的努力要比他們成為公司客戶后貢獻的利潤低,這樣的客戶還是不獲得為好??蛻粜袨榉治?獲取新客戶、客戶流失與保持分析、客戶盈利能力分82因此,企業(yè)要想通過CRM有效獲得新客戶,必須明確不同客戶的特性。目標市場在哪里?哪些客戶是企業(yè)的潛在客戶?哪些潛在客戶是優(yōu)質(zhì)客戶?客戶獲取的難易程度如何?常用的數(shù)據(jù)挖掘技術(shù)和方法有分類與預(yù)測、聚類、關(guān)聯(lián)分析和異類分析等。例如用關(guān)聯(lián)的方法,通過發(fā)現(xiàn)諸如“在購買A商品后,一段時間里顧客會接著購買商品B,而后購買商品C”這樣的知識,來形成“A-B--C”客戶行為模式。還可以對現(xiàn)有客戶特征進行聚類分析,建立客戶特征模型,以最有效地預(yù)測目標市場和發(fā)現(xiàn)潛在客戶。
因此,企業(yè)要想通過CRM有效獲得新客戶,必須明確不同客戶的特83K-近鄰分類方法
基本思想:K-近鄰分類是基于類比學習的,每個樣本代表d維空間的一個點。當給定一個未知樣本時,K-近鄰分類法將搜索樣本空間,找出最接近未知樣本的K個訓練樣本,這K個訓練樣本是未知樣本的K個“近鄰”。近鄰性一般用歐幾里德距離定義:或采用絕對值距離:缺點:計算量大優(yōu)點:適合各種數(shù)據(jù)類型的數(shù)據(jù)
K-近鄰分類方法基本思想:K-近鄰分類是基于類比學習的,每84利用K-近鄰方法進行潛在客戶預(yù)測考察的客戶自身屬性:企業(yè)總資產(chǎn)值、年銷售收入、距電器銷售公司的地理距離及企業(yè)所處地域的經(jīng)濟發(fā)達程度??蛻舻南M屬性為過去一年內(nèi)對電器銷售公司的總購買額。1.數(shù)據(jù)處理:銷售公司把客戶的消費屬性分為10萬元以下、10萬至100萬、100萬500萬、500萬以上四個區(qū)間,分別取值1,2,3,4;把企業(yè)所處地域的經(jīng)濟發(fā)達程度根據(jù)實際情況分為貧困、欠發(fā)達、發(fā)達、極發(fā)達四檔,分別取值1,2,3,4;其余客戶屬性(企業(yè)總資產(chǎn)值、年銷售收入、距銷售公司的地理距離)也通過區(qū)間劃分完成量化及歸一化處理。表1是經(jīng)過標準化處理的老客戶數(shù)據(jù),表2是經(jīng)過標準化處理的潛在客戶數(shù)據(jù)。利用K-近鄰方法進行潛在客戶預(yù)測考察的客戶自身屬性:企業(yè)總資85表1老客戶數(shù)據(jù)老客戶總資產(chǎn)年銷售收入地理距離所處發(fā)達程度年總購買額11.51.61.20.4221.53.21.20.63310.80.40.2141.53.20.40.84511.60.40.4260.51.60.40.42………………………………表2潛在客戶數(shù)據(jù)潛在客戶總資產(chǎn)年銷售收入地理距離所處發(fā)達程度年總購買額A1.51.61.20.4待預(yù)測B0.81.20.40.2待預(yù)測………………………………表1老客戶數(shù)據(jù)老客戶總資產(chǎn)年銷售收入地理距離所處發(fā)達程度年總862.預(yù)測為了預(yù)測客戶A對公司電器產(chǎn)品的年購買額,我們只須從處理后的老客戶數(shù)據(jù)中找到K個最近鄰(這里設(shè)定K=2)。例如:A與客戶1的距離:D(A,l)=(1.5-1)+(2.4-1.6)+(1.6-1.2)+(0.4-0.4)=1.7,同理計算可得到:D(A,2)=1.9,D(A,3)=3,D(A,4)=2.9,D(A,5)=1.6,D(A,6)=2.5可以看出,A的2個最近鄰為老客戶1和5,可以預(yù)測其對公司電器產(chǎn)品的年購買額將在10萬和100萬之間,我們還可以從處理之前的老客戶數(shù)據(jù)庫中得到客戶1和5的實際年購買額,以對A的年購買額進行更精確的預(yù)計,假設(shè)銷售公司規(guī)定年總購買額在500萬以上的是公司的重點客戶,那么我們可以進一步預(yù)測潛在客戶的類別,從而可以指定精確的營銷計劃,來獲取客戶。2.預(yù)測87將數(shù)據(jù)挖掘應(yīng)用于客戶的獲取活動與傳統(tǒng)的市場營銷策略比較其優(yōu)勢在哪里?下面我們通過一個例子進行詳細的說明。某大銀行A進行直郵的市場營銷活動以獲取信用卡客戶,向100萬名潛在客戶提供信用卡的申請表。使用傳統(tǒng)的做法,A銀行向這100萬名潛在客戶寄出信用卡申請表,共有6%的郵件得到申請回應(yīng)。得到這些潛在客戶的回應(yīng)后,需根據(jù)信用風險程度對它們的申請進行篩選,毫無疑問,往往是信用差的潛在客戶更可能申請信用卡,所以最終篩選后的結(jié)果只有16%的回應(yīng)者是符合信用要求的,即大約占總潛在客戶的1%(6%×16%≈1%)成為最終客戶。A銀行郵寄一份申請表需花費¥1的費用,每個客戶在隨后的兩年將為銀行帶來¥125的利潤。那么用傳統(tǒng)方法營銷得到的凈回報:¥250,000(¥125×10,000-¥1×1,000,000=Y250,000)將數(shù)據(jù)挖掘應(yīng)用于客戶的獲取活動與傳統(tǒng)的市場營銷策略比較其優(yōu)勢88數(shù)據(jù)挖掘技術(shù)的應(yīng)用首先,A銀行寄出50,000份進行測試,并對反饋的結(jié)果進行分析,將這些數(shù)據(jù)作為訓練數(shù)據(jù)應(yīng)用數(shù)據(jù)挖掘算法建立預(yù)測模型,包括潛在客戶的回應(yīng)的模型(可以用決策樹方法)和信用評分模型(可以用神經(jīng)網(wǎng)絡(luò)方法)。然后,結(jié)合這兩個模型找出哪些潛在客戶的信用風險低且很大可能會接受提供的申請表。根據(jù)這些方法,A銀行在剩下的950,000個潛在客戶中選取其中信用好的700,000個進行郵寄。結(jié)果是,通過這郵寄的750,000份申請表,共收到9,000個潛在客戶接受信用卡,即接受的比率為1.2%(9,000÷750,000=1.2%),比傳統(tǒng)方法的1%提高了20個百分點。還有1,000個客戶在未寄的250,000個潛在客戶中,他們是被模型篩選掉的,很明顯,若對他們也進行郵寄的話,需花費¥250,000但他們帶來的利益只有¥125,000(¥125×1,000=¥125,000),表明為獲得這些客戶的成本是大于他們所能帶來的收益的,故將他們放棄。數(shù)據(jù)挖掘技術(shù)的應(yīng)用89表3傳統(tǒng)方法和數(shù)據(jù)挖掘方法獲取新客戶的比較指標傳統(tǒng)方法數(shù)據(jù)挖掘方法差異郵寄總數(shù)量1,000,000750,000250,000郵寄總成本¥1,000,000¥750,000¥250,000成為新客戶的數(shù)量10,0009,0001,000每個新客戶帶來的毛利¥125¥125¥0總毛利¥1,250,000¥1,125,000¥125,000凈利潤¥250,000¥375,000¥125,000數(shù)據(jù)挖掘建模成本¥0¥40000¥40000最終凈利潤¥250,000¥335,000¥85,000從表中可以看到,凈利潤增加了¥125,000,即使減去數(shù)據(jù)挖掘的成本¥40,000其最終凈利潤也還多出¥85,000。另外,本例中建立模型的投資回報率(ROT)也比較高,為212.5%(¥85,000÷¥40,000=212.5%。從而顯示了將數(shù)據(jù)挖掘技術(shù)應(yīng)用與新客戶獲取中的優(yōu)勢所在。表3傳統(tǒng)方法和數(shù)據(jù)挖掘方法獲取新客戶的比較指標傳統(tǒng)方法數(shù)據(jù)90決策樹分類方法決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。比如,在貸款申請中,要對申請的風險大小做出判斷,圖1是為了解決這個問題而建立的一棵決策樹,從中我們可以看到?jīng)Q策樹的基本組成部分:決策節(jié)點、分支和葉子。是否是否是否收入>40000工作時間>5年高負債低風險高風險低風險高風險決策樹分類方法決策樹提供了一種展示類似在什么條件下會得到什么91決策樹的每個節(jié)點子節(jié)點的個數(shù)與決策樹應(yīng)用的算法有關(guān)。如CART算法得到的決策樹每個節(jié)點有兩個分支,這種樹稱為二叉樹。允許節(jié)點含有多于兩個子節(jié)點的樹稱為多叉樹。每個分支要么是一個新的決策節(jié)點,要么是樹的結(jié)尾,稱為葉子。在沿著決策樹從上到下遍歷的過程中,在每個節(jié)點都會遇到一個問題,對每個節(jié)點上問題的不同回答導致不同的分支,最后會到達一個葉子節(jié)點。這個過程就是利用決策樹進行分類的過程,即利用幾個變量(每個變量對應(yīng)一個問題)來判斷所屬的類別(最后每個葉子會對應(yīng)一個類別)。常用的算法有分類回歸樹CART、ID3、和C4.5等決策樹的每個節(jié)點子節(jié)點的個數(shù)與決策樹應(yīng)用的算法有關(guān)。92
ID3算法運用信息熵理論,選擇當前樣本屬性集中具有最大信息增益值的屬性作為測試屬性。該屬性使得對結(jié)果劃分中的樣本分類所需的信息量最小,并反映劃分的最小隨機性或“不純性”。這種信息理論方法使得對一個對象分類所需的期望測試數(shù)目達到最小,并確保找到一棵簡單樹。設(shè)S是s個數(shù)據(jù)樣本的集合。假定類標號屬性具有m個不同值,定義m個不同類(i=1,?,m)。設(shè)是類中的樣本數(shù)。對一個給定的樣本分類所需的期望信息是:其中是任意樣本屬于的概率,并用估計。ID3算法運用信息熵理論,選擇當前樣本屬性集中具有最大信息93設(shè)屬性A為測試屬性,它具有V個不同的值用表示屬性A取值為的樣本子集屬于類的樣本數(shù)。那么按照屬性A的每個屬性值進行分割的期望信息稱作A的熵,由下式給出:在A上分割獲得的信息增益定義為:依據(jù)上述方法,計算每個屬性的信息增益,屬性的信息增益越大,區(qū)分度越大。設(shè)屬性A為測試屬性,它具有V個不同的值用表示屬性A取值為的樣94通過對一組訓練數(shù)據(jù)的學習,構(gòu)造出決策樹形式的知識表示,在決策樹的內(nèi)部結(jié)點進行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點向下的分支,在決策樹葉結(jié)點得到結(jié)論。所以從根到葉結(jié)點的一條路徑就對應(yīng)著一條規(guī)則,整棵決策樹就對應(yīng)著一組析取表達式規(guī)則?;跊Q策樹學習算法的一個最大的優(yōu)點就是它在學習過程中不需要使用者了解很多背景知識。這樣只要訓練實例能夠用屬性—結(jié)論式的方式表達出來,就能使用該算法來進行學習。通過對一組訓練數(shù)據(jù)的學習,構(gòu)造出決策樹形式的知識表示,在決策95Id職業(yè)收入地區(qū)年齡反應(yīng)1銷售<=2000華北年輕02銷售<=2000華東年輕13銷售<=2000華東中年04非銷售>2000華東中年15非銷售>2000華北老年16非銷售>2000其它老年17非銷售<=2000西北中年08銷售>2000華北年輕19銷售>2000西北中年010銷售<=2000西北年輕011銷售<=2000東北中年012非銷售<=2000其它中年013銷售>2000華北年輕114非銷售>2000東北中年115銷售>2000西北年輕1Id職業(yè)收入地區(qū)年齡反應(yīng)1銷售<=2000華北年輕02銷售<96根據(jù)表中的數(shù)據(jù),類反應(yīng)有兩個不同的值(0,1),因此有兩個不同的類(m=2)。設(shè)類C1=0,類C2=1。則類C1有7個樣本,類C2有8個樣本。則給定樣本分類的期望信息為:I(s1,s2)=I(7,8)=-7/15㏒2(7/15)-8/15㏒2(8/15)=0.997現(xiàn)在計算每個屬性的熵,(1)職業(yè):銷售:S11=5,S21=4則I(S11,S21)=0.991非銷售:S12=2,S22=4則I(S12,S22)=0.918信息增益:E(職業(yè))=(S11+S21)*I(S11,S21)/S+(S12+S22)*I(S12,S22)/S=0.991*9/15+0.918*6/15=0.9618GAIN(職業(yè))=0.997-0.9618=0.0352同理:(2)收入:GAIN(收入)=0.4308(3)地區(qū):GAIN(地區(qū))=0.114(4)年齡:GAIN(年齡)=0.226根據(jù)表中的數(shù)據(jù),類反應(yīng)有兩個不同的值(0,1),因此有兩個不97圖2按照“收入”分割得到的決策樹圖2按照“收入”分割得到的決策樹98圖3最終決策樹圖3最終決策樹99從圖3中我們可以很直觀的分析出客戶申請信用卡對“收入”、“年齡”、“地區(qū)”、“職業(yè)”四個屬性的反應(yīng)。可以得出一下規(guī)則:1)當收入小于等于2000元,如果年齡為中年的話一般沒有興趣;2)當收入小于等于2000元,來自地區(qū)為華北、西北、東北或其它的年輕人,一般沒有興趣;3)當收入小于等于2000元,來自地區(qū)為華東且為年輕人一般有興趣;4)當收入大于2000元,且來自華北、華東、東北或其它地區(qū),一般有興趣;5)當收入大于2000元,來自西北地區(qū)且為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度人工智能語音識別系統(tǒng)聘用合同范本
- 2025年金融機構(gòu)間委托貸款合同文本格式標準3篇
- 2025年中國磷酸鈣市場調(diào)查研究及行業(yè)投資潛力預(yù)測報告
- 二零二五年度RoHS環(huán)保產(chǎn)品出口許可證申請合同3篇
- 2025年干燥器濾芯項目投資可行性研究分析報告
- 二零二五年度墻繪行業(yè)人才培養(yǎng)合同3篇
- 二零二五版智能門控系統(tǒng)集成服務(wù)合同4篇
- 2025年度教育培訓機構(gòu)代理商銷售合同范本4篇
- 2025版全新運輸公司勞動合同(貨運司機)2篇
- 二零二五醫(yī)療設(shè)備投放與數(shù)據(jù)共享合作協(xié)議3篇
- 2024企業(yè)答謝晚宴會務(wù)合同3篇
- 中華人民共和國文物保護法
- 節(jié)前物業(yè)安全培訓
- 高甘油三酯血癥相關(guān)的器官損傷
- 手術(shù)室護士考試題及答案
- 牙膏項目創(chuàng)業(yè)計劃書
- 單位食堂供餐方案
- 人教A版必修五《斐波那契數(shù)列》教案及教學反思
- 風電工程需要編寫的專項施工方案及危大工程目錄
- 商業(yè)計劃書(BP)財務(wù)計劃風險控制資本退出與附錄的撰寫秘籍
- 七年級下冊《Reading 1 A brave young man》優(yōu)質(zhì)課教案牛津譯林版-七年級英語教案
評論
0/150
提交評論