企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用_第1頁
企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用_第2頁
企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用_第3頁
企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用_第4頁
企業(yè)CRM系統(tǒng)中決策樹算法的應(yīng)用_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、企業(yè)crm系統(tǒng)中決策樹算法的應(yīng)用河北金融學(xué)院郭佳許明保定市科技局基于數(shù)據(jù)挖掘的客戶關(guān)系管理系統(tǒng)應(yīng)用研究09zg009摘要:客戶資源決定企業(yè)的核心競爭力,更多的關(guān)心自己的銷售群體,并與 之建立良好的、長期的客戶關(guān)系,提升客戶價值,對全面提升企業(yè)競爭能力和盈 利能力具有重要作用。本文以某企業(yè)銷售業(yè)績?yōu)閷ο?,利用決策樹分類算法,得 到支持決策,從而挖掘出理想客戶。關(guān)鍵字:客戶關(guān)系管理;數(shù)據(jù)挖掘;分類算法決策樹分類是一種從無規(guī)則、無序的訓(xùn)練樣本集合中推理出決策樹表示形式 的分類規(guī)則的方法。該方法采用自頂向下的比較方式,在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行 屬性值的比較,然后根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在

2、決策樹的葉 結(jié)點(diǎn)得到結(jié)論。本文主要研究決策樹分類算法中id3算法在企業(yè)crm系統(tǒng)中的應(yīng)用情況。1.id3算法原理id3算法是一種口頂向下的決策樹生成算法,是一種根據(jù)爛減理論選擇最優(yōu) 的描述屬性的方法。該算法從樹的根節(jié)點(diǎn)處的訓(xùn)練樣本開始,選擇一個屬性來區(qū) 分樣本。對屬性的每一個值產(chǎn)生一個分支。分支屬性的樣本子集被移到新生成的 了節(jié)點(diǎn)上。這個算法遞歸地應(yīng)用于每個了節(jié)點(diǎn),直到一個節(jié)點(diǎn)上的所有樣本都分 區(qū)到某個類中。2 用于分類的訓(xùn)練數(shù)據(jù)源組數(shù)據(jù)挖掘的成功在很大程度上取決于數(shù)據(jù)的數(shù)量和質(zhì)量。我們應(yīng)從大量的企 業(yè)客戶數(shù)據(jù)中找到與分析問題有關(guān)的,具有代表性的樣本數(shù)據(jù)子集。然后,進(jìn)行 數(shù)據(jù)預(yù)處理、分析,按問

3、題要求對數(shù)據(jù)進(jìn)行組合或增刪生成新的變量,從而對問 題狀態(tài)進(jìn)行有效描述。在本文研究的企業(yè)數(shù)據(jù)中,是將客戶的年齡概化為“小于等于30”、“30 到50之間”和“大于50”三個年齡段,分別代表青年、中年和老年客戶,將產(chǎn) 品價格分為高、中、低三檔等,詳見表1,將企業(yè)crm系統(tǒng)數(shù)據(jù)庫中銷售及客 戶信息匯總為4個屬性2個類別。4個屬性是客戶年齡段、文化程度、銷售地區(qū)、 產(chǎn)品檔次,類別是銷售業(yè)績,分為好和差兩類。表1訓(xùn)練樣本集合attributeageeducationarealevelclass1<=30hilowbad2<=30hihighgood3<=30hiimediumbad4&

4、lt;=30hiihighgood5<=30lihighgood6<=30lilowgood7<=30liilowgood8<=30mihighgood9<=30mimediumgood10<=30miimediumgood11二 30milowgood1231-51mimediumgood1331-51miimediumgood1431-51milowbad1531-51hihighgood1631-51himediumgood1731-51hilowgood1831-51hiihighbad1931-51hiilowbad2031-51lihighgoo

5、d2131-51lilowgood2231-51miihighbad2331-51mihighgood24>50mihighbad25>50miihighbad26>50mimediumgood表2訓(xùn)練數(shù)據(jù)中各屬性的說明屬性說明age客戶的年齡段education文化程度area業(yè)務(wù)銷售地區(qū)(i木地區(qū),ii外地)level產(chǎn)甜檔次class銷售狀況3. id3算法分類模型的建立由表1可知:類標(biāo)號屈性有兩個不同的值,因此冇兩個不同的類(即m=2) 設(shè)類c1對應(yīng)于good,類c2對應(yīng)于bado類good有18個樣本,類bad有8個 樣木。為了計算每個屬性的信息增益, 以初始信息爛

6、為:加先使用/(» ®,,幾)=10&(a),所826/=1i (s1,s2)t/1 q q_18 188i(18,8)=-log2-log218126812618o8八“八八u=log?1log = = * 0.53 h* 1.7= 0.890526 t8 26- 182626然后計算客戶年齡、文化程度、產(chǎn)品檔次和銷售區(qū)域4個屬性的爛。首先觀 察age屈性的每個樣本值的good> bad分布,分別計算每個分布的信息爛:當(dāng) age<=30: sh=9 s?=2 時,i(s11,s21)=992n,og2n-nlogto 2當(dāng) age 在 31-50 間:

7、si2=8當(dāng) age>=50: si3=ls2?=4 h'j» i(si2,so2)二log7log。12 62 12 12 62 12 1 1 2 2s23=2 時'i(s13,s23)= 一§10g2 § 一 §1002 §若按age劃分樣本,所需的信息爛為:11123e(age) = z(5h,521) + ©2,22) + i(s13,s23) =0.8192 類似的,可以得到:262626e(education)=9/5;54i 4、 12/ 8 |84 f4x5 z 5f 50,0、(log 2 lo

8、g 2 一)+ ( log 7log 2 )+ (log ° log 2 -)2699992612 t212t2265555=0.7669e(production)=霜?dú)w呃令臨令+令-瓢2卜級韻+卻-沁2|-|1。請=0.8531714143394455e(area)= (一log,log7) + (一log.log, -) = 0.7832617- 17172 17269- 999通過以上屬性,對當(dāng)前分支節(jié)點(diǎn)進(jìn)行和應(yīng)樣木集合劃分,從而獲得的信息增 益分別為:gain(age) = i(shs2)- e(age) =0.8905-0.8192=0.0713gain(education

9、) = i(s|,s2)-玖education) =0.8905-0.7769=0.1236gain(production) = i(s,s2)- e(production) =0.8905-0.853=0.0375gain(area) = i(si,s2)- e(area) =0.8905-0.783=0.1075gain(equipment) =1.576 - 0.873 = 0.703從計算結(jié)果得到education屬性具冇最高信息增益,因此education屬性成為 決策樹根節(jié)點(diǎn)的測試屬性。如卜圖所示:education1i <=30 lowbad2i <=30 highg

10、ood311 <=30 mediumbad411 <=30 highgood15131-50 highgood16i 31 -50 mediumgood17131-50 lowgood181131-50 highbad19ii31-50 lowbad8i <=30 highgood9i <=30 mediumgood10il <=30 mediumgood11i <=30 lowgood12i 31-50 mediumgood13ii31-50 mediumgood14131-50 lowbad22ii 31-5() highbad23131-50 high

11、good24i >=50 highbad25ii >=50 highbad26i >=50 mediumgood5i <=30 highgood6i <=30 lowgood711 <=30 lowgood2()11 <=30 highgood21i 31-50 lowgood圖1決策樹根節(jié)點(diǎn)的測試屈性在樣本集合中對education屬性的3個取值進(jìn)行分支,3個分支對應(yīng)3個子 集,分別為:pl = 1,2,3,4,15,16,17,1 &19;p2 = 8,9,10,11,12,13,14,22,23,24,25,26;p3= 5,6,7,20

12、,21其中p3的樣本都為good類,因此對應(yīng)分支標(biāo)記為good, pl、p2樣本類別 未定,所以需要對pl、p2子集分別遞歸調(diào)用id3算法。在p1屮可以求出剩卜的age、production> area三個屬性的信息增益。5544/(», s') = _§ log? § _ § log? g = 0.9924222253322e(age) = - lo§ 2 - - - lo§ 2los 2 - - - lo§ 2 -)= °-985側(cè)瞅劇辰爐,孔)- e(卯)=0007311222111143311

13、= -(log.log. -) + -(log2 log, -) + -(log2 log,-)933339222294444gcroduction) = /($,孔)一 e( production) = 0.1035441141133e(area) = -(-log2-log2-) + - (-log2-log2 -) = 0.762gain(ared) = i(ss2)- e(areci) = 0.23因為area屬性的信息增益最大,所以把屬性area作為該分支的節(jié)點(diǎn),再向 卜分支,p2處理類似,最后得到的決策樹如下圖所示:因此,對于樣本 x=(age= "3150",

14、education二"low”,level= "medium", area= t), id3算法分類預(yù)測其class為good。4. 決策樹的生成決策樹的建立是決策樹分類的基礎(chǔ),以id3算法為例說明建立決策樹的過 程。在決策樹的遞歸構(gòu)造過程屮,在樹的節(jié)點(diǎn)上利用特征的信息增益大小作為分 支屬性選擇的依據(jù),選擇信息增益最大的特征作為分支屬性。id3算法描述簡單, 分類速度快,適合于大規(guī)模數(shù)據(jù)的處理,具休算法描述如下所示。輸入:訓(xùn)練樣本samples,候選屈性集合attributejist輸出:一棵決策樹首先創(chuàng)建節(jié)點(diǎn)n, if samples都在同一個類c then返回

15、n作為葉節(jié)點(diǎn),以類 c標(biāo)記;訐attribute_list為空then返回n作為葉節(jié)點(diǎn),標(biāo)記為samples屮最普遍的 類,選擇attribute_list中具有最高信息增益的屬性branch_attribute,標(biāo)記節(jié)點(diǎn)n 為 branch_attribute;遍歷 for each branch_attribute 屮2知的值 ai,由節(jié)點(diǎn) n 長出 一個條件為 branch_attribute=ai 的分支,設(shè) si 是 samples 屮 branch_attribute=ai 的 樣本集合,若si為空then加上一個樹葉,標(biāo)記為samples中最普遍的類,否則 else 加上一個由

16、generate_decision(si,attributeistbmnch_a"ibute):s回的節(jié)點(diǎn)該算法屮屈性的度量標(biāo)準(zhǔn)是在樹的每個節(jié)點(diǎn)上使用信息增益度量選擇分支 屬性。這種度量選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的分支屬性。該屬性 使得對結(jié)果劃分的樣本分類所需的信息量最小。算法的偽代碼描述如下所示。 generate_decision_tree(samples, usable-attribute-list,c) create a new node n ;if (all samples in n are in the class c) return n as a leaf

17、node labled with 1 as the probability of class c; select test-attribute,the attribute among attribute-list with the highest information gain; label node n with test-attribute and probability of samples in class c; for each known value 命 of test-attribute let sj be the set of samples in samples for w

18、hich test-attribute=aj; if (!(sj is empty) grow a branch from node n for the condition test-attribute = a(;attach the node nnew returned bygenerate_decision_tree(si,attribute-list-test-attribute,c);5. 決策樹的剪枝在決策樹構(gòu)造時,許多分支可能反映的是訓(xùn)練數(shù)據(jù)屮的噪聲或孤立點(diǎn)。為了 保證決策樹分類的質(zhì)量和精確度,必須要修剪所構(gòu)造的決策樹。通常使用統(tǒng)計度 量,剪去最不可靠的分支,這將導(dǎo)致較快的分類,提

19、高樹獨(dú)立于測試數(shù)據(jù)正確分 類的能力,目前常采用的剪枝方法主要有減小錯誤修剪法、悲觀錯誤修剪法、基 于代價復(fù)雜度的修剪法、代價敏感的決策樹修剪方法等。6. 由決策樹提取分類規(guī)則決策樹可以以if-then形式表示分類規(guī)則。對從根到樹葉的每條路徑創(chuàng) 建一個規(guī)則。ifthen規(guī)則易于理解,特別是當(dāng)給定的樹比較大的時候。利用if-then形式的分類規(guī)則我們從圖2中提取決策樹屮表示的知識,從 而便于金業(yè)從屮發(fā)現(xiàn)銷售規(guī)律,制定科學(xué)冇效的營銷策略。(1)if education= “h” and area= t' or(area= “ii") and age= “v二3(t and prod

20、uction “high” then achievement “gooctif education= “h” and area= “i" and age= “315(f and then achievement= “good''(3) if education= “h” and area= v and age= “v=3(t and production= “l(fā)ow” then achievement- “bact(4) if education= “m" and production= “high” and age= “v=30” or(age= “31

21、5(t and area二 “t) then achievement二 “good”(5) if education= “mt and production= “high” and age= “>=5(f or(age= “31 -50" and area= “ il ”)then achievement= “ba(t(1)至(3)條分類規(guī)則說明該金業(yè)的高檔產(chǎn)品對于受過高等教育的本地區(qū)的年 輕客戶吸引力較大,低檔產(chǎn)品對該類客戶的吸引力較?。辉撈髽I(yè)的各檔次產(chǎn)品對 于本地受過高等教育的中年客戶吸引力均較大。(4) (5)條規(guī)則說明企業(yè)的高檔產(chǎn)品對于受過中等教育的年輕客戶或本地的 屮年客戶吸引力較大;高檔產(chǎn)品在受過中等教育的老年客戶或外地區(qū)的屮年客戶 中不太受歡迎。因此該企業(yè)的營銷策略可以加大高檔產(chǎn)品在年輕客戶中的推廣力 度,同時加大在本地受過高等教育的屮年客戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論