第10章數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用_第1頁(yè)
第10章數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用_第2頁(yè)
第10章數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用_第3頁(yè)
第10章數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用_第4頁(yè)
第10章數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、0/612022-3-7商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析1/612022-3-7第第1010章章 數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用 10.1 數(shù)據(jù)挖掘在電信業(yè)的應(yīng)用概述數(shù)據(jù)挖掘在電信業(yè)的應(yīng)用概述 10.2 案例案例1:客戶通話模式分析:客戶通話模式分析 10.3 案例案例2:客戶細(xì)分與流失分析:客戶細(xì)分與流失分析 10.4 案例案例3:移動(dòng)業(yè)務(wù)關(guān)聯(lián)分析:移動(dòng)業(yè)務(wù)關(guān)聯(lián)分析 2/612022-3-710.1 數(shù)據(jù)挖掘在電信業(yè)的應(yīng)用概述 (1)10.1.1 客戶細(xì)分10.1.2 客戶流失預(yù)測(cè)分析10.1.3 客戶社會(huì)關(guān)系挖掘10.1.4 業(yè)務(wù)交叉銷售10.1.5

2、欺詐客戶識(shí)別3/612022-3-710.1 數(shù)據(jù)挖掘在電信業(yè)的應(yīng)用概述 (2)l電信業(yè)是典型的數(shù)據(jù)密集型行業(yè),長(zhǎng)期積累的大量客戶行為數(shù)據(jù)是運(yùn)營(yíng)商的重要資源和財(cái)富。然而,電信業(yè)務(wù)數(shù)據(jù)量龐大,業(yè)務(wù)系統(tǒng)眾多,在電信業(yè)中引入數(shù)據(jù)挖掘技術(shù),以幫助理解商業(yè)行為、識(shí)別電信模式、更好地利用資源和提高服務(wù)質(zhì)量,具有重要的應(yīng)用價(jià)值。本章主要介紹數(shù)據(jù)挖掘在電信行業(yè)中的應(yīng)用概貌,并通過(guò)案例具體介紹相關(guān)技術(shù)的應(yīng)用。4/612022-3-710.1 數(shù)據(jù)挖掘在電信業(yè)的應(yīng)用概述 (3)l數(shù)據(jù)挖掘技術(shù)為電信運(yùn)營(yíng)商制定營(yíng)銷策略、爭(zhēng)奪客戶資源等方面都起到不可或缺的作用。在客戶關(guān)系管理中:通過(guò)對(duì)客戶進(jìn)行分類以發(fā)現(xiàn)不同價(jià)值的客戶群

3、體;通過(guò)對(duì)客戶的流失預(yù)測(cè)以進(jìn)行客戶挽留;對(duì)客戶之間的社會(huì)關(guān)系進(jìn)行分析以獲取潛在客戶和保持現(xiàn)有客戶。在市場(chǎng)營(yíng)銷方面,使用購(gòu)物籃分析進(jìn)行業(yè)務(wù)交叉銷售。同時(shí),異常檢測(cè)技術(shù)是識(shí)別欺詐客戶的有效方法。l根據(jù)電信業(yè)在不同方面的業(yè)務(wù)需求,這里只討論與客戶相關(guān)的業(yè)務(wù)數(shù)據(jù)挖掘,重點(diǎn)介紹客戶細(xì)分、客戶流失分析、客戶社會(huì)關(guān)系挖掘、業(yè)務(wù)交叉銷售和欺詐客戶識(shí)別等。5/612022-3-710.1.1 客戶細(xì)分l客戶市場(chǎng)細(xì)分是指將客戶劃分成互不相交的類別。在同一類別里,客戶具有相似的特性,比如將客戶分成一級(jí)、金卡級(jí)和白金級(jí)持卡人;家庭客戶和政企客戶等。l客戶細(xì)分是將一個(gè)大的消費(fèi)群體劃分成多個(gè)小類別的操作,同屬于一個(gè)細(xì)分類

4、別的客戶消費(fèi)行為彼此相似,而隸屬于不同細(xì)分類別的消費(fèi)者彼此之間的消費(fèi)行為存在較大差異。在電信市場(chǎng)業(yè)務(wù)中,清楚地了解客戶類別是對(duì)每個(gè)客戶群采取有針對(duì)性營(yíng)銷措施的基礎(chǔ)。6/612022-3-710.1.2 客戶流失預(yù)測(cè)l客戶流失是指企業(yè)原來(lái)的客戶中止繼續(xù)購(gòu)買商品或服務(wù)或是接受競(jìng)爭(zhēng)對(duì)手的商品或服務(wù)。對(duì)于數(shù)據(jù)密集型的電信行業(yè)來(lái)說(shuō),客戶流失問(wèn)題具有普通性,且代價(jià)昂貴和難以控制,所以不利于企業(yè)的發(fā)展。l客戶流失預(yù)測(cè)分析給電信企業(yè)的經(jīng)營(yíng)決策提供了大量信息,它需要對(duì)企業(yè)的市場(chǎng)情況進(jìn)行深入分析,并對(duì)企業(yè)的客戶歷史數(shù)據(jù)進(jìn)行深入的挖掘。在客戶識(shí)別過(guò)程中,主要將客戶流失預(yù)測(cè)當(dāng)作一個(gè)識(shí)別問(wèn)題,利用統(tǒng)計(jì)分析和數(shù)據(jù)挖掘中的

5、分類算法建立預(yù)測(cè)模型。7/612022-3-710.1.3 客戶社會(huì)關(guān)系挖掘l電信運(yùn)營(yíng)商擁有客戶電話呼叫的詳細(xì)記錄,每條通話記錄表示兩個(gè)客戶之間發(fā)生的一次聯(lián)系。l客戶呼叫圖表示客戶之間的通話關(guān)聯(lián)關(guān)系,在一定程度上體現(xiàn)了社會(huì)中人與人之間的社交關(guān)系,因此電信呼叫圖可以作為一種社會(huì)網(wǎng)絡(luò)來(lái)研究。l對(duì)于電信客戶,當(dāng)有一個(gè)客戶轉(zhuǎn)網(wǎng)時(shí),他的聯(lián)系人會(huì)考慮更換服務(wù)提供商。這種行為一旦擴(kuò)散,會(huì)對(duì)運(yùn)營(yíng)商的客戶群產(chǎn)生更大影響。然而傳統(tǒng)客戶關(guān)系管理只針對(duì)單個(gè)客戶特征,無(wú)法挖掘客戶間行為的相互影響。因此,可以利用鏈接分析建立客戶社會(huì)關(guān)系模型,使用社區(qū)替代單個(gè)客戶作為電信客戶關(guān)系管理的對(duì)象,一方面可以掌握社區(qū)內(nèi)客戶的行為影

6、響,另一方面也可以將社區(qū)內(nèi)的消息傳播用于產(chǎn)品推銷,從而節(jié)省推銷成本。8/612022-3-710.1.4 業(yè)務(wù)交叉銷售l交叉銷售通過(guò)分析以往客戶的購(gòu)買行為以發(fā)現(xiàn)頻繁地被同時(shí)購(gòu)買的產(chǎn)品組合,可以為只購(gòu)買部分產(chǎn)品的客戶來(lái)推薦組合中的其它產(chǎn)品以提高利潤(rùn),其實(shí)現(xiàn)的方法有關(guān)聯(lián)規(guī)則挖掘、相關(guān)分析、主成分分析等。l基于關(guān)聯(lián)規(guī)則的交叉銷售方法主要是從業(yè)務(wù)的角度來(lái)進(jìn)行分析,通過(guò)關(guān)聯(lián)分析發(fā)現(xiàn)客戶使用業(yè)務(wù)的潛在規(guī)則和同時(shí)被使用頻率較高的業(yè)務(wù)組合。l電信行業(yè)擁有眾多的業(yè)務(wù)種類,不同性質(zhì)的客戶通常會(huì)使用不同的業(yè)務(wù)組合,使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)不同業(yè)務(wù)之間的關(guān)聯(lián),可以了解客戶頻繁使用哪些業(yè)務(wù)、哪些業(yè)務(wù)傾向于被一起使用、哪些客戶更

7、可能接受促銷的新業(yè)務(wù)、哪些業(yè)務(wù)有必要以促銷的方式提供給客戶來(lái)加以了解。9/612022-3-710.1.5 欺詐客戶識(shí)別l隨著電信業(yè)務(wù)的迅猛發(fā)展,電信網(wǎng)絡(luò)的欺詐行為也不斷涌現(xiàn),我國(guó)電信運(yùn)營(yíng)商都廣泛面臨著被欺詐的嚴(yán)重問(wèn)題,大量客戶及分銷商、增值業(yè)務(wù)提供商的惡意欠費(fèi)、欺詐行為導(dǎo)致電信運(yùn)營(yíng)商的收入受到巨大的損失,額外支出的增加,進(jìn)而致使利潤(rùn)下降,而電信客戶的合法權(quán)益也受到損害,電信運(yùn)營(yíng)商的信譽(yù)無(wú)法得到保障。l采用聚類、分類、離群點(diǎn)分析等方法檢測(cè)客戶欺詐行為。聚類、分類和離群點(diǎn)分析主要研究欺詐客戶與其他客戶群在屬性空間分布的差異,發(fā)現(xiàn)潛在的欺詐客戶,或者通過(guò)分析客戶當(dāng)前行為與歷史行為的差異來(lái)發(fā)現(xiàn)欺詐行

8、為。10/612022-3-710.2 案例1: 客戶通話模式分析10.2.1 商業(yè)理解10.2.2 數(shù)據(jù)理解階段10.2.3 數(shù)據(jù)準(zhǔn)備階段10.2.4 建模階段11/612022-3-710.2.1 商業(yè)理解l電信行業(yè)客戶的通話時(shí)長(zhǎng)和時(shí)段能很好地反映客戶的行為特征。通過(guò)分析通話時(shí)長(zhǎng)可以知道通話的特性(比如是正常通話還是騷擾電話,客戶是否對(duì)價(jià)格敏感等),通過(guò)分析通話時(shí)段可以了解通信網(wǎng)絡(luò)的忙時(shí)和閑時(shí)等。以下針對(duì)客戶詳細(xì)通話數(shù)據(jù)進(jìn)行幾個(gè)方面的業(yè)務(wù)分析:(1)通話模式有地區(qū)性的不同。(2)通話模式有時(shí)間性的不同。(3)分析高利潤(rùn)的通話模式。12/612022-3-710.2.2 數(shù)據(jù)理解階段 (1)

9、字 段 順 序字 段 名字 段 名 稱數(shù) 據(jù) 類 型說(shuō) 明1from_number主叫Char(20)在中國(guó),截止2007年8月,共有61個(gè)城市的固定電話號(hào)碼為8位,剩下大多數(shù)的電話號(hào)碼為7位。2to_number被叫Char(20) 3start_date開始日期NUMBER(8) 4start_time開始時(shí)間NUMBER(8) 5end_date結(jié)束日期NUMBER(8) 6end_time結(jié)束時(shí)間NUMBER(8) 7duration_of_call通話時(shí)間NUMBER(8)通話時(shí)間(以秒計(jì))。8type話單類型NUMBER(8)話單類型。例如市內(nèi)通話,國(guó)際長(zhǎng)途等(1)通話明細(xì)數(shù)據(jù)l每

10、一個(gè)通話明細(xì)記錄都是由電話網(wǎng)絡(luò)對(duì)每一次通話進(jìn)行的詳細(xì)記錄,每條記錄保存的信息如表10-1所示。13/612022-3-710.2.2 數(shù)據(jù)理解階段 (2)字 段 順 序字 段 名字 段 名 稱數(shù) 據(jù) 類 型1region_id區(qū)縣標(biāo)識(shí)Char(10)2cust_type_id客戶類型碼Char(13)3cust_type客戶類型Char(8)4compute_0013行業(yè)類別Char(30)5compute_0014行業(yè)子類Char(26)6billing_no電話號(hào)碼Char(15)7serv_id服務(wù)編碼Char(8)8product_name產(chǎn)品名稱Char(30)9user_type客

11、戶性質(zhì)Char(8)10State狀態(tài)Char(8)(2)客戶基本信息l除了通話明細(xì)記錄外,本案例還需要客戶基本信息。14/612022-3-710.2.2 數(shù)據(jù)理解階段 (3)表10-3 中國(guó)個(gè)地級(jí)市區(qū)號(hào)列表表10-4 國(guó)家代碼及對(duì)于國(guó)家列表表10-5 中國(guó)電話號(hào)碼歸屬及收費(fèi)說(shuō)明表(3)輔助文件l通話明細(xì)分析,通常需要格外的參考表,如中國(guó)各地級(jí)市區(qū)號(hào)列表(如表10-3)、國(guó)家代碼以及對(duì)應(yīng)國(guó)家的列表(如表10-4)、中國(guó)電話號(hào)碼歸屬及收費(fèi)說(shuō)明表(如表10-5)。字段順序字段名字段名稱1Province省份2City城市3Code區(qū)號(hào)4Weishu電話號(hào)碼位數(shù)字段順序字段名字段名稱1num_st

12、art號(hào)碼開頭字段2Compay歸屬運(yùn)營(yíng)商3Description收費(fèi)說(shuō)明4Attach備注字段順序字段名字段名稱1country_eng國(guó)家英文名2country_chn國(guó)家中文名3Short國(guó)家名稱縮寫4cnt_code國(guó)家代碼5time_diff時(shí)差15/612022-3-710.2.3 數(shù)據(jù)準(zhǔn)備階段 (1)l高質(zhì)量的決策必須依賴于高質(zhì)量的數(shù)據(jù)。然而,實(shí)際的電信應(yīng)用系統(tǒng)收集到的原始數(shù)據(jù)極易受噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)的侵?jǐn)_,這些數(shù)據(jù)可能會(huì)影響甚至改變數(shù)據(jù)挖掘的結(jié)果,導(dǎo)致無(wú)效或錯(cuò)誤的決策。l本案例采用的數(shù)據(jù)預(yù)處理技術(shù)包括:數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)變換。數(shù)據(jù)預(yù)處理流程如圖 :16/61

13、2022-3-710.2.3 數(shù)據(jù)準(zhǔn)備階段 (2)(1)數(shù)據(jù)清洗l數(shù)據(jù)清洗指去除源數(shù)據(jù)集中的噪聲或無(wú)關(guān)數(shù)據(jù)、處理缺失值空值和糾正不一致數(shù)據(jù)。l在通話記錄數(shù)據(jù)中,由于機(jī)器通信信號(hào)或者機(jī)器記錄時(shí)的故障,可能會(huì)出現(xiàn)缺失值、不完整數(shù)據(jù)或者噪聲數(shù)據(jù),如類似被叫為空值、0、00、000,通話時(shí)長(zhǎng)為0的電話號(hào)碼。這些數(shù)據(jù)在檢測(cè)設(shè)備故障時(shí)可能會(huì)起到重要作用,但這些數(shù)據(jù)會(huì)降低數(shù)據(jù)挖掘的效率,影響數(shù)據(jù)挖掘的結(jié)果。在通話數(shù)據(jù)中,還包含了客戶由于失誤而撥打的錯(cuò)誤無(wú)效號(hào)碼的數(shù)據(jù),此類數(shù)據(jù)并不產(chǎn)生通訊費(fèi)用。17/612022-3-710.2.3 數(shù)據(jù)準(zhǔn)備階段 (3)(2)數(shù)據(jù)集成由于以下因素,將會(huì)導(dǎo)致同一號(hào)碼的形式多種多

14、樣:l網(wǎng)絡(luò)運(yùn)營(yíng)商采用的IP電話接入號(hào)的不同導(dǎo)致IP通話中被叫號(hào)碼的形式多樣,如電信IP電話接入號(hào)有17909等。l通話所在的區(qū)域不同,如固定電話前加區(qū)號(hào)。l國(guó)際長(zhǎng)途電話,固定電話前加00+國(guó)家代碼。l與移動(dòng)電話之間的長(zhǎng)途通話,移動(dòng)電話號(hào)碼前加0。l政企客戶打外線號(hào)碼,被叫號(hào)碼前加9。針對(duì)以上情況,消除不一致數(shù)據(jù),進(jìn)行數(shù)據(jù)統(tǒng)一,包括以下方面:l主叫號(hào)碼處理:對(duì)于長(zhǎng)途手機(jī)或長(zhǎng)途固話打本地電話的通話數(shù)據(jù),需要從主叫號(hào)碼中分離國(guó)內(nèi)各地級(jí)市的區(qū)號(hào),并還原原始主叫號(hào)碼。l被叫號(hào)碼處理:對(duì)于本地固話打IP長(zhǎng)途電話,需要從被叫號(hào)碼中識(shí)別不同的IP電話接入運(yùn)營(yíng)商,并從被叫號(hào)碼中分離中國(guó)各地級(jí)市的區(qū)號(hào)。對(duì)于本地固

15、話撥打普通長(zhǎng)途電話(即非IP長(zhǎng)途電話),直接從被叫號(hào)碼中分離中國(guó)各地級(jí)市的區(qū)號(hào)。18/612022-3-710.2.3 數(shù)據(jù)準(zhǔn)備階段 (4)(3)數(shù)據(jù)變換本案例根據(jù)分析需求構(gòu)造新的衍生特征。l公話標(biāo)記:標(biāo)識(shí)與公話服務(wù)電話通話的記錄。l通話類型:將通話數(shù)據(jù)分成:市話、國(guó)內(nèi)長(zhǎng)途、國(guó)際長(zhǎng)途。l通話子類型:根據(jù)IP接入號(hào),將國(guó)內(nèi)長(zhǎng)途通話分成IP國(guó)內(nèi)長(zhǎng)途和傳統(tǒng)國(guó)內(nèi)長(zhǎng)途,將國(guó)際通話分成IP國(guó)際長(zhǎng)途和傳統(tǒng)國(guó)際長(zhǎng)途;根據(jù)撥打國(guó)際長(zhǎng)途的地區(qū)提取港澳臺(tái)通話。l通話比例:根據(jù)通話的主叫、被叫號(hào)碼是否屬于同個(gè)運(yùn)營(yíng)商(如電信運(yùn)營(yíng)商、移動(dòng)運(yùn)營(yíng)商),將通話數(shù)據(jù)分成手機(jī)通話和網(wǎng)內(nèi)通話。l客戶類型:將明細(xì)數(shù)據(jù)分成三類:政企客戶

16、、家庭客戶和其他客戶。l通話時(shí)段:將一天以1小時(shí)為單位劃分為24個(gè)時(shí)段,根據(jù)通話數(shù)據(jù)的開始時(shí)間和結(jié)束時(shí)間將通話劃分到對(duì)應(yīng)的時(shí)段中。l通話時(shí)長(zhǎng)組:將通話時(shí)長(zhǎng)劃分成10秒以下,1分鐘內(nèi)等時(shí)長(zhǎng)組,根據(jù)通話時(shí)長(zhǎng)將通話數(shù)據(jù)劃分到對(duì)應(yīng)的時(shí)長(zhǎng)組中。19/612022-3-710.2.4 建模階段 (1)(1)通話時(shí)長(zhǎng)分析l通話時(shí)間長(zhǎng)短是客戶通話行為的一個(gè)基本方面。它能說(shuō)明很多關(guān)于數(shù)據(jù)質(zhì)量的信息,如某些超短通話是否為騷擾電話?超長(zhǎng)電話是否為機(jī)器故障所致?l本案例通過(guò)數(shù)據(jù)產(chǎn)生通話時(shí)間的長(zhǎng)條圖,由于通話時(shí)長(zhǎng)按照秒進(jìn)行存儲(chǔ)的區(qū)間太小,因此有許多數(shù)據(jù)無(wú)法在條形圖中顯示。本案例首先對(duì)時(shí)長(zhǎng)進(jìn)行分組,以10分鐘作為區(qū)間。然

17、后查看時(shí)長(zhǎng)的分布條形圖,再分析10分鐘及以內(nèi)、10秒鐘及以內(nèi)和大于30分鐘的分布情況。在時(shí)長(zhǎng)分析時(shí),同時(shí)探索在每個(gè)時(shí)長(zhǎng)中各種通話類型的比例。l這樣的條形圖對(duì)通話時(shí)長(zhǎng)的探索還不夠具體,故將抽取時(shí)長(zhǎng)為10分鐘及以內(nèi)的通話數(shù)據(jù)來(lái)觀察時(shí)長(zhǎng)的分布情況,并以1分鐘為區(qū)間。在10分鐘及以內(nèi)的時(shí)長(zhǎng)分布條形圖中(如圖10-3),主要數(shù)據(jù)分布在4分鐘及以內(nèi),占92%以上,電信運(yùn)營(yíng)商可以根據(jù)該特征將4分鐘設(shè)置市內(nèi)優(yōu)惠通話劃分點(diǎn)。在通話時(shí)長(zhǎng)大于30分鐘的數(shù)據(jù)中(如圖10-4),主要分布在40分鐘以內(nèi),且國(guó)內(nèi)長(zhǎng)途占主體,該特征又可作為優(yōu)惠通話的參考。20/612022-3-710.2.4 建模階段 (2)圖10-2 以

18、10分鐘為區(qū)間的話時(shí)長(zhǎng)分布l本案例實(shí)驗(yàn)數(shù)據(jù)的通話時(shí)長(zhǎng)有96.43%分布在10分鐘及以內(nèi),且大部分為市內(nèi)通話(如圖10-2)。21/612022-3-710.2.4 建模階段 (3)圖10-3 以1分鐘為區(qū)間的通話時(shí)分布l在10分鐘及以內(nèi)的時(shí)長(zhǎng)分布條形圖中(如圖10-3),主要數(shù)據(jù)分布在4分鐘及以內(nèi),占92%以上,電信運(yùn)營(yíng)商可以根據(jù)該特征將4分鐘設(shè)置市內(nèi)優(yōu)惠通話劃分點(diǎn)。22/612022-3-710.2.4 建模階段 (4)圖10-4 以10分鐘為區(qū)間且時(shí)長(zhǎng)大于30分鐘的通話時(shí)長(zhǎng)分布l在通話時(shí)長(zhǎng)大于30分鐘的數(shù)據(jù)中(如圖10-4),主要分布在40分鐘以內(nèi),且國(guó)內(nèi)長(zhǎng)途占主體,該特征又可作為優(yōu)惠通話

19、的參考。23/612022-3-710.2.4 建模階段 (5)圖10-5 2秒以內(nèi)通話數(shù)據(jù)析l識(shí)別騷擾電話對(duì)運(yùn)營(yíng)商和客戶來(lái)說(shuō)都具有很大的意義,通過(guò)對(duì)通話時(shí)長(zhǎng)在2秒以內(nèi)的呼叫客戶進(jìn)行分析(如圖10-5所示),該類電話主要屬于市內(nèi)通話,對(duì)主叫號(hào)碼進(jìn)行分組為184 654個(gè)號(hào)碼,其中有304個(gè)號(hào)碼的呼叫次數(shù)大于50,可初步判斷為騷擾號(hào)碼,這些號(hào)碼大多是公免用戶,可能是公用號(hào)碼被私人撥打騷擾電話。24/612022-3-710.2.4 建模階段 (6)圖10-6 超通話的類型分布l對(duì)于通話時(shí)間大于等于1小時(shí)的超長(zhǎng)通話,如圖10-6所示,主要為國(guó)內(nèi)長(zhǎng)途和市內(nèi)通話。25/612022-3-710.2.4

20、 建模階段 (7)(1)通話時(shí)段分析l分析通話明細(xì)數(shù)據(jù)中不同時(shí)段的頻率,電信運(yùn)營(yíng)商可以從中得知哪個(gè)時(shí)段是通話的繁忙時(shí)段,以制定通話優(yōu)惠策略、平衡線路的負(fù)載、避免過(guò)度通話帶來(lái)的網(wǎng)絡(luò)故障。不同時(shí)段可能造成不同的通話類型,通過(guò)分析每個(gè)不同通話類型的時(shí)段比例,可以知道市內(nèi)電話、國(guó)內(nèi)長(zhǎng)途電話、國(guó)際電話的主要時(shí)段分布情況。l本案例通過(guò)讀取通話明細(xì)記錄的開始時(shí)間和結(jié)束時(shí)間,按照每天中的各個(gè)小時(shí)做出直方圖,并以1小時(shí)作為時(shí)段的長(zhǎng)度。由于本案例使用的數(shù)據(jù)中有些通話的開始時(shí)間和結(jié)束時(shí)間分布在不同的時(shí)段,對(duì)于該情況本案例將通話的開始時(shí)間和結(jié)束時(shí)間分布在不同時(shí)段的記錄在對(duì)應(yīng)的兩個(gè)時(shí)段都累積一次進(jìn)行處理,最終構(gòu)造一張包

21、含開始時(shí)間、結(jié)束時(shí)間、通話時(shí)長(zhǎng)、通話時(shí)段的數(shù)據(jù)表。26/612022-3-710.2.4 建模階段 (8)圖10-7 通話時(shí)段分布l圖10-7顯示了一天中通話時(shí)段的模式。一般來(lái)說(shuō),凌晨通話次數(shù)很少;隨著一天時(shí)間的流逝,通話次數(shù)明顯增加。大約8:00A.M.到11:00A.M.時(shí),或3:00P.M.到7:00P.M.時(shí)會(huì)有一個(gè)有趣的峰值人們?cè)谏习鄷r(shí)間段會(huì)打電話,而每天的中午會(huì)產(chǎn)生一個(gè)低谷。這些說(shuō)明通話時(shí)間和作息時(shí)間是正相關(guān)性的。27/612022-3-710.2.4 建模階段 (9)圖10-8 政企客戶的通話時(shí)段分布圖10-9 家庭客戶類型通話時(shí)段分布l不同客戶類型的通話時(shí)段分布有所不同,如圖1

22、0-8、圖10-9分布展示了政企客戶和家庭客戶的通話時(shí)段分布情況。一般政企客戶在上班時(shí)間段(早上八點(diǎn)到下午五點(diǎn))通話很頻繁,且中午時(shí)間通話較少;而無(wú)論對(duì)于主叫或被叫,家庭客戶在晚上(六點(diǎn)到八點(diǎn))的通話較多,說(shuō)明家庭客戶一般在中午或晚上較空閑的時(shí)間段通話較頻繁。28/612022-3-710.2.4 建模階段 (10)圖10-10 國(guó)長(zhǎng)途的通話時(shí)段分布l國(guó)際電話通話相當(dāng)重要,需要深入了解國(guó)際電話通話的平均持續(xù)時(shí)間以及國(guó)際電話打往去處。圖10-10顯示在一天內(nèi),國(guó)際電話通話的持續(xù)時(shí)間顯著地變化。最長(zhǎng)的通話是在白天期間,最短的則是在夜間。同時(shí)該圖顯示了國(guó)際電話的主要聯(lián)系地主要是港澳臺(tái),特別是香港,其

23、次是美國(guó)、臺(tái)灣、日本,這與現(xiàn)實(shí)情況是吻合的,即與港澳臺(tái)同胞的聯(lián)系較多,與美國(guó)、日本等發(fā)達(dá)國(guó)家的商業(yè)活動(dòng)或留學(xué)較頻繁。29/612022-3-710.2.4 建模階段 (11)圖10-11 國(guó)際通話呼入呼出的通話時(shí)段分布l由于國(guó)外和國(guó)內(nèi)關(guān)于國(guó)際通話收費(fèi)不同,一般來(lái)說(shuō),我國(guó)呼出國(guó)際的通話費(fèi)用相比于國(guó)外呼入明顯偏高。那么國(guó)際通話收費(fèi)是否會(huì)影響國(guó)際通話的呼叫類型呢?如圖10-11所示,國(guó)外呼入占國(guó)際通話的主體,這說(shuō)明了國(guó)外呼入的收費(fèi)低導(dǎo)致中國(guó)電信運(yùn)營(yíng)商的國(guó)際通話以被叫為主,那么運(yùn)營(yíng)商應(yīng)該適當(dāng)?shù)卣{(diào)整國(guó)際通話費(fèi)用。30/612022-3-710.3 案例2: 客戶細(xì)分與流失分析10.3.1 商業(yè)理解10.

24、3.2 數(shù)據(jù)理解階段10.3.3 數(shù)據(jù)準(zhǔn)備階段10.3.4 建模階段10.3.5 評(píng)估階段31/612022-3-710.3.1 商業(yè)理解l客戶流失預(yù)測(cè)分析的主要商業(yè)目標(biāo)就是要對(duì)有流失傾向的客戶進(jìn)行有選擇性的挽留,從而減少客戶流失率。通過(guò)建立流失預(yù)測(cè)模型挖掘出有潛在流失傾向的客戶,并在此基礎(chǔ)上結(jié)合客戶細(xì)分的結(jié)果,將流失客戶進(jìn)行細(xì)分,找出流失傾向大的客戶群體,然后根據(jù)挖掘結(jié)果幫助市場(chǎng)營(yíng)銷人員制定出具體的挽留策略和價(jià)值提升策略。32/612022-3-710.3.2 數(shù)據(jù)理解階段 (1)字 段 編 號(hào)字 段 名 稱數(shù) 據(jù) 類 型 字 段 編 號(hào)字 段 名 稱數(shù) 據(jù) 類 型1服務(wù)編號(hào)Char(20)

25、10產(chǎn)品Char(30)2行業(yè)大類IDChar(30)11竣工時(shí)間Number(8)3行業(yè)小類IDChar(30)12拆機(jī)類型Number(8)4電話號(hào)碼Char(30)13通話級(jí)別Char(30)5客戶編號(hào)Char(30)14狀態(tài)Char(8)6客戶類型Char(30)15套餐名稱Varchar7渠道Char(30)16套餐生效時(shí)間Number(8)8行業(yè)大類Char(30)17套餐失效時(shí)間Number(8)9行業(yè)小類Char(30)18套餐竣工時(shí)間Number(8)(1)客戶基本特征:主要客戶資料數(shù)據(jù)l客戶基本特征數(shù)據(jù)是客戶的靜態(tài)數(shù)據(jù)。33/612022-3-710.3.2 數(shù)據(jù)理解階段

26、(2)字 段 編 號(hào)字 段 名 稱字 段 名 稱數(shù) 據(jù) 類 型1Total_fee月總費(fèi)用Number(8)2FEE1月租費(fèi)Number(8)3Local_fee本地通話費(fèi)用Number(8)4CK_D_fee傳統(tǒng)國(guó)內(nèi)通話費(fèi)用Number(8)5CK_I_fee傳統(tǒng)國(guó)際通話費(fèi)用Number(8)6CK_GOT_fee傳統(tǒng)港澳臺(tái)通話費(fèi)用Number(8)7IP_ CK_D_feeIP國(guó)內(nèi)通話費(fèi)用Number(8)8IP_CK_I_feeIP國(guó)際通話費(fèi)用Number(8)9IP_CK_GOT_feeIP港澳臺(tái)通話費(fèi)用Number(8)(2)客戶行為特征:主要是客戶的消費(fèi)行為特征數(shù)據(jù)l每條記錄包含了

27、客戶在一個(gè)年度內(nèi)的消費(fèi)行為數(shù)據(jù),包括一年中每個(gè)月的總費(fèi)用,月租費(fèi)用、本地通話費(fèi)、傳統(tǒng)國(guó)內(nèi)通話費(fèi)用、傳統(tǒng)國(guó)際通話費(fèi)用、傳統(tǒng)港澳臺(tái)通話費(fèi)用、IP國(guó)內(nèi)通話費(fèi)用、IP國(guó)際通話費(fèi)用以及IP港澳臺(tái)通話費(fèi)用等9個(gè)基本消費(fèi)行為特征。34/612022-3-710.3.2 數(shù)據(jù)理解階段 (3)字段編號(hào)字段名稱字段名稱數(shù)據(jù)類型1Class客戶是否流失Char(8)(3)客戶類別特征l實(shí)驗(yàn)樣本數(shù)據(jù)集中包含一個(gè)能夠判定類別信息的類別特征,根據(jù)類別信息可知道每個(gè)樣本的基本狀態(tài)。35/612022-3-710.3.3 數(shù)據(jù)準(zhǔn)備階段 (1)(1)數(shù)據(jù)清洗l數(shù)據(jù)清洗的目的是補(bǔ)全數(shù)據(jù)、處理缺失值、除去噪聲以及改正不協(xié)調(diào)的數(shù)據(jù)。

28、例如在客戶樣本數(shù)據(jù)集中有些客戶的套餐名稱、套餐生效時(shí)間、套餐失效時(shí)間及套餐竣工時(shí)間等數(shù)據(jù)為空。在處理含有缺失值的特征時(shí),如果有些特征的有效值少于總記錄數(shù)據(jù)的1/5,則可刪除此類特征;如果某記錄中存在大量的空缺值,而這些空缺值難以以正常方法給予補(bǔ)全,則可以去除此類記錄。36/612022-3-710.3.3 數(shù)據(jù)準(zhǔn)備階段 (2)12i 1Year_total_feetotal_fee(2)數(shù)據(jù)變換l數(shù)據(jù)轉(zhuǎn)換主要包括構(gòu)造新的衍生特征和對(duì)連續(xù)型數(shù)據(jù)進(jìn)行規(guī)范化。在實(shí)驗(yàn)數(shù)據(jù)集中除了有表示客戶類別信息的特征外(也是用其它方法賦值的),沒(méi)有直接體現(xiàn)客戶價(jià)值和客戶流失傾向的特征。根據(jù)需要可以構(gòu)造以下特征: 年

29、度總費(fèi)用:為一年內(nèi)12個(gè)月的費(fèi)用總和,表示為Year_total_fee。 月消費(fèi)比率:指下一個(gè)月與上一個(gè)月的總費(fèi)用比值。根據(jù)這一原理可構(gòu)造11個(gè)月消費(fèi)比率特征。用符號(hào)可表示為:37/612022-3-710.3.3 數(shù)據(jù)準(zhǔn)備階段 (3)(3)特征選擇l經(jīng)過(guò)數(shù)據(jù)清理和數(shù)據(jù)變換后,接下來(lái)就要進(jìn)行特征選擇。特征選擇的效果會(huì)直接影響到分類預(yù)測(cè)模型的性能。l通過(guò)特征選擇可以減少樣本的維度,大大減少計(jì)算量,降低時(shí)間和空間復(fù)雜度,簡(jiǎn)化學(xué)習(xí)模型。例如該樣本數(shù)據(jù)集中電話號(hào)碼和客戶編號(hào)的相關(guān)性很強(qiáng),即存在冗余性,則可刪除與目標(biāo)特征相關(guān)性小的特征,即電話號(hào)碼字段被刪除掉。通過(guò)特征選擇,服務(wù)編號(hào)、行業(yè)大類ID、行業(yè)

30、小類ID、電話號(hào)碼、竣工時(shí)間、拆機(jī)時(shí)間、60個(gè)原始消費(fèi)行為特征及5個(gè)構(gòu)造特征被刪除。38/612022-3-710.3.4 建模階段 (1)圖10-12 各簇年度消總費(fèi)用平均值比較(1)聚類分析l采用一趟聚類為客戶細(xì)分的方法。在一趟聚類實(shí)驗(yàn)中,取聚類閾值r在EX,EX+0.8*DX中隨機(jī)選取,得到聚類結(jié)果為:訓(xùn)練集被聚成17個(gè)簇,聚類精度為96.81%,其中簇大小占總樣本比例超過(guò)1%的只有7個(gè)簇,其它10個(gè)簇占總樣本數(shù)目都沒(méi)有超過(guò)1%,相當(dāng)于小簇。l在聚類結(jié)果中,17個(gè)簇的正常樣本和流失樣本分布、平均未消費(fèi)月份數(shù)、各簇樣本數(shù)占總客戶總體的比例及各簇的年度消費(fèi)平均值如表10-9和圖10-12所示

31、。39/612022-3-710.3.4 建模階段 (2)簇 標(biāo) 號(hào)簇 大 小類別分布(1/0)各簇年度總費(fèi)用平均值(元)平均未消費(fèi)的月份數(shù)占總體客戶的比130725430.01765.5%22810/28134604.3310.5%318030/180340324.7063.2%413420/134238205.1102.38%55170/51778014.6220.93%65646/101795211.4820.1%71800/18043506.5280.32%832810/328130064.7415.81%91040/10450475.0100.18%1058

32、0/58145202.7240.1%119130/91390144.3891.62%123610/36141676.8140.64%1368166464/35284940.07912.08%1430892992/97189060.0015.47%154680/468151704.4360.83%161190/11976104.4030.21%17700/7054834.9860.12%表10-9 客戶聚類分析結(jié)果40/612022-3-710.3.4 建模階段 (3) (a)價(jià)值金字塔 (b)數(shù)量倒金字塔圖10-13l依據(jù)客戶對(duì)企業(yè)所創(chuàng)造的價(jià)值(主要是各簇年度總費(fèi)用平均值,如圖10-12所示)

33、,可將客戶分為價(jià)值最大的VIP客戶群(簇6,約占總客戶數(shù)的0.1%)、能為企業(yè)提供較高利潤(rùn)的主要客戶群(簇10、簇14及簇15,約占總客戶數(shù)的6.4%)、消費(fèi)額一般的普通客戶群(簇5、簇11、簇13和簇16,約占總客戶數(shù)的14.85%)和數(shù)量大但價(jià)值小的小客戶群(簇1、簇2、簇3、簇4、簇7、簇8、簇9、簇12和簇17,約占總客戶數(shù)的78.65%)。l可得出如下結(jié)論:價(jià)值最大的VIP客戶群(I)、能為企業(yè)提供較高利潤(rùn)的主要客戶群(II)、消費(fèi)額一般的普通客戶群(III)和數(shù)量大但價(jià)值小的小客戶群(IV)等四個(gè)類別的客戶為企業(yè)創(chuàng)造的價(jià)值是依次遞減的(呈金字塔型,如圖10-13a),而數(shù)量卻是呈指

34、數(shù)式增長(zhǎng)(呈倒金字塔型,如圖10-13b);41/612022-3-710.3.4 建模階段 (4)圖10-14 普通客戶各簇在12個(gè)月內(nèi)的消費(fèi)狀況l在分析客戶的基本構(gòu)成以外,還需要對(duì)每個(gè)客戶群的具體消費(fèi)行為進(jìn)行分析。為了簡(jiǎn)化分析,我們以普通客戶群為例,分析該客戶群中不同簇的消費(fèi)差異。如圖10-14所示,該客戶群中四個(gè)簇的月平均消費(fèi)比率分別如四條不同顏色的線條來(lái)表示。根據(jù)四條線的趨勢(shì)可以看出,簇13的客戶每月的消費(fèi)比較平穩(wěn),而其它三個(gè)簇的客戶消費(fèi)不穩(wěn)定,且最后幾個(gè)月其消費(fèi)呈直線下降趨勢(shì)。42/612022-3-710.3.4 建模階段 (5)圖10-15 普通戶群中流失客戶的具體消費(fèi)行為比較l

35、圖10-15描述了普通客戶群中不同簇的消費(fèi)行為狀況。從該圖中可以看出,簇5偏向于IP國(guó)際通話消費(fèi)和港澳臺(tái)通話消費(fèi)。簇11主要是本地通話及IP國(guó)內(nèi)通話消費(fèi),而簇16則熱衷于傳統(tǒng)國(guó)際及傳統(tǒng)港澳臺(tái)消費(fèi)。43/612022-3-710.3.4 建模階段 (6)(2)分類預(yù)測(cè)模型l客戶聚類作為預(yù)測(cè)的基礎(chǔ),目標(biāo)是將客戶劃分為不同的類別,這樣可以使預(yù)測(cè)分析在不同的客戶群體上進(jìn)行,也就是說(shuō)可以根據(jù)各記錄的簇標(biāo)號(hào)判定客戶的類別。因此,需要將每條記錄所在簇編號(hào)作為一個(gè)新特征的特征值增加到實(shí)驗(yàn)數(shù)據(jù)集中。用于分類建模的數(shù)據(jù)集中包含了85個(gè)特征(83個(gè)基本特征+1個(gè)聚類標(biāo)號(hào)+1個(gè)目標(biāo)特征)和56 425條記錄樣本。l本

36、實(shí)驗(yàn)采用決策樹的C4.5算法進(jìn)行分類預(yù)測(cè)。在實(shí)驗(yàn)中,對(duì)數(shù)據(jù)集采用隨機(jī)選取2/3的數(shù)據(jù)用于訓(xùn)練,剩余的數(shù)據(jù)作為測(cè)試集。經(jīng)過(guò)分類分析后,得到混淆矩陣(見表10-10)和誤分率曲線圖(見圖10-16)。l分類后得到的部分分類規(guī)則如圖10-17所示。44/612022-3-710.3.4 建模階段 (7) 非 流 失流 失總 計(jì)非流失2968119629877流失65767047361總計(jì)30338690037238表10-10 C4.5分類后的混淆矩陣圖10-16 葉結(jié)點(diǎn)數(shù)與誤分率的關(guān)系圖45/612022-3-710.3.4 建模階段 (8)圖10-17 部分決策樹規(guī)則示意圖46/612022-3

37、-710.3.5 評(píng)估階段 (1)(1)聚類模型評(píng)估l對(duì)于聚類模型來(lái)說(shuō),它可以反應(yīng)客戶群的整體特性。通過(guò)對(duì)客戶的合理劃分及客戶簇群的特征進(jìn)行分析,可以從中判斷出該客戶群不同客戶的消費(fèi)偏好及消費(fèi)特點(diǎn)。l聚類結(jié)果的優(yōu)劣還會(huì)影響客戶分類預(yù)測(cè)模型的性能。對(duì)訓(xùn)練集上聚類結(jié)果的評(píng)估可采用聚類精度及簇個(gè)數(shù)來(lái)評(píng)價(jià)其性能。一般來(lái)說(shuō),越少的簇個(gè)數(shù),越高的聚類精度,聚類的性能就越好,反之性能越差。l在本案例中,該模型得到的聚類精度是96.81%,簇的個(gè)數(shù)為17。這個(gè)結(jié)果對(duì)于電信行業(yè)來(lái)說(shuō)是可以接受的,因?yàn)椴煌目蛻羧后w中都存在著不同程度的客戶流失現(xiàn)象,并且在同一個(gè)消費(fèi)水平的客戶群體中也會(huì)存在不同消費(fèi)特點(diǎn)的小客戶群。l

38、可以通過(guò)調(diào)整聚類閾值的大小來(lái)改變聚類精度及簇個(gè)數(shù)。當(dāng)閾值略小于本案例實(shí)驗(yàn)取值時(shí),聚類精度會(huì)有少量提高,但是簇個(gè)數(shù)增長(zhǎng)幅度非常大,這樣不便于分析客戶群的整體特性。而當(dāng)聚類閾值略大于本實(shí)驗(yàn)取值時(shí),聚類精度下降幅度大,簇個(gè)數(shù)明顯減少,但這種情況下很難依據(jù)各簇的特點(diǎn)來(lái)分析各客戶群的消費(fèi)特性及消費(fèi)偏好。47/612022-3-710.3.5 評(píng)估階段 (2)(2)分類預(yù)測(cè)模型的評(píng)估l針對(duì)分類模型的檢驗(yàn)方法是對(duì)已知客戶狀態(tài)的數(shù)據(jù)利用模型進(jìn)行預(yù)測(cè),得到模型的預(yù)測(cè)值和實(shí)際的客戶狀態(tài)進(jìn)行比較。l分類預(yù)測(cè)模型評(píng)估主要是在測(cè)試集上進(jìn)行驗(yàn)證,評(píng)估分類預(yù)測(cè)模型的主要指標(biāo)有分類準(zhǔn)確率(Accuracy)、召回率(預(yù)測(cè)覆蓋

39、率,Recall)、分類精度(預(yù)測(cè)命中率,Precision)以及F-measure值等。關(guān)于這幾個(gè)指標(biāo)值的定義在前面的相關(guān)章節(jié)中已有說(shuō)明??偟膩?lái)說(shuō),這幾個(gè)指標(biāo)值越大,說(shuō)明模型的預(yù)測(cè)效果越好。l從圖10-27所示的混淆矩陣結(jié)果中可以看出,該模型的預(yù)測(cè)性能是比較理想的,能夠用于電信行業(yè)的分類預(yù)測(cè)。l增加聚類結(jié)果作為新特征能夠優(yōu)化分類預(yù)測(cè)模型的性能。數(shù) 據(jù) 集分類準(zhǔn)確率預(yù) 測(cè) 精 度預(yù)測(cè)召回率F-measure值Dataset197.08%97.3%90.8%93.9%Dataset298.14%98.5 %92.1%95.2%48/612022-3-710.4 案例3: 移動(dòng)業(yè)務(wù)關(guān)聯(lián)分析10.4

40、.1 商業(yè)理解10.4.2 數(shù)據(jù)理解階段10.4.3 數(shù)據(jù)準(zhǔn)備階段10.4.4 建模階段10.4.5 評(píng)估階段10.4.6 部署階段49/612022-3-710.4.1 商業(yè)理解l近年來(lái),移動(dòng)通信市場(chǎng)一方面隨著客戶普及率的不斷提高,單純依靠增量客戶來(lái)拉動(dòng)運(yùn)營(yíng)收入和利潤(rùn)增長(zhǎng)已經(jīng)受到限制;另一方面,隨著移動(dòng)通信技術(shù)的不斷發(fā)展,運(yùn)營(yíng)商不斷將新業(yè)務(wù)推向市場(chǎng),以建立新的業(yè)務(wù)增長(zhǎng)點(diǎn),提升新業(yè)務(wù)對(duì)運(yùn)營(yíng)收入的貢獻(xiàn)。因此,如何提升客戶價(jià)值,實(shí)現(xiàn)運(yùn)營(yíng)商的運(yùn)營(yíng)收入和利潤(rùn)可持續(xù)發(fā)展,對(duì)運(yùn)營(yíng)商顯得至關(guān)重要。l對(duì)業(yè)務(wù)進(jìn)行關(guān)聯(lián)規(guī)則分析,可以為營(yíng)銷人員和營(yíng)銷策劃人員開展以下交叉銷售工作。(1)針對(duì)性地向客戶發(fā)送信息。(2)

41、主動(dòng)業(yè)務(wù)推薦或促銷。(3)業(yè)務(wù)搭售或者業(yè)務(wù)捆綁銷售。50/612022-3-710.4.2 數(shù)據(jù)理解階段 (1)字 段 順 序字 段 名字 段 名數(shù) 據(jù) 類 型說(shuō) 明1tm_intrvl_cd月份NUMBER(10)2usr_nbr手機(jī)號(hào)碼VARCHAR2(20)3brand_cd品牌編碼varchar2(50)1全球通,2神州行,3動(dòng)感地帶4 品牌名稱 5pkg_cd子品牌編碼varchar2(50)6 子品牌名稱 7usr_sts_cd用戶狀態(tài)編碼varchar2(10)US10-正使用,US30-停機(jī),US20-銷戶表10-13 用戶基本信息l本案例使用某移動(dòng)公司一個(gè)月的客戶業(yè)務(wù)使用數(shù)據(jù)

42、(見表10-12)和客戶基本信息表(見表10-13)。51/612022-3-710.4.2 數(shù)據(jù)理解階段 (2)字 段 順 序字 段 名說(shuō) 明1手機(jī)號(hào)碼2月份3是否飛信處于開通狀態(tài)1表示是,0表示否4是否139郵箱業(yè)務(wù)處于開通狀態(tài)1表示是,0表示否5gprs月套餐GPRS月套餐:5元套餐為1;20元套餐為2;50元套餐為3;100元套餐為4;200元套餐為5;沒(méi)有套餐為0;6gprs日套餐GPRS日套餐:1元日套餐為1;2元日套餐為2;沒(méi)有套餐為0;7新聞早晚報(bào)收入8手機(jī)報(bào)業(yè)務(wù)收入9是否彩鈴處于開通狀態(tài)1表示是,0表示否10是否無(wú)線音樂(lè)高級(jí)會(huì)員處于開通狀態(tài)1表示是,0表示否11鈴音盒收入12

43、號(hào)薄管家功能收入13短信回執(zhí)業(yè)務(wù)收入14通信助手業(yè)務(wù)收入15是否撥打過(guò)酒店預(yù)定1表示是,0表示否16是否成功預(yù)定酒店1表示是,0表示否17是否撥打過(guò)機(jī)票預(yù)定1表示是,0表示否18當(dāng)月是否撥打過(guò)125801表示是,0表示否19是否開通廣東小額支付平臺(tái)1表示是,0表示否20是否開通手機(jī)支付業(yè)務(wù)1表示是,0表示否21是否開通手機(jī)下載業(yè)務(wù)1表示是,0表示否表10-12 客戶增值業(yè)務(wù)原始數(shù)據(jù)52/612022-3-710.4.3 數(shù)據(jù)準(zhǔn)備階段 (1)l在進(jìn)行移動(dòng)通信的關(guān)聯(lián)分析前,需要進(jìn)行大量的數(shù)據(jù)預(yù)處理,這里主要是數(shù)據(jù)變換,包括屬性構(gòu)造、屬性泛化和屬性替換。l由于移動(dòng)通信的增值業(yè)務(wù)太多,而且業(yè)務(wù)的層次太

44、細(xì),比如GPRS業(yè)務(wù)分成了GPRS月套餐和GPRS日套餐,而月套餐和日套餐按照套餐額又進(jìn)行細(xì)分;彩信業(yè)務(wù)分成點(diǎn)對(duì)點(diǎn)彩信和夢(mèng)網(wǎng)彩信。這里的應(yīng)用需要選取較高層次的業(yè)務(wù)作為分析目標(biāo)項(xiàng),所以對(duì)部分屬性進(jìn)行泛化,用高層概念替換底層概念。l由于原始數(shù)據(jù)中彩信業(yè)務(wù)和手機(jī)游戲的值是消費(fèi)金額,這里需要將有消費(fèi)的值用1代替,沒(méi)有消費(fèi)的用0代替。對(duì)于其它業(yè)務(wù),客戶在本月至少使用過(guò)某業(yè)務(wù)一次,那么該業(yè)務(wù)的值就為1,否則為0。53/612022-3-710.4.3 數(shù)據(jù)準(zhǔn)備階段 (2)字 段 順 序字 段 名字 段 名 稱數(shù) 據(jù) 類 型說(shuō) 明1Usr_nbr手機(jī)號(hào)碼VARCHAR2(20) 2Fetion_flag飛信

45、CHAR(1)1表示開通,0表示未開通3mms_flag彩信CHAR(1)1表示開通,0表示未開通4mobmail_flag 139郵箱CHAR(1)1表示開通,0表示未開通5pim_flag號(hào)薄管家CHAR(1)1表示開通,0表示未開通6smsrtn_flag短信回執(zhí)CHAR(1)1表示開通,0表示未開通7gprs_pkgGRPSCHAR(1)1表示開通,0表示未開通8mobnews_flag手機(jī)報(bào)CHAR(1)1表示開通,0表示未開通9timenews_flag新聞早晚報(bào)CHAR(1)1表示開通,0表示未開通10cr_flag彩鈴CHAR(1)1表示開通,0表示未開通11wireless_

46、adv_usr_flag無(wú)線音樂(lè)高級(jí)會(huì)員CHAR(1)1表示開通,0表示未開通12wireless_mus_flag無(wú)線音樂(lè)俱樂(lè)部CHAR(1)1表示開通,0表示未開通13cr_box_flag鈴音盒CHAR(1)1表示開通,0表示未開通14quanqu_down全曲下載CHAR(1)1表示開通,0表示未開通15hotel_preord_call_flag酒店預(yù)定CHAR(1)1表示開通,0表示未開通16aer_preord_flag機(jī)票預(yù)定CHAR(1)1表示開通,0表示未開通17mo_call_12580_flag百科業(yè)務(wù)CHAR(1)1表示開通,0表示未開通18mobpay_flag手機(jī)

47、支付CHAR(1)1表示開通,0表示未開通19mobgame_flag手機(jī)游戲CHAR(1)1表示開通,0表示未開通表10-14 預(yù)處理后的客戶增值業(yè)務(wù)數(shù)據(jù)表54/612022-3-710.4.3 數(shù)據(jù)準(zhǔn)備階段 (3)字 段 順 序手 機(jī) 卡 號(hào)彩 鈴GPRS百 科手 機(jī) 報(bào)新聞早晚報(bào)11341*0221110021341*11411011表10-15 轉(zhuǎn)化前的數(shù)據(jù)樣本字 段 順 序手 機(jī) 卡 號(hào)業(yè) 務(wù) 名 稱11341*022彩鈴21341*022GPRS31341*022百科業(yè)務(wù)41341*114彩鈴51341*114GPRS61341*114手機(jī)報(bào)71341*114新聞早晚報(bào)表10-16

48、 轉(zhuǎn)換后的數(shù)據(jù)樣本l本案例使用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘。該算法要求輸入包含一個(gè)ID和一個(gè)目標(biāo)變量。在本案例中,將客戶的手機(jī)卡號(hào)作為ID,客戶使用的業(yè)務(wù)作為目標(biāo)變量。由于原始的數(shù)據(jù)格式是每個(gè)客戶使用多種業(yè)務(wù)的記錄,所以本案例的預(yù)處理工作需要將原始的單個(gè)客戶包含多種業(yè)務(wù)的記錄轉(zhuǎn)化成多條手機(jī)卡號(hào)業(yè)務(wù)名稱的記錄形式。55/612022-3-710.4.4 建模階段 (1)(1)規(guī)則的生成l為便于分析,每種業(yè)務(wù)代表一個(gè)項(xiàng)。本案例使用Apriori算法挖掘出所有規(guī)則。最小支持度、最小置信度和提升度是關(guān)聯(lián)規(guī)則最主要的評(píng)價(jià)指標(biāo)。以神舟行客戶數(shù)據(jù)為例進(jìn)行參數(shù)設(shè)置說(shuō)明,鑒于電信業(yè)多數(shù)新業(yè)務(wù)的使用率比較小

49、,可設(shè)定項(xiàng)的最小比例和最小規(guī)則置信度分別為5和50。(2)規(guī)則的選取l關(guān)聯(lián)規(guī)則一般分為三種類型:可操作的、平凡的和費(fèi)解的。l類型一:有用規(guī)則包含高質(zhì)量、可操作信息。這樣的規(guī)則暗示更有效的業(yè)務(wù)組合。如規(guī)則139郵箱=彩鈴&GPRS是有價(jià)值的,因?yàn)?39免費(fèi)業(yè)務(wù)的使用會(huì)促使客戶開通彩鈴和GPRS需要收費(fèi)的業(yè)務(wù)。l類型二:平凡的結(jié)果早已被熟悉商業(yè)的任何一個(gè)人所知曉。例如,規(guī)則GPRS=飛信,客戶開通GPRS業(yè)務(wù)很大可能就是用手機(jī)客戶端登錄信,那么該規(guī)則對(duì)于業(yè)務(wù)人員來(lái)說(shuō)是可以猜測(cè)得到的。l類型三:費(fèi)解的規(guī)則似乎無(wú)法解釋,并且難以給出行動(dòng)過(guò)程。例如規(guī)則無(wú)線音樂(lè)高級(jí)會(huì)員=新聞早晚報(bào)似乎無(wú)法直接解釋

50、,也許可以猜測(cè)為該客戶愛好音樂(lè),同時(shí)也有閱讀電子新聞的習(xí)慣。56/612022-3-710.4.4 建模階段 (2)表10-17 神舟行客戶數(shù)據(jù)生成的規(guī)則(部分)規(guī) 則 號(hào)規(guī) 則支 持 度置 信 度提 升 度1新聞早晚報(bào) = 手機(jī)報(bào)5.80%100.00%14.602手機(jī)報(bào) = 新聞早晚報(bào)5.80%84.66%14.603新聞早晚報(bào) = 彩鈴5.24%90.37%1.094新聞早晚報(bào) = GRPS5.07%87.49%1.035新聞早晚報(bào) & 手機(jī)報(bào) = 彩鈴5.2490.371.096新聞早晚報(bào) & 手機(jī)報(bào) = GRPS5.0787.491.037手機(jī)報(bào) = 彩鈴6.07%8

51、8.67%1.078手機(jī)報(bào) = GRPS5.96%87.01%1.039無(wú)線音樂(lè)俱樂(lè)部 = 彩鈴11.09%97.91%1.1910無(wú)線音樂(lè)俱樂(lè)部 = GRPS10.03%88.55%1.0511無(wú)線音樂(lè)俱樂(lè)部 = 彩鈴 & GRPS9.81%86.61%1.2712飛信 =彩鈴7.06%85.71%1.0413飛信 = GRPS7.62%92.61%1.0914飛信 = 彩鈴 & GRPS6.56%79.73%1.17a)神舟行客戶數(shù)據(jù)的業(yè)務(wù)關(guān)聯(lián)結(jié)果l在神舟行的客戶數(shù)據(jù)中,本案例根據(jù)算法輸出的頻繁模式產(chǎn)生53條關(guān)聯(lián)規(guī)則:剔除提升度小于1的業(yè)務(wù)規(guī)則,確保輸出結(jié)果都是有效的;剔除

52、部分顯而易見的業(yè)務(wù)規(guī)則。經(jīng)過(guò)處理后,關(guān)聯(lián)規(guī)則模型共輸出14條業(yè)務(wù)規(guī)則,如表10-17所示。57/612022-3-710.4.4 建模階段 (3)規(guī) 則 號(hào)規(guī) 則支 持 度置 信 度提 升 度1無(wú)線音樂(lè)俱樂(lè)部 = 無(wú)線音樂(lè)高級(jí)會(huì)員 & 彩鈴19.17%83.50%1.042無(wú)線音樂(lè)俱樂(lè)部 = 無(wú)線音樂(lè)高級(jí)會(huì)員19.17%83.50%1.043無(wú)線音樂(lè)俱樂(lè)部 = 彩鈴22.93%99.88%1.014無(wú)線音樂(lè)俱樂(lè)部 & 無(wú)線音樂(lè)高級(jí)會(huì)員 = 彩鈴19.17%100.00%1.015無(wú)線音樂(lè)俱樂(lè)部 & 彩鈴 = 無(wú)線音樂(lè)高級(jí)會(huì)員19.17%83.60%1.046無(wú)線音樂(lè)高級(jí)

53、會(huì)員 = 彩鈴80.02%99.89%1.017無(wú)線音樂(lè)高級(jí)會(huì)員 & 飛信 = 彩鈴22.01%99.87%1.018無(wú)線音樂(lè)高級(jí)會(huì)員 & 飛信 & GRPS = 彩鈴15.21%99.81%1.019無(wú)線音樂(lè)高級(jí)會(huì)員 & 139郵箱 = 彩鈴20.55%100.00%1.0110彩信 = 無(wú)線音樂(lè)高級(jí)會(huì)員 & 彩鈴23.25%82.57%1.0311彩信 = 無(wú)線音樂(lè)高級(jí)會(huì)員23.28%82.67%1.0312彩信 & 彩鈴 = 無(wú)線音樂(lè)高級(jí)會(huì)員23.25%83.16%1.0413彩鈴 = 無(wú)線音樂(lè)高級(jí)會(huì)員80.02%80.65%1.0114彩

54、鈴 & GRPS = 無(wú)線音樂(lè)高級(jí)會(huì)員37.97%80.82%1.0115彩鈴 & 139郵箱 = 無(wú)線音樂(lè)高級(jí)會(huì)員20.55%81.09%1.01表10-18 動(dòng)感地帶客戶數(shù)據(jù)生成的規(guī)則(部分)b)動(dòng)感地帶、全球通客戶數(shù)據(jù)的業(yè)務(wù)關(guān)聯(lián)結(jié)果及對(duì)比l對(duì)于動(dòng)感地帶的客戶數(shù)據(jù),設(shè)定項(xiàng)的最小比例和最小規(guī)則置信度分別為15和55,共生成35條規(guī)則,選取置信度大于80%,提升度大于1的規(guī)則進(jìn)行分析,如表10-18所示。58/612022-3-710.4.4 建模階段 (4)規(guī) 則 號(hào)規(guī) 則支 持 度置 信 度提 升 度1新聞早晚報(bào) = 手機(jī)報(bào) & 彩鈴7.86%85.63%9.472新聞早晚報(bào) = 手機(jī)報(bào)9.18%100.00%9.353新聞早晚報(bào) = 彩鈴7.86%85.63%1.154新聞早晚報(bào) & 手機(jī)報(bào) = 彩鈴7.86%85.63%1.155新聞早晚報(bào) & 手機(jī)報(bào) & GRPS = 彩鈴5.80%86.12%1.166新聞早晚報(bào) & 彩鈴 = 手機(jī)報(bào)7.86%100.00%9.357新聞早晚報(bào) & GRPS = 彩鈴5.80%86.12%1.168無(wú)線音樂(lè)俱樂(lè)部 = 彩鈴5.11%9

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論