客戶(hù)流失數(shù)據(jù)挖掘第講_第1頁(yè)
客戶(hù)流失數(shù)據(jù)挖掘第講_第2頁(yè)
客戶(hù)流失數(shù)據(jù)挖掘第講_第3頁(yè)
客戶(hù)流失數(shù)據(jù)挖掘第講_第4頁(yè)
客戶(hù)流失數(shù)據(jù)挖掘第講_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

客戶(hù)流失分析

(數(shù)據(jù)挖掘-案例分析1)上海****通信技術(shù)有限公司

MrJim()2014-02培訓(xùn)大綱一、統(tǒng)計(jì)知識(shí)二、案例背景三、商業(yè)理解四、數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備五、建立模型與模型評(píng)估六、模型應(yīng)用七、總結(jié)CRISP-DMCRISP-DM(即跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程”的縮寫(xiě)),是一種業(yè)界認(rèn)可的用于指導(dǎo)數(shù)據(jù)挖掘工作的方法。指標(biāo)變量獲取

從業(yè)務(wù)系統(tǒng)中取出的數(shù)據(jù)都是根據(jù)業(yè)務(wù)的需要考慮設(shè)計(jì)的,但往往不能達(dá)到取得良好數(shù)據(jù)挖掘結(jié)果的目的.這時(shí)需要對(duì)數(shù)據(jù)進(jìn)行各種變換或者生成相關(guān)的衍生變量。下面介紹一些數(shù)據(jù)的常用變換形式和衍生變量生成的常用方法。

1、單變量的變換為了建立模型的便利,經(jīng)常要對(duì)現(xiàn)有的變量進(jìn)行某種形式的變化。這里總結(jié)出以下幾個(gè)類(lèi)型的單變量變換方法。指標(biāo)變量獲取連續(xù)變量向連續(xù)變量的轉(zhuǎn)化。連續(xù)變量的變換通常有這樣幾種情況:①使數(shù)據(jù)便于計(jì)算和比較進(jìn)行的變化,例如由單位是分變?yōu)閱挝皇窃?、入網(wǎng)時(shí)間(時(shí)間型號(hào)變量)向在網(wǎng)時(shí)長(zhǎng)的轉(zhuǎn)化②為了修正數(shù)據(jù)的分布對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖兓?例如對(duì)數(shù)變換、倒數(shù)變換等③使不同量綱和數(shù)量級(jí)的數(shù)據(jù)具有可比性的變化,即標(biāo)準(zhǔn)化變化。標(biāo)準(zhǔn)化變換通常有兩種形式:一種是(原值-平均值)/標(biāo)準(zhǔn)差,另一種是(原值-最小值)/(最大值-最小值),這種變換后取值范圍在0~1之間。指標(biāo)變量獲取連續(xù)變量向離散變量的轉(zhuǎn)化。一個(gè)變量取值是大是小,往往只是相對(duì)而言,分析中經(jīng)常需要把一個(gè)連續(xù)取值變換為離散的分級(jí)變量以使業(yè)務(wù)上更好理解。連續(xù)變量向離散變量的轉(zhuǎn)化可以完全基于業(yè)務(wù)來(lái)考慮,比如對(duì)客戶(hù)的年齡分群,有些企業(yè)就是把18~40歲算作他們的青年客戶(hù)。如果從統(tǒng)計(jì)學(xué)角度考慮,連續(xù)型變量向離散型變量轉(zhuǎn)換主要是進(jìn)行分箱變換,可以分為三種:①、按照等距離進(jìn)行分箱②、按照等數(shù)量進(jìn)行分箱③、按照分布進(jìn)行分箱。例如把數(shù)據(jù)分為3段,小于平均數(shù)-3個(gè)標(biāo)準(zhǔn)差為第一段;大于平均數(shù)-3個(gè)標(biāo)準(zhǔn)差且小于平均數(shù)+3個(gè)標(biāo)準(zhǔn)差為第二段;大于平均數(shù)+3個(gè)標(biāo)準(zhǔn)差為第三段。指標(biāo)變量獲取離散變量向連續(xù)變量的轉(zhuǎn)化。對(duì)于有些分級(jí)類(lèi)型的離散變量,可以將它理解為對(duì)連續(xù)變量做處理和建立模型。例如:對(duì)于二分的標(biāo)志變量,也可以將它們轉(zhuǎn)化為連續(xù)變量,即將標(biāo)量的一個(gè)取值記為1,另一個(gè)取值記為0。這樣,如果將1理解為1.0,將0理解為0.0。則這個(gè)標(biāo)志變量可以理解為是分布在0.0~1.0之間的一個(gè)連續(xù)變量,只不過(guò)這個(gè)連續(xù)變量比較特殊,在觀察到數(shù)據(jù)中只有0.0和1.0兩個(gè)取值。離散變量向離散變量的轉(zhuǎn)化。當(dāng)離散變量的類(lèi)別數(shù)特別多時(shí),可以對(duì)它們適當(dāng)?shù)臍w并,例如將個(gè)數(shù)特別少的類(lèi)別統(tǒng)一歸為其它就是典型的一種。另外,一個(gè)多分的離散變量也可以變?yōu)槎鄠€(gè)二分的標(biāo)志變量,比如有一個(gè)離散變量是X,它有a,b,c三個(gè)取值,那么完全可以把它變?yōu)閄a,Xb,Xc三個(gè)變量,每個(gè)變量有1和0兩個(gè)取值,而當(dāng)X取值為a時(shí),對(duì)應(yīng)的情況是Xa取值為1,而Xb,Xc的取值都為0。指標(biāo)變量獲取2、衍生變量為了更清晰的說(shuō)明衍生變量的生成,我們把數(shù)據(jù)分為兩類(lèi):一類(lèi)是橫截面數(shù)據(jù)(指某一時(shí)點(diǎn)上收集到的數(shù)據(jù)),另一類(lèi)是時(shí)間序列數(shù)據(jù),一條記錄代表一個(gè)時(shí)間點(diǎn)或者時(shí)間段上的取值,通常會(huì)有一個(gè)表示時(shí)間的變量。

對(duì)橫截面數(shù)據(jù)的衍生變量來(lái)說(shuō)有以下一些常用的生成衍生變量的方法:①、強(qiáng)度相對(duì)指標(biāo):有一個(gè)聯(lián)系的兩個(gè)指標(biāo)之間相比的結(jié)果得到的指標(biāo)。例如平均通話(huà)時(shí)長(zhǎng)=總通話(huà)時(shí)長(zhǎng)/總通話(huà)次數(shù)②、比例相對(duì)指標(biāo):用來(lái)反映總體中各組成部分所占比例的一個(gè)指標(biāo)。指標(biāo)變量獲取2、衍生變量

對(duì)時(shí)間序列數(shù)據(jù)有以下一些常用的生成衍生變量的方法:①、滯后類(lèi)指標(biāo):對(duì)于時(shí)間序列數(shù)據(jù),各條記錄之間聯(lián)系更加緊密,我們通常會(huì)取上一條記錄(例如代表上月取值)及上年同期(例如去年同月),與當(dāng)前記錄相比得到環(huán)比增長(zhǎng)率(例如本月值/上月值)和同比增長(zhǎng)率(例如本月值/上年同期值);為了消除波動(dòng),有時(shí)我們還對(duì)多個(gè)時(shí)間段數(shù)值進(jìn)行求和、平均等操作。例如股市中常用的股價(jià)5日平均值,這類(lèi)指標(biāo)可以被歸結(jié)為滯后類(lèi)指標(biāo)。②、匯總類(lèi)指標(biāo):匯總類(lèi)指標(biāo):求和,平均值,最小值,最大值,標(biāo)準(zhǔn)差,記錄數(shù)等。指標(biāo)變量獲取3、趨勢(shì)類(lèi)指標(biāo)對(duì)時(shí)間序列變量來(lái)說(shuō),一個(gè)重要的方面是看趨勢(shì)。例如在這個(gè)案例中,我們特別關(guān)注每個(gè)客戶(hù)的通話(huà)時(shí)長(zhǎng)等指標(biāo)的趨勢(shì),是變多,變少,還是隨機(jī)性的波動(dòng)?我們有理由猜測(cè),如果一個(gè)客戶(hù)的通話(huà)時(shí)長(zhǎng)趨勢(shì)是變少,那么這個(gè)客戶(hù)流失的可能性會(huì)更大。但是如何衡量趨勢(shì)呢?最樸素的想法是用最后一個(gè)月的取值除以第一個(gè)月的取值看增長(zhǎng)率,但是這樣會(huì)丟失很多中間月份的數(shù)據(jù)信息。我們還可以使用下面的方法來(lái)查看趨勢(shì)。即建立變量與時(shí)間的回歸模型(例如在這個(gè)案例中,自變量為月份,因變量為通話(huà)時(shí)長(zhǎng)),將自變量的回歸系數(shù)作為趨勢(shì)(也可以使用標(biāo)化回歸系數(shù)作為趨勢(shì)),這個(gè)值大于0,則趨勢(shì)是變多;這個(gè)值小于0,則趨勢(shì)是變少。趨勢(shì)的計(jì)算公式如下(以x作為月份,y代表通話(huà)時(shí)長(zhǎng),n代表月份數(shù)量),則:指標(biāo)變量獲取取4、波動(dòng)類(lèi)指標(biāo)對(duì)時(shí)間序列變變量來(lái)說(shuō),趨趨勢(shì)只反映了了大致方向,,但是這個(gè)方方向的過(guò)程是是一帆風(fēng)順,,還是驚淘駭駭浪呢?可以以使用波動(dòng)指指標(biāo)來(lái)進(jìn)行度度量。簡(jiǎn)單地地,可以使用用標(biāo)準(zhǔn)差或變變異系數(shù)來(lái)衡衡量波動(dòng),也也可以使用如如下公式計(jì)算算波動(dòng):培訓(xùn)大綱一、指標(biāo)變量量獲取二、案例背景三、商業(yè)理解解四、數(shù)據(jù)理解解與數(shù)據(jù)準(zhǔn)備備五、建立模型型與模型評(píng)估估六、模型應(yīng)用用七、總結(jié)案例背景現(xiàn)在假設(shè)你是是電信企業(yè)的的一個(gè)數(shù)據(jù)分分析經(jīng)理,發(fā)發(fā)現(xiàn)最近電信信市場(chǎng)又在血血拼,競(jìng)爭(zhēng)對(duì)對(duì)手不斷挖公公司的墻角,,公司的高端端客戶(hù)這個(gè)月月又流失了不不少。公司打算組織織一個(gè)市場(chǎng)營(yíng)營(yíng)銷(xiāo)活動(dòng)來(lái)遏遏止這種趨勢(shì)勢(shì),可是這個(gè)個(gè)客戶(hù)挽留活活動(dòng)畢竟只是是公司眾多市市場(chǎng)活動(dòng)中的的一個(gè),預(yù)算也有限??纯磾?shù)據(jù)倉(cāng)庫(kù)庫(kù)里積累了那那么多數(shù)據(jù),,能不能挖挖挖這些數(shù)據(jù),,①、看看哪些客戶(hù)戶(hù)可能會(huì)流失失?②、這些客戶(hù)都有有些啥特征?③、做這樣的市場(chǎng)場(chǎng)活動(dòng)大概會(huì)會(huì)有啥投資匯匯報(bào)?培訓(xùn)大綱一、指標(biāo)變量量獲取二、案例背景景三、商業(yè)理解四、數(shù)據(jù)理解解與數(shù)據(jù)準(zhǔn)備備五、建立模型型與模型評(píng)估估六、模型應(yīng)用用七、總結(jié)通信業(yè)是一個(gè)個(gè)競(jìng)爭(zhēng)異常激激烈的行業(yè),,如何對(duì)客戶(hù)戶(hù)進(jìn)行有效的的管理,盡可可能的減少客客戶(hù)的的流失失和跳跳網(wǎng)是一個(gè)個(gè)緊迫迫的問(wèn)問(wèn)題。。這里里將介介紹數(shù)數(shù)據(jù)挖挖掘在在移動(dòng)動(dòng)通信信業(yè)關(guān)關(guān)于客客戶(hù)流流失研研究中中的應(yīng)應(yīng)用。。數(shù)據(jù)挖挖掘技技術(shù)將將提供供功能能強(qiáng)大大的模模型,,可以以回答答諸如如“哪些客客戶(hù)最最可能能流失失?”和“為什么么這些些客戶(hù)戶(hù)會(huì)流流失?”等問(wèn)題題。商業(yè)理理解流失與與哪些些因素素相關(guān)關(guān)顧客年年齡??性別別?收收入??行業(yè)業(yè)?話(huà)話(huà)費(fèi)水水平??話(huà)務(wù)務(wù)質(zhì)量量?確定數(shù)數(shù)據(jù)挖挖掘目目標(biāo)對(duì)客戶(hù)戶(hù)進(jìn)行行分群,尋找找高流失失的客戶(hù)戶(hù)群建立規(guī)則,描述那些些可能流失失的客戶(hù)特特征建立打分模型,對(duì)客戶(hù)流流失可能性性進(jìn)行評(píng)價(jià)價(jià)商業(yè)理解商業(yè)理解我們可以把把流失問(wèn)題題歸結(jié)為如如下3個(gè)問(wèn)問(wèn)題:①、預(yù)測(cè)哪哪些客戶(hù)((尤其是哪哪些高價(jià)值值的客戶(hù)))可能會(huì)流流失②、可能流流失客戶(hù)的的特征是什什么③、市場(chǎng)挽挽留活動(dòng)的的預(yù)計(jì)收益益是多少商業(yè)理解如何定義流流失經(jīng)過(guò)與業(yè)務(wù)務(wù)人員的充充分溝通,,最終定義義:①、銷(xiāo)號(hào)②、欠費(fèi)超超過(guò)3個(gè)月月(后付費(fèi)費(fèi)客戶(hù))③、3個(gè)月月無(wú)通話(huà)行行為(預(yù)付付費(fèi)客戶(hù)))變量值記為為1,否則則為不流失失,變量記記為0。商業(yè)理解哪些變量可可用于預(yù)測(cè)測(cè)流失①、客戶(hù)基基本信息數(shù)數(shù)據(jù):包括括客戶(hù)的年年齡,性別別,入網(wǎng)時(shí)時(shí)間等②、客戶(hù)行行為數(shù)據(jù)::主要是客客戶(hù)使用電電信產(chǎn)品和和服務(wù)情況況的數(shù)據(jù)。。比如客戶(hù)戶(hù)的通話(huà)詳詳單記錄,,客戶(hù)訂閱閱,使用,,退訂增殖殖服務(wù)情況況等,這部部分?jǐn)?shù)據(jù)容容易獲得,,存放在業(yè)業(yè)務(wù)系統(tǒng)中中,一般數(shù)數(shù)據(jù)質(zhì)量較較好。③、客戶(hù)戶(hù)交互數(shù)數(shù)據(jù):包包括客戶(hù)戶(hù)投訴、、業(yè)務(wù)咨咨詢(xún)以及及客戶(hù)對(duì)對(duì)電信的的市場(chǎng)營(yíng)營(yíng)銷(xiāo)活動(dòng)動(dòng)等響應(yīng)應(yīng)情況等等數(shù)據(jù),,尤其是是客戶(hù)撥撥打客服服電話(huà)的的的情況況。④、客戶(hù)戶(hù)態(tài)度數(shù)數(shù)據(jù):包包括客戶(hù)戶(hù)對(duì)電信信服務(wù)的的滿(mǎn)意程程度、意意見(jiàn)和建建議、客客戶(hù)流失失的真正正原因((是被競(jìng)競(jìng)爭(zhēng)對(duì)手手挖角,,搬家,,對(duì)產(chǎn)品品或服務(wù)務(wù)不滿(mǎn)意意,還是是特別喜喜歡特定定手機(jī)終終端)等等。這部部分?jǐn)?shù)據(jù)據(jù)需要通通過(guò)市場(chǎng)場(chǎng)調(diào)查獲獲得,但但獲得成成本過(guò)高高,往往往不在我我們考慮慮的范圍圍之內(nèi)。。希望全面面使用以以上4個(gè)個(gè)類(lèi)別的的客戶(hù)數(shù)數(shù)據(jù),但但實(shí)際項(xiàng)項(xiàng)目中有有些數(shù)據(jù)據(jù)或者由由于獲取取成本太太高,或或者由于于數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)中中沒(méi)有記記錄,導(dǎo)導(dǎo)致分析析時(shí)無(wú)法法使用。。最終可可能發(fā)現(xiàn)現(xiàn),真正正能用于于作為數(shù)數(shù)據(jù)挖掘掘的預(yù)測(cè)測(cè)自變量量只剩下下客戶(hù)基基本信息息和客戶(hù)戶(hù)行為數(shù)數(shù)據(jù)兩類(lèi)類(lèi),甚至至這兩個(gè)個(gè)類(lèi)別中中包含的的變量也也只有在在數(shù)據(jù)理理解階段段完成數(shù)數(shù)據(jù)質(zhì)量量審核后后才能決決定是否否可用。商業(yè)理解解定義分析析用數(shù)據(jù)據(jù)的時(shí)間間窗口如何定義義預(yù)測(cè)的的輸入變變量(自變量)和預(yù)測(cè)變變量(因變量)的時(shí)間窗窗口。對(duì)對(duì)自變量量窗口來(lái)來(lái)說(shuō),進(jìn)進(jìn)行流失失分析的的目的顯顯然是希希望在客客戶(hù)流失失之前發(fā)發(fā)現(xiàn)他,,而在業(yè)業(yè)務(wù)系統(tǒng)統(tǒng)中,客客戶(hù)行為為是連續(xù)續(xù)發(fā)生的的,那么么在分析析時(shí)應(yīng)該該取多長(zhǎng)長(zhǎng)時(shí)間的的數(shù)據(jù)呢呢?取的的時(shí)間過(guò)過(guò)短,可可能客戶(hù)戶(hù)的行為為受隨機(jī)機(jī)因素影影響太大大,不具具有代表表性;取取的時(shí)間間過(guò)長(zhǎng),,歷史太太久遠(yuǎn)的的數(shù)據(jù)不不能反映映客戶(hù)最最新的趨趨勢(shì)。綜綜合考慮慮數(shù)據(jù)的的可獲取取性和有有效性以以后的結(jié)結(jié)果,我我們這里里取6個(gè)月的歷史數(shù)數(shù)據(jù)。對(duì)因因變變量量((是是否否流流失失))的的數(shù)數(shù)據(jù)據(jù)窗窗口口來(lái)來(lái)說(shuō)說(shuō),,為為了了使使得得到到的的預(yù)預(yù)測(cè)測(cè)結(jié)結(jié)果果既既具具有有前前瞻瞻性性,,又又能能給給營(yíng)營(yíng)銷(xiāo)銷(xiāo)部部門(mén)門(mén)充充分分的的營(yíng)營(yíng)銷(xiāo)銷(xiāo)時(shí)時(shí)間間,,我我們們考考慮慮流流失失定定義義的的時(shí)時(shí)間間窗窗口口與與自自變變量量的的定定義義窗窗口口間間隔隔一一個(gè)個(gè)月月((通通常常需需要要3~7天的的數(shù)數(shù)據(jù)據(jù)處處理理時(shí)時(shí)間間)),,再再考考慮慮到到如如前前述述流流失失定定義義需需要要3個(gè)月月的的觀觀察察期期((欠欠費(fèi)費(fèi)與與無(wú)無(wú)通通話(huà)話(huà)行行為為情情形形)),,具具體體預(yù)預(yù)測(cè)測(cè)自自變變量量和和目目標(biāo)標(biāo)變變量量((因因變變量量))的的時(shí)時(shí)間間窗窗口口如如下下圖圖所所示示::第1月第2月第3月第4月第5月第6月第7月第8月第9月第10月預(yù)測(cè)測(cè)自自變變量量時(shí)時(shí)間間窗窗口口預(yù)測(cè)測(cè)目目標(biāo)標(biāo)變變量量時(shí)時(shí)間間窗窗口口間隔隔商業(yè)業(yè)理理解解如何何從從分分析析結(jié)結(jié)果果中中獲獲取取實(shí)實(shí)際際收收益益得到到了了流流失失預(yù)預(yù)測(cè)測(cè)結(jié)結(jié)果果,,如如何何使使用用??如如何何事事先先預(yù)預(yù)估估市市場(chǎng)場(chǎng)挽挽留留活活動(dòng)動(dòng)的的收收益益??通通過(guò)過(guò)數(shù)數(shù)據(jù)據(jù)挖挖掘掘得得到到流流失失分分析析的的結(jié)結(jié)果果往往往往有有兩兩類(lèi)類(lèi)::一類(lèi)類(lèi)是是流流失失客客戶(hù)戶(hù)的的特特征征描描述述另一一類(lèi)類(lèi)是是針針對(duì)對(duì)每每一一個(gè)個(gè)客客戶(hù)戶(hù)的的流流失失評(píng)評(píng)分分。。流失失客客戶(hù)戶(hù)的的特特征征描描述述可可用用來(lái)來(lái)幫幫助助市市場(chǎng)場(chǎng)部部業(yè)業(yè)務(wù)務(wù)人人員員在在制制訂訂挽挽留留性性營(yíng)營(yíng)銷(xiāo)銷(xiāo)策策略略時(shí)時(shí)參參考考,,從從而而制制訂訂出出有有針針對(duì)對(duì)性性的的挽挽留留策策略略;;而而流流失失評(píng)評(píng)分分結(jié)結(jié)合合其其它它變變量量((例例如如客客戶(hù)戶(hù)價(jià)價(jià)值值))可可以以幫幫助助業(yè)業(yè)務(wù)務(wù)人人員員決決定定應(yīng)應(yīng)該該對(duì)對(duì)哪哪些些客客戶(hù)戶(hù)進(jìn)進(jìn)行行挽挽留留。。經(jīng)經(jīng)過(guò)過(guò)與與市市場(chǎng)場(chǎng)業(yè)業(yè)務(wù)務(wù)人人員員的的討討論論,,我我們們得得知知針針對(duì)對(duì)特特定定客客戶(hù)戶(hù)的的挽挽留留措措施施往往往往是是給給他他們們一一定定折折扣扣或或者者優(yōu)優(yōu)惠惠政政策策,,這這樣樣就就大大體體上上得得到到了了預(yù)預(yù)估估市市場(chǎng)場(chǎng)挽挽留留活活動(dòng)動(dòng)預(yù)預(yù)期期收收益益的的數(shù)數(shù)據(jù)據(jù)公公式式::預(yù)期期收收益益=流失失客客戶(hù)戶(hù)預(yù)預(yù)期期收收入入-流失失客客戶(hù)戶(hù)挽挽留留預(yù)預(yù)期期成成本本其中中,,流流失失客客戶(hù)戶(hù)預(yù)預(yù)期期收收入入可可以以用用流流失失客客戶(hù)戶(hù)過(guò)過(guò)去去若若干干個(gè)個(gè)月月的的總總花花費(fèi)費(fèi)或或者者平平均均花花費(fèi)費(fèi)來(lái)來(lái)表表示示,,流流失失客客戶(hù)戶(hù)挽挽留留預(yù)預(yù)期期成成本本包包括括::電電信信公公司司進(jìn)進(jìn)行行時(shí)時(shí)常常挽挽留留活活動(dòng)動(dòng)的的總總體體策策劃劃、、宣宣傳傳成成本本;;針針對(duì)對(duì)客客戶(hù)戶(hù)的的集集體體折折扣扣或或優(yōu)優(yōu)惠惠成成本本。。培訓(xùn)訓(xùn)大大綱綱一、、指指標(biāo)標(biāo)變變量量獲獲取取二、案案例背背景三、商商業(yè)理理解四、數(shù)據(jù)理理解與與數(shù)據(jù)據(jù)準(zhǔn)備備五、建建立模模型與與模型型評(píng)估估六、模模型應(yīng)應(yīng)用七、總總結(jié)套餐數(shù)數(shù)據(jù)字段名稱(chēng)指標(biāo)解釋套餐類(lèi)型固定費(fèi)用每月需支付固定費(fèi)用免費(fèi)時(shí)長(zhǎng)每月提供免費(fèi)(國(guó)內(nèi))時(shí)長(zhǎng)高峰時(shí)費(fèi)率高峰時(shí)期每分鐘話(huà)費(fèi)(超過(guò)免費(fèi)時(shí)長(zhǎng)部分)低谷時(shí)費(fèi)率低谷時(shí)期每分鐘話(huà)費(fèi)(超過(guò)免費(fèi)時(shí)長(zhǎng)部分)周末時(shí)費(fèi)率周末時(shí)期每分鐘話(huà)費(fèi)(超過(guò)免費(fèi)時(shí)長(zhǎng)部分)國(guó)際費(fèi)率國(guó)際長(zhǎng)途電話(huà)每分鐘話(huà)費(fèi)語(yǔ)音信箱語(yǔ)信信箱收費(fèi)(未用)短信服務(wù)短信服務(wù)收費(fèi)(未用)數(shù)據(jù)理理解數(shù)據(jù)理理解與與數(shù)據(jù)據(jù)準(zhǔn)備備在數(shù)據(jù)據(jù)理解解與數(shù)數(shù)據(jù)準(zhǔn)準(zhǔn)備階階段,,我們們將對(duì)對(duì)數(shù)據(jù)據(jù)做初初步探探索性性分析析,了了解數(shù)數(shù)據(jù)質(zhì)質(zhì)量狀狀況,,考察察數(shù)據(jù)據(jù)的大大致分分布情情況,,此外外還要要將各各方面面的數(shù)數(shù)據(jù)進(jìn)進(jìn)行合合并,,整理理成可可以進(jìn)進(jìn)行數(shù)數(shù)據(jù)挖挖掘的的寬表表形式式(即即行代代表記記錄,,列代代表變變量的的二維維表)),并并進(jìn)一一步根根據(jù)業(yè)業(yè)務(wù)上上的考考慮,,生成成一些些有業(yè)業(yè)務(wù)含含義的的衍生生變量量。在在實(shí)際際的數(shù)數(shù)據(jù)挖挖掘項(xiàng)項(xiàng)目中中,我我們會(huì)會(huì)發(fā)現(xiàn)現(xiàn),數(shù)數(shù)據(jù)理理解和和數(shù)據(jù)據(jù)準(zhǔn)備備的時(shí)時(shí)間經(jīng)經(jīng)常會(huì)會(huì)占到到整個(gè)個(gè)項(xiàng)目目周期期的60%~70%,甚至更更多。。數(shù)據(jù)理理解::接口口1客戶(hù)基本信息表(custinfo.csv)變量名稱(chēng)變量標(biāo)簽變量類(lèi)型變量取值(范圍)Customer_ID客戶(hù)編號(hào)離散

Gender性別離散男,女Age年齡連續(xù)12~82L_O_S在網(wǎng)時(shí)長(zhǎng)連續(xù)9.53~58.2Tariff話(huà)費(fèi)方案離散CAT50,CAT100,CAT200,Play100,Play300Handset手機(jī)品牌離散ASAD170,ASAD90,BS110,BS210,CAS30,CAS60,S50,S80,SOP10,SOP20,WC95數(shù)據(jù)理理解::接口口2客戶(hù)通話(huà)情況表(custcall.csv)變量名稱(chēng)變量標(biāo)簽變量類(lèi)型變量取值(范圍)Customer_ID客戶(hù)編號(hào)離散

Peak_calls高峰時(shí)期電話(huà)數(shù)連續(xù)0~486Peak_mins高峰時(shí)期電話(huà)時(shí)長(zhǎng)連續(xù)0.0~2527.8OffPeak_calls低谷時(shí)間電話(huà)數(shù)連續(xù)0~154OffPeak_mins低谷時(shí)期電話(huà)時(shí)長(zhǎng)連續(xù)0.0`745.5Weekend_cals周末時(shí)期電話(huà)數(shù)連續(xù)0~33Weekend_mins周末時(shí)期電話(huà)時(shí)長(zhǎng)連續(xù)0.0~162.6International_mins國(guó)際電話(huà)時(shí)長(zhǎng)連續(xù)0.0~255.506Nat_call_cost國(guó)內(nèi)電話(huà)話(huà)費(fèi)連續(xù)0~47Month月份連續(xù)1~6數(shù)據(jù)理理解::接口口3話(huà)費(fèi)方案表(tariff.csv)變量名稱(chēng)變量標(biāo)簽變量類(lèi)型變量取值(范圍)Tariff話(huà)費(fèi)類(lèi)型離散CAT50,CAT100,CAT200,Play100,Play300Fixed_cost固定費(fèi)用連續(xù)9.99~25.0Free_mins免費(fèi)時(shí)長(zhǎng)連續(xù)50~300Peak_rate高峰時(shí)期單價(jià)連續(xù)10~25OffPeak_rate非高峰時(shí)期單價(jià)連續(xù)2~5Weekend_rate周末單價(jià)連續(xù)2~5International_rate國(guó)際長(zhǎng)途單價(jià)連續(xù)30~40數(shù)據(jù)理理解::接口口4客戶(hù)是否流失標(biāo)記表(churn.csv)變量名稱(chēng)變量標(biāo)簽變量類(lèi)型變量取值(范圍)Customer_ID客戶(hù)編號(hào)離散

Churn是否流失離散0,1(1代表流失,0代表不流失)流失分析基礎(chǔ)寬表變量名稱(chēng)變量標(biāo)簽變量類(lèi)型口徑定義Customer_ID客戶(hù)編號(hào)離散

Gender性別離散原始變量Age年齡連續(xù)原始變量L_O_S在網(wǎng)時(shí)長(zhǎng)連續(xù)原始變量Handset手機(jī)品牌離散原始變量Tariff話(huà)費(fèi)方案離散原始變量Tariff_OK話(huà)費(fèi)方案是否合理離散(標(biāo)志變量)衍生變量,表明客戶(hù)話(huà)費(fèi)方案是否與實(shí)際消費(fèi)相匹配Usage_Band話(huà)務(wù)量級(jí)別離散衍生變量,表明客戶(hù)話(huà)務(wù)量多少與全體客戶(hù)相比的級(jí)別情況Peak_Calls高峰時(shí)期通話(huà)數(shù)連續(xù)匯總變量,客戶(hù)6個(gè)月高峰時(shí)期通話(huà)數(shù)合計(jì)Peak_Mins高峰時(shí)期通話(huà)時(shí)長(zhǎng)連續(xù)匯總變量,客戶(hù)6個(gè)月高峰時(shí)期通話(huà)時(shí)長(zhǎng)合計(jì)Offpeak_Calls非高峰時(shí)期通話(huà)數(shù)連續(xù)匯總變量,客戶(hù)6個(gè)月非高峰時(shí)期通話(huà)數(shù)合計(jì)Offpeak_Mins非高峰時(shí)期通話(huà)時(shí)長(zhǎng)連續(xù)匯總變量,客戶(hù)6個(gè)月非高峰時(shí)期通話(huà)時(shí)長(zhǎng)合計(jì)Weekend_Calls周末時(shí)期通話(huà)數(shù)連續(xù)匯總變量,客戶(hù)6個(gè)月周末時(shí)期通話(huà)數(shù)合計(jì)Weekend_Mins周末時(shí)期通話(huà)時(shí)長(zhǎng)連續(xù)匯總變量,客戶(hù)6個(gè)月周末時(shí)期通話(huà)時(shí)長(zhǎng)合計(jì)International_Mins國(guó)際通話(huà)時(shí)長(zhǎng)連續(xù)匯總變量,客戶(hù)6個(gè)月國(guó)際通話(huà)時(shí)長(zhǎng)合計(jì)數(shù)據(jù)理理解::寬表表生成成(輸出)National_Calls國(guó)內(nèi)通話(huà)數(shù)連續(xù)匯總變量,客戶(hù)6個(gè)月國(guó)內(nèi)通話(huà)數(shù)合計(jì)National_Mins國(guó)內(nèi)通話(huà)時(shí)長(zhǎng)連續(xù)匯總變量,客戶(hù)6個(gè)月國(guó)內(nèi)通話(huà)時(shí)長(zhǎng)合計(jì)All_Calls_Mins所有通話(huà)時(shí)長(zhǎng)連續(xù)衍生變量,客戶(hù)6個(gè)月所有通話(huà)時(shí)長(zhǎng)合計(jì)Nat_Call_Cost國(guó)內(nèi)通話(huà)消費(fèi)連續(xù)原始變量Peak_Mins_Ratio高峰時(shí)期通話(huà)時(shí)長(zhǎng)占比連續(xù)衍生變量,比例指標(biāo),高峰時(shí)期通話(huà)時(shí)長(zhǎng)占國(guó)內(nèi)通話(huà)時(shí)長(zhǎng)比例Offpeak_Mins_Ratio非高峰時(shí)期通話(huà)時(shí)長(zhǎng)占比連續(xù)衍生變量,比例指標(biāo),非高峰時(shí)期通話(huà)時(shí)長(zhǎng)占國(guó)內(nèi)通話(huà)時(shí)長(zhǎng)比例Weekend_Mins_Ratio周末時(shí)期通話(huà)時(shí)長(zhǎng)占比連續(xù)衍生變量,比例指標(biāo),周末時(shí)期通話(huà)時(shí)長(zhǎng)占國(guó)內(nèi)通話(huà)時(shí)長(zhǎng)比例International_Mins_Ratio國(guó)際通話(huà)時(shí)長(zhǎng)占比連續(xù)衍生變量,比例指標(biāo),國(guó)際通話(huà)時(shí)長(zhǎng)占全部通話(huà)時(shí)長(zhǎng)比例Avepeak高峰時(shí)期平均每次通話(huà)時(shí)長(zhǎng)連續(xù)衍生變量,強(qiáng)度相對(duì)指標(biāo)Aveoffpeak非高峰時(shí)期平均每次通話(huà)時(shí)長(zhǎng)連續(xù)衍生變量,強(qiáng)度相對(duì)指標(biāo)Aveweekend周末時(shí)期平均每次通話(huà)時(shí)長(zhǎng)連續(xù)衍生變量,強(qiáng)度相對(duì)指標(biāo)Avenational國(guó)內(nèi)平均每次通話(huà)時(shí)長(zhǎng)連續(xù)衍生變量,強(qiáng)度相對(duì)指標(biāo)Peak_Mins_Trend高峰時(shí)期通話(huà)時(shí)長(zhǎng)趨勢(shì)連續(xù)衍生變量,趨勢(shì)指標(biāo)Offpeak_Mins_Trend非高峰時(shí)期通話(huà)時(shí)長(zhǎng)趨勢(shì)連續(xù)衍生變量,趨勢(shì)指標(biāo)Weekend_Mins_Trend周末時(shí)期通話(huà)時(shí)長(zhǎng)趨勢(shì)連續(xù)衍生變量,趨勢(shì)指標(biāo)Peak_Mins_Fluctuation高峰時(shí)期通話(huà)時(shí)長(zhǎng)波動(dòng)連續(xù)衍生變量,波動(dòng)指標(biāo)Offpeak_Mins_Fluctuation非高峰時(shí)期通話(huà)時(shí)長(zhǎng)波動(dòng)連續(xù)衍生變量,波動(dòng)指標(biāo)數(shù)據(jù)理理解::寬表表生成成(續(xù)續(xù))Weekend_Mins_Fluctuation周末時(shí)期通話(huà)時(shí)長(zhǎng)波動(dòng)連續(xù)衍生變量,波動(dòng)指標(biāo)Mins_Charge計(jì)費(fèi)通話(huà)時(shí)長(zhǎng)連續(xù)衍生變量,高峰+非高峰+周末-免費(fèi)時(shí)長(zhǎng)后時(shí)長(zhǎng)合計(jì)=

'Nationalmins'-'Free_mins'*6Actual_Call_Cost實(shí)際通話(huà)花費(fèi)連續(xù)衍生變量,反映客戶(hù)國(guó)內(nèi)通話(huà)實(shí)際花費(fèi)=

ifmins_charge>0then

mins_charge*Call_Cost_Per_Min

else

0Total_Call_Cost總通話(huà)花費(fèi)連續(xù)衍生變量,反映客戶(hù)全部(國(guó)內(nèi)+國(guó)際)通話(huà)花費(fèi)='actualcallcost'+'International_mins_Sum'*'International_rate'/100Total_Cost總花費(fèi)連續(xù)衍生變量,反映客戶(hù)全部總花費(fèi)(包括固定費(fèi)用)=Total_call_cost+Fixed_cost*6Call_Cost_Per_Min平均每分鐘通話(huà)花費(fèi)連續(xù)衍生變量,反映客戶(hù)平均每分鐘通話(huà)的花費(fèi)=Actual_Call_Cost/Mins_ChargeAverageCostMin平均每分鐘花費(fèi)連續(xù)衍生變量,反映客戶(hù)平均每分鐘花費(fèi)=Total_Cost/(Peak_Mins+Offpeak_Mins+Wenkend_Mins+International_Mins)Churn是否流失離散(標(biāo)記變量)原始變量,是否流失標(biāo)記變量數(shù)據(jù)理理解::寬表表生成成(續(xù)續(xù))數(shù)據(jù)理理解::關(guān)鍵鍵術(shù)語(yǔ)語(yǔ)和指指標(biāo)定定義時(shí)段分類(lèi)

高峰時(shí)期:指典型的工作時(shí)間(周一至周五早8:00到晚6:00)

非高峰時(shí)期:指典型的不含周末的非工作時(shí)間(周一早0:00~早8:00,周一至周四晚6:00~次日早8:00和周五晚6:00~晚24:00

周末時(shí)期:指周六0:00~周日晚24:00Usage_Band話(huà)務(wù)量級(jí)別

針對(duì)國(guó)內(nèi)電話(huà)通話(huà)時(shí)長(zhǎng)合計(jì),按照如下標(biāo)準(zhǔn)劃分客戶(hù)電話(huà)情況:

1.低使用者:通話(huà)時(shí)長(zhǎng)<所有客戶(hù)平均通話(huà)時(shí)長(zhǎng)(簡(jiǎn)稱(chēng)平均)減去所有客戶(hù)通話(huà)時(shí)長(zhǎng)一個(gè)標(biāo)準(zhǔn)差(標(biāo)準(zhǔn)差)

2.中使用者:通話(huà)時(shí)長(zhǎng)介于平均減一個(gè)標(biāo)準(zhǔn)差與平均加一個(gè)標(biāo)準(zhǔn)差之間

3.高使用者:通話(huà)時(shí)長(zhǎng)介于平均加一個(gè)標(biāo)準(zhǔn)差與平均加2倍的標(biāo)準(zhǔn)差之間

4.超高使用者:通話(huà)時(shí)長(zhǎng)大于平均加2倍標(biāo)準(zhǔn)差Tariff_OK話(huà)費(fèi)方案是否合理

默認(rèn)值:OKifTariff='CAT100'and'actualcallcost'>6*7.51thenHighCAT100

ifTariff='Play100'and'actualcallcost'>6*3thenHighPlay100

ifTariff='CAT50'and'actualcallcost'>6*3.6thenHighCAT50數(shù)據(jù)探探索性性分析析離散變變量的的探索索性分分析方方法離散變變量分分為兩兩類(lèi):名義型型和有有序型型。名義型型:取值值之間間沒(méi)有有大小小關(guān)系系,也也無(wú)法法比較較好壞壞優(yōu)劣劣有序型型:取值值之間間可以以比較較大小小,有有好壞壞優(yōu)劣劣之分分1)、名義義型離離散變變量的的探索索性分分析方方法離散變變量各各個(gè)取取值的的數(shù)量量及占占比圖形::餅圖圖/條形圖圖2)、有序序型離離散變變量的的探索索性分分析方方法離散變變量各各個(gè)取取值的的數(shù)量量及占占比圖形::餅圖圖/條形圖圖頻數(shù)表表/累積頻頻數(shù)/累積頻頻率數(shù)據(jù)探探索性性分析析連續(xù)變變量的的探索索性分分析方方法1)、集集中趨趨勢(shì)::均值值,中中位數(shù)數(shù),眾眾數(shù)2)、離離散趨趨勢(shì)::最小小值,,最大大值,,全距距,標(biāo)標(biāo)準(zhǔn)差差,變變異系系數(shù)3)、分分布形形態(tài)::偏度度,峰峰度4)、使使用圖圖形::直方方圖,,箱線(xiàn)線(xiàn)圖數(shù)據(jù)探探索性性分析析變量之之間關(guān)關(guān)系的的探索索性分分析方方法1)、離散變變量與離離散變量量條形圖,,網(wǎng)絡(luò)圖圖2)、離散變變量與連連續(xù)變量量直方圖,,箱線(xiàn)圖圖3)、連續(xù)變變量與連連續(xù)變量量散點(diǎn)圖培訓(xùn)大綱綱一、指標(biāo)標(biāo)變量獲獲取二、案例例背景三、商業(yè)業(yè)理解四、數(shù)據(jù)據(jù)理解與與數(shù)據(jù)準(zhǔn)準(zhǔn)備五、建立模型型與模型型評(píng)估六、模型型應(yīng)用七、總結(jié)結(jié)建模和評(píng)估Kohonen聚類(lèi)Kmeans聚類(lèi)C5.0建立規(guī)則C&RT決策樹(shù)神經(jīng)網(wǎng)絡(luò)模型型對(duì)客戶(hù)進(jìn)行聚聚類(lèi)分析,并并比較不同客客戶(hù)群流失可可能性建立規(guī)則,描描述那些易于于流失的客戶(hù)戶(hù)群的特征建立打分模型型,對(duì)客戶(hù)流流失可能性((概率)進(jìn)行行評(píng)價(jià)模型的選擇1)、因素一::業(yè)務(wù)角度的考考慮商用數(shù)據(jù)挖掘掘是從業(yè)務(wù)中中來(lái)到業(yè)務(wù)中中去的過(guò)程,,在數(shù)據(jù)挖掘掘項(xiàng)目的整個(gè)個(gè)過(guò)程中都不不能忘記我們們的服務(wù)對(duì)象象是業(yè)務(wù)。選選擇什么樣的的模型首先應(yīng)應(yīng)該考慮:模模型結(jié)果的表表現(xiàn)形式如何何?這個(gè)模型型對(duì)業(yè)務(wù)有幫幫助嗎?模型型的結(jié)果如何何應(yīng)用?具體到流失問(wèn)問(wèn)題來(lái)說(shuō),從從營(yíng)銷(xiāo)挽留策策略來(lái)看,不不同級(jí)別客戶(hù)戶(hù)的服務(wù)方式式大不一樣。。對(duì)VIP客戶(hù),可以采采取一對(duì)一的的挽留策略,,而對(duì)普通客客戶(hù),往往針針對(duì)客戶(hù)群設(shè)設(shè)計(jì)挽留策略略會(huì)更加經(jīng)濟(jì)濟(jì)有效。這就提示我我們,應(yīng)當(dāng)當(dāng)根據(jù)客戶(hù)戶(hù)的價(jià)值高高低建立兩兩類(lèi)模型。。模型的選擇擇需要建立的兩類(lèi)模型模型類(lèi)型適用情況模型應(yīng)用構(gòu)想細(xì)分模型客戶(hù)價(jià)值較低,通過(guò)建立細(xì)分模型將客戶(hù)分為若干個(gè)群組,分析得出流失可能性較高群組特征將流失可能性較高群組特征交給業(yè)務(wù)部門(mén),制定針對(duì)群體的營(yíng)銷(xiāo)策略進(jìn)行挽留預(yù)測(cè)性模型客戶(hù)價(jià)值較高,通過(guò)建立模型將得到每個(gè)客戶(hù)的具體流失評(píng)分和客戶(hù)流失特征描述.將流失評(píng)分較高的客戶(hù)名單及特征提交給業(yè)務(wù)部門(mén),采取針對(duì)性措施進(jìn)行挽留.模型的選擇擇2)因素二::工具角度的的考慮市面上數(shù)據(jù)據(jù)挖掘工具具很多,選選擇使用哪哪個(gè)進(jìn)行數(shù)數(shù)據(jù)挖掘呢呢?對(duì)數(shù)據(jù)據(jù)挖掘項(xiàng)目目組來(lái)說(shuō),,要從價(jià)格格,功能,,易用性,,與企業(yè)現(xiàn)現(xiàn)有系統(tǒng)是是否兼容等等考慮選購(gòu)購(gòu)。選定工工具以后,,選擇模型型就要從工工具支持角角度考慮,,這是工作作中的一個(gè)個(gè)現(xiàn)實(shí)約束束條件。3)因素三::模型準(zhǔn)確性性角度的考考慮針對(duì)同樣的的問(wèn)題,科科學(xué)家往往往發(fā)明了多多種算法來(lái)來(lái)實(shí)現(xiàn)。對(duì)對(duì)于不同的的業(yè)務(wù)問(wèn)題題,不同的的數(shù)據(jù),不不同的模型型往往得到到的結(jié)果準(zhǔn)準(zhǔn)確性也有有很大的差差異,而模模型的準(zhǔn)確確性無(wú)疑是是選擇何種種模型的一一個(gè)重要考考量。模型的選擇擇4)、因素四四:模型可應(yīng)用用性角度的的考慮模型結(jié)果最最終是為了了幫助業(yè)務(wù)務(wù)的開(kāi)展,,為了真正正用起來(lái),,模型結(jié)果描描述的通俗俗性,模型涉及變變量獲取的的方便性等也是選擇擇使用什么么模型的重重要依據(jù)之之一。數(shù)據(jù)據(jù)挖掘中提提供了很多多種類(lèi)型的的算法,每每種算法各各有特點(diǎn),,例如決策策樹(shù)模型結(jié)結(jié)果可以決決策數(shù)或者者規(guī)則集的的方式表述述,業(yè)務(wù)人人員容易理理解;而神神經(jīng)網(wǎng)絡(luò)模模型更像一一個(gè)黑盒子子,預(yù)測(cè)結(jié)結(jié)果可能較較精確,但但是預(yù)測(cè)結(jié)結(jié)果卻難以以理解。在在選擇模型型的時(shí)候,,我們要考考慮業(yè)務(wù)人人員是只關(guān)關(guān)心數(shù)據(jù)挖挖掘評(píng)分結(jié)結(jié)果還是同同時(shí)關(guān)注模模型預(yù)測(cè)依依據(jù)來(lái)決定定選擇使用用哪個(gè)模型型。另外,,為了保證證模型應(yīng)用用的便利性性和可推廣廣性,最終終使用的模模型應(yīng)該是是能夠保證證一定準(zhǔn)確確度的較簡(jiǎn)簡(jiǎn)單模型,,而不是一一味為提高高模型準(zhǔn)確確度去選擇擇涉及大量量變量,形形式異常復(fù)復(fù)雜費(fèi)解的的模型。數(shù)據(jù)挖掘模模型1)、預(yù)測(cè)類(lèi)類(lèi)模型目標(biāo)變量為為離散變量量的預(yù)測(cè)模模型,該類(lèi)類(lèi)模型的目目標(biāo)變量是是離散變量量。相關(guān)的的模型有::Logistic回歸,決策策樹(shù),貝葉葉斯網(wǎng)絡(luò),,判別分析析,最近鄰鄰酸法,支支持向量機(jī)機(jī),C5.0,C&RT,QUEST,CHAID,神經(jīng)網(wǎng)絡(luò)目標(biāo)變量為為連續(xù)變量量的預(yù)測(cè)模模型。相關(guān)關(guān)的算法有有回歸分析析,廣義線(xiàn)線(xiàn)性模型,,最近鄰算算法,支持持向量機(jī),,C&RT,CHAID,神經(jīng)網(wǎng)絡(luò)絡(luò)時(shí)間序列預(yù)預(yù)測(cè)模型,,一類(lèi)特殊殊的連續(xù)變變量預(yù)測(cè)問(wèn)問(wèn)題。時(shí)間間序列是將將某種統(tǒng)計(jì)計(jì)指標(biāo)的數(shù)數(shù)值按相等等時(shí)間間隔隔及先后順順序排列而而形成的數(shù)數(shù)列,時(shí)間間序列預(yù)測(cè)測(cè)的目標(biāo)正正是預(yù)測(cè)該該數(shù)列未來(lái)來(lái)的值。2)、細(xì)分類(lèi)類(lèi)模型一種無(wú)監(jiān)督督的數(shù)據(jù)挖挖掘方法,,該模型無(wú)無(wú)目標(biāo)變量量,只有輸輸入變量,,無(wú)輸出變變量。該模模型的好壞壞通常通過(guò)過(guò)是否具有有業(yè)務(wù)含義義來(lái)評(píng)價(jià)。。相關(guān)算法法有K-Means,Kohonen和Two-Step三種聚類(lèi)分分析方法可可以實(shí)現(xiàn)細(xì)細(xì)分。3)、關(guān)聯(lián)規(guī)規(guī)則模型一種種無(wú)無(wú)監(jiān)監(jiān)督督的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘方方法法,,該該模模型型有有若若干干輸輸入入變變量量和和目目標(biāo)標(biāo)變變量量,,有有些些變變量量甚甚至至同同時(shí)時(shí)是是輸輸入入變變量量和和目目標(biāo)標(biāo)變變量量。。相相關(guān)關(guān)算算法法有有Apriori和Carma。如如果果在在關(guān)關(guān)聯(lián)聯(lián)中中考考慮慮到到時(shí)時(shí)間間的的先先后后,,還還可可以以使使用用Sequence算法法。。目標(biāo)標(biāo)變變量量是是二二分分標(biāo)標(biāo)志志變變量量的的預(yù)預(yù)測(cè)測(cè)結(jié)結(jié)果果轉(zhuǎn)轉(zhuǎn)換換1)、從離離散散的的預(yù)預(yù)測(cè)測(cè)結(jié)結(jié)果果向向連連續(xù)續(xù)的的評(píng)評(píng)分分預(yù)預(yù)測(cè)測(cè)結(jié)結(jié)果果的的轉(zhuǎn)轉(zhuǎn)換換對(duì)于于使使用用C5.0得到到的的離離散散變變量量是是否否流流失失的的預(yù)預(yù)測(cè)測(cè)結(jié)結(jié)果果,可以以通通過(guò)過(guò)如如下下變變換換將將它它轉(zhuǎn)轉(zhuǎn)化化為為流流失失評(píng)評(píng)分分:如果果SC-Churn=1,則流流失失評(píng)評(píng)分分=0.5+($CC-Churn)/2如果果SC-Churn=0,則流流失失評(píng)評(píng)分分=0.5-($CC-Churn)/2這時(shí)時(shí)流流失失評(píng)評(píng)分分的的取取值值范范圍圍為為:0.0~1.02)、從連連續(xù)續(xù)的的評(píng)評(píng)分分預(yù)預(yù)測(cè)測(cè)結(jié)結(jié)果果向向離離散散的的預(yù)預(yù)測(cè)測(cè)結(jié)結(jié)果果轉(zhuǎn)轉(zhuǎn)換換對(duì)于于使使用用神神經(jīng)經(jīng)網(wǎng)網(wǎng)絡(luò)絡(luò)得得到到的的流流失失評(píng)評(píng)分分結(jié)結(jié)果果(假設(shè)設(shè)流流失失評(píng)評(píng)分分結(jié)結(jié)果果取取值值范范圍圍是是0.0~1.0,可以以通通過(guò)過(guò)如如下下轉(zhuǎn)轉(zhuǎn)換換將將它它變變?yōu)闉榱髁魇ьA(yù)預(yù)測(cè)測(cè)及及流流失失預(yù)預(yù)測(cè)測(cè)的的把把握握程程度度:如果$N-Chrunscore>=0.5,則流失預(yù)預(yù)測(cè)=1,流失預(yù)測(cè)測(cè)把握程程度=2×($N-Churnscore)-0.5如果$N-Churnscore<0.5,則流失預(yù)預(yù)測(cè)=0,流失預(yù)測(cè)測(cè)把握程程度=2××($N-Churnscore)+0.5目標(biāo)變量量是標(biāo)志志變量的的的幾種種常用評(píng)評(píng)估方法法

(預(yù)預(yù)測(cè)模型型)1)、指標(biāo)法法這里介紹紹幾個(gè)用用來(lái)評(píng)價(jià)價(jià)模型優(yōu)優(yōu)劣的常常規(guī)指標(biāo)標(biāo),為了準(zhǔn)確確描述各各個(gè)指標(biāo)標(biāo)的計(jì)算算公式,預(yù)測(cè)值和和實(shí)際值值的預(yù)測(cè)測(cè)關(guān)系表表如右圖圖所示。。模型準(zhǔn)確確率:一個(gè)描述述模型總總體準(zhǔn)確確情況的的百分比比指標(biāo),主要用來(lái)來(lái)說(shuō)明模模型的總總體預(yù)測(cè)測(cè)準(zhǔn)確情情況,計(jì)算公式式如下:模型命中中率:對(duì)很多標(biāo)標(biāo)志變量量的預(yù)測(cè)測(cè)問(wèn)題來(lái)來(lái)說(shuō),往往關(guān)注注的并不不只是模模型的準(zhǔn)準(zhǔn)確率。。例如對(duì)對(duì)于這個(gè)個(gè)案例中中的流失失問(wèn)題,,我們更更多的關(guān)關(guān)注預(yù)測(cè)測(cè)流失且且實(shí)際流流失的那那部分人人,也就就是提供供給營(yíng)銷(xiāo)銷(xiāo)部門(mén)的的預(yù)測(cè)流流失名單單中到底底最后有有百分之之多少真真正流失失了。于于是引入入了一個(gè)個(gè)模型命命中率的的新指標(biāo)標(biāo),它主主要用來(lái)來(lái)反映提提供名單單的準(zhǔn)確確性,計(jì)計(jì)算公式式如下::模型查全全率:命中率率高似乎乎也不靈靈,就以以本方案案來(lái)說(shuō),,假設(shè)通通過(guò)數(shù)據(jù)據(jù)挖掘模模型給出出了一個(gè)個(gè)20人的流失失名單,,如果該該名單中中有16個(gè)人確實(shí)實(shí)流失了了,這個(gè)個(gè)模型的的命中率率達(dá)到了了80%,相當(dāng)不不錯(cuò),可可是問(wèn)題題是最終終有1000個(gè)人流失失,而你你只發(fā)現(xiàn)現(xiàn)了其中中的16個(gè),相關(guān)關(guān)部門(mén)顯顯然不會(huì)會(huì)認(rèn)可這這一模型型。據(jù)此此又引入入了模型型查全率率,該指指標(biāo)也稱(chēng)稱(chēng)為模型型覆蓋率率,它主主要反映映模型的的覆蓋程程度,計(jì)計(jì)算公司司如下::

實(shí)際值10預(yù)測(cè)值1ab0cd目標(biāo)變量量是標(biāo)志志變量的的預(yù)測(cè)模模型的幾幾種常用用評(píng)估方方法2)圖形法這兩種圖圖形的結(jié)結(jié)果都是是按照將將預(yù)測(cè)結(jié)結(jié)果變量量轉(zhuǎn)化為為連續(xù)的的評(píng)分結(jié)結(jié)果來(lái)做做的圖形形,我們們通常使使用累積增益益圖和累積提升升圖。將評(píng)分結(jié)結(jié)果按照照從大到到小的順順序排列列并標(biāo)準(zhǔn)準(zhǔn)化為百百分位數(shù)數(shù)表示,,增益圖圖和提升升圖的橫橫軸代表表的就是是這樣的的內(nèi)容。。增益圖縱縱軸表示示的是1(或者T)預(yù)測(cè)正確確所占的的比例,我們也也把它標(biāo)標(biāo)準(zhǔn)化化化為百分分位數(shù)表表示?;€(xiàn)代表表隨機(jī)選選擇所得得到的結(jié)結(jié)果,它它總是一一條45度角的直直線(xiàn),模模型增益益線(xiàn)則代代表使用用模型后后預(yù)測(cè)結(jié)結(jié)果的優(yōu)優(yōu)劣,這這條線(xiàn)從從左到右右開(kāi)始階階段越陡陡峭且下下面所圍圍的面積積越大,,則模型型效果越越好。最最佳增益益線(xiàn)是指指理論上上模型可可以達(dá)到到的最優(yōu)優(yōu)效果。。提升圖縱軸表示示使用模模型相對(duì)對(duì)隨機(jī)選選擇預(yù)測(cè)測(cè)正確的的提升倍倍數(shù),基線(xiàn)代代表隨機(jī)機(jī)選擇的的結(jié)果,,是一條條取值為為1的水平直直線(xiàn),同同樣提升升圖從左左到右開(kāi)開(kāi)始階段段取值越越高且下下面圍成成的面積積越大,,則模型型效果越越好。最最佳提升升線(xiàn)代表表模型可可以得到到的最佳佳效果。。增益圖和和提升圖圖建模思路路1:聚類(lèi)建模思路路1:聚類(lèi)聚類(lèi)-7和聚類(lèi)-4的特征描述群組編號(hào)群組占比重要特征特征概括聚類(lèi)-714.70%總花費(fèi)較低;

平均每分鐘花費(fèi)高,除免費(fèi)時(shí)長(zhǎng)外計(jì)費(fèi)時(shí)長(zhǎng)少;

高峰與非高峰通話(huà)時(shí)間少,周末時(shí)間長(zhǎng)客戶(hù)價(jià)值低

周末電話(huà)為主

資費(fèi)方案有待優(yōu)化聚類(lèi)-410.00%周末通話(huà)次數(shù)少,但平均每次通話(huà)時(shí)間長(zhǎng);

周末通話(huà)時(shí)間占比低

高峰時(shí)期通話(huà)時(shí)間長(zhǎng),非高峰時(shí)期通話(huà)時(shí)間短

總花費(fèi)較高較高價(jià)值用戶(hù)

工作電話(huà)型

周末親情電話(huà)建模思路路2:用決策樹(shù)樹(shù)生成規(guī)規(guī)則集建模思路路2:用決策樹(shù)樹(shù)生成規(guī)規(guī)則集建模思路路3:用神經(jīng)網(wǎng)網(wǎng)絡(luò)生成成流失評(píng)評(píng)分建模思路路3:用神經(jīng)網(wǎng)網(wǎng)絡(luò)生成成流失評(píng)評(píng)分建模思路路3:用神經(jīng)網(wǎng)網(wǎng)絡(luò)生成成流失評(píng)評(píng)分培訓(xùn)大綱綱一、指標(biāo)標(biāo)變量獲獲取二、案例例背景三、商業(yè)業(yè)理解四、數(shù)據(jù)據(jù)理解與與數(shù)據(jù)準(zhǔn)準(zhǔn)備五、建立立模型與與模型評(píng)評(píng)估六、模型應(yīng)用用七、總結(jié)結(jié)模型的應(yīng)應(yīng)用經(jīng)過(guò)前面面的努力力,我們們已經(jīng)建建立了電電信業(yè)務(wù)務(wù)流失分分析的數(shù)數(shù)據(jù)挖掘掘模型,,而且對(duì)對(duì)模型進(jìn)進(jìn)行評(píng)估估的結(jié)果果還不錯(cuò)錯(cuò)。經(jīng)過(guò)過(guò)總結(jié)可可以實(shí)現(xiàn)現(xiàn),我們們可以將將以下一一些結(jié)果果提交給給市場(chǎng)營(yíng)營(yíng)銷(xiāo)部門(mén)門(mén):結(jié)果一、對(duì)于低低價(jià)值的的客戶(hù)可可以給出出分群結(jié)結(jié)果,并并對(duì)流失失可能性性較高的的群組給給出特征征刻畫(huà)。。結(jié)果二、對(duì)于高高價(jià)值的的客戶(hù)我我們可以以給出若若干流失失規(guī)則,,即流失失前的客客戶(hù)特征征,幫助助市場(chǎng)營(yíng)營(yíng)銷(xiāo)部的的同事根根據(jù)這些些特征采采取若干干針對(duì)性性措施。。結(jié)果三、可以給給出高價(jià)價(jià)值客戶(hù)戶(hù)的流失失可能性性評(píng)分,,這樣市市場(chǎng)營(yíng)銷(xiāo)銷(xiāo)部的同同事可以以對(duì)流失失可能性性較高的的客戶(hù)給給予更多多的關(guān)注注,設(shè)計(jì)計(jì)合適的的挽留活活動(dòng)進(jìn)行行挽留。。模型的應(yīng)應(yīng)用培訓(xùn)大綱綱一、指標(biāo)標(biāo)變量獲獲取二、案例例背景三、商業(yè)業(yè)理解四、數(shù)據(jù)據(jù)理解與與數(shù)據(jù)準(zhǔn)準(zhǔn)備五、建立立模型與與模型評(píng)評(píng)估六、模型型應(yīng)用七、總結(jié)總結(jié)本專(zhuān)題解解決的問(wèn)問(wèn)題就是是一個(gè)目目標(biāo)變量量為標(biāo)志志型變量量的預(yù)測(cè)測(cè)問(wèn)題,,所有這這類(lèi)問(wèn)題題,所提提供的方方法及執(zhí)執(zhí)行步驟驟具有借借鑒意義義。類(lèi)似似的問(wèn)題題包括::客戶(hù)獲取取問(wèn)題,,目標(biāo)變變量是客客戶(hù)是否否接受促促銷(xiāo)。該該應(yīng)用在在直郵或或者電話(huà)話(huà)營(yíng)銷(xiāo)確確定目標(biāo)標(biāo)客戶(hù)群群時(shí)尤其其常用。。欺詐問(wèn)題題:目標(biāo)標(biāo)變量是是客戶(hù)是是否存在在欺詐現(xiàn)現(xiàn)象。典典型應(yīng)用用包括如如何有效效地發(fā)現(xiàn)現(xiàn)信用卡卡欺詐,,保險(xiǎn)欺欺詐,偷偷漏稅欺欺詐等。。交叉銷(xiāo)售售問(wèn)題::目標(biāo)變變量是已已有客戶(hù)戶(hù)是否回回購(gòu)買(mǎi)特特定的產(chǎn)產(chǎn)品。該該應(yīng)用尤尤其適用用于產(chǎn)品品或服務(wù)務(wù)品類(lèi)較較多的企企業(yè),通通過(guò)數(shù)據(jù)據(jù)挖掘的的手段可可以實(shí)現(xiàn)現(xiàn)基于歷歷史數(shù)據(jù)據(jù)的智能能產(chǎn)品推推薦系統(tǒng)統(tǒng)。謝謝!9、靜夜四四無(wú)鄰,,荒居舊舊業(yè)貧。。。12月-2212月-22Saturday,December31,202210、雨中黃黃葉樹(shù),,燈下白白頭人。。。06:36:3806:36:3806:3612/31/20226:36:38AM11、以我我獨(dú)沈沈久,,愧君君相見(jiàn)見(jiàn)頻。。。12月月-2206:36:3806:36Dec-2231-Dec-2212、故人江海海別,幾度度隔山川。。。06:36:3806:36:3806:36Saturday,Decem

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論