[碩士論文精品]數(shù)據(jù)挖掘技術(shù)在信用卡消費(fèi)數(shù)據(jù)中的應(yīng)用研究.pdf_第1頁
[碩士論文精品]數(shù)據(jù)挖掘技術(shù)在信用卡消費(fèi)數(shù)據(jù)中的應(yīng)用研究.pdf_第2頁
[碩士論文精品]數(shù)據(jù)挖掘技術(shù)在信用卡消費(fèi)數(shù)據(jù)中的應(yīng)用研究.pdf_第3頁
[碩士論文精品]數(shù)據(jù)挖掘技術(shù)在信用卡消費(fèi)數(shù)據(jù)中的應(yīng)用研究.pdf_第4頁
[碩士論文精品]數(shù)據(jù)挖掘技術(shù)在信用卡消費(fèi)數(shù)據(jù)中的應(yīng)用研究.pdf_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

摘要 隨著信用卡市場的發(fā)展壯大,業(yè)界之間的競爭也日趨激烈,人 們己經(jīng)逐漸認(rèn)識到客戶對于企業(yè)的重要性,沒有優(yōu)良的客戶資源, 企業(yè)將舉步為艱。因此,如何詳細(xì)了解客戶的信息,并將這種信息 轉(zhuǎn)變成“知識”,更好地為客戶提供高質(zhì)量的個(gè)性化服務(wù),提高客戶 滿意度,保持和發(fā)展高價(jià)值的客戶,成為各商業(yè)銀行面臨的緊迫課 題之一。 采用數(shù)據(jù)挖掘技術(shù)能從海量的銀行客戶數(shù)據(jù)庫中發(fā)現(xiàn)一些未知 的、有價(jià)值的規(guī)律,幫助商業(yè)銀行向管理智能化、決策可靠化、定 位目標(biāo)精準(zhǔn)化發(fā)展,也為各商業(yè)銀行在提供個(gè)性化的信用卡服務(wù)方 面給予了強(qiáng)有力的支持。 本文研究信用卡消費(fèi)數(shù)據(jù)中關(guān)聯(lián)模式及其應(yīng)用。針對信用卡消 費(fèi)數(shù)據(jù)進(jìn)了數(shù)據(jù)挖掘方法的比較,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行了客戶細(xì) 分、客戶價(jià)值計(jì)算核心指標(biāo)的選取和價(jià)值的計(jì)算分析,提出了相應(yīng) 的模型,并利用數(shù)據(jù)挖掘工具s p s sc l e m e n t i n e8 0 進(jìn)行了模型仿 真實(shí)驗(yàn)分析,得出了有價(jià)值的信用卡消費(fèi)數(shù)據(jù)關(guān)聯(lián)模式。同時(shí)也提 出了一些基于挖掘結(jié)果的信用卡營銷戰(zhàn)略和個(gè)性化營銷的新方式。 本文的研究對數(shù)據(jù)挖掘在客戶分析中的應(yīng)用方面進(jìn)行了有益的嘗 試,能為商業(yè)銀行開展信用卡業(yè)務(wù)帶來新的思路,也能為國內(nèi)商業(yè) 銀行提升信用卡業(yè)務(wù)的服務(wù)水平、獲取競爭優(yōu)勢能提供一定的幫助。 關(guān)鍵詞信用卡,數(shù)據(jù)挖掘,客戶價(jià)值,特約商戶價(jià)值,個(gè)性化營 銷 a bs t r a c t a l o n gw i t hc r e d i tc a r dm a r k e tg r o w i n gs t r o n g ,t h ec o m p e t i t i o n b e t w e e nb u s i n e s sa r eb e c o m i n gm o r ea n dm o r es h a r p ,p e o p l eh a s g r a d u a l l yr e a l i z e dt h ei m p o r t a n c eo fc u s t o m e rt ot h ee n t e r p r i s e st h a ti s w i t h o u to u t s t a n d i n gc u s t o m e rs o u r c e s ,t h ee n t e r p r i s e sc a nn o ta b l et o d e v e l o pf u r t h e r t h e r e f o r e ,i th a sb e c o m eo n e o fp r e s s i n gs u b j e c t st oa l l b u s i n e s sb a n k st h a th o wt ou n d e r s t a n dm o r ea b o u tc u s t o m e r s i n f o r m a t i o na n dt u r n i n gt h i si n f o r m a t i o ni n t o k n o w l e d g e s oa st o p r o v i d eh i g hq u a l i t yp e r s o n n e ls e r v i c e ,i m p r o v ec u s t o m e r ss a t i s f a c t i o n , m a i n t a i na n df i n dh i g hv a l u ec u s t o m e r s t h et e c h n o l o g yo fd a t am i n i n gc o u l df i n ds o m eu n k n o w n ,v a l u a b l e r u l e sa m o n gt h o u s a n d so fb u s i n e s sc u s t o m e r si n f o r m a t i o nd a t as oa st o h e l p c o m m e r c i a lb a n k st ot h e m a n a g e m e n ti n t e l l e c t u a l i z e d ,t h e d e c i s i o n m a k i n gt ob er e l i a b l e ,t h el o c a l i z a t i o ng o a lp r i c e dd e v e l o p ,a l s o p r o v i d et h ei n d i v i d u a l i t yf o rv a r i o u sc o m m e r c i a lb a n kc r e d i tc a r ds e r v i c e t op r o v i d et h ep o w e r f u ls u p p o r t t h ea r t i c l em a i n l yr e s e a r c h e dt h ep a t t e r na n da p p l i c a t i o no fc r e d i t c a r d sc o n s u m p t i o nd a t a a c c o r d i n gt ot h ec r e d i tc a r d sc o n s u m p t i o n d a t ac o m p a r et h em e t h o d so fd a t am i n i n ga n dd e c i d et os e l e c to n ei na l l m e t h o d s m a d eu s eo fd a t am i n i n gm e t h o dt os u b d i v i d ec u s t o m e r s ,t o c h o i c et h ec o r ei n d e x e so fc u s t o m e r ,a n a l y z et h ev a l u ec o m p u t a t i o no f c u s t o m e r ,p r o p o s et h ec o r r e s p o n d i n gm o d e l ,a n dc a r r i e do nt h em o d e li n d a t am i n i n gt o o ls p s sc l e m e n t i n e8 0 ,o b t a i n e dt h ev a l u a b l ep a t t e r n s t h i st h e s i sb r o u g h tf o r w a r ds o m en e wc r e d i tc a r dm a r k e t i n gs t r a t e g i e s a n dp e r s o n a l i z i n gm a r k e t i n gm e t h o d sw h i c hw e r eb a s e do nd a t am i n i n g t e c h n o l o g y t h er e s e a r c hw o u l dp r o v i d ec o m m e r c i a lb a n k so p e r a t i n g c r e d i tc a r db u s i n e s sw i t hn e wi d e a sa n dh e l pc o m m e r c i a ld o m e s t i cb a n k s i m p r o v ec r e d i tc a r ds e r v i c et oa c h i e v ec o m p e t i t i v ea d v a n t a g e s ,a n dh a v e au s e f u lt r yi na p p l i c a t i o no fc u s t o m e ra n a l y s i si ns e l lb u s i n e s s k e y w o r d s c r e d i t c a r d ,d a t am i n i n g ,c u s t o m e rv a l u e ,s p e c i a l m e r c h a n tv a l u e ,p e r s o n a l i z i n gm a r k e t i n g 原創(chuàng)性聲明 本人聲明,所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究 工作及取得的研究成果。盡我所知,除了論文中特別加以標(biāo)注和致謝 的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不 包含為獲得中南大學(xué)或其他單位的學(xué)位或證書而使用過的材料。與我 共同工作的同志對本研究所作的貢獻(xiàn)均已在論文中作了明確的說明。 作者簽名:習(xí)矽洋日期:近年上月上蜩 學(xué)位論文版權(quán)使用授權(quán)書 本人了解中南大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校 有權(quán)保留學(xué)位論文并根據(jù)國家或湖南省有關(guān)部門規(guī)定送交學(xué)位論文, 允許學(xué)位論文被查閱和借閱;學(xué)校可以公布學(xué)位論文的全部或部分內(nèi) 容,可以采用復(fù)印、縮印或其它手段保存學(xué)位論文。同時(shí)授權(quán)中國科 學(xué)技術(shù)信息研究所將本學(xué)位論文收錄到中國學(xué)位論文全文數(shù)據(jù)庫, 并通過網(wǎng)絡(luò)向社會公眾提供信息服務(wù)。 日期:遜塹年工月厶 中南人學(xué)碩- f 論文第一章前p - , 1 1 引言 第一章前言 信用卡是指由銀行、非銀行金融機(jī)構(gòu)或?qū)I公司向資信良好的單位、個(gè)人簽 發(fā)的,可以在指定的商店或場所進(jìn)行直接消費(fèi),并可在發(fā)卡銀行及聯(lián)營機(jī)構(gòu)的 營業(yè)網(wǎng)點(diǎn)存取款、辦理轉(zhuǎn)賬結(jié)算的一種信用憑證和支付工具。信用卡是困際上 廣泛流行的、先進(jìn)的、新型的支付手段與信用工具,是產(chǎn)生于經(jīng)濟(jì)發(fā)達(dá)國家和 地區(qū)的一種新型的消費(fèi)信貸方式。 我國開展信用卡業(yè)務(wù)比較晚,1 9 8 6 年中國銀行在國內(nèi)率先成功地推出第一 張信用卡,經(jīng)過2 0 多年的發(fā)展,我困的信用卡業(yè)務(wù)也取得了長足的進(jìn)步。據(jù)央 行統(tǒng)計(jì),截至2 0 0 5 年9 月,我國銀行卡發(fā)卡機(jī)構(gòu)達(dá)1 9 0 多家,發(fā)卡總量約9 1 2 億張:全國銀行卡交易總額為2 4 1 0 6 萬億元,實(shí)現(xiàn)跨行交易1 5 1 4 億筆,交易總 額7 4 5 1 億元。全國受理銀行卡的特約商戶約3 7 萬家,聯(lián)網(wǎng)p o s 機(jī)( 銷售點(diǎn)終 端) 約5 6 萬臺,各金融機(jī)構(gòu)聯(lián)網(wǎng)a t m 機(jī)( 自動取款機(jī)) 約1 8 萬臺。根據(jù)萬 事達(dá)卡國際組織的研究,到2 0 1 0 年,中國年收入達(dá)5 0 0 0 美元的中產(chǎn)階層將達(dá) 到1 5 5 億人,在未來的幾年,我圍的信用卡市場將會迎來爆發(fā)式的增長。并 且在2 0 0 6 年,我國人民幣業(yè)務(wù)也將全面向外資銀行開放,而信用卡業(yè)務(wù)作為商 業(yè)銀行新的利潤增長點(diǎn),必將成為競爭的焦點(diǎn)。自1 9 9 5 年廣東發(fā)展銀行發(fā)行了 國內(nèi)第一張人民幣貸記卡,這被看作是國內(nèi)第一張真正的信用卡,此后,中國 銀行、中國工商銀行、招商銀行、中國建設(shè)銀行也先后發(fā)行信用卡,而一批外 資銀行也已經(jīng)開始或正在申請?jiān)谥袊袌霭l(fā)行信用卡業(yè)務(wù),于是一場圍繞中國 最高端人群的信用卡銷售戰(zhàn)就此丌始。隨著我國金融市場開放,我國對于外資 銀行發(fā)卡的管制也可能逐步放寬。由于國外銀行卡組成中貸記卡比例較高,外 資銀行的營銷經(jīng)驗(yàn)由來已久,開放后無疑會加劇國內(nèi)信用卡業(yè)務(wù)的競爭。 為了剛應(yīng)這種變化,具有競爭力的企業(yè)j 下在摒棄過去的無效的企業(yè)哲學(xué), 采取創(chuàng)新的方式來維護(hù)顧客的忠誠度,從中獲取最大的利潤,而不儀是把焦點(diǎn) 放在內(nèi)部問題的考慮,如降低成本和簡化操作流程等。在客戶效益概念的引導(dǎo) 下,企業(yè)通過集中精力在客戶關(guān)系的管理等諸多方面,最大化地獲取利益。企 業(yè)f 在采取一個(gè)“以客戶為中心”戰(zhàn)略,強(qiáng)調(diào)客戶價(jià)值的重要性。在這個(gè)意義 重大的從“以產(chǎn)品為中心”的策略到“以客戶為中心”策略的轉(zhuǎn)變過程中,保 留已有的高效益的客戶正在變得越來越重要,雖然在某些情況下,獲得客戶是 首要的。隨著客戶狹取的成本的不斷提高,同時(shí)也認(rèn)識到分析客戶效益的重要 性,許多公司已經(jīng)意諺 到,企q p 成功的關(guān)鍵就是:盡可能地了解你所能了解的有 中南人學(xué)碩,l 論文 第一章前言 關(guān)這個(gè)客戶的一切信息,把它轉(zhuǎn)化為知識,進(jìn)而變成企業(yè)競爭的原動力。 轉(zhuǎn)變成“以客戶為中心”策略的一個(gè)關(guān)鍵步驟是收集足夠的信息對客戶分 類,并且對不同群體的客戶采用針對性和有效的互動交流。通過分析型的分類 技術(shù),客戶的信息如人口統(tǒng)計(jì)學(xué)方面的數(shù)據(jù)( 個(gè)人的背景數(shù)據(jù)) ,生活方式方面 的信息,與客戶歷史信息相結(jié)合,來幫助確定在不同組別巾的客戶的行為差異, 或者進(jìn)行客戶的分類。對于重點(diǎn)客戶,可以繼續(xù)進(jìn)行篩選和區(qū)分,最終達(dá)到建 立單獨(dú)的、個(gè)別的客戶檔案,進(jìn)而為客戶提供個(gè)性化服務(wù)的目的。 但是目前我國國內(nèi)銀行在信用卡業(yè)務(wù)上的個(gè)性化服務(wù)還存在不小的差距。 本文探討數(shù)據(jù)挖掘技術(shù)在信用卡消費(fèi)數(shù)據(jù)分析中的應(yīng)用,希望能對國內(nèi)銀行提 高信用卡業(yè)務(wù)的競爭能力有所幫助。 1 2 研究目的和意義 隨著中國加入w t o ,中國銀行業(yè)面臨著同益激烈的競爭。各大銀行紛紛采 用先進(jìn)的信息技術(shù)手段提升自身的服務(wù)水平。銀行提供給用,f 、的產(chǎn)品有一個(gè)顯 著的特點(diǎn)就是:同質(zhì)性。不同銀行之| 、日j 的產(chǎn)品幾乎沒有什么差別。而另一方面, 銀行又存有海量的用戶信息數(shù)據(jù)。通過對這些海量數(shù)據(jù)的挖掘分析,發(fā)現(xiàn)用戶 不同的消費(fèi)偏好,開展有針對性的營銷活動,保留高價(jià)值客戶,創(chuàng)造更多的利 潤,成為銀行獲取競爭優(yōu)勢的一個(gè)重要手段。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),為銀行實(shí) 現(xiàn)這個(gè)目標(biāo)提供了強(qiáng)有力的武器。 信用卡是當(dāng)今銀行發(fā)展最快的一項(xiàng)金融業(yè)務(wù)之一,它是一種可在一定范圍 內(nèi)替代傳統(tǒng)現(xiàn)金流通的電子貨幣。目前我國政府也在大力促進(jìn)銀行卡的推廣和 普及。隨著信息技術(shù)的不斷發(fā)展,信用體系的不斷完善,信用卡的應(yīng)用將不斷 得到普及。國內(nèi)各大銀行紛紛將其作為重點(diǎn)業(yè)務(wù)加以發(fā)展,已經(jīng)成為國內(nèi)外銀 行的必爭之地。 然而當(dāng)前國內(nèi)銀行的信用卡業(yè)務(wù)的服務(wù)水平還停留在較落后的水平。中國 銀行業(yè)與圍外銀行最大的籌距在于服務(wù)。在客戶關(guān)系管理方面,國外已有將近 二十年的歷史。西方銀行業(yè)一直處于比較激烈的競爭狀態(tài),在客戶服務(wù)方面積 累了相當(dāng)?shù)慕?jīng)驗(yàn)。而中國銀行業(yè)剛從計(jì)劃經(jīng)濟(jì)時(shí)期轉(zhuǎn)變過來,對“以客戶為中 心”的理解一直處于表面狀念,不能夠深入的了解客戶的需求,長期以來對客 戶實(shí)行無差別服務(wù)策略,不能夠抓住真正的贏利客戶,進(jìn)行區(qū)別對待,為客戶 提供一對一的服務(wù)。銀行的數(shù)據(jù)庫中積累了大黽的客戶信息,但是缺乏一套行 之有效的數(shù)據(jù)挖掘系統(tǒng)進(jìn)行信息分析,甚至連同一客戶的不同賬戶也無從辨別, 更不用說為客戶提供一對一的服務(wù)。銀行的各種數(shù)據(jù)不能有效結(jié)合,形成了很 多“信息孤島”,使會融機(jī)構(gòu)很難將各種各樣的客戶信息統(tǒng)一起來,領(lǐng)導(dǎo)決策層 2 中南大學(xué)碩上論文第一章前言 也很難搞清楚數(shù)據(jù)庫系統(tǒng)的整體運(yùn)作情況,不能有效的提供決策幫助n 1 。而隨 著數(shù)據(jù)挖掘技術(shù)的不斷成熟和完善,完全可以為國內(nèi)銀行開展個(gè)性化的信用卡 營銷提供強(qiáng)大的信息支持。 本文利用數(shù)據(jù)挖掘技術(shù)研究信用卡消費(fèi)數(shù)據(jù)中關(guān)聯(lián)模式,客戶價(jià)值的區(qū)分和 客戶消費(fèi)行為偏好中的一些應(yīng)用。研究數(shù)據(jù)分析和挖掘在解決這些問題中的技 術(shù)和優(yōu)勢,并和傳統(tǒng)的經(jīng)驗(yàn)方法作對比,為商業(yè)銀行在信用卡營銷中改變過去 “跑馬圈地”營銷模式,基于數(shù)據(jù)分析和挖掘設(shè)計(jì)產(chǎn)品,選擇客戶,授予信用 額度并實(shí)現(xiàn)一對一營銷提供理論依據(jù)和建議。 1 3 國內(nèi)外研究現(xiàn)狀 目前,國外數(shù)據(jù)挖掘的研究主要有:對知識發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如 近年來注重對b a y e s ( 貝葉斯) 方法、流式聚類方法以及b o o s t i n g 方法的研究和 提高h(yuǎn) 1 :傳統(tǒng)的統(tǒng)計(jì)學(xué)回歸法在k d d 中的應(yīng)用:k d d 與數(shù)據(jù)庫的緊密結(jié)合。在應(yīng)用 方面包括:k d d 商業(yè)軟件工具不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng), 而不是孤立的過程。國內(nèi)從事數(shù)據(jù)挖掘研究的人員主要在大學(xué),也有部分在研 究所或公司。所涉及的研究領(lǐng)域很多,一般集中于學(xué)習(xí)算法的研究、數(shù)據(jù)挖掘 的實(shí)際應(yīng)用以及有關(guān)數(shù)據(jù)挖掘理論方面的研究。 國外數(shù)據(jù)挖掘?qū)W術(shù)界對于信用卡的研究主要集中在c r m 、欺詐模型方面n 8 。 企業(yè)界的軟件廠商主要針對銀行業(yè)開發(fā)客戶關(guān)系管理軟件,數(shù)據(jù)挖掘是其中的 一個(gè)模塊,較少有專門針對信用卡丌發(fā)的全面分析軟件。在銀行數(shù)據(jù)挖掘領(lǐng)域 比較活躍的軟件提供商有:i b m ,s a s ,s p s s s y s b a s e 和o r a c l e 等。他們都提 出了面向銀行業(yè)的解決方案,但沒有公丌的技術(shù)文獻(xiàn)。在利用數(shù)據(jù)挖掘技術(shù)對 已有的大量客戶信息進(jìn)行分析,掌握客戶的消費(fèi)行為和心態(tài),并建立起相應(yīng)的 市場營銷預(yù)測模型方面,也取得了一定的研究成果,在實(shí)際應(yīng)用中的效果也已 經(jīng)得到成功驗(yàn)證。圍外的一些大的商業(yè)銀行也已經(jīng)開展了數(shù)據(jù)挖掘方面的應(yīng)用, 但是因?yàn)樯婕暗缴虡I(yè)機(jī)密,都沒有公丌的文獻(xiàn)資料的介紹。 我國信用卡市場起步較晚,雖然近年來,信用卡的軟件和硬件環(huán)境、發(fā)卡 銀行和發(fā)卡數(shù)量以及交易金額等方而都取得了長足的進(jìn)步。但是與美困等金融 市場十分成熟的西方國家相比,我國銀行信用卡事業(yè)至今仍然處于起步階段, 沒有形成完善的信用卡市場規(guī)范,從而導(dǎo)致信用卡市場營銷的數(shù)據(jù)無論從量上 還是質(zhì)上都無法滿足數(shù)據(jù)挖掘的條件。我國的數(shù)據(jù)挖掘技術(shù)發(fā)展較晚,但困內(nèi) 數(shù)掘挖掘?qū)W術(shù)界對數(shù)據(jù)挖掘在信用卡市場營銷中的應(yīng)用的研究總結(jié)了一定的經(jīng) 驗(yàn),相比國外而言,對于廣泛的應(yīng)用還有一定的距離。f 1 前國內(nèi)幾人銀行把丌 發(fā)重心都放在上c r m 軟件,但還是處在業(yè)務(wù)庫數(shù)據(jù)上移和建立數(shù)據(jù)倉庫階段, 中南人學(xué)碩。l :論文第一章前言 沒有到數(shù)據(jù)挖掘分析的階段。相關(guān)的公丌的技術(shù)文獻(xiàn)也沒有報(bào)道。信用卡設(shè)計(jì) 上缺少對目標(biāo)市場的研究以及對消費(fèi)者需求的分析,營銷上缺少對目標(biāo)客戶偏 好信息的數(shù)據(jù)分析和挖掘,服務(wù)上缺少對現(xiàn)有客戶交易行為的數(shù)據(jù)分析和挖掘。 總體上來說,現(xiàn)今數(shù)據(jù)挖掘技術(shù)在信用卡市場消費(fèi)數(shù)據(jù)分析方面的應(yīng)用和 研究僅僅處在初期發(fā)展階段,有很多工作需要去完成,是一項(xiàng)具有巨大發(fā)展前 景的科研工作。 1 4 論文研究內(nèi)容及章節(jié)安排 本文采用的研究方法主要是理論研究與實(shí)證研究柏結(jié)合。在文獻(xiàn)閱讀的基礎(chǔ) 上結(jié)合調(diào)查訪問、實(shí)例數(shù)據(jù)的挖掘分析:同時(shí),在定性研究方法的基礎(chǔ)上大量結(jié) 合定量研究方法。其中調(diào)奄訪問主要是采取訪談等手段。 木文通過對數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行信用卡消費(fèi)數(shù)據(jù)的分析,為商、i 匕銀行 實(shí)現(xiàn)以下價(jià)值:( 1 ) 提升客戶關(guān)系,提高品牌價(jià)值,解決問題:避免價(jià)格戰(zhàn), 降低流失率:( 2 ) 尋找新客戶,精確營銷,解決問題:避免產(chǎn)品同質(zhì)化,一對一 營銷:( 3 ) 留住原有客戶,提高刷卡量,解決問題:減少睡眠卡,增加收入:( 4 ) 降 低業(yè)務(wù)風(fēng)險(xiǎn),提高收益,解決問題:控制成本,增加盈利:( 5 ) 交叉銷售,推廣 其他金融產(chǎn)品和服務(wù),實(shí)現(xiàn)“理財(cái)銀行”的定位,解決問題:增加促銷,并推動 其他產(chǎn)品的發(fā)展。 本文的主要創(chuàng)新點(diǎn)如下: ( 1 ) 將數(shù)據(jù)挖掘引入到國內(nèi)銀行的信用卡業(yè)務(wù)分析中。主要是信用卡信用客 戶價(jià)值的區(qū)分、特約商戶價(jià)值計(jì)算和客戶消費(fèi)偏好中的一些應(yīng)用。 ( 2 ) 探討了有關(guān)信用卡事務(wù)空間數(shù)學(xué)模型的問題。 ( 3 ) 在前人關(guān)于個(gè)人消費(fèi)數(shù)據(jù)研究的基礎(chǔ)上進(jìn)行了算法性能比較應(yīng)用研究, 尋找針對信用卡數(shù)據(jù)特點(diǎn)的最佳挖掘算法。 ( 4 ) 在前人的基礎(chǔ)上補(bǔ)充提出了信用卡的客戶價(jià)值的模型,還提出了特約商 戶的價(jià)值在信用卡發(fā)展業(yè)務(wù)中關(guān)鍵指標(biāo)。 ( 5 ) 提出了一些新的關(guān)于信用卡個(gè)性化營銷的方式。 本文的論文結(jié)構(gòu)共分五章。 第一章是前言部分。第二章是探討了數(shù)據(jù)挖掘算法在信用卡消費(fèi)數(shù)據(jù)中的 研究。第三章研究信用卡客戶細(xì)分和客戶價(jià)值。第四章研究了數(shù)據(jù)挖掘在信用 卡客戶消費(fèi)數(shù)據(jù)的關(guān)聯(lián)分析及應(yīng)用,提出了一些基于數(shù)據(jù)挖掘的營銷戰(zhàn)略和個(gè) 性化營銷的新方式。第五章是結(jié)論和展望。 4 中南人學(xué)碩十論文第二章數(shù)據(jù)挖掘算法和:信用卡消費(fèi)數(shù)據(jù)中的研究 第二章數(shù)據(jù)挖掘算法在信用卡消費(fèi)數(shù)據(jù)中的研究 數(shù)據(jù)挖掘是一種從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱藏的預(yù)測性信息的新技 術(shù),而其算法更是這種新技術(shù)的靈魂。隨著數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,數(shù)據(jù)挖 掘在各領(lǐng)域的應(yīng)用也就越來越平兒,數(shù)據(jù)挖掘算法的應(yīng)用更是這新技術(shù)的核心。 論文本章將對數(shù)據(jù)挖掘算法在信用卡消費(fèi)數(shù)據(jù)分析中所要涉及的知識做具體研 究,同時(shí)為后面章節(jié)奠定理論文基礎(chǔ)。 2 1 數(shù)據(jù)挖掘的定義及其特點(diǎn) 數(shù)據(jù)挖掘( d a t am i n i n g ,簡稱d m ) ,簡單地講就是從大量數(shù)據(jù)中挖掘或抽 取出知識,數(shù)據(jù)挖掘概念的定義描述有若干版本,以下給出一個(gè)被普遍采用的 定義描述:數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)( k n o w l e d g ed is c o v e r yf r o m d a t a b a s e ,簡稱k d d ) ,它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模 式或規(guī)律等知識的復(fù)雜過程瞠1 。數(shù)據(jù)挖掘是一種潛在的功能強(qiáng)大的新技術(shù),它 能幫助企業(yè)在他們的數(shù)據(jù)倉庫中找到最重要的信息。通過數(shù)據(jù)挖掘,有價(jià)值的 知識、規(guī)則、高層次的信息就能從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,并從不 同角度顯示,從而使大型數(shù)據(jù)庫作為豐富可靠的資源為知識歸納服務(wù),數(shù)據(jù)挖 掘技術(shù)涉及數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)分析等多種技術(shù)。 數(shù)據(jù)挖掘的特點(diǎn)如下: ( 1 ) 數(shù)據(jù)規(guī)模十分巨大: ( 2 ) 查詢一般是決策制定者提出的即時(shí)隨機(jī)查詢,不能形成精確查詢要求: ( 3 ) 由于數(shù)掘變化迅速以至于可能很快過時(shí),因此需要對動態(tài)數(shù)據(jù)做出快速 反應(yīng)提供決策支持: ( 4 ) 主要基于大樣本的統(tǒng)計(jì)規(guī)律,其發(fā)現(xiàn)的規(guī)則不一定適用于所有數(shù)據(jù)。 2 2 數(shù)據(jù)挖掘過程及系統(tǒng)結(jié)構(gòu) c r i s p d m ( c r o s si n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ) 是數(shù)據(jù)挖 掘界公認(rèn)的規(guī)范標(biāo)準(zhǔn),是由s p s s 、n c r ,d a i m l e r c h r y s l e r 等世界知名公司根 據(jù)其實(shí)際經(jīng)驗(yàn)與理論基礎(chǔ)共同設(shè)計(jì)的數(shù)據(jù)挖掘流程。該流程如圖2 - 1 所示 中南人學(xué)碩 :論文 第二章數(shù)據(jù)挖掘算法以:信用卡消費(fèi)數(shù)據(jù)中的研究 圖2 - 1c r i s p d m 方法 從圖2 一l 中可以看到,一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生命周期包括六個(gè)階段,包括 商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評估、模型發(fā)布,各個(gè)階段 的順序不是僵硬不變的,通常需要在不同的階段之問向- 自i i , u 向后移動,這取決 于每個(gè)階段的結(jié)果和接下來將要實(shí)施的階段或者一個(gè)階段的具體任務(wù)。箭頭指 出了各個(gè)階段間最為重要和頻繁的關(guān)聯(lián)。c r i s p d m 通過這六個(gè)階段來保證完成 一個(gè)成功的數(shù)據(jù)挖掘流程。最外層的循環(huán)表示數(shù)據(jù)挖掘本身的循環(huán)特征。數(shù)據(jù) 挖掘并非是一旦得到一個(gè)解決方案就結(jié)束了。在流程和解決方案中得到的教訓(xùn) 可能引發(fā)新的、常常是更為集中的商業(yè)問題。每個(gè)階段的要點(diǎn)如下: 1 、商業(yè)理解( b u s s i n e s su n d e r s t a n d i n g ) :這一階段集中在從商業(yè)角度理解 項(xiàng)目的目標(biāo)和要求,然后把理解轉(zhuǎn)化為數(shù)據(jù)挖掘問題,并制定出一個(gè)旨在實(shí)現(xiàn) 的初步計(jì)劃: 2 、數(shù)據(jù)理解( d a t au n d e r s t a n d in g ) :數(shù)據(jù)理解階段開始于原始數(shù)據(jù)的搜集, 接下來的活動是熟悉數(shù)據(jù)、諺 別數(shù)據(jù)質(zhì)鼉問題、探索對數(shù)據(jù)的第一認(rèn)識,或挖 掘有深層含義的數(shù)據(jù)子集來形成對隱藏信息的假設(shè)。 3 、數(shù)據(jù)準(zhǔn)備( d a t ap r e p a r a t i o n ) :數(shù)據(jù)準(zhǔn)備階段包括所有從原始數(shù)據(jù)未加 工的數(shù)據(jù)構(gòu)造最終數(shù)據(jù)集的活動( 這些數(shù)據(jù)集足指將要嵌入建模工具中的數(shù) 據(jù)) 。其任務(wù)包括表格、記錄和屬性選擇以及對建模工具中數(shù)據(jù)的轉(zhuǎn)換和清理。 4 、建立模型( m o d e l i n g ) :該階段主要是選擇各種建模技術(shù),同時(shí)對他們的參 數(shù)進(jìn)行校準(zhǔn)以達(dá)到最優(yōu)值。通常對于同一個(gè)數(shù)據(jù)挖掘問題類型,會有多種方法, 一些方法在數(shù)據(jù)形式上會有具體的要求。因此常常必須返回到數(shù)據(jù)準(zhǔn)備階段。 5 、模型評估( e v a l u a t i o n ) :其作用足徹底地評估模型和建立模型的各個(gè)步 驟,從而確定它完全地達(dá)到了商業(yè)同標(biāo)。一個(gè)關(guān)鍵目標(biāo)為決定是否存在一些重 要的商業(yè)問題仍未得到充分地考慮。 6 、模型發(fā)布( d e p l o y m e n t ) :根掘需要,發(fā)布過程可以簡單到產(chǎn)生一個(gè)報(bào)告, 6 中南人學(xué)碩十論文第二章數(shù)據(jù)挖掘算法在信用卡消費(fèi)數(shù)據(jù)中的研究 也可以復(fù)雜到整個(gè)企業(yè)中執(zhí)行一個(gè)可重復(fù)的數(shù)據(jù)挖掘過程。即組織并以一種客 戶能夠使用的方式呈現(xiàn)。 在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對象是整個(gè)過程的基礎(chǔ),它驅(qū)動了整個(gè)數(shù)據(jù)挖 掘過程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問。數(shù)據(jù) 挖掘的過程并不是自動的,絕大多數(shù)的工作需要人工完成,且數(shù)據(jù)挖掘4 5 的 時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán)格要求,而后挖掘工作僅 占總工作量的1 5 。( 見圖2 2 ) 商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘模型評估結(jié)果公布 圖2 - 2 數(shù)據(jù)挖掘的每個(gè)過程花費(fèi)時(shí)間和重要性比較 數(shù)據(jù)挖掘或知識發(fā)現(xiàn)( k d d ) 是c r i s p - d m 中最重要的細(xì)節(jié)工作,他的整體 過程可用圖2 3 描述: 圖2 - 3 數(shù)據(jù)挖掘全過程 7 中南人學(xué)碩i :論文第二章數(shù)據(jù)挖掘算法住信用卡消費(fèi)數(shù)據(jù)中的研究 如圖2 3 所示,整個(gè)知識發(fā)現(xiàn)( k d d ) 過程是由若干挖掘步驟組成,而數(shù)據(jù)挖 掘僅是其中的一個(gè)主要步驟。整個(gè)知識挖掘的主要步驟有: 數(shù)據(jù)清洗( d a t ac l e a n i n g ) ,其作用就是清除數(shù)據(jù)噪聲和與挖掘主題明顯無 關(guān)的數(shù)據(jù): 數(shù)據(jù)集成( d a t ai n t e g r a t i o n ) ,其作用就是將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組 合到一起: 數(shù)據(jù)轉(zhuǎn)換( d a t at r a n s f o r m a t i o n ) ,其作用就足將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù) 挖掘的數(shù)據(jù)存儲形式: 數(shù)據(jù)挖掘( d a t am i n i n g ) ,它是知識挖掘的一個(gè)基本步驟,其作用就是利用 智能方法挖掘數(shù)據(jù)模式或規(guī)律知識: 模式評估( p a t t e r n e v a l u a ti o n ) ,其作用就是根據(jù)一定評估標(biāo)準(zhǔn) ( i n t e r e s t i n gm e a s u r e s ) 從挖掘結(jié)果篩選出有意義的模式知識: 知識表示( k n o w l e d g ep r e s e n t a t i o n ) ,其作用就是利用可視化和知識表達(dá)技 術(shù),向用戶展示所挖掘出的相關(guān)知識。 盡管數(shù)據(jù)挖掘僅僅足整個(gè)知識挖掘過程中的一個(gè)重要步驟,但由于目前工業(yè) 界、媒體、數(shù)據(jù)庫研究領(lǐng)域中,“數(shù)據(jù)挖掘”一詞已被廣泛使用并被普遍接受, 因此本論文中也廣義地使用“數(shù)據(jù)挖掘”一詞來表示整個(gè)知識挖掘過程,即數(shù) 據(jù)挖掘就是從數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息資源庫的大量數(shù)據(jù)中發(fā)掘出有趣的 知識。 如圖2 3 所示,知識發(fā)現(xiàn)的全過程得依靠可視化挖掘系統(tǒng),圖2 - 4 就是一 個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu): 主要包括以下部分: 數(shù) 圖2 - 4 數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu) 8 中南人學(xué)碩十論文 第二章數(shù)據(jù)挖掘算法4 :信用 消費(fèi)數(shù)據(jù)中的研究 數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫庫,它表示數(shù)據(jù)挖掘?qū)検怯梢粋€(gè)( 或組) 數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)表單或其它信息數(shù)據(jù)庫組成。通常需要使用數(shù)據(jù)清洗 和數(shù)據(jù)集成操作,對這些數(shù)據(jù)對象進(jìn)行初步的處理: 數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器器,這類服務(wù)器負(fù)責(zé)根據(jù)用戶的數(shù)據(jù)挖掘請求, 讀取相關(guān)的數(shù)據(jù): 知識庫,此處存放數(shù)據(jù)挖掘所需要的領(lǐng)域知識,這些知識將用于指導(dǎo)數(shù)據(jù)挖 掘的搜索過程,或者用于幫助對挖掘結(jié)果的評估。挖掘算法中所使用的用戶定 義的閾值就是最簡單的領(lǐng)域知識: 數(shù)據(jù)挖掘引擎,這是數(shù)據(jù)挖掘系統(tǒng)的最基本部件,它通常包含一組挖掘功 能模塊,以便完成定性歸納、關(guān)聯(lián)分析、分類歸納、進(jìn)化計(jì)算和偏差分析等挖 掘功能: 模式評估模塊,該模塊可根據(jù)趣味標(biāo)準(zhǔn)( i n t e r e s t i n g n e s sm e a s u r e s ) ,協(xié) 助數(shù)據(jù)挖掘模塊聚焦挖掘更有意義的模式知識。當(dāng)然該模塊能否與數(shù)據(jù)挖掘模 塊有機(jī)結(jié)合,與數(shù)據(jù)挖掘模塊所使用的具體挖掘算法有關(guān)。顯然若數(shù)據(jù)挖掘算 法能夠與知識評估方法有機(jī)結(jié)合將有助提高其數(shù)據(jù)挖掘的效率; 可視化用戶界面,該模塊幫助用戶與數(shù)據(jù)挖掘系統(tǒng)本身進(jìn)行溝通交流。一方 面用戶通過該模塊將自己的挖掘要求或任務(wù)提交給挖掘系統(tǒng),以及提供挖掘搜 索所需要的相關(guān)知識:另一方面系統(tǒng)通過該模塊向用戶展示或解釋數(shù)據(jù)挖掘的 結(jié)果或中間結(jié)果:此外該模塊也可以幫助用戶瀏覽數(shù)據(jù)對象內(nèi)容與數(shù)據(jù)定義模 式、評估所挖掘出的模式知識,以及以多種形式展示挖掘出的模式知識。 2 。3 數(shù)據(jù)挖掘算法研究 隨著數(shù)據(jù)挖掘技術(shù)的不斷向前發(fā)展,新的更加高效的算法的不斷出現(xiàn)?,F(xiàn) 有一些業(yè)務(wù)中,由于算法的固有缺陷而影響數(shù)據(jù)挖掘效果的問題顯得尤為突出。 因此,如何改進(jìn)現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)中的算法,發(fā)現(xiàn)并應(yīng)用新算法將足我們無法 回避的一個(gè)現(xiàn)實(shí)問題。 在已有的算法中,關(guān)聯(lián)規(guī)則算法和決策樹算法在信用卡數(shù)據(jù)研究中占有十 分重要的地位。其中關(guān)聯(lián)規(guī)則算法在信用卡市場營銷中有著十分重要的地位, 關(guān)聯(lián)規(guī)則挖掘算法是信用卡市場營銷中應(yīng)用最廣泛的挖掘算法,利用關(guān)聯(lián)規(guī)則 可以很好為信用卡中客戶保留、客戶拓展、升級服務(wù)、活動分析、銷售預(yù)測和 風(fēng)險(xiǎn)預(yù)警等主要業(yè)務(wù)建立實(shí)用性極強(qiáng)的預(yù)測模型:而決策樹算法則在信用卡客 ,、細(xì)分、客戶信用評分等業(yè)務(wù)中起著舉足輕重的地位。 由于信用卡市場營銷的主要業(yè)務(wù)都涉及到了數(shù)據(jù)挖掘中的天聯(lián)規(guī)則算法, 所以本文基于實(shí)用性的目的,研究、分析了廣泛應(yīng)用于信用卡市場營銷挖掘系 9 中南人學(xué)壩一j :論文第二章數(shù)據(jù)挖掘算法柏:信用卡消費(fèi)數(shù)據(jù)中的研究 統(tǒng)中的關(guān)聯(lián)規(guī)則算法a p r i o r i ,n 1 并針對其需要產(chǎn)生大量候選集而可能需要多 次掃描很大的交易數(shù)據(jù)庫,需要很大的i o 負(fù)載的固有缺陷而采用了不產(chǎn)生候 選集的f p算法。實(shí)驗(yàn)證明算法相對于算法具有:不_growth f pg r o w t h a p r i o r i 產(chǎn)生候選集、運(yùn)行速度快和掃描數(shù)據(jù)庫次數(shù)少等優(yōu)點(diǎn)。 數(shù)據(jù)挖掘有很多算法,包括分類、聚類、關(guān)聯(lián)、決策樹、神經(jīng)網(wǎng)絡(luò)等算法。 本文只對論文要應(yīng)用的關(guān)聯(lián)規(guī)則、決策樹算法和聚類k - m e a n s t 算法做比較詳細(xì) 的介紹。 2 3 1 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)艦則是形式如下的一種規(guī)則,“在購買面包和黃油的顧客中,有9 0 的 人同時(shí)也買了牛奶”:( 面包十黃油) 一( 牛奶) 1 。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對象 足事務(wù)型數(shù)據(jù)庫,其中針對的應(yīng)用主要是售貨數(shù)據(jù),也稱貨籃數(shù)據(jù)。一個(gè)事務(wù) 一般卜h 如下幾個(gè)部分組成:事務(wù)處理時(shí)間,一組顧客購買的物品,還有顧客標(biāo)識 號( 如信用卡號) 。 設(shè)集合i = i1 ,i 2 ,i k ) 是k 個(gè)不同項(xiàng)目組成的集合,給定一個(gè)事務(wù) 數(shù)據(jù)庫d ,其中的每個(gè)事務(wù)t 是i 中一組項(xiàng)目的集合,即tci ,t 有唯一 的標(biāo)識t i d 。若項(xiàng)集x i ,且x c t ,則事務(wù)集t 包含項(xiàng)集x 。條關(guān)聯(lián)規(guī)則 就是形如x = y 的蘊(yùn)涵式,其中x i ,y i ,并且x n y = 。關(guān)聯(lián)規(guī)則x y 成立的條件是:( 1 ) 它具有支持度s u p p ,即事務(wù)數(shù)據(jù)庫d 中至少有s u p p 的 事務(wù)包含x uy :( 2 ) 它具有置信度c o n f ,即事務(wù)數(shù)據(jù)庫d 中包含x 的事務(wù) 至少有c o n f 同時(shí)也包含y 。關(guān)聯(lián)規(guī)則挖掘問題就是發(fā)現(xiàn)具有用戶指定的最小 支持度m i n s u p 和最小置信度m i n c o n f 的關(guān)聯(lián)規(guī)則嵋1 。該問題可以分解為兩個(gè) 子問題:( 1 ) 求出d 中滿足最小支持度m i n s u p 的所有項(xiàng)目集;( 2 ) 檢測滿足最 小支持度的項(xiàng)目集是否滿足最小置信度m in c o n f ,并生成對應(yīng)的關(guān)聯(lián)規(guī)則。 評估關(guān)聯(lián)規(guī)則的四個(gè)重要指標(biāo)是: ( 1 ) 支持度( s u p p o r t ) 瞄1 規(guī)則x 專y 在交易數(shù)據(jù)庫d 中的支持度( ( s u p p o r t ) 是 交易集中包含x 和y 的交易數(shù)與所有交易數(shù)之比,記為s u p p o r t ( x y ) ,即 s u p p o r t ( x y ) = f t :x u y t ,t d jf d f 。 ( 2 ) 可信度( c o n f i d e n c e ) :規(guī)則x 專y 在交易集中的可信度( c o n f i d e n c e ) 是 指包含x 和y 的交易數(shù)與包含x 的交易數(shù)之比,記為c o n f i d e n c e ( x _ y ) ,即 c o n f i d e n c e ( x = ,y ) = l t :x u y c t ,r e d i l t :x c t ,t n ) l 。 ( 3 ) 期望可信度( e x p e c t e dc o n f i d e n c e ) 呻1 :描述了在沒有物品集x 的作用下, 物品集y 本身的支持度,記為e c o n f i d e n c e ( y ) ,即e c o n f i d e n c e ( y ) = l t :y t , t d ) l idl 。 l o 中南人學(xué)碩i j 論文第二章數(shù)據(jù)挖掘算法在信用卡消費(fèi)數(shù)據(jù)中的研究 ( 4 ) 作用度( ( 1 i f t ) :作用度足可信度對期望可信度的比值。描述了物品集x 對物品集y 的影響力的大小。記為l i f t( x 專y ) ,即l if t ( x 專y ) = c o n f i d e n c e ( x 專y ) e c o n f i d e n c e ( y ) 。作用度越大,說明物品集y 受 物品集x 的影響越大。一股情況,有用的關(guān)聯(lián)規(guī)則的作用度都應(yīng)該大于l ,只 有關(guān)聯(lián)規(guī)則的可信度大于期望可信度,才說明x 的出現(xiàn)對y 的出現(xiàn)有促進(jìn)作用, 也說明了它們之問某種程度的相關(guān)性,如果作用度不大于1 ,此關(guān)聯(lián)規(guī)則也就 沒有意義了。 如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度、作用度,那么在事務(wù)數(shù)據(jù)庫中就 會存在無窮多的關(guān)聯(lián)規(guī)則。事實(shí)上,人們一般只對滿足一定的支持度、可信度 和作用度的關(guān)聯(lián)規(guī)則感興趣。在文獻(xiàn)中,一般稱滿足一定要求的( 如較大的支持 度和可信度) 的規(guī)則為強(qiáng)規(guī)則。因此,為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定 兩個(gè)閾值:最小支持度和最小可信度。前者即用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最 小支持度,它表示了一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度:后者即用戶 規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小可信度,它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。 在實(shí)際情況下,一種更有用的關(guān)聯(lián)規(guī)則是泛化關(guān)聯(lián)規(guī)則。因?yàn)槲锲犯拍铋g 存在一種層次關(guān)系,如夾克衫、滑雪衫屬于外套類,外套、襯衣又屬于衣服類。 有了層次關(guān)系后,可以幫助發(fā)現(xiàn)一些更多的有意義的規(guī)則。例如“買外套買鞋 子”( 此處,外套和鞋子是較高層次上的物品或概念,因而該規(guī)則是一種泛化的 關(guān)聯(lián)規(guī)則) 。由于商店或超市中有成千上萬種物品,平均來講,每種物品( 如滑 雪衫) 的支持度很低,因此有時(shí)難以發(fā)現(xiàn)有用規(guī)則,o 但如果考慮到較高層次的物 品( 如外套) ,則其支持度就較高,從而可能發(fā)現(xiàn)有用的艦則。 另外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時(shí), 除了具有上述關(guān)聯(lián)規(guī)律,還有時(shí)問上或序列上的艦律,因?yàn)?,很多時(shí)候顧客會 這次買這些東西,下次買同上次有關(guān)的一些東西,接著又買有關(guān)的某些東西。 2 。3 1 1 關(guān)聯(lián)規(guī)則的a p r i o r i 算法 a p r i o r i 算法的基本思想是重復(fù)掃描數(shù)據(jù)庫,在第k 次掃描時(shí)產(chǎn)生出長度為 k 的大項(xiàng)集l k ,而在第k + 1 次掃描時(shí),只考慮山l k 中的k 項(xiàng)集產(chǎn)生長度為k + i 的候選集c k + j :由于a p r i o r i 算法比早期算法能夠產(chǎn)生更小的候選項(xiàng)目集,因而 使關(guān)聯(lián)規(guī)則的挖掘效率得到了大幅提高。 關(guān)聯(lián)規(guī)則最主要的算法是a p r i o r i 算法吲。具體算法如下: l 1 = l a r g e1 一i t e m s e t s ; f o r ( k = 2 ;l k - 1 ;k + + ) d ob e g i n c k = a p r i o r i - g e n ( l k 一1 ) ; a p r i o r i - g e n 函數(shù)見f 面; 中南人學(xué)碩l :論文第二二章數(shù)據(jù)挖掘算法4 i 信用卡消費(fèi)數(shù)據(jù)中的研究 f o ra l lt r a n s a c t i o n st dd ob e g i n c t = s u b s e t ( c k ,t ) ;c a n d i d a t e sc o n t a i n e d i nt f o ra l lc a n d i d a t e sc c td o c c o u n t + + : e n d l k 3 c c k l c c o u n t m i n s u p e n d a n s w e r = ukl k ; a p r i o r i g e n 函數(shù)以l k 1 ( 所有大( k 一1 ) 一項(xiàng)集) 作為輸入?yún)?shù),返回所有大 k 項(xiàng)集的集合l k ,以如下的兩步實(shí)現(xiàn): 第一步,聯(lián)合 i n s e r ti n t oc k s e l e c tp i t e m l ,p i t e m 2 ,p i t e m k l ,q i t e m k 一1 f r o ml k i p ,l k l q w h e r ep i t e m1 = q i t e ml ,p i t e m k 一2 = q i t e m k - 2 ,p i t e m k l ) 2 3 1 8a p rio ri 算法與f p g r o w t h 算法在信用卡消費(fèi)數(shù)據(jù)分析中的比較 表2 3 是一個(gè)從信用卡數(shù)據(jù)倉庫中抽取的數(shù)據(jù)樣本的符號集,每一條記錄 是一個(gè)信用卡事務(wù),包含五個(gè)維度屬性( t s 表示交易金額,t d 表示交易n 期, c i d 表示客戶編號,t n 表示交易筆數(shù),c a r d l d 表示卡號。) 和一個(gè)度量屬性 ( t a r g e t i d 表示交易對象) ,本文將以其作為事務(wù)數(shù)據(jù)庫,通過編程實(shí)現(xiàn)a p r i o r i 算法和f p _ g r o w t h 算法,然后在相同環(huán)境下根據(jù)程序運(yùn)行結(jié)果,對影響數(shù)據(jù)挖 掘性能的幾個(gè)指標(biāo)作比較,比較a p r i o r i 算法和f p g r o w t h 算法優(yōu)劣。值得說 明的是,能得出規(guī)律性結(jié)論的數(shù)挖掘過程的分析對象應(yīng)該是具有大黽數(shù)據(jù)的數(shù) 據(jù)倉庫,但是,由于我們只對兩個(gè)算法在運(yùn)行時(shí)間、掃描數(shù)據(jù)庫次數(shù)和消耗內(nèi) 存量等幾個(gè)衡量算法性能的最重要方面進(jìn)行對比和研究,很少涉及到關(guān)聯(lián)規(guī)則 的可用性。因此,三十條數(shù)據(jù)已經(jīng)足夠說明問題。 表2 - 3 樣本數(shù)據(jù) ;tidt dt sc i dt nca = r d l dt a r g e ti d 1m 61 1p 0t 4e 4r 1 2m 11 1p 1t 4e 0r 0 3m 11 1p 1t 4e 3r o 4冊7 1 1p 2t 0e 3r 1 5m 6 i lp 2t 4e 4r 2 6m 71 1 p 0t 4e 3r 3 7m 1i lp 1t 4e 3r o 8m 11 1p 3t 3e 0r 3 9m 61 1p 3t 4e 4r 3 1 0弧1 1 1p 1t 4e 3r 1 1 1m 7 1 1 p 0t 4 e 3r 3 1 2m 11 2p 0t 2e 4 r 3 1 3m 11 1p 1t 4e 0r 0 1 4雎11 1p 0t 3e lr 0 1 5m 1 1 2p 3t 2e 3r 0 1 67t 1p 0t 4e 3r 3 1 7m 11 2p 3t 2e 0r 0 1 8m 31 2p 0t 2e 4r 4 1 9難7 1 2p 2t 4e 3r 1 2 01 1 1 1 1 2p 1t 2e 3r 0 2 l皿71 1 p 0t 4e 3 r 3 2 211 2p 3t 2e 3r 0 2 3瓶11 2p 0t 1e 4r 3 1 4 中南大學(xué)碩十論文 第二章數(shù)據(jù)挖掘算法在信用磚消費(fèi)數(shù)據(jù)中的研究 通過實(shí)際的程序運(yùn)行,在設(shè)置最小支持度閾值亭= 3 的相同條件下,a p r i o r i 和f p _ g r o w t h 算法都挖掘出1 2 0 個(gè)頻繁模式,為篇幅所限制,表2 4 列出了其 中的2 0 條頻繁項(xiàng)集。其中a p r i o r i 算法的時(shí)間復(fù)雜度為0 r 1 3 ,執(zhí)行時(shí)間是o 5 秒,a p r i o r i 產(chǎn)生了大量的中間侯選集,并占用了大量內(nèi)存,掃描數(shù)據(jù)庫的次 數(shù)為1 8 次:f p _ g r o w t h 算法的時(shí)間復(fù)雜度為0 n 2 。不產(chǎn)生大量的中間候選集, 占有內(nèi)存量少,整個(gè)頻繁項(xiàng)集合的產(chǎn)生用時(shí)0 0 1 5 秒,訪問掃描數(shù)據(jù)次數(shù)為6 次。通過實(shí)際的比較我們發(fā)現(xiàn)在相同條件下,a p r i o r i 算法和f p _ g r o w t h 算法 挖掘出了相同數(shù)量的頻繁項(xiàng)集。但是,a p r i o r i 算法相對于f p _ g r o w t h 算法的 卻存在著產(chǎn)生候選集消耗大量內(nèi)存,過多掃描數(shù)據(jù)庫,運(yùn)行時(shí)間長等缺點(diǎn)。因 此,在實(shí)際的應(yīng)用中,更加高效率,消耗資源更小的f p 算法將是我們_growth 更好的選擇。 表2 - 4 規(guī)則表 規(guī)則支持度 1 2 e 4 p o4 1 1e 4 t 43 1 1e 4 m 63 碓6t 4 e 43 1 1 弧6t 4e 43 1 2 p 0 e 34 1 1e 3 t 46 1 1e 3r 13 1 1e 3 m 75 m 7 e 3 p o3 m 7 e 3 t 45 1 1 孤7e 3 t 4 5 1 1p l e 33 1 2 t 2 e 33 p o r 3 e 33 m 7 r 3 e 3 4 1 1r 0 e o4 1 2 p 3 e o3 1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論