數(shù)據(jù)挖掘概述_第1頁
數(shù)據(jù)挖掘概述_第2頁
數(shù)據(jù)挖掘概述_第3頁
數(shù)據(jù)挖掘概述_第4頁
數(shù)據(jù)挖掘概述_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘概述

now1

賈曉謙服務即產(chǎn)品品質(zhì)是生命

2003.8.20

?概念及發(fā)展背景

?數(shù)據(jù)挖掘項目實施過程

典型應用舉例

?:?未來發(fā)展及挑戰(zhàn)

?數(shù)據(jù)挖掘系統(tǒng)的選擇

。Q&A

概念定義

什么是數(shù)據(jù)挖掘?

—簡單的說,就是從大量數(shù)據(jù)中自動提取知識信息。

兩個要點:

---自動的

---知識信息,模式或規(guī)則

暗示了將使用統(tǒng)計學方法

數(shù)據(jù)挖掘的意義在于前瞻性,而不是對歷史的簡單回顧。

數(shù)據(jù)挖掘不是…

。數(shù)據(jù)挖掘不是

-----Datawarehousing

-----SQL/AdHocQueries/Reporting

-----OnlineAnalyticalProcessing(OLAP)

-----DataVisualization

。數(shù)據(jù)挖掘是對數(shù)據(jù)的深度加工

什么激發(fā)了數(shù)據(jù)挖掘

此三項技術(shù)促進了數(shù)據(jù)挖掘理論與實踐的大發(fā)展

數(shù)據(jù)的積累

報表太

多!暈

cP

O

能自動

發(fā)現(xiàn)模---------

NX

式嗎?,NN3

____

?:?年齡在25—30之間,男性IT工程師買XXX保險的可能性為35%)

計算能力的增強

?硬件資源

—過去30年,計算機硬件穩(wěn)步發(fā)展

—處理器達到了振奮人心的速度

—大容量存儲設備的問世為數(shù)據(jù)收集提供可能

軟件資源

—特別是并行處理系統(tǒng)的發(fā)展,使計算機有能力處理更復雜的任務

統(tǒng)計分析算法的應用

?決策樹

.分類

?神經(jīng)元網(wǎng)絡方法

?規(guī)則歸納

.

?聚類

.

i技術(shù)分類

數(shù)據(jù)挖掘

描述類

>聚類

關(guān)聯(lián)規(guī)則

」時間序列

應用領域

金融行業(yè)

—貸款償還預測和客戶信用度分析

—目標客戶群的識別,分類與聚類

—險種關(guān)聯(lián)分析,預測購買了某個險種的客戶是否會買另一種保險

電信行業(yè)

---流失客戶分析

—盜用模式分析和異常模式識別

---通話量時間序列分析

零售業(yè)

—產(chǎn)品相關(guān)性分析

---客戶忠誠度分析

生物醫(yī)學

—DNA序列間相似搜索和比較

概念及發(fā)展背景

?數(shù)據(jù)挖掘項目實施過程

?典型應用舉例

?:?未來發(fā)展及挑戰(zhàn)

?數(shù)據(jù)挖掘系統(tǒng)的選擇

。Q&A

數(shù)據(jù)挖掘方法論

。CRISP-DM

----Cross-IndustryStandardProcessForDataMining

—當今流行的數(shù)據(jù)挖掘流程標準之一

---由SPSS、NCR、Daimler-Benz制定

數(shù)據(jù)挖掘方法論

?商業(yè)理解

?數(shù)據(jù)理解

?數(shù)據(jù)準備

?建立模型

?總體評估

?模型發(fā)布

商業(yè)理解

?商業(yè)理解

■確定業(yè)務目標

?資源評估

-確定數(shù)據(jù)挖掘目標

-制定數(shù)據(jù)挖掘項目計劃

數(shù)據(jù)理解

數(shù)據(jù)理解

-收集初始數(shù)據(jù)

-描述數(shù)據(jù)

-分析數(shù)據(jù)

-檢查數(shù)據(jù)質(zhì)量

數(shù)據(jù)準備

數(shù)據(jù)準備

-選擇數(shù)據(jù)

■清洗數(shù)據(jù)

■構(gòu)建數(shù)據(jù)結(jié)構(gòu)

-集成數(shù)據(jù)

-規(guī)范化數(shù)據(jù)

建立模型

建立模型

■選擇模型技術(shù)

■設計實驗

-建立模型

-訪問模型

模型評估

模型評估

-評估數(shù)據(jù)挖掘結(jié)果

■處理過程回顧

-制訂下一步的計劃,如何改進

模型發(fā)布

模型發(fā)布

■制訂發(fā)布計劃

■制訂監(jiān)控和維護策略

-產(chǎn)生最終報告

■項目回顧

概念及發(fā)展背景

?數(shù)據(jù)挖掘項目實施過程

?典型應用舉例

?未來發(fā)展及挑戰(zhàn)

?數(shù)據(jù)挖掘系統(tǒng)的選擇

。Q&A

應用舉例-決策樹

?案例描述:

-某超市對會員實行卡式管理,分為金卡、銀卡、銅卡、普通卡

■持有不同卡的客戶應該得到不同的服務

-金卡客戶應該提供什么服務?需要找出金卡客戶的人群特征

-一個新登記的客戶成為金卡客戶的可能性有多大?服務上要有體現(xiàn)

?研究方法:

-以決策樹作為挖掘工具來尋找持卡客戶的人群特征

-選取年收入、婚姻狀況、家庭子女數(shù)作為培訓數(shù)據(jù)

-選取會員卡屬性作為被預測實體

應用舉例-決策樹

金卡銅卡

(73.66%)(81.86%)

下頁

、年收入上的信息增益

31、計算成員卡分

最大,所以作為根類所需的數(shù)學

節(jié)點,依次類推

期望=0.94

家庭子女數(shù)

=0.048

形成樹

性別=0.029

相關(guān)性網(wǎng)絡瀏覽器-test,|g|x|

&|0|Xl%I觸I

MaritalStatus

MemberCardTotalChildren

YearlyIncome

請選擇網(wǎng)絡中的節(jié)點以突出顯示其相關(guān)性

關(guān)閉I幫助(H)

16:17

應用舉例—聚類

案例描述:

-某超市定期給會員發(fā)送促銷雜志,效果不好。原因是對所有會員都發(fā)放

同樣的雜志,而促銷的廣告內(nèi)容只能適合某一部分人,眾口難調(diào);

■市場部門打算對所有會員客戶進行一下分類,針對不同的人群發(fā)放不同

內(nèi)容的雜志。

研究方法:

?以聚類作為挖掘方法來對客戶群進行細分;

?選取會員的自然屬性年收入、婚姻狀況、家庭子女數(shù)、教育程度作為培

訓數(shù)據(jù);

-選取銷售額作為劃分自然屬性的度量值;

-預先設置的聚類數(shù)為3,既打算把所有會員客戶分成3類。

應用舉例-關(guān)聯(lián)分析

?案例描述:

-為了分析商品之間的聯(lián)系,選取10000筆交易作為研究對象。統(tǒng)計發(fā)現(xiàn)

有6000筆包含產(chǎn)品A,7500筆包含產(chǎn)品B,而有4000筆同時包括A、B

兩產(chǎn)品。

研究方法:

■以關(guān)聯(lián)規(guī)則作為分析方法來研究A和B之間關(guān)系;

-支持度:表示規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小閥值;

-可信度:表示關(guān)聯(lián)規(guī)則成立的最小可信程度。

應用舉例-關(guān)聯(lián)分析

?:?研究結(jié)果:

-支持度(Support)=(同時購買A和B的交易數(shù))/交易總數(shù)

=4000/10000

=40%

-可信度(Confidence)=(同時購買A和B的交易數(shù))/購買了A的交易數(shù)

=4000/6000

=66%

-結(jié)論:購買A產(chǎn)品的顧客有同時買B產(chǎn)品的可能

(Support=40%,Confidence=66%)。

概念及發(fā)展背景

數(shù)據(jù)挖掘項目實施過程

?典型應用舉例

?未來發(fā)展及挑戰(zhàn)

?數(shù)據(jù)挖掘系統(tǒng)的選擇

。Q&A

應用狀態(tài)

數(shù)據(jù)挖掘是一種技術(shù),和其他的技術(shù)一樣也需要時間和精力來研究、開發(fā),

最終逐步成熟。整個生命周期應包含下列幾個階段:

創(chuàng)

接/

數(shù)

數(shù)

應用狀態(tài)

目前已經(jīng)有許多通用的數(shù)據(jù)挖掘系統(tǒng),但都是給那些非常熟悉數(shù)據(jù)挖掘和

數(shù)據(jù)分析技術(shù)的專家設計的,這就是使得系統(tǒng)很難被企業(yè)經(jīng)理或普通百姓

使用。

目前的數(shù)據(jù)挖掘系統(tǒng)趨向于適合各種商業(yè)應用的橫向解決方案,而不是針

對某個特定商業(yè)應用的解決方案。這不能體現(xiàn)商業(yè)邏輯與數(shù)據(jù)挖掘功能的

平滑集成,不要期望通用的數(shù)據(jù)挖掘系統(tǒng)會象與領域無關(guān)的關(guān)系數(shù)據(jù)庫那

樣取得成功。

也有一些好的跡象,例如保險企業(yè)收益率分析等縱向解決方案的出現(xiàn),會

為數(shù)據(jù)挖掘提供一個好的發(fā)展方向。/

主要挑戰(zhàn)

為了使數(shù)據(jù)挖掘成為一種被廣泛接受的技術(shù),必須對下列內(nèi)容做進一步研

究和開發(fā)

—數(shù)據(jù)挖掘查詢語言的標準化

DMQL(DataMiningQueryLanguage)

—增加與用戶的交互,聯(lián)機挖掘

—背景知識與可視化技術(shù)的結(jié)合

—有效性和可伸縮性,不能停留在玩具階段

—應付復雜數(shù)據(jù)類型,如聚類中量剛處理,序列值處理等

—文本挖掘,漢語語料庫的完善、分詞技術(shù)的進一步提高

概念及發(fā)展背景

數(shù)據(jù)挖掘項目實施過程

?:?典型應用舉例

#未來發(fā)展及挑戰(zhàn)

?數(shù)據(jù)挖掘系統(tǒng)的選擇2

。Q&A

如何選擇數(shù)據(jù)挖掘系統(tǒng)

功能和方法

—有些系統(tǒng)只提供一兩種數(shù)據(jù)挖掘功能,而有些支持多種挖掘功能。

—有些系統(tǒng)只給出某一挖掘功能的一種方法,而有些則提供多種方法。

?與數(shù)據(jù)庫或數(shù)據(jù)倉庫的結(jié)合

—無偶合。只操作ASCII數(shù)據(jù)文件。

—松散偶合。數(shù)據(jù)首先被返回到緩沖區(qū)或主存,然后利用挖掘功能分析,

這樣的系統(tǒng)可伸縮性不好。

—半松偶合。只對少數(shù)幾個數(shù)據(jù)挖掘原語(排序、聚合、多路聯(lián)接)提

供了有效的實現(xiàn)。

—緊密偶合。最理想的方式,即把數(shù)據(jù)挖掘查詢優(yōu)化成循環(huán)的數(shù)據(jù)挖掘

和檢索過程,在數(shù)據(jù)庫端實現(xiàn)。

如何選擇數(shù)據(jù)挖掘系統(tǒng)

可伸縮性

—數(shù)據(jù)挖掘有兩種伸縮性問題,行(記錄)可伸縮性和列(維)可伸縮。

—行擴大10倍,而執(zhí)行時間不超過原來的10倍,則系統(tǒng)在行上可伸縮。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論