數(shù)據(jù)挖掘基礎(chǔ)知識(shí)_第1頁(yè)
數(shù)據(jù)挖掘基礎(chǔ)知識(shí)_第2頁(yè)
數(shù)據(jù)挖掘基礎(chǔ)知識(shí)_第3頁(yè)
數(shù)據(jù)挖掘基礎(chǔ)知識(shí)_第4頁(yè)
數(shù)據(jù)挖掘基礎(chǔ)知識(shí)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘基礎(chǔ)知識(shí)11數(shù)據(jù)挖掘的社會(huì)需求現(xiàn)實(shí)情況:人類積累的數(shù)據(jù)量以每月高于15%的速度增加,如果不借助強(qiáng)有力的挖掘工具,僅依靠人的能力來(lái)理解這些數(shù)據(jù)是不可能的?,F(xiàn)在人們已經(jīng)評(píng)估出世界上信息的數(shù)量每二十個(gè)月翻一番,并且數(shù)據(jù)庫(kù)的數(shù)量與大小正在以更快的速度增長(zhǎng)。11數(shù)據(jù)挖掘的社會(huì)需求 著名的“啤酒尿布”案例:美國(guó)加州某個(gè)超級(jí)賣場(chǎng)通過數(shù)據(jù)挖掘發(fā)現(xiàn),下班后前來(lái)購(gòu)買嬰兒尿布的男顧客大都購(gòu)買啤酒。于是經(jīng)理當(dāng)機(jī)立斷,重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在二者之間放置佐酒食品,同時(shí)還把男士日常用品就近布置。這樣,上述幾種商品的銷量大增。1.2 數(shù)據(jù)挖掘的定義技術(shù)定義 數(shù)據(jù)挖掘(Data Mini

2、ng)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。1.2 數(shù)據(jù)挖掘的定義技術(shù)定義數(shù)據(jù)挖掘和信息檢索: 信息檢索和數(shù)據(jù)挖掘的相同點(diǎn)是從檔案文件或數(shù)據(jù)庫(kù)中抽取感興趣的數(shù)據(jù)和信息。區(qū)別在于數(shù)據(jù)檢索對(duì)信息的抽取規(guī)則是事先定義好的,抽取的是外在信息。據(jù)挖掘于挖掘?qū)ふ椰F(xiàn)象之間事先未知的關(guān)系和關(guān)聯(lián) 。1.2數(shù)據(jù)挖掘的定義商業(yè)定義 按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取隱含在其中的有用信息和知識(shí)的過程。它可以

3、幫助企業(yè)對(duì)數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,從而利用已有數(shù)據(jù)預(yù)測(cè)未來(lái),幫助企業(yè)贏得競(jìng)爭(zhēng)優(yōu)勢(shì)。 1.2數(shù)據(jù)挖掘的定義商業(yè)定義 應(yīng)用實(shí)例:某經(jīng)營(yíng)公司對(duì)多年來(lái)的客戶資料進(jìn)行挖掘后發(fā)現(xiàn),大多數(shù)購(gòu)買電腦的客戶具有下面的特點(diǎn):1、年輕(2045歲之間);2、收入高;3、居住地:城市;4、學(xué)歷高;基于此,此經(jīng)營(yíng)公司可以根據(jù)這些客戶的特點(diǎn)有目的的做一些廣告或者促銷。1.3數(shù)據(jù)挖掘的發(fā)展歷史歷史發(fā)展v1989 IJCAI會(huì)議:會(huì)議: 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)討論專題數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)討論專題Knowledge Discovery in Databases (G. Piatetsky-Shapiro

4、and W. Frawley, 1991)v1991-1994 KDD討論專題討論專題Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)v1995-1998 KDD國(guó)際會(huì)議國(guó)際會(huì)議 (KDD95-98)Journal of Data Mining and Knowledge Discovery (1997)v1998 ACM SIGKDD, SIGKDD1999-2002 會(huì)議會(huì)議,以及以及SIGKDD Explo

5、rationsv數(shù)據(jù)挖掘方面更多的國(guó)際會(huì)議數(shù)據(jù)挖掘方面更多的國(guó)際會(huì)議PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.1.3數(shù)據(jù)挖掘的發(fā)展歷史數(shù)據(jù)挖掘的發(fā)展歷史國(guó)內(nèi)現(xiàn)狀國(guó)內(nèi)現(xiàn)狀v大部分處于科研階段大部分處于科研階段v各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究v國(guó)內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)國(guó)內(nèi)著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)v數(shù)據(jù)挖掘討論組(數(shù)據(jù)挖掘討論組( )v有一些公司在國(guó)外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用有一些公司在國(guó)外產(chǎn)品基礎(chǔ)上開發(fā)的特定的

6、應(yīng)用vIBM Intelligent MinervSAS Enterprise Minerv自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件v復(fù)旦德門(復(fù)旦德門( datamining )等)等1.3數(shù)據(jù)挖掘的發(fā)展歷史數(shù)據(jù)挖掘的發(fā)展歷史未來(lái)發(fā)展未來(lái)發(fā)展v數(shù)據(jù)庫(kù)v人工智能v統(tǒng)計(jì)學(xué) 上述學(xué)科的發(fā)展決定著數(shù)據(jù)挖掘的發(fā)展未來(lái)和方向1.4數(shù)據(jù)挖掘的系統(tǒng)分類 數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科領(lǐng)域,受多個(gè)學(xué)科影響,包括數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué) 。圖1-2 數(shù)據(jù)挖掘受多門學(xué)科影響的示意圖1.4數(shù)據(jù)挖掘的系統(tǒng)分類v技術(shù)分類技術(shù)分類預(yù)言(預(yù)言(Predication):用歷史預(yù)測(cè)未來(lái)):用歷史預(yù)測(cè)

7、未來(lái)描述(描述(Description):了解數(shù)據(jù)中潛在的規(guī)律):了解數(shù)據(jù)中潛在的規(guī)律v數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析關(guān)聯(lián)分析序列發(fā)現(xiàn)序列發(fā)現(xiàn)分類(預(yù)言)分類(預(yù)言)聚集聚集異常檢測(cè)異常檢測(cè)匯總匯總回歸回歸時(shí)間序列分析時(shí)間序列分析1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域v金融領(lǐng)域v營(yíng)銷領(lǐng)域v電子政務(wù)v電信領(lǐng)域v工業(yè)生產(chǎn)v生物和醫(yī)學(xué)1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域應(yīng)用調(diào)查1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域金融v信用卡分析業(yè)務(wù)模型信用卡分析業(yè)務(wù)模型客戶信用等級(jí)評(píng)估客戶信用等級(jí)評(píng)估客戶透支分析客戶透支分析客戶利潤(rùn)分析客戶利潤(rùn)分析客戶消費(fèi)行為分析客戶消費(fèi)行為分析 客戶消費(fèi)異常行為分析客戶消費(fèi)異常行為分析1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域金融數(shù)

8、據(jù)挖掘在反洗錢系統(tǒng)中的應(yīng)用1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域營(yíng)銷v關(guān)聯(lián)分析-市場(chǎng)籃子分析,用于了解顧客的購(gòu)買習(xí)慣和偏好,有助于決定市場(chǎng)商品的擺放和產(chǎn)品的捆綁銷售策略;v序列模式與市場(chǎng)籃子分析相似,不過是用某時(shí)間點(diǎn)發(fā)現(xiàn)的產(chǎn)品購(gòu)買或其他行為模式來(lái)預(yù)測(cè)將來(lái)購(gòu)買產(chǎn)品或服務(wù)類別的概率;v聚類用于市場(chǎng)細(xì)分,將顧客按其行為或特征模式的相似性劃分為若干細(xì)分市場(chǎng),以采取有針對(duì)性的營(yíng)銷策略;v分類用于預(yù)測(cè)哪些人會(huì)對(duì)郵寄廣告和產(chǎn)品目錄、贈(zèng)券等促銷手段有反應(yīng),還可用于顧客定級(jí)、破產(chǎn)預(yù)測(cè)等。 1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域營(yíng)銷數(shù)據(jù)挖掘在營(yíng)銷中的應(yīng)用流程1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域營(yíng)銷v應(yīng)用實(shí)例1:美國(guó)運(yùn)通公司(American Expre

9、ss)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫(kù),通過對(duì)這些數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relationship Billing)優(yōu)惠”的促銷策略,即如果一個(gè)顧客在一個(gè)商店用運(yùn)通卡購(gòu)買一套時(shí)裝,那么在同一個(gè)商店再買一雙鞋,就可以得到比較大的折扣,既增加了商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域營(yíng)銷v應(yīng)用實(shí)例2:美國(guó)的讀者文摘(Reader s Digest)出版公司運(yùn)行著一個(gè)積累了40年的業(yè)務(wù)數(shù)據(jù)庫(kù),其中容納有遍布全球的一億多個(gè)訂戶的資料,并保證數(shù)據(jù)不斷得到實(shí)時(shí)的更新,基于對(duì)客戶資料數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘的優(yōu)勢(shì),使讀者文摘出版公司能夠從通俗雜志擴(kuò)展到專業(yè)雜志、書刊和聲像制

10、品的出版和發(fā)行業(yè)務(wù),極大地?cái)U(kuò)展了自己的業(yè)務(wù)范圍。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域電子政務(wù)v電子政務(wù)數(shù)據(jù)挖掘是把數(shù)據(jù)挖掘及時(shí)折射到政府部門,使政府部門的內(nèi)部信息與外部信息進(jìn)行有效地整合,以便政府部門可以更好、更有效地將信息發(fā)布給最希望得到它們的公眾,從而使政府部分更好地服務(wù)與公眾。另外,由于政府各部門自動(dòng)化的實(shí)現(xiàn),產(chǎn)生了大量的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行收集和分析,可以獲得影響政府部門工作的關(guān)鍵因素,從而為政府部門決策提供依據(jù),幫助政府部門提高政府信息化水平,促進(jìn)整個(gè)社會(huì)的信息化。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域電信v目前,數(shù)據(jù)挖掘技術(shù)在電信CRM系中的應(yīng)用有以下幾個(gè)方面:v客戶獲得v交叉銷售(Cross_sellin

11、g)v客戶保持 v一對(duì)一營(yíng)銷 1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域工業(yè)生產(chǎn)v在生產(chǎn)工業(yè)領(lǐng)域,大部分工廠都積累了大量的實(shí)際生產(chǎn)數(shù)據(jù),這些數(shù)據(jù)大多以數(shù)據(jù)庫(kù)、數(shù)據(jù)文件、生產(chǎn)記錄等形式存在,它們蘊(yùn)涵了與生產(chǎn)設(shè)備、生產(chǎn)過程相關(guān)的許多規(guī)律性知識(shí)和生產(chǎn)決策、操作人員的操作決策和控制經(jīng)驗(yàn)。 v應(yīng)用方法:(1)建立過程輸入輸出模型,以此模型為指導(dǎo)尋求最優(yōu)的操作和控制條件;(2)構(gòu)造數(shù)據(jù)樣本后,根據(jù)某種評(píng)估分類方法選出優(yōu)選樣本,根據(jù)優(yōu)選樣本的分布確定可探最優(yōu)區(qū),確定優(yōu)化方向。 1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域工業(yè)生產(chǎn)數(shù)據(jù)挖掘在工業(yè)生產(chǎn)中的應(yīng)用示意圖1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域生物醫(yī)學(xué)v海量的生物信息學(xué)信息,如基因;v遠(yuǎn)程數(shù)據(jù)庫(kù)的出現(xiàn);v

12、萬(wàn)維網(wǎng)上涌現(xiàn)出大量的生物學(xué)數(shù)據(jù)庫(kù) ;v美國(guó)國(guó)立生物技術(shù)信息中心網(wǎng)站 (NCBI)1.6數(shù)據(jù)挖掘規(guī)范和標(biāo)準(zhǔn)v產(chǎn)生的模式種類的多少v解決復(fù)雜問題的能力 多種模式 多種算法 數(shù)據(jù)選擇 可視化 擴(kuò)展性 v易操作性 v數(shù)據(jù)存取能力 v與其他產(chǎn)品的接口 1.7數(shù)據(jù)挖掘面臨的挑戰(zhàn)和局限性v處理不同種類的數(shù)據(jù) v數(shù)據(jù)挖掘算法的效率及擴(kuò)展性 v數(shù)據(jù)挖掘結(jié)果的可用性、確定性及可表達(dá)性v 各種數(shù)據(jù)挖掘結(jié)果的表達(dá) v多抽象層交互挖掘知識(shí) v從不同的數(shù)據(jù)源中挖掘信息 v 隱私保護(hù)及數(shù)據(jù)安全 1.8數(shù)據(jù)挖掘的發(fā)展趨勢(shì)WEB挖掘vWeb 數(shù)據(jù)的收集,結(jié)構(gòu)轉(zhuǎn)換等預(yù)處理技術(shù)的研究;v現(xiàn)有的數(shù)據(jù)挖掘方法在適應(yīng)性和時(shí)效性方面的研究v基于Web 挖掘和信息檢索的智能搜索引擎及相關(guān)技術(shù)的研究;vWeb 挖掘在特定領(lǐng)域如電子商務(wù)領(lǐng)域的應(yīng)用研究;v半結(jié)構(gòu)化文檔挖掘。1.8 數(shù)據(jù)挖掘發(fā)展趨勢(shì)數(shù)據(jù)挖掘發(fā)展趨勢(shì)v數(shù)據(jù)源十分豐富,數(shù)據(jù)量非常龐大,數(shù)據(jù)類型多,存取方法復(fù)雜;v應(yīng)用領(lǐng)域十分廣泛,只要與空間位置

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論