數(shù)據(jù)挖掘基礎(chǔ)知識

上傳人：x*** IP屬地：四川上傳時(shí)間：2022-12-01 格式：PPT 頁數(shù)：32 大小：3.37MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典元昌安主編鄧松李文敬劉海濤編著電子工業(yè)出版社第1頁，共32頁。1．1數(shù)據(jù)挖掘的社會需求

現(xiàn)實(shí)情況：人類積累的數(shù)據(jù)量以每月高于15%的速度增加，如果不借助強(qiáng)有力的挖掘工具，僅依靠人的能力來理解這些數(shù)據(jù)是不可能的?，F(xiàn)在人們已經(jīng)評估出世界上信息的數(shù)量每二十個(gè)月翻一番，并且數(shù)據(jù)庫的數(shù)量與大小正在以更快的速度增長。第2頁，共32頁。1．1數(shù)據(jù)挖掘的社會需求

著名的“啤酒尿布”案例：美國加州某個(gè)超級賣場通過數(shù)據(jù)挖掘發(fā)現(xiàn)，下班后前來購買嬰兒尿布的男顧客大都購買啤酒。于是經(jīng)理當(dāng)機(jī)立斷，重新布置貨架，把啤酒類商品布置在嬰兒尿布貨架附近，并在二者之間放置佐酒食品，同時(shí)還把男士日常用品就近布置。這樣，上述幾種商品的銷量大增。第3頁，共32頁。1.2數(shù)據(jù)挖掘的定義—技術(shù)定義數(shù)據(jù)挖掘（DataMining）就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。第4頁，共32頁。1.2數(shù)據(jù)挖掘的定義—技術(shù)定義數(shù)據(jù)挖掘和信息檢索：信息檢索和數(shù)據(jù)挖掘的相同點(diǎn)是從檔案文件或數(shù)據(jù)庫中抽取感興趣的數(shù)據(jù)和信息。區(qū)別在于數(shù)據(jù)檢索對信息的抽取規(guī)則是事先定義好的，抽取的是外在信息。據(jù)挖掘于挖掘?qū)ふ椰F(xiàn)象之間事先未知的關(guān)系和關(guān)聯(lián)。第5頁，共32頁。1.2數(shù)據(jù)挖掘的定義—商業(yè)定義按企業(yè)既定業(yè)務(wù)目標(biāo)，對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析，揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性，并進(jìn)一步將其模型化的先進(jìn)有效的方法。數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取隱含在其中的有用信息和知識的過程。它可以幫助企業(yè)對數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理，從而利用已有數(shù)據(jù)預(yù)測未來，幫助企業(yè)贏得競爭優(yōu)勢。第6頁，共32頁。1.2數(shù)據(jù)挖掘的定義—商業(yè)定義應(yīng)用實(shí)例：某經(jīng)營公司對多年來的客戶資料進(jìn)行挖掘后發(fā)現(xiàn)，大多數(shù)購買電腦的客戶具有下面的特點(diǎn)：1、年輕（20—45歲之間）；2、收入高；3、居住地：城市；4、學(xué)歷高；基于此，此經(jīng)營公司可以根據(jù)這些客戶的特點(diǎn)有目的的做一些廣告或者促銷。第7頁，共32頁。1.3數(shù)據(jù)挖掘的發(fā)展歷史—?dú)v史發(fā)展1989IJCAI會議：數(shù)據(jù)庫中的知識發(fā)現(xiàn)討論專題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國際會議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國際會議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.第8頁，共32頁。1.3數(shù)據(jù)挖掘的發(fā)展歷史—國內(nèi)現(xiàn)狀大部分處于科研階段各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究國內(nèi)著作的數(shù)據(jù)挖掘方面的書較少（翻譯的有）數(shù)據(jù)挖掘討論組（）有一些公司在國外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用IBMIntelligentMinerSASEnterpriseMiner自主知識產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件復(fù)旦德門（）等第9頁，共32頁。1.3數(shù)據(jù)挖掘的發(fā)展歷史—未來發(fā)展數(shù)據(jù)庫人工智能統(tǒng)計(jì)學(xué)

上述學(xué)科的發(fā)展決定著數(shù)據(jù)挖掘的發(fā)展未來和方向第10頁，共32頁。1.4數(shù)據(jù)挖掘的系統(tǒng)分類數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科領(lǐng)域，受多個(gè)學(xué)科影響，包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。圖1-2數(shù)據(jù)挖掘受多門學(xué)科影響的示意圖第11頁，共32頁。1.4數(shù)據(jù)挖掘的系統(tǒng)分類技術(shù)分類預(yù)言（Predication）：用歷史預(yù)測未來描述（Description）：了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列發(fā)現(xiàn)分類（預(yù)言）聚集異常檢測匯總回歸時(shí)間序列分析第12頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域金融領(lǐng)域營銷領(lǐng)域電子政務(wù)電信領(lǐng)域工業(yè)生產(chǎn)生物和醫(yī)學(xué)第13頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—應(yīng)用調(diào)查第14頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—金融信用卡分析業(yè)務(wù)模型客戶信用等級評估客戶透支分析客戶利潤分析客戶消費(fèi)行為分析客戶消費(fèi)異常行為分析第15頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—金融數(shù)據(jù)挖掘在反洗錢系統(tǒng)中的應(yīng)用第16頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—營銷關(guān)聯(lián)分析--市場籃子分析，用于了解顧客的購買習(xí)慣和偏好，有助于決定市場商品的擺放和產(chǎn)品的捆綁銷售策略；序列模式與市場籃子分析相似，不過是用某時(shí)間點(diǎn)發(fā)現(xiàn)的產(chǎn)品購買或其他行為模式來預(yù)測將來購買產(chǎn)品或服務(wù)類別的概率；聚類用于市場細(xì)分，將顧客按其行為或特征模式的相似性劃分為若干細(xì)分市場，以采取有針對性的營銷策略；分類用于預(yù)測哪些人會對郵寄廣告和產(chǎn)品目錄、贈券等促銷手段有反應(yīng),還可用于顧客定級、破產(chǎn)預(yù)測等。第17頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—營銷數(shù)據(jù)挖掘在營銷中的應(yīng)用流程第18頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—營銷應(yīng)用實(shí)例1：美國運(yùn)通公司(AmericanExpress)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫，通過對這些數(shù)據(jù)進(jìn)行挖掘，制定了“關(guān)聯(lián)結(jié)算(RelationshipBilling)優(yōu)惠”的促銷策略，即如果一個(gè)顧客在一個(gè)商店用運(yùn)通卡購買一套時(shí)裝，那么在同一個(gè)商店再買一雙鞋,就可以得到比較大的折扣，既增加了商店的銷售量，也可以增加運(yùn)通卡在該商店的使用率。第19頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—營銷應(yīng)用實(shí)例2：美國的讀者文摘(Reader'sDigest)出版公司運(yùn)行著一個(gè)積累了40年的業(yè)務(wù)數(shù)據(jù)庫,其中容納有遍布全球的一億多個(gè)訂戶的資料，并保證數(shù)據(jù)不斷得到實(shí)時(shí)的更新，基于對客戶資料數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘的優(yōu)勢，使讀者文摘出版公司能夠從通俗雜志擴(kuò)展到專業(yè)雜志、書刊和聲像制品的出版和發(fā)行業(yè)務(wù)，極大地?cái)U(kuò)展了自己的業(yè)務(wù)范圍。第20頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—電子政務(wù)電子政務(wù)數(shù)據(jù)挖掘是把數(shù)據(jù)挖掘及時(shí)折射到政府部門，使政府部門的內(nèi)部信息與外部信息進(jìn)行有效地整合，以便政府部門可以更好、更有效地將信息發(fā)布給最希望得到它們的公眾，從而使政府部分更好地服務(wù)與公眾。另外,由于政府各部門自動化的實(shí)現(xiàn),產(chǎn)生了大量的數(shù)據(jù)，對這些數(shù)據(jù)進(jìn)行收集和分析，可以獲得影響政府部門工作的關(guān)鍵因素，從而為政府部門決策提供依據(jù)，幫助政府部門提高政府信息化水平，促進(jìn)整個(gè)社會的信息化。第21頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—電信目前,數(shù)據(jù)挖掘技術(shù)在電信CRM系中的應(yīng)用有以下幾個(gè)方面:客戶獲得交叉銷售(Cross_selling)客戶保持一對一營銷第22頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—工業(yè)生產(chǎn)在生產(chǎn)工業(yè)領(lǐng)域，大部分工廠都積累了大量的實(shí)際生產(chǎn)數(shù)據(jù)，這些數(shù)據(jù)大多以數(shù)據(jù)庫、數(shù)據(jù)文件、生產(chǎn)記錄等形式存在，它們蘊(yùn)涵了與生產(chǎn)設(shè)備、生產(chǎn)過程相關(guān)的許多規(guī)律性知識和生產(chǎn)決策、操作人員的操作決策和控制經(jīng)驗(yàn)。應(yīng)用方法：(1)建立過程輸入輸出模型，以此模型為指導(dǎo)尋求最優(yōu)的操作和控制條件；(2)構(gòu)造數(shù)據(jù)樣本后，根據(jù)某種評估分類方法選出優(yōu)選樣本，根據(jù)優(yōu)選樣本的分布確定可探最優(yōu)區(qū)，確定優(yōu)化方向。第23頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—工業(yè)生產(chǎn)數(shù)據(jù)挖掘在工業(yè)生產(chǎn)中的應(yīng)用示意圖第24頁，共32頁。1.5數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域—生物醫(yī)學(xué)海量的生物信息學(xué)信息，如基因；遠(yuǎn)程數(shù)據(jù)庫的出現(xiàn)；萬維網(wǎng)上涌現(xiàn)出大量的生物學(xué)數(shù)據(jù)庫；美國國立生物技術(shù)信息中心網(wǎng)站（NCBI）第25頁，共32頁。1.6數(shù)據(jù)挖掘規(guī)范和標(biāo)準(zhǔn)產(chǎn)生的模式種類的多少解決復(fù)雜問題的能力多種模式多種算法數(shù)據(jù)選擇可視化擴(kuò)展性

易操作性數(shù)據(jù)存取能力與其他產(chǎn)品的接口第26頁，共32頁。1.7數(shù)據(jù)挖掘面臨的挑戰(zhàn)和局限性處理不同種類的數(shù)據(jù)數(shù)據(jù)挖掘算法的效率及擴(kuò)展性數(shù)據(jù)挖掘結(jié)果的可用性、確定性及可表達(dá)性各種數(shù)據(jù)挖掘結(jié)果的表達(dá)多抽象層交互挖掘知識從不同的數(shù)據(jù)源中挖掘信息隱私保護(hù)及數(shù)據(jù)安全

第27頁，共32頁。1.8數(shù)據(jù)挖掘的發(fā)展趨勢—WEB挖掘Web數(shù)據(jù)的收集，結(jié)構(gòu)轉(zhuǎn)換等預(yù)處理技術(shù)的研究；現(xiàn)有的數(shù)據(jù)挖掘方法在適應(yīng)性和時(shí)效性方面的研究基于Web挖掘和信息檢索的智能搜索引擎及相關(guān)技術(shù)的研究；Web挖掘在特定領(lǐng)域如電子商務(wù)領(lǐng)域的應(yīng)用研究；半結(jié)構(gòu)化文檔挖掘。第28頁，共32頁。1.8數(shù)據(jù)挖掘發(fā)展趨勢數(shù)據(jù)源十分豐富，數(shù)據(jù)量非常龐大，數(shù)據(jù)類型多，存取方法復(fù)雜；應(yīng)用領(lǐng)域十分廣泛，只要與空間位置相關(guān)的數(shù)據(jù)，都可對其進(jìn)行挖掘；挖掘方法和算法非常，而且大多數(shù)算法比較復(fù)雜，難度大；知識的表達(dá)方式多樣，對知識的理解和評價(jià)依賴于對人對客觀世界的認(rèn)知程度。---空間數(shù)據(jù)挖掘（SDM）的特點(diǎn)第29頁，共32頁。1.8數(shù)據(jù)挖掘發(fā)展趨勢數(shù)據(jù)清理DNA序列相似搜索和比對基因組特征及基因序列的分析路徑分析生物數(shù)據(jù)可視化和數(shù)據(jù)挖掘生物文獻(xiàn)的挖掘基于隱私保護(hù)的數(shù)據(jù)挖掘---生物信息或基因的挖掘第30頁，共32頁。謝謝大家第31頁，共32頁。內(nèi)容梗概數(shù)據(jù)挖掘原理與SPSSClementine應(yīng)用寶典。現(xiàn)實(shí)情況：人類積累的數(shù)據(jù)量以每月高于15%的速度增加，如果不借助強(qiáng)有力的挖掘工具，僅依靠人的能力來理解這些數(shù)據(jù)是不可能的。于是經(jīng)理當(dāng)機(jī)立斷，重新布置貨架，把啤酒類商品布置在嬰兒尿布貨架附近，并在二者之間放置佐酒食品，同時(shí)還把男士日常用品就近布置。數(shù)據(jù)挖掘（DataMining）就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。信息檢索和數(shù)據(jù)挖掘的相同點(diǎn)是從檔案文件或數(shù)據(jù)庫中抽取感興趣的數(shù)據(jù)和

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘基礎(chǔ)知識

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘基礎(chǔ)知識

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔