數(shù)據(jù)挖掘浙江計算機學(xué)院_第1頁
數(shù)據(jù)挖掘浙江計算機學(xué)院_第2頁
數(shù)據(jù)挖掘浙江計算機學(xué)院_第3頁
數(shù)據(jù)挖掘浙江計算機學(xué)院_第4頁
數(shù)據(jù)挖掘浙江計算機學(xué)院_第5頁
已閱讀5頁,還剩104頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、會計學(xué)1數(shù)據(jù)挖掘浙江計算機學(xué)院數(shù)據(jù)挖掘浙江計算機學(xué)院數(shù)據(jù)礦山數(shù)據(jù)礦山信息金塊信息金塊數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘工具進(jìn)化階段進(jìn)化階段商業(yè)問題商業(yè)問題支持技術(shù)支持技術(shù)產(chǎn)品廠家產(chǎn)品廠家產(chǎn)品特點產(chǎn)品特點數(shù)據(jù)搜集數(shù)據(jù)搜集(60(60年代年代) )“過去五年中我的過去五年中我的總收入是多少?總收入是多少?”計算機、磁帶和磁盤計算機、磁帶和磁盤IBMIBMCDCCDC提供歷史性的、靜提供歷史性的、靜態(tài)的數(shù)據(jù)信息態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問數(shù)據(jù)訪問(80(80年代年代) )“在新英格蘭的分在新英格蘭的分部去年三月的銷售部去年三月的銷售額是多少?額是多少?”關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫(RDBMS)(RDBMS)結(jié)構(gòu)化查詢語言結(jié)構(gòu)化

2、查詢語言(SQL)(SQL)ODBCODBCOracleOracleSybaseSybaseInformixInformixIBMIBMMicrosoftMicrosoft在記錄級提供歷史在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信性的、動態(tài)數(shù)據(jù)信息息數(shù)據(jù)倉庫數(shù)據(jù)倉庫決策支持決策支持(90(90年代年代) )“在新英格蘭的分在新英格蘭的分部去年三月的銷售部去年三月的銷售額是多少?波士頓額是多少?波士頓據(jù)此可得出什么結(jié)據(jù)此可得出什么結(jié)論?論?”聯(lián)機分析處理聯(lián)機分析處理(OLAP)(OLAP)多維數(shù)據(jù)庫多維數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫PilotPilotComshareComshareArborArborCogno

3、sCognosMicrostrategyMicrostrategy在各種層次上提供在各種層次上提供回溯的、動態(tài)的數(shù)回溯的、動態(tài)的數(shù)據(jù)信息據(jù)信息數(shù)據(jù)挖掘數(shù)據(jù)挖掘(正在流行)(正在流行)“下個月波士頓的下個月波士頓的銷售會怎么樣?為銷售會怎么樣?為什么?什么?”高級算法高級算法多處理器計算機多處理器計算機海量數(shù)據(jù)庫海量數(shù)據(jù)庫PilotPilotLockheedLockheedIBMIBMSGISGI其他初創(chuàng)公司其他初創(chuàng)公司提供預(yù)測性的信息提供預(yù)測性的信息1988Expert Systems19951990Expert Systems2004數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)統(tǒng)計學(xué)高性能計算人工智能機器學(xué)習(xí)可視化英

4、國電信需要發(fā)布一種新的產(chǎn)品,需要通過直郵的方式向客戶推薦這種產(chǎn)品。使直郵的回應(yīng)率提高了100電信GUS日用品零售商店需要準(zhǔn)確的預(yù)測未來的商品銷售量,降低庫存成本。通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.8%零售商店美國國內(nèi)稅務(wù)局需要提高對納稅人的服務(wù)水平。合理安排稅務(wù)官的工作,為納稅人提供更迅捷、更準(zhǔn)確的服務(wù)稅務(wù)局匯豐銀行需要對不斷增長的客戶群進(jìn)行分類,對每種產(chǎn)品找出最有價值的客戶。營銷費用減少了30銀行數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)倉庫各分公司各分公司數(shù)據(jù)集市數(shù)據(jù)集市分分 析析數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)集市數(shù)據(jù)集市 數(shù)據(jù)挖掘庫可能是數(shù)據(jù)倉庫的一個邏輯上的子集,而不一定非得是物理上單獨

5、的數(shù)據(jù)庫。但如果數(shù)據(jù)倉庫的計算資源已經(jīng)很緊張,那么最好還是建立一個單獨的數(shù)據(jù)挖掘庫。 當(dāng)然為了數(shù)據(jù)挖掘也不必非得建立一個數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不是必需的。建立一個巨大的數(shù)據(jù)倉庫,把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個數(shù)據(jù)倉庫內(nèi),是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個或幾個事務(wù)數(shù)據(jù)庫導(dǎo)到一個只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在它上面進(jìn)行數(shù)據(jù)挖掘。 數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)挖掘庫數(shù)據(jù)挖掘庫(1)定義商業(yè)問題 要想充分發(fā)揮數(shù)據(jù)挖掘的價值,必須要對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。否則,很難得到正確的結(jié)果。

6、 (2)建立數(shù)據(jù)挖掘庫 數(shù)據(jù)準(zhǔn)備工作大概要花去整個數(shù)據(jù)挖掘項目的50%-90%的時間和精力。一般來說,直接在公司的數(shù)據(jù)倉庫上進(jìn)行數(shù)據(jù)挖掘是不合適的,最好建立一個獨立的數(shù)據(jù)集。 建立數(shù)據(jù)挖掘庫可分成如下幾個部分: a) 數(shù)據(jù)收集 b) 數(shù)據(jù)描述 c) 選擇 d) 數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理 e) 合并與整合 f) 構(gòu)建元數(shù)據(jù) g) 加載數(shù)據(jù)挖掘庫 h) 維護(hù)數(shù)據(jù)挖掘庫 (3)分析數(shù)據(jù) 數(shù)據(jù)分析的目的:是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,并決定是否需要定義導(dǎo)出字段。(4)準(zhǔn)備數(shù)據(jù) 這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作。可分成4個部分:a)選擇變量; b)選擇記錄; c)創(chuàng)建新變量; d) 轉(zhuǎn)換變量。

7、(5)建立模型 對建立模型來說要記住的最重要的事是它是一個反復(fù)的過程。需要仔細(xì)考察不同的模型以判斷哪個模型對你的商業(yè)問題最有用。 為了保證得到的模型具有較好的精確度和健壯性,需要一個定義完善的“訓(xùn)練驗證”協(xié)議。有時也稱此協(xié)議為帶指導(dǎo)的學(xué)習(xí)。驗證方法主要分為: a)簡單驗證法 b)交叉驗證法:首先把原始數(shù)據(jù)隨機平分成兩份,然后用一部分做訓(xùn)練集另一部分做測試集計算錯誤率,做完之后把兩部分?jǐn)?shù)據(jù)交換再計算一次,得到另一個錯誤率,最后再用所有的數(shù)據(jù)建立一個模型,把上面得到的兩個錯誤率進(jìn)行平均作為最后用所有數(shù)據(jù)建立的模型的錯誤率。 c)自舉法:是另一種評估模型錯誤率的技術(shù)。在數(shù)據(jù)量很小時尤其適用。與交叉驗

8、證一樣模型是用所有的數(shù)據(jù)建立。(6)評價和解釋 a) 模型驗證。模型建立好之后,必須評價其結(jié)果、解釋其價值。從測試集中得到的準(zhǔn)確率只對用于建立模型的數(shù)據(jù)有意義。在實際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準(zhǔn)確率肯定會變化。更重要的是,準(zhǔn)確度自身并不一定是選擇最好模型的正確評價方法。需要進(jìn)一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。 b)外部驗證。無論我們用模擬的方法計算出來的模型的準(zhǔn)確率有多高,都不能保證此模型在面對現(xiàn)實世界中真實的數(shù)據(jù)時能取得好的效果。經(jīng)驗證有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定。 例如,在建立用戶購買模式的模型時,可能沒有考慮通貨膨脹

9、的影響,但實施模型時通貨膨脹率突然由3%增加為17%,這顯然會對人們的購買意向產(chǎn)生重大影響,因此再用原來的模型來預(yù)測客戶購買情況必然會出現(xiàn)重大失誤。 (7)實施 模型建立并經(jīng)驗證之后,可以有兩種主要的使用方法: 第一種方法,是提供給分析人員做參考,由他通過察看和分析這個模型之后提出行動方案建議。比如可以把模型檢測到的聚集、模型中蘊含的規(guī)則、或表明模型效果的圖表拿給分析人員看。 另一種方法:是把此模型應(yīng)用到不同的數(shù)據(jù)集上。模型可以用來標(biāo)示一個事例的類別,給一項申請打分等。還可以用模型在數(shù)據(jù)庫中選擇符合特定要求的記錄,以用OLAP工具做進(jìn)一步的分析。 當(dāng)提交一個復(fù)雜的應(yīng)用時,數(shù)據(jù)挖掘可能只是整個產(chǎn)

10、品的一小部分,雖然可能是最關(guān)鍵的一部分。例如,常常把數(shù)據(jù)挖掘得到的知識與領(lǐng)域?qū)<业闹R結(jié)合起來,然后應(yīng)用到數(shù)據(jù)庫中的數(shù)據(jù)。在欺詐檢測系統(tǒng)中可能既包含了數(shù)據(jù)挖掘發(fā)現(xiàn)的規(guī)律,也有人們在實踐中早已總結(jié)出的規(guī)律。 知識 目標(biāo)數(shù)據(jù) 已預(yù)處理 數(shù)據(jù) 變換后 數(shù)據(jù) 模式 數(shù)據(jù) 篩選 預(yù)處理 變換 數(shù)據(jù)挖掘 解釋/評價 (1)定義:關(guān)聯(lián)分析 (association analysis):發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示“屬性值”頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。 關(guān)聯(lián)規(guī)則 (association rule): “X Y”,即 A1 A2 Am B1 B2 Bn 關(guān)聯(lián)規(guī)則分為兩類:一類是“多維關(guān)聯(lián)規(guī)則”(mult

11、i-dimensional association rule);另一類是“單維關(guān)聯(lián)規(guī)則”(single-dimensional association rule)。(2)實例 age(x, “20.29”) income(X, “20K.29K”) buys(X, “CD_player”) support = 2%, confidence = 60%(1)定義 分類 (classification):是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象的過程。 注:導(dǎo)出模型(或函數(shù))是基于對訓(xùn)練數(shù)據(jù)集(即其類標(biāo)記已知的數(shù)據(jù)對象)的分析。(2)分類模型的導(dǎo)出方式 分

12、類規(guī)則(IF-THEN)、決策樹、數(shù)學(xué)公式、神經(jīng)網(wǎng)絡(luò)等。(3)相關(guān)分析 (relevance analysis) 一般情況下,相關(guān)分析需要在分類和預(yù)測之前進(jìn)行,它試圖識別對于分類和預(yù)測無用的屬性,且這些屬性應(yīng)被排除。分類和預(yù)測(1)定義 聚類 (clustering):與分類和預(yù)測不同,它主要分析數(shù)據(jù)對象,而不考慮已知的類標(biāo)記。 一般情況下,訓(xùn)練數(shù)據(jù)中不提供類標(biāo)記,因為不知道從何開始。聚類可以用于產(chǎn)生這種標(biāo)記。(2)聚類或分組的原則 “最大化類內(nèi)的相似性、最小化類間的相似性” 對象的簇(聚類)的形成辦法為:使得在一個簇中的對象具有很高的相似性,而與其它簇中的對象很不相似。所形成的每個簇可以看作

13、一個對象類,由它可以導(dǎo)出規(guī)則。聚類分析(1)定義 孤立點 (outlier):數(shù)據(jù)庫中的那些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象。 大部分?jǐn)?shù)據(jù)挖掘方法將孤立點視為噪聲或異常而將其丟棄,然而,在一些實際應(yīng)用中(如欺騙檢測、軍事情報分析等),罕見點事件可能比正常出現(xiàn)的那些更有趣。孤立點數(shù)據(jù)分析稱為孤立點挖掘(outlier mining)。(2)孤立點的檢測方法 第一種方法:統(tǒng)計試驗檢測方法。假定一個數(shù)據(jù)分布或概率模型,并使用距離度量,到其它聚類的距離很大的對象被視為孤立點。 第二種方法:基于偏差點方法。通過考察一群對象主要特征上的差別識別孤立點。孤立點分析(1)定義 數(shù)據(jù)演變分析 (evolu

14、tion analysis):描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。 演變分析包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)、分類或聚類,最主要有三種演化分析方法:a) 時間序列數(shù)據(jù)分析b) 序列或周期模式匹配c) 基于類似性的數(shù)據(jù)分析演變分析數(shù)據(jù)挖掘過程模型是確保數(shù)據(jù)挖掘工作順利進(jìn)行的關(guān)鍵。典型的過程模型有: (1)SPSS的5A模型評估(Assess)、訪問(Access)、分析(Analyze)、行動(Act)、自動化(Automate)。 (2)SAS的SEMMA模型采樣(Sample)、探索(Explore)、修正(Modify)、建模(Model)、評估(Assess)。 (3)

15、 跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)CRISP-DM目前CRISP-DM仍在建立之中。 (4) 此外,Two Crows公司的數(shù)據(jù)挖掘過程模型,它與正在建立的CRISP-DM有許多相似之處。 5. 數(shù)據(jù)挖掘過程模型數(shù)據(jù)倉庫數(shù)據(jù)倉庫數(shù)據(jù)清洗和集成數(shù)據(jù)清洗和集成過濾過濾數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評價圖形用戶接口知識庫知識庫代代特征特征數(shù)據(jù)挖掘算數(shù)據(jù)挖掘算法法集成集成分布計分布計算模型算模型數(shù)據(jù)模數(shù)據(jù)模型型第一代第一代數(shù)據(jù)挖掘作數(shù)據(jù)挖掘作為一個獨立為一個獨立的應(yīng)用的應(yīng)用支持一個或者支持一個或者多個算法多個算法 獨立的獨立的系統(tǒng)系統(tǒng)單個機單個機器器向量數(shù)向量數(shù)據(jù)據(jù)第二代第二代和數(shù)據(jù)庫和數(shù)據(jù)

16、庫以及數(shù)據(jù)以及數(shù)據(jù)倉庫集成倉庫集成多個算法:能多個算法:能夠挖掘一次不夠挖掘一次不能放進(jìn)內(nèi)存的能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)管理系數(shù)據(jù)管理系統(tǒng),包括數(shù)統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)據(jù)庫和數(shù)據(jù)倉庫倉庫同質(zhì)同質(zhì)/ /局局部區(qū)域的部區(qū)域的計算機群計算機群集集有些系統(tǒng)支有些系統(tǒng)支持對象、文持對象、文本、和連續(xù)本、和連續(xù)的媒體數(shù)據(jù)的媒體數(shù)據(jù)第三代第三代和預(yù)測模型和預(yù)測模型系統(tǒng)集成系統(tǒng)集成 多個算法多個算法數(shù)據(jù)管理和數(shù)據(jù)管理和預(yù)測模型系預(yù)測模型系統(tǒng)統(tǒng)intranet/intranet/extranetextranet網(wǎng)絡(luò)計算網(wǎng)絡(luò)計算支持半結(jié)構(gòu)支持半結(jié)構(gòu)化數(shù)據(jù)和化數(shù)據(jù)和webweb數(shù)據(jù)數(shù)據(jù)第四代第四代和移動數(shù)據(jù)和移動數(shù)據(jù)/

17、 /各種計算數(shù)各種計算數(shù)據(jù)聯(lián)合據(jù)聯(lián)合 多個算法多個算法數(shù)據(jù)管理、數(shù)據(jù)管理、預(yù)測模型、預(yù)測模型、移動系統(tǒng)移動系統(tǒng)移動和各移動和各種計算設(shè)種計算設(shè)備備普遍存在的普遍存在的計算模型計算模型以PMML的格式提供與預(yù)測模型系統(tǒng)的接口xyy = x + 1X1Y1Y1頂級:nACM SIGMOD: Intl. Conf. on Management of DatanVLDB / PODS: Intl. Conf. on Very Large Data BasesnICDE: Intl. Conf. on Data EngineeringnSIGKDD: Intl. Conf. on Knowledge D

18、iscovery and Data Mining數(shù)據(jù)挖掘五大國際會議:nSIGKDD, ICDM, SDM, PKDD, PAKDDnDMKD (DAMI): Data Mining and Knowledge DiscoverynTKDE: IEEE Transaction on Knowledge and Data EngineeringnTKDD: ACM Transaction on KDDnSIGKDD Explorations1 Jiawei Han, Micheline Kamber著. 范明, 孟小峰 等譯. 數(shù)據(jù)挖掘: 概念與技術(shù). 機械工業(yè)出版社, 2001.(注:Data

19、 Mining: Concepts and Techniques (Second Edition)將于2005年11月正式出版)2 Jiawei Han. Data Mining: Principles & Research Frontiers (PPT). May 23-27, 2005. (龍星計劃課件)/hanj3 David Hand 等著. 張銀奎 等譯. 數(shù)據(jù)挖掘原理. 機械工業(yè)出版社, 2003. 4Pangning Tan, Michael Steinbach. Intorduction to Data Mining. 人民郵電出版社. 2006 (5)建立模型 對建立模型來說要記住的最重要的事是它是一個反復(fù)的過程。需

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論