數據挖掘概述_第1頁
數據挖掘概述_第2頁
數據挖掘概述_第3頁
數據挖掘概述_第4頁
數據挖掘概述_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘的由來網絡之后的下一個技術熱點數據爆炸但知識貧乏支持數據挖掘技術的基礎從商業(yè)數據到商業(yè)信息的進化第一頁,共42頁。網絡之后的下一個技術熱點網絡時代面臨的信息問題:信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統一處理?!耙獙W會拋棄信息”

第二頁,共42頁。數據爆炸但知識貧乏數據庫的容量已達上萬億水平(T)--1,000,000,000,000個字節(jié)全球信息量以驚人的速度急劇增長--據估計,每二十個月將增加一倍。許多組織機構的IT系統中都收集了大量的數據第三頁,共42頁。支持數據挖掘技術的基礎激發(fā)了數據挖掘的開發(fā)、應用和研究的興趣的四個主要技術理由:超大規(guī)模數據庫的出現,例如商業(yè)數據倉庫和計算機自動收集的數據記錄;強大的多處理器計算機。例如更快和更大的計算能力和并行體系結構;海量數據搜索,對巨大量數據的快速訪問;數據挖掘算法。

第四頁,共42頁。從商業(yè)數據到商業(yè)信息的進化進化階段商業(yè)問題支持技術產品廠家產品特點數據搜集

(60年代)“過去五年中我的總收入是多少?”計算機、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數據信息數據訪問

(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關系數據庫(RDBMS),結構化查詢語言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性、動態(tài)數據信息數據倉庫;

決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什么結論?”聯機分析處理(OLAP)、多維數據庫、數據倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動態(tài)的數據信息數據挖掘

(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計算機、海量數據庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預測性的信息第五頁,共42頁。數據挖掘(DataMining)的定義數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程?!布夹g角度的定義〕數據挖掘可以描述為:按企業(yè)既定業(yè)務目標,對大量的企業(yè)數據進行探索和分析,揭示隱藏的、未知的或驗證己知的規(guī)律性,并進一步將其模型化的有效方法?!采虡I(yè)角度的定義〕數據挖掘相近的同義詞包括:數據融合、數據分析和決策支持等。

第六頁,共42頁。數據挖掘與其他科學的關系DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization第七頁,共42頁。實施數據挖掘的目的不再是單純?yōu)榱搜芯?,更主要的是為商業(yè)決策提供真正有價值的信息,進而獲得利潤。所有企業(yè)面臨的一個共同問題是:企業(yè)數據量非常大,而其中真正有價值的信息卻很少,因此需要從大量的數據中經過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數據挖掘也由此而得名。第八頁,共42頁。數據挖掘的數據源與以前相比有了顯著的改變;數據是海量的;數據有噪聲;數據可能是非結構化的;傳統的數據分析方法基于假設驅動的:一般都是先給出一個假設然后通過數據驗證數據挖掘在一定意義上是基于發(fā)現驅動的:模式都是通過大量的搜索工作從數據中自動提取出來。即數據挖掘是要發(fā)現那些不能靠直覺發(fā)現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。數據挖掘與傳統數據分析方法區(qū)別第九頁,共42頁。數據挖掘和數據倉庫

第十頁,共42頁。數據挖掘和OLAP完全不同的工具,基于的技術也大相徑庭OLAP基于用戶假設。whathappened〔查詢和報表工具是告訴你數據庫中都有什么〕whatnext〔OLAP更進一步告訴你下一步會怎么樣〕whatif〔如果我采取這樣的措施又會怎么樣〕數據挖掘本質上是一個歸納的過程,不是用于驗證某個假定的模式(模型)的正確性,而是在數據庫中自己尋找模型。數據挖掘和OLAP有一定的互補性。第十一頁,共42頁?;靖拍顢祿?是指一個有關事實F的集合(如學生檔案數據庫中有關學生基本情況的各條記錄),用來描述事物有關方面的信息。一般而言,這些數據都是準確無誤的。信息:是事物運動的狀態(tài)和狀態(tài)變化的方式。知識人們實踐經驗的結晶且為新的實踐所證實的;是關于事物運動的狀態(tài)和狀態(tài)變化的規(guī)律;是對信息加工提煉所獲得的抽象化產物。知識的形式可能是模式、關聯、變化、異常以及其他有意義的結構。第十二頁,共42頁。主要功能1.概念/類別描述(Concept/ClassDescription)概念/類別描述是指對數據集做一個簡潔的總體性描述并/或描述它與某一對照數據集的差別。例1:我們收集移動電話費月消費額超出1000元的客戶資料,然后利用數據挖掘進行分析,獲得這類客戶的總體性描述:35-50歲,有工作,月收入5000元以上,擁有良好的信用度…;

第十三頁,共42頁。主要功能例2:對比移動電話費月消費額超出1000元的客戶群與移動電話費月消費額低于100元的客戶群。利用數據挖掘可作出如下描述:移動電話月消費額超出1000元的客戶80%以上年齡在35-50歲之間,且月收入5000元以上;而移動電話月消費額低于100元的客戶60%以上要么年齡過大要么年齡過小,且月收入2000元以下。第十四頁,共42頁。主要功能2.關聯分析(AssociationAnalysis)從一個項目集中發(fā)現關聯規(guī)則,該規(guī)則顯示了給定數據集中經常一起出現的屬性-值條件元組。例如:關聯規(guī)則X=>Y所表達的含義是滿足X的數據庫元組很可能滿足Y。關聯分析在交易數據分析、支持定向市場、商品目錄設計和其他業(yè)務決策等方面有著廣泛的應用。

第十五頁,共42頁。主要功能3.分類與估值(ClassificationandEstimation)分類指通過分析一個類別已知的數據集的特征來建立一組模型,該模型可用以預測類別未知的數據項的類別。該分類模型可以表現為多種形式:分類規(guī)則(IF-THEN),決策樹或者數學公式,乃至神經網絡。估值與分類類似,只不過它要預測的不是類別,而是一個連續(xù)的數值。

第十六頁,共42頁。主要功能4.聚類分析(ClusteringAnalysis)聚類分析又稱為“同質分組”或者“無監(jiān)督的分類”,指把一組數據分成不同的“簇”,每簇中的數據相似而不同簇間的數據則距離較遠。相似性可以由用戶或者專家定義的距離函數加以度量。好的聚類方法應保證不同類間數據的相似性盡可能地小,而類內數據的相似性盡可能地大。

第十七頁,共42頁。主要功能5.時間序列分析(Time-Series

Analysis)時間序列分析即預測(Prediction),是指通過對大量時間序列數據的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢和偏差。預測的目的是對未來的情況作出估計。

第十八頁,共42頁。主要功能6.其它功能

包括:偏差分析(DeviationAnalysis)、孤立點分析(OutlierAnalysis)等。隨著數據挖掘技術的發(fā)展,可能還會繼續(xù)出現新的數據挖掘功能。

第十九頁,共42頁。數據挖掘模型CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,最先在1996年被提出,當前的白皮書版本是1.0。目的是把數據挖掘的過程標準化,使數據挖掘項目的實施速度更快、成本更低、更可靠并且更容易管理。第二十頁,共42頁。業(yè)務理解(BusinessUnderstanding)階段確定業(yè)務目標:分析項目的背景,從業(yè)務視點分析項目的目標和需求,確定業(yè)務角度的成功標準;項目可行性分析:分析擁有的資源,條件和限制,風險估計,成本和效益估計;確定數據挖掘目標:明確確定數據挖掘的目標和成功標準,數據挖掘的目標和業(yè)務目標是不一樣的,前者指技術上的,例如生成一棵決策樹等;提出項目計劃:對整個項目做一個計劃,初步估計用到的工具和技術。

第二十一頁,共42頁。數據理解(DataUnderstanding)階段收集原始數據:收集本項目所涉及到的數據,如有必要,把數據裝入數據處理工具,并作一些初步的數據集成的工作,生成相應報告;描述數據:對數據做一些大致的描述,例如記錄數、屬性數等,給出相應報告;探索數據:對數據做簡單的統計分析,例如關鍵屬性的分布等;檢查數據質量:包括數據是否完整、數據是否有錯、是否有缺失值等問題。

第二十二頁,共42頁。數據準備(DataPreparation)階段數據選擇:根據數據挖掘目標和數據質量選擇合適的數據,包括表的選擇、記錄選擇和屬性選擇;數據清潔:提高選擇好的數據的質量,例如去除噪音,估計缺失值等;數據創(chuàng)建:在原有數據的基礎上是生成新的屬性或記錄;數據合并:利用表連接等方式將幾個數據集合并在一起;數據格式化:把數據轉換成適合數據挖掘處理的格式。第二十三頁,共42頁。建立模型(Modeling)階段選擇建模技術:確定數據挖掘算法和參數,可能會利用多個算法;測試方案設計:設計某種測試模型的質量和有效性的機制;模型訓練:在準備好的數據集上運行數據挖掘算法,得出一個或者多個模型;模型測試評估:根據測試方案進行測試,從數據挖掘技術的角度確定數據挖掘目標是否成功。

第二十四頁,共42頁。模型評估(Evaluation)階段結果評估:從商業(yè)角度評估得到的模型,甚至實際試用該模型測試其效果;過程回顧:回顧項目的所有流程,確定每一個階段都沒有失誤;確定下一步工作:根據結果評估和過程回顧得出的結論,確定是部署該挖掘模型還是從某個階段開始重新開始。

第二十五頁,共42頁。部署(Deployment)階段部署計劃:對在業(yè)務運作中部署模型作出計劃;監(jiān)控和維護計劃:如何監(jiān)控模型在實際業(yè)務中的使用情況,如何維護該模型;作出最終報告:項目總結,項目經驗和項目結果;項目回顧:回顧項目的實施過程,總結經驗教訓;對數據挖掘的運行效果做一個預測。

第二十六頁,共42頁。數據挖掘模型為保證項目的可靠性和可管理性,CRISP-DM規(guī)定一個數據挖掘項目應該產生11個報告:

業(yè)務理解報告原始數據收集報告數據描述報告數據探索報告數據質量報告數據集描述報告模型訓練報告模型評估報告部署計劃監(jiān)控和維護計劃總結報告通過這些報告,可以有效地控制數據挖掘項目進程,減少開發(fā)風險。

第二十七頁,共42頁。實現流程各步驟之間互相影響、反復調整,形成一種螺旋式上升過程。第二十八頁,共42頁。數據準備KDD的處理對象是大量的數據,這些數據一般存儲在數據庫系統中,是長期積累的結果。但往往不合適直接在這些數據上進行知識挖掘,需要做一些準備工作,也就數據的預處理。數據預處理包括數據的選擇(選擇相關數據)、凈化(消除噪音、冗余數據)、推測(推算缺值數據)、轉換(離散型數據與連續(xù)型數據之間的轉換)、數據縮減(減少數據量)等。數據準備是KDD的第一個步驟,數據準備得好壞將直接影響數據挖掘的效率和準確度以及最終模式的有效性.。

第二十九頁,共42頁。數據挖掘數據挖掘是最為關鍵的步驟,它根據KDD的目標,選取相應算法的參數,分析數據,得到可能形成知識的模式模型。目前采用較多的技術有決策樹、分類、聚類、粗糙集、關聯規(guī)則、神經網絡、遺傳算法等。

第三十頁,共42頁。模式的評估、解釋通過上面步驟所得到的模式,有可能是沒有意義或沒有實用價值的,因此需要評估,確定那些是有效的、有用的模式。此外,大部分模式是用數學手段描述的表達式,很難被人理解,還需要將其解釋成可理解的方式以呈現給用戶。

第三十一頁,共42頁。知識運用發(fā)現知識是為了運用,如何使知識能被運用也是KDD的步驟之一。運用知識有兩種方法:一種是只需看知識本身所描述的關系或結果,就可以對決策提供支持;一種是要求對新的數據運用知識,由此可能產生新的問題,而需要對知識做進一步的優(yōu)化。KDD過程可能需要多次的循環(huán)反復,每一個步驟一旦與預期目標不符,都要回到前面的步驟,重新調整,重新執(zhí)行。第三十二頁,共42頁。實現流程數據挖掘過程的分步實現,不同的步驟需要不同的專業(yè)人員參與完成,大體分為三類:1)業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)務對象,并根據各業(yè)務對象確定出用于數據定義和挖掘算法的業(yè)務需求。2)數據分析人員:精通數據分析技術,并對統計學有較熟練的掌握,有能力把業(yè)務需求轉化為數據挖掘的各步操作,并為每步操作選擇合適的技術。3)數據管理人員:精通數據管理技術,并從數據庫或數據倉庫中收集數據。數據挖掘是一個多領域專家合作的過程,也是一個在資金上和技術上高投入的過程。數據挖掘過程要反復進行,在反復過程中,不斷地趨近事物的本質,不斷地優(yōu)先問題的解決方案。第三十三頁,共42頁。數據挖掘的應用數據挖掘技術的產生本身就有其強烈的應用需求背景,它從一開始就是面向應用的。數據挖掘技術在市場分析、業(yè)務管理、決策支持等方面有廣泛的應用,是實現CRM和BI的重要技術手段之一。具體涉及數據挖掘的商業(yè)問題:數據庫營銷(DatabaseMarketing)客戶群體劃分(CustomerSegmentation&Classification)背景分析(ProfileAnalysis)交叉銷售(Cross-selling)客戶流失分析(ChurnAnalysis)客戶信用評分(CreditScoring)欺詐甄別(FraudDetection)第三十四頁,共42頁。未來趨勢未來的熱點應用領域

網站的數據挖掘(Websitedatamining)生物信息或基因的數據挖掘文本挖掘(Textualmining)多媒體挖掘第三十五頁,共42頁。網站的數據挖掘(Websitedatamining)電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對這些數據進行分析和挖掘,及時地了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足于不同客戶群體需要的個性化網站,進而增加競爭力。網站的數據格式有很大一部分來自于點擊流,和傳統的數據庫格式有區(qū)別。因而對電子商務網站進行數據挖掘所做的主要工作是數據準備第三十六頁,共42頁。生物信息或基因的挖掘生物信息或基因數據挖掘則完全屬于另外一個領域,在商業(yè)上很難講有多大的價值,但對于人類卻受益非淺。例如,基因的組合千變萬化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的算法方面,都要復雜得多。從分析算法上講,更需要一些新的和高效的算法?,F在很多廠商正在致力于這方面的研究。但就技術和軟件而言,還遠沒有達到成熟的地步。

第三十七頁,共42頁。文本挖掘(Textualmining)文本挖掘是人們關心的另一個話題。例如,在客戶服務中心,把同客戶的談話轉化為文本數據,再對這些數據進行挖掘,進而了解客戶對服務的滿意程度和客戶的需求以及客戶之間的相互關系等信息。無論是在數據結構還是在分析處理方法方面,文本數據挖掘和數據挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,還有很多需要研究的專題。目前市場上有一些類似的軟件,但大部分方法只是把文本移來移去,或簡單地計算一下某些詞匯的出現頻率,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論