數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第1章_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第1章_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第1章_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第1章_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第1章_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘陳 昕2015.04數(shù)據(jù)挖掘掘的應(yīng)用用人文地理理數(shù)據(jù)挖掘掘的應(yīng)用用娛樂傳媒媒數(shù)據(jù)挖掘掘的應(yīng)用用智慧城市市數(shù)據(jù)挖掘掘的應(yīng)用用商業(yè)零售售數(shù)據(jù)挖掘掘的應(yīng)用用Web推薦數(shù)據(jù)挖掘掘的應(yīng)用用體育競技技VS數(shù)據(jù)挖掘掘的應(yīng)用用大數(shù)據(jù)應(yīng)應(yīng)用信息安全全輿情分析析能效優(yōu)化化商務(wù)智能能與數(shù)據(jù)據(jù)挖掘工工具商務(wù)智能能與數(shù)據(jù)據(jù)挖掘工工具商務(wù)智能能與數(shù)據(jù)據(jù)挖掘工工具商務(wù)智能能與數(shù)據(jù)據(jù)挖掘功功能計(jì)劃預(yù)測 預(yù)算 實(shí)際 分 析 沒有絕對正確的答案 依靠分析 眾多的預(yù)測方案 靈活的要求 核心:數(shù)數(shù)據(jù)參 考書書目目1.數(shù)據(jù)挖掘掘概念與與技術(shù),JiaweiHanMichelineKamber著,范明明、孟孟小峰等等譯,

2、機(jī)機(jī)械工工業(yè)出版版社出版版2.數(shù)據(jù)倉庫庫,W.H.Inmon著,王志志海等譯譯 ,機(jī)機(jī)械工工業(yè)出版版社出版版3.數(shù)據(jù)倉庫庫技術(shù)與與聯(lián)機(jī)分分析處理理,王珊珊等編編著,科科學(xué)出版版社出版版4.數(shù)據(jù)挖掘掘?qū)嵺`,OliviaParrRud著,朱揚(yáng)揚(yáng)勇、左子葉等譯,機(jī)機(jī)械工業(yè)業(yè)出版社社出版數(shù)據(jù)倉庫庫以及數(shù)數(shù)據(jù)挖掘掘是目前前數(shù)據(jù)庫庫領(lǐng)域最最為活躍躍的一個(gè)個(gè)方面,受到學(xué)學(xué)術(shù)界與與產(chǎn)業(yè)界界的廣泛泛關(guān)注。典型應(yīng)應(yīng)用環(huán)境境如DSS,EIS,ERP。大型數(shù)數(shù)據(jù)庫的的數(shù)據(jù)倉倉庫解決決方案有有:InformixMetaCubeOracleExpressSybaseQuickStartDataMartDB2DataWar

3、ehouseManagerSQLServerAnalysis servicesNCRTeradataWarehouse對各類海海量數(shù)據(jù)據(jù)需要自自動分析析、分類類、匯總總、發(fā)現(xiàn)現(xiàn)和描述述數(shù)據(jù)蘊(yùn)蘊(yùn)涵的趨趨勢、標(biāo)標(biāo)記異常常等課程簡介介各類管理理人員需需要從大大量復(fù)雜雜的業(yè)務(wù)務(wù)數(shù)據(jù)中中獲取各各自權(quán)限限內(nèi)的決決策信息息,及時(shí)時(shí)把握市市場變化化脈搏,作出正正確有效效的判斷斷與抉擇擇隨著數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)的逐日日運(yùn)行,數(shù)據(jù)將將堆積越越來越龐龐大數(shù)據(jù)處理理的重點(diǎn)點(diǎn)需要從從傳統(tǒng)業(yè)業(yè)務(wù)擴(kuò)展展到業(yè)務(wù)務(wù)數(shù)據(jù)的的聯(lián)機(jī)分分析處理理,并得得到面向向各種管管理主題題的統(tǒng)計(jì)計(jì)信息和和決策支支持信息息數(shù)據(jù)倉庫庫是基于于大規(guī)模模數(shù)據(jù)庫

4、庫的DSS環(huán)境的核核心課程簡介介數(shù)據(jù)倉庫庫的基本本概念多維數(shù)據(jù)據(jù)模型數(shù)據(jù)倉庫庫的系統(tǒng)統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫庫的實(shí)現(xiàn)現(xiàn)基于數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)挖挖掘課程簡介介數(shù)據(jù)挖掘掘通常稱稱為數(shù)據(jù)據(jù)庫中的的知識發(fā)現(xiàn)現(xiàn)(KDD),是自自動的或或方便的的模式提提取,這這些模式代表隱藏藏在大型型數(shù)據(jù)庫庫、數(shù)據(jù)據(jù)倉庫或或其他大大量信息息存儲中中的知識識涉及的學(xué)學(xué)科有:數(shù)據(jù)庫庫技術(shù)、人工智智能、機(jī)機(jī)器學(xué)習(xí)習(xí)、神經(jīng)經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)學(xué)、模式式識別、知識庫庫、知識識獲取、信息檢檢索、高高性能計(jì)計(jì)算和數(shù)數(shù)據(jù)可視視化課程簡介介數(shù)據(jù)挖掘掘的概念念數(shù)據(jù)挖掘掘的功能能數(shù)據(jù)挖掘掘的分類類與主要要問題數(shù)據(jù)挖掘掘系統(tǒng)的的結(jié)構(gòu)挖掘大型型數(shù)據(jù)庫庫中的關(guān)關(guān)聯(lián)

5、規(guī)則則分類與預(yù)預(yù)測聚類分析析復(fù)雜類型型的數(shù)據(jù)據(jù)挖掘數(shù)據(jù)倉庫庫與數(shù)據(jù)據(jù)挖掘的的應(yīng)用與與發(fā)展趨趨勢課程簡介介一、數(shù)據(jù)據(jù)倉庫與與數(shù)據(jù)挖挖掘概述述二、數(shù)據(jù)據(jù)倉庫的的OLAP技術(shù)三、數(shù)據(jù)據(jù)預(yù)處理理四、數(shù)據(jù)據(jù)挖掘的的系統(tǒng)結(jié)結(jié)構(gòu)五、挖掘掘大型數(shù)數(shù)據(jù)庫中中的關(guān)聯(lián)聯(lián)規(guī)則六、分類類與預(yù)測測七、聚類類分析八、復(fù)雜雜類型的的數(shù)據(jù)挖挖掘九、數(shù)據(jù)據(jù)倉庫與與數(shù)據(jù)挖挖掘的應(yīng)應(yīng)用與發(fā)發(fā)展趨勢勢課程結(jié)構(gòu)構(gòu)1.什么是數(shù)數(shù)據(jù)倉庫庫2.什么是數(shù)數(shù)據(jù)挖掘掘3.數(shù)據(jù)挖掘掘的功能能4.數(shù)據(jù)挖掘掘的分類類5.數(shù)據(jù)挖掘掘的主要要問題第一章數(shù)數(shù)據(jù)倉庫庫與數(shù)據(jù)據(jù)挖掘概概述第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫1.數(shù)據(jù)倉庫庫的產(chǎn)生生當(dāng)前的數(shù)數(shù)據(jù)處理理與數(shù)據(jù)據(jù)分為

6、兩兩類:操作型處處理與數(shù)數(shù)據(jù)分析型或或信息型型處理與與數(shù)據(jù)第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫1.數(shù)據(jù)倉庫庫的產(chǎn)生生操作型處處理:又又稱事務(wù)務(wù)處理,是指對對數(shù)據(jù)庫庫聯(lián)機(jī)的的日常操操作,通通常是對對一個(gè)或或一組記記錄的查查詢和修修改,主主要為企企業(yè)的特特定應(yīng)用用服務(wù),所關(guān)心心的是響響應(yīng)時(shí)間間,數(shù)據(jù)據(jù)的安全全性和完完整性操作型環(huán)環(huán)境是以以單一數(shù)數(shù)據(jù)庫為為中心的的數(shù)據(jù)環(huán)環(huán)境第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫1.數(shù)據(jù)倉庫庫的產(chǎn)生生分析型處處理:又又稱信息息型處理理,是針針對制定定決策過過程中管管理方面面的需求求而進(jìn)行行的處理理,通過過瀏覽大大量數(shù)據(jù)據(jù)找出其其中的趨趨勢。如如DSS,EIS等分析型環(huán)環(huán)境是一一種新的的體系

7、化化環(huán)境操作型數(shù)據(jù)(原始數(shù)據(jù))分析型數(shù)據(jù)(導(dǎo)出數(shù)據(jù))細(xì)節(jié)的綜合的,或提煉的在存取瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個(gè)時(shí)刻操作一個(gè)單元一個(gè)時(shí)刻操作一個(gè)集合事務(wù)驅(qū)動分析驅(qū)動面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫1.數(shù)據(jù)倉庫庫的產(chǎn)生生操作型數(shù)數(shù)據(jù)和分分析型數(shù)數(shù)據(jù)的不不同而導(dǎo)導(dǎo)致的數(shù)數(shù)據(jù)分離離和自然然擴(kuò)展過過程:操作型原子/數(shù)據(jù)倉庫部門/數(shù)據(jù)集市個(gè)體第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義數(shù)據(jù)倉庫庫之父W

8、.H.Inmon給出了定定義:數(shù)據(jù)倉庫庫是一個(gè)面面向主題題的、集集成的、不可更更新的且且隨時(shí)間間不斷變變化的數(shù)數(shù)據(jù)集合合,用來來支持管管理人員員的決策策第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義面向主題題主題:是是在較高高層次上上將企業(yè)業(yè)信息系系統(tǒng)中的的數(shù)據(jù)綜綜合、歸歸類并進(jìn)進(jìn)行分析析利用的的抽象,即對應(yīng)應(yīng)企業(yè)中中某一宏宏觀分析析領(lǐng)域所所涉及的的分析對對象面向主題題的數(shù)據(jù)據(jù)組織方方式就是是對分析析對象的的數(shù)據(jù)的的一個(gè)完完整、一一致的描描述,能能完整、統(tǒng)一地地刻畫各各個(gè)分析析對象所所涉及的的企業(yè)各各項(xiàng)數(shù)據(jù)據(jù),以及及數(shù)據(jù)之之間的聯(lián)聯(lián)系第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義面向主題題

9、每個(gè)主題題在數(shù)據(jù)據(jù)倉庫中中都是由由一組關(guān)關(guān)系表實(shí)實(shí)現(xiàn)的主題的實(shí)實(shí)現(xiàn)基于于關(guān)系數(shù)數(shù)據(jù)庫在具體實(shí)實(shí)現(xiàn)中,一個(gè)主主題可以以劃分成成多個(gè)表表,主題題只是一一個(gè)邏輯輯的概念念基于一個(gè)個(gè)主題的的所有表表都含有有一個(gè)稱稱為公共共鍵碼的的屬性作作為其主主碼的一一部分第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義面向主題題Customer IDFrom date To dateNameAddressPhoneSexCustomer IDFrom date To dateNameAddressCredit ratingemployerSexCustomer IDActivity dateAmountLocati

10、onFor item第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)是集成成的要統(tǒng)一源源數(shù)據(jù)中中所有矛矛盾之處處,如同同名異義義、字長長不一致致等等進(jìn)行數(shù)據(jù)據(jù)綜合和和計(jì)算。數(shù)據(jù)綜綜合可以以從原有有數(shù)據(jù)庫庫抽取數(shù)數(shù)據(jù)生成成,但許許多是在在數(shù)據(jù)倉倉庫內(nèi)部部生成第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義數(shù)據(jù)倉庫庫數(shù)據(jù)是是不可更更新數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)主要供供企業(yè)決決策分析析使用,所涉及及的數(shù)據(jù)據(jù)操作主主要是數(shù)數(shù)據(jù)查詢詢,一般般不進(jìn)行行修改操操作數(shù)據(jù)庫中中進(jìn)行聯(lián)聯(lián)機(jī)處理理的數(shù)據(jù)據(jù)經(jīng)過集集成輸入入到數(shù)據(jù)據(jù)倉庫中中,數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)超過存存儲期限限,這些些數(shù)據(jù)將將從當(dāng)前前數(shù)據(jù)倉

11、倉庫中刪刪去DWMS比DBMS簡單,但但查詢要要求高第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫2.數(shù)據(jù)倉庫庫的定義義數(shù)據(jù)倉庫庫數(shù)據(jù)隨隨時(shí)間不不斷變化化數(shù)據(jù)倉庫庫隨時(shí)間間變化不不斷增加加新的內(nèi)內(nèi)容數(shù)據(jù)倉庫庫隨時(shí)間間變化不不斷刪除除舊的內(nèi)內(nèi)容數(shù)據(jù)倉庫庫中包含含有大量量的綜合合數(shù)據(jù),這些數(shù)數(shù)據(jù)隨時(shí)時(shí)間變化化不斷地地進(jìn)行重重新綜合合數(shù)據(jù)倉庫庫數(shù)據(jù)的的碼鍵包包含時(shí)間間項(xiàng),標(biāo)標(biāo)明歷史史時(shí)期第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.1組織結(jié)構(gòu)構(gòu)元數(shù)據(jù)高度綜合級輕度綜合級當(dāng)前細(xì)節(jié)級早期細(xì)節(jié)級20022003年每月銷售表20022003年每周銷售表20022003年銷售情況表20002003年銷售明細(xì)表第一節(jié)什什

12、么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.1組織結(jié)構(gòu)構(gòu)數(shù)據(jù)倉庫庫中的不不同綜合合級別,稱為“粒度”。粒度度越大,表示細(xì)細(xì)節(jié)程度度越低,綜合程程度越高高元數(shù)據(jù)(metadata):關(guān)于于數(shù)據(jù)的的數(shù)據(jù)操作型環(huán)環(huán)境向數(shù)數(shù)據(jù)倉庫庫環(huán)境轉(zhuǎn)轉(zhuǎn)換而建建立的元數(shù)據(jù)數(shù)據(jù)倉庫庫中用來來與終端端用戶的的多維商商業(yè)模型型/前端工具具之間建建立映射射,也為為DSS元數(shù)據(jù)第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.2粒度與分分割粒度是數(shù)數(shù)據(jù)倉庫庫的重要要概念粒度是指指數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)單位位中保存存數(shù)據(jù)的的細(xì)化或或綜合程程度的級級別細(xì)化程度度越高,粒度級級就越小??;細(xì)化化程度越越低粒度度級就越越大一般采用

13、用多重粒粒度級:高細(xì)節(jié)節(jié)級、低低細(xì)節(jié)級級第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.2粒度與分分割分割是數(shù)數(shù)據(jù)倉庫庫的重要要概念分割是指指將數(shù)據(jù)據(jù)分散到到各自的的物理單單元中去去以便能能分別獨(dú)獨(dú)立處理理,以提提高數(shù)據(jù)據(jù)處理效效率數(shù)據(jù)分割割后的數(shù)數(shù)據(jù)單元元稱為分分片數(shù)據(jù)分割割標(biāo)準(zhǔn)依依據(jù)實(shí)際際情況確確定,一一般應(yīng)包包括日期期項(xiàng)分割使數(shù)數(shù)據(jù)更易易重構(gòu)、索引、重組、恢復(fù)、監(jiān)控第一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.2粒度與分分割簡單分割割實(shí)例,分片以以時(shí)間標(biāo)標(biāo)準(zhǔn)來組組織:健康保險(xiǎn)生命保險(xiǎn)事故保險(xiǎn)2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9第

14、一節(jié)什什么么是數(shù)據(jù)據(jù)倉庫3.數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織3.3數(shù)據(jù)組織織形式簡單堆積積文件:數(shù)據(jù)逐逐天積累累輪轉(zhuǎn)綜合合文件:按日、周、月月、年組組織數(shù)據(jù)據(jù)集簡化直接接文件:每隔一一定時(shí)間間的數(shù)據(jù)據(jù)庫快照照連續(xù)文件件:通過過比較兩兩個(gè)簡單單直接文文件不同同而生成成第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘1.數(shù)據(jù)挖掘掘的提出出數(shù)據(jù)挖掘掘是信息息技術(shù)自自然演化化的結(jié)果果數(shù)據(jù)收集集、數(shù)據(jù)據(jù)庫創(chuàng)建建數(shù)據(jù)管理理:數(shù)據(jù)據(jù)存儲和和檢索,數(shù)據(jù)庫庫事務(wù)處處理數(shù)據(jù)分析析與理解解:涉及及數(shù)據(jù)倉倉庫和數(shù)數(shù)據(jù)挖掘掘第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘1.數(shù)據(jù)挖掘掘的提出出數(shù)據(jù)庫技技術(shù)的發(fā)發(fā)展歷史史20世紀(jì)60年代,功功能強(qiáng)大大的數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)70年代

15、,從從網(wǎng)狀和和層次到到關(guān)系數(shù)數(shù)據(jù)庫系系統(tǒng)、建建模工具具、索引引和數(shù)據(jù)據(jù)組織技技術(shù),聯(lián)聯(lián)機(jī)事務(wù)務(wù)處理OLTP80年代,使使用先進(jìn)進(jìn)的數(shù)據(jù)據(jù)模型,如面向向?qū)ο竽DP?、對對象關(guān)系系模型、演繹模模型第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘1.數(shù)據(jù)挖掘掘的提出出數(shù)據(jù)倉庫庫技術(shù)數(shù)據(jù)清理理:文件件之間轉(zhuǎn)轉(zhuǎn)換、存存儲介質(zhì)質(zhì)轉(zhuǎn)移、清除過過期數(shù)據(jù)據(jù)、層次次轉(zhuǎn)換(操作型型到分析析型)數(shù)據(jù)集成成:從操操作型環(huán)環(huán)境到分分析型環(huán)環(huán)境聯(lián)機(jī)分析析處理OLAP:是一種種分析技技術(shù),具具有匯總總、合并并和聚集集功能,以及從從不同角角度觀察察信息的的能力第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘1.數(shù)據(jù)挖掘掘的提出出數(shù)據(jù)的豐豐富增強(qiáng)強(qiáng)了對功功能更強(qiáng)強(qiáng)的數(shù)據(jù)據(jù)分

16、析工工具的需需求對海量數(shù)數(shù)據(jù)的理理解,遠(yuǎn)遠(yuǎn)遠(yuǎn)超出出人的能能力,產(chǎn)產(chǎn)生“數(shù)數(shù)據(jù)墳?zāi)鼓埂睕Q策者缺缺乏從海海量數(shù)據(jù)據(jù)中提取取有價(jià)值值知識的的工具,許多專專家系統(tǒng)統(tǒng)技術(shù)還還是依賴賴經(jīng)驗(yàn)數(shù)據(jù)挖掘掘工具進(jìn)進(jìn)行數(shù)據(jù)據(jù)分析,可以發(fā)發(fā)現(xiàn)重要要的數(shù)據(jù)據(jù)模式,破除數(shù)數(shù)據(jù)與信信息的鴻鴻溝第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義數(shù)據(jù)挖掘掘是指從大大量數(shù)據(jù)據(jù)中提取取或“挖挖掘”知知識。通通常也可可理解為為數(shù)據(jù)庫庫中的知知識發(fā)現(xiàn)現(xiàn)KDD,也可以以理解為為KDD的一個(gè)基基本步驟驟。還有有提法:數(shù)據(jù)庫中中知識挖挖掘知識提取取數(shù)據(jù)/模式分析析數(shù)據(jù)考古古數(shù)據(jù)捕撈撈第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義知識發(fā)現(xiàn)現(xiàn)過

17、程7個(gè)步驟如如下:1)數(shù)據(jù)清清理:消消除噪聲聲或不一一致2)數(shù)據(jù)集集成:多多種數(shù)據(jù)據(jù)源組合合在一起起3)數(shù)據(jù)選選擇:從從數(shù)據(jù)庫庫中檢索索與分析析任務(wù)相相關(guān)的數(shù)數(shù)據(jù)。4)數(shù)據(jù)變變換:數(shù)數(shù)據(jù)變換換或統(tǒng)一一成適合合挖掘的的形式,如匯總總或聚集集操作5)數(shù)據(jù)挖挖掘:使使用智能能方法提提取數(shù)據(jù)據(jù)模式第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義知識發(fā)現(xiàn)現(xiàn)過程7個(gè)步驟如如下:6)模式評評估:根根據(jù)某種種興趣度度量,識識別表示示知識的的真正有有趣的模模式7)知識表表示:使使用可視視化和知知識表示示技術(shù),向用戶戶提供挖挖掘的知知識第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義知識發(fā)現(xiàn)現(xiàn)過程7個(gè)步驟如如下:

18、數(shù)據(jù)倉庫知識數(shù)據(jù)庫清理與集成選擇與變換數(shù)據(jù)挖掘模式評估與表示第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘2.數(shù)據(jù)挖掘掘的定義義數(shù)據(jù)挖掘掘的廣義定定義:數(shù)數(shù)據(jù)挖掘掘是從存存放在數(shù)數(shù)據(jù)庫、數(shù)據(jù)倉倉庫或其其他信息息庫中的的大量數(shù)數(shù)據(jù)中挖挖掘有趣趣知識的的過程第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘3.數(shù)據(jù)挖掘掘系統(tǒng)的的主要成成分?jǐn)?shù)據(jù)庫、數(shù)據(jù)倉倉庫或其其他信息息庫數(shù)據(jù)庫或或數(shù)據(jù)倉倉庫服務(wù)務(wù)器知識庫數(shù)據(jù)挖掘掘引擎模式評估估模塊圖形用戶戶界面第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘4.數(shù)據(jù)挖掘掘的應(yīng)用用環(huán)境關(guān)系數(shù)據(jù)據(jù)庫數(shù)據(jù)倉庫庫事務(wù)數(shù)據(jù)據(jù)庫高級數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)和高級級數(shù)據(jù)庫庫第二節(jié)什什么么是數(shù)據(jù)據(jù)挖掘第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能1.數(shù)據(jù)挖掘掘功能數(shù)據(jù)挖掘掘

19、功能用于指定定數(shù)據(jù)挖掘掘任務(wù)中要找的的模式類類型。數(shù)數(shù)據(jù)挖挖掘任務(wù)務(wù)一般分分為兩類類:描述和預(yù)測描述性挖挖掘任務(wù)務(wù)刻劃數(shù)數(shù)據(jù)庫中中數(shù)據(jù)的的一般特特性預(yù)測性挖挖掘任務(wù)務(wù)在當(dāng)前前數(shù)據(jù)上上進(jìn)行推推斷,以以進(jìn)行預(yù)預(yù)測第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能2.概念/類描述:特征化化和區(qū)分分?jǐn)?shù)據(jù)可以以與類或或概念相相關(guān)聯(lián)。用匯總總的、簡簡潔的、精確的的方式描描述每個(gè)個(gè)類和概概念稱為為類/概念描述述這種描述述可以通通過以下下方法得得到:數(shù)據(jù)特征征化:目目標(biāo)類數(shù)數(shù)據(jù)的一一般特征征或特性性的匯總總數(shù)據(jù)區(qū)分分:將目目標(biāo)類對對象的一一般特性性與一個(gè)個(gè)或多個(gè)個(gè)對比類類對象的的一般特特性進(jìn)行行比較數(shù)據(jù)特征征化和比比較第三節(jié)數(shù)數(shù)據(jù)據(jù)挖

20、掘功功能3.關(guān)聯(lián)分析析關(guān)聯(lián)分析析發(fā)現(xiàn)關(guān)聯(lián)聯(lián)規(guī)則,這些規(guī)規(guī)則展示示屬性-值頻繁地地在給定定數(shù)據(jù)集集中一起起出現(xiàn)的的條件。關(guān)聯(lián)分分析適用用于事務(wù)務(wù)數(shù)據(jù)分分析關(guān)聯(lián)規(guī)則則形式化描描述為,解釋為為“滿足足X中條件的的數(shù)據(jù)庫庫元組也也滿足Y中的條件件”多維關(guān)聯(lián)聯(lián)規(guī)則一個(gè)以上上屬性或或謂詞之之間的關(guān)關(guān)聯(lián)規(guī)則則單維關(guān)聯(lián)聯(lián)規(guī)則包含單個(gè)個(gè)謂詞的的關(guān)聯(lián)規(guī)規(guī)則第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能4.分類與預(yù)預(yù)測分類就是找出出描述并并區(qū)分?jǐn)?shù)數(shù)據(jù)類或或概念的的模型(或函數(shù)數(shù)),以以便能夠夠使用模模型預(yù)測測類標(biāo)記未未知的對象類類預(yù)測是構(gòu)造和和使用模模型評估估無標(biāo)號號樣本類類,或評評估給定定樣本可可能具有有的屬性性值或值值區(qū)間第三節(jié)數(shù)數(shù)

21、據(jù)據(jù)挖掘功功能4.分類與預(yù)預(yù)測數(shù)據(jù)分類類的基本本技術(shù)有有:判定樹歸歸納貝葉斯分分類貝葉斯網(wǎng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)絡(luò)第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能5.聚類分析析將物理或或抽象對對象的集集合分組組成為由由類似的的對象組組成的多多個(gè)類的的過程成成為聚類(clustering)由聚類所所生成的的簇是一一組數(shù)據(jù)據(jù)對象的的集合,同一簇簇中的的對象彼彼此相似似,而與與其他簇簇中的對對象相異異通過聚類類,人能能夠識別別密集的的和稀疏疏的區(qū)域域,因而而發(fā)現(xiàn)全全局的分分布模式式,以及及數(shù)據(jù)屬屬性之間間的有趣趣的相互互關(guān)系聚類第三節(jié)數(shù)數(shù)據(jù)據(jù)挖掘功功能5.聚類分析析聚類分析析是數(shù)據(jù)挖挖掘的一一個(gè)功能能,能夠夠作為一一個(gè)獨(dú)立立的工具具來獲得得數(shù)據(jù)分分布的情情況,觀觀察每個(gè)個(gè)簇的特特點(diǎn),集集中對特特定的某某些簇做做進(jìn)一步步的分析析。此外外,聚類類分析也也可以作作為其他他算法的的預(yù)處理理步驟聚類技術(shù)術(shù)主要有有:劃

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論