版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘陳昕chenxin@2015.04數(shù)據(jù)倉庫與數(shù)據(jù)挖掘陳昕數(shù)據(jù)挖掘的應(yīng)用—人文地理數(shù)據(jù)挖掘的應(yīng)用—人文地理數(shù)據(jù)挖掘的應(yīng)用—娛樂傳媒數(shù)據(jù)挖掘的應(yīng)用—娛樂傳媒數(shù)據(jù)挖掘的應(yīng)用—智慧城市數(shù)據(jù)挖掘的應(yīng)用—智慧城市數(shù)據(jù)挖掘的應(yīng)用—商業(yè)零售數(shù)據(jù)挖掘的應(yīng)用—商業(yè)零售數(shù)據(jù)挖掘的應(yīng)用—Web推薦數(shù)據(jù)挖掘的應(yīng)用—Web推薦數(shù)據(jù)挖掘的應(yīng)用—體育競(jìng)技VS數(shù)據(jù)挖掘的應(yīng)用—體育競(jìng)技VS數(shù)據(jù)挖掘的應(yīng)用—大數(shù)據(jù)應(yīng)用信息安全輿情分析能效優(yōu)化數(shù)據(jù)挖掘的應(yīng)用—大數(shù)據(jù)應(yīng)用信息安全輿情分析能效優(yōu)化商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘功能計(jì)劃預(yù)測(cè)預(yù)算
實(shí)際
分析
沒有絕對(duì)正確的答案
依靠分析
眾多的預(yù)測(cè)方案
靈活的要求核心:數(shù)據(jù)商務(wù)智能與數(shù)據(jù)挖掘功能計(jì)劃預(yù)測(cè)預(yù)算實(shí)際分析參考書目1.《數(shù)據(jù)挖掘概念與技術(shù)》,JiaweiHanMichelineKamber著,范明、孟小峰等譯,機(jī)械工業(yè)出版社出版2.《數(shù)據(jù)倉庫》,W.H.Inmon著,王志海等譯,機(jī)械工業(yè)出版社出版3.《數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理》,王珊等編著,科學(xué)出版社出版4.《數(shù)據(jù)挖掘?qū)嵺`》,OliviaParrRud著,朱揚(yáng)勇、左子葉等譯,機(jī)械工業(yè)出版社出版參考書目1.《數(shù)據(jù)挖掘概念與技術(shù)》,Jiawei數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘是目前數(shù)據(jù)庫領(lǐng)域最為活躍的一個(gè)方面,受到學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛關(guān)注。典型應(yīng)用環(huán)境如DSS,EIS,ERP。大型數(shù)據(jù)庫的數(shù)據(jù)倉庫解決方案有:
InformixMetaCubeOracleExpressSybaseQuickStartDataMartDB2DataWarehouseManagerSQLServerAnalysisservices
NCRTeradataWarehouse對(duì)各類海量數(shù)據(jù)需要自動(dòng)分析、分類、匯總、發(fā)現(xiàn)和描述數(shù)據(jù)蘊(yùn)涵的趨勢(shì)、標(biāo)記異常等課程簡介數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘是目前數(shù)據(jù)庫領(lǐng)域最為活躍的一個(gè)方面,受到
各類管理人員需要從大量復(fù)雜的業(yè)務(wù)數(shù)據(jù)中獲取各自權(quán)限內(nèi)的決策信息,及時(shí)把握市場(chǎng)變化脈搏,作出正確有效的判斷與抉擇隨著數(shù)據(jù)庫系統(tǒng)的逐日運(yùn)行,數(shù)據(jù)將堆積越來越龐大數(shù)據(jù)處理的重點(diǎn)需要從傳統(tǒng)業(yè)務(wù)擴(kuò)展到業(yè)務(wù)數(shù)據(jù)的聯(lián)機(jī)分析處理,并得到面向各種管理主題的統(tǒng)計(jì)信息和決策支持信息數(shù)據(jù)倉庫是基于大規(guī)模數(shù)據(jù)庫的DSS環(huán)境的核心課程簡介各類管理人員需要從大量復(fù)雜的業(yè)務(wù)數(shù)據(jù)中獲取各自權(quán)限內(nèi)的決策
數(shù)據(jù)倉庫的基本概念多維數(shù)據(jù)模型數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫的實(shí)現(xiàn)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘課程簡介數(shù)據(jù)倉庫的基本概念課程簡介數(shù)據(jù)挖掘通常稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD),是自動(dòng)的或方便的模式提取,這些模式代表隱藏在大型數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他大量信息存儲(chǔ)中的知識(shí)涉及的學(xué)科有:數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)、模式識(shí)別、知識(shí)庫、知識(shí)獲取、信息檢索、高性能計(jì)算和數(shù)據(jù)可視化課程簡介課程簡介數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘的分類與主要問題數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則分類與預(yù)測(cè)聚類分析復(fù)雜類型的數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應(yīng)用與發(fā)展趨勢(shì)課程簡介數(shù)據(jù)挖掘的概念課程簡介一、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述二、數(shù)據(jù)倉庫的OLAP技術(shù)三、數(shù)據(jù)預(yù)處理四、數(shù)據(jù)挖掘的系統(tǒng)結(jié)構(gòu)五、挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則六、分類與預(yù)測(cè)七、聚類分析八、復(fù)雜類型的數(shù)據(jù)挖掘九、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應(yīng)用與發(fā)展趨勢(shì)課程結(jié)構(gòu)一、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述課程結(jié)構(gòu)1.什么是數(shù)據(jù)倉庫2.什么是數(shù)據(jù)挖掘3.數(shù)據(jù)挖掘的功能4.數(shù)據(jù)挖掘的分類5.數(shù)據(jù)挖掘的主要問題第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述1.什么是數(shù)據(jù)倉庫第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生當(dāng)前的數(shù)據(jù)處理與數(shù)據(jù)分為兩類:操作型處理與數(shù)據(jù)分析型或信息型處理與數(shù)據(jù)第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生操作型處理:又稱事務(wù)處理,是指對(duì)數(shù)據(jù)庫聯(lián)機(jī)的日常操作,通常是對(duì)一個(gè)或一組記錄的查詢和修改,主要為企業(yè)的特定應(yīng)用服務(wù),所關(guān)心的是響應(yīng)時(shí)間,數(shù)據(jù)的安全性和完整性操作型環(huán)境是以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生分析型處理:又稱信息型處理,是針對(duì)制定決策過程中管理方面的需求而進(jìn)行的處理,通過瀏覽大量數(shù)據(jù)找出其中的趨勢(shì)。如DSS,EIS等分析型環(huán)境是一種新的體系化環(huán)境第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生操作型數(shù)據(jù)(原始數(shù)據(jù))分析型數(shù)據(jù)(導(dǎo)出數(shù)據(jù))細(xì)節(jié)的綜合的,或提煉的在存取瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對(duì)性能要求高對(duì)性能要求寬松一個(gè)時(shí)刻操作一個(gè)單元一個(gè)時(shí)刻操作一個(gè)集合事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求第一節(jié)什么是數(shù)據(jù)倉庫操作型數(shù)據(jù)(原始數(shù)據(jù))分析型數(shù)據(jù)(導(dǎo)出數(shù)據(jù))細(xì)節(jié)的綜合的,或第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生操作型數(shù)據(jù)和分析型數(shù)據(jù)的不同而導(dǎo)致的數(shù)據(jù)分離和自然擴(kuò)展過程:操作型原子/數(shù)據(jù)倉庫部門/數(shù)據(jù)集市個(gè)體第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生操作型原子/部門第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫之父W.H.Inmon給出了定義:數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、不可更新的且隨時(shí)間不斷變化的數(shù)據(jù)集合,用來支持管理人員的決策第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義面向主題主題:是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象,即對(duì)應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象面向主題的數(shù)據(jù)組織方式就是對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述,能完整、統(tǒng)一地刻畫各個(gè)分析對(duì)象所涉及的企業(yè)各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義面向主題每個(gè)主題在數(shù)據(jù)倉庫中都是由一組關(guān)系表實(shí)現(xiàn)的主題的實(shí)現(xiàn)基于關(guān)系數(shù)據(jù)庫在具體實(shí)現(xiàn)中,一個(gè)主題可以劃分成多個(gè)表,主題只是一個(gè)邏輯的概念基于一個(gè)主題的所有表都含有一個(gè)稱為公共鍵碼的屬性作為其主碼的一部分第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義面向主題CustomerIDFromdateTodateNameAddressPhoneSex…CustomerIDFromdateTodateNameAddressCreditratingemployerSex…CustomerIDActivitydateAmountLocationForitem…第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義Customer第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫的數(shù)據(jù)是集成的要統(tǒng)一源數(shù)據(jù)中所有矛盾之處,如同名異義、字長不一致等等進(jìn)行數(shù)據(jù)綜合和計(jì)算。數(shù)據(jù)綜合可以從原有數(shù)據(jù)庫抽取數(shù)據(jù)生成,但許多是在數(shù)據(jù)倉庫內(nèi)部生成第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫數(shù)據(jù)是不可更新數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析使用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般不進(jìn)行修改操作數(shù)據(jù)庫中進(jìn)行聯(lián)機(jī)處理的數(shù)據(jù)經(jīng)過集成輸入到數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫中的數(shù)據(jù)超過存儲(chǔ)期限,這些數(shù)據(jù)將從當(dāng)前數(shù)據(jù)倉庫中刪去DWMS比DBMS簡單,但查詢要求高第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫數(shù)據(jù)隨時(shí)間不斷變化數(shù)據(jù)倉庫隨時(shí)間變化不斷增加新的內(nèi)容數(shù)據(jù)倉庫隨時(shí)間變化不斷刪除舊的內(nèi)容數(shù)據(jù)倉庫中包含有大量的綜合數(shù)據(jù),這些數(shù)據(jù)隨時(shí)間變化不斷地進(jìn)行重新綜合數(shù)據(jù)倉庫數(shù)據(jù)的碼鍵包含時(shí)間項(xiàng),標(biāo)明歷史時(shí)期第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.1組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)2002~2003年每月銷售表2002~2003年每周銷售表2002~2003年銷售情況表2000~2003年銷售明細(xì)表第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織元數(shù)據(jù)高度綜第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.1組織結(jié)構(gòu)數(shù)據(jù)倉庫中的不同綜合級(jí)別,稱為“粒度”。粒度越大,表示細(xì)節(jié)程度越低,綜合程度越高元數(shù)據(jù)(metadata):關(guān)于數(shù)據(jù)的數(shù)據(jù)操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù)數(shù)據(jù)倉庫中用來與終端用戶的多維商業(yè)模型/前端工具之間建立映射,也為DSS元數(shù)據(jù)第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.2粒度與分割粒度是數(shù)據(jù)倉庫的重要概念粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別細(xì)化程度越高,粒度級(jí)就越?。患?xì)化程度越低粒度級(jí)就越大一般采用多重粒度級(jí):高細(xì)節(jié)級(jí)、低細(xì)節(jié)級(jí)第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.2粒度與分割分割是數(shù)據(jù)倉庫的重要概念分割是指將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理,以提高數(shù)據(jù)處理效率數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片數(shù)據(jù)分割標(biāo)準(zhǔn)依據(jù)實(shí)際情況確定,一般應(yīng)包括日期項(xiàng)分割使數(shù)據(jù)更易重構(gòu)、索引、重組、恢復(fù)、監(jiān)控第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.2粒度與分割簡單分割實(shí)例,分片以時(shí)間標(biāo)準(zhǔn)來組織:健康保險(xiǎn)生命保險(xiǎn)事故保險(xiǎn)2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織健康保險(xiǎn)生命第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.3數(shù)據(jù)組織形式
簡單堆積文件:數(shù)據(jù)逐天積累輪轉(zhuǎn)綜合文件:按日、周、月、年組織數(shù)據(jù)集簡化直接文件:每隔一定時(shí)間的數(shù)據(jù)庫快照連續(xù)文件:通過比較兩個(gè)簡單直接文件不同而生成第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果數(shù)據(jù)收集、數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)管理:數(shù)據(jù)存儲(chǔ)和檢索,數(shù)據(jù)庫事務(wù)處理數(shù)據(jù)分析與理解:涉及數(shù)據(jù)倉庫和數(shù)據(jù)挖掘第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出數(shù)據(jù)庫技術(shù)的發(fā)展歷史20世紀(jì)60年代,功能強(qiáng)大的數(shù)據(jù)庫系統(tǒng)70年代,從網(wǎng)狀和層次到關(guān)系數(shù)據(jù)庫系統(tǒng)、建模工具、索引和數(shù)據(jù)組織技術(shù),聯(lián)機(jī)事務(wù)處理OLTP80年代,使用先進(jìn)的數(shù)據(jù)模型,如面向?qū)ο竽P汀?duì)象關(guān)系模型、演繹模型第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)清理:文件之間轉(zhuǎn)換、存儲(chǔ)介質(zhì)轉(zhuǎn)移、清除過期數(shù)據(jù)、層次轉(zhuǎn)換(操作型到分析型)數(shù)據(jù)集成:從操作型環(huán)境到分析型環(huán)境聯(lián)機(jī)分析處理OLAP:是一種分析技術(shù),具有匯總、合并和聚集功能,以及從不同角度觀察信息的能力第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出數(shù)據(jù)的豐富增強(qiáng)了對(duì)功能更強(qiáng)的數(shù)據(jù)分析工具的需求對(duì)海量數(shù)據(jù)的理解,遠(yuǎn)遠(yuǎn)超出人的能力,產(chǎn)生“數(shù)據(jù)墳?zāi)埂睕Q策者缺乏從海量數(shù)據(jù)中提取有價(jià)值知識(shí)的工具,許多專家系統(tǒng)技術(shù)還是依賴經(jīng)驗(yàn)數(shù)據(jù)挖掘工具進(jìn)行數(shù)據(jù)分析,可以發(fā)現(xiàn)重要的數(shù)據(jù)模式,破除數(shù)據(jù)與信息的鴻溝第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。通常也可理解為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)KDD,也可以理解為KDD的一個(gè)基本步驟。還有提法:數(shù)據(jù)庫中知識(shí)挖掘知識(shí)提取數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義知識(shí)發(fā)現(xiàn)過程7個(gè)步驟如下:1)數(shù)據(jù)清理:消除噪聲或不一致2)數(shù)據(jù)集成:多種數(shù)據(jù)源組合在一起3)數(shù)據(jù)選擇:從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。4)數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如匯總或聚集操作5)數(shù)據(jù)挖掘:使用智能方法提取數(shù)據(jù)模式第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義知識(shí)發(fā)現(xiàn)過程7個(gè)步驟如下:6)模式評(píng)估:根據(jù)某種興趣度量,識(shí)別表示知識(shí)的真正有趣的模式7)知識(shí)表示:使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí)第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義知識(shí)發(fā)現(xiàn)過程7個(gè)步驟如下:數(shù)據(jù)倉庫知識(shí)數(shù)據(jù)庫清理與集成選擇與變換數(shù)據(jù)挖掘模式評(píng)估與表示第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義數(shù)據(jù)倉庫知識(shí)數(shù)據(jù)第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的廣義定義:數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過程第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義第二節(jié)什么是數(shù)據(jù)挖掘3.數(shù)據(jù)挖掘系統(tǒng)的主要成分
數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器知識(shí)庫數(shù)據(jù)挖掘引擎模式評(píng)估模塊圖形用戶界面第二節(jié)什么是數(shù)據(jù)挖掘3.數(shù)據(jù)挖掘系統(tǒng)的主要成分第二節(jié)什么是數(shù)據(jù)挖掘4.數(shù)據(jù)挖掘的應(yīng)用環(huán)境關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫高級(jí)數(shù)據(jù)庫系統(tǒng)和高級(jí)數(shù)據(jù)庫第二節(jié)什么是數(shù)據(jù)挖掘4.數(shù)據(jù)挖掘的應(yīng)用環(huán)境第二節(jié)什么是數(shù)據(jù)挖掘第二節(jié)什么是數(shù)據(jù)挖掘第三節(jié)數(shù)據(jù)挖掘功能1.數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。數(shù)據(jù)挖掘任務(wù)一般分為兩類:描述和預(yù)測(cè)
描述性挖掘任務(wù)刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)第三節(jié)數(shù)據(jù)挖掘功能1.數(shù)據(jù)挖掘功能第三節(jié)數(shù)據(jù)挖掘功能2.概念/類描述:特征化和區(qū)分?jǐn)?shù)據(jù)可以與類或概念相關(guān)聯(lián)。用匯總的、簡潔的、精確的方式描述每個(gè)類和概念稱為類/概念描述這種描述可以通過以下方法得到:數(shù)據(jù)特征化:目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總數(shù)據(jù)區(qū)分:將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性進(jìn)行比較數(shù)據(jù)特征化和比較第三節(jié)數(shù)據(jù)挖掘功能2.概念/類描述:特征化和區(qū)分第三節(jié)數(shù)據(jù)挖掘功能3.關(guān)聯(lián)分析關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。關(guān)聯(lián)分析適用于事務(wù)數(shù)據(jù)分析關(guān)聯(lián)規(guī)則形式化描述為,解釋為“滿足X中條件的數(shù)據(jù)庫元組也滿足Y中的條件”
多維關(guān)聯(lián)規(guī)則一個(gè)以上屬性或謂詞之間的關(guān)聯(lián)規(guī)則
單維關(guān)聯(lián)規(guī)則包含單個(gè)謂詞的關(guān)聯(lián)規(guī)則第三節(jié)數(shù)據(jù)挖掘功能3.關(guān)聯(lián)分析第三節(jié)數(shù)據(jù)挖掘功能4.分類與預(yù)測(cè)分類就是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無標(biāo)號(hào)樣本類,或評(píng)估給定樣本可能具有的屬性值或值區(qū)間第三節(jié)數(shù)據(jù)挖掘功能4.分類與預(yù)測(cè)第三節(jié)數(shù)據(jù)挖掘功能4.分類與預(yù)測(cè)數(shù)據(jù)分類的基本技術(shù)有:判定樹歸納貝葉斯分類貝葉斯網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)第三節(jié)數(shù)據(jù)挖掘功能4.分類與預(yù)測(cè)第三節(jié)數(shù)據(jù)挖掘功能5.聚類分析將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程成為聚類(clustering)由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合,同一簇中的對(duì)象彼此相似,而與其他簇中的對(duì)象相異通過聚類,人能夠識(shí)別密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間的有趣的相互關(guān)系聚類第三節(jié)數(shù)據(jù)挖掘功能5.聚類分析聚類第三節(jié)數(shù)據(jù)挖掘功能5.聚類分析聚類分析是數(shù)據(jù)挖掘的一個(gè)功能,能夠作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)分布的情況,觀察每個(gè)簇的特點(diǎn),集中對(duì)特定的某些簇做進(jìn)一步的分析。此外,聚類分析也可以作為其他算法的預(yù)處理步驟聚類技術(shù)主要有:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法第三節(jié)數(shù)據(jù)挖掘功能5.聚類分析第四節(jié)數(shù)據(jù)挖掘的分類1.數(shù)據(jù)挖掘受多學(xué)科的影響數(shù)據(jù)挖掘可視化其他學(xué)科機(jī)器學(xué)習(xí)統(tǒng)計(jì)學(xué)信息科學(xué)數(shù)據(jù)庫技術(shù)第四節(jié)數(shù)據(jù)挖掘的分類1.數(shù)據(jù)挖掘受多學(xué)科的影響數(shù)據(jù)可視第四節(jié)數(shù)據(jù)挖掘的分類2.數(shù)據(jù)挖掘的分類根據(jù)挖掘的數(shù)據(jù)庫類型分類:關(guān)系型、面向?qū)ο笮?、?duì)象關(guān)系型、空間的、文本的或多媒體的等等根據(jù)挖掘的知識(shí)類型分類:特征化、區(qū)分、關(guān)聯(lián)、分類、聚集等等根據(jù)所用的技術(shù)分類:機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等等根據(jù)應(yīng)用分類:金融、電信、股票市場(chǎng)、E-mail等等第四節(jié)數(shù)據(jù)挖掘的分類2.數(shù)據(jù)挖掘的分類第五節(jié)數(shù)據(jù)挖掘的主要問題1.挖掘方法和用戶交互的問題2.性能問題3.關(guān)于數(shù)據(jù)庫類型的多樣性問題第五節(jié)數(shù)據(jù)挖掘的主要問題1.挖掘方法和用戶交互的問題第五節(jié)數(shù)據(jù)挖掘的主要問題1.挖掘方法和用戶交互的問題在數(shù)據(jù)庫中挖掘不同類型的知識(shí)多個(gè)抽象層的交互知識(shí)挖掘綜合背景知識(shí)數(shù)據(jù)挖掘查詢語言和特定的數(shù)據(jù)挖掘數(shù)據(jù)挖掘結(jié)果的表示和顯示處理噪聲和不完全數(shù)據(jù)模式評(píng)估—興趣度問題第五節(jié)數(shù)據(jù)挖掘的主要問題1.挖掘方法和用戶交互的問題第五節(jié)數(shù)據(jù)挖掘的主要問題2.性能問題
數(shù)據(jù)挖掘算法的有效性和可伸縮性并行、分布式和增量挖掘算法第五節(jié)數(shù)據(jù)挖掘的主要問題2.性能問題第五節(jié)數(shù)據(jù)挖掘的主要問題3.關(guān)于數(shù)據(jù)庫類型的多樣性問題
關(guān)系的和復(fù)雜的數(shù)據(jù)類型的處理由異種數(shù)據(jù)庫和全球信息系統(tǒng)挖掘信息第五節(jié)數(shù)據(jù)挖掘的主要問題3.關(guān)于數(shù)據(jù)庫類型的多樣性問題思考問題:1.什么是數(shù)據(jù)倉庫?它與數(shù)據(jù)庫有何差異?2.什么是數(shù)據(jù)挖掘?3.數(shù)據(jù)挖掘的主要功能是什么?4.簡述知識(shí)發(fā)現(xiàn)的基本步驟。5.典型的數(shù)據(jù)挖掘系統(tǒng)主要是由哪些部分構(gòu)成的?思考問題:1.什么是數(shù)據(jù)倉庫?它與數(shù)據(jù)庫有何差異?數(shù)據(jù)倉庫與數(shù)據(jù)挖掘陳昕chenxin@2015.04數(shù)據(jù)倉庫與數(shù)據(jù)挖掘陳昕數(shù)據(jù)挖掘的應(yīng)用—人文地理數(shù)據(jù)挖掘的應(yīng)用—人文地理數(shù)據(jù)挖掘的應(yīng)用—娛樂傳媒數(shù)據(jù)挖掘的應(yīng)用—娛樂傳媒數(shù)據(jù)挖掘的應(yīng)用—智慧城市數(shù)據(jù)挖掘的應(yīng)用—智慧城市數(shù)據(jù)挖掘的應(yīng)用—商業(yè)零售數(shù)據(jù)挖掘的應(yīng)用—商業(yè)零售數(shù)據(jù)挖掘的應(yīng)用—Web推薦數(shù)據(jù)挖掘的應(yīng)用—Web推薦數(shù)據(jù)挖掘的應(yīng)用—體育競(jìng)技VS數(shù)據(jù)挖掘的應(yīng)用—體育競(jìng)技VS數(shù)據(jù)挖掘的應(yīng)用—大數(shù)據(jù)應(yīng)用信息安全輿情分析能效優(yōu)化數(shù)據(jù)挖掘的應(yīng)用—大數(shù)據(jù)應(yīng)用信息安全輿情分析能效優(yōu)化商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘工具商務(wù)智能與數(shù)據(jù)挖掘功能計(jì)劃預(yù)測(cè)預(yù)算
實(shí)際
分析
沒有絕對(duì)正確的答案
依靠分析
眾多的預(yù)測(cè)方案
靈活的要求核心:數(shù)據(jù)商務(wù)智能與數(shù)據(jù)挖掘功能計(jì)劃預(yù)測(cè)預(yù)算實(shí)際分析參考書目1.《數(shù)據(jù)挖掘概念與技術(shù)》,JiaweiHanMichelineKamber著,范明、孟小峰等譯,機(jī)械工業(yè)出版社出版2.《數(shù)據(jù)倉庫》,W.H.Inmon著,王志海等譯,機(jī)械工業(yè)出版社出版3.《數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理》,王珊等編著,科學(xué)出版社出版4.《數(shù)據(jù)挖掘?qū)嵺`》,OliviaParrRud著,朱揚(yáng)勇、左子葉等譯,機(jī)械工業(yè)出版社出版參考書目1.《數(shù)據(jù)挖掘概念與技術(shù)》,Jiawei數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘是目前數(shù)據(jù)庫領(lǐng)域最為活躍的一個(gè)方面,受到學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛關(guān)注。典型應(yīng)用環(huán)境如DSS,EIS,ERP。大型數(shù)據(jù)庫的數(shù)據(jù)倉庫解決方案有:
InformixMetaCubeOracleExpressSybaseQuickStartDataMartDB2DataWarehouseManagerSQLServerAnalysisservices
NCRTeradataWarehouse對(duì)各類海量數(shù)據(jù)需要自動(dòng)分析、分類、匯總、發(fā)現(xiàn)和描述數(shù)據(jù)蘊(yùn)涵的趨勢(shì)、標(biāo)記異常等課程簡介數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘是目前數(shù)據(jù)庫領(lǐng)域最為活躍的一個(gè)方面,受到
各類管理人員需要從大量復(fù)雜的業(yè)務(wù)數(shù)據(jù)中獲取各自權(quán)限內(nèi)的決策信息,及時(shí)把握市場(chǎng)變化脈搏,作出正確有效的判斷與抉擇隨著數(shù)據(jù)庫系統(tǒng)的逐日運(yùn)行,數(shù)據(jù)將堆積越來越龐大數(shù)據(jù)處理的重點(diǎn)需要從傳統(tǒng)業(yè)務(wù)擴(kuò)展到業(yè)務(wù)數(shù)據(jù)的聯(lián)機(jī)分析處理,并得到面向各種管理主題的統(tǒng)計(jì)信息和決策支持信息數(shù)據(jù)倉庫是基于大規(guī)模數(shù)據(jù)庫的DSS環(huán)境的核心課程簡介各類管理人員需要從大量復(fù)雜的業(yè)務(wù)數(shù)據(jù)中獲取各自權(quán)限內(nèi)的決策
數(shù)據(jù)倉庫的基本概念多維數(shù)據(jù)模型數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫的實(shí)現(xiàn)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘課程簡介數(shù)據(jù)倉庫的基本概念課程簡介數(shù)據(jù)挖掘通常稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD),是自動(dòng)的或方便的模式提取,這些模式代表隱藏在大型數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他大量信息存儲(chǔ)中的知識(shí)涉及的學(xué)科有:數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)、模式識(shí)別、知識(shí)庫、知識(shí)獲取、信息檢索、高性能計(jì)算和數(shù)據(jù)可視化課程簡介課程簡介數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘的分類與主要問題數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則分類與預(yù)測(cè)聚類分析復(fù)雜類型的數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應(yīng)用與發(fā)展趨勢(shì)課程簡介數(shù)據(jù)挖掘的概念課程簡介一、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述二、數(shù)據(jù)倉庫的OLAP技術(shù)三、數(shù)據(jù)預(yù)處理四、數(shù)據(jù)挖掘的系統(tǒng)結(jié)構(gòu)五、挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則六、分類與預(yù)測(cè)七、聚類分析八、復(fù)雜類型的數(shù)據(jù)挖掘九、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應(yīng)用與發(fā)展趨勢(shì)課程結(jié)構(gòu)一、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述課程結(jié)構(gòu)1.什么是數(shù)據(jù)倉庫2.什么是數(shù)據(jù)挖掘3.數(shù)據(jù)挖掘的功能4.數(shù)據(jù)挖掘的分類5.數(shù)據(jù)挖掘的主要問題第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述1.什么是數(shù)據(jù)倉庫第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生當(dāng)前的數(shù)據(jù)處理與數(shù)據(jù)分為兩類:操作型處理與數(shù)據(jù)分析型或信息型處理與數(shù)據(jù)第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生操作型處理:又稱事務(wù)處理,是指對(duì)數(shù)據(jù)庫聯(lián)機(jī)的日常操作,通常是對(duì)一個(gè)或一組記錄的查詢和修改,主要為企業(yè)的特定應(yīng)用服務(wù),所關(guān)心的是響應(yīng)時(shí)間,數(shù)據(jù)的安全性和完整性操作型環(huán)境是以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生分析型處理:又稱信息型處理,是針對(duì)制定決策過程中管理方面的需求而進(jìn)行的處理,通過瀏覽大量數(shù)據(jù)找出其中的趨勢(shì)。如DSS,EIS等分析型環(huán)境是一種新的體系化環(huán)境第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生操作型數(shù)據(jù)(原始數(shù)據(jù))分析型數(shù)據(jù)(導(dǎo)出數(shù)據(jù))細(xì)節(jié)的綜合的,或提煉的在存取瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對(duì)性能要求高對(duì)性能要求寬松一個(gè)時(shí)刻操作一個(gè)單元一個(gè)時(shí)刻操作一個(gè)集合事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求第一節(jié)什么是數(shù)據(jù)倉庫操作型數(shù)據(jù)(原始數(shù)據(jù))分析型數(shù)據(jù)(導(dǎo)出數(shù)據(jù))細(xì)節(jié)的綜合的,或第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生操作型數(shù)據(jù)和分析型數(shù)據(jù)的不同而導(dǎo)致的數(shù)據(jù)分離和自然擴(kuò)展過程:操作型原子/數(shù)據(jù)倉庫部門/數(shù)據(jù)集市個(gè)體第一節(jié)什么是數(shù)據(jù)倉庫1.數(shù)據(jù)倉庫的產(chǎn)生操作型原子/部門第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫之父W.H.Inmon給出了定義:數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、不可更新的且隨時(shí)間不斷變化的數(shù)據(jù)集合,用來支持管理人員的決策第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義面向主題主題:是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象,即對(duì)應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象面向主題的數(shù)據(jù)組織方式就是對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述,能完整、統(tǒng)一地刻畫各個(gè)分析對(duì)象所涉及的企業(yè)各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義面向主題每個(gè)主題在數(shù)據(jù)倉庫中都是由一組關(guān)系表實(shí)現(xiàn)的主題的實(shí)現(xiàn)基于關(guān)系數(shù)據(jù)庫在具體實(shí)現(xiàn)中,一個(gè)主題可以劃分成多個(gè)表,主題只是一個(gè)邏輯的概念基于一個(gè)主題的所有表都含有一個(gè)稱為公共鍵碼的屬性作為其主碼的一部分第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義面向主題CustomerIDFromdateTodateNameAddressPhoneSex…CustomerIDFromdateTodateNameAddressCreditratingemployerSex…CustomerIDActivitydateAmountLocationForitem…第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義Customer第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫的數(shù)據(jù)是集成的要統(tǒng)一源數(shù)據(jù)中所有矛盾之處,如同名異義、字長不一致等等進(jìn)行數(shù)據(jù)綜合和計(jì)算。數(shù)據(jù)綜合可以從原有數(shù)據(jù)庫抽取數(shù)據(jù)生成,但許多是在數(shù)據(jù)倉庫內(nèi)部生成第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫數(shù)據(jù)是不可更新數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析使用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般不進(jìn)行修改操作數(shù)據(jù)庫中進(jìn)行聯(lián)機(jī)處理的數(shù)據(jù)經(jīng)過集成輸入到數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫中的數(shù)據(jù)超過存儲(chǔ)期限,這些數(shù)據(jù)將從當(dāng)前數(shù)據(jù)倉庫中刪去DWMS比DBMS簡單,但查詢要求高第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫數(shù)據(jù)隨時(shí)間不斷變化數(shù)據(jù)倉庫隨時(shí)間變化不斷增加新的內(nèi)容數(shù)據(jù)倉庫隨時(shí)間變化不斷刪除舊的內(nèi)容數(shù)據(jù)倉庫中包含有大量的綜合數(shù)據(jù),這些數(shù)據(jù)隨時(shí)間變化不斷地進(jìn)行重新綜合數(shù)據(jù)倉庫數(shù)據(jù)的碼鍵包含時(shí)間項(xiàng),標(biāo)明歷史時(shí)期第一節(jié)什么是數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的定義第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.1組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)2002~2003年每月銷售表2002~2003年每周銷售表2002~2003年銷售情況表2000~2003年銷售明細(xì)表第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織元數(shù)據(jù)高度綜第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.1組織結(jié)構(gòu)數(shù)據(jù)倉庫中的不同綜合級(jí)別,稱為“粒度”。粒度越大,表示細(xì)節(jié)程度越低,綜合程度越高元數(shù)據(jù)(metadata):關(guān)于數(shù)據(jù)的數(shù)據(jù)操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù)數(shù)據(jù)倉庫中用來與終端用戶的多維商業(yè)模型/前端工具之間建立映射,也為DSS元數(shù)據(jù)第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.2粒度與分割粒度是數(shù)據(jù)倉庫的重要概念粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別細(xì)化程度越高,粒度級(jí)就越??;細(xì)化程度越低粒度級(jí)就越大一般采用多重粒度級(jí):高細(xì)節(jié)級(jí)、低細(xì)節(jié)級(jí)第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.2粒度與分割分割是數(shù)據(jù)倉庫的重要概念分割是指將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理,以提高數(shù)據(jù)處理效率數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片數(shù)據(jù)分割標(biāo)準(zhǔn)依據(jù)實(shí)際情況確定,一般應(yīng)包括日期項(xiàng)分割使數(shù)據(jù)更易重構(gòu)、索引、重組、恢復(fù)、監(jiān)控第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.2粒度與分割簡單分割實(shí)例,分片以時(shí)間標(biāo)準(zhǔn)來組織:健康保險(xiǎn)生命保險(xiǎn)事故保險(xiǎn)2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織健康保險(xiǎn)生命第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織3.3數(shù)據(jù)組織形式
簡單堆積文件:數(shù)據(jù)逐天積累輪轉(zhuǎn)綜合文件:按日、周、月、年組織數(shù)據(jù)集簡化直接文件:每隔一定時(shí)間的數(shù)據(jù)庫快照連續(xù)文件:通過比較兩個(gè)簡單直接文件不同而生成第一節(jié)什么是數(shù)據(jù)倉庫3.數(shù)據(jù)倉庫的數(shù)據(jù)組織第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果數(shù)據(jù)收集、數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)管理:數(shù)據(jù)存儲(chǔ)和檢索,數(shù)據(jù)庫事務(wù)處理數(shù)據(jù)分析與理解:涉及數(shù)據(jù)倉庫和數(shù)據(jù)挖掘第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出數(shù)據(jù)庫技術(shù)的發(fā)展歷史20世紀(jì)60年代,功能強(qiáng)大的數(shù)據(jù)庫系統(tǒng)70年代,從網(wǎng)狀和層次到關(guān)系數(shù)據(jù)庫系統(tǒng)、建模工具、索引和數(shù)據(jù)組織技術(shù),聯(lián)機(jī)事務(wù)處理OLTP80年代,使用先進(jìn)的數(shù)據(jù)模型,如面向?qū)ο竽P汀?duì)象關(guān)系模型、演繹模型第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)清理:文件之間轉(zhuǎn)換、存儲(chǔ)介質(zhì)轉(zhuǎn)移、清除過期數(shù)據(jù)、層次轉(zhuǎn)換(操作型到分析型)數(shù)據(jù)集成:從操作型環(huán)境到分析型環(huán)境聯(lián)機(jī)分析處理OLAP:是一種分析技術(shù),具有匯總、合并和聚集功能,以及從不同角度觀察信息的能力第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出數(shù)據(jù)的豐富增強(qiáng)了對(duì)功能更強(qiáng)的數(shù)據(jù)分析工具的需求對(duì)海量數(shù)據(jù)的理解,遠(yuǎn)遠(yuǎn)超出人的能力,產(chǎn)生“數(shù)據(jù)墳?zāi)埂睕Q策者缺乏從海量數(shù)據(jù)中提取有價(jià)值知識(shí)的工具,許多專家系統(tǒng)技術(shù)還是依賴經(jīng)驗(yàn)數(shù)據(jù)挖掘工具進(jìn)行數(shù)據(jù)分析,可以發(fā)現(xiàn)重要的數(shù)據(jù)模式,破除數(shù)據(jù)與信息的鴻溝第二節(jié)什么是數(shù)據(jù)挖掘1.數(shù)據(jù)挖掘的提出第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。通常也可理解為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)KDD,也可以理解為KDD的一個(gè)基本步驟。還有提法:數(shù)據(jù)庫中知識(shí)挖掘知識(shí)提取數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義知識(shí)發(fā)現(xiàn)過程7個(gè)步驟如下:1)數(shù)據(jù)清理:消除噪聲或不一致2)數(shù)據(jù)集成:多種數(shù)據(jù)源組合在一起3)數(shù)據(jù)選擇:從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。4)數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如匯總或聚集操作5)數(shù)據(jù)挖掘:使用智能方法提取數(shù)據(jù)模式第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義知識(shí)發(fā)現(xiàn)過程7個(gè)步驟如下:6)模式評(píng)估:根據(jù)某種興趣度量,識(shí)別表示知識(shí)的真正有趣的模式7)知識(shí)表示:使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí)第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義知識(shí)發(fā)現(xiàn)過程7個(gè)步驟如下:數(shù)據(jù)倉庫知識(shí)數(shù)據(jù)庫清理與集成選擇與變換數(shù)據(jù)挖掘模式評(píng)估與表示第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義數(shù)據(jù)倉庫知識(shí)數(shù)據(jù)第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的廣義定義:數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過程第二節(jié)什么是數(shù)據(jù)挖掘2.數(shù)據(jù)挖掘的定義第二節(jié)什么是數(shù)據(jù)挖掘3.數(shù)據(jù)挖掘系統(tǒng)的主要成分
數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器知識(shí)庫數(shù)據(jù)挖掘引擎模式評(píng)估模塊圖形用戶界面第二節(jié)什么是數(shù)據(jù)挖掘3.數(shù)據(jù)挖掘系統(tǒng)的主要成分第二節(jié)什么是數(shù)據(jù)挖掘4.數(shù)據(jù)挖掘的應(yīng)用環(huán)境關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫高級(jí)數(shù)據(jù)庫系統(tǒng)和高級(jí)數(shù)據(jù)庫第二節(jié)什么是數(shù)據(jù)挖掘4.數(shù)據(jù)挖掘的應(yīng)用環(huán)境第二節(jié)什么是數(shù)據(jù)挖掘第二節(jié)什么是數(shù)據(jù)挖掘第三節(jié)數(shù)據(jù)挖掘功能1.數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。數(shù)據(jù)挖掘任務(wù)一般分為兩類:描述和預(yù)測(cè)
描述性挖掘任務(wù)刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)第三節(jié)數(shù)據(jù)挖掘功能1.數(shù)據(jù)挖掘功能第三節(jié)數(shù)據(jù)挖掘功能2.概念/類描述:特征化和區(qū)分?jǐn)?shù)據(jù)可以與類或概念相關(guān)聯(lián)。用匯總的、簡潔的、精確的方式描述每個(gè)類和概念稱為類/概念描述這種描述可以通過以下方法得到:數(shù)據(jù)特征化:目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總數(shù)據(jù)區(qū)分:將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性進(jìn)行比較數(shù)據(jù)特征化和比較
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度年福建省高校教師資格證之高等教育心理學(xué)高分通關(guān)題型題庫附解析答案
- 山西省煤礦建設(shè)六個(gè)標(biāo)準(zhǔn)目錄3篇
- 高三綜評(píng)自我陳述報(bào)告
- 期貨入門知識(shí)
- 地板磚買賣協(xié)議2024年
- 2024商業(yè)借款保障協(xié)議規(guī)范
- 新人教版數(shù)學(xué)第二十五章-概率初步全章教學(xué)設(shè)計(jì)
- 2024年制定商品銷售返購協(xié)議樣例
- 2024年度房產(chǎn)項(xiàng)目融資安排協(xié)議
- 2024年化建筑工程施工承包協(xié)議
- 《月歷中的數(shù)學(xué)問題》教學(xué)設(shè)計(jì)
- 小學(xué)語文語段修改專項(xiàng)訓(xùn)練(含答案)
- 滬教版七年級(jí)上英語練習(xí)題
- 騰訊公司績效管理制度-騰訊公司績效管理制度
- 課堂紀(jì)律不好的原因
- 課題初中數(shù)學(xué)作業(yè)優(yōu)化設(shè)計(jì)的研究研究報(bào)告
- 5s推進(jìn)計(jì)劃(絕對(duì)經(jīng)典)
- 小學(xué)數(shù)學(xué)答題卡模板(共3頁)
- 簡易呼吸氣囊操作評(píng)分標(biāo)準(zhǔn)
- 廚房安全生產(chǎn)培訓(xùn)內(nèi)容
- 蘋果公司崗位職責(zé)任職要求
評(píng)論
0/150
提交評(píng)論