數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第1頁
數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第2頁
數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第3頁
數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第4頁
數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩95頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、本章主要內(nèi)容4.1 信息系統(tǒng)的數(shù)據(jù)管理信息系統(tǒng)的數(shù)據(jù)管理4.2 數(shù)據(jù)庫系統(tǒng)基本概念數(shù)據(jù)庫系統(tǒng)基本概念4.3 數(shù)據(jù)模型數(shù)據(jù)模型4.4 關(guān)系型數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫4.5 數(shù)據(jù)倉庫數(shù)據(jù)倉庫4.6 數(shù)據(jù)挖掘數(shù)據(jù)挖掘信息技術(shù) 信息技術(shù)是管理信息系統(tǒng)的基礎(chǔ),只有把信息技術(shù)與管理結(jié)合起來,才能真正發(fā)揮管理信息系統(tǒng)的作用。 信息技術(shù)是指能夠擴(kuò)展人的信息器官功能,完成信息的獲取、傳遞、處理、利用等功能的一種技術(shù)。通信技術(shù)(傳遞信息)計(jì)算機(jī)技術(shù)(處理信息)通信技術(shù)(傳遞信息)感測技術(shù)(獲取信息)外部世界(信源/信宿)控制技術(shù)(利用信息) 管理離不開信息的存取及對信息的處理信息的存?。阂邆溆行У姆椒▽π畔⑦M(jìn)行組織,

2、以便人們能方便快捷地得到它。信息的處理:要有恰當(dāng)?shù)男畔⑻幚砉ぞ?組織信息的主要工具數(shù)據(jù)庫數(shù)據(jù)倉庫 處理數(shù)據(jù)庫和數(shù)據(jù)倉庫的軟件工具數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)挖掘工具企業(yè)利用信息做什么?(1) 以事務(wù)處理的形式處理信息以事務(wù)處理的形式處理信息銀行儲(chǔ)蓄所業(yè)務(wù)處理系統(tǒng)銀行儲(chǔ)蓄所業(yè)務(wù)處理系統(tǒng)進(jìn)銷存管理系統(tǒng)進(jìn)銷存管理系統(tǒng)財(cái)務(wù)管理系統(tǒng)財(cái)務(wù)管理系統(tǒng) 聯(lián)機(jī)事務(wù)處理(聯(lián)機(jī)事務(wù)處理(OLTP)(Online Transaction Processing)數(shù)據(jù)庫及數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫及數(shù)據(jù)庫管理系統(tǒng)企業(yè)利用信息做什么?(2) 在決策活動(dòng)中利用信息作決策在決策活動(dòng)中利用信息作決策聯(lián)機(jī)分析處理(聯(lián)機(jī)分析處理(OLAP)數(shù)據(jù)倉庫及

3、數(shù)據(jù)挖掘工具數(shù)據(jù)倉庫及數(shù)據(jù)挖掘工具確定適當(dāng)?shù)臓I銷策略確定適當(dāng)?shù)臓I銷策略市場細(xì)分、客戶細(xì)分市場細(xì)分、客戶細(xì)分確定新的分店的地址確定新的分店的地址 企業(yè)利用信息做什么?(3) 在使用信息的過程中管理信息在使用信息的過程中管理信息選擇適當(dāng)?shù)募夹g(shù)去組織信息,以便知識工作者能夠邏輯選擇適當(dāng)?shù)募夹g(shù)去組織信息,以便知識工作者能夠邏輯地處理信息,而不必了解信息的物理組織形式地處理信息,而不必了解信息的物理組織形式確定用戶對信息進(jìn)行操作的權(quán)限確定用戶對信息進(jìn)行操作的權(quán)限備份信息,確定信息的保存時(shí)間及使用的存儲(chǔ)技術(shù)備份信息,確定信息的保存時(shí)間及使用的存儲(chǔ)技術(shù) 4.1 信息系統(tǒng)的數(shù)據(jù)管理 美國學(xué)者詹姆斯 馬丁提出數(shù)

4、據(jù)環(huán)境的概念,認(rèn)為只要企業(yè)的性質(zhì)和目標(biāo)不變,盡管企業(yè)的數(shù)據(jù)加工處理過程是多變,但數(shù)據(jù)是穩(wěn)定的。 信息系統(tǒng)是有目的地對企業(yè)生產(chǎn)經(jīng)營活動(dòng)產(chǎn)生的原始數(shù)據(jù)進(jìn)行收集、組織、加工處理,直至生成信息的系統(tǒng)。管理人員則利用信息控制企業(yè)各項(xiàng)經(jīng)營活動(dòng)并作出決策。 組織數(shù)據(jù)的邏輯存儲(chǔ)結(jié)構(gòu),將邏輯存儲(chǔ)結(jié)構(gòu)轉(zhuǎn)換成計(jì)算機(jī)物理存儲(chǔ)結(jié)構(gòu),以及根據(jù)需要準(zhǔn)確、迅速地存取數(shù)據(jù)等,這些問題都是數(shù)據(jù)管理技術(shù)的主要研究內(nèi)容。 數(shù)據(jù)管理是管理活動(dòng)的最基本內(nèi)容,也是管理信息系統(tǒng)的基本功能。它一般不涉及復(fù)雜的數(shù)學(xué)計(jì)算,但要求處理的數(shù)據(jù)量很大,因此,進(jìn)行數(shù)據(jù)管理時(shí)需要考慮以下幾個(gè)方面的問題: 數(shù)據(jù)以何種方式存儲(chǔ)在計(jì)算機(jī)中? 采用何種數(shù)據(jù)結(jié)構(gòu)能有

5、利于數(shù)據(jù)的存儲(chǔ)和取用? 采用何種方法從已組織好的數(shù)據(jù)中檢索數(shù)據(jù)?數(shù)據(jù)管理技術(shù)的發(fā)展階段 隨著計(jì)算機(jī)硬件和軟件技術(shù)的發(fā)展,以及應(yīng)用的需求拉動(dòng),數(shù)據(jù)管理技術(shù)的發(fā)展經(jīng)歷了三個(gè)階段: 人工管理階段 (20世紀(jì)50年代中期以前) 文件系統(tǒng)階段 (50年代后期到60年代中期) 數(shù)據(jù)庫系統(tǒng)階段 (60年代后期開始) 人工管理階段 產(chǎn)生的背景 應(yīng)用需求:科學(xué)計(jì)算 硬件水平:無直接存取存儲(chǔ)設(shè)備(硬盤等) 軟件水平:沒有操作系統(tǒng) 處理方式:批處理應(yīng)用程序應(yīng)用程序1數(shù)據(jù)文件數(shù)據(jù)文件1應(yīng)用程序應(yīng)用程序2應(yīng)用程序應(yīng)用程序3數(shù)據(jù)文件數(shù)據(jù)文件2數(shù)據(jù)文件數(shù)據(jù)文件3用戶用戶用戶用戶用戶用戶人工管理階段特點(diǎn) 無數(shù)據(jù)管理及完全分散

6、的方式 數(shù)據(jù)的管理者:應(yīng)用程序,數(shù)據(jù)不保存 數(shù)據(jù)面向的對象:某一應(yīng)用程序 數(shù)據(jù)的共享程度:無共享、冗余度極大 數(shù)據(jù)的獨(dú)立性:不獨(dú)立,完全依賴于程序,修改數(shù)據(jù)必須修改程序。 數(shù)據(jù)的結(jié)構(gòu)化:無結(jié)構(gòu) 數(shù)據(jù)控制能力:程序員必須自行設(shè)計(jì)數(shù)據(jù)的組織方式。文件系統(tǒng)階段 產(chǎn)生的背景 應(yīng)用需求:科學(xué)計(jì)算、管理 硬件水平:磁盤、磁鼓 軟件水平:有文件系統(tǒng) 處理方式:聯(lián)機(jī)實(shí)時(shí)處理、批處理應(yīng)用程序應(yīng)用程序 1應(yīng)用程序應(yīng)用程序 2應(yīng)用程序應(yīng)用程序 n數(shù)據(jù)文件數(shù)據(jù)文件 1數(shù)據(jù)文件數(shù)據(jù)文件 2數(shù)據(jù)文件數(shù)據(jù)文件 n.操作系統(tǒng)操作系統(tǒng)文件系統(tǒng)文件系統(tǒng)文件系統(tǒng)階段特點(diǎn) 面向應(yīng)用的數(shù)據(jù)管理功能 數(shù)據(jù)的管理者:文件系統(tǒng),數(shù)據(jù)可長期保

7、存 數(shù)據(jù)面向的對象:某一應(yīng)用 數(shù)據(jù)的共享程度:共享性差、冗余度大 數(shù)據(jù)的結(jié)構(gòu)化:記錄內(nèi)有結(jié)構(gòu),數(shù)據(jù)的結(jié)構(gòu)是靠程序定義和解釋的;整體無結(jié)構(gòu),文件間是獨(dú)立的。 數(shù)據(jù)的獨(dú)立性:獨(dú)立性差,數(shù)據(jù)的邏輯結(jié)構(gòu)改變必須修改應(yīng)用程序。 數(shù)據(jù)控制能力:應(yīng)用程序自己控制文件系統(tǒng)階段的不足 數(shù)據(jù)冗余度大。文件系統(tǒng)中文件基本上對應(yīng)于某個(gè)應(yīng)用程序,數(shù)據(jù)仍是面向應(yīng)用的,不同應(yīng)用程序所需數(shù)據(jù)有部分相同時(shí),仍需建立各自的數(shù)據(jù)文件,不能共享,數(shù)據(jù)維護(hù)困難,一致性難以保證。 數(shù)據(jù)與程序獨(dú)立性仍不高。文件是為某一特定應(yīng)用服務(wù)的,系統(tǒng)不易擴(kuò)充。一旦數(shù)據(jù)邏輯結(jié)構(gòu)改變,就必須修改文件結(jié)構(gòu)的定義及應(yīng)用程序;應(yīng)用程序的變化也將影響文件的結(jié)構(gòu)。

8、因而文件仍不能反映現(xiàn)實(shí)世界事物之間的聯(lián)系。數(shù)據(jù)庫系統(tǒng)階段 產(chǎn)生的背景 應(yīng)用背景:大規(guī)模管理 硬件背景:大容量磁盤 軟件背景:有數(shù)據(jù)庫管理系統(tǒng) 處理方式:聯(lián)機(jī)實(shí)時(shí)處理、分布處理、批處理應(yīng)用程序應(yīng)用程序1應(yīng)用程序應(yīng)用程序2應(yīng)用程序應(yīng)用程序3DBMS中央中央數(shù)據(jù)庫數(shù)據(jù)庫用戶用戶用戶用戶用戶用戶數(shù)據(jù)庫系統(tǒng)階段的特點(diǎn) 面向全組織的復(fù)雜數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)庫描述了整個(gè)組織數(shù)據(jù)之間的聯(lián)系,數(shù)據(jù)的結(jié)構(gòu)用數(shù)據(jù)模型描述,無需程序定義和解釋。 數(shù)據(jù)冗余度小。 數(shù)據(jù)的獨(dú)立性:高度的物理獨(dú)立性和一定的邏輯獨(dú)立性。 數(shù)據(jù)控制能力:由DBMS統(tǒng)一管理和控制 數(shù)據(jù)的安全性(Security)保護(hù) 數(shù)據(jù)的完整性(Integrity)

9、檢查 并發(fā)(Concurrency)控制 數(shù)據(jù)庫恢復(fù)(Recovery)4.2 數(shù)據(jù)庫系統(tǒng)基本概念 數(shù)據(jù)庫是信息的集合,它能按照信息的邏輯結(jié)構(gòu)對其進(jìn)行組織與存取。 數(shù)據(jù)庫具有較小的數(shù)據(jù)冗余,可供多個(gè)用戶共享,具有較高的數(shù)據(jù)獨(dú)立性,具有安全控制機(jī)制,能夠保證數(shù)據(jù)的安全、可靠,允許并發(fā)地使用數(shù)據(jù)庫,能有效、及時(shí)地處理數(shù)據(jù),并能保證數(shù)據(jù)的一致性和完整性。數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu) DBMS如Oracle、Sybase、SQL Server等。數(shù)據(jù)庫語言數(shù)據(jù)庫語言數(shù)據(jù)庫管理控制程序數(shù)據(jù)庫管理控制程序數(shù)據(jù)庫服務(wù)程序數(shù)據(jù)庫服務(wù)程序查詢工具查詢工具報(bào)表工具報(bào)表工具. .應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序數(shù)據(jù)庫管理系統(tǒng)(數(shù)

10、據(jù)庫管理系統(tǒng)(DBMSDBMS)應(yīng)用應(yīng)用數(shù)數(shù)據(jù)據(jù)庫庫引引擎擎數(shù)據(jù)庫數(shù)據(jù)庫DBMS的功能 數(shù)據(jù)庫定義功能 定義數(shù)據(jù)庫中數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)完整性約束條件和安全性控制條件,并將所定義的內(nèi)容保存到數(shù)據(jù)字典中。 數(shù)據(jù)庫管理功能 管理數(shù)據(jù)庫的內(nèi)部組織,執(zhí)行用戶存取權(quán)限控制、并發(fā)控制和數(shù)據(jù)完整性檢查。 數(shù)據(jù)庫訪問功能 按用戶要求,執(zhí)行對數(shù)據(jù)庫數(shù)據(jù)的查詢與增、刪、改操作;數(shù)據(jù)的授權(quán)訪問等。子模式子模式/概念模式概念模式映射映射A物理模型(內(nèi)模式)物理模型(內(nèi)模式)用戶用戶A用戶用戶B用戶用戶D用戶用戶E外模式外模式1(子模式(子模式1)外模式外模式2(子模式(子模式2)概念模型(模式)概念模型(模式)DBMSO

11、S子模式子模式/概念模式概念模式映射映射B模式模式/內(nèi)模式映射內(nèi)模式映射用戶視圖DBA視圖系統(tǒng)程序員視圖保證了數(shù)據(jù)與程序的邏輯獨(dú)立性保證了數(shù)據(jù)與程序的物理獨(dú)立性數(shù)據(jù)視圖常見的DBMS 個(gè)人數(shù)據(jù)庫個(gè)人數(shù)據(jù)庫 dBase、FoxBASE、FoxPro、Access 企業(yè)數(shù)據(jù)庫企業(yè)數(shù)據(jù)庫 MS SQL Server Oracle Sybase DB2 免費(fèi)數(shù)據(jù)庫免費(fèi)數(shù)據(jù)庫 MySQL Postgres4.3 數(shù)據(jù)模型 數(shù)據(jù)模型用來描述數(shù)據(jù)之間的關(guān)系。 概念模型:著重于數(shù)據(jù)之間的邏輯聯(lián)系。 E-R(實(shí)體聯(lián)系)模型 對象模型 存儲(chǔ)模型:更強(qiáng)調(diào)存儲(chǔ)效率。 層次模型層次數(shù)據(jù)庫 網(wǎng)狀模型網(wǎng)狀數(shù)據(jù)庫 關(guān)系模型關(guān)

12、系數(shù)據(jù)庫 對象模型面向?qū)ο髷?shù)據(jù)庫E-R模型 E-R模型有三個(gè)基本元素,即實(shí)體、實(shí)體之間的聯(lián)系和屬性,它們分別用矩形框、棱型框和橢園形框表示,并且將對應(yīng)的名字填入框內(nèi)以作標(biāo)識,將參與聯(lián)系的實(shí)體用線段連接,并標(biāo)上聯(lián)系的數(shù)量。實(shí)體之間的聯(lián)系班級班級班級班級-班長班長班長班長111:1聯(lián)系聯(lián)系課程課程選修選修學(xué)生學(xué)生mnm:n 聯(lián)聯(lián)系系班級班級組成組成學(xué)生學(xué)生1n1:n 聯(lián)系聯(lián)系E-R模型例子選修選修學(xué)號學(xué)號系別系別課程名課程名選修課選修課主講老師主講老師成績成績姓名姓名學(xué)生學(xué)生課程課程MN關(guān)系模型 關(guān)系模型具有較為堅(jiān)實(shí)的理論基礎(chǔ)(關(guān)系代數(shù))。 關(guān)系:有應(yīng)用語義的二維表,表中的每一行描述事物或事物一部

13、分狀態(tài)的數(shù)據(jù),表中的每一列描述事物的某個(gè)特征。 屬性:二維表中的一列就是關(guān)系模式中的一個(gè)屬性。 表中的每一個(gè)屬性必須是基本類型。 表中的每一列的所有值必須是同類型、同語義的。 屬性都有取值范圍。 表中的每一列都必須有唯一的名字,列在表中的順序是無關(guān)的。一個(gè)關(guān)系的例子六條記錄四個(gè)屬性四個(gè)屬性候選關(guān)鍵字候選關(guān)鍵字主關(guān)鍵字主關(guān)鍵字關(guān)鍵字和外部關(guān)鍵字 97832 鄭鄭 國國 興興 446-7987 岷江南路岷江南路69號號 67098 孫孫 大大 明明 239-7101 東方花園東方花園1932號號 47952 李李 平平 237-2310 桃園小區(qū)桃園小區(qū)A幢幢3號號 47857 張張 東東 升升

14、237-6871 長江路長江路132號號 顧客標(biāo)識號顧客標(biāo)識號姓姓 名名電電 話話地地 址址Customer 關(guān)系關(guān)系 47952 47812 41497 41797 47952 43711 41497 41797 97832 11112 31197 31397顧客標(biāo)識號顧客標(biāo)識號影影 碟碟 號號租賃日期租賃日期歸還日期歸還日期Video Rental 關(guān)系關(guān)系 47812 未來世界未來世界 科科 幻幻 457 1 3.00 47811 笑傲江湖笑傲江湖 武武 俠俠 457 1 3.00 43711 英雄本色英雄本色 槍槍 戰(zhàn)戰(zhàn) 381 2 3.00 23561 射雕英雄傳射雕英雄傳 武武 俠

15、俠 235 2 1.50 11112 星球大戰(zhàn)星球大戰(zhàn) 科科 幻幻 457 2 3.00 11111 虎口脫險(xiǎn)虎口脫險(xiǎn) 喜喜 劇劇 457 2 3.00影碟號影碟號名名 字字類類 型型經(jīng)銷商代碼經(jīng)銷商代碼天天 數(shù)數(shù) 租價(jià)(元)租價(jià)(元)Video 關(guān)系關(guān)系關(guān)關(guān) 鍵鍵 字字外部關(guān)鍵字外部關(guān)鍵字4.4 關(guān)系型數(shù)據(jù)庫 表(Table) 表是數(shù)據(jù)存儲(chǔ)的最主要、最基本的單位。數(shù)據(jù)庫可以有多張表組成,這些表之間存在一定的關(guān)系。 表對應(yīng)數(shù)據(jù)庫的模式,表由行(對應(yīng)記錄)和列(對應(yīng)屬性)組成。 視圖(View) 視圖是用戶看到的數(shù)據(jù),它提供了數(shù)據(jù)的邏輯獨(dú)立性。 存儲(chǔ)過程 是一段代碼塊,它封裝了復(fù)雜的數(shù)據(jù)操作命令

16、,提供了代碼共享功能,并提高了數(shù)據(jù)操作的速度。 觸發(fā)器(Trigger) 觸發(fā)器主要用于實(shí)現(xiàn)復(fù)雜的商業(yè)規(guī)則或復(fù)雜的完整性約束,它是由數(shù)據(jù)的操作而自動(dòng)引發(fā)執(zhí)行的代碼段。 索引 用于加快數(shù)據(jù)的查詢速度。 約束 約束用于保證數(shù)據(jù)的完整性,它包括實(shí)體完整性、引用完整性和用戶定義完整性。目的是保證數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)是正確的數(shù)據(jù)。數(shù)據(jù)的完整性 關(guān)系的完整性是指關(guān)系中數(shù)據(jù)值與其描述的應(yīng)用對象實(shí)際狀態(tài)保證一致的約束條件。 實(shí)體完整性 指關(guān)系中的主關(guān)鍵字不能為空,且主關(guān)鍵字的值不能相同,保證主關(guān)鍵字能唯一地標(biāo)識關(guān)系中的每個(gè)元組。 引用完整性 指不允許引用數(shù)據(jù)庫中不存在的外鍵數(shù)據(jù),外鍵(或叫外部關(guān)鍵字)是指一個(gè)表

17、中的某個(gè)屬性是另一個(gè)表的主關(guān)鍵字。 用戶定義完整性 規(guī)定了屬性的值必須是域中的值。如性別只有男或女,年齡只在0150等。學(xué)生情況表課程表學(xué)生選課表主關(guān)鍵字主關(guān)鍵字關(guān)系的完整性舉例v 選課表中不允許出現(xiàn)“學(xué)生”表中沒有的學(xué)號,同時(shí)也不允許出現(xiàn)“課程”表中沒有的課程號??梢酝ㄟ^定義外鍵來實(shí)現(xiàn),定義修課表中的學(xué)號是學(xué)生表的外鍵,選課表中的課程號是課程表的外鍵。注意是先有主關(guān)鍵字值,后有外鍵值。學(xué)號學(xué)號姓名姓名專業(yè)專業(yè)出生日期出生日期.MG903811Peter電子商務(wù)電子商務(wù)55/10/10.MG903812John金融金融65/09/10.學(xué)號學(xué)號課程代碼課程代碼修讀時(shí)間修讀時(shí)間課程類型課程類型成

18、績成績MG90381210199-1選修選修86MG90381110199-2必修必修90MG90381110299-1必修必修91課程代碼課程代碼課程名稱課程名稱開課系別開課系別101E-B電子商務(wù)電子商務(wù)102MIS電子商務(wù)電子商務(wù)數(shù)據(jù)庫設(shè)計(jì)的過程DBMS的數(shù)據(jù)的數(shù)據(jù)模型模型加工、轉(zhuǎn)換加工、轉(zhuǎn)換存儲(chǔ)存儲(chǔ) 二進(jìn)制數(shù)據(jù)集合二進(jìn)制數(shù)據(jù)集合結(jié)構(gòu)結(jié)構(gòu)計(jì)算機(jī)世界計(jì)算機(jī)世界加工加工轉(zhuǎn)換轉(zhuǎn)換DBMS數(shù)數(shù) 文件文件據(jù)據(jù) 記錄記錄庫庫 相關(guān)數(shù)據(jù)項(xiàng)集合相關(guān)數(shù)據(jù)項(xiàng)集合數(shù)據(jù)世界數(shù)據(jù)世界實(shí)體實(shí)體 實(shí)體集合實(shí)體集合及及 實(shí)體實(shí)體聯(lián)系聯(lián)系 相關(guān)屬性集合相關(guān)屬性集合 信息世界信息世界人人認(rèn)識、描述認(rèn)識、描述客觀客觀 事物類

19、:事物類:事物事物 相關(guān)性質(zhì)集合相關(guān)性質(zhì)集合現(xiàn)實(shí)世界現(xiàn)實(shí)世界E-R模型模型4.5 數(shù)據(jù)倉庫 數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,并用于支持企業(yè)的分析活動(dòng)和決策任務(wù)。 為什么使用數(shù)據(jù)倉庫? 傳統(tǒng)的數(shù)據(jù)庫對企業(yè)的決策支持作用有限 企業(yè)大量的數(shù)據(jù)資源沒有得到充分的利用 “ 數(shù)據(jù)爆炸而知識貧乏 ” 提高數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析的效率哪些客戶是哪些客戶是公司的金牌公司的金牌客戶?客戶?數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)抽取加載數(shù)據(jù)抽取加載數(shù)據(jù)倉庫管理和監(jiān)控工具ETL工具前端工具前端工具終端用戶終端用戶數(shù)據(jù)倉庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫集市集市集市集市OLAP數(shù)據(jù)清洗關(guān)系數(shù)

20、據(jù)庫其它數(shù)據(jù)源元數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)挖掘元數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)存儲(chǔ)信息傳遞數(shù)據(jù)倉庫針對多個(gè)數(shù)據(jù)源(來自不同設(shè)備,使用不同數(shù)據(jù)格式)數(shù)據(jù)清潔(編碼矛盾,遺失值,重復(fù)值,規(guī)范化;組合多源記錄數(shù)據(jù),清除無用源數(shù)據(jù)等);數(shù)據(jù)匯總包括最初的裝載,數(shù)據(jù)倉庫開始工作后的將變動(dòng)的數(shù)據(jù)進(jìn)行轉(zhuǎn)換后存入正在工作的數(shù)據(jù)倉庫數(shù)據(jù)倉庫 ETL(Extract、Transfer、Load)在一個(gè)給定時(shí)刻捕獲的數(shù)據(jù),即相關(guān)源數(shù)據(jù)在某個(gè)特定時(shí)刻的快照。(一般初始裝載時(shí)使用)靜態(tài)數(shù)據(jù)抽取修正/追加數(shù)據(jù)抽取延緩型數(shù)據(jù)抽取立即型數(shù)據(jù)抽取數(shù)據(jù)抽取技術(shù)抽取是實(shí)時(shí)的,當(dāng)交易發(fā)生時(shí)就會(huì)在源數(shù)據(jù)庫和文件中發(fā)生。通過交易日志捕獲;從數(shù)據(jù)庫觸發(fā)器捕獲

21、;從源應(yīng)用程序捕獲。基于日期和時(shí)間標(biāo)記捕獲;通過文件比較捕獲。數(shù)據(jù)倉庫數(shù)據(jù)抽取將不同來源的數(shù)據(jù)放在一起數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換選擇轉(zhuǎn)化匯總分離/合并 選擇從源系統(tǒng)得到選擇從源系統(tǒng)得到的整個(gè)記錄或部分的整個(gè)記錄或部分記錄(抽取過程)記錄(抽取過程) 標(biāo)準(zhǔn)化,使字標(biāo)準(zhǔn)化,使字段對用戶可用段對用戶可用可理解;粒度可理解;粒度 多個(gè)系統(tǒng)中多個(gè)系統(tǒng)中選中部分的選中部分的合并操作合并操作 常見的轉(zhuǎn)換類型 格式修正;字段解碼;計(jì)算值和導(dǎo)出值;單個(gè)字段分離;信息合并;特征集合轉(zhuǎn)化;度量單位轉(zhuǎn)化;日期/時(shí)間轉(zhuǎn)化;匯總;鍵重新構(gòu)造等數(shù)據(jù)轉(zhuǎn)換:根據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換:根據(jù)轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換和重新規(guī)則進(jìn)行轉(zhuǎn)換和重新結(jié)構(gòu)化(映射)結(jié)構(gòu)

22、化(映射)數(shù)據(jù)倉庫數(shù)據(jù)轉(zhuǎn)換將統(tǒng)一不同格式的數(shù)據(jù)數(shù)據(jù)倉庫的結(jié)構(gòu)模型 星形模型 雪花模型名稱名稱Sales描述整個(gè)超市中每個(gè)門市中每個(gè)POS機(jī)所記載的商品銷售情況目的用于進(jìn)行超市銷售狀況和促銷情況分析聯(lián)系人各個(gè)門市的銷售經(jīng)理維時(shí)間、商品、客戶、商店事實(shí)銷售事實(shí)表量度值銷售額、銷售量例:銷售主題元數(shù)據(jù)Sales數(shù)據(jù)倉庫的星形模式Sales數(shù)據(jù)倉庫的雪花形模式Sales和Shipping數(shù)據(jù)倉庫的事實(shí)星座形模式三層數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)的屬性類型屬性的變換用于數(shù)據(jù)倉庫的多維數(shù)據(jù)立方體用于數(shù)據(jù)倉庫的用于數(shù)據(jù)倉庫的多維數(shù)據(jù)立方體多維數(shù)據(jù)立方體什么是數(shù)據(jù)挖掘 Wiki中的定義中的定義 the analysis s

23、tep of the Knowledge Discovery in Databases process, or KDD An interdisciplinary subfield of computer science, is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.

24、 The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use. Aside from the raw analysis step, it involves database and data management aspects, data pre-processing, model and inference considerations, inter

25、estingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.4.6 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘(Data Mining)是在大型數(shù)據(jù)存儲(chǔ)庫中自動(dòng)發(fā)現(xiàn)有用信息的過程。 從數(shù)據(jù)倉庫觀點(diǎn)來看,數(shù)據(jù)挖掘可以看做是OLAP的高級階段。輸入數(shù)據(jù)數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘后處理信息特征選擇維歸約規(guī)范化選擇數(shù)據(jù)子集模式過濾可視化模式表示知識發(fā)現(xiàn)的過程數(shù)據(jù)挖掘是一個(gè)過程數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫任務(wù)相關(guān)的數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估有趣的模式

26、 滿足下列條件,則挖掘到的模式是有趣的 它易于理解 在某種必然程度上,對于新的或檢驗(yàn)數(shù)據(jù)是有效的 是潛在有用的 是新穎的 如果一個(gè)模式符合用戶確信的某種假設(shè),它也是有趣的。 有趣的模式代表知識。數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)挖掘的功能 預(yù)測:根據(jù)其它屬性(自變量)的值,預(yù)測特定屬性(因變量、目標(biāo)變量)的值。 分類:用于預(yù)測離散的目標(biāo)變量 回歸:用于預(yù)測連續(xù)的目標(biāo)變量 描述:導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式,通常是探測性的,常常需要后處理技術(shù)驗(yàn)證和解釋結(jié)果。 概念/類描述(特征化和區(qū)分):如金牌客戶的特征 挖掘頻繁模式、關(guān)聯(lián)分析:如購物籃分析 聚類分析:如客戶分類 異常/離群點(diǎn)(outlier)檢測:如信用

27、卡欺詐檢測 演變(evolution)分析:如股票投資數(shù)據(jù)挖掘主要任務(wù)預(yù)測/分類 首先給定已有的數(shù)據(jù)和類別,給定分類標(biāo)準(zhǔn),通過分類算法得到分類規(guī)則; 然后將分類規(guī)則用在測試數(shù)據(jù)上,對未來未知的數(shù)據(jù)進(jìn)行預(yù)測。 例如,根據(jù)購買圖書類型將顧客分類,可以分為“購買科技書的顧客群”和“購買法律書的顧客群”等,再對每一組顧客從性別、職業(yè)、收入等方面進(jìn)行分析,從中可能發(fā)現(xiàn)“購買科技書的顧客群”的某些共同特征。預(yù)測/分類的例子聚類分析是根據(jù)是根據(jù)最大化簇內(nèi)的相似性最大化簇內(nèi)的相似性、最小化簇間的相似性最小化簇間的相似性的原則將的原則將數(shù)據(jù)對象聚類或分組,所形成數(shù)據(jù)對象聚類或分組,所形成的每個(gè)簇可以看作一個(gè)數(shù)據(jù)

28、對的每個(gè)簇可以看作一個(gè)數(shù)據(jù)對象類,用顯式或隱式的方法描象類,用顯式或隱式的方法描述它們述它們基于劃分的基于劃分的基于層次的基于層次的基于密度的基于密度的基于網(wǎng)格的基于網(wǎng)格的基于模型的基于模型的聚類算法聚類算法K-meansK-medoids凝聚的凝聚的分裂的分裂的DBSCANOPTICSSTINGCLIQUEStatisticsNeural Network聚類分析能夠適用于大數(shù)據(jù)量能夠適用于大數(shù)據(jù)量(可伸縮性可伸縮性)能夠處理不同類型數(shù)據(jù)能夠處理不同類型數(shù)據(jù)(距離定義距離定義)能夠處理高維數(shù)據(jù)能夠處理高維數(shù)據(jù)能夠發(fā)現(xiàn)任意形狀的簇能夠發(fā)現(xiàn)任意形狀的簇(結(jié)果特點(diǎn)結(jié)果特點(diǎn))應(yīng)用聚類算法需要考慮的因素

29、應(yīng)用聚類算法需要考慮的因素聚類結(jié)果可解釋、易使用聚類結(jié)果可解釋、易使用具有處理噪聲的能力具有處理噪聲的能力聚類分析分類分析b. 測試測試(使用模使用模型分類型分類)階段階段a. 模型訓(xùn)練階模型訓(xùn)練階段段構(gòu)造分類器:分類分析 分類算法 決策樹 貝葉斯方法 最近鄰 支持向量機(jī) 神經(jīng)網(wǎng)絡(luò) 評估分類算法的要素 預(yù)測的準(zhǔn)確度 計(jì)算復(fù)雜度 模型描述的簡潔性 模型的可解釋性 避免過度擬合異常檢測異常一個(gè)數(shù)據(jù)集中往往包含一些特別的數(shù)據(jù),其行為和模式與一般的數(shù)據(jù)不同,這些數(shù)據(jù)稱為“異?!保ㄐ∧J剑┊惓z測發(fā)現(xiàn)數(shù)據(jù)集中明顯不同于其他數(shù)據(jù)的對象的過程。即對“異?!睌?shù)據(jù)的發(fā)現(xiàn)和分析噪噪 聲聲異異 常?!霸肼曉肼暋保憾?/p>

30、義定義在簇在簇的基礎(chǔ)上的基礎(chǔ)上,是不隸,是不隸屬于任何簇的數(shù)據(jù)屬于任何簇的數(shù)據(jù)多數(shù)聚類算法具有一定的噪聲處理能力,在一定程度上可以檢測異常數(shù)據(jù)。但聚類定義的“噪聲”和 “異?!痹诟拍钌鲜怯衅畹?。“異常異?!保菏遣灰蕾囀遣灰蕾囉谑欠翊嬖诖?。于是否存在簇。聚類算法中具有處理噪聲能力的出發(fā)點(diǎn)和目的是優(yōu)化簇,在生成結(jié)果簇時(shí),噪聲是可以容忍或忽略的。異常、噪聲如何定義異常?異常檢測異常檢測的主要方法基于聚類的異常挖掘k-近鄰方法基于統(tǒng)計(jì)的異常分析方法基于偏差的異常分析方法具體算法DB(pct,dmin)異常DnK異常k-distanceLOF序列數(shù)據(jù)挖掘 應(yīng)用領(lǐng)域 生物信息學(xué) 金融數(shù)據(jù)分析 電子商務(wù)

31、信用卡分析 主要的挖掘角度 趨勢變化 序列模式挖掘 循環(huán)變化 非規(guī)則隨機(jī)變化 關(guān)聯(lián)分析可視化可視化是評估挖掘結(jié)果的有效工具數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域商業(yè)數(shù)據(jù)挖掘 “尿布與啤酒”的故事 數(shù)據(jù)挖掘項(xiàng)目實(shí)施 良好的數(shù)據(jù)積累 明確的業(yè)務(wù)需求 準(zhǔn)備數(shù)據(jù) 數(shù)據(jù)挖掘技術(shù) 結(jié)果表達(dá) 結(jié)果評價(jià) 結(jié)果利用信用卡分析 持卡人(去哪里消費(fèi)優(yōu)惠)特約商戶 (有哪些消費(fèi)者) 客戶信用等級評估(VIP、二八法則) 客戶利潤分析(銀行貢獻(xiàn)度) 客戶消費(fèi)行為分析 客戶消費(fèi)異常行為分析 WEB數(shù)據(jù)挖掘面向網(wǎng)絡(luò)用戶行為的分析和網(wǎng)頁內(nèi)容的挖掘是面向網(wǎng)絡(luò)用戶行為的分析和網(wǎng)頁內(nèi)容的挖掘是WEB應(yīng)用企業(yè)的核心技術(shù)應(yīng)用企業(yè)的核心技術(shù)關(guān)注點(diǎn)分析社

32、交網(wǎng)絡(luò)挖掘 基于社交網(wǎng)絡(luò)的富基于社交網(wǎng)絡(luò)的富媒體分析媒體分析 DBLP、微博、微博 社交網(wǎng)絡(luò)上的信息社交網(wǎng)絡(luò)上的信息傳播模式分析傳播模式分析金融數(shù)據(jù)挖掘 面向股票和期貨價(jià)格趨勢及其同相關(guān)因素關(guān)聯(lián)關(guān)系的挖掘是程序化交易的核心技術(shù)生物數(shù)據(jù)挖掘 面向基因數(shù)據(jù)的挖掘是生物信息學(xué)的基礎(chǔ)面向基因數(shù)據(jù)的挖掘是生物信息學(xué)的基礎(chǔ) 生物信息數(shù)據(jù)的類型生物信息數(shù)據(jù)的類型 基因序列、蛋白質(zhì)相互作用網(wǎng)絡(luò)、蛋白質(zhì)三維結(jié)基因序列、蛋白質(zhì)相互作用網(wǎng)絡(luò)、蛋白質(zhì)三維結(jié)構(gòu)、構(gòu)、基因中能發(fā)現(xiàn)什么?轉(zhuǎn)錄結(jié)合變化?生物數(shù)據(jù)挖掘 生物生物/醫(yī)療文本挖掘是現(xiàn)代醫(yī)療發(fā)展的主要支撐技醫(yī)療文本挖掘是現(xiàn)代醫(yī)療發(fā)展的主要支撐技術(shù)之一術(shù)之一醫(yī)藥分析 面

33、向海量分子結(jié)構(gòu)的分析成為當(dāng)前新藥研制的主要手段 其核心技術(shù)的對圖模型描述的海量分子結(jié)構(gòu)的模式分析數(shù)據(jù)挖掘其他應(yīng)用領(lǐng)域 基于位置的服務(wù) 智能交通 橋梁監(jiān)控 節(jié)能分析 數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢數(shù)據(jù)挖掘領(lǐng)域的主要期刊和學(xué)術(shù)會(huì)議 國際學(xué)術(shù)會(huì)議 SIGKDD、ICDM、SIAM DM、PKDD、 SIGMOD、VLDB、ICDE、 國際學(xué)術(shù)期刊 IEEE KDD DKDM 從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向主題主題#submissionSocial (Social and information networks, graph and link mining, other) 134Rich data

34、types (Temporal and Spatial, text, Sequence, Unstructured, Other) 78Supervised learning (Classification, Regression, other) 76Unsupervised learning (Clustering, Topic Discovery, Factorization, Visualization, Exploratory Analysis, Other) 75Big data (Distributed Computing - Cloud, GPU, MPI, others, Ef

35、ficient Algorithms, Scalable Methods, Optimization Techniques) 55Web (Web mining, Online Advertising, other) 49Rule and Pattern Mining 47Recommender systems (collaborative filtering, content based methods, hybrid methods, evaluation and metrics, other aspects) 41從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向 Best paper T. Rak

36、thanmanon, B. Campana, A. Mueen, G. Batista, B. Westover, Q. Zhu, J. Zakaria, E. Keogh. Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping . (UCR) Best Student paper Y. Sun, B. Norick, J. Han, X. Yan, P. Yu, X. Yu. Integrating Meta-Path Selection with User Guided O

37、bject Clustering in Heterogeneous Information Networks . (UIUC) Q. Ding, N. Katenka, P. Barford, E. Kolaczyk, Mark Crovella. Intrusion as (Anti)social Communication: Characterization and Detection. (Boston U.)從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向 WEB和社交數(shù)據(jù)分析 針對社交網(wǎng)絡(luò)和WEB數(shù)據(jù),結(jié)合社會(huì)學(xué)等方面的理論,研究其信息傳播和用戶行為模式的分析方法 主要研究問題 面向市場劃分社交網(wǎng)絡(luò)的聚類 面向競爭的網(wǎng)絡(luò)中的病毒傳播模式分析從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向 圖挖掘 基于新型計(jì)算平臺(tái)研究超大規(guī)模圖數(shù)據(jù)的管理與挖掘技術(shù) 主要研究問題 基于流計(jì)算模式的超大規(guī)模圖數(shù)據(jù)分割算法 最大團(tuán)的有效計(jì)算方法 基于圖數(shù)據(jù)的用戶行為分析方法 大規(guī)模二部圖的摘要分析從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向 時(shí)空數(shù)據(jù)挖掘 面向移動(dòng)互聯(lián)網(wǎng)、基于位置的服務(wù)等應(yīng)用的需求,研究各種時(shí)空數(shù)據(jù)及相關(guān)數(shù)據(jù)的模式和關(guān)聯(lián)關(guān)系的挖掘方法 主要研究問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論