第5章:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件_第1頁
第5章:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件_第2頁
第5章:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件_第3頁
第5章:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件_第4頁
第5章:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第5章基于數(shù)據(jù)倉庫的決策支持系統(tǒng)

(1)1第5章基于數(shù)據(jù)倉庫的決策支持系統(tǒng)120世紀90年代中期,國外興起了三項決策支持新技術(shù):數(shù)據(jù)倉庫(DW)、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘(DM)。數(shù)據(jù)倉庫、聯(lián)機分析處理、數(shù)據(jù)挖掘的結(jié)合形成了基于數(shù)據(jù)倉庫的決策支持系統(tǒng)。20世紀90年代中期,國外興起了三項決策支持新技術(shù):2第(1)部分

5.1數(shù)據(jù)倉庫的基本原理第(1)部分

35.1數(shù)據(jù)倉庫的基本原理5.1.1數(shù)據(jù)倉庫產(chǎn)生和數(shù)據(jù)倉庫的概念5.1.2數(shù)據(jù)倉庫結(jié)構(gòu)5.1.3數(shù)據(jù)集市5.1.4元數(shù)據(jù)5.1.5數(shù)據(jù)倉庫存儲5.1.6數(shù)據(jù)倉庫系統(tǒng)5.1數(shù)據(jù)倉庫的基本原理5.1.1數(shù)據(jù)倉庫產(chǎn)生和數(shù)據(jù)倉庫45.1.1數(shù)據(jù)倉庫產(chǎn)生和數(shù)據(jù)倉庫的概念數(shù)據(jù)倉庫的產(chǎn)生蜘蛛網(wǎng)問題隨著數(shù)據(jù)庫技術(shù)的廣泛運用,企業(yè)的運營環(huán)境逐漸轉(zhuǎn)化為以數(shù)據(jù)庫為中心的運營環(huán)境。企業(yè)對數(shù)據(jù)的需求是多方面的,除了在企業(yè)中建立企業(yè)級的數(shù)據(jù)庫外,常常還要建立部門數(shù)據(jù)庫。比如,市場人員通常只關(guān)心企業(yè)的銷售、市場策劃方面的信息,而不注重企業(yè)研發(fā)、生產(chǎn)等其他環(huán)節(jié)。因此,將銷售、市場策劃方面的信息抽取出來單獨建立部門級的數(shù)據(jù)庫很有必要,這樣可以提高數(shù)據(jù)的訪問效率。隨著數(shù)據(jù)的逐層抽取,很可能形成“蜘蛛網(wǎng)”現(xiàn)象,使數(shù)據(jù)的抽取和訪問顯得錯綜復(fù)雜。一個大型公司每天進行上萬次的數(shù)據(jù)抽取很普通。這種演變不是人為制造的,而是自然演變的結(jié)果,如果不再體系結(jié)構(gòu)上進行調(diào)整,“蜘蛛網(wǎng)”問題將越來越嚴重。5.1.1數(shù)據(jù)倉庫產(chǎn)生和數(shù)據(jù)倉庫的概念數(shù)據(jù)倉庫的產(chǎn)生5企業(yè)級數(shù)據(jù)庫部門級數(shù)據(jù)個人級抽取程序企業(yè)級數(shù)據(jù)庫部門級數(shù)據(jù)個人級抽取程序6數(shù)據(jù)分析的結(jié)果缺乏可靠性如:不同部門根據(jù)各自抽取的不同數(shù)據(jù)對同一個問題得到不同的結(jié)果數(shù)據(jù)處理效率很低由于數(shù)據(jù)分散在各個數(shù)據(jù)庫中,因此需要編寫的程序很多。由于企業(yè)中使用的數(shù)據(jù)庫類型很多,因此需要很多技術(shù)來實現(xiàn)。程序的重用性很差,完成的報表不僅時效性很差,數(shù)據(jù)處理效率也很低數(shù)據(jù)分析的結(jié)果缺乏可靠性7難以將數(shù)據(jù)轉(zhuǎn)化為信息如,某電信公司想分析某個大客戶今年的情況和過去三年有什么不同?情況可能包括客戶的呼叫行為、話費情況、咨詢問題等。因此要想比較完整的回答這個問題,實際上需要將客戶多方面的數(shù)據(jù)綜合成信息。實際數(shù)據(jù)庫系統(tǒng)中,記錄客戶呼叫行為的數(shù)據(jù)庫通常只保留客戶最近3個月的呼叫帳單,帳務(wù)數(shù)據(jù)庫只保留客戶今年的繳費情況,客戶咨詢數(shù)據(jù)庫只保留客戶兩年內(nèi)的咨詢信息,用戶根本不可能從這些數(shù)據(jù)中提取比較完整的信息。難以將數(shù)據(jù)轉(zhuǎn)化為信息81.數(shù)據(jù)倉庫的概念W.H.Inmon對數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的,不同時間的數(shù)據(jù)集合,用于支持經(jīng)營管理中決策制定過程。SAS軟件研究所定義:數(shù)據(jù)倉庫是一種管理技術(shù),旨在通過通暢、合理、全面的信息管理,達到有效的決策支持。1.數(shù)據(jù)倉庫的概念W.H.Inmon對數(shù)據(jù)倉庫的定9操作型數(shù)據(jù)(DB數(shù)據(jù))與分析型數(shù)據(jù)(DW數(shù)據(jù))之間的差別為:操作型數(shù)據(jù)(DB數(shù)據(jù))與102、數(shù)據(jù)倉庫特點(1)數(shù)據(jù)倉庫是面向主題的主題是數(shù)據(jù)歸類的標準,每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。例如,銀行的數(shù)據(jù)倉庫的主題:客戶DW的客戶數(shù)據(jù)來源:從銀行儲蓄DB、信用卡DB、貸款DB等三個DB中抽取同一客戶的數(shù)據(jù)整理而成。在DW中分析客戶數(shù)據(jù),可決定是否繼續(xù)給予貸款。2、數(shù)據(jù)倉庫特點(1)數(shù)據(jù)倉庫是面向主題的11(2)數(shù)據(jù)倉庫是集成的數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成。對不同的數(shù)據(jù)來源進行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,異名同義,單位不統(tǒng)一,字長不一致等。將原始數(shù)據(jù)結(jié)構(gòu)做一個從面向應(yīng)用到面向主題的大轉(zhuǎn)變。(2)數(shù)據(jù)倉庫是集成的12(3)數(shù)據(jù)倉庫是穩(wěn)定的數(shù)據(jù)倉庫中包括了大量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進入數(shù)據(jù)倉庫后是極少或根本不更新的。(4)數(shù)據(jù)倉庫是隨時間變化的數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時限在5~10年,故數(shù)據(jù)的鍵碼包含時間項,標明數(shù)據(jù)的歷史時期,這適合DSS進行時間趨勢分析。而數(shù)據(jù)庫只包含當(dāng)前數(shù)據(jù),即存取某一時間的正確的有效的數(shù)據(jù)。(3)數(shù)據(jù)倉庫是穩(wěn)定的13

(5)數(shù)據(jù)倉庫的數(shù)據(jù)量很大

大型DW是一個TB(1000GB)級數(shù)據(jù)庫問題(一般為10GB級相當(dāng)于一般數(shù)據(jù)庫100MB的100倍)(6)數(shù)據(jù)倉庫軟硬件要求較高

需要一個巨大的硬件平臺需要一個并行的數(shù)據(jù)庫系統(tǒng)

最好的數(shù)據(jù)倉庫是大的和昂貴的。(5)數(shù)據(jù)倉庫的數(shù)據(jù)量很大14

近期基本數(shù)據(jù):是最近時期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分,數(shù)據(jù)量大。

歷史基本數(shù)據(jù):近期基本數(shù)據(jù)隨時間的推移,由數(shù)據(jù)倉庫的時間控制機制轉(zhuǎn)為歷史基本數(shù)據(jù)。

輕度綜合數(shù)據(jù):是從近期基本數(shù)據(jù)中提取出的,這層數(shù)據(jù)是按時間段選取,或者按數(shù)據(jù)屬性(attributes)和內(nèi)容(contents)進行綜合。

高度綜合數(shù)據(jù)層:這一層的數(shù)據(jù)是在輕度綜合數(shù)據(jù)基礎(chǔ)上的再一次綜合,是一種準決策數(shù)據(jù)。5.1.2數(shù)據(jù)倉庫結(jié)構(gòu)近期基本數(shù)據(jù):是最近時期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉15第5章:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)ppt課件16數(shù)據(jù)倉庫工作范圍和成本常常是巨大的。開發(fā)數(shù)據(jù)倉庫是代價很高、時間較長的大項目。提供更緊密集成的數(shù)據(jù)集市就應(yīng)運產(chǎn)生。目前,全世界對數(shù)據(jù)倉庫總投資的一半以上均集中在數(shù)據(jù)集市上。5.1.3數(shù)據(jù)集市(DataMarts)5.1.3數(shù)據(jù)集市(DataMarts)17數(shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。數(shù)據(jù)集市是指具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個應(yīng)用或者具體部門級的應(yīng)用,支持用戶獲得競爭優(yōu)勢或者找到進入新市場的具體解決方案。數(shù)據(jù)集市概念數(shù)據(jù)集市概念18數(shù)據(jù)集市的種類獨立數(shù)據(jù)集市從屬數(shù)據(jù)集市數(shù)據(jù)集市的種類獨立數(shù)據(jù)集市從屬數(shù)據(jù)集市19

1、規(guī)模是小的,面向部門2、由業(yè)務(wù)部門設(shè)計、開發(fā)、管理和維護3、購買較便宜,快速實現(xiàn),投資快速回收4、數(shù)據(jù)倉庫的子集5、可升級到完整的數(shù)據(jù)倉庫數(shù)據(jù)集市的特性1、規(guī)模是小的,面向部門數(shù)據(jù)集市的特性20元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分。元數(shù)據(jù)描述了數(shù)據(jù)倉庫的數(shù)據(jù)和環(huán)境,即關(guān)于數(shù)據(jù)的數(shù)據(jù)(metadata)元數(shù)據(jù)包括四種元數(shù)據(jù)。5.1.4元數(shù)據(jù)元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分。5.1.4元數(shù)據(jù)21它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。(2)所有數(shù)據(jù)項的業(yè)務(wù)定義。(3)每個數(shù)據(jù)項更新的頻率,以及由誰或那個過程更新的說明。(4)每個數(shù)據(jù)項的有效值。1、關(guān)于數(shù)據(jù)源的元數(shù)據(jù)它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是對22

數(shù)據(jù)倉庫的數(shù)據(jù)模型是星型模型:星形模式是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(FactTable)和一組維表(DimensionTable)組成。通常企業(yè)數(shù)據(jù)模型被用作建立倉庫數(shù)據(jù)模型的起始點,再對模型加以修改和變換。2、關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)2、關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)23

這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映射。當(dāng)數(shù)據(jù)源中的一個數(shù)據(jù)項與數(shù)據(jù)倉庫建立了映射關(guān)系,就應(yīng)該記下這些數(shù)據(jù)項發(fā)生的任何變換或變動。即用元數(shù)據(jù)反映數(shù)據(jù)倉庫中的數(shù)據(jù)項是從哪個特定的數(shù)據(jù)源填充的,經(jīng)過那些轉(zhuǎn)換,變換和加載過程。3、關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映24

這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。

(1)元數(shù)據(jù)告訴數(shù)據(jù)倉庫中有什么數(shù)據(jù),即如何按主題查看數(shù)據(jù)倉庫的內(nèi)容。(2)元數(shù)據(jù)提供已有的可重復(fù)利用的查詢語言信息。關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)能幫助用戶到數(shù)據(jù)倉庫查詢所需要的信息,用于解決企業(yè)問題。4、關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。4、關(guān)于數(shù)25

數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。維就是相同類數(shù)據(jù)的集合,商店、時間和產(chǎn)品都是維。各個商店的集合是一維,時間的集合是一維,商品的集合是一維。每一個商店、每一段時間、每一種商品就是某一維的一個成員。每一個銷售事實由一個特定的商品、一個特定的時間、一個特定的商品組成。兩維表,如通常的電子表格。三維構(gòu)成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出來。

5.1.5數(shù)據(jù)倉庫的存儲數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。5.1.526數(shù)據(jù)倉庫是以多維表型的“維表—事實表”結(jié)構(gòu)形式組織的,共有三種形式:

1、星型模型大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由“事實表”(大表)以及多個“維表”(小表)所組成?!笆聦嵄怼敝写娣糯罅筷P(guān)于企業(yè)的事實數(shù)據(jù)(數(shù)量數(shù)據(jù))。例如:多個時期的數(shù)據(jù)可能會出現(xiàn)在同一個“事實表”中。“維表”中存放描述性數(shù)據(jù),維表是圍繞事實表建立的較小的表。

星型模型數(shù)據(jù)如下圖:數(shù)據(jù)倉庫是以多維表型的“維表—事實表”結(jié)構(gòu)形式組27第5章:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)ppt課件28

2、雪花模型雪花模型是對星型模型的擴展,雪花模型對星型模型的維表進一步層次化,原來的各維表可能被擴展為小的事實表,形成一些局部的“層次”區(qū)域。它的優(yōu)點是最大限度地減少數(shù)據(jù)存儲量,以及把較小的維表聯(lián)合在一起來改善查詢性能。在上面星型模型的數(shù)據(jù)中,對“產(chǎn)品表”“日期表”“地區(qū)表”進行擴展形成雪花模型數(shù)據(jù)見下圖。3、星網(wǎng)模型

星網(wǎng)模型是將多個星型模型連接起來形成網(wǎng)狀結(jié)構(gòu)。多個星型模型通過相同的維,如時間維,連接多個事實表。2、雪花模型29第5章:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)ppt課件30

5.1.6數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)

數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成。5.1.6數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)311、數(shù)據(jù)倉庫管理系統(tǒng)(1)定義部分

用于定義和建立數(shù)據(jù)倉庫系統(tǒng)。它包括:(1)設(shè)計和定義數(shù)據(jù)倉庫的數(shù)據(jù)庫(2)定義數(shù)據(jù)來源(3)確定從源數(shù)據(jù)向數(shù)據(jù)倉庫復(fù)制數(shù)據(jù)時的清理和增強規(guī)則(2)數(shù)據(jù)獲取部分

該部件把數(shù)據(jù)從源數(shù)據(jù)中提取出來,依定義部件的規(guī)則,抽取、轉(zhuǎn)化和裝載數(shù)據(jù)進入數(shù)據(jù)倉庫。

1、數(shù)據(jù)倉庫管理系統(tǒng)(1)定義部分32(3)管理部分它用于管理數(shù)據(jù)倉庫的工作,包括:(1)對數(shù)據(jù)倉庫中數(shù)據(jù)的維護(2)把倉庫數(shù)據(jù)送出給分散的倉庫服務(wù)器或DSS用戶(3)對倉庫數(shù)據(jù)的安全、歸檔、備份、恢復(fù)等處理工作(3)管理部分33(4)信息目錄部件(元數(shù)據(jù))

數(shù)據(jù)倉庫的目錄數(shù)據(jù)是元數(shù)據(jù),由三部分組成:

技術(shù)目錄:由定義部件生成,關(guān)于數(shù)據(jù)源、目標、清理規(guī)則、變換規(guī)則以及數(shù)據(jù)源和倉庫之間的映象信息。

業(yè)務(wù)目錄:由倉庫管理員生成,關(guān)于倉庫數(shù)據(jù)的來源及當(dāng)前值;預(yù)定義的查詢和報表細節(jié);合法性要求等。

信息引導(dǎo)器:使用戶容易訪問倉庫數(shù)據(jù)。利用固定查詢或建立新的查詢,生成暫時的或永久的倉庫數(shù)據(jù)集合的能力等。(4)信息目錄部件(元數(shù)據(jù))34分析工具集分兩類工具:(1)查詢工具數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查詢,而是指對分析要求的查詢。一般包含:

可視化工具:以圖形化方式展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu),關(guān)系以及動態(tài)性。2、數(shù)據(jù)倉庫工具集分析工具集分兩類工具:2、數(shù)據(jù)倉庫工具集35多維分析工具(OLAP工具):通過對信息的多種可能的觀察形式進行快速、一致和交互性的存取,這樣便利用戶對數(shù)據(jù)進行深入的分析和觀察。多維數(shù)據(jù)的每一維代表對數(shù)據(jù)的一個特定的觀察視角,如時間、地域、業(yè)務(wù)等。第5章:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)ppt課件36(2)數(shù)據(jù)挖掘工具

從大量數(shù)據(jù)中挖掘具有規(guī)律性知識,需要利用數(shù)據(jù)挖掘(DataMining)工具。(2)數(shù)據(jù)挖掘工具373、數(shù)據(jù)倉庫的運行結(jié)構(gòu)數(shù)據(jù)倉庫應(yīng)用是一個典型的客戶/服務(wù)器(C/S)結(jié)構(gòu)形式。數(shù)據(jù)倉庫采用服務(wù)器結(jié)構(gòu),客戶端所做

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論