數(shù)據(jù)倉庫課件_第1頁
數(shù)據(jù)倉庫課件_第2頁
數(shù)據(jù)倉庫課件_第3頁
數(shù)據(jù)倉庫課件_第4頁
數(shù)據(jù)倉庫課件_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

第十章數(shù)據(jù)倉庫

10.1數(shù)據(jù)倉庫基本概念

10.2數(shù)據(jù)倉庫的基本原理

10.3多維數(shù)據(jù)庫與OLAP分析

10.4數(shù)據(jù)倉庫模型設計’」

10.5數(shù)據(jù)倉庫的應用

10。小結

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.1數(shù)據(jù)倉庫基本概念

10.1.1數(shù)據(jù)倉庫的產(chǎn)生

10.1.2數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別

10.1.3數(shù)據(jù)倉庫的定義

O200J東北射性大學電「向修學院AllRifhtfKeasrvetl

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.1.1數(shù)據(jù)倉庫的產(chǎn)生

?隨著數(shù)據(jù)庫技術的廣泛應用,企業(yè)擁有了越來越

多的數(shù)據(jù)。

?傳統(tǒng)的關系型數(shù)據(jù)庫無法滿足分析數(shù)據(jù)、支持決

策的需求。

?傳統(tǒng)的關系數(shù)據(jù)庫處理企業(yè)的日常事務,數(shù)據(jù)倉

庫則用于分析數(shù)據(jù)中隱含的信息,以支持決策。

O200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDE[九**

:客戶關案道理::CUSTOMERRELATIONSHIPMANAGEMENT

10」.2數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別

?數(shù)據(jù)倉庫和數(shù)據(jù)庫的區(qū)別

特性數(shù)據(jù)庫數(shù)據(jù)倉庫

數(shù)據(jù)當前數(shù)據(jù)歷史數(shù)據(jù)

面向業(yè)務操作數(shù)據(jù)分析

存取讀寫操作多為只讀

使用頻率同J較低

數(shù)據(jù)訪問量少多

要求的響應時間較短可以很長

關注數(shù)據(jù)輸入信息輸出

表10-1數(shù)據(jù)倉庫和數(shù)據(jù)庫的區(qū)別

O200J東北射終大學電r向修學院AllXithuReserved

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.1.3數(shù)據(jù)倉庫的定義

著名的數(shù)據(jù)倉庫專家W.HJnmon的定義是:

數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題

的、集成的、非易失的、隨時間變化的數(shù)據(jù)集合,

用于支持管理決策。該定義指出了數(shù)據(jù)倉庫的四

個特性:

(1)面向主題的特性

(2)集成性

(3)非易失性

(4)時變性

0200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.2數(shù)據(jù)倉庫的基本原理

1021數(shù)據(jù)倉庫的體系結構

1022數(shù)據(jù)倉庫的相關概念

1023數(shù)據(jù)集市(DataMart)

1024操作數(shù)據(jù)存儲

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1021數(shù)據(jù)倉庫的體系結構

?數(shù)據(jù)倉庫的體系結構可以用圖10」來表示

數(shù)據(jù)倉庫存儲

企業(yè)外部數(shù)據(jù)

數(shù)指清洗年市提取倉庫

颯福黃國

業(yè)務操作型系統(tǒng)

圖10-1數(shù)據(jù)倉庫的體系結構

O200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**

V::容產(chǎn)關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1022數(shù)據(jù)倉庫的相關概念

(1)數(shù)據(jù)抽取

數(shù)據(jù)提取是指從外部數(shù)據(jù)源中收集數(shù)據(jù)。

(2)數(shù)據(jù)清理

將提取出來的數(shù)據(jù)進行檢測,并修正數(shù)據(jù)中的錯誤的過程稱

為數(shù)據(jù)清理。

(3)數(shù)據(jù)轉化

將不同格式的數(shù)據(jù)轉換成相同格式過程稱為數(shù)據(jù)轉化。

(4)外部數(shù)據(jù)

外部數(shù)據(jù)是從系統(tǒng)外部獲得的與分析主題相關的數(shù)據(jù)。

O200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdh”九**

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1022數(shù)據(jù)倉庫的相關概念

(5)歷史數(shù)據(jù)

歷史數(shù)據(jù)是指組織在長期的信息處理過程中所積累

下來的數(shù)據(jù)。

(6)元數(shù)據(jù)

元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù)。它是數(shù)據(jù)倉庫中數(shù)據(jù)綜

合的一種類型。

(7)數(shù)據(jù)粒度

數(shù)據(jù)粒度有兩種形式。第一種形式的數(shù)據(jù)粒度是面

向OLAP,見表10-2o第二種形式的數(shù)據(jù)粒度

是面向數(shù)據(jù)挖掘的,它反映的是抽樣率。

e200J東北射終大學電r向修學院AUXifhUServed

E-CMOERCEINSTXTUDE[九**

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1022數(shù)據(jù)倉庫的相關概念

粒度級別綜合程度數(shù)據(jù)量數(shù)據(jù)細節(jié)

(詳細度:)

__i__.口

rm小低

低低大rnj

表10-2數(shù)據(jù)粒度的相關指標

O200J東北射終大學電r向修學院AllXithuReserved

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1023數(shù)據(jù)集市(DataMart)

?數(shù)據(jù)集市也叫數(shù)據(jù)市場,是企業(yè)級數(shù)據(jù)倉庫中針

對某一主題的數(shù)據(jù)庫,它是企業(yè)數(shù)據(jù)庫的一個子

集。

(1)獨立的數(shù)據(jù)集市的數(shù)據(jù)直接來源于各信息系

統(tǒng)。

(2)依賴的數(shù)據(jù)集市的數(shù)據(jù)直接來源于中央數(shù)據(jù)

倉庫,也就是說它是在數(shù)據(jù)倉庫的基礎上建立起

來的。

0200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1024操作數(shù)據(jù)存儲(Operational

DataStoreQDS)

?ODS是用于支持企業(yè)日常的全局應用的數(shù)據(jù)集合。

?ODS中的數(shù)據(jù)按照主題來組織,ODS只存放當

前和近期數(shù)據(jù)。

?ODS的應用一般體現(xiàn)在兩個方面:

(1)企業(yè)級的聯(lián)機事務處理(OLTP)應用。

(2)近期的聯(lián)機分析處理(OLAP)o

0200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.3多維數(shù)據(jù)庫與OLAP分析

10.3.1多維數(shù)據(jù)庫的基本概念

10.3.2多維數(shù)據(jù)模型上的OLAP操作

10.3.3多維數(shù)據(jù)庫模式

10.3.4多維數(shù)據(jù)的數(shù)據(jù)存儲與可視化

1035多維數(shù)據(jù)庫與數(shù)據(jù)倉庫

O200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1031多維數(shù)據(jù)庫的基本概念

(1)變量

變量是分析數(shù)據(jù)時要考察的屬性。

(2)維

用戶分析問題的角度或決策分析的出發(fā)點構成了

數(shù)據(jù)倉庫布的維。

(3)維的層次性,

數(shù)據(jù)倉庫中的維是具有層次性的。用地理維度來

解釋維的層次性是最容易理解的。如圖10?2所

0200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDE[九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.3.1多維數(shù)據(jù)庫的基本概念

圖10-2地理維的層次性

O200J東北射終大學電r向修學院AllXithuReserved

E-CMOERCEINSTXTUDEdh”九**

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.3.1多維數(shù)據(jù)庫的基本概念

(4)維成員

維成員是維的一個取值,如果維分成了幾個層次,

那么維成員就是不同維層次取值的組合

(5)事實

每一個維都取一個維成員,則可得到唯一確定的

一個變量值。一

(6)多維數(shù)據(jù)立方體.

多維數(shù)據(jù)立方體對應的是一個多維數(shù)組,。

e200J東北射終大學電r向修學院AUXifhUServed

E-CMOERCEINSTXTUDE[九**

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

10.3.1多維數(shù)據(jù)庫的基本概念

圖10-3三維數(shù)據(jù)立方體

O200J東北射終大學電r向修學院AllXithuReserved

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1032多維數(shù)據(jù)模型上的OLAP操作

OLAP技術的核心是多維分析。下面我們具

體介紹OLAP的分析動作。

(1)切片

?對多維數(shù)據(jù)集(維1、維2……維i……維n、

變量)在維度i上選定一個維成員,得到一個n?

1維多維數(shù)據(jù)集,稱得到的這個n?1維多維數(shù)據(jù)

集為原數(shù)據(jù)集在第i維上的數(shù)據(jù)切片。圖10?4表

示了一個數(shù)據(jù)切片動作。

0200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1032多維數(shù)據(jù)模型上的0LAP操作

?時

圖10-4數(shù)據(jù)切片

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**FWH9R

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1032多維數(shù)據(jù)模型上的OLAP操作

(2)數(shù)據(jù)切塊

在多維數(shù)據(jù)立方體中,確定某些維度的取值范圍,得到

一個原立方體的子立方體的過程稱為數(shù)據(jù)切塊。

(3)數(shù)據(jù)鉆取

數(shù)據(jù)鉆取也叫數(shù)據(jù)下鉆,是由概括的數(shù)據(jù)到詳細的數(shù)據(jù)

的過程。數(shù)據(jù)鉆取的具體操作參見圖10?3中的數(shù)據(jù)鉆取

部分。

(4)數(shù)據(jù)聚集

數(shù)據(jù)聚集又叫數(shù)據(jù)上卷,它是數(shù)據(jù)鉆取的逆過程。

圖10-5顯示了一個數(shù)據(jù)立方體的鉆取和聚集的過程。

e200J東北射終大學電r向修學院AUXifhUServed

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1032多維數(shù)據(jù)模型上的OLAP操作

L

98,

□匚

99?

□□c

圖10?5數(shù)據(jù)鉆取和聚集

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1032多維數(shù)據(jù)模型上的OLAP操作

(5)數(shù)據(jù)旋轉

數(shù)據(jù)旋轉即變換維度的位置,也就是轉動數(shù)據(jù)的

視角,給用戶提供一個從不同的角度觀察數(shù)據(jù)的

方法。具體方法如下圖所示。

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**FWH9R

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1032多維數(shù)據(jù)模型上的OLAP操作

*1998*1999

*Al*200*230

*A2*456*478

*A3*100*120

*Al*A2?A3

*1998*200*456*100

*1999*230*478*120

圖10-6數(shù)據(jù)旋轉

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1033多維數(shù)據(jù)庫模式

(1)星型模式

要了解星型模式首先要了解維表和事實表的概

念。將維度抽取出來定義主鍵,由維的主鍵和

維的取值構成的表是維表。圖10-7是一個星型

模式的示例。

0200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1033多維數(shù)據(jù)庫模式

圖10-7星型模式

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1033多維數(shù)據(jù)庫模式

(2)雪花模式

雪花模式是星型模式的一種衍生。

圖10-8雪花模式

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1033多維數(shù)據(jù)庫模式

(3)星座模式

有時,在復雜的數(shù)據(jù)應用時,多個事實表需要共

享維表。這種模式可以看成是星型模式的集合,

因此又叫星系模式。

?三種多維數(shù)據(jù)模式中,星型模式和雪花模式比較

適合對單個主題建模,而其中星型模式又更為流

行。在具體應用時,要根據(jù)維表的復雜程度選擇

合適的模式。

e200J東北射終大學電r向修學院AUXifhUServed

E-CMOERCEINSTXTUDEdll”九**FWH9R

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1034多維數(shù)據(jù)的數(shù)據(jù)存儲與可視化

?多維數(shù)據(jù)庫中的變量值的數(shù)量為每個維度維成員

個數(shù)的乘積。多維數(shù)據(jù)庫常采用數(shù)據(jù)壓縮技術來

解決存儲空間的浪費這個問題。

?對于三維或三維以上的多維數(shù)據(jù),由于無法在平

面上直接體現(xiàn),只有將數(shù)據(jù)進行切片轉化為一維

或二維數(shù)據(jù),然后用相應的平面圖或立體圖來表

示。對于維度很高的多維數(shù)據(jù)庫,要進行多次數(shù)

據(jù)切片操作才能將維度降到可視化的程度。

O200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**FWH9R

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1035多維數(shù)據(jù)庫與數(shù)據(jù)倉庫

?多維數(shù)據(jù)庫與數(shù)據(jù)倉庫是有區(qū)別的。數(shù)據(jù)倉庫中

的細節(jié)數(shù)據(jù)為多維數(shù)據(jù)庫提供數(shù)據(jù)源。

?多維數(shù)據(jù)庫中的數(shù)據(jù)是從數(shù)據(jù)倉庫中導入的,因

此從存儲數(shù)據(jù)的數(shù)量上看,數(shù)據(jù)倉庫存儲的數(shù)據(jù)

量比多維數(shù)據(jù)庫中的數(shù)據(jù)量要大。多維數(shù)據(jù)庫實

際上是與OLAP的應用共存的。由多維數(shù)據(jù)庫和

OLAP共同構成了多維聯(lián)機分析處理MOLAPo

e200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.4數(shù)據(jù)倉庫模型設計

1041企業(yè)模型設計

1042概念模型設計

10.4.3邏輯模型設計

10.4.4物理模型設計

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDEdll”九**FWH9R

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1041企業(yè)模型設計

(1)ER模型

-ER圖是由實體和實體間關系構成的。實體間的

關系分為一對一的關系、一對多的關系和多對多

的關系。圖10?9是一個ER圖示例。

圖10-9ER圖示例

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1041企業(yè)模型設計

(2)對象模型

?對象模型采用的是面向對象的方法。面向對象的

方法首先要確定模型中需要的類。

?企業(yè)模型的設計是數(shù)據(jù)倉庫模型設計的第一步。

它為數(shù)據(jù)倉庫的設計的提供一個全面、整體的認

識。數(shù)據(jù)倉庫的設計是分階段逐步進行的。

0200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMENT

1042概念模型設計

?概念模型設計包括了兩個方面,一是確定主題及

主題所涉及的對象;二是進行技術準備工作。

?主題的選擇是由數(shù)據(jù)倉庫開發(fā)人員利企業(yè)用戶共

同完成的。

?技術準備工作則是指估計數(shù)據(jù)倉庫中的數(shù)據(jù)量、

根據(jù)結果選擇適合的軟件和硬件等基礎的準備工

作。

?在概念模型設計完成后,還要對模型進行評審。

e200J東北射終大學電r向修學院AUXifhUServed

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1043邏輯模型設計

?數(shù)據(jù)倉庫的邏輯模型設計包括分析主題域、確定

粒度劃分層次、確定數(shù)據(jù)分割策略、定義關系模

式、定義數(shù)據(jù)抽取模型等過程。

(1)分析主題域

(2)劃分粒度層次

(3)確定數(shù)據(jù)分割策略

(4)定義關系模式

(5)定義數(shù)據(jù)抽取模型

O200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

1044物理模型設計

(1)確定數(shù)據(jù)結構的類型

(2)確定索引策略

(3)確定數(shù)據(jù)存放位置

(4)優(yōu)化存儲分配

?最后一個過程是數(shù)據(jù)裝載接口設計。對于一個數(shù)

據(jù)倉庫,企業(yè)模型和概念模型設計只需要進行一

次,而邏輯模型、物理模型和數(shù)據(jù)裝載接口設計

則是針對每一個主題都要進行設計的重復循環(huán)過

程。

0200J東北射終大學電r向修學院AllXifhU但”,冢

E-CMOERCEINSTXTUDEdll”九**

::客戶關票管理::CUSTOMERRELATIONSHIPMANAGEMENT

10.5數(shù)據(jù)倉庫的應用

1051數(shù)據(jù)倉庫的分類

1052數(shù)據(jù)倉庫的用戶

1053數(shù)據(jù)倉庫的應用

10.5.4客戶關系管理中的數(shù)據(jù)倉庫

1055數(shù)據(jù)倉庫應用的效益分析

0200J東北射終大學電r向修學院AllXifhUServed

E-CMOERCEINSTXTUDE

V::喜尸關奈管理::

CUSTOMERRELATIONSHIPMANAGEMEN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論