第2章數(shù)據(jù)倉(cāng)庫(kù)及其設(shè)計(jì)_第1頁(yè)
第2章數(shù)據(jù)倉(cāng)庫(kù)及其設(shè)計(jì)_第2頁(yè)
第2章數(shù)據(jù)倉(cāng)庫(kù)及其設(shè)計(jì)_第3頁(yè)
第2章數(shù)據(jù)倉(cāng)庫(kù)及其設(shè)計(jì)_第4頁(yè)
第2章數(shù)據(jù)倉(cāng)庫(kù)及其設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩98頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第第2章章 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 2.1 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)概述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)是建立一個(gè)面向企業(yè)決策者的分析環(huán)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)是建立一個(gè)面向企業(yè)決策者的分析環(huán)境或系統(tǒng)。境或系統(tǒng)。2.1.1 2.1.1 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)原則數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)原則 以業(yè)務(wù)和需求為中心以業(yè)務(wù)和需求為中心:是指圍繞業(yè)務(wù)方向性需求、業(yè):是指圍繞業(yè)務(wù)方向性需求、業(yè)務(wù)問題等,確定系統(tǒng)范圍和總體框架。務(wù)問題等,確定系統(tǒng)范圍和總體框架。 以數(shù)據(jù)來驅(qū)動(dòng)以數(shù)據(jù)來驅(qū)動(dòng): 是指其所有數(shù)據(jù)均建立在已有數(shù)據(jù)源是指其所有數(shù)據(jù)均建立在已有數(shù)據(jù)源基礎(chǔ)上,從已存在于操作型環(huán)境中的數(shù)據(jù)出發(fā)進(jìn)行數(shù)基礎(chǔ)上,從已存在于操作型環(huán)境中的數(shù)據(jù)出發(fā)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

2、。據(jù)倉(cāng)庫(kù)設(shè)計(jì)。2.1.2 2.1.2 數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建模式數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建模式1. 先整體再局部的構(gòu)建模式:先整體再局部的構(gòu)建模式:W.H.Inmon模式模式優(yōu)點(diǎn):優(yōu)點(diǎn):數(shù)據(jù)規(guī)范化程度高,數(shù)據(jù)規(guī)范化程度高,最小化數(shù)據(jù)冗余與不一致最小化數(shù)據(jù)冗余與不一致性;便于全局?jǐn)?shù)據(jù)的分析性;便于全局?jǐn)?shù)據(jù)的分析和挖掘。和挖掘。缺點(diǎn):缺點(diǎn):建設(shè)周期長(zhǎng)、見效慢;建設(shè)周期長(zhǎng)、見效慢;風(fēng)險(xiǎn)程度相對(duì)大。風(fēng)險(xiǎn)程度相對(duì)大。2. 先局部再整體的構(gòu)建模式:先局部再整體的構(gòu)建模式:Ralph Kimball 模式模式優(yōu)點(diǎn):優(yōu)點(diǎn):投資少、見效快;在投資少、見效快;在設(shè)計(jì)上相對(duì)靈活;易于實(shí)設(shè)計(jì)上相對(duì)靈活;易于實(shí)現(xiàn)?,F(xiàn)。缺點(diǎn):缺點(diǎn):會(huì)有一定級(jí)別

3、的冗余會(huì)有一定級(jí)別的冗余和不一致性。和不一致性。2.1.3 2.1.3 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟(1 1)數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃和需求分析。)數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃和需求分析。(2 2)數(shù)據(jù)倉(cāng)庫(kù)的建模。)數(shù)據(jù)倉(cāng)庫(kù)的建模。(3 3)數(shù)據(jù)倉(cāng)庫(kù)物理模型設(shè)計(jì)。)數(shù)據(jù)倉(cāng)庫(kù)物理模型設(shè)計(jì)。(4 4)數(shù)據(jù)倉(cāng)庫(kù)的部署。)數(shù)據(jù)倉(cāng)庫(kù)的部署。(5 5)數(shù)據(jù)倉(cāng)庫(kù)的維護(hù)。)數(shù)據(jù)倉(cāng)庫(kù)的維護(hù)。2.2 數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃和需求分析數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃和需求分析2.2.1 2.2.1 數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃數(shù)據(jù)倉(cāng)庫(kù)的策略規(guī)劃包括:數(shù)據(jù)倉(cāng)庫(kù)的策略規(guī)劃包括: 明確用戶的戰(zhàn)略遠(yuǎn)景、業(yè)務(wù)目標(biāo)。明確用戶的戰(zhàn)略遠(yuǎn)景、業(yè)務(wù)目標(biāo)。 確定建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的目的和目標(biāo)

4、。確定建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的目的和目標(biāo)。 定義清楚數(shù)據(jù)倉(cāng)庫(kù)的范圍、優(yōu)先順序、主題和針對(duì)的業(yè)務(wù)。定義清楚數(shù)據(jù)倉(cāng)庫(kù)的范圍、優(yōu)先順序、主題和針對(duì)的業(yè)務(wù)。 定義衡量數(shù)據(jù)倉(cāng)庫(kù)成功的要素。定義衡量數(shù)據(jù)倉(cāng)庫(kù)成功的要素。 定義精簡(jiǎn)的體系結(jié)構(gòu)、使用技術(shù)、配置、容量要求等。定義精簡(jiǎn)的體系結(jié)構(gòu)、使用技術(shù)、配置、容量要求等。 定義操作數(shù)據(jù)和外部數(shù)據(jù)源。定義操作數(shù)據(jù)和外部數(shù)據(jù)源。 確定建設(shè)所需要的工具。確定建設(shè)所需要的工具。 概要性地定義數(shù)據(jù)獲取和質(zhì)量控制的策略。概要性地定義數(shù)據(jù)獲取和質(zhì)量控制的策略。 數(shù)據(jù)倉(cāng)庫(kù)管理及安全。數(shù)據(jù)倉(cāng)庫(kù)管理及安全。2.2.2 2.2.2 數(shù)據(jù)倉(cāng)庫(kù)的需求分析數(shù)據(jù)倉(cāng)庫(kù)的需求分析 主題分析主題分析 數(shù)據(jù)分

5、析數(shù)據(jù)分析 環(huán)境要求分析環(huán)境要求分析2.3 數(shù)據(jù)倉(cāng)庫(kù)的建模數(shù)據(jù)倉(cāng)庫(kù)的建模2.3.1 2.3.1 多維數(shù)據(jù)模型及相關(guān)概念多維數(shù)據(jù)模型及相關(guān)概念多維數(shù)據(jù)模型將數(shù)據(jù)看作數(shù)據(jù)立方體形式,滿足用戶多維數(shù)據(jù)模型將數(shù)據(jù)看作數(shù)據(jù)立方體形式,滿足用戶從多角度多層次進(jìn)行數(shù)據(jù)查詢和分析的需要而建立起來的從多角度多層次進(jìn)行數(shù)據(jù)查詢和分析的需要而建立起來的基于事實(shí)和維的數(shù)據(jù)庫(kù)模型?;谑聦?shí)和維的數(shù)據(jù)庫(kù)模型。其數(shù)據(jù)組織采用多維結(jié)構(gòu)文件進(jìn)行數(shù)據(jù)存儲(chǔ),并有索其數(shù)據(jù)組織采用多維結(jié)構(gòu)文件進(jìn)行數(shù)據(jù)存儲(chǔ),并有索引及相應(yīng)的元數(shù)據(jù)管理文件與數(shù)據(jù)相對(duì)應(yīng)。引及相應(yīng)的元數(shù)據(jù)管理文件與數(shù)據(jù)相對(duì)應(yīng)。 1. 粒度(粒度(Granularity)粒度

6、粒度是指數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)單元的詳細(xì)程度和級(jí)別,確定是指數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)單元的詳細(xì)程度和級(jí)別,確定數(shù)據(jù)倉(cāng)庫(kù)的粒度是設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)最重要方面。數(shù)據(jù)倉(cāng)庫(kù)的粒度是設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)最重要方面。數(shù)據(jù)越詳細(xì),粒度越小級(jí)別就越低;數(shù)據(jù)綜合度越高,數(shù)據(jù)越詳細(xì),粒度越小級(jí)別就越低;數(shù)據(jù)綜合度越高,粒度越大級(jí)別就越高粒度越大級(jí)別就越高。例如,地址數(shù)據(jù)中。例如,地址數(shù)據(jù)中“北京市北京市”比比“北北京市海淀區(qū)京市海淀區(qū)”的粒度小。的粒度小。在傳統(tǒng)的操作型數(shù)據(jù)庫(kù)系統(tǒng)中,對(duì)數(shù)據(jù)處理和操作都是在傳統(tǒng)的操作型數(shù)據(jù)庫(kù)系統(tǒng)中,對(duì)數(shù)據(jù)處理和操作都是在最低級(jí)的粒度上進(jìn)行的在最低級(jí)的粒度上進(jìn)行的。但是在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中應(yīng)用的主。但是在數(shù)

7、據(jù)倉(cāng)庫(kù)環(huán)境中應(yīng)用的主要是分析型處理,一般需要將數(shù)據(jù)劃分為詳細(xì)數(shù)據(jù)、輕度總要是分析型處理,一般需要將數(shù)據(jù)劃分為詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級(jí)或更多級(jí)粒度。結(jié)、高度總結(jié)三級(jí)或更多級(jí)粒度。2. 維度(維度(Dimension)維度維度(簡(jiǎn)稱為維)是指人們觀察事物的特定的角度,概(簡(jiǎn)稱為維)是指人們觀察事物的特定的角度,概念上類似于關(guān)系表的屬性。念上類似于關(guān)系表的屬性。例如企業(yè)常常關(guān)心產(chǎn)品銷售數(shù)據(jù)隨著時(shí)間推移而變化的例如企業(yè)常常關(guān)心產(chǎn)品銷售數(shù)據(jù)隨著時(shí)間推移而變化的情況,這是從時(shí)間的角度來觀察產(chǎn)品的銷售,即情況,這是從時(shí)間的角度來觀察產(chǎn)品的銷售,即時(shí)間維時(shí)間維;企業(yè)也常常關(guān)心本企業(yè)的產(chǎn)品在不同地區(qū)的銷

8、售分布情企業(yè)也常常關(guān)心本企業(yè)的產(chǎn)品在不同地區(qū)的銷售分布情況,這時(shí)是從地理分布的角度來觀察產(chǎn)品的銷售,即況,這時(shí)是從地理分布的角度來觀察產(chǎn)品的銷售,即地區(qū)維地區(qū)維。3. 維屬性和維成員維屬性和維成員一個(gè)維是通過一組屬性來描述的,如時(shí)間維包含年份、一個(gè)維是通過一組屬性來描述的,如時(shí)間維包含年份、季度、月份和日期等屬性,這里的年份、季度等稱為時(shí)間季度、月份和日期等屬性,這里的年份、季度等稱為時(shí)間維的維的維屬性維屬性。維的一個(gè)取值稱為該維的一個(gè)維的一個(gè)取值稱為該維的一個(gè)維成員維成員,如果一個(gè)維是,如果一個(gè)維是多層次的,那么該維的維成員是在不同維層次的取值組合。多層次的,那么該維的維成員是在不同維層次的

9、取值組合。例如,一個(gè)時(shí)間維具有年份、季度、月份、日期四個(gè)層次,例如,一個(gè)時(shí)間維具有年份、季度、月份、日期四個(gè)層次,分別在四個(gè)層次各取一個(gè)值,就得到時(shí)間維的一個(gè)維成員,分別在四個(gè)層次各取一個(gè)值,就得到時(shí)間維的一個(gè)維成員,即某年某季某月某日。即某年某季某月某日。4. 維層次維層次同一維度可以存在細(xì)節(jié)程度不同的各個(gè)值,可以將粒度同一維度可以存在細(xì)節(jié)程度不同的各個(gè)值,可以將粒度大的值映射到粒度小的值,這樣構(gòu)成維層次(或維層次結(jié)構(gòu))大的值映射到粒度小的值,這樣構(gòu)成維層次(或維層次結(jié)構(gòu))或概念分層,即將低層概念映射到更一般的高層概念,概念或概念分層,即將低層概念映射到更一般的高層概念,概念分層允許在各種抽

10、象級(jí)審查和處理數(shù)據(jù)。分層允許在各種抽象級(jí)審查和處理數(shù)據(jù)。 例如對(duì)于地點(diǎn)維,有例如對(duì)于地點(diǎn)維,有“杭州杭州浙江浙江中國(guó)中國(guó)”的維層次。的維層次。又例如時(shí)間維,可以從年、季度、月份、日期來描述,那又例如時(shí)間維,可以從年、季度、月份、日期來描述,那么么“年份年份季度季度月份月份日期日期”就是維層次。就是維層次。5. 度量(度量(Measure)或事實(shí)()或事實(shí)(Fact)度量是數(shù)據(jù)倉(cāng)庫(kù)中的信息單元,即多維空間中的一度量是數(shù)據(jù)倉(cāng)庫(kù)中的信息單元,即多維空間中的一個(gè)單元,用以存放數(shù)據(jù),也稱為事實(shí)(個(gè)單元,用以存放數(shù)據(jù),也稱為事實(shí)(FactFact)。)。通常是數(shù)值型數(shù)據(jù)并具有可加性。例如:通常是數(shù)值型數(shù)據(jù)

11、并具有可加性。例如:(日期,商品,地區(qū),銷售量)(日期,商品,地區(qū),銷售量)其中,銷售量就是一個(gè)度量。其中,銷售量就是一個(gè)度量。 2.3.2 2.3.2 多維數(shù)據(jù)模型的實(shí)現(xiàn)多維數(shù)據(jù)模型的實(shí)現(xiàn)多維數(shù)據(jù)模型實(shí)現(xiàn)方式:多維數(shù)據(jù)模型實(shí)現(xiàn)方式: 關(guān)系數(shù)據(jù)庫(kù)(關(guān)系數(shù)據(jù)庫(kù)(RDBRDB) 多維數(shù)據(jù)庫(kù)(多維數(shù)據(jù)庫(kù)(MDDBMDDB) 兩者相結(jié)合(兩者相結(jié)合(HDBHDB)1. 關(guān)系數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)在基于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)倉(cāng)庫(kù)中有兩類表,一類是維在基于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)倉(cāng)庫(kù)中有兩類表,一類是維表,對(duì)每個(gè)維至少使用一個(gè)表存放維的層次、成員等維的表,對(duì)每個(gè)維至少使用一個(gè)表存放維的層次、成員等維的描述信息;另一類是事實(shí)表

12、,用來存放維關(guān)鍵字和度量等描述信息;另一類是事實(shí)表,用來存放維關(guān)鍵字和度量等信息。信息。維表和事實(shí)表通過主關(guān)鍵字(主鍵)和外關(guān)鍵字(外維表和事實(shí)表通過主關(guān)鍵字(主鍵)和外關(guān)鍵字(外鍵)聯(lián)系在一起。鍵)聯(lián)系在一起。多維數(shù)據(jù)立方體各個(gè)坐標(biāo)軸上的刻度以及立方體各個(gè)多維數(shù)據(jù)立方體各個(gè)坐標(biāo)軸上的刻度以及立方體各個(gè)交點(diǎn)的取值都被記錄下來,因而數(shù)據(jù)立方體的全部信息就交點(diǎn)的取值都被記錄下來,因而數(shù)據(jù)立方體的全部信息就都被記錄了下來。都被記錄了下來。例如,下表是一個(gè)關(guān)系表的數(shù)據(jù)組織形式,其中包含例如,下表是一個(gè)關(guān)系表的數(shù)據(jù)組織形式,其中包含按產(chǎn)品和地區(qū)兩項(xiàng)分類統(tǒng)計(jì)的銷售量。按產(chǎn)品和地區(qū)兩項(xiàng)分類統(tǒng)計(jì)的銷售量。產(chǎn)品

13、產(chǎn)品地區(qū)地區(qū)銷售量銷售量電視機(jī)電視機(jī)華北華北1010電視機(jī)電視機(jī)華東華東2020電視機(jī)電視機(jī)華中華中3030電視機(jī)電視機(jī)華南華南4040電冰箱電冰箱華北華北4040電冰箱電冰箱華東華東3030電冰箱電冰箱華中華中2020電冰箱電冰箱華南華南1010手機(jī)手機(jī)華北華北5050手機(jī)手機(jī)華東華東6060手機(jī)手機(jī)華中華中7070手機(jī)手機(jī)華南華南80802. 多維數(shù)據(jù)庫(kù)多維數(shù)據(jù)庫(kù)多維數(shù)據(jù)庫(kù)也是一種數(shù)據(jù)庫(kù),可以將數(shù)據(jù)加載、存儲(chǔ)多維數(shù)據(jù)庫(kù)也是一種數(shù)據(jù)庫(kù),可以將數(shù)據(jù)加載、存儲(chǔ)到此數(shù)據(jù)庫(kù)中,或從中查詢數(shù)據(jù)。但其數(shù)據(jù)是存放在大量到此數(shù)據(jù)庫(kù)中,或從中查詢數(shù)據(jù)。但其數(shù)據(jù)是存放在大量的多維數(shù)組中,而不是關(guān)系表中。的多維數(shù)

14、組中,而不是關(guān)系表中。例如例如ExcelExcel便是如此。便是如此。例如,上一個(gè)表采用多維數(shù)據(jù)庫(kù)的數(shù)據(jù)組織形式如下表所示。例如,上一個(gè)表采用多維數(shù)據(jù)庫(kù)的數(shù)據(jù)組織形式如下表所示。華北華北華東華東華中華中華南華南電視機(jī)電視機(jī)1010202030304040電冰箱電冰箱4040303020201010手機(jī)手機(jī)5050606070708080產(chǎn)品產(chǎn)品地區(qū)地區(qū)銷售量銷售量電視機(jī)電視機(jī)華北華北1010電視機(jī)電視機(jī)華東華東2020電視機(jī)電視機(jī)華中華中3030電視機(jī)電視機(jī)華南華南4040電冰箱電冰箱華北華北4040電冰箱電冰箱華東華東3030電冰箱電冰箱華中華中2020電冰箱電冰箱華南華南1010手機(jī)手機(jī)華

15、北華北5050手機(jī)手機(jī)華東華東6060手機(jī)手機(jī)華中華中7070手機(jī)手機(jī)華南華南8080在關(guān)系數(shù)據(jù)庫(kù)中,在關(guān)系數(shù)據(jù)庫(kù)中,“多對(duì)多多對(duì)多”的關(guān)系總是轉(zhuǎn)化成多個(gè)的關(guān)系總是轉(zhuǎn)化成多個(gè)“一對(duì)多一對(duì)多”的關(guān)系,有利于數(shù)據(jù)的一致性和規(guī)范化的關(guān)系,有利于數(shù)據(jù)的一致性和規(guī)范化,這符合,這符合事務(wù)處理系統(tǒng)的需求。事務(wù)處理系統(tǒng)的需求。多維數(shù)據(jù)庫(kù)的優(yōu)勢(shì)不僅在于多維數(shù)據(jù)庫(kù)的優(yōu)勢(shì)不僅在于多維概念表達(dá)清晰多維概念表達(dá)清晰,占用存,占用存儲(chǔ)少,更重要的是它有著儲(chǔ)少,更重要的是它有著高速的綜合速度高速的綜合速度。在多維數(shù)據(jù)庫(kù)中,數(shù)據(jù)可以直接按行或列累加,并且由在多維數(shù)據(jù)庫(kù)中,數(shù)據(jù)可以直接按行或列累加,并且由于多維數(shù)據(jù)庫(kù)中不像關(guān)

16、系表那樣出現(xiàn)大量的冗余信息,因此于多維數(shù)據(jù)庫(kù)中不像關(guān)系表那樣出現(xiàn)大量的冗余信息,因此其統(tǒng)計(jì)速度遠(yuǎn)遠(yuǎn)超過關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)記錄數(shù)越多,其效其統(tǒng)計(jì)速度遠(yuǎn)遠(yuǎn)超過關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)記錄數(shù)越多,其效果越明顯。果越明顯。2.3.3 2.3.3 數(shù)據(jù)倉(cāng)庫(kù)建模的主要工作數(shù)據(jù)倉(cāng)庫(kù)建模的主要工作1. 在需求分析上,確定系統(tǒng)所包含的主題域并加以描述在需求分析上,確定系統(tǒng)所包含的主題域并加以描述主題選取的原則是優(yōu)先實(shí)施管理者目前最迫切需求、主題選取的原則是優(yōu)先實(shí)施管理者目前最迫切需求、最關(guān)心的主題。主題內(nèi)容的描述包括主題的公共鍵、主題最關(guān)心的主題。主題內(nèi)容的描述包括主題的公共鍵、主題之間的聯(lián)系和各主題的屬性。之間的聯(lián)

17、系和各主題的屬性。例如,若以顧客為主題,則設(shè)計(jì)的相關(guān)主題內(nèi)容的描例如,若以顧客為主題,則設(shè)計(jì)的相關(guān)主題內(nèi)容的描述如下:述如下:基本信息:顧客號(hào)、顧客姓名、性別、年齡、文化程度、住址、電話基本信息:顧客號(hào)、顧客姓名、性別、年齡、文化程度、住址、電話經(jīng)濟(jì)信息:顧客號(hào)、年收入、家庭總收入經(jīng)濟(jì)信息:顧客號(hào)、年收入、家庭總收入公共鍵:顧客號(hào)公共鍵:顧客號(hào)2. 確定事實(shí)表的粒度確定事實(shí)表的粒度事實(shí)表的粒度能夠表達(dá)數(shù)據(jù)的詳細(xì)程度。從用途的不事實(shí)表的粒度能夠表達(dá)數(shù)據(jù)的詳細(xì)程度。從用途的不同來說,事實(shí)表可以分為以下三類:同來說,事實(shí)表可以分為以下三類: 原子事實(shí)表原子事實(shí)表:是保存最細(xì)粒度數(shù)據(jù)的事實(shí)表,也是數(shù):

18、是保存最細(xì)粒度數(shù)據(jù)的事實(shí)表,也是數(shù)據(jù)倉(cāng)庫(kù)中保存原子信息的場(chǎng)所。據(jù)倉(cāng)庫(kù)中保存原子信息的場(chǎng)所。 聚集事實(shí)表聚集事實(shí)表:是原子事實(shí)表上的匯總數(shù)據(jù),也稱為匯:是原子事實(shí)表上的匯總數(shù)據(jù),也稱為匯總事實(shí)表??偸聦?shí)表。 合并事實(shí)表合并事實(shí)表:是指將位于不同事實(shí)表中處于相同粒度:是指將位于不同事實(shí)表中處于相同粒度的事實(shí)進(jìn)行組合建模而成的一種事實(shí)表。的事實(shí)進(jìn)行組合建模而成的一種事實(shí)表。3. 確定數(shù)據(jù)分割策略確定數(shù)據(jù)分割策略分割是指把邏輯上是統(tǒng)一整體的數(shù)據(jù)分割成較小的、分割是指把邏輯上是統(tǒng)一整體的數(shù)據(jù)分割成較小的、可以獨(dú)立管理的物理單元進(jìn)行存儲(chǔ)可以獨(dú)立管理的物理單元進(jìn)行存儲(chǔ),以便能分別處理,從,以便能分別處理,從

19、而提高數(shù)據(jù)處理的效率。而提高數(shù)據(jù)處理的效率。分割可以分割可以按時(shí)間、地區(qū)、業(yè)務(wù)類型按時(shí)間、地區(qū)、業(yè)務(wù)類型等多種標(biāo)準(zhǔn)來進(jìn)行,等多種標(biāo)準(zhǔn)來進(jìn)行,也可以按自定義標(biāo)準(zhǔn),分割之后小單元的數(shù)據(jù)相對(duì)獨(dú)立,也可以按自定義標(biāo)準(zhǔn),分割之后小單元的數(shù)據(jù)相對(duì)獨(dú)立,處理起來更快更容易。但在多數(shù)情況下,數(shù)據(jù)分割采用的處理起來更快更容易。但在多數(shù)情況下,數(shù)據(jù)分割采用的標(biāo)準(zhǔn)不是單一的,而是多個(gè)標(biāo)準(zhǔn)的組合。標(biāo)準(zhǔn)不是單一的,而是多個(gè)標(biāo)準(zhǔn)的組合。4. 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)中各主題的多維數(shù)據(jù)模型及其聯(lián)系構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)中各主題的多維數(shù)據(jù)模型及其聯(lián)系由于數(shù)據(jù)倉(cāng)庫(kù)目前大多是使用關(guān)系數(shù)據(jù)庫(kù)來實(shí)現(xiàn)的,由于數(shù)據(jù)倉(cāng)庫(kù)目前大多是使用關(guān)系數(shù)據(jù)庫(kù)來實(shí)現(xiàn)的,所以本

20、章主要討論基于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)倉(cāng)庫(kù)建模方法。所以本章主要討論基于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)倉(cāng)庫(kù)建模方法。2.3.4 2.3.4 幾種常見的基于關(guān)系數(shù)據(jù)庫(kù)的多維數(shù)據(jù)模型幾種常見的基于關(guān)系數(shù)據(jù)庫(kù)的多維數(shù)據(jù)模型1. 1. 星形模式星形模式星形模式(星形模式(Star schemaStar schema)是由一個(gè)事實(shí)表和一組維表)是由一個(gè)事實(shí)表和一組維表組成,每個(gè)維表都有一個(gè)維主鍵,所有這些維組合成事實(shí)表組成,每個(gè)維表都有一個(gè)維主鍵,所有這些維組合成事實(shí)表的主鍵,換言之,事實(shí)表主鍵的每個(gè)元素都是維表的外鍵。的主鍵,換言之,事實(shí)表主鍵的每個(gè)元素都是維表的外鍵。該模式的核心是事實(shí)表,通過事實(shí)表將各種不同的維表該模式

21、的核心是事實(shí)表,通過事實(shí)表將各種不同的維表連接起來,各個(gè)維表都連接到中央事實(shí)表。連接起來,各個(gè)維表都連接到中央事實(shí)表。(1 1)星形模式的基本結(jié)構(gòu))星形模式的基本結(jié)構(gòu)星形模式的基本結(jié)構(gòu)如下:星形模式的基本結(jié)構(gòu)如下:星形模式的特點(diǎn)如下:星形模式的特點(diǎn)如下: 維度表只與事實(shí)表關(guān)聯(lián),維度表彼此之間沒有任何聯(lián)系。維度表只與事實(shí)表關(guān)聯(lián),維度表彼此之間沒有任何聯(lián)系。 每個(gè)維度表中的主碼都只能是單列的,同時(shí)該主碼被放置每個(gè)維度表中的主碼都只能是單列的,同時(shí)該主碼被放置在事實(shí)數(shù)據(jù)表中,作為事實(shí)數(shù)據(jù)表與維表連接的外碼。在事實(shí)數(shù)據(jù)表中,作為事實(shí)數(shù)據(jù)表與維表連接的外碼。 星型模式是以事實(shí)表為核心,其他的維度表圍繞這

22、個(gè)核心星型模式是以事實(shí)表為核心,其他的維度表圍繞這個(gè)核心表呈星型狀分布。表呈星型狀分布?!纠?.12.1】一個(gè)一個(gè)“銷售銷售”數(shù)據(jù)倉(cāng)庫(kù)的星形模式如圖數(shù)據(jù)倉(cāng)庫(kù)的星形模式如圖2.52.5所示。所示。該模式包含一個(gè)中心事實(shí)表該模式包含一個(gè)中心事實(shí)表“銷售事實(shí)表銷售事實(shí)表”和和4 4個(gè)維表:時(shí)間個(gè)維表:時(shí)間維表、銷售商品維表、銷售地點(diǎn)維表和顧客維表。在銷售事實(shí)維表、銷售商品維表、銷售地點(diǎn)維表和顧客維表。在銷售事實(shí)表中存儲(chǔ)著四個(gè)維表的主鍵和兩個(gè)度量表中存儲(chǔ)著四個(gè)維表的主鍵和兩個(gè)度量“銷售量銷售量”和和“銷售金銷售金額額”。 (2)維表設(shè)計(jì))維表設(shè)計(jì)維表用于存放維信息,包括維的屬性(列)和維的層維表用于

23、存放維信息,包括維的屬性(列)和維的層次結(jié)構(gòu)。一個(gè)維用一個(gè)維表表示。維表通常具有以下數(shù)據(jù)次結(jié)構(gòu)。一個(gè)維用一個(gè)維表表示。維表通常具有以下數(shù)據(jù)特征:特征: 維通常使用使用解析過的時(shí)間、名字或地址元素,這樣維通常使用使用解析過的時(shí)間、名字或地址元素,這樣可以使查詢更靈活。例如時(shí)間可分為年份、季度、月份可以使查詢更靈活。例如時(shí)間可分為年份、季度、月份和時(shí)期等,地址可用地理區(qū)域來區(qū)分,如國(guó)家、省、市、和時(shí)期等,地址可用地理區(qū)域來區(qū)分,如國(guó)家、省、市、縣等。縣等。 維表通常不使用業(yè)務(wù)數(shù)據(jù)庫(kù)的關(guān)鍵字作為主鍵,而是對(duì)維表通常不使用業(yè)務(wù)數(shù)據(jù)庫(kù)的關(guān)鍵字作為主鍵,而是對(duì)每個(gè)維表另外增加一個(gè)額外的字段作為主鍵來識(shí)別維

24、表每個(gè)維表另外增加一個(gè)額外的字段作為主鍵來識(shí)別維表中的對(duì)象。在維表中新設(shè)定的鍵也稱為代理鍵。中的對(duì)象。在維表中新設(shè)定的鍵也稱為代理鍵。 維表中可以包含隨時(shí)間變化的字段,當(dāng)數(shù)據(jù)集市或數(shù)據(jù)維表中可以包含隨時(shí)間變化的字段,當(dāng)數(shù)據(jù)集市或數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)隨時(shí)間變化而有額外增加或改變時(shí),維表的倉(cāng)庫(kù)的數(shù)據(jù)隨時(shí)間變化而有額外增加或改變時(shí),維表的數(shù)據(jù)行應(yīng)有標(biāo)識(shí)此變化的字段。數(shù)據(jù)行應(yīng)有標(biāo)識(shí)此變化的字段。維表中維的類型:維表中維的類型: 結(jié)構(gòu)維結(jié)構(gòu)維 信息維信息維 分區(qū)維分區(qū)維 分類維分類維 退化維退化維 一致維一致維 父子維父子維在數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)中,有一在數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型設(shè)計(jì)中,有一些維表是經(jīng)常使用的,它

25、們的設(shè)計(jì)形成了些維表是經(jīng)常使用的,它們的設(shè)計(jì)形成了一定的設(shè)計(jì)原則,如時(shí)間維、地理維、機(jī)一定的設(shè)計(jì)原則,如時(shí)間維、地理維、機(jī)構(gòu)維和客戶維等,所以在設(shè)計(jì)維表時(shí)應(yīng)遵構(gòu)維和客戶維等,所以在設(shè)計(jì)維表時(shí)應(yīng)遵循這些設(shè)計(jì)原則。循這些設(shè)計(jì)原則。又例如,數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的是系統(tǒng)的歷又例如,數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的是系統(tǒng)的歷史數(shù)據(jù),業(yè)務(wù)分析最基本的維度就是時(shí)間史數(shù)據(jù),業(yè)務(wù)分析最基本的維度就是時(shí)間維,所以每個(gè)主題通常都有一個(gè)時(shí)間維。維,所以每個(gè)主題通常都有一個(gè)時(shí)間維。(3)概念分層)概念分層維表中維一般包含著層次關(guān)系,也稱為概念分層,如在維表中維一般包含著層次關(guān)系,也稱為概念分層,如在時(shí)間維上,按照時(shí)間維上,按照“年份季度月份年份

26、季度月份”形成了一個(gè)層次,其形成了一個(gè)層次,其中年份、季度、月份成為這個(gè)層次的三個(gè)級(jí)別。中年份、季度、月份成為這個(gè)層次的三個(gè)級(jí)別。概念分層的作用如下:概念分層的作用如下: 概念分層為不同級(jí)別上的數(shù)據(jù)匯總提供了一個(gè)良好的概念分層為不同級(jí)別上的數(shù)據(jù)匯總提供了一個(gè)良好的基礎(chǔ)?;A(chǔ)。 綜合概念分層和多維數(shù)據(jù)模型的潛力,可以對(duì)數(shù)據(jù)獲得更深綜合概念分層和多維數(shù)據(jù)模型的潛力,可以對(duì)數(shù)據(jù)獲得更深入的入的洞察力洞察力。 通過在多維數(shù)據(jù)模型中,在不同的維上定義概念分層,使得通過在多維數(shù)據(jù)模型中,在不同的維上定義概念分層,使得用戶在不同的維上用戶在不同的維上從不同的層次對(duì)數(shù)據(jù)進(jìn)行觀察從不同的層次對(duì)數(shù)據(jù)進(jìn)行觀察成為可

27、能。成為可能。 多維數(shù)據(jù)模型使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀察成為可能,多維數(shù)據(jù)模型使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀察成為可能,而概念分層則提供了從不同層次對(duì)數(shù)據(jù)進(jìn)行觀察的能力;結(jié)而概念分層則提供了從不同層次對(duì)數(shù)據(jù)進(jìn)行觀察的能力;結(jié)合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種OLAPOLAP操作,為用戶操作,為用戶從不同角度不同層次觀察數(shù)據(jù)從不同角度不同層次觀察數(shù)據(jù)提供了靈活性。提供了靈活性。(4)事實(shí)表設(shè)計(jì))事實(shí)表設(shè)計(jì)事實(shí)表是多維模型的核心,是用來記錄業(yè)務(wù)事實(shí)并作事實(shí)表是多維模型的核心,是用來記錄業(yè)務(wù)事實(shí)并作相應(yīng)指標(biāo)統(tǒng)計(jì)的表,同維表相比,事實(shí)現(xiàn)具有

28、如下特征:相應(yīng)指標(biāo)統(tǒng)計(jì)的表,同維表相比,事實(shí)現(xiàn)具有如下特征: 記錄數(shù)量很多,因此事實(shí)表應(yīng)當(dāng)盡量減小一條記錄的記錄數(shù)量很多,因此事實(shí)表應(yīng)當(dāng)盡量減小一條記錄的長(zhǎng)度,避免事實(shí)表過大而難于管理。長(zhǎng)度,避免事實(shí)表過大而難于管理。 事實(shí)表中除度量外,其他字段都是維表或中間表(對(duì)事實(shí)表中除度量外,其他字段都是維表或中間表(對(duì)于雪花模式)的關(guān)鍵字(外鍵)。于雪花模式)的關(guān)鍵字(外鍵)。 如果事實(shí)相關(guān)的維很多,則事實(shí)表的字段個(gè)數(shù)也會(huì)比如果事實(shí)相關(guān)的維很多,則事實(shí)表的字段個(gè)數(shù)也會(huì)比較多。較多。在查詢事實(shí)表時(shí),通常使用到聚集函數(shù),一個(gè)聚集函數(shù)從在查詢事實(shí)表時(shí),通常使用到聚集函數(shù),一個(gè)聚集函數(shù)從多個(gè)事實(shí)表記錄中計(jì)算出

29、一個(gè)結(jié)果。度量可以根據(jù)其所用的聚多個(gè)事實(shí)表記錄中計(jì)算出一個(gè)結(jié)果。度量可以根據(jù)其所用的聚集函數(shù)分為三類:集函數(shù)分為三類: 分布的聚集函數(shù)分布的聚集函數(shù):將這類函數(shù)用于:將這類函數(shù)用于n n個(gè)聚集值得到的結(jié)果個(gè)聚集值得到的結(jié)果和將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣。例如和將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣。例如COUNTCOUNT(求(求記錄個(gè)數(shù))、記錄個(gè)數(shù))、SUMSUM(求和)、(求和)、MINMIN(求最小值)、(求最小值)、MAXMAX(求(求最大值)等。最大值)等。 代數(shù)的聚集函數(shù)代數(shù)的聚集函數(shù):函數(shù)可以由一個(gè)帶:函數(shù)可以由一個(gè)帶m m個(gè)參數(shù)的代數(shù)函數(shù)個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(計(jì)算(m m為有界整

30、數(shù)),而每個(gè)參數(shù)值都可以由一個(gè)分布為有界整數(shù)),而每個(gè)參數(shù)值都可以由一個(gè)分布的聚集函數(shù)求得。例如的聚集函數(shù)求得。例如AVGAVG(求平均值)等。(求平均值)等。 整體的聚集函數(shù)整體的聚集函數(shù):描述函數(shù)的子聚集所需的存儲(chǔ)沒有一:描述函數(shù)的子聚集所需的存儲(chǔ)沒有一個(gè)常數(shù)界,即不存在一個(gè)具有個(gè)常數(shù)界,即不存在一個(gè)具有m m個(gè)參數(shù)的代數(shù)函數(shù)進(jìn)行這個(gè)參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算。例如一計(jì)算。例如MODEMODE(求最常出現(xiàn)的項(xiàng))。(求最常出現(xiàn)的項(xiàng))。2. 雪花模式雪花模式(1)雪花模式的基本結(jié)構(gòu))雪花模式的基本結(jié)構(gòu)雪花模式(雪花模式(Snowflake schemaSnowflake schema)是對(duì)星形

31、模式的擴(kuò)展,)是對(duì)星形模式的擴(kuò)展,每一個(gè)維表都可以向外連接多個(gè)詳細(xì)類別表。每一個(gè)維表都可以向外連接多個(gè)詳細(xì)類別表。在這種模式中,維表除了具有星形模式中維表的功能在這種模式中,維表除了具有星形模式中維表的功能外,還連接對(duì)事實(shí)表進(jìn)行詳細(xì)描述的詳細(xì)類別表,詳細(xì)類外,還連接對(duì)事實(shí)表進(jìn)行詳細(xì)描述的詳細(xì)類別表,詳細(xì)類別表通過對(duì)事實(shí)表在有關(guān)維上的詳細(xì)描述達(dá)到了縮小事實(shí)別表通過對(duì)事實(shí)表在有關(guān)維上的詳細(xì)描述達(dá)到了縮小事實(shí)表和提高查詢效率的目的,表和提高查詢效率的目的, 雪花模式的基本結(jié)構(gòu)如下:雪花模式的基本結(jié)構(gòu)如下:星形模式雖然是一個(gè)關(guān)系模型,但是它不是一個(gè)規(guī)范星形模式雖然是一個(gè)關(guān)系模型,但是它不是一個(gè)規(guī)范化的

32、模型,在星形模式中,維表被故意地非規(guī)范化了,雪化的模型,在星形模式中,維表被故意地非規(guī)范化了,雪花模式對(duì)星形模式的維表進(jìn)一步標(biāo)準(zhǔn)化,對(duì)星形模式中的花模式對(duì)星形模式的維表進(jìn)一步標(biāo)準(zhǔn)化,對(duì)星形模式中的維表進(jìn)行了規(guī)范化處理。維表進(jìn)行了規(guī)范化處理。 雪花模式的特點(diǎn)如下:雪花模式的特點(diǎn)如下: 某個(gè)維表不與事實(shí)表直接關(guān)聯(lián),而是與另一個(gè)維表關(guān)聯(lián)。某個(gè)維表不與事實(shí)表直接關(guān)聯(lián),而是與另一個(gè)維表關(guān)聯(lián)。 可以進(jìn)一步細(xì)化查看數(shù)據(jù)的粒度。可以進(jìn)一步細(xì)化查看數(shù)據(jù)的粒度。 維表和與其相關(guān)聯(lián)的其他維表也是靠外碼關(guān)聯(lián)的。維表和與其相關(guān)聯(lián)的其他維表也是靠外碼關(guān)聯(lián)的。 也以事實(shí)數(shù)據(jù)表為核心。也以事實(shí)數(shù)據(jù)表為核心?!纠?.22.2

33、】在圖在圖2.52.5的星形模式中,每維只用一個(gè)維表表示,的星形模式中,每維只用一個(gè)維表表示,而每個(gè)維表包含一組屬性。例如,銷售地點(diǎn)維表包含屬性集而每個(gè)維表包含一組屬性。例如,銷售地點(diǎn)維表包含屬性集Location_idLocation_id,街道,城市,省,國(guó)家,街道,城市,省,國(guó)家 。圖圖2.5這種模式可能造成某些冗余,例如,可能存在城市、省、這種模式可能造成某些冗余,例如,可能存在城市、省、國(guó)家字段的數(shù)據(jù)冗余:國(guó)家字段的數(shù)據(jù)冗余: 101,“101,“解放大道解放大道100100號(hào)號(hào)”,“武漢武漢”,“湖北省湖北省”,“中國(guó)中國(guó)” 201,“201,“解放大道解放大道8585號(hào)號(hào)”,“武

34、漢武漢”,“湖北省湖北省”,“中國(guó)中國(guó)” 255,“255,“解放大道解放大道205205號(hào)號(hào)”,“武漢武漢”,“湖北省湖北省”,“中國(guó)中國(guó)” 可以對(duì)地點(diǎn)維表進(jìn)一步規(guī)范化,如圖可以對(duì)地點(diǎn)維表進(jìn)一步規(guī)范化,如圖2.72.7所示,這樣就所示,這樣就構(gòu)成了構(gòu)成了“銷售銷售”數(shù)據(jù)倉(cāng)庫(kù)的雪花模式。數(shù)據(jù)倉(cāng)庫(kù)的雪花模式。圖圖2.7(2)雪花模式和星形模式的比較)雪花模式和星形模式的比較比較項(xiàng)目比較項(xiàng)目星形模式星形模式雪花模式雪花模式行數(shù)行數(shù)多多少少可讀性可讀性容易容易難難表數(shù)量表數(shù)量少少多多搜索維的時(shí)間搜索維的時(shí)間快快慢慢3. 事實(shí)星座模式事實(shí)星座模式(1)事實(shí)星座模式的基本結(jié)構(gòu))事實(shí)星座模式的基本結(jié)構(gòu)通常

35、一個(gè)星形模式或雪花模式對(duì)應(yīng)一個(gè)問題的解決通常一個(gè)星形模式或雪花模式對(duì)應(yīng)一個(gè)問題的解決(一個(gè)主題),它們都有多個(gè)維表,但是只能存在一個(gè)事(一個(gè)主題),它們都有多個(gè)維表,但是只能存在一個(gè)事實(shí)表。實(shí)表。在一個(gè)多主題的復(fù)雜數(shù)據(jù)倉(cāng)庫(kù)中可能存放多個(gè)事實(shí)表,在一個(gè)多主題的復(fù)雜數(shù)據(jù)倉(cāng)庫(kù)中可能存放多個(gè)事實(shí)表,此時(shí)就會(huì)出現(xiàn)多個(gè)事實(shí)表共享某一個(gè)或多個(gè)維表的情況,此時(shí)就會(huì)出現(xiàn)多個(gè)事實(shí)表共享某一個(gè)或多個(gè)維表的情況,這就是事實(shí)星座模式(這就是事實(shí)星座模式(Fact Constellations schemaFact Constellations schema)。)?!纠?.32.3】在圖在圖2.52.5的星形模式的基礎(chǔ)

36、上,增加一個(gè)供貨的星形模式的基礎(chǔ)上,增加一個(gè)供貨分析主題,包括供貨時(shí)間(分析主題,包括供貨時(shí)間(Time_idTime_id)、供貨商品)、供貨商品(Item_idItem_id)、供貨地點(diǎn)()、供貨地點(diǎn)(Locate_idLocate_id)、供應(yīng)商)、供應(yīng)商(Supplier_idSupplier_id)、供貨量和供貨金額等屬性。)、供貨量和供貨金額等屬性。設(shè)計(jì)相應(yīng)的供貨事實(shí)表,對(duì)應(yīng)的維表有時(shí)間維表、商品設(shè)計(jì)相應(yīng)的供貨事實(shí)表,對(duì)應(yīng)的維表有時(shí)間維表、商品維表、地點(diǎn)維表和供應(yīng)商維表,其中前三個(gè)維表和銷售事實(shí)維表、地點(diǎn)維表和供應(yīng)商維表,其中前三個(gè)維表和銷售事實(shí)表共享,對(duì)應(yīng)的事實(shí)星座模式如圖表共享

37、,對(duì)應(yīng)的事實(shí)星座模式如圖2.82.8所示。所示。圖圖2.8(2)三種模式的關(guān)系)三種模式的關(guān)系2.4 數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的物理模型時(shí),要求設(shè)計(jì)人員必須做到以設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的物理模型時(shí),要求設(shè)計(jì)人員必須做到以下幾方面:下幾方面:構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的物理模型與所選擇的數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工具構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的物理模型與所選擇的數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工具密切相關(guān)。這個(gè)階段所做的工作是確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu),確密切相關(guān)。這個(gè)階段所做的工作是確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu),確定索引策略和確定存儲(chǔ)分配等。定索引策略和確定存儲(chǔ)分配等。 要全面了解所選用的數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工具,特別是存要全面了解所選用的數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工具,

38、特別是存儲(chǔ)結(jié)構(gòu)和存取方法。儲(chǔ)結(jié)構(gòu)和存取方法。 了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻度、使用方式、數(shù)據(jù)了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻度、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時(shí)間要求等,這些是對(duì)時(shí)間和空間效規(guī)模以及響應(yīng)時(shí)間要求等,這些是對(duì)時(shí)間和空間效率進(jìn)行平衡和優(yōu)化的重要依據(jù)。率進(jìn)行平衡和優(yōu)化的重要依據(jù)。 了解外部存儲(chǔ)設(shè)備的特性,如分塊原則,塊大小的了解外部存儲(chǔ)設(shè)備的特性,如分塊原則,塊大小的規(guī)定,設(shè)備的規(guī)定,設(shè)備的I/OI/O特性等。特性等。2.4.1 2.4.1 確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工具往往都提供多種存儲(chǔ)結(jié)構(gòu)供設(shè)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工具往往都提供多種存儲(chǔ)結(jié)構(gòu)供設(shè)計(jì)人員選用,不同的存儲(chǔ)結(jié)構(gòu)有

39、不同的實(shí)現(xiàn)方式,各有各計(jì)人員選用,不同的存儲(chǔ)結(jié)構(gòu)有不同的實(shí)現(xiàn)方式,各有各的適用范圍和優(yōu)缺點(diǎn)。的適用范圍和優(yōu)缺點(diǎn)。設(shè)計(jì)人員在選擇合適的存儲(chǔ)結(jié)構(gòu)時(shí)應(yīng)該權(quán)衡三個(gè)方面設(shè)計(jì)人員在選擇合適的存儲(chǔ)結(jié)構(gòu)時(shí)應(yīng)該權(quán)衡三個(gè)方面的主要因素:的主要因素:存取時(shí)間、存儲(chǔ)空間利用率和維護(hù)代價(jià)存取時(shí)間、存儲(chǔ)空間利用率和維護(hù)代價(jià)。同一個(gè)主題的數(shù)據(jù)并不要求存放在相同的介質(zhì)上同一個(gè)主題的數(shù)據(jù)并不要求存放在相同的介質(zhì)上。在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要程度、使用頻率以在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要程度、使用頻率以及對(duì)響應(yīng)時(shí)間的要求進(jìn)行分類,并將不同類的數(shù)據(jù)分別存儲(chǔ)及對(duì)響應(yīng)時(shí)間的要求進(jìn)行分類,并將不同類的數(shù)據(jù)分別存儲(chǔ)在不同的存儲(chǔ)設(shè)備

40、中。在不同的存儲(chǔ)設(shè)備中。重要程度高、經(jīng)常存取并對(duì)響應(yīng)時(shí)間要求高的數(shù)據(jù)就存重要程度高、經(jīng)常存取并對(duì)響應(yīng)時(shí)間要求高的數(shù)據(jù)就存放在高速存儲(chǔ)設(shè)備上,如硬盤;存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)放在高速存儲(chǔ)設(shè)備上,如硬盤;存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)間要求低的數(shù)據(jù)則可以放在低速存儲(chǔ)設(shè)備上,如磁盤或磁帶。間要求低的數(shù)據(jù)則可以放在低速存儲(chǔ)設(shè)備上,如磁盤或磁帶。常用的策略:常用的策略: 合并表組織合并表組織 引入冗余引入冗余 分割表組織分割表組織 生成導(dǎo)出數(shù)據(jù)生成導(dǎo)出數(shù)據(jù)2.4.2 2.4.2 確定索引策略確定索引策略數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量很大,因而需要對(duì)數(shù)據(jù)的存取路數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量很大,因而需要對(duì)數(shù)據(jù)的存取路徑進(jìn)行仔細(xì)的設(shè)計(jì)和選

41、擇。徑進(jìn)行仔細(xì)的設(shè)計(jì)和選擇。由于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)都是不常更新的,因而可以設(shè)由于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)都是不常更新的,因而可以設(shè)計(jì)多種多樣的索引結(jié)構(gòu)來提高數(shù)據(jù)存取效率。計(jì)多種多樣的索引結(jié)構(gòu)來提高數(shù)據(jù)存取效率。設(shè)計(jì)人員可以考慮對(duì)各個(gè)數(shù)據(jù)存儲(chǔ)建立專用的、復(fù)設(shè)計(jì)人員可以考慮對(duì)各個(gè)數(shù)據(jù)存儲(chǔ)建立專用的、復(fù)雜的索引,以獲得最高的存取效率。雜的索引,以獲得最高的存取效率。2.4.3 2.4.3 確定存儲(chǔ)分配確定存儲(chǔ)分配許多數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工具提供了一些存儲(chǔ)分配的參數(shù)供許多數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工具提供了一些存儲(chǔ)分配的參數(shù)供設(shè)計(jì)者進(jìn)行物理優(yōu)化處理,例如,塊的尺寸、緩沖區(qū)的大設(shè)計(jì)者進(jìn)行物理優(yōu)化處理,例如,塊的尺寸、緩沖區(qū)的大小和個(gè)數(shù)等等

42、,它們都要在物理設(shè)計(jì)時(shí)確定。小和個(gè)數(shù)等等,它們都要在物理設(shè)計(jì)時(shí)確定。這同創(chuàng)建數(shù)據(jù)庫(kù)系統(tǒng)時(shí)的考慮是一樣的。這同創(chuàng)建數(shù)據(jù)庫(kù)系統(tǒng)時(shí)的考慮是一樣的。2.5 數(shù)據(jù)倉(cāng)庫(kù)的部署和維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的部署和維護(hù)2.5.1 2.5.1 數(shù)據(jù)倉(cāng)庫(kù)的部署數(shù)據(jù)倉(cāng)庫(kù)的部署完成前面各項(xiàng)工作之后,可以進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的部署階完成前面各項(xiàng)工作之后,可以進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的部署階段,主要包括段,主要包括用戶認(rèn)可、初始裝載、桌面準(zhǔn)備和初始培訓(xùn)用戶認(rèn)可、初始裝載、桌面準(zhǔn)備和初始培訓(xùn)。2.5.2 2.5.2 數(shù)據(jù)倉(cāng)庫(kù)的維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的維護(hù)維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的工作主要是管理日常數(shù)據(jù)裝入的工作,維護(hù)數(shù)據(jù)倉(cāng)庫(kù)的工作主要是管理日常數(shù)據(jù)裝入的工作,包括刷新數(shù)據(jù)倉(cāng)庫(kù)的

43、當(dāng)前詳細(xì)數(shù)據(jù),將過時(shí)的數(shù)據(jù)轉(zhuǎn)化成歷包括刷新數(shù)據(jù)倉(cāng)庫(kù)的當(dāng)前詳細(xì)數(shù)據(jù),將過時(shí)的數(shù)據(jù)轉(zhuǎn)化成歷史數(shù)據(jù),清除不再使用的數(shù)據(jù),管理元數(shù)據(jù)等等。史數(shù)據(jù),清除不再使用的數(shù)據(jù),管理元數(shù)據(jù)等等。2.6 一個(gè)簡(jiǎn)單的數(shù)據(jù)倉(cāng)庫(kù)一個(gè)簡(jiǎn)單的數(shù)據(jù)倉(cāng)庫(kù)SDWS設(shè)計(jì)示例設(shè)計(jì)示例2.6.1 SDWS2.6.1 SDWS的需求分析的需求分析某電商的業(yè)務(wù)銷售涵蓋全國(guó)范圍,銷售商品有家用某電商的業(yè)務(wù)銷售涵蓋全國(guó)范圍,銷售商品有家用電器和通信設(shè)備等。已建有網(wǎng)上銷售業(yè)務(wù)管理系統(tǒng),可電器和通信設(shè)備等。已建有網(wǎng)上銷售業(yè)務(wù)管理系統(tǒng),可以獲取每日銷售信息和顧客的基本信息等。以獲取每日銷售信息和顧客的基本信息等。現(xiàn)為該電商建立一個(gè)能夠提高市場(chǎng)競(jìng)爭(zhēng)能力

44、的數(shù)據(jù)倉(cāng)現(xiàn)為該電商建立一個(gè)能夠提高市場(chǎng)競(jìng)爭(zhēng)能力的數(shù)據(jù)倉(cāng)庫(kù)庫(kù)SDWSSDWS。 分析全國(guó)各地區(qū)每年、每季度的銷售金額。分析全國(guó)各地區(qū)每年、每季度的銷售金額。 分析各類商品在每年、每月份的銷售量。分析各類商品在每年、每月份的銷售量。 分析各年齡層次的顧客的購(gòu)買商品的次數(shù)。分析各年齡層次的顧客的購(gòu)買商品的次數(shù)。 分析分析20132013年年1 1季度各地區(qū)各類商品的銷售量。季度各地區(qū)各類商品的銷售量。 分析分析20132013年各省份各年齡層次的商品購(gòu)買金額。年各省份各年齡層次的商品購(gòu)買金額。 分析各產(chǎn)品子類、各地區(qū)、各年齡層次的銷售量。分析各產(chǎn)品子類、各地區(qū)、各年齡層次的銷售量。 其他銷售情況分析

45、等。其他銷售情況分析等。其主題是電商銷售情況分析,包括以下分析其主題是電商銷售情況分析,包括以下分析功能功能: 2.6.2 SDWS2.6.2 SDWS的建模的建模通過需求分析,確定通過需求分析,確定SDWSSDWS采用采用星形模式星形模式。1. 維表設(shè)計(jì)維表設(shè)計(jì)設(shè)計(jì)如下設(shè)計(jì)如下4 4個(gè)維表。個(gè)維表。(1)日期維)日期維Dates表結(jié)構(gòu)表結(jié)構(gòu)DatesDates維表的數(shù)據(jù)維表的數(shù)據(jù) :Date_key日期日期年份年份月份月份季度季度12013-02-0120132122013-04-1120134232013-08-2020138342013-12-05201312452014-02-1920

46、1421DatesDates的概念分層的概念分層 (2)顧客維)顧客維CustomersCustomers表結(jié)構(gòu)表結(jié)構(gòu)CustomersCustomers維表的數(shù)據(jù)維表的數(shù)據(jù) :Cust_key姓名姓名年齡年齡年齡層次年齡層次1王華王華36中年中年2陳明陳明45中年中年3張兵張兵22青年青年4李麗李麗33青年青年5劉慶劉慶65老年老年6曾強(qiáng)曾強(qiáng)35青年青年Customers的概念分層的概念分層 (3)地點(diǎn)維)地點(diǎn)維Locates表結(jié)構(gòu)表結(jié)構(gòu)LocatesLocates維表的數(shù)據(jù)維表的數(shù)據(jù) :Locate_key地址地址地區(qū)地區(qū)省份省份市市縣縣1北京市海淀區(qū)北京市海淀區(qū)A小小區(qū)區(qū)華北華北北京北京

47、北京北京海淀區(qū)海淀區(qū)2湖北省武漢市洪山湖北省武漢市洪山區(qū)區(qū)A華中華中湖北湖北武漢市武漢市洪山區(qū)洪山區(qū)3江蘇省揚(yáng)州市寶應(yīng)江蘇省揚(yáng)州市寶應(yīng)縣縣T華東華東江蘇江蘇揚(yáng)州市揚(yáng)州市寶應(yīng)縣寶應(yīng)縣4廣東省廣州市越秀廣東省廣州市越秀區(qū)區(qū)T華南華南廣東廣東廣州市廣州市越秀區(qū)越秀區(qū)Locates的概念分層的概念分層 (4)商品維)商品維Products表結(jié)構(gòu)表結(jié)構(gòu)ProductsProducts維表的數(shù)據(jù)維表的數(shù)據(jù) :Prod_key子類子類品牌品牌型號(hào)型號(hào)單價(jià)單價(jià)分類分類1電視機(jī)電視機(jī)長(zhǎng)虹長(zhǎng)虹長(zhǎng)虹長(zhǎng)虹ZH1500家用電器家用電器2電視機(jī)電視機(jī)海信海信海信海信HX2500家用電器家用電器3電冰箱電冰箱海爾海爾海爾海

48、爾HU2800家用電器家用電器4電冰箱電冰箱美菱美菱美菱美菱ML2500家用電器家用電器5手機(jī)手機(jī)華為華為華為華為HW1880通信設(shè)備通信設(shè)備6電話電話TCLTCL89150通信設(shè)備通信設(shè)備Products維表概念分層維表概念分層 2. 事實(shí)表設(shè)計(jì)事實(shí)表設(shè)計(jì)Sales表結(jié)構(gòu)表結(jié)構(gòu)SalesSales事實(shí)表的數(shù)據(jù)事實(shí)表的數(shù)據(jù) :Date_keyCust_keyLocate_keyProd_key數(shù)量數(shù)量金額金額(元元)111111500122225000133312800144437500151511880162634502111115002222375002333128002444125002

49、5152376026263450311111500Date_keyCust_keyLocate_keyProd_key數(shù)量數(shù)量金額金額(元元)3222512500333312800344437500351523760362611504111115004222250004333384004444375004515118804626115051111150052222500053331280054441250055151188056262300SDWS的星形模式的星形模式 3. 元數(shù)據(jù)設(shè)計(jì)元數(shù)據(jù)設(shè)計(jì) 描述每個(gè)事實(shí)表和維表的主題和內(nèi)容,例如事實(shí)表的主題描述每個(gè)事實(shí)表和維表的主題和內(nèi)容,例如事實(shí)表的主

50、題元數(shù)據(jù)和事實(shí)元數(shù)據(jù)如表元數(shù)據(jù)和事實(shí)元數(shù)據(jù)如表2.92.9和和2.102.10所示,對(duì)每個(gè)維表也所示,對(duì)每個(gè)維表也采用類似的描述方式。采用類似的描述方式。 對(duì)事實(shí)表和維表每個(gè)屬性進(jìn)行描述,例如,對(duì)事實(shí)表和維表每個(gè)屬性進(jìn)行描述,例如,Cust_keyCust_key元數(shù)元數(shù)據(jù)的描述如表?yè)?jù)的描述如表2.112.11所示,對(duì)每個(gè)重要的屬性都采用類似的所示,對(duì)每個(gè)重要的屬性都采用類似的描述方式。描述方式。這里的元數(shù)據(jù)設(shè)計(jì)主要包含數(shù)據(jù)倉(cāng)庫(kù)中各對(duì)象的描述。這里的元數(shù)據(jù)設(shè)計(jì)主要包含數(shù)據(jù)倉(cāng)庫(kù)中各對(duì)象的描述。表表2.9 2.9 銷售主題元數(shù)據(jù)銷售主題元數(shù)據(jù)名稱名稱Sales_ItemSales_Item描述描述

51、整個(gè)電商的商品銷售狀況整個(gè)電商的商品銷售狀況目的目的用于進(jìn)行電商銷售狀況和促銷情況的分析用于進(jìn)行電商銷售狀況和促銷情況的分析維維時(shí)間、商品、顧客、地點(diǎn)時(shí)間、商品、顧客、地點(diǎn)事實(shí)事實(shí)銷售事實(shí)表銷售事實(shí)表度量值度量值銷售量,銷售金額、銷售筆數(shù)銷售量,銷售金額、銷售筆數(shù)2.6.3 2.6.3 基于基于SQL Server 2008SQL Server 2008設(shè)計(jì)設(shè)計(jì)SDWSSDWS1. 創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)分析項(xiàng)目創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)分析項(xiàng)目打開打開Microsoft Server Business Intelligence Microsoft Server Business Intelligence Devel

52、opment StudioDevelopment Studio,選擇,選擇“文件文件| |新建新建| |項(xiàng)目項(xiàng)目”命令,選中命令,選中“Analysis ServicesAnalysis Services項(xiàng)目項(xiàng)目”,在名稱文本框中輸入,在名稱文本框中輸入“SDWS”SDWS”,如圖如圖2.202.20所示,系統(tǒng)建立一個(gè)空的所示,系統(tǒng)建立一個(gè)空的SDWSSDWS分析項(xiàng)目。分析項(xiàng)目。2. 定義數(shù)據(jù)源定義數(shù)據(jù)源假設(shè)在假設(shè)在SQL Server 2008SQL Server 2008中已創(chuàng)建了一個(gè)數(shù)據(jù)庫(kù)中已創(chuàng)建了一個(gè)數(shù)據(jù)庫(kù)SDWSDW,包含前面介紹過的維表和事實(shí)表及相關(guān)數(shù)據(jù)。包含前面介紹過的維表和事實(shí)

53、表及相關(guān)數(shù)據(jù)。注意注意,需采用,需采用“使用使用WindowsWindows身份驗(yàn)證身份驗(yàn)證”創(chuàng)建創(chuàng)建SDWSDW數(shù)據(jù)數(shù)據(jù)庫(kù)。庫(kù)。在在“解決方案資源管理器解決方案資源管理器”中右擊中右擊“數(shù)據(jù)源數(shù)據(jù)源”并選擇并選擇“新新建數(shù)據(jù)源建數(shù)據(jù)源”命令,出現(xiàn)命令,出現(xiàn)“連接管理器連接管理器”對(duì)話框,建立新連接。對(duì)話框,建立新連接。3. 定義數(shù)據(jù)源視圖定義數(shù)據(jù)源視圖在在“解決方案資源管理器解決方案資源管理器”中右擊中右擊“數(shù)據(jù)源視圖數(shù)據(jù)源視圖”并選擇并選擇“新建數(shù)據(jù)源視圖新建數(shù)據(jù)源視圖”命令,在出現(xiàn)的對(duì)話框中選中關(guān)系數(shù)據(jù)源命令,在出現(xiàn)的對(duì)話框中選中關(guān)系數(shù)據(jù)源SDWSDW,單擊,單擊“下一步下一步”,出現(xiàn),

54、出現(xiàn)“名稱匹配名稱匹配”對(duì)話框,默認(rèn)選中對(duì)話框,默認(rèn)選中“與主鍵同名與主鍵同名”項(xiàng),如圖項(xiàng),如圖2.232.23所示,單擊所示,單擊“下一步下一步”。出現(xiàn)出現(xiàn)“選擇表和視圖選擇表和視圖”對(duì)話框,從左邊選中對(duì)話框,從左邊選中CustomersCustomers、DatesDates、LocatesLocates、ProductsProducts和和SalesSales共共5 5個(gè)表到右邊列表中,個(gè)表到右邊列表中,如圖如圖2.242.24所示,單擊所示,單擊“下一步下一步”,再單擊,再單擊“完成完成”。這樣就。這樣就創(chuàng)建好了數(shù)據(jù)源創(chuàng)建好了數(shù)據(jù)源SDW.dsvSDW.dsv。4. 定義維表定義維表在

55、在“解決方案資源管理器解決方案資源管理器”中右擊中右擊“維度維度”并選擇并選擇“新新建維度建維度”命令,在出現(xiàn)的對(duì)話框中選中命令,在出現(xiàn)的對(duì)話框中選中“使用現(xiàn)有表使用現(xiàn)有表”,單,單擊擊“下一步下一步”,選擇,選擇DatesDates維表,如圖維表,如圖2.252.25所示。所示。單擊單擊“下一步下一步”,勾選所有屬性,如圖,勾選所有屬性,如圖2.262.26所示,單擊所示,單擊“下一步下一步”,再單擊,再單擊“完成完成”。然后選擇然后選擇DatesDates維度,右擊它并選擇維度,右擊它并選擇“屬性屬性”命令,在命令,在出現(xiàn)的屬性對(duì)話框中選擇出現(xiàn)的屬性對(duì)話框中選擇TypeType屬性并指定其值為屬性并指定其值為TimeTime,表示,表示它是一個(gè)時(shí)間維度,如圖它是一個(gè)時(shí)間維度,如圖2.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論