第3章 數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)與開發(fā)_第1頁
第3章 數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)與開發(fā)_第2頁
第3章 數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)與開發(fā)_第3頁
第3章 數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)與開發(fā)_第4頁
第3章 數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)與開發(fā)_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第第3章章 數(shù)據(jù)倉庫系統(tǒng)的設(shè)數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)與開發(fā)計(jì)與開發(fā)23.1 概述概述 3.1.1建立數(shù)據(jù)倉庫系統(tǒng)的步驟建立數(shù)據(jù)倉庫系統(tǒng)的步驟p收集和分析業(yè)務(wù)需求收集和分析業(yè)務(wù)需求p建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì) p定義數(shù)據(jù)源定義數(shù)據(jù)源 p選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái)選擇數(shù)據(jù)倉庫技術(shù)和平臺(tái) p從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫從操作型數(shù)據(jù)庫中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫 p選擇訪問和報(bào)表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)選擇訪問和報(bào)表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件據(jù)分析和數(shù)據(jù)展示軟件 p更新數(shù)據(jù)倉庫更新

2、數(shù)據(jù)倉庫 33.1.2數(shù)據(jù)倉庫系統(tǒng)的生命周期數(shù)據(jù)倉庫系統(tǒng)的生命周期 43.1.3建立數(shù)據(jù)倉庫系統(tǒng)的思維模式建立數(shù)據(jù)倉庫系統(tǒng)的思維模式 q自底向上(自底向上(Bottom-Up) q自頂向下(自頂向下(Top-down) 建立整體的數(shù)據(jù)倉庫,由數(shù)據(jù)倉庫建立對(duì)應(yīng)的數(shù)據(jù)集市。 建立面向獨(dú)立主題的數(shù)據(jù)集市,由數(shù)據(jù)集市提升成為企業(yè)整體的數(shù)據(jù)倉庫。53.1.4數(shù)據(jù)倉庫數(shù)據(jù)庫的設(shè)計(jì)步驟數(shù)據(jù)倉庫數(shù)據(jù)庫的設(shè)計(jì)步驟 6pMS SQL Server 2005的數(shù)據(jù)倉庫架構(gòu)的數(shù)據(jù)倉庫架構(gòu) 3.2 基于基于SQL Server的數(shù)據(jù)倉庫數(shù)據(jù)的數(shù)據(jù)倉庫數(shù)據(jù)庫設(shè)計(jì)庫設(shè)計(jì) 73.2.1分析組織的業(yè)務(wù)狀況及數(shù)據(jù)源結(jié)構(gòu)分析組織的

3、業(yè)務(wù)狀況及數(shù)據(jù)源結(jié)構(gòu) 了解和理解組織的業(yè)務(wù)狀況,對(duì)于企業(yè)來說,也就是要熟悉企業(yè)的生產(chǎn)經(jīng)營流程,同時(shí)初步獲取在這些流程中的分析需求,為最終確定用戶需求做好準(zhǔn)備 。 1、分析組織的業(yè)務(wù)狀況、分析組織的業(yè)務(wù)狀況l ADVENTURE Works cycles公司概況公司概況 l ADVENTURE Works cycles公司業(yè)務(wù)流程公司業(yè)務(wù)流程 8p原材料采購與倉儲(chǔ)業(yè)務(wù)流程 1)采購部:負(fù)責(zé)原材料采購,采購部門下設(shè)一個(gè)經(jīng)理和多個(gè)采購員。原材料和供應(yīng)商間是多對(duì)多的關(guān)系;采購員和商品間是1對(duì)多關(guān)系。2)倉庫管理部:負(fù)責(zé)對(duì)原材料進(jìn)行批量存儲(chǔ),下設(shè)一個(gè)經(jīng)理和多個(gè)倉庫管理員。原材料和倉庫間是多對(duì)多的關(guān)系。p

4、產(chǎn)品銷售業(yè)務(wù)流程 1)銷售類型 網(wǎng)絡(luò)銷售-在線商店購買(個(gè)人) 批發(fā)商銷售-商店 2)銷售部 銷售員-商品的相關(guān)信息 銷售經(jīng)理-商品、顧客和銷售員 92、對(duì)數(shù)據(jù)源結(jié)構(gòu)的分析與理解、對(duì)數(shù)據(jù)源結(jié)構(gòu)的分析與理解 業(yè)務(wù)數(shù)據(jù)為多維數(shù)據(jù) 不同部門對(duì)數(shù)據(jù)的需求不同 同一部門人員對(duì)數(shù)據(jù)需求存在差異 數(shù)據(jù)需求的層次 l 管理人員 需要綜合度較高或較為概括的數(shù)據(jù)。l 業(yè)務(wù)人員 需要細(xì)節(jié)數(shù)據(jù)。 對(duì)業(yè)務(wù)的理解 信息系統(tǒng)建設(shè)需要業(yè)務(wù)理解 設(shè)計(jì)數(shù)據(jù)倉庫需要從業(yè)務(wù)蘊(yùn)涵的數(shù)據(jù)視角來理解業(yè)務(wù)l 了解數(shù)據(jù)源的結(jié)構(gòu)l 明確數(shù)據(jù)的內(nèi)容10l 了解數(shù)據(jù)源的結(jié)構(gòu) 人力資源Human Resources 人員信息Person 產(chǎn)品信息Pr

5、oduction 采購信息Purchasing 銷售信息Sales l 明確數(shù)據(jù)的內(nèi)容 數(shù)據(jù)表結(jié)構(gòu) 主外鍵關(guān)系 數(shù)據(jù)表的具體字段構(gòu)成情況從業(yè)務(wù)蘊(yùn)涵的數(shù)據(jù)視角來理解業(yè)務(wù)11表32原材料采購(purchasing)相關(guān)的表及其數(shù)據(jù)內(nèi)容12表33 PurchasingPurchase Order Header的表結(jié)構(gòu)133.2.2 組織需求調(diào)研和收集分析需求組織需求調(diào)研和收集分析需求 1.項(xiàng)目需求的收集與分析 歷史數(shù)據(jù) 用戶需求2.數(shù)據(jù)驅(qū)動(dòng)+用戶驅(qū)動(dòng)的設(shè)計(jì)理念 數(shù)據(jù)驅(qū)動(dòng) 根據(jù)當(dāng)前業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)和質(zhì)量情況,以數(shù)據(jù)源的分析為出發(fā)點(diǎn)構(gòu)建數(shù)據(jù)倉庫。 用戶驅(qū)動(dòng) 根據(jù)用戶業(yè)務(wù)的方向性需求,從業(yè)務(wù)需要解決的具體問

6、題出發(fā)確定系統(tǒng)范圍和需求框架,也叫需求驅(qū)動(dòng)。 圖圖3 34 4用戶驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)相結(jié)合示意圖用戶驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)相結(jié)合示意圖14p關(guān)于用戶需求的調(diào)研關(guān)于用戶需求的調(diào)研 調(diào)研對(duì)象調(diào)研對(duì)象 組織機(jī)構(gòu)的上層、負(fù)責(zé)數(shù)據(jù)倉庫項(xiàng)目或有關(guān)業(yè)務(wù)領(lǐng)域的行政職員、相關(guān)業(yè)務(wù)領(lǐng)域的負(fù)責(zé)向高級(jí)行政官員匯報(bào)的業(yè)務(wù)分析員主管經(jīng)理。調(diào)研內(nèi)容調(diào)研內(nèi)容 p 共性問題共性問題 :什么因素決定工作的成功與失敗、分析過程需耗費(fèi)多長時(shí)間、怎樣彌補(bǔ)信息的空缺。p 細(xì)節(jié)問題細(xì)節(jié)問題 :業(yè)務(wù)目標(biāo)、當(dāng)前信息源、主題領(lǐng)域、關(guān)鍵性能指標(biāo)和信息頻率等方面。15p對(duì)用戶需求調(diào)研結(jié)果的分析對(duì)用戶需求調(diào)研結(jié)果的分析 根據(jù)用戶的信息需求,抽取出信息的度量值和維

7、度信息。 例如:對(duì)于需要觀察的產(chǎn)品收入,可以確定其度量指標(biāo)和維度如下: (1)度量指標(biāo):包括產(chǎn)品銷售的實(shí)際收入、產(chǎn)品銷售的預(yù)算收入及產(chǎn)品銷售的估計(jì)收入。 (2)維度:包括已經(jīng)銷售的產(chǎn)品信息、銷售地點(diǎn)(位置信息)和顧客信息(如年齡組別、性別、位置和經(jīng)濟(jì)狀況)等。16p對(duì)用戶需求調(diào)研結(jié)果的分析對(duì)用戶需求調(diào)研結(jié)果的分析 假定假定Adventure worksAdventure works的銷售和營銷團(tuán)隊(duì)以及高級(jí)管的銷售和營銷團(tuán)隊(duì)以及高級(jí)管理人員對(duì)數(shù)據(jù)分析有如下需求理人員對(duì)數(shù)據(jù)分析有如下需求 : (1)更高級(jí)的用戶卻需要對(duì)數(shù)據(jù)庫進(jìn)行直接查詢訪問,以進(jìn)行交互式查詢和訪問專用報(bào)表。 (2)查詢性能差異很大

8、。 (3)用戶感興趣的數(shù)據(jù)視圖也不同。 (4) 跨主題區(qū)域的數(shù)據(jù)集。 (5)希望通過一個(gè)通用的元數(shù)據(jù)層提供統(tǒng)一的數(shù)據(jù)訪問以進(jìn)行分析和報(bào)告。 (6)簡化用戶的數(shù)據(jù)視圖,從而加速交互式查詢、預(yù)定義查詢以及預(yù)定義報(bào)表的開發(fā)。17 (1)數(shù)據(jù)倉庫的概念模型 采用信息包圖法進(jìn)行設(shè)計(jì),描述信息包圖的5個(gè)組成部分:名稱、維度、類別、層次和度量)。 (2)數(shù)據(jù)倉庫的邏輯模型 采用星型圖法進(jìn)行設(shè)計(jì),描述5類邏輯實(shí)體:度量邏輯實(shí)體、維度邏輯實(shí)體、層次邏輯實(shí)體、詳細(xì)信息邏輯實(shí)體和類別邏輯實(shí)體。 (3)數(shù)據(jù)倉庫的物理模型 采用物理數(shù)據(jù)模型法進(jìn)行設(shè)計(jì),描述5類表:事實(shí)表、維表、層次表、詳細(xì)信息表和類別表。3.2.3采用

9、信息包圖法設(shè)計(jì)數(shù)據(jù)倉庫的概念模型采用信息包圖法設(shè)計(jì)數(shù)據(jù)倉庫的概念模型181、信息包圖法簡介、信息包圖法簡介 q 超立方體法-采用自上而下的方法設(shè)計(jì) (1)確定模型中需要抓住的業(yè)務(wù)過程,例如銷售活動(dòng)或銷售過程。 (2)確定需要捕獲的度量值,例如銷售數(shù)量或成本。 (3)確定數(shù)據(jù)的粒度,即需要捕獲的最低一級(jí)的詳細(xì)信息。 缺點(diǎn):缺乏直觀性,尤其是當(dāng)維度超出3維后,數(shù)據(jù)的采集和表示都比較困難。數(shù)據(jù)倉庫的建模包括超立方體法和信息包圖法。數(shù)據(jù)倉庫的建模包括超立方體法和信息包圖法。19q信息包圖法(用戶信息需求表)用戶信息需求表) 在一張平面表格上描述元素的多維性,其中:在一張平面表格上描述元素的多維性,其中

10、: 每一個(gè)維度用平面表格的一列表示,例如時(shí)問、地點(diǎn)、每一個(gè)維度用平面表格的一列表示,例如時(shí)問、地點(diǎn)、產(chǎn)品和顧客等。產(chǎn)品和顧客等。 細(xì)化本列的對(duì)象就是類別,例如時(shí)間維度的類別可以細(xì)化本列的對(duì)象就是類別,例如時(shí)間維度的類別可以細(xì)化到年、月、日,甚至小時(shí)。細(xì)化到年、月、日,甚至小時(shí)。 平面表格的最后一行平面表格的最后一行(代表超立方體中的單元格代表超立方體中的單元格)即為指即為指標(biāo)度量值,例如,某年在某銷售點(diǎn)的某類產(chǎn)品的實(shí)際銷標(biāo)度量值,例如,某年在某銷售點(diǎn)的某類產(chǎn)品的實(shí)際銷售額。售額。確定最高層和最低層的信息需求,以便最終設(shè)計(jì)出包確定最高層和最低層的信息需求,以便最終設(shè)計(jì)出包含各個(gè)層次需要的數(shù)據(jù)倉庫

11、。含各個(gè)層次需要的數(shù)據(jù)倉庫。20q信息包圖法信息包圖的3個(gè)重要對(duì)象 (度量)指標(biāo) 維度 類別 (1)(1)確定指標(biāo)。確定指標(biāo)。( (度量度量) )指標(biāo)表明在維度空間衡量業(yè)務(wù)信息的一種方指標(biāo)表明在維度空間衡量業(yè)務(wù)信息的一種方法,是訪問數(shù)據(jù)倉庫的關(guān)鍵所在,是用戶最關(guān)心的信息。成功的信息法,是訪問數(shù)據(jù)倉庫的關(guān)鍵所在,是用戶最關(guān)心的信息。成功的信息包可以保證用戶從信息包中獲取需要的各個(gè)性能指標(biāo)參數(shù)。包可以保證用戶從信息包中獲取需要的各個(gè)性能指標(biāo)參數(shù)。 (2)(2)確定維度。維度提供了用戶訪問數(shù)據(jù)倉庫信息的途徑,對(duì)應(yīng)超確定維度。維度提供了用戶訪問數(shù)據(jù)倉庫信息的途徑,對(duì)應(yīng)超立方體的每一面,位于信息包圖第一

12、行的每一個(gè)欄目中。立方體的每一面,位于信息包圖第一行的每一個(gè)欄目中。 (3)(3)確定類別。類別是在一個(gè)維度內(nèi)為了提供詳細(xì)分類而定義的,確定類別。類別是在一個(gè)維度內(nèi)為了提供詳細(xì)分類而定義的,其成員是為了辨別和區(qū)分特定數(shù)據(jù)而設(shè),它說明一個(gè)維度包含的詳細(xì)其成員是為了辨別和區(qū)分特定數(shù)據(jù)而設(shè),它說明一個(gè)維度包含的詳細(xì)信息,一個(gè)維度內(nèi)最底層的可用分類又稱為詳細(xì)類別。信息,一個(gè)維度內(nèi)最底層的可用分類又稱為詳細(xì)類別。21p整個(gè)數(shù)據(jù)倉庫數(shù)據(jù)庫的設(shè)計(jì)過程整個(gè)數(shù)據(jù)倉庫數(shù)據(jù)庫的設(shè)計(jì)過程 (1)(1)采用自頂向下的方法對(duì)業(yè)務(wù)數(shù)據(jù)的多維特性進(jìn)行分析,用信息包采用自頂向下的方法對(duì)業(yè)務(wù)數(shù)據(jù)的多維特性進(jìn)行分析,用信息包圖表示

13、維度和類別之間的傳遞和映射關(guān)系,建立概念模型。圖表示維度和類別之間的傳遞和映射關(guān)系,建立概念模型。 (2)(2)對(duì)企業(yè)的大量數(shù)值指標(biāo)實(shí)體數(shù)據(jù)進(jìn)行篩選,提取出可利用的中心對(duì)企業(yè)的大量數(shù)值指標(biāo)實(shí)體數(shù)據(jù)進(jìn)行篩選,提取出可利用的中心度量指標(biāo)度量指標(biāo)( (也稱為關(guān)鍵性能指標(biāo)和關(guān)鍵業(yè)務(wù)度量值也稱為關(guān)鍵性能指標(biāo)和關(guān)鍵業(yè)務(wù)度量值) ),例如產(chǎn)品收入、產(chǎn),例如產(chǎn)品收入、產(chǎn)品成本或設(shè)備運(yùn)行時(shí)間等。品成本或設(shè)備運(yùn)行時(shí)間等。 (3)(3)在信息包圖的基礎(chǔ)上構(gòu)造星型圖,對(duì)其中的詳細(xì)類別實(shí)體進(jìn)行分在信息包圖的基礎(chǔ)上構(gòu)造星型圖,對(duì)其中的詳細(xì)類別實(shí)體進(jìn)行分析,進(jìn)一步擴(kuò)展為雪花圖析,進(jìn)一步擴(kuò)展為雪花圖( (可選可選) ),建立

14、邏輯模型。,建立邏輯模型。 (4)(4)在星型圖或雪花圖的基礎(chǔ)上,根據(jù)所定義的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)一步對(duì)實(shí)在星型圖或雪花圖的基礎(chǔ)上,根據(jù)所定義的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)一步對(duì)實(shí)體、鍵屬性、非鍵屬性、數(shù)據(jù)容量和更新頻率等進(jìn)行定義,完成物理數(shù)體、鍵屬性、非鍵屬性、數(shù)據(jù)容量和更新頻率等進(jìn)行定義,完成物理數(shù)據(jù)模型的設(shè)計(jì)。據(jù)模型的設(shè)計(jì)。22p信息包圖的建立信息包圖的建立 (1)(1)定義業(yè)務(wù)中涉及的共同主題范圍,例如時(shí)間、區(qū)域、產(chǎn)品和客戶等。定義業(yè)務(wù)中涉及的共同主題范圍,例如時(shí)間、區(qū)域、產(chǎn)品和客戶等。(2)(2)設(shè)計(jì)關(guān)鍵業(yè)務(wù)指標(biāo)。設(shè)計(jì)關(guān)鍵業(yè)務(wù)指標(biāo)。(3)(3)決定數(shù)據(jù)怎樣被傳遞給數(shù)據(jù)倉庫的用戶。決定數(shù)據(jù)怎樣被傳遞給數(shù)據(jù)倉庫的用

15、戶。(4)(4)確定用戶怎樣按層次聚合和移動(dòng)數(shù)據(jù)。確定用戶怎樣按層次聚合和移動(dòng)數(shù)據(jù)。 (5)(5)確定在給定的用戶分析或查詢中實(shí)際包含了多少數(shù)據(jù)。確定在給定的用戶分析或查詢中實(shí)際包含了多少數(shù)據(jù)。(6)(6)定義怎樣訪問數(shù)據(jù)、估計(jì)數(shù)據(jù)倉庫大小、確定數(shù)據(jù)倉庫里數(shù)據(jù)的更定義怎樣訪問數(shù)據(jù)、估計(jì)數(shù)據(jù)倉庫大小、確定數(shù)據(jù)倉庫里數(shù)據(jù)的更新頻率。新頻率。23p信息包圖的建立信息包圖的建立 下面以下面以Adventure works DWAdventure works DW示例數(shù)據(jù)倉庫中的示例數(shù)據(jù)倉庫中的Adventure Works Adventure Works CyclesCycles公司的銷售情況為例說明

16、信息包圖的制作。通過對(duì)公司的銷售情況為例說明信息包圖的制作。通過對(duì)Adventure Adventure Works CyclesWorks Cycles公司近年來銷售情況的進(jìn)一步了解和分析,可以得到如下公司近年來銷售情況的進(jìn)一步了解和分析,可以得到如下結(jié)論。結(jié)論。 (1) (1)獲取各個(gè)業(yè)務(wù)部門對(duì)業(yè)務(wù)數(shù)據(jù)的多維特性分析結(jié)果,確定影響銷售獲取各個(gè)業(yè)務(wù)部門對(duì)業(yè)務(wù)數(shù)據(jù)的多維特性分析結(jié)果,確定影響銷售額的維度,包括時(shí)間、區(qū)域、產(chǎn)品和客戶等維度。額的維度,包括時(shí)間、區(qū)域、產(chǎn)品和客戶等維度。 (2)(2)對(duì)每個(gè)維度進(jìn)行分析,確定維度與類別之間的傳遞和映射關(guān)系,如對(duì)每個(gè)維度進(jìn)行分析,確定維度與類別之間的傳

17、遞和映射關(guān)系,如在在AdventureWorksAdventureWorks業(yè)務(wù)數(shù)據(jù)庫中,時(shí)間維有年度、季度、月和日等級(jí)別,業(yè)務(wù)數(shù)據(jù)庫中,時(shí)間維有年度、季度、月和日等級(jí)別,而區(qū)域分為國家、省州、城市和具體的銷售點(diǎn)。而區(qū)域分為國家、省州、城市和具體的銷售點(diǎn)。 (3)(3)確定用戶需要的度量指標(biāo)體系,這里以銷售情況作為事實(shí)依據(jù)確定確定用戶需要的度量指標(biāo)體系,這里以銷售情況作為事實(shí)依據(jù)確定的銷售相關(guān)指標(biāo)包括實(shí)際銷售額、計(jì)劃銷售額和計(jì)劃完成率等。的銷售相關(guān)指標(biāo)包括實(shí)際銷售額、計(jì)劃銷售額和計(jì)劃完成率等。24圖圖3 35 5 銷售分析的信息包示意圖銷售分析的信息包示意圖度量指標(biāo):實(shí)際銷售額,計(jì)劃銷售額,計(jì)

18、劃完成率度量指標(biāo):實(shí)際銷售額,計(jì)劃銷售額,計(jì)劃完成率25p設(shè)計(jì)基于主題域的概念模型設(shè)計(jì)基于主題域的概念模型 通過信息包圖可以確定數(shù)據(jù)倉庫的主題和大部分元數(shù)據(jù)。通過信息包圖可以確定數(shù)據(jù)倉庫的主題和大部分元數(shù)據(jù)。 主題主題(subject)(subject) 指在較高層次上將業(yè)務(wù)數(shù)據(jù)進(jìn)行綜合、歸類和分析利用的一個(gè)指在較高層次上將業(yè)務(wù)數(shù)據(jù)進(jìn)行綜合、歸類和分析利用的一個(gè)抽象概念,每一個(gè)主題基本對(duì)應(yīng)業(yè)務(wù)的一個(gè)分析領(lǐng)域。如在前面信抽象概念,每一個(gè)主題基本對(duì)應(yīng)業(yè)務(wù)的一個(gè)分析領(lǐng)域。如在前面信息包圖示例中,息包圖示例中,“銷售分析銷售分析”就是一個(gè)分析領(lǐng)域,也稱為一個(gè)應(yīng)用就是一個(gè)分析領(lǐng)域,也稱為一個(gè)應(yīng)用主題。主

19、題。 面向主題的數(shù)據(jù)組織方式,就是在較高層次上對(duì)分析對(duì)象數(shù)據(jù)的面向主題的數(shù)據(jù)組織方式,就是在較高層次上對(duì)分析對(duì)象數(shù)據(jù)的一個(gè)完整并且一致的描述,能刻畫分析對(duì)象所涉及的各項(xiàng)業(yè)務(wù)數(shù)據(jù),一個(gè)完整并且一致的描述,能刻畫分析對(duì)象所涉及的各項(xiàng)業(yè)務(wù)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。以及數(shù)據(jù)之間的聯(lián)系。 主題域主題域 對(duì)某個(gè)主題進(jìn)行分析后確定的主題邊界。主題域的確定由最終對(duì)某個(gè)主題進(jìn)行分析后確定的主題邊界。主題域的確定由最終用戶和數(shù)據(jù)倉庫的設(shè)計(jì)人員共同完成。用戶和數(shù)據(jù)倉庫的設(shè)計(jì)人員共同完成。26圖圖3 36 6 主題及主題域的劃分主題及主題域的劃分27圖圖3 37 7 劃分了主題域的原始概念模型劃分了主題域的原始概念模

20、型(ER(ER圖圖) )283.2.4利用星型圖設(shè)計(jì)數(shù)據(jù)倉庫的邏輯模型利用星型圖設(shè)計(jì)數(shù)據(jù)倉庫的邏輯模型p根據(jù)分析需求與信息包圖制作星型圖或雪花圖根據(jù)分析需求與信息包圖制作星型圖或雪花圖 傳統(tǒng)數(shù)據(jù)庫邏輯模型設(shè)計(jì):數(shù)據(jù)流圖傳統(tǒng)數(shù)據(jù)庫邏輯模型設(shè)計(jì):數(shù)據(jù)流圖+ER+ER圖圖 數(shù)據(jù)倉庫數(shù)據(jù)倉庫邏輯模型設(shè)計(jì):邏輯模型設(shè)計(jì):信息包圖信息包圖= =構(gòu)建星型圖構(gòu)建星型圖= =進(jìn)一步完成邏進(jìn)一步完成邏輯模型設(shè)計(jì)。輯模型設(shè)計(jì)。 信息包圖中的三個(gè)對(duì)象:維度、指標(biāo)和類別信息包圖中的三個(gè)對(duì)象:維度、指標(biāo)和類別= =星型圖中三個(gè)邏星型圖中三個(gè)邏輯實(shí)體:維度實(shí)體、指標(biāo)實(shí)體和類別實(shí)體。輯實(shí)體:維度實(shí)體、指標(biāo)實(shí)體和類別實(shí)體。 (

21、1)( (1)(度量度量) )指標(biāo)實(shí)體。使用每一個(gè)指標(biāo),同時(shí)確定是否存儲(chǔ)經(jīng)過計(jì)指標(biāo)實(shí)體。使用每一個(gè)指標(biāo),同時(shí)確定是否存儲(chǔ)經(jīng)過計(jì)算的指標(biāo)。算的指標(biāo)。 (2)(2)維度實(shí)體。一個(gè)維度實(shí)體對(duì)應(yīng)指標(biāo)實(shí)體中的多個(gè)指標(biāo)。用戶利維度實(shí)體。一個(gè)維度實(shí)體對(duì)應(yīng)指標(biāo)實(shí)體中的多個(gè)指標(biāo)。用戶利用維度實(shí)體來訪問指標(biāo)實(shí)體,一個(gè)維度實(shí)體對(duì)應(yīng)信息包圖中的一個(gè)列。用維度實(shí)體來訪問指標(biāo)實(shí)體,一個(gè)維度實(shí)體對(duì)應(yīng)信息包圖中的一個(gè)列。 (3)(3)詳細(xì)類別實(shí)體。對(duì)應(yīng)現(xiàn)實(shí)世界的某一實(shí)體。詳細(xì)類別實(shí)體。對(duì)應(yīng)現(xiàn)實(shí)世界的某一實(shí)體。 在星型圖中,用戶通過維度實(shí)體獲得指標(biāo)實(shí)體數(shù)據(jù),其中指標(biāo)實(shí)體在星型圖中,用戶通過維度實(shí)體獲得指標(biāo)實(shí)體數(shù)據(jù),其中指標(biāo)實(shí)體

22、與維度實(shí)體間的聯(lián)系通過每個(gè)維度中的最低一層的詳細(xì)類別實(shí)體連接。與維度實(shí)體間的聯(lián)系通過每個(gè)維度中的最低一層的詳細(xì)類別實(shí)體連接。29圖圖3 38 Adventure Works Cycles8 Adventure Works Cycles公司銷售分析星型圖公司銷售分析星型圖圖圖3 39 9 在星型圖基礎(chǔ)上構(gòu)建的雪花型模式圖在星型圖基礎(chǔ)上構(gòu)建的雪花型模式圖30p確定主題的屬性組確定主題的屬性組 根據(jù)概念模型中定義的主題及主題域,進(jìn)一步確定在主題的邏輯關(guān)系根據(jù)概念模型中定義的主題及主題域,進(jìn)一步確定在主題的邏輯關(guān)系模式中包含的屬性組及相關(guān)信息。模式中包含的屬性組及相關(guān)信息。 例如:例如:Adventu

23、re Works CycleAdventure Works Cycle公司數(shù)據(jù)倉庫中的公司數(shù)據(jù)倉庫中的“商品商品”、“銷售銷售”和和“客戶客戶”主題,進(jìn)一步說明主題的屬性組如表主題,進(jìn)一步說明主題的屬性組如表3 35 5所示。所示。表表3 35 5主題的詳細(xì)描述主題的詳細(xì)描述31p事實(shí)表及其特征事實(shí)表及其特征 度量:客戶發(fā)生事件或動(dòng)作的事實(shí)記錄,業(yè)務(wù)事實(shí)是對(duì)某個(gè)特定事度量:客戶發(fā)生事件或動(dòng)作的事實(shí)記錄,業(yè)務(wù)事實(shí)是對(duì)某個(gè)特定事件的度量,是各個(gè)維度的交點(diǎn)。件的度量,是各個(gè)維度的交點(diǎn)。 客戶打電話客戶打電話- -度量包括通話時(shí)長、通話次數(shù)、通話費(fèi)用等。度量包括通話時(shí)長、通話次數(shù)、通話費(fèi)用等。 客戶購

24、買商品客戶購買商品- -度量包括購買次數(shù)、購買商品的金額、購買商品的度量包括購買次數(shù)、購買商品的金額、購買商品的數(shù)量等。數(shù)量等。 事實(shí)表:在星型模式或雪花模式中用來記錄業(yè)務(wù)事實(shí)并作相應(yīng)指標(biāo)統(tǒng)事實(shí)表:在星型模式或雪花模式中用來記錄業(yè)務(wù)事實(shí)并作相應(yīng)指標(biāo)統(tǒng)計(jì)的表。計(jì)的表。 事實(shí)表的特征:事實(shí)表的特征: (1)(1)記錄數(shù)量很多。記錄數(shù)量很多。 (2)(2)事實(shí)表中除了度量變量外,其他字段都是維表或者中間表事實(shí)表中除了度量變量外,其他字段都是維表或者中間表( (對(duì)于對(duì)于雪花模式雪花模式) )的關(guān)鍵字的關(guān)鍵字( (外鍵外鍵) )。 (3)(3)如果事實(shí)相關(guān)的維度很多,則事實(shí)表的字段數(shù)也會(huì)比較多。如果事實(shí)

25、相關(guān)的維度很多,則事實(shí)表的字段數(shù)也會(huì)比較多。32p事實(shí)表的類型與設(shè)計(jì)事實(shí)表的類型與設(shè)計(jì) 事實(shí)表包含兩部分:事實(shí)表包含兩部分: 由主鍵和外鍵所組成的鍵部分由主鍵和外鍵所組成的鍵部分 事實(shí)或度量指標(biāo)事實(shí)或度量指標(biāo) 度量指標(biāo)具有度量指標(biāo)具有可加性可加性( (或可平均等或可平均等) )、半加法半加法性和性和非加法性非加法性特征。特征。例如:賬目余款反映某個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。例如:賬目余款反映某個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。 (1 1)按照地點(diǎn)和商品等大多數(shù)維度進(jìn)行累加;)按照地點(diǎn)和商品等大多數(shù)維度進(jìn)行累加; (2 2)對(duì)于時(shí)間維度,將一年中每個(gè)月的賬目余款進(jìn)行累加毫無)對(duì)于時(shí)間維度,將一年中每個(gè)月的賬目余款進(jìn)行累加毫無

26、意義的。意義的。33 按照事實(shí)表中度量的可加性情況,將事實(shí)表及其包含的事實(shí)分為按照事實(shí)表中度量的可加性情況,將事實(shí)表及其包含的事實(shí)分為4 4種類種類型型: (1)(1)事務(wù)事實(shí)事務(wù)事實(shí)。以組織事件的單一事務(wù)為基礎(chǔ),通常只包含事實(shí)的次數(shù)。以組織事件的單一事務(wù)為基礎(chǔ),通常只包含事實(shí)的次數(shù)。 例如:銀行的例如:銀行的ATMATM提款機(jī)的提款次數(shù),使用某種服務(wù)的次數(shù)等。提款機(jī)的提款次數(shù),使用某種服務(wù)的次數(shù)等。 (2)(2)快照事實(shí)快照事實(shí)。以組織在。以組織在某一特定時(shí)間的特殊狀態(tài)某一特定時(shí)間的特殊狀態(tài)為基礎(chǔ),即只有在某為基礎(chǔ),即只有在某一段時(shí)間內(nèi)才出現(xiàn)的結(jié)果。一段時(shí)間內(nèi)才出現(xiàn)的結(jié)果。 (3)(3)線性

27、項(xiàng)目事實(shí)線性項(xiàng)目事實(shí)。用來儲(chǔ)存關(guān)于企業(yè)組織經(jīng)營項(xiàng)目的詳細(xì)信息。包括。用來儲(chǔ)存關(guān)于企業(yè)組織經(jīng)營項(xiàng)目的詳細(xì)信息。包括表現(xiàn)與企業(yè)相關(guān)的個(gè)別線性項(xiàng)目的所有度量條件,如銷售數(shù)量、銷售金額、表現(xiàn)與企業(yè)相關(guān)的個(gè)別線性項(xiàng)目的所有度量條件,如銷售數(shù)量、銷售金額、成本和運(yùn)費(fèi)等數(shù)值數(shù)據(jù),也就是關(guān)鍵性能指標(biāo)。成本和運(yùn)費(fèi)等數(shù)值數(shù)據(jù),也就是關(guān)鍵性能指標(biāo)。 (4)(4)事件事實(shí)事件事實(shí)。表示事件發(fā)生與否及一些非事實(shí)本身具備的細(xì)節(jié)。它所。表示事件發(fā)生與否及一些非事實(shí)本身具備的細(xì)節(jié)。它所表現(xiàn)的是一個(gè)事件發(fā)生后的狀態(tài)變化。表現(xiàn)的是一個(gè)事件發(fā)生后的狀態(tài)變化。 例如:哪些產(chǎn)品在促銷期間內(nèi)沒有賣出例如:哪些產(chǎn)品在促銷期間內(nèi)沒有賣出(

28、(有還是沒有有還是沒有) )。p事實(shí)表的類型與設(shè)計(jì)(續(xù))事實(shí)表的類型與設(shè)計(jì)(續(xù)) 34派生事實(shí)的種類:派生事實(shí)的種類: 可以用同一事實(shí)表中的其他事實(shí)計(jì)算得到可以用同一事實(shí)表中的其他事實(shí)計(jì)算得到 非加法性事實(shí)非加法性事實(shí)- -例如各種商品的利潤率例如各種商品的利潤率 p事實(shí)表的類型與設(shè)計(jì)(續(xù))事實(shí)表的類型與設(shè)計(jì)(續(xù)) 調(diào)查確定可能的基本事實(shí)和派生事實(shí)。調(diào)查確定可能的基本事實(shí)和派生事實(shí)。 對(duì)所有事實(shí)按照功能或某種方式排序,以刪除重復(fù)的事實(shí),確對(duì)所有事實(shí)按照功能或某種方式排序,以刪除重復(fù)的事實(shí),確認(rèn)那些基于不同準(zhǔn)則但具有相同性質(zhì)的派生事實(shí)。認(rèn)那些基于不同準(zhǔn)則但具有相同性質(zhì)的派生事實(shí)。 再次確定事實(shí)表

29、模型,檢查基本事實(shí)是否包含在模型中。再次確定事實(shí)表模型,檢查基本事實(shí)是否包含在模型中。 事實(shí)表模型的設(shè)計(jì):事實(shí)表模型的設(shè)計(jì):35p粒度的選擇與設(shè)計(jì)步驟粒度的選擇與設(shè)計(jì)步驟 粒度粒度 指數(shù)據(jù)倉庫中數(shù)據(jù)單元的詳細(xì)程度和級(jí)別。指數(shù)據(jù)倉庫中數(shù)據(jù)單元的詳細(xì)程度和級(jí)別。數(shù)據(jù)倉庫中數(shù)據(jù)的級(jí)別數(shù)據(jù)倉庫中數(shù)據(jù)的級(jí)別 早期細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí) 當(dāng)前細(xì)節(jié)級(jí)當(dāng)前細(xì)節(jié)級(jí) 輕度綜合級(jí)輕度綜合級(jí) 高度綜合級(jí)高度綜合級(jí) 數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越低;數(shù)據(jù)綜合度數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越低;數(shù)據(jù)綜合度越高,粒度就越大,級(jí)別也就越高。越高,粒度就越大,級(jí)別也就越高。 36 1)1)粒度的不同選擇會(huì)導(dǎo)致邏輯模型的差異粒

30、度的不同選擇會(huì)導(dǎo)致邏輯模型的差異 如果如果Adventure Works CyclesAdventure Works Cycles公司的管理者想按照國家公司的管理者想按照國家(country)(country)、區(qū)域區(qū)域(region)(region)、子區(qū)域、子區(qū)域(subregion(subregion) )和子區(qū)內(nèi)的銷售員這樣的層次關(guān)系和子區(qū)內(nèi)的銷售員這樣的層次關(guān)系來查看公司的銷售情況,其雪花型模式的來查看公司的銷售情況,其雪花型模式的ERER圖如圖圖如圖3 31010所示,可以通所示,可以通過將地理概念層次的國家、區(qū)域和子區(qū)域嵌入到銷售員維度來實(shí)現(xiàn)。過將地理概念層次的國家、區(qū)域和子區(qū)域

31、嵌入到銷售員維度來實(shí)現(xiàn)。 圖圖3 310 10 細(xì)化到銷售員層次的邏輯模型細(xì)化到銷售員層次的邏輯模型p粒度的選擇與設(shè)計(jì)步驟粒度的選擇與設(shè)計(jì)步驟 (續(xù))(續(xù))37 如果公司的決策者認(rèn)為不需要了解具體到某個(gè)銷售人員的情如果公司的決策者認(rèn)為不需要了解具體到某個(gè)銷售人員的情況,而只需要了解各個(gè)地區(qū)域的銷售情況,則沒有必要把銷售員維況,而只需要了解各個(gè)地區(qū)域的銷售情況,則沒有必要把銷售員維作為一個(gè)維度,把地域相關(guān)的表綜合成為地理維度就可以了,設(shè)計(jì)作為一個(gè)維度,把地域相關(guān)的表綜合成為地理維度就可以了,設(shè)計(jì)結(jié)構(gòu)如圖結(jié)構(gòu)如圖3 31l1l所示。所示。圖圖311 細(xì)化到子區(qū)域?qū)哟蔚倪壿嬆P图?xì)化到子區(qū)域?qū)哟蔚倪壿?/p>

32、模型p粒度的選擇與設(shè)計(jì)步驟(續(xù))粒度的選擇與設(shè)計(jì)步驟(續(xù)) 38 2)2)粒度的不同選擇會(huì)導(dǎo)致數(shù)據(jù)存儲(chǔ)容量的差異粒度的不同選擇會(huì)導(dǎo)致數(shù)據(jù)存儲(chǔ)容量的差異 粒度對(duì)數(shù)據(jù)倉庫最直接的影響就是存儲(chǔ)容量。 例如:按月統(tǒng)計(jì)的客戶購買數(shù)據(jù)和按次記錄客戶購買數(shù)據(jù)(即記錄每筆銷售),兩者的數(shù)據(jù)量相差極大。假定每個(gè)字段為8字節(jié),一個(gè)消費(fèi)記錄有6個(gè)字段,每個(gè)客戶一天有5次消費(fèi),則1個(gè)客戶1個(gè)月的消費(fèi)細(xì)節(jié)數(shù)據(jù)的數(shù)據(jù)量為86305=7200字節(jié),而1個(gè)客戶1個(gè)月的消費(fèi)匯總數(shù)據(jù)的數(shù)據(jù)量為84(月記錄的字段個(gè)數(shù))=32字節(jié),如圖312所示。圖圖312不同粒度的事實(shí)表示例不同粒度的事實(shí)表示例p粒度的選擇與設(shè)計(jì)步驟(續(xù))粒度的選

33、擇與設(shè)計(jì)步驟(續(xù)) 39 數(shù)據(jù)倉庫分析功能和存儲(chǔ)空間是一對(duì)矛盾。 (1)粗略估算數(shù)據(jù)量,確定合適的粒度級(jí)的起點(diǎn)。即粗略估算數(shù)據(jù)倉庫中將來的數(shù)據(jù)行數(shù)和所需的數(shù)據(jù)存儲(chǔ)空間。 例如:預(yù)估一年及5年內(nèi)表中的最少行數(shù)和最多行數(shù),并對(duì)每張表確定鍵碼的長度和原始表中每條數(shù)據(jù)是否存在鍵碼。 (2)確定粒度的級(jí)別。在數(shù)據(jù)倉庫中確定粒度的級(jí)別時(shí),需要考慮如下因素:分析需求類型、數(shù)據(jù)最低粒度和存儲(chǔ)數(shù)據(jù)量。 3)粒度設(shè)計(jì)的步驟)粒度設(shè)計(jì)的步驟404) 粒度設(shè)計(jì)示例粒度設(shè)計(jì)示例 以以Adventure works CyclesAdventure works Cycles公司的生產(chǎn)部門數(shù)據(jù)倉庫設(shè)計(jì)為例,如圖公司的生產(chǎn)部門

34、數(shù)據(jù)倉庫設(shè)計(jì)為例,如圖3 31313所示,采用多重粒度設(shè)計(jì)。左邊是操作型業(yè)務(wù)數(shù)據(jù),記錄完成若干給所示,采用多重粒度設(shè)計(jì)。左邊是操作型業(yè)務(wù)數(shù)據(jù),記錄完成若干給定部件的生產(chǎn)線運(yùn)轉(zhuǎn)情況每一天都會(huì)積累許多記錄,是生產(chǎn)業(yè)務(wù)的詳細(xì)定部件的生產(chǎn)線運(yùn)轉(zhuǎn)情況每一天都會(huì)積累許多記錄,是生產(chǎn)業(yè)務(wù)的詳細(xì)數(shù)據(jù),最近數(shù)據(jù),最近3030天的業(yè)務(wù)詳細(xì)信息都存儲(chǔ)在天的業(yè)務(wù)詳細(xì)信息都存儲(chǔ)在OLTPOLTP環(huán)境中。環(huán)境中。 圖圖3 31313的右邊是輕度匯總級(jí)的數(shù)據(jù),輕度匯總級(jí)包括兩個(gè)表:一個(gè)匯的右邊是輕度匯總級(jí)的數(shù)據(jù),輕度匯總級(jí)包括兩個(gè)表:一個(gè)匯總某一部件在總某一部件在3 3個(gè)月中個(gè)月中的生產(chǎn)情況,另一個(gè)匯總部件的的生產(chǎn)情況,另

35、一個(gè)匯總部件的組裝情況組裝情況,匯總周期,匯總周期為為1 1年。生產(chǎn)年。生產(chǎn)檔案表則檔案表則包括每個(gè)生產(chǎn)活動(dòng)的詳細(xì)記錄。包括每個(gè)生產(chǎn)活動(dòng)的詳細(xì)記錄。圖圖3 313 Adventure Works Cycles13 Adventure Works Cycles公司的生產(chǎn)業(yè)務(wù)的多重粒度設(shè)計(jì)示例公司的生產(chǎn)業(yè)務(wù)的多重粒度設(shè)計(jì)示例41p關(guān)于數(shù)據(jù)倉庫的聚合模型(上卷)關(guān)于數(shù)據(jù)倉庫的聚合模型(上卷)度量:可加性度量、非可加性度量??杉有远攘孔兞浚褐笇⒆兞肯嗉雍蟮玫降慕Y(jié)果仍然具有實(shí)際意義,可以把此結(jié)果計(jì)算后放在事實(shí)表中,以便在以后的查詢中直接使用,這個(gè)相加的結(jié)果就是聚合。 例如:每個(gè)月的銷售金額,通過將3個(gè)月

36、的銷售金額相加,就可以得到1個(gè)季度的銷售金額;通過將12個(gè)月的銷售金額相加,可以得到全年的銷售總金額。根據(jù)用戶需求設(shè)計(jì)聚合,以便使用戶獲得更好的查詢性能。 數(shù)據(jù)倉庫的聚合模型設(shè)計(jì)與數(shù)據(jù)倉庫的粒度模型緊密相關(guān) 如果數(shù)據(jù)倉庫的粒度模型只考慮了細(xì)節(jié)數(shù)據(jù),那么就可能需要多設(shè)計(jì)一些聚合;如果粒度模型為多層數(shù)據(jù)結(jié)構(gòu),則在聚合模型設(shè)計(jì)中可以少考慮一些聚合。42p關(guān)于數(shù)據(jù)倉庫的分割處理關(guān)于數(shù)據(jù)倉庫的分割處理 數(shù)據(jù)分割:把數(shù)據(jù)分散到各自的物理單元中去,使它們能獨(dú)立地處理。分割之后小的物理單元能為操作者和設(shè)計(jì)者在管理數(shù)據(jù)時(shí)提供更大的靈活性。圖314 數(shù)據(jù)分割處理在項(xiàng)目實(shí)施時(shí),根據(jù)事實(shí)表的特點(diǎn)和用戶的查詢需求,可以

37、選用時(shí)間、業(yè)務(wù)類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型。43q維表維表事實(shí)表:若干外鍵(維表的主鍵)形成主鍵,度量維表:由主鍵和維屬性構(gòu)成,維屬性即是維表里的列。在設(shè)計(jì)過程中,來自數(shù)據(jù)源的數(shù)值數(shù)據(jù)字段到底是一個(gè)度量事實(shí)還是一個(gè)維的屬性?(1) 如果數(shù)值數(shù)據(jù)字段的度量經(jīng)常改變,那么它就是事實(shí).(2) 如果它是離散值性質(zhì)的描述屬性,且?guī)缀醣3譃槌?shù),那么它就是維屬性。44q維表(續(xù))維表(續(xù))1)維度表應(yīng)有的數(shù)據(jù)特征(1)維度通常使用解析過的時(shí)間、名字或地址元素,這樣可以使分析查詢更靈活。例如:時(shí)間可分為年、季、月、周和日等;個(gè)人名字可以分為姓氏和稱謂等;地址則可以用地理區(qū)域來區(qū)分,如國家、省、市和

38、縣等。 (2)維度表常使用代理鍵,而不使用業(yè)務(wù)數(shù)據(jù)庫的鍵值作為主鍵。 (3)維度表應(yīng)該包含隨時(shí)間變化的數(shù)據(jù)記錄字段。 452)維度表中維度的分類 維度的類型包括結(jié)構(gòu)維、信息維、分區(qū)維、分類維、退化維和一致維等多種類型。q維表(續(xù))維表(續(xù)) (1)結(jié)構(gòu)維(概念分層) 結(jié)構(gòu)維表示在層次結(jié)構(gòu)組成中的信息度量。如年、月和日可以組成一個(gè)結(jié)構(gòu)維。(2)信息維 信息維是由計(jì)算字段建立的。 假如用戶想通過銷售利潤了解所有產(chǎn)品的銷售總額,則可以就利潤建立一個(gè)信息維(包括單品利潤、總利潤等屬性),對(duì)銷售總量建立一個(gè)度量,進(jìn)而分析利潤與銷量的關(guān)系。 46(3)分區(qū)維分區(qū)維以同一結(jié)構(gòu)生成兩個(gè)或多個(gè)維時(shí),這些維結(jié)構(gòu)相

39、同,只是數(shù)值不同。例如:對(duì)于時(shí)間維,每一年都有相同的季度、相同的月和相同的天(除了閏年以外)。假定把度量事實(shí)表分割為2007年的數(shù)據(jù)和2008年的數(shù)據(jù),那么在0LAP分析中將頻繁使用時(shí)間分區(qū)維來分割數(shù)據(jù)倉庫中的數(shù)據(jù)。其中一個(gè)時(shí)間維是針對(duì)2007年的數(shù)據(jù),而另一個(gè)時(shí)間維針對(duì)2008年的數(shù)據(jù)。(4)分類維分類維是通過對(duì)一個(gè)維的屬性值分組而創(chuàng)建的。例如:客戶表中有家庭收入屬性,如果希望查看客戶根據(jù)收入的購物方式,就可以生成一個(gè)含有家庭收入的分類維。 q維表(續(xù))維表(續(xù))47(5)退化維定義:當(dāng)維表中的主鍵在事實(shí)表中沒有與外鍵關(guān)聯(lián)時(shí),這樣的維稱為退化維。退化維與事實(shí)表并無關(guān)系,但有時(shí)在查詢限制條件(

40、如訂單號(hào)碼、出貨單編號(hào)等)中需要用到退化維。例如:在銷售分析中,把出貨日期作為事實(shí)時(shí)間,而把訂單日期或需求日期等作為查詢條件,則訂單日期或需求日期為退化維。(6)一致維當(dāng)有好幾個(gè)數(shù)據(jù)集市要合并成一個(gè)企業(yè)級(jí)數(shù)據(jù)倉庫時(shí),可以使用一致維來集成數(shù)據(jù)集市,以便確保數(shù)據(jù)倉庫可以使用每個(gè)數(shù)據(jù)集市的事實(shí)。 q維表(續(xù))維表(續(xù))483)維度表中維度的層次與級(jí)別 “維”一般包含著層次關(guān)系,從而組成不同的級(jí)別。 例如:在時(shí)間維度上,按照“年一季一月”形成了一個(gè)層次,其中“年”、“季”和“月”成為這個(gè)層次的三個(gè)級(jí)別。 維度的層次在數(shù)據(jù)倉庫中通常采用合并維分層結(jié)構(gòu)和雪花分層結(jié)構(gòu)兩種實(shí)現(xiàn)方式。 (1)合并維分層結(jié)構(gòu) 合

41、并維分層結(jié)構(gòu)是將不同分層結(jié)構(gòu)的信息對(duì)象完全合并到同一個(gè)維中。 例如:產(chǎn)品維表可能就包含產(chǎn)品總類、產(chǎn)品類別、產(chǎn)品詳細(xì)類別及產(chǎn)品名稱等。 優(yōu)點(diǎn):查詢簡單,不需要額外的表連接。 缺點(diǎn):通常不符合第三范式,存在數(shù)據(jù)重復(fù),需要較多的硬盤存儲(chǔ)空間。q維表(續(xù))維表(續(xù))49(2)雪花分層結(jié)構(gòu) 所有類別用規(guī)范化的獨(dú)立表來存儲(chǔ)數(shù)據(jù)。 例如:將產(chǎn)品詳細(xì)類別、產(chǎn)品類別及產(chǎn)品總類這三個(gè)分層結(jié)構(gòu)分別獨(dú)立成一個(gè)表,再用主鍵與外鍵來維持表間聯(lián)系。雪花分層結(jié)構(gòu)實(shí)際上是將星型模式進(jìn)行規(guī)范化。 優(yōu)點(diǎn):沒有冗余數(shù)據(jù),可能會(huì)節(jié)省硬盤空間。 缺點(diǎn):查詢需要作表連接,較麻煩。q維表(續(xù))維表(續(xù))50q關(guān)于緩慢變化維的處理關(guān)于緩慢變化

42、維的處理 根據(jù)維度的變化快慢分類:無變化維度-身份證號(hào)、姓名、性別等緩慢變化維度-政治面貌、婚姻狀態(tài)等劇烈變化維度-工作經(jīng)歷、工作單位、培訓(xùn)經(jīng)歷等通常情況下,把其中不常變動(dòng)的部分單獨(dú)抽出來作為一個(gè)維表,按照緩慢變化維方式進(jìn)行處理。 (1)(1)歷史數(shù)據(jù)需要修改的情況歷史數(shù)據(jù)需要修改的情況 主要發(fā)生在業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)出現(xiàn)錯(cuò)誤,在分析過程中需要修改。 解決方法:直接覆蓋法,即使用UPDATE語句修改維度表中的數(shù)據(jù)。 (2)(2)新增數(shù)據(jù)維度成員改變了屬性的情況新增數(shù)據(jù)維度成員改變了屬性的情況 若某維度成員新加入了一列,該列在歷史數(shù)據(jù)中無值,而在當(dāng)前數(shù)據(jù)和將來數(shù)據(jù)中有值,且可以查詢。 解決方法:使

43、用存儲(chǔ)過程或程序生成新的維度屬性,在后續(xù)的數(shù)據(jù)中可基于新屬性進(jìn)行查詢。 51 (3)歷史數(shù)據(jù)保留,新增數(shù)據(jù)也要保留的情況。 解決方法:創(chuàng)建額外字段記錄這些數(shù)據(jù)之間的關(guān)系。 例如:在該維度打上時(shí)間戳,即將歷史數(shù)據(jù)生效的時(shí)間段作為它的一個(gè)屬性,在與原始匹配生成事實(shí)表時(shí)將按照時(shí)間段進(jìn)行關(guān)聯(lián)。 優(yōu)點(diǎn):數(shù)據(jù)更改時(shí),不需要?jiǎng)?chuàng)建額外的數(shù)據(jù)行,也不需要改變維表中的鍵值結(jié)構(gòu),可以在現(xiàn)有的數(shù)據(jù)行中查看所有歷史記錄。 缺點(diǎn):由時(shí)間點(diǎn)來判斷更新的數(shù)據(jù)查詢性能會(huì)降低,如果數(shù)據(jù)經(jīng)常變化,則此方法并不適合。 p 關(guān)于緩慢變化維的處理關(guān)于緩慢變化維的處理52q常用維度的設(shè)計(jì)模式常用維度的設(shè)計(jì)模式 在數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)中,

44、有一些維度是經(jīng)常使用的,它們的設(shè)計(jì)也形成了一定的設(shè)計(jì)模式和原則。 1)1)時(shí)間維度時(shí)間維度 時(shí)間維度是最常見的維度,數(shù)據(jù)倉庫存儲(chǔ)的是系統(tǒng)的歷史數(shù)據(jù),業(yè)務(wù)分析最基本的維度就是時(shí)間維度。 時(shí)間維度通常包含年、季、月、星期和日5個(gè)層次,實(shí)際應(yīng)用可能還會(huì)在月和星期之間增加旬層次,對(duì)日可能還會(huì)進(jìn)一步分類,如節(jié)假日和工作日,以及周末和非周末。 另一類型常見的時(shí)間維度是按照財(cái)年定義的時(shí)間維度,這在財(cái)務(wù)分析方面是必須使用的。 53 2)2)地理維度地理維度 地理維度如國家、區(qū)域和子區(qū)域等。地理維度的展示可與地理信息系統(tǒng)結(jié)合起來,使得最終用戶能夠得到更加直觀的分析結(jié)果。 3)3)機(jī)構(gòu)維度機(jī)構(gòu)維度 機(jī)構(gòu)維度是指實(shí)

45、施項(xiàng)目的組織單位的內(nèi)部組織機(jī)構(gòu)的層次屬性,機(jī)構(gòu)維度有利于對(duì)企業(yè)各個(gè)部門或者各個(gè)分公司之間進(jìn)行對(duì)比分析。 4)4)客戶維度客戶維度 企業(yè)總是要服務(wù)客戶的,因此客戶維度通常是必不可少的。分析客戶背景信息對(duì)客戶消費(fèi)行為的影響,通過客戶背景信息對(duì)客戶群體進(jìn)行合理分類都是企業(yè)市場策略分析的重要方面。 常用的客戶背景信息包括客戶年齡、性別、婚姻狀況、愛好和教育程度等。q常用維度的設(shè)計(jì)模式常用維度的設(shè)計(jì)模式 543.2.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)數(shù)據(jù)倉庫的物理模型設(shè)計(jì) p物理模型設(shè)計(jì)的主要工作物理模型設(shè)計(jì)的主要工作物理模型設(shè)計(jì)時(shí)需要考慮的因素 I/O存取時(shí)間 空間利用率 維護(hù)成本等 物理模型設(shè)計(jì)階段需要完成的工作 (1)定義數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范化數(shù)據(jù)倉庫中的數(shù)據(jù)。 (2)選擇數(shù)據(jù)庫架構(gòu)(關(guān)系數(shù)據(jù)庫的星型模式、多維數(shù)據(jù)庫的Cube)及其具體的數(shù)據(jù)庫管理系統(tǒng)軟件和版本等。55 (3)根據(jù)具體使用的數(shù)據(jù)庫管理系統(tǒng),將實(shí)體和實(shí)體特征物理化,具體包括如下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論