第9章數(shù)據(jù)倉庫與CRM_第1頁
第9章數(shù)據(jù)倉庫與CRM_第2頁
第9章數(shù)據(jù)倉庫與CRM_第3頁
第9章數(shù)據(jù)倉庫與CRM_第4頁
第9章數(shù)據(jù)倉庫與CRM_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第第9 9章章 數(shù)據(jù)倉庫與客戶關(guān)系管理數(shù)據(jù)倉庫與客戶關(guān)系管理9.1 9.1 數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫概述9.2 CRM9.2 CRM中的數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫9.3 9.3 數(shù)據(jù)倉庫的實施數(shù)據(jù)倉庫的實施9.4 CRM9.4 CRM數(shù)據(jù)倉庫設(shè)計示例數(shù)據(jù)倉庫設(shè)計示例9.5 CRM9.5 CRM數(shù)據(jù)倉庫使用示例數(shù)據(jù)倉庫使用示例9.1 9.1 數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫概述v 數(shù)據(jù)倉庫與數(shù)據(jù)倉庫與CRMCRM有著難以割舍的密切關(guān)系,客戶關(guān)系管理的有著難以割舍的密切關(guān)系,客戶關(guān)系管理的很多工作都是以數(shù)據(jù)倉庫為基礎(chǔ)展開的。從某種意義上說,很多工作都是以數(shù)據(jù)倉庫為基礎(chǔ)展開的。從某種意義上說,數(shù)據(jù)倉庫是客戶關(guān)系管理的靈魂

2、。數(shù)據(jù)倉庫是客戶關(guān)系管理的靈魂。v 利用數(shù)據(jù)倉庫,企業(yè)可以對客戶行為的分析與預(yù)測,從而利用數(shù)據(jù)倉庫,企業(yè)可以對客戶行為的分析與預(yù)測,從而制定準(zhǔn)確的市場策略、發(fā)現(xiàn)企業(yè)的重點客戶和評價市場性制定準(zhǔn)確的市場策略、發(fā)現(xiàn)企業(yè)的重點客戶和評價市場性能,并通過銷售和服務(wù)等部門與客戶交流,實現(xiàn)企業(yè)利潤能,并通過銷售和服務(wù)等部門與客戶交流,實現(xiàn)企業(yè)利潤的提高。的提高。v 對于客戶量大、市場策略對企業(yè)影響較大的企業(yè)來說,必對于客戶量大、市場策略對企業(yè)影響較大的企業(yè)來說,必須在客戶關(guān)系管理系統(tǒng)中包含數(shù)據(jù)倉庫。須在客戶關(guān)系管理系統(tǒng)中包含數(shù)據(jù)倉庫。9.1.1 9.1.1 數(shù)據(jù)倉庫的產(chǎn)生數(shù)據(jù)倉庫的產(chǎn)生v早期的數(shù)據(jù)庫主要支

3、持聯(lián)機(jī)事務(wù)處理早期的數(shù)據(jù)庫主要支持聯(lián)機(jī)事務(wù)處理v決策支持對數(shù)據(jù)分析的需求決策支持對數(shù)據(jù)分析的需求v傳統(tǒng)數(shù)據(jù)庫系統(tǒng)不適宜傳統(tǒng)數(shù)據(jù)庫系統(tǒng)不適宜DSSv事務(wù)處理和分析處理的性能特性不同事務(wù)處理和分析處理的性能特性不同v數(shù)據(jù)集成問題數(shù)據(jù)集成問題v數(shù)據(jù)動態(tài)集成問題數(shù)據(jù)動態(tài)集成問題v歷史數(shù)據(jù)問題歷史數(shù)據(jù)問題v數(shù)據(jù)的綜合問題數(shù)據(jù)的綜合問題操作繁簡問題操作繁簡問題(1 1)事務(wù)處理和分析處理的性能特性不同。)事務(wù)處理和分析處理的性能特性不同。v所有聯(lián)機(jī)事務(wù)處理強(qiáng)調(diào)的是數(shù)據(jù)更新處理性能和系統(tǒng)的所有聯(lián)機(jī)事務(wù)處理強(qiáng)調(diào)的是數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,并不關(guān)心數(shù)據(jù)查詢的方便與快捷。在事務(wù)處理可靠性,并不關(guān)心數(shù)據(jù)查詢

4、的方便與快捷。在事務(wù)處理環(huán)境中,用戶的行為特點是數(shù)據(jù)的存取操作頻率高而每環(huán)境中,用戶的行為特點是數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短。次操作處理的時間短。v在分析處理環(huán)境中,用戶的行為模式與此完全不同,強(qiáng)在分析處理環(huán)境中,用戶的行為模式與此完全不同,強(qiáng)調(diào)的是數(shù)據(jù)處理和分析的能力。在傳統(tǒng)數(shù)據(jù)庫系統(tǒng)基礎(chǔ)調(diào)的是數(shù)據(jù)處理和分析的能力。在傳統(tǒng)數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上的上的DSSDSS應(yīng)用程序可能需要連續(xù)幾個小時,從而消耗大量應(yīng)用程序可能需要連續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。的系統(tǒng)資源。v聯(lián)機(jī)分析和事務(wù)處理對系統(tǒng)的要求不同,同一個數(shù)據(jù)庫聯(lián)機(jī)分析和事務(wù)處理對系統(tǒng)的要求不同,同一個數(shù)據(jù)庫在理論上難以做到兩全

5、,將具有如此不同處理性能的兩在理論上難以做到兩全,將具有如此不同處理性能的兩種應(yīng)用放在同一個環(huán)境中運行顯然是不適當(dāng)?shù)?。種應(yīng)用放在同一個環(huán)境中運行顯然是不適當(dāng)?shù)?。? 2)數(shù)據(jù)集成問題。)數(shù)據(jù)集成問題。vDSSDSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成的。集成的。v造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、造成這種分散的原因有多種,

6、主要有事務(wù)處理應(yīng)用分散、“蜘蛛網(wǎng)蜘蛛網(wǎng)”問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)。(3 3)數(shù)據(jù)動態(tài)集成問題。)數(shù)據(jù)動態(tài)集成問題。v 靜態(tài)集成的最大缺點在于,如果在數(shù)據(jù)集成后數(shù)據(jù)源靜態(tài)集成的最大缺點在于,如果在數(shù)據(jù)集成后數(shù)據(jù)源中數(shù)據(jù)發(fā)生了變化,這些變化將不能反映給決策者,中數(shù)據(jù)發(fā)生了變化,這些變化將不能反映給決策者,導(dǎo)致決策者使用的是過時的數(shù)據(jù)。導(dǎo)致決策者使用的是過時的數(shù)據(jù)。v 集成數(shù)據(jù)必須以一定的周期(例如集成數(shù)據(jù)必須以一定的周期(例如2424小時)進(jìn)行刷新,小時)進(jìn)行刷新,我們稱其為動態(tài)集成。顯然,事務(wù)處理系統(tǒng)不具備動我們稱其為動態(tài)集成。顯

7、然,事務(wù)處理系統(tǒng)不具備動態(tài)集成的能力。態(tài)集成的能力。(4 4)歷史數(shù)據(jù)問題。)歷史數(shù)據(jù)問題。v 事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也是事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也是存儲短期數(shù)據(jù),切不同數(shù)據(jù)的保存期限也不一樣,即存儲短期數(shù)據(jù),切不同數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未得使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未得到充分利用。到充分利用。v 但對于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多但對于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須一大量的歷史數(shù)據(jù)為依托。沒有歷史數(shù)分析方法必須一大量的歷史數(shù)據(jù)為依托。沒有歷史數(shù)據(jù)的詳細(xì)分析,是

8、難以把握企業(yè)的發(fā)展趨勢的。據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢的。DSSDSS對對數(shù)據(jù)在空間和時間的廣度上都有了更高的要求,而事數(shù)據(jù)在空間和時間的廣度上都有了更高的要求,而事務(wù)處理環(huán)境難以滿足這些要求。務(wù)處理環(huán)境難以滿足這些要求。(5)數(shù)據(jù)的綜合問題。)數(shù)據(jù)的綜合問題。v 在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。在分析前,往往并不對這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。在分析前,往往需要對細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處理系需要對細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處理系統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合

9、統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合還往往因為是一種數(shù)據(jù)冗余而加以還往往因為是一種數(shù)據(jù)冗余而加以限制。限制。(6 6)操作繁簡問題。)操作繁簡問題。v業(yè)務(wù)數(shù)據(jù)的模式是針對事務(wù)處理系統(tǒng)而設(shè)計的,業(yè)務(wù)數(shù)據(jù)的模式是針對事務(wù)處理系統(tǒng)而設(shè)計的,數(shù)據(jù)的格式和描述方式并不適合非計算機(jī)專業(yè)數(shù)據(jù)的格式和描述方式并不適合非計算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計。人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計。v 有人感嘆:有人感嘆:20年前查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了,而今年前查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了,而今天查詢不到數(shù)據(jù)是因為數(shù)據(jù)太多了。天查詢不到數(shù)據(jù)是因為數(shù)據(jù)太多了。v 要提高分析和決策的效率和有效性,分析型處理及其數(shù)

10、據(jù)要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照事務(wù)處理環(huán)境中提取出來,按照DSSDSS處理的需要進(jìn)行重新組處理的需要進(jìn)行重新組織,建立單獨的分析處理環(huán)境,數(shù)據(jù)倉庫正是為了構(gòu)建這織,建立單獨的分析處理環(huán)境,數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。v 數(shù)據(jù)倉庫的數(shù)據(jù)從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)數(shù)據(jù)倉庫的數(shù)據(jù)從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中得到。它是一

11、個聯(lián)機(jī)的系統(tǒng),源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中得到。它是一個聯(lián)機(jī)的系統(tǒng),專門為分析統(tǒng)計和決策支持應(yīng)用服務(wù),通過它可滿足決策專門為分析統(tǒng)計和決策支持應(yīng)用服務(wù),通過它可滿足決策支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。9.1.2 9.1.2 數(shù)據(jù)倉庫的概念和特征數(shù)據(jù)倉庫的概念和特征v 目前,數(shù)據(jù)倉庫一詞尚沒有一個統(tǒng)一的定義。目前,數(shù)據(jù)倉庫一詞尚沒有一個統(tǒng)一的定義。v 著名的數(shù)據(jù)倉庫專家著名的數(shù)據(jù)倉庫專家W.H.InmonW.H.Inmon在其著作在其著作Building the Building the Data WarehouseData Warehouse一書中給予如下描述:一書

12、中給予如下描述:v 數(shù)據(jù)倉庫(數(shù)據(jù)倉庫(Data WarehouseData Warehouse)是一個面向主題的()是一個面向主題的(Subject Subject OrientedOriented)、集成的()、集成的(IntegrateIntegrate)、相對穩(wěn)定的()、相對穩(wěn)定的(Non-Non-VolatileVolatile)、反映歷史變化()、反映歷史變化(Time VariantTime Variant)的數(shù)據(jù)集合,)的數(shù)據(jù)集合,用于支持管理決策。用于支持管理決策。數(shù)據(jù)倉庫概念的兩個層次數(shù)據(jù)倉庫概念的兩個層次v功能上:數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)功能上:數(shù)據(jù)倉庫用于支持

13、決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;v內(nèi)容和特征上:數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源內(nèi)容和特征上:數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。再修改。數(shù)據(jù)倉庫四個特點數(shù)據(jù)倉庫四個特點- -面向主題面向主題v 傳統(tǒng)的數(shù)據(jù)庫是面向應(yīng)用而進(jìn)行數(shù)據(jù)組織的,其抽象程度不夠高,沒有傳統(tǒng)的數(shù)據(jù)庫是面向應(yīng)用而進(jìn)行數(shù)據(jù)組織的,其抽象程度不夠高,沒有完全實現(xiàn)數(shù)據(jù)與應(yīng)用的分離。但這種方式能較好地將企業(yè)

14、業(yè)務(wù)活動與數(shù)完全實現(xiàn)數(shù)據(jù)與應(yīng)用的分離。但這種方式能較好地將企業(yè)業(yè)務(wù)活動與數(shù)據(jù)庫模式相對應(yīng),利于從手工處理向計算機(jī)處理過渡,因而具有較好的據(jù)庫模式相對應(yīng),利于從手工處理向計算機(jī)處理過渡,因而具有較好的可操作性;可操作性;v 數(shù)據(jù)倉庫是面向主題而進(jìn)行數(shù)據(jù)組織的。主題是一個在較高層次上對數(shù)數(shù)據(jù)倉庫是面向主題而進(jìn)行數(shù)據(jù)組織的。主題是一個在較高層次上對數(shù)據(jù)的抽象,在邏輯意義上,它是對企業(yè)中某一宏觀領(lǐng)域所涉及的分析對據(jù)的抽象,在邏輯意義上,它是對企業(yè)中某一宏觀領(lǐng)域所涉及的分析對象,即將數(shù)據(jù)組織成主題域。例如,在銀行經(jīng)營運作中,業(yè)務(wù)象,即將數(shù)據(jù)組織成主題域。例如,在銀行經(jīng)營運作中,業(yè)務(wù)( (存款、存款、貸款

15、、匯兌貸款、匯兌) )、貨幣、客戶、機(jī)構(gòu)、會計科目是其主要構(gòu)架或方向,因、貨幣、客戶、機(jī)構(gòu)、會計科目是其主要構(gòu)架或方向,因此在銀行業(yè)務(wù)數(shù)據(jù)倉庫中,選擇業(yè)務(wù)、貨幣、客戶、機(jī)構(gòu)、會計科目五此在銀行業(yè)務(wù)數(shù)據(jù)倉庫中,選擇業(yè)務(wù)、貨幣、客戶、機(jī)構(gòu)、會計科目五個主題,并將會計科目作為連接其他四個主題的交易主題進(jìn)行處理。個主題,并將會計科目作為連接其他四個主題的交易主題進(jìn)行處理。v 面向主題可以獨立于數(shù)據(jù)處理邏輯,適用于分析型數(shù)據(jù)環(huán)境,適用于建面向主題可以獨立于數(shù)據(jù)處理邏輯,適用于分析型數(shù)據(jù)環(huán)境,適用于建設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫;數(shù)據(jù)倉庫中目前仍采用關(guān)系數(shù)據(jù)庫技術(shù)來實現(xiàn),其設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫;數(shù)據(jù)倉庫中目前仍采用關(guān)系數(shù)

16、據(jù)庫技術(shù)來實現(xiàn),其面向主題所作較高程度上的抽象,應(yīng)強(qiáng)調(diào)其邏輯意義。面向主題所作較高程度上的抽象,應(yīng)強(qiáng)調(diào)其邏輯意義。數(shù)據(jù)倉庫四個特點數(shù)據(jù)倉庫四個特點- -集成的集成的v 面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨立,并且往往是異構(gòu)的。間相互獨立,并且往往是異構(gòu)的。在在數(shù)據(jù)倉庫的所有特性之中,這是數(shù)據(jù)倉庫的所有特性之中,這是最重要的。應(yīng)用問題的設(shè)計人員歷經(jīng)多年制定出來的不同的設(shè)計決策最重要的。應(yīng)用問題的設(shè)計人員歷經(jīng)多年制定出來的不同的設(shè)計決策有很多很多種不同的表示方法,沒有什么應(yīng)用在編碼、命名習(xí)慣、實有很多很多種

17、不同的表示方法,沒有什么應(yīng)用在編碼、命名習(xí)慣、實際屬性、屬性度量等方面是一致的,各個應(yīng)用問題設(shè)計員自由地做出際屬性、屬性度量等方面是一致的,各個應(yīng)用問題設(shè)計員自由地做出他或她自己的設(shè)計決策。他或她自己的設(shè)計決策。v 數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。在

18、數(shù)據(jù)倉庫建設(shè)中,這是最關(guān)鍵最復(fù)雜的一企業(yè)的一致的全局信息。在數(shù)據(jù)倉庫建設(shè)中,這是最關(guān)鍵最復(fù)雜的一個步驟,主要工作有:一是,進(jìn)行數(shù)據(jù)的綜合和計算;二是,統(tǒng)一源個步驟,主要工作有:一是,進(jìn)行數(shù)據(jù)的綜合和計算;二是,統(tǒng)一源數(shù)據(jù)中所有不一致和矛盾的地方數(shù)據(jù)中所有不一致和矛盾的地方( (如同名異義、異名同義、字長不一致、如同名異義、異名同義、字長不一致、單位不一致等單位不一致等) )。數(shù)據(jù)倉庫四個特點數(shù)據(jù)倉庫四個特點- -相對穩(wěn)定的相對穩(wěn)定的v 操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及

19、的數(shù)據(jù)操化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。修改和刪除操作很少,通常只需要定期的加載、刷新。數(shù)據(jù)倉庫四個特點數(shù)據(jù)倉庫四個特點- -相對穩(wěn)定的相對穩(wěn)定的數(shù)據(jù)倉庫四個特點數(shù)據(jù)倉庫四個特點- -反映歷史變化反映歷史變化v 操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個

20、時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點( (如開始應(yīng)用數(shù)如開始應(yīng)用數(shù)據(jù)倉庫的時點據(jù)倉庫的時點) )到目前的各個階段的信息,通過這些信息,可以對企業(yè)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。v 數(shù)據(jù)倉庫中的數(shù)據(jù)時間期限要遠(yuǎn)遠(yuǎn)長于操作型系統(tǒng)中的數(shù)據(jù)時間期限。數(shù)據(jù)倉庫中的數(shù)據(jù)時間期限要遠(yuǎn)遠(yuǎn)長于操作型系統(tǒng)中的數(shù)據(jù)時間期限。操作型系統(tǒng)的時間期限一般是操作型系統(tǒng)的時間期限一般是6 06 09 09 0天,而數(shù)據(jù)倉庫中數(shù)據(jù)的時間期天,

21、而數(shù)據(jù)倉庫中數(shù)據(jù)的時間期限通常是限通常是5 51 01 0年。年。v 操作型數(shù)據(jù)庫含有操作型數(shù)據(jù)庫含有“ “當(dāng)前值當(dāng)前值” ”的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問時是有效的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問時是有效的,同樣當(dāng)前值的數(shù)據(jù)能被更新。而數(shù)據(jù)倉庫中的數(shù)據(jù)僅僅是一系列某的,同樣當(dāng)前值的數(shù)據(jù)能被更新。而數(shù)據(jù)倉庫中的數(shù)據(jù)僅僅是一系列某一時刻生成的復(fù)雜的快照。一時刻生成的復(fù)雜的快照。v 操作型數(shù)據(jù)的鍵碼結(jié)構(gòu)可能包含也可能不包含時間元素,如年、月、日操作型數(shù)據(jù)的鍵碼結(jié)構(gòu)可能包含也可能不包含時間元素,如年、月、日等。而數(shù)據(jù)倉庫的鍵碼結(jié)構(gòu)總是包含某時間元素。數(shù)據(jù)倉庫的數(shù)據(jù)碼鍵等。而數(shù)據(jù)倉庫的鍵碼結(jié)構(gòu)總是包含某時

22、間元素。數(shù)據(jù)倉庫的數(shù)據(jù)碼鍵都包含時間項,用作標(biāo)明數(shù)據(jù)的歷史時期。數(shù)據(jù)倉庫中的數(shù)據(jù)包含有大都包含時間項,用作標(biāo)明數(shù)據(jù)的歷史時期。數(shù)據(jù)倉庫中的數(shù)據(jù)包含有大量綜合數(shù)據(jù),很多與時間有關(guān),如按時間段進(jìn)行綜合或隔時間片進(jìn)行抽量綜合數(shù)據(jù),很多與時間有關(guān),如按時間段進(jìn)行綜合或隔時間片進(jìn)行抽樣。隨著時間變化,數(shù)據(jù)倉庫需要不斷增加新數(shù)據(jù)、刪去舊數(shù)據(jù)。樣。隨著時間變化,數(shù)據(jù)倉庫需要不斷增加新數(shù)據(jù)、刪去舊數(shù)據(jù)。數(shù)據(jù)倉庫四個特點數(shù)據(jù)倉庫四個特點- -反映歷史變化反映歷史變化數(shù)據(jù)倉庫本質(zhì)數(shù)據(jù)倉庫本質(zhì)v 數(shù)據(jù)倉庫實際上是一個數(shù)據(jù)倉庫實際上是一個“以大型數(shù)據(jù)管理信息系統(tǒng)為基礎(chǔ)的、附加在這以大型數(shù)據(jù)管理信息系統(tǒng)為基礎(chǔ)的、附加在

23、這個數(shù)據(jù)庫系統(tǒng)之上的、存儲了從企業(yè)所有業(yè)務(wù)數(shù)據(jù)庫中獲取的綜合數(shù)據(jù)個數(shù)據(jù)庫系統(tǒng)之上的、存儲了從企業(yè)所有業(yè)務(wù)數(shù)據(jù)庫中獲取的綜合數(shù)據(jù)的、并能利用這些綜合數(shù)據(jù)為用戶提供經(jīng)過處理后的有用信息的應(yīng)用系的、并能利用這些綜合數(shù)據(jù)為用戶提供經(jīng)過處理后的有用信息的應(yīng)用系統(tǒng)統(tǒng)”。v 如果說傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的重點與要求是快速、準(zhǔn)確、安全、可靠地將數(shù)如果說傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的重點與要求是快速、準(zhǔn)確、安全、可靠地將數(shù)據(jù)存進(jìn)數(shù)據(jù)庫中的話,那么數(shù)據(jù)倉庫的重點與要求就是能夠準(zhǔn)確、安全、據(jù)存進(jìn)數(shù)據(jù)庫中的話,那么數(shù)據(jù)倉庫的重點與要求就是能夠準(zhǔn)確、安全、可靠地從數(shù)據(jù)庫中取出數(shù)據(jù),經(jīng)過加工轉(zhuǎn)換成有規(guī)律信息之后,再供管可靠地從數(shù)據(jù)庫中取出數(shù)據(jù)

24、,經(jīng)過加工轉(zhuǎn)換成有規(guī)律信息之后,再供管理人員進(jìn)行分析使用。理人員進(jìn)行分析使用。v 數(shù)據(jù)倉庫所要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息。數(shù)據(jù)倉庫所要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息。 9.1.3 9.1.3 數(shù)據(jù)倉庫的內(nèi)容數(shù)據(jù)倉庫的內(nèi)容v 數(shù)據(jù)倉庫并沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),也沒有成熟的數(shù)據(jù)倉庫并沒有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),也沒有成熟的基本模式,且更偏向于工程,具有強(qiáng)烈的工程性。因基本模式,且更偏向于工程,具有強(qiáng)烈的工程性。因此,在技術(shù)上人們習(xí)慣于從工作過程等方面來分析,此,在技術(shù)上人們習(xí)慣于從工作過程等方面來分析,并按其關(guān)鍵技術(shù)部份分為數(shù)據(jù)的抽取、存儲與管理以并按其關(guān)鍵技術(shù)部份分為數(shù)據(jù)的抽取、

25、存儲與管理以及數(shù)據(jù)的表現(xiàn)等三個基本方面。及數(shù)據(jù)的表現(xiàn)等三個基本方面。 數(shù)據(jù)的抽取數(shù)據(jù)的抽取v 數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入到數(shù)據(jù)倉庫。質(zhì)中導(dǎo)入到數(shù)據(jù)倉庫。v 數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等方面。調(diào)度和監(jiān)控等方面。v 數(shù)據(jù)倉庫中的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持?jǐn)?shù)據(jù)

26、倉庫中的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實時同步,因此數(shù)據(jù)抽取可以定時進(jìn)行,但多個抽取實時同步,因此數(shù)據(jù)抽取可以定時進(jìn)行,但多個抽取操作執(zhí)行的時間、相互的順序、成敗對數(shù)據(jù)倉庫中信操作執(zhí)行的時間、相互的順序、成敗對數(shù)據(jù)倉庫中信息的有效性則至關(guān)重要。息的有效性則至關(guān)重要。存儲和管理存儲和管理v 數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。對外部數(shù)據(jù)的表現(xiàn)形式。v 要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要決定采

27、用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。 數(shù)據(jù)的表現(xiàn)數(shù)據(jù)的表現(xiàn)v 數(shù)據(jù)表現(xiàn)實際上相當(dāng)于數(shù)據(jù)倉庫的門面,其性能主要集中數(shù)據(jù)表現(xiàn)實際上相當(dāng)于數(shù)據(jù)倉庫的門面,其性能主要集中在多維分析、數(shù)理統(tǒng)計和數(shù)據(jù)挖掘方面。在多維分析、數(shù)理統(tǒng)計和數(shù)據(jù)挖掘方面。v 而多維分析又是數(shù)據(jù)倉庫的重要表現(xiàn)形式,近幾年來由于而多維分析又是數(shù)據(jù)倉庫的重要表現(xiàn)形式,近幾年來由于互聯(lián)網(wǎng)的發(fā)展,使得多維分析領(lǐng)域的工具和產(chǎn)品更加注重互聯(lián)網(wǎng)的發(fā)展,使得多維分析領(lǐng)域的工具和產(chǎn)品更加注重提供基于提供基于WebWeb前端聯(lián)機(jī)分析界面,而不僅僅是在網(wǎng)上發(fā)布數(shù)前端聯(lián)機(jī)分析界面,而不僅

28、僅是在網(wǎng)上發(fā)布數(shù)據(jù)。據(jù)。 9.1.4 9.1.4 數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu) 數(shù)據(jù)源數(shù)據(jù)源v數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。v內(nèi)部信息包括各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。內(nèi)部信息包括各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等。手的信息等等。 數(shù)據(jù)的存儲與管理數(shù)據(jù)的存儲與管理v 數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫數(shù)據(jù)的存儲與管理是整個數(shù)據(jù)倉庫系統(tǒng)的核心

29、。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。針對庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋

30、范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。市)。 OLAPOLAP服務(wù)器服務(wù)器v OLAPOLAP服務(wù)器對分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型服務(wù)器對分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。v 其具體實現(xiàn)可以分為:其具體實現(xiàn)可以分為:ROLAPROLAP、MOLAPMOLAP和和HOLAPHOLAP。ROLAPROLAP基本基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMSRDBMS之中;之中;MOLAPMOLAP

31、基本數(shù)據(jù)和聚基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAPHOLAP基本數(shù)據(jù)存放于基本數(shù)據(jù)存放于RDBMSRDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。前端工具前端工具v前端工具主要包括各種報表工具、查詢工具、數(shù)前端工具主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對具主要針對OLAP服務(wù)器,報表工具、數(shù)據(jù)挖掘服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。工具主要針對

32、數(shù)據(jù)倉庫。 9.2 CRM中的數(shù)據(jù)倉庫中的數(shù)據(jù)倉庫9.2.1 CRM與數(shù)據(jù)倉庫的關(guān)系與數(shù)據(jù)倉庫的關(guān)系 CRM的業(yè)務(wù)整合需要數(shù)據(jù)倉庫 數(shù)據(jù)清潔與集中需要數(shù)據(jù)倉庫 數(shù)據(jù)分析需要數(shù)據(jù)倉庫9.2.2 數(shù)據(jù)倉庫的作用數(shù)據(jù)倉庫的作用v 一、客戶行為分析一、客戶行為分析 客戶理解 行為規(guī)律分析 組間交叉分析v 二、重點客戶發(fā)現(xiàn)二、重點客戶發(fā)現(xiàn) 潛在客戶 交叉銷售 增量銷售 客戶保持v 三、個性化服務(wù)三、個性化服務(wù)v 四、市場性能評估四、市場性能評估9.2.3 CRM數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)客戶信息客戶行為生產(chǎn)系統(tǒng)其他相關(guān)數(shù)據(jù)數(shù)據(jù)倉庫建設(shè)OLAP&Report客戶行為分析重點客戶發(fā)現(xiàn)性能評

33、估模板OLAP&Report數(shù)據(jù)倉庫分析數(shù)據(jù)準(zhǔn)備客戶分析數(shù)據(jù)集市運營分析等市場專家調(diào)度監(jiān)控9.3 數(shù)據(jù)倉庫的項目實施數(shù)據(jù)倉庫的項目實施v 數(shù)據(jù)倉庫系統(tǒng)是一種解決問題的過程,而不是一個可以買到的現(xiàn)成產(chǎn)數(shù)據(jù)倉庫系統(tǒng)是一種解決問題的過程,而不是一個可以買到的現(xiàn)成產(chǎn)品。不同企業(yè)會有不同的數(shù)據(jù)倉庫。企業(yè)人員往往不懂如何建立和利品。不同企業(yè)會有不同的數(shù)據(jù)倉庫。企業(yè)人員往往不懂如何建立和利用數(shù)據(jù)倉庫,發(fā)揮其決策支持的作用,而數(shù)據(jù)倉庫公司人員又不懂業(yè)用數(shù)據(jù)倉庫,發(fā)揮其決策支持的作用,而數(shù)據(jù)倉庫公司人員又不懂業(yè)務(wù),不知道建立哪些決策主題,從數(shù)據(jù)源中抽取哪些數(shù)據(jù)。這需要雙務(wù),不知道建立哪些決策主題,從數(shù)據(jù)

34、源中抽取哪些數(shù)據(jù)。這需要雙方互相溝通,共同協(xié)商開發(fā)數(shù)據(jù)倉庫,因此是一個不斷往復(fù)前進(jìn)的過方互相溝通,共同協(xié)商開發(fā)數(shù)據(jù)倉庫,因此是一個不斷往復(fù)前進(jìn)的過程。程。v 數(shù)據(jù)倉庫的建設(shè)是一個系統(tǒng)工程,是一個不斷建立、發(fā)展、完善的過數(shù)據(jù)倉庫的建設(shè)是一個系統(tǒng)工程,是一個不斷建立、發(fā)展、完善的過程,通常需要較長的時間。這就要求各企業(yè)對整個系統(tǒng)的建設(shè)提出一程,通常需要較長的時間。這就要求各企業(yè)對整個系統(tǒng)的建設(shè)提出一個全面、清晰的遠(yuǎn)景規(guī)劃及技術(shù)實施藍(lán)圖,將整個項目的實施分成若個全面、清晰的遠(yuǎn)景規(guī)劃及技術(shù)實施藍(lán)圖,將整個項目的實施分成若干個階段,以干個階段,以“總體規(guī)劃、分步實施、步步見效總體規(guī)劃、分步實施、步步見效

35、”為原則,不僅可迅為原則,不僅可迅速從當(dāng)前投資中獲得收益,而且可以在已有的基礎(chǔ)上,結(jié)合其他已有速從當(dāng)前投資中獲得收益,而且可以在已有的基礎(chǔ)上,結(jié)合其他已有的業(yè)務(wù)系統(tǒng),逐步構(gòu)建起完整、健壯的數(shù)據(jù)倉庫系統(tǒng)。的業(yè)務(wù)系統(tǒng),逐步構(gòu)建起完整、健壯的數(shù)據(jù)倉庫系統(tǒng)。 數(shù)據(jù)倉庫的項目實施數(shù)據(jù)倉庫的項目實施v 數(shù)據(jù)倉庫提供了有效地存取和管理大量數(shù)據(jù)的理想環(huán)境,數(shù)據(jù)倉庫提供了有效地存取和管理大量數(shù)據(jù)的理想環(huán)境,而數(shù)據(jù)倉庫系統(tǒng)的建立是一個由數(shù)據(jù)驅(qū)動、以技術(shù)支撐并而數(shù)據(jù)倉庫系統(tǒng)的建立是一個由數(shù)據(jù)驅(qū)動、以技術(shù)支撐并滿足應(yīng)用需求的不斷增長和完善的開發(fā)過程。因此數(shù)據(jù)倉滿足應(yīng)用需求的不斷增長和完善的開發(fā)過程。因此數(shù)據(jù)倉庫的建立

36、可以從數(shù)據(jù)、技術(shù)和應(yīng)用三方面展開。庫的建立可以從數(shù)據(jù)、技術(shù)和應(yīng)用三方面展開。數(shù)據(jù)倉庫的項目實施數(shù)據(jù)倉庫的項目實施9.3.1 9.3.1 項目計劃項目計劃 v 項目計劃是指定義創(chuàng)建數(shù)據(jù)倉庫的項目目標(biāo)和確定項目范圍,包括對項目計劃是指定義創(chuàng)建數(shù)據(jù)倉庫的項目目標(biāo)和確定項目范圍,包括對項目計劃的評估和流程的調(diào)整。項目計劃的評估和流程的調(diào)整。v 數(shù)據(jù)倉庫在構(gòu)建之初應(yīng)明確其主題,主題是一個在較高層次將數(shù)據(jù)歸數(shù)據(jù)倉庫在構(gòu)建之初應(yīng)明確其主題,主題是一個在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個主題對應(yīng)一個宏觀的分析領(lǐng)域,針對具體決策需求類的標(biāo)準(zhǔn),每一個主題對應(yīng)一個宏觀的分析領(lǐng)域,針對具體決策需求可細(xì)化為多個主題表,具

37、體來說就是確定決策涉及的范圍和所要解決可細(xì)化為多個主題表,具體來說就是確定決策涉及的范圍和所要解決的問題。但是主題的確定必須建立在現(xiàn)有聯(lián)機(jī)事務(wù)處理(的問題。但是主題的確定必須建立在現(xiàn)有聯(lián)機(jī)事務(wù)處理(OLTPOLTP)系統(tǒng))系統(tǒng)基礎(chǔ)上,否則按此主題設(shè)計的數(shù)據(jù)倉庫存儲結(jié)構(gòu)將成為一個空殼,缺基礎(chǔ)上,否則按此主題設(shè)計的數(shù)據(jù)倉庫存儲結(jié)構(gòu)將成為一個空殼,缺少可存儲的數(shù)據(jù)。但一味注重少可存儲的數(shù)據(jù)。但一味注重OLTPOLTP數(shù)據(jù)信息,也將導(dǎo)致迷失數(shù)據(jù)提取數(shù)據(jù)信息,也將導(dǎo)致迷失數(shù)據(jù)提取方向,偏離主題。需要在方向,偏離主題。需要在OLTPOLTP數(shù)據(jù)和主題之間找到一個數(shù)據(jù)和主題之間找到一個“平衡點平衡點”,根據(jù)

38、主題的需要完整地收集數(shù)據(jù),這樣構(gòu)建的數(shù)據(jù)倉庫才能滿足決策根據(jù)主題的需要完整地收集數(shù)據(jù),這樣構(gòu)建的數(shù)據(jù)倉庫才能滿足決策和分析的需要。和分析的需要。v 確定范圍的主要任務(wù)包括了解方向性分析處理需求,確定信息需求,確定范圍的主要任務(wù)包括了解方向性分析處理需求,確定信息需求,確定數(shù)據(jù)覆蓋范圍。方向性需求包括:決策類型、決策者感興趣的問確定數(shù)據(jù)覆蓋范圍。方向性需求包括:決策類型、決策者感興趣的問題(或?qū)ο螅┑取T诖_定范圍時應(yīng)該重視的因素是必須用戶驅(qū)動和數(shù)題(或?qū)ο螅┑?。在確定范圍時應(yīng)該重視的因素是必須用戶驅(qū)動和數(shù)據(jù)驅(qū)動相結(jié)合,同時可以借鑒國內(nèi)外已有的成功經(jīng)驗。據(jù)驅(qū)動相結(jié)合,同時可以借鑒國內(nèi)外已有的成功經(jīng)

39、驗。 9.3.2 9.3.2 業(yè)務(wù)需求分析業(yè)務(wù)需求分析 v 業(yè)務(wù)需求分析是數(shù)據(jù)倉庫中一個很重要的階段,好的業(yè)務(wù)業(yè)務(wù)需求分析是數(shù)據(jù)倉庫中一個很重要的階段,好的業(yè)務(wù)需求分析會使項目成功的機(jī)率大大增加。需求分析會使項目成功的機(jī)率大大增加。v 分析階段主要包括兩個方面的任務(wù)是深入了解數(shù)據(jù)源和分分析階段主要包括兩個方面的任務(wù)是深入了解數(shù)據(jù)源和分析數(shù)據(jù)倉庫系統(tǒng)所包含的主題域及其相互之間的關(guān)系。分析數(shù)據(jù)倉庫系統(tǒng)所包含的主題域及其相互之間的關(guān)系。分析階段必須堅持用戶參與,并且與原有系統(tǒng)開發(fā)或維護(hù)人析階段必須堅持用戶參與,并且與原有系統(tǒng)開發(fā)或維護(hù)人員進(jìn)行深入的溝通。員進(jìn)行深入的溝通。 9.3.3 9.3.3 數(shù)

40、據(jù)線數(shù)據(jù)線 v數(shù)據(jù)線的實施可以分為數(shù)據(jù)倉庫設(shè)計、數(shù)據(jù)預(yù)處數(shù)據(jù)線的實施可以分為數(shù)據(jù)倉庫設(shè)計、數(shù)據(jù)預(yù)處理、數(shù)據(jù)維護(hù)三個步驟,用以滿足對數(shù)據(jù)的有效理、數(shù)據(jù)維護(hù)三個步驟,用以滿足對數(shù)據(jù)的有效組織和管理。組織和管理。 一、數(shù)據(jù)倉庫設(shè)計一、數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫設(shè)計分為模型設(shè)計和物理設(shè)計兩個階段:數(shù)據(jù)倉庫設(shè)計分為模型設(shè)計和物理設(shè)計兩個階段:v模型設(shè)計階段將確定數(shù)據(jù)倉庫系統(tǒng)將來的藍(lán)圖。模型設(shè)計階段將確定數(shù)據(jù)倉庫系統(tǒng)將來的藍(lán)圖。模型設(shè)計主要包括四個基本步驟:確定合適的主模型設(shè)計主要包括四個基本步驟:確定合適的主題、劃分粒度層次、設(shè)計維表和設(shè)計事實表。題、劃分粒度層次、設(shè)計維表和設(shè)計事實表。v物理設(shè)計的主要任務(wù)是

41、定義支持模型設(shè)計所必須物理設(shè)計的主要任務(wù)是定義支持模型設(shè)計所必須得物理結(jié)構(gòu),其過程包括三個方面:確定物理存得物理結(jié)構(gòu),其過程包括三個方面:確定物理存儲結(jié)構(gòu)、確定索引策略、確定存儲分配。儲結(jié)構(gòu)、確定索引策略、確定存儲分配。 粒度問題粒度問題v 粒度問題是設(shè)計數(shù)據(jù)倉庫的一個最重要方面。粒度問題是設(shè)計數(shù)據(jù)倉庫的一個最重要方面。v 粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度級就越?。幌喾?,細(xì)化程度的級別。細(xì)化程度越高,粒度級就越?。幌喾?,細(xì)化程度越低,粒度級就越大。度越低,粒度級就越大。v 在數(shù)據(jù)倉庫環(huán)境中粒度之所以

42、是主要的設(shè)計問題,是因為在數(shù)據(jù)倉庫環(huán)境中粒度之所以是主要的設(shè)計問題,是因為它深深地影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影它深深地影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答的查詢類型。在數(shù)據(jù)倉庫中的數(shù)據(jù)量響數(shù)據(jù)倉庫所能回答的查詢類型。在數(shù)據(jù)倉庫中的數(shù)據(jù)量大小與查詢的詳細(xì)程度之間要作出權(quán)衡。大小與查詢的詳細(xì)程度之間要作出權(quán)衡。數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -模型設(shè)計模型設(shè)計ER圖數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -模型設(shè)計模型設(shè)計三維透視圖數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -模型設(shè)計模型設(shè)計v ERER圖中所示的數(shù)據(jù)模型中有四個相互關(guān)聯(lián)的簡單實體。如果數(shù)據(jù)庫設(shè)圖中所示的數(shù)據(jù)模型中有四個相互關(guān)聯(lián)的簡單實體。如果數(shù)據(jù)

43、庫設(shè)計只需要考慮數(shù)據(jù)模型的話,可以推斷所有的實體都是平等關(guān)系。換計只需要考慮數(shù)據(jù)模型的話,可以推斷所有的實體都是平等關(guān)系。換言之,從數(shù)據(jù)模型的設(shè)計角度來看,所有的實體之間的關(guān)系是對等的。言之,從數(shù)據(jù)模型的設(shè)計角度來看,所有的實體之間的關(guān)系是對等的。v 僅僅從數(shù)據(jù)模型的角度來著手設(shè)計數(shù)據(jù)倉庫會產(chǎn)生一種僅僅從數(shù)據(jù)模型的角度來著手設(shè)計數(shù)據(jù)倉庫會產(chǎn)生一種“平面平面”效應(yīng)。效應(yīng)。實際上,由于種種原因,數(shù)據(jù)倉庫的實體絕不會是相互對等的。一些實際上,由于種種原因,數(shù)據(jù)倉庫的實體絕不會是相互對等的。一些實體,要求有它們自己的特別處理。實體,要求有它們自己的特別處理。v 為了明確為什么從數(shù)據(jù)模型的角度看一個組織

44、中的數(shù)據(jù)和關(guān)系會發(fā)生為了明確為什么從數(shù)據(jù)模型的角度看一個組織中的數(shù)據(jù)和關(guān)系會發(fā)生失真,根據(jù)在數(shù)據(jù)倉庫中建立實體時將載入數(shù)據(jù)實體的數(shù)據(jù)量,我們失真,根據(jù)在數(shù)據(jù)倉庫中建立實體時將載入數(shù)據(jù)實體的數(shù)據(jù)量,我們來考慮數(shù)據(jù)倉庫中數(shù)據(jù)的一種三維透視。三維透視圖表明了這種三維來考慮數(shù)據(jù)倉庫中數(shù)據(jù)的一種三維透視。三維透視圖表明了這種三維透視。代表供應(yīng)商、客戶、產(chǎn)品、發(fā)貨的實體被稀疏地載入,而代表透視。代表供應(yīng)商、客戶、產(chǎn)品、發(fā)貨的實體被稀疏地載入,而代表訂單的實體則大量地載入。將會有大量的數(shù)據(jù)載入代表訂單實體的表訂單的實體則大量地載入。將會有大量的數(shù)據(jù)載入代表訂單實體的表中,而在代表別的實體的表中載入的數(shù)據(jù)量則

45、相對較少。由于大量的中,而在代表別的實體的表中載入的數(shù)據(jù)量則相對較少。由于大量的數(shù)據(jù)要載入訂單實體,因此需要一種不同的設(shè)計處理方式。數(shù)據(jù)要載入訂單實體,因此需要一種不同的設(shè)計處理方式。數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -星型模型星型模型v 用來管理數(shù)據(jù)倉庫中載入某個實體的大量數(shù)據(jù)的設(shè)計結(jié)構(gòu)通常用用來管理數(shù)據(jù)倉庫中載入某個實體的大量數(shù)據(jù)的設(shè)計結(jié)構(gòu)通常用“星型連接星型連接”。 v 首先確立主題,訂單是有大量數(shù)據(jù)的重要主題,那么首先確立主題,訂單是有大量數(shù)據(jù)的重要主題,那么“訂單訂單”位位于星型連接的中央。于星型連接的中央。v 在其周圍分別是在其周圍分別是“產(chǎn)品產(chǎn)品”、“客戶客戶”、“供應(yīng)商供應(yīng)商”和和“發(fā)貨發(fā)貨

46、”實實體。這些實體僅僅會產(chǎn)生不大的數(shù)據(jù)量。體。這些實體僅僅會產(chǎn)生不大的數(shù)據(jù)量。v 星型連接中央的星型連接中央的“訂單訂單”被稱作是被稱作是“事實表事實表”,而其周圍的其他,而其周圍的其他實體實體“產(chǎn)品產(chǎn)品”、“客戶客戶”、“供應(yīng)商供應(yīng)商”和和“發(fā)貨發(fā)貨”則被稱為則被稱為“維維表表”。v 事實表包含了事實表包含了“訂單訂單”獨有的標(biāo)識數(shù)據(jù),也包含了訂單本身的獨獨有的標(biāo)識數(shù)據(jù),也包含了訂單本身的獨有數(shù)據(jù)。事實表還包含了指向其周圍的表有數(shù)據(jù)。事實表還包含了指向其周圍的表維表的外鍵。維表的外鍵。數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -星形模型星形模型數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -星型模型星型模型v創(chuàng)建和使用星型連接的一個有趣的

47、方面是,在很創(chuàng)建和使用星型連接的一個有趣的方面是,在很多情況下,文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開的。多情況下,文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開的。v文本數(shù)據(jù)常出現(xiàn)在維表中,數(shù)值數(shù)據(jù)常出現(xiàn)在事文本數(shù)據(jù)常出現(xiàn)在維表中,數(shù)值數(shù)據(jù)常出現(xiàn)在事實表中,這種劃分似乎在所有情況都會發(fā)生。實表中,這種劃分似乎在所有情況都會發(fā)生。數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -星型模型星型模型數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -星型模型星型模型v 創(chuàng)建和使用星型連接的好處是可以為決策支持系統(tǒng)的處理優(yōu)化數(shù)據(jù)。創(chuàng)建和使用星型連接的好處是可以為決策支持系統(tǒng)的處理優(yōu)化數(shù)據(jù)。通過數(shù)據(jù)預(yù)連接和建立有選擇的數(shù)據(jù)冗余,設(shè)計者為訪問和分析過程通過數(shù)據(jù)預(yù)連接和建立有選擇的數(shù)據(jù)冗余,設(shè)

48、計者為訪問和分析過程大大簡化了數(shù)據(jù),這正是數(shù)據(jù)倉庫所需要的。大大簡化了數(shù)據(jù),這正是數(shù)據(jù)倉庫所需要的。v 如果不是在決策支持系統(tǒng)數(shù)據(jù)倉庫環(huán)境中使用星型連接,則會有很多如果不是在決策支持系統(tǒng)數(shù)據(jù)倉庫環(huán)境中使用星型連接,則會有很多的缺點。在決策支持系統(tǒng)數(shù)據(jù)倉庫環(huán)境以外,常有數(shù)據(jù)更新,而且數(shù)的缺點。在決策支持系統(tǒng)數(shù)據(jù)倉庫環(huán)境以外,常有數(shù)據(jù)更新,而且數(shù)據(jù)關(guān)系的管理要在秒的一級上進(jìn)行。在這種情況下星型連接在創(chuàng)建和據(jù)關(guān)系的管理要在秒的一級上進(jìn)行。在這種情況下星型連接在創(chuàng)建和維護(hù)上就是很麻煩的數(shù)據(jù)結(jié)構(gòu)。但是由于數(shù)據(jù)倉庫是一個裝載維護(hù)上就是很麻煩的數(shù)據(jù)結(jié)構(gòu)。但是由于數(shù)據(jù)倉庫是一個裝載訪問訪問環(huán)境,它包括很多歷史

49、數(shù)據(jù),且有大量的數(shù)據(jù)要管理,因此,星型連環(huán)境,它包括很多歷史數(shù)據(jù),且有大量的數(shù)據(jù)要管理,因此,星型連接的數(shù)據(jù)結(jié)構(gòu)是十分理想的。接的數(shù)據(jù)結(jié)構(gòu)是十分理想的。數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -雪花模型雪花模型v 雪花模型雪花模型 。雪花模型是對星型模型的擴(kuò)展,每個維表都可雪花模型是對星型模型的擴(kuò)展,每個維表都可以向外連接到多個詳細(xì)類別表以向外連接到多個詳細(xì)類別表 。v 雪花模型對星型模型的維表進(jìn)一步層次化,原有的各維表雪花模型對星型模型的維表進(jìn)一步層次化,原有的各維表可能被擴(kuò)展為小的事實表,形成一些局部的可能被擴(kuò)展為小的事實表,形成一些局部的“層次層次”區(qū)域。區(qū)域。在維表上連接對事實表進(jìn)行詳細(xì)描述的詳細(xì)類別表,

50、達(dá)到在維表上連接對事實表進(jìn)行詳細(xì)描述的詳細(xì)類別表,達(dá)到了縮小事實表,提高查詢效率的目的。了縮小事實表,提高查詢效率的目的。數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -雪花模型雪花模型數(shù)據(jù)倉庫數(shù)據(jù)倉庫- -雪花模型雪花模型v 雪花模型的優(yōu)點是:通過最大限度的減少數(shù)據(jù)存儲量以及雪花模型的優(yōu)點是:通過最大限度的減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。聯(lián)合較小的維表來改善查詢性能。v 雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復(fù)雜性,但這種方式可以使系統(tǒng)進(jìn)一步專業(yè)化和實用化,的復(fù)雜性,但這種方式可以使系統(tǒng)進(jìn)一步專業(yè)化和實用化,同時降低了系統(tǒng)的通用程度。同時

51、降低了系統(tǒng)的通用程度。 二、數(shù)據(jù)預(yù)處理二、數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是數(shù)據(jù)倉庫設(shè)計工程中非常重要的過程,它數(shù)據(jù)預(yù)處理是數(shù)據(jù)倉庫設(shè)計工程中非常重要的過程,它由三個主要步驟組成:抽?。ㄓ扇齻€主要步驟組成:抽?。‥xtractionExtraction)、轉(zhuǎn)換)、轉(zhuǎn)換(Transformation)(Transformation)、加載、加載(Load)(Load),簡稱,簡稱ETLETL。v 抽取過程將會暴露源系統(tǒng)中數(shù)據(jù)的質(zhì)量問題。由于數(shù)抽取過程將會暴露源系統(tǒng)中數(shù)據(jù)的質(zhì)量問題。由于數(shù)據(jù)的質(zhì)量嚴(yán)重影響著數(shù)據(jù)倉庫的可信程度,因此在數(shù)據(jù)的質(zhì)量嚴(yán)重影響著數(shù)據(jù)倉庫的可信程度,因此在數(shù)據(jù)預(yù)處理過程中,需要提高數(shù)據(jù)質(zhì)

52、量,讓數(shù)據(jù)倉庫使據(jù)預(yù)處理過程中,需要提高數(shù)據(jù)質(zhì)量,讓數(shù)據(jù)倉庫使用真正有效的數(shù)據(jù)。用真正有效的數(shù)據(jù)。v 目前有很多工具可以幫助用戶完成數(shù)據(jù)抽取、轉(zhuǎn)換和目前有很多工具可以幫助用戶完成數(shù)據(jù)抽取、轉(zhuǎn)換和裝載工作,但是還有相當(dāng)一部分工作是要手工編程來裝載工作,但是還有相當(dāng)一部分工作是要手工編程來完成的。完成的。三、數(shù)據(jù)維護(hù)三、數(shù)據(jù)維護(hù)v 數(shù)據(jù)倉庫規(guī)模一般都很大,從建立之初就要保證它的可數(shù)據(jù)倉庫規(guī)模一般都很大,從建立之初就要保證它的可管理性,一個企業(yè)可能建立幾個數(shù)據(jù)倉庫或數(shù)據(jù)集市,但管理性,一個企業(yè)可能建立幾個數(shù)據(jù)倉庫或數(shù)據(jù)集市,但他們可共用一個元數(shù)據(jù)庫對其進(jìn)行管理。他們可共用一個元數(shù)據(jù)庫對其進(jìn)行管理。v

53、 首先從元數(shù)據(jù)庫查詢所需元數(shù)據(jù),然后進(jìn)行數(shù)據(jù)倉庫更新首先從元數(shù)據(jù)庫查詢所需元數(shù)據(jù),然后進(jìn)行數(shù)據(jù)倉庫更新作業(yè),更新結(jié)束后,將更新情況記錄于元數(shù)據(jù)庫中。當(dāng)數(shù)作業(yè),更新結(jié)束后,將更新情況記錄于元數(shù)據(jù)庫中。當(dāng)數(shù)據(jù)源的運行環(huán)境、結(jié)構(gòu)及目標(biāo)數(shù)據(jù)的維護(hù)計劃發(fā)生變化時,據(jù)源的運行環(huán)境、結(jié)構(gòu)及目標(biāo)數(shù)據(jù)的維護(hù)計劃發(fā)生變化時,需要修改元數(shù)據(jù)。需要修改元數(shù)據(jù)。v 元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分,元數(shù)據(jù)的質(zhì)量決定整元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分,元數(shù)據(jù)的質(zhì)量決定整個數(shù)據(jù)倉庫的質(zhì)量。個數(shù)據(jù)倉庫的質(zhì)量。 9.3.4 9.3.4 技術(shù)線技術(shù)線 v 技術(shù)線的實施分為技術(shù)選擇和產(chǎn)品選擇兩個步驟。如何采用合理有效的技術(shù)線的實施分為

54、技術(shù)選擇和產(chǎn)品選擇兩個步驟。如何采用合理有效的技術(shù)是實現(xiàn)一個好的數(shù)據(jù)倉庫系統(tǒng)的基本條件。技術(shù)是實現(xiàn)一個好的數(shù)據(jù)倉庫系統(tǒng)的基本條件。v 在數(shù)據(jù)倉庫建立的過程中會遇到一些新的特定的問題,如管理大量數(shù)據(jù)在數(shù)據(jù)倉庫建立的過程中會遇到一些新的特定的問題,如管理大量數(shù)據(jù)的需求,如何對數(shù)據(jù)進(jìn)行快速和方便的訪問等。為解決這些問題人們采的需求,如何對數(shù)據(jù)進(jìn)行快速和方便的訪問等。為解決這些問題人們采用了新的技術(shù)。技術(shù)體系選擇必須從為這些技術(shù)建立全局的結(jié)構(gòu)框架和用了新的技術(shù)。技術(shù)體系選擇必須從為這些技術(shù)建立全局的結(jié)構(gòu)框架和視角出發(fā),選擇中需要同時考慮三個因素:商業(yè)需求、當(dāng)前的技術(shù)環(huán)境、視角出發(fā),選擇中需要同時考慮三個因素:商業(yè)需求、當(dāng)前的技術(shù)環(huán)境、計劃的策略技術(shù)方向。計劃的策略技術(shù)方向。v 技術(shù)體系確定以后需要選擇實現(xiàn)數(shù)據(jù)倉庫應(yīng)用的各種產(chǎn)品,包括硬件平技術(shù)體系確定以后需要選擇實現(xiàn)數(shù)據(jù)倉庫應(yīng)用的各種產(chǎn)品,包括硬件平臺、臺、ETL工具、工具、OLAP服務(wù)器、數(shù)據(jù)展現(xiàn)工具等,并進(jìn)行產(chǎn)品的安裝和服務(wù)器、數(shù)據(jù)展現(xiàn)工具等,并進(jìn)行產(chǎn)品的安裝和測試?,F(xiàn)在市場上的數(shù)據(jù)倉庫產(chǎn)品有很多,數(shù)據(jù)倉庫廠商通常都提出了測試。現(xiàn)在市場上的數(shù)據(jù)倉庫產(chǎn)品有很多,數(shù)據(jù)倉庫廠商通常都提出了自己的一系列解決方案,限于篇幅,在這里不再

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論