第一講 數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)_第1頁(yè)
第一講 數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)_第2頁(yè)
第一講 數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)_第3頁(yè)
第一講 數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)_第4頁(yè)
第一講 數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩61頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一講

數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)姓名:陳令江QQ:453579383電話mail:chenlingjiang@內(nèi)容1、數(shù)據(jù)倉(cāng)庫(kù)的概念、特點(diǎn)與組成2、OLAP的概念、特點(diǎn)與類(lèi)型3、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生、發(fā)展與未來(lái)6、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理數(shù)據(jù)倉(cāng)庫(kù)4、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施問(wèn)題什么是數(shù)據(jù)倉(cāng)庫(kù)?為什么要建數(shù)據(jù)倉(cāng)庫(kù)?建數(shù)據(jù)倉(cāng)庫(kù)能帶來(lái)哪些好處?1.1什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。——數(shù)據(jù)倉(cāng)庫(kù)之父[WilliamH.Inmon]1.1.1數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)(面向主題的)生產(chǎn)系統(tǒng)操作型數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)操作型數(shù)據(jù)庫(kù)是面向特殊處理任務(wù),各個(gè)系統(tǒng)之間各自分離數(shù)據(jù)倉(cāng)庫(kù)是按照一定的主題域進(jìn)行組織。一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)銷(xiāo)售系統(tǒng)財(cái)務(wù)系統(tǒng)客戶1.1.2數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)(集成的)面向特定應(yīng)用集成的每一個(gè)數(shù)據(jù)庫(kù)面向特定的應(yīng)用,各類(lèi)應(yīng)用(包括其相關(guān)的數(shù)據(jù)庫(kù))之間相互獨(dú)立數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)面向整個(gè)企業(yè)的分析處理,經(jīng)營(yíng)分析系統(tǒng)中的數(shù)據(jù)是已經(jīng)集成了的,消除了數(shù)據(jù)的不一致性操作型數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)1.1.3數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)(相對(duì)穩(wěn)定的)實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化定期加載,加載后的數(shù)據(jù)極少更新,在某個(gè)時(shí)間段內(nèi)保持相對(duì)穩(wěn)定操作型數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)modifydeleteinsertupdateLoad/Update1.1.4數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)(反應(yīng)歷史變化的)主要關(guān)心當(dāng)前數(shù)據(jù)通常包含歷史數(shù)據(jù)操作型數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)1.2對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的理解數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)用于支持管理和決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的面向交易的操作型數(shù)據(jù)庫(kù);數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù)。與其他數(shù)據(jù)庫(kù)應(yīng)用不同的是,數(shù)據(jù)倉(cāng)庫(kù)更像一種過(guò)程,對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過(guò)程。1.3數(shù)據(jù)倉(cāng)庫(kù)的組成數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù);數(shù)據(jù)抽取工具;

OLAP服務(wù)器;元數(shù)據(jù)(Metadata);數(shù)據(jù)展現(xiàn)工具;數(shù)據(jù)集市(DataMarts);數(shù)據(jù)倉(cāng)庫(kù)管理;信息發(fā)布系統(tǒng)。1.3.1數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心,是數(shù)據(jù)信息存放的地方,對(duì)數(shù)據(jù)提供存取和檢索支持。相對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)來(lái)說(shuō),其突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。數(shù)據(jù)庫(kù)OracleDB2SQLServerSybaseMySQL……數(shù)據(jù)庫(kù)內(nèi)部性能參數(shù)有一些差異:傳統(tǒng)數(shù)據(jù)庫(kù):注重增、刪、改、查的綜合性能。數(shù)據(jù)倉(cāng)庫(kù):以查詢、統(tǒng)計(jì)性能為優(yōu)先重點(diǎn)。1.3.2數(shù)據(jù)抽取工具數(shù)據(jù)抽取工具是把數(shù)據(jù)從各種各樣的存儲(chǔ)環(huán)境中提取出來(lái),進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉(cāng)庫(kù)內(nèi)。對(duì)各種不同數(shù)據(jù)的存儲(chǔ)方式的訪問(wèn)能力是數(shù)據(jù)抽取工具的關(guān)鍵,可以運(yùn)用高級(jí)語(yǔ)言編寫(xiě)的程序、操作系統(tǒng)腳本、批命令腳本或SQL腳本等方式,訪問(wèn)不同的數(shù)據(jù)環(huán)境。數(shù)據(jù)轉(zhuǎn)換通常包括如下內(nèi)容:刪除對(duì)決策分析沒(méi)有意義的數(shù)據(jù)。轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義。計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù)。填補(bǔ)缺失數(shù)據(jù)。統(tǒng)一不同的數(shù)據(jù)定義方式。1.3.3OLAP服務(wù)器OLAP服務(wù)器是用于存儲(chǔ)多“維”數(shù)據(jù)的,存儲(chǔ)結(jié)構(gòu)類(lèi)似與立方體的結(jié)構(gòu),提供給用戶快速的數(shù)據(jù)分析支持。1.3.4元數(shù)據(jù)元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),全面描述了數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù),這些數(shù)據(jù)是怎么得到,數(shù)據(jù)的來(lái)源是哪里等。簡(jiǎn)言之:元數(shù)據(jù)就是數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)是面向設(shè)計(jì)和管理人員的,包括數(shù)據(jù)源信息、數(shù)據(jù)結(jié)構(gòu)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則等。業(yè)務(wù)元數(shù)據(jù)是面向業(yè)務(wù)使用人員的,主要是從業(yè)務(wù)的視角來(lái)描述業(yè)務(wù)主題。1.3.5數(shù)據(jù)展現(xiàn)工具數(shù)據(jù)展現(xiàn)工具為用戶訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)提供的手段,如:數(shù)據(jù)查詢和報(bào)表工具、應(yīng)用開(kāi)發(fā)工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具等。數(shù)據(jù)分析工具報(bào)表展現(xiàn)工具1.3.6數(shù)據(jù)集市數(shù)據(jù)展現(xiàn)工具為用戶訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)提供的手段,如:數(shù)據(jù)查詢和報(bào)表工具、應(yīng)用開(kāi)發(fā)工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具等。數(shù)據(jù)集市的劃分有很多中,如按照時(shí)間劃分(07年、08年、09年等)按照地域劃分(廣州、深圳、珠海等)按照業(yè)務(wù)劃分(生產(chǎn)、銷(xiāo)售、財(cái)務(wù)等)……1.3.7數(shù)據(jù)倉(cāng)庫(kù)管理數(shù)據(jù)倉(cāng)庫(kù)管理包括安全與權(quán)限的管理、數(shù)據(jù)更新的跟蹤、數(shù)據(jù)質(zhì)量的檢查、元數(shù)據(jù)的管理和更新、數(shù)據(jù)倉(cāng)庫(kù)使用狀態(tài)的監(jiān)測(cè)與審計(jì)、數(shù)據(jù)復(fù)制與刪除、數(shù)據(jù)分割與分發(fā)、數(shù)據(jù)備份與恢復(fù)、數(shù)據(jù)存儲(chǔ)管理等。數(shù)據(jù)倉(cāng)庫(kù)1.3.8信息發(fā)布系統(tǒng)信息發(fā)布系統(tǒng)是把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶。基于Web的信息發(fā)布系統(tǒng)是當(dāng)前比較流行的多用戶訪問(wèn)的最有效方法。數(shù)據(jù)倉(cāng)庫(kù)問(wèn)題什么是數(shù)據(jù)倉(cāng)庫(kù)?為什么要建數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)集成問(wèn)題數(shù)據(jù)動(dòng)態(tài)集成問(wèn)題歷史數(shù)據(jù)問(wèn)題數(shù)據(jù)的綜合問(wèn)題

建數(shù)據(jù)倉(cāng)庫(kù)能帶來(lái)哪些好處?公司領(lǐng)導(dǎo)層:了解公司全貌,輔助進(jìn)行戰(zhàn)略決策中間管理層:掌控部門(mén)業(yè)務(wù)情況,協(xié)助制定管理策略基層管理人員:掌握基層單位或個(gè)人績(jī)效,實(shí)施有效管理內(nèi)容1、數(shù)據(jù)倉(cāng)庫(kù)的概念、特點(diǎn)與組成2、OLAP的概念、特點(diǎn)與類(lèi)型3、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生、發(fā)展與未來(lái)6、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理數(shù)據(jù)倉(cāng)庫(kù)4、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施2.1什么是OLAP

OLAP(OnlineAnalysisProcess)是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析。通過(guò)對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。對(duì)OLAP的理解OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。2.2OLAP基礎(chǔ)概念(一)維度(Dimension)人們觀察數(shù)據(jù)的特定角度,是考慮問(wèn)題時(shí)的一類(lèi)屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。量度(Measure)具體的指標(biāo)值,如客戶數(shù)、收入等層次(Hierarchy)人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:年->季度->月份->日期)。成員(Member)維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。2.2OLAP基礎(chǔ)概念(二)多維分析多維分析是只對(duì)以“維”形式組織起來(lái)的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片(slice)、切塊(dice)、鉆?。╠rilldown和drillup)和旋轉(zhuǎn)(pivot)等各種分析操作,以求剖析數(shù)據(jù),使用戶能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),從而深入理解多維數(shù)據(jù)集中的信息。2.3OLTP與OLAP的比較OLTPOLAP用戶操作人員、基層管理人員決策人員、高級(jí)管理人員功能日常操作型事務(wù)處理分析決策設(shè)計(jì)目標(biāo)面向應(yīng)用面向主題數(shù)據(jù)特點(diǎn)當(dāng)前的、最新的、細(xì)節(jié)的、二維的、分立的歷史的、聚集的、維多的、集成的、統(tǒng)一的存取規(guī)模通常一次讀或?qū)憯?shù)十條記錄可能讀取百萬(wàn)條以上記錄工作單元一個(gè)事務(wù)一個(gè)復(fù)雜查詢用戶數(shù)通常是成千上萬(wàn)個(gè)用戶可能只有幾十個(gè)或上百的用戶數(shù)據(jù)庫(kù)大小通常在GB級(jí)(100MB~1GB)在TB級(jí)(100GB~100TB)2.4OLAP特性快速性用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反應(yīng)??煞治鲂設(shè)LAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。多維性多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。信息性不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。2.5OLAP類(lèi)型ROLAP結(jié)構(gòu)MOLAP結(jié)構(gòu)

ROLAP(RelationOLAP):關(guān)系型OLAP,數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,查詢方便靈活。

MOLAP(Multi-dimensionOLAP):多維OLAP,數(shù)據(jù)采用立方體的方式,獨(dú)立存儲(chǔ),查詢效率高。

HOLAP(HyperOLAP):混合型OLAP,也就是ROLAP和MOLAP的聯(lián)合體。分為三種類(lèi)型:ROLAP、MOLAP、HOLAPHOLAP結(jié)構(gòu)2.6ROLTP與MOLAP的比較ROLTPMOLAP優(yōu)點(diǎn)

沒(méi)有大小限制現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)的技術(shù)可以沿用可以通過(guò)SQL實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的存儲(chǔ)現(xiàn)有關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)對(duì)OLAP做了很多優(yōu)化,包括并行存儲(chǔ)、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL

的OLAP擴(kuò)展(cube,rollup)等大大提高ROALP的速度

性能好、響應(yīng)速度快專(zhuān)為OLAP所設(shè)計(jì)持高性能的決策支持計(jì)算復(fù)雜的跨維計(jì)算多用戶的讀寫(xiě)操作行級(jí)的計(jì)算

缺點(diǎn)

一般比MDD響應(yīng)速度慢不支持有關(guān)預(yù)計(jì)算的讀寫(xiě)操作SQL無(wú)法完成部分計(jì)算無(wú)法完成多行的計(jì)算無(wú)法完成維之間的計(jì)算

增加系統(tǒng)復(fù)雜度,增加系統(tǒng)培訓(xùn)與維護(hù)費(fèi)用受操作系統(tǒng)平臺(tái)中文件大小的限制,難以達(dá)到TB

級(jí)(只能10~20G)需要進(jìn)行預(yù)計(jì)算,可能導(dǎo)致數(shù)據(jù)爆炸

無(wú)法支持維的動(dòng)態(tài)變化缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問(wèn)的標(biāo)準(zhǔn)

內(nèi)容1、數(shù)據(jù)倉(cāng)庫(kù)的概念、特點(diǎn)與組成2、OLAP的概念、特點(diǎn)與類(lèi)型3、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生、發(fā)展與未來(lái)6、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理數(shù)據(jù)倉(cāng)庫(kù)4、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施3.1數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)獨(dú)立的數(shù)據(jù)集市體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)+數(shù)據(jù)集市體系結(jié)構(gòu)實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)3.2獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)3.2獨(dú)立的數(shù)據(jù)集市體系結(jié)構(gòu)3.3數(shù)據(jù)倉(cāng)庫(kù)+數(shù)據(jù)集市體系結(jié)構(gòu)3.4實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)3.5某實(shí)際項(xiàng)目的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)3.6數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的比較數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市范圍應(yīng)用獨(dú)立特定的DSS應(yīng)用集中式、企業(yè)級(jí)用戶域的離散化規(guī)劃的可能是臨時(shí)組織的(無(wú)規(guī)劃)數(shù)據(jù)歷史的、詳細(xì)的、概括的一些歷史的、詳細(xì)的、概括的輕微不規(guī)范化高度不規(guī)范化主題多個(gè)主題用戶關(guān)心的某一個(gè)中心主題源多個(gè)內(nèi)部和外部源很少的內(nèi)部和外部源其它特征面向數(shù)據(jù)的、長(zhǎng)期的、大的面向工程的、短期的、有小到達(dá)單一的復(fù)雜結(jié)構(gòu)多、半復(fù)雜性結(jié)構(gòu)內(nèi)容1、數(shù)據(jù)倉(cāng)庫(kù)的概念、特點(diǎn)與組成2、OLAP的概念、特點(diǎn)與類(lèi)型3、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生、發(fā)展與未來(lái)6、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理數(shù)據(jù)倉(cāng)庫(kù)4、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施4.1數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的實(shí)施數(shù)據(jù)倉(cāng)庫(kù)實(shí)施中的三個(gè)關(guān)鍵環(huán)節(jié)數(shù)據(jù)抽取;數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)表現(xiàn)4.2數(shù)據(jù)倉(cāng)庫(kù)實(shí)施方法論數(shù)據(jù)倉(cāng)庫(kù)不是簡(jiǎn)單的數(shù)據(jù)或產(chǎn)品堆砌,它是一個(gè)綜合集成解決方案和系統(tǒng)工程。在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過(guò)程中,技術(shù)決策至關(guān)重要,技術(shù)選擇或決策錯(cuò)誤很可能導(dǎo)致項(xiàng)目實(shí)施失敗4.3數(shù)據(jù)倉(cāng)庫(kù)實(shí)施步驟項(xiàng)目啟動(dòng)原型應(yīng)用需求分析LDM設(shè)計(jì)系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)PDM設(shè)計(jì)ETL實(shí)現(xiàn)前端展現(xiàn)定制項(xiàng)目關(guān)閉環(huán)境構(gòu)建系統(tǒng)測(cè)試系統(tǒng)應(yīng)用需求變更分析設(shè)計(jì)實(shí)現(xiàn)4.4數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建方法——自頂向下建造企業(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中心數(shù)據(jù)模型一次性的完成數(shù)據(jù)的重構(gòu)工作最小化數(shù)據(jù)冗余度和不一致性存儲(chǔ)詳細(xì)的歷史數(shù)據(jù)從企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中建造數(shù)據(jù)集市得到大部分的集成數(shù)據(jù)直接依賴于數(shù)據(jù)倉(cāng)庫(kù)的可用性問(wèn)題:建設(shè)中心數(shù)據(jù)模型的必要性和可能性?投資效益的時(shí)間?初始費(fèi)用?4.5數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建方法——自底向上建立部門(mén)數(shù)據(jù)集市限制在一個(gè)主題區(qū)域快速投資收益區(qū)域自治–設(shè)計(jì)的可伸縮性強(qiáng)對(duì)相關(guān)部門(mén)的應(yīng)用容易復(fù)制對(duì)每個(gè)數(shù)據(jù)集市需要數(shù)據(jù)重構(gòu)存在一定的冗余及不一直性逐步擴(kuò)展到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW)把建造EDW作為一個(gè)長(zhǎng)期的目標(biāo)問(wèn)題:數(shù)據(jù)集市的數(shù)據(jù)都是可用的嗎?能生成數(shù)據(jù)模型嗎?如何解決不一致性?4.6常用數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品比較能夠提供完整數(shù)據(jù)倉(cāng)庫(kù)解決方案的廠商主要包括:IBM、Oracle、NCR、Microsoft等。另外,如果考慮到成本因素的話,也可以考慮采用開(kāi)源方案,但這需要對(duì)開(kāi)源產(chǎn)品非常的熟悉,自行完成解決方案的制定。4.6.1數(shù)據(jù)庫(kù)產(chǎn)品比較OracleDB2TeradataSQLServerMySQL硬件平臺(tái)兼容性高中低(專(zhuān)用主機(jī))高高軟件平臺(tái)兼容性高高低(專(zhuān)用系統(tǒng))低(微軟平臺(tái))高開(kāi)放性高中高低高極高(開(kāi)源)性能高高極高中中數(shù)據(jù)規(guī)模大大超大中中小易用性高中高低高高安全性高高高中中建設(shè)成本高高高中極低升級(jí)成本低低高低極低市場(chǎng)占有率高中高低低4.6.2ETL產(chǎn)品比較SSISDataStagePowerCenterOWBKettel平臺(tái)兼容性低高高高高開(kāi)放性高高高中(Oracle平臺(tái)較高)極高(開(kāi)源)性能高高中高中高易用性高中高中高使用成本中高高中低自定義函數(shù)/腳本支持中中中高高調(diào)試/監(jiān)控/斷點(diǎn)/日志高中高中高斷點(diǎn)續(xù)傳支持不支持支持不支持支持Email通知支持支持支持支持支持市場(chǎng)占有率低高高低中服務(wù)支持中高高中中4.6.3報(bào)表產(chǎn)品比較CrystalBrioSSRSReportNetBirt平臺(tái)兼容性高高中高高開(kāi)放性高中高高高(開(kāi)源)性能高中高高高易用性高低高中高報(bào)表類(lèi)型BandBandBandBandBand圖表支持好較好好-好腳本支持好好高較好好輸出格式豐富中高豐富豐富使用成本高高中高低市場(chǎng)占有率高中中低中4.6.4OLAP產(chǎn)品比較EssbaseExpressCognosSSASMondrian平臺(tái)兼容性高高中中高OLAP類(lèi)型MOLAPHOLAPMOLAPROLAP/MOLAPROLAP開(kāi)放性高高中高高(開(kāi)源)性能高中高中中易用性高低高高高安全性高中高中中使用成本高高高中低市場(chǎng)占有率高低中高中-4.6.5展前產(chǎn)品比較BOBrioCognosMicroStrategyPanteho平臺(tái)兼容性高高中中高功能高中高中中高開(kāi)放性高中中中高(開(kāi)源)性能高高高中中易用性高低高高高安全性高高高高高使用成本高高高中低市場(chǎng)占有率高中中低-4.6.6其它數(shù)據(jù)挖掘工具

目前市場(chǎng)上數(shù)據(jù)挖掘工具非常多,世界上各大BI廠商都提供了自己的數(shù)據(jù)挖掘工具,不過(guò),從在挖掘領(lǐng)域的影響力和市場(chǎng)占有率來(lái)講,無(wú)疑是SAS和SPSS兩家獨(dú)大,產(chǎn)品也非常豐富,各種常用的挖掘算法和挖掘手段都能提供,主要還是看使用人員的熟練程度以及對(duì)業(yè)務(wù)的理解力。另外,開(kāi)源領(lǐng)域也有一些挖掘工具,如WEKA,是新西蘭大學(xué)的數(shù)據(jù)挖掘產(chǎn)品,具體完整和先進(jìn)的算法,不足在對(duì)于大數(shù)據(jù)量的處理比較慢和對(duì)非專(zhuān)業(yè)人員的可用性不好2個(gè)方面。

元數(shù)據(jù)管理工具

目前市場(chǎng)上主流的元數(shù)據(jù)管理工具包括:DAG公司的MetaCenter、CA公司的Repository以及Ascential公司的MetaStage等,這些產(chǎn)品的功能都不錯(cuò),對(duì)日常數(shù)據(jù)管理的絕大部分要求都可以滿足。另外,開(kāi)源領(lǐng)域有Panteho的Metadata等,功能相對(duì)簡(jiǎn)單,不過(guò)與Panteho平臺(tái)結(jié)合的不錯(cuò)。

內(nèi)容1、數(shù)據(jù)倉(cāng)庫(kù)的概念、特點(diǎn)與組成2、OLAP的概念、特點(diǎn)與類(lèi)型3、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生、發(fā)展與未來(lái)6、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理數(shù)據(jù)倉(cāng)庫(kù)4、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施5.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生聯(lián)機(jī)事務(wù)處理系統(tǒng)(業(yè)務(wù)系統(tǒng))剛上線時(shí),查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太少了,而幾十年后查詢不到有關(guān)數(shù)據(jù)是因?yàn)閿?shù)據(jù)太多了。針對(duì)這一問(wèn)題,人們?cè)O(shè)想專(zhuān)門(mén)為業(yè)務(wù)數(shù)據(jù)的統(tǒng)計(jì)分析建立一個(gè)數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)中來(lái)、從異構(gòu)的外部數(shù)據(jù)源來(lái)、或從脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中來(lái),這個(gè)數(shù)據(jù)中心也是一個(gè)聯(lián)機(jī)系統(tǒng),它專(zhuān)門(mén)為分析統(tǒng)計(jì)和決策支持應(yīng)用服務(wù),通過(guò)它可獲取決策支持和聯(lián)機(jī)分析應(yīng)用所需要的一切數(shù)據(jù)。這個(gè)數(shù)據(jù)中心就叫做數(shù)據(jù)倉(cāng)庫(kù)。簡(jiǎn)單地說(shuō),數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)作為決策支持和聯(lián)機(jī)分析應(yīng)用系統(tǒng)數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)要研究和解決的問(wèn)題就是從數(shù)據(jù)庫(kù)中獲取信息的問(wèn)題。報(bào)表為主分析為主預(yù)測(cè)模型為主營(yíng)運(yùn)導(dǎo)向?yàn)橹鲗?shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)、自動(dòng)決策應(yīng)用為主

1996年

1999年

2003年

2006年

2008年5.2數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展5.1數(shù)據(jù)倉(cāng)庫(kù)的未來(lái)在數(shù)據(jù)抽取方面,未來(lái)的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉(zhuǎn)換、復(fù)制、調(diào)度、監(jiān)控納入標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便于管理和維護(hù)。在數(shù)據(jù)管理方面,未來(lái)的發(fā)展將使數(shù)據(jù)庫(kù)廠商明確推出數(shù)據(jù)倉(cāng)庫(kù)引擎,作為數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器產(chǎn)品與數(shù)據(jù)庫(kù)服務(wù)器并駕齊驅(qū)。在這一方面,帶有決策支持?jǐn)U展的并行關(guān)系數(shù)據(jù)庫(kù)將最具發(fā)展?jié)摿ΑT跀?shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計(jì)的算法和功能將普遍集成到聯(lián)機(jī)分析產(chǎn)品中,并與Internet/Web技術(shù)緊密結(jié)合。按行業(yè)應(yīng)用特征細(xì)化的數(shù)據(jù)倉(cāng)庫(kù)用戶前端軟件將成為產(chǎn)品作為數(shù)據(jù)倉(cāng)庫(kù)解決方案的一部分。數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)過(guò)程的方法論將更加普及,將成為數(shù)據(jù)庫(kù)設(shè)計(jì)的一個(gè)明確分支,成為管理信息系統(tǒng)設(shè)計(jì)的必備。內(nèi)容1、數(shù)據(jù)倉(cāng)庫(kù)的概念、特點(diǎn)與組成2、OLAP的概念、特點(diǎn)與類(lèi)型3、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)5、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生、發(fā)展與未來(lái)6、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理數(shù)據(jù)倉(cāng)庫(kù)4、數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施6.1數(shù)據(jù)倉(cāng)庫(kù)的三層數(shù)據(jù)結(jié)構(gòu)6.2數(shù)據(jù)倉(cāng)庫(kù)(EDW)內(nèi)部結(jié)構(gòu)早期細(xì)節(jié)數(shù)據(jù)當(dāng)前細(xì)節(jié)數(shù)據(jù)輕度匯總數(shù)據(jù)高度匯總數(shù)據(jù)6.3數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特征狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)當(dāng)前數(shù)據(jù)與周期數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)

6.4數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)ETLETL:即數(shù)據(jù)抽?。‥xtraction)、轉(zhuǎn)換(Transformation)和裝載(Loading),是數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)過(guò)程中,進(jìn)行數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)向數(shù)據(jù)倉(cāng)庫(kù)加載的重要環(huán)節(jié)。從功能上看,整個(gè)ETL包括三個(gè)部分:數(shù)據(jù)抽取,從數(shù)據(jù)源系統(tǒng)抽取數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)需要的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換,將從數(shù)據(jù)源獲取的數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)要求的形式,對(duì)數(shù)據(jù)進(jìn)行變換;數(shù)據(jù)加載,將數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)。6.4.1數(shù)據(jù)抽?。‥xtract)抽取接口典型的數(shù)據(jù)抽取接口包括數(shù)據(jù)庫(kù)接口和文件接口。對(duì)于不同數(shù)據(jù)平臺(tái)、不同源數(shù)據(jù)形式、不同性能要求和業(yè)務(wù)量的業(yè)務(wù)系統(tǒng)以及不同數(shù)據(jù)量的源數(shù)據(jù),將采取不同的數(shù)據(jù)抽取接口。在數(shù)據(jù)抽取時(shí)需要重點(diǎn)考慮數(shù)據(jù)抽取的效率,以及對(duì)現(xiàn)有業(yè)務(wù)系統(tǒng)性能及安全的影響。抽取策略數(shù)據(jù)的抽取必須能夠充分滿足數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)分析及決策支持的需要,同時(shí)必須保證不能影響業(yè)務(wù)系統(tǒng)的性能,所以進(jìn)行數(shù)據(jù)抽取時(shí)必須充分考慮這些因素,制定相應(yīng)的策略,包括抽取方式、抽取時(shí)機(jī)、抽取周期等內(nèi)容。

抽取方式:增量抽取、完全抽取等。抽取時(shí)機(jī):盡可能避開(kāi)業(yè)務(wù)系統(tǒng)的高峰時(shí)段,比如在夜間業(yè)務(wù)系統(tǒng)比較閑時(shí)。抽取周期:對(duì)不同類(lèi)型的數(shù)據(jù)源,應(yīng)綜合考慮業(yè)務(wù)需求和系統(tǒng)代價(jià),制定合理的抽取周期。6.4.2數(shù)據(jù)轉(zhuǎn)換(Transformation

)主要功能數(shù)據(jù)轉(zhuǎn)換主要完成由于以下原因造成的數(shù)據(jù)不一致性問(wèn)題:源數(shù)據(jù)系統(tǒng)同數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在模型上的差異性;源數(shù)據(jù)系統(tǒng)平臺(tái)不一致:數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)源可能包括基于不同平臺(tái)的數(shù)據(jù)庫(kù)的數(shù)據(jù);源數(shù)據(jù)結(jié)構(gòu)的不一致:有些數(shù)據(jù)源由于歷史的原因,導(dǎo)致同一個(gè)表在不同的時(shí)期數(shù)據(jù)結(jié)構(gòu)不一致;源數(shù)據(jù)定義不規(guī)范導(dǎo)致錯(cuò)誤數(shù)據(jù);對(duì)數(shù)據(jù)的約束不嚴(yán)格,導(dǎo)致無(wú)意義數(shù)據(jù);存在重復(fù)記錄;由于平臺(tái)系統(tǒng)的不同,可能會(huì)存在大量的轉(zhuǎn)碼工作。轉(zhuǎn)換策略根據(jù)實(shí)際情況,數(shù)據(jù)轉(zhuǎn)換工作一般會(huì)在以下幾個(gè)環(huán)節(jié)中具體實(shí)現(xiàn):在抽

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論