數(shù)據(jù)倉庫概述(概念、應用、體系結構)課件_第1頁
數(shù)據(jù)倉庫概述(概念、應用、體系結構)課件_第2頁
數(shù)據(jù)倉庫概述(概念、應用、體系結構)課件_第3頁
數(shù)據(jù)倉庫概述(概念、應用、體系結構)課件_第4頁
數(shù)據(jù)倉庫概述(概念、應用、體系結構)課件_第5頁
已閱讀5頁,還剩100頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)倉庫概述1一、數(shù)據(jù)倉庫概述什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫中的基本概念數(shù)據(jù)倉庫的結構數(shù)據(jù)倉庫的應用領域和案例分析數(shù)據(jù)倉庫產(chǎn)品Web數(shù)據(jù)倉庫WHOWEDA2數(shù)據(jù)庫技術的發(fā)展60年代早期:利用文件系統(tǒng),生成各種報告;60年代中期:大量的文件使得維護和開發(fā)的復雜性提高,數(shù)據(jù)的同步亦成問題;70年代早期:E.F.Codd提出關系數(shù)據(jù)模型和E-R數(shù)據(jù)建模方法,數(shù)據(jù)庫技術日趨成熟;70年代中期:高性能的OLTP應用越來越廣泛;3業(yè)務系統(tǒng)不適宜DSS應用事務處理和分析處理的性能要求和特性不同 事務處理對數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短; 在分析處理環(huán)境中,某個DSS應用程序可能需要連續(xù)幾個小時,會消耗

2、大量的系統(tǒng)資源。數(shù)據(jù)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題(更高粒度) 5IDC公司的研究報告指出:建立數(shù)據(jù)倉庫的投資回報 根據(jù)從近60家已經(jīng)建立了數(shù)據(jù)倉庫的中收集過來的信息表明,在近3年的時間里,數(shù)據(jù)倉庫可以產(chǎn)生401%的投資回報率(ROI),這個結果已相當令人滿意! 事實上,在我們所經(jīng)歷的許多發(fā)展潮流和趨勢中,經(jīng)濟收益是主要的推動力量,由于這樣的投資回報,多數(shù)企業(yè)正在建立或正在計劃建立數(shù)據(jù)倉庫就不足為奇了.定義1數(shù)據(jù)倉庫是一種信息系統(tǒng),它能給一個組織或機構提供商務智能(business intelligence)以支持管理決策的制定。78數(shù)據(jù)倉庫是面向主題的典型的主題域:客戶;產(chǎn)品;交易;帳目

3、主題域以一組相關表來具體實現(xiàn)一個主題域的表來源于多個操作型應用(如:客戶主題,來源于:定單處理;應收帳目;應付帳目;)相關表通過公共的鍵碼聯(lián)系起來(如:顧客標識符Customer ID)每個鍵碼都有時間元素(每月累積;日期)主題內(nèi)數(shù)據(jù)可以存儲在不同介質(zhì)上(綜合級,細節(jié)級,多粒度)10多個異構數(shù)據(jù)源關系數(shù)據(jù)庫,無結構文件,聯(lián)機事務處理記錄數(shù)據(jù)清理和數(shù)據(jù)整合技術不同的應用在編碼、命名、屬性的度量等方面都有很大的差別,數(shù)據(jù)集成就是要解決這些問題。數(shù)據(jù)倉庫是集成的12數(shù)據(jù)集成舉例APP A:M,F(xiàn)APP B:1,0APP C:X,YAPP D:MALE,F(xiàn)EMALEM,F(xiàn)舉例:編碼舉例:屬性度量APP

4、 A:CMAPP B:INCHESAPP C:CHIAPP D:YDSCM14數(shù)據(jù)集成舉例舉例:多源APP A:DESCRIPTIONAPP B:DESCRIPTION?DESCRIPTIONAPP C:DESCRIPTION 舉例:關鍵字沖突APP AKEY CHAR(10)APP BKEY DEC FIXED(9,2)APP CKEY PIC 999999APP DKEY CHAR(12) KEY CHAR(12)15數(shù)據(jù)倉庫的穩(wěn)定性數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù),經(jīng)集成進入數(shù)據(jù)倉庫后主要用于決策分析,而極少更新??梢詫⑵淅斫鉃橹蛔x的(READ-ONLY)。 業(yè)務應用數(shù)據(jù)倉庫插入更新刪除插入

5、 訪問查詢加載 以記錄為單位的數(shù)據(jù)操作大量的數(shù)據(jù)加載和數(shù)據(jù)訪問16數(shù)據(jù)倉庫中的數(shù)據(jù)是不同時間的主要體現(xiàn)在數(shù)據(jù)的時限、數(shù)據(jù)的內(nèi)容、數(shù)據(jù)的鍵碼。 業(yè)務應用 數(shù)據(jù)倉庫時限: 1個月至1年時限: 5到10年記錄更新復雜的數(shù)據(jù)快照關鍵字結構可能包含時間元素關鍵字結構包含時間元素17數(shù)據(jù)倉庫的使用從數(shù)據(jù)倉庫的定義可以看出,建立數(shù)據(jù)倉庫的目的主要是為企業(yè)或政府的管理決策提供服務的。因此,數(shù)據(jù)倉庫主要應用在兩個方面:使用瀏覽分析工具在數(shù)據(jù)倉庫中尋找有用的信息;基于數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫系統(tǒng)上建立應用,形成決策支持系統(tǒng)。 事務處理 分析處理從數(shù)據(jù)數(shù)據(jù)從數(shù)據(jù) 信息(知識) OLTP OLAP(DM、OLAM)DBD

6、W18OLTP和OLAP的區(qū)別用戶和系統(tǒng)的面向性:OLTP是面向顧客的,用于事務和查詢處理OLAP是面向市場的,用于數(shù)據(jù)分析數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當前數(shù)據(jù).OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制。20數(shù)據(jù)庫設計:OLTP采用實體-關系(ER)模型和面向應用的數(shù)據(jù)庫設計.OLAP采用星型或雪花模型和面向主題的數(shù)據(jù)庫設計.視圖:OLTP主要關注一個企業(yè)或部門內(nèi)部的當前數(shù)據(jù),不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。OLAP則相反.訪問模式:OLTP系統(tǒng)的訪問主要由短的原子事務組成.這種系統(tǒng)需要并行和恢復機制.OLAP系統(tǒng)的訪問大部分是只讀操作.OLTP和OLAP的區(qū)別21一、數(shù)據(jù)倉庫概述什么是

7、數(shù)據(jù)倉庫?數(shù)據(jù)倉庫中的基本概念數(shù)據(jù)倉庫的結構數(shù)據(jù)倉庫的應用領域和案例分析數(shù)據(jù)倉庫產(chǎn)品Web數(shù)據(jù)倉庫WHOWEDA23數(shù)據(jù)倉庫中的幾個重要概念元數(shù)據(jù):關于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設過程中所產(chǎn)生的有關數(shù)據(jù)源定義,目標定義,轉換規(guī)則等相關的關鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關于數(shù)據(jù)含義的商業(yè)信息。粒度:數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級別就越??;相反,細化程度越低,粒度級別就越大。分割:結構相同的數(shù)據(jù)被分成多個數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個分割。ETL:ETL(Extract/Transformation/Load)用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過

8、數(shù)據(jù)清洗、轉換,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。24元數(shù)據(jù)元數(shù)據(jù):數(shù)據(jù)倉庫的核心關于數(shù)據(jù)的數(shù)據(jù),可理解為數(shù)據(jù)倉庫的數(shù)據(jù)字典存儲數(shù)據(jù)模型、定義數(shù)據(jù)結構、轉換規(guī)則、倉庫結構和控制信息等。元數(shù)據(jù)的功能:描述倉庫數(shù)據(jù)的來源信息描述有關數(shù)據(jù)模型的信息描述業(yè)務數(shù)據(jù)與倉庫數(shù)據(jù)結構間的映射描述倉庫中信息的使用情況好的元數(shù)據(jù)是數(shù)據(jù)倉庫開發(fā)成功的關鍵因素26典型的元數(shù)據(jù)包括:數(shù)據(jù)倉庫表的結構數(shù)據(jù)倉庫表的屬性數(shù)據(jù)倉庫的源數(shù)據(jù)(記錄系統(tǒng))從記錄系統(tǒng)到數(shù)據(jù)倉庫的映射數(shù)據(jù)模型的規(guī)格說明抽取日志訪問數(shù)據(jù)的公用例行程序27元數(shù)據(jù)分類元數(shù)據(jù)分類:技術元數(shù)據(jù);商業(yè)元數(shù)據(jù);數(shù)據(jù)倉庫的操作型信息。-Ale

9、x Berson etc, 1999技術元數(shù)據(jù):數(shù)據(jù)倉庫設計人員和管理員使用的數(shù)據(jù)倉庫數(shù)據(jù)信息,用于執(zhí)行數(shù)據(jù)倉庫開發(fā)和管理任務。包括:數(shù)據(jù)源信息轉換描述(從操作數(shù)據(jù)庫到數(shù)據(jù)倉庫的映射方法,以及轉換數(shù)據(jù)的算法)倉庫對象和數(shù)據(jù)結構定義數(shù)據(jù)清洗和數(shù)據(jù)增加的規(guī)則數(shù)據(jù)映射操作訪問權限,備份歷史,存檔歷史,信息傳輸歷史,數(shù)據(jù)獲取歷史,數(shù)據(jù)訪問,等等28元數(shù)據(jù)的生命周期元數(shù)據(jù)收集元數(shù)據(jù)管理與維護元數(shù)據(jù)的配備與數(shù)據(jù)訪問和分析工具的集成30元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)庫(metadata repository)和工具31元數(shù)據(jù)的配備對象數(shù)據(jù)倉庫開發(fā)人員主要使用數(shù)據(jù)來源的物理結構信息、企業(yè)數(shù)據(jù)模型和倉庫數(shù)據(jù)模型數(shù)據(jù)

10、倉庫維護人員最終用戶最終用戶最關心兩類元數(shù)據(jù):第一類元數(shù)據(jù)說明倉庫中有什么內(nèi)容,從哪兒來。他們可以按主題域查看倉庫的內(nèi)容。第二類元數(shù)據(jù)是有關已有的可重復利用的查詢的信息。32數(shù)據(jù)倉庫和數(shù)據(jù)集市Bill Inmon: “企業(yè)級數(shù)據(jù)倉庫”Ralph Kimball: “數(shù)據(jù)集市”折衷: “聯(lián)邦制” 模型If you build it, They will come33什么是數(shù)據(jù)集市?數(shù)據(jù)集市是一種具有特定應用的更小、更集中的數(shù)據(jù)倉庫。針對某個具有戰(zhàn)略意義的應用或具體部門級的應用,它支持客戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或找到進入新市場的整體解決方案。是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。兩種數(shù)

11、據(jù)集市: 依賴型和非依賴型 依賴型數(shù)據(jù)集市中的數(shù)據(jù)來自于數(shù)據(jù)倉庫; 非依賴型數(shù)據(jù)集市中的數(shù)據(jù)來自業(yè)務應用環(huán)境。 依賴型數(shù)據(jù)集市在建造和結構上是合理、可靠的; 非依賴型數(shù)據(jù)集市還存在一些問題。34建立數(shù)據(jù)集市的原因 在為企業(yè)建立數(shù)據(jù)倉庫時,開發(fā)人員必須針對所有的用戶、從企業(yè)的全局出發(fā),來對待企業(yè)需要的任何決策分析。這樣建立數(shù)據(jù)倉庫就成了一個代價高、時間長、風險大的項目。因此,更加緊湊、擁有完整應用工具、投資少、規(guī)模小的數(shù)據(jù)集市(DATA MART)就應運而生。35數(shù)據(jù)集市的特征規(guī)模小,面向部門,而不是整個企業(yè)有特定的應用,不是滿足企業(yè)所有的決策分析需求;主要由業(yè)務部門定義、設計和實現(xiàn);可以由業(yè)務

12、部門管理和維護;成本低,開發(fā)時間短,投資風險較小可以升級到完整的企業(yè)級數(shù)據(jù)倉庫。36數(shù)據(jù)集市還是數(shù)據(jù)倉庫?問題: 數(shù)據(jù)集市/數(shù)據(jù)倉庫測試表 是=1/否=01.您的公司是否有能力進行一個跨多個年度的數(shù)百萬的項目?2.您的公司各部門是否銷售或服務于一些情況相似的客戶?3.公司部門的管理人員一般是否同意對業(yè)務實體的數(shù)據(jù)定義?4.企業(yè)的決策者是否會按部就班地等待發(fā)表意見的時機,而不是具有“我先說”的特點?5.這是一個集中式管理的企業(yè)嗎?6.對于企業(yè)要保留的歷史數(shù)據(jù)是否能形成一致的意見?7.是否有某些業(yè)務領域對啟動一個專用的DSS計劃有極大的興趣?8.您的企業(yè)是否已經(jīng)擁有支持大型數(shù)據(jù)倉庫的硬件設施?9.

13、決策者對他們決策所需的概括數(shù)據(jù)是否滿意?10.企業(yè)當前是否已有正在使用中的數(shù)據(jù)集市?提示: 如果您的回答“是”比“否”多,選擇建立數(shù)據(jù)倉庫; 如果“否”比“是”多,選擇建立數(shù)據(jù)集市!37問題在很多情況下,OLTP-DW的兩層體系結構并不能涵蓋企業(yè)所有的數(shù)據(jù)處理要求。因為企業(yè)的數(shù)據(jù)處理雖然可以較為粗略地劃分成操作型和分析型兩部分,但有時,這兩種處理之間并沒非常明晰的界限。實際的數(shù)據(jù)處理往往是多層次的。也就是說,有些處理是操作型的,但不適合在操作型DB中進行,而又存在著一些分析型處理,但不適合在DW中進行。 38ODS的定義及其特點 定義:ODS是用于支持企業(yè)日常的全局應用的數(shù)據(jù)集合保存在ODS中

14、的數(shù)據(jù)具有四個基本特點:面向主題集成的可變的數(shù)據(jù)是當前或接近當前的39實例決策環(huán)境:商場決策人:銷售部門的中下層管理人員決策問題:某商品是否要進貨?40決策所需掌握的情況需要掌握以下信息:儲備是否充足?該商品近期銷售情況如何?資金情況如何?其他商品的庫存情況和銷售情況如何?即:要綜合了解這些信息,才能做較為合理、可行的決策。41在何處實現(xiàn)這些功能?方法1:放到分散的OLTP系統(tǒng)中去做不一定能得到每個部門的準確的一致信息,需要進行部門間的協(xié)調(diào)配合,工作量會很大。方法2:將其放在數(shù)據(jù)量巨大的DW中去處理顯然會較費時,可能涉及許多不必要的數(shù)據(jù)檢索。42這類決策的特點特點:不是在線事務處理也算不上是高

15、層決策分析。屬于日常管理和控制的決策問題企業(yè)中層的管理者經(jīng)常要解決的、較大量的問題。前述兩種解決方法都不太可行,該如何解決?43另一種數(shù)據(jù)環(huán)境這種信息處理的特點引出了一種數(shù)據(jù)環(huán)境ODS,operational data store操作型數(shù)據(jù)存儲它是在OLTP-DW兩層體系結構的基礎上再增加一個層次ODS,從而形成OLTP-ODS-DW的三層數(shù)據(jù)存儲體系。44ODS中的數(shù)據(jù)內(nèi)容兩類數(shù)據(jù)一方面,它包含企業(yè)全局一致的、細節(jié)的、當前或接近當前的數(shù)據(jù),可以進行全局在線操作型處理;另一方面,它又是一種面向主題、集成的數(shù)據(jù)環(huán)境,且數(shù)據(jù)量較小,適合于輔助企業(yè)完成日常決策的數(shù)據(jù)分析處理。 45關于ODS因為數(shù)據(jù)

16、面向主題,要求ODS中的數(shù)據(jù)在企業(yè)級上應該保持高度的一致性,所以必須對進入ODS數(shù)據(jù)進行轉換和集成。區(qū)別于與分散在各個OLTP應用的數(shù)據(jù):面向主題、集成化。區(qū)別于DW中的數(shù)據(jù):存放當前數(shù)據(jù)或接近當前的數(shù)據(jù)可以進行在線修改46一、數(shù)據(jù)倉庫概述什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫中的基本概念數(shù)據(jù)倉庫的結構數(shù)據(jù)倉庫的應用領域和案例分析數(shù)據(jù)倉庫產(chǎn)品Web數(shù)據(jù)倉庫WHOWEDA47數(shù)據(jù)倉庫定義3目標:為給數(shù)據(jù)集市裝載數(shù)據(jù)提供基礎組件, 并用數(shù)據(jù)集市為最終用戶提供數(shù)據(jù)。功能包括:獲取數(shù)據(jù)清洗數(shù)據(jù)轉換數(shù)據(jù)管理粒度數(shù)據(jù)管理一個特定主題所需的所有數(shù)據(jù) 48數(shù)據(jù)倉庫定義3能以多種方式存儲數(shù)據(jù)扁平、無結構文件RDBMS其它技術

17、 (壓縮) 并保證:對業(yè)務系統(tǒng)的影響最小數(shù)據(jù)集市之間數(shù)據(jù)定義的一致性一致的維表!保存適量的歷史數(shù)據(jù) 49數(shù)據(jù)倉庫的結構數(shù)據(jù)倉庫只是存儲數(shù)據(jù)的一種組織形式,是適合分析、決策用的特定的數(shù)據(jù)存儲系統(tǒng)。數(shù)據(jù)倉庫的邏輯結構數(shù)據(jù)倉庫的物理結構數(shù)據(jù)倉庫系統(tǒng)(DWS)的體系結構50數(shù)據(jù)倉庫的邏輯結構數(shù)據(jù)倉庫從傳統(tǒng)數(shù)據(jù)庫或其他數(shù)據(jù)源獲得原始數(shù)據(jù),先按輔助決策的主題要求形成當前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層(又分為輕度綜合層和高度綜合層)。隨著時間的推移,由時間控制機制將當前基本數(shù)據(jù)層轉為歷史數(shù)據(jù)層。51數(shù)據(jù)倉庫的邏輯結構高度綜合輕度綜合當前數(shù)據(jù)歷史數(shù)據(jù)元數(shù)據(jù)01-02年所有產(chǎn)品月銷售數(shù)據(jù)01-02

18、年產(chǎn)品周銷售數(shù)據(jù)01-02年銷售數(shù)據(jù)1980-2000銷售數(shù)據(jù)數(shù)據(jù)倉庫的邏輯結構52當前細節(jié)級數(shù)據(jù) 最近發(fā)生的“事件 ”,例如: 訂單業(yè)務生命周期相對較短 (幾個月,而不是幾年)大數(shù)據(jù)量, 復雜、管理費用高 對業(yè)務分析價值較小儲存在相對廉價的存儲介質(zhì)上53輕度綜合數(shù)據(jù)從當前細節(jié)數(shù)據(jù)演算得來一段時間內(nèi)的匯總數(shù)據(jù) (一天或一周)舉例: 日常產(chǎn)品銷售量匯總比細節(jié)數(shù)據(jù)保留時間長得多 (幾年)54高度綜合數(shù)據(jù)相當長一段時間內(nèi)的匯總數(shù)據(jù) (一個月或一年)舉例: 產(chǎn)品銷售量的按月匯總具有最長的生命周期匯總的級別越高, 可供分析和使用的價值越大。55數(shù)據(jù)倉庫的物理存儲基于多維數(shù)據(jù)模型(所以在邏輯上數(shù)據(jù)倉庫就是

19、一個多維數(shù)據(jù)庫),在實現(xiàn)中一般有兩種途徑:基于多維數(shù)組的數(shù)據(jù)庫基于關系數(shù)據(jù)庫的星型模式(由關系型事實表和維表組成) 三種變型:雪花模式,多層分維結構,事實表族維1維2維3度量(指標)1990TV上海 5001990TV北京 6001991VCD上海 6001991VCD北京 700數(shù)據(jù)倉庫的物理結構90TV上海56數(shù)據(jù)倉庫的星型模式利用目前成熟的關系數(shù)據(jù)庫系統(tǒng),成本低,實現(xiàn)快,但數(shù)據(jù)倉庫的效率遠不如多維數(shù)據(jù)庫形式。在這種情況下,主要是利用星型模式(STAR SCHEME)來組織數(shù)據(jù)。 時間維表 事實表 產(chǎn)品維表 地區(qū)維表TIME-IDPRODUCT-IDCITY-IDSALES.TIME-ID

20、TIME.PRODUCT-IDPNAMETYPECOLOR.CITY-IDCNAMEPOPULATION.57數(shù)據(jù)倉庫的體系結構 Pieter ,1998End-UserDW ToolsSourceDatabasesData Extraction,Transformation, loadWarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessand AnalysisCentral DataWarehouseCentral DataWa

21、rehouseMid-TierMid-TierDataMartDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeMDBDataCleansingToolRelationalAppl. PackageLegacyExternalRDBMSRDBMS58數(shù)據(jù)倉庫的體系結構源數(shù)據(jù):數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個數(shù)據(jù)源,包括企業(yè)內(nèi)部數(shù)據(jù)、市場調(diào)查報告、政府統(tǒng)計部門提供的統(tǒng)計數(shù)據(jù)及各種文檔之類的外部數(shù)據(jù);倉庫管理:在確定數(shù)據(jù)倉庫的信息需求后,首先進行數(shù)據(jù)建模,然后確定從源數(shù)據(jù)到數(shù)據(jù)倉庫的數(shù)據(jù)抽取、清理(凈化)和轉換過程,最后劃分

22、維數(shù)及確定數(shù)據(jù)倉庫的物理存儲結構;數(shù)據(jù)倉庫:包括對數(shù)據(jù)的安全、歸檔、備份、維護、恢復等工作,這些工作需要利用數(shù)據(jù)庫管理系統(tǒng),即DBMS的功能;分析工具:用于完成實際決策問題所需的各種查詢檢索工具、多維數(shù)據(jù)的OLAP分析工具、數(shù)據(jù)挖掘(DM)工具等,以實現(xiàn)決策支持系統(tǒng)(DSS)的各種要求。59帶ODS的數(shù)據(jù)倉庫體系結構SourceDatabasesHub - Data Extraction,Transformation, loadWarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadataArchite

23、ctedData MartsData Accessand AnalysisCentral Data Ware-house and ODSCentral DataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl. PackageLegacyExternalMDBEnd-UserDW Tools60數(shù)據(jù)倉庫的焦點問題-數(shù)據(jù)的獲得、存儲和使用數(shù)據(jù)倉

24、庫和集市的加載能力至關重要數(shù)據(jù)倉庫和集市的查詢輸出能力至關重要RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterprise DataWarehouse DatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool61一、數(shù)據(jù)倉庫概述什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫中的基本概念數(shù)據(jù)倉庫的結構數(shù)據(jù)倉庫的應用領域和案例分析數(shù)據(jù)倉庫產(chǎn)品Web數(shù)據(jù)倉庫WHOWEDA62DW用戶數(shù)的調(diào)查大部分DW系統(tǒng)的用戶數(shù)在100-500之間或

25、500以上DW用戶的調(diào)查調(diào)查對象:3000+ 用戶或意向用戶63DW數(shù)據(jù)規(guī)模的調(diào)查DW規(guī)模的調(diào)查調(diào)查對象:3000+ 用戶或意向用戶64數(shù)據(jù)倉庫的開發(fā)費用中等大小的公司, 開發(fā)費用在36百萬美元。公司越大,開發(fā)費用越高。大型集團或企業(yè)的開發(fā)費用超過1千萬美元,儲存巨大的數(shù)據(jù)量。每年的維護費用大約為10-50% 33% 硬件 / 33% 軟件 / 33% 服務65數(shù)據(jù)倉庫的開發(fā)周期對于中等大小的公司, 開發(fā)整個系統(tǒng)需要24年。首次迭代開發(fā)過程需要612個月后續(xù)迭代開發(fā)過程需要36個月66數(shù)據(jù)倉庫的開發(fā)風險非商業(yè)目標驅動的開發(fā)具有很高的失敗幾率,很難真正滿足商業(yè)需求。失敗的原因不在于技術方面, 而

26、是因為一些“彈性”(軟方面)的問題成功的項目會帶來巨額回報 (100% - 2000% ROI)99% 管理策略 + 1% 技術67數(shù)據(jù)倉庫的主要應用領域(1)證券業(yè):可處理客戶分析、帳戶分析、證券交易數(shù)據(jù)分析、非資金交易分析等業(yè)界關心的主題,為客戶提供針對其個人習慣和投資組合的投資建議,從而真正作到對客戶的貼心服務。銀行業(yè):防范銀行的經(jīng)營風險、實現(xiàn)科學管理以及進行決策。保險業(yè):滿足保險行業(yè)日益增長的各種查詢、統(tǒng)計、報表以及分析的需求,提高防范和化解經(jīng)營風險的能力,有效利用這些數(shù)據(jù)來實現(xiàn)經(jīng)營目標,預測保險業(yè)的發(fā)展趨勢,甚至利用這些數(shù)據(jù)來設計保險企業(yè)的發(fā)展宏圖,在激烈的競爭中贏得先機。68數(shù)據(jù)倉

27、庫的主要應用領域(續(xù))稅務領域:查出應稅未報者和瞞稅漏稅者,并對其進行跟蹤;對不同行業(yè)、產(chǎn)品和市場中納稅人的行為特性進行描述,找出普遍規(guī)律,謀求因勢利導的稅務征稽策略;對不同行業(yè)、產(chǎn)品和市場應收稅款進行預測,制定最有效的征收計劃。制造業(yè):質(zhì)量控制分析:為什么某種產(chǎn)品廢品率很高? 運行效率分析:什么因素導致了生產(chǎn)效率的降低?保健領域:揭示出如何以較低費用獲取較高質(zhì)量的治療策略的趨勢和模式。69數(shù)據(jù)倉庫的主要應用領域(續(xù))營銷業(yè)制訂定價政策和商品分配政策確定銷售成功或失敗的特征對銷售成功的產(chǎn)品進行評估,并分析成功的關鍵因素發(fā)現(xiàn)忠實客戶的檔案特征分離和分析流失的客戶評估銷售人員的銷售業(yè)績70數(shù)據(jù)倉庫

28、的主要應用領域(續(xù))客戶分析分析客戶的整體行為 購買行為, 電話訂購產(chǎn)品服務, 對促銷行動的反應, 等等。找出“最佳”客戶,提供特殊服務,防止客戶流失發(fā)現(xiàn)“最佳”客戶的特征,吸引新客戶客戶分組和分類 預測顧客的購買行為71Web 分析分析web網(wǎng)站的流量 哪些網(wǎng)頁是有效的,哪些是無效的在一次購買行為之前所瀏覽的特定網(wǎng)頁網(wǎng)民瀏覽后離開網(wǎng)站的網(wǎng)頁行為模式 人們會從網(wǎng)上購買哪些商品, 不會購買哪些商品?數(shù)據(jù)倉庫的主要應用領域(續(xù))72實例介紹Large US BankCyberian Outpost云南玉溪卷煙廠信息管理與決策支持系統(tǒng)IMDSS云南省經(jīng)濟信息中心綜合信息庫軟件工程73Large US

29、 Bank問題: 客戶流失到競爭對手那邊建造了一個數(shù)據(jù)倉庫和一個預測模型描述流失客戶的行為和特征發(fā)現(xiàn)可能流失的客戶模型生成一個列表,列出了可能流失的 “好” 客戶。為上述客戶提供特殊的服務 (如優(yōu)惠的利率等) 模型的代價: $50,000 - $75,000帶來的收益:大約每年$50,000,00074Cyberian Outpost計算機和計算機配件的零售商建立了一個銷售網(wǎng)站 O建造了一個數(shù)據(jù)倉庫,分析網(wǎng)站流量和網(wǎng)上的購買行為兩類商品滯銷:特定類型的商品價格高于某個價位的商品75Cyberian Outpost經(jīng)過研究發(fā)現(xiàn):人們不愿通過Web大把花費而是給Cyberian Outpost打電

30、話訂購商品。Outpost 重新設計了他們的網(wǎng)站 使得打電話訂購商品更方便銷售額顯著增長76云南玉溪卷煙廠信息管理與決策支持系統(tǒng)IMDSS清華大學計算機系:9個課題小組共30人,兩年目標:市場分析與預測數(shù)據(jù)來源:本廠MIS(Foxbase)、生產(chǎn)線(文本文件)、國家統(tǒng)計局(DBF)、各省、市、地及區(qū)縣的基本銷售數(shù)據(jù)(特有的格式)工具開發(fā):數(shù)據(jù)的抽取、轉換及凈化(按規(guī)則)工具元數(shù)據(jù)管理(數(shù)據(jù)的來源、綜合、計算過程、位置)三維漫游制導的數(shù)據(jù)查詢工具77云南省綜合信息庫目標:在云南省經(jīng)濟信息中心已有的數(shù)據(jù)及其他有關部門的數(shù)據(jù)基礎上建設云南省綜合信息庫,全面分析云南省的經(jīng)濟狀況,主要是農(nóng)業(yè)和工業(yè)經(jīng)濟發(fā)

31、展狀況的分析,為云南省經(jīng)濟政策的制定和決策提供有力的幫助。78CA的整體解決方案79數(shù)據(jù)采集和轉換80元數(shù)據(jù)管理方案81綜合信息庫的建模82前端分析工具解決方案83綜合信息庫的門戶網(wǎng)站方案84一、數(shù)據(jù)倉庫概述什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫中的基本概念數(shù)據(jù)倉庫的結構數(shù)據(jù)倉庫的應用領域和案例分析數(shù)據(jù)倉庫產(chǎn)品Web數(shù)據(jù)倉庫WHOWEDA85數(shù)據(jù)倉庫產(chǎn)品數(shù)據(jù)倉庫的處理流程建設數(shù)據(jù)倉庫所需組件數(shù)據(jù)倉庫產(chǎn)品供應商86數(shù)據(jù)倉庫處理流程文本信息OracleDB2Sybase其他DB數(shù)據(jù)建模抽取凈化轉換加載數(shù)據(jù)倉庫查詢OLAPDMDSS服務人員業(yè)務人員管理人員決策人員數(shù)據(jù)倉庫處理流程87建設數(shù)據(jù)倉庫所需組件由于企業(yè)的

32、計算機應用系統(tǒng)存在著不同主機和操作系統(tǒng)、異構網(wǎng)絡、異構數(shù)據(jù)庫等計算環(huán)境,數(shù)據(jù)倉庫的建設是一個復雜的系統(tǒng)集成工程,它涉及到如下諸多方面:數(shù)據(jù)建模工具數(shù)據(jù)抽取、凈化轉換和加載工具元數(shù)據(jù)管理工具數(shù)據(jù)倉庫管理軟件備份和恢復工具數(shù)據(jù)復制和分發(fā)工具服務器硬件和操作系統(tǒng)基于多種網(wǎng)絡協(xié)議的連接工具(中間件)圖像、復合文檔的存取和檢索(全文)查詢、報表工具OLAP工具數(shù)據(jù)挖掘工具安全工具Internet接口調(diào)度軟件其他88數(shù)據(jù)倉庫產(chǎn)品供應商1998年數(shù)據(jù)庫方面的權威雜志DB Review評出了數(shù)據(jù)倉庫供應商的綜合比較:89IBMIBM是全面的、集成的數(shù)據(jù)倉庫解決方案的供應商,IBM的數(shù)據(jù)倉庫方案稱為Visual

33、 Warehouse,它的產(chǎn)品包括:異構數(shù)據(jù)存取工具DataJoiner目標數(shù)據(jù)倉庫DB2運行于Windows服務器上的可視化數(shù)據(jù)倉庫管理工具Visual Warehouse ManagerOLAP工具DB2 OLAP Server數(shù)據(jù)挖掘工具Intelligent Miner元數(shù)據(jù)管理工具DataGuide復制與分配工具DPROP/R90SASSAS是Statistical Analysis System的縮寫, 1976年以前,主要開發(fā)和提供統(tǒng)計分析軟件工具。1976年以后, 除了統(tǒng)計分析工具之外,SAS開始提供決策支持的應用和解決方案,包括數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、OLAP分析、數(shù)據(jù)可視化、應

34、用開發(fā)等等。 目前,SAS不僅代表Statistical Analysis System的縮寫,也成為一個提供商業(yè)智能和智能決策支持服務和支持的公司。91SAS SAS Warehouse Administrator(SAS/WA) SAS/WA是一個非常優(yōu)秀的可視化數(shù)據(jù)倉庫管理工具,涉及數(shù)據(jù)倉庫建立工程中的各個環(huán)節(jié),從數(shù)據(jù)的提取、過濾、匯總、確認、加載、刷新時序控制,一直到通過元數(shù)據(jù)(Meta data)對數(shù)據(jù)倉庫的有效組織,功能豐富的SAS/WA 能夠幫助人們高效率地管理他們的數(shù)據(jù)倉庫。 同時,SAS最早實現(xiàn)了數(shù)據(jù)倉庫的建立和聯(lián)機分析處理(OLAP)的集成應用,從而為用戶提供了完整的決策支

35、持應用解決方案。軟件分類 軟件選型數(shù)據(jù)庫 可選Informix或Oracle數(shù)據(jù)庫數(shù)據(jù)倉庫工具 SAS/Warehouse AdministratorOLAP服務器 SAS/MDDB Server分析預測工具 SAS/Enterprise Guide (或自行開發(fā)的報表工具)數(shù)據(jù)挖掘工具 SAS/Enterprise Miner92Oracle 系列軟件數(shù)據(jù)庫服務器:Oracle8i,Oracle9i,Oracle10g數(shù)據(jù)倉庫構建工具:Oracle Warehouse Builder通用的數(shù)據(jù)倉庫元數(shù)據(jù)管理工具: Common Warehouse MetadataETL工具:SQL*load

36、er多維數(shù)據(jù)服務器:Oracle Express Server(Web agent)OLAP工具集:Oracle Discoverer、 Oracle Express Analyzer Oracle Express Objects數(shù)據(jù)挖掘工具: Oracle Data Mining Suite(Oracle Darwin)93Oracle口號:任何數(shù)據(jù)源,任何數(shù)據(jù),任何存取需求 ORACLE數(shù)據(jù)倉庫的不足 SQL*loader工具:只能處理ASCII數(shù)據(jù)文件,并且對數(shù)據(jù)類型及數(shù)據(jù)格式不一致的數(shù)據(jù)必須編寫比較繁瑣的控制文件。另外,在速度上,SQL*loader也是比較慢的。建議:可以采用第三方廠

37、商的ETL工具,像Sagent的Design Studio工具。元數(shù)據(jù)管理工具:oracle在元數(shù)據(jù)管理方面功能比較弱。建議:對于oracle在元數(shù)據(jù)管理方面的不足,可以采用第三方廠商的元數(shù)據(jù)管理工具,像Sagent的Sagent Admin工具。 94CA(Computer Associates)CA提供完整的、開放的、集成的數(shù)據(jù)倉庫解決方案,它的產(chǎn)品包括:數(shù)據(jù)倉庫模型設計工具ERwin數(shù)據(jù)轉換與遷移工具DecisionBase Transformer企業(yè)級元數(shù)據(jù)管理工具Platinum Repository/OEE數(shù)據(jù)庫管理工具Platinum Enterprise DBAOLAP工具De

38、cisionBase OLAP Server報表工具DecisionBase Reporter決策支持開發(fā)工具Forest & Trees數(shù)據(jù)挖掘工具 Neugents iiInternet門戶網(wǎng)站建設工具Jasmine ii Portal95 NCR (National Cash Register Company) NCR Teradata數(shù)據(jù)倉庫已占領了全球最主要的幾大市場,財富排名前50家大企業(yè)中,超過1/2的企業(yè)是NCR數(shù)據(jù)倉庫的用戶,世界前10大商業(yè)銀行的6家,前9大電信公司的8家,前6大零售企業(yè)和前5大航空公司均采用了NCR數(shù)據(jù)倉庫解決方案。目前,其數(shù)據(jù)倉庫產(chǎn)品NCR Teradata Data Warehouse已在全球擁有上千家大客戶.具備完全的并行處理機制;得到NCR MPP Worldmar

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論