數(shù)據(jù)倉庫概述(概念、應(yīng)用、體系結(jié)構(gòu))_第1頁
數(shù)據(jù)倉庫概述(概念、應(yīng)用、體系結(jié)構(gòu))_第2頁
數(shù)據(jù)倉庫概述(概念、應(yīng)用、體系結(jié)構(gòu))_第3頁
數(shù)據(jù)倉庫概述(概念、應(yīng)用、體系結(jié)構(gòu))_第4頁
數(shù)據(jù)倉庫概述(概念、應(yīng)用、體系結(jié)構(gòu))_第5頁
已閱讀5頁,還剩100頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)倉庫概述1一、數(shù)據(jù)倉庫概述什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫中的基本概念數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫的應(yīng)用領(lǐng)域和案例分析數(shù)據(jù)倉庫產(chǎn)品Web數(shù)據(jù)倉庫——WHOWEDA2數(shù)據(jù)庫技術(shù)的發(fā)展60年代早期:利用文件系統(tǒng),生成各種報告;60年代中期:大量的文件使得維護和開發(fā)的復(fù)雜性提高,數(shù)據(jù)的同步亦成問題;70年代早期:E.F.Codd提出關(guān)系數(shù)據(jù)模型和E-R數(shù)據(jù)建模方法,數(shù)據(jù)庫技術(shù)日趨成熟;70年代中期:高性能的OLTP應(yīng)用越來越廣泛;3數(shù)據(jù)庫技術(shù)的發(fā)展80年代早期:OLTP,MIS/DSS,提出了數(shù)據(jù)倉庫的思想,以IBM的“InformationWarehouse”為代表;80年代中期:由于技術(shù)和實現(xiàn)費用的原因,數(shù)據(jù)倉庫思想沒有引起太多的注意;90年代:以W.H.Inmon為代表數(shù)據(jù)倉庫(DataWarehouse)的興起,OLAP,DM,OLAM。數(shù)據(jù)倉庫站點數(shù)據(jù)倉庫之路(www.D)4業(yè)務(wù)系統(tǒng)不適宜DSS應(yīng)用事務(wù)處理和分析處理的性能要求和特性不同事務(wù)處理對數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短;

在分析處理環(huán)境中,某個DSS應(yīng)用程序可能需要連續(xù)幾個小時,會消耗大量的系統(tǒng)資源。數(shù)據(jù)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題(更高粒度)5IDC公司的研究報告指出:建立數(shù)據(jù)倉庫的投資回報根據(jù)從近60家已經(jīng)建立了數(shù)據(jù)倉庫的中收集過來的信息表明,在近3年的時間里,數(shù)據(jù)倉庫可以產(chǎn)生401%的投資回報率(ROI),這個結(jié)果已相當(dāng)令人滿意!事實上,在我們所經(jīng)歷的許多發(fā)展潮流和趨勢中,經(jīng)濟收益是主要的推動力量,由于這樣的投資回報,多數(shù)企業(yè)正在建立或正在計劃建立數(shù)據(jù)倉庫就不足為奇了.定義1數(shù)據(jù)倉庫是一種信息系統(tǒng),它能給一個組織或機構(gòu)提供商務(wù)智能(businessintelligence)以支持管理決策的制定。78定義2W.H.Inmon在《BuildingtheDataWarehouse》一書中對數(shù)據(jù)倉庫定義如下:

數(shù)據(jù)倉庫是面向主題的集成的穩(wěn)定的不同時間的 數(shù)據(jù)集合,用以支持管理決策這個定義說明了數(shù)據(jù)倉庫中數(shù)據(jù)的組織方式以及建立數(shù)據(jù)倉庫的目的是什么。面向主題的集成的不同時間的穩(wěn)定的9數(shù)據(jù)倉庫是面向主題的典型的主題域:客戶;產(chǎn)品;交易;帳目主題域以一組相關(guān)表來具體實現(xiàn)一個主題域的表來源于多個操作型應(yīng)用(如:客戶主題,來源于:定單處理;應(yīng)收帳目;應(yīng)付帳目;…)相關(guān)表通過公共的鍵碼聯(lián)系起來(如:顧客標識符CustomerID)每個鍵碼都有時間元素(每月累積;日期…)主題內(nèi)數(shù)據(jù)可以存儲在不同介質(zhì)上(綜合級,細節(jié)級,多粒度)10主題是數(shù)據(jù)歸類的標準,每個主題對應(yīng)一個客觀分析領(lǐng)域,如客戶、商店等,它可為輔助決策集成多個部門和不同系統(tǒng)的大量數(shù)據(jù)。業(yè)務(wù)應(yīng)用 主題領(lǐng)域例如,對一個保險公司來說,它的業(yè)務(wù)應(yīng)用系統(tǒng)可能有汽車保險、人壽保險、健康醫(yī)療保險及家庭財產(chǎn)保險等,而保險公司的主題領(lǐng)域可以是客戶、保單、保費及索賠等。數(shù)據(jù)倉庫是面向主題的11多個異構(gòu)數(shù)據(jù)源關(guān)系數(shù)據(jù)庫,無結(jié)構(gòu)文件,聯(lián)機事務(wù)處理記錄數(shù)據(jù)清理和數(shù)據(jù)整合技術(shù)不同的應(yīng)用在編碼、命名、屬性的度量等方面都有很大的差別,數(shù)據(jù)集成就是要解決這些問題。數(shù)據(jù)倉庫是集成的12exampleJ.Jones女1945年7月20日去年有兩張罰單一次大事故Main大街123號已婚兩個孩子高血壓……………..集成J.Jones,女1945年7月20日……人壽保險J.Jones去年有兩張罰單一次大事故,……汽車保險J.JonesMain大街123號已婚,……房屋保險J.Jones,兩個孩子高血壓……健康保險13數(shù)據(jù)集成舉例APPA:M,F(xiàn) APPB:1,0APPC:X,YAPPD:MALE,F(xiàn)EMALEM,F(xiàn)舉例:編碼舉例:屬性度量APPA:CM APPB:INCHESAPPC:CHIAPPD:YDSCM14數(shù)據(jù)集成舉例舉例:多源APPA: DESCRIPTION APPB: DESCRIPTION ? DESCRIPTIONAPPC: DESCRIPTION舉例:關(guān)鍵字沖突APPA KEYCHAR(10) APPB KEYDECFIXED(9,2)APPC KEYPIC‘999999’APPD KEYCHAR(12) KEYCHAR(12)15數(shù)據(jù)倉庫的穩(wěn)定性數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù),經(jīng)集成進入數(shù)據(jù)倉庫后主要用于決策分析,而極少更新??梢詫⑵淅斫鉃橹蛔x的(READ-ONLY)。

業(yè)務(wù)應(yīng)用 數(shù)據(jù)倉庫插入 更新刪除 插入 訪問查詢 加載以記錄為單位的數(shù)據(jù)操作 大量的數(shù)據(jù)加載和數(shù)據(jù)訪問16數(shù)據(jù)倉庫中的數(shù)據(jù)是不同時間的主要體現(xiàn)在數(shù)據(jù)的時限、數(shù)據(jù)的內(nèi)容、數(shù)據(jù)的鍵碼。業(yè)務(wù)應(yīng)用 數(shù)據(jù)倉庫時限:1個月至1年 時限:5到10年記錄更新 復(fù)雜的數(shù)據(jù)快照關(guān)鍵字結(jié)構(gòu)可能包含時間元素 關(guān)鍵字結(jié)構(gòu)包含時間元素17數(shù)據(jù)倉庫的使用從數(shù)據(jù)倉庫的定義可以看出,建立數(shù)據(jù)倉庫的目的主要是為企業(yè)或政府的管理決策提供服務(wù)的。因此,數(shù)據(jù)倉庫主要應(yīng)用在兩個方面:使用瀏覽分析工具在數(shù)據(jù)倉庫中尋找有用的信息;基于數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫系統(tǒng)上建立應(yīng)用,形成決策支持系統(tǒng)。 事務(wù)處理 分析處理從數(shù)據(jù) 數(shù)據(jù) 從數(shù)據(jù) 信息(知識)

OLTP OLAP(DM、OLAM)DBDW18數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的區(qū)別19OLTP和OLAP的區(qū)別用戶和系統(tǒng)的面向性:OLTP是面向顧客的,用于事務(wù)和查詢處理OLAP是面向市場的,用于數(shù)據(jù)分析數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù).OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制。20數(shù)據(jù)庫設(shè)計:OLTP采用實體-關(guān)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計.OLAP采用星型或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計.視圖:OLTP主要關(guān)注一個企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。OLAP則相反.訪問模式:OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成.這種系統(tǒng)需要并行和恢復(fù)機制.OLAP系統(tǒng)的訪問大部分是只讀操作.OLTP和OLAP的區(qū)別21數(shù)據(jù)倉庫的獨立物理存儲高性能RDBMS:為OLTP而優(yōu)化訪問方法,索引技術(shù),并發(fā)控制,備份恢復(fù)數(shù)據(jù)倉庫:為OLAP而優(yōu)化復(fù)雜的OLAP查詢,多維視圖,合計表數(shù)據(jù)問題缺失數(shù)據(jù):歷史數(shù)據(jù)數(shù)據(jù)不一致性:數(shù)據(jù)表示、編碼以及格式的不一致數(shù)據(jù)合計:聚集,匯總

22一、數(shù)據(jù)倉庫概述什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫中的基本概念數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫的應(yīng)用領(lǐng)域和案例分析數(shù)據(jù)倉庫產(chǎn)品Web數(shù)據(jù)倉庫——WHOWEDA23數(shù)據(jù)倉庫中的幾個重要概念元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。粒度:數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級別就越小;相反,細化程度越低,粒度級別就越大。分割:結(jié)構(gòu)相同的數(shù)據(jù)被分成多個數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個分割。ETL:ETL(Extract/Transformation/Load)—用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。24數(shù)據(jù)倉庫中的幾個重要概念(續(xù))數(shù)據(jù)集市:小型的,面向部門或工作組級數(shù)據(jù)倉庫。操作數(shù)據(jù)存儲(ODS):能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴展后得到的一個混合形式。四個基本特點:面向主題的、集成的、可變的、當(dāng)前或接近當(dāng)前的。數(shù)據(jù)模型:(1)邏輯數(shù)據(jù)結(jié)構(gòu),包括為有效進行數(shù)據(jù)庫處理由DBMS提供的操作和約束;(2)數(shù)據(jù)表示系統(tǒng)(例如,ER圖和關(guān)系模型)。

25元數(shù)據(jù)元數(shù)據(jù):數(shù)據(jù)倉庫的核心關(guān)于數(shù)據(jù)的數(shù)據(jù),可理解為數(shù)據(jù)倉庫的數(shù)據(jù)字典存儲數(shù)據(jù)模型、定義數(shù)據(jù)結(jié)構(gòu)、轉(zhuǎn)換規(guī)則、倉庫結(jié)構(gòu)和控制信息等。元數(shù)據(jù)的功能:描述倉庫數(shù)據(jù)的來源信息描述有關(guān)數(shù)據(jù)模型的信息描述業(yè)務(wù)數(shù)據(jù)與倉庫數(shù)據(jù)結(jié)構(gòu)間的映射描述倉庫中信息的使用情況好的元數(shù)據(jù)是數(shù)據(jù)倉庫開發(fā)成功的關(guān)鍵因素26典型的元數(shù)據(jù)包括:數(shù)據(jù)倉庫表的結(jié)構(gòu)數(shù)據(jù)倉庫表的屬性數(shù)據(jù)倉庫的源數(shù)據(jù)(記錄系統(tǒng))從記錄系統(tǒng)到數(shù)據(jù)倉庫的映射數(shù)據(jù)模型的規(guī)格說明抽取日志訪問數(shù)據(jù)的公用例行程序27元數(shù)據(jù)分類元數(shù)據(jù)分類:技術(shù)元數(shù)據(jù);商業(yè)元數(shù)據(jù);數(shù)據(jù)倉庫的操作型信息。-[AlexBersonetc,1999]技術(shù)元數(shù)據(jù):數(shù)據(jù)倉庫設(shè)計人員和管理員使用的數(shù)據(jù)倉庫數(shù)據(jù)信息,用于執(zhí)行數(shù)據(jù)倉庫開發(fā)和管理任務(wù)。包括:數(shù)據(jù)源信息轉(zhuǎn)換描述(從操作數(shù)據(jù)庫到數(shù)據(jù)倉庫的映射方法,以及轉(zhuǎn)換數(shù)據(jù)的算法)倉庫對象和數(shù)據(jù)結(jié)構(gòu)定義數(shù)據(jù)清洗和數(shù)據(jù)增加的規(guī)則數(shù)據(jù)映射操作訪問權(quán)限,備份歷史,存檔歷史,信息傳輸歷史,數(shù)據(jù)獲取歷史,數(shù)據(jù)訪問,等等28元數(shù)據(jù)分類

商業(yè)元數(shù)據(jù):使用戶易于理解的信息,包括:主題區(qū)和信息對象類型,包括查詢、報表、圖像、音頻、視頻等支持數(shù)據(jù)倉庫的其它信息,例如信息傳輸系統(tǒng)包括的預(yù)約信息、調(diào)度信息、傳送目標的詳細描述、商業(yè)查詢對象等數(shù)據(jù)倉庫的操作型信息例如,數(shù)據(jù)歷史(快照,版本),擁有權(quán),數(shù)據(jù)抽取的審計跟蹤,數(shù)據(jù)的使用方法

29元數(shù)據(jù)的生命周期元數(shù)據(jù)收集元數(shù)據(jù)管理與維護元數(shù)據(jù)的配備與數(shù)據(jù)訪問和分析工具的集成30元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)庫(metadatarepository)和工具31元數(shù)據(jù)的配備對象數(shù)據(jù)倉庫開發(fā)人員主要使用數(shù)據(jù)來源的物理結(jié)構(gòu)信息、企業(yè)數(shù)據(jù)模型和倉庫數(shù)據(jù)模型數(shù)據(jù)倉庫維護人員最終用戶

最終用戶最關(guān)心兩類元數(shù)據(jù):第一類元數(shù)據(jù)說明倉庫中有什么內(nèi)容,從哪兒來。他們可以按主題域查看倉庫的內(nèi)容。第二類元數(shù)據(jù)是有關(guān)已有的可重復(fù)利用的查詢的信息。32數(shù)據(jù)倉庫和數(shù)據(jù)集市BillInmon:“企業(yè)級數(shù)據(jù)倉庫”RalphKimball:“數(shù)據(jù)集市”折衷:“聯(lián)邦制”模型Ifyoubuildit,Theywillcome33什么是數(shù)據(jù)集市?數(shù)據(jù)集市是一種具有特定應(yīng)用的更小、更集中的數(shù)據(jù)倉庫。針對某個具有戰(zhàn)略意義的應(yīng)用或具體部門級的應(yīng)用,它支持客戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或找到進入新市場的整體解決方案。是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。兩種數(shù)據(jù)集市:依賴型和非依賴型依賴型數(shù)據(jù)集市中的數(shù)據(jù)來自于數(shù)據(jù)倉庫;非依賴型數(shù)據(jù)集市中的數(shù)據(jù)來自業(yè)務(wù)應(yīng)用環(huán)境。

依賴型數(shù)據(jù)集市在建造和結(jié)構(gòu)上是合理、可靠的;非依賴型數(shù)據(jù)集市還存在一些問題。34建立數(shù)據(jù)集市的原因在為企業(yè)建立數(shù)據(jù)倉庫時,開發(fā)人員必須針對所有的用戶、從企業(yè)的全局出發(fā),來對待企業(yè)需要的任何決策分析。這樣建立數(shù)據(jù)倉庫就成了一個代價高、時間長、風(fēng)險大的項目。因此,更加緊湊、擁有完整應(yīng)用工具、投資少、規(guī)模小的數(shù)據(jù)集市(DATAMART)就應(yīng)運而生。35數(shù)據(jù)集市的特征規(guī)模小,面向部門,而不是整個企業(yè)有特定的應(yīng)用,不是滿足企業(yè)所有的決策分析需求;主要由業(yè)務(wù)部門定義、設(shè)計和實現(xiàn);可以由業(yè)務(wù)部門管理和維護;成本低,開發(fā)時間短,投資風(fēng)險較小可以升級到完整的企業(yè)級數(shù)據(jù)倉庫。36數(shù)據(jù)集市還是數(shù)據(jù)倉庫?問題:數(shù)據(jù)集市/數(shù)據(jù)倉庫測試表是=1/否=01.您的公司是否有能力進行一個跨多個年度的數(shù)百萬的項目?2.您的公司各部門是否銷售或服務(wù)于一些情況相似的客戶?3.公司部門的管理人員一般是否同意對業(yè)務(wù)實體的數(shù)據(jù)定義?4.企業(yè)的決策者是否會按部就班地等待發(fā)表意見的時機,而不是具有“我先說”的特點?5.這是一個集中式管理的企業(yè)嗎?6.對于企業(yè)要保留的歷史數(shù)據(jù)是否能形成一致的意見?7.是否有某些業(yè)務(wù)領(lǐng)域?qū)右粋€專用的DSS計劃有極大的興趣?8.您的企業(yè)是否已經(jīng)擁有支持大型數(shù)據(jù)倉庫的硬件設(shè)施?9.決策者對他們決策所需的概括數(shù)據(jù)是否滿意?10.企業(yè)當(dāng)前是否已有正在使用中的數(shù)據(jù)集市?提示:如果您的回答“是”比“否”多,選擇建立數(shù)據(jù)倉庫;如果“否”比“是”多,選擇建立數(shù)據(jù)集市!37問題在很多情況下,OLTP-DW的兩層體系結(jié)構(gòu)并不能涵蓋企業(yè)所有的數(shù)據(jù)處理要求。因為企業(yè)的數(shù)據(jù)處理雖然可以較為粗略地劃分成操作型和分析型兩部分,但有時,這兩種處理之間并沒非常明晰的界限。實際的數(shù)據(jù)處理往往是多層次的。也就是說,有些處理是操作型的,但不適合在操作型DB中進行,而又存在著一些分析型處理,但不適合在DW中進行。38ODS的定義及其特點定義:ODS是用于支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合保存在ODS中的數(shù)據(jù)具有四個基本特點:面向主題集成的可變的數(shù)據(jù)是當(dāng)前或接近當(dāng)前的39實例決策環(huán)境:商場決策人:銷售部門的中下層管理人員決策問題:某商品是否要進貨?40決策所需掌握的情況需要掌握以下信息:儲備是否充足?該商品近期銷售情況如何?資金情況如何?其他商品的庫存情況和銷售情況如何?即:要綜合了解這些信息,才能做較為合理、可行的決策。41在何處實現(xiàn)這些功能?方法1:放到分散的OLTP系統(tǒng)中去做不一定能得到每個部門的準確的一致信息,需要進行部門間的協(xié)調(diào)配合,工作量會很大。方法2:將其放在數(shù)據(jù)量巨大的DW中去處理顯然會較費時,可能涉及許多不必要的數(shù)據(jù)檢索。42這類決策的特點特點:不是在線事務(wù)處理也算不上是高層決策分析。屬于日常管理和控制的決策問題企業(yè)中層的管理者經(jīng)常要解決的、較大量的問題。前述兩種解決方法都不太可行,該如何解決?43另一種數(shù)據(jù)環(huán)境這種信息處理的特點引出了一種數(shù)據(jù)環(huán)境ODS,operationaldatastore操作型數(shù)據(jù)存儲它是在OLTP-DW兩層體系結(jié)構(gòu)的基礎(chǔ)上再增加一個層次ODS,從而形成OLTP-ODS-DW的三層數(shù)據(jù)存儲體系。44ODS中的數(shù)據(jù)內(nèi)容兩類數(shù)據(jù)一方面,它包含企業(yè)全局一致的、細節(jié)的、當(dāng)前或接近當(dāng)前的數(shù)據(jù),可以進行全局在線操作型處理;另一方面,它又是一種面向主題、集成的數(shù)據(jù)環(huán)境,且數(shù)據(jù)量較小,適合于輔助企業(yè)完成日常決策的數(shù)據(jù)分析處理。45關(guān)于ODS因為數(shù)據(jù)面向主題,要求ODS中的數(shù)據(jù)在企業(yè)級上應(yīng)該保持高度的一致性,所以必須對進入ODS數(shù)據(jù)進行轉(zhuǎn)換和集成。區(qū)別于與分散在各個OLTP應(yīng)用的數(shù)據(jù):面向主題、集成化。區(qū)別于DW中的數(shù)據(jù):存放當(dāng)前數(shù)據(jù)或接近當(dāng)前的數(shù)據(jù)可以進行在線修改46一、數(shù)據(jù)倉庫概述什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫中的基本概念數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫的應(yīng)用領(lǐng)域和案例分析數(shù)據(jù)倉庫產(chǎn)品Web數(shù)據(jù)倉庫——WHOWEDA47數(shù)據(jù)倉庫定義3目標:為給數(shù)據(jù)集市裝載數(shù)據(jù)提供基礎(chǔ)組件,并用數(shù)據(jù)集市為最終用戶提供數(shù)據(jù)。功能包括:獲取數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)管理粒度數(shù)據(jù)管理一個特定主題所需的所有數(shù)據(jù)48數(shù)據(jù)倉庫定義3能以多種方式存儲數(shù)據(jù)扁平、無結(jié)構(gòu)文件RDBMS其它技術(shù)(壓縮)并保證:對業(yè)務(wù)系統(tǒng)的影響最小數(shù)據(jù)集市之間數(shù)據(jù)定義的一致性一致的維表!保存適量的歷史數(shù)據(jù)49數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫只是存儲數(shù)據(jù)的一種組織形式,是適合分析、決策用的特定的數(shù)據(jù)存儲系統(tǒng)。數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)數(shù)據(jù)倉庫的物理結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)(DWS)的體系結(jié)構(gòu)50數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)數(shù)據(jù)倉庫從傳統(tǒng)數(shù)據(jù)庫或其他數(shù)據(jù)源獲得原始數(shù)據(jù),先按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層(又分為輕度綜合層和高度綜合層)。隨著時間的推移,由時間控制機制將當(dāng)前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層。51數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)高度綜合

輕度綜合

當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)元數(shù)據(jù)01-02年所有產(chǎn)品月銷售數(shù)據(jù)01-02年產(chǎn)品周銷售數(shù)據(jù)01-02年銷售數(shù)據(jù)1980-2000銷售數(shù)據(jù)數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)52當(dāng)前細節(jié)級數(shù)據(jù) 最近發(fā)生的“事件”,例如:訂單業(yè)務(wù)生命周期相對較短(幾個月,而不是幾年)大數(shù)據(jù)量,復(fù)雜、管理費用高對業(yè)務(wù)分析價值較小儲存在相對廉價的存儲介質(zhì)上53輕度綜合數(shù)據(jù)從當(dāng)前細節(jié)數(shù)據(jù)演算得來一段時間內(nèi)的匯總數(shù)據(jù)(一天或一周)舉例:日常產(chǎn)品銷售量匯總比細節(jié)數(shù)據(jù)保留時間長得多(幾年)54高度綜合數(shù)據(jù)相當(dāng)長一段時間內(nèi)的匯總數(shù)據(jù)(一個月或一年)舉例:產(chǎn)品銷售量的按月匯總具有最長的生命周期匯總的級別越高,可供分析和使用的價值越大。55數(shù)據(jù)倉庫的物理存儲基于多維數(shù)據(jù)模型(所以在邏輯上數(shù)據(jù)倉庫就是一個多維數(shù)據(jù)庫),在實現(xiàn)中一般有兩種途徑:基于多維數(shù)組的數(shù)據(jù)庫基于關(guān)系數(shù)據(jù)庫的星型模式(由關(guān)系型事實表和維表組成)三種變型:雪花模式,多層分維結(jié)構(gòu),事實表族維1 維2 維3 度量(指標)1990 TV 上海 500 1990 TV 北京 6001991 VCD 上海 6001991 VCD 北京 700………數(shù)據(jù)倉庫的物理結(jié)構(gòu)90TV上海56數(shù)據(jù)倉庫的星型模式利用目前成熟的關(guān)系數(shù)據(jù)庫系統(tǒng),成本低,實現(xiàn)快,但數(shù)據(jù)倉庫的效率遠不如多維數(shù)據(jù)庫形式。在這種情況下,主要是利用星型模式(STARSCHEME)來組織數(shù)據(jù)。時間維表 事實表 產(chǎn)品維表地區(qū)維表TIME-IDPRODUCT-IDCITY-IDSALES...TIME-IDTIME...PRODUCT-IDPNAMETYPECOLOR...CITY-IDCNAMEPOPULATION...57數(shù)據(jù)倉庫的體系結(jié)構(gòu)

[Pieter,1998]End-UserDWToolsSourceDatabasesDataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisCentralDataWarehouseCentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS58數(shù)據(jù)倉庫的體系結(jié)構(gòu)源數(shù)據(jù):數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個數(shù)據(jù)源,包括企業(yè)內(nèi)部數(shù)據(jù)、市場調(diào)查報告、政府統(tǒng)計部門提供的統(tǒng)計數(shù)據(jù)及各種文檔之類的外部數(shù)據(jù);倉庫管理:在確定數(shù)據(jù)倉庫的信息需求后,首先進行數(shù)據(jù)建模,然后確定從源數(shù)據(jù)到數(shù)據(jù)倉庫的數(shù)據(jù)抽取、清理(凈化)和轉(zhuǎn)換過程,最后劃分維數(shù)及確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu);數(shù)據(jù)倉庫:包括對數(shù)據(jù)的安全、歸檔、備份、維護、恢復(fù)等工作,這些工作需要利用數(shù)據(jù)庫管理系統(tǒng),即DBMS的功能;分析工具:用于完成實際決策問題所需的各種查詢檢索工具、多維數(shù)據(jù)的OLAP分析工具、數(shù)據(jù)挖掘(DM)工具等,以實現(xiàn)決策支持系統(tǒng)(DSS)的各種要求。59帶ODS的數(shù)據(jù)倉庫體系結(jié)構(gòu)SourceDatabasesHub-DataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisCentralDataWare-houseandODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWTools60數(shù)據(jù)倉庫的焦點問題-數(shù)據(jù)的獲得、存儲和使用

數(shù)據(jù)倉庫和集市的加載能力至關(guān)重要數(shù)據(jù)倉庫和集市的查詢輸出能力至關(guān)重要RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool61一、數(shù)據(jù)倉庫概述什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫中的基本概念數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫的應(yīng)用領(lǐng)域和案例分析數(shù)據(jù)倉庫產(chǎn)品Web數(shù)據(jù)倉庫——WHOWEDA62DW用戶數(shù)的調(diào)查大部分DW系統(tǒng)的用戶數(shù)在100-500之間或500以上DW用戶的調(diào)查調(diào)查對象:3000+用戶或意向用戶63DW數(shù)據(jù)規(guī)模的調(diào)查DW規(guī)模的調(diào)查調(diào)查對象:3000+用戶或意向用戶64數(shù)據(jù)倉庫的開發(fā)費用中等大小的公司,開發(fā)費用在3~6百萬美元。公司越大,開發(fā)費用越高。大型集團或企業(yè)的開發(fā)費用超過1千萬美元,儲存巨大的數(shù)據(jù)量。每年的維護費用大約為10-50%33%硬件/33%軟件/33%服務(wù)65數(shù)據(jù)倉庫的開發(fā)周期對于中等大小的公司,開發(fā)整個系統(tǒng)需要2~4年。首次迭代開發(fā)過程需要6~12個月后續(xù)迭代開發(fā)過程需要3~6個月66數(shù)據(jù)倉庫的開發(fā)風(fēng)險非商業(yè)目標驅(qū)動的開發(fā)具有很高的失敗幾率,很難真正滿足商業(yè)需求。失敗的原因不在于技術(shù)方面,而是因為一些“彈性”(軟方面)的問題成功的項目會帶來巨額回報(100%-2000%ROI)99%管理策略+1%技術(shù)67數(shù)據(jù)倉庫的主要應(yīng)用領(lǐng)域(1)證券業(yè):可處理客戶分析、帳戶分析、證券交易數(shù)據(jù)分析、非資金交易分析等業(yè)界關(guān)心的主題,為客戶提供針對其個人習(xí)慣和投資組合的投資建議,從而真正作到對客戶的貼心服務(wù)。銀行業(yè):防范銀行的經(jīng)營風(fēng)險、實現(xiàn)科學(xué)管理以及進行決策。保險業(yè):滿足保險行業(yè)日益增長的各種查詢、統(tǒng)計、報表以及分析的需求,提高防范和化解經(jīng)營風(fēng)險的能力,有效利用這些數(shù)據(jù)來實現(xiàn)經(jīng)營目標,預(yù)測保險業(yè)的發(fā)展趨勢,甚至利用這些數(shù)據(jù)來設(shè)計保險企業(yè)的發(fā)展宏圖,在激烈的競爭中贏得先機。68數(shù)據(jù)倉庫的主要應(yīng)用領(lǐng)域(續(xù))稅務(wù)領(lǐng)域:查出應(yīng)稅未報者和瞞稅漏稅者,并對其進行跟蹤;對不同行業(yè)、產(chǎn)品和市場中納稅人的行為特性進行描述,找出普遍規(guī)律,謀求因勢利導(dǎo)的稅務(wù)征稽策略;對不同行業(yè)、產(chǎn)品和市場應(yīng)收稅款進行預(yù)測,制定最有效的征收計劃。制造業(yè):質(zhì)量控制分析:為什么某種產(chǎn)品廢品率很高?運行效率分析:什么因素導(dǎo)致了生產(chǎn)效率的降低?保健領(lǐng)域:揭示出如何以較低費用獲取較高質(zhì)量的治療策略的趨勢和模式。69數(shù)據(jù)倉庫的主要應(yīng)用領(lǐng)域(續(xù))營銷業(yè)制訂定價政策和商品分配政策確定銷售成功或失敗的特征對銷售成功的產(chǎn)品進行評估,并分析成功的關(guān)鍵因素發(fā)現(xiàn)忠實客戶的檔案特征分離和分析流失的客戶評估銷售人員的銷售業(yè)績70數(shù)據(jù)倉庫的主要應(yīng)用領(lǐng)域(續(xù))

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論