![數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì).doc_第1頁(yè)](http://file.renrendoc.com/FileRoot1/2020-1/14/12cf4d58-73f2-4a4e-bf7e-c31c0c749214/12cf4d58-73f2-4a4e-bf7e-c31c0c7492141.gif)
![數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì).doc_第2頁(yè)](http://file.renrendoc.com/FileRoot1/2020-1/14/12cf4d58-73f2-4a4e-bf7e-c31c0c749214/12cf4d58-73f2-4a4e-bf7e-c31c0c7492142.gif)
![數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì).doc_第3頁(yè)](http://file.renrendoc.com/FileRoot1/2020-1/14/12cf4d58-73f2-4a4e-bf7e-c31c0c749214/12cf4d58-73f2-4a4e-bf7e-c31c0c7492143.gif)
![數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì).doc_第4頁(yè)](http://file.renrendoc.com/FileRoot1/2020-1/14/12cf4d58-73f2-4a4e-bf7e-c31c0c749214/12cf4d58-73f2-4a4e-bf7e-c31c0c7492144.gif)
![數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì).doc_第5頁(yè)](http://file.renrendoc.com/FileRoot1/2020-1/14/12cf4d58-73f2-4a4e-bf7e-c31c0c749214/12cf4d58-73f2-4a4e-bf7e-c31c0c7492145.gif)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) DW設(shè)計(jì)是一個(gè)操作型系統(tǒng)設(shè)計(jì)方法演變而來(lái)的范例。DW設(shè)計(jì)者不僅要設(shè)計(jì)一個(gè)數(shù)據(jù)庫(kù)(DW用DB實(shí)現(xiàn))和一個(gè)用戶(hù)接口(數(shù)據(jù)展現(xiàn)部分)。而且還必須設(shè)計(jì)數(shù)據(jù)與OLTP系統(tǒng)的接口,數(shù)據(jù)裝載策略,數(shù)據(jù)存取工具,用戶(hù)培訓(xùn)方案和不間斷的維護(hù)方案。即必須考慮許多在操作型系統(tǒng)設(shè)計(jì)中不必考慮的問(wèn)題。本章的意圖就是幫助你完善的理解如何建立和實(shí)現(xiàn)DW和在一個(gè)完整的DW設(shè)計(jì)必須考慮的問(wèn)題。 本章的主要內(nèi)容:1 數(shù)據(jù)倉(cāng)庫(kù)的生命周期2 數(shù)據(jù)倉(cāng)庫(kù)的方法論3 數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃4 數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)體系結(jié)構(gòu)5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型設(shè)計(jì)6 數(shù)據(jù)倉(cāng)庫(kù)的粒度設(shè)計(jì)7 數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)8 數(shù)據(jù)倉(cāng)庫(kù)解決方案31數(shù)據(jù)倉(cāng)庫(kù)的生命周期。按照生命周期發(fā)法可將數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)的全部過(guò)程分成三個(gè)階段:1 數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃分析階段2 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)實(shí)施階段3 數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用階段這三個(gè)階段不是簡(jiǎn)單的循環(huán)往復(fù),而是不斷完善提高的過(guò)程。一般情況下數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)都不可能在一個(gè)循環(huán)過(guò)程中完成,而是經(jīng)過(guò)多次循環(huán)開(kāi)發(fā),每次循環(huán)都會(huì)給系統(tǒng)增加新的功能,這種循環(huán)的工作永遠(yuǎn)不會(huì)終結(jié),數(shù)據(jù)倉(cāng)庫(kù)也就一直處于一個(gè)不斷完善、不斷提高的循環(huán)玩傅過(guò)程中。一 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)的生命周期規(guī)劃與確定需求開(kāi)發(fā)概念模型數(shù)據(jù)倉(cāng)庫(kù)評(píng)價(jià)數(shù)據(jù)倉(cāng)庫(kù)維護(hù)數(shù)據(jù)藏庫(kù)應(yīng)用數(shù)據(jù)裝載預(yù)測(cè)試開(kāi)發(fā)中間件確定數(shù)據(jù)抽取源數(shù)據(jù)庫(kù)于遠(yuǎn)數(shù)據(jù)設(shè)計(jì)設(shè)計(jì)體系結(jié)構(gòu)開(kāi)發(fā)邏輯模型數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程 規(guī)劃分析階段 使用維護(hù)階段 設(shè)計(jì)實(shí)施階段 圖3-1 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)的生命周期 DW的開(kāi)發(fā)與應(yīng)用的階段是對(duì)DW開(kāi)發(fā)應(yīng)用的生命周期描述。按照生命周期法可將DW開(kāi)發(fā)應(yīng)用的全過(guò)程分成:DW規(guī)劃分析、DW設(shè)計(jì)實(shí)施和DW應(yīng)用三個(gè)階段,完成這三個(gè)階段并不意味著DW開(kāi)發(fā)的終止,而是DW開(kāi)發(fā)向更高階段發(fā)展的一個(gè)轉(zhuǎn)變。一方面通過(guò)這三個(gè)階段的DW開(kāi)發(fā)積累了DW開(kāi)發(fā)應(yīng)用經(jīng)驗(yàn),可對(duì)原DW提出改進(jìn)的建議,使原DW通過(guò)改進(jìn)得到提高,另一方面,用戶(hù)新的需求也會(huì)豐富原DW的設(shè)計(jì),這就是螺旋式周期性開(kāi)發(fā)方法。1 DW規(guī)劃分析階段調(diào)查、分析DW環(huán)境,完成DW的開(kāi)發(fā)規(guī)劃,卻定DW開(kāi)發(fā)需求,建立包括實(shí)體圖、星型模型、雪花模型、元數(shù)據(jù)模型及數(shù)據(jù)源分析的主題域數(shù)據(jù)模型,并且根據(jù)主題域數(shù)據(jù)模型開(kāi)發(fā)DW邏輯模型。2 DW設(shè)計(jì)實(shí)施階段根據(jù)DW的邏輯模型設(shè)計(jì)DW體系結(jié)構(gòu);設(shè)計(jì)DW域物理數(shù)據(jù)庫(kù),用武力數(shù)據(jù)庫(kù)元數(shù)據(jù)裝載面向最終用戶(hù)的元數(shù)據(jù)庫(kù);為DW中每個(gè)目標(biāo)字段確定他在業(yè)務(wù)系統(tǒng)或外部數(shù)據(jù)源中的數(shù)據(jù)來(lái)源;開(kāi)發(fā)或購(gòu)買(mǎi)用于抽取、清洗、轉(zhuǎn)換和聚合數(shù)據(jù)等中間件程序;將數(shù)據(jù)從數(shù)據(jù)源加載到DW,并且進(jìn)行測(cè)試。3 DW使用維護(hù)階段DW投入使用,且在使用中改進(jìn)、維護(hù)DW;對(duì)DW進(jìn)行評(píng)價(jià),為下一個(gè)循環(huán)開(kāi)發(fā)提供依據(jù)。二DW開(kāi)發(fā)的特點(diǎn)DW的使用就是在DW中建立決策支持系統(tǒng)應(yīng)用,這與業(yè)務(wù)處理系統(tǒng)應(yīng)用環(huán)境有本質(zhì)的區(qū)別,這也導(dǎo)致DW開(kāi)發(fā)與傳統(tǒng)的OLTP系統(tǒng)開(kāi)發(fā)載開(kāi)發(fā)出發(fā)點(diǎn)、需求確定、開(kāi)發(fā)過(guò)程中有相當(dāng)大的不同。1 數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)是從數(shù)據(jù)出發(fā)的創(chuàng)建DW是在原有的數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)基礎(chǔ)上進(jìn)行的,即從存在于操作性環(huán)境的數(shù)據(jù)出發(fā),進(jìn)行DW的創(chuàng)建工作,我們稱(chēng)之為“數(shù)據(jù)驅(qū)動(dòng)”。數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)方法的中心是利用數(shù)據(jù)模型有效的識(shí)別原有的數(shù)據(jù)庫(kù)中的數(shù)據(jù)和DW中主題的數(shù)據(jù)“共同性”。2 DW使用的需求不能再開(kāi)發(fā)初期完全明確面向應(yīng)用的數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)往往有一組教確定的應(yīng)用需求,這是數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)的出發(fā)點(diǎn)和基礎(chǔ)。而在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并不存在操做型環(huán)境中的固定的且較確切的物流、數(shù)據(jù)流、和信息流,數(shù)據(jù)分析處理的需求更加靈活,更沒(méi)有固定的模式,甚至用戶(hù)自己也對(duì)所要進(jìn)行的分析處理不能事先全部確定。因而在DW開(kāi)發(fā)初期不能明確了解DW用戶(hù)的全部使用需求。3 數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)是一個(gè)不斷循環(huán)的過(guò)程,是啟發(fā)式的開(kāi)發(fā) DW的開(kāi)發(fā)是一個(gè)動(dòng)態(tài)反饋和循環(huán)的過(guò)程,一方面DW的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、力度、分割以及其他物理設(shè)計(jì)應(yīng)該根據(jù)用戶(hù)所返回的信息不斷的調(diào)整和完善,以提高系統(tǒng)的效率和性能;另一方面,通過(guò)不斷理解用戶(hù)的分析需求,不斷的調(diào)整和完善,以求向用戶(hù)提供更準(zhǔn)確、更有效的決策信息。 3.2 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)的方法論 建立一個(gè)DW一般需做以下五個(gè)方面的工作:1、任務(wù)和環(huán)境的評(píng)估。2、需求的收集和分析。3、構(gòu)造DW。4、DW技術(shù)的培訓(xùn)。5、回顧、總結(jié)和再發(fā)展。一、 任務(wù)和環(huán)境的評(píng)估 1、目標(biāo):因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)是建立在原有的運(yùn)行系統(tǒng)之上的,因此要結(jié)合單位的現(xiàn)狀來(lái)明確數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)任務(wù)。了解數(shù)據(jù)源所在系統(tǒng)和其中數(shù)據(jù)的狀況、數(shù)據(jù)類(lèi)型、工作平臺(tái)、數(shù)據(jù)量、數(shù)據(jù)質(zhì)量、DW的環(huán)境、網(wǎng)絡(luò)技術(shù)狀況。 2、目的: 看DW的任務(wù)是否可行。 所建立的DW是否是用戶(hù)所期望的。 有沒(méi)有不逾越的障礙。 確定DW系統(tǒng)成功與否的基本原則。 3、組織:高層負(fù)責(zé)人參加并組織項(xiàng)目組。 人員:項(xiàng)目總負(fù)責(zé)人 與DW相關(guān)的業(yè)務(wù)部門(mén)負(fù)責(zé)人 計(jì)算機(jī)軟/硬件負(fù)責(zé)人 DBA 網(wǎng)絡(luò)人員 4、項(xiàng)目組的任務(wù):初步確定主題 主題的層次結(jié)構(gòu)二、 需求的收集和分析。 1、任務(wù): 了解決策者現(xiàn)在的工作目標(biāo)。 現(xiàn)在獲得決策支持信息的方法、渠道。 和競(jìng)爭(zhēng)對(duì)手的差距。 決策者希望DW提供什么。 制定系統(tǒng)的邏輯模型。 分析數(shù)據(jù)源的物理存儲(chǔ)狀況、運(yùn)行平臺(tái)、數(shù)據(jù)質(zhì)量、硬件、軟件和網(wǎng)絡(luò)的限制條件。 2、分析文檔。 項(xiàng)目概述。差距分析。系統(tǒng)基本架構(gòu)圖示。邏輯模型。物理模型。DW的初始裝載和更新策略。 DW的運(yùn)行計(jì)劃。決策信息展現(xiàn)的希望和需求。 DW建成的時(shí)限。三、 構(gòu)造DW構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)包括數(shù)據(jù)倉(cāng)庫(kù)的管理、數(shù)據(jù)倉(cāng)庫(kù)的組織和決策支持信息的展現(xiàn)三部分。 設(shè)計(jì)和編寫(xiě)數(shù)據(jù)抽取程序/工具。 設(shè)計(jì)和編寫(xiě)數(shù)據(jù)轉(zhuǎn)換程序/工具。 1、DW的管理 設(shè)計(jì)和編寫(xiě)數(shù)據(jù)更新程序/工具。 設(shè)計(jì)和編寫(xiě)運(yùn)行的接口程序。 建立這一階段的所有管理的數(shù)據(jù)(元數(shù)據(jù)) 程序統(tǒng)一標(biāo)準(zhǔn)命名、建檔。 初始裝載 建立索引2、DW的組織 建立數(shù)據(jù)視圖 DW及工作平臺(tái)的安全檢查 裝入數(shù)據(jù)和應(yīng)用功能建立此階段的元數(shù)據(jù)。3、決策支持信息的展現(xiàn) 利用多維數(shù)據(jù)展現(xiàn)、數(shù)據(jù)挖掘等一些工具可預(yù)先制作好許多常規(guī)的信息市場(chǎng)項(xiàng)目供支持決策使用,也可以直接操作主題數(shù)據(jù)以得出新的決策支持信息。四、 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的培訓(xùn)。 培訓(xùn)內(nèi)容:1、DW中的數(shù)據(jù)內(nèi)容(包括邏輯模型、物理模型)、數(shù)據(jù)質(zhì)量。 2、元數(shù)據(jù)的內(nèi)容、位置,如何使用。 3、用戶(hù)界面和功能介紹。4、數(shù)據(jù)更新計(jì)劃。5、DW的安全規(guī)則。6、從OLTP到DW的數(shù)據(jù)流。7、全部的數(shù)據(jù)轉(zhuǎn)換工作。8、數(shù)據(jù)裝載和更新的策略。五、 回顧、總結(jié)和再發(fā)展。 1、哪些地方可以做得更好。2、業(yè)務(wù)部門(mén)對(duì)開(kāi)發(fā)的支持是否到位。3、雙方如何合作得更好。4、什么是業(yè)務(wù)部門(mén)立竿見(jiàn)影的效益。5、主題選擇是否得當(dāng)。6、階段成果是什么?反映如何?7、DW采用是否提高了公司的競(jìng)爭(zhēng)力。8、投資回報(bào)率是否達(dá)到預(yù)計(jì)的水平。六、 SAS數(shù)據(jù)倉(cāng)庫(kù)方法論 見(jiàn)圖3-2評(píng) 估 需求調(diào)查 主要數(shù)據(jù)模型和DW 主題的選擇總 結(jié)設(shè) 計(jì) 設(shè)計(jì)DW結(jié)構(gòu)、數(shù)據(jù)建摸、過(guò)程建摸構(gòu) 建 物理的DW 組裝、應(yīng)用程序編碼,測(cè)試、驗(yàn)收 部 署 、把DW展示給業(yè)務(wù)用戶(hù),培訓(xùn) 圖 3-2 SAS數(shù)據(jù)倉(cāng)庫(kù)方法論總結(jié):1、總結(jié)早期項(xiàng)目實(shí)施成功和失敗的經(jīng)驗(yàn)和公布以后努力的結(jié)果。2、應(yīng)用配置是否如愿實(shí)現(xiàn),如有必要須調(diào)整計(jì)劃。3、評(píng)估項(xiàng)目對(duì)單位的影響和得益。 3.3 數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)體系結(jié)構(gòu) DWS的技術(shù)體系結(jié)構(gòu)如圖3-2所示數(shù)據(jù)獲取模塊數(shù)據(jù)管理員模塊 DW的數(shù)據(jù)信息目錄模塊DW的元數(shù)據(jù)數(shù)據(jù)傳遞模塊中間件模塊數(shù)據(jù)訪問(wèn)模塊設(shè)計(jì)模塊 管 理 模 塊數(shù)據(jù)源外部元數(shù)據(jù)外部數(shù)據(jù)圖3-3 DataBase Association 公司定義的DW技術(shù)體系結(jié)構(gòu)一、 設(shè)計(jì)模塊功能:是由DW的設(shè)計(jì)者和管理者來(lái)設(shè)計(jì)和定義的DW的。在設(shè)計(jì)DW時(shí)必須考慮到的其他因素還包括DB和瞬時(shí)數(shù)據(jù)的處理。某些DW數(shù)據(jù)庫(kù)還包括星型模型的非規(guī)范化DB設(shè)計(jì)。二、 數(shù)據(jù)獲取模塊功能:用于開(kāi)發(fā)和運(yùn)行數(shù)據(jù)獲取應(yīng)用程序,從源系統(tǒng)中獲取數(shù)據(jù)并加到DW中。內(nèi)容:1、數(shù)據(jù)抽取規(guī)則界定數(shù)據(jù)源。2、數(shù)據(jù)情況記錄和字段的重組,增補(bǔ)丟失的字段值,數(shù)據(jù)的整性和一致性檢查。3、數(shù)據(jù)增強(qiáng)字段值的解碼和轉(zhuǎn)換,增加時(shí)間屬性(若沒(méi)有),數(shù)據(jù)的概括或者衍生值的計(jì)算。4、數(shù)據(jù)傳輸。5、生成的定義作為元數(shù)據(jù)存入信息目錄模塊。三、 數(shù)據(jù)管理員模塊。功能:是DW用來(lái)生成、管理和訪問(wèn)倉(cāng)庫(kù)中數(shù)據(jù)(很可能還有元數(shù)據(jù))的模塊。一般使用RDBMS或MDBMS(多維DBMS)。四、 管理模塊。 功能:完成維護(hù)DW環(huán)境的系統(tǒng)管理服務(wù)。 內(nèi)容:1、管理數(shù)據(jù)獲取操作。 2、倉(cāng)庫(kù)數(shù)據(jù)歸檔。 3、倉(cāng)庫(kù)數(shù)據(jù)備份。 4、倉(cāng)庫(kù)數(shù)據(jù)恢復(fù)。 5、訪問(wèn)DW的安全及授權(quán)等。五、 信息目錄模塊功能:幫助技術(shù)用戶(hù)和業(yè)務(wù)用戶(hù)訪問(wèn)DWS,通過(guò)一套維護(hù)和觀察倉(cāng)庫(kù)元數(shù)據(jù)的工具實(shí)現(xiàn)這一功能。主要元素:1、源數(shù)據(jù)管理員:維護(hù)、輸入/出倉(cāng)庫(kù)元數(shù)據(jù)。 2、技術(shù)元數(shù)據(jù)。 3、信息助理:為最終用戶(hù)提供訪問(wèn)元數(shù)據(jù)的簡(jiǎn)單方法,有些產(chǎn)品能幫助用戶(hù)產(chǎn)生、編寫(xiě)、運(yùn)行查詢(xún)、報(bào)表、分析并預(yù)定倉(cāng)庫(kù)中找不到數(shù)據(jù)和信息。六、 數(shù)據(jù)訪問(wèn)模塊功能:提供訪問(wèn)工具,使用戶(hù)訪問(wèn)和分析倉(cāng)庫(kù)中的數(shù)據(jù)。訪問(wèn)工具:1、查詢(xún)、報(bào)表自動(dòng)生成和數(shù)據(jù)分析工具。 2、能訪問(wèn)RDBMS的多維分析工具。 3、能訪問(wèn)MDBMS的多維分析工具。 4、運(yùn)行4GL或可視化程序設(shè)計(jì)語(yǔ)言的DSS應(yīng)用程序開(kāi)發(fā)工具。七、 中間件模塊功能:將DW數(shù)據(jù)與最終用戶(hù)工具連接起來(lái),專(zhuān)門(mén)中間件: 智能數(shù)據(jù)倉(cāng)庫(kù)中間件位用戶(hù)提供從業(yè)務(wù)角度、數(shù)據(jù)倉(cāng)庫(kù)的視角;并能監(jiān)視和跟蹤對(duì)DW的訪問(wèn)情況。分析服務(wù)器能改善對(duì)RDBMS數(shù)據(jù)進(jìn)行多維分析的效果。八、 數(shù)據(jù)傳遞模塊功能:將數(shù)據(jù)集合分布到其他DW和最終用戶(hù)產(chǎn)品中,如電子報(bào)表。數(shù)據(jù)的傳遞可以在一天中的某一時(shí)刻進(jìn)行,也可以在一個(gè)外部事件結(jié)束時(shí)進(jìn)行。 3.4數(shù)據(jù)模型設(shè)計(jì) 在創(chuàng)建DW時(shí)需要使用各種數(shù)據(jù)模型對(duì)DW進(jìn)行描述,DW的開(kāi)發(fā)人員依據(jù)這些數(shù)據(jù)模型才能開(kāi)發(fā)出一個(gè)滿(mǎn)足用戶(hù)需求的DW。DW的各種數(shù)據(jù)模型在DW的開(kāi)發(fā)中作用很大,主要體現(xiàn)在模型終止旱由于設(shè)計(jì)有關(guān)的屬性,排除了無(wú)關(guān)的信息,突出了與任務(wù)相關(guān)的重要信息,是開(kāi)發(fā)人員能夠?qū)⒆⒁饬性贒W開(kāi)發(fā)的主要部分。因此,數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和OLTP系統(tǒng)的設(shè)計(jì)一樣,也需要先進(jìn)行模型的設(shè)計(jì)。一、 不同層次模型之間的關(guān)系.。1、 企業(yè)數(shù)據(jù)模型:特點(diǎn):只包含原始數(shù)據(jù)。OLTP、DW的數(shù)據(jù)模型均源于企業(yè)模型。2、 操作型數(shù)據(jù)模型特點(diǎn):基本等價(jià)于企業(yè)數(shù)據(jù)模型。在數(shù)據(jù)庫(kù)設(shè)計(jì)之前要加入性能因素。3、 DW數(shù)據(jù)模型。特點(diǎn):去掉純操作性數(shù)據(jù)。給鍵碼增加時(shí)間因素合適之處增加導(dǎo)出數(shù)據(jù)把OLTP系統(tǒng)中數(shù)據(jù)關(guān)系變?yōu)槿斯りP(guān)系。4、 不同層次模型之間的關(guān)系(1) OLTP系統(tǒng)的數(shù)據(jù)模型來(lái)源于企業(yè)數(shù)據(jù)模型。 (2) DW數(shù)據(jù)模型源于OLTP系統(tǒng)數(shù)據(jù)模型以及企業(yè)數(shù)據(jù)模型。二、 DW數(shù)據(jù)模型的設(shè)計(jì)1DW數(shù)據(jù)模型的種類(lèi):(1) 概念模型DW的概念模型是一個(gè)DW的粗略藍(lán)本,以此為工具卻人DW的設(shè)計(jì)者是否已經(jīng)正確的理解了DW最終用戶(hù)的信息需求。在概念模型的設(shè)計(jì)中,必須將注意力集中在對(duì)上午的理解上,保證DW的所有業(yè)務(wù)都被歸納進(jìn)概念模型。(2) 邏輯模型 DW的邏輯模型是維度模型,采用星型模型或雪花模型。在星型模型中主要設(shè)計(jì)事實(shí)表和維度表。 (3) 物理模型關(guān)系表在物力上實(shí)現(xiàn)的模型。通常進(jìn)行索引、簇集和視圖的設(shè)計(jì)等,以及為提高性能而作的一些工作。 (4) 元數(shù)據(jù)模型 OIM 模型Ralph Kimball 提出的總線模型 總線模型的基本思想是將其他需要元數(shù)據(jù)或產(chǎn)生元數(shù)據(jù)的設(shè)施都連接到這一總線上,這樣就可以實(shí)現(xiàn)數(shù)據(jù)內(nèi)部的移動(dòng)。(5) 粒度模型 單粒度模型,在系統(tǒng)中只設(shè)計(jì)一個(gè)粒度 多粒度模型,在系統(tǒng)中涉及多個(gè)粒度,低粒度,中粒度,高粒度并存。 混合粒度, 在系統(tǒng)中,有些維度用單粒度,有些維度用多粒度。 (6)數(shù)據(jù)模型關(guān)系圖 數(shù)據(jù)模型關(guān)系圖如圖3-4所示?,F(xiàn)實(shí)世界數(shù)據(jù)倉(cāng)庫(kù)概念模型物理模型邏輯模型元數(shù)據(jù)模型數(shù)據(jù)粒度模型圖3-4 數(shù)據(jù)模型關(guān)系圖 2.概念模型設(shè)計(jì) 在設(shè)計(jì)DW的概念模型時(shí),可以采用在業(yè)務(wù)處理系統(tǒng)中經(jīng)常采用的實(shí)體聯(lián)系模型,即ER圖。這是一種描述組織概況的藍(lán)圖,包括整個(gè)組織系統(tǒng)中各個(gè)部門(mén)的業(yè)務(wù)處理業(yè)務(wù)處理數(shù)據(jù),藍(lán)圖設(shè)計(jì)中涉及各個(gè)部門(mén)所需要的元數(shù)據(jù),并且提供本部門(mén)所擁有系統(tǒng)的元數(shù)據(jù)。從概念模型中應(yīng)體現(xiàn)出那些部門(mén)需要那些共同的數(shù)據(jù)。 設(shè)計(jì)方法 首先在建模之前定義數(shù)據(jù)模型的邊界 先建立企業(yè)內(nèi)不同群體的實(shí)體-聯(lián)系模型,然后進(jìn)行集成企業(yè)的總體概念模型 注意事項(xiàng) 在DW的數(shù)據(jù)模型中不包含操作性數(shù)據(jù),只包含用戶(hù)感興趣的分析數(shù)據(jù)、描述數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)例:在商品銷(xiāo)售分析DW模型中商品的銷(xiāo)售數(shù)量、金額、企業(yè)利潤(rùn)等是分析數(shù)據(jù)銷(xiāo)售的時(shí)間、地點(diǎn)等使用戶(hù)感興趣的描述數(shù)據(jù)銷(xiāo)售產(chǎn)品的詳細(xì)情況、購(gòu)買(mǎi)商品的客戶(hù)詳細(xì)情況等時(shí)細(xì)節(jié)數(shù)據(jù)。 數(shù)據(jù)的歷史變遷性DW的數(shù)據(jù)模型增加時(shí)間屬性作為碼的一部分,在DW的數(shù)據(jù)模型中需要反映銷(xiāo)售組織的歷史變遷、業(yè)務(wù)的發(fā)展,而業(yè)務(wù)處理系統(tǒng)質(zhì)包含當(dāng)前數(shù)據(jù) 數(shù)據(jù)的概括性DW的數(shù)據(jù)模型中增加了一些衍生數(shù)據(jù),專(zhuān)門(mén)用于分析的DW系統(tǒng)需要一些概括性的數(shù)據(jù),這些數(shù)據(jù)在業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)模型重視不需要的。 示例: 業(yè)務(wù)描述 有一家大型雜貨連鎖店,其業(yè)務(wù)涵蓋分布在美國(guó)5個(gè)州范圍內(nèi)的100多家雜貨店。每個(gè)商店都有完整的配套部門(mén),包括雜貨、冷凍食品、奶制品、肉制品、農(nóng)產(chǎn)品、面包店、花卉門(mén)市等,共有6萬(wàn)多品種的產(chǎn)品放在貨架上。每個(gè)品種的產(chǎn)品被稱(chēng)作村儲(chǔ)藏單位(SUK),這些產(chǎn)品來(lái)自外部廠家,并在包裝上印有條形碼,這些條形碼被叫做統(tǒng)一產(chǎn)品編碼(UPC).數(shù)據(jù)從雜貨店中收集在POS(Point Of Sale)機(jī)中。管理目標(biāo) 如何時(shí)產(chǎn)品的訂購(gòu)、儲(chǔ)存、與銷(xiāo)售運(yùn)作能最大限度的實(shí)現(xiàn)利潤(rùn),而開(kāi)展后勤工作。要實(shí)現(xiàn)管理目標(biāo),就要進(jìn)行以下方面的工作1) 降低采購(gòu)成本2) 降低額外開(kāi)銷(xiāo)3) 盡可能多的吸引客戶(hù)4) 開(kāi)展促銷(xiāo)活動(dòng) 如:臨時(shí)降價(jià)、做廣告、廊端展銷(xiāo)、發(fā)行優(yōu)惠卷等。概念設(shè)計(jì) 根據(jù)業(yè)務(wù)描述和管理目標(biāo),抽象出實(shí)體有:商店、采購(gòu)、供應(yīng)商、倉(cāng)庫(kù)、銷(xiāo)售、客戶(hù)、促銷(xiāo)、財(cái)務(wù)等。 這些實(shí)體之間的關(guān)系用ER圖表詩(shī)如圖3-商店促銷(xiāo)客戶(hù)銷(xiāo)售財(cái)務(wù)倉(cāng)庫(kù)供應(yīng)商采購(gòu) 圖3-5 零售分析ER圖3. 邏輯模型設(shè)計(jì)1) 邏輯模型表示維度建模是一種邏輯技術(shù),這種技術(shù)試圖采用某種直觀的標(biāo)準(zhǔn)框架結(jié)構(gòu)來(lái)表現(xiàn)數(shù)據(jù),一般設(shè)計(jì)成星型模型結(jié)構(gòu)。 例如,零售業(yè)營(yíng)銷(xiāo)分析的星型模型如圖 3-6 所示 產(chǎn)品維時(shí)間鍵產(chǎn)品鍵商店鍵客戶(hù)鍵職員鍵銷(xiāo)售額成本金額產(chǎn)品鍵描述品牌類(lèi)別包裝類(lèi)型尺寸客戶(hù)鍵客戶(hù)姓名購(gòu)買(mǎi)介紹信用概況統(tǒng)計(jì)類(lèi)型地址日期星期幾星期數(shù)月份商店鍵商店標(biāo)示號(hào)商店名稱(chēng)地址地區(qū)樓層類(lèi)型促銷(xiāo)鍵待定促銷(xiāo)屬性 時(shí)間維 零售營(yíng)銷(xiāo) 商店維 客戶(hù)維 促銷(xiāo)維 圖36 邏輯設(shè)計(jì)示例 2邏輯模型與實(shí)體-關(guān)系建模之間的關(guān)系實(shí)體聯(lián)系圖是代表企業(yè)中每一個(gè)可能的業(yè)務(wù)過(guò)程,一個(gè)實(shí)體聯(lián)系圖可以拆分成多個(gè)有維表、事實(shí)表構(gòu)成的邏輯模型。由于E-R圖在一個(gè)圖中表示多個(gè)處理,因此將E-R圖轉(zhuǎn)換成維度建模時(shí)的步驟是:(1) 將E-R圖分成獨(dú)立的業(yè)務(wù)處理,然后對(duì)每個(gè)業(yè)務(wù)處理單度建模。(2) 在E-R圖中,對(duì)包含數(shù)字型事實(shí)和可加性非碼事實(shí)的實(shí)體,選擇其中的多對(duì)多關(guān)系,并且將他們?cè)O(shè)計(jì)成各個(gè)事實(shí)表。(3) 將剩下的實(shí)體進(jìn)行非規(guī)范化處理,涉及稱(chēng)為表。如果一個(gè)維表連接到一個(gè)以上的事實(shí)表,這個(gè)維表一定設(shè)計(jì)成一致性維度表。大型企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的主維度模型大致包括10-25個(gè)星型模型,每個(gè)星型模型通常連接515個(gè)維表。在進(jìn)行設(shè)計(jì)時(shí),不同事實(shí)表之間就能共享其中的許多維表。 3基本設(shè)計(jì)技術(shù)(1) 正確區(qū)分事實(shí)、屬性和維度維度模型需要隊(duì)事實(shí)和屬性進(jìn)行區(qū)分,業(yè)務(wù)層的很多事實(shí)都是數(shù)值型的,特別是該數(shù)值是浮點(diǎn)數(shù)時(shí),他很可能是一個(gè)事實(shí),而不是屬性。 例如“標(biāo)準(zhǔn)價(jià)格”,好像是產(chǎn)品維度的一個(gè)屬性,似乎是事先一致的常量,但每年對(duì)標(biāo)準(zhǔn)價(jià)格進(jìn)行一、兩次調(diào)整,因此應(yīng)該設(shè)計(jì)成事實(shí)。 屬性通常指文本字段,例如產(chǎn)品描述。 維度是類(lèi)似于文本形式的屬性組合,固定的數(shù)值型屬性應(yīng)放在維表中。 例如,零售數(shù)據(jù)倉(cāng)庫(kù)中,至少應(yīng)有一個(gè)產(chǎn)品維度,一個(gè)商店維度,一個(gè)客戶(hù)維,一個(gè)時(shí)間維,一個(gè)促銷(xiāo)維。 (2)事實(shí)表的設(shè)計(jì)方法事實(shí)表時(shí)數(shù)據(jù)倉(cāng)庫(kù)中最大的表,在設(shè)計(jì)時(shí),一定注意使事實(shí)表盡可能的小,因?yàn)檫^(guò)大的事實(shí)表在表的處理、備份和恢復(fù)、用戶(hù)查詢(xún)等方面要用較長(zhǎng)的時(shí)間。具體方法主要有: * 減少列的數(shù)量* 降低每列的大小* 把歷史數(shù)據(jù)存檔* 對(duì)行進(jìn)行分割例如 零售營(yíng)銷(xiāo)事實(shí)表設(shè)計(jì)如下:日期關(guān)鍵字產(chǎn)品關(guān)鍵字商場(chǎng)關(guān)鍵字促銷(xiāo)關(guān)鍵字POS事務(wù)編號(hào)銷(xiāo)售量銷(xiāo)售額成本金額毛利潤(rùn)金額 (3)維表的設(shè)計(jì)維表的屬性必須具有以下特征:# 可用文字描述# 離散值# 有規(guī)定的約束# 在分析時(shí)可提供行標(biāo)題 時(shí)間維在數(shù)據(jù)倉(cāng)庫(kù)中占有特定位置,建議使用時(shí)間維度。 下面介紹Ralph Kimball 在數(shù)據(jù)倉(cāng)庫(kù)工具箱一書(shū)中設(shè)計(jì)的時(shí)間維、產(chǎn)品維、商場(chǎng)維。 時(shí)間維度表維度屬性維度屬性日期關(guān)鍵字日歷年月日期完全描述日歷季度星期日歷半年度紀(jì)元日編號(hào)日歷年紀(jì)元周編號(hào)財(cái)政周紀(jì)元月編號(hào)年度財(cái)政周數(shù)日歷日期編號(hào)財(cái)政月日歷周編號(hào)年度財(cái)政月數(shù)日歷月編號(hào)財(cái)政年月財(cái)政月日編號(hào)財(cái)政季度財(cái)政周編號(hào)財(cái)政季年度財(cái)政月編號(hào)財(cái)政半年度周末指示符財(cái)政年月末指示符節(jié)假日指示符日歷周結(jié)束日期星期指示符年度日歷周數(shù)銷(xiāo)售時(shí)令日歷月名重大事件年度日歷月數(shù)其它產(chǎn)品維度表維度屬性維度屬性產(chǎn)品關(guān)鍵字重量產(chǎn)品描述重量單位商標(biāo)描述儲(chǔ)藏類(lèi)型分類(lèi)描述貨架期類(lèi)型部門(mén)描述貨架寬度包裝類(lèi)型描述貨架高度包裝尺寸貨架深度含脂量其它食物類(lèi)型 商場(chǎng)維度表維度屬性維度屬性商場(chǎng)關(guān)鍵字平面布置類(lèi)型商場(chǎng)名稱(chēng)攝影加工類(lèi)型商場(chǎng)編號(hào)財(cái)政服務(wù)類(lèi)型商場(chǎng)所在街道地址銷(xiāo)售面積商場(chǎng)所在城市總面積商場(chǎng)所在縣首次開(kāi)業(yè)日商場(chǎng)所在洲最后一次重修日期商場(chǎng)所在郵政編碼其它商場(chǎng)所在政區(qū)商場(chǎng)經(jīng)理商場(chǎng)所在地區(qū)4. DW物理模型的性能問(wèn)題 提高DW性能的技術(shù)合并表把需連接的幾個(gè)表的記錄合并成一個(gè)表,物理的放在一起.建立數(shù)據(jù)序列 經(jīng)常按某個(gè)固定順序訪問(wèn)并處理一組數(shù)據(jù)記錄,可嚴(yán)格按順序存放到一個(gè)或幾個(gè)連續(xù)的物理塊中.引入冗余進(jìn)行關(guān)系規(guī)范化的逆操作,即反規(guī)范化的處理 引入冗余和合并表的區(qū)別合并表示將兩個(gè)或多個(gè)相關(guān)表的相關(guān)記錄物理上放在一起,但邏輯上不變,仍是多表,沒(méi)改變多表的關(guān)系模式,且合并表只是對(duì)表記錄的存取策略的改進(jìn),并沒(méi)有冗余的數(shù)據(jù).引入冗余則是對(duì)表的關(guān)系模式的改變.把原來(lái)規(guī)范化的表,變成有數(shù)據(jù)冗余的規(guī)范化級(jí)別低的表。表的物理分割分割依據(jù):存取頻率,數(shù)據(jù)的穩(wěn)定性。生成導(dǎo)出數(shù)據(jù)事先在原始數(shù)據(jù)上進(jìn)行匯總或計(jì)算,生成導(dǎo)出數(shù)據(jù)。優(yōu)點(diǎn): 減少I(mǎi)/O次數(shù); 免去計(jì)算匯總步驟; 避免不同用戶(hù)重復(fù)計(jì)算可能產(chǎn)生的誤差建立廣義索引DW中的數(shù)據(jù)量巨大,要依靠各種各樣的索引技術(shù)來(lái)提高設(shè)計(jì)大數(shù)據(jù)量的查詢(xún)的速度。在向DW裝載數(shù)據(jù)時(shí),就根據(jù)用戶(hù)的需求建立廣義索引概要文件,最大宗的購(gòu)買(mǎi),不活躍的用戶(hù),最近的發(fā)貨等.5. 數(shù)據(jù)模型和反復(fù)開(kāi)發(fā)反復(fù)開(kāi)發(fā)的理由:* 業(yè)界成功的記錄強(qiáng)烈的建議這樣做* 最終用戶(hù)在完成第一遍之前不能明白的提出需求* 只有實(shí)際結(jié)果切實(shí)而且明確時(shí),管理部門(mén)才能做出充分的承諾* 需要很快看到可視化結(jié)果數(shù)據(jù)模型在反復(fù)開(kāi)發(fā)中的作用 數(shù)據(jù)模型在每遍開(kāi)發(fā)中起著路標(biāo)的作用,因?yàn)樗械拈_(kāi)發(fā)都是數(shù)據(jù)模型驅(qū)動(dòng)的,每遍后續(xù)開(kāi)發(fā)都是建立在前一遍開(kāi)發(fā)的基礎(chǔ)上,結(jié)果就是都在統(tǒng)一的數(shù)據(jù)模型上進(jìn)行不同的開(kāi)發(fā),各遍開(kāi)發(fā)的結(jié)果將產(chǎn)生一個(gè)內(nèi)聚的高度和諧的整體. 如果沒(méi)有數(shù)據(jù)模型,重復(fù)的開(kāi)發(fā)不能構(gòu)成一個(gè)內(nèi)聚的模式,有許多重疊和缺乏一致性.3.5 數(shù)據(jù)倉(cāng)庫(kù)的粒度設(shè)計(jì)DW開(kāi)發(fā)中最重要的設(shè)計(jì)問(wèn)題之一是決定DW的粒度,如果粒度設(shè)計(jì)恰當(dāng),則DW其他方面的設(shè)計(jì)和實(shí)現(xiàn)就較容易,它是體系結(jié)構(gòu)設(shè)計(jì)環(huán)境成功的關(guān)鍵.粒度級(jí)別的選擇主要是對(duì)管理多大數(shù)據(jù)量和使用數(shù)據(jù)單元詳細(xì)程度的一種處理,數(shù)據(jù)越詳細(xì),粒度越小,級(jí)別就越低;粒度越大,數(shù)據(jù)匯總級(jí)別就高.在本節(jié)介紹利用量綱分級(jí)和反饋技術(shù)確定粒度的方法和相關(guān)原則.一、粒度確定1粗略估計(jì)要確定合適的粒度級(jí),首先要粗略估算DW中將來(lái)的數(shù)據(jù)量和所需的直接存取設(shè)備數(shù)(DASD) 其步驟如下:第一步:對(duì)每一個(gè)已知的表計(jì)算一個(gè)記錄所占字節(jié)數(shù)的最大、最小值(按字節(jié)算)對(duì)一年內(nèi):可能的最大最小記錄數(shù)對(duì)五年內(nèi):可能的最大最小記錄數(shù)對(duì)每個(gè)表的關(guān)鍵字大小(字節(jié)數(shù))一年總的最大空間=最大記錄所占空間*一年內(nèi)最大記錄數(shù)一年總的最小空間=最小記錄所占空間*一年內(nèi)最小記錄數(shù)累加索引空間第二步:對(duì)所有已知的表重復(fù)第一步粗略數(shù)據(jù)估計(jì)完后,就要計(jì)算一下索引所占的空間,對(duì)每張表確定關(guān)鍵字的長(zhǎng)度和原始表中是否每個(gè)記錄都存在關(guān)鍵字。數(shù)據(jù)量估計(jì)的上限和下限就等于記錄的最高估計(jì)數(shù)和最小估計(jì)數(shù)分別乘以記錄的最大、最小長(zhǎng)度再加上索引次數(shù)乘以索引的長(zhǎng)度。2. 粒度劃分過(guò)程的輸入根據(jù)空間估算的結(jié)果,可將估計(jì)的記錄數(shù)和DASD數(shù)作為粒度劃分過(guò)程的輸入,與粒度的閾值進(jìn)行比較,看是應(yīng)該采用那種粒度。 表3-1 粒度閾值表一年期 10,000,000 雙重粒度級(jí)且認(rèn)真設(shè)計(jì)1,000,000 雙重粒度級(jí)100,000 認(rèn)真設(shè)計(jì) 10,000 實(shí)際上任何設(shè)計(jì)都行五年期20,000,000 雙重粒度級(jí)且認(rèn)真設(shè)計(jì)10,000,000 雙重粒度級(jí)1,000,000 認(rèn)真設(shè)計(jì)100,000實(shí)際上任何設(shè)計(jì)都行表中的數(shù)據(jù)為記錄數(shù)對(duì)于五年期,行的總數(shù)大致以數(shù)量級(jí)改變。對(duì)五年以后的推測(cè): 在管理DW中的大量數(shù)據(jù)時(shí),將有更多的專(zhuān)門(mén)技術(shù)可用。 硬件費(fèi)用有所下降 可以使用更強(qiáng)大的軟件工具 最終用戶(hù)更加專(zhuān)業(yè)化在分析時(shí)只考慮到DW中的記錄數(shù),而沒(méi)有考慮總字節(jié)數(shù),因?yàn)椴还苡涗浀淖止?jié)長(zhǎng)短,索引項(xiàng)的數(shù)量是沒(méi)有變化的,因此被索引的記錄的實(shí)際大小才影響決定DW是否采用雙粒度級(jí)策略。3確定粒度級(jí)別 完成簡(jiǎn)單查詢(xún)分析之后,就要確定粒度級(jí)別。基本方法: 猜測(cè)一個(gè)粒度(憑直覺(jué)、經(jīng)驗(yàn)) 設(shè)計(jì)、載入數(shù)據(jù)到DW 讓DSS分析員看到數(shù)據(jù)如不合理重復(fù)上述步驟。最終用戶(hù)的態(tài)度:“既然我看到了我能夠做些什么,我就能告訴你什么是真正有用的。” 4反饋循環(huán)的技巧 反饋循環(huán)技巧 用很小而很快的步伐建立DW的最初幾個(gè)部分,仔細(xì)聽(tīng)取用戶(hù)的意見(jiàn),隨時(shí)準(zhǔn)備調(diào)整。 使用原型法,并使用從原型中收集的觀察結(jié)果而使反饋循環(huán)起作用 學(xué)習(xí)別人確定粒度的經(jīng)驗(yàn) 與用戶(hù)一起進(jìn)行反饋處理 看看本機(jī)構(gòu)現(xiàn)在有了什么在運(yùn)轉(zhuǎn) 進(jìn)行聯(lián)合應(yīng)用程序設(shè)計(jì)會(huì)議,并模擬其輸出已得到想要的反饋。 提高數(shù)據(jù)粒度的方法 當(dāng)源數(shù)據(jù)置入DW時(shí),對(duì)它進(jìn)行匯總; 當(dāng)源數(shù)據(jù)置入DW時(shí),對(duì)它求平均或進(jìn)行計(jì)算; 把最大/最小的設(shè)定值置入DW; 只把顯然需要的數(shù)據(jù)置入DW; 用條件邏輯選取記錄的一個(gè)子集置入DW;經(jīng)驗(yàn)規(guī)則:在第一次的設(shè)計(jì)周期中,如果50%的工作是正確的,則整個(gè)設(shè)計(jì)就是成功的。5粒度劃分學(xué)例 銀行環(huán)境操作型環(huán)境中約60天的業(yè)務(wù)數(shù)據(jù)由于其信息量較大,設(shè)計(jì)成雙重粒度級(jí)。在DW中: 輕度匯總存十年的每月匯總的賬戶(hù)信息 當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù)存30天 在這個(gè)級(jí)別并不是把OLTP系統(tǒng)中所有的字段都送到DW中,只有對(duì)分析有價(jià)值的信息字段才被存儲(chǔ)。 30天之后,把這部分細(xì)節(jié)數(shù)據(jù)送到磁帶上,騰出的空間存放下一個(gè)30天的當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù)。 制造業(yè)環(huán)境OLTP系統(tǒng)中存放的是訂單,由于量少,設(shè)計(jì)成單粒度,只要輕度綜合,不要當(dāng)前細(xì)節(jié)級(jí)。DW中存放10年的訂單歷史。36 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)是一個(gè)基于不斷循環(huán)、逐步增長(zhǎng)的生命周期模式,是一個(gè)用戶(hù)和開(kāi)發(fā)人員對(duì)其不斷了解、熟悉和完善的過(guò)程。本節(jié)提供可以用來(lái)指導(dǎo)開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的準(zhǔn)則??梢园阉?dāng)作一個(gè)框架,來(lái)展示不同類(lèi)型DW 項(xiàng)目的定制方法??蚣苤械拿恳恢卮蟛襟E都與實(shí)踐聯(lián)系緊密。除了提供方法之外,還指出每一步驟需要注意什么。一、 類(lèi)屬方法圖3-7介紹了類(lèi)屬方法。其中步驟是不斷循環(huán)的;每一步驟都提供了更多的細(xì)節(jié),都可以循環(huán)執(zhí)行,這幅圖可以作為數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)的框架,而不是充分論述的具體方法。每個(gè)方框都代表了DW 項(xiàng)目中可能也應(yīng)該采取的重大步驟。體系結(jié)構(gòu)定義數(shù)據(jù)建模DW規(guī)劃項(xiàng)目開(kāi)端決策者的需求源系統(tǒng)分析變換設(shè)計(jì)物理數(shù)據(jù)庫(kù)設(shè)計(jì)DW開(kāi)發(fā)主題區(qū)分析最終用戶(hù)訪問(wèn)設(shè)計(jì)最終用戶(hù)訪問(wèn)開(kāi)發(fā)DW 裝載和實(shí)施最終用戶(hù)訪問(wèn)定義 圖37 類(lèi)屬方法 1. DW 項(xiàng)目規(guī)劃 項(xiàng)目規(guī)劃是開(kāi)發(fā)DW的首要任務(wù),只有制定了正確的DW規(guī)劃,才能組織主要力量有序的實(shí)現(xiàn)DW開(kāi)發(fā)應(yīng)用。 在DW規(guī)劃中一般需要經(jīng)過(guò)這樣幾步:選擇實(shí)現(xiàn)策略;確定DW的開(kāi)發(fā)目標(biāo)和實(shí)現(xiàn)范圍;選擇DW體系結(jié)構(gòu);建立商業(yè)和項(xiàng)目規(guī)劃預(yù)算。 (1)確定信息范圍和開(kāi)發(fā)目標(biāo) 根據(jù)用戶(hù)需求什么數(shù)據(jù),確定需要那些數(shù)據(jù)源 初步確定主題 單主題或多主題。 確定時(shí)間范圍 技術(shù)上的考慮,是否運(yùn)用新技術(shù)。 DW內(nèi)容的含義及質(zhì)量。 確定最先使用DW的用戶(hù)。 DW首先要滿(mǎn)足那些決策查詢(xún) 確定DW元數(shù)據(jù)庫(kù)的規(guī)模 確定DW內(nèi)部數(shù)據(jù)的規(guī)模 (2)選擇實(shí)現(xiàn)策略 自頂向下,資底向上,混合法,原型法。 (3)確定項(xiàng)目組成員 (4)確定開(kāi)發(fā)步驟以及項(xiàng)目管理戰(zhàn)略 (5)確定DW體系結(jié)構(gòu) (6)項(xiàng)目規(guī)劃預(yù)算2定義體系結(jié)構(gòu) 作用:為DW或DSS確定技術(shù)基礎(chǔ)和應(yīng)用程序基礎(chǔ)結(jié)構(gòu),是的其他的活動(dòng)易于控制,保證個(gè)模塊能協(xié)調(diào)起來(lái)。3決策者的需求 (1)信息需求:原始數(shù)據(jù)元、需要計(jì)算或概括的數(shù)據(jù)元 (2)業(yè)務(wù)過(guò)程需求: Dw支持那些業(yè)務(wù)過(guò)程。 (3) 數(shù)據(jù)訪問(wèn)的需求:用戶(hù)希望得到數(shù)據(jù)的過(guò)程,查詢(xún)需求,報(bào)表需求,操作需求工作流程的分析等。4. 主題域分析主題領(lǐng)域-圍繞一個(gè)主題的工作范圍、內(nèi)容。第一個(gè)選擇的主題領(lǐng)域必須大到足以有意義,而又小到可以實(shí)現(xiàn)。如果有時(shí)某個(gè)主題領(lǐng)域確實(shí)大而且復(fù)雜,那么應(yīng)該選擇它的子集實(shí)現(xiàn)。工作內(nèi)容:() 給出主題域范圍() 根據(jù)所需的細(xì)節(jié)水平,初步確定粒度;() 生成初步概括表。5、源系統(tǒng)分析作用:確定數(shù)據(jù)從何而來(lái),對(duì)源數(shù)據(jù)的數(shù)據(jù)完整性數(shù)據(jù)質(zhì)量和業(yè)務(wù)問(wèn)題做出評(píng)價(jià)。功能:從現(xiàn)有的系統(tǒng)環(huán)境中為主題標(biāo)識(shí)數(shù)據(jù),產(chǎn)生從操作型環(huán)境到DSS環(huán)境的映射。工作內(nèi)容:() 要列出可能成為數(shù)據(jù)源的系統(tǒng)或文件篩選;() 確認(rèn)完整性和業(yè)務(wù)問(wèn)題再次篩選,可能有處理異常;() 評(píng)價(jià)候選數(shù)據(jù)的質(zhì)量、準(zhǔn)確性和時(shí)效性,每個(gè)源系統(tǒng)都按照風(fēng)險(xiǎn)和使用收益區(qū)分了等級(jí)。除變換外,有些數(shù)據(jù)還需要清潔,故也要估計(jì)清潔的程度。() 源系統(tǒng)中出現(xiàn)不一致屬性的處理,相應(yīng)更新數(shù)據(jù)模型;() 分析源數(shù)據(jù)的使用情況;() 當(dāng)源數(shù)據(jù)傳給DW時(shí)應(yīng)作何種變換。() 根據(jù)分析結(jié)果,創(chuàng)建DW 中數(shù)據(jù)結(jié)構(gòu)() 源數(shù)據(jù)中的關(guān)系在DW中如何體現(xiàn)。6變換設(shè)計(jì)功能:完成操作型環(huán)境和DSS環(huán)境的接口的數(shù)據(jù)變換,用于把數(shù)據(jù)從操作型引 入DW,同時(shí)保持?jǐn)?shù)據(jù)的準(zhǔn)確性和完整性。工作內(nèi)容:() 數(shù)據(jù)變換規(guī)范:要確定是使用變動(dòng)數(shù)據(jù)搜索法還是快照法,為建立一個(gè)完整的主題區(qū),大多數(shù)環(huán)境必須在多個(gè)區(qū)段和文件中運(yùn)行傳送程序。() 設(shè)計(jì)數(shù)據(jù)變換過(guò)程要設(shè)計(jì)出能運(yùn)行多種變換模塊和變換程序的框架。輸出包括時(shí)間和持續(xù)型在內(nèi)的作業(yè)流。() 控制設(shè)計(jì)和評(píng)審程序:檢驗(yàn)數(shù)據(jù)的傳送是否足夠大,變換是否正確。() 確認(rèn)業(yè)務(wù)度量:I確定概括類(lèi)型;II確定概括位置,分為DW內(nèi)部和DW外部;III確定概括復(fù)雜粒度在捕獲元數(shù)據(jù)的地方概括。() 歷史數(shù)據(jù)轉(zhuǎn)換過(guò)程;() 確定測(cè)試數(shù)據(jù)集;() DW模型的修正。 7物理數(shù)據(jù)庫(kù)設(shè)計(jì) 功能:詳細(xì)說(shuō)明并建立物理數(shù)據(jù)庫(kù) 工作內(nèi)容:() 建立域表;() 建立概括表() 星型連接和事實(shí)表() 建立索引() 備份和恢復(fù)8最終用戶(hù)訪問(wèn)方法的設(shè)計(jì)、定義和開(kāi)發(fā)9DW 開(kāi)發(fā)功能:建立DW,并進(jìn)行測(cè)試。工作內(nèi)容:() 變換開(kāi)發(fā)() 變換過(guò)程() 初步的數(shù)據(jù)加載() 控制和評(píng)審過(guò)程() 源數(shù)據(jù)的加載() 系統(tǒng)測(cè)試9 DW 裝載及實(shí)施功能:完成DW數(shù)據(jù)的裝載,并交付用戶(hù)使用工作:() 裝載運(yùn)行() 軟件實(shí)現(xiàn)() 數(shù)據(jù)培訓(xùn)和軟件培訓(xùn)() 用戶(hù)使用,接受測(cè)試。二 DW開(kāi)發(fā)流程 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一種體系結(jié)構(gòu),不是現(xiàn)成的產(chǎn)品。不同的企業(yè)會(huì)有不同的數(shù)據(jù)倉(cāng)庫(kù)。企業(yè)人員往往不懂如何建立和使用DW,而DW公司人員又不懂業(yè)務(wù),不知道建立那些決策主題,從數(shù)據(jù)源中抽取那些數(shù)據(jù)。因此需要雙方互相溝通,共同協(xié)商開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)。1 啟動(dòng)工程 建立開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)工程的目標(biāo)及制定工程計(jì)劃。2 建立技術(shù)環(huán)境 選擇實(shí)現(xiàn)建立開(kāi)發(fā)數(shù)據(jù)倉(cāng)的軟硬件資源,包括開(kāi)發(fā)平臺(tái)、DBMS、開(kāi)發(fā)工具、終端訪問(wèn)工具等。3 確定主題 根據(jù)決策需求確定主題,選擇數(shù)據(jù)源,對(duì)建立開(kāi)發(fā)數(shù)據(jù)倉(cāng)的數(shù)據(jù)組織進(jìn)行邏輯設(shè)計(jì)。4 設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)庫(kù)5 數(shù)據(jù)轉(zhuǎn)換程序?qū)崿F(xiàn)6 管理元數(shù)據(jù)7 開(kāi)發(fā)用戶(hù)決策的數(shù)據(jù)分析工具。8 管理數(shù)據(jù)倉(cāng)庫(kù)環(huán)境3.7 解決方案一、SAS提供的數(shù)據(jù)倉(cāng)庫(kù)解決方案根據(jù)SAS白皮書(shū)編寫(xiě)、 SAS公司簡(jiǎn)介美國(guó)North Carolina州立大學(xué)在1966年開(kāi)始開(kāi)發(fā)SAS(Statistical Analysis System)統(tǒng)計(jì)軟件包。1997年成立SAS軟件研究所,開(kāi)始進(jìn)行SAS的維護(hù)、開(kāi)發(fā)、銷(xiāo)售和教育工作。由于使用SAS系統(tǒng)成功地建立了許多卓有成效的數(shù)據(jù)倉(cāng)庫(kù)。SAS公司的DW產(chǎn)品在1996年被美國(guó)著名的“Datamation”評(píng)為“當(dāng)年度最佳產(chǎn)品”。在金融、電信、交通、制造、政府以及科研教育部門(mén)提供全面的軟件解決方案。在DW、HOLAP、DM、Web發(fā)布等都有產(chǎn)品,在商務(wù)智能、DW、DM 和DSS軟件位于全球第一。、 SAS的數(shù)據(jù)倉(cāng)庫(kù)模型運(yùn)行的提取數(shù)據(jù)質(zhì)量數(shù)據(jù)EIS數(shù)據(jù)轉(zhuǎn)換 查詢(xún)機(jī)制Web風(fēng)險(xiǎn)性關(guān)系DBMetadata將數(shù)據(jù)裝入數(shù)據(jù)挖掘客戶(hù)DW早期數(shù)據(jù)CIS產(chǎn)品結(jié)構(gòu)運(yùn)行機(jī)制 信息數(shù)據(jù)的可視化市場(chǎng)數(shù)據(jù)倉(cāng)庫(kù)操作SAS規(guī)劃、內(nèi)容管理預(yù)測(cè)其它數(shù)據(jù)管理組織展現(xiàn) 圖 3-8 SAS的數(shù)據(jù)倉(cāng)庫(kù)模型3SAS數(shù)據(jù)倉(cāng)庫(kù)的組成() SAS系統(tǒng)的數(shù)據(jù)存取能力SASAccess產(chǎn)品可對(duì)眾多不同格式的數(shù)據(jù)進(jìn)行訪問(wèn)、查詢(xún)和分析,提供了目前許多流行的數(shù)據(jù)庫(kù)軟件和老的數(shù)據(jù)文件的接口,如DB2、Oracle、Sybase、CA-Ingres等等。利用SASAccess可建立對(duì)應(yīng)外部異構(gòu)數(shù)據(jù)的一個(gè)統(tǒng)一的共同數(shù)據(jù)界面,提供的接口是雙向的,既可將數(shù)據(jù)讀入SAS系統(tǒng),亦可在SAS系統(tǒng)中更新外部數(shù)據(jù),或?qū)?shù)據(jù)加載到外部數(shù)據(jù)載體中。() 數(shù)據(jù)的清理和整合在SAS的DW中有專(zhuān)門(mén)的機(jī)制進(jìn)行引入數(shù)據(jù)的檢查、核對(duì)和將不同來(lái)源數(shù)據(jù)進(jìn)行整合的技術(shù)環(huán)節(jié)。() 數(shù)據(jù)倉(cāng)庫(kù)的加載和更新從數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)一氣呵成的集成式操作的能力是SAS DW技術(shù)的重要特點(diǎn)。() 按決策需要重組數(shù)據(jù)和信息() 豐富的決策數(shù)據(jù)處理能力SAS/MDDB構(gòu)造最適宜OLAP操作的多維數(shù)據(jù)結(jié)構(gòu);SAS/STAT覆蓋了所有的數(shù)理統(tǒng)計(jì)分析方法,是國(guó)際上統(tǒng)計(jì)分析領(lǐng)域的標(biāo)準(zhǔn)軟件;SAS/ETS提供豐富的計(jì)量經(jīng)濟(jì)學(xué)和時(shí)間序列分析方法,是研究復(fù)雜系統(tǒng)和進(jìn)行預(yù)測(cè)的有力工具;SAS/OR提供了全面的運(yùn)籌學(xué)方法;SAS/IML提供了面向矩陣運(yùn)算的編程語(yǔ)言;SAS/Insight可視化的數(shù)據(jù)探索工具,將統(tǒng)計(jì)方法和交互式圖形統(tǒng)合在一起。() 靈活多樣的結(jié)果展示方式SASGRAPH圖形軟件包。三、SAS數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu) SASDW的體系結(jié)構(gòu)見(jiàn)圖3-8、 環(huán)境(Enviroment)環(huán)境是SAS DW體系結(jié)構(gòu)的總根,由兩部分組成:() 數(shù)據(jù)倉(cāng)庫(kù);()對(duì)數(shù)據(jù)源的定義。構(gòu)成了從數(shù)據(jù)采集到直接應(yīng)用的完整的支持體系。、 DW可使用多個(gè)DW一個(gè)DW中有多個(gè)數(shù)據(jù)集市。、 主題(Subject)在每個(gè)主題中有一個(gè)主題表系統(tǒng),其中放置與此主題相關(guān)的各種數(shù)據(jù)環(huán)境數(shù)據(jù)倉(cāng)庫(kù)主題主題表系統(tǒng)(存放經(jīng)過(guò)清洗、整合的數(shù)據(jù),可以是表或視圖,結(jié)構(gòu)重組)主題表主題表 匯總表組(定義數(shù)據(jù)匯總處理的層次維數(shù)和所分析的變量)SAS或DBMS匯總層次SAS或DBMS匯總層次(表示所選擇匯總處理的時(shí)間維)MDDB1MDDB匯總表組信息市場(chǎng)(決策支持信息)信息市場(chǎng)項(xiàng)目具體決策信息信息市場(chǎng)項(xiàng)目信息市場(chǎng)主題數(shù)據(jù)集市組數(shù)據(jù)集市數(shù)據(jù)集市信息市場(chǎng)信息市場(chǎng)數(shù)據(jù)集市組 數(shù)據(jù)倉(cāng)庫(kù) 運(yùn)行數(shù)據(jù)定義組(對(duì)要從數(shù)據(jù)源取出的數(shù)據(jù)進(jìn)行定義的分組)運(yùn)行數(shù)據(jù)定義(定義要取得數(shù)據(jù))數(shù)據(jù)文件數(shù)據(jù)文件外部文件外部文件運(yùn)行數(shù)據(jù)定義 運(yùn)行數(shù)據(jù)定義組圖 3-9 SASDW的體系結(jié)構(gòu)四、SAS的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品SASWA (SAS/Warehouse Administrator) 功能:、 定義DW和主題:所定義的DW,可以建立在SAS數(shù)據(jù)庫(kù)中,可建立在一般的DBMS中,還可以建立在SAS的多維數(shù)據(jù)庫(kù)產(chǎn)品SASMDDB(MultiDemention Data Base)中。、傳送和匯總整理數(shù)據(jù)通SASWA的Process的Editor進(jìn)行。 運(yùn)行數(shù)據(jù)的映射(Mapping)在此定義從輸入數(shù)據(jù)源中取出哪些數(shù)據(jù),這些數(shù)據(jù)如何轉(zhuǎn)換,然后將他們裝載到哪個(gè)主題數(shù)據(jù)表中去。 數(shù)據(jù)傳送將數(shù)據(jù)從其所在的計(jì)算機(jī)系統(tǒng)中選出,SASWA對(duì)它進(jìn)行相應(yīng)處理,然后用Proc UpLoad或Proc DownLoad在把它送到數(shù)據(jù)倉(cāng)庫(kù)所在的計(jì)算機(jī)系統(tǒng)中。如圖3-9所示: 記錄選取器按照某些選取規(guī)則選出數(shù)據(jù)子集,形成DW的其他元素,如相應(yīng)的表、數(shù)據(jù)集市或視圖。 用戶(hù)出口除SASWA規(guī)定的DW操作外,用戶(hù)可在多個(gè)環(huán)節(jié)上插入認(rèn)為需要的數(shù)據(jù)操作。DW主題表開(kāi)發(fā)者自編程序數(shù)據(jù)映射數(shù)據(jù)傳輸運(yùn)行數(shù)據(jù)定義運(yùn)行數(shù)據(jù)定義運(yùn)行數(shù)據(jù)定義數(shù)據(jù)文件數(shù)據(jù)文件外部文件圖 3-10 數(shù)據(jù)傳送、更新匯總數(shù)據(jù)更新()原有表中進(jìn)行更新;()產(chǎn)生一個(gè)新的時(shí)間區(qū)間的數(shù)據(jù)新版本。SASWA會(huì)按預(yù)先規(guī)定的規(guī)則產(chǎn)生一個(gè)新的匯總數(shù)據(jù)。、 建立、管理和取用查看Metadata
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 綠色低碳分布式光儲(chǔ)充一體化綜合利用項(xiàng)目可行性研究報(bào)告寫(xiě)作模板-申批備案
- 2025-2030全球草酸镥水合物行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)游戲插畫(huà)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球單通道凝血分析儀行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球EPROM 存儲(chǔ)器行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)3,4,5-三甲氧基甲苯行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)代謝物定制合成服務(wù)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球低扭矩滾子軸承行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)汽車(chē)差速器錐齒輪行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球高壓電動(dòng)車(chē)軸行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 立春氣象與健康
- 河南退役軍人專(zhuān)升本計(jì)算機(jī)真題答案
- 室內(nèi)空氣治理技術(shù)培訓(xùn)
- 2024-2025學(xué)年上外版高二上學(xué)期期中英語(yǔ)試卷與參考答案
- DB52T 1167-2017 含笑屬栽培技術(shù)規(guī)程 樂(lè)昌含笑
- 2025年全國(guó)高考體育單招考試政治模擬試卷試題(含答案詳解)
- 駕駛證學(xué)法減分(學(xué)法免分)試題和答案(50題完整版)1650
- 人教版2024新版七年級(jí)上冊(cè)數(shù)學(xué)第六章幾何圖形初步學(xué)業(yè)質(zhì)量測(cè)試卷(含答案)
- 小學(xué)數(shù)學(xué)五年級(jí)上冊(cè)奧數(shù)應(yīng)用題100道(含答案)
- 工業(yè)機(jī)器人編程語(yǔ)言:Epson RC+ 基本指令集教程
- 2023.05.06-廣東省建筑施工安全生產(chǎn)隱患識(shí)別圖集(高處作業(yè)吊籃工程部分)
評(píng)論
0/150
提交評(píng)論