第一章數(shù)據(jù)倉(cāng)庫(kù)基本概念及通用框架_第1頁(yè)
第一章數(shù)據(jù)倉(cāng)庫(kù)基本概念及通用框架_第2頁(yè)
第一章數(shù)據(jù)倉(cāng)庫(kù)基本概念及通用框架_第3頁(yè)
第一章數(shù)據(jù)倉(cāng)庫(kù)基本概念及通用框架_第4頁(yè)
第一章數(shù)據(jù)倉(cāng)庫(kù)基本概念及通用框架_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 MIS的應(yīng)用海量信息產(chǎn)生了與傳統(tǒng)數(shù)據(jù)庫(kù)有很大差異的數(shù)據(jù)環(huán)境 如何從這些海量數(shù)據(jù)中獲取專門的知識(shí) 1 基本概念 2 數(shù)據(jù)倉(cāng)庫(kù)的通用框架參考書第一章 數(shù)據(jù)倉(cāng)庫(kù)基本概念及通用框架1基本概念念1.數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的定義義數(shù)據(jù)倉(cāng)庫(kù)庫(kù)(DW,Data Warehouse)是“一個(gè)面面向主題題的、集集成的、隨時(shí)間間變化的的、非易易失性數(shù)數(shù)據(jù)的集集合,用用于支持持管理層層的決策策過程”。WilliamH.Inmon,1993面向主題題的:對(duì)應(yīng)某一一個(gè)宏觀觀分析領(lǐng)領(lǐng)域,如,銷售售。CH1上述概念念中涉及及到的“主題”:在一個(gè)較較高管理理層次上上,對(duì)信信息系統(tǒng)統(tǒng)中的數(shù)數(shù)據(jù)按照照某一具具體的管理對(duì)象象進(jìn)行綜合合、歸類類

2、所形成成的分析對(duì)象象基于信息息管理的的角度;是一些數(shù)數(shù)據(jù)的集集合,這這些數(shù)據(jù)據(jù)集合對(duì)對(duì)分析對(duì)象象進(jìn)行了比比較完整整的、一一致的描描述,這這種描述述不僅涉涉及到數(shù)數(shù)據(jù)自身身,還涉涉及到數(shù)數(shù)據(jù)間的的聯(lián)系基于數(shù)據(jù)據(jù)組織的的角度。CH1因此,數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的該特特性要求求: 抽取取主題按決策分分析過程程進(jìn)行。 界定定數(shù)據(jù)確定所抽抽取的主主題包含含哪些數(shù)數(shù)據(jù)。 組織織數(shù)據(jù)如何組織織上述數(shù)數(shù)據(jù)(往往往使用用多維數(shù)數(shù)據(jù)庫(kù)或或關(guān)系數(shù)數(shù)據(jù)庫(kù)的的方式進(jìn)進(jìn)行組織織)。CH1例如:根據(jù)銷售售管理要要考慮的的問題(如:哪哪些產(chǎn)品品銷量大大/利潤(rùn)高?哪些客客戶采購(gòu)購(gòu)量多?競(jìng)爭(zhēng)對(duì)對(duì)手的哪哪些產(chǎn)品品對(duì)本企企業(yè)構(gòu)成成威脅?),可

3、可以抽取取出“產(chǎn)產(chǎn)品”、“客戶戶”為主主題;為了描述述產(chǎn)品的的銷售活活動(dòng),銷銷售業(yè)務(wù)務(wù)處理系系統(tǒng)中一一般包含含以下數(shù)數(shù)據(jù):產(chǎn)品訂單單、產(chǎn)品銷售售明細(xì)、產(chǎn)品庫(kù)存存、客戶等在進(jìn)行決決策分析析過程中中(如,哪些客客戶采購(gòu)購(gòu)量多?),上上述數(shù)據(jù)據(jù)只有客戶數(shù)據(jù)是可可用的,其它數(shù)數(shù)據(jù)僅用用于業(yè)務(wù)務(wù)操作;然而,僅僅有“客戶”數(shù)據(jù)還還不足以以完成對(duì)對(duì)客戶的分析,還要圍圍繞客戶進(jìn)一步組組織所有有相關(guān)數(shù)數(shù)據(jù)如,客戶戶產(chǎn)品采采購(gòu)量、最后一一次采購(gòu)購(gòu)時(shí)間、采購(gòu)競(jìng)競(jìng)爭(zhēng)對(duì)手手產(chǎn)品量量(落在在外部系系統(tǒng)中)、客戶戶信譽(yù)(落在財(cái)財(cái)務(wù)系統(tǒng)統(tǒng)中)等等。集成的對(duì)分散在在各處的的數(shù)據(jù)源源進(jìn)行抽抽取、篩篩選、清清理、綜綜合等加加工工作

4、作,然后后存放在在數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中,可見,集成是是建立DW的關(guān)鍵步步驟。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)據(jù)據(jù)主要源源于各個(gè)個(gè)業(yè)務(wù)處處理系統(tǒng)統(tǒng),由于于其用途各不相同同,因此此需上述述處理工工作。清理把各個(gè)數(shù)數(shù)據(jù)源的的單位、內(nèi)容、字長(zhǎng)等等統(tǒng)一起起來,消消除字段段名的同同名異義義、異名名同義等等現(xiàn)象。CH1 隨時(shí)時(shí)間變化化的(時(shí)時(shí)變性)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的數(shù)數(shù)據(jù),雖雖然不像像業(yè)務(wù)處處理系統(tǒng)統(tǒng)那樣記記載的是是實(shí)時(shí)數(shù)數(shù)據(jù),但但也要隨著時(shí)間間的推移移補(bǔ)充與主主題相關(guān)關(guān)的、變變化了的的數(shù)據(jù)(快照),快照照的時(shí)間間間隔根根據(jù)決策策需求而而定(年年/月/天)。此此外還有有:刪除過了了時(shí)的數(shù)數(shù)據(jù);及及時(shí)更新新DW中的那些些概括數(shù)數(shù)據(jù)。為滿足

5、時(shí)時(shí)變性進(jìn)進(jìn)行的所所有操作作統(tǒng)稱為為數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的刷新新。CH1 非易易失的DW的非易失失性指的的是,數(shù)數(shù)據(jù)一旦旦進(jìn)入數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)后,便便不進(jìn)行行更新處處理(但但可以追追加新數(shù)數(shù)據(jù)),并且將將保持一一個(gè)相當(dāng)當(dāng)長(zhǎng)的時(shí)時(shí)間。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)查詢、分析業(yè)務(wù)處理理系統(tǒng)隨時(shí)記記錄發(fā)生生的業(yè)務(wù)務(wù)因此,DW中,可以以可以通通過索引引、預(yù)計(jì)計(jì)算等方方式來提提高查詢?cè)冃?。CH1 集合合性事實(shí)上,“面向向主題的的”便要要求DW以主題的的某種數(shù)數(shù)據(jù)集合合的形式式存儲(chǔ)數(shù)數(shù)據(jù),其其形式為為以下三三種之一一:多維數(shù)據(jù)據(jù)庫(kù)方式式關(guān)系數(shù)據(jù)據(jù)庫(kù)方式式多維數(shù)據(jù)據(jù)庫(kù)與關(guān)關(guān)系數(shù)據(jù)據(jù)庫(kù)組合合方式顯然,DW中,“集集合”是是否全面面決定了了數(shù)

6、據(jù)倉(cāng)倉(cāng)庫(kù)應(yīng)用用范圍的的大小。CH1 支持持決策建立數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的目的就就是支持持決策,其用戶戶可以是是高層/中層/基層管理理者,他他們可以以利用所所提供的的分析工工具,發(fā)發(fā)現(xiàn)DW數(shù)據(jù)中隱隱含的商商機(jī),使使得管理理決策更更加科學(xué)學(xué)化。CH12.DW與傳統(tǒng)DB的比較數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)內(nèi)容當(dāng)前值歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)。數(shù)據(jù)目標(biāo)面向業(yè)務(wù)操作程序、重復(fù)處理面向主題域、管理決策分析應(yīng)用數(shù)據(jù)特性動(dòng)態(tài)變化、按字段更新靜態(tài)、不能直接更新、只定時(shí)添加數(shù)據(jù)結(jié)構(gòu)高度結(jié)構(gòu)化、復(fù)雜、適合操作計(jì)算簡(jiǎn)單、適合分析使用頻率高中到低數(shù)據(jù)訪問量每個(gè)事務(wù)只訪問少量記錄有的事務(wù)可能要訪問大量記錄對(duì)響應(yīng)時(shí)間的要求以秒為單位計(jì)

7、量以秒、分鐘、甚至小時(shí)為計(jì)量單位CH13.數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的概念念結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的概念念結(jié)構(gòu)包包含:數(shù)數(shù)據(jù)源、數(shù)據(jù)準(zhǔn)準(zhǔn)備區(qū)、數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)數(shù)據(jù)據(jù)庫(kù)、數(shù)數(shù)據(jù)集市市/知識(shí)挖掘掘庫(kù)以及及各種管管理工具具和應(yīng)用用工具。業(yè)務(wù)系統(tǒng)數(shù)據(jù)源外部數(shù)據(jù)源數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)應(yīng)用工具管理工具數(shù)據(jù)集市/ 知識(shí)挖掘庫(kù)應(yīng)用工具數(shù)據(jù)集市/ 知識(shí)挖掘庫(kù)CH14.虛擬數(shù)據(jù)據(jù)倉(cāng)庫(kù)結(jié)結(jié)構(gòu)虛擬數(shù)據(jù)據(jù)倉(cāng)庫(kù)利利用(描描述了業(yè)業(yè)務(wù)系統(tǒng)統(tǒng)中數(shù)據(jù)據(jù)位置和和抽取數(shù)數(shù)據(jù)算法法的)元元數(shù)據(jù)直直接從業(yè)業(yè)務(wù)系統(tǒng)統(tǒng)中抽取取查詢的的數(shù)據(jù)進(jìn)進(jìn)行概括括、聚合合操作后后,將最最終結(jié)果果提供給給用戶。思考:優(yōu)優(yōu)、缺點(diǎn)點(diǎn)?數(shù)據(jù)倉(cāng)庫(kù)查詢管理服務(wù)器業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)CH15.數(shù)據(jù)

8、集市市結(jié)構(gòu)數(shù)據(jù)集市市,或稱稱為主題結(jié)構(gòu)構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)庫(kù)是按照照主題進(jìn)進(jìn)行構(gòu)思思所形成成的數(shù)據(jù)據(jù)倉(cāng)庫(kù),它沒有有一個(gè)獨(dú)獨(dú)立的數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)。系統(tǒng)統(tǒng)的數(shù)據(jù)據(jù)不存儲(chǔ)儲(chǔ)在同一一數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中,每個(gè)主主題有自自己的物物理存儲(chǔ)儲(chǔ)區(qū)。思考:優(yōu)優(yōu)、缺點(diǎn)點(diǎn)?數(shù)據(jù)倉(cāng)庫(kù)查詢管理服務(wù)器業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)主題1主題2CH16.單一數(shù)據(jù)據(jù)倉(cāng)庫(kù)結(jié)結(jié)構(gòu)將所有的的主題都都集中到到一個(gè)大大型數(shù)據(jù)據(jù)庫(kù)中的的體系結(jié)結(jié)構(gòu)。數(shù)數(shù)據(jù)源中中數(shù)據(jù)被被按照同同一標(biāo)準(zhǔn)準(zhǔn)抽取到到獨(dú)立的的數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中,用戶在在使用時(shí)時(shí)再根據(jù)據(jù)主題將將數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的的數(shù)據(jù)發(fā)發(fā)布到數(shù)數(shù)據(jù)集市市中。思考:優(yōu)優(yōu)、缺點(diǎn)點(diǎn)?數(shù)據(jù)倉(cāng)庫(kù)查詢管理服務(wù)器業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市1數(shù)據(jù)集市2C

9、H17.分布式數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)結(jié)構(gòu)各分公司司具有相相當(dāng)大的的獨(dú)立性性時(shí),企企業(yè)總部部設(shè)置一一個(gè)全局局?jǐn)?shù)據(jù)倉(cāng)倉(cāng)庫(kù),分分公司設(shè)設(shè)置各自自的局部部數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)。局局部數(shù)據(jù)據(jù)倉(cāng)庫(kù)主主要存儲(chǔ)儲(chǔ)各自的的未經(jīng)轉(zhuǎn)轉(zhuǎn)換的細(xì)細(xì)節(jié)數(shù)據(jù)據(jù),全局局?jǐn)?shù)據(jù)倉(cāng)倉(cāng)庫(kù)中主主要存儲(chǔ)儲(chǔ)經(jīng)過轉(zhuǎn)轉(zhuǎn)換的綜綜合數(shù)據(jù)據(jù)。思考:優(yōu)優(yōu)缺點(diǎn)?局部數(shù)據(jù)倉(cāng)庫(kù)局部數(shù)據(jù)倉(cāng)庫(kù)局部數(shù)據(jù)倉(cāng)庫(kù)局部數(shù)據(jù)倉(cāng)庫(kù)全局?jǐn)?shù)據(jù)倉(cāng)庫(kù)站點(diǎn)B站點(diǎn)D站點(diǎn)A站點(diǎn)CCH12數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的通用用框架框架把復(fù)雜的的事物分分為若干干細(xì)小的的易于理解的的構(gòu)件的的形式。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)研究中中,常稱稱為通用框架架,或參考框架架。最初,DW的通用框框架被描描述為: 數(shù)據(jù)據(jù)集合(從運(yùn)行行的DB中抽取); 軟件件環(huán)境(

10、供用戶戶存取數(shù)數(shù)據(jù)); 應(yīng)用用程序及及工具集集合(用用于復(fù)雜雜查詢)。CH1為了有助助于理解解,并給給出DW實(shí)現(xiàn)過程程中所需需的更為為詳細(xì)的的信息,對(duì)上述述框架進(jìn)進(jìn)行了進(jìn)進(jìn)一步細(xì)細(xì)化。右圖給出出了細(xì)化化之后通通用框架架的頂層層結(jié)構(gòu)。DW通用框架的頂層結(jié)構(gòu)層層塊數(shù)據(jù)管理理數(shù)據(jù)源DW結(jié)構(gòu)數(shù)據(jù)站場(chǎng)結(jié)構(gòu)DW存取使用元數(shù)據(jù)管管理傳輸基礎(chǔ)結(jié)構(gòu)構(gòu)工具、技技術(shù)及角角色(附附加層)CH1若干說明明:框架由若若干層和和塊組成成;數(shù)據(jù)管理理和元數(shù)據(jù)管管理層包括對(duì)數(shù)數(shù)據(jù)的抽抽取、加加載、更更新等操操作,以以不斷為為DW和數(shù)據(jù)站站場(chǎng)提供供數(shù)據(jù);傳輸層和基礎(chǔ)結(jié)構(gòu)構(gòu)層對(duì)DW及數(shù)據(jù)站站場(chǎng)提供供通用服服務(wù);附加層提供支持持DW

11、的方法(學(xué)),可按該該層的要要求構(gòu)建建DW及相應(yīng)的的工具。一般,數(shù)數(shù)據(jù)源塊塊、傳輸輸層和基基礎(chǔ)結(jié)構(gòu)構(gòu)層是企企業(yè)已有有的,其其他塊、層均需需新建。具體應(yīng)用用時(shí),設(shè)設(shè)計(jì)者可可以從通通用框架架中選取取有用的的構(gòu)件,沒用的的可以忽忽略。CH11.數(shù)據(jù)源塊塊產(chǎn)品數(shù)據(jù)遺留數(shù)據(jù)內(nèi)部辦公系統(tǒng)外部系統(tǒng)數(shù)據(jù)源元數(shù)據(jù)產(chǎn)品數(shù)據(jù)據(jù)也稱業(yè)務(wù)務(wù)數(shù)據(jù),由生產(chǎn)產(chǎn)系統(tǒng)產(chǎn)產(chǎn)生,并并保存在在生產(chǎn)系系統(tǒng)的數(shù)數(shù)據(jù)庫(kù)中中,且,該數(shù)據(jù)據(jù)庫(kù)可以以是任意意類型的的(如,關(guān)系、層次、網(wǎng)絡(luò)等等類型)。注意:產(chǎn)品數(shù)據(jù)據(jù)(業(yè)務(wù)務(wù)數(shù)據(jù)) 與數(shù)據(jù)倉(cāng)庫(kù)庫(kù)模型之間的關(guān)關(guān)系。CH1遺留數(shù)據(jù)據(jù)脫機(jī)或檔檔案數(shù)據(jù)據(jù),也稱稱歷史數(shù)據(jù)據(jù)。特點(diǎn): 可能能不支持持當(dāng)前應(yīng)應(yīng)用程

12、序序; 用專專用的程程序輸入入到DW中; 對(duì)DM很有用。內(nèi)部辦公公系統(tǒng)數(shù)據(jù)來源源之一,一般是是非商業(yè)業(yè)的,也也不存放放在當(dāng)前前運(yùn)行的的DB中,其形形式有以以下幾種種:CH1非結(jié)構(gòu)化化數(shù)據(jù)(如,非非電子的的); 結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)(報(bào)表表、文本本文檔等等); 半結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)(年年度報(bào)表表等)。外部系統(tǒng)統(tǒng)有各種可可能的形形式,或或各種想想象得到到的形式式。數(shù)據(jù)源元元數(shù)據(jù)元數(shù)據(jù)是是關(guān)于數(shù)數(shù)據(jù)的數(shù)數(shù)據(jù),如如:數(shù)據(jù)據(jù)的名稱稱、數(shù)據(jù)據(jù)內(nèi)容的的定義、數(shù)據(jù)創(chuàng)創(chuàng)建的日日期、數(shù)數(shù)據(jù)的來來源等。CH1隨著DW以及Internet的應(yīng)用與與發(fā)展, 數(shù)據(jù)據(jù)源塊中中又增加加了“Web數(shù)據(jù)”塊塊(如左左圖所示示)。Web數(shù)據(jù)

13、,通通常是HTML方式的, 因此此,需要要轉(zhuǎn)換才才能加載載進(jìn)數(shù)據(jù)據(jù)倉(cāng)庫(kù)之之中。業(yè)務(wù)數(shù)據(jù)據(jù)歷史數(shù)據(jù)據(jù)辦公數(shù)據(jù)據(jù)外部數(shù)據(jù)據(jù)數(shù)據(jù)源元元數(shù)據(jù)Web數(shù)據(jù)CH12.DW結(jié)構(gòu)塊由求精、重構(gòu)工工程和數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)構(gòu)成。標(biāo)準(zhǔn)化過濾與匹匹配凈化標(biāo)明時(shí)間間戳的數(shù)據(jù)源源確認(rèn)數(shù)據(jù)據(jù)質(zhì)量集成與分分割概括與聚聚集預(yù)算與推推導(dǎo)翻譯與格格式化轉(zhuǎn)換與映映像元數(shù)據(jù)創(chuàng)創(chuàng)建元數(shù)據(jù)抽取與創(chuàng)創(chuàng)建建模概括集聚調(diào)整與確確認(rèn)建立結(jié)構(gòu)構(gòu)化查詢創(chuàng)建詞匯匯表元數(shù)據(jù)瀏覽與導(dǎo)導(dǎo)航重構(gòu)工程程數(shù)據(jù)倉(cāng)庫(kù)庫(kù)求精CH1求精有的資料料中,把把“求精精”子塊塊稱為“數(shù)據(jù)準(zhǔn)準(zhǔn)備區(qū)”,且與與“數(shù)據(jù)據(jù)源”等等并列列列出。標(biāo)準(zhǔn)化過濾與匹配凈化標(biāo)明時(shí)間戳的數(shù)據(jù)源確認(rèn)數(shù)據(jù)質(zhì)量元數(shù)據(jù)

14、抽取與創(chuàng)建統(tǒng)一處理理同名不不同內(nèi)容容、同內(nèi)內(nèi)容不同同名、同同名同內(nèi)內(nèi)容但結(jié)結(jié)構(gòu)不同同的數(shù)據(jù)據(jù)。對(duì)進(jìn)入DW的數(shù)據(jù)進(jìn)進(jìn)行篩選選從數(shù)據(jù)源源刪除用用戶不需需要的數(shù)數(shù)據(jù),留留下與用用戶需求求相匹配配的數(shù)據(jù)據(jù)。對(duì)準(zhǔn)備加加載到DW的數(shù)據(jù)進(jìn)進(jìn)行正確確性判斷斷把那些內(nèi)內(nèi)容、格格式或類類型不對(duì)對(duì)的數(shù)據(jù)據(jù)進(jìn)行修修正。例例如如,DW中“郵政政編碼”是字符符型的,則數(shù)據(jù)據(jù)源中所所有數(shù)值值型的“郵政政編碼”均需先先行轉(zhuǎn)換換。DW中,經(jīng)常常要進(jìn)行行數(shù)據(jù)的的概括等等計(jì)算,以分析析事物的的發(fā)展趨趨勢(shì)。這這些工作作均要求求相應(yīng)的的數(shù)據(jù)具具有明確確的時(shí)間間屬性,因此,數(shù)據(jù)加加載到DW之前,要要完成其其時(shí)間戳戳的設(shè)置置。雖然“標(biāo)標(biāo)準(zhǔn)

15、化”、“過程與與匹配”、“凈凈化”等等對(duì)數(shù)數(shù)據(jù)的質(zhì)質(zhì)量有了了一定的的保證,但加載載到DW前,還還要進(jìn)行行“確認(rèn)認(rèn)數(shù)據(jù)質(zhì)質(zhì)量”的操作通常用手手工或軟軟件自動(dòng)動(dòng)檢測(cè)方方式完成成。在數(shù)據(jù)求求精過程程中,同同時(shí)還要要根據(jù)數(shù)數(shù)據(jù)源確確定相應(yīng)應(yīng)數(shù)據(jù)的的元數(shù)據(jù)據(jù),包括括名稱、定義、創(chuàng)建者者、創(chuàng)建建時(shí)間等等。CH1重構(gòu)工程程為了使DW更好地為為用戶服服務(wù)所進(jìn)進(jìn)行的一一系列操操作。集成與分分割概括與聚聚集預(yù)算與推推導(dǎo)翻譯與格格式化轉(zhuǎn)換與映映像元數(shù)據(jù)創(chuàng)創(chuàng)建把一個(gè)表表的數(shù)據(jù)據(jù)分割為為多個(gè)數(shù)數(shù)據(jù)塊(按日日期/地理位置置/時(shí)間); 把多多個(gè)數(shù)據(jù)據(jù)源的若若干數(shù)據(jù)據(jù)集合為為一塊。概括與聚聚集就是按照照某一(組)屬屬性進(jìn)行行

16、匯總根據(jù)建立立DW的需求,預(yù)先把把某些常常用的匯匯總求出出并存儲(chǔ)儲(chǔ)在DW中,以提提高DW的效率。對(duì)DW用戶的常規(guī)操作作進(jìn)行的預(yù)預(yù)設(shè)置,包括這這些操作作的結(jié)果果的存儲(chǔ)儲(chǔ)以及相相應(yīng)算法法的存儲(chǔ)儲(chǔ)(做為為元數(shù)據(jù)據(jù)),其其目的也也是提高高將來DW的使用效效率。對(duì)來自于于不同數(shù)數(shù)據(jù)源的的數(shù)據(jù)進(jìn)進(jìn)行翻譯和格格式化處理以便便于日后后的統(tǒng)一一處理。例如,客戶的的性別不不同的數(shù)數(shù)據(jù)源中中可能有有不同的的表示值值,加載載到DW后,要統(tǒng)統(tǒng)一起來來。大多數(shù)數(shù)數(shù)據(jù)源是是關(guān)系模模型,DW一般采用用星形模模型或雪雪花模型型。轉(zhuǎn)換與映映射就是連接接數(shù)據(jù)源源與DW的,它不不僅指明明了兩者者數(shù)據(jù)間間的關(guān)系系,還消消除了其其模型間

17、間的差異異。參見下一一小節(jié)。CH1數(shù)據(jù)倉(cāng)庫(kù)庫(kù)(創(chuàng)建建)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的核心心功能塊塊。建模概括集聚調(diào)整與確確認(rèn)建立結(jié)構(gòu)構(gòu)化查詢創(chuàng)建詞匯匯表元數(shù)據(jù)瀏覽與導(dǎo)導(dǎo)航設(shè)計(jì)數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的數(shù)據(jù)模模型(一一般為星星形或雪雪花形模模型),包括數(shù)數(shù)據(jù)的分分割、主主題域和和粒度的的確認(rèn)等等。根據(jù)用戶戶的需要要,從初初步的概概括中建建立高度度的數(shù)據(jù)據(jù)概括。概括的的程度與與用戶使使用的時(shí)時(shí)間等因因素有關(guān)關(guān)。根據(jù)用戶戶的典型型查詢需需求進(jìn)行行聚集處處理。如如,可以以對(duì)產(chǎn)品品的地區(qū)區(qū)分布、品牌的的分布等等進(jìn)行聚聚集處理理。對(duì)完成了了概括與與聚集的的數(shù)據(jù)進(jìn)進(jìn)行確認(rèn)認(rèn),如果果效果不不好,則則需進(jìn)行行調(diào)整直直至滿意意為止。為了提高高

18、DW的使用效效率而預(yù)預(yù)定義一一些常用用的結(jié)構(gòu)構(gòu)化查詢?cè)儯@些些查詢及及其結(jié)果果均作為為元數(shù)據(jù)據(jù)存儲(chǔ)起起來備用用。實(shí)際上每每個(gè)塊都都具有該該功能(可稱之之為元數(shù)據(jù)的的管理)。具體體包括元數(shù)據(jù)瀏瀏覽與導(dǎo)導(dǎo)航、元數(shù)據(jù)創(chuàng)創(chuàng)建、創(chuàng)建詞匯匯表等。CH13.數(shù)據(jù)站場(chǎng)場(chǎng)(集市?)結(jié)構(gòu)塊其構(gòu)成如如下:過濾與匹配集成與分割概括與聚集預(yù)算與推導(dǎo)標(biāo)明時(shí)間戳的數(shù)據(jù)源元數(shù)據(jù)抽取與創(chuàng)建建模概括集聚調(diào)整與確認(rèn)建立結(jié)構(gòu)化查詢創(chuàng)建詞匯表元數(shù)據(jù)瀏覽與導(dǎo)航求精與重構(gòu) 工 程數(shù)據(jù)站場(chǎng)創(chuàng) 建CH1注:有了DW的單位,該塊是是可選的的;數(shù)據(jù)站場(chǎng)場(chǎng)與數(shù)據(jù)倉(cāng)庫(kù)庫(kù)功能上相相似。數(shù)據(jù)站場(chǎng)場(chǎng)的主要要功能: 過濾濾、匹配配從DW中抽取的的數(shù)據(jù); 將D

19、W集成到新新的主題題域; 創(chuàng)建建新的概概括或聚聚集; 將DW中初步概概括的數(shù)數(shù)據(jù)進(jìn)行行高度概概括; 導(dǎo)出出新數(shù)據(jù)據(jù)(對(duì)不不同時(shí)間間、來源源者)。CH14.DW存取與使使用塊實(shí)現(xiàn)DW的最終功功能為用戶提提供決策策分析和和知識(shí)挖挖掘的功功能。DW直接存取取數(shù)據(jù)集市市存取重構(gòu)工程程轉(zhuǎn)換為多維結(jié)構(gòu)構(gòu)創(chuàng)建局部部存儲(chǔ)元數(shù)據(jù)抽取與創(chuàng)創(chuàng)建報(bào)表工具具分析工具具業(yè)務(wù)建模模工具DM工具新產(chǎn)品應(yīng)用工具具元數(shù)據(jù)管理與報(bào)報(bào)表OLAP存取與檢檢索分析與報(bào)報(bào)表管理DW元數(shù)據(jù)CH1存取與檢檢索為用戶提提供訪問問DW或數(shù)據(jù)集集市的功功能。DW直接存取取數(shù)據(jù)集市市存取重構(gòu)工程程轉(zhuǎn)換為多維結(jié)構(gòu)構(gòu)創(chuàng)建局部部存儲(chǔ)利用這些些功能,用戶可可

20、以將檢檢索到的的數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)變?yōu)槎喽嗑S數(shù)據(jù)據(jù)并存儲(chǔ)儲(chǔ)到多維維數(shù)據(jù)庫(kù)庫(kù)中;可可以把DW或數(shù)據(jù)集集市的數(shù)數(shù)據(jù)“卸卸載”下下來以便便進(jìn)行局局部分析析、數(shù)據(jù)據(jù)挖掘等等。CH1分析與報(bào)報(bào)表為用戶提提供一組組利用DW或數(shù)據(jù)集集市進(jìn)行行決策分分析或知知識(shí)挖掘掘的工具具。報(bào)表工具具分析工具具業(yè)務(wù)建模模工具DM工具新產(chǎn)品應(yīng)用工具具OLAP包括:GIS,DM工具,OLAP,可視化化工具,EIS,4GL,統(tǒng)計(jì)工工具,Internet瀏覽器,元數(shù)據(jù)據(jù)瀏覽器器,GUI程序,電電子表格格,報(bào)表表生成器器,數(shù)據(jù)據(jù)訪問工工具等。CH1元數(shù)據(jù)管管理元數(shù)據(jù)抽取與創(chuàng)創(chuàng)建元數(shù)據(jù)管理與報(bào)報(bào)表1.幫助用戶戶了解DW及數(shù)據(jù)集集市的名名稱、描描

21、述說明明、數(shù)值值、價(jià)值值來源等等;2.了解數(shù)據(jù)據(jù)的名稱稱、數(shù)值值以及從從抽取到到存入DW或數(shù)據(jù)集集市的過過程等;3.了解數(shù)據(jù)據(jù)的定位位、數(shù)據(jù)據(jù)的可靠靠性以及及如何存存取和使使用數(shù)據(jù)據(jù);4.幫助用戶戶掌握數(shù)數(shù)據(jù)的正正確內(nèi)容容、信息息的粒度度、信息息的概括括程度、原始數(shù)數(shù)據(jù)的來來源和日日期等;5.幫助驗(yàn)證證數(shù)據(jù)源源的質(zhì)量量、判斷斷數(shù)據(jù)的的可靠性性等。CH15.數(shù)據(jù)管理理層模塊塊該模塊的的構(gòu)成如如圖所示示。數(shù)據(jù)抽取、查詢與需求管理加載、存儲(chǔ)、刷新、更新系統(tǒng)安全性與授權(quán)管理歸檔、恢復(fù)和凈化系統(tǒng)1.從數(shù)據(jù)源源抽取數(shù)數(shù)據(jù);2.需要時(shí),追蹤并并充實(shí)數(shù)數(shù)據(jù);3.數(shù)據(jù)查詢?cè)冎械牟⒉⑿刑幚砝淼墓芾砝淼取?.完成數(shù)

22、據(jù)據(jù)的加載載;2.捕捉數(shù)據(jù)據(jù)的變化化并用以以充實(shí)數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù);3.根據(jù)用戶戶以及DW管理需求求更新DW等。1.禁止用戶戶進(jìn)行非非法操作作;2.賦予用戶戶以不同同的操作作權(quán)限等等。1.定期地進(jìn)進(jìn)行歸檔檔、備份份,以便便恢復(fù)系系統(tǒng);2.對(duì)從數(shù)據(jù)據(jù)源抽取取的數(shù)據(jù)據(jù)進(jìn)行篩篩選、數(shù)數(shù)據(jù)標(biāo)準(zhǔn)準(zhǔn)及內(nèi)容容的統(tǒng)一一、各種種求精重重構(gòu)凈化化等管理理。CH16.元數(shù)據(jù)管管理層模模塊該模塊的的構(gòu)成如如圖所示示。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)、數(shù)據(jù)據(jù)集市/知識(shí)挖掘庫(kù)和和詞匯表表管理利用詞匯匯表管理理DW或數(shù)據(jù)集集市中的的邏輯數(shù)數(shù)據(jù)模型型和物理理數(shù)據(jù)模模型以及及與業(yè)務(wù)務(wù)和技術(shù)術(shù)相關(guān)的的數(shù)據(jù)說說明。在對(duì)數(shù)據(jù)據(jù)源進(jìn)行行數(shù)據(jù)抽抽取、清清理、加加載等操操作中,同時(shí)要要進(jìn)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論