數(shù)據(jù)倉(cāng)庫(kù)與元數(shù)據(jù)管理標(biāo)準(zhǔn)化(共8頁(yè))_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與元數(shù)據(jù)管理標(biāo)準(zhǔn)化(共8頁(yè))_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與元數(shù)據(jù)管理標(biāo)準(zhǔn)化(共8頁(yè))_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與元數(shù)據(jù)管理標(biāo)準(zhǔn)化(共8頁(yè))_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與元數(shù)據(jù)管理標(biāo)準(zhǔn)化(共8頁(yè))_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)倉(cāng)庫(kù)與元數(shù)據(jù)管理標(biāo)準(zhǔn)化 2009-07-08 作者:陳 兵 來(lái)源:陳 兵的BLOG  1. 前言 在事務(wù)處理系統(tǒng)中的數(shù)據(jù),主要用于記錄和查詢業(yè)務(wù)情況。隨著數(shù)據(jù)倉(cāng)庫(kù)(DW)技術(shù)的不斷成熟,企業(yè)的數(shù)據(jù)逐漸變成了決策的主要依據(jù)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從許多業(yè)務(wù)處理系統(tǒng)中抽取、轉(zhuǎn)換而來(lái),對(duì)于這樣一個(gè)復(fù)雜的企業(yè)數(shù)據(jù)環(huán)境,如何以安全、高效的方式來(lái)對(duì)它們進(jìn)行管理和訪問(wèn)就變得尤為重要。解決這一問(wèn)題的關(guān)鍵是對(duì)元數(shù)據(jù)進(jìn)行科學(xué)有效的管理。 2. 元數(shù)據(jù) 按照傳統(tǒng)的定義,元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉(cāng)庫(kù)管理員和數(shù)據(jù)倉(cāng)庫(kù)的

2、開(kāi)發(fā)人員非常方便地找到他們所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類(lèi):技術(shù)元數(shù)據(jù)(Technical Metadata)和業(yè)務(wù)元數(shù)據(jù)(Business Metadata)。 技術(shù)元數(shù)據(jù)是存儲(chǔ)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)使用的數(shù)據(jù),它主要包括以下信息: · 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述,包括倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容; · 業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式 · 匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢與報(bào)告

3、; · 由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(用戶授權(quán)和存取控制)。 業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),它提供了介于使用者和實(shí)際系統(tǒng)之間的語(yǔ)義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語(yǔ)所表達(dá)的數(shù)據(jù)模型、對(duì)象名和屬性名;訪問(wèn)數(shù)據(jù)的原則和數(shù)據(jù)的來(lái)源;系統(tǒng)所提供的分析方法以及公式和報(bào)表的信息;具體包括以下信息: · 企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個(gè)企業(yè)的業(yè)務(wù)概念和相互關(guān)系。以這個(gè)企

4、業(yè)模型為基礎(chǔ),不懂?dāng)?shù)據(jù)庫(kù)技術(shù)和SQL語(yǔ)句的業(yè)務(wù)人員對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)也能做到心中有數(shù)。 · 多維數(shù)據(jù)模型:這是企業(yè)概念模型的重要組成部分,它告訴業(yè)務(wù)分析人員在數(shù)據(jù)集市當(dāng)中有哪些維、維的類(lèi)別、數(shù)據(jù)立方體以及數(shù)據(jù)集市中的聚合規(guī)則。這里的數(shù)據(jù)立方體表示某主題領(lǐng)域業(yè)務(wù)事實(shí)表和維表的多維組織形式。 業(yè)務(wù)概念模型和物理數(shù)據(jù)之間的依賴(lài):以上提到的業(yè)務(wù)元數(shù)據(jù)只是表示出了數(shù)據(jù)的業(yè)務(wù)視圖,這些業(yè)務(wù)視圖與實(shí)際的數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)、多維數(shù)據(jù)庫(kù)中的表、字段、維、層次等之間的對(duì)應(yīng)關(guān)系也應(yīng)該在元數(shù)據(jù)知識(shí)庫(kù)中有所體現(xiàn)。 3. 元數(shù)據(jù)的作用 (1) 元數(shù)據(jù)是進(jìn)行數(shù)據(jù)集成所必需的 數(shù)據(jù)倉(cāng)庫(kù)最大的特點(diǎn)就是它的集成性。這一特

5、點(diǎn)不僅體現(xiàn)在它所包含的數(shù)據(jù)上,還體現(xiàn)在實(shí)施數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的過(guò)程當(dāng)中。一方面,從各個(gè)數(shù)據(jù)源中抽取的數(shù)據(jù)要按照一定的模式存入數(shù)據(jù)倉(cāng)庫(kù)中,這些數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的對(duì)應(yīng)關(guān)系及轉(zhuǎn)換規(guī)則都要存儲(chǔ)在元數(shù)據(jù)知識(shí)庫(kù)中;另一方面,在數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施過(guò)程中,直接建立數(shù)據(jù)倉(cāng)庫(kù)往往費(fèi)時(shí)、費(fèi)力,因此在實(shí)踐當(dāng)中,人們可能會(huì)按照統(tǒng)一的數(shù)據(jù)模型,首先建設(shè)數(shù)據(jù)集市,然后在各個(gè)數(shù)據(jù)集市的基礎(chǔ)上再建設(shè)數(shù)據(jù)倉(cāng)庫(kù)。不過(guò),當(dāng)數(shù)據(jù)集市數(shù)量增多時(shí)很容易形成“蜘蛛網(wǎng)”現(xiàn)象,而元數(shù)據(jù)管理是解決“蜘蛛網(wǎng)”的關(guān)鍵。如果在建立數(shù)據(jù)集市的過(guò)程中,注意了元數(shù)據(jù)管理,在集成到數(shù)據(jù)倉(cāng)庫(kù)中時(shí)就會(huì)比較順利;相反,如果在建設(shè)數(shù)據(jù)集市的過(guò)程中忽視了元數(shù)據(jù)管理,那么最

6、后的集成過(guò)程就會(huì)很困難,甚至不可能實(shí)現(xiàn)。 (2) 元數(shù)據(jù)定義的語(yǔ)義層可以幫助最終用戶理解數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù) 最終用戶不可能象數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)管理員或開(kāi)發(fā)人員那樣熟悉數(shù)據(jù)庫(kù)技術(shù),因此迫切需要有一個(gè)“翻譯”,能夠使他們清晰地理解數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的含意。元數(shù)據(jù)可以實(shí)現(xiàn)業(yè)務(wù)模型與數(shù)據(jù)模型之間的映射,因而可以把數(shù)據(jù)以用戶需要的方式“翻譯”出來(lái),從而幫助最終用戶理解和使用數(shù)據(jù)。 (3) 元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵 數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市建立好以后,使用者在使用的時(shí)候,常常會(huì)產(chǎn)生對(duì)數(shù)據(jù)的懷疑。這些懷疑往往是由于底層的數(shù)據(jù)對(duì)于用戶來(lái)說(shuō)是不“透明”的,使用者很自然地對(duì)結(jié)果產(chǎn)生懷疑。而借助元數(shù)據(jù)管理系統(tǒng),最終的使用者對(duì)各個(gè)數(shù)

7、據(jù)的來(lái)龍去脈以及數(shù)據(jù)抽取和轉(zhuǎn)換的規(guī)則都會(huì)很方便地得到,這樣他們自然會(huì)對(duì)數(shù)據(jù)具有信心;當(dāng)然也可便捷地發(fā)現(xiàn)數(shù)據(jù)所存在的質(zhì)量問(wèn)題。甚至國(guó)外有學(xué)者還在元數(shù)據(jù)模型的基礎(chǔ)上引入質(zhì)量維6,從更高的角度上來(lái)解決這一問(wèn)題。 (4) 元數(shù)據(jù)可以支持需求變化 隨著信息技術(shù)的發(fā)展和企業(yè)職能的變化,企業(yè)的需求也在不斷地改變。如何構(gòu)造一個(gè)隨著需求改變而平滑變化的軟件系統(tǒng),是軟件工程領(lǐng)域中的一個(gè)重要問(wèn)題。傳統(tǒng)的信息系統(tǒng)往往是通過(guò)文檔來(lái)適應(yīng)需求變化,但是僅僅依靠文檔還是遠(yuǎn)遠(yuǎn)不夠的。成功的元數(shù)據(jù)管理系統(tǒng)可以把整個(gè)業(yè)務(wù)的工作流、數(shù)據(jù)流和信息流有效地管理起來(lái),使得系統(tǒng)不依賴(lài)特定的開(kāi)發(fā)人員,從而提高系統(tǒng)的可擴(kuò)展性。 4. 元數(shù)據(jù)的標(biāo)

8、準(zhǔn)化 關(guān)于元數(shù)據(jù)的一般標(biāo)準(zhǔn),從內(nèi)容上,大致可分為兩類(lèi)。一是元數(shù)據(jù)建模,是對(duì)將來(lái)元數(shù)據(jù)的組織進(jìn)行規(guī)范定義,使得在元數(shù)據(jù)建模的標(biāo)準(zhǔn)制定之后產(chǎn)生的元數(shù)據(jù)都以一致的方式組織,從而保證元數(shù)據(jù)管理的一致性和簡(jiǎn)單性。二是元數(shù)據(jù)交互,是對(duì)已有的元數(shù)據(jù)組織方式以及相互間交互格式加以規(guī)范定義,從而實(shí)現(xiàn)不同系統(tǒng)元數(shù)據(jù)的交互。目前,主要有以下組織定義了元數(shù)據(jù)相關(guān)的規(guī)范。 (1) 對(duì)象管理組織OMG OMG在1995年采用了MOF(Meta Object Facility),并不斷完善之。1997年采用了UML,2000年,OMG又采用了CWM。這三個(gè)標(biāo)準(zhǔn):UML、MOF和CWM形成了OMG建模和元數(shù)據(jù)管理、交換結(jié)構(gòu)的

9、基礎(chǔ),推動(dòng)了元數(shù)據(jù)標(biāo)準(zhǔn)化的快速發(fā)展。 (2) 元數(shù)據(jù)聯(lián)合會(huì)MDC MDC建于1995年,目的是提供標(biāo)準(zhǔn)化的元數(shù)據(jù)交互。MDC于1996年開(kāi)發(fā)了MDIS(Meta Data Interchange Specification)并完成了MDCOIM的技術(shù)評(píng)審,MDCOIM基于微軟的開(kāi)放信息模型OIM,是一個(gè)獨(dú)立于技術(shù)的、以廠商為核心的信息模型。OIM是微軟的元數(shù)據(jù)管理產(chǎn)品Microsoft Repository的一部分。由微軟和其它20多家公司共同開(kāi)發(fā)的,作為微軟開(kāi)放過(guò)程的一部分,經(jīng)過(guò)了300多個(gè)公司的評(píng)審。 為了推動(dòng)元數(shù)據(jù)標(biāo)準(zhǔn)化的發(fā)展,MDC和OMG在元數(shù)據(jù)標(biāo)準(zhǔn)的制定上協(xié)同工作。1999年4月,

10、MDC成為OMG的成員,而OMG也同時(shí)成為MDC的成員。MDC中使用了OMG的UML,而MDCOIM中的數(shù)據(jù)倉(cāng)庫(kù)部分被用來(lái)作為OMG的公共倉(cāng)庫(kù)元數(shù)據(jù)交互(CWMI:Common Warehouse Metadata Interchange)的設(shè)計(jì)參考。在兩個(gè)組織的技術(shù)力量的合作努力下,元數(shù)據(jù)標(biāo)準(zhǔn)將逐步一致化。公共倉(cāng)庫(kù)元模型(CWM)是為數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析環(huán)境之間方便地交換元數(shù)據(jù)而制定的一個(gè)標(biāo)準(zhǔn),已經(jīng)成為模型驅(qū)動(dòng)體系結(jié)構(gòu)(MDA)新策略方向中的核心組成部分。下面我們講重點(diǎn)講述CWMI機(jī)器在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用。 5. CWM提出的背景 · 從數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)者的角度:?jiǎn)我还ぞ吆苌倌芡耆珴M足用戶

11、不斷變化的需求,但同時(shí)又很難對(duì)各種產(chǎn)品進(jìn)行集成; · 從數(shù)據(jù)倉(cāng)庫(kù)用戶的角度:面對(duì)的信息量太大,無(wú)法輕易找到自己真正需要的,而且把這些信息完整正確地表示出來(lái)也是個(gè)挑戰(zhàn); · 從數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商的角度:目前信息的共享還沒(méi)有標(biāo)準(zhǔn)格式,元數(shù)據(jù)集成的代價(jià)太大; 現(xiàn)在有很多數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,它們對(duì)元數(shù)據(jù)都有自己的定義和格式,因此創(chuàng)建、管理和共享元數(shù)據(jù)很耗時(shí)而且容易出錯(cuò)。要解決上面這些問(wèn)題,必須用標(biāo)準(zhǔn)的語(yǔ)言描述數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)的結(jié)構(gòu)和語(yǔ)義,并提供標(biāo)準(zhǔn)的元數(shù)據(jù)交換機(jī)制。CWM就是滿足這些條件的一個(gè)規(guī)范。OMG在2000年發(fā)布了CWM規(guī)范,旨在推動(dòng)數(shù)據(jù)倉(cāng)庫(kù)、智能商務(wù)和知識(shí)管理方面元數(shù)據(jù)的共享和交換。

12、和OMG合作提出CWM規(guī)范的公司有:IBM,Unisys,NCR,Hyperion Solutions,Oracle,UBS AG,Genesis Development,Dimension EDI。還有一些公司明確表示支持CWM,包括:Deere & Company,Sun,HP,Data Access Technologies,InLine Software,Aonix,Hitachi, Ltd。 6. OMG組織的CWM模型 CWM完整地描述了數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)交換的語(yǔ)法和語(yǔ)義以及用于異質(zhì)平臺(tái)之間的元數(shù)據(jù)交換機(jī)制,OMG元數(shù)據(jù)知識(shí)庫(kù)體系結(jié)構(gòu)如圖1所示。 圖1 OMG的元數(shù)據(jù)倉(cāng)儲(chǔ)體系結(jié)

13、構(gòu) CWM為數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能(BI)工具之間共享元數(shù)據(jù),制定了一整套關(guān)于語(yǔ)法和語(yǔ)義的規(guī)范。它主要包含以下四個(gè)方面的規(guī)范: (1) CWM元模型(Metamodel):描述數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的模型; (2) CWM XML:CWM元模型的XML表示; (3) CWM DTD:DW/BI共享元數(shù)據(jù)的交換格式 (4) CWM IDL:DW/BI共享元數(shù)據(jù)的應(yīng)用程序訪問(wèn)接口(API) 下面重點(diǎn)討論CWM元模型的組成,它與OIM規(guī)范一樣,也是由很多包組成的。組成CWM元模型的包結(jié)構(gòu)如圖2所示。 圖2 CWM元模型的包結(jié)構(gòu) 如圖中所示,CWM元模型主要包括四層:基礎(chǔ)包Foundation,資源包Resourc

14、e,分析包Analysis和管理包Management。 基礎(chǔ)包主要定義了為CWM其它包所共享的一些基本概念和結(jié)構(gòu),它包含的子包有: · Business Information:定義了面向業(yè)務(wù)的通用信息,比如負(fù)責(zé)人信息等; · Data Types:定義了其它包用以創(chuàng)建自己所需的數(shù)據(jù)類(lèi)型的元模型組件; · Expressions:定義了CWM其它包定義表達(dá)式樹(shù)所需的元模型組件; · Keys and Indexes:定義了描述關(guān)鍵字和索引的共享元模型; · Software Deployment:描述一個(gè)軟件在數(shù)據(jù)倉(cāng)庫(kù)中如何被使用的元模型;

15、· Type Mapping:支持不同系統(tǒng)之間數(shù)據(jù)類(lèi)型的映射的元模型; 資源包主要定義了一些描述常用的數(shù)據(jù)源/目標(biāo)的元模型,它包含的子包有: · Relational:描述通過(guò)關(guān)系型接口訪問(wèn)的數(shù)據(jù)庫(kù)的數(shù)據(jù)模型和元模型,比如RDBMS,ODBC,JDBC等; · Record:描述記錄的基本概念和結(jié)構(gòu)的元模型,這里記錄的概念很廣泛,它可以描述任何結(jié)構(gòu)化的信息,比如數(shù)據(jù)庫(kù)的一條記錄、文檔等; · Multidimensional:描述多維型數(shù)據(jù)庫(kù)的元模型; · XML:描述用XML表示的數(shù)據(jù)源和數(shù)據(jù)目標(biāo); 分析包主要定義了一些描述數(shù)據(jù)倉(cāng)庫(kù)工具的元模

16、型,它包含的子包有: · Transformation:定義數(shù)據(jù)倉(cāng)庫(kù)中抽取轉(zhuǎn)換規(guī)則的元模型,它包含對(duì)各種類(lèi)型數(shù)據(jù)源之間的轉(zhuǎn)換規(guī)則的描述; · OLAP:對(duì)OLAP工具和應(yīng)用進(jìn)行描述,并定義了它到實(shí)際系統(tǒng)的映射; · Data Mining:對(duì)數(shù)據(jù)挖掘工具和應(yīng)用進(jìn)行描述; · Information Visualization:定義了問(wèn)題領(lǐng)域中有關(guān)信息發(fā)布或者信息可視化的元模型; · Business Nomenclature:對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行描述,比如業(yè)務(wù)術(shù)語(yǔ)及其適用范圍等; 管理包主要定義了一些描述數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行和調(diào)度信息的元模型,它包含的子包有

17、: · Warehouse Process:描述數(shù)據(jù)倉(cāng)庫(kù)中抽取轉(zhuǎn)換規(guī)則的執(zhí)行過(guò)程,也就是各個(gè)轉(zhuǎn)換規(guī)則的觸發(fā)條件; · Warehouse Operation:描述數(shù)據(jù)倉(cāng)庫(kù)日常運(yùn)行情況的元模型;7. CWM的特點(diǎn) 通過(guò)對(duì)CWM組成結(jié)構(gòu)的介紹,可以看出CWM具有以下特點(diǎn): · 對(duì)所有的數(shù)據(jù)倉(cāng)庫(kù)功能元數(shù)據(jù)定義了詳細(xì)的元模型和交換方式,包括技術(shù)元數(shù)據(jù)(比如Software Deployment,Transformation,Warehouse Process等)和業(yè)務(wù)元數(shù)據(jù)(比如OLAP,Business Information等); · 定義了一個(gè)通用且強(qiáng)大的

18、Transformation包,可以表示任何數(shù)據(jù)源和數(shù)據(jù)目標(biāo)之間的轉(zhuǎn)換規(guī)則。此外,還為多種常用的數(shù)據(jù)源/目標(biāo)(比如Relational,Record,Multidimensional,XML等)和工具相關(guān)的數(shù)據(jù)源(比如IMS,DMSII,COBOL Data,Essbase和Express等)定義了元模型和交換方式; · 對(duì)所有的數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行元素定義了元模型和交換方式,包括調(diào)度、狀態(tài)報(bào)告和歷史記錄等; · 對(duì)所有的分析型數(shù)據(jù)以及主要的分析型數(shù)據(jù)模型定義了元模型和交換方式,比如多維型; · 對(duì)操作型數(shù)據(jù)以及主要的操作型數(shù)據(jù)模型定義了元模型,比如關(guān)系型和面向?qū)ο笮停?

19、8. CWM的應(yīng)用 CWM主要面向以下幾類(lèi)用戶: · 數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)和工具提供商:CWM為他們提供了一個(gè)組件可插卸的通用系統(tǒng)框架。因?yàn)檫@是一種全球通用的元數(shù)據(jù)交換協(xié)議,所以他們可以很方便地在各種異質(zhì)平臺(tái)上發(fā)布自己的產(chǎn)品; · 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)提供者:可重用、可編輯、可擴(kuò)展的CWM元數(shù)據(jù)大大提高了他們的工作效率。因?yàn)镃WM與產(chǎn)品無(wú)關(guān),所以可以避免大量的重復(fù)設(shè)計(jì)工作; · 數(shù)據(jù)倉(cāng)庫(kù)管理員:數(shù)據(jù)倉(cāng)庫(kù)管理員有時(shí)需要對(duì)現(xiàn)有工具進(jìn)行整合,而CWM XML無(wú)疑為他們提供了一種最方便的整合方式。另外,管理員經(jīng)常需要對(duì)資源進(jìn)行增減、分區(qū)或者重新分配,CWM提供了這方面的元數(shù)據(jù)以幫助他們完

20、成這些工作,并對(duì)改變?cè)斐傻挠绊懽鞒鲈u(píng)估; · 終端用戶:CWM為查詢和展示工具定義了元模型,以便更方便快捷地為終端用戶展示他們所需的信息; · 信息技術(shù)管理者:CWM為系統(tǒng)管理和報(bào)表工具定義了元模型,使得用戶能夠更輕松地對(duì)系統(tǒng)和信息進(jìn)行管理; 例如,在企業(yè)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)中,ETL組件是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)一個(gè)非常重要的部分,它將數(shù)據(jù)從外部系統(tǒng)提取出來(lái),排除噪聲,去掉冗余,并進(jìn)行轉(zhuǎn)換、聚集、重構(gòu),以利于用戶使用和理解的方式存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,其主要目的有兩個(gè):改進(jìn)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的質(zhì)量和提高數(shù)據(jù)的可用性。ETL過(guò)程的工作量比較大,可以占到數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)工作的80%左右,其過(guò)程設(shè)計(jì)和執(zhí)行情

21、況直接影響到數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的質(zhì)量和用戶的使用,所以應(yīng)該予以足夠的重視。ETL過(guò)程主要包括以下一些步驟: · 讀取數(shù)據(jù):數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)通常都需要從多種不同的數(shù)據(jù)源中讀取數(shù)據(jù),如果數(shù)據(jù)源結(jié)構(gòu)清晰、定義規(guī)范且說(shuō)明文檔比較全,這一步會(huì)相對(duì)簡(jiǎn)單些,但很多情況下,遺留系統(tǒng)中總會(huì)有些字段的含義不明確并且各個(gè)數(shù)據(jù)源的數(shù)據(jù)語(yǔ)義不能完全保持一致,這時(shí)需要抽取含義明確的數(shù)據(jù)并在抽取過(guò)程中對(duì)同一語(yǔ)義的數(shù)據(jù)進(jìn)行重新定義; · 清潔數(shù)據(jù):清潔包括范圍檢驗(yàn)和復(fù)雜的重新格式化以去除源數(shù)據(jù)中不規(guī)范的部分,也就是臟數(shù)據(jù)。清潔不僅檢查字段或字段組的存儲(chǔ)格式,而且檢查字段中數(shù)據(jù)的有效值。簡(jiǎn)單情況下,可以用一些預(yù)先定

22、義的規(guī)則或算法對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,當(dāng)這種做法不能滿足需求時(shí),可能需要利用人工智能技術(shù)以獲取所需的輸出數(shù)據(jù); · 轉(zhuǎn)換數(shù)據(jù):在初步獲取所需的干凈的源數(shù)據(jù)后,需要對(duì)它們進(jìn)行一系列的變換,包括:數(shù)據(jù)類(lèi)型轉(zhuǎn)換、日期/時(shí)間格式轉(zhuǎn)換、重構(gòu)(比如變換存儲(chǔ)格式)、綜合(首先對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行整合,然后再聚合到不同的粒度,同時(shí)為每條記錄生成關(guān)鍵字)等。在轉(zhuǎn)換過(guò)程中,不可避免地需要對(duì)數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系進(jìn)行重新定義,但無(wú)論如何變化,它們都必須遵循統(tǒng)一的模型和語(yǔ)義,以保持整個(gè)企業(yè)數(shù)據(jù)都一致性; · 裝載數(shù)據(jù):在所需數(shù)據(jù)處理完畢后,就可以把它們裝載到數(shù)據(jù)倉(cāng)庫(kù)中,這個(gè)過(guò)程相對(duì)簡(jiǎn)單一些,但由于源系統(tǒng)

23、和目標(biāo)系統(tǒng)通常采用不同的工具實(shí)現(xiàn)并且可能位于不同類(lèi)型的操作系統(tǒng)中,所以要求ETL過(guò)程能夠支持多種類(lèi)型的系統(tǒng),并注意格式的轉(zhuǎn)換; ETL的實(shí)現(xiàn)可以有兩種方法,一是使用專(zhuān)用的數(shù)據(jù)轉(zhuǎn)換工具,二是通過(guò)手工編制程序完成??紤]到時(shí)間的許可范圍、預(yù)算、系統(tǒng)規(guī)模以及技術(shù)可行性等方面的因素,對(duì)于規(guī)模小、實(shí)際寬裕、編程技巧高的項(xiàng)目可以采用手工轉(zhuǎn)換的方式。而對(duì)于規(guī)模大、時(shí)間緊、技術(shù)成熟的項(xiàng)目可以考慮使用專(zhuān)用的抽取轉(zhuǎn)換工具完成,或者采用二者結(jié)合的方式。 ETL組件的CWM元模型主要定義了以下三組類(lèi):黑盒變換、白盒變換和變換的執(zhí)行順序。黑盒變換元模型在比較粗的粒度上(也就是數(shù)據(jù)源的級(jí)別)描述變換,包括以下一些類(lèi)和接口:

24、 · Transformation:描述一個(gè)變換步驟。其主要接口有:創(chuàng)建變換;查詢和設(shè)置屬性(比如是否主變換等);查詢和修改變換使用的函數(shù);查詢、修改、增加變換的數(shù)據(jù)源和數(shù)據(jù)目標(biāo);查詢、修改和添加變換使用的模型(可以為空); · DataObjectSet:即數(shù)據(jù)集,描述變換用到的數(shù)據(jù)源和數(shù)據(jù)目標(biāo)。其主要接口有:創(chuàng)建數(shù)據(jù)集;查詢、添加、修改和刪除數(shù)據(jù)集包含的數(shù)據(jù)元素;查詢、添加、修改和刪除以該數(shù)據(jù)集為數(shù)據(jù)源或目標(biāo)的變換; · TransformationUse:用于連接一個(gè)變換和實(shí)現(xiàn)該變換的對(duì)象(比如程序、查詢、規(guī)則等)的模型。其主要接口有:創(chuàng)建Transform

25、ationUse;查詢和設(shè)置實(shí)現(xiàn)對(duì)象的類(lèi)型;查詢、添加、修改和刪除TransformationUse連接的變換和實(shí)現(xiàn)對(duì)象; 白盒變換在比較細(xì)的粒度上描述變換(也就是數(shù)據(jù)源的屬性的級(jí)別),主要包括以下一些類(lèi)和接口: · FeatureMap:描述Feature之間的變換。主要接口創(chuàng)建FeatureMap;有查詢、添加、刪除和修改該變換用到的函數(shù)及其源/目標(biāo)Feature;查詢和修改包含該FeatureMap的ClassifierMap; · ClassifierMap:描述Classifier之間的變換。主要接口有創(chuàng)建ClassifierMap;查詢、添加、刪除和修改該變換用

26、到的函數(shù)及其源/目標(biāo)Feature;查詢和修改包含該ClassifierMap的TransformationMap以及該ClassifierMap包含的FeatureMap和ClassifierFeatureMap; · ClassifierFeatureMap:描述Classifier和Feature之間的變換。主要接口有創(chuàng)建ClassifierFeatureMap;查詢和修改該變換的類(lèi)型;查詢、添加、刪除和修改該變換用到的函數(shù)及其源/目標(biāo)Feature和Classifier;查詢和修改包含該ClassifierFeatureMap的ClassifierMap; · Tr

27、ansformationMap:由ClassifierMap組成,描述數(shù)據(jù)集之間的變換;主要接口有創(chuàng)建TransformationMap;查詢、添加、刪除和修改該TransformationMap包含的ClassifierMap; 變換的執(zhí)行順序控制主要包括以下一些類(lèi)和接口: · TransformationTask:即變換任務(wù),它描述一組必須作為一個(gè)邏輯單元同時(shí)執(zhí)行的變換。一個(gè)變換任務(wù)可以有一個(gè)功能相反的逆向變換任務(wù)與之對(duì)應(yīng),稱(chēng)為inverse task。TransformationTask的主要接口有創(chuàng)建變換任務(wù);查詢、添加、刪除和修改該變換任務(wù)包含的變換、第一個(gè)執(zhí)行的變換及其對(duì)

28、應(yīng)的逆向變換任務(wù); · TransformationStep:即變換步驟,它和變換任務(wù)是一一對(duì)應(yīng)的,用于描述一個(gè)變換任務(wù)在變換活動(dòng)(TransformationActivity)中的執(zhí)行順序。TransformationStep的主要接口有創(chuàng)建變換步驟;查詢和設(shè)置它對(duì)應(yīng)的變換任務(wù)以及包含它的變換活動(dòng);查詢、添加、刪除和修改在該變換步驟之前和之后執(zhí)行的步驟,以及施加于該步驟之上的限制條件; · TransformationActivity:即變換活動(dòng),用于描述一個(gè)變換系統(tǒng)。其主要接口有創(chuàng)建變換活動(dòng);查詢和設(shè)置活動(dòng)的創(chuàng)建日期;查詢、添加、刪除和修改該變換活動(dòng)包含的變換步驟; ·

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論