已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 1 基于 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 2 目 錄 第一章:緒論 . 1 1 1 課題背景 . 1 1 2 工作內(nèi)容及研究成果 . 1 1 3 論文結(jié)構(gòu) . 2 第二章:數(shù)據(jù)倉庫、元數(shù)據(jù)、體系結(jié)構(gòu)理論概述 . 3 2 1 數(shù)據(jù)倉庫理論概述 . 3 2 1 1 引言 . 3 2 1 2 數(shù)據(jù)倉庫的定義及特點 . 3 2 1 3 數(shù)據(jù)倉庫的數(shù)據(jù)模型 . 4 2 1 4 數(shù)據(jù)倉庫的建設(shè) . 5 2 1 5 數(shù)據(jù)倉庫的應(yīng)用 . 5 2 1 6 國內(nèi)數(shù)據(jù)倉庫建設(shè)過程中的若干問題 . 6 2 2 元數(shù)據(jù)概述 . 6 2 2 1 引言 . 6 2 2 2 元數(shù)據(jù)的定義和分類 . 7 2 2 3 元數(shù)據(jù)的建模 . 8 2 2 4 元數(shù)據(jù)的標準化 . 9 2 3 體系結(jié)構(gòu)概述 . 9 2 3 1 引言 . 9 2 3 2 軟件體系 結(jié)構(gòu)的概念 . 10 2 3 3 幾種主要的軟件體系結(jié)構(gòu)風(fēng)格 . 10 第三章: 相關(guān)理論概述 . 12 3 1 引言 . 12 3 2 相關(guān)理論概述 . 12 3 2 1 引言 . 12 3 2 2 其和 關(guān)系 . 14 3 2 3 其和 關(guān)系 . 15 3 2 4 其和 關(guān)系 . 16 3 3 組成結(jié)構(gòu) . 17 3 4 特點 . 19 3 5 設(shè)計目標 . 20 3 6 應(yīng)用 . 20 第四章:基于 企業(yè)數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 . 22 4 1 引言 . 22 4 2 數(shù)據(jù)倉庫體系結(jié)構(gòu)的作用 . 22 4 3 體系結(jié)構(gòu)設(shè)計原則 . 24 4 4 基于 體系結(jié)構(gòu)設(shè)計 . 25 4 4 1 企業(yè)數(shù)據(jù)倉庫體系結(jié)構(gòu) . 25 4 4 2 體系結(jié)構(gòu)組件及其接口描述 . 26 4 4 3 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)的特點及優(yōu)點 . 44 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 3 4 4 4 小結(jié) . 45 第五章 電信領(lǐng)域數(shù)據(jù)倉庫系統(tǒng)設(shè)計 . 46 5 1 系統(tǒng)簡介 . 46 5 1 1 項目背景 . 46 5 1 2 系統(tǒng)任務(wù)概述 . 47 5 1 3 開發(fā)運行環(huán)境 . 48 5 2 系統(tǒng)設(shè)計 . 49 5 2 1 體系結(jié)構(gòu)設(shè)計 . 49 5 2 2 系統(tǒng)部署 . 50 5 2 3 數(shù)據(jù)模型設(shè)計 . 51 5 3 系統(tǒng)特點分析 . 51 5 4 系統(tǒng)結(jié)果展示 . 53 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 1 第一章:緒論 1 1 課題背景 90 年代末以來,國內(nèi)外掀起了一股數(shù)據(jù)倉庫的熱潮,數(shù)據(jù)倉庫技術(shù)作為一種決策支持的手段為越來越多的企業(yè)接受。各大數(shù)據(jù)庫公司紛紛開發(fā)自己的數(shù)據(jù)倉庫產(chǎn)品,還有很多公司開發(fā)了相關(guān)的分析工具。這些工具給用戶帶來了很大的方便,但同時,由于它們都采用自己的數(shù)據(jù)格式和元數(shù)據(jù)表示方法,互相之間不能兼容,企業(yè)的很多應(yīng)用就要依賴于特定廠商的產(chǎn)品,數(shù)據(jù)倉庫的設(shè)計和實現(xiàn)受到很大的限制。所以,搭建一個統(tǒng)一且易于擴展的數(shù)據(jù)倉庫平臺,并能實現(xiàn)其中不同工具之間的數(shù)據(jù)交換,就成為亟需解決的問題。 電信行業(yè)是我國引入競爭相對較晚的一個行業(yè),但競爭的激烈程度絲毫不亞于其他行業(yè)。各電信企業(yè)都積累了龐大的客戶和業(yè)務(wù)資 料庫,并紛紛開始搭建數(shù)據(jù)倉庫以增加競爭優(yōu)勢。但由于電信行業(yè)數(shù)據(jù)龐雜、需求廣泛且多變,單一廠家的數(shù)據(jù)倉庫工具很難滿足要求。若采用多種工具,系統(tǒng)的體系結(jié)構(gòu)設(shè)計以及不同工具之間的數(shù)據(jù)交換就成為必須解決的關(guān)鍵問題。 一種解決方案是利用元數(shù)據(jù)。元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),是數(shù)據(jù)倉庫系統(tǒng)不可或缺的重要部分。一般來說,數(shù)據(jù)倉庫中的元數(shù)據(jù)有兩個用途,首先,它能提供基于用戶的信息,比如記錄數(shù)據(jù)項的業(yè)務(wù)描述元數(shù)據(jù)能幫助用戶去使用信息;其次,元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維護,如關(guān)于數(shù)據(jù)項存儲方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問 數(shù)據(jù)。如果異質(zhì)平臺上不同的數(shù)據(jù)倉庫工具之間能夠?qū)崿F(xiàn)所有這些元數(shù)據(jù)的交換,實際上也就是實現(xiàn)了它們所描述數(shù)據(jù)的交換,從而解決異質(zhì)工具之間的互通問題。 但元數(shù)據(jù)的交換涉及到很多問題,比如元數(shù)據(jù)的表示形式以及交換機制等。為了解決這方面的問題, 2000 年提出了一套關(guān)于數(shù)據(jù)倉庫元數(shù)據(jù)的用倉庫元模型)規(guī)范,其主要目的就是為了方便異質(zhì)分布式系統(tǒng)中的數(shù)據(jù)倉庫工具、數(shù)據(jù)倉庫平臺以及元數(shù)據(jù)庫之間的元數(shù)據(jù)交換。而研究如何搭建電信領(lǐng)域基于 數(shù)據(jù)倉庫系統(tǒng)并實現(xiàn)不同工具之間的數(shù)據(jù)交換正是本論文展開研究的背景。 1 2 工作內(nèi)容及研究成果 為了使構(gòu)筑于數(shù)據(jù)倉庫基礎(chǔ)上的企業(yè)應(yīng)用不再和具體的工具綁定,本文試圖提出一種可行的基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計方案。結(jié)合這個目標,本論文主要做了以下幾方面的工作: 調(diào)研:包括目前一些企業(yè)已經(jīng)實施的數(shù)據(jù)倉庫的體系結(jié)構(gòu)、現(xiàn)有工具產(chǎn)品、基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 2 電信企業(yè)需求、電信企業(yè)業(yè)務(wù)數(shù)據(jù)結(jié)構(gòu)等。 理論研究:主要是對 規(guī)范以及體系結(jié)構(gòu)理論的研究并提出基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)。 部分實現(xiàn)體系結(jié)構(gòu):由于目前尚無工具支持 以只能部分實現(xiàn)本論文提出的體系結(jié)構(gòu),搭建一個實用的數(shù) 據(jù)倉庫系統(tǒng),其中的接口部分作為下一步的工作。 在基本完成上述工作內(nèi)容的情況下,獲得的主要成果是提出一種基于 1 3 論文結(jié)構(gòu) 本論文的內(nèi)容基本按照工作內(nèi)容進行組織: 第二、三章作為核心內(nèi)容的鋪墊,主要介紹了論文的理論基礎(chǔ)。其中第二章首先介紹了數(shù)據(jù)倉庫的相關(guān)理論(包括數(shù)據(jù)倉庫的定義、特點、數(shù)據(jù)模型、建設(shè)和應(yīng)用等)。隨后介紹元數(shù)據(jù)的定義、分類、建模和標準化。最后是體系結(jié)構(gòu)的概念以及幾種主要的風(fēng)格。 第三章介紹了 關(guān)理論。此章首先簡單描述了 規(guī)范之間的關(guān)系,然后介紹了 組成結(jié)構(gòu)、特點、設(shè)計目標及其適用范圍。 第四章是本論文的核心部分,提出一種基于 企業(yè)數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu),并詳細介紹組件的功能、地位和接口,這些組件包括數(shù)據(jù)源、 據(jù)建模、中央元數(shù)據(jù)庫、本地元數(shù)據(jù)庫、 央數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)倉庫管理以及一些前端分析應(yīng)用等。 第五章介紹了在電信領(lǐng)域基于上述體系結(jié)構(gòu)設(shè)計的一個數(shù)據(jù)倉庫系統(tǒng),具體內(nèi)容包括該系統(tǒng)的任務(wù)概述、開發(fā)運行環(huán)境、體系結(jié)構(gòu)設(shè)計、系統(tǒng)部署、數(shù)據(jù)建模以及系統(tǒng)優(yōu)缺點分析。 第六章對本文作了簡單總 結(jié),并對進一步的研究工作提出了幾個建議。 論文最后是致謝及參考文獻列表。 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 3 第二章:數(shù)據(jù)倉庫、體系結(jié)構(gòu)、元數(shù)據(jù)理論概述 2 1 引言 筆者系統(tǒng)地學(xué)習(xí)了數(shù)據(jù)倉庫的基本理論、研究了目前的數(shù)據(jù)倉庫元數(shù)據(jù)的內(nèi)容、特點和交換機制,最后參考目前幾種典型的體系結(jié)構(gòu)風(fēng)格,并結(jié)合企業(yè)應(yīng)用數(shù)據(jù)倉庫的成功案例,提出一種基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)。下面,本章將簡單介紹數(shù)據(jù)倉庫、元數(shù)據(jù)和體系結(jié)構(gòu)方面的理論知識,至于 范,由于內(nèi)容比較多,所以單獨作為一章介紹。 2 2 數(shù)據(jù)倉庫理論概述 2 2 1 引言 隨著市場競爭的日趨激烈 ,人們越來越深刻地認識到信息對于企業(yè)的生存和發(fā)展所起的重要作用,可以說,誰先掌握了廣泛而可靠的信息,誰就把握了企業(yè)發(fā)展的先機,但信息來自何方? 近年來,很多企業(yè)都建立了較為完善的數(shù)據(jù)庫系統(tǒng),用于存儲信息的數(shù)據(jù)也不斷膨脹,但由于企業(yè)管理技術(shù)的落后,對這些積累起來的海量數(shù)據(jù)遠沒有充分利用,在這種背景下,數(shù)據(jù)倉庫技術(shù)應(yīng)運而生。數(shù)據(jù)倉庫建立在傳統(tǒng)事務(wù)型數(shù)據(jù)庫的基礎(chǔ)之上,為企業(yè) 策支持系統(tǒng))提供數(shù)據(jù)源。 2 2 2 數(shù)據(jù)倉庫的定義及特點 目前,大家公認的數(shù)據(jù)倉庫創(chuàng)始人 他所著的 建立數(shù)據(jù)倉庫一書中對數(shù)據(jù)倉庫所下的定義是:數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合。由這個定義可以看出數(shù)據(jù)倉庫主要有以下四個特點: 面向主題:主題是在一個較高層次上將數(shù)據(jù)進行綜合、歸類并進行分析利用的抽象。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)的完整、一致的描述,能統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的關(guān)系; 集成的:由于各種原因,數(shù)據(jù)倉庫的每個主題所對應(yīng)的的數(shù)據(jù)源在原有的分散數(shù)據(jù)庫中通常會有許多重復(fù)和不一致的地方,而且 不同聯(lián)機系統(tǒng)的數(shù)據(jù)都和不同的應(yīng)用邏輯綁定,所以數(shù)據(jù)在進入數(shù)據(jù)倉庫之前必須統(tǒng)一和綜合,這一步是數(shù)據(jù)倉庫建設(shè)中最關(guān)鍵、最復(fù)雜的一步; 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 4 不可更新的:數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當長的時間內(nèi)歷史數(shù)據(jù)的內(nèi)容,主要供企業(yè)決策分析之用。與面向應(yīng)用的事務(wù)數(shù)據(jù)庫需要對數(shù)據(jù)作頻繁的插入、更新操作不同,數(shù)據(jù)倉庫中的數(shù)據(jù)所涉及的操作主要是查詢和新數(shù)據(jù)的導(dǎo)入,一般不進行修改操作; 隨時間不斷變化的:數(shù)據(jù)倉庫系統(tǒng)必須不斷捕捉 據(jù)庫中變化的數(shù)據(jù),并在經(jīng)過統(tǒng)一集成后裝載到數(shù)據(jù)倉庫中。同時,數(shù)據(jù)倉庫中的數(shù)據(jù)也有存儲期限,會隨時間變化 不斷刪去舊的數(shù)據(jù),只是其數(shù)據(jù)時限遠比操作型環(huán)境的要長,比如根據(jù)需要可保存 10 年內(nèi)的歷史數(shù)據(jù); 2 2 3 數(shù)據(jù)倉庫的數(shù)據(jù)模型 數(shù)據(jù)模型是對現(xiàn)實世界的一種抽象,根據(jù)抽象程度的不同,也就形成了不同抽象層次上的數(shù)據(jù)模型。類似于操作數(shù)據(jù)庫的數(shù)據(jù)模型,數(shù)據(jù)倉庫的數(shù)據(jù)模型也可分為三個層次:概念模型,邏輯模型和物理模型。 概念模型 是客觀世界到計算機系統(tǒng)的一個中間層次,它最常用的表示方法是E R 法(實體關(guān)系)。目前數(shù)據(jù)倉庫一般是建立在關(guān)系型數(shù)據(jù)庫的基礎(chǔ)之上,所以其概念模型與一般關(guān)系型數(shù)據(jù)庫采用的概念模型相一致。 邏輯模型 指數(shù)據(jù)的邏輯結(jié)構(gòu),如多維模型、關(guān)系模型、層次模型等。數(shù)據(jù)倉庫的邏輯模型描述了數(shù)據(jù)倉庫的主題的邏輯實現(xiàn),即每個主題對應(yīng)的模式定義。 物理模型 則是邏輯模型的具體實現(xiàn),如物理存取方式、數(shù)據(jù)存儲結(jié)構(gòu)數(shù)據(jù)存放位置以及存儲分配等。在設(shè)計數(shù)據(jù)倉庫的物理模型時,需要考慮一些提高性能的技術(shù),如表分區(qū),建立索引等。 目前對數(shù)據(jù)倉庫模型的討論大多集中在邏輯模型,其中最常用的是多維模型。數(shù)據(jù)倉庫的多維模型主要有如下幾個概念: 維:維是人們觀察數(shù)據(jù)的特定角度。比如,企業(yè)常常關(guān)心不同銷售數(shù)據(jù)隨時間的變化情況,所以時間就是一個維; 維的 層次:人們觀察數(shù)據(jù)的某個特定角度還可以存在細節(jié)程度不同的多個描述方面,這就是維的層次。一個維往往有多個層次,比如描述時間維時,可以從年份、季度、月份、天等不同層次來描述,那么年份、季度、月份和天就是時間維的層次; 維成員:維的一個取值稱為該維的一個成員。如果一個維是多層次的,那么該維的成員就是在不同層次取值的組合。比如時間維有年份、月份和天這三個層次,那么分別在它們之上各取一個值組合起來就得到日期維的一個成員,即“某年某月某日”; 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 5 度量:度量描述了要分析的數(shù)值,比如銷售額等; 2 2 4 數(shù)據(jù)倉庫的建設(shè) 企 業(yè)級數(shù)據(jù)倉庫的建設(shè)通常有兩種途徑:一種是從建造某個部門特定的數(shù)據(jù)集市開始,逐步擴充數(shù)據(jù)倉庫所包含的主題和范圍,最后形成一個能夠完全反映企業(yè)全貌的企業(yè)級數(shù)據(jù)倉庫;另外一種則是從一開始就從企業(yè)的整體來考慮數(shù)據(jù)倉庫的主題和實施。 前一種方法類似于軟件工程中的“自底向上”的思想,投資少、周期短且易于見到成果,但由于該設(shè)計開始時是以特定的部門級主題為框架的,向其它的部門和主題擴充往往比較困難。而最后一種方法恰恰相反,“自頂向下”,投資大、周期長。在企業(yè)的實際應(yīng)用中往往采用前一種方法?!白缘紫蛏稀钡亟ㄔO(shè)數(shù)據(jù)倉庫,并不意 味著不需要在設(shè)計階段的長遠規(guī)劃。采用逐步積累的方式建立數(shù)據(jù)倉庫,最大的問題就是已有的框架無法把新的業(yè)務(wù)集成進來。因此在設(shè)計階段就必須充分考慮這一點。例如,部門級的主題是否有助于形成企業(yè)級的主題,數(shù)據(jù)抽取模塊是否能重用等。數(shù)據(jù)倉庫的長遠規(guī)劃,并不僅僅是技術(shù)部門的事情,應(yīng)當把數(shù)據(jù)倉庫的構(gòu)建作為企業(yè)發(fā)展戰(zhàn)略的一個組成部分。在設(shè)計階段需要不同部門的溝通和協(xié)調(diào),技術(shù)框架和系統(tǒng)設(shè)計必須從整個企業(yè)的角度來考慮,即使剛開始實施的時候是面向某個部門的。從這一點來看,建立一個企業(yè)級的數(shù)據(jù)倉庫,主要的障礙不在于技術(shù),而是不同部門 之間的組織、協(xié)調(diào)問題。 2 2 5 數(shù)據(jù)倉庫的應(yīng)用 據(jù)倉庫作為決策支持系統(tǒng)的數(shù)據(jù)源,其構(gòu)建工作只是基礎(chǔ),要想得到對決策有用的信息或?qū)?shù)據(jù)倉庫中的數(shù)據(jù)作靈活、多角度的探察,還必須借助一些分析展示工具。 線分析處理)是基于數(shù)據(jù)倉庫的分析展示方法之一,它建立在多維數(shù)據(jù)視圖的基礎(chǔ)上。主要有兩個特點,一是在線性,體現(xiàn)為用戶請求的快速響應(yīng)和交互式操作;二是多維分析,這也是 術(shù)的核心所在。 根據(jù)數(shù)據(jù)組織方式的不同, 分為兩種:基于多維數(shù)據(jù)庫的 者響應(yīng)速度快,執(zhí)行效率高,但源于結(jié)構(gòu)的局限,靈活性不高。與之相比,后者由于建立在大量現(xiàn)有數(shù)據(jù)庫的基礎(chǔ)上,靈活性、可擴展性要高的多,并且支持大數(shù)據(jù)量和較多維數(shù)的能力也要強于前者。因此,雖然在相應(yīng)速度和執(zhí)行效率上差一點,但仍然得到更廣泛的應(yīng)用。 數(shù)據(jù)倉庫中數(shù)據(jù)的操作是針對多維數(shù)據(jù)視圖或稱為立方體進行的。其中比較典型的有:切片、切塊以及旋轉(zhuǎn)等。 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 6 切片指選定多維數(shù)組的一個二維子集; 切塊指選定多維數(shù)組的一個三維子集; 旋轉(zhuǎn)指改變一個立方體顯示的維方向,使人們可以從不同的角度更加清晰直觀地觀察數(shù)據(jù); 2 2 6 國內(nèi)數(shù)據(jù)倉庫建設(shè)過程中的若干問題 數(shù)據(jù)倉庫的建設(shè)工作在我國起步較晚,但是發(fā)展卻極為迅速。筆者在做論文之前,參與了多個電信部門數(shù)據(jù)倉庫項目的設(shè)計和開發(fā),學(xué)到了很多知識,同時也深深體會到國內(nèi)的企業(yè)在數(shù)據(jù)倉庫基礎(chǔ)設(shè)施以及行政支持方面,與國外相比,仍然存在很多缺陷。首先是基礎(chǔ)設(shè)施,國內(nèi)企業(yè)的不足主要表現(xiàn)在數(shù)據(jù)的積累少而不全,原有數(shù)據(jù)庫系統(tǒng)設(shè)計比較混亂而且用戶資料匱乏。另外,由于數(shù)據(jù)倉庫項目一般投資巨大,成本回收周期長,中小企業(yè)一般無力做這方面的嘗試,即使是大型企業(yè),也往往缺乏有長遠戰(zhàn)略眼光的領(lǐng)導(dǎo),大部 分企業(yè)的決策者,雖然也有建設(shè)數(shù)據(jù)倉庫的實際需求,但卻很難善始善終地堅持下去。 當然,數(shù)據(jù)倉庫的建設(shè)在我國還處于起步和探索階段,難免會出現(xiàn)一些問題。隨著國內(nèi)外競爭的加劇,企業(yè)必然會愈來愈充分地認識到信息以及提高決策水平的重要性,因此,數(shù)據(jù)倉庫在中國,必然會有很廣闊的應(yīng)用前景。 2 3 元數(shù)據(jù)概述 2 3 1 引言 元數(shù)據(jù)通常的定義是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,比如傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)字典就是一種元數(shù)據(jù)。近年來,隨著計算機技術(shù)應(yīng)用的廣泛化,元數(shù)據(jù)得到人們越來越多的關(guān)注,這是由多方面的需求決定的。 首先是管理數(shù)據(jù)的需求。當 系統(tǒng)數(shù)據(jù)量越來越大時,檢索、使用這些數(shù)據(jù)的效率就會降低,通過存儲關(guān)于系統(tǒng)和數(shù)據(jù)的內(nèi)容、組織、特性等細節(jié)可以幫助有效地進行管理,從而提高效率。 第二是系統(tǒng)分布、互通和重用的要求。目前信息系統(tǒng)一個共同的趨勢就是信息共享,要實現(xiàn)異構(gòu)系統(tǒng)中的信息共享,就需要描述數(shù)據(jù)語義、軟件開發(fā)過程的元數(shù)據(jù),而且這些元數(shù)據(jù)必須標準化,以充分實現(xiàn)分布、互通和重用。 第三是元數(shù)據(jù)重用、綜合的需求。目前,很少有單一工具能滿足大型商業(yè)應(yīng)用的需求,用戶常常需要使用多種工具的組合,不同工具之間的數(shù)據(jù)交換的途徑之一就是通過標準的元數(shù)據(jù)。這一點正 是本論文的設(shè)計基礎(chǔ)。 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 7 2 3 2 元數(shù)據(jù)的定義和分類 元數(shù)據(jù),通常定義為描述數(shù)據(jù)的數(shù)據(jù),旨在便利存取、管理、共享和處理大量結(jié)構(gòu)化和 /或非結(jié)構(gòu)化的數(shù)據(jù)。在過去的幾年里,元數(shù)據(jù)的概念在現(xiàn)實中大量使用,有時為了支持信息檢索,有時為了軟件配置,有時為了不同系統(tǒng)之間的數(shù)據(jù)交互。對于不同領(lǐng)域的專家,元數(shù)據(jù)有著不同的應(yīng)用,但至少有兩點是共同的:元數(shù)據(jù)對數(shù)據(jù)進行描述;元數(shù)據(jù)的存在是為了更有效地使用數(shù)據(jù)。 對于元數(shù)據(jù),從不同的角度來觀察,可以劃分為不同的類別。 1按照與特定領(lǐng)域是否相關(guān),元數(shù)據(jù)可以分類為: 與特定領(lǐng)域相關(guān)的 元數(shù)據(jù):描述特定領(lǐng)域內(nèi)數(shù)據(jù)在此特定領(lǐng)域內(nèi)的公共屬性 與特定領(lǐng)域無關(guān)的元數(shù)據(jù):描述所有數(shù)據(jù)的公共屬性 與模型相關(guān)的元數(shù)據(jù):描述信息和元信息建模過程的數(shù)據(jù)。此類元數(shù)據(jù)又可分為兩類: 橫向模型關(guān)聯(lián)元數(shù)據(jù):綜合現(xiàn)有的兩個或多個信息模型,例如兩個不同數(shù)據(jù)庫之間的交互、從多個數(shù)據(jù)源中提取數(shù)據(jù)時,就需要這種橫向模型元數(shù)據(jù)。當不同的信息模型之間要進行互通時,需要模型各個層的關(guān)聯(lián)描述,即橫向模型關(guān)聯(lián)元數(shù)據(jù)。 縱向模型關(guān)聯(lián)元數(shù)據(jù):模型信息層與元信息層之間的關(guān)聯(lián)元數(shù)據(jù)。不同的層可以采用不同的模型,上層是下層的結(jié)構(gòu)描述,上下層之間 的對應(yīng)關(guān)聯(lián),即縱向模型關(guān)聯(lián)元數(shù)據(jù)。 其他元數(shù)據(jù):例如系統(tǒng)硬件、軟件描述,系統(tǒng)配置描述等。 2按照元數(shù)據(jù)的應(yīng)用場合 數(shù)據(jù)元數(shù)據(jù),又叫做信息系統(tǒng)元數(shù)據(jù)。信息系統(tǒng)使用元數(shù)據(jù)描述信息源,以按照用戶需求檢索、存取和理解源信息。于是,元數(shù)據(jù)保證了在新的應(yīng)用環(huán)境中使用信息,支持了整個信息結(jié)構(gòu)的演進。 過程元數(shù)據(jù),又叫做軟件結(jié)構(gòu)元數(shù)據(jù)。是關(guān)于應(yīng)用系統(tǒng)的信息,它幫助用戶查找、評估、存取和管理其數(shù)據(jù)。大的軟件結(jié)構(gòu)中包括描述各個組件接口、功能和依賴關(guān)系的元數(shù)據(jù),這些元數(shù)據(jù)保證了軟件組件的靈活動態(tài)配置。 3按照元數(shù)據(jù)的具體內(nèi)容 內(nèi)容( 識別、定義、描述基本數(shù)據(jù)元素,包括數(shù)據(jù)單元、基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 8 合法值域等等。 結(jié)構(gòu)( 在相關(guān)范圍內(nèi)定義數(shù)據(jù)元素的邏輯概念集合。 表示( 描述每一個值域(多為技術(shù)相關(guān)的)的物理表示,以及數(shù)據(jù)元素集合的物理存儲結(jié)構(gòu)。 文法( 提供基礎(chǔ)數(shù)據(jù)的族系和屬性評估,它包括了所有與基礎(chǔ)數(shù)據(jù)的收集、處理和使用相關(guān)的信息。 2 3 3 元數(shù)據(jù)的建模 在基于元數(shù)據(jù)的解決方案中,主要有兩大方向,一是提供一個連續(xù)的整體框架,為元數(shù)據(jù)整個系統(tǒng)劃定實現(xiàn)的層次結(jié)構(gòu), 即元數(shù)據(jù)參考模型。另一個方向,是進行元數(shù)據(jù)模型的描述,即元數(shù)據(jù)參考模型某一層中具體選定的模型。以下是一個可擴展的四層元數(shù)據(jù)參考模型的例子,如圖 示。 圖 2數(shù)據(jù)參考模型 其中,數(shù)據(jù)層與系統(tǒng)中操作的實例對應(yīng),即真實數(shù)據(jù)。數(shù)據(jù)模型層對數(shù)據(jù)進行描述。這一層還包括描述結(jié)構(gòu)的元數(shù)據(jù)。元模型層描述定義模型的形式方法。在多數(shù)系統(tǒng)中,這一層就是最高層了。它描述了用于表示低層信息,即數(shù)據(jù)模型層的概念。這一層還包括描述形式方法及其規(guī)范的元數(shù)據(jù),這些元數(shù)據(jù)可用于不同工具、方法、系統(tǒng)之間的互通。最上一層,叫做元元 模型層,是模型的根層,描述定義形式方法的語言。這一層的存在使得其他層表示一致,保證了低層模型之間的輕松互通。 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 9 2 3 4 元數(shù)據(jù)的標準化 關(guān)于元數(shù)據(jù)的一般標準,從內(nèi)容上,大致可分為兩類。一是元數(shù)據(jù)建模,是對將來元數(shù)據(jù)的組織進行規(guī)范定義,使得在元數(shù)據(jù)建模的標準制定之后產(chǎn)生的元數(shù)據(jù)都以一致的方式組織,從而保證元數(shù)據(jù)管理的一致性和簡單性。二是元數(shù)據(jù)交互,是對已有的元數(shù)據(jù)組織方式以及相互間交互格式加以規(guī)范定義,從而實現(xiàn)不同系統(tǒng)元數(shù)據(jù)的交互。目前,主要有以下組織定義了元數(shù)據(jù)相關(guān)的規(guī)范。 1對象管理組織 1995 年采用了 并不斷完善之。 1997年采用了 2000 年, 采用了 三個標準: 成了 模和元數(shù)據(jù)管理、交換結(jié)構(gòu)的基礎(chǔ),推動了元數(shù)據(jù)標準化的快速發(fā)展。 2元數(shù)據(jù)聯(lián)合會 于 1995 年,目的是提供標準化的元數(shù)據(jù)交互。 1996 年開發(fā)了 完成了 技術(shù)評審, 于微軟的開放信息模型 一個獨立于技術(shù)的、以廠商為核心的信息模型。 微軟的元數(shù)據(jù)管理產(chǎn)品 一部分。由微軟和其它 20 多家公司共同開發(fā)的,作為微軟開放過程的一部分,經(jīng)過了 300 多個公司的評審。 為了推動元數(shù)據(jù)標準化的發(fā)展, 元數(shù)據(jù)標準的制定上協(xié)同工作。 1999 年 4 月, 為 成員,而 同時成為 成員。 使用了 的數(shù)據(jù)倉庫部分被用來作為 公共倉庫元數(shù)據(jù)交互( 設(shè)計參考。在兩個組織的技術(shù)力量的合作努力下,元數(shù)據(jù)標準將逐步一致化。 2 4 體系結(jié)構(gòu)概述 2 4 1 引言 軟件體系結(jié)構(gòu)是軟件工程研究中重要的領(lǐng)域之一,在軟件開發(fā)過程中具有不可替代的作用。本節(jié)將集中介紹軟件體系結(jié)構(gòu)的概念,幾種主要的軟件體系結(jié)構(gòu)風(fēng)格,為下一章介紹基于 數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)打下基礎(chǔ)。 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 10 2 4 2 軟件體系結(jié)構(gòu)的概念 對于軟件體系結(jié)構(gòu)的研究始于 做的 工作。從 1992 年開始,軟件工程研究者提出了許多種關(guān)于軟件體系結(jié)構(gòu)的定義,直到 1995 年 軟件體系結(jié)構(gòu)國際會議上提出的定義方法可以說在某種程度上解決了軟件體系結(jié)構(gòu)命名中的混亂。該會議的論文中主要觀點如下: 所有關(guān)于軟件體系結(jié)構(gòu)的結(jié)構(gòu)觀點都認為:軟件體系結(jié)構(gòu)包括軟件部件、部件間的聯(lián)系以及系統(tǒng)構(gòu)造、方式、約束、語義、分析、屬性、基本原理和系統(tǒng)需求; 框架模式觀點與結(jié)構(gòu)觀點有一定的相似之處,但是更強調(diào)整個系統(tǒng)的連貫性結(jié)構(gòu),而不僅僅是系統(tǒng)組成??蚣芙Y(jié)構(gòu)經(jīng)常針對特定領(lǐng)域和問題; 動態(tài)模型強調(diào)系統(tǒng)的行 為品質(zhì)。這里的“動態(tài)”可以指系統(tǒng)的總體配置的變化、建立或禁止預(yù)定義的通信和互聯(lián)通道或計算的發(fā)展,如數(shù)據(jù)值的變化; 上述幾種觀點彼此并不相互排斥,也不表示軟件體系結(jié)構(gòu)基本問題之間的沖突。它們只是總結(jié)了軟件體系結(jié)構(gòu)研究領(lǐng)域中的不同觀點 軟件體系結(jié)構(gòu)的組成部分、整體、已經(jīng)形成和正在形成的行為??偟膩碚f,這一總結(jié)形成了對軟件體系結(jié)構(gòu)的共同觀點。 2 4 3 幾種主要的軟件體系結(jié)構(gòu)風(fēng)格 可以從語言的種類、類型系統(tǒng)( of 理論(公理及推論的集合)等三個不同的途徑來理解什么是風(fēng)格 。在此 只給出體系風(fēng)格的一般理解:體系結(jié)構(gòu)風(fēng)格是指在眾多系統(tǒng)中所擁有的共同的結(jié)構(gòu)和語義特性,指導(dǎo)如何將各個模塊和子系統(tǒng)組成一個完整的系統(tǒng)。 目前公認的體系結(jié)構(gòu)風(fēng)格主要有: 管道 /過濾器( 管道 /過濾器風(fēng)格中每一個組件有一組輸入和輸出,組件可以通過對輸入數(shù)據(jù)流進行局部變換,采用漸進式計算方法,在未處理完所有輸入數(shù)據(jù)以前就可以產(chǎn)生部分計算結(jié)果,并將其送到輸出端口; 數(shù)據(jù)抽象和面向?qū)ο蟮慕M織( 此風(fēng)格建立在數(shù)據(jù)抽 象和面向?qū)ο蟮幕A(chǔ)上,數(shù)據(jù)的表示方法和它們的相應(yīng)操作都封裝在一個抽象數(shù)據(jù)類型或?qū)ο笾?;對象負?zé)保持數(shù)據(jù)表示的基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 11 完整性,對象的表示對其它對象是隱藏的。這種結(jié)構(gòu)中的部件就是對象,或者說是抽象數(shù)據(jù)類型的實例。對象之間通過函數(shù)和過程調(diào)用發(fā)生相互作用; 基于事件的隱式調(diào)用風(fēng)格( 組件不直接調(diào)用一個過程,而是觸發(fā)或廣播一個或多個事件。系統(tǒng)中的其它組件中的過程在一個或多個事件中注冊。當該事件被激發(fā)時,系統(tǒng)本身就會調(diào)用所有已注冊的、與該事件相關(guān)的過程; 分層系 統(tǒng)( 分層的系統(tǒng)組織成一個層次結(jié)構(gòu),每一層向其上層提供服務(wù),并利用下層的服務(wù)。在有的層次結(jié)構(gòu)中,只有最外部的層次和一些經(jīng)過精心選擇的輸出功能可以為系統(tǒng)外部訪問,其它的內(nèi)部層次完全被隱藏起來。; 倉庫系統(tǒng)及知識庫( 倉庫體系結(jié)構(gòu)中有兩種組件:表示當前狀態(tài)的中心數(shù)據(jù)結(jié)構(gòu)和一組相互獨立的中心數(shù)據(jù)處理組件。不同的倉庫系統(tǒng)與外部部件有不同的交互方式,控制方法的選擇決定了倉庫系統(tǒng)的類別。比如執(zhí)行哪個過程由輸入數(shù)據(jù)流的事務(wù)處理類型決定,則該倉庫系統(tǒng)就是傳統(tǒng)的數(shù)據(jù)庫 系統(tǒng); 分布式處理中的多層結(jié)構(gòu):分布式處理中的多層結(jié)構(gòu)來源于分布式系統(tǒng)的“客戶機 /服務(wù)器”模型。實際上,組件模型也是這種方式的一個擴展,比如 ; 此外還有表格驅(qū)動的解釋器、過程控制、各種專用領(lǐng)域軟件體系結(jié)構(gòu)等多種不同的結(jié)構(gòu)和模型,在此不一一詳述。 本論文中提出的基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)主要綜合了面向?qū)ο蠼M織、倉庫系統(tǒng)和分布式處理(也就是其中的組件技術(shù))等幾種體系結(jié)構(gòu)風(fēng)格,并最大程度地滿足數(shù)據(jù)倉庫技術(shù)的特點,具體內(nèi)容將在以后的章節(jié)中作詳細闡述。 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 12 第三章: 3 1 引言 提出主要基于以下背景: 從數(shù)據(jù)倉庫開發(fā)者的角度:單一工具很少能完全滿足用戶不斷變化的需求,但同時又很難對各種產(chǎn)品進行集成; 從數(shù)據(jù)倉庫用戶的角度:面對的信息量太大,無法輕易找到自己真正需要的,而且把這些信息完整正確地表示出來也是個挑戰(zhàn); 從數(shù)據(jù)倉庫供應(yīng)商的角度:目前信息的共享還沒有標準格式,元數(shù)據(jù)集成的代價太大; 現(xiàn)在有很多數(shù)據(jù)倉庫產(chǎn)品,它們對元數(shù)據(jù)都有自己的定義和格式,因此創(chuàng)建、管理和共享元數(shù)據(jù)很耗時而且容易出錯。要解決上面這些問題,必須用標準的語言描述數(shù)據(jù)倉庫元數(shù)據(jù)的結(jié)構(gòu)和語義 ,并提供標準的元數(shù)據(jù)交換機制。 是滿足這些條件的一個規(guī)范。 2000 年發(fā)布了 范,旨在推動數(shù)據(jù)倉庫、智能商務(wù)和知識管理方面元數(shù)據(jù)的共享和交換。和 作提出 G, 有一些公司明確表示支持 括: 3 2 相關(guān)理論概述 3 2 1 引言 要基于以下三個工業(yè)標準: 統(tǒng)一建模語言,是 一個建模標準; 元對象工具,是 于元模型和元數(shù)據(jù)庫的一個標準; 數(shù)據(jù)交換,是 于元數(shù)據(jù)交換的標準; 這三個標準是 數(shù)據(jù)庫體系結(jié)構(gòu)的核心, 義了表示模型和元模型的語法和語義。 構(gòu)建模型和元模型提供了可擴展的框架,并提供了基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 13 存取元數(shù)據(jù)的程序接口。而利用 可以將元數(shù)據(jù)轉(zhuǎn)換為標準的 據(jù)流或文件的格式,以便進行交換,這大大增強了 通用性。 為了說明 這三個標準之間的關(guān)系,首先介紹一下元數(shù)據(jù)的層次。傳統(tǒng)的元數(shù)據(jù)有四個層次,除了最底層外,每一層都對它的下一層進行描述。最底層是用戶對象層( 包括用戶要描述的信息,這些信息統(tǒng)稱為數(shù)據(jù)。向上一層是模型層( 由描述信息的元數(shù)據(jù)組成,在這一層,元數(shù)據(jù)一般都組合成模型的形式。再向上一層是元模型層 ( 由定義 元數(shù)據(jù)格式和語義的描述信息組成,也就是元元數(shù)據(jù),一般組合成元模型的形式。最高層是元元模型層( 它定義了元模型的結(jié)構(gòu)和語義。下面舉個例子對這種四層結(jié)構(gòu)進行說明。 上圖中四層的內(nèi)容解釋如下: 數(shù)據(jù)層是學(xué)生記錄( 實例,即具體的某個學(xué)生; 模型層描述學(xué)生這個記錄類型的內(nèi)容,它有一個名字(“ 和兩個字段( 每個字段都有一個名字和類型,比如第一個字段的名字是“ 字段類型是 元模型層對 種類型進 行定義,在這一層, 元類一個實例,一個 有兩個元屬性 一個 義它的名字,是 型,第二個 義它包含的字段集,字段集中的成員是 型。類似的,元類 該也包含兩個元屬性:名字 類型 元元模型層的結(jié)構(gòu)是基本固定的,它將所有概念抽象為以下這些組件:張東”,“男”, ) 李芳”,“女”, ) ( ) “ , “, ) 固定的元元模型 圖 3數(shù)據(jù)層次結(jié)構(gòu)圖 信息,數(shù)據(jù)( 模型( 元模型( 元元模型 ( 基于 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計 北京郵電大學(xué)碩士學(xué)位論文 14 元類 屬性 元關(guān)聯(lián) 定義了元類之間的關(guān)系,主要包 括:包含( 繼承( 類型引用( 依賴( 理論上,還可以再向上抽象,但由于元元模型層是自描述的,所以四層就足夠了。至于為什么要抽象出上面兩層,則是為了支持各種不同的模型和元模型。 綜上所述,可以用下面這張表來描述 上述規(guī)范和元數(shù)據(jù)四層結(jié)構(gòu)的對應(yīng)關(guān)系: 元數(shù)據(jù)層次 語 示例 元模型 模型,元元數(shù)據(jù) 型,元數(shù)據(jù) 象, 數(shù)據(jù) 數(shù)據(jù)倉庫數(shù)據(jù) 3 2 2 一種面向?qū)ο蟮慕UZ言,它由曾經(jīng)是面向?qū)ο筌浖HN主流語言的 合而得,然后被 為面向?qū)ο蠼5臉藴收Z言。目前有很多圖形工具支持它,并已得到廣泛的應(yīng)用。 義了多種模型元素,支持對面向?qū)ο笙到y(tǒng)的靜態(tài)建模和行為建模。態(tài)模型包含對類及其屬性、操作、接口的定義和類之間關(guān)聯(lián)(比如繼承、依賴和包含等)的定義。對系統(tǒng)行為語義的建??梢杂眯蛄袌D和協(xié)作圖完成。范主要使用了 靜態(tài)圖。 言由一個用 示的元模型(或語義模型)定義,這種循環(huán)定義使得整個 以基于非常少的(也就是三個)未定義元素。此外, 義了 元元模型以表示一個遞歸的 模型的語義。 模型直接從 模型繼承而來,也就是說, 的類都直接或間接繼承了 類的語法和語義。比如, 中的關(guān)系模型定義了一個叫 類,表示任何關(guān)系數(shù)據(jù)庫中的表,這個類繼承于 ,類似地, 繼承于 ,這就建立了 就是說 一些 集合,這些 有一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版土地租賃與使用權(quán)置換協(xié)議3篇
- 校企攜手2025年度共建紡織工藝培訓(xùn)基地合同3篇
- 二零二五年度文化藝術(shù)展覽場地臨時使用協(xié)議書3篇
- 2025版建筑工程碎石料采購與安全管理合同3篇
- 2025年度個人教育培訓(xùn)機構(gòu)投資合同書(教育連鎖版)4篇
- 二零二五年深海油氣資源開發(fā)電焊工勞務(wù)分包協(xié)議3篇
- 囧媽觀后感15篇
- 個人出租車的對外承包協(xié)議書 3篇
- 二零二五版淋浴房環(huán)保材料生產(chǎn)與應(yīng)用合同3篇
- 二零二五年度城市道路施工監(jiān)理合同標準版4篇
- 定額〔2025〕1號文-關(guān)于發(fā)布2018版電力建設(shè)工程概預(yù)算定額2024年度價格水平調(diào)整的通知
- 2024年城市軌道交通設(shè)備維保及安全檢查合同3篇
- 【教案】+同一直線上二力的合成(教學(xué)設(shè)計)(人教版2024)八年級物理下冊
- 湖北省武漢市青山區(qū)2023-2024學(xué)年七年級上學(xué)期期末質(zhì)量檢測數(shù)學(xué)試卷(含解析)
- 單位往個人轉(zhuǎn)賬的合同(2篇)
- 電梯操作證及電梯維修人員資格(特種作業(yè))考試題及答案
- 科研倫理審查與違規(guī)處理考核試卷
- GB/T 44101-2024中國式摔跤課程學(xué)生運動能力測評規(guī)范
- 高危妊娠的評估和護理
- 2024年山東鐵投集團招聘筆試參考題庫含答案解析
- 兒童10歲生日-百日宴-滿月酒生日會成長相冊展示(共二篇)
評論
0/150
提交評論