




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)中樞大數(shù)據(jù)治理體系
建
設(shè)
方
案
目錄
第一部分:大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略4
1大數(shù)據(jù)治理概述........................................4
2大數(shù)據(jù)治理統(tǒng)一流程參考模型............................5
3使用總結(jié).............................................16
第二部分:元數(shù)據(jù)集成體系結(jié)構(gòu)...............................17
1大數(shù)據(jù)治理統(tǒng)一流程參考模型第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)..17
2使用總結(jié).............................................26
第三部分:實(shí)施元數(shù)據(jù)管理...................................27
1第三步:實(shí)施元數(shù)據(jù)管理...............................27
2使用總結(jié).............................................38
第四部分:大數(shù)據(jù)治理統(tǒng)一流程參考模型的第四步到第九步.......38
第四步:定義業(yè)務(wù)問(wèn)題...................................39
第五步:獲得主管支持...................................39
第六步:執(zhí)行成熟度評(píng)估.................................40
第七步:構(gòu)建路線(xiàn)圖.....................................43
第八步:建立組織藍(lán)圖...................................43
第九步:了解數(shù)據(jù)......................................44
使用總結(jié)...............................................55
第五部分:定義度量值和主數(shù)據(jù)監(jiān)管...........................55
第十步:定義度量值.....................................55
第十一步:主數(shù)據(jù)監(jiān)管...................................56
使用總結(jié)...............................................68
第六部分:大數(shù)據(jù)監(jiān)管和信息單一視圖監(jiān)管.....................68
第十二步:(狹義)大數(shù)據(jù)監(jiān)管............................69
第十三步:信息單一視圖監(jiān)管.............................74
使用總結(jié)...............................................81
第七部分:分析監(jiān)管、安全與隱私管理和信息生命周期監(jiān)管.......82
第十四步:運(yùn)營(yíng)分析監(jiān)管.................................82
第十五步:預(yù)測(cè)分析監(jiān)管.................................82
第十六步:管理安全與隱私...............................83
第十七步:監(jiān)管信息生命周期.............................84
第十八步:度量結(jié)果.....................................85
面對(duì)我們身邊每時(shí)每刻迅速增長(zhǎng)的龐大數(shù)據(jù),因?yàn)槠鋽?shù)量大、速度快、種類(lèi)
多和準(zhǔn)確性的特征,如何更好地利用大數(shù)據(jù)創(chuàng)造出有意義的價(jià)值,一直是我們探
索的重要話(huà)題。而在這之前,就需要用科學(xué)正確的方法策略對(duì)大數(shù)據(jù)進(jìn)行治理。
大數(shù)據(jù)治理是指制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護(hù)與數(shù)據(jù)變現(xiàn)的政策,是
傳統(tǒng)信息治理的延續(xù)和擴(kuò)展,也是大數(shù)據(jù)分析的基礎(chǔ),還是連接大數(shù)據(jù)科學(xué)和應(yīng)
用的橋梁,因此大數(shù)據(jù)治理是大數(shù)據(jù)再創(chuàng)高峰的"必修課"。下面我們將與您分享
新鮮出爐的大數(shù)據(jù)治理方案。
第一部分:大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)
管理策略
為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在XXX數(shù)據(jù)治理統(tǒng)一流程模型
基礎(chǔ)上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的經(jīng)驗(yàn),整理出了大數(shù)據(jù)
治理統(tǒng)一流程參考模型。本文主要介紹了大數(shù)據(jù)治理的基本概念,以及結(jié)合圖文
并茂的方式講解了大數(shù)據(jù)治理統(tǒng)一流程參考模型的前兩步:"明確元數(shù)據(jù)管理策
略"和"元數(shù)據(jù)集成體系結(jié)構(gòu)"內(nèi)容。
1大數(shù)據(jù)治理概述
(狹義)大數(shù)據(jù)是指無(wú)法使用傳統(tǒng)流程或工具在合理的時(shí)間和成本內(nèi)處理或
分析的信息,這些信息將用來(lái)幫助企業(yè)更智慧地經(jīng)營(yíng)和決策。而廣義的大數(shù)據(jù)更
是指企業(yè)需要處理的海量數(shù)據(jù),包括傳統(tǒng)數(shù)據(jù)以及狹義的大數(shù)據(jù)。(廣義)大數(shù)
據(jù)可以分為五個(gè)類(lèi)型:Web和社交媒體數(shù)據(jù)、機(jī)器對(duì)機(jī)器(M2M)數(shù)據(jù)、海量交
易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。
?Web和社交媒體數(shù)據(jù):比如各種微博、博客、社交網(wǎng)站、購(gòu)物網(wǎng)站中的數(shù)據(jù)
和內(nèi)容。
?M2M數(shù)據(jù):也就是機(jī)器對(duì)機(jī)器的數(shù)據(jù),比如RFID數(shù)據(jù)、GPS數(shù)據(jù)、智能儀
表、監(jiān)控記錄數(shù)據(jù)以及其他各種傳感器、監(jiān)控器的數(shù)據(jù)。
?海量交易數(shù)據(jù):是各種海量的交易記錄以及交易相關(guān)的半結(jié)構(gòu)化和非結(jié)構(gòu)化
數(shù)據(jù),比如電信行業(yè)的CDR、3G上網(wǎng)記錄等,金融行業(yè)的網(wǎng)上交易記錄、
corebanking記錄、理財(cái)記錄等,保險(xiǎn)行業(yè)的各種理賠等。
?生物計(jì)量學(xué)數(shù)據(jù):是指和人體識(shí)別相關(guān)的生物識(shí)別信息,如指紋、DNA、虹
膜、視網(wǎng)膜、人臉、聲音模式、筆跡等。
?人工生成的數(shù)據(jù):比如各種調(diào)查問(wèn)卷、電子郵件、紙質(zhì)文件、掃描件、錄音
和電子病歷等。
在各行各業(yè)中,隨處可見(jiàn)因數(shù)量、速度、種類(lèi)和準(zhǔn)確性結(jié)合帶來(lái)的大數(shù)據(jù)問(wèn)
題,為了更好地利用大數(shù)據(jù),大數(shù)據(jù)治理逐漸提上日程。在傳統(tǒng)系統(tǒng)中,數(shù)據(jù)需
要先存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)后再進(jìn)行各種查詢(xún)和分析,這些數(shù)據(jù)我們稱(chēng)
之為靜態(tài)數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,除了靜態(tài)數(shù)據(jù)以外,還有很多數(shù)據(jù)對(duì)實(shí)時(shí)性要
求非常高,需要在采集數(shù)據(jù)時(shí)就進(jìn)行相應(yīng)的處理,處理結(jié)果存入到關(guān)系型數(shù)據(jù)庫(kù)
/數(shù)據(jù)倉(cāng)庫(kù)、MPP數(shù)據(jù)庫(kù)、Hadoop平臺(tái)、各種NoSQL數(shù)據(jù)庫(kù)等,這些數(shù)據(jù)我們稱(chēng)
之為動(dòng)態(tài)數(shù)據(jù)。比如高鐵機(jī)車(chē)的關(guān)鍵零部件上裝有成百上千的傳感器,每時(shí)每刻
都在生成設(shè)備狀態(tài)信息,企業(yè)需要實(shí)時(shí)收集這些數(shù)據(jù)并進(jìn)行分析,當(dāng)發(fā)現(xiàn)設(shè)備可
能出現(xiàn)問(wèn)題時(shí)及時(shí)告警。再比如在電信行業(yè),基于用戶(hù)通信行為的精準(zhǔn)營(yíng)銷(xiāo)、位
置營(yíng)銷(xiāo)等,都會(huì)實(shí)時(shí)的采集用戶(hù)數(shù)據(jù)并根據(jù)業(yè)務(wù)模型進(jìn)行相應(yīng)的營(yíng)銷(xiāo)活動(dòng)。
大數(shù)據(jù)治理的核心是為業(yè)務(wù)提供持續(xù)的、可度量的價(jià)值。大數(shù)據(jù)治理人員需
要定期與企業(yè)高層管理人員進(jìn)行溝通,保證大數(shù)據(jù)治理計(jì)劃可以持續(xù)獲得支持和
幫助。相信隨著時(shí)間的推移,大數(shù)據(jù)將成為主流,企業(yè)可以從海量的數(shù)據(jù)中獲得
更多的價(jià)值,而大數(shù)據(jù)治理的范圍和嚴(yán)格程度也將逐步上升。為了更好地幫助企
業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在XXX數(shù)據(jù)治理統(tǒng)一流程模型基礎(chǔ)上結(jié)合在電信、金
融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的經(jīng)驗(yàn),整理了大數(shù)據(jù)治理統(tǒng)一流程參考模型,
整個(gè)參考模型分為必選步驟和可選步驟兩部分。
2大數(shù)據(jù)治理統(tǒng)一流程參考模型
如圖11所示,大數(shù)據(jù)治理統(tǒng)一流程參考模型必要步驟分為兩個(gè)方向:一條子
線(xiàn)是在制定元數(shù)據(jù)管理策略和確立體系結(jié)構(gòu)的基礎(chǔ)上實(shí)施全面的元數(shù)據(jù)管理,另
一條子線(xiàn)是在定義業(yè)務(wù)問(wèn)題、執(zhí)行成熟度評(píng)估的基礎(chǔ)上定義數(shù)據(jù)治理路線(xiàn)圖以及
定義數(shù)值治理相關(guān)的度量值。在11個(gè)必要步驟的基礎(chǔ)上,企業(yè)可以在7個(gè)可選
步驟中選擇一個(gè)或多個(gè)途徑進(jìn)行特定領(lǐng)域的數(shù)據(jù)治理,可選步驟為:主數(shù)據(jù)監(jiān)管、
(狹義)大數(shù)據(jù)監(jiān)管、信息單一視圖監(jiān)管、運(yùn)營(yíng)分析監(jiān)管、預(yù)測(cè)分析監(jiān)管、管理
安全與隱私以及監(jiān)管信息生命周期。企業(yè)需要定期對(duì)大數(shù)據(jù)治理統(tǒng)一流程進(jìn)行度
量并將結(jié)果發(fā)送給主管級(jí)發(fā)起人。
14Iff
13
111)委誦12.1)委派12.13O攀X信分析核管
京
依第管遭員興金管理員依據(jù)管理員息
義
單
大
11.2)12.2)大家量13.2)管現(xiàn)一
數(shù)
旗■管理電雷屆■視
據(jù)
圖
監(jiān)
實(shí)典實(shí)篇監(jiān)
113)123)管13.3)
主欺據(jù)管理太歐程管理息單一視圖管
圖1大數(shù)據(jù)治理統(tǒng)一流程參考模型
第一步:明確元數(shù)據(jù)管理策略
在最開(kāi)始的時(shí)候,元數(shù)據(jù)(MetaData)是指描述數(shù)據(jù)的數(shù)據(jù),通常由信息結(jié)
構(gòu)的描述組成,隨著技術(shù)的發(fā)展元數(shù)據(jù)內(nèi)涵有了非常大的擴(kuò)展,比如UML模型、
數(shù)據(jù)交易規(guī)則、用Java,.NET,C++等編寫(xiě)的APIs、業(yè)務(wù)流程和工作流模型、產(chǎn)品
配置描述和調(diào)優(yōu)參數(shù)以及各種業(yè)務(wù)規(guī)則、術(shù)語(yǔ)和定義等卬。在大數(shù)據(jù)時(shí)代,元數(shù)
據(jù)還應(yīng)該包括對(duì)各種新數(shù)據(jù)類(lèi)型的描述,如對(duì)位置、名字、用戶(hù)點(diǎn)擊次數(shù)、音頻、
視頻、圖片、各種無(wú)線(xiàn)感知設(shè)備數(shù)據(jù)和各種監(jiān)控設(shè)備數(shù)據(jù)等的描述等。元數(shù)據(jù)通
常分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)等。業(yè)務(wù)元數(shù)據(jù)主要包括業(yè)務(wù)規(guī)則、
定義、術(shù)語(yǔ)、術(shù)語(yǔ)表、運(yùn)算法則和系統(tǒng)使用業(yè)務(wù)語(yǔ)言等,主要使用者是業(yè)務(wù)用戶(hù)。
技術(shù)元數(shù)據(jù)主要用來(lái)定義信息供應(yīng)鏈(InformationSupplyChain,ISC)各類(lèi)組成
部分元數(shù)據(jù)結(jié)構(gòu),具體包括各個(gè)系統(tǒng)表和字段結(jié)構(gòu)、屬性、出處、依賴(lài)性等,以
及存儲(chǔ)過(guò)程、函數(shù)、序列等各種對(duì)象。操作元數(shù)據(jù)是指應(yīng)用程序運(yùn)行信息,比如
其頻率、記錄數(shù)以及各個(gè)組件的分析和其它統(tǒng)計(jì)信息等。
業(yè)務(wù)應(yīng)用MDM用戶(hù)界面
直連應(yīng)用整合中詞件客戶(hù)查詢(xún)界面系統(tǒng)管理界面
CRM呼叫中心業(yè)務(wù)系統(tǒng)ESBMQEAJ客戶(hù)維護(hù)界面系統(tǒng)報(bào)表界面
?秀請(qǐng)求
MDM核心(
識(shí)M
別D
MDM服務(wù)M公
公M
是
共D
業(yè)務(wù)服務(wù)業(yè)
訪(fǎng)
通用服務(wù)組M
,Party—§戶(hù)務(wù)
件
擴(kuò)
問(wèn)約管理服務(wù)
,Contract^-邏
展
接,Product—產(chǎn)品
輯
服
口
務(wù)
U與
M費(fèi)
S
-
R
M
/
W
S
)
事
畝
匹
數(shù)
配
批
靠
訪(fǎng)
訂
搜
性
任
件
計(jì)
標(biāo)
緩
配
務(wù)
據(jù)
閱
能
問(wèn)
8索
皋
監(jiān)
和
管
準(zhǔn)
存
管
引
管
發(fā)
校
控
引
管
化
日
理
理
控
理
理
布
理
擎
勘
制
擎
器
志
從整個(gè)企業(yè)層面來(lái)說(shuō),各種工具軟件和應(yīng)用程序越來(lái)越復(fù)雜,相互依存度逐
年增加,相應(yīng)的追蹤整個(gè)信息供應(yīng)鏈各組件之間數(shù)據(jù)流動(dòng)、了解數(shù)據(jù)元素含義和
上下文的需求越來(lái)越強(qiáng)烈。在從應(yīng)用議程往信息議程的轉(zhuǎn)變過(guò)程中,元數(shù)據(jù)管理
也逐漸從局部存儲(chǔ)和管理轉(zhuǎn)向共享。從總量上來(lái)看,整個(gè)企業(yè)的元數(shù)據(jù)越來(lái)越多,
光現(xiàn)有的數(shù)據(jù)模型中就包含了成千上萬(wàn)的表,同時(shí)還有更多的模型等著上線(xiàn),同
時(shí)隨著大數(shù)據(jù)時(shí)代的來(lái)臨,企業(yè)需要處理的數(shù)據(jù)類(lèi)型越來(lái)越多。為了企業(yè)更高效
地運(yùn)轉(zhuǎn),企業(yè)需要明確元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu),依托成熟的方法
論和工具實(shí)現(xiàn)元數(shù)據(jù)管理,并有步驟的提升其元數(shù)據(jù)管理成熟度。
為了實(shí)現(xiàn)大數(shù)據(jù)治理,構(gòu)建智慧的分析洞察,企業(yè)需要實(shí)現(xiàn)貫穿整個(gè)企業(yè)的
元數(shù)據(jù)集成,建立完整且一致的元數(shù)據(jù)管理策略,該策略不僅僅針對(duì)某個(gè)數(shù)據(jù)倉(cāng)
庫(kù)項(xiàng)目、業(yè)務(wù)分析項(xiàng)目、某個(gè)大數(shù)據(jù)項(xiàng)目或某個(gè)應(yīng)用單獨(dú)制定一個(gè)管理策略,而
是針對(duì)整個(gè)企業(yè)構(gòu)建完整的管理策略。元數(shù)據(jù)管理策略也不是技術(shù)標(biāo)準(zhǔn)或某個(gè)軟
件工具可以取代的,無(wú)論軟件工具功能多強(qiáng)大都不能完全替代一個(gè)完整一致的元
數(shù)據(jù)管理策略,反而在定義元數(shù)據(jù)集成體系結(jié)構(gòu)以及選購(gòu)元數(shù)據(jù)管理工具之前需
要定義元數(shù)據(jù)管理策略。
元數(shù)據(jù)管理策略需要明確企業(yè)元數(shù)據(jù)管理的愿景、目標(biāo)、需求、約束和策略
等,依據(jù)企業(yè)自身當(dāng)前以及未來(lái)的需要確定要實(shí)現(xiàn)的元數(shù)據(jù)管理成熟度以及實(shí)現(xiàn)
目標(biāo)成熟度的路線(xiàn)圖,完成基礎(chǔ)本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體的構(gòu)建,
確定元數(shù)據(jù)管理的安全策略、版本控制、元數(shù)據(jù)訂閱推送等。企業(yè)需要對(duì)業(yè)務(wù)術(shù)
語(yǔ)、技術(shù)術(shù)語(yǔ)中的敏感數(shù)據(jù)進(jìn)行標(biāo)記和分類(lèi),制定相應(yīng)的數(shù)據(jù)隱私保護(hù)政策,確
保企業(yè)在隱私保護(hù)方面符合當(dāng)?shù)仉[私方面的法律法規(guī),如果企業(yè)有跨國(guó)數(shù)據(jù)交換、
元數(shù)據(jù)交換的需求,也要遵循涉及國(guó)家的法律法規(guī)要求。企業(yè)需要保證每個(gè)元數(shù)
據(jù)元素在信息供應(yīng)鏈中每個(gè)組件中語(yǔ)義上保持一致,也就是語(yǔ)義等效(semantic
equivalence)o語(yǔ)義等效可以強(qiáng)也可以弱,在一個(gè)元數(shù)據(jù)集成方案中,語(yǔ)義等效
(平均)越強(qiáng)則整個(gè)方案的效率越高。語(yǔ)義等效的強(qiáng)弱程度直接影響元數(shù)據(jù)的共
享和重用。
本體(人工智能和計(jì)算機(jī)科學(xué))
本體(Ontology)源自哲學(xué)本體論,而哲學(xué)本體論則是源自哲學(xué)中"形而上學(xué)"
分支。本體有時(shí)也被翻譯成本體論,在人工智能和計(jì)算機(jī)科學(xué)領(lǐng)域本體最早源于
上世紀(jì)70年代中期,隨著人工智能的發(fā)展人們發(fā)現(xiàn)知識(shí)的獲取是構(gòu)建強(qiáng)大人工
智能系統(tǒng)的關(guān)鍵,于是開(kāi)始將新的本體創(chuàng)建為計(jì)算機(jī)模型從而實(shí)現(xiàn)特定類(lèi)型的自
動(dòng)化推理。之后到了上世紀(jì)80年代,人工智能領(lǐng)域開(kāi)始使用本體表示模型化時(shí)
間的一種理論以及知識(shí)系統(tǒng)的一種組件,認(rèn)為本體(人工智能)是一種應(yīng)用哲學(xué)。
最早的本體(人工智能和計(jì)算機(jī)科學(xué))定義是Neches等人在1991給出的:
"一個(gè)本體定義了組成主題領(lǐng)域的詞匯的基本術(shù)語(yǔ)和關(guān)系,以及用于組合術(shù)語(yǔ)和
關(guān)系以及定義詞匯外延的規(guī)則"。而第一次被業(yè)界廣泛接受的本體定義出自Tom
Gruber,其在1993年提出:"本體是概念化的顯式的表示(規(guī)格說(shuō)明)Borst
在1997年對(duì)TomGruber的本體定義做了進(jìn)一步的擴(kuò)展,認(rèn)為:"本體是共享的、
概念化的一個(gè)形式的規(guī)范說(shuō)明"。在前人的基礎(chǔ)上,Stude在1998年進(jìn)一步擴(kuò)展
了本體的定義,這也是今天被廣泛接受的一個(gè)定義:"本體是共享概念模型的明
確形式化規(guī)范說(shuō)明”。本體提供一個(gè)共享詞匯表,可以用來(lái)對(duì)一個(gè)領(lǐng)域建模,具
體包括那些存在的對(duì)象或概念的類(lèi)型、以及他們的屬性和關(guān)系[2]。一個(gè)簡(jiǎn)單的本
體示例發(fā)票概念及其相互關(guān)系所構(gòu)成的語(yǔ)義網(wǎng)絡(luò)如圖2所示:
郵電通訊業(yè)定額發(fā)票
發(fā)票f是
濟(jì)南市服務(wù)業(yè)機(jī)打發(fā)票
(卷式)\
所在城市所在城巾
濟(jì)南市
圖2簡(jiǎn)單本體(發(fā)票)示例
隨著時(shí)間的推移和技術(shù)的發(fā)展,本體從最開(kāi)始的人工智能領(lǐng)域逐漸擴(kuò)展到圖
書(shū)館學(xué)、情報(bào)學(xué)、軟件工程、信息架構(gòu)、生物醫(yī)學(xué)和信息學(xué)等越來(lái)越多的學(xué)科。
與哲學(xué)本體論類(lèi)似,本體(人工智能和計(jì)算機(jī)科學(xué))依賴(lài)某種類(lèi)別體系來(lái)表達(dá)實(shí)
體、概念、事件及其屬性和關(guān)系。本體的核心是知識(shí)共享和重用,通過(guò)減少特定
領(lǐng)域內(nèi)概念或術(shù)語(yǔ)上的分歧,使不同的用戶(hù)之間可以順暢的溝通和交流并保持語(yǔ)
義等效性,同時(shí)讓不同的工具軟件和應(yīng)用系統(tǒng)之間實(shí)現(xiàn)互操作。
根據(jù)研究層次可以將本體的種類(lèi)劃分為"頂級(jí)本體"(top-levelontology)、應(yīng)
用本體(applicationontology)>領(lǐng)域本體(domainontology)和任務(wù)本體(task
ontology),各個(gè)種類(lèi)之間的層次關(guān)系如圖3所示。
圖3本體層次關(guān)系
?頂級(jí)本體,也被稱(chēng)為上層本體(upperontology)或基礎(chǔ)本體(foundation
ontology),是指獨(dú)立于具體的問(wèn)題或領(lǐng)域,在所有領(lǐng)域都適用的共同對(duì)象
或概念所構(gòu)成的模型,主要用來(lái)描述高級(jí)別且通用的概念以及概念之間的
關(guān)系。
?領(lǐng)域本體是指對(duì)某個(gè)特定的領(lǐng)域建模,顯式的實(shí)現(xiàn)對(duì)領(lǐng)域的定義,確定該
領(lǐng)域內(nèi)共同認(rèn)可的詞匯、詞匯業(yè)務(wù)含義和對(duì)應(yīng)的信息資產(chǎn)等,提供對(duì)該領(lǐng)
域知識(shí)的共同理解。領(lǐng)域本體所表達(dá)的是適合自己領(lǐng)域的術(shù)語(yǔ)的特定含義,
缺乏兼容性,因而在其他領(lǐng)域往往不適用。在同一領(lǐng)域內(nèi),由于文化背景、
語(yǔ)言差異、受教育程度或意識(shí)形態(tài)的差異,也可能會(huì)出現(xiàn)不同的本體。很
多時(shí)候,隨著依賴(lài)領(lǐng)域本體系統(tǒng)的擴(kuò)展,需要將不同的領(lǐng)域本體合并為更
通用的規(guī)范說(shuō)明,對(duì)并非基于同一頂級(jí)本體所構(gòu)建的本體進(jìn)行合并是一項(xiàng)
非常具有挑戰(zhàn)的任務(wù),很多時(shí)候需要靠手工來(lái)完成,相反,對(duì)那些基于同
一頂級(jí)本體構(gòu)建的領(lǐng)域本體可以實(shí)現(xiàn)自動(dòng)化的合并。
?任務(wù)本體是針對(duì)任務(wù)元素及其之間關(guān)系的規(guī)范說(shuō)明或詳細(xì)說(shuō)明,用來(lái)解釋
任務(wù)存在的條件以及可以被用在哪些領(lǐng)域或環(huán)境中。是一個(gè)通用術(shù)語(yǔ)的集
合用來(lái)描述關(guān)于任務(wù)的定義和概念等。
?應(yīng)用本體:描述依賴(lài)于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系,是用于
特定應(yīng)用或用途的本體,其范疇可以通過(guò)可測(cè)試的用例來(lái)指定。
從詳細(xì)程度上來(lái)分,本體又可以分為參考本體(referenceontologies)和共享
本體(shareontologies),參考本體的詳細(xì)程度高,而共享本體的詳細(xì)程度低。
本體(哲學(xué))
哲學(xué)中的本體(ontology)也被稱(chēng)為存在論,源自哲學(xué)中"形而上學(xué)"分支,主
要探討存在的本質(zhì),也就是存在的存在。英文ontology實(shí)際上就是來(lái)源于希臘文
"ov"(存在)和"入6voq"(學(xué)科)的組合。本體是由早期希臘哲學(xué)在公元前6世紀(jì)
到公元前4世紀(jì)提出的“始基"延伸出來(lái)的。始基(Principle,又稱(chēng)本原)最早由
泰勒斯(米利都學(xué)派)最早提出來(lái),認(rèn)為萬(wàn)物由水而生,其學(xué)生阿那克西曼德認(rèn)
為萬(wàn)物由一種簡(jiǎn)單的原質(zhì)組成,該原質(zhì)不是水[3]。而畢達(dá)哥拉斯(學(xué)派)認(rèn)為"萬(wàn)
物都是數(shù)",數(shù)不僅被看作萬(wàn)物的本原,而且被看作萬(wàn)物的原型、世界的本體。
后來(lái)巴門(mén)尼德(愛(ài)利亞學(xué)派)提出了“存在"的概念,認(rèn)為存在才是唯一真正存在
的真理,其創(chuàng)造了一種形而上學(xué)論證方式,之后的哲學(xué)一直到近時(shí)期為止,都從
巴門(mén)尼德處接受了其"實(shí)體的不可毀滅性"。蘇格拉底繼承了巴門(mén)尼德的存在概念,
主張“真正的善”并完善了巴門(mén)尼德弟子芝諾的辯證法,其學(xué)生柏拉圖提出了"理
念論",認(rèn)為只要若干個(gè)個(gè)體擁有一個(gè)共同的名字,它們就有一個(gè)共同的理念或
形式。亞里士多德(柏拉圖學(xué)生)總結(jié)了先哲們的思想,完成了《形而上學(xué)》,
并將本體總結(jié)為:對(duì)世界上客觀存在事物的系統(tǒng)的描述,即存在論,也就是最形
而上學(xué)的知識(shí)。形而上學(xué)不是指孤立、靜止之類(lèi)的意思,而是指超越具體形態(tài)的
抽象意思,是關(guān)于物質(zhì)世界最普遍的、最一般的、最不具體的規(guī)律的學(xué)問(wèn)。
第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)
在明確了元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu),
即元數(shù)據(jù)集成體系結(jié)構(gòu)。各個(gè)企業(yè)的元數(shù)據(jù)管理策略和元數(shù)據(jù)管理成熟度差別較
大,因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多樣。大體上元數(shù)據(jù)集成體系結(jié)構(gòu)可以分為
點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于CWM
(CommonWarehouseMetaModel,公共倉(cāng)庫(kù)元模型)模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)
集成體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式
(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)等。
針對(duì)信息供應(yīng)鏈中不同的組件,為了實(shí)現(xiàn)跨組件的元數(shù)據(jù)交換和集成,最開(kāi)
始人們采用點(diǎn)對(duì)點(diǎn)的方式進(jìn)行,也就是每一對(duì)組件之間通過(guò)一個(gè)獨(dú)立的元數(shù)據(jù)橋
(metadatabridge)進(jìn)行元數(shù)據(jù)交換,橋一般是雙向的能夠理解兩個(gè)方向的元數(shù)
據(jù)映射⑷。點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)幫助用戶(hù)實(shí)現(xiàn)了跨企業(yè)的元數(shù)據(jù)集成
和元數(shù)據(jù)交換,對(duì)提升信息化水平提供了巨大幫助。這種體系結(jié)構(gòu)在應(yīng)用過(guò)程中,
也暴露了很多問(wèn)題,比如元數(shù)據(jù)橋的構(gòu)建工作量和耗時(shí)都非常大,對(duì)中間件廠(chǎng)商、
應(yīng)用廠(chǎng)商、集成商和用戶(hù)來(lái)說(shuō)都是一個(gè)巨大的挑戰(zhàn),而且構(gòu)建元數(shù)據(jù)橋還必須具
有所有者的元數(shù)據(jù)模型和接口的詳細(xì)信息。構(gòu)建完成的橋很多時(shí)候無(wú)法在構(gòu)建其
他元數(shù)據(jù)橋時(shí)進(jìn)行重用,因此開(kāi)發(fā)和維護(hù)費(fèi)用大幅度增加,用戶(hù)投資回報(bào)率(ROI)
不高。以動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)為例,其點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)具體如圖4所示,
信息供應(yīng)鏈各組件之間的空心箭頭表示全部的數(shù)據(jù)流,實(shí)心箭頭表示不同的元數(shù)
Bridges
圖4點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)
通過(guò)使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)(centralmetadatarepository)取代各個(gè)工具軟
件和應(yīng)用程序之間的點(diǎn)對(duì)點(diǎn)連接方式,改成中央元數(shù)據(jù)存儲(chǔ)庫(kù)與各個(gè)工具軟件和
應(yīng)用程序?qū)崿F(xiàn)元數(shù)據(jù)交換的訪(fǎng)問(wèn)層(也是一種橋),可以有效降低總成本,減少
建立點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)橋的工作,提高投資回報(bào)率。信息供應(yīng)鏈各組件可以從存儲(chǔ)庫(kù)
訪(fǎng)問(wèn)元數(shù)據(jù),不必與其他產(chǎn)品進(jìn)行點(diǎn)對(duì)點(diǎn)交互。這種使用中央元數(shù)據(jù)存儲(chǔ)庫(kù)方式
進(jìn)行元數(shù)據(jù)集成的方式就是中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)(hub-and-spoke
metadataarchitecture),具體如圖5所示。由于特定的元數(shù)據(jù)存儲(chǔ)庫(kù)是圍繞其自
身的元模型、接口和交付服務(wù)建立的,所以仍需要建立元數(shù)據(jù)橋?qū)崿F(xiàn)與ISC各組
件的互相訪(fǎng)問(wèn)。
采用模型驅(qū)動(dòng)的元數(shù)據(jù)集成方法(比如使用CWM)可以有效降低元數(shù)據(jù)集
成的成本和復(fù)雜度,無(wú)論點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)還是中央輻射式元數(shù)據(jù)集成
體系結(jié)構(gòu)都可以因此受益。在點(diǎn)對(duì)點(diǎn)體系結(jié)構(gòu)中,通過(guò)使用基于模型的方法可以
不必在每一對(duì)需要集成的產(chǎn)品之間構(gòu)建元數(shù)據(jù)橋,每個(gè)產(chǎn)品只需要提供一個(gè)適配
器(adapter)即可實(shí)現(xiàn)各個(gè)產(chǎn)品之間的元數(shù)據(jù)交換,適配器既了解公共的元模型
也了解本產(chǎn)品元模型的內(nèi)部實(shí)現(xiàn)。如圖6所示,基于CWM模型驅(qū)動(dòng)點(diǎn)對(duì)點(diǎn)元數(shù)
據(jù)集成體系結(jié)構(gòu)使用通用元模型,不再需要在各個(gè)產(chǎn)品間建立元數(shù)據(jù)橋,在各個(gè)
產(chǎn)品之間通過(guò)適配器實(shí)現(xiàn)了語(yǔ)義等價(jià)性。
圖6基于CWM模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)
如圖7所示,在基于模型驅(qū)動(dòng)(比如CWM)的中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)
中,中央存儲(chǔ)庫(kù)包含公共元模型和整個(gè)領(lǐng)域(domain)用到的該元模型的各個(gè)實(shí)
例(模型)、存儲(chǔ)庫(kù)自身元模型及其實(shí)例、理解元模型(公共元模型和自身元模
型)的適配器層,當(dāng)然存儲(chǔ)庫(kù)也可以直接實(shí)現(xiàn)公共元模型的某些內(nèi)部表示。
如圖8所示,這種體系架構(gòu)是基于CWM模型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成
體系結(jié)構(gòu)的一個(gè)變種,兩個(gè)中央輻射式的拓?fù)浣Y(jié)構(gòu)通過(guò)各自的元數(shù)據(jù)存儲(chǔ)庫(kù)連接
起來(lái),也被稱(chēng)為分布式(Distributed)或聯(lián)邦(Federated)體系結(jié)構(gòu)。兩個(gè)元數(shù)
據(jù)存儲(chǔ)庫(kù)之間通過(guò)元數(shù)據(jù)橋連接,兩個(gè)存儲(chǔ)庫(kù)使用相同的元模型和接口,也可以
使用不同的元模型和接口。建立分布式元數(shù)據(jù)集成體系結(jié)構(gòu)的原因有很多種,比
如企業(yè)基于多個(gè)區(qū)域單獨(dú)部署自己的應(yīng)用,每個(gè)區(qū)域有自己的數(shù)據(jù)中心。
CUM元數(shù)據(jù)交換(基于
乂、憶或標(biāo)準(zhǔn)“「1a用)
C\、M元數(shù)據(jù)交換(基于
XZL或標(biāo)準(zhǔn)API調(diào)用)
圖8分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)
如圖9所示,這種體系結(jié)構(gòu)是分布式體系結(jié)構(gòu)的變體,根存儲(chǔ)庫(kù)實(shí)現(xiàn)了元模
型的公共部分(橫跨整個(gè)企業(yè)),葉子存儲(chǔ)庫(kù)實(shí)現(xiàn)了一個(gè)或多個(gè)特定的公共元模
型子集,并只保存這些自己所對(duì)應(yīng)的元數(shù)據(jù)實(shí)例。特定客戶(hù)可以主要訪(fǎng)問(wèn)其感興
趣的元數(shù)據(jù)所在的葉子存儲(chǔ)庫(kù),也可以訪(fǎng)問(wèn)其它葉子存儲(chǔ)庫(kù)和根存儲(chǔ)庫(kù)。這種體
系結(jié)構(gòu)被稱(chēng)為層次或星型拓?fù)浣Y(jié)構(gòu)。
3使用總結(jié)
本文詳細(xì)介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流程參考模型,并闡述了該模
型的第一步"明確元數(shù)據(jù)管理策略"和第二步"元數(shù)據(jù)集成體系結(jié)構(gòu)"等內(nèi)容。在第
一步“明確元數(shù)據(jù)管理策略”中講述了元數(shù)據(jù)的基本概念以及本體在人工智能/
計(jì)算機(jī)科學(xué)和哲學(xué)中的含義。在第二步"元數(shù)據(jù)集成體系結(jié)構(gòu)"講述了元數(shù)據(jù)集成
體系結(jié)構(gòu)的六種示例,分別為:點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻射式元數(shù)
據(jù)體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于CWM模
型驅(qū)動(dòng)的中央存儲(chǔ)庫(kù)元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)
構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)。在本系列文章的下一部分將繼續(xù)介紹大數(shù)
據(jù)治理統(tǒng)一流程參考模型第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括元模型、元-
元模型、公共倉(cāng)庫(kù)元模型(CWM)、CWM發(fā)展史、OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)
(ModelDrivenArchitecture,MDA)。
第二部分:元數(shù)據(jù)集成體系結(jié)構(gòu)
在明確了元數(shù)據(jù)管理策略后需要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體系結(jié)構(gòu),
即元數(shù)據(jù)集成體系結(jié)構(gòu)。元數(shù)據(jù)集成體系結(jié)構(gòu)涉及到多個(gè)概念,如元模型、元-元
模型、公共倉(cāng)庫(kù)元模型(CWM)等,本部分將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考
模型第二步"元數(shù)據(jù)集成體系結(jié)構(gòu)"的相關(guān)內(nèi)容。
在本系列的第一篇文章中,我們主要介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流
程參考模型,并闡述了該模型的第一步"明確元數(shù)據(jù)管理策略"和第二步"元數(shù)據(jù)
集成體系結(jié)構(gòu)"的六種示例等內(nèi)容。大數(shù)據(jù)治理統(tǒng)一流程參考模型的第二步是"元
數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括元模型、元-元模型、公共倉(cāng)庫(kù)元模型(CWM)、
CWM發(fā)展史、OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)(ModelDrivenArchitecture,MDA)本
文將對(duì)元數(shù)據(jù)集成體系結(jié)構(gòu)包含的各種模型展開(kāi)敘述。
1大數(shù)據(jù)治理統(tǒng)一流程參考模型,第二步:元數(shù)據(jù)集成
體系結(jié)構(gòu)
元模型(Metamodel)
模型(Model)是用來(lái)描述特定的系統(tǒng)、過(guò)程、事物或概念的準(zhǔn)確而抽象的
表示。例如軟件架構(gòu)師可以用概要設(shè)計(jì)的形式建立一個(gè)應(yīng)用系統(tǒng)的模型。本質(zhì)上
來(lái)說(shuō),元數(shù)據(jù)是數(shù)據(jù)的形式化模型,是數(shù)據(jù)的抽象描述,該描述準(zhǔn)確地描述了數(shù)
據(jù)。元模型(Metamodel)也就是模型的模型(或者元-元數(shù)據(jù)),是用來(lái)描述元
數(shù)據(jù)的模型。
下面基于關(guān)系型表實(shí)體-關(guān)系(ER)模型舉例說(shuō)明什么是元模型。如圖1所
示,一個(gè)簡(jiǎn)單的關(guān)系型表元模型描述了如何定義一個(gè)關(guān)系型表,規(guī)定了每個(gè)表必
須有一個(gè)名字(字符串),一個(gè)表可以有1到多個(gè)列,每個(gè)列必須有一個(gè)名字(字
符串)和數(shù)據(jù)類(lèi)型(字符串):
圖1簡(jiǎn)單關(guān)系型表元模型
如果要?jiǎng)?chuàng)建一個(gè)關(guān)系型表模型,基于該表元模型創(chuàng)建一個(gè)實(shí)例即可,比如創(chuàng)
建一個(gè)常見(jiàn)的雇員表Employees表模型,具體如圖2所示,Employees表包含6
個(gè)列,分別是編號(hào)、姓、名字、部門(mén)編號(hào)、經(jīng)理編號(hào)和職位編號(hào)。
?Entity?
Employees
+ID:Integer
+First^name:String
+LasJname:String
+Depart_ID:Integer
+Manager_ID:Integer
+Job_ID:Integer
圖2Employees表實(shí)例
比如在DB2中創(chuàng)建employees表,可以很容易的從employees表模型中得到
相應(yīng)的DDL語(yǔ)句,執(zhí)行DDL語(yǔ)句時(shí)DB2會(huì)生成描述employees表的內(nèi)部元數(shù)據(jù)
并存儲(chǔ)在目錄(DB2內(nèi)部的元數(shù)據(jù)存儲(chǔ)庫(kù))中。
清單1在DB2中創(chuàng)建employees表示例
Createtableemployees(
Idintegernotnull,
First_nameStringnotnull,
Last_nameStringnotnull,
Depart_IDIntegernotnull,
Manager_IDIntegernotnull,
Job_IDIntegernotnull
)
同樣基于圖1簡(jiǎn)單關(guān)系型表元模型創(chuàng)建另一個(gè)實(shí)例department表模型。
depa代merit表包含2個(gè)列,分別是編號(hào)和部門(mén)名稱(chēng),具體如圖3所示。由于
depalment表模型和employees表模型都是基于相同的公共元模型,其它工具和
應(yīng)用程序軟件(了解關(guān)系型表的公共元模型)可以很容易理解department表和
employees表,因?yàn)樗鼈兌际峭粋€(gè)元模型的實(shí)例。其它工具或應(yīng)用程序通過(guò)調(diào)
用導(dǎo)入映射(importmapping)將該department表模型或employees表模型翻譯
成自己內(nèi)部的元數(shù)據(jù)實(shí)例。同樣,也可以將該軟件內(nèi)部元數(shù)據(jù)翻譯成一個(gè)與平臺(tái)
無(wú)關(guān)的形式化模型,也就是導(dǎo)出映射(exportmapping),以便其他軟件使用其專(zhuān)
有的元數(shù)據(jù)。這種基于公共元模型的集成方法就是模型驅(qū)動(dòng)的元數(shù)據(jù)集成體系結(jié)
構(gòu)⑴。
?Entity?
Department
+ID:Integer
+name:String
圖3department表實(shí)例
元-元模型(Meta-metamodel)
元-元模型就是元模型的模型,有時(shí)也被稱(chēng)為本體(ontology),是模型驅(qū)動(dòng)
的元數(shù)據(jù)集成體系結(jié)構(gòu)的基礎(chǔ),其定義了描述元模型的語(yǔ)言,規(guī)定元模型必須依
照一定的形式化規(guī)則來(lái)建立,以便所有的軟件工具都能夠?qū)ζ溥M(jìn)行理解。
元-元模型比元模型具有更高的抽象級(jí)別,一個(gè)元模型是一個(gè)元-元模型的實(shí)
例,元模型比元-元模型更加精細(xì),而元-元模型比元模型更加抽象。元數(shù)據(jù)(模
型)則是一個(gè)元模型的實(shí)例,遵守元模型的規(guī)定和約束。用戶(hù)對(duì)象(或用戶(hù)數(shù)據(jù))
則是元數(shù)據(jù)(或者稱(chēng)為模型)的實(shí)例。元數(shù)據(jù)層次結(jié)構(gòu)具體如表1所示,共分為
4層,最高層L3是元-元模型,之下是L2元模型和L1模型/元數(shù)據(jù),最底層是L0
用戶(hù)對(duì)象/用戶(hù)數(shù)據(jù):
表1元數(shù)據(jù)層次結(jié)構(gòu)
元層次名稱(chēng)示例
L3元-元模型元類(lèi)、元屬性、元操作
L2元模型類(lèi)、屬性、操作、構(gòu)件
L1模型/元數(shù)據(jù)實(shí)體-關(guān)系(ER)圖
交易數(shù)據(jù)、ODS數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)
L0用戶(hù)對(duì)象/用戶(hù)數(shù)據(jù)數(shù)據(jù)、數(shù)據(jù)集市數(shù)據(jù)、數(shù)據(jù)中心
數(shù)據(jù)等
公共倉(cāng)庫(kù)元模型(CWM)概述
公共倉(cāng)庫(kù)元模型(CommonWarehouseMetaModel,CWM)是被對(duì)象管理組
織。MG(ObjectManagementGroup)采納的數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析領(lǐng)域元數(shù)據(jù)交
換開(kāi)放式行業(yè)標(biāo)準(zhǔn),在數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析領(lǐng)域?yàn)樵獢?shù)據(jù)定義公共的元模型和基
于XML的元數(shù)據(jù)交換(XMI)oCWM作為一個(gè)標(biāo)準(zhǔn)的接口,可以幫助分布式、異
構(gòu)環(huán)境中的數(shù)據(jù)倉(cāng)庫(kù)工具,數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)和數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)存儲(chǔ)庫(kù)之間輕松實(shí)現(xiàn)
數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析元數(shù)據(jù)交換。CWM提供一個(gè)框架為數(shù)據(jù)源、數(shù)據(jù)目標(biāo)、轉(zhuǎn)
換、分析、流程和操作等創(chuàng)建和管理元數(shù)據(jù),并提供元數(shù)據(jù)使用的世系信息⑵。
CWM是一個(gè)基于模型驅(qū)動(dòng)方法的完整地描述數(shù)據(jù)倉(cāng)庫(kù)和業(yè)務(wù)分析領(lǐng)域的元
模型,提供構(gòu)建元數(shù)據(jù)所需的語(yǔ)法和語(yǔ)義,由若干個(gè)不相同又緊密相關(guān)的子元模
型組成。CWM模型的目的是最大限度的重用對(duì)象模型(ObjectModel,UML的一
個(gè)子集),并在可能的地方共享通用模型結(jié)構(gòu)。如圖4所示,CWM元模型使用包
(package)和層次來(lái)簡(jiǎn)化管理的復(fù)雜度并便于理解,共包含21個(gè)單獨(dú)的包,這
些包被分為5個(gè)層次。對(duì)象模型層包含定義基本元模型的概念、關(guān)系和約束的
包,其它CWM包都需要用到這些定義,對(duì)象模型層的包構(gòu)成了其它CWM包所
需要的基本元模型服務(wù)的全部集合。對(duì)象模型層主要包括核心包(Corepackage)、
行為包(Behavioralpackage),關(guān)系包(Relationshipspackage)和實(shí)例包(Instance
package)o
?數(shù)據(jù)源層(DataResources):主要描述CWM元數(shù)據(jù)交換中既可作為源又可
以作為目標(biāo)的數(shù)據(jù)源的結(jié)構(gòu),本層含有的元模型主要描述面向?qū)ο蟮臄?shù)據(jù)庫(kù)
和應(yīng)用、關(guān)系型數(shù)據(jù)庫(kù)、面向記錄的數(shù)據(jù)源(如文件、記錄數(shù)據(jù)庫(kù)管理系統(tǒng)
等)、多維數(shù)據(jù)庫(kù)和XML數(shù)據(jù)源等。對(duì)于面向?qū)ο髷?shù)據(jù)源,CWM一般情況下
重用基本的對(duì)象模型(位于對(duì)象模型層),如果該數(shù)據(jù)源具有對(duì)象模型層無(wú)法
處理的一些特征和功能時(shí),可以通過(guò)定義一個(gè)擴(kuò)展包來(lái)解決。
?數(shù)據(jù)分析層(DataAnalysis):本層含有的元模型主要描述數(shù)據(jù)轉(zhuǎn)換、在線(xiàn)分
析處理OLAP、數(shù)據(jù)挖掘、信息可視化和業(yè)務(wù)術(shù)語(yǔ)等。
?倉(cāng)庫(kù)管理層(WarehouseManagement):本層含有的元模型主要描述數(shù)據(jù)倉(cāng)
庫(kù)處理和數(shù)據(jù)倉(cāng)庫(kù)操作。
ManagementWarehouseProcessWarehouseOperation
DataInformationBusiness
AnalysisTransformationOLAP
MiningVisualizationNomenclature
ResourceObjectModelRelationalRecordMultidimensionalXML
Keys
BusinessTypeSoftware
FoundationDataTypesExpressionand
InformationMappingDeployment
Indexes
ObjectModel
圖4CWM1.1元模型
CWM1.1是在2003年3月發(fā)布的,與之相關(guān)的0MG組織規(guī)范還有MOF、
UML和XMI。CWM使用統(tǒng)一建模語(yǔ)言(UML)定義公共元數(shù)據(jù)的模型(CWM元
模型),使用可擴(kuò)展標(biāo)記語(yǔ)言(XML)生成CWM元數(shù)據(jù)交換規(guī)范(也就是XML元
數(shù)據(jù)交換,XMI),使用CORBA接口定義語(yǔ)言(IDL)為訪(fǎng)問(wèn)CWM元數(shù)據(jù)生成編
程語(yǔ)言API的規(guī)范(依賴(lài)MOF到IDL的映射)。
UML是一種規(guī)范化、可視化、描述明確、結(jié)構(gòu)化和文檔化的定義分布式對(duì)象
系統(tǒng)的圖形化語(yǔ)言。1996年,業(yè)內(nèi)三種最杰出的面向?qū)ο蠼UZ(yǔ)言:GradyBooch
的Booch方法、IvarJacobson的面向?qū)ο筌浖こ蹋∣OSE)和JimRumbaugh的
對(duì)象建模技術(shù)(OMT)被統(tǒng)一起來(lái)發(fā)布,也就是UML0.9。2011年,UML2.4.1發(fā)
布。CWM依賴(lài)于UML規(guī)范的前三個(gè)部分,即UML語(yǔ)義、UML符號(hào)向?qū)Ш蛯?duì)象
約束語(yǔ)言規(guī)范。UML語(yǔ)義定義UML元模型的語(yǔ)義,UML元模型是層次結(jié)構(gòu)并以
包為單位進(jìn)行組織,每個(gè)包按照抽象語(yǔ)言(使用類(lèi)圖)、結(jié)構(gòu)良好規(guī)則(采用OCL)
和語(yǔ)義(采用英語(yǔ))來(lái)定義。UML符號(hào)指定表達(dá)UML元模型語(yǔ)義的圖形語(yǔ)法(例
如類(lèi)圖)。對(duì)象約束語(yǔ)言規(guī)范定義對(duì)象約束語(yǔ)言(OCL)的句法、語(yǔ)義和語(yǔ)法,OCL
是一種表述約束的形式化語(yǔ)言[3]。
?構(gòu)造塊和結(jié)構(gòu)良好規(guī)則:UML提供了組成構(gòu)造塊和結(jié)構(gòu)良好規(guī)則的面向?qū)ο蠼?/p>
模語(yǔ)言,基本的構(gòu)造塊包括模型元素(如類(lèi)、對(duì)象、接口、組件、用例等)、
關(guān)系(如關(guān)聯(lián)、泛化、依賴(lài)等)和圖(如類(lèi)圖、對(duì)象圖、用例圖等)等。
?UML可以為一個(gè)系統(tǒng)進(jìn)行不同方面的建模,比如結(jié)構(gòu)建模(又包括使用類(lèi)圖和
對(duì)象圖的靜態(tài)結(jié)構(gòu)建模、使用組件圖和部署圖實(shí)現(xiàn)建模)、用例建模和行為建
模等。元數(shù)據(jù)建模只需要靜態(tài)結(jié)構(gòu)建模,靜態(tài)結(jié)構(gòu)的核心元素是類(lèi)、對(duì)象、屬
性和操作。
?UML用包來(lái)將模型元素組織成語(yǔ)義上相關(guān)聯(lián)的分組,每個(gè)包擁有其自己的模型
元素,每個(gè)模型元素不能同時(shí)被多個(gè)包擁有。
UML在CWM中主要作為三種角色出現(xiàn)[4]:
1、UML作為和MOF等價(jià)的元-元模型。UML,或者部分對(duì)應(yīng)MOF模型、UML
符號(hào)和OCL的UML分別被用作建模語(yǔ)言、圖形符號(hào)和約束語(yǔ)言,用來(lái)定義和表
示CWMo
2、UML作為基礎(chǔ)元模型。對(duì)象模型層(ObjectModel)與UML關(guān)系密切,
是UML的一個(gè)子集。
3、UML用來(lái)作為面向?qū)ο笤P汀?/p>
元對(duì)象框架(MetaObjectFramework,MOF,本文以2.4.1版本為例)是一
個(gè)以獨(dú)立于平臺(tái)的方式定義、操作、集成元數(shù)據(jù)和數(shù)據(jù)的、可擴(kuò)展、模型驅(qū)動(dòng)的
分布式對(duì)象集成框架。此框架支持各種類(lèi)型的元數(shù)據(jù),還可以根據(jù)需求添加新類(lèi)
型的元數(shù)據(jù)。MOF包括MOF模型(定義建立元模型的建模元素和使用規(guī)則)、
MOF反射接口(允許程序在不使用元模型指定接口時(shí)對(duì)元數(shù)據(jù)進(jìn)行各種操作)
和MOF到IDL的映射(定義MOF模型定義的元模型到CORBAIDL之間的標(biāo)準(zhǔn)映
射)。MOF模型是以UML的概念和結(jié)構(gòu)為基礎(chǔ),尤其是以UML的靜態(tài)結(jié)構(gòu)模型
和模型管理為基礎(chǔ)。MOF模型沒(méi)有定義自己的圖形符號(hào)和約束語(yǔ)言,而是采用
UML的圖形符號(hào)和OCL來(lái)實(shí)現(xiàn)。MOF模型也是層次結(jié)構(gòu),并以包為單位進(jìn)行組
織。
MOF支持各種類(lèi)型的元數(shù)據(jù),采用四層元數(shù)據(jù)體系結(jié)構(gòu)(也就是OMG元數(shù)
據(jù)體系結(jié)構(gòu))[5],具體如表2所示,該體系架構(gòu)將元數(shù)據(jù)(Ml)視同為數(shù)據(jù)(M0),
并對(duì)之進(jìn)行形式化建模(即元模型,M2)o元模型(M2)使用元-元模型(M3)
所提供的元建模結(jié)構(gòu)來(lái)表示。表2表明MOF模型(元-元模型)、UML元模型、
用戶(hù)模型和用戶(hù)對(duì)象/數(shù)據(jù)之間的關(guān)系。
表2MOF四層元數(shù)據(jù)體系結(jié)構(gòu)
描述示例
MOF-i.e.thesetofconstructsMOFClass,MOFAttribute,MOF
M3
usedtodefinemetamodelsAssociationzetc.
UMLClass,UMLAssociationzUML
Metamodels,consistingofAttribute,UMLState,UML
M2
instancesofMOFconstructs.Activity,etc.CWMTable,CWM
Column,etc.
Models,consistingofinstancesClass〃Customer〃,Class"Account〃
M1
ofM2metamodelconstructs.Table"Employee〃,Table〃Vendor”,etc.
CustomerJaneSmith,CustomerJoe
Objectsanddataj.e.instancesJones,Account
M0
ofMlmodelconstructs2989,Account2344,Employee
A3949,Vendor78988,etc.
XML元數(shù)據(jù)交換(XMI)是在工具軟件、應(yīng)用程序之間進(jìn)行元數(shù)據(jù)交換的XML
語(yǔ)言,整合了UML、MOF和XML三種技術(shù),允許MOF元數(shù)據(jù)(即遵從MOF或
基于MOF的元模型的元數(shù)據(jù))以流或文件的形式按照XML的標(biāo)準(zhǔn)格式進(jìn)行交換。
XMI是OMG在元數(shù)據(jù)交換方面的標(biāo)準(zhǔn)之一,同時(shí)也是W3C認(rèn)可的標(biāo)準(zhǔn)。本質(zhì)
上,XMI是W3C的XML和MOF之間,以及XML文檔和MOF元數(shù)據(jù)之間的一對(duì)
平行映射。2011年8月,XML發(fā)布了2.4.1。
CWM發(fā)展史
其實(shí)早在上世紀(jì)80年代末90年代初,很多企業(yè)就嘗試使用一種元模型實(shí)
現(xiàn)元數(shù)據(jù)集成以整合分布于各個(gè)業(yè)務(wù)豎井中的元數(shù)據(jù),但最終失敗了,因?yàn)楹芏?/p>
的利益相關(guān)者各自擁有不同的觀點(diǎn),且需要不同的模型結(jié)構(gòu)。1997年,OMG將
UML采納為標(biāo)準(zhǔn),為CWM標(biāo)準(zhǔn)制定打下了第一個(gè)基礎(chǔ)。同樣在1997年,MOF
被OMG采納為標(biāo)準(zhǔn),為CWM的產(chǎn)生打下了第二個(gè)基礎(chǔ)。1999年初,OMG采納
XMI作為標(biāo)準(zhǔn),為CWM的出現(xiàn)打下了第三個(gè)基礎(chǔ)。1998年5月,XXX、ORACLE
和Unisys向OMG提交了公共倉(cāng)庫(kù)元數(shù)據(jù)交換(CommonWarehouseMetadata
Interchange,CWMI)征求意見(jiàn)稿(RFP),同年9月OMG發(fā)布了該征求意見(jiàn)稿,
經(jīng)過(guò)8個(gè)公司(XXX、Unisys、Oracle、Hyperion>UBS、NCR、Genesis和Dimension
EDI)2年半的努力和協(xié)作,OMG于2001年4月正式采納CWM為標(biāo)準(zhǔn)。
在CWM發(fā)展的同時(shí),其他一些元數(shù)據(jù)標(biāo)準(zhǔn)的制定也在進(jìn)行中。最早在1993
年,電子信息組織就發(fā)布了計(jì)算機(jī)輔助工程數(shù)據(jù)交換格式(CASEDataInterchange
Format,CDIF)并得到了一定的認(rèn)可。1995年10月,元數(shù)據(jù)聯(lián)盟(MetaData
Coalition,MDC)成立,并與1996年4月發(fā)布了元數(shù)據(jù)交換規(guī)范1.0(MetaData
InterchangeSpecification,MDIS),與CWM相比,MDIS涉及的范疇少很多,且其
規(guī)范和交換語(yǔ)言都是自身獨(dú)有的。此時(shí)微軟也在和其他一些合作者一起開(kāi)發(fā)開(kāi)放
信息模型(OpenInformationModel,0IM),該模型于1996年10月成形,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 能源資源開(kāi)發(fā)與利用作業(yè)指導(dǎo)書(shū)
- 醫(yī)院建設(shè)項(xiàng)目可行性研究
- 公共建筑節(jié)能(綠色建筑)設(shè)計(jì)標(biāo)準(zhǔn)
- 醫(yī)療器械居間銷(xiāo)售提成保證
- 4S店裝修環(huán)保保證金協(xié)議
- 高鐵經(jīng)濟(jì)圈用地購(gòu)置居間
- 信息化項(xiàng)目可行性研究報(bào)告編制規(guī)范
- 2025年度保健食品個(gè)性化定制配送與市場(chǎng)推廣服務(wù)合同
- 農(nóng)民合作社志愿者招募手冊(cè)
- 低空經(jīng)濟(jì)未來(lái)產(chǎn)業(yè)
- 【課件】人居與環(huán)境-詩(shī)意的棲居+課件高中美術(shù)人美版(2019)+必修+美術(shù)鑒賞
- LED基礎(chǔ)知識(shí)題庫(kù)100道及答案(完整版)
- 抖音本地生活商家直播培訓(xùn)
- 新版高中物理必做實(shí)驗(yàn)?zāi)夸浖捌鞑?(電子版)
- 涉密項(xiàng)目保密工作方案
- 危險(xiǎn)貨物道路運(yùn)輸規(guī)則第7部分:運(yùn)輸條件及作業(yè)要求(JTT617.7-2018)
- 思政課課題國(guó)內(nèi)外研究現(xiàn)狀
- 泌尿外科管道護(hù)理規(guī)范
- 第二課+讓美德照亮幸福人生(課時(shí)2)(課件)-【中職專(zhuān)用】中職思想政治《職業(yè)道德與法治》高效課堂課件+教案(高教版2023·基礎(chǔ)模塊)
- 中國(guó)移動(dòng)賦能?chē)?guó)有企業(yè)數(shù)字化轉(zhuǎn)型白皮書(shū)
- 《河道管理范圍內(nèi)建設(shè)項(xiàng)目防洪評(píng)價(jià)技術(shù)規(guī)程》
評(píng)論
0/150
提交評(píng)論